郭坤 丁有偉
摘? 要: 醫(yī)療信息化背景下,依托大數(shù)據(jù)的智慧醫(yī)療成為研究熱點(diǎn),而電子病歷檢索作為中醫(yī)數(shù)據(jù)處理的基礎(chǔ)操作,其性能直接影響到上層統(tǒng)計(jì)分析和挖掘應(yīng)用的性能。目前中醫(yī)電子病歷采集和存儲(chǔ)尚未形成統(tǒng)一標(biāo)準(zhǔn),存在大量非結(jié)構(gòu)化數(shù)據(jù),基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的檢索方式已不再適用。文章提出一種基于依存關(guān)系和倒排索引的中醫(yī)電子病歷高效檢索方法,通過(guò)挖掘關(guān)鍵詞之間的依存關(guān)系,使用二元組表示,并為二元組建立倒排索引以提高檢索效率。該方法根據(jù)關(guān)鍵詞之間的依存關(guān)系重構(gòu)原文,創(chuàng)建倒排索引提高檢索性能,保證海量數(shù)據(jù)的高效訪問。
關(guān)鍵詞: 中醫(yī)電子病歷; 依存關(guān)系; 倒排索引; 結(jié)果重構(gòu)
中圖分類號(hào):TP391.1? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2020)12-56-04
Abstract: In the medical informatization, intelligent medical treatment relying on big data has become a research hotspot, and electronic medical record retrieval, as the basic operation of TCM data processing, directly affects the performance of upper statistical analysis and application. At present, the collection and storage of traditional Chinese medicine electronic medical records has not formed a unified standard. There are a lot of unstructured data, and the retrieval methods for traditional relational database are no longer suitable. This paper proposes an efficient retrieval method of TCM electronic medical records based on dependency relationship and inverted index. By mining the dependency relationship between keywords, using binary group to express, and building inverted index for the binary group to improve the retrieval efficiency. This method reconstructs the original text according to the interdependence of keywords, creates inverted index to improve the retrieval performance, which ensures the efficient access of mass data.
Key words: electronic medical records of Chinese medicine; dependency relationship; inverted index; result reconstruction
0 引言
隨著醫(yī)療信息化的不斷推進(jìn),臨床信息系統(tǒng)建設(shè)逐步完善。直到2014年,醫(yī)院臨床醫(yī)療管理信息化(CIS)系統(tǒng)在醫(yī)療信息化解決方案中占比44.4%,預(yù)計(jì)在2021年超過(guò)醫(yī)院管理信息化(HIS)的規(guī)模[1]。在人工智能,大數(shù)據(jù)應(yīng)用增加的背景下,中醫(yī)電子病歷已成為各類輔助系統(tǒng)和智能應(yīng)用的數(shù)據(jù)支撐[2],但如何高效利用臨床診療信息對(duì)數(shù)據(jù)擁有者和應(yīng)用開發(fā)者而言均是巨大的挑戰(zhàn)。
現(xiàn)有對(duì)電子病歷中非結(jié)構(gòu)化數(shù)據(jù)的檢索方法主要分為兩類:基于查詢重構(gòu)的方法和基于本體的方法。查詢重構(gòu)主要有兩種形式,一是關(guān)鍵詞拓展[3],即依托外部醫(yī)療知識(shí)為原檢索擴(kuò)展關(guān)鍵字,如UMLS、ICD-9編碼等。此類方法在實(shí)際應(yīng)用中效果不明顯,且容易發(fā)生查詢漂移的問題;二是關(guān)鍵詞權(quán)重調(diào)整[4],即在原查詢的基礎(chǔ)上,分析關(guān)鍵字在文檔中的貢獻(xiàn)度,查詢重構(gòu)本質(zhì)上是一種基于關(guān)鍵字的方法。而僅僅依賴關(guān)鍵詞作為檢索的標(biāo)準(zhǔn)則存在明顯的弊端。有研究認(rèn)為,關(guān)鍵字之間語(yǔ)法關(guān)系的缺失是造成文本匹配不準(zhǔn)確的重要原因[5]。許多不相關(guān)的文檔之間可能存在相同的關(guān)鍵字[6]。
基于本體的檢索方法通過(guò)定義專業(yè)詞匯和專業(yè)術(shù)語(yǔ),深層次地理解檢索對(duì)象。該方法在電子病歷檢索領(lǐng)域得到廣泛應(yīng)用。曾紅武等人[7]提出一種運(yùn)用模糊向量空間模型的概念,挖掘分析海量電子病歷,建立本體知識(shí)庫(kù),能夠高效識(shí)別病歷中疾病的診療模式和依據(jù)。鞏沐歌等人[8]結(jié)合高血壓診斷知識(shí)與本體庫(kù),構(gòu)造了高可用的高血壓電子病歷庫(kù)。但此類方法需要建造健全的本體庫(kù),這使得檢索的效果很大程度上依賴本體庫(kù)的質(zhì)量。
本文提出一種基于依存關(guān)系和倒排索引的中醫(yī)電子病歷檢索方法,提煉關(guān)鍵詞之間的依存關(guān)系,使用依存關(guān)系重構(gòu)原文,并在此基礎(chǔ)上創(chuàng)建倒排索引。該方法兼顧檢索結(jié)果的準(zhǔn)確性和數(shù)據(jù)存儲(chǔ)的高效性。
1 基于依存關(guān)系的中醫(yī)電子病歷核心語(yǔ)義提取
依存語(yǔ)法分析的目的是發(fā)掘復(fù)雜文本中關(guān)鍵詞之間的依存關(guān)系。本方法采用了注意力機(jī)和多層感知機(jī)作為實(shí)體關(guān)系的提取模型。模型包含輸入層,抽象層和輸出層。輸入層完成特征編碼,抽象層產(chǎn)生依存關(guān)系矩陣,輸出層解析依存關(guān)系矩陣得到依存關(guān)系向量。
1.1 輸入層
輸入層接受三種特征輸入,分別為詞嵌入,詞性和詞類。詞嵌入使用Word2Vec算法,設(shè)每個(gè)詞語(yǔ)256維;詞性和詞類使用人工標(biāo)注的方法,針對(duì)兒童哮喘病歷數(shù)據(jù),共使用7種詞性,5種詞類,如表1所示。
1.2 抽象層
抽象層由注意力機(jī)制和多層感知器組成,對(duì)模型輸入進(jìn)行深度抽象,最終得到依存矩陣。設(shè)存在句子[Sentence=word0,word1,word2,…,wordn],抽象層輸出依存矩陣[D=λ0,0…λ0,n???λn,0…λn,n],其中wordn表示句中第n個(gè)詞,[λx,y]表示[wordx]與[wordy]的依存值。
對(duì)于中醫(yī)病歷中非結(jié)構(gòu)化數(shù)據(jù),具有依存關(guān)系的關(guān)鍵詞并沒有固定的排列規(guī)則,這主要體現(xiàn)在兩個(gè)方面:①關(guān)鍵詞之間的語(yǔ)序不固定,即關(guān)鍵詞之間沒有嚴(yán)格的前后關(guān)系,這主要是由不同的書寫,記錄習(xí)慣導(dǎo)致;②關(guān)鍵詞之間的詞距不固定,尤其當(dāng)出現(xiàn)嵌套關(guān)系時(shí),相關(guān)聯(lián)的詞對(duì)可能距離較遠(yuǎn)。而注意力機(jī)制本身對(duì)位置信息不敏感,能很好地提取全局特征。
注意力機(jī)制本質(zhì)上可表示為一個(gè)查詢與一系列鍵值對(duì)的映射關(guān)系。
設(shè)A為注意力函數(shù),S為相似度函數(shù),存在一個(gè)查詢(query)和L組鍵值對(duì)(key, value),Source表示鍵值隊(duì)集合,i表示鍵值對(duì)的序號(hào),則注意力計(jì)算公式如下:
1.3 輸出層
輸出層解析依存矩陣得到依存向量。根據(jù)依存句法分析公理[9],在一個(gè)完整的語(yǔ)句中,任何一個(gè)詞語(yǔ)都不能依存于2個(gè)或2個(gè)以上的其他詞語(yǔ),進(jìn)而在依存向量中每一個(gè)值可以表示為依存對(duì)象在句中的索引。
輸出層主要采用Esiner算法[10],Esiner算法在每一個(gè)間隔[s,t]計(jì)算最佳結(jié)果。s表示左界的索引t法表示右界的索引且s和t中至少有一個(gè)是頭節(jié)點(diǎn)。
該算法以哈希表為基本數(shù)據(jù)結(jié)構(gòu),以間隔[s,t]為鍵,數(shù)值分為兩類,即L(頭節(jié)點(diǎn)在s處)和R(頭節(jié)點(diǎn)在t處)。實(shí)際計(jì)算中考慮四種情況,如表2所示。
1.4 依存向量轉(zhuǎn)子查詢
依據(jù)依存向量將原始語(yǔ)句分解成多個(gè)子查詢,子查詢記錄成二元組的形式。首部為核心詞,尾部為依存詞。設(shè)對(duì)于句子[e0,e1,e2,e3]有依存向量[-1,0,-1,2T],則可以拆分為子查詢集[e0,e1,e2,e3]。表3所示依存向量轉(zhuǎn)子查詢的實(shí)例,該文本包含18個(gè)關(guān)鍵詞,其依存矩陣為D18x18,解析后得到維度為18的依存向量。
在眾多子查詢中,并非每一個(gè)都需要作為檢索特征,過(guò)多地引入非關(guān)鍵子查詢反而會(huì)降低查詢地精度。找出關(guān)鍵子查詢可以大大優(yōu)化檢索效率和準(zhǔn)確度[11]。本文篩選出有效的子查詢,例如藥劑與服用量,病癥與患病程度。
2 基于倒排的索引創(chuàng)建
正排索引為整個(gè)文檔創(chuàng)建索引,并記錄下文檔中詞語(yǔ)的詞性、詞頻等信息。該方法優(yōu)點(diǎn)在于創(chuàng)建簡(jiǎn)單,易于后期維護(hù);缺點(diǎn)表現(xiàn)為,查詢時(shí)需要依次掃描所有文檔,效率低下。倒排索引為文檔中每一個(gè)關(guān)鍵字創(chuàng)建索引。這種方法雖然創(chuàng)建維護(hù)比較復(fù)雜,但在處理海量數(shù)據(jù)時(shí)優(yōu)于正排索引。本文以子查詢?yōu)榛締卧?,?gòu)建倒排索引。根據(jù)電子病歷的需求和數(shù)據(jù)的結(jié)構(gòu)特點(diǎn),設(shè)計(jì)倒排索引的數(shù)據(jù)結(jié)構(gòu)如表4所示。
3 實(shí)驗(yàn)分析
實(shí)驗(yàn)數(shù)據(jù)為某名老中醫(yī)診治兒童哮喘的3000份病歷,每次迭代包含4條數(shù)據(jù),總共訓(xùn)練10個(gè)epoch。
4 結(jié)論
針對(duì)目前中醫(yī)電子病歷中非結(jié)構(gòu)化數(shù)據(jù)檢索效率低的問題,本文引入依存關(guān)系分析,在此基礎(chǔ)上,篩選有效子查詢并創(chuàng)建倒排索引,最大程度還原語(yǔ)義的同時(shí)提高檢索效率。
實(shí)驗(yàn)表明,本文提出的基于注意力機(jī)制的依存關(guān)系挖掘網(wǎng)絡(luò)較傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在收斂速度和準(zhǔn)確率上都有提升,對(duì)依存關(guān)系進(jìn)行規(guī)約并創(chuàng)建倒排索引的檢索方式在數(shù)據(jù)容量以及檢索速度方面優(yōu)于傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)。本研究成果具有重要的理論研究意義和實(shí)際應(yīng)用價(jià)值,該方法可廣泛應(yīng)用于醫(yī)院信息系統(tǒng)及中醫(yī)藥大數(shù)據(jù)中心與云平臺(tái)領(lǐng)域。
參考文獻(xiàn)(References):
[1] 王群.我國(guó)醫(yī)療信息化現(xiàn)狀與趨勢(shì)分析研究[C]. SingaporeManagement and Sports Science Institute, Singapore、Information Technology Application Research Association, Hong Kong.Proceedings of 2017 2nd International Conference on Education Research and Reform (ERR 2017) V20.Singapore Management and Sports Science Institute, Singapore、Information Technology Application Research Association,Hong Kong:智能信息技術(shù)應(yīng)用學(xué)會(huì),2017:268-272
[2] 孟巖,羅德芳.基于臨床知識(shí)庫(kù)的電子病歷智能化應(yīng)用研究[J].中國(guó)衛(wèi)生信息管理雜志,2019.16(5):601-604
[3] Gao J,Xu G,Xu J.Query expansion using path-constrainedrandom walks[C] //Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval,ACM,2013:563-572
[4] Chang YC, Chen SM. A new query reweighting methodfor document retrieval based on genetic algorithms[J].IEEE Transactions on Evolutionary Computation,2006.10(5):617-622
[5] Cui H, Sun R, Li K, et al. Question answering passageretrieval using dependency relations[C]//International Acm Sigir Conference on Research & Development in Information Retrieval. ACM,2005:400-407
[6] 付鵬斌,陳帥帥,楊惠榮,李建君.結(jié)合依存關(guān)系與同義詞詞林的相似度計(jì)算[J/OL].計(jì)算機(jī)技術(shù)與發(fā)展,2020.1:1-8[2020-01-31].http://kns.cnki.net/kcms/detail/61.1450.TP.20190925.1523.042.html.
[7] 曾紅武,彭麗.基于本體的電子病歷后結(jié)構(gòu)化模型關(guān)鍵技術(shù)[J].中華醫(yī)學(xué)圖書情報(bào)雜志,2017.26(8):13-16
[8] 鞏沐歌. 基于本體的高血壓電子病歷知識(shí)庫(kù)研究[D].西安電子科技大學(xué),2010.
[9] Yaghoobzadeh Y, Schütze, Hinrich. Multi-level Repre-sentations for Fine-Grained Typing of Knowledge Base Entities[J]. 2017
[10] Eisner, Jason. Three New Probabilistic Models forDependency Parsing: An Exploration[J]. Computer Science,1997:340-345
[11] Kumaran G , Carvalho V R . Reducing Long QueriesUsing Query Quality Predictors[C]// Proceedings of the 32nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR 2009, Boston, MA, USA, July 19-23, 2009. ACM,2009.