侯夢(mèng)薇 衛(wèi) 榮 陸 亮 蘭 欣 蔡宏偉
(西安交通大學(xué)第一附屬醫(yī)院網(wǎng)絡(luò)信息部 西安 710061)
隨著信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的持續(xù)發(fā)展和不斷變革,人類先后經(jīng)歷了以文檔互聯(lián)為主要特征的“Web 1.0”時(shí)代與數(shù)據(jù)互聯(lián)為特征的“Web 2.0”時(shí)代,正在邁向基于知識(shí)互聯(lián)的嶄新“Web 3.0”時(shí)代[1].知識(shí)互聯(lián)的目的是構(gòu)建一個(gè)人與機(jī)器都能夠理解的萬(wàn)維網(wǎng),使網(wǎng)絡(luò)更加智能化.然而,由于萬(wàn)維網(wǎng)上的內(nèi)容多源異質(zhì)、組織結(jié)構(gòu)松散,給大數(shù)據(jù)環(huán)境下的知識(shí)互聯(lián)帶來(lái)了極大的挑戰(zhàn)[2].因此,人們需要依據(jù)大數(shù)據(jù)環(huán)境下的組織知識(shí)原則,探索既符合網(wǎng)絡(luò)信息資源不斷變化規(guī)律又能切合適應(yīng)用戶認(rèn)知需求的知識(shí)互聯(lián)方法[3],使其更加深刻地展示整體而相互關(guān)聯(lián)的人類認(rèn)知世界[4].知識(shí)圖譜(knowledge graph)就是在這樣的大背景下產(chǎn)生的一種知識(shí)表示和管理的方式,它是實(shí)現(xiàn)智能化語(yǔ)義檢索的基礎(chǔ)和橋梁,為萬(wàn)維網(wǎng)上知識(shí)互聯(lián)奠定堅(jiān)實(shí)的基礎(chǔ)[5].
知識(shí)圖譜的概念于2012年5月被Google正式提出[6],其原始目的是為了提高搜索引擎的能力,提高搜索結(jié)果質(zhì)量并提升用戶的搜索體驗(yàn).2013年之后,隨著智能信息服務(wù)和應(yīng)用的不斷發(fā)展,知識(shí)圖譜已在學(xué)術(shù)界和工業(yè)界普及,并在智能搜索、智慧問(wèn)答大數(shù)據(jù)風(fēng)控、推薦系統(tǒng)等應(yīng)用中發(fā)揮著重要的作用[7].目前,醫(yī)學(xué)是知識(shí)圖譜應(yīng)用最廣的垂直領(lǐng)域之一,也是目前國(guó)內(nèi)外人工智能領(lǐng)域研究的熱點(diǎn),在如疾病風(fēng)險(xiǎn)評(píng)估、智能輔助診療、醫(yī)療質(zhì)量控制及醫(yī)療知識(shí)問(wèn)答等智慧醫(yī)療領(lǐng)域都有著很好的發(fā)展前景[8].目前很多公司均構(gòu)建了自己的知識(shí)圖譜,如IBM的Watson Health①、阿里健康的“醫(yī)知鹿”醫(yī)學(xué)智庫(kù)②、搜狗的AI醫(yī)學(xué)知識(shí)圖譜APGC等醫(yī)學(xué)知識(shí)圖譜的應(yīng)用近2年來(lái)也開(kāi)始進(jìn)入人們視線.在醫(yī)學(xué)領(lǐng)域,典型的醫(yī)療知識(shí)圖譜包括SNOMED -CT③,IBM的Waston Health以及國(guó)內(nèi)的諸如上海曙光醫(yī)院的中醫(yī)藥知識(shí)圖譜[9]等.隨著區(qū)域衛(wèi)生信息化及醫(yī)療信息技術(shù)的發(fā)展,積累了海量的醫(yī)學(xué)數(shù)據(jù),如何從這些數(shù)據(jù)中提煉信息并加以應(yīng)用,是推進(jìn)智慧醫(yī)療輔助的關(guān)鍵[10],也是醫(yī)學(xué)知識(shí)檢索、輔助診療、醫(yī)療質(zhì)量控制、電子病歷及健康智能化管理應(yīng)用的基礎(chǔ),對(duì)于提高醫(yī)生診療水平、減輕醫(yī)生負(fù)擔(dān)具有非常重要的意義.
知識(shí)圖譜是語(yǔ)義網(wǎng)(semantic Web)技術(shù)之一,是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(diǎn)(實(shí)體)和標(biāo)注的邊(實(shí)體間的關(guān)系)組成[11],它本質(zhì)上是一種揭示實(shí)體之間關(guān)系的語(yǔ)義網(wǎng)絡(luò),可以對(duì)現(xiàn)實(shí)世界的事物及其相互關(guān)系進(jìn)行形式化地描述[12].和傳統(tǒng)的Web頁(yè)面網(wǎng)絡(luò)相比,知識(shí)圖譜中的節(jié)點(diǎn)由網(wǎng)頁(yè)形式變成了不同類型的實(shí)體,而圖中的邊也由連接網(wǎng)頁(yè)的超鏈接(hyperlink)變成了實(shí)體間豐富的各種語(yǔ)義關(guān)系.
三元組是知識(shí)圖譜的一種通用表示形式[13],由2個(gè)具有語(yǔ)義連接關(guān)系的醫(yī)療實(shí)體和實(shí)體間關(guān)系組成,是醫(yī)學(xué)知識(shí)的直觀表示,即G=(head,relation,tail),其中,head為三元組中的頭實(shí)體,tail為三元組中的尾實(shí)體,relation= {r1,r2,…,r|R|}是知識(shí)庫(kù)中的關(guān)系集合,共包含|R|種不同關(guān)系.三元組的基本形式主要包括實(shí)體1、關(guān)系、實(shí)體2和概念、屬性、屬性值等.實(shí)體是知識(shí)圖譜中的最基本元素,例如疾病、藥物、癥狀、輔助檢查、科室、手術(shù)、部位等;關(guān)系存在于不同實(shí)體之間,例如臨床表現(xiàn)、病因、發(fā)病機(jī)制、科室、預(yù)防、藥動(dòng)學(xué)、藥理作用、鑒別、診斷等;概念主要指集合、類別、對(duì)象類型、事務(wù)的種類等,例如慢性病、二級(jí)手術(shù)、抗凝血藥物等;屬性主要指對(duì)象可能具有的特點(diǎn)、特征及參數(shù),例如疾病特征、藥品規(guī)格、手術(shù)類型等;屬性值指對(duì)象特定屬性的值,例如前面提到的疾病特征為多尿、藥品規(guī)格為0.2 mg/支等.通過(guò)一個(gè)全局唯一的ID號(hào)來(lái)標(biāo)識(shí)實(shí)體,實(shí)體間內(nèi)在特征通過(guò)屬性-屬性值對(duì)來(lái)刻畫(huà),實(shí)體之間的關(guān)聯(lián)通過(guò)關(guān)系來(lái)描述.三元組的存在表示一個(gè)已有的事實(shí),即實(shí)體處于給定類型的關(guān)系中.例如支氣管擴(kuò)張癥的描述為:支氣管擴(kuò)張癥(bronchiectasis)多見(jiàn)于兒童和青少年,臨床表現(xiàn)為慢性咳嗽、咳濃痰和(或)反復(fù)咳血.
支氣管擴(kuò)張癥的描述通過(guò)表1中的三元組表示:
Table 1 Ternary Representation of Bronchiectasis Description表1 支氣管擴(kuò)張癥描述的三元組表示
我們可以將所有三元組合并構(gòu)成一個(gè)多圖(multigraph),其中節(jié)點(diǎn)表示實(shí)體,有向邊表示實(shí)體之間的關(guān)系,邊的方向表明了實(shí)體是作為主體還是對(duì)象出現(xiàn).不同的關(guān)系通過(guò)不同類型的邊來(lái)表示(也被稱為邊標(biāo)簽),知識(shí)圖譜的結(jié)構(gòu)有時(shí)也被稱為異構(gòu)信息網(wǎng)絡(luò)(heterogeneous information network)[14].如圖1所示:
Fig. 1 Knowledge graph example圖1 知識(shí)圖譜示例
知識(shí)圖譜按照覆蓋范圍可分為通用知識(shí)圖譜和行業(yè)知識(shí)圖譜.通用知識(shí)圖譜強(qiáng)調(diào)融合更多實(shí)體,其準(zhǔn)確度不夠高,且很難借助標(biāo)準(zhǔn)知識(shí)庫(kù)規(guī)范其實(shí)體、屬性和關(guān)系等,主要被應(yīng)用于智能搜索等領(lǐng)域中;行業(yè)知識(shí)圖譜通常依靠特定行業(yè)的數(shù)據(jù)進(jìn)行構(gòu)建,對(duì)特定行業(yè)有重要的意義.行業(yè)知識(shí)圖譜需要考慮從不同的業(yè)務(wù)場(chǎng)景和使用人員,所以實(shí)體的屬性與數(shù)據(jù)模式比較豐富.本文所探討的醫(yī)療知識(shí)圖譜就屬于行業(yè)知識(shí)圖譜.
構(gòu)建醫(yī)學(xué)知識(shí)圖譜的主要目的是抽取大量的、讓計(jì)算機(jī)可讀的醫(yī)學(xué)知識(shí)[15].在醫(yī)療信息技術(shù)飛速發(fā)展的今天,醫(yī)學(xué)知識(shí)大量存在于非結(jié)構(gòu)化的文本數(shù)據(jù)、半結(jié)構(gòu)化的表格、網(wǎng)頁(yè)以及部分醫(yī)療信息系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)中,因此現(xiàn)有的醫(yī)學(xué)知識(shí)圖譜模型均為判別模型.通過(guò)訓(xùn)練使該模型能夠區(qū)分不同關(guān)系的實(shí)體對(duì),或者從隨機(jī)抽樣的無(wú)關(guān)負(fù)實(shí)體中識(shí)別有意義的實(shí)體對(duì).為了闡述如何構(gòu)建知識(shí)圖譜,本文給出了醫(yī)學(xué)知識(shí)圖譜的體系架構(gòu),即其構(gòu)建模式結(jié)構(gòu),如圖2所示.
醫(yī)學(xué)知識(shí)圖譜主要有自頂向下(top-down)與自底向上(bottom-up)兩種構(gòu)建方式.自頂向下方式首先構(gòu)建頂層關(guān)系本體,然后將抽取到的實(shí)體匹配更新到所構(gòu)建的頂層本體中.自底向上的方式直接將抽取數(shù)據(jù)中發(fā)現(xiàn)的類別、實(shí)體、屬性以及關(guān)系合并到知識(shí)圖譜中.目前大部分知識(shí)圖譜都采用自底向上的方式進(jìn)行構(gòu)建.
醫(yī)學(xué)知識(shí)圖譜的構(gòu)建流程可以被歸納為3個(gè)模塊,即醫(yī)學(xué)知識(shí)抽取、醫(yī)學(xué)知識(shí)融合以及醫(yī)學(xué)知識(shí)計(jì)算.醫(yī)學(xué)知識(shí)抽取通過(guò)從大量結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化的醫(yī)學(xué)數(shù)據(jù)中提取出實(shí)體、關(guān)系、屬性等知識(shí)圖譜的組成元素,并選擇合理高效的方式將元素存入知識(shí)庫(kù)中.醫(yī)學(xué)知識(shí)融合對(duì)醫(yī)學(xué)知識(shí)庫(kù)的內(nèi)容進(jìn)行整合、消歧、加工,增強(qiáng)知識(shí)庫(kù)內(nèi)部的邏輯性和表達(dá)能力,并為醫(yī)學(xué)知識(shí)圖譜更新舊知識(shí)或補(bǔ)充新知識(shí).醫(yī)學(xué)知識(shí)計(jì)算借助知識(shí)推理,推斷出缺失事實(shí),自動(dòng)完成疾病診斷與治療.
Fig. 2 Medical knowledge graph architecture圖2 醫(yī)學(xué)知識(shí)圖譜架構(gòu)
醫(yī)學(xué)知識(shí)圖譜的構(gòu)建與應(yīng)用需要多種智能信息處理技術(shù)的支持[17].通過(guò)知識(shí)抽取技術(shù),可以從半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)中提取知識(shí)要素.借助知識(shí)融合技術(shù),可以消除實(shí)體、關(guān)系、屬性與對(duì)象之間的歧義,形成高質(zhì)量醫(yī)學(xué)知識(shí)庫(kù).醫(yī)學(xué)知識(shí)計(jì)算是在已有知識(shí)的基礎(chǔ)上進(jìn)一步挖掘隱含知識(shí),從而豐富、擴(kuò)展醫(yī)學(xué)知識(shí)庫(kù).本節(jié)將從醫(yī)學(xué)知識(shí)表示、醫(yī)學(xué)知識(shí)抽取、醫(yī)學(xué)知識(shí)融合和醫(yī)學(xué)知識(shí)推理所運(yùn)用的關(guān)鍵技術(shù)為重點(diǎn),詳細(xì)說(shuō)明其中的相關(guān)研究.
三元組知識(shí)表示形式雖然受到了廣泛的使用和認(rèn)可,在應(yīng)用于醫(yī)學(xué)領(lǐng)域時(shí)卻會(huì)出現(xiàn)計(jì)算效率低等問(wèn)題.近年來(lái)隨著人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等表示學(xué)習(xí)技術(shù)的重大進(jìn)展[18-19],醫(yī)學(xué)實(shí)體中的語(yǔ)義信息可以表示為稠密低維實(shí)數(shù)值的向量,從而在低維度空間中計(jì)算實(shí)體和關(guān)系中的復(fù)雜語(yǔ)義關(guān)聯(lián),對(duì)于醫(yī)學(xué)知識(shí)庫(kù)的構(gòu)建過(guò)程有重要意義.醫(yī)學(xué)知識(shí)表示按照計(jì)算方式不同可以分為距離平移模型(translational distance model)和語(yǔ)義匹配模型(semantic matching model).其中距離平移模型利用基于距離的評(píng)分函數(shù)對(duì)事實(shí)的合理性進(jìn)行判斷,代表包括翻譯模型(TransE)[20]及其延伸出的復(fù)雜關(guān)系模型(TransH,TransR,TransD,TransG,KG2E等).語(yǔ)義匹配模型的代表包括單層神經(jīng)網(wǎng)絡(luò)模型(single layer model, SLM)[21]、雙線性隱變量模型(latent factor model, LFM)[22]、神經(jīng)張量模型(neural tensor model, NTM)[23]、矩陣分解模型(matrix factorization, MF)[24]等.
1) 翻譯模型
TansE是最具代表性的距離平移模型,它將實(shí)體和關(guān)系表示為同一空間的矢量.三元組中的關(guān)系矢量lr elation可以被看作頭實(shí)體矢量lh ead到尾實(shí)體矢量lt ail的翻譯,并滿足關(guān)系:
lh ead+lr elation≈lt ail,
(1)
評(píng)價(jià)函數(shù)為
fr elation(head,tail)=|lh ead+lr elation-lt ail|L1L2,
(2)
翻譯模型的參數(shù)較少,計(jì)算復(fù)雜度低,且適用于大規(guī)模稀疏醫(yī)學(xué)知識(shí)庫(kù),性能和擴(kuò)展性都比較好.圖3(a)為TransE模型的示例.
2) 復(fù)雜關(guān)系模型
復(fù)雜關(guān)系模型主要針對(duì)實(shí)體之間1-to-N,N-to-1,N-to-N的關(guān)系類型[25-26].這里簡(jiǎn)要介紹這5項(xiàng)代表性模型的原理.TransH針對(duì)不同關(guān)系下的同一醫(yī)學(xué)實(shí)體的角色問(wèn)題進(jìn)行研究,試圖采用不同的形式表示不同關(guān)系中的醫(yī)學(xué)實(shí)體.TransR將不同的關(guān)系進(jìn)行更細(xì)致的劃分,保證了映射后模型的表達(dá)能力.TransD分別對(duì)頭實(shí)體和尾實(shí)體在盥洗空間進(jìn)行投影矩陣的定義,保證了實(shí)體和關(guān)系之間的交互.TransG和KG2E均采用高斯分布對(duì)醫(yī)學(xué)實(shí)體和關(guān)系進(jìn)行描述,具有較高的實(shí)體區(qū)分度.圖3(b)(c)為TransH和TransR模型的示例.
Fig. 3 Schematic diagram of distance translation model圖3 距離平移模型示意圖
Fig. 4 Schematic diagram of neural tensor model and single layer model圖4 神經(jīng)張量模型、單層神經(jīng)網(wǎng)絡(luò)模型示意圖
3) 單層神經(jīng)網(wǎng)絡(luò)模型
非線性的單層神經(jīng)網(wǎng)絡(luò)模型為醫(yī)學(xué)知識(shí)庫(kù)中的三元組(head,relation,tail)定義了評(píng)價(jià)函數(shù):
(3)
單層神經(jīng)網(wǎng)絡(luò)模型基于實(shí)體之間的關(guān)系,刻畫(huà)了醫(yī)學(xué)實(shí)體的語(yǔ)義相關(guān)性,從而解決了醫(yī)學(xué)實(shí)體之間協(xié)同性較差的問(wèn)題,但計(jì)算復(fù)雜度較高,不適用于大規(guī)模醫(yī)學(xué)知識(shí)圖譜的表示.
4) 雙線性隱變量模型
雙線性隱變量模型基于醫(yī)學(xué)實(shí)體間關(guān)系的雙線性變化對(duì)實(shí)體的語(yǔ)義相關(guān)性進(jìn)行定義.評(píng)價(jià)函數(shù):
(4)
其中,Mr elation是通過(guò)關(guān)系relation定義的雙線性變換矩陣;lh ead和lt ail是頭實(shí)體和尾實(shí)體的向量化表示.圖5(a)為雙線性隱變量模型的示例.
雙線性隱變量模型形式簡(jiǎn)單,降低了計(jì)算復(fù)雜度,并有效刻畫(huà)實(shí)體間相關(guān)性關(guān)系.
5) 神經(jīng)張量模型
神經(jīng)張量模型通過(guò)將醫(yī)學(xué)實(shí)體中單詞的向量取平均值來(lái)表示實(shí)體間語(yǔ)義聯(lián)系.評(píng)價(jià)函數(shù):
(5)
Fig. 5 Schematic diagram of matrix factorization model and latent factor model圖5 矩陣分解模型、雙線性隱變量模型示意圖
神經(jīng)張量模型通過(guò)取均值的方式解決了低維向量的“稀疏性”問(wèn)題,并可以重復(fù)使用同一單詞向量進(jìn)行醫(yī)學(xué)實(shí)體構(gòu)建.
6) 矩陣分解模型
7) 模型性能對(duì)比
為了驗(yàn)證各模型的效率,本文對(duì)比分析了前文討論過(guò)模型的時(shí)間復(fù)雜度和空間復(fù)雜度,如表2所示.這里分別用n和m表示實(shí)體和關(guān)系的數(shù)量,d和k分別表示實(shí)體的維數(shù)和關(guān)系嵌入空間的維數(shù),TransG中的c指每個(gè)關(guān)系的平均語(yǔ)義組件數(shù)量.
Table 2 Comparison of Time and Space Complexity表2 模型在時(shí)空復(fù)雜度上的比較
醫(yī)學(xué)知識(shí)抽取是面向開(kāi)放的醫(yī)療數(shù)據(jù),通過(guò)人工或自動(dòng)化技術(shù)抽取出可用的知識(shí)單元,知識(shí)單元包括實(shí)體、關(guān)系及屬性這3個(gè)知識(shí)要素,并以此為基礎(chǔ),形成一系列高質(zhì)量的事實(shí)表達(dá),為上層模式層的構(gòu)建奠定基礎(chǔ).
人工抽取方式是依據(jù)一定規(guī)則收集并整理相關(guān)醫(yī)學(xué)信息并提取知識(shí),目前包括ICD -10[27]、臨床醫(yī)學(xué)知識(shí)庫(kù)、SNOMED -CT[28]等都是通過(guò)人工構(gòu)建的醫(yī)學(xué)知識(shí)庫(kù);自動(dòng)抽取方式是利用數(shù)據(jù)挖掘、人工智能、機(jī)器學(xué)習(xí)等技術(shù)從醫(yī)學(xué)信息中自動(dòng)提取基本元素,一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)UMLS是通過(guò)自動(dòng)提取方式構(gòu)建的.自動(dòng)抽取方式是目前的研究重點(diǎn),也是未來(lái)知識(shí)抽取的趨勢(shì).本節(jié)主要介紹如何自動(dòng)從醫(yī)療數(shù)據(jù)源中抽取知識(shí),按照要素類型分為實(shí)體抽取、關(guān)系抽取和屬性抽取.
1) 實(shí)體抽取
實(shí)體是醫(yī)學(xué)知識(shí)圖譜中的最基本元素,實(shí)體抽取的準(zhǔn)確率和召回率等將直接影響知識(shí)庫(kù)的質(zhì)量,所以實(shí)體抽取是醫(yī)學(xué)知識(shí)圖譜技術(shù)的重點(diǎn)研究方向.
早期的實(shí)體抽取方法是在限定文本領(lǐng)域、限定語(yǔ)義單元類型的條件下進(jìn)行,采用基于醫(yī)學(xué)規(guī)則和醫(yī)學(xué)字典的方法,使用已經(jīng)定義好的醫(yī)學(xué)規(guī)則,抽取出文本中的疾病名、藥物名、癥狀名等實(shí)體.例如文獻(xiàn)[29]中通過(guò)CHV和SNOMED -CT兩個(gè)醫(yī)學(xué)詞典對(duì)醫(yī)療診所筆記中的醫(yī)學(xué)信息進(jìn)行識(shí)別,得到了不錯(cuò)的實(shí)驗(yàn)結(jié)果.但是,這種方法在實(shí)施過(guò)程中具有極大的難度.①目前沒(méi)有一個(gè)完整的醫(yī)學(xué)字典囊括所有類型的實(shí)體,所以無(wú)法使用文本匹配的方法對(duì)實(shí)體進(jìn)行識(shí)別;②中文醫(yī)學(xué)短語(yǔ)的含義根據(jù)上下文的改變而指代不同的實(shí)體;③需要疾病或藥物實(shí)體擁有多個(gè)名稱.因此,基于醫(yī)學(xué)規(guī)則和字典的實(shí)體抽取方法僅在最早期被廣泛應(yīng)用,難以適應(yīng)數(shù)據(jù)不斷變化的現(xiàn)實(shí)要求.
隨后,研究者們嘗試將機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)算法應(yīng)用到實(shí)體抽取問(wèn)題上,利用醫(yī)學(xué)數(shù)據(jù)的特點(diǎn)對(duì)模型進(jìn)行訓(xùn)練,然后識(shí)別實(shí)體.常用的方法包括支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、隱Markov模型、條件隨機(jī)場(chǎng)等.文獻(xiàn)[30]使用支持向量機(jī)模型進(jìn)行生物醫(yī)學(xué)命名實(shí)體識(shí)別,為了提高訓(xùn)練效果,引入詞緩存、無(wú)監(jiān)督訓(xùn)練等方法,實(shí)驗(yàn)結(jié)果表明:該方法在GENIA醫(yī)學(xué)數(shù)據(jù)集中的準(zhǔn)確率高于基準(zhǔn)算法,并能高效地應(yīng)用于大規(guī)模知識(shí)庫(kù)中.文獻(xiàn)[31]提出一種最大熵算法作為機(jī)器學(xué)習(xí)算法和基于規(guī)則字典的抽取方法的混合算法,并在Medline數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)的準(zhǔn)確率和召回率都在70%以上.基于機(jī)器學(xué)習(xí)的實(shí)體抽取方法在運(yùn)用于醫(yī)學(xué)領(lǐng)域時(shí)面臨著數(shù)據(jù)質(zhì)量的良莠不齊及人工標(biāo)注專業(yè)性不高等問(wèn)題,目前的解決方法是利用海量未標(biāo)注數(shù)據(jù)持續(xù)提升模型性能,從小樣本中學(xué)習(xí),形成一個(gè)交互學(xué)習(xí)過(guò)程,從而提升實(shí)體抽取的準(zhǔn)確率.
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域,其目的在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)[32].它模仿人腦的機(jī)制來(lái)解釋數(shù)據(jù),例如圖像、聲音和文本,近年來(lái)被廣泛應(yīng)用于實(shí)體抽取中.目前BiLSTM-CRF是醫(yī)學(xué)領(lǐng)域?qū)嶓w抽取中最主流的深度學(xué)習(xí)模型.文獻(xiàn)[33]通過(guò)實(shí)驗(yàn)對(duì)比BiLSTM-CRF與其他機(jī)器學(xué)習(xí)模型在醫(yī)學(xué)電子病歷的實(shí)體抽取的效果,實(shí)驗(yàn)結(jié)果表明BiLSTM-CRF對(duì)提高結(jié)果的準(zhǔn)確率是有效的.
知識(shí)學(xué)習(xí)和深度學(xué)習(xí)的方法大多需要搜集大量語(yǔ)料,或過(guò)多依賴于專家的標(biāo)注.文獻(xiàn)[34]提出利用已標(biāo)注的實(shí)體三元組在自然語(yǔ)言表述上的共性和差異,對(duì)多種醫(yī)療實(shí)體關(guān)系類內(nèi)的數(shù)據(jù)分布進(jìn)行聯(lián)合編碼,進(jìn)而從生成模型的角度去發(fā)現(xiàn)未被標(biāo)注的關(guān)系實(shí)體三元組.該方法減輕了傳統(tǒng)判別模型對(duì)于外部資源的過(guò)度依賴,并且不依賴于醫(yī)療實(shí)體關(guān)系之間的差異進(jìn)行建模.實(shí)驗(yàn)表明:算法不僅能夠在外部資源有限的條件下,以92.91%的支持度生成屬于某個(gè)特定醫(yī)療關(guān)系的實(shí)體三元組,其生成的結(jié)果擁有77.17%的準(zhǔn)確率且生成結(jié)果中有61.93%的樣本未曾出現(xiàn)在訓(xùn)練數(shù)據(jù)中.
2) 關(guān)系抽取
醫(yī)學(xué)實(shí)體關(guān)系抽取的目標(biāo)是解決實(shí)體間語(yǔ)義鏈接的問(wèn)題,早期的關(guān)系抽取主要是通過(guò)人工構(gòu)造語(yǔ)義規(guī)則以及模板的方法識(shí)別實(shí)體關(guān)系.之后,醫(yī)學(xué)實(shí)體間的關(guān)系模型逐漸替代了人工預(yù)定義的語(yǔ)法與規(guī)則.本文按照醫(yī)學(xué)實(shí)體的類型將醫(yī)學(xué)實(shí)體關(guān)系歸結(jié)為2類:同類型醫(yī)學(xué)實(shí)體層關(guān)系抽取以及不同類型醫(yī)學(xué)實(shí)體關(guān)系抽取.
同類型醫(yī)學(xué)實(shí)體層關(guān)系比較簡(jiǎn)單,主要為is-a和part-of關(guān)系,此類關(guān)系通常在醫(yī)學(xué)詞典、百科、信息標(biāo)準(zhǔn)中定義.在實(shí)際應(yīng)用中,可通過(guò)網(wǎng)絡(luò)爬蟲(chóng)、正則表達(dá)式等技術(shù)從標(biāo)準(zhǔn)醫(yī)療數(shù)據(jù)庫(kù)中抽取分層結(jié)構(gòu),ICD -10,SNOMED等醫(yī)療數(shù)據(jù)庫(kù)的醫(yī)學(xué)專業(yè)分類和標(biāo)準(zhǔn)化工作比較權(quán)威且覆蓋范圍廣,被廣泛使用.非同類型醫(yī)學(xué)實(shí)體關(guān)系的抽取方法是先定義好2實(shí)體間要抽取的關(guān)系類型,再將抽取任務(wù)轉(zhuǎn)換為分類問(wèn)題進(jìn)行處理.
在知識(shí)圖譜的構(gòu)建過(guò)程中,遠(yuǎn)程監(jiān)督(distant supervision)能夠減少對(duì)標(biāo)注數(shù)據(jù)的需求,因此被大量應(yīng)用于從非結(jié)構(gòu)化醫(yī)學(xué)文本中進(jìn)行關(guān)系抽取.文獻(xiàn)[35]首先證明由于醫(yī)學(xué)知識(shí)庫(kù)的不完整,大量標(biāo)記過(guò)程產(chǎn)生的否定標(biāo)簽為假否定,并基于此提出一種僅從實(shí)體對(duì)正標(biāo)簽進(jìn)行學(xué)習(xí)的遠(yuǎn)程監(jiān)督提取算法,并通過(guò)實(shí)驗(yàn)證明了此算法的有效性.文獻(xiàn)[36]提出一種基于遠(yuǎn)程監(jiān)督的卷積神經(jīng)網(wǎng)絡(luò)模型,利用卷積神經(jīng)網(wǎng)絡(luò)抓取實(shí)體的描述特征,豐富實(shí)體表示,并通過(guò)計(jì)算實(shí)體間關(guān)系與句子間的相似度賦予句子不同的權(quán)重.
然而,遠(yuǎn)程監(jiān)督算法雖然從一定程度上減少了模型對(duì)人工標(biāo)注數(shù)據(jù)的依賴,但該類方法也存在明顯的缺點(diǎn).其一是此種假設(shè)會(huì)引入大量噪音,其二是此算法的數(shù)據(jù)構(gòu)造過(guò)程依賴于自然語(yǔ)言處理工具,中間過(guò)程出錯(cuò)會(huì)造成錯(cuò)誤傳播問(wèn)題.為解決這個(gè)問(wèn)題,文獻(xiàn)[37]提出了一種協(xié)同消噪的模型,該方法由2個(gè)神經(jīng)網(wǎng)絡(luò)和一個(gè)協(xié)同模塊組成,充分利用了醫(yī)療領(lǐng)域中豐富的醫(yī)療文本、醫(yī)療影像等信息數(shù)據(jù).模型中的2個(gè)神經(jīng)網(wǎng)絡(luò)分別在文本語(yǔ)料庫(kù)和知識(shí)圖譜領(lǐng)域進(jìn)行學(xué)習(xí),再通過(guò)一個(gè)自適應(yīng)的雙向協(xié)同模塊完成它們間的相互學(xué)習(xí),達(dá)到消除噪聲的目的.實(shí)驗(yàn)表明:該方法在噪聲較大的數(shù)據(jù)上有較明顯的效果提升.
3) 屬性抽取
屬性抽取針對(duì)醫(yī)學(xué)實(shí)體而言,如藥品的熟悉包括規(guī)格、劑量、適應(yīng)癥等,通過(guò)屬性可以對(duì)實(shí)體進(jìn)行完整勾畫(huà),如二甲雙胍是二型糖尿病患者適用.由于實(shí)體的屬性可以看成實(shí)體與屬性值之間的一種名稱性關(guān)系,因此可以將屬性抽取問(wèn)題轉(zhuǎn)換為關(guān)系抽取問(wèn)題.
由于醫(yī)學(xué)數(shù)據(jù)庫(kù)中的知識(shí)來(lái)源復(fù)雜,存在知識(shí)質(zhì)量良莠不齊、不同數(shù)據(jù)源知識(shí)重復(fù)、知識(shí)間關(guān)聯(lián)關(guān)系模糊等問(wèn)題[38],所以必須將來(lái)自不同數(shù)據(jù)源的多源異構(gòu)、語(yǔ)義多樣、動(dòng)態(tài)演化的醫(yī)學(xué)知識(shí)在同一框架規(guī)范下進(jìn)行異構(gòu)數(shù)據(jù)的整合、消歧、加工、推理驗(yàn)證、更新等,對(duì)知識(shí)進(jìn)行正確性判斷,去粗取精,達(dá)到數(shù)據(jù)、信息、方法、經(jīng)驗(yàn)與人思想的融合,將驗(yàn)證正確的知識(shí)通過(guò)對(duì)齊關(guān)聯(lián)、合并計(jì)算有機(jī)地組織成知識(shí)庫(kù).通過(guò)知識(shí)融合的定義可以看出,知識(shí)融合建立在知識(shí)抽取的基礎(chǔ)上.如何消除知識(shí)理解中的不確定性,發(fā)現(xiàn)知識(shí)的真值,并將正確的知識(shí)更新擴(kuò)充到知識(shí)庫(kù)中是知識(shí)融合研究中關(guān)注的重點(diǎn)[39].醫(yī)學(xué)知識(shí)融合的關(guān)鍵技術(shù)有實(shí)體對(duì)齊技術(shù)、實(shí)體鏈接技術(shù)和關(guān)系推演技術(shù).其中,實(shí)體對(duì)齊技術(shù)用于消除本體和數(shù)據(jù)源的異構(gòu)性;實(shí)體鏈接是醫(yī)學(xué)知識(shí)融合的基礎(chǔ),通過(guò)消歧等操作消除知識(shí)中的不一致;關(guān)系推演用于發(fā)現(xiàn)隱含知識(shí),從而擴(kuò)充和補(bǔ)全醫(yī)學(xué)知識(shí)庫(kù).
1) 實(shí)體對(duì)齊
實(shí)體對(duì)齊用于消除異構(gòu)數(shù)據(jù)中的實(shí)體沖突、指向不明等不一致問(wèn)題,從而從頂層創(chuàng)建一個(gè)大規(guī)模的統(tǒng)一知識(shí)庫(kù),從而幫助機(jī)器理解多源異質(zhì)數(shù)據(jù),形成高質(zhì)量知識(shí).
在醫(yī)療大數(shù)據(jù)的環(huán)境下,受醫(yī)學(xué)知識(shí)庫(kù)規(guī)模的影響,實(shí)體對(duì)齊會(huì)面臨3個(gè)方面的挑戰(zhàn):
① 計(jì)算復(fù)雜度大.算法計(jì)算復(fù)雜度會(huì)隨知識(shí)庫(kù)規(guī)模呈二次增長(zhǎng),計(jì)算復(fù)雜度難以接受.
② 數(shù)據(jù)質(zhì)量良莠不齊.由于不同醫(yī)療知識(shí)庫(kù)的構(gòu)建目的和方式不同,可能存在相似重復(fù)數(shù)據(jù)、孤立數(shù)據(jù)、數(shù)據(jù)時(shí)間力度不一致等問(wèn)題.
③ 訓(xùn)練數(shù)據(jù)缺失.大部分醫(yī)療數(shù)據(jù)庫(kù)中并沒(méi)有先驗(yàn)數(shù)據(jù),通常需要研究者手工對(duì)數(shù)據(jù)進(jìn)行標(biāo)簽等操作構(gòu)造訓(xùn)練數(shù)據(jù),這也是一項(xiàng)龐大的工作.
現(xiàn)有的實(shí)體對(duì)齊算法可分為成對(duì)實(shí)體對(duì)齊和集體實(shí)體對(duì)齊2類.成對(duì)實(shí)體對(duì)齊方法只考慮實(shí)例及其屬性相似度,常用方法包括概率統(tǒng)計(jì)模型、回歸分類樹(shù)模型、支持向量機(jī)分類模型、集成學(xué)習(xí)模型、層次圖模型等.集成實(shí)體對(duì)齊方法是在成對(duì)實(shí)體對(duì)齊的基礎(chǔ)上,在計(jì)算實(shí)體相似度時(shí)加入了實(shí)體間相互關(guān)系,常用方法包括向量空間模型、bootstrapping算法、貝葉斯網(wǎng)絡(luò)模型、LDA分配模型、Markov邏輯網(wǎng)模型等.
2) 實(shí)體鏈接
實(shí)體鏈接的主要作用是利用醫(yī)學(xué)知識(shí)庫(kù)中的實(shí)體對(duì)從醫(yī)療大數(shù)據(jù)的文本中獲取的實(shí)體指代進(jìn)行消歧,識(shí)別每一個(gè)實(shí)體指代在醫(yī)學(xué)知識(shí)庫(kù)中與其對(duì)應(yīng)的映射實(shí)體.這里的實(shí)體指代指的是實(shí)體的一種文本表示形式[40],一個(gè)醫(yī)學(xué)實(shí)體可能有多種不同的表達(dá),如全名、別名、縮寫等.按照實(shí)體鏈接利用的信息不同,現(xiàn)有工作主要分為基于實(shí)體屬性(entity attributes based, EA)的實(shí)體鏈接方法[41]、基于實(shí)體流行度(entity popularity based, EP)的實(shí)體鏈接方法[42]、基于上下文(context based, CB)的實(shí)體鏈接方法[43]和基于外部證據(jù)(external evidencebased, EEB)的實(shí)體鏈接方法[44].
基于實(shí)體屬性的實(shí)體鏈接方法通過(guò)計(jì)算實(shí)體的名字屬性中字符串的相似度來(lái)判斷實(shí)體是否相同.實(shí)體名稱和屬性的相似度主要通過(guò)Consine距離、Jaccard相關(guān)系數(shù)等方式進(jìn)行計(jì)算:
(6)
(7)
其中,同e1和e2為給定的醫(yī)學(xué)實(shí)體,A(e)表示醫(yī)學(xué)實(shí)體e的屬性字符串.
基于實(shí)體流行度的實(shí)體鏈接方法認(rèn)為,對(duì)于給定的實(shí)體指代,與其對(duì)應(yīng)的映射實(shí)體最有可能是醫(yī)學(xué)數(shù)據(jù)庫(kù)中最為公認(rèn)的實(shí)體,計(jì)算為
(8)
其中,e表示給定的醫(yī)學(xué)實(shí)體,P(e)表示醫(yī)學(xué)實(shí)體e的流行度,#()表示次數(shù).
基于上下文的實(shí)體鏈接方法通過(guò)計(jì)算給定醫(yī)學(xué)實(shí)體的上下文之間的相似性判斷2個(gè)實(shí)體之間是否為同一實(shí)體.
基于外部證據(jù)的實(shí)體鏈接方法認(rèn)為同一文本中的醫(yī)學(xué)實(shí)體并不是獨(dú)立的,它們之間存在語(yǔ)義相關(guān)性,而這種相關(guān)性有助于提升實(shí)體鏈接的準(zhǔn)確率.
表3對(duì)比了以上4種實(shí)體鏈接方法的特點(diǎn).
3) 關(guān)系推演
通過(guò)實(shí)體對(duì)齊和實(shí)體鏈接,可以得到初步的本體雛形,但構(gòu)建知識(shí)庫(kù)時(shí)需求和設(shè)計(jì)理念的不同會(huì)導(dǎo)致知識(shí)庫(kù)中數(shù)據(jù)的多樣性和異構(gòu)性,因此要形成高質(zhì)量的醫(yī)學(xué)知識(shí),還需要不斷進(jìn)行關(guān)系推演,將動(dòng)態(tài)產(chǎn)生的關(guān)系擴(kuò)展到已有的醫(yī)學(xué)知識(shí)庫(kù)中,從層次上形成一個(gè)大規(guī)模的醫(yī)學(xué)知識(shí)體系,統(tǒng)一對(duì)知識(shí)進(jìn)行管理,對(duì)提高醫(yī)學(xué)知識(shí)庫(kù)的時(shí)新性、覆蓋能力至關(guān)重要.由于醫(yī)學(xué)自然語(yǔ)言表達(dá)的隨意性,關(guān)系存在大量同義或多義表達(dá),這給關(guān)系的擴(kuò)充帶來(lái)了巨大的挑戰(zhàn).
關(guān)系推演的主要目標(biāo)是將從醫(yī)療大數(shù)據(jù)文本中獲取的實(shí)體關(guān)系動(dòng)態(tài)擴(kuò)展到知識(shí)庫(kù)中.醫(yī)學(xué)實(shí)體關(guān)系存在2種可能情況:1)醫(yī)學(xué)知識(shí)庫(kù)中存在與目標(biāo)文本實(shí)體關(guān)系相同或等價(jià)的實(shí)體關(guān)系,只需找到文本實(shí)體關(guān)系在醫(yī)學(xué)知識(shí)庫(kù)中與之對(duì)應(yīng)的實(shí)體關(guān)系;2)醫(yī)學(xué)知識(shí)庫(kù)中不存在與目標(biāo)文本實(shí)體關(guān)系相同或等價(jià)的實(shí)體關(guān)系,則需要將實(shí)體關(guān)系擴(kuò)展合并到知識(shí)庫(kù)中,完成醫(yī)學(xué)文本實(shí)體關(guān)系和醫(yī)學(xué)知識(shí)庫(kù)實(shí)體關(guān)系的關(guān)聯(lián)合并.
Table 3 Advantages and Disadvantages of Entity Linking Model表3 實(shí)體鏈接方法分類匯總
關(guān)系推演的關(guān)鍵在于判定2個(gè)實(shí)體關(guān)系是否表示同一種關(guān)系.目前有2種方法:①傳統(tǒng)的基于語(yǔ)義的方法,通過(guò)對(duì)比描述關(guān)系的詞匯之間語(yǔ)義相似度來(lái)驗(yàn)證是否是同一種關(guān)系;②基于嵌入學(xué)習(xí)的方法,這種方法通過(guò)在嵌入空間中尋找一個(gè)恰當(dāng)?shù)哪芰亢瘮?shù)學(xué)習(xí)實(shí)體的嵌入表示,利用實(shí)體的嵌入表示表達(dá)實(shí)體關(guān)系,并判斷2個(gè)描述實(shí)體的關(guān)系是否表達(dá)同一種關(guān)系,從而實(shí)現(xiàn)將實(shí)體關(guān)系進(jìn)行結(jié)構(gòu)映射.
目前醫(yī)療領(lǐng)域的知識(shí)融合技術(shù)雖有一些發(fā)展,但仍需要大量人工干預(yù),高效的知識(shí)融合算法仍然有待研究.
知識(shí)推理是在已有醫(yī)學(xué)知識(shí)庫(kù)的基礎(chǔ)上進(jìn)一步挖掘隱含知識(shí),從而豐富、擴(kuò)展知識(shí)庫(kù).在醫(yī)學(xué)知識(shí)圖譜中,知識(shí)推理能夠幫助醫(yī)生完成患者數(shù)據(jù)搜集、疾病診斷、治療方法、避免醫(yī)療差錯(cuò)等.然而,醫(yī)學(xué)領(lǐng)域擁有其特殊性,即使對(duì)于相同疾病,醫(yī)生也會(huì)根據(jù)患者個(gè)體情況做出不同的診斷,所以醫(yī)學(xué)知識(shí)圖譜必須處理大量相同或矛盾的信息,大大增加了構(gòu)建醫(yī)學(xué)知識(shí)推理模型的復(fù)雜性.
傳統(tǒng)的知識(shí)推理方法包括基于描述邏輯推理(description logic reasoning)[45]、基于規(guī)則推理(rule-based reasoning)[46]與基于案例推理(case-based reasoning)[47]等.傳統(tǒng)知識(shí)推理方法雖然在一定程度上推動(dòng)了醫(yī)學(xué)知識(shí)圖譜的發(fā)展,但是也存在準(zhǔn)確率不高、數(shù)據(jù)利用率低、學(xué)習(xí)能力不足等缺陷,并未達(dá)到實(shí)際應(yīng)用的要求.
隨著醫(yī)療大數(shù)據(jù)規(guī)模的飛速增長(zhǎng),傳統(tǒng)知識(shí)推理方法會(huì)出現(xiàn)信息遺漏、診斷時(shí)間延長(zhǎng)等問(wèn)題.而人工智能技術(shù)對(duì)于從海量醫(yī)療數(shù)據(jù)中挖掘有用信息有著天然優(yōu)勢(shì),可以提升知識(shí)推理的效率和準(zhǔn)確度,常用模型包括了人工神經(jīng)網(wǎng)絡(luò)模型(artificial neural networks model)[48]、遺傳算法(genetic algorithm)[49]和反向傳播網(wǎng)絡(luò)模型(back propagation)等.
無(wú)論是傳統(tǒng)知識(shí)推理方法還是人工智能只是推理方法都將知識(shí)圖譜作為數(shù)據(jù)源,而基于圖的推理則將知識(shí)圖譜視作圖,將醫(yī)學(xué)實(shí)體看作節(jié)點(diǎn),實(shí)體間關(guān)系看作邊,利用關(guān)系路徑中的蘊(yùn)含信息,通過(guò)圖中2個(gè)實(shí)體間的多步路徑對(duì)其語(yǔ)義關(guān)系進(jìn)行分析.常用算法包含了路徑約束隨機(jī)游走算法(path-constraint random walk)、路徑分級(jí)算法(path ranking)等.
知識(shí)圖譜為醫(yī)療信息系統(tǒng)中海量、異構(gòu)、動(dòng)態(tài)的醫(yī)療大數(shù)據(jù)的表達(dá)、組織、管理及利用提供了一種更為有效的方式,使系統(tǒng)的智能化水平更高,更加接近于人類的認(rèn)知思維.目前醫(yī)學(xué)知識(shí)圖譜技術(shù)主要用于臨床決策支持系統(tǒng)、醫(yī)療智能語(yǔ)義搜索引擎、醫(yī)療問(wèn)答系統(tǒng)、慢病管理系統(tǒng)等.
利用知識(shí)圖譜技術(shù)可以輔助醫(yī)療行業(yè)和領(lǐng)域的大數(shù)據(jù)分析與決策,根據(jù)患者癥狀、檢驗(yàn)、檢查等數(shù)據(jù),自動(dòng)生成診斷、治療方案,還可以對(duì)醫(yī)生的診療方案進(jìn)行智能化分析,有效減少誤診情況的發(fā)生.
IBM Watson主要面向腫瘤和癌癥領(lǐng)域的決策支持,基于巨大的知識(shí)庫(kù)并使用自然語(yǔ)言、假設(shè)生成和基于證據(jù)的學(xué)習(xí)能力為臨床決策支持系統(tǒng)提供幫助,供醫(yī)學(xué)專業(yè)人員參考.此外,很多研究者針對(duì)這一領(lǐng)域進(jìn)行了深入的研究.文獻(xiàn)[50]提出一種本體驅(qū)動(dòng)的、針對(duì)傳染病診斷和抗生素處方的臨床決策支持系統(tǒng),系統(tǒng)包括一個(gè)醫(yī)學(xué)本體知識(shí)庫(kù),其中綜合了多個(gè)醫(yī)學(xué)本體資源,包括傳染病、綜合征、細(xì)菌、藥物等相關(guān)本體;文獻(xiàn)[51]提出一種面向重癥監(jiān)護(hù)室的急性心肌梗死患者的智能監(jiān)測(cè)和決策支持系統(tǒng).該系統(tǒng)的知識(shí)庫(kù)由OWL本體和1組表示專家知識(shí)的規(guī)則組成,能夠分析患者的情況,并給出治療建議;文獻(xiàn)[52]通過(guò)自然語(yǔ)言處理方法建立3層疾病結(jié)構(gòu)知識(shí)圖譜(疾病-癥候-特征),運(yùn)用正則表達(dá)式、隱Markov模型等人工智能技術(shù)解決了構(gòu)建醫(yī)學(xué)知識(shí)圖譜過(guò)程中效率低、耗時(shí)長(zhǎng)等問(wèn)題.
在大量醫(yī)學(xué)數(shù)據(jù)中搜索生物醫(yī)學(xué)信息是1項(xiàng)復(fù)雜的任務(wù),醫(yī)療信息語(yǔ)義搜索建立大規(guī)模醫(yī)學(xué)知識(shí)庫(kù)對(duì)用戶搜索的關(guān)鍵字和文檔內(nèi)容進(jìn)行語(yǔ)義標(biāo)注,從醫(yī)學(xué)知識(shí)圖譜中檢索并查詢相關(guān)的實(shí)體對(duì)、實(shí)體關(guān)系及屬性進(jìn)行擴(kuò)展查詢,從而改善醫(yī)療信息搜索結(jié)果;文獻(xiàn)[53]利用醫(yī)學(xué)主題詞表Mesh對(duì)醫(yī)學(xué)術(shù)語(yǔ)的用戶檢索進(jìn)行擴(kuò)展,改進(jìn)了多模塊醫(yī)學(xué)信息檢索系統(tǒng).在ImageCLEFmed醫(yī)學(xué)圖像數(shù)據(jù)庫(kù)對(duì)方法進(jìn)行了驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,使用醫(yī)學(xué)本體擴(kuò)展技術(shù)可以改善查詢結(jié)果的準(zhǔn)確性;文獻(xiàn)[54]提出了一種基于概念匹配而非關(guān)鍵字匹配的電子病歷檢索方法,將電子病歷文本從基于術(shù)語(yǔ)的原始文本轉(zhuǎn)換為SNOMED -CT本體定義的醫(yī)學(xué)概念,結(jié)果顯示這種方法能夠提升搜索精度并且為實(shí)現(xiàn)基于推理的醫(yī)療數(shù)據(jù)搜索系統(tǒng)提供了框架;文獻(xiàn)[55]提出了一種支持多模式醫(yī)學(xué)案例檢索的醫(yī)學(xué)信息檢索系統(tǒng).該系統(tǒng)通過(guò)提供多模態(tài)搜索、新的數(shù)據(jù)融合算法和醫(yī)學(xué)同義詞典的術(shù)語(yǔ)建議來(lái)支持醫(yī)學(xué)信息檢索和發(fā)現(xiàn).
目前,國(guó)內(nèi)外的醫(yī)療信息語(yǔ)義搜索引擎包括Healthline,Google health、搜狗明醫(yī)、360良醫(yī)等.其中Google率先提出將知識(shí)圖譜應(yīng)用于搜索引擎,Google提供了超過(guò)400種健康狀況數(shù)據(jù),通過(guò)信息卡片的方式對(duì)疾病特征進(jìn)行展示,告知用戶某疾病是否具有傳染性、影響主要人群等信息.Healthline是一個(gè)基于醫(yī)學(xué)知識(shí)庫(kù)的醫(yī)學(xué)信息搜索引擎,其知識(shí)庫(kù)涵蓋超過(guò)800 000項(xiàng)醫(yī)療元數(shù)據(jù)和50 000條相互關(guān)聯(lián)的關(guān)系概念.搜狗明醫(yī)和360良醫(yī)結(jié)合了元搜索索引和知識(shí)庫(kù)索引,收集權(quán)威醫(yī)療知識(shí)學(xué)術(shù)網(wǎng)站內(nèi)容,為用戶提供包括維基百科、知乎問(wèn)答、國(guó)際前沿學(xué)術(shù)論文等權(quán)威的醫(yī)學(xué)知識(shí).
醫(yī)療問(wèn)答系統(tǒng)是醫(yī)療信息檢索系統(tǒng)的一種高級(jí)形式,能夠以準(zhǔn)確簡(jiǎn)潔的自然語(yǔ)言形式為用戶提供問(wèn)題的解答.多數(shù)基于知識(shí)圖譜的醫(yī)療問(wèn)答系統(tǒng)將給定的問(wèn)題分解為多個(gè)小的問(wèn)題,然后逐一去知識(shí)庫(kù)抽取匹配的答案,并自動(dòng)檢測(cè)答案在時(shí)間和空間上的吻合度等,最后將答案進(jìn)行合并,以直觀的方式展示給用戶.IBM的Walson、微軟的“小冰”都是融合知識(shí)圖譜的問(wèn)答系統(tǒng)的代表產(chǎn)品.在醫(yī)學(xué)領(lǐng)域,受限于現(xiàn)有醫(yī)學(xué)知識(shí)圖譜的推理能力,市場(chǎng)上尚未出現(xiàn)比較成熟的醫(yī)療問(wèn)答系統(tǒng).
研究人員針對(duì)知識(shí)圖譜與醫(yī)療問(wèn)答系統(tǒng)的融合開(kāi)展了許多相關(guān)研究.文獻(xiàn)[56]提出了一種基于自然語(yǔ)言處理的醫(yī)療問(wèn)答系統(tǒng),首先對(duì)比了先前4種基于醫(yī)學(xué)本體的醫(yī)療問(wèn)答系統(tǒng),并結(jié)合醫(yī)學(xué)領(lǐng)域知識(shí)、自然語(yǔ)言處理相關(guān)技術(shù)和語(yǔ)義關(guān)系構(gòu)建知識(shí)圖譜,實(shí)現(xiàn)了醫(yī)療問(wèn)題的自動(dòng)化回答;文獻(xiàn)[57]構(gòu)建了包括疾病庫(kù)、癥狀庫(kù)、中草藥庫(kù)等的中醫(yī)藥知識(shí)圖譜,利用文本抽取、關(guān)系數(shù)據(jù)轉(zhuǎn)換以及數(shù)據(jù)融合等技術(shù),探索中醫(yī)藥知識(shí)圖譜自動(dòng)化構(gòu)建方法與標(biāo)準(zhǔn)化流程,實(shí)現(xiàn)中醫(yī)藥知識(shí)圖譜的智能應(yīng)用,包括基于模板的中醫(yī)藥知識(shí)問(wèn)答和基于知識(shí)圖譜推理的輔助用藥;針對(duì)已有工作在除關(guān)注上下文之外,對(duì)起著重要作用的背景知識(shí)關(guān)注很少的問(wèn)題,文獻(xiàn)[58]提出了一種具有知識(shí)感知能力的雙向長(zhǎng)短記憶模型,它利用醫(yī)學(xué)知識(shí)圖譜引入的背景知識(shí)來(lái)豐富問(wèn)答的表征學(xué)習(xí).模型的核心是一個(gè)上下文引導(dǎo)的注意力神經(jīng)網(wǎng)絡(luò),通過(guò)將知識(shí)圖譜中的背景知識(shí)嵌入整合到句子表示中,并結(jié)合知識(shí)型注意力機(jī)制模塊,對(duì)問(wèn)題和答案中的各個(gè)部分進(jìn)行有效的相互關(guān)聯(lián).通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法在WikiQA 和TREC QA數(shù)據(jù)集上的效果,實(shí)驗(yàn)結(jié)果證明:該方法對(duì)于醫(yī)療問(wèn)答準(zhǔn)確性的提升具有一定有效性.
知識(shí)圖譜技術(shù)是對(duì)語(yǔ)義網(wǎng)技術(shù)的一次改造和升華.自Google提出知識(shí)圖譜這一概念至今,其熱度仍然只增不減.通過(guò)對(duì)知識(shí)圖譜構(gòu)建技術(shù)體系進(jìn)行深入觀察和分析,可以看出它是建立在多學(xué)科領(lǐng)域研究成果的基礎(chǔ)之上的一門實(shí)用技術(shù),是人工智能、信息檢索、自然語(yǔ)言處理、萬(wàn)維網(wǎng)等交叉領(lǐng)域的理論研究熱點(diǎn)和應(yīng)用技術(shù)的集合.就醫(yī)學(xué)領(lǐng)域而言,由于醫(yī)學(xué)知識(shí)和規(guī)則的專業(yè)性、規(guī)范性、術(shù)語(yǔ)有限性等特點(diǎn),可以從標(biāo)準(zhǔn)化醫(yī)學(xué)詞典、醫(yī)學(xué)數(shù)據(jù)庫(kù)等來(lái)源中獲取高質(zhì)量數(shù)據(jù)并構(gòu)建醫(yī)學(xué)知識(shí)圖譜.雖然目前有很多項(xiàng)目進(jìn)行醫(yī)學(xué)知識(shí)圖譜技術(shù)的研究,但醫(yī)學(xué)知識(shí)圖譜構(gòu)建的關(guān)鍵環(huán)節(jié)還面臨著一些巨大的困難和挑戰(zhàn).
1) 文本抽取難度大.在醫(yī)學(xué)知識(shí)抽取環(huán)節(jié),面向開(kāi)放域的知識(shí)抽取方法研究還處于起步階段.部分研究成果雖然在特定數(shù)據(jù)集上取得了較好的結(jié)果,但普遍存在算法準(zhǔn)確性低、限制條件多、擴(kuò)展性不好等問(wèn)題.尤其是醫(yī)學(xué)電子病歷抽取過(guò)程中涉及到的純文本信息抽取是當(dāng)前面臨的重要挑戰(zhàn).
2) 實(shí)體對(duì)應(yīng)不準(zhǔn)確.醫(yī)學(xué)知識(shí)融合階段的主要挑戰(zhàn)就是實(shí)現(xiàn)準(zhǔn)確的實(shí)體鏈接.雖然關(guān)于實(shí)體消歧、共指消解技術(shù)的研究已經(jīng)有很長(zhǎng)時(shí)間的歷史,但是由于醫(yī)學(xué)知識(shí)來(lái)源的多樣性導(dǎo)致醫(yī)學(xué)實(shí)體在不同的數(shù)據(jù)源中存在嚴(yán)重的多源指代問(wèn)題,而迄今為止所取得的研究成果距離醫(yī)學(xué)領(lǐng)域的實(shí)際應(yīng)用還有很大的距離.如何在上下文信息受限(跨語(yǔ)境、跨文本等)的條件下準(zhǔn)確地將文本中抽取的實(shí)體正確連接到醫(yī)學(xué)知識(shí)庫(kù)中是當(dāng)前學(xué)術(shù)界普遍關(guān)注的問(wèn)題.
3) 知識(shí)圖譜存儲(chǔ)方式.目前醫(yī)學(xué)知識(shí)圖譜主要采用圖數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),在受益于圖數(shù)據(jù)庫(kù)帶來(lái)的查詢效率的同時(shí),也會(huì)失去關(guān)系型數(shù)據(jù)庫(kù)的優(yōu)點(diǎn),例如圖數(shù)據(jù)庫(kù)不能支持SQL語(yǔ)言查詢、查詢效率較低等.將自然語(yǔ)言的查詢語(yǔ)句翻譯為知識(shí)圖譜可以理解的查詢表達(dá)式及等價(jià)表達(dá)式也是醫(yī)學(xué)知識(shí)圖譜應(yīng)用需要解決的關(guān)鍵問(wèn)題.
在醫(yī)療領(lǐng)域中,隨著醫(yī)學(xué)信息化水平的逐步深入,積累了大量醫(yī)學(xué)數(shù)據(jù),醫(yī)療數(shù)據(jù)的有效使用對(duì)精準(zhǔn)醫(yī)療、疾病防控、研發(fā)新藥、醫(yī)療費(fèi)用控制、攻克頑疾、健康管理等工作都有著重要的意義.構(gòu)建醫(yī)療領(lǐng)域的知識(shí)圖譜提供了一種從海量醫(yī)學(xué)文本和圖像中抽取結(jié)構(gòu)化知識(shí)的手段,具有廣闊的應(yīng)用前景.本文從醫(yī)學(xué)知識(shí)圖譜構(gòu)建的視角出發(fā),對(duì)醫(yī)學(xué)知識(shí)圖譜的架構(gòu)、醫(yī)學(xué)知識(shí)圖譜構(gòu)建關(guān)鍵技術(shù)以及研究應(yīng)用發(fā)展現(xiàn)狀進(jìn)行了全面調(diào)研和深入分析,并對(duì)醫(yī)學(xué)知識(shí)圖譜構(gòu)建工作所面臨的重要挑戰(zhàn)和關(guān)鍵問(wèn)題進(jìn)行了總結(jié).
知識(shí)圖譜在醫(yī)療領(lǐng)域的意義不僅在于它是一個(gè)全局醫(yī)學(xué)知識(shí)庫(kù),也是支撐例如輔助診療、智能搜索等醫(yī)療智能應(yīng)用的基礎(chǔ),而且在于它是一把打開(kāi)人類知識(shí)寶庫(kù)的鑰匙,它能夠推進(jìn)醫(yī)學(xué)數(shù)據(jù)自動(dòng)化和智能化處理,為醫(yī)療行業(yè)帶來(lái)新的發(fā)展契機(jī).