,, ,
隨著互聯(lián)網(wǎng)、大數(shù)據(jù)等技術(shù)的發(fā)展,各領(lǐng)域的數(shù)據(jù)和知識都呈爆炸式的增長,對知識進行高效組織和管理的需求不斷增加。知識圖譜是在大數(shù)據(jù)背景下產(chǎn)生的一種高效的知識表示和管理方式[1],能夠支持綜合性的知識檢索、問答、決策支持、可視化分析等智能應用[2-4]。目前,知識圖譜已經(jīng)被應用到各行各業(yè)中,如醫(yī)學、金融、農(nóng)業(yè)等領(lǐng)域的信息檢索、知識問答、知識推理等。但現(xiàn)有的知名知識圖譜大多適用于通用領(lǐng)域,如谷歌知識圖譜、Facebook興趣圖譜、搜狗“知立方”等,專業(yè)學術(shù)領(lǐng)域相關(guān)的研究和應用還相對較少,無法滿足科研人員的需求。因此,面向特定領(lǐng)域的知識圖譜研究與實踐變得尤為重要。
近年來,研究者圍繞醫(yī)學知識圖譜的構(gòu)建與應用開展了大量研究,如Maya等人提出了一種從電子醫(yī)學病歷中自動提取疾病和癥狀概念并自動構(gòu)建知識圖譜的方法[5],Meng Wang等人通過構(gòu)建層次化知識圖譜來獲取電子醫(yī)學病歷中患者、疾病和藥物之間的關(guān)系[6],Longxiang Shi等人探索了一種可以實現(xiàn)知識圖譜中異構(gòu)醫(yī)學健康知識和服務自動檢索的新模型[7],以及面向知識圖譜的可視化分析[8-10]和應用研究[11-12]等?,F(xiàn)有的醫(yī)學知識圖譜研究多集中于臨床數(shù)據(jù)和文獻資源,而面向醫(yī)學百科數(shù)據(jù)的知識圖譜研究還較為匱乏。因此,本文將借鑒谷歌知識圖譜構(gòu)建的技術(shù)和經(jīng)驗,選取較為規(guī)范的醫(yī)學百科數(shù)據(jù)作為知識圖譜的應用案例,構(gòu)建面向重大疾病的醫(yī)學百科知識圖譜,以期為相關(guān)人員提供知識的高效搜索,為知識間關(guān)聯(lián)關(guān)系的發(fā)現(xiàn)奠定基礎(chǔ),并最終應用于醫(yī)藥衛(wèi)生專業(yè)知識服務系統(tǒng)平臺,輔助開展知識的語義關(guān)聯(lián)和搜索,以及知識問答、智能診斷等更為深入的應用。
本文利用醫(yī)學百科數(shù)據(jù)進行醫(yī)學百科數(shù)據(jù)的知識圖譜構(gòu)建,從數(shù)據(jù)獲取、實體識別、關(guān)系抽取、可視化展示等方面闡述醫(yī)學知識圖譜的構(gòu)建流程,最后應用于“中國工程科技知識中心醫(yī)藥衛(wèi)生專業(yè)知識服務系統(tǒng)平臺”,實現(xiàn)醫(yī)學知識圖譜的應用。
知識圖譜的構(gòu)建方法可歸納為自頂向下和自底向上兩種[13]。自頂向下的方法是先構(gòu)建知識圖譜的本體,自底向上的方法則是從實體層開始構(gòu)建[14],然而實際構(gòu)建過程中一般是2種方法結(jié)合著使用。知識圖譜的構(gòu)建涉及實體抽取和實體之間關(guān)系的建立[15],首先需要從數(shù)據(jù)中提取出實體、關(guān)系和屬性,然后利用圖譜繪制軟件或工具生成相應的圖譜,可視化展示實體及實體間的關(guān)系。
醫(yī)學百科知識圖譜的構(gòu)建流程與之相似,分為知識獲取、知識處理和知識應用3部分。針對半結(jié)構(gòu)化的醫(yī)學百科數(shù)據(jù),需通過命名實體識別、實體關(guān)系抽取等技術(shù)進行結(jié)構(gòu)化處理,形成對應的知識三元組,然后利用相關(guān)軟件和工具將其轉(zhuǎn)換為另一種可視化、直觀的表示形式,即知識圖譜。具體流程如圖1所示。
知識獲取即調(diào)研、收集擬處理的數(shù)據(jù)對象,以數(shù)據(jù)的可靠性、完整性、權(quán)威性為目標,以確保數(shù)據(jù)在后續(xù)處理、分析、評估及共享過程中的合理性和價值。隨著健康問題的關(guān)注度持續(xù)上升,積極開展健康知識的研究也是實現(xiàn)“健康中國2030”的重要保障。醫(yī)學百科是公眾獲取健康知識的一種重要途徑,好的展示方式將有助于用戶更有效地了解相關(guān)知識,從而促進重大疾病的預防和篩查??紤]到醫(yī)學百科數(shù)據(jù)量較大,本文擬選取目前疾病負擔較重的腫瘤、心腦血管疾病、呼吸系統(tǒng)疾病等探索醫(yī)學百科知識圖譜的構(gòu)建方法,并以發(fā)病率較高的哮喘為例進行詳細說明。
圖1 醫(yī)學百科知識圖譜構(gòu)建流程
“百科名醫(yī)網(wǎng)”(http://www.baikemy.com/)是國家衛(wèi)健委(原“衛(wèi)生計生委”)權(quán)威醫(yī)學科普項目唯一的指定網(wǎng)站,涵蓋了大量醫(yī)學和養(yǎng)生知識,擁有嚴格的質(zhì)量控制和審核機制,內(nèi)容嚴謹、科學。鑒于其數(shù)據(jù)內(nèi)容全面、質(zhì)量可靠、權(quán)威性高,本文使用Java語言通過網(wǎng)絡(luò)爬蟲方法抓取“百科名醫(yī)網(wǎng)”中與腫瘤、心腦血管疾病、呼吸系統(tǒng)疾病等主題相關(guān)的詞條信息,為后續(xù)知識處理產(chǎn)生原始數(shù)據(jù)基礎(chǔ)。
本文基于該爬蟲程序構(gòu)建了醫(yī)學百科數(shù)據(jù)集,并采用人工剔除的方式輔助篩選出了82條詞條信息,包括疾病名稱、臨床表現(xiàn)癥狀、原因、診斷、治療、預防等內(nèi)容。同時對采集的詞條信息進行數(shù)據(jù)清洗、編輯、分組、排序、重復值刪除、規(guī)約等一系列預處理操作,以保證數(shù)據(jù)的完整和準確。
知識處理是指通過命名實體識別、實體關(guān)系提取等技術(shù)和方法對所收集的數(shù)據(jù)進行的規(guī)范化處理。其中,命名實體識別技術(shù)是信息抽取、機器翻譯、問答系統(tǒng)等多種自然語言處理技術(shù)必不可少的組成部分,也是構(gòu)建知識圖譜的重要手段之一[16-18];實體關(guān)系抽取的目的則是確定文本中實體對之間的關(guān)系,具體而言就是利用關(guān)系抽取技術(shù),從無結(jié)構(gòu)的海量文本中提取出格式統(tǒng)一的數(shù)據(jù),然后借助計算機快速處理文本,抽取實體之間的語義關(guān)系,從而構(gòu)建出眾多實體之間的關(guān)聯(lián)信息[19-20]。盡管目前面向命名實體識別、實體關(guān)系抽取任務的工具有很多,如針對疾病的工具DNorm-0.06、針對藥物的工具tmChemM1-0.02等,但大多只適用于某些特定的應用場景。因此,根據(jù)實際需要選取相應的工具提取實體及實體間的關(guān)系信息至關(guān)重要。
1.3.1 命名實體識別
本文通過中文命名實體識別工具Stanford NLP識別出有效的疾病、癥狀等實體,為后續(xù)實體關(guān)系的抽取奠定基礎(chǔ)。此外,為了確保數(shù)據(jù)質(zhì)量,聘請專業(yè)人員對識別結(jié)果進行審核、校對,修改未能正確識別的命名實體。
通過對上述百科數(shù)據(jù)集進行癥狀、診斷、病因等命名實體的識別與校對,共得到1 876個實體。本文以哮喘的部分文本為例進行分析說明。圖2為哮喘百科文本中識別出的實體情況,包括病因、癥狀、診斷等相關(guān)概念實體,每個實體又包含了實體的名稱、實體的類型等。
圖2 “哮喘”百科文本中相關(guān)命名實體
通過對上述“哮喘”百科文本數(shù)據(jù)進行命名實體的識別,共識別出41個相關(guān)實體。其中病因?qū)嶓w15個、癥狀實體9個、治療實體9個、診斷實體2個、檢查實體6個。
1.3.2 實體關(guān)系抽取
實體關(guān)系抽取是構(gòu)建知識圖譜的重要環(huán)節(jié)之一,主要是根據(jù)實體的屬性、類別、消歧信息、關(guān)鍵詞等特征確定實體的所屬關(guān)系類別。
醫(yī)學領(lǐng)域數(shù)據(jù)具有內(nèi)容豐富、信息量大、潛在價值高等特點,因此對該領(lǐng)域的數(shù)據(jù)進行關(guān)系抽取具有非常重要的意義。如醫(yī)學百科的關(guān)系抽取可以幫助公眾快速了解疾病的病因和癥狀,電子病歷的關(guān)系抽取可以用于臨床決策支持等。
醫(yī)學領(lǐng)域?qū)嶓w關(guān)系抽取的任務主要是抽取疾病和藥物、疾病和癥狀、疾病和基因、疾病和疾病、藥物和癥狀、藥物和藥物等實體間的關(guān)聯(lián)關(guān)系,從而為患者和領(lǐng)域?qū)<姨峁┲С帧?/p>
首先,抽取每個實體所對應的特征和關(guān)鍵詞等信息。百科中的實體都對應著一些結(jié)構(gòu)化和半結(jié)構(gòu)化的特征,本文將采用這些特征來表示實體的類型(圖3),如“哮喘”百科文本中描述的語義特征包括類別特征、上下文特征、關(guān)系特征、別名等。另外,文本中的關(guān)鍵詞也能對實體之間的關(guān)系起到一定的提示作用,如兩個實體之間的關(guān)系為“治療”,那么句子中就可能包含消除、減緩、恢復、控制等關(guān)鍵詞[21]。
然后根據(jù)抽取出的實體及其特征和關(guān)鍵詞信息進行實體關(guān)系的標注,并用RDF三元組表示,如“哮喘”的癥狀表現(xiàn)為“胸悶”、檢查方式有“肺活量”等;同時能夠展示層次化的關(guān)系,如“哮喘”的病因有“敏感原”,“敏感原”又包括“花粉”等(圖4)。
本文將識別的疾病、癥狀、診斷、治療等相關(guān)的實體和概念使用xml技術(shù)存儲于數(shù)據(jù)庫中(圖5),然后基于dom4j、XPath等技術(shù)對xml文件進行解析,構(gòu)造相應參數(shù),為后續(xù)的可視化分析和展示奠定基礎(chǔ)。
圖3 百科中“哮喘”的實體特征
圖4 RDF三元組表示
圖5 知識存儲情況
知識應用是基于上述知識提供的知識圖譜、輔助語義搜索、可視化分析、智能問答、專家系統(tǒng)等功能和應用。其中醫(yī)學知識圖譜是一種新型、直觀的實體關(guān)系展示方式,可基于實體的概念、屬性、關(guān)系等生成多元的可視化知識圖譜;可視化技術(shù)可以利用計算機技術(shù)將醫(yī)學數(shù)據(jù)轉(zhuǎn)換為圖形或圖像,提高交互能力。通過對疾病、藥物、癥狀等醫(yī)學數(shù)據(jù)的可視化處理,能夠?qū)崿F(xiàn)更好的視覺效果,同時也更容易地被用戶所關(guān)注,幫助用戶快速發(fā)現(xiàn)感興趣的內(nèi)容、挖掘知識間的關(guān)聯(lián)關(guān)系。常用的可視化工具有CiteSpace[22]、Tableau[23]、R語言[24]等,各類工具的功能和視覺效果都各有側(cè)重,應具體情況具體分析。
圖形化展示是知識圖譜構(gòu)建的重要部分。本文選取開源免費的ECharts可視化圖表工具對上述百科實體及其關(guān)系進行可視化展示,直觀、生動、可交互、可個性化定制,還賦予用戶進行數(shù)據(jù)挖掘和整合的權(quán)限。
為實現(xiàn)上述百科實體關(guān)系的可視化應用與服務,本文設(shè)計了可用于人機交互展示的系統(tǒng)功能架構(gòu),并對各百科知識圖譜進行平臺系統(tǒng)實現(xiàn),在“醫(yī)藥衛(wèi)生專業(yè)知識服務系統(tǒng)(http://med.ckcest.cn)”中新增“知識圖譜”應用(圖6)。
圖6 知識圖譜應用系統(tǒng)頁面
該知識圖譜的應用實現(xiàn)了面向心腦血管疾病、腫瘤、呼吸系統(tǒng)疾病、慢性病等4個主題的醫(yī)學領(lǐng)域重大疾病的百科知識圖譜展示,以“哮喘”為例,提供“力導向布局圖”和“和弦圖”兩種可視化功能,用戶可根據(jù)需要隨意切換,如圖7、圖8所示。其中不同顏色、不同尺寸的圓圈表示不同級別的實體,“邊”表示實體間的關(guān)聯(lián)關(guān)系。如果想了解某兩個實體間的關(guān)系,只需將鼠標懸浮于此即可查看。其中,“力導向布局圖”還支持節(jié)點的拖拽功能,用戶可按需調(diào)整各實體的位置以達到最好的展示效果。另外,兩種圖提供圖片保存功能,方便后續(xù)開展對比分析和深入研究。
通過對“醫(yī)藥衛(wèi)生專業(yè)知識服務系統(tǒng)”后臺日志的分析,發(fā)現(xiàn)“知識圖譜”應用的嵌入使該系統(tǒng)中“百科數(shù)據(jù)”的訪問量有了突破性增加,有超過20%的用戶關(guān)注并瀏覽過知識圖譜應用,且用戶較為關(guān)注的內(nèi)容主要包括哮喘、乳腺癌、肺癌、腦卒中等疾病。
由此可見,可視化的知識圖譜應用符合領(lǐng)域人員的關(guān)注點,能為用戶更好地發(fā)現(xiàn)知識間的關(guān)聯(lián)關(guān)系提供幫助,并可大大提升平臺的訪問率和用戶體驗。結(jié)合各領(lǐng)域技術(shù)開展百科數(shù)據(jù)知識間的關(guān)聯(lián)與挖掘,可為相關(guān)人員了解疾病的發(fā)病與關(guān)聯(lián)因素,開展創(chuàng)新研究等提供新的視角,幫助公眾直觀獲取相關(guān)疾病的知識,提高對疾病的認知,為減少或預防高發(fā)疾病的發(fā)生提供依據(jù),為國家工程科技智庫在醫(yī)藥衛(wèi)生、公眾健康、科技創(chuàng)新等方面開展宏觀發(fā)展策略研究提供多元、智能的知識和服務,為我國醫(yī)藥衛(wèi)生事業(yè)發(fā)展做好服務支撐工作。
圖7 “力導向布局圖”可視化展示
圖8 “和弦圖”可視化展示
本文通過構(gòu)建面向重大疾病的醫(yī)學百科知識圖譜,實現(xiàn)了相關(guān)疾病、癥狀、藥物、病因、診斷、治療等知識的關(guān)聯(lián),提供了力導向布局圖和弦圖兩種可視化展示方式,且支持人機交互以及圖片下載保存的功能。在知識圖譜可視化的基礎(chǔ)上,用戶可以直觀獲取上述知識間的關(guān)系,并能通過人機交互的方式、根據(jù)個性化需求生成滿意的圖譜,從而為深入開展相關(guān)科學研究和知識潛在關(guān)聯(lián)關(guān)系的發(fā)現(xiàn)奠定基礎(chǔ)。
目前,知識圖譜技術(shù)僅應用于“醫(yī)藥衛(wèi)生專業(yè)知識服務系統(tǒng)”中“百科數(shù)據(jù)”的展示,尚未實現(xiàn)真正意義上的語義搜索。下一步,我們將繼續(xù)拓展醫(yī)學專家、研究機構(gòu)、專利、報告、文獻等類型資源,抽取各類資源所包含的概念、實體、屬性及其關(guān)系,圍繞共同概念和實體整合不同類型、不同來源的知識,形成豐富、多元的知識庫,從而構(gòu)建全面、巨大的知識圖譜,為“中國工程科技知識中心醫(yī)藥衛(wèi)生專業(yè)知識服務系統(tǒng)”提供全面的知識檢索和實體鏈接方法,提高知識檢索和獲取的效率。