陳月月 李燕
甘肅中醫(yī)藥大學(xué)信息工程學(xué)院 甘肅 蘭州 730101
知識圖譜的概念于2012年5月被美國Google公司正式提出,用以提升搜索引擎的能力。知識圖譜本質(zhì)上是一種以三元組的形式來對數(shù)據(jù)進行表示,用以揭示萬物之間關(guān)系的語義網(wǎng)絡(luò)。它能夠?qū)︻I(lǐng)域的異構(gòu)知識進行結(jié)構(gòu)化處理,并能夠很好地描述實體間的交互關(guān)系,解決領(lǐng)域中分散、復(fù)雜和孤立的數(shù)據(jù)問題,在醫(yī)療、生物、金融等領(lǐng)域得到廣泛應(yīng)用[1]。
知識圖譜技術(shù)提供了一種從海量文本和圖像中提取結(jié)構(gòu)化知識的方法,運用可視化技術(shù)對知識資源及其載體進行描述,挖掘、分析、構(gòu)建、映射和顯示知識及其之間的相互關(guān)系,是近年來互聯(lián)網(wǎng)領(lǐng)域中出現(xiàn)的一項新興技術(shù)。知識圖譜與大數(shù)據(jù)技術(shù)、深度學(xué)習(xí)技術(shù)相結(jié)合,正在成為推動人工智能發(fā)展的核心驅(qū)動力[2]。
醫(yī)學(xué)是知識圖譜應(yīng)用最廣泛的領(lǐng)域之一,醫(yī)學(xué)知識圖譜可以利用信息技術(shù)對海量醫(yī)學(xué)數(shù)據(jù)中的信息進行提煉,實現(xiàn)對知識的快速儲存和增加[3]。構(gòu)建醫(yī)學(xué)知識圖譜,抽取醫(yī)學(xué)領(lǐng)域的相關(guān)知識并對其進行合理的管理和應(yīng)用,能夠解決當前醫(yī)療數(shù)據(jù)龐雜、知識管理困難等問題。
特定的醫(yī)療服務(wù)需求通常需要構(gòu)建特定的醫(yī)療知識圖譜[4]。國內(nèi)部分學(xué)者針對某種疾病的治療對醫(yī)療知識圖譜進行了研究。例如,牟梓君[5]利用西安中醫(yī)腦病醫(yī)院電子醫(yī)療記錄和中醫(yī)兒科常見病診療指南等數(shù)據(jù)作為參考,構(gòu)建了小兒腦癱中醫(yī)診療知識圖譜,對小兒腦癱中醫(yī)辨治的相關(guān)的隱性知識進行挖掘和可視化管理,為小兒腦癱中醫(yī)診療方案做出優(yōu)化。孫敏敏等人[6]以醫(yī)學(xué)資源網(wǎng)站數(shù)據(jù)為基礎(chǔ),設(shè)計構(gòu)建肺部疾病知識圖譜,旨在幫助醫(yī)生或患者及時發(fā)現(xiàn)病情,為醫(yī)學(xué)決策提供技術(shù)支持。楊江[7]在現(xiàn)有知識圖譜的構(gòu)建基礎(chǔ)上,構(gòu)建了以影像檢查為中心的醫(yī)療知識圖譜,并根據(jù)構(gòu)建完成的醫(yī)療影響知識圖譜進行了應(yīng)用平臺的搭建,為用戶提供了相應(yīng)的醫(yī)療影像知識查詢以及疑似疾病推斷等功能,促進了醫(yī)療影像知識的應(yīng)用。
知識圖譜的構(gòu)建是利用知識表示、知識抽取、知識融合、知識推理和知識存儲等自然語言處理技術(shù)對海量異構(gòu)數(shù)據(jù)進行整合和抽取,從中提取精準的知識,并將知識低冗余的進行存儲的過程。知識圖譜的構(gòu)建過程如圖1所示。
圖1 知識圖譜構(gòu)建過程
知識圖譜中,知識表示是描述知識的一種方式,其運用計算機可以理解和接受的數(shù)據(jù)格式將真實世界中的海量信息轉(zhuǎn)化為符合計算機處理模式的結(jié)構(gòu)化數(shù)據(jù)。醫(yī)學(xué)知識表示主要是以形式化和模式化的語言來對醫(yī)學(xué)知識進行表示,提高計算機在醫(yī)學(xué)知識獲取、處理、存儲以及應(yīng)用上的效率。近年來,本體表示法已成為最常用的知識表示方法。
知識抽取是從異構(gòu)數(shù)據(jù)中抽取出實體、關(guān)系和屬性的過程。知識抽取包括命名實體識別和關(guān)系抽取兩個核心任務(wù)。在醫(yī)學(xué)領(lǐng)域,知識抽取工作包括從醫(yī)學(xué)文本中識別出疾病、癥狀、藥物等實體(如圖2所示),并對這些實體間的交互關(guān)系進行提取,這對于醫(yī)學(xué)數(shù)據(jù)挖掘和知識發(fā)現(xiàn)研究的開展有著重要的意義和應(yīng)用價值[8]。
圖2 醫(yī)學(xué)文本中的實體
命名實體識別是知識抽取和知識挖掘的第一步,其目的是識別出文本中的實體,并將其按照統(tǒng)一的規(guī)范進行表示。醫(yī)學(xué)實體抽取是從醫(yī)學(xué)數(shù)據(jù)中抽取出特定類型的命名實體,比如疾病、藥物、癥狀等。近年來,隨著深度學(xué)習(xí)的興起以及深度學(xué)習(xí)在命名實體識別任務(wù)中的出色表現(xiàn),使得基于深度學(xué)習(xí)的實體識別方法得到廣泛的應(yīng)用。
實體關(guān)系抽取的目的是為了將抽取出來的實體間的語義關(guān)系表示為實體關(guān)系三元組。醫(yī)學(xué)實體關(guān)系抽取可以分為醫(yī)學(xué)實體層級關(guān)系抽取和非層次關(guān)系抽取兩個層級,對于不同類型實體層級關(guān)系抽取而言,關(guān)系類型通常分為兩種,一種是上下位關(guān)系、一種是部分和整體的關(guān)系[9]。例如,“卒中”與“缺血性卒中”是上下位關(guān)系,“偏癱”與“卒中”是癥狀與疾病的關(guān)系,屬于部分和整體的關(guān)系。由于醫(yī)學(xué)領(lǐng)域知識的嚴謹性和規(guī)范性,這部分關(guān)系往往在醫(yī)學(xué)詞典、標準化指定中進行專家構(gòu)建[10]。由于深度學(xué)習(xí)方法具有自動提取特征、泛化能力強等優(yōu)點,隨著醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集的不斷擴大,針對醫(yī)學(xué)領(lǐng)域?qū)嶓w關(guān)系的抽取,多采用深度學(xué)習(xí)的方法。
醫(yī)學(xué)知識融合的目的是將醫(yī)學(xué)信息抽取中獲得的不同來源、不同結(jié)構(gòu)、不同表示方式的數(shù)據(jù)進行整合,最終實現(xiàn)多源異構(gòu)醫(yī)學(xué)數(shù)據(jù)在同一框架下的標準化表示。知識融合建立在知識抽取的基礎(chǔ)上,通過醫(yī)學(xué)知識融合技術(shù),從知識抽取中提取的事實可以減少歧義、冗余和錯誤。醫(yī)學(xué)知識融合的關(guān)鍵技術(shù)有實體對齊技術(shù)、實體鏈接技術(shù)和關(guān)系推演技術(shù)。其中,實體對齊技術(shù)用于消除本體和數(shù)據(jù)源的異構(gòu)性;實體鏈接是醫(yī)學(xué)知識融合的基礎(chǔ),通過消歧等操作消除知識中的不一致;關(guān)系推演用于發(fā)現(xiàn)隱含知識,從而擴展和完善醫(yī)學(xué)知識庫。
知識推理是根據(jù)已有知識庫,采用相關(guān)算法,實現(xiàn)對知識圖譜的探索和挖掘。通過知識推理,可以發(fā)掘并推斷出缺失和隱藏的醫(yī)學(xué)知識,自動地把醫(yī)學(xué)知識圖譜中的舊知識進行更新,并為知識圖譜補充新的知識。在醫(yī)學(xué)知識圖譜中,知識推理要有搜集數(shù)據(jù)、診斷疾病、提供治療方法的功能。
知識存儲的目的是確定合理高效的知識圖譜存儲方式。如圖3所示,知識圖譜主要有基于資源描述框架(Resource Description Framework,RDF)的存儲、傳統(tǒng)關(guān)系型數(shù)據(jù)庫(Relational Database,RDB)存儲和基于圖數(shù)據(jù)庫(Graph Database,GDB)的存儲。
表1 知識存儲
基于醫(yī)學(xué)知識圖譜更側(cè)重于實體之間的關(guān)系(例如藥物-疾病、疾病-表征、藥物-藥物及藥物-表征)的特點,醫(yī)學(xué)知識圖譜的存儲基本采用圖數(shù)據(jù)庫,其中應(yīng)用最廣泛的為Neo4j系統(tǒng)[11]。Neo4j是一個高性能的、開源的非關(guān)系型圖形數(shù)據(jù)庫系統(tǒng),具有完整的ACID支持,是構(gòu)建知識圖譜的可視化工具。Neo4j將數(shù)據(jù)存儲在一個超大型的網(wǎng)絡(luò)上,不僅可以將數(shù)據(jù)中的知識存儲成直觀的圖模式,還可以通過Neo4j的遍歷工具對圖模式進行知識檢索與數(shù)據(jù)分析[12],非常適用于基于圖結(jié)構(gòu)的知識圖譜的存儲。
醫(yī)學(xué)知識圖譜以特有的技術(shù)優(yōu)勢順應(yīng)了醫(yī)療信息化時代的發(fā)展,高效地將知識圖譜應(yīng)用于醫(yī)學(xué)領(lǐng)域?qū)⒔o人類的醫(yī)療衛(wèi)生帶來革命性的變化[13]。
隨著醫(yī)療信息化的發(fā)展,以醫(yī)學(xué)知識圖譜為核心的醫(yī)療信息搜索引擎已經(jīng)成為最重要的醫(yī)學(xué)信息檢索方式。知識圖譜與醫(yī)療信息搜索引擎相結(jié)合,可以提高搜索引擎的檢索效率,優(yōu)化搜索結(jié)果,為用戶的查詢工作和搜索引擎的更新發(fā)展提供了有力的支持和保障[14]。目前,主流的醫(yī)療信息搜索引擎包括Web Md、Pub Med等,它們聚合了權(quán)威的醫(yī)療知識,可以為用戶提供真實可靠的醫(yī)療信息知識,很好地解答了用戶的醫(yī)療知識疑問。
隨著互聯(lián)網(wǎng)醫(yī)療的興起,各種提供醫(yī)療健康信息的在線咨詢平臺迅速發(fā)展起來?;谥R圖譜的醫(yī)療問答系統(tǒng)可以快速響應(yīng)醫(yī)患用戶提出的問題,并給出準確、有效的解答。由于該方式具有快捷、方便、隱私等特點,使得各醫(yī)療平臺的問答數(shù)據(jù)激增,有限的醫(yī)生資源無法對這些問答數(shù)據(jù)做出及時的解答[15]。因此,基于現(xiàn)有的網(wǎng)絡(luò)問診數(shù)據(jù),構(gòu)建醫(yī)學(xué)智能問答系統(tǒng)可以有效減輕醫(yī)生的負擔,合理配置醫(yī)療資源,提高患者的使用體驗。醫(yī)療問答系統(tǒng)是知識圖譜在醫(yī)學(xué)領(lǐng)域中典型的應(yīng)用場景,正在改變著醫(yī)療生態(tài)的發(fā)展,知識圖譜與醫(yī)療問答系統(tǒng)相結(jié)合是目前的研究熱點,具有重要的應(yīng)用前景。
隨著醫(yī)療數(shù)據(jù)的快速增長,人們越來越重視醫(yī)療決策工作的效率,應(yīng)用知識圖譜輔助醫(yī)療決策工作的開展,可以有效提高決策效率,逐漸成為醫(yī)療決策支持系統(tǒng)開發(fā)的研究熱點。醫(yī)療決策支持系統(tǒng)可以根據(jù)患者的癥狀表現(xiàn)和檢查數(shù)據(jù)模擬醫(yī)生的診斷,給出合理的治療方案,還可以對醫(yī)生給出的診療方案進行評估和分析,輔助醫(yī)生診療。醫(yī)療決策直接影響到患者的健康狀況和疾病的治療效果,因此,醫(yī)療決策必須保持真實性和正確性。在醫(yī)療決策系統(tǒng)的實際應(yīng)用中,由于其仍然存在知識不完善和決策結(jié)果可靠性不高等方面的問題,因此,基于知識圖譜的醫(yī)療決策系統(tǒng)在實際應(yīng)用中更多的還是扮演輔助診療的角色。
知識圖譜為醫(yī)療信息系統(tǒng)中海量、異構(gòu)、動態(tài)的醫(yī)療大數(shù)據(jù)的表達、組織、管理及利用提供了一種更為有效的方式,使醫(yī)療系統(tǒng)能夠更加接近于人類的認知思維,提高了醫(yī)療系統(tǒng)的智能化水平。利用知識圖譜技術(shù),可以更好地理解各種各樣的知識,從而為用戶提供智能化、結(jié)構(gòu)化的數(shù)據(jù)源和服務(wù)。構(gòu)建醫(yī)學(xué)知識圖譜,可以解決醫(yī)學(xué)領(lǐng)域知識數(shù)據(jù)復(fù)雜、知識管理困難的問題,未來將具有廣闊的應(yīng)用和發(fā)展前景。