鄭少宇,滕 飛△,馬 征,陳澤君,馬 虹,吳 潔
(1.西南交通大學信息科學與技術(shù)學院,成都 611700;2.四川省成都市第六人民醫(yī)院 610000)
截至2018年11月,全國醫(yī)療衛(wèi)生機構(gòu)全年總診療人次達75.4億人次,較2017年同比提高3.2%[1]。在就醫(yī)人數(shù)逐年增加的背后,是我國醫(yī)療衛(wèi)生體制改革的不斷深化和醫(yī)療行業(yè)體量的高速擴張。在這樣的環(huán)境下,傳統(tǒng)的醫(yī)學知識存儲模式和應用方法都受到了極大的挑戰(zhàn)。
在存儲模式方面,近年來興起的知識圖譜憑借其易拓展、易解釋、易應用等諸多優(yōu)勢,在醫(yī)學知識存儲領域得到廣泛應用。在中文醫(yī)學知識圖譜方面,近期較突出的研究成果有CMeKG[2]、中醫(yī)藥知識圖譜[3-4]等。這些知識圖譜結(jié)構(gòu)化地表示了常見疾病與其癥狀、治療方案等之間的關(guān)系,對于臨床工作有著重要意義。
隨著醫(yī)學知識存儲模式一同改變的還有醫(yī)學知識的應用方式。其中,臨床決策支持作為最早提出的數(shù)字化醫(yī)學知識應用方式之一,已從最初只能支持單病種診療輔助的專家系統(tǒng),發(fā)展出了醫(yī)學知識問答、臨床環(huán)節(jié)質(zhì)控、慢病管理等多種應用形式,業(yè)內(nèi)亦不乏Watson、惠美、嘉和美康等優(yōu)秀成果。但由于臨床工作的特殊性,使用知識圖譜進行決策支持仍面臨諸多困難。主要原因是:(1)臨床知識結(jié)構(gòu)復雜,應用級圖譜的構(gòu)建難度和成本較高;(2)臨床工作專業(yè)化程度極高,致使臨床輔助方法設計難度較大。
鑒于目前我國醫(yī)療行業(yè)對于高質(zhì)量臨床決策支持系統(tǒng)的迫切需求及臨床醫(yī)學知識圖譜構(gòu)建和應用所面臨的諸多難點,本研究選擇以知識圖譜作為知識載體,從臨床工作的實際流程和需求出發(fā),探究醫(yī)學知識圖譜在臨床決策支持領域的應用方法。設計了流程化的臨床醫(yī)學知識圖譜構(gòu)建方法,并根據(jù)臨床工作的實際流程開發(fā)了支持在圖譜上直接進行邏輯推理的臨床決策支持系統(tǒng)。
與大多數(shù)知識圖譜構(gòu)建工作所涉及的流程類似,醫(yī)學知識圖譜的構(gòu)建也需要經(jīng)過本體建模和實例抽取兩個步驟。且由于醫(yī)學知識的特殊性,應用級醫(yī)學圖譜對于知識準確性的要求遠高于通識領域,因此更需要合理的圖譜構(gòu)建流程。
在中文醫(yī)學知識圖譜方面,近年來較成熟的有CMeKG[2]、中醫(yī)藥知識圖譜[3-4]等面向多疾病的大規(guī)模圖譜,以及乳腺腫瘤知識圖譜[5]、高發(fā)性孕期疾病知識圖譜[6]等面向單一病種的中小規(guī)模圖譜。上述圖譜多圍繞疾病、藥物和治療手段這三類實體為核心進行構(gòu)建,著重知識描述而非面向特定的知識應用,因此部分圖譜的復雜度遠不能達到臨床決策支持的要求。以癥狀類實體為例,多數(shù)圖譜中該類實體僅有“癥狀名”這一屬性,而缺失了癥狀對于某一疾病而言的持續(xù)時間、發(fā)生條件等臨床工作中重點關(guān)注的信息,這也是目前多數(shù)醫(yī)學知識圖譜的普遍缺陷。
臨床決策支持的概念最早可以追溯到20世紀50年代末,80年代由BUCHANAN等研制出了首個臨床決策支持系統(tǒng)(CDSS)。國內(nèi)CDSS研究,大致可分為基于規(guī)則、基于案例和基于模型三類,陳全福等[7]使用案例推理(case-based reasoning,CBR),通過深度學習算法對案例進行匹配,進而給出診療建議。葉楓等[8]針對老年癡呆癥的診斷,設計了一個老年癡呆癥臨床決策支持系統(tǒng),用于輔助醫(yī)生對老年癡呆癥進行診斷。劉永斌等[9]提出基于知識庫的臨床決策支持系統(tǒng)技術(shù)框架,通過建立權(quán)威知識庫來為臨床工作提供建議。上述工作為中文CDSS構(gòu)建提供了寶貴的實踐經(jīng)驗,但也反映了目前CDSS構(gòu)建中面臨的諸如推理機可解釋性欠佳、知識庫構(gòu)建困難等常見問題。
知識圖譜構(gòu)建主要分為本體層建模和實例層構(gòu)建兩個階段。目前本體層建模方法主要有7步法、骨架法、TOVE法、SENSUS法[10]等,這些抽取方法主要還是依托領域?qū)<?,根?jù)需要覆蓋的知識領域和面向的實際任務進行知識分類。本研究主要參考7步法和骨架法進行圖譜本體層設計。
2.2.1提取領域知識中的類及屬性
領域知識通過抽象以后可得到基本的類和屬性。其中,類是指領域知識中的核心概念,如臨床醫(yī)學知識中的“疾病”“癥狀”等概念,類的實例稱為知識元。屬性可以分為對象屬性和數(shù)據(jù)屬性兩種。對象屬性用于定義類之間關(guān)系,如“(疾病)-表現(xiàn)為-(癥狀)”,而數(shù)據(jù)屬性則用于定義類與描述該類某一特征的字符串之間的關(guān)系,如“(疾病)-名稱-String”。根據(jù)臨床工作中涉及的知識領域,可以將相關(guān)知識分為理論知識和臨床經(jīng)驗兩個大類,每個大類又包含若干主要知識源。通過對主要知識源中的重要術(shù)語進行標注和歸類,提取出了臨床知識領域的核心概念。
2.2.2臨床醫(yī)學知識圖譜的本體層建模
將知識來源中抽象出的類及屬性加以組織后得到了圖1所示的本體層模型。該本體層中包含疾病、癥狀(癥狀下設一般癥狀、體征、異常檢查結(jié)果3個子類)、檢查、治療等共計9個類和ID、名稱、別名、類型、描述、部位、條件等共計26種屬性,其中14種為數(shù)據(jù)屬性,12種為對象屬性。在這些屬性中,為了使得圖譜的知識維度足以支撐臨床輔助工作,本研究圍繞癥狀設計了多種特有數(shù)據(jù)屬性,如附加詞、條件、人群等,使得對于臨床醫(yī)學知識的描述更加完整、具體。部分屬性和關(guān)系的釋義見表1、表2。
表1數(shù)據(jù)屬性釋義
續(xù)表1數(shù)據(jù)屬性釋義
圖1 臨床醫(yī)學知識圖譜的本體層
表2 對象屬性釋義
由于目前無監(jiān)督的方法在面向醫(yī)學文本進行實體識別時效果并不理想,因此本研究選用了半監(jiān)督的方法來進行知識抽取工作。工作主要集中在抽取各知識源中的疾病、癥狀實體及其相關(guān)屬性。在面向醫(yī)學教材和臨床指南等核心知識源時,采用多角色并行標注的方法開展知識抽取工作,具體流程如下,(1)前期準備:根據(jù)本體層的知識分類體系和語義標準制訂了《中文醫(yī)學文獻命名實體和實體關(guān)系標注規(guī)范》,并根據(jù)多角色標注的任務需求開發(fā)了智能協(xié)同文本標注系統(tǒng)。(2)多角色標注:利用多名非醫(yī)學專業(yè)人員并行標注,在抽取過程中,大部分癥狀屬性缺乏專業(yè)詞表,以癥狀的“條件”屬性為例,常見的有“白天加重”“夜間加重”“躺臥時加重”等,這些詞在醫(yī)學系統(tǒng)中屬于通用詞匯,但缺少標準化的、統(tǒng)一的描述方法。因此需要將標注過程中發(fā)現(xiàn)的全部癥狀條件交由專家進行對齊,從而得到該屬性的標準詞表。對于文本中出現(xiàn)過的非標準詞匯,則作為標準詞的一種映射。映射表與標準詞表共同構(gòu)成了癥狀某一屬性的專業(yè)詞表。(3)知識評審:對于標注結(jié)果中出現(xiàn)的標注沖突、存疑結(jié)果和部分隨機抽查結(jié)果,反饋給醫(yī)院專家進行審核。(4)知識存儲:通過審核的抽取結(jié)果轉(zhuǎn)換成圖結(jié)構(gòu)進行存儲,通過多角色+專家評審的方法,最大限度地保證了核心知識圖譜的準確度。
在面向高質(zhì)量的網(wǎng)絡醫(yī)學知識時,由于網(wǎng)頁本身為半結(jié)構(gòu)化數(shù)據(jù),因此可以通過網(wǎng)絡爬蟲+模板對網(wǎng)絡數(shù)據(jù)進行批量處理,所得結(jié)果同樣需要經(jīng)過上述(3)、(4)步驟。最終通過人工并行標注和自動標注兩種手段在不同知識源中的合理應用,在保證知識質(zhì)量的前提下,實現(xiàn)了圖譜的快速擴充。
截止成稿時,構(gòu)建的臨床醫(yī)學知識圖譜已覆蓋呼吸內(nèi)科、消化內(nèi)科、兒科、心血管內(nèi)科等十余個主要科室的800余種常見疾病,以及相關(guān)癥狀、檢查、治療等數(shù)千條,初步具備了開展臨床診斷輔助系統(tǒng)設計所需要的數(shù)據(jù)量,圖譜中的實體數(shù)目和關(guān)系統(tǒng)計見表3,部分關(guān)系三元組見圖2。
表3 床醫(yī)學知識圖譜數(shù)據(jù)統(tǒng)計
圖2 知識圖譜中部分三元組
目前基于醫(yī)學知識圖譜開展決策支持工作是醫(yī)療信息化領域的研究熱點之一。本研究在傳統(tǒng)CDSS結(jié)構(gòu)的基礎上,設計了基于知識圖譜的診斷推理模塊,通過在知識圖譜上模擬臨床作業(yè)思維進行查詢和計算,實現(xiàn)了在重要臨床環(huán)節(jié)的同步?jīng)Q策支持。最終完成的原型系統(tǒng)由CDSS前端接口(A),推理診斷模塊(B)和知識庫管理模塊(C)3個部分組成,系統(tǒng)結(jié)構(gòu)如圖4所示。
圖3 CDSS結(jié)構(gòu)圖
為便于決策支持工作的介入,同時直接利用知識圖譜進行臨床推理,本研究將單病診斷輔助工作劃分為下述6個步驟,(1)癥狀特征采集:通過監(jiān)聽現(xiàn)病史輸入欄,癥狀輸入后會先利用專業(yè)詞表進行一次消歧,將同義詞或描述不規(guī)范的癥狀名稱規(guī)范化,并利用模板切分出癥狀的表現(xiàn)形式和持續(xù)時間。(2)相關(guān)疾病檢索:在知識圖譜中檢索含有當前癥狀的疾病。(3)檢索結(jié)果排序:利用病歷中統(tǒng)計得到的疾病概率和癥狀權(quán)重進行排序,按疾病與現(xiàn)病史的相關(guān)度降序排列,排序結(jié)果以JSON文件的形式返回前端。(4)答案生成:通過解析JSON文件,重繪前端界面中疾病展示模塊的內(nèi)容,使用者可以直觀地獲取與現(xiàn)病史相關(guān)的所有疾病信息,包括相關(guān)疾病的伴隨癥狀及確診所需要的檢查項目,為制訂后續(xù)問診計劃提供思路。(5)生成流程記錄:在下達診斷后,會評估操作流程的規(guī)范程度和診斷結(jié)果的可靠度并生成流程記錄文件,對于不符合臨床規(guī)范的診斷流程或診斷結(jié)果,將其流程記錄模塊等待專家核查。(6)下達診斷。其中步驟(2)、(3)、(4)一般會循環(huán)執(zhí)行多次。總的來說,診斷輔助工作通過癥狀特征驅(qū)動,利用相關(guān)疾病排序、伴隨癥狀提醒、相關(guān)檢查提醒、診斷結(jié)果檢驗4種手段共同推動問診工作的進行,幫助醫(yī)務人員實時、全面地了解當前患者的相關(guān)疾病,為后續(xù)問診提供思路。
考慮各醫(yī)院硬件條件不同,CDSS選擇以Web端的形式進行開發(fā),同時與傳統(tǒng)HIS系統(tǒng)進行了整合,在不改變醫(yī)務人員既有作業(yè)習慣的前提下,實現(xiàn)對于醫(yī)務人員的決策支持。系統(tǒng)界面功能概覽見圖4。
圖4 軟件功能概覽
通過學習成都市某三甲醫(yī)院呼吸內(nèi)科近13萬份病歷的統(tǒng)計特征,并用其現(xiàn)病史部分作為輸入,第一診斷作為標準輸出,通過識別現(xiàn)病史中的癥狀特征進行疾病推薦。由于本系統(tǒng)返回的癥狀是列表形式,故以實際診斷結(jié)果出現(xiàn)在推薦列表前N的比例作為實驗評測結(jié)果,呼吸科門診病歷TOP-1命中率61.4%,TOP-3命中率67.3%,TOP-5命中率68.8%。該實驗證明了最終設計出的CDSS可以有效地在主要臨床環(huán)節(jié)進行實時決策輔助,對于主要科室當中的常見疾病均有較好的預測結(jié)果。同時系統(tǒng)交互方式也符合門診醫(yī)生當前的工作習慣,得到了醫(yī)院專家的認可。
醫(yī)學知識圖譜應用范圍極廣,但由于臨床醫(yī)學知識的復雜性,使得流程化的知識圖譜構(gòu)建工作難以進行,同時,復雜的臨床工作流程進一步加大了醫(yī)學知識圖譜在臨床決策工作中的應用難度。本研究在充分分析臨床知識結(jié)構(gòu)和臨床工作特點的基礎上,設計了構(gòu)建支持臨床決策的醫(yī)學知識圖譜的可行流程,并開發(fā)了與圖譜結(jié)構(gòu)匹配的CDSS原型系統(tǒng)。在后續(xù)研究工作中,擬利用深度學習技術(shù)深入發(fā)掘醫(yī)學領域的診斷規(guī)則和模式,并逐步擴大知識圖譜規(guī)模,進一步提高CDSS的可靠性,為大型CDSS的開發(fā)打下基礎。