,,
臨床決策支持系統(tǒng)的構(gòu)建離不開(kāi)知識(shí)庫(kù),而病歷的電子化為臨床知識(shí)庫(kù)的構(gòu)建帶來(lái)了便利,研究人員可以通過(guò)計(jì)算機(jī)程序處理大量病歷中的文本,以實(shí)現(xiàn)重要知識(shí)的挖掘。病歷是醫(yī)療業(yè)務(wù)活動(dòng)的詳細(xì)記錄,其中隱含著價(jià)值巨大的知識(shí)。將從病歷中提取的信息用于臨床決策支持,是近年醫(yī)療大數(shù)據(jù)的研究熱點(diǎn)之一。
在臨床決策支持方面,國(guó)外已有較為成熟的研究。關(guān)于決策支持系統(tǒng)對(duì)臨床治療作用的研究,Porat, Talya等人[1]研究了全科醫(yī)生和患者對(duì)診斷決策支持系統(tǒng)和咨詢影響的看法;Arts,Derk L.等人[2]研究了決策支持系統(tǒng)在實(shí)踐中預(yù)防改善卒中的有效性;針對(duì)從病歷中提取知識(shí)的研究,Nilashi M等人[3]提出了一種基于知識(shí)的乳腺癌分類(lèi)系統(tǒng);Kung,Robert等人[4]提出了一種從電子病歷中識(shí)別肝硬化患者身份的自然語(yǔ)言處理算法。在國(guó)內(nèi),醫(yī)護(hù)人員在撰寫(xiě)病歷時(shí)存在用語(yǔ)不規(guī)范的現(xiàn)象,這就為從病歷中提取有用信息帶來(lái)了一定困難;加之國(guó)內(nèi)醫(yī)療信息化起步較晚,即使電子病歷系統(tǒng)已實(shí)現(xiàn)部分內(nèi)容結(jié)構(gòu)化,但獲取病歷中有用知識(shí)的難點(diǎn)仍然存在。基于此,國(guó)內(nèi)學(xué)者也開(kāi)展了一些探索性的研究,在病歷文本的自然語(yǔ)言處理領(lǐng)域提出了不同的解決方案,推動(dòng)著國(guó)內(nèi)醫(yī)療信息化的不斷前進(jìn)。如栗偉[5]研究了電子病歷文本挖掘關(guān)鍵算法,徐益輝[6]研究了中文醫(yī)療文本匿名化方法,李國(guó)壘等人[7]針對(duì)病歷信息通過(guò)潛在語(yǔ)義分析構(gòu)建了決策模型,林楓[8]研究了云計(jì)算技術(shù)在醫(yī)療大數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)中的應(yīng)用。
本文擬在借鑒中文病歷文本處理研究成果的基礎(chǔ)上,針對(duì)胃癌通過(guò)病歷文本中的詞進(jìn)行聚類(lèi),探索詞或詞組與治療方案之間潛在的關(guān)系,建立1種決策支持模型。即首先對(duì)病歷文本進(jìn)行分詞,再根據(jù)切分詞與病歷中抽取的治療方案的共現(xiàn)頻次,對(duì)切分詞進(jìn)行聚類(lèi),并統(tǒng)計(jì)每份病歷文本在各聚類(lèi)中匹配到的詞數(shù);基于各類(lèi)的匹配詞數(shù)與治療方案共現(xiàn)情況,探索性地采用Bayes判別思路建立起判別函數(shù)用以輔助決策。
本文選取了2500份中南大學(xué)附屬三甲醫(yī)院2010-2014年已被確診為胃癌的電子病歷(入院病情摘要、診治過(guò)程),將其隨機(jī)分為兩組:1 500份為訓(xùn)練組,用于構(gòu)建決策支持模型;1 000份為測(cè)試組,用于評(píng)價(jià)決策支持模型。
已有研究結(jié)果顯示,詞典結(jié)合統(tǒng)計(jì)的分詞方法是進(jìn)行領(lǐng)域分詞的有效方法[9]。據(jù)此,本文采用如下分詞策略(圖1)。
年齡是影響治療方案選擇的重要因素,但作為連續(xù)指標(biāo)切分后無(wú)意義。依據(jù)世界衛(wèi)生組織對(duì)年齡分段的劃分標(biāo)準(zhǔn)[10],本文將入院病情摘要中的患者年齡進(jìn)行對(duì)應(yīng)轉(zhuǎn)換,得到原始文本(圖2)。
筆者于2015年4月在中國(guó)生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)中以分類(lèi)號(hào)=R735.2(即胃腫瘤)進(jìn)行檢索,時(shí)間限定為2001-2003年,導(dǎo)出關(guān)鍵詞和主題詞,歸并作為詞典1,共包含5 429個(gè)詞語(yǔ)。
圖1 分詞策略
圖2 病歷原始文本示例
利用詞典1進(jìn)行分詞并基于分詞結(jié)果(圖3),使用互信息值(MI)計(jì)算方法,計(jì)算分詞碎片中相鄰字詞的MI值。根據(jù)MI≥0,即兩個(gè)字詞具有正相關(guān)關(guān)系,篩選出11 845個(gè)詞語(yǔ)。將11 845個(gè)詞對(duì)與詞典1中的5 429個(gè)詞合并去重,構(gòu)成17 113個(gè)詞的新詞典—詞典2,并利用詞典2對(duì)原始文本再次進(jìn)行分詞。
圖3 分詞結(jié)果
從分詞結(jié)果發(fā)現(xiàn),經(jīng)詞典2分詞后的結(jié)果能切分出更多術(shù)語(yǔ),如“蠕動(dòng)波”“靜脈曲張”“無(wú)反跳痛”等都被有效切分,但由于不同病歷中的檢測(cè)指標(biāo)單位描述不同,因此在檢測(cè)指標(biāo)上切分效果不好,如血壓值基本被切分成“高壓值”“/”“低壓值mmHg”3個(gè)詞。該實(shí)驗(yàn)也說(shuō)明,在帶數(shù)字的檢測(cè)指標(biāo)上,本方法不能實(shí)現(xiàn)有效切分。此外,受詞典中詞語(yǔ)的限制,也有錯(cuò)誤切分。如“退指指套無(wú)血染”應(yīng)被切分為“退指”“指套”“無(wú)血染”3個(gè)詞,而實(shí)驗(yàn)切分則是“退指指”“套”“無(wú)血染”3個(gè)詞。
本文建模方法選擇Bayes判別分析。Bayes判別的準(zhǔn)則是使本應(yīng)屬于某一類(lèi)的樣品,經(jīng)過(guò)規(guī)則的判別后在應(yīng)屬類(lèi)中取得最大的值或后驗(yàn)概率,從而使得該樣品被判別為所屬類(lèi)的原則。
1.3.1 切分詞處理
分詞結(jié)果中包含許多不具有實(shí)際意義的碎片。在建模前對(duì)分詞碎片進(jìn)行處理,具體步驟如下:刪除超高頻詞部分的數(shù)字、標(biāo)點(diǎn)及特殊符號(hào);刪除不具備實(shí)際含義的單字詞,如“鳴”“查”等;低頻詞使用少且占據(jù)了分詞結(jié)果一半以上,結(jié)合分詞結(jié)果,刪除了詞頻小于11的詞。
切分詞經(jīng)處理后,共保留1 207個(gè)詞。其中大多為兩字詞,也有3字及3字以上的詞。
1.3.2 抽取治療方案
病歷中的診治過(guò)程詳細(xì)記錄了患者住院期間的診療經(jīng)過(guò),包含患者的臨床癥狀的描述、檢查檢驗(yàn)結(jié)果及治療過(guò)程。參考《2013胃癌規(guī)范化治療指南》[11],本文將治療方案確定為手術(shù)治療、手術(shù)治療+放化療、放化療及對(duì)癥治療4種。根據(jù)出院記錄,確定如下治療方案抽取判定原則[12]。
若文本中出現(xiàn)“手術(shù)”相關(guān)字樣(全麻、根治術(shù)、切除、切除術(shù)等)且不出現(xiàn)“放療”“化療”字樣,判定該治療方案為手術(shù)治療;若既出現(xiàn)“手術(shù)”相關(guān)字樣,也出現(xiàn)“放療”“化療”相關(guān)字樣,判定該治療方案為手術(shù)治療+放化療;若僅出現(xiàn)“放療”“化療”相關(guān)字樣,不出現(xiàn)“手術(shù)”相關(guān)字樣,判定治療方案為放化療;若既不出現(xiàn)“手術(shù)”相關(guān)字樣,也不出現(xiàn)“放療”“化療”相關(guān)字樣,判定治療方案為對(duì)癥治療。
根據(jù)如上判定原則,從訓(xùn)練組病歷中抽取治療方案,其中手術(shù)治療有794例,手術(shù)治療+放化療的有227例,放化療的有225例,對(duì)癥治療的有254例。隨機(jī)抽取100份進(jìn)行人工比對(duì),治療方案抽取準(zhǔn)確率為97%。
1.3.3 構(gòu)建共現(xiàn)矩陣
統(tǒng)計(jì)訓(xùn)練組所有病歷中1207個(gè)切分詞在與每種治療方案共現(xiàn)的頻次,生成切分詞與治療方案共現(xiàn)頻次表(表1)。
1.3.4 切分詞聚類(lèi)
采用SPSS 19.0軟件,選擇類(lèi)平均法,并采用平方歐式距離進(jìn)行聚類(lèi)。本文結(jié)合后續(xù)模型構(gòu)建的需要,分別選取3、4、5類(lèi)建立模型。表2展示了聚類(lèi)為4類(lèi)時(shí),各詞的所屬類(lèi)別。
表1 切分詞與治療方案共現(xiàn)頻次統(tǒng)計(jì)(部分)
表2 聚類(lèi)結(jié)果
1.3.5 建立Bayes判別模型
確定自變量。將判別指標(biāo)按聚類(lèi)結(jié)果別進(jìn)行設(shè)定,即類(lèi)1聚類(lèi)結(jié)果為X1,類(lèi)2、類(lèi)3、類(lèi)4分別設(shè)為X2、X3、X4。
確定因變量。以Y表示抽取的治療方案,將手術(shù)治療、手術(shù)治療+放化療、放化療、對(duì)癥治療4種治療方案對(duì)應(yīng)賦值1,2,3,4。
統(tǒng)計(jì)病歷中的匹配詞數(shù)。將1500份訓(xùn)練組病歷文本與4個(gè)類(lèi)中的切分詞進(jìn)行匹配并統(tǒng)計(jì)。若某條病歷文本能與X1類(lèi)中的10個(gè)詞匹配,則計(jì)數(shù)10次;文本中多次出現(xiàn)同一個(gè)詞,則只統(tǒng)記1次。表3展示了以聚類(lèi)為4類(lèi)為例,1500份訓(xùn)練組病歷文本在4個(gè)類(lèi)中切分詞匹配數(shù)及所屬治療方案分類(lèi)。
表3 訓(xùn)練組病歷文本中匹配詞數(shù)與治療方案共現(xiàn)
依據(jù)表3中的數(shù)據(jù),采用SPSS 19.0計(jì)算得出判別方程中的各項(xiàng)系數(shù),所得Bayes判別模型如下:
Y1=-7.868-0.062*X1-0.257*X2+0.394*X3+0.001*X4
Y2=-6.338-0.059*X1-0.312*X2+0.347*X3+0.001*X4
Y3=5.026+0.198*X1-0.347*X2+0.193*X3+0.013*X4
Y4=-6.050+0.251*X1-0.324*X2+0.213*X3+0.013*X4
同時(shí),本文也分別得出了以聚類(lèi)為3類(lèi)和5類(lèi)分別建立的判別模型。
Y1=-7.027-0.12*X1+0.383*X2+0.001*X3
Y2=-6.763-0.135*X1-0.333*X2+0.003*X3
Y3=-5.180+0.035*X1+0.162*X2+0.16*X3
Y4=-6.042+0.079*X1+0.18*X2+0.017*X3
Y1=-7.893-0.030*X1-0.556*X2+0.334*X3+0.132*X4-0.035*X5
Y2=-7.842-0.025*X1-0.634*X2+0.283*X3+0.143*X4-0.036*X5
Y3=-6.063+0.223*X1-0.581*X2+0.146*X3+0.115*X4-0.014*X5
Y4=-6.728+0.269*X1-0.497*X2+0.178*X3+0.089*X4-0.007*X5
本文采用了詞典分詞與統(tǒng)計(jì)分詞相結(jié)合的方法對(duì)病歷文本進(jìn)行分詞,分詞結(jié)果主要通過(guò)分詞準(zhǔn)確性及速度2個(gè)指標(biāo)進(jìn)行評(píng)價(jià)。本文主要關(guān)注分詞方法的準(zhǔn)確性,未考慮分詞速度這一測(cè)評(píng)指標(biāo)。因此,在評(píng)價(jià)過(guò)程中,采用召回率、準(zhǔn)確率以及綜合指標(biāo)F-1值對(duì)分詞效果測(cè)評(píng)[12]。
隨機(jī)抽取50條記錄,刪除標(biāo)點(diǎn)等特殊字符。對(duì)抽取的記錄進(jìn)行人工分詞,統(tǒng)計(jì)每份出院記錄切分好的詞語(yǔ)總數(shù)。利用本文中采用的分詞方法進(jìn)行分詞,統(tǒng)計(jì)分詞結(jié)果,并計(jì)算切分出的總詞數(shù)和切分出的正確詞數(shù)(即人工分詞后的詞匯在機(jī)器分詞結(jié)果中出現(xiàn)的詞匯總數(shù)),計(jì)算每份記錄切分后的準(zhǔn)確率、召回率和綜合指標(biāo)F-1值,并以50條記錄計(jì)算的平均值作為測(cè)評(píng)結(jié)果。
經(jīng)驗(yàn)證,將詞典結(jié)合統(tǒng)計(jì)分詞方法用于病歷文本分詞的召回率為74.24%,準(zhǔn)確率為82.30%,F(xiàn)-1值為78.06%。
采用測(cè)試組的1000份病歷數(shù)據(jù)對(duì)建立的3個(gè)模型進(jìn)行驗(yàn)證,其中聚為3類(lèi)時(shí)建立的決策模型判別準(zhǔn)確率為48.4%,聚為4類(lèi)時(shí)建立的決策模型判別準(zhǔn)確率為51.3%,聚為5類(lèi)時(shí)建立的決策模型判別準(zhǔn)確率為60.2%。
結(jié)合病歷文本對(duì)所構(gòu)建的模型進(jìn)行分析,發(fā)現(xiàn)只要病歷中出現(xiàn)“高齡患者”的病歷,構(gòu)建的判別模型手術(shù)治療一類(lèi)的函數(shù)值均不是最高,這也與病歷中手術(shù)風(fēng)險(xiǎn)過(guò)高的描述吻合。若病歷中出現(xiàn)了“癌轉(zhuǎn)移”“廣泛轉(zhuǎn)移”“淋巴結(jié)轉(zhuǎn)移”等詞,判別模型對(duì)應(yīng)的放化療函數(shù)值大多為最高值,但這種情況僅限多數(shù)病歷。該判別模型所判別的治療方案為“放化療”與“對(duì)癥治療”兩種方案的判別值相近,這與原病歷中治療方案為“放化療”的患者同時(shí)也進(jìn)行“補(bǔ)液”等對(duì)癥治療方案有關(guān),即“放化療”通常都與“對(duì)癥治療”同時(shí)出現(xiàn),故本文所建模型也與病歷中的情況相符。
此外,通過(guò)研究發(fā)現(xiàn)“高齡患者”“癌轉(zhuǎn)移”“廣泛轉(zhuǎn)移”等詞均屬于聚類(lèi)結(jié)果中個(gè)性化用詞的一類(lèi),而這類(lèi)詞對(duì)個(gè)性化治療方案的選擇是有影響的,且對(duì)于病歷中同時(shí)出現(xiàn)“放化療”和“對(duì)癥治療”兩種治療方案,判別模型也能反映出該特征,表明本文構(gòu)建的判別模型針對(duì)年齡及是否存在癌轉(zhuǎn)移兩種因素是有一定區(qū)分度的,且經(jīng)模型選擇的治療方案與病歷中治療方案的情況基本相符。
本文基于電子病歷中切分詞與治療方案的共現(xiàn)頻率,通過(guò)文本分詞、聚類(lèi)分析及Bayes判別分析建立起了針對(duì)胃癌的輔助決策模型。在研究過(guò)程中,發(fā)現(xiàn)詞典結(jié)合統(tǒng)計(jì)的分詞方法用于電子病歷文本有較好效果,這也驗(yàn)證了張梅山[9]提出的領(lǐng)域文本分詞方法。通過(guò)對(duì)切分詞的聚類(lèi),也發(fā)現(xiàn)部分詞或詞組與治療方案之間也存在一定關(guān)聯(lián),如高頻詞“患者”“正?!薄拔匆?jiàn)”都被聚類(lèi)為一類(lèi),說(shuō)明無(wú)論治療方案如何,這3個(gè)詞通常會(huì)同時(shí)出現(xiàn);而“觸及、明顯”2個(gè)詞被聚為一類(lèi),發(fā)現(xiàn)多數(shù)病歷中均表述了“觸及明顯腫塊(腫物、包塊)”的表述,表明聚類(lèi)分析用于挖掘病歷中的潛在知識(shí)是有價(jià)值的。
對(duì)于輔助決策模型的準(zhǔn)確率不高(60.2%),后續(xù)研究可以在兩方面進(jìn)行改進(jìn)。首先是檢查數(shù)據(jù)的利用,切分詞后的檢查數(shù)據(jù)為純數(shù)字,已經(jīng)失去了意義,但它對(duì)于治療方案的選擇是有參考價(jià)值的;其次是切分詞的處理,對(duì)于切分詞碎片的取舍也值得進(jìn)一步研究。綜上所述,電子病歷的決策支持價(jià)值得以體現(xiàn),所建模型對(duì)于胃癌治療方案的選擇有一定的參考價(jià)值,但模型是否適用于其他疾病還需進(jìn)一步實(shí)驗(yàn),以期提高模型的判別精度,從而更好地實(shí)現(xiàn)輔助決策的效果。
中華醫(yī)學(xué)圖書(shū)情報(bào)雜志2018年2期