黃文鵬,李莉明,程銘,李?lèi)?ài)云,梁盼,雍劉亮,高劍波
鄭州大學(xué)第一附屬醫(yī)院 a. 放射科;b. 信息處,河南 鄭州 450052
胃癌是全世界發(fā)病率第五的癌癥,其死亡率在癌癥相關(guān)死亡率中位列第三[1]。每年約70%的新發(fā)胃癌病歷發(fā)生在亞洲,中國(guó)約占46.8%[2]。約30%的患者術(shù)前或術(shù)中發(fā)生轉(zhuǎn)移,其中腹膜是主要的轉(zhuǎn)移部位之一,與多種因素相關(guān)[3-4]。影像學(xué)檢查對(duì)腹膜轉(zhuǎn)移的檢出有限[5],術(shù)中所見(jiàn)是確定腹膜轉(zhuǎn)移的金標(biāo)準(zhǔn)[6]。手術(shù)記錄是術(shù)者對(duì)術(shù)中所見(jiàn)的直接描述,真實(shí)又直觀,是評(píng)估胃癌分期,尤其是M分期的重要參考,對(duì)科研、臨床治療和預(yù)后有重要的意義。目前手術(shù)記錄的文本主要采用非結(jié)構(gòu)化的自然語(yǔ)言記錄,不利于臨床分析或科研數(shù)據(jù)搜集。如果可以智能地從非結(jié)構(gòu)化的手術(shù)記錄文本中提取有用信息,對(duì)科研和臨床將有很大助益。因此,越來(lái)越多的研究者開(kāi)始關(guān)注自然語(yǔ)言處理技術(shù)在醫(yī)療信息研究中的應(yīng)用[7]。
自然語(yǔ)言處理在英文電子病歷中得到廣泛應(yīng)用[8],但并不能將其直接應(yīng)用到中文醫(yī)學(xué)文本中,這主要是中英之間表達(dá)方式不同[9]。從非結(jié)構(gòu)化的中文文本中智能提取有用信息是一項(xiàng)非常困難的任務(wù)。Liang等[10]首次提出條件隨機(jī)場(chǎng)(Conditional Random Field Layer,CRF)和支持向量機(jī)的混合模型,在中文入院記錄中提取中西藥相關(guān)的信息。最近,Chen等[11]采用基于規(guī)則的方法從電子病歷中抽取肝細(xì)胞癌分期的相關(guān)信息,獲得肝癌的CLIP評(píng)分,并取得較高的精確度(Precision,P)、召回率(Recall,R)和F值。但是,從手術(shù)記錄中智能提取胃癌相關(guān)信息的研究尚十分少見(jiàn),本研究的目的是采用自然語(yǔ)言處理技術(shù)從非結(jié)構(gòu)化手術(shù)記錄中智能提取胃癌分期的相關(guān)信息,并評(píng)估其效能。
從電子病歷系統(tǒng)(Electronic Medical Records,EMRs)中搜集2016年1月至2018年1月胃腸外科診斷為胃癌并行手術(shù)的病例共632人,分析他們的手術(shù)記錄,確定與胃癌TNM分期相關(guān)的共7個(gè)關(guān)鍵問(wèn)題,分別是:① 手術(shù)名稱(chēng);② 腫瘤位置;③ 腫瘤大??;④ 腫瘤是否侵及漿膜層;⑤ 是否可見(jiàn)腫大淋巴結(jié),有則記錄位置;⑥ 是否可見(jiàn)腹水,有則記錄腹水量;⑦ 是否有轉(zhuǎn)移結(jié)節(jié),有則記錄位置。根據(jù)這7個(gè)關(guān)鍵問(wèn)題,由臨床醫(yī)生和信息學(xué)博士共同決定關(guān)鍵醫(yī)學(xué)實(shí)體及屬性。并在此基礎(chǔ)上,提取一種新的醫(yī)學(xué)實(shí)體屬性抽取方法。另外,采用項(xiàng)目組自己研發(fā)的醫(yī)學(xué)文本標(biāo)注軟件對(duì)手術(shù)記錄進(jìn)行標(biāo)注(軟件著作權(quán)登記號(hào)2019SR0653695)。
由兩名醫(yī)生(分別具有5年及3年臨床工作經(jīng)驗(yàn))使用標(biāo)注軟件手動(dòng)標(biāo)注632份手術(shù)記錄中實(shí)體和屬性,當(dāng)兩名醫(yī)生標(biāo)注不一致時(shí),由第三位醫(yī)生(具有10年以上臨床工作經(jīng)驗(yàn))決定,標(biāo)注結(jié)果作為金標(biāo)準(zhǔn)。將632份手術(shù)記錄按照3:1的比例隨機(jī)分為訓(xùn)練組和驗(yàn)證組,訓(xùn)練組用來(lái)訓(xùn)練模型,驗(yàn)證組用來(lái)檢驗(yàn)?zāi)P托埽▓D1)。為減少隨機(jī)分類(lèi)所帶來(lái)的偏差,對(duì)隨機(jī)選擇的過(guò)程重復(fù)執(zhí)行10次,模型性能為10組實(shí)驗(yàn)結(jié)果的平均值。
圖1 研究流程圖
根據(jù)手術(shù)記錄所關(guān)注的7個(gè)問(wèn)題,確定與之相關(guān)的醫(yī)學(xué)實(shí)體。例如,腫瘤位置是我們關(guān)注的問(wèn)題,手術(shù)記錄中描述“幽門(mén)可及質(zhì)硬腫塊”,那么“腫塊”就是病變實(shí)體,“幽門(mén)”就是位置實(shí)體。從實(shí)體周?chē)Y選屬性,將非結(jié)構(gòu)化文本轉(zhuǎn)換成結(jié)構(gòu)化文本,從而提取有用信息。結(jié)構(gòu)化之后的文本包括三部分:實(shí)體類(lèi)型、實(shí)體名稱(chēng)、實(shí)體屬性。所以,我們的提取信息的步驟是先識(shí)別實(shí)體,再提取其屬性。
第一步,醫(yī)學(xué)實(shí)體識(shí)別。我們采用混合雙向長(zhǎng)短時(shí)相記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,BiLSTM)和CRF模型,識(shí)別句子中的醫(yī)學(xué)實(shí)體。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)[12]是一種特殊的循環(huán)網(wǎng)絡(luò)模型,克服了傳統(tǒng)循環(huán)網(wǎng)絡(luò)模型由于序列過(guò)長(zhǎng)而產(chǎn)生梯度彌散問(wèn)題。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型通過(guò)特殊設(shè)計(jì)的門(mén)結(jié)構(gòu)使得模型可以有選擇的保存上下文信息,具體公式如公式(1)所示。
其中,λ是激活函數(shù),⊙ 是點(diǎn)乘運(yùn)算,tanh表示雙曲正切激活函數(shù),it,ft,ot分別表示在時(shí)刻t的輸入門(mén),忘記門(mén),輸出門(mén),Ct表示t時(shí)刻的轉(zhuǎn)態(tài),ht表示t時(shí)刻的輸出。
此外,BiLSTM相關(guān)參數(shù)如表1所示。其中,L指字向量的維度,LBilstm指輸入序列的最大長(zhǎng)度,λ是優(yōu)化函數(shù)的學(xué)習(xí)率。
表1 BiLSTM相關(guān)參數(shù)
CRF是一種較新的無(wú)向圖模型,由Laff etry等[13]在最大熵和隱馬爾可夫兩個(gè)模型的基礎(chǔ)上發(fā)展出的一個(gè)判別式概率模型,對(duì)于有序數(shù)據(jù)的標(biāo)注與切分非常適用。醫(yī)學(xué)實(shí)體主要分以下四類(lèi):
(1)手術(shù)名稱(chēng),指所行手術(shù)的名字。例如:“胃大部切除術(shù)”“腹腔鏡探查術(shù)”“剖腹探查術(shù)”等,后兩者手術(shù)名稱(chēng)對(duì)腹膜轉(zhuǎn)移起到提示作用。
(2)病變,指細(xì)胞、組織和器官等發(fā)生的病理變化。例如“腫塊”“淋巴結(jié)”“結(jié)節(jié)”等。其中“結(jié)節(jié)”是判斷腹膜轉(zhuǎn)移灶的主要實(shí)體。
(3)部位,指人體的解剖位置,文中主要指腫瘤和淋巴結(jié)解剖部位。腫瘤的位置,例如“賁門(mén)”“胃底”“胃體”“全胃”等;淋巴結(jié)的位置,例如“腹主動(dòng)脈旁”“胃小彎側(cè)”“胃大彎側(cè)”“腸系膜根部”等;結(jié)節(jié)的位置,例如“盆腔”“大網(wǎng)膜”等。
(4)征象,記錄中組織或器官的表現(xiàn)。例如,“侵及漿膜”“漿膜皺縮”“漿膜可見(jiàn)瘤體突出”“漿膜面結(jié)節(jié)樣改變”“積液”“液體”“腹水”等?!案顾迸c“積液”提示可能存在腹膜轉(zhuǎn)移。
標(biāo)注采用BIO方案,B代表當(dāng)前詞是一個(gè)組塊的開(kāi)始,I代表當(dāng)前詞在一個(gè)組塊中,O代表當(dāng)前詞不在任意組塊中。使用BIO標(biāo)簽方案的樣例如下所示:“…決定行胃大部切除術(shù)…”BIO:…決/O,定/O,行/O,胃/B,大/I,部/I,切 /I,除/I,術(shù)/I…。
接著,屬性提取。采用規(guī)則的方法提取實(shí)體的屬性。因?yàn)槭中g(shù)記錄來(lái)自同一醫(yī)院的同一個(gè)大科室,雖然每位醫(yī)生的手術(shù)記錄有自己獨(dú)特的語(yǔ)言,但是他們整體的描述還是相似的,實(shí)體和屬性以及他們?cè)谧侄沃械奈恢孟鄬?duì)固定,所以我們采用規(guī)則的方法來(lái)提取屬性[14]。與實(shí)體相關(guān)的屬性主要分為兩類(lèi),數(shù)字和否定。通常情況下,一小段文本包含一個(gè)實(shí)體,與之相關(guān)的屬性均在實(shí)體鄰近的位置,因此,我們?cè)O(shè)計(jì)實(shí)體前后句子的采集窗口,窗口大小為8個(gè)字符,在此基礎(chǔ)上,采用規(guī)則方法抽取實(shí)體屬性。屬性主要分以下兩類(lèi):
第一類(lèi),數(shù)字提取。數(shù)字主要描述腫瘤的大小和腹水的量,我們?cè)O(shè)計(jì)提取規(guī)則:“d+(.d+)[units]”,“d+(.d+|)[units]*d+(.d+|)[units]”。例如,“腫瘤大小約4 cm×5 cm”,“結(jié)節(jié)大小約2 cm”,“腹水量約150 mL”。
第二類(lèi),否定詞提取。否定可以幫助臨床排除一些鑒別診斷。在胃癌手術(shù)記錄中,否定的描述可以有助于胃癌分期的判斷。例如,“腹膜未見(jiàn)明顯轉(zhuǎn)移結(jié)節(jié)”,則提示胃癌分期M0,與Mitchell等[15]開(kāi)發(fā)的否定識(shí)別方法類(lèi)似。
文本被標(biāo)注后,將提取的臨床實(shí)體和屬性根據(jù)固定的模式放入模式中,即按照類(lèi)別、關(guān)鍵詞、屬性的順序排列(<type,key, attributes>)生成結(jié)構(gòu)化的文本。
對(duì)文本進(jìn)行標(biāo)注后生成文本標(biāo)注的金標(biāo)準(zhǔn),標(biāo)注結(jié)果為:標(biāo)注實(shí)體對(duì)應(yīng)的位置編號(hào),文本第一個(gè)字符的位置為0,例如:“腹腔內(nèi)無(wú)腹水”與“腹水”實(shí)體的位置信息是4:5。判斷模型是否能夠準(zhǔn)確識(shí)別實(shí)體,主要通過(guò)比較模型識(shí)別的實(shí)體位置和醫(yī)生標(biāo)注的實(shí)體位置是否一致。如果二者完全相同,則識(shí)別結(jié)果為精確匹配。如果模型標(biāo)注的位置區(qū)間包含實(shí)體的區(qū)間,那我們認(rèn)為也是正確的即松弛匹配。松弛匹配不存在語(yǔ)義判斷,只關(guān)注實(shí)體區(qū)間位置。
本文采用Python3.6(https://www.python.org)和Scikitlearn0.20(https://scikit-learn.org/stable)庫(kù)建立機(jī)器學(xué)習(xí)模型。采用了機(jī)器學(xué)習(xí)模型常用的評(píng)估指標(biāo)來(lái)評(píng)估模型的性能,即精確度(Precision,P)、召回率(Recall,R)和F值。精確率,又稱(chēng)查準(zhǔn)率,正確預(yù)測(cè)為正的占全部預(yù)測(cè)為正的比例,即真正正確的占所有預(yù)測(cè)為正的比例。在本文中,指模型識(shí)別并證實(shí)正確的實(shí)體數(shù)目與預(yù)測(cè)為實(shí)體的總數(shù)目之比。召回率,又稱(chēng)查全率,正確預(yù)測(cè)為正的占全部實(shí)際為正的比例,即真正正確的占所有實(shí)際為正的比例。本文中指模型識(shí)別并證實(shí)正確識(shí)別的實(shí)體數(shù)目與醫(yī)生標(biāo)注的實(shí)體總數(shù)目之比。F值是P和R的調(diào)和平均值,由兩者計(jì)算得出,同時(shí)受兩者的影響[F=2PR/(P+R)]。
我們將評(píng)估整體實(shí)體和屬性在精確和松弛匹配下的P、R和F值,評(píng)估各個(gè)類(lèi)型的醫(yī)學(xué)實(shí)體和屬性在精確和松弛匹配下的P、R和F值。
模型分析了632份手術(shù)記錄,21319個(gè)實(shí)體,2145個(gè)與數(shù)字相關(guān)的屬性,2250個(gè)與否定相關(guān)的屬性。474份作為訓(xùn)練組,158份作為驗(yàn)證組。每個(gè)關(guān)鍵問(wèn)題至少有20個(gè)樣本作為訓(xùn)練,20份作為驗(yàn)證。醫(yī)生標(biāo)注的醫(yī)學(xué)實(shí)體最終結(jié)果,見(jiàn)圖2。
圖2 醫(yī)生標(biāo)注醫(yī)學(xué)實(shí)體的結(jié)果示例
模型主要步驟包括兩個(gè)方面,實(shí)體識(shí)別和屬性提取,具體結(jié)果如表2所示。結(jié)果顯示了在精確和松弛匹配下醫(yī)學(xué)實(shí)體及其屬性的P、R和F值。此外,松弛匹配的F值在三種實(shí)體類(lèi)別以及屬性的識(shí)別中,大于精確匹配下的F值。BiLSTM-CRF對(duì)實(shí)體的識(shí)別在精確和松弛匹配下的F值均較單純CRF模型要高(表3)。醫(yī)學(xué)實(shí)體識(shí)別的過(guò)程將直接影響屬性提取的結(jié)果,所以我們首先評(píng)估醫(yī)學(xué)實(shí)體識(shí)別的性能,然后評(píng)估屬性的性能。
表2 醫(yī)學(xué)實(shí)體和屬性的識(shí)別結(jié)果
表3 BiLSTM-CRF與CRF的比較
驗(yàn)證組手術(shù)記錄共158份,由結(jié)構(gòu)化文本可知,31例(19.62%)出現(xiàn)漿膜受侵,59例(37.34%)出現(xiàn)腫大淋巴結(jié),7例(4.43%)出現(xiàn)腹膜轉(zhuǎn)移(圖3)。
圖3 與胃癌分期相關(guān)的問(wèn)題在驗(yàn)證組中的結(jié)果
研究發(fā)現(xiàn),本文提出的方法可以有效的識(shí)別醫(yī)學(xué)實(shí)體并抽取其相關(guān)屬性,使非結(jié)構(gòu)化的文本轉(zhuǎn)化為結(jié)構(gòu)化的文本,更方便統(tǒng)計(jì)胃癌相關(guān)數(shù)據(jù),得到關(guān)鍵問(wèn)題的答案。
近幾年,信息學(xué)與醫(yī)學(xué)的結(jié)合在科研與臨床領(lǐng)域越來(lái)越廣泛,放射組學(xué)就是典型的代表,臨床研究已經(jīng)涉及消化、泌尿、呼吸等多個(gè)系統(tǒng)[16-18]。本研究也是結(jié)合了醫(yī)學(xué)與信息學(xué),同放射組學(xué)一樣,醫(yī)生需要提出待解決的問(wèn)題,并對(duì)影像和文本進(jìn)行標(biāo)注,通過(guò)計(jì)算機(jī)模型進(jìn)行處理,最終得到醫(yī)生想要的數(shù)據(jù),為臨床的科學(xué)研究以及患者個(gè)體化診療帶來(lái)幫助。研究中提出了一種混合BiLSTM+CRF與規(guī)則的方法提取醫(yī)學(xué)實(shí)體和屬性,是基于深度學(xué)習(xí)的方法與基于統(tǒng)計(jì)模型的方法的結(jié)合。BiLSTM是一種基于深度學(xué)習(xí)的方法,CRF是基于統(tǒng)計(jì)模型的方法。目前在國(guó)內(nèi)電子病歷中最常使用的是CRF模型。CRF模型依賴(lài)于特征的質(zhì)量,特征質(zhì)量的高低直接影響了模型的性能。與CRF不同,BiLSTM是一種無(wú)監(jiān)督的學(xué)習(xí),模型自主抽取特征,具有自動(dòng)學(xué)習(xí)特征的能力,可與CRF模型互為補(bǔ)充,提高性能。有研究也采用人工設(shè)計(jì)規(guī)則的方法抽取實(shí)體,由相關(guān)領(lǐng)域的專(zhuān)家來(lái)手工構(gòu)造相應(yīng)的規(guī)則模板或?qū)I(yè)詞典,再利用字符串匹配等算法對(duì)相關(guān)實(shí)體進(jìn)行識(shí)別[11],這種方法最大的缺點(diǎn)是對(duì)數(shù)據(jù)依賴(lài)性過(guò)強(qiáng)、可移植性差,而且手工編寫(xiě)規(guī)則模板需要許多時(shí)間。而本研究中的方法可以更好的移植應(yīng)用到不同的數(shù)據(jù)集,具有很好的擴(kuò)展性。結(jié)果顯示,BiLSTM+CRF神經(jīng)網(wǎng)絡(luò)在連續(xù)文本所建的模型中取得了良好的效果。本文使用的神經(jīng)網(wǎng)絡(luò)模型識(shí)別醫(yī)學(xué)實(shí)體,這為中文醫(yī)學(xué)信息抽取提供了新的思路。
研究中僅僅分析了胃癌的手術(shù)記錄,這是因?yàn)槭中g(shù)記錄中對(duì)的腹腔情況的描述,是臨床胃癌M分期的金標(biāo)準(zhǔn)[11],與治療方案和預(yù)后關(guān)系密切[19-20],對(duì)臨床和科研意義重大。本文中與腹膜轉(zhuǎn)移相關(guān)的內(nèi)容在第二、三、四類(lèi)臨床實(shí)體中體現(xiàn)。本院手術(shù)記錄中的常常這樣描述腹膜轉(zhuǎn)移,例如,“盆腔可見(jiàn)乳白色結(jié)節(jié)”“大網(wǎng)膜見(jiàn)多發(fā)粟粒樣結(jié)節(jié)”等。其中,“結(jié)節(jié)”屬于第二類(lèi)實(shí)體,結(jié)果顯示,第二類(lèi)實(shí)體在松弛情況下的P值是0.89,R值是0.92,F(xiàn)值是0.90,這說(shuō)明本研究對(duì)腹膜轉(zhuǎn)移灶的檢出效能比較好?!芭枨弧焙汀按缶W(wǎng)膜”屬于第三類(lèi)實(shí)體,即部位。如果手術(shù)記錄中對(duì)轉(zhuǎn)移灶的部位描述比較詳細(xì),那么結(jié)構(gòu)化的文本結(jié)果將顯示腹膜轉(zhuǎn)移的所有部位。目前,我國(guó)抗癌協(xié)會(huì)胃癌專(zhuān)業(yè)委員會(huì)推薦采用日本胃癌學(xué)會(huì)的腹膜分期[21]。當(dāng)文本顯示轉(zhuǎn)移結(jié)節(jié)位置中有“盆腔”的時(shí)候,則提示腹膜分期為P1c[22]。第四類(lèi)實(shí)體是對(duì)征象的描述,手術(shù)記錄中常見(jiàn)到“盆腔可見(jiàn)積液”“可見(jiàn)腹水”“可見(jiàn)少量黃色液體”等描述,這些征象提示腹膜轉(zhuǎn)移的可能性大。
本文將非結(jié)構(gòu)化的文本轉(zhuǎn)化為結(jié)構(gòu)化文本之后,不僅可以顯示是否腹膜轉(zhuǎn)移,還可以顯示腹膜轉(zhuǎn)移的具體分布。同時(shí),結(jié)果還可以顯示胃癌漿膜浸潤(rùn)的情況,漿膜浸潤(rùn)是腹膜轉(zhuǎn)移的高危因素。雖然病理是確定漿膜浸潤(rùn)的金標(biāo)準(zhǔn),但是術(shù)中所見(jiàn)漿膜的形態(tài)與病理有很大的相關(guān)性。淋巴結(jié)轉(zhuǎn)移也是腹膜轉(zhuǎn)移的高危因素,結(jié)果不僅可以顯示是否存在淋巴結(jié)轉(zhuǎn)移,還可以顯示轉(zhuǎn)移淋巴結(jié)的位置。例如,當(dāng)轉(zhuǎn)移淋巴結(jié)的位置中有腹主動(dòng)脈旁時(shí),則提示胃癌分期M1,而不僅僅是N1[23]。經(jīng)結(jié)構(gòu)化處理過(guò)的手術(shù)記錄,除去了一些重復(fù)和繁瑣的手術(shù)步驟記錄,只專(zhuān)注于關(guān)鍵信息,節(jié)省了時(shí)間與人力,同時(shí)保證了正確性。目前在影像報(bào)告中首先受到國(guó)內(nèi)學(xué)者關(guān)注[24]。
本文也有一定的局限性。文中采用同一醫(yī)院同一部門(mén)的手術(shù)記錄,其中醫(yī)學(xué)實(shí)體表達(dá)比較固定,這也是我們實(shí)體識(shí)別和屬性提取F值較高的原因之一。為了提高模型的穩(wěn)定性,需要采用多中心的臨床數(shù)據(jù)進(jìn)行模型訓(xùn)練驗(yàn)證。
綜上所述,本文提出了一種新的混合方法從手術(shù)記錄中提取胃癌分期相關(guān)信息,并取得了良好的效果。筆者認(rèn)為將非結(jié)構(gòu)化的文本轉(zhuǎn)化結(jié)構(gòu)化文本將是一項(xiàng)十分有意義的工作,未來(lái)將有可能在不同系統(tǒng)疾病的入院記錄、病程記錄等一系列醫(yī)療文本中使用。