尤麗玨, 尹遠(yuǎn)芳
(華東醫(yī)院,上海 200040)
臨床醫(yī)學(xué)檢查是醫(yī)生確定患者病因的重要手段,為疾病對(duì)癥治療提供客觀性證據(jù)。醫(yī)學(xué)影像檢查報(bào)告是影像科通過攝片的診斷記錄,詳細(xì)描述病灶位置、大小、形態(tài)等信息,幫助醫(yī)生快速確定診療方案[1]。隨著醫(yī)療大數(shù)據(jù)、人工智能的發(fā)展,醫(yī)學(xué)影像檢查報(bào)告的科研價(jià)值日益受到重視,成為疾病風(fēng)險(xiǎn)預(yù)測(cè)和臨床決策支持的重要依據(jù)[2]。然而,醫(yī)學(xué)影像檢查報(bào)告通常以非結(jié)構(gòu)化的自然語言方式書寫,面臨著術(shù)語不規(guī)范、語義不一致等問題,關(guān)鍵信息的匯總分析較困難[3]。因此,如何高效準(zhǔn)確抽取出結(jié)構(gòu)化、可統(tǒng)計(jì)的特征數(shù)據(jù)成為醫(yī)療機(jī)構(gòu)關(guān)注的重點(diǎn)。
命名實(shí)體識(shí)別(NER)是自然語言處理(NLP)的核心技術(shù),通過自主學(xué)習(xí)識(shí)別醫(yī)學(xué)文本的疾病、癥狀等特定實(shí)體,替代人工標(biāo)注[4]。BiLSTM-CRF屬于命名實(shí)體識(shí)別的經(jīng)典序列標(biāo)注模型,雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(BiLSTM)利用輸入序列的上下文信息加強(qiáng)識(shí)別度,條件隨機(jī)場(chǎng)(CRF)負(fù)責(zé)分離輸出層的關(guān)聯(lián)性,預(yù)測(cè)標(biāo)簽考慮上下文關(guān)聯(lián),準(zhǔn)確判斷命名實(shí)體[5]。本文旨在基于BiLSTM-CRF模型構(gòu)建一種適用于醫(yī)學(xué)影像檢查報(bào)告的NER方法,對(duì)報(bào)告文本內(nèi)容進(jìn)行實(shí)體識(shí)別,構(gòu)建專項(xiàng)術(shù)語知識(shí)庫,實(shí)現(xiàn)特征數(shù)據(jù)的智能匹配和提示功能,為其他醫(yī)療機(jī)構(gòu)應(yīng)用醫(yī)療大數(shù)據(jù)工作提供借鑒。
多數(shù)酒店知識(shí)型員工的薪資水平不高,而且相互之間差距不大。酒店的高層管理人員沒有體會(huì)到知識(shí)型員工的重要性和能夠?yàn)榫频晁鶐淼母郊又?,或者?duì)于其認(rèn)識(shí)不夠。將知識(shí)型員工的收入水平與一般員工的收入水平等同起來。這樣的后果就是使得知識(shí)型員工產(chǎn)生消極感和對(duì)自我價(jià)值的過低評(píng)估,覺得自己的努力沒有獲得應(yīng)該的回報(bào),自身的價(jià)值在工作中得不到認(rèn)可與體現(xiàn)。有些酒店甚至沒有為知識(shí)型員工辦理相對(duì)應(yīng)的社會(huì)保障例如:社會(huì)養(yǎng)老保險(xiǎn)、失業(yè)保險(xiǎn)和社會(huì)醫(yī)療保險(xiǎn),偏偏知識(shí)型員工的學(xué)習(xí)能力信息接收能力強(qiáng),對(duì)自身的風(fēng)險(xiǎn)規(guī)避意識(shí)較高,酒店這種對(duì)知識(shí)型員工安全心理的不作為會(huì)導(dǎo)致知識(shí)型員工對(duì)企業(yè)的信任感較低。
醫(yī)療命名實(shí)體識(shí)別技術(shù)分為基于規(guī)則、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)3類?;谝?guī)則方法依賴預(yù)先設(shè)定的規(guī)則,KOCAMAN等[6]通過分析臨床報(bào)告的語義和句法結(jié)構(gòu),結(jié)合醫(yī)學(xué)詞典和專家規(guī)則構(gòu)建處理模型;機(jī)器學(xué)習(xí)方法通常將實(shí)體識(shí)別任務(wù)轉(zhuǎn)化為標(biāo)簽分類任務(wù),包括隱馬爾科夫(HMM)、決策樹 (Decision Tree)和CRF等[7],葉楓等[8]使用CRF方法識(shí)別電子病歷的實(shí)體,特征模板用小規(guī)模的語料庫訓(xùn)練,取得較理想的F1值;深度學(xué)習(xí)方法能夠自動(dòng)學(xué)習(xí)語義級(jí)別的特征,屬于目前主流的研究領(lǐng)域,GLIGIC等[9]使用醫(yī)學(xué)語料庫訓(xùn)練Word2Vec詞嵌入算法,將嵌入矩陣和詞匯表用于電子病歷的結(jié)構(gòu)化轉(zhuǎn)換,提升識(shí)別效果。
醫(yī)學(xué)影像檢查報(bào)告包含大量的專有長(zhǎng)組合詞,處理常規(guī)醫(yī)療文本的NER方法在區(qū)分征象邊界的正確率不高,容易產(chǎn)生結(jié)構(gòu)化信息的丟失[10]。醫(yī)學(xué)影像檢查報(bào)告應(yīng)用于很多醫(yī)療管理和質(zhì)控場(chǎng)景,加強(qiáng)其關(guān)鍵特征數(shù)據(jù)的識(shí)別有著重要意義[11]。
本文圍繞BiLSTM-CRF模型建立醫(yī)學(xué)影像檢查報(bào)告特定語料環(huán)境的智能識(shí)別系統(tǒng),識(shí)別并提取關(guān)鍵的特征數(shù)據(jù),以結(jié)構(gòu)化的數(shù)據(jù)形式存儲(chǔ),實(shí)現(xiàn)書寫時(shí)的智能邏輯提示。首先,基于影像報(bào)告軟件(RIS)產(chǎn)生的報(bào)告文本進(jìn)行BiLSTM-CRF模型訓(xùn)練,提取部位、癥狀、陽性標(biāo)志等結(jié)構(gòu)化內(nèi)容,與人工標(biāo)注匹配;其次,加入補(bǔ)償驗(yàn)證環(huán)節(jié),抽取病理信息系統(tǒng)(PIS)里患者一定周期內(nèi)的病理結(jié)果,按部位、陽性標(biāo)志等與識(shí)別結(jié)果進(jìn)行Word2Vec算法的相似度計(jì)算,若兩者結(jié)論不一致,及時(shí)推送消息提醒醫(yī)生,糾正可能存在的遺漏;最后,系統(tǒng)后臺(tái)將醫(yī)生正確反饋的結(jié)構(gòu)化數(shù)據(jù)入庫,將更正的識(shí)別信息注入模型,自學(xué)習(xí)結(jié)果納入專項(xiàng)術(shù)語詞庫,形成一套閉環(huán)完整的實(shí)體識(shí)別體系框架??傮w流程如圖1所示。
實(shí)驗(yàn)硬件平臺(tái)為Intel Core i7-8700 3.2 GHz CPU,NVIDIA RTX 3080 GPU,軟件環(huán)境為深度學(xué)習(xí)框架Python 3.7。參數(shù)設(shè)置方面,批處理大小=16,字向量維度=300,學(xué)習(xí)率=0.001,丟失率=0.5,LSTM長(zhǎng)度=128,BiLSTM網(wǎng)絡(luò)層數(shù)=2。
圖1 醫(yī)學(xué)影像檢查報(bào)告智能識(shí)別流程
輸入層對(duì)原始非結(jié)構(gòu)化的醫(yī)學(xué)影像檢查報(bào)告文本進(jìn)行預(yù)處理及中文分詞。預(yù)處理去除標(biāo)點(diǎn)符號(hào)、特殊符號(hào)、空格等無關(guān)信息,強(qiáng)調(diào)特定詞語和詞語組合,避免關(guān)鍵信息的歧義。中文分詞使用4標(biāo)簽(single:單字;begin:多字詞首字;middle:多字詞中間字;end:多字詞尾字),標(biāo)注句中每個(gè)字的標(biāo)簽,例如:句子“左肺下葉肺隔離癥伴粘液栓形成”,標(biāo)注為“左/b 肺/m 下/m 葉/e 肺/b 隔/m 離/m 癥/e 伴/s 粘/b液/e 栓/s 形/b 成/e”,即“bmmebmmesbesbe”作為輸入。
圖2 BiLSTM-CRF實(shí)體識(shí)別模型
本文的BiLSTM-CRF模型分為5層,包括輸入層、Embedding層、BiLSTM層、CRF層和輸出層,模型結(jié)構(gòu)如圖2所示。
陳至立在致辭中指出,《辭海》要緊跟數(shù)字網(wǎng)絡(luò)技術(shù)迅猛發(fā)展的步伐,推出豐富多樣的知識(shí)產(chǎn)品,提供個(gè)性化、公益性的知識(shí)服務(wù),到2019年第七版面世時(shí),同步推出紙質(zhì)版、網(wǎng)絡(luò)版,并努力建成“面向知識(shí)服務(wù)的《辭海》數(shù)字出版云平臺(tái)”,完成從編纂、管理到發(fā)布、運(yùn)營(yíng)全流程的網(wǎng)絡(luò)化和數(shù)字化,以更好地滿足廣大讀者和用戶需求,為中國(guó)特色社會(huì)主義文化大發(fā)展、大繁榮作出新貢獻(xiàn)。
總之,在數(shù)學(xué)課堂教學(xué)中,要提高學(xué)生在40分鐘內(nèi)的學(xué)習(xí)效率,提高自身的教學(xué)質(zhì)量,我們就應(yīng)該充分做到備教材、備教法,提高自身的教學(xué)能力,發(fā)揮自身的主導(dǎo)。
結(jié)合中文醫(yī)學(xué)檢查結(jié)論的特點(diǎn)及臨床實(shí)際應(yīng)用,設(shè)定為部位(B)、癥狀(S)、程度(D)、判斷(J)和陽性(Y)等5大實(shí)體類型,對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行手動(dòng)標(biāo)注,最終標(biāo)注38 839個(gè)實(shí)體,如表2所示。
CRF 層從訓(xùn)練集獲取約束性規(guī)則以保證預(yù)測(cè)標(biāo)簽的合理性,降低非法序列出現(xiàn)的概率[13]。每個(gè)句子預(yù)測(cè)值即為一個(gè)標(biāo)注序列,轉(zhuǎn)換為CRF的一個(gè)特征函數(shù)。若特征函數(shù)的輸出值為1時(shí),表示此標(biāo)注序列符合特征;若輸出值為0,表示不符合。每個(gè)特征函數(shù)均賦有權(quán)重,實(shí)現(xiàn)對(duì)標(biāo)注序列的分值評(píng)判。對(duì)分值指數(shù)化和標(biāo)準(zhǔn)化,得到標(biāo)注序列的概率,選擇最優(yōu)概率作為結(jié)果傳遞輸出層,實(shí)現(xiàn)醫(yī)學(xué)影像檢查報(bào)告文本的實(shí)體識(shí)別。
采用命名實(shí)體識(shí)別常用的3個(gè)定量評(píng)價(jià)指標(biāo),即準(zhǔn)確率(Precision-P)、召回率(Recall-R)和F值[15],對(duì)識(shí)別性能進(jìn)行衡量,計(jì)算公式為
表1 醫(yī)學(xué)影像檢查報(bào)告的段落示例
BiLSTM層由擁有捕獲更長(zhǎng)距離信息的前向和后向LSTM組成,前者用于學(xué)習(xí)醫(yī)學(xué)影像檢查報(bào)告的前向序列信息,后者用于學(xué)習(xí)后向的序列信息,例如:“左肺下葉”和“葉下肺左”的序列信息提取,雙向的LSTM結(jié)構(gòu)考慮了句子前后的信息,充分結(jié)合上下文的特征,經(jīng)標(biāo)注的單個(gè)字“左”、“肺”具有同等權(quán)值。BiLSTM層實(shí)現(xiàn)上下文信息的有效提取與整合,保證部位等實(shí)體預(yù)測(cè)結(jié)果的準(zhǔn)確性。
表2 實(shí)體類型標(biāo)注情況
合理分組是實(shí)施合作學(xué)習(xí)的前提,也是營(yíng)造良好合作學(xué)習(xí)氛圍的重要舉措。分組過程中,教師要尊重學(xué)情,充分考慮學(xué)生之間存在的差異,包括學(xué)習(xí)能力存在的差異,使不同學(xué)習(xí)能力的學(xué)生得到合理搭配;要考慮學(xué)生之間的性格不同,使不同性格的學(xué)生進(jìn)行合理配合,達(dá)到取長(zhǎng)補(bǔ)短的作用。
Embedding層采用Word2Vec算法的詞嵌入。Word2-Vec主要分為2類,連續(xù)詞袋(CBOW)和連續(xù)跳躍元語法(Skip-gram)。CBOW通過詞的上下文對(duì)當(dāng)前詞預(yù)測(cè)學(xué)習(xí)詞向量,Skip-gram根據(jù)當(dāng)前詞對(duì)上下文預(yù)測(cè)實(shí)現(xiàn)學(xué)習(xí)過程[12]。本文采用CBOW算法,可視作一種映射關(guān)系,其輸入為單個(gè)詞匯構(gòu)成的詞表,伴隨降維過程輸出每個(gè)詞的向量表示,如圖3所示。
考慮數(shù)據(jù)完整性等因素,模型前期訓(xùn)練基于既往的醫(yī)學(xué)影像檢查報(bào)告進(jìn)行。隨機(jī)篩選2021年度RIS的1000份CT報(bào)告作為訓(xùn)練樣本,以8∶1∶1的比例劃分訓(xùn)練數(shù)據(jù)集、測(cè)試數(shù)據(jù)集和驗(yàn)證集[14]。其中,每份報(bào)告均包含檢查部位和名稱、檢查方法等段落,如表1所示。
(1)
(2)
(3)
實(shí)驗(yàn)結(jié)果顯示,模型整體的P達(dá)到89.98%,R和F值為83.95%和86.85%。進(jìn)一步按類型分析,可以看出識(shí)別準(zhǔn)確率均在80%以上,如圖4所示。其中,陽性(Y)的識(shí)別精度最高,癥狀(S)相對(duì)較低。由于醫(yī)生對(duì)同一癥狀的表述差異,例如“見索條影”,可能有些醫(yī)生描述為“陰影呈索條狀”,因此,模型依賴更多的自學(xué)習(xí),提升對(duì)表達(dá)方式多變的文本識(shí)別效果。
圖4 按類型識(shí)別效果的評(píng)價(jià)(%)
在前期工作基礎(chǔ)上,醫(yī)學(xué)影像檢查報(bào)告智能識(shí)別系統(tǒng)投入試運(yùn)行,覆蓋范圍限于胸部相關(guān)的CT報(bào)告,1個(gè)月內(nèi)共納入3446份報(bào)告。如圖5所示,系統(tǒng)對(duì)檢查報(bào)告預(yù)處理,過濾特殊符號(hào)、分詞等;處理后文本傳入BiLSTM-CRF模型實(shí)體識(shí)別,若置信度高于閾值,將實(shí)體詞條與專項(xiàng)術(shù)語庫預(yù)設(shè)對(duì)應(yīng),拆分成部位、癥狀等小項(xiàng);提取的特征數(shù)據(jù)在RIS報(bào)告右端顯示,醫(yī)生查看校對(duì)確認(rèn)后,以結(jié)構(gòu)化數(shù)據(jù)形式入庫,以便科研統(tǒng)計(jì)使用。
由表3可知,不同配方速溶油茶得率不同,配方1~7的茶葉均為春綠茶,得率在17.64%~19.62%;配方9為冰鮮烏龍茶(成熟葉片),CK為市場(chǎng)上油茶企業(yè)常用的原料(粗老茶),得率分別為8.13%和10.77%。因此,速溶油茶得率與原料嫩度呈正相關(guān),原料越老,內(nèi)含物越少,得率越低。另外,此次試驗(yàn)只浸提1次,下一步會(huì)增加浸提試驗(yàn)次數(shù),研究最佳浸提次數(shù),提高得率。
后臺(tái)管理模塊對(duì)實(shí)際運(yùn)行的識(shí)別效果進(jìn)行了統(tǒng)計(jì),如表4所示。由表4可以看出,第一周的識(shí)別效果并不理想,原因是訓(xùn)練集未能完全覆蓋特征數(shù)據(jù)的多元化。經(jīng)過磨合,第四周準(zhǔn)確率已經(jīng)達(dá)到92.64%,基本滿足業(yè)務(wù)預(yù)期。識(shí)別結(jié)果存在錯(cuò)誤時(shí),醫(yī)生根據(jù)實(shí)際情況人工校正,系統(tǒng)對(duì)糾正結(jié)果進(jìn)行自學(xué)習(xí),將選擇的小項(xiàng)映射到正確的實(shí)體類別,模型推導(dǎo)正確結(jié)果的邏輯得以優(yōu)化。同時(shí),本次檢查報(bào)告與近期病理結(jié)果的陽性若有差異,系統(tǒng)以閃爍的紅色字體反饋,先后共推送4次提醒,保障了檢查報(bào)告書寫的質(zhì)量。
表4 按周評(píng)價(jià)醫(yī)學(xué)影像檢查報(bào)告識(shí)別效果 單位:%
本文將命名實(shí)體識(shí)別技術(shù)運(yùn)用于醫(yī)療業(yè)務(wù)軟件,利用BiLSTM-CRF模型進(jìn)行醫(yī)學(xué)影像檢查報(bào)告的實(shí)體識(shí)別,有效地提取了關(guān)鍵特征數(shù)據(jù)。采用準(zhǔn)確率、召回率和F值對(duì)識(shí)別效果進(jìn)行評(píng)價(jià),證明了方法的可行性和可靠性。智能識(shí)別系統(tǒng)應(yīng)用后,結(jié)構(gòu)化特征數(shù)據(jù)的自動(dòng)提取精度達(dá)到了較高水平,提高了醫(yī)學(xué)影像檢查報(bào)告的數(shù)據(jù)使用價(jià)值。調(diào)查顯示,系統(tǒng)提供的智能提示功能,醫(yī)生在使用滿意度方面有著5.3%的提升。當(dāng)然,實(shí)際使用過程中仍存在著待改進(jìn)的內(nèi)容,如專業(yè)詞匯庫不夠豐富,邏輯規(guī)則的匹配錯(cuò)誤率有待降低。后續(xù),醫(yī)院將進(jìn)一步納入其他疾病的檢查報(bào)告,提高模型訓(xùn)練的自學(xué)習(xí)能力,以期達(dá)到更好的應(yīng)用效果。隨著醫(yī)學(xué)檢查專業(yè)詞匯和后結(jié)構(gòu)化數(shù)據(jù)的不斷累積,將為科研領(lǐng)域的知識(shí)挖掘奠定堅(jiān)實(shí)基礎(chǔ)。