• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度自編碼的醫(yī)療命名實(shí)體識(shí)別模型

      2022-09-25 08:42:16侯旭東滕飛張藝
      計(jì)算機(jī)應(yīng)用 2022年9期
      關(guān)鍵詞:解碼器級(jí)聯(lián)病歷

      侯旭東,滕飛,張藝

      (西南交通大學(xué)計(jì)算機(jī)與人工智能學(xué)院,成都 611756)

      0 引言

      醫(yī)療信息化的蓬勃發(fā)展帶來(lái)了大量以患者為中心的醫(yī)療數(shù)據(jù),電子病歷系統(tǒng)作為醫(yī)療信息化建設(shè)中的重要一環(huán)得到了廣泛普及。病歷主要包含醫(yī)療機(jī)構(gòu)對(duì)門(mén)診患者和住院患者的診療記錄和工作記錄,現(xiàn)行衛(wèi)生行業(yè)標(biāo)準(zhǔn)WS445—2014[1]對(duì)電子病歷數(shù)據(jù)及其元數(shù)據(jù)屬性進(jìn)行了規(guī)范,利用電子病歷系統(tǒng)給病歷帶來(lái)了記錄、存儲(chǔ)、查閱上的便利。雖然記錄過(guò)程實(shí)現(xiàn)了信息化,但目前電子病歷仍由半結(jié)構(gòu)化格式的記錄元信息與非結(jié)構(gòu)化的醫(yī)療文本段落組成,以自然語(yǔ)言的形式被記錄于病歷信息系統(tǒng)中。隨著電子病歷管理[2]和應(yīng)用[3]的逐步完善,我國(guó)開(kāi)始著力推進(jìn)醫(yī)療信息現(xiàn)代化與智能化建設(shè)。

      面對(duì)自由文本形式存在的海量病歷數(shù)據(jù),亟須利用信息抽取技術(shù)將病歷文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化病歷數(shù)據(jù)以再供利用,然而結(jié)構(gòu)化病歷的構(gòu)建需要具有醫(yī)療語(yǔ)義的短語(yǔ)作為支撐。統(tǒng)一醫(yī)學(xué)語(yǔ)言系統(tǒng)(Unified Medical Language System,UMLS)[4]對(duì)生物醫(yī)療領(lǐng)域的語(yǔ)義詞匯開(kāi)展了整合工作,促進(jìn)了醫(yī)療語(yǔ)義短語(yǔ)的抽取工作的發(fā)展。通常電子病歷中擁有特定醫(yī)療語(yǔ)義的短語(yǔ)被稱為醫(yī)療實(shí)體,根據(jù)醫(yī)療概念劃分出了病種診斷、藥物治療、手術(shù)治療和實(shí)驗(yàn)室檢驗(yàn)等語(yǔ)義類別,故一篇病歷的關(guān)鍵信息在一定程度上可由其包含的實(shí)體集合來(lái)表示。

      醫(yī)療命名實(shí)體識(shí)別(Medical Named Entity Recognition,MNER)是利用實(shí)體識(shí)別技術(shù)對(duì)在醫(yī)療命名體上開(kāi)展識(shí)別工作。在英文領(lǐng)域,自2004年起,I2B2(the Center for Informatics for Integrating Biology and the Beside)開(kāi)始建立面向醫(yī)療領(lǐng)域的自然處理任務(wù)研究,在I2B2-2009[5]、I2B2-2010[6]、I2B2-2012[7]和I2B2-2014[8]的評(píng)測(cè)任務(wù)中基 于不同角度開(kāi)展了各類MNER 的評(píng)測(cè)。英文領(lǐng)域MNER 研究開(kāi)展較早,實(shí)現(xiàn)和方法上也逐步成熟,中文領(lǐng)域MNER 尚處于發(fā)展階段,楊錦鋒等[9]嘗試結(jié)合中文病歷的語(yǔ)言特點(diǎn),為建立中文醫(yī)療命名實(shí)體數(shù)據(jù)集和標(biāo)注規(guī)范提供了重要參考。中國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì)(China Conference on Knowledge Graph and Semantic Computing,CCKS)自2017 年起開(kāi)始發(fā)布中文臨床醫(yī)療命名實(shí)體識(shí)別任務(wù),為研究中文醫(yī)療命名實(shí)體識(shí)別提供了寶貴的實(shí)驗(yàn)數(shù)據(jù)。

      面向電子病歷的MNER 研究對(duì)于實(shí)現(xiàn)病歷結(jié)構(gòu)化,助力醫(yī)療智能化十分關(guān)鍵。深度語(yǔ)言模型的進(jìn)步為實(shí)體識(shí)別任務(wù)帶來(lái)了新的提升,但先進(jìn)語(yǔ)言模型的參數(shù)規(guī)模達(dá)到上億,致使識(shí)別精度與算力要求間出現(xiàn)了不平衡、不充分的問(wèn)題。知識(shí)蒸餾做到了壓縮語(yǔ)言模型規(guī)模與精度損失上的平衡,但其自身網(wǎng)絡(luò)和針對(duì)下游任務(wù)的解碼器均需要精巧設(shè)計(jì)。因此,研究基于輕量語(yǔ)言模型的高識(shí)別精度醫(yī)療命名實(shí)體識(shí)別模型充滿了挑戰(zhàn);特別是在當(dāng)前中文領(lǐng)域的醫(yī)療命名實(shí)體識(shí)別上公開(kāi)的數(shù)據(jù)和評(píng)測(cè)較少的背景之下,對(duì)于醫(yī)療信息現(xiàn)代化和智能化的快速發(fā)展將會(huì)產(chǎn)生重大意義。

      本文的主要工作如下:

      1)提出了級(jí)聯(lián)思想將實(shí)體識(shí)別過(guò)程拆分的方法。該方法可以改善對(duì)序列式識(shí)別在標(biāo)簽錯(cuò)誤轉(zhuǎn)移錯(cuò)誤和標(biāo)注標(biāo)簽增長(zhǎng)控制上的不足,控制標(biāo)簽隨實(shí)體類別和標(biāo)注方式帶來(lái)的標(biāo)簽增長(zhǎng)為很小常數(shù)。

      2)構(gòu)建了級(jí)聯(lián)多任務(wù)解碼器。級(jí)聯(lián)多任務(wù)解碼器能夠顯著彌補(bǔ)蒸餾與非蒸餾語(yǔ)言模型帶來(lái)的差異,級(jí)聯(lián)多任務(wù)解碼器僅結(jié)合輕量語(yǔ)言模型RBT6[10],實(shí)現(xiàn)了高精度識(shí)別模型。

      3)設(shè)計(jì)了CasSAttMNER(Cascade Self-Attention Medical Named Entity Recognition)模型與各基線模型的對(duì)比實(shí)驗(yàn)。CasSAttMNER 模型可以在實(shí)體類別判斷的上下文中加入實(shí)體提及詞匯整體的信息,能表示級(jí)聯(lián)式識(shí)別中提及詞匯和其類別之間的隱信息,實(shí)驗(yàn)結(jié)果表明該模型提高了醫(yī)療命名實(shí)體識(shí)別的精度。

      1 相關(guān)工作

      MNER 的早期工作依靠醫(yī)學(xué)領(lǐng)域的詞典與規(guī)則[11]。隨著對(duì)醫(yī)學(xué)概念上的編碼工作推進(jìn),國(guó)際疾病分類(International Classification of Diseases,ICD)[12]、SNOMED(Systematized Nomenclature of Human and Veterinary Medicine Reference Terminology)[13]等醫(yī)學(xué)編碼工作形成了海量醫(yī)學(xué)詞典,發(fā)展出了MedLEE[14]、MedKAT(Medical Knowledge Analysis Tool)[15]、cTAKEs(clinical Text Analysis and Knowledge Extraction system)[16]等專家系統(tǒng)。以專家系統(tǒng)形成了符號(hào)主義的醫(yī)療智能,但面對(duì)醫(yī)學(xué)領(lǐng)域的發(fā)展,病種、治療、藥物等方面的新發(fā)現(xiàn)與新治療,專家系統(tǒng)往往不能快速地將其包含,且其相對(duì)應(yīng)的識(shí)別規(guī)則制定也十分復(fù)雜,故人們的研究目光開(kāi)始轉(zhuǎn)向使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方式進(jìn)行。

      Li 等[17]嘗試了使用條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF)與支持向量機(jī)(Support Vector Machine,SVM)的醫(yī)療命名實(shí)體識(shí)別工作,實(shí)驗(yàn)結(jié)果表明,CRF 及其采用序列標(biāo)注式的識(shí)別效果好于SVM 及其短語(yǔ)分類方式的識(shí)別,為MNER 采用序列標(biāo)注式識(shí)別作為主流方式奠定了基礎(chǔ);Clark 等[18]使用規(guī)則與基于CRF 和最大熵的聯(lián)合機(jī)器學(xué)習(xí)方式,在I2B2-2010 的MNER 任務(wù)上取得了0.934 3 的評(píng)測(cè)值;Cohen 等[19]提出了使用無(wú)標(biāo)數(shù)據(jù)中獲取的詞語(yǔ)義分布來(lái)優(yōu)化CRF 中的條件概率轉(zhuǎn)移限制,這種方式為使用語(yǔ)料建模詞分布表示來(lái)實(shí)現(xiàn)實(shí)體識(shí)別奠定了基礎(chǔ)。

      使用機(jī)器學(xué)習(xí)算法為解決MNER 問(wèn)題帶來(lái)了顯著進(jìn)步,但統(tǒng)計(jì)機(jī)器學(xué)習(xí)方式的識(shí)別模型需要依賴特征工程,特征計(jì)算的來(lái)源為特定語(yǔ)料庫(kù)或者任務(wù)本身的數(shù)據(jù),這也限制了機(jī)器學(xué)習(xí)對(duì)新實(shí)體的發(fā)現(xiàn)能力,若預(yù)測(cè)的文本中包含著模型從未見(jiàn)過(guò)的詞語(yǔ)組成的命名實(shí)體,便無(wú)法識(shí)別,此問(wèn)題在中文領(lǐng)域更為凸顯。故對(duì)特征工程依賴和未登錄詞限制,使得使用機(jī)器學(xué)習(xí)方式解決MNER 問(wèn)題存在著明顯的上限。

      而采用深度學(xué)習(xí)的預(yù)訓(xùn)練語(yǔ)言模型能夠突破機(jī)器學(xué)習(xí)方法的限制,因此,很多工作開(kāi)始轉(zhuǎn)向使用神經(jīng)網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)的方式來(lái)進(jìn)一步提升MNER 的效果:Wu 等[20]使用詞嵌入和深度 神經(jīng)網(wǎng)絡(luò)來(lái)解決MNER;Huang 等[21]提出了BiLSTM-CRF(Bi-directional Long Short-Term Memory-Conditional Random Field)神經(jīng)網(wǎng)絡(luò)來(lái)優(yōu)化標(biāo)注預(yù)測(cè);Xu等[22]基于此架構(gòu)將其應(yīng)用于MNER 任務(wù)中;Ji 等[23]嘗試用多個(gè)神經(jīng)網(wǎng)絡(luò)混合的方式來(lái)增強(qiáng)MNER 效果。在通用領(lǐng)域,Baevski 等[24]在神經(jīng)實(shí)體識(shí)別上引入完形填空模式驅(qū)動(dòng)的網(wǎng)絡(luò)結(jié)構(gòu);Liu 等[25]從上下文增強(qiáng)的角度來(lái)嘗試提升神經(jīng)實(shí)體識(shí)別模型的識(shí)別精度;Li 等[26]使用對(duì)抗神經(jīng)網(wǎng)絡(luò)來(lái)設(shè)計(jì)神經(jīng)實(shí)體識(shí)別網(wǎng)絡(luò)。

      在面對(duì)層出不窮神經(jīng)網(wǎng)絡(luò)所設(shè)計(jì)出的MNER 模型時(shí),除了考慮特定領(lǐng)域語(yǔ)言特點(diǎn)所適用的網(wǎng)絡(luò)結(jié)構(gòu)外,仍需考慮除識(shí)別精度外的算力要求和推理時(shí)間等成本因素。目前,使用動(dòng)態(tài)語(yǔ)言模型來(lái)解決MNER 任務(wù)也成為獲取高精度識(shí)別的一種主流方式,但語(yǔ)言模型的參數(shù)量以億級(jí)別為單位,這使得基于語(yǔ)言模型來(lái)解決MNER 時(shí),需要考慮算力的經(jīng)濟(jì)性。深度語(yǔ)言模型為實(shí)現(xiàn)高精度的實(shí)體識(shí)別帶來(lái)了潛在機(jī)會(huì)。各項(xiàng)任務(wù)上評(píng)測(cè)精度越來(lái)越接近原始語(yǔ)言模型效果的語(yǔ)言模型輕量化工作也為實(shí)現(xiàn)算力與識(shí)別精度上的平衡帶來(lái)可能?;谶@樣的背景,本文將利用輕量語(yǔ)言模型開(kāi)展一系列研究,構(gòu)建適用于醫(yī)療命名實(shí)體識(shí)別領(lǐng)域的模型,并嘗試平衡識(shí)別精度外的算力要求與推理時(shí)間、空間使用等成本因素,以達(dá)到實(shí)用性和精準(zhǔn)度間的平衡。

      2 模型構(gòu)建

      本章將使用級(jí)聯(lián)視角來(lái)審視實(shí)體識(shí)別任務(wù),并有依據(jù)地對(duì)問(wèn)題進(jìn)行公式化表述,在此基礎(chǔ)上提出了級(jí)聯(lián)式多任務(wù)實(shí)體識(shí)別算法,構(gòu)建了基于自注意力機(jī)制的級(jí)聯(lián)醫(yī)療命名實(shí)體識(shí)別模型CasSAttMNER。

      2.1 級(jí)聯(lián)式識(shí)別

      2.1.1 實(shí)體識(shí)別任務(wù)的級(jí)聯(lián)目標(biāo)

      如何控制標(biāo)注標(biāo)簽的增長(zhǎng),對(duì)解決復(fù)雜的實(shí)體識(shí)別任務(wù)十分關(guān)鍵。在此,借用數(shù)據(jù)庫(kù)中級(jí)聯(lián)操作的思想來(lái)引入一個(gè)全新的視角去審視實(shí)體識(shí)別任務(wù)。形式定義如下:假定規(guī)模為J的實(shí)體識(shí)別訓(xùn)練數(shù)據(jù)集為D,用xj來(lái)表示D中的第j條文本,用ej表示文本xj中出現(xiàn)的實(shí)體集合。

      設(shè)文本xj中共包含N個(gè)實(shí)體,1 個(gè)實(shí)體ent由包含了位置信息的實(shí)體提及t和類別信息實(shí)體類別c兩部分,此時(shí)存在實(shí)體表示為:

      則給定來(lái)自訓(xùn)練集合D的文本xj,其對(duì)應(yīng)包含N個(gè)實(shí)體的實(shí)體集ej可表示為:

      則對(duì)于實(shí)體識(shí)別訓(xùn)練數(shù)據(jù)集D中的一條數(shù)據(jù),數(shù)據(jù)d由xj和ej組成。此時(shí)d和D可表示為:

      級(jí)聯(lián)式識(shí)別需要描述實(shí)體提及和其潛在的語(yǔ)義類別之間存在相關(guān)性的函數(shù)。式(5)對(duì)這個(gè)過(guò)程進(jìn)行了描述。

      對(duì)于數(shù)據(jù)集D,需要最大化D中的所有潛在實(shí)體出現(xiàn)概率,式(6)描述了這種概率:

      根據(jù)概率鏈?zhǔn)椒▌t,式(6)可轉(zhuǎn)變?yōu)槭剑?):

      根據(jù)上述描述,級(jí)聯(lián)式識(shí)別的求解過(guò)程可做這樣的描述。實(shí)體ent′由(tn,cn)表示,tn為實(shí)體ent′的實(shí)體提及表示,cn為ent′的實(shí)體類別表示。(tn,cn) ∈表示第j條數(shù)據(jù)中的第n個(gè)實(shí)體。cn∈|tn刻畫(huà)了在e'j中已知實(shí)體提及為tn下,實(shí)體類別為cn的對(duì)應(yīng)關(guān)系,這種對(duì)應(yīng)關(guān)系在真實(shí)的ej中存在1 個(gè)或0 個(gè),預(yù)測(cè)中存在0 個(gè)、1 個(gè)或多個(gè),目標(biāo)是在求解中最大限度地接近1 個(gè)或者0 個(gè),具體則取決于真實(shí)的ej。

      式(7)揭示了級(jí)聯(lián)式識(shí)別的任務(wù)目標(biāo),便是最大化式(7)在訓(xùn)練集D上的聯(lián)合概率,即目標(biāo)為最大化地計(jì)算文本xj包含實(shí)體提及tn的概率與此實(shí)體提及tn對(duì)應(yīng)的實(shí)體類別為cn的概率,使之解得的最大限度地接近ej。

      2.1.2 級(jí)聯(lián)式識(shí)別架構(gòu)

      級(jí)聯(lián)式醫(yī)療命名實(shí)體識(shí)別(Cascade Medical Named Entity Recognition,CasMNER)模型標(biāo)注過(guò)程為圖1 所示。

      圖1 級(jí)聯(lián)式醫(yī)療命名實(shí)體識(shí)別模型的標(biāo)注過(guò)程Fig.1 Labeling process of cascade medical named entity recognition model

      級(jí)聯(lián)式識(shí)別借用關(guān)系型數(shù)據(jù)庫(kù)中的級(jí)聯(lián)(Cascade)思想,將文本序列作為一對(duì)多關(guān)系中的一文本序列同時(shí)映射到實(shí)體提及識(shí)別和實(shí)體類別識(shí)別兩過(guò)程中,此時(shí)句子中的每一個(gè)字詞都將對(duì)應(yīng)兩個(gè)輸出預(yù)測(cè)。

      設(shè)實(shí)體提及的標(biāo)簽數(shù)量為N,實(shí)體類別的標(biāo)簽數(shù)量為M,級(jí)聯(lián)式識(shí)別需要的標(biāo)注標(biāo)簽集合S的數(shù)量L為:

      級(jí)聯(lián)式識(shí)別每增加一個(gè)實(shí)體提及標(biāo)簽,模型預(yù)測(cè)輸出時(shí)便僅需要一個(gè)提及標(biāo)簽;每增加一個(gè)類別標(biāo)簽,模型預(yù)測(cè)輸出便僅需要一個(gè)類別標(biāo)簽。相比序列式識(shí)別,這種方式有效控制了標(biāo)注標(biāo)簽的增長(zhǎng)到常數(shù)級(jí)。

      2.2 基于自注意力機(jī)制的CasMNER

      2.2.1 基于自注意力機(jī)制的解碼器優(yōu)化

      采用級(jí)聯(lián)方式的實(shí)體識(shí)別中,實(shí)體提及得到的詞匯及其上下文信息,對(duì)于待提取的實(shí)體詞匯的類別判斷自然地存在一種上下文關(guān)系。本節(jié)對(duì)于如何在實(shí)體類別判斷的上下文中加入實(shí)體提及詞匯整體的信息,提出了使用自注意力機(jī)制來(lái)表示級(jí)聯(lián)式識(shí)別中提及詞匯和其類別之間的隱信息CasSAttMNER 對(duì)實(shí)體類別解碼器進(jìn)行了重新設(shè)計(jì)。

      實(shí)體提及抽取中由式(9)獲得隱解碼信息:

      其中:h代表BiLSTM 網(wǎng)絡(luò)結(jié)構(gòu);xencode為解碼過(guò)程的輸入,由文本序列集合經(jīng)分句、嵌入,再使用經(jīng)過(guò)蒸餾的Transformer語(yǔ)言模型RBT6[10]得到。解碼過(guò)程中,首先使用BiLSTM 對(duì)xencode進(jìn)行解碼,得到序列信息編碼后的第一層解碼情況,同時(shí)結(jié)合Dropout[27]方法對(duì)解碼結(jié)果進(jìn)行選擇性使用,得到初步解碼。Dropout 函數(shù)可根據(jù)超參數(shù)dropoutRate來(lái)歸零BiLSTM 輸出向量上的隨機(jī)維度來(lái)控制解碼信息的稠密。

      在實(shí)體類別判斷中由式(10)獲得隱解碼信息:

      式中:h代表BiLSTM,這里的BiLSTM 不與實(shí)體提及抽取過(guò)程共享使用。

      為完成實(shí)體提及序列標(biāo)注,需完成式(11)、(12)所示的步驟計(jì)算:

      其中:式(11)中的函數(shù)g是線性變化函數(shù),目的為控制hiddent的輸出尺寸和下一步相同;式(12)中φ代表?xiàng)l件隨機(jī)場(chǎng)(CRF)[28]。CRF 條件模型通過(guò)一個(gè)觀察序列X*選擇條件概率p(Y*|X*)最大的標(biāo)簽序列Y*,這類判斷式方法使得推理過(guò)程中觀察序列的依賴可以被正確地表示,而且不會(huì)生成無(wú)關(guān)推斷。CRF 的求解目標(biāo)即給定觀察序列x的標(biāo)簽序列為y的條件概率p(y|x)為:

      其中:tj(yi-1,yi,x,i)是整個(gè)觀察序列在位置i-1 到i的標(biāo)簽從yi-1轉(zhuǎn)移到y(tǒng)i的轉(zhuǎn)移特征函數(shù),sk(yi,x,i)為觀察序列位置i的標(biāo)簽為yi的狀態(tài)特征函數(shù),λj與μk為訓(xùn)練過(guò)程的參數(shù)估計(jì)。

      函數(shù)tj(yi-1,yi,x,i)與sk(yi,x,i)均為二分判斷函數(shù),且所有的特征均來(lái)自觀察序列中是否為真值,則函數(shù)可被表示為:

      式(14)中的wi表示某給定的位置;式(15)中的Tagq和Tagw為給定的標(biāo)簽。

      式(7)中的p(cn|tn,xj)表明了實(shí)體提及對(duì)實(shí)體類別存在聯(lián)合條件概率上的影響。在此,本節(jié)設(shè)計(jì)使用自注意力機(jī)制[29]來(lái)構(gòu)建兩者間的關(guān)系信息,即:

      式(17)用來(lái)計(jì)算自點(diǎn)積注意力。自注意力機(jī)制的輸出并不改變上一層網(wǎng)絡(luò)輸出的空間尺寸,因此xclass與hsatt的空間尺寸相同。式(18)使用xclass和hsatt的連接來(lái)對(duì)實(shí)體類別中增加xmention的信息,Concat 操作是在二者最后一個(gè)維度上進(jìn)行連接。式(19)使用Softmax 網(wǎng)絡(luò)對(duì)hconcat進(jìn)行非線性轉(zhuǎn)換,得到實(shí)體提及在各預(yù)設(shè)類別上的概率分布,取分布中數(shù)值最大者作為實(shí)體類別結(jié)果。此時(shí)的類別標(biāo)簽的計(jì)算由式(17)~(19)描述。

      2.2.2 CasSAttMNER的網(wǎng)絡(luò)架構(gòu)

      對(duì)于輸入文本序列xj,首先將經(jīng)過(guò)字級(jí)別的Character-Embedding 進(jìn)行嵌入表示;隨后在語(yǔ)言模型中得到序列的深度表示,此深度表示將共享輸出到實(shí)體提及解碼器Entity Mention Decoder 和實(shí)體類別解碼器Entity Class Decoder 中。在實(shí)體提及部分將經(jīng)過(guò)兩次的解碼操作得到所需的實(shí)體提及標(biāo)簽序列。在實(shí)體類別部分,利用實(shí)體提及的第一步解碼輸出的自注意力矩陣,與實(shí)體類別中的第一步解碼得到的矩陣進(jìn)行連接,通過(guò)Softmax 網(wǎng)絡(luò)來(lái)輸出類別。兩個(gè)輸出序列的組合將成為xj的輸出結(jié)果序列yj,兩序列的長(zhǎng)度以及內(nèi)容一一對(duì)應(yīng)。CasSAttMNER 的網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。

      圖2 CasSAttMNER的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與推理示例Fig.2 CasSAttMNER’s neural network structure and reasoning example

      3 實(shí)驗(yàn)及結(jié)果分析

      將CasSAttMNER模型與各基線模型在CCKS-19[30]和CCKS-20[31]數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),評(píng)估輸入與輸出操作的效果,并進(jìn)行實(shí)驗(yàn)結(jié)果分析。

      3.1 環(huán)境配置與評(píng)估指標(biāo)

      本文的實(shí)驗(yàn)環(huán)境為Windows10 操作系統(tǒng),CPU 為Intel Gold 6138,GPU 為Nvidia Quadro RTX 6000,CUDA版本為9.0。

      描述實(shí)體識(shí)別任務(wù)的識(shí)別精準(zhǔn)度評(píng)估采用精準(zhǔn)率(Precision,P)、召回率(Recall,R)、F值度量(F1 score measure,F(xiàn))三個(gè)指標(biāo)進(jìn)行判斷。數(shù)據(jù)在被預(yù)測(cè)時(shí)會(huì)出現(xiàn)真正(True Positive,TP)、真負(fù)(True Negative,TN)、假正(False Positive,F(xiàn)P)和假負(fù)(False Negative,F(xiàn)N)的4 種情況。針對(duì)模型會(huì)出現(xiàn)偏差的情況,使用P 來(lái)統(tǒng)計(jì)TP 在預(yù)測(cè)數(shù)據(jù)中的占比,使用R來(lái)統(tǒng)計(jì)TP在真實(shí)數(shù)據(jù)中的占比,F(xiàn) 反映了P 和R間的平衡。

      精確匹配用來(lái)度量模型的預(yù)測(cè)序列結(jié)果轉(zhuǎn)換出的實(shí)體集合和人工標(biāo)注的實(shí)體集合的匹配程度,是在實(shí)體集級(jí)別的匹配,在精確模式下的F 值度量為FE。在精確模式下的精準(zhǔn)率PE、召回率RE和F 值度量FE的計(jì)算定義如下:

      其中:J=ent1,ent2,…,entT為真實(shí)實(shí)體集;ent'為模型預(yù)測(cè)出的實(shí)體短語(yǔ),包含模型預(yù)測(cè)的實(shí)體在文本中的位置和類別信息;K=,,…,為預(yù)測(cè)出的實(shí)體序列。

      3.2 數(shù)據(jù)集

      本次實(shí)驗(yàn)使用CCKS 在2019 年與2020 年的中文醫(yī)療命名實(shí)體識(shí)別評(píng)測(cè)任務(wù)的兩個(gè)中文醫(yī)療實(shí)體數(shù)據(jù)集,文中分別簡(jiǎn)稱為CCKS-19[30]和CCKS-20[31]。

      CCKS-19 提供了1 000 例病歷語(yǔ)料作為數(shù)據(jù)集,CCKS-20提供了1 050 例病歷語(yǔ)料作為數(shù)據(jù)集,均含有6 種醫(yī)療實(shí)體類型。表1 提供了CCKS-19 和CCKS-20 兩數(shù)據(jù)集的相關(guān)統(tǒng)計(jì)信息。

      表1 數(shù)據(jù)集中的實(shí)體類別與數(shù)量統(tǒng)計(jì)Tab.1 Entity class and quantity statistics in datasets

      3.3 數(shù)據(jù)集劃分

      針對(duì)模型的訓(xùn)練與驗(yàn)證,實(shí)驗(yàn)將數(shù)據(jù)集的訓(xùn)練與驗(yàn)證部分劃分比例統(tǒng)一為90%與10%,且在對(duì)所有模型訓(xùn)練和驗(yàn)證中不調(diào)整數(shù)據(jù)內(nèi)容。

      3.4 模型超參數(shù)設(shè)置

      CasSAttMNER 模型所使用的語(yǔ)言模型為RBT6[10],訓(xùn)練方式為自動(dòng)檢查點(diǎn)機(jī)制,若當(dāng)前epoch 的結(jié)果好于當(dāng)前最優(yōu)記錄,將自動(dòng)地將此輪epoch 學(xué)習(xí)到的參數(shù)進(jìn)行轉(zhuǎn)儲(chǔ),并更新最優(yōu)記錄。本次訓(xùn)練中模型的最優(yōu)epoch 基本在30~80 的區(qū)間內(nèi)。本次實(shí)驗(yàn)統(tǒng)一訓(xùn)練的優(yōu)化函數(shù)為adam[32]。使用度量函數(shù)衡量模型整體的輸出準(zhǔn)確率和損失函數(shù)評(píng)估預(yù)測(cè)與實(shí)際的偏差程度。由于確定實(shí)體類別的過(guò)程被視為多分類任務(wù),故引入了分類精準(zhǔn)度categorical_acc 和分類損失估計(jì)categorical_loss:分類精準(zhǔn)度categorical_acc 用于計(jì)算預(yù)測(cè)中預(yù)測(cè)為真占所有預(yù)測(cè)情況的比值;分類損失categorical_loss為分類交叉熵,計(jì)算了在一個(gè)批量中各個(gè)實(shí)體類別的平均交叉損失熵。

      為控制變量的復(fù)雜程度,本次訓(xùn)練過(guò)程設(shè)置了統(tǒng)一的學(xué)習(xí)率1E -5 與批尺寸8。除此之外,兩個(gè)BiLSTM 網(wǎng)絡(luò)層的輸出尺寸均為64;Dropout Rate 均為0.35;CRF 網(wǎng)絡(luò)層的輸出尺寸為5;Softmax 網(wǎng)絡(luò)層的輸出尺寸為7。

      3.5 結(jié)果與分析

      級(jí)聯(lián)思想將實(shí)體邊界和實(shí)體類別標(biāo)注過(guò)程分解,嘗試探索輕量語(yǔ)言模型的多任務(wù)開(kāi)發(fā)能力。

      為驗(yàn)證級(jí)聯(lián)式識(shí)別存在識(shí)別精度優(yōu)勢(shì),CasSAttMNER 將在3.2 節(jié)中介紹的兩個(gè)數(shù)據(jù)集上進(jìn)行評(píng)估,使用CCKS 在2019 年與2020 年的中文醫(yī)療命名實(shí)體識(shí)別評(píng)測(cè)任務(wù)中的優(yōu)秀模型作為對(duì)比基線。表2 統(tǒng)計(jì)了各模型的F 值度量表現(xiàn),CasSAttMNER 將MNER 的識(shí)別精度FE指標(biāo)提升了3~8 個(gè)百分點(diǎn)。

      表2 各模型的FE評(píng)測(cè)統(tǒng)計(jì)Tab.2 FE evaluation statistics of each model

      表3 統(tǒng)計(jì)了各模型在精確匹配下各類別實(shí)體的F 值度量表現(xiàn)。級(jí)聯(lián)式識(shí)別進(jìn)一步提升了MNER 任務(wù)的識(shí)別精準(zhǔn)度,采用自注意力機(jī)制優(yōu)化的CasSAttMNER 模型,有效地表示了實(shí)體提及與實(shí)體類別之間的隱關(guān)系?;诜钦麴s的語(yǔ)言模型BERT 設(shè)計(jì)的醫(yī)療命名實(shí)體識(shí)別模型[35-36]與基于蒸餾的Transformer 語(yǔ)言模型RBT6[10]設(shè)計(jì)的CasSAttMNER 模型進(jìn)行對(duì)比實(shí)驗(yàn),在識(shí)別精度上提升了約3 個(gè)百分點(diǎn),證明了多任務(wù)解碼器能夠打破蒸餾與非蒸餾的語(yǔ)言模型間的差異,提升蒸餾語(yǔ)言的模型表現(xiàn)。級(jí)聯(lián)多任務(wù)方式的解碼器結(jié)合輕量語(yǔ)言模型RBT6[10],便可實(shí)現(xiàn)高精度的識(shí)別任務(wù),顯著提升了算力經(jīng)濟(jì)性。

      表3 各模型的實(shí)體F值度量表現(xiàn)統(tǒng)計(jì)Tab.3 Entity F value measure statistics of each model

      4 結(jié)語(yǔ)

      本文針對(duì)序列式識(shí)別在標(biāo)簽錯(cuò)誤轉(zhuǎn)移錯(cuò)誤和標(biāo)注標(biāo)簽增長(zhǎng)控制上的不足,引入級(jí)聯(lián)思想將實(shí)體識(shí)別過(guò)程拆分,提出了一種基于深度自編碼的醫(yī)療命名實(shí)體識(shí)別模型。傳統(tǒng)的序列式實(shí)體識(shí)別改變標(biāo)注方式易帶來(lái)標(biāo)簽預(yù)測(cè)空間和標(biāo)簽錯(cuò)誤傳播的增長(zhǎng)過(guò)快問(wèn)題,這限制了識(shí)別精度的提升。本文模型首先對(duì)級(jí)聯(lián)式實(shí)體識(shí)別進(jìn)行公式化表述,隨后設(shè)計(jì)了對(duì)應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)。該模型延續(xù)編碼與解碼間深度差平衡策略,使用輕量語(yǔ)言模型作為編碼器減小編碼深度以及降低對(duì)訓(xùn)練和應(yīng)用上的算力要求,使用長(zhǎng)短期記憶網(wǎng)絡(luò)與條件隨機(jī)場(chǎng)網(wǎng)絡(luò)提出了級(jí)聯(lián)式多任務(wù)雙解碼器,并添加自注意力機(jī)制進(jìn)行優(yōu)化得到模型CasSAttMNER。實(shí)驗(yàn)結(jié)果表明,CasSAttMNER 模型的解碼器能力得到了進(jìn)一步提升,在兩個(gè)中文醫(yī)療實(shí)體數(shù)據(jù)的F 值度量可達(dá)到0.943 9 和0.945 7。相關(guān)實(shí)驗(yàn)證明了級(jí)聯(lián)多任務(wù)解碼器能顯著彌補(bǔ)蒸餾與非蒸餾語(yǔ)言模型帶來(lái)的差異,級(jí)聯(lián)多任務(wù)解碼器僅結(jié)合輕量語(yǔ)言模型,便達(dá)成實(shí)現(xiàn)高精度的識(shí)別模型,顯著提升了模型算力經(jīng)濟(jì)性。

      對(duì)于編碼器與解碼器的設(shè)計(jì),本次使用的輕量語(yǔ)言模型RBT6[10]是面向通用領(lǐng)域,若使用面向醫(yī)學(xué)知識(shí)的輕量語(yǔ)言模型作為編碼器應(yīng)能繼續(xù)提升醫(yī)學(xué)實(shí)體識(shí)別的精準(zhǔn)度。本次解碼器優(yōu)化設(shè)計(jì)主要基于標(biāo)準(zhǔn)的LSTM 網(wǎng)絡(luò)與Attention 機(jī)制結(jié)合的方式,未來(lái)可繼續(xù)探究其變種網(wǎng)絡(luò)或者其他類型網(wǎng)絡(luò)對(duì)解碼器的優(yōu)化能力。

      猜你喜歡
      解碼器級(jí)聯(lián)病歷
      科學(xué)解碼器(一)
      強(qiáng)迫癥病歷簿
      科學(xué)解碼器(二)
      科學(xué)解碼器(三)
      “大數(shù)的認(rèn)識(shí)”的診斷病歷
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
      級(jí)聯(lián)LDPC碼的STBC-OFDM系統(tǒng)
      電子制作(2016年15期)2017-01-15 13:39:09
      為何要公開(kāi)全部病歷?
      基于級(jí)聯(lián)MUSIC的面陣中的二維DOA估計(jì)算法
      村醫(yī)未寫(xiě)病歷,誰(shuí)之過(guò)?
      娱乐| 深州市| 连江县| 昌都县| 巴南区| 霍州市| 万宁市| 大悟县| 田阳县| 普安县| 曲周县| 凤凰县| 茂名市| 会泽县| 开鲁县| 浠水县| 阳西县| 平江县| 缙云县| 隆安县| 东平县| 象山县| 宜丰县| 中山市| 兰考县| 开原市| 林口县| 彰武县| 杭锦旗| 塔河县| 饶河县| 衢州市| 兴城市| 辽宁省| 安国市| 时尚| 中西区| 锡林郭勒盟| 七台河市| 内乡县| 新田县|