• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于字符級特征自適應的生物醫(yī)學命名實體識別

    2023-09-06 04:29:54于祥欽李智強
    小型微型計算機系統(tǒng) 2023年9期
    關鍵詞:生物醫(yī)學字符命名

    于祥欽,王 香,李智強,徐 賢

    (華東理工大學 信息科學與工程學院,上海 200237)

    1 引 言

    每年都有大量生物醫(yī)學相關的文獻在各類的期刊和會議上被發(fā)表,生物醫(yī)學文獻中蘊含豐富的化學物質(zhì)-疾病關系,可以幫助藥物研究人員預測化學物質(zhì)和疾病之間的關系,研究藥物機理,降低藥物研究、臨床試驗等的復雜性[1],生物醫(yī)學命名實體識別是其他生物醫(yī)學領域相關任務的先決條件,如:文本分類、語音識別、機器翻譯、機器問答、推薦系統(tǒng)等.作為基礎而又關鍵的一步,高效的從海量的生物醫(yī)學文本中識別出不同類型的實體信息,可以幫助相關領域的研究學者高效的開展研究,推動相關領域的發(fā)展.

    目前生物醫(yī)學命名實體識別的主流方法有以下幾種:基于詞典的方法、基于規(guī)則的方法、基于傳統(tǒng)機器學習的方法和基于深度學習的方法.基于詞典和規(guī)則的方法的性能受限于詞典質(zhì)量和規(guī)則完整性;基于傳統(tǒng)機器學習的方法在數(shù)據(jù)集完善且特征選取合理的情況下能發(fā)揮較好性能;基于深度學習的方法可以在不依賴人工特征的情況下發(fā)揮較好性能.

    近年來,詞嵌入(Word Embedding)技術與深度學習結(jié)合的方法在自然語言處理領域獲得廣泛應用.詞嵌入技術所得到的分布式詞向量有著低維、稠密等特點,每一個維度都包含了潛在語義信息,可以通過詞向量之間的相似度來了解到單詞語義之間的相關性,通常在大規(guī)模相關語料上生成預訓練詞向量.相較于通用領域,生物醫(yī)學領域的命名實體任務的性能提升面臨諸多挑戰(zhàn).如實體長度較長、形態(tài)復雜多變、縮寫命名規(guī)范不統(tǒng)一、存在嵌套情況和新增相關詞匯數(shù)量迅速增加等問題,而預訓練詞表容量有限,在初始化詞向量查找詞表時容易出現(xiàn)未登錄詞(out of vocabulary,OOV)問題,且詞向量是單詞級別的特征表示,缺少對生物醫(yī)學實體前后綴和拼寫等內(nèi)部特征的關注.

    字符嵌入(Character Embedding)表示對單詞的字符序列向量化,是對詞嵌入的一種補充,在遇到詞表中沒有出現(xiàn)的單詞時可以使用字符嵌入對其語義進行推斷.卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)[2,3]和雙向長短期記憶網(wǎng)絡(Bidirectional Long Short Term Memory,BiLSTM)[4,5]常被用來提取字符級特征,CNN更關注局部特征,適合表示單詞的前后綴和組成;BiLSTM更關注長距離時序特征,適合表示單詞的拼寫,在不同上下文語境下兩種字符級特征對單詞的重要程度有所傾向,單一字符特征能捕捉到的潛在語義有限.

    針對以上問題,本文提出一種基于字符級特征自適應的生物醫(yī)學命名實體識別模型.本文的主要貢獻點如下:

    1)針對單一字符級特征對字符形態(tài)的表征有限,聯(lián)合使用CNN和BiLSTM提取字符級特征,將組合后的字符級特征作為詞表示的一部分;

    2)針對不同語境下兩種字符級特征的重要程度不同問題,訓練過程中動態(tài)計算兩種字符向量的權重,使得重要的字符級特征權重變大,不重要的字符級特征權重變小;

    3)將詞性分析、組塊分析作為額外特征輔助模型進行實體邊界識別,實驗結(jié)果表明,本文所提的字符級特征自適應模型相比其他模型性能有明顯提升.

    2 相關工作

    早期生物醫(yī)學命名實體識別常采用基于詞典和規(guī)則的命名實體識別方法.Yang等人[6]通過構建一個基于詞典的系統(tǒng)用來識別多種生物醫(yī)學實體,該系統(tǒng)在匹配過程中改進了編輯距離算法,結(jié)合前后關鍵字擴展,詞性擴展等后處理方法有效提升了命名實體識別的性能.但受詞典大小影響以及短語歧義的影響,該系統(tǒng)的識別性能受到一定限制.Fukuda等人[7]使用了基于規(guī)則的方法用來識別文本中的蛋白質(zhì)實體,無需特定背景知識,在僅使用專有名詞字符串本身特征情況下,識別準確率得到一定提升.但設計的規(guī)則依賴于當前特定任務,在新實體不斷更新的情況下識別過程容易產(chǎn)生錯誤.基于規(guī)則和詞典的方法雖然簡單實用,但性能受詞典質(zhì)量和規(guī)則完整性的限制,且可擴展性較差.

    基于傳統(tǒng)機器學習的方法主要是從人工處理標記好的數(shù)據(jù)設計選取合適的特征,采用機器學習算法對模型進行訓練,訓練迭代過程中優(yōu)化模型最終使其能夠在預測未標注數(shù)據(jù)過程發(fā)揮較好性能.目前常用在命名實體識別任務中的機器學習方法有:隱馬爾科夫模型[8](Hidden Markov Model,HMM)、最大熵馬爾科夫模型[9](Maximum Entropy Markov Model,MEMM)、支持向量機[10](Support Vector Machine,SVM)、條件隨機場[11](Conditional Rondom Field,CRF)等.Ponomareva等人[12]利用HMM模型來構建生物醫(yī)學實體識別器,將新的知識特征融入到HMM模型中.Li等人[13]利用大量未標記數(shù)據(jù)中具有高度指示性特征的詞頻和共現(xiàn)信息生成更高層次的特征,將字典和基于條件隨機場(CRF)的方法結(jié)合,在基因識別任務上有不錯的表現(xiàn).基于統(tǒng)計機器學習的方法的性能和實體的特征組合密切相關,另一方面受訓練數(shù)據(jù)質(zhì)量的影響,此類方法效果有限.

    深度學習方法以其強大的非線性變換能力,已經(jīng)應用在多種自然語言處理任務中.Habibi等人[14]采用了BiLSTM-CRF模型用于生物醫(yī)學命名實體識別,取得了較好的表現(xiàn).Luo等人[15]在BiLSTM-CRF模型的基礎上額外加入了一個注意力層(attention),有效的解決了同一文章中的標注歧義問題.基于深度學習的方法在不依賴人工特征的情況下,能夠依靠自身的非線性變化能力學習到深層次的特征,在生物醫(yī)學命名實體識別任務上取得了不錯的效果.

    字符嵌入在處理OOV問題時表現(xiàn)出了良好的性能,常被作為詞表示的一部分.卷積神經(jīng)網(wǎng)絡廣泛應用在計算機視覺相關任務中的視覺特征提取,在自然語言處理任務中的語料大部分是連續(xù)的,CNN能夠從輸入的單詞中很好的提取局部信息.CNN被應用于序列標注[16]和文本分類[17]領域.Santos等人[2]利用CNN提取了字符特征用于英語和葡萄牙語的詞性標注工作并取得了良好的效果.李麗雙等人[3]使用CNN提取了字符級特征作為詞表示的一部分用于生物醫(yī)學命名實體識別并取得了很好的效果.

    BiLSTM主要用于提取文本的上下文特征,可以捕捉文本中前后單詞的相關性.BiLSTM也可以用于提取字符級特征,與CNN提取字符級特征不同的是,BiLSTM更關注時序信息,可以捕捉單詞中前后字符的相關性.Gridach[4]使用BiLSTM提取了單詞的字符級特征并將其應用于生物醫(yī)學命名實體識別,實驗結(jié)果表明字符級能夠捕獲單詞的拼寫和形態(tài)學信息.Wang等人[5]利用BiLTSM對單詞的字符序列進行建模,應用于多任務學習中來進行生物醫(yī)學命名實體識別任務,實驗表明字符級的特征能夠很好的處理OOV問題從而提升系統(tǒng)的識別性能.

    門控循環(huán)單元(Gate Recurrent Unit,GRU)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN),GRU在性能上和LSTM接近但更加簡單高效,在保留重要時序特征的情況下訓練時間大大縮短.Xu等人[18]使用GRU來捕獲中文字符的長距離特征應用于中文命名實體識別,并取得了不錯的效果.Jebbara等人[19]在細粒度情感分析中使用BiGRU提取了字符級別的詞向量將其作為輸入的一部分,結(jié)果表明BiGRU提取的字符級特征對于模型性能有積極的影響.

    相關研究工作表明,字符級特征在生物醫(yī)學命名實體識別任務中效果顯著,但不同提取器所形成字符級特征有不同特點,使用單一的字符級特征提取器效果有限.因此,本文聯(lián)合使用CNN和BiLSTM提取不同類型的字符級特征,在不同語境下對兩種字符級特征進行適應性融合,提出基于字符級特征自適應的生物醫(yī)學命名實體識別模型.

    3 字符級特征自適應模型

    3.1 模型整體結(jié)構圖

    圖1為本文所提出的字符級特征自適應模型整體框架圖,模型整體由3個模塊組成:詞表示層,BiLSTM層和CRF層.首先查找預訓練詞向量表得到單詞的詞向量;使用CNN生成單詞的字符向量VP,使用BiLSTM生成單詞的字符向量VT,對他們加權拼接形成字符級組合特征;將詞性信息、組塊分析信息作為額外特征.最后將詞向量、字符級組合特征和額外特征進行拼接形成詞表示.詞表示輸入到BiLSTM模型中進行訓練,最后使用CRF模塊加入標簽約束輸出概率最大的標簽序列.

    圖1 字符級特征自適應模型Fig.1 Character level feature adaptive model

    3.2 字符級特征提取

    字符級特征在各種NLP任務中已經(jīng)被證實是有效的,能夠較好地提升此類任務的性能.文獻[20-22]表明字符級特征能夠明顯提升機器翻譯的性能,Xiao等人[23]將字符級特征應用于文本分類中提升了一定的性能.使用字符級特征的優(yōu)勢在于可以直接從原始文本中提取而不用設計額外的手工特征,對原始語料無需復雜的預處理過程.本文分別使用CNN、BiLSTM和雙向門控循環(huán)單元(Bidirectional Gate Recurrent Unit,BiGRU)來提取單詞的字符級特征.

    3.2.1 字符級CNN模型

    CNN適合單詞的前后綴和組成進行特征提取.CNN的結(jié)構圖如圖2所示,具體過程如下,將原始文本中的每一個單詞進行拆解,填充為最大單詞長度,使得字符向量矩陣維度大小保持一致.通過卷積操作從每個單詞的字符構成的矩陣中提取當前單詞的局部特征,卷積核大小決定了CNN可以提取局部特征的范圍大小;經(jīng)過池化過程進行特征中關鍵信息的提取;最終映射成30維的字符向量.

    圖2 CNN提取字符級特征示意圖Fig.2 Schematic diagram of character level feature extraction by CNN

    3.2.2 字符級BiLSTM模型

    BiLSTM適合表示單詞的拼寫信息.BiLSTM提取字符特征的結(jié)構如圖3所示,首先從前往后讀取單詞的每個字符以計算前向的字符向量Vf,然后從后往前讀取單詞的字符計算后向的字符向量,將前向向量和后向向量進行串聯(lián),可獲得單詞字符級別的向量VT,VT,同時保留了前向和后向的信息,最終表示為30維的字符向量.

    3.2.3 字符級BiGRU模型

    GRU結(jié)構與LSTM大體相似,優(yōu)化門控網(wǎng)絡使得重要特征得以保留并減少訓練時間,使用BiGRU提取字符特征的流程與使用BiLSTM的提取過程相似,已在3.2.2節(jié)闡述.

    3.2.4 字符級特征自適應

    不同的字符級特征提取模型有著不同的特點,CNN適合提取局部特征,適合表示單詞的前后綴和組成等信息,而缺少對長距離的依賴信息的關注;BiLSTM和BiGRU更關注時序特征,適合表示單詞的字符拼寫信息,而對局部特征缺少關注度.Cho等人[24]在生物醫(yī)學命名實體識別中將CNN和BiLSTM提取的字符級特征進行直接拼接形成組合字符特征并將其作為輸入的一部分,實驗結(jié)果表明組合特征的效果要優(yōu)于單個特征.Xu等人[18]將BiGRU提取的字符級特征再經(jīng)過卷積過程提取其中的局部特征用于中文命名實體識別,取得了不錯的效果.

    1http://www.nactem.ac.uk/GENIA/tagger/

    α0+β0=2

    (1)

    (2)

    Mish(x)=x·(tanh(ln(1+ex)))

    (3)

    z1=σ(Mish(VP))

    (4)

    z2=σ(Mish(VT))

    (5)

    (6)

    β1=2-α1

    (7)

    VP′=α1·VP

    (8)

    VT′=β1·VT

    (9)

    (10)

    上式中,Mish代表Mish激活函數(shù),該激活函數(shù)允許更好的信息深入神經(jīng)網(wǎng)絡,σ是sigmoid激活函數(shù),z1和z2分別是經(jīng)過一系列非線性變換后的過渡矩陣,z1和z2中每一個數(shù)字的范圍都是0到1之間.α1代表局部特征矩陣的權重矩陣,β1代表時序特征矩陣的權重矩陣,對于輸入文本中的每一個單詞,模型有選擇性對該詞對應的字符級局部特征進行強化或弱化,同時對該詞的字符級時序特征進行弱化或者強化,對兩種特征的操作的趨勢是相反的.最終將變換后的兩種字符級特征進行拼接得到字符級組合特征.

    3.3 額外特征層

    由于生物醫(yī)學命名實體識別的復雜性,基于傳統(tǒng)機器學習的方法經(jīng)常會使用語言特征作為輸入[25],詞性分析POS(Part Of Speech)和組塊分析特征Chunking是語言特征中重要的組成部分.生物醫(yī)學相關實體在文本的詞性是有規(guī)律的,如常見的基因、化合物和疾病等實體常以名詞形式出現(xiàn),文本加入詞性分析POS輔助模型進行判斷,將詞性信息映射為20維的向量.由文本中單詞的詞性信息分析得來的組塊特征,可以反映句子中單詞之間的內(nèi)聯(lián)情況,本文使用組塊分析特征來輔助模型進行實體邊界的判斷,將組塊分析信息映射為20維的向量.本文所使用語料的POS和Chunking特征均由GENIA Tagger1工具生成,表1是該工具輸出的一個示例.

    南水北調(diào)東線工程淮安段水質(zhì)保證措施及實施效果……………………………… 王道虎,吳昌新,謝亞軍等(10.45)

    表1 GENIA Tagger輸出示例Table 1 GENIA Tagger output example

    3.4 BiLSTM-CRF層

    3.4.1 BiLSTM層

    LSTM是一種特殊形式的循環(huán)神經(jīng)網(wǎng)絡,很好的改善了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡的梯度消失、梯度爆炸和短距依賴等問題.LSTM通過門控機制有選擇性的保存上下文信息,適合應用在命名實體識別等任務中.LSTM的主要結(jié)構可以表示為式(11)~式(16):

    it=σ(Wi·[ht-1,xt]+bi)

    (11)

    ft=σ(Wf·[ht-1,xt]+bf)

    (12)

    ot=σ(Wo·[ht-1,xt]+bo)

    (13)

    (14)

    (15)

    ht=ot?tanh(ct)

    (16)

    3.4.2 CRF層

    通過簡單的softmax分類器能夠輸出每個單詞對應概率最大的標簽,得到局部最優(yōu)的標簽序列,但這種方式?jīng)]有考慮相鄰標簽之間的約束關系.CRF層能夠?qū)iLSTM的輸出進行合理修正從而捕捉依賴關系,例如針對疾病的命名實體識別任務中,當使用BIO標注方案時,疾病實體只能由“B-Disease”開頭而不能以“I-Disease”開頭,如果實體由多個詞語組成則“B-Disease”后只能跟“I-Disease”而不能跟“O”標簽.對于輸入的文本句子X,對應句子的得分公式如式(17)所示:

    (17)

    其中,A是標簽轉(zhuǎn)移矩陣,Ai,j是標簽i轉(zhuǎn)移到j的概率,Pi,yi表示句子中第i個詞語標簽為yi的概率.在給定輸入語句X時,使用softmax函數(shù)歸一化計算序列y的概率公式如式(18)所示:

    (18)

    訓練過程中,模型的目的在于最大化p(y|X),標記序列的似然函數(shù)如式(19)所示:

    (19)

    在預測階段,可以得知概率最大的序列:

    (20)

    4 實驗與結(jié)果分析

    4.1 數(shù)據(jù)集介紹

    本文在NCBI-disease[26]數(shù)據(jù)集和Biocreative Ⅱ GM[27](BC2GM)數(shù)據(jù)集上進行訓練NCBI語料詳細介紹見表2,NCBI數(shù)據(jù)集包含的實體類型為疾病,BC2GM語料詳細介紹見表3,BC2GM數(shù)據(jù)集包含的實體類型為基因.本文對兩種數(shù)據(jù)集的評估均采用精確匹配模式,即嚴格匹配實體的前后邊界和類型.數(shù)據(jù)集采用BIOES標注方案,該標注方案在傳統(tǒng)的BIO標注方案上增加了實體結(jié)束標簽(End)和由單個詞組成組成的實體(Single).BIOES標注方案提供了更多的信息,更有利于實體邊界的劃分[28].

    表2 NCBI-disease數(shù)據(jù)集詳細信息Table 2 NCBI-disease dataset details

    表3 BC2GM數(shù)據(jù)集詳細信息Table 3 BC2GM disease dataset details

    4.2 參數(shù)設置

    本文分別使用Moen等人[29]在PubMed數(shù)據(jù)庫的摘要和全文文章以及維基百科語料庫通過Word2Vec模型得到的預訓練詞向量,預訓練詞向量的維度為200;學習率選取1e-3;字符級局部特征和字符級時序特征都是30維的向量;額外特征中POS和Chunking特征分別得到20維的向量.將預訓練詞向量、組合字符特征和額外特征進行拼接,輸入到BiLSTM中進行訓練,BiLSTM的隱藏層維度為200,通過Dropout來緩解模型過擬合的問題,Dropout值設置為0.5;優(yōu)化器選用隨機梯度下降SGD算法.

    4.3 評估標準

    本文對模型的評價采用3種指標,分別是準確率P(Precision)、召回率R(Recall)和F1值.具體公式如下:

    (21)

    (22)

    (23)

    4.4 實驗結(jié)果分析

    實驗結(jié)果如表4所示,為了驗證本文所提出方法的實用性和意義,選擇BiLSTM-CRF并使用預訓練詞向量(Word Embedding)作為基準模型BCW,與其他方法進行對比.

    表4 不同方法在NCBI-disease和BC2GM數(shù)據(jù)集上的性能對比Table 4 Performance comparison of different methods on NCBI-disease and BC2GM dataset

    4.4.1 字符級特征自適應效果對比

    為了驗證字符級特征自適應對于生物醫(yī)學命名實體識別任務的效果影響,進行了單個類型、簡單拼接式組合和自適應式組合所形成的字符級特征的對比實驗.單個類型的字符級特征提取器包括:(char-CNN)、(char-BiLSTM)和(char-BiGRU);簡單拼接式組合字符級特征提取器包括:char-(CNN,BiLSTM)和char-(CNN,BiGRU);自適應字符級特征提取器包括:char-adapt-(CNN,BiLSTM)和char-adapt-(CNN,BiGRU).

    從結(jié)果表中可以看出,BCW+(char-CNN)、BCW+(char-BiLSTM)和BCW+(char-BiGRU)模型相比于基準模型BCW,P、R和F1值均有明顯提升,在兩個數(shù)據(jù)集上F1值平均提升了4.54%.生物醫(yī)學相關實體形態(tài)復雜,多數(shù)實體包含大小混合字母和特殊字符,且預訓練詞表容量有限,在初始化詞向量時容易出現(xiàn)OOV問題,實驗結(jié)果表明CNN、BiLSTM和BiGRU模塊能夠有效抽取字符級特征,緩解OOV問題,提升識別的F1值.其中BCW+(char-CNN)模型的F1值明顯高于BCW+(char-BiLSTM)和BCW+(char-BiGRU)模型,表明對于NCBI和BC2GM數(shù)據(jù)集而言,字符級局部特征相對于字符級時序特征更有利于提升模型的識別性能.而BCW+(char-BiLSTM)和BCW+(char-BiGRU)模型的F1值基本持平,表明在這2個數(shù)據(jù)集上BiLSTM和BiGRU所提取的長距離時序字符級特征對模型識別的增益效果沒有太大差別.BCW+char-(CNN,BiLSTM)和BCW+char-(CNN,BiGRU)模型的F1值高于單一字符級特征的模型,在2個數(shù)據(jù)集上的F1值相較于BCW+(char-CNN)模型平均提升了0.78%,召回率平均提升了0.97%.表明拼接后的組合字符特征相較于單一字符級特征能表達更加充分的信息.

    為了說明給局部和時序字符級特征分配不同的權重對模型識別性能的影響,設置了手動權重對比實驗,實驗結(jié)果如表5所示,模型BCW+char-(α0CNN,β0BiLSTM)代表給CNN提取的字符級特征乘以權重系數(shù)α0,給BiLSTM提取的字符級特征乘以權重系數(shù)β0,將處理后的字符級特征進行拼接.結(jié)果表明,當給不同類型的字符級特征向量分配不同權重后,對模型的識別性能有明顯影響,當α0和β0都為1.0時,相當于進行直接拼接.當α0取值為1.2時,相對于α0取值為 1.0時,模型在NCBI-disease數(shù)據(jù)集上的F1了提升0.11%,而在BC2GM數(shù)據(jù)集上手動更改權重后,性能均有所下降.實驗結(jié)果表明,調(diào)整不同類型字符特征的權重值會對模型性能產(chǎn)生一定影響,但宏觀的手工調(diào)整難以確定最優(yōu)權重系數(shù),且隨意調(diào)整對模型識別性能會產(chǎn)生消極影響.

    表5 手動更改權重性能對比Table 5 Manually change the weight performance comparison

    采用自適應結(jié)構可以在單詞級別對不同字符級特征的權重進行細粒度的調(diào)控,添加自適應結(jié)構的模型的F1值有明顯提升.其中BCW+char-adapt-(CNN,BiLSTM)模型在兩個數(shù)據(jù)集上的F1值相較于BCW+char-(CNN,BiLSTM)平均提升了0.26%,召回率提升了0.28%.BCW+char-adapt-(CNN,BiGRU)模型的F1值相較于BCW+char-(CNN,BiGRU)提升了0.21%,召回率提升了0.25%.表明自適應方法能夠有選擇性的將需要關注的字符級特征進行強化,避免了人工調(diào)整權重的不確定性,在字符粒度上更加充分的利用了信息,對模型的識別性能產(chǎn)生了積極的影響.

    4.4.2 額外特征效果對比

    為了驗證所加入的POS和Chunking特征對生物醫(yī)學命名實體識別性能的影響,本文對基準模型BCW和字符級特征自適應模型BCW+char-adapt-(CNN,BiLSTM)分別設置了一組對比實驗.實驗結(jié)果表明,對基準模型BCW,加入詞性和組塊分析特征作為額外特征后,在2個數(shù)據(jù)集上的F1值平均提升了0.59%,準確率平均提升了0.69%.對于字符級特征自適應模型BCW+char-adapt-(CNN,BiLSTM),加入詞性和組塊分析特征后,在2個數(shù)據(jù)集上的F1值平均提升了0.40%,準確率平均提升了0.51%.結(jié)果表明,將詞性特征和組塊分析特征作為額外特征,提升了識別任務的準確率,可以提升生物醫(yī)學命名實體識別模型的性能.

    4.5 與現(xiàn)有方法結(jié)果對比

    1)NCBI-disease語料

    為了進一步驗證本文所提出方法的有效性,將其與相關文獻的NCBI數(shù)據(jù)集的表現(xiàn)進行對比,如表6所示,Dang等人[30]提出D3NER模型將詞性信息、縮寫信息和字符特征等各種語言學特征輸入到BiLSTM-CRF模型中進行訓練,獲得了84.41%的F1值;Wang等人[5]使用BiLSTM提取了字符級特征并應用到多任務學習中,獲得了86.14%的F1值;Xu等人[31]在多種生物醫(yī)學相關語料庫上訓練了詞向量,并在BiLSTM-CRF模型的CRF層結(jié)合了疾病縮寫識別工具,獲得了86.20%的F1值;Cho等人[24]在BiLSTM-CRF模型中將CNN和BiLSTM提取的字符級特征進行拼接并結(jié)合注意力機制,獲得了86.93%的F1值.以上方法在提取字符級特征時所用方法比較單一,效果有所局限.

    表6 NCBI-disease數(shù)據(jù)集實驗對比Table 6 Experimental comparison of NCBI-disease dataset

    本文使用CNN提取字符級局部特征,使用BiLSTM或BiGRU提取字符級時序特征,在對文本中每一個句子中的每一個單詞提取字符向量時,動態(tài)計算局部特征和時序特征的權重,使重要特征得到進一步加強,在更細粒度上利用字符級特征;其次,本文將詞性和組塊分析特征作為額外特征作為詞表示的一部分,輔助模型進行實體邊界的判斷.實驗結(jié)果表明,相比于Dang等人[30]提出的模型F1值平均提升了2.73%;相比于Wang等人[5]提出的模型F1值平均提升了1.00%;相比于Xu等人[31]提出的模型F1值平均提升了0.94%;相比于Cho等人[24]提出的模型F1值平均提升了0.21%,取得了不錯的效果.

    2)BC2GM語料

    為了說明本文所提模型的泛化能力,在BC2GM數(shù)據(jù)集上的表現(xiàn)對比如表7所示.Crichton等人[32]提出了基于CNN的多任務學習模型,獲得了73.17%的F1值;Lample等人[28]和Habibi等人[14]提出了基于BiLSTM-CRF的模型并使用BiLSTM提取了字符級特征,獲得了80.51%的F1值;Wang等人[5]將多任務學習引入生物醫(yī)學命中實體識別中,在單任務模型中使用BiLSTM-CRF模型并結(jié)合BiLSTM提取的字符級特征,獲得了80.74%的F1值.本文使用不同類型的提取器分別提取字符級的局部特征和時序特征,并在訓練過程中動態(tài)計算每種特征的權重,有選擇性的對重要特征進行加強,并結(jié)合語言特征中的POS和Chunking信息輔助模型進行實體邊界判斷.實驗結(jié)果表明,相比于Crichton等人[32]提出的模型,本文模型的F1值提升了7.87%;相比于Lample等人[28]和Habibi等人[14]提出的模型,本文模型的F1值提升了0.53%;相比于Wang等人[5]提出的模型,本文模型的F1值提升了0.30%,召回率提升了0.48%,取得了良好的效果.

    表7 BC2GM數(shù)據(jù)集實驗對比Table 7 Experimental comparison of BC2GM disease dataset

    5 結(jié)束語

    本文提出一種基于字符級特征自適應網(wǎng)絡的生物醫(yī)學命名實體識別模型.模型使用CNN提取單詞字符序列的局部特征,使用BiLSTM提取單詞序列的時序特征,并在模型訓練過程中動態(tài)給兩種字符級特征分配不同的權重,使得重要的字符級特征得到進一步加強,弱化不重要的字符級特征,在字符粒度上更充分利用信息.得到組合字符級特征后,將詞性信息和組塊分析特征作為額外特征,輔助模型判斷實體邊界,進一步提升了模型的性能.實驗結(jié)果表明,本文所提出方法能更充分利用文本字符粒度的信息,比已有的相關方法在生物醫(yī)學命名實體識別任務上表現(xiàn)更好.特征增多使得模型效果變好,但是同時也使得模型收斂時間增加,未來會考慮優(yōu)化模型的結(jié)構,在保證性能的前提下縮短訓練時間.

    猜你喜歡
    生物醫(yī)學字符命名
    芻議“生物醫(yī)學作為文化”的研究進路——兼論《作為文化的生物醫(yī)學》
    科學與社會(2022年4期)2023-01-17 01:20:04
    尋找更強的字符映射管理器
    靈長類生物醫(yī)學前沿探索中的倫理思考
    科學與社會(2021年4期)2022-01-19 03:29:50
    命名——助力有機化學的學習
    字符代表幾
    一種USB接口字符液晶控制器設計
    電子制作(2019年19期)2019-11-23 08:41:50
    消失的殖民村莊和神秘字符
    國外生物醫(yī)學文獻獲取的技術工具:述評與啟示
    圖書館建設(2018年5期)2018-07-10 09:46:44
    有一種男人以“暖”命名
    東方女性(2018年3期)2018-04-16 15:30:02
    為一條河命名——在白河源
    散文詩(2017年17期)2018-01-31 02:34:08
    象州县| 古丈县| 留坝县| 宁陕县| 关岭| 福州市| 健康| 汉源县| 恩施市| 临桂县| 东莞市| 南城县| 蒲城县| 新晃| 台州市| 吴江市| 汉源县| 台州市| 凉城县| 泰来县| 龙井市| 云梦县| 兴城市| 繁峙县| 酒泉市| 新闻| 宣威市| 光山县| 湘阴县| 克山县| 云和县| 原阳县| 仲巴县| 潢川县| 曲麻莱县| 襄垣县| 丹凤县| 沙雅县| 宁远县| 鱼台县| 无棣县|