李麗雙,郭元?jiǎng)P
(大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116023)
命名實(shí)體識(shí)別是自然語(yǔ)言處理中的重要任務(wù)之一。近年來(lái),神經(jīng)網(wǎng)絡(luò)在通用領(lǐng)域的命名實(shí)體識(shí)別表現(xiàn)出了很好的性能。相比于統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法或基于規(guī)則的方法,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法具有泛化性更強(qiáng)、更少依賴人工特征的優(yōu)點(diǎn)。因此,許多基于神經(jīng)網(wǎng)絡(luò)的通用領(lǐng)域命名實(shí)體識(shí)別模型被提出。例如Collobert[1]等首次使用CNN與CRF結(jié)合的方式在通用命名實(shí)體識(shí)別領(lǐng)域的CONLL2003語(yǔ)料上取得了較好的效果。Huang[2]等構(gòu)造了一個(gè)采用人工設(shè)計(jì)的拼寫(xiě)特征的BLSTM-CRF模型,在CONLL2003語(yǔ)料上達(dá)到了88.83%的F-值。Chiu 和Nichols[3]等建立了CNN-LSTM模型在CONLL2003語(yǔ)料上達(dá)到了91.62%的F-值。雖然神經(jīng)網(wǎng)絡(luò)在通用命名實(shí)體識(shí)別領(lǐng)域中展現(xiàn)出了較好的性能,但在生物醫(yī)學(xué)命名實(shí)體識(shí)別領(lǐng)域中的應(yīng)用仍存在問(wèn)題。相比于一般領(lǐng)域的命名實(shí)體,生物醫(yī)學(xué)命名實(shí)體識(shí)別有以下幾個(gè)難點(diǎn): (1)包含的實(shí)體數(shù)量和種類多; (2)待識(shí)別的實(shí)體可能會(huì)由許多單詞修飾,導(dǎo)致實(shí)體的邊界難以劃分; (3)生物醫(yī)學(xué)語(yǔ)言沒(méi)有一套統(tǒng)一的命名方式,所以待識(shí)別的實(shí)體可能會(huì)有多種表述方式; (4)待識(shí)別的實(shí)體經(jīng)常存在縮寫(xiě)、嵌套、大小寫(xiě)混合、含有特殊字符的情況。也正是因?yàn)槿绱耍镝t(yī)學(xué)命名實(shí)體識(shí)別的許多方法依舊依賴人工特征和領(lǐng)域知識(shí)。
目前生物醫(yī)學(xué)命名實(shí)體識(shí)別的方法主要分為淺層機(jī)器學(xué)習(xí)和深層神經(jīng)網(wǎng)絡(luò)的方法。淺層機(jī)器學(xué)習(xí)方法主要包括條件隨機(jī)場(chǎng)模型(CRF)、隱馬爾可夫模型(HMM)、最大熵模型(ME)、支持向量機(jī)(SVM)等。例如,Li[4]等通過(guò)使用豐富的人工特征基于CRF進(jìn)行實(shí)體識(shí)別,在Biocreative Ⅱ GM語(yǔ)料上達(dá)到了87.28%的F-值。Manabu[5]等將CRF、HMM、ABNER、LingPipe等模型融合,在Biocreative Ⅱ GM語(yǔ)料上達(dá)到了最高F-值88.87%。此外,Wang[6]等驗(yàn)證了基于CRF的Gimli方法,在JNLPBA2004語(yǔ)料上F-值達(dá)到了72.23%。Zhou和Su[7]通過(guò)豐富的領(lǐng)域知識(shí)和人工特征采用CRF在JNLPBA2004語(yǔ)料上F-值提高到了72.55%。Liao[8]等構(gòu)建了skip-chain CRF模型用于生物醫(yī)學(xué)命名實(shí)體識(shí)別,該模型能夠充分考慮到較遠(yuǎn)距離具有依賴關(guān)系的生物醫(yī)學(xué)信息,在JNLPBA2004語(yǔ)料上達(dá)到了73.20%的F-值。但是傳統(tǒng)的淺層機(jī)器學(xué)習(xí)方法在很大程度上依賴于人工特征的設(shè)計(jì),人工特征和領(lǐng)域知識(shí)在提高模型性能的同時(shí)也導(dǎo)致整個(gè)模型的魯棒性和泛化能力下降。
為了減少?gòu)?fù)雜的人工特征,有相關(guān)研究利用詞向量結(jié)合淺層機(jī)器學(xué)習(xí)方法進(jìn)行生物實(shí)體識(shí)別。如Tang[9]等采用CRF模型進(jìn)行生物實(shí)體識(shí)別,在基本人工特征的基礎(chǔ)上加入不同的詞向量特征,在BioCreative Ⅱ GM和JNLPBA語(yǔ)料上的F-值分別為80.96%和71.39%。Chang[10]等利用少量人工特征和詞向量結(jié)合的方式構(gòu)建CRF模型并添加后處理,在JNLPBA語(yǔ)料上達(dá)到了71.39%的F-值。雖然詞向量在一定程度上能夠提高淺層機(jī)器學(xué)習(xí)方法的性能,但是與其他最好的系統(tǒng)相比仍然存在一定的差距,這主要是因?yàn)檫@些詞向量本身包含的特征信息有限,并不能完全取代復(fù)雜的人工特征,而且難以處理長(zhǎng)距離依賴關(guān)系。
在使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行生物醫(yī)學(xué)命名實(shí)體識(shí)別的研究中,Yao[11]等首先在無(wú)標(biāo)注的生物文本上利用神經(jīng)網(wǎng)絡(luò)生成詞向量,然后建立多層神經(jīng)網(wǎng)絡(luò),在JNLPBA語(yǔ)料上F-值為71.01%。Li[12]等采用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BLSTM)方法在Biocreative Ⅱ GM的語(yǔ)料上達(dá)到了88.6%的F-值,同時(shí)在JNLPBA語(yǔ)料上達(dá)到了72.76%的F-值。上述研究雖然沒(méi)有使用領(lǐng)域知識(shí)和人工特征,但是詞向量對(duì)于字符級(jí)特征不能很好表示,因此識(shí)別性能有待提高。本文提出一種基于CNN-BLSTM-CRF神經(jīng)網(wǎng)絡(luò)模型,該模型首先利用CNN訓(xùn)練出單詞的字符級(jí)特征,然后與從大規(guī)模背景語(yǔ)料訓(xùn)練得到的詞向量進(jìn)行組合,再將組合的詞向量送入BLSTM-CRF深層神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而得到一個(gè)利用字符級(jí)特征和詞向量的生物實(shí)體識(shí)別模型。在Biocreative Ⅱ GM和JNLPBA2004語(yǔ)料上的實(shí)驗(yàn)結(jié)果表明,在未使用任何人工特征的情況下,該模型在兩個(gè)語(yǔ)料上都達(dá)到了目前的最好效果,F(xiàn)-值分別是89.09%和74.40%。
圖1為本文的CNN-BLSTM-CRF模型框架。CNN-BLSTM-CRF共由三部分組成: CNN模塊,BLSTM模塊和CRF模塊。首先通過(guò)查詢?cè)~向量表將輸入的語(yǔ)句轉(zhuǎn)換為相應(yīng)的詞向量序列,然后對(duì)于語(yǔ)句中的每一個(gè)單詞,通過(guò)查詢字符向量表獲得每個(gè)字符的字符向量,由字符向量組成單詞的字符向量矩陣。CNN對(duì)字符向量矩陣進(jìn)行卷積和池化,獲得每個(gè)單詞的字符級(jí)特征。每個(gè)單詞的字符向量和詞向量進(jìn)行拼接,拼接后的詞向量輸入BLSTM進(jìn)行實(shí)體識(shí)別。最后CRF模塊將BLSTM的輸出解碼出一個(gè)最優(yōu)的標(biāo)記序列。
卷積神經(jīng)網(wǎng)絡(luò)中的卷積層能夠很好地描述數(shù)據(jù)的局部特征,通過(guò)池化層可以進(jìn)一步提取出局部特征中最具有代表性的部分。Santos[13]等利用CNN對(duì)字符進(jìn)行處理得到CharWNN 用于詞性標(biāo)注工作(POS),并取得了較好的效果。Chiu 和Nichols[3]等采用CNN抽取字符級(jí)特征在通用實(shí)體識(shí)別領(lǐng)域達(dá)到了很好的效果。因此,本文提出利用CNN抽取生物醫(yī)學(xué)文本中單詞的字符級(jí)特征,通過(guò)字符級(jí)特征與詞向量相結(jié)合的方法來(lái)提高模型的性能。這里使用的CNN模塊與Chiu[3]不同之處如下: (1)本文并沒(méi)有采用Chiu[3]額外設(shè)計(jì)一些人工的字符特征與字符向量拼接的方法; (2)本文對(duì)于不同類型的字符設(shè)置并隨機(jī)初始化了不同的字符向量,以區(qū)分字符的大小寫(xiě)、字符類型(字母、數(shù)字、標(biāo)點(diǎn)、特殊字符)。例如,大寫(xiě)字母A與小寫(xiě)字母a分別對(duì)應(yīng)兩組不同的字符向量。
圖1 生物醫(yī)學(xué)命名實(shí)體識(shí)別的CNN-BLSTM-CRF模型
CNN的結(jié)構(gòu)如圖2所示,主要由字符向量表、卷積層、池化層組成。字符向量表將一個(gè)單詞中的每個(gè)字符轉(zhuǎn)化成為對(duì)應(yīng)的字符向量。首先,由單詞的每個(gè)字符的字符向量組成單詞的字符向量矩陣。其次,為了解決由于單詞長(zhǎng)度不同導(dǎo)致字符向量矩陣大小不同的問(wèn)題,以最長(zhǎng)的單詞為準(zhǔn),在單詞的左右兩端補(bǔ)充占位符(padding),使得所有字符向量矩陣大小一致。最后,字符向量表在模型的訓(xùn)練過(guò)程中通過(guò)反向傳播算法不斷更新。
圖2 字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)模型
卷積層使用一個(gè)大小是T的卷積核在單詞的字符向量矩陣上進(jìn)行卷積來(lái)提取出局部特征,卷積核大小T決定了可以提取單詞周圍T個(gè)詞的特征,最后通過(guò)池化獲得單詞的字符級(jí)特征向量。
長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)[14]是一種特殊的循環(huán)網(wǎng)絡(luò)(RNN)模型,克服了傳統(tǒng)RNN模型由于序列過(guò)長(zhǎng)而產(chǎn)生的梯度彌散問(wèn)題。LSTM模型通過(guò)特殊設(shè)計(jì)的門(mén)結(jié)構(gòu)使得模型可以有選擇地保存上下文信息,因此LSTM具有適合生物醫(yī)學(xué)命名實(shí)體識(shí)別的特點(diǎn)。LSTM網(wǎng)絡(luò)的主要結(jié)構(gòu)可以形式化地表示為:
(1)
為了能夠有效利用上下文信息,我們采用雙向LSTM(BLSTM)結(jié)構(gòu)。雙向LSTM對(duì)每個(gè)句子分別采用順序(從第一個(gè)詞開(kāi)始,從左往右遞歸)和逆序(從最后一個(gè)詞開(kāi)始,從右向左遞歸)計(jì)算得到兩套不同的隱層表示,然后通過(guò)向量拼接得到最終的隱層表示。
CRF能夠通過(guò)考慮相鄰標(biāo)簽的關(guān)系獲得一個(gè)全局最優(yōu)的標(biāo)記序列。本文將CRF融合到BLSTM模塊中,對(duì)BLSTM的輸出進(jìn)行處理,獲得全局最優(yōu)的標(biāo)記序列。對(duì)于一個(gè)句子S={W1,W2,…,Wn}送入網(wǎng)絡(luò)中訓(xùn)練,定義矩陣P是BLSTM層的輸出結(jié)果,其中P的大小n×m,n是單詞個(gè)數(shù),m是標(biāo)簽的種類。定義pij代表句子中第i個(gè)單詞的第j個(gè)標(biāo)簽的概率。對(duì)于一個(gè)預(yù)測(cè)序列y={y1,y2,…,yn},它的概率可以表示為:
式中,矩陣A是轉(zhuǎn)移矩陣,例如Aij表示由標(biāo)簽i轉(zhuǎn)移到j(luò)的概率,y0、yn則是預(yù)測(cè)句子起始和結(jié)束的標(biāo)記,因此A是一個(gè)大小為m+2的方陣。所以在原語(yǔ)句S的條件下產(chǎn)生標(biāo)記序列y的概率為:
在訓(xùn)練過(guò)程中標(biāo)記序列的似然函數(shù):
其中,YX表示所有可能的標(biāo)記集合,包括不符合BIOES標(biāo)記規(guī)則的標(biāo)記序列。通過(guò)式(4)得到有效合理的輸出序列。預(yù)測(cè)時(shí),由式(5)輸出整體概率最大的一組序列:
訓(xùn)練過(guò)程中,優(yōu)化器采用RMSprop,相比于隨機(jī)梯度下降SGD模型的訓(xùn)練速度更加快速;學(xué)習(xí)率選取0.001。同時(shí),通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)在雙向LSTM的輸入和輸出部分增加Dropout可以減輕模型過(guò)擬合的問(wèn)題,Dropout[15]值選取了0.5。整體的模型訓(xùn)練通過(guò)GTX1080進(jìn)行加速。
為了說(shuō)明本文CNN-BLSTM-CRF模型的有效性和泛化性,分別選用了Biocreative Ⅱ GM和JNLPBA2004語(yǔ)料進(jìn)行了實(shí)驗(yàn)。所有的實(shí)驗(yàn)都是基于預(yù)訓(xùn)練得到的200維詞向量和相同的參數(shù)進(jìn)行的。
Biocreative Ⅱ GM和JNLPBA2004語(yǔ)料詳細(xì)信息見(jiàn)表1。此外,JNLPBA的語(yǔ)料不同于Biocreative Ⅱ GM語(yǔ)料,JNLPBA待識(shí)別的實(shí)體有五種,分別是DNA、RNA、Cell_line、Cell_type、Protein,所以相對(duì)于Biocreative Ⅱ GM語(yǔ)料,只需識(shí)別出基因?qū)嶓w,JNLPBA則還需對(duì)識(shí)別出的實(shí)體給出準(zhǔn)確的類別。
表1 語(yǔ)料介紹
在語(yǔ)料處理方面,為了能夠清楚地表示語(yǔ)料中待識(shí)別的命名實(shí)體,我們采用了BIOES標(biāo)記的方式代替BIO2去標(biāo)記實(shí)體。因?yàn)楦鶕?jù)Ratinov 和Roth[16]、Dai[17]、Lample[18]等的研究采用BIOES的標(biāo)記效果好于BIO2方式,能更加清楚地劃分實(shí)體的邊界。
CNN-BLSTM-CRF模型在Biocreative Ⅱ GM語(yǔ)料上進(jìn)行的生物命名實(shí)體識(shí)別結(jié)果如表2所示,下面通過(guò)對(duì)比實(shí)驗(yàn)的結(jié)果來(lái)分析各個(gè)模塊在模型中起到的作用。
表2 Biocreative Ⅱ GM結(jié)果
(1) BLSTM模塊
為了驗(yàn)證BLSTM結(jié)構(gòu)的有效性,進(jìn)行了BLSTM模型與LSTM模型的對(duì)比實(shí)驗(yàn)。根據(jù)實(shí)驗(yàn)結(jié)果,BLSTM模型在Biocreative Ⅱ GM語(yǔ)料上的F-值為82.75%,精確率為84.17%,召回率為81.38%,比LSTM模型的F-值高出了4.27%。無(wú)論是召回率還是精確率,雙向LSTM遞歸神經(jīng)網(wǎng)絡(luò)明顯優(yōu)于單向的網(wǎng)絡(luò),主要由于BLSTM模型比LSTM模型更加充分地利用了上下文信息。
(2) CNN 模塊
為了驗(yàn)證CNN模塊抽取的字符級(jí)特征的有效性,進(jìn)行了CNN-BLSTM模型與BLSTM模型的對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,CNN-BLSTM相對(duì)于BLSTM精確率提升了4.00%,召回率提升了2.00%,F(xiàn)-值提升了2.96%。表明CNN抽取的字符級(jí)特征的有效性。由于我們通過(guò)CNN模塊抽取的字符級(jí)向量能夠一定程度上表示形態(tài)特征,所以對(duì)于具有大小寫(xiě)混合、包含特殊字符、邊界模糊特點(diǎn)的這類生物實(shí)體能夠充分獲取相關(guān)特征,從而提高識(shí)別的F-值。例如“LTRran1+ kinase”“fructose-2,6-bisphosphatase”“G alpha i-2”等實(shí)體被CNN-BLSTM正確識(shí)別,而B(niǎo)LSTM則不能正確識(shí)別。由此可見(jiàn)CNN模塊的加入使得模型對(duì)存在含有特殊字符的實(shí)體有效果提升。
(3) 線性CRF 模塊
為了驗(yàn)證CRF模塊的有效性,進(jìn)行了BLSTM-CRF模型與BLSTM模型的對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,BLSTM-CRF模型相比于BLSTM模型,召回率、精確率、F-值分別提高了4.21%、0.48%、2.73%。由于線性CRF能夠充分利用相鄰標(biāo)簽的關(guān)系,在全局優(yōu)化輸出的標(biāo)簽序列中,對(duì)長(zhǎng)度較大及帶有修飾詞匯的生物命名實(shí)體的識(shí)別性能較高。例如“mammalian glycoprotein hormone receptors、PITIM-compelled multi-phosphoprotein complex、human urokinase-type plasminogen activator gene”這類生物醫(yī)學(xué)實(shí)體被BLSTM-CRF正確識(shí)別,而B(niǎo)LSTM模型則不能正確識(shí)別。CRF模塊的加入解決了一部分含有修飾詞、長(zhǎng)度較大實(shí)體的識(shí)別問(wèn)題。
(1) Biocreative Ⅱ GM語(yǔ)料
表3給出了Biocreative Ⅱ GM語(yǔ)料上本文模型與先進(jìn)系統(tǒng)的對(duì)比結(jié)果。下面從是否采用人工特征進(jìn)行分析。
表3 在Biocreative Ⅱ GM語(yǔ)料上的模型對(duì)比
在使用人工特征的方法中,Ando[19]等從大規(guī)模未標(biāo)注數(shù)據(jù)中學(xué)習(xí)新的特征表示,結(jié)合字典和大量設(shè)計(jì)的人工特征在Biocreative Ⅱ GM評(píng)測(cè)上取得了第一名,達(dá)到了87.21%的F-值。Li和Lin et al[4]等通過(guò)使用豐富的人工特征,例如: 詞性、形態(tài)特征、詞干等用CRF進(jìn)行實(shí)體識(shí)別,達(dá)到了89.05%的F-值。Tang[9]等通過(guò)使用詞表示特征的方式達(dá)到了80.96%的F-值。Manabu Torii[5]等通過(guò)將CRF、HMM、ABNER、LingPipe等模型融合,在Biocreative Ⅱ GM語(yǔ)料上達(dá)到了88.87%的F-值。而本文方法自動(dòng)學(xué)習(xí)詞向量和字符向量,未采用任何基于人工總結(jié)的特征,取得了比采用大量領(lǐng)域知識(shí)和人工特征方法更好的結(jié)果。
在不依賴人工特征的方法中,Li和Jin[12]通過(guò)構(gòu)建帶有雙詞向量和句子向量的BLSTM模型達(dá)到了88.61%的F-值。該方法充分利用了詞向量所表示的語(yǔ)義但未能表達(dá)字符級(jí)形態(tài)特征。本文的CNN-BLSTM-CRF模型則通過(guò)CNN卷積獲得了字符級(jí)的詞的形態(tài)特征,并與詞向量組合,達(dá)到了89.09%的F-值,比Li[9]的結(jié)果高了0.48%。
通過(guò)以上對(duì)比分析可以看出,我們的模型在未使用任何人工特征的情況下,在Biocreative Ⅱ GM取得了目前的最好結(jié)果。
(2) JNLPBA語(yǔ)料
為了說(shuō)明我們模型的泛化能力,表4給出了JNLPBA語(yǔ)料上與其他先進(jìn)模型的對(duì)比實(shí)驗(yàn)。同樣從是否采用人工特征方面進(jìn)行分析。
表4 在JNLPBA語(yǔ)料上的模型對(duì)比
在使用人工特征方面,良好設(shè)計(jì)的人工特征起到了很好的作用。例如,Chang[10]等通過(guò)一些人工設(shè)計(jì)的特征和詞向量送入CRF模型進(jìn)行訓(xùn)練達(dá)到了71.85%的F-值。此外Wang[20]等驗(yàn)證了基于CRF的Gimli方法達(dá)到了當(dāng)時(shí)的最高F-值72.23%,Zhou和Su[7]通過(guò)豐富的領(lǐng)域知識(shí)和人工特征使F-值提高到了72.55%。Tang[9]等通過(guò)使用詞表示特征的方式達(dá)到了71.39%的F-值。Liao[8]等構(gòu)建了能充分考慮到長(zhǎng)距離依賴關(guān)系的skip-chain CRF模型,在JNLPBA2004語(yǔ)料上達(dá)到了73.20%的F-值。 而本文提出的CNN-BLSTM-CRF模型,未采用任何人工特征,在JNLPBA語(yǔ)料上取得了更好的結(jié)果。
同樣也有探索不依賴人工特征的深層神經(jīng)網(wǎng)絡(luò)方法,Yao[11]等通過(guò)使用多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特征表示,達(dá)到了71.01%的F-值。Li和Jin等人[12]通過(guò)構(gòu)建帶有雙詞向量和句子向量的BLSTM模型,達(dá)到了72.76%F-值。本文的方法F-值為74.40%,比Yao[11],Li和Jin[12]等分別高出了3.39%,1.64%。由表4可以,CNN-BLSTM-CRF模型比目前最好的系統(tǒng)Liao[8]F-值提高1.20%。
本文針對(duì)生物醫(yī)學(xué)命名實(shí)體識(shí)別任務(wù),提出了通過(guò)CNN網(wǎng)絡(luò)獲得字符級(jí)特征來(lái)補(bǔ)充詞向量,進(jìn)而構(gòu)建CNN-BLSTM-CRF神經(jīng)網(wǎng)絡(luò)模型的方法,在Biocreative Ⅱ GM和JNLPBA語(yǔ)料上取得了目前最好的性能。主要結(jié)論如下:
(1) 在生物醫(yī)學(xué)命名實(shí)體識(shí)別任務(wù)中,人工特征和領(lǐng)域知識(shí)對(duì)于結(jié)果的影響很大。但是構(gòu)建合適的人工特征需要大量的特征選擇實(shí)驗(yàn),導(dǎo)致了系統(tǒng)的成本提升、泛化能力下降。因而本文構(gòu)建了CNN-BLSTM-CRF深層神經(jīng)網(wǎng)絡(luò)模型,在不使用任何人工特征的情況下,獲得了比使用大量豐富特征和領(lǐng)域知識(shí)的淺層機(jī)器學(xué)習(xí)方法更好的結(jié)果。
(2) 本文提出了利用CNN網(wǎng)絡(luò)卷積來(lái)獲得表示單詞形態(tài)特征的字符向量,用以補(bǔ)充詞向量的不足。通過(guò)字符向量的加入,使得模型對(duì)于含有特殊字符、大小寫(xiě)混合這類實(shí)體能夠更有效地識(shí)別,從而提高了模型的性能。
(3) 為了獲得更加準(zhǔn)確的識(shí)別結(jié)果,我們通過(guò)CRF對(duì)CNN-BLSTM網(wǎng)絡(luò)的輸出進(jìn)行解碼,獲得最優(yōu)的標(biāo)記序列。CRF的融入提升了對(duì)于含有多修飾詞、邊界模糊的生物醫(yī)學(xué)實(shí)體的識(shí)別性能。
綜上,在生物醫(yī)學(xué)命名實(shí)體識(shí)別任務(wù)上,本文提出的通過(guò)CNN網(wǎng)絡(luò)獲得字符級(jí)特征來(lái)補(bǔ)充詞向量,以及BLSTM 與CRF模型的融合,都是有效提高識(shí)別性能的途徑。
[1]Pinheiro P H O, Collobert R. Recurrent convolutional neural networks for scene parsing[J], 2014(1): 82-90.
[2]Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF models for sequence tagging[J]. arXiv preprint arXiv:1508.01991,2015.
[3]Chiu J P C, Nichols E. Named entity recognition with bidirectional LSTM-CNNs[J]. arXiv preprint arXiv:1511.08308,2015.
[4]Li Y, Lin H, Yang Z. Incorporating rich background knowledge for gene named entity classification and recognition[J]. BMC Bioinformatics, 2009, 10(1): 223.
[5]Torii M, Hu Z, Wu C H, et al. BioTagger-GM: a gene/protein name recognition system[J]. Journal of the American Medical Informatics Association, 2009, 16(2): 247-255.
[6]Wang X, Yang C, Guan R. A comparative study for biomedical named entity recognition[J]. International Journal of Machine Learning & Cybernetics, 2015: 1-10.
[7]Zhou G D, Jian S. Exploring deep knowledge resources in biomedical name recognition[C]//Proceedings of International Joint Workshop on Natural Language Processing in Biomedicine and ITS Applications. Association for Computational Linguistics, 2004: 96-99.
[8]Liao Z, Wu H. Biomedical named entity recognition based on skip-chain CRFS[C]//Proceedings of the Industrial Control and Electronics Engineering (ICICEE),2012: 1495-1498.
[9]Tang B, Cao H, Wang X, et al. Evaluating word representation features in biomedical named entity recognition tasks[J]. BioMed Research International, 2014: 1-6.
[10]Chang F, Guo J, Xu W, et al. Application of word embeddings in biomedical named entity recognition tasks [J]. Digital Inf. Manage, 2015, 13(5): 321-327.
[11]Yao L, Liu H, Liu Y, et al. Biomedical named entity recognition based on deep neutral network[J]. International Journal of Hybrid Information Technology, 2015, 8(8): 279-288.
[12]Li L, Jin L, Jiang Y, et al. Recognizing biomedical named entities based on the sentence vector/twin word embeddings conditioned bidirectional LSTM[C]//Proceedings of China National Conference on Chinese Computational Linguistics. Springer International Publishing, 2016: 165-176.
[13]Santos C D, Zadrozny B. Learning character-level representations for part-of-speech tagging[C]//Proceedings of the 31st International Conference on Machine Learning (ICML-14), 2014: 1818-1826.
[14]Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 2014, 9(8):1735-1780.
[15]Srivastava N, Hinton G E, Krizhevsky A, et al. Dropout: A simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929-1958.
[16]Ratinov L, Roth D. Design challenges and misconceptions in named entity recognition[C]//Proceedings of the 13th Conference on Computational Natural Language Learning. Association for Computational Linguistics, 2009: 147-155.
[17]Dai H J, Lai P T, Chang Y C, et al. Enhancing of chemical compound and drug name recognition using representative tag scheme and fine-grained tokenization[J]. Journal of Cheminformatics, 2015, 7(1):S14.
[18]Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for named entity recognition[J], 2016, arXiv preprint arXiv:1603.01360.
[19]Ando R K. BioCreative Ⅱ gene mention tagging system at IBM watson[C]//Proceedings of the Second BioCreative Challenge Evaluation Workshop, 2007,(23): 101-103.
[20]Wang X, Yang C, Guan R. A comparative study for biomedical named entity recognition[J]. International Journal of Machine Learning and Cybernetics, 2015: 1-10.