董 瑞 楊雅婷 蔣同海
1(中國科學(xué)院新疆理化技術(shù)研究所 新疆 烏魯木齊 830011)2(新疆民族語音語言信息處理實(shí)驗(yàn)室 新疆 烏魯木齊 830011)3(中國科學(xué)院大學(xué) 北京 100049)
隨著互聯(lián)網(wǎng)的普及和發(fā)展,網(wǎng)絡(luò)成為了每個(gè)人生活中不可缺少的部分,咨訊信息、新聞媒體、社交網(wǎng)絡(luò)充斥在每個(gè)人的身邊,維吾爾語文本信息增長飛快,因此維吾爾語自然語言處理研究變得越來越重要。命名實(shí)體識(shí)別是自然語言處理的基礎(chǔ)任務(wù),命名實(shí)體識(shí)別任務(wù)是從自然語言文本中識(shí)別出具有特點(diǎn)屬性和意義的實(shí)體,并加以分類。隨著深度學(xué)習(xí)在自然語言處理中的深入研究,神經(jīng)網(wǎng)絡(luò)模型已經(jīng)開始應(yīng)用于命名實(shí)體識(shí)別,相對(duì)于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別,神經(jīng)網(wǎng)絡(luò)模型能夠減少人工選擇特征、人工構(gòu)建模板這個(gè)復(fù)雜的特征工程,并且取得了不錯(cuò)的效果。但是維吾爾語屬于阿爾泰語系突厥語族西匈語支,在語法結(jié)構(gòu)上屬于黏著語,單詞是由詞干附加若干詞綴構(gòu)詞,形態(tài)非常豐富。由于其豐富的形態(tài)特征,僅僅通過神經(jīng)網(wǎng)絡(luò)模型自動(dòng)提取的特征,無法獲得全面有效的文本表示。相對(duì)于僅使用神經(jīng)網(wǎng)絡(luò)模型自動(dòng)提取特征,本文提出的融合多種語言學(xué)特征的神經(jīng)網(wǎng)絡(luò)模型,在維吾爾語命名實(shí)體識(shí)別任務(wù)上取得了更好的識(shí)別效果。
1991年Rau在第7屆IEEE人工智能應(yīng)用會(huì)議上提出命名實(shí)體的概念之后,信息理解會(huì)議(Message Understanding Conference,MUC)、內(nèi)容自動(dòng)提取(Automatic Content Extraction,ACE)的評(píng)測(cè)推動(dòng)著命名實(shí)體識(shí)別研究的發(fā)展。國家高技術(shù)研究發(fā)展計(jì)劃“中文信息處理與智能人機(jī)接口技術(shù)評(píng)測(cè)”以及SIGHAN(計(jì)算語言學(xué)協(xié)會(huì)特別興趣小組,研究中文自然語言處理)的BAKEOFF評(píng)測(cè)都對(duì)中文命名實(shí)體識(shí)別的發(fā)展起到了促進(jìn)的作用。
傳統(tǒng)的基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別算法,例如SVM、HMM、CRF,為了獲取更高的識(shí)別性能,需要進(jìn)行大量的特征工程,人工定義特征,生成特征模板,識(shí)別算法的成功與否和研究者設(shè)置的特征模板息息相關(guān)。通常這些人工挑選的特征都是和語言相關(guān)的。例如,對(duì)于英語來說,文本中的命名實(shí)體詞需要首字母大寫,這一特征就非常重要,但是對(duì)于漢字和維吾爾語字母沒有大寫特征,因此針對(duì)不同語種的命名實(shí)體識(shí)別任務(wù),選擇合適的語言學(xué)特征就變得非常重要。
隨著深度學(xué)習(xí)在自然語言處理的深入研究,詞向量通常作為神經(jīng)網(wǎng)絡(luò)模型的輸入層,在不同自然語言處理任務(wù)中都能夠取得非常好的效果。詞向量是在無標(biāo)注大規(guī)模文本上無監(jiān)督訓(xùn)練獲取的,能夠表達(dá)部分語義信息和上下文關(guān)系。Collobert等[1]為了減少特征工程的工作量,使用CNN-CRF神經(jīng)網(wǎng)絡(luò)模型進(jìn)行命名實(shí)體識(shí)別任務(wù),取得了不錯(cuò)的效果。Chiu等[2]在Bi-LSTM基礎(chǔ)上,聯(lián)合詞向量和CNN提取的字符特征作為輸入向量進(jìn)行命名實(shí)體識(shí)別,實(shí)驗(yàn)表明CNN提取的字符特征能夠更進(jìn)一步的豐富命名實(shí)體的文本表示。但是使用Bi-LSTM進(jìn)行命名實(shí)體識(shí)別時(shí),輸出層通常使用Softmax作為激活函數(shù),將命名實(shí)體識(shí)別任務(wù)看作一個(gè)文本分類任務(wù),這樣做的前提假設(shè)是輸出類別之間相互獨(dú)立,但是命名實(shí)體識(shí)別輸出的實(shí)體類別標(biāo)簽是相互關(guān)聯(lián)的。例如某個(gè)單詞的輸出實(shí)體標(biāo)簽是I-LOC,那么它的上一個(gè)單詞一定是B-LOC或者I-LOC,而不能是B-ORG。為了解決輸出實(shí)體類別序列間的關(guān)系依賴問題,黃志恒等[3]提出了一種使用Bi-LSTM-CRF的網(wǎng)絡(luò)結(jié)構(gòu),將Bi-LSTM的輸出向量連接到CRF層,取得了不錯(cuò)的效果,但是沒有加入CNN進(jìn)行字符特征提取。Ma等[4]在Bi-LSTM-CRF的基礎(chǔ)上,使用CNN提取每個(gè)單詞的字符特征,然后將字符特征和詞嵌入拼接在一起作為輸入向量,使用Bi-LSTM-CNN-CRF在CONLL2003數(shù)據(jù)集上取得了最優(yōu)的識(shí)別結(jié)果。
維吾爾命名實(shí)體識(shí)別研究開始比較晚,從基于規(guī)則的人名翻譯開始[5-7],到使用規(guī)則和統(tǒng)計(jì)的方法進(jìn)行維吾爾語人名識(shí)別[8],再到使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法進(jìn)行維吾爾語人名識(shí)別[9-10],以及分別針對(duì)機(jī)構(gòu)名、地名、和數(shù)詞進(jìn)行識(shí)別[11-15]。大部分針對(duì)維吾爾語命名實(shí)體識(shí)別的研究者都使用條件隨機(jī)場(chǎng)作為序列標(biāo)注算法[16]。近期一些學(xué)者也開始使用神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行命名實(shí)體識(shí)別研究[17-18],但是目前還沒有開放的數(shù)據(jù)集以及公開評(píng)測(cè)項(xiàng)目。
文本使用Word2vec進(jìn)行維吾爾語詞向量的訓(xùn)練,訓(xùn)練語料為298萬句維吾爾語單語語料,共1 921 477個(gè)單詞。使用CBOW計(jì)算詞向量,詞特征窗口大小為8,最小詞頻為1,詳細(xì)內(nèi)容見表1。
表1 詞向量參數(shù)設(shè)置
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是一種常用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。在自然語言處理中,常使用CNN來提取文本特征,并且有研究者發(fā)現(xiàn),使用CNN抽取字符級(jí)特征,能夠很好地表示單詞的形態(tài)學(xué)特征。圖1為本文模型中抽取字符特征的網(wǎng)絡(luò)結(jié)構(gòu),“suyimen”是拉丁維語“我喜歡”的意思。
圖1 CNN抽取字符特征
本文設(shè)置字符向量維數(shù)為30,并且進(jìn)行隨機(jī)初始化。每個(gè)單詞的最大字符長度為50,如果超過最大長度,就截取前50個(gè)字母,如果長度小于50,就使用Padding進(jìn)行補(bǔ)齊。通過卷積層和最大池化層,抽取單詞的字符特征表示向量。卷積核尺寸為30,卷積核長度為3。
維吾爾語屬于阿爾泰語系突厥語族西匈語支,在語法結(jié)構(gòu)上屬于黏著語,維吾爾單詞是由詞干附加若干詞綴構(gòu)成,有著豐富的形態(tài)學(xué)特征。由于這種復(fù)雜形態(tài),CNN很難完全抽取所有的形態(tài)學(xué)特征,并且維吾爾語的每個(gè)詞綴還有自己的詞性特征。借鑒于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的維吾爾語命名實(shí)體識(shí)別研究,我們?cè)O(shè)計(jì)了一組維吾爾語語言學(xué)特征,見表2。
表2 語言學(xué)特征說明
例如拉丁維語單詞oquyalmidim(漢語意思:我不會(huì)讀),切分成詞干附加詞綴的形式為:
oquyalmidim->oqu+yala+ma+d+im
其中:oqu是詞干,yala是第一個(gè)詞綴,ma是第二個(gè)詞綴,d是第三個(gè)詞綴,im是第四個(gè)詞綴,每個(gè)詞綴有不同的詞性。這個(gè)維吾爾語單詞的語言學(xué)特征就可以用表3表示。
表3 維吾爾語單詞語言學(xué)特征示例
設(shè)置每個(gè)語言學(xué)特征的向量維數(shù)為30,隨機(jī)初始化向量。
將詞向量、字符特征向量以及語言學(xué)特征向量級(jí)聯(lián)作為神經(jīng)網(wǎng)絡(luò)的輸入向量表示。假設(shè)Vword表示詞向量,Vchar表示字符特征向量,Vfi表示表2中的第i個(gè)語言學(xué)特征向量,整體輸入向量就可以表示為V=[Vword:Vchar:Vf1:…:Vf10],結(jié)果如圖2所示。
圖2 聯(lián)合特征表示
(1) LSTM。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)的網(wǎng)絡(luò)結(jié)構(gòu)在自然語言處理中得到了廣泛的應(yīng)用。對(duì)于命名實(shí)體任務(wù)來說,RNN的輸入層就是詞向量,輸出層就是命名實(shí)體類別序列。RNN網(wǎng)絡(luò)有一個(gè)很大的缺點(diǎn)就是長期依賴問題,對(duì)于過長的神經(jīng)網(wǎng)絡(luò)序列,很難保留很久之前的輸入信息。為了解決這個(gè)問題,Hochreither等設(shè)計(jì)了長短期記憶網(wǎng)絡(luò)(Long short term merroy,LSTM),通過三個(gè)特殊的門結(jié)構(gòu)來控制輸入和輸出信息。圖3為一個(gè)LSTM單元的基本結(jié)構(gòu)。
圖3 LSTM單元基本結(jié)構(gòu)
LSTM更新公式如下:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
(1)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
(2)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)
(3)
ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)
(4)
ht=ottanh(ct)
(5)
式中:σ是Sigmoid激活函數(shù);i是輸入門;f是遺忘門;c是記憶單元;o是輸出門;h是隱層;tanh表示雙曲正切激活函數(shù);W是權(quán)重矩陣,例如Wxi是輸入x到輸入門之間的權(quán)重矩陣,Whi是隱層到輸入門的權(quán)重矩陣,b是偏置向量。
條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF) 是在給定一組輸入隨機(jī)變量條件下,另外一組輸出隨機(jī)變量的條件概率分布模型。使用Softmax激活函數(shù)作為輸出層的前提假設(shè)是輸出類別直接相互獨(dú)立,類別之間沒有約束。但是對(duì)于命名實(shí)體識(shí)別任務(wù)來說,輸出類別之間是有約束關(guān)系的。而CRF可以很好地對(duì)這種類別間關(guān)系進(jìn)行約束,因此使用CRF層和Bi-LSTM的輸出向量連接在一起進(jìn)行命名實(shí)體識(shí)別任務(wù)。
將詞向量、字符特征以及語言學(xué)特征連接在一起作為輸入向量,將BLSTM的輸出向量和CRF層相連,構(gòu)成融多種合語言學(xué)特征的Bi-LSTM-CNN-CRF神經(jīng)網(wǎng)絡(luò)模型,整體結(jié)構(gòu)如圖4所示。
圖4 融合多語言學(xué)特征的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
每一個(gè)輸入的維吾爾語單詞,將其詞向量和CNN提取的字符特征向量以及經(jīng)過形態(tài)學(xué)分析得到的語言學(xué)特征向量拼接到一起,作為Bi-LSTM網(wǎng)絡(luò)的輸入向量,最后再將Bi-LSTM的輸出向量和CRF層相連。
本文使用BIO標(biāo)注規(guī)范,命名實(shí)體類別包括三類:人名、機(jī)構(gòu)名和地名。具體定義如表4、表5所示。
表4 BIO標(biāo)注含義
表5 命名實(shí)體識(shí)別類別說明
由于維吾爾語命名實(shí)體識(shí)別任務(wù),沒有公開發(fā)布的標(biāo)注數(shù)據(jù)集,因此本文使用中科院新疆理化所標(biāo)注的維吾爾語命名實(shí)體識(shí)別語料。詳細(xì)信息如表6所示。
表6 訓(xùn)練語料說明
本文使用精確率P、召回率R、F1值來進(jìn)行評(píng)測(cè)。具體公式如下:
(6)
(7)
(8)
為了驗(yàn)證加入語言學(xué)特征是否能夠提高維吾爾語命名實(shí)體性能,本文進(jìn)行了多組對(duì)比實(shí)驗(yàn),使用不添加任何語言學(xué)特征的Just_token作為基線系統(tǒng)。
(1) 實(shí)驗(yàn)一:分別使用每個(gè)語言學(xué)特征,將其添加到神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行對(duì)比,結(jié)果如表7所示。
表7 多種語言學(xué)特征對(duì)比實(shí)驗(yàn)結(jié)果 %
從實(shí)驗(yàn)結(jié)果看,對(duì)比不添加任何語言學(xué)特征直接使用Bi-LSTM-CNN-CRF,大部分添加的語言學(xué)特征的模型可以取得更好的識(shí)別結(jié)果,但是對(duì)于僅使用Pos4、suffix4這兩種語言學(xué)特征,識(shí)別結(jié)果并沒有基線系統(tǒng)高。為了確定這幾種語言學(xué)特征是否有效,進(jìn)一步進(jìn)行實(shí)驗(yàn)驗(yàn)證。
(2) 實(shí)驗(yàn)二:對(duì)于Pos4特征,為了確定這個(gè)語言學(xué)特征是否對(duì)維吾爾語命名實(shí)體識(shí)別有用,我們將Pos1-Pos4這四種特征同時(shí)添加到神經(jīng)網(wǎng)絡(luò)模型中,用來比較添加Pos4特征后,是否對(duì)整體命名實(shí)體識(shí)別任務(wù)有幫助,實(shí)驗(yàn)結(jié)果見表8。
表8 融合所有詞綴詞性特征對(duì)比 %
可以看出,在F1值上,添加全部的詞綴詞性特征有一定的提高,因此我們決定將Pos4特征加入整體的語言學(xué)特征中去。
(3) 實(shí)驗(yàn)三:Suffix1-Suffix4分別是每個(gè)維吾爾語單詞所附加的第一個(gè)到第四個(gè)詞綴特征,可以發(fā)現(xiàn)雖然使用CNN進(jìn)行字符特征提取能夠獲取一部分形態(tài)學(xué)特征,但是由于維吾爾語形態(tài)復(fù)雜,并不能獲取全部的形態(tài)學(xué)特征。通過表7可以看出Suffix1-Suffix3分別添加之后,識(shí)別結(jié)果都有一定的提升。Suffix4效果不好的原因經(jīng)過分析發(fā)現(xiàn),測(cè)試集中共有20 242個(gè)單詞,包含4個(gè)詞綴的單詞只有1 086個(gè),過于稀疏,對(duì)識(shí)別訓(xùn)練造成了負(fù)面影響。為了驗(yàn)證Suffix4是否對(duì)維吾爾語命名實(shí)體識(shí)別有負(fù)面影響,我們同時(shí)添加Suffix1-Suffix4這四個(gè)特征進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表9所示。
表9 融合所有詞綴特征對(duì)比 %
通過表9可以發(fā)現(xiàn),雖然單獨(dú)加入Suffix4沒有能夠提高識(shí)別率,但是同時(shí)添加四個(gè)詞綴特征,可以有效提高命名實(shí)體識(shí)別精度。
(4) 實(shí)驗(yàn)四:通過上述的實(shí)驗(yàn)可以看出,語言學(xué)特征能夠提高維吾爾語命名實(shí)體識(shí)別精度,因此,我們將加入所有的語言學(xué)特征,與實(shí)驗(yàn)二中加入Pos1-Pos4特征以及實(shí)驗(yàn)三中加入Suffix1-Suffix4特征進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表10所示。
表10 融合所有語言學(xué)特征對(duì)比 %
實(shí)驗(yàn)結(jié)果表明,融合所有語言學(xué)特征后,相對(duì)于沒有添加語言學(xué)特征的Bi-LSTM-CNN-CRF模型,維吾爾語命名實(shí)體識(shí)別精度有著顯著提高,F(xiàn)1值提高了3.98%。同時(shí),相對(duì)于僅添加了部分特征的,Pos1-Pos4以及Suffix1-Suffix4這兩種模型,全部的語言學(xué)特征可以取得最好的命名實(shí)體識(shí)別精度。
由于維吾爾語的復(fù)雜形態(tài)特性,僅僅使用字符級(jí)CNN網(wǎng)絡(luò)無法充分提取維吾爾語形態(tài)特征。本文提出了一種融合多種語言學(xué)特征的Bi-LSTM-CNN-CRF神經(jīng)網(wǎng)絡(luò)模型。通過整合詞向量、字符特征、多種語言學(xué)特征向量作為輸入向量,使用Bi-LSTM獲取上下文信息,使用CRF作為輸出層,約束輸出命名實(shí)體類別序列。
實(shí)驗(yàn)表明,本文提出的融合多種語言學(xué)特征的維吾爾語神經(jīng)網(wǎng)絡(luò)命名實(shí)體識(shí)別模型,可以彌補(bǔ)僅僅使用CNN提取字符特征無法充分獲取復(fù)雜形態(tài)特征的缺點(diǎn),有效提升維吾爾語命名實(shí)體識(shí)別效果。
現(xiàn)有的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)還很難充分地自動(dòng)抽取復(fù)雜形態(tài)語言的形態(tài)特征以及其他語言學(xué)特征,下一步將設(shè)計(jì)新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),能夠更充分地自動(dòng)抽取維吾爾語語言特征,進(jìn)一步減少特征工程,并且提高維吾爾語命名實(shí)體識(shí)別精度。