王路路,艾山·吾買爾,吐?tīng)柛ひ啦祭?,買合木提·買買提,卡哈爾江·阿比的熱西提
(1. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2. 新疆大學(xué) 新疆多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室,新疆 烏魯木齊 830046)
隨著信息化進(jìn)程的加快,互聯(lián)網(wǎng)上維吾爾文的信息資源呈逐漸增長(zhǎng)趨勢(shì),從而使維吾爾文信息化研究顯得越來(lái)越重要,由此維吾爾語(yǔ)自然語(yǔ)言處理應(yīng)運(yùn)而生。命名實(shí)體識(shí)別作為自然語(yǔ)言處理中的一項(xiàng)基礎(chǔ)性任務(wù),旨在從非結(jié)構(gòu)化文本中抽取出具有特定意義的實(shí)體,如人名、地名、機(jī)構(gòu)名,并且在信息抽取、機(jī)器翻譯、問(wèn)答系統(tǒng)等領(lǐng)域中發(fā)揮著重要作用。
隨著深度學(xué)習(xí)研究的不斷深入,基于神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識(shí)別已在漢語(yǔ)[1-2]、英語(yǔ)[3-4]等大規(guī)模語(yǔ)種上呈現(xiàn)了很好的性能。然而,維吾爾文命名實(shí)體識(shí)別尚處于起步階段,面臨的主要問(wèn)題如下: ①維吾爾語(yǔ)是形態(tài)豐富的典型性黏著語(yǔ)言,通過(guò)附加不同的詞綴,一個(gè)詞將有多種形態(tài),容易造成數(shù)據(jù)稀疏,從而帶來(lái)未登錄詞問(wèn)題(OOV); ②維吾爾文命名實(shí)體中沒(méi)有大小寫(xiě)特征; ③沒(méi)有公開(kāi)的數(shù)據(jù)集,數(shù)據(jù)規(guī)模的有限性將會(huì)影響神經(jīng)網(wǎng)絡(luò)方法的識(shí)別性能。此外,現(xiàn)有維吾爾文命名實(shí)體識(shí)別研究主要采用基于統(tǒng)計(jì)的方法[5]或者統(tǒng)計(jì)與規(guī)則相結(jié)合的方法[6-7],而這些方法嚴(yán)重依賴于人工提取的特征工程和領(lǐng)域知識(shí)。
為了避免繁瑣的特征工程,本文提出了基于深度神經(jīng)網(wǎng)絡(luò)的維吾爾文命名實(shí)體識(shí)別的方法。本文的主要工作內(nèi)容如下: ①實(shí)現(xiàn)了對(duì)維吾爾文中的人名、地名、機(jī)構(gòu)名同時(shí)識(shí)別; ②將神經(jīng)網(wǎng)絡(luò)方法應(yīng)用在維吾爾文命名實(shí)體識(shí)別上; ③分別使用直接串聯(lián)法和基于注意力機(jī)制的加權(quán)求和法將詞向量和字符級(jí)向量進(jìn)行聯(lián)合,來(lái)動(dòng)態(tài)學(xué)習(xí)形態(tài)豐富的維吾爾文字符間的特征,并對(duì)比Bi-LSTM和Bi-LSTM-CRF兩種模型的識(shí)別效果; ④以聯(lián)合向量表示作為輸入的Bi-LSTM-CRF方法取得較佳的性能,同時(shí)有效緩解了未登錄詞的識(shí)別。
基于神經(jīng)網(wǎng)絡(luò)的方法已經(jīng)成功地運(yùn)用在命名實(shí)體識(shí)別序列標(biāo)注任務(wù)上。Collobert等[8]于2011年提出了基于CNN-CRF神經(jīng)網(wǎng)絡(luò)模型并進(jìn)行了命名實(shí)體識(shí)別研究,隨后一系列借鑒此方法的深度神經(jīng)網(wǎng)絡(luò)方法被應(yīng)用于序列標(biāo)注任務(wù)中。Huang等[9]提出了一種以人工提取的特征向量和詞向量的拼接向量作為輸入的Bi-LSTM-CRF模型,在CONLL2003數(shù)據(jù)集上F1值達(dá)到了90.10%;Lample等[3]引入了由Bi-LSTM獲取的字符級(jí)向量,F(xiàn)1值達(dá)到了90.94%; Rei等[10]提出了利用注意力機(jī)制獲取字符級(jí)向量和詞向量的聯(lián)合向量;Ma等[4]構(gòu)建了BiLSTM-CNNs-CRF神經(jīng)網(wǎng)絡(luò)模型,通過(guò)CNN學(xué)習(xí)字符級(jí)向量且優(yōu)于其他模型。張海楠等[1]提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的字詞聯(lián)合方法以實(shí)現(xiàn)中文命名實(shí)體識(shí)別,有效解決了字詞稀疏的不足之處;Dong等[11]利用BLSTM-CRF神經(jīng)網(wǎng)絡(luò)模型有效結(jié)合了字向量和偏旁向量。
相比于漢語(yǔ)或者英語(yǔ)等大規(guī)模語(yǔ)種,維吾爾文命名實(shí)體識(shí)別研究起步較晚,近幾年許多學(xué)者針對(duì)命名實(shí)體中某一類別展開(kāi)研究。艾斯卡爾·肉孜等[5]利用條件隨機(jī)場(chǎng),引入了詞性、詞干、音節(jié)等特征進(jìn)行人名的識(shí)別;加日拉·買買提熱衣木等[12]提出了統(tǒng)計(jì)與規(guī)則相結(jié)合來(lái)識(shí)別維吾爾人名,主要借用邊界詞提取人名;塔什甫拉提·尼扎木丁等[7]從維吾爾語(yǔ)黏著特點(diǎn)出發(fā),利用條件隨機(jī)場(chǎng)識(shí)別維吾爾文人名,然后再用基于規(guī)則的方法對(duì)漢族人名識(shí)別進(jìn)行優(yōu)化;買合木提·買買提等[6]采用條件隨機(jī)場(chǎng)和規(guī)則相結(jié)合的方法研究了維吾爾文地名識(shí)別,并取得了較高的性能;麥合甫熱提等[13]提出了利用語(yǔ)法語(yǔ)義知識(shí)實(shí)現(xiàn)了基于規(guī)則的維吾爾文機(jī)構(gòu)名識(shí)別;阿依古麗·哈力克等[14]提出了基于正則表達(dá)式對(duì)維吾爾語(yǔ)中的時(shí)間、數(shù)字、量詞進(jìn)行識(shí)別。以上維吾爾文命名實(shí)體識(shí)別的研究主要采用基于規(guī)則的方法或者基于統(tǒng)計(jì)的方法,而這些方法較為傳統(tǒng),在分析語(yǔ)言特性時(shí)常常需要人工編制規(guī)則或者構(gòu)建復(fù)雜的特征工程,因此維吾爾文命名實(shí)體識(shí)別具有一定的改進(jìn)空間。
近年來(lái),分布式向量表示已廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域,尤其是深度學(xué)習(xí)研究。本文采用詞向量作為基本的特征,引入字符級(jí)向量來(lái)驗(yàn)證詞向量和字符級(jí)向量的聯(lián)合向量表示對(duì)維吾爾文命名實(shí)體識(shí)別的影響,本文將考慮以下特征向量。
分布式向量表示能夠從大規(guī)模的未標(biāo)注語(yǔ)料中獲取單詞的語(yǔ)義信息,與one-hot向量表示相比,它可以有效地降低維度,獲取單詞間的語(yǔ)義相關(guān)性。Word2Vec[15]和Glove[16]是目前常用于訓(xùn)練分布式詞向量的自然語(yǔ)言處理開(kāi)源工具,其中Word2Vec包括CBOW和Skip-gram兩種模型。為了獲取高質(zhì)量的詞向量,本文利用新疆多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室自然語(yǔ)言處理組搜集的385萬(wàn)句的維吾爾文語(yǔ)料,采用Word2Vec中Skip-gram模型獲取預(yù)訓(xùn)練的300維向量,詞向量表中共包含1 249 649個(gè)單詞/字符及其實(shí)數(shù)值向量。本文通過(guò)詞向量查找表獲取輸入文本中每個(gè)token的預(yù)訓(xùn)練詞向量,如果某個(gè)token不在表中,將被映射到一個(gè)統(tǒng)一的向量表中。
維吾爾語(yǔ)屬于形態(tài)豐富的黏著語(yǔ),通過(guò)在詞根的前后附加不同的詞綴來(lái)實(shí)現(xiàn)語(yǔ)法功能,因此詞匯量龐大,容易造成未登錄詞問(wèn)題。單純的詞向量對(duì)未登錄詞問(wèn)題處理仍存在不足。但是字符級(jí)向量包含豐富的結(jié)構(gòu)特征,對(duì)于形態(tài)豐富的語(yǔ)言來(lái)說(shuō)字符級(jí)向量是非常有用的,它能夠?qū)W習(xí)前綴和后綴信息等形態(tài)信息,從而緩解數(shù)據(jù)稀疏問(wèn)題。此外,字符級(jí)向量能夠有效地處理語(yǔ)言模型或者詞性標(biāo)注中的未登錄詞問(wèn)題[17]。
首先,隨機(jī)初始化包含不同字符的字符向量查找表;然后,將單詞word中每個(gè)字符的向量通過(guò)Bi-LSTM模型獲取單詞的前向傳播向量lword和反向傳播向量rword;最后將前向傳播向量lword和反向傳播向量rword進(jìn)行拼接獲取cword=[lword;rword]。
假設(shè)單詞word在詞向量查找表中的向量為wword,字符級(jí)向量為cword,本文將討論以下兩種聯(lián)合向量方法。
(1) 基于直接串聯(lián)的聯(lián)合向量表示。將wword和cword直接拼接構(gòu)成的串聯(lián)向量作為序列標(biāo)注模型的輸入向量eword,即eword=[wword;cword],如圖1所示。
圖1 基于直接串聯(lián)的聯(lián)合向量表示
(2) 基于注意力機(jī)制的聯(lián)合向量表示。本文借鑒Rei等[10]的方法使用注意力機(jī)制將詞向量和字符級(jí)向量加權(quán)求和進(jìn)行聯(lián)合,如圖2所示。其中注意力機(jī)制的權(quán)重a是通過(guò)兩層前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的。
eword=a·wword+(1-a)·cword
(1)
(2)
圖2 基于注意力機(jī)制的聯(lián)合向量表示
將聯(lián)合向量表示作為Bi-LSTM模型的輸入,獲取前向傳播向量和反向傳播向量;然后將兩個(gè)向量的拼接向量表示輸入序列,再通過(guò)tanh層將向量縮小至[-1,1];最后通過(guò)條件隨機(jī)場(chǎng)判斷出最優(yōu)的標(biāo)記序列。為了充分理解維吾爾文命名實(shí)體識(shí)別研究,本文以拉丁維吾爾文“men junggoni s?yimen” (中文意思: 我愛(ài)中國(guó))進(jìn)行舉例。
循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)是處理序列標(biāo)注問(wèn)題的一種神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,它能夠利用歷史信息處理長(zhǎng)距離依賴信息,但是未能有效地解決梯度消失和梯度爆炸問(wèn)題。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)[18]是RNN的變種,明顯在該問(wèn)題上表現(xiàn)占優(yōu),主要通過(guò)記憶單元連接各個(gè)門結(jié)構(gòu)使得模型記憶有效的上下文信息。LSTM門結(jié)構(gòu)有輸入門、遺忘門、輸出門。LSTM的形式化表示如式(3)所示。
(3)
其中,σ是非線性sigmoid函數(shù),⊙代表點(diǎn)乘運(yùn)算,tanh表示雙曲正切函數(shù),xt、ht-1、ct-1分別表示t時(shí)刻的輸入、上一時(shí)刻的輸出、上一時(shí)刻的單元狀態(tài)。W、U、V分別表示對(duì)應(yīng)門或者狀態(tài)的權(quán)重,b表示偏值項(xiàng)。
為了充分利用上下文信息,本文將采用Bi-LSTM模型。Bi-LSTM 在LSTM的基礎(chǔ)上增加了反向傳播層,可以將信息序列分別從兩個(gè)方向出發(fā)輸入模型,然后經(jīng)過(guò)隱含層保存兩個(gè)方向的信息序列,即歷史信息與未來(lái)信息。對(duì)于輸入序列S=(e1,e2,…,en),Bi-LSTM將獲取前向傳播向量l=(l1,l2,…,ln)和反向傳播向量r=(r1,r2,…,rn),則Bi-LSTM的最終輸出為ti=(li;ri),在Bi-LSTM之上的tanh層用于預(yù)測(cè)每個(gè)單詞所有可能標(biāo)記序列的置信度,如式(4)所示。
hi=tanh(Whti)
(4)
其中,Wh表示隱藏層的權(quán)重矩陣。
Softmax作為Bi-LSTM的輸出層,可以對(duì)各個(gè)位置獨(dú)立進(jìn)行多分類。Softmax函數(shù)是計(jì)算每個(gè)單詞的所有可能標(biāo)記信息的歸一化概率分布,如式(5)所示。
(5)
其中,p(yi=j|ht)表示輸入序列中第i個(gè)單詞對(duì)應(yīng)的標(biāo)記yi是j的概率,K表示標(biāo)簽集合。在訓(xùn)練過(guò)程中通過(guò)最小化負(fù)對(duì)數(shù)似然函數(shù)優(yōu)化模型,如式(6)所示。
(6)
本文將維吾爾文命名實(shí)體識(shí)別看作序列標(biāo)注任務(wù)并采用了BIO標(biāo)注形式,這種標(biāo)記形式有很強(qiáng)的約束性,例如“I-ORG”之前不可能是“B-LOC”或者O。若僅僅用Bi-LSTM則不能充分解決此類問(wèn)題,但是CRF能夠考慮上下文標(biāo)簽之間的關(guān)系,從而能代替softmax層獲取全局最優(yōu)的標(biāo)記序列,因此最終本文考慮將Bi-LSTM和CRF結(jié)合,即將Bi-LSTM-CRF模型用于維吾爾文命名實(shí)體識(shí)別中,如圖3所示。
圖3 基于Bi-LSTM-CRF的維吾爾文命名實(shí)體識(shí)別
首先將第2節(jié)中的特征向量表示作為Bi-LSTM的輸入向量,通過(guò)Bi-LSTM編碼器獲取輸出結(jié)果P(原理同2.1節(jié)),其中P的大小為n*k,n表示輸入序列的長(zhǎng)度,k表示標(biāo)簽集合的大小,則其第i列是由式(4)獲取的向量hi,Pi,j表示輸入序列中第i個(gè)單詞對(duì)應(yīng)第j個(gè)標(biāo)記的分?jǐn)?shù)。通過(guò)引入轉(zhuǎn)移矩陣T作為CRF模型的參數(shù),Ti,j表示連續(xù)單詞由標(biāo)簽i到標(biāo)簽j的轉(zhuǎn)移概率。對(duì)于輸入序列預(yù)測(cè)的標(biāo)簽序列y={y1,y2,…,yn},定義概率表示如式(7)所示。
(7)
得到概率后利用最大似然函數(shù)訓(xùn)練模型,如式(8)所示。
(8)
在預(yù)測(cè)過(guò)程中尋找條件概率最大的輸出序列y*,如式(9)所示。
(9)
本文進(jìn)行了多組對(duì)比實(shí)驗(yàn)來(lái)驗(yàn)證深度神經(jīng)網(wǎng)絡(luò)對(duì)維吾爾文命名實(shí)體識(shí)別的有效性,并探索不同的輸入向量對(duì)識(shí)別效果的影響。
本文采用新疆多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室標(biāo)注的命名實(shí)體數(shù)據(jù)集,共計(jì)39 027條句子,包含命名實(shí)體102 360個(gè),人名、地名、機(jī)構(gòu)名占比分別約為27.81%、41.60%、30.58%。按照交叉驗(yàn)證法將數(shù)據(jù)集以7.5∶1∶1.5的比例分為訓(xùn)練集、驗(yàn)證集、測(cè)試集。具體的分布信息如表1~表3所示,其中NE表示命名實(shí)體,OOV表示未登錄詞(未在訓(xùn)練集中出現(xiàn)的詞),ROOV表示未登錄詞的占比。
表1 維吾爾文命名實(shí)體識(shí)別數(shù)據(jù)集的統(tǒng)計(jì)信息
表2 開(kāi)發(fā)集OOV統(tǒng)計(jì)信息
表3 測(cè)試集OOV統(tǒng)計(jì)信息
實(shí)驗(yàn)采用F-值(F1)來(lái)評(píng)測(cè)命名實(shí)體識(shí)別效果,其中F-值由準(zhǔn)確率(P)、召回率(R)來(lái)決定。計(jì)算如式(10)~式(12)所示。
本文參考前人的工作[10],采用基于batch的梯度下降優(yōu)化超參數(shù),其中batch的大小為64,使用Adadelta優(yōu)化算法,并設(shè)置其初始學(xué)習(xí)率為1.0;為了防止過(guò)擬合問(wèn)題,設(shè)置Dropout參數(shù)為0.5; LSTM的前向傳播和反向傳播的字符向量維度均為50;LSTM中隱藏層節(jié)點(diǎn)數(shù)為200;在Bi-LSTM頂部上tanh層的大小設(shè)置為50。根據(jù)維吾爾文命名實(shí)體識(shí)別的詞向量驗(yàn)證,最終確定訓(xùn)練詞向量采用Skip-gram模型且其維度為300維;具體參數(shù)設(shè)置如表4所示。
表4 參數(shù)設(shè)置
為了驗(yàn)證基于神經(jīng)網(wǎng)絡(luò)的維吾爾文命名實(shí)體識(shí)別方法的有效性,本文以基于CRF和半監(jiān)督學(xué)習(xí)的維吾爾文命名實(shí)體識(shí)別方法為基線系統(tǒng)(新疆多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室自然語(yǔ)言處理組提供的服務(wù)),分別以詞向量、基于直接串聯(lián)的聯(lián)合向量表示、基于注意力機(jī)制的聯(lián)合向量作為輸入向量,在Bi-LSTM和Bi-LSTM-CRF兩種模型上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。
表5 不同模型的對(duì)比實(shí)驗(yàn)結(jié)果
從表5中看出,與基線系統(tǒng)相比,Bi-LSTM和Bi-LSTM-CRF兩種模型僅在詞向量為輸入向量的情況下在命名實(shí)體識(shí)別上表現(xiàn)稍弱,但是在聯(lián)合向量表示為輸入向量的情況下均有提高,說(shuō)明引入字符級(jí)向量的聯(lián)合向量表示方法進(jìn)一步提高了維吾爾文命名實(shí)體識(shí)別的性能,同時(shí)能夠有效地減少人工提取領(lǐng)域特征的工作量;從總體上看,Bi-LSTM-CRF模型優(yōu)于Bi-LSTM,說(shuō)明條件隨機(jī)場(chǎng)能夠有效學(xué)習(xí)相鄰標(biāo)記之間的關(guān)系,從而聯(lián)合解碼以得到最優(yōu)序列標(biāo)注;相較于詞向量,兩種聯(lián)合向量表示在Bi-LSTM和Bi-LSTM-CRF模型中的識(shí)別效果明顯提高,說(shuō)明引入字符級(jí)向量,能夠有效地學(xué)習(xí)形態(tài)特征,從而緩解形態(tài)豐富語(yǔ)言面臨的問(wèn)題;在Bi-LSTM模型上,與兩種聯(lián)合向量表示相比,基于注意力機(jī)制的聯(lián)合向量表示在開(kāi)發(fā)集上稍有提高,測(cè)試集略低;在Bi-LSTM-CRF上,對(duì)輸入向量進(jìn)行比較,發(fā)現(xiàn)基于注意力機(jī)制的聯(lián)合向量表示在整體的命名實(shí)體識(shí)別上F-值達(dá)到了90.13%,且高于基于直接串聯(lián)的聯(lián)合向量表示,說(shuō)明基于注意力機(jī)制的聯(lián)合向量表示能夠使Bi-LSTM-CRF模型動(dòng)態(tài)地選擇詞向量和字符級(jí)向量中的信息,且適用于形態(tài)豐富的維吾爾語(yǔ)。
為了更好地驗(yàn)證深度神經(jīng)網(wǎng)絡(luò)模型的影響,本文將開(kāi)發(fā)集和測(cè)試集中所有的OOV抽取出來(lái),進(jìn)一步對(duì)OOV識(shí)別進(jìn)行了分析,如表6所示。
表6 OOV識(shí)別的對(duì)比實(shí)驗(yàn)
從表6中可知,神經(jīng)網(wǎng)絡(luò)模型在OOV識(shí)別上優(yōu)于基線系統(tǒng);無(wú)論是哪種神經(jīng)網(wǎng)絡(luò)模型,引入字符級(jí)向量,OOV識(shí)別性能幾乎都提高2%左右,說(shuō)明聯(lián)合向量表示可以有效緩解未登錄詞的識(shí)別;基于直接串聯(lián)的聯(lián)合向量表示與基于注意力機(jī)制的聯(lián)合向量表示相比,在OOV識(shí)別上相差不大,由此可以說(shuō)明基于直接串聯(lián)的聯(lián)合向量表示在非OOV上識(shí)別效果略差,進(jìn)一步說(shuō)明了基于注意力機(jī)制的聯(lián)合向量表示能夠充分地學(xué)習(xí)有效信息。
現(xiàn)有的維吾爾文命名實(shí)體識(shí)別研究依賴于人工的特征工程和領(lǐng)域知識(shí),針對(duì)該問(wèn)題,本文提出了基于深度神經(jīng)網(wǎng)絡(luò)的方法,主要采用基于不同輸入向量的Bi-LSTM-CRF的神經(jīng)網(wǎng)絡(luò)模型。首先通過(guò)大規(guī)模的無(wú)監(jiān)督學(xué)習(xí)語(yǔ)料訓(xùn)練詞向量以建立詞向量查找表,從而獲取每個(gè)單詞具有語(yǔ)義的詞向量;然后由Bi-LSTM獲取的字符級(jí)向量進(jìn)行聯(lián)合,分別獲取基于直接串聯(lián)的聯(lián)合向量表示和基于注意力機(jī)制的聯(lián)合向量表示;最后通過(guò)Bi-LSTM-CRF神經(jīng)網(wǎng)絡(luò)模型對(duì)進(jìn)行實(shí)體標(biāo)注。實(shí)驗(yàn)表明,基于注意力機(jī)制向量表示的Bi-LSTM-CRF方法的識(shí)別效果最佳,由此說(shuō)明基于注意力機(jī)制的聯(lián)合向量表示能夠使模型動(dòng)態(tài)地利用字符級(jí)向量或者詞向量中的有效信息。
在未來(lái)的研究工作中,我們將繼續(xù)研究基于深度神經(jīng)網(wǎng)絡(luò)的維吾爾文命名實(shí)體識(shí)別,探索其他神經(jīng)網(wǎng)絡(luò)模型組合或者在模型中引入注意力機(jī)制,驗(yàn)證出最適合于維吾爾文命名實(shí)體識(shí)別的模型;此外,將利用遷移學(xué)習(xí)實(shí)現(xiàn)其他黏著語(yǔ)種的命名實(shí)體識(shí)別。