古麗尼格爾·阿不都外力,吐爾根·依布拉音,卡哈爾江·阿比的熱西提,王路路
(1. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊830046;2. 新疆大學(xué) 新疆多語種信息技術(shù)實驗室,新疆 烏魯木齊 830046)
維吾爾語是典型的形態(tài)豐富的黏著語。黏著語種的單詞由詞干和詞綴組成,詞干主要表達詞的意義,而詞綴提供語法信息(所屬性,形態(tài),復(fù)數(shù))。作為維吾爾語自然語言處理中的基礎(chǔ)性研究,詞干提取的質(zhì)量會直接影響維吾爾語言處理的其他任務(wù),如詞性標(biāo)注、命名實體識別等[1]。除此之外,維吾爾語中詞干與詞綴相連接時,連接處由于結(jié)合的不規(guī)則性,會發(fā)生一系列的音系現(xiàn)象[2],這種音系現(xiàn)象對詞干提取帶來了一定的困難。
維吾爾語自然語言處理技術(shù)還處于發(fā)展初期[3],目前維吾爾語中的詞干提取大致可以分成基于詞典/規(guī)則的方法[4]、基于統(tǒng)計的方法[5]和基于神經(jīng)網(wǎng)絡(luò)的方法[6]?;谠~典/規(guī)則的方法工作量較大,需要語言學(xué)家制定語言學(xué)規(guī)則并構(gòu)造限制條件。這種方法雖然結(jié)果更加準(zhǔn)確,但需要大量的語言學(xué)知識,受詞干提取詞典大小的限制,而且語言學(xué)規(guī)則只適用于常規(guī)詞形變換,缺乏全面性?;诮y(tǒng)計的方法是通過詞的分布統(tǒng)計規(guī)律進行詞干提取,能較好地處理OOV現(xiàn)象和一般構(gòu)詞規(guī)律構(gòu)成的詞形。基于統(tǒng)計學(xué)習(xí)的維吾爾語詞干提取研究雖然有了初步的成果,但需要人工選擇和提取特征,而且還存在著過度切分、不切分和歧義切分等問題?;谏窠?jīng)網(wǎng)絡(luò)的方法是一種特征學(xué)習(xí)的過程,通過后向傳播算法學(xué)習(xí)出最適合維吾爾語詞干提取模型的參數(shù)。此方法通過自動學(xué)習(xí)數(shù)據(jù)中的特征表示來緩解人工選擇和提取特征的過程中成本較大的問題,但仍然存在過度切分、不切分和歧義切分的問題。
為了解決以上問題,本文提出了基于Bi-LSTM-CRF神經(jīng)網(wǎng)絡(luò)的維吾爾語詞干提取方法。該方法將采用BIO2標(biāo)記,引入字符特征、音類特征以及語音特征作為候選特征。為了進一步證明模型的有效性,本文將分兩組做實驗對比:
(1) 將Bi-LSTM-CRF模型應(yīng)用到維吾爾語詞干提取上,并與CRF、LSTM、Bi-LSTM、LSTM-CRF模型做實驗對比,驗證Bi-LSTM-CRF模型能有效地解決詞干提取時出現(xiàn)的過度切分、不切分和歧義切分等情況;
(2) 引入不同的候選特征,驗證當(dāng)逐步加入字符特征、音類特征以及部分語音特征組時,特征集對維吾爾語詞干提取質(zhì)量的影響。
除了維吾爾語,國內(nèi)少數(shù)民族語言中屬于黏著語的還有蒙古語、哈薩克語等。由于國內(nèi)少數(shù)民族語言的詞干提取技術(shù)發(fā)展得比較晚,因此基于詞典/規(guī)則相結(jié)合的方法比較多。史建國等[7]利用詞典和規(guī)則的方法對蒙古文進行詞切分,得到了性能較好的斯拉夫蒙古文詞切分系統(tǒng);李婧等[8]采用基于規(guī)則、字典查找和最大匹配相結(jié)合的方法對哈薩克語進行詞干提取,并提出了結(jié)合哈薩克語元音和諧規(guī)律、詞干詞性和詞尾綴接順序切分詞尾的方法,使得詞干提取正確率達95.26%;早克熱·卡德爾等[9]首先構(gòu)造了名詞的有限狀態(tài)自動機,并用最大熵模型給有限狀態(tài)自動機加入了歧義詞綴識別能力,建立了基于規(guī)則和信道噪聲模型的元音和諧處理方法。隨著統(tǒng)計學(xué)習(xí)模型在自然語言處理領(lǐng)域中的廣泛應(yīng)用,詞干提取也從傳統(tǒng)的方法逐步過渡到了統(tǒng)計的方法。賽迪亞古麗·艾尼瓦爾等[5]以N-gram為基準(zhǔn)模型,根據(jù)維吾爾語構(gòu)詞規(guī)律,提出了融合詞性特征和上下文詞干信息的維吾爾語詞干提取模型,由于語料庫規(guī)模較小,模型依賴于上下文特征和詞性特征,而且可能存在一些重復(fù)單詞等原因,當(dāng)語料庫規(guī)模逐漸增大時,模型準(zhǔn)確率提升較緩慢;那日松等[10]設(shè)計了兩組對比實驗,將蒙古文的分詞問題轉(zhuǎn)化為序列標(biāo)注問題,使用了四詞位標(biāo)注集,利用CRF模型,以上下文詞形和蒙古文連寫的構(gòu)形附加成分作為特征,實驗結(jié)果表明,上下文作為特征的實驗組比附加成分作為特征的實驗組效果更好;李文等[11]將維吾爾語和蒙古語作為研究對象,介紹了基于最大后驗概率模型非監(jiān)督式形態(tài)切分方法,在非監(jiān)督式切分的基礎(chǔ)上,通過加入調(diào)參的方式,使模型更適用于特定的語言。實驗結(jié)果表明,雖然切分的準(zhǔn)確性提高了,但此方法只適合用于特定的語言,而且也有過渡切分的問題;姜文斌等[12]將維吾爾詞語的層次結(jié)構(gòu)引入到詞法分析研究中,提出了維吾爾詞法分析的有向圖模型,對于音系現(xiàn)象又提出了基于詞內(nèi)字母對齊算法的自動還原模型,其詞干提取的正確率達到了94.70%,但由于只根據(jù)從訓(xùn)練集中自動抽取的詞干表和詞綴作為當(dāng)前切分詞的遞歸窮舉可能的候選結(jié)構(gòu),因此導(dǎo)致過多的候選,而且只限制于詞干庫表和詞綴庫表;哈里旦木·阿布都克里木等[6]提出了基于語素序列的維吾爾語形態(tài)切分方法,將單詞切分成若干個語素(詞根和詞綴),從而緩解了數(shù)據(jù)稀疏問題。
條件隨機場(Conditional Random Field,CRF)[13]是一種無向圖模型,近年來已經(jīng)廣泛應(yīng)用到其他自然語言處理任務(wù)中,如分詞、詞性標(biāo)注、命名實體識別等。其結(jié)合了最大熵(MEM)和隱馬爾可夫(HMM)的特點,通過考慮上下文中標(biāo)簽之間的相關(guān)性來防止HMM和MEM中的有限特征選擇。除此之外,CRF可以通過全局特征歸一化的過程獲得全局最優(yōu),CRF鏈?zhǔn)浇Y(jié)果如圖1所示。
圖1 CRF鏈?zhǔn)浇Y(jié)構(gòu)
現(xiàn)給定可觀察序列W=w1w2…wn,與之相應(yīng)的標(biāo)記序列為Y=y1y2…yn,則條件概率定義如式(1)所示。
(1)
其中,fk為特征函數(shù),λk為參數(shù),Z(W)為規(guī)一化因子,使給定所有可能狀態(tài)序列的概率之和為1。而觀察序列需要搜索概率最大的Y*=arg maxp(Y|W)。
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),是一種通過隱藏層節(jié)點周期性的連接來獲得序列化數(shù)據(jù)中動態(tài)信息的神經(jīng)網(wǎng)絡(luò),可以對序列化的數(shù)據(jù)進行分類。但是,RNN對長跨度時間可能會有梯度消失或爆炸的問題。為了解決長距離依賴的問題,Hochreiter S等[14]提出了一種改進的循環(huán)神經(jīng)網(wǎng)絡(luò)——長短時記憶網(wǎng)絡(luò)(Long Short Term Memory Network,LSTM),LSTM可以選擇性忘記歷史信息以及更新存儲的信息,這將有效地解決RNN的梯度消失或爆炸問題,LSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 LSTM網(wǎng)絡(luò)結(jié)構(gòu)
LSTM單元由三個門(遺忘門、輸入門、輸出門)和一個細(xì)胞狀態(tài)組成,其結(jié)構(gòu)如圖3所示。
圖3 LSTM單元模型結(jié)構(gòu)
遺忘門決定歷史細(xì)胞狀態(tài)的保留信息,這由sigmoid函數(shù)來控制,它會根據(jù)上一時刻的輸出和當(dāng)前的輸入來產(chǎn)生一個0~1的ft值,來決定上一時刻學(xué)到的信息是否通過以及通過多少,計算如式(2)所示。
ft=σ(Wf·[ht-1,xt]+bf)
(2)
輸入門控制將新的信息中哪些部分保存到細(xì)胞狀態(tài)中,首先用sigmoid函數(shù)來決定哪些值用來更新,而用tanh函數(shù)來生成新的后選值,并將這兩部分生成的值進行結(jié)合并更新,計算如式(3)~式(5)所示。
決定輸出門控制全部更新后的細(xì)胞狀態(tài)中哪些部分被輸出,首先通過sigmoid函數(shù)得到初始的輸出,之后用tanh函數(shù)將Ct值映射到-1到1的區(qū)間,再通過初始輸出值逐對相乘,最終得到輸出,計算如式(6)、式(7)所示。
Bi-LSTM-CRF模型[15]是由Bi-LSTM和CRF模型結(jié)合的模型,從Bi-LSTM輸出的向量作為CRF模型的輸入值,Bi-LSTM-CRF模型不僅能保留Bi-LSTM上下文信息,而且能通過CRF層考慮前后的標(biāo)簽信息。Bi-LSTM-CRF網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 Bi-LSTM-CRF網(wǎng)絡(luò)結(jié)構(gòu)圖
(8)
維吾爾語中詞干和詞綴拼接時,一般在詞干或詞綴中會出現(xiàn)音系現(xiàn)象(弱化、增音、脫落等),這將嚴(yán)重影響切分準(zhǔn)確度,也成為了維吾爾語詞干提取過程中的難點。由圖5我們可以發(fā)現(xiàn),Bi-LSTM-CRF模型克服了LSTM模型只記錄上文信息、不考慮下文信息的缺點,將通過Bi-LSTM得到的兩個隱藏層單元輸出結(jié)果進行拼接,作為整體網(wǎng)絡(luò)隱藏層輸出,并將其輸出結(jié)果輸入到CRF層里,將維吾爾語詞干提取轉(zhuǎn)變成序列標(biāo)注的過程。
圖5 基于Bi-LSTM-CRF模型的維吾爾語詞干提取結(jié)構(gòu)
本文中我們考慮幾種候選特征作為特征集合,確定哪一個特征對詞干提取有較為顯著的影響,選取候選特征時,我們參考了文獻[16]提出的特征,分別為當(dāng)前字符的字符特征C(字符本身)、音類特征S(當(dāng)前字符為元音,則特征為V;當(dāng)前字符為輔音,則特征為C)和語音特征P1、P2、P3(當(dāng)前音類為元音時,則根據(jù)元音發(fā)音時橫向舌位、縱向舌位和展圓情況進行分類;當(dāng)前音類為輔音時,則根據(jù)發(fā)音時聲帶的振動情況、發(fā)音部位和發(fā)音方式進行分類)。
通過這種表示方法,將單詞根據(jù)標(biāo)注語料映射成由獨立標(biāo)記組成的功能塊,即可將詞干提取任務(wù)轉(zhuǎn)換成序列標(biāo)注問題。
目前為止,由于維吾爾語詞干提取公開的標(biāo)注數(shù)據(jù)集或語料庫還未見公開,因此本文將從天山網(wǎng)爬取新聞數(shù)據(jù),并進行人工校對和人工提取詞干(數(shù)據(jù)大小: 15萬),按詞長進行由長到短的排序,并選出其中最長的1萬個單詞進行預(yù)處理,采用交叉驗證法對標(biāo)記語料進行分割產(chǎn)生訓(xùn)練集、測試集和驗證集(分割比為0.75∶0.15∶0.1),語料具體統(tǒng)計如表1所示。
表1 語料統(tǒng)計表
標(biāo)記集在數(shù)據(jù)集中的分布統(tǒng)計如圖6所示。
LONG Jun-rui, SHAN Chan-juan, YANG Qun-di, LIU Xin-ying, WANG Jiu-sheng, MEI Chang-lin, XIONG Lin-ping
圖6 標(biāo)記集在數(shù)據(jù)集中的分布
數(shù)據(jù)集中最長的單詞長度、詞干長度、詞綴長度和最短的單詞長度、詞干長度、詞綴長度(由于數(shù)據(jù)是基于詞的,因此只考慮了字符特征)如表2所示。
表2 單詞、詞干、詞綴長度
數(shù)據(jù)集有以下特點:
① 包含的單詞、詞干和詞綴長度比較長;
② 包含較多的外來詞、不規(guī)則詞;
③ 以字符(維吾爾文字母)作為最小的分割單位;
④ 由無重復(fù)的維吾爾語單詞構(gòu)成,沒有上下文語言環(huán)境。
為了進一步驗證模型和特征對詞干提取的影響,在本節(jié)中分別設(shè)計不同模型、特征的對比實驗,尋找最適合詞干提取的模型和特征,確定最佳的提取效果。在實驗過程中,將使用F值(F1)作為評測指標(biāo),衡量詞干提取效果。
表3 神經(jīng)網(wǎng)絡(luò)超參數(shù)
3.2.1 不同模型的對比實驗
本組實驗中,將對CRF、LSTM、Bi-LSTM、LSTM-CRF和Bi-LSTM-CRF等模型分別做實驗對比,其實驗結(jié)果如表4所示。
表4 實驗結(jié)果(%)
(1) 從表中可見,Bi-LSTM-CRF模型的詞干提取明顯高于CRF、LSTM、Bi-LSTM和LSTM-CRF模型,F(xiàn)值分別提升了10.05、50.05、24.26、17.27個點。實驗結(jié)果說明,Bi-LSTM-CRF模型比其他模型更加準(zhǔn)確地識別了詞干和詞綴,而且也正確地切分了詞干和詞綴。
(2) LSTM-CRF模型和Bi-LSTM-CRF模型的識別效果都高于LSTM和Bi-LSTM,而且CRF模型也高于LSTM模型和Bi-LSTM,其實驗結(jié)果說明,采用序列標(biāo)注方法對維吾爾語進行詞干提取時,對提取結(jié)果是有一定的幫助的。
(3) LSTM模型和LSTM-CRF模型分別低于Bi-LSTM模型和Bi-LSTM-CRF模型,其原因可能是通過雙向的LSTM模型有效地考慮了上下文信息,并且對于單向的LSTM模型,雙向的具有一定的互補性,因此對形態(tài)復(fù)雜的維吾爾語進行詞干提取時,雙向的神經(jīng)網(wǎng)絡(luò)明顯優(yōu)越于單向的神經(jīng)網(wǎng)絡(luò)。
表5 維吾爾詞干提取實例分析
3.2.2 不同特征的對比實驗
在對比實驗(1)的基礎(chǔ)上將對CRF模型和Bi-LSTM-CRF模型引入手工提取的特征,如字符特征(C)、音類特征(S)、語音特征(P1,P2,P3)等(候選特征的輸入維度為30),實驗結(jié)果如表6所示。
(1) 當(dāng)Bi-LSTM-CRF模型不加候選特征的F值比CRF模型加特征的F值提高了8.2個點,說明不加特征的Bi-LSTM-CRF模型詞干提取的效果比加候選特征的CRF模型更好。
(2) 當(dāng)輸入所有候選特征、模型不同時,Bi-LSTM-CRF模型與CRF模型相比F值提升了9.33個點。
(3) 當(dāng)模型相同、輸入候選特征不同時,與不加特征的Bi-LSTM-CRF模型相比,F(xiàn)值分別提升了1.47、0.93、0.6和1.8個點,實驗結(jié)果說明,通過神經(jīng)網(wǎng)絡(luò)模型進一步提高詞干提取性能時,可以考慮加入候選特征。
表6 實驗結(jié)果(%)
(4) 有些候選特征對詞干提取影響不同,例如,特征C+S+P1+P2組合時,其F值最高,提升了1.8個點,但當(dāng)所有特征組合在一起時,其F值沒有比特征組C+S+P1+P2提升的高。(網(wǎng)絡(luò)模型參數(shù)參考表3)。
除此之外,通過分析實驗結(jié)果發(fā)現(xiàn)以下兩種情況對實驗結(jié)果的準(zhǔn)確率有較大的影響:
以上情況可能是由于在構(gòu)建語料庫中沒有考慮詞性特征或上下文語言環(huán)境所造成的。
本文將維吾爾語詞干提取看成序列標(biāo)注問題,以字符為切分粒度來表征維吾爾語的構(gòu)成機制,采用CRF、LSTM、Bi-LSTM、LSTM-CRF及Bi-LSTM-CRF模型對比維吾爾語詞干提取效果和處理過度切分、不切分和歧義切分的能力,并在此基礎(chǔ)上分析維吾爾語字符特點,引入字符特征、音類特征以及語音特征,對比幾個特征組對維吾爾語詞干提取影響。本文采用的基于Bi-LSTM-CRF模型在維吾爾語詞干提取上的取得了較好的效果。實驗結(jié)果表明:①Bi-LSTM-CRF模型能比較準(zhǔn)確地識別維吾爾語中詞干和詞綴,有效緩解過度切分、不切分和歧義切分等現(xiàn)象; ②本文引入的候選特征對維吾爾語的詞干提取是有效的,其特征集中特征組字符特征(C)、音類特征(S)以及部分語音特征(P1和P2)的提取效果最佳。
本文還有一些局限性,比如沒有研究詞干與詞綴連接時所出現(xiàn)的音系現(xiàn)象或詞干提取時還原原詞干(由于音系現(xiàn)象,詞干中的一些字母會發(fā)生變化)等問題。故在以后的研究中,考慮更多特征因素,通過改進模型來提高維吾爾語詞干提取的效果。