• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Bi-LSTM-CRF模型的維吾爾語詞干提取的研究

      2019-09-05 12:33:36古麗尼格爾阿不都外力吐爾根依布拉音卡哈爾江阿比的熱西提王路路
      中文信息學(xué)報 2019年8期
      關(guān)鍵詞:詞干維吾爾語詞綴

      古麗尼格爾·阿不都外力,吐爾根·依布拉音,卡哈爾江·阿比的熱西提,王路路

      (1. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊830046;2. 新疆大學(xué) 新疆多語種信息技術(shù)實驗室,新疆 烏魯木齊 830046)

      0 引言

      維吾爾語是典型的形態(tài)豐富的黏著語。黏著語種的單詞由詞干和詞綴組成,詞干主要表達詞的意義,而詞綴提供語法信息(所屬性,形態(tài),復(fù)數(shù))。作為維吾爾語自然語言處理中的基礎(chǔ)性研究,詞干提取的質(zhì)量會直接影響維吾爾語言處理的其他任務(wù),如詞性標(biāo)注、命名實體識別等[1]。除此之外,維吾爾語中詞干與詞綴相連接時,連接處由于結(jié)合的不規(guī)則性,會發(fā)生一系列的音系現(xiàn)象[2],這種音系現(xiàn)象對詞干提取帶來了一定的困難。

      維吾爾語自然語言處理技術(shù)還處于發(fā)展初期[3],目前維吾爾語中的詞干提取大致可以分成基于詞典/規(guī)則的方法[4]、基于統(tǒng)計的方法[5]和基于神經(jīng)網(wǎng)絡(luò)的方法[6]?;谠~典/規(guī)則的方法工作量較大,需要語言學(xué)家制定語言學(xué)規(guī)則并構(gòu)造限制條件。這種方法雖然結(jié)果更加準(zhǔn)確,但需要大量的語言學(xué)知識,受詞干提取詞典大小的限制,而且語言學(xué)規(guī)則只適用于常規(guī)詞形變換,缺乏全面性?;诮y(tǒng)計的方法是通過詞的分布統(tǒng)計規(guī)律進行詞干提取,能較好地處理OOV現(xiàn)象和一般構(gòu)詞規(guī)律構(gòu)成的詞形。基于統(tǒng)計學(xué)習(xí)的維吾爾語詞干提取研究雖然有了初步的成果,但需要人工選擇和提取特征,而且還存在著過度切分、不切分和歧義切分等問題?;谏窠?jīng)網(wǎng)絡(luò)的方法是一種特征學(xué)習(xí)的過程,通過后向傳播算法學(xué)習(xí)出最適合維吾爾語詞干提取模型的參數(shù)。此方法通過自動學(xué)習(xí)數(shù)據(jù)中的特征表示來緩解人工選擇和提取特征的過程中成本較大的問題,但仍然存在過度切分、不切分和歧義切分的問題。

      為了解決以上問題,本文提出了基于Bi-LSTM-CRF神經(jīng)網(wǎng)絡(luò)的維吾爾語詞干提取方法。該方法將采用BIO2標(biāo)記,引入字符特征、音類特征以及語音特征作為候選特征。為了進一步證明模型的有效性,本文將分兩組做實驗對比:

      (1) 將Bi-LSTM-CRF模型應(yīng)用到維吾爾語詞干提取上,并與CRF、LSTM、Bi-LSTM、LSTM-CRF模型做實驗對比,驗證Bi-LSTM-CRF模型能有效地解決詞干提取時出現(xiàn)的過度切分、不切分和歧義切分等情況;

      (2) 引入不同的候選特征,驗證當(dāng)逐步加入字符特征、音類特征以及部分語音特征組時,特征集對維吾爾語詞干提取質(zhì)量的影響。

      1 相關(guān)工作

      1.1 詞干提取

      除了維吾爾語,國內(nèi)少數(shù)民族語言中屬于黏著語的還有蒙古語、哈薩克語等。由于國內(nèi)少數(shù)民族語言的詞干提取技術(shù)發(fā)展得比較晚,因此基于詞典/規(guī)則相結(jié)合的方法比較多。史建國等[7]利用詞典和規(guī)則的方法對蒙古文進行詞切分,得到了性能較好的斯拉夫蒙古文詞切分系統(tǒng);李婧等[8]采用基于規(guī)則、字典查找和最大匹配相結(jié)合的方法對哈薩克語進行詞干提取,并提出了結(jié)合哈薩克語元音和諧規(guī)律、詞干詞性和詞尾綴接順序切分詞尾的方法,使得詞干提取正確率達95.26%;早克熱·卡德爾等[9]首先構(gòu)造了名詞的有限狀態(tài)自動機,并用最大熵模型給有限狀態(tài)自動機加入了歧義詞綴識別能力,建立了基于規(guī)則和信道噪聲模型的元音和諧處理方法。隨著統(tǒng)計學(xué)習(xí)模型在自然語言處理領(lǐng)域中的廣泛應(yīng)用,詞干提取也從傳統(tǒng)的方法逐步過渡到了統(tǒng)計的方法。賽迪亞古麗·艾尼瓦爾等[5]以N-gram為基準(zhǔn)模型,根據(jù)維吾爾語構(gòu)詞規(guī)律,提出了融合詞性特征和上下文詞干信息的維吾爾語詞干提取模型,由于語料庫規(guī)模較小,模型依賴于上下文特征和詞性特征,而且可能存在一些重復(fù)單詞等原因,當(dāng)語料庫規(guī)模逐漸增大時,模型準(zhǔn)確率提升較緩慢;那日松等[10]設(shè)計了兩組對比實驗,將蒙古文的分詞問題轉(zhuǎn)化為序列標(biāo)注問題,使用了四詞位標(biāo)注集,利用CRF模型,以上下文詞形和蒙古文連寫的構(gòu)形附加成分作為特征,實驗結(jié)果表明,上下文作為特征的實驗組比附加成分作為特征的實驗組效果更好;李文等[11]將維吾爾語和蒙古語作為研究對象,介紹了基于最大后驗概率模型非監(jiān)督式形態(tài)切分方法,在非監(jiān)督式切分的基礎(chǔ)上,通過加入調(diào)參的方式,使模型更適用于特定的語言。實驗結(jié)果表明,雖然切分的準(zhǔn)確性提高了,但此方法只適合用于特定的語言,而且也有過渡切分的問題;姜文斌等[12]將維吾爾詞語的層次結(jié)構(gòu)引入到詞法分析研究中,提出了維吾爾詞法分析的有向圖模型,對于音系現(xiàn)象又提出了基于詞內(nèi)字母對齊算法的自動還原模型,其詞干提取的正確率達到了94.70%,但由于只根據(jù)從訓(xùn)練集中自動抽取的詞干表和詞綴作為當(dāng)前切分詞的遞歸窮舉可能的候選結(jié)構(gòu),因此導(dǎo)致過多的候選,而且只限制于詞干庫表和詞綴庫表;哈里旦木·阿布都克里木等[6]提出了基于語素序列的維吾爾語形態(tài)切分方法,將單詞切分成若干個語素(詞根和詞綴),從而緩解了數(shù)據(jù)稀疏問題。

      1.2 CRF模型

      條件隨機場(Conditional Random Field,CRF)[13]是一種無向圖模型,近年來已經(jīng)廣泛應(yīng)用到其他自然語言處理任務(wù)中,如分詞、詞性標(biāo)注、命名實體識別等。其結(jié)合了最大熵(MEM)和隱馬爾可夫(HMM)的特點,通過考慮上下文中標(biāo)簽之間的相關(guān)性來防止HMM和MEM中的有限特征選擇。除此之外,CRF可以通過全局特征歸一化的過程獲得全局最優(yōu),CRF鏈?zhǔn)浇Y(jié)果如圖1所示。

      圖1 CRF鏈?zhǔn)浇Y(jié)構(gòu)

      現(xiàn)給定可觀察序列W=w1w2…wn,與之相應(yīng)的標(biāo)記序列為Y=y1y2…yn,則條件概率定義如式(1)所示。

      (1)

      其中,fk為特征函數(shù),λk為參數(shù),Z(W)為規(guī)一化因子,使給定所有可能狀態(tài)序列的概率之和為1。而觀察序列需要搜索概率最大的Y*=arg maxp(Y|W)。

      1.3 LSTM模型

      循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),是一種通過隱藏層節(jié)點周期性的連接來獲得序列化數(shù)據(jù)中動態(tài)信息的神經(jīng)網(wǎng)絡(luò),可以對序列化的數(shù)據(jù)進行分類。但是,RNN對長跨度時間可能會有梯度消失或爆炸的問題。為了解決長距離依賴的問題,Hochreiter S等[14]提出了一種改進的循環(huán)神經(jīng)網(wǎng)絡(luò)——長短時記憶網(wǎng)絡(luò)(Long Short Term Memory Network,LSTM),LSTM可以選擇性忘記歷史信息以及更新存儲的信息,這將有效地解決RNN的梯度消失或爆炸問題,LSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

      圖2 LSTM網(wǎng)絡(luò)結(jié)構(gòu)

      LSTM單元由三個門(遺忘門、輸入門、輸出門)和一個細(xì)胞狀態(tài)組成,其結(jié)構(gòu)如圖3所示。

      圖3 LSTM單元模型結(jié)構(gòu)

      遺忘門決定歷史細(xì)胞狀態(tài)的保留信息,這由sigmoid函數(shù)來控制,它會根據(jù)上一時刻的輸出和當(dāng)前的輸入來產(chǎn)生一個0~1的ft值,來決定上一時刻學(xué)到的信息是否通過以及通過多少,計算如式(2)所示。

      ft=σ(Wf·[ht-1,xt]+bf)

      (2)

      輸入門控制將新的信息中哪些部分保存到細(xì)胞狀態(tài)中,首先用sigmoid函數(shù)來決定哪些值用來更新,而用tanh函數(shù)來生成新的后選值,并將這兩部分生成的值進行結(jié)合并更新,計算如式(3)~式(5)所示。

      決定輸出門控制全部更新后的細(xì)胞狀態(tài)中哪些部分被輸出,首先通過sigmoid函數(shù)得到初始的輸出,之后用tanh函數(shù)將Ct值映射到-1到1的區(qū)間,再通過初始輸出值逐對相乘,最終得到輸出,計算如式(6)、式(7)所示。

      2 基于Bi-LSTM-CRF的維吾爾文詞干提取

      2.1 Bi-LSTM-CRF模型

      Bi-LSTM-CRF模型[15]是由Bi-LSTM和CRF模型結(jié)合的模型,從Bi-LSTM輸出的向量作為CRF模型的輸入值,Bi-LSTM-CRF模型不僅能保留Bi-LSTM上下文信息,而且能通過CRF層考慮前后的標(biāo)簽信息。Bi-LSTM-CRF網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

      圖4 Bi-LSTM-CRF網(wǎng)絡(luò)結(jié)構(gòu)圖

      (8)

      維吾爾語中詞干和詞綴拼接時,一般在詞干或詞綴中會出現(xiàn)音系現(xiàn)象(弱化、增音、脫落等),這將嚴(yán)重影響切分準(zhǔn)確度,也成為了維吾爾語詞干提取過程中的難點。由圖5我們可以發(fā)現(xiàn),Bi-LSTM-CRF模型克服了LSTM模型只記錄上文信息、不考慮下文信息的缺點,將通過Bi-LSTM得到的兩個隱藏層單元輸出結(jié)果進行拼接,作為整體網(wǎng)絡(luò)隱藏層輸出,并將其輸出結(jié)果輸入到CRF層里,將維吾爾語詞干提取轉(zhuǎn)變成序列標(biāo)注的過程。

      圖5 基于Bi-LSTM-CRF模型的維吾爾語詞干提取結(jié)構(gòu)

      2.2 特征選擇與標(biāo)記集

      本文中我們考慮幾種候選特征作為特征集合,確定哪一個特征對詞干提取有較為顯著的影響,選取候選特征時,我們參考了文獻[16]提出的特征,分別為當(dāng)前字符的字符特征C(字符本身)、音類特征S(當(dāng)前字符為元音,則特征為V;當(dāng)前字符為輔音,則特征為C)和語音特征P1、P2、P3(當(dāng)前音類為元音時,則根據(jù)元音發(fā)音時橫向舌位、縱向舌位和展圓情況進行分類;當(dāng)前音類為輔音時,則根據(jù)發(fā)音時聲帶的振動情況、發(fā)音部位和發(fā)音方式進行分類)。

      通過這種表示方法,將單詞根據(jù)標(biāo)注語料映射成由獨立標(biāo)記組成的功能塊,即可將詞干提取任務(wù)轉(zhuǎn)換成序列標(biāo)注問題。

      3 實驗數(shù)據(jù)與結(jié)果分析

      3.1 實驗數(shù)據(jù)

      目前為止,由于維吾爾語詞干提取公開的標(biāo)注數(shù)據(jù)集或語料庫還未見公開,因此本文將從天山網(wǎng)爬取新聞數(shù)據(jù),并進行人工校對和人工提取詞干(數(shù)據(jù)大小: 15萬),按詞長進行由長到短的排序,并選出其中最長的1萬個單詞進行預(yù)處理,采用交叉驗證法對標(biāo)記語料進行分割產(chǎn)生訓(xùn)練集、測試集和驗證集(分割比為0.75∶0.15∶0.1),語料具體統(tǒng)計如表1所示。

      表1 語料統(tǒng)計表

      標(biāo)記集在數(shù)據(jù)集中的分布統(tǒng)計如圖6所示。

      LONG Jun-rui, SHAN Chan-juan, YANG Qun-di, LIU Xin-ying, WANG Jiu-sheng, MEI Chang-lin, XIONG Lin-ping

      圖6 標(biāo)記集在數(shù)據(jù)集中的分布

      數(shù)據(jù)集中最長的單詞長度、詞干長度、詞綴長度和最短的單詞長度、詞干長度、詞綴長度(由于數(shù)據(jù)是基于詞的,因此只考慮了字符特征)如表2所示。

      表2 單詞、詞干、詞綴長度

      數(shù)據(jù)集有以下特點:

      ① 包含的單詞、詞干和詞綴長度比較長;

      ② 包含較多的外來詞、不規(guī)則詞;

      ③ 以字符(維吾爾文字母)作為最小的分割單位;

      ④ 由無重復(fù)的維吾爾語單詞構(gòu)成,沒有上下文語言環(huán)境。

      3.2 實驗設(shè)計與結(jié)果分析

      為了進一步驗證模型和特征對詞干提取的影響,在本節(jié)中分別設(shè)計不同模型、特征的對比實驗,尋找最適合詞干提取的模型和特征,確定最佳的提取效果。在實驗過程中,將使用F值(F1)作為評測指標(biāo),衡量詞干提取效果。

      表3 神經(jīng)網(wǎng)絡(luò)超參數(shù)

      3.2.1 不同模型的對比實驗

      本組實驗中,將對CRF、LSTM、Bi-LSTM、LSTM-CRF和Bi-LSTM-CRF等模型分別做實驗對比,其實驗結(jié)果如表4所示。

      表4 實驗結(jié)果(%)

      (1) 從表中可見,Bi-LSTM-CRF模型的詞干提取明顯高于CRF、LSTM、Bi-LSTM和LSTM-CRF模型,F(xiàn)值分別提升了10.05、50.05、24.26、17.27個點。實驗結(jié)果說明,Bi-LSTM-CRF模型比其他模型更加準(zhǔn)確地識別了詞干和詞綴,而且也正確地切分了詞干和詞綴。

      (2) LSTM-CRF模型和Bi-LSTM-CRF模型的識別效果都高于LSTM和Bi-LSTM,而且CRF模型也高于LSTM模型和Bi-LSTM,其實驗結(jié)果說明,采用序列標(biāo)注方法對維吾爾語進行詞干提取時,對提取結(jié)果是有一定的幫助的。

      (3) LSTM模型和LSTM-CRF模型分別低于Bi-LSTM模型和Bi-LSTM-CRF模型,其原因可能是通過雙向的LSTM模型有效地考慮了上下文信息,并且對于單向的LSTM模型,雙向的具有一定的互補性,因此對形態(tài)復(fù)雜的維吾爾語進行詞干提取時,雙向的神經(jīng)網(wǎng)絡(luò)明顯優(yōu)越于單向的神經(jīng)網(wǎng)絡(luò)。

      表5 維吾爾詞干提取實例分析

      3.2.2 不同特征的對比實驗

      在對比實驗(1)的基礎(chǔ)上將對CRF模型和Bi-LSTM-CRF模型引入手工提取的特征,如字符特征(C)、音類特征(S)、語音特征(P1,P2,P3)等(候選特征的輸入維度為30),實驗結(jié)果如表6所示。

      (1) 當(dāng)Bi-LSTM-CRF模型不加候選特征的F值比CRF模型加特征的F值提高了8.2個點,說明不加特征的Bi-LSTM-CRF模型詞干提取的效果比加候選特征的CRF模型更好。

      (2) 當(dāng)輸入所有候選特征、模型不同時,Bi-LSTM-CRF模型與CRF模型相比F值提升了9.33個點。

      (3) 當(dāng)模型相同、輸入候選特征不同時,與不加特征的Bi-LSTM-CRF模型相比,F(xiàn)值分別提升了1.47、0.93、0.6和1.8個點,實驗結(jié)果說明,通過神經(jīng)網(wǎng)絡(luò)模型進一步提高詞干提取性能時,可以考慮加入候選特征。

      表6 實驗結(jié)果(%)

      (4) 有些候選特征對詞干提取影響不同,例如,特征C+S+P1+P2組合時,其F值最高,提升了1.8個點,但當(dāng)所有特征組合在一起時,其F值沒有比特征組C+S+P1+P2提升的高。(網(wǎng)絡(luò)模型參數(shù)參考表3)。

      除此之外,通過分析實驗結(jié)果發(fā)現(xiàn)以下兩種情況對實驗結(jié)果的準(zhǔn)確率有較大的影響:

      以上情況可能是由于在構(gòu)建語料庫中沒有考慮詞性特征或上下文語言環(huán)境所造成的。

      4 結(jié)論

      本文將維吾爾語詞干提取看成序列標(biāo)注問題,以字符為切分粒度來表征維吾爾語的構(gòu)成機制,采用CRF、LSTM、Bi-LSTM、LSTM-CRF及Bi-LSTM-CRF模型對比維吾爾語詞干提取效果和處理過度切分、不切分和歧義切分的能力,并在此基礎(chǔ)上分析維吾爾語字符特點,引入字符特征、音類特征以及語音特征,對比幾個特征組對維吾爾語詞干提取影響。本文采用的基于Bi-LSTM-CRF模型在維吾爾語詞干提取上的取得了較好的效果。實驗結(jié)果表明:①Bi-LSTM-CRF模型能比較準(zhǔn)確地識別維吾爾語中詞干和詞綴,有效緩解過度切分、不切分和歧義切分等現(xiàn)象; ②本文引入的候選特征對維吾爾語的詞干提取是有效的,其特征集中特征組字符特征(C)、音類特征(S)以及部分語音特征(P1和P2)的提取效果最佳。

      本文還有一些局限性,比如沒有研究詞干與詞綴連接時所出現(xiàn)的音系現(xiàn)象或詞干提取時還原原詞干(由于音系現(xiàn)象,詞干中的一些字母會發(fā)生變化)等問題。故在以后的研究中,考慮更多特征因素,通過改進模型來提高維吾爾語詞干提取的效果。

      猜你喜歡
      詞干維吾爾語詞綴
      從網(wǎng)絡(luò)語“X精”看“精”的類詞綴化
      論柯爾克孜語詞干提取方法
      維吾爾語詞綴變體搭配規(guī)則研究及算法實現(xiàn)
      釋西夏語詞綴wji2
      西夏研究(2017年1期)2017-07-10 08:16:55
      統(tǒng)計與規(guī)則相結(jié)合的維吾爾語人名識別方法
      維吾爾語話題的韻律表現(xiàn)
      維吾爾語詞重音的形式判斷
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      融合多策略的維吾爾語詞干提取方法
      基于維吾爾語詞干詞綴粒度的漢維機器翻譯
      現(xiàn)代維吾爾語中“-0wat-”的進行體特征
      語言與翻譯(2014年3期)2014-07-12 10:32:09
      敦化市| 嵊州市| 榆林市| 古田县| 呼伦贝尔市| 佛山市| 宜章县| 庆元县| 秀山| 桦南县| 紫阳县| 南安市| 屏边| 修武县| 射洪县| 庆安县| 宁明县| 拉孜县| 山西省| 唐河县| 略阳县| 襄樊市| 栾川县| 将乐县| 西昌市| 吉木萨尔县| 武鸣县| 桂阳县| 舞阳县| 六安市| 修水县| 尉氏县| 静安区| 太仓市| 旌德县| 德化县| 宜良县| 广元市| 百色市| 敖汉旗| 特克斯县|