尹宗鶴 尼瑪次仁 于 韜 擁 措
(1.西藏大學(xué)信息科學(xué)技術(shù)學(xué)院 拉薩 850000)(2.西藏大學(xué)藏文信息技術(shù)教育部工程研究中心 拉薩 850000)(3.西藏自治區(qū)藏文信息技術(shù)人工智能重點實驗室 拉薩 850000)
1999 年,扎西次仁設(shè)計一個人機互助的藏文分詞和詞登錄系統(tǒng),可以看作藏文分詞研究開始的標志[2];2003 年,陳玉忠等提出符合藏文特性的最佳分詞方案,旨在消除歧義切分和未登錄詞識別問題[3];2009 年,才智杰提出基于規(guī)則的“還原法”一定程度上解決了藏文分詞中的黏著詞問題[4];2011年,史曉東等移植漢語分詞系統(tǒng)SegTag 至藏文上,開發(fā)了基于HMM(隱馬爾科夫模型)的央金藏文分詞標注系統(tǒng)[5];同年,劉匯丹等實現(xiàn)了基于序列標注的藏文分詞[6];2015 年,李亞超等基于CRF,開發(fā)一個名為TIP-LAS 藏文分詞和詞性標注系統(tǒng)[7];2018 年,李博涵等分析和實驗各類RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))在藏文分詞上的表現(xiàn),開始了深度學(xué)習(xí)在藏文分詞中的運用[8];同年6 月,國標版《信息處理用藏文分詞規(guī)范》正式發(fā)布;2020 年,王莉莉等提出一種基于BiLSTM_CRF 的藏文分詞方法,提高了藏文分詞的準確率[9]。
現(xiàn)代藏文分詞主要有基于詞表、統(tǒng)計和神經(jīng)網(wǎng)絡(luò)的三種方法。其中,基于詞表的方法依賴于建立固定大小的詞表,不能處理未登錄詞是最大的局限;基于統(tǒng)計的分詞方法是伴隨SIGHAN 國際中文分詞評測比賽Bakeoff 的開展興起的,2003 年由Xue N W。使用最大熵算法實現(xiàn)由字構(gòu)詞模型,將分詞問題轉(zhuǎn)化為序列標注問題,用4-tags 標注法,給中文每個組成詞的漢字標記上不同的標簽,利用不同的詞位標簽對漢字進行詞邊界確定,從而達到分詞目的[10]。后來研究者將該方法運用到藏文分詞上,也得到不錯的效果。隨著深度學(xué)習(xí)的興起,許多神經(jīng)網(wǎng)絡(luò)模型隨之涌現(xiàn),神經(jīng)網(wǎng)絡(luò)在藏文自然語言處理領(lǐng)域蓬勃發(fā)展。
基于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型的藏文分詞算法不能夠有效地獲取藏文語句中的上下文信息,基于此問題,提出兩種改進方法:其一是使用以ALBERT 預(yù)訓(xùn)練語言模型獲取音節(jié)向量,使得模型能關(guān)注到藏文文本序列上下文的信息,增強模型的性能;其二是在藏文分詞模型中引入音節(jié)特征融合,相鄰音節(jié)之間進行拼接作為當前音節(jié)的輸入。本文提出的ASBC(ALBERT-Syllable-BiLSTM-CRF)藏文分詞模型,在保留BiLSTM-CRF 自身優(yōu)勢的同時,聯(lián)系更多的語義特征,使模型在藏文分詞中具有更好的表現(xiàn)。
本文提出的ASBC 藏文分詞模型總體流程如圖1所示。
圖1 ASBC藏文分詞模型圖
對于一個輸入序列,其經(jīng)過ALBERT Embedding 層先通過一個全連接層把token 映射到一個較小維度的向量空間,再通過一個全連接層把token映射到目標維度的向量空間,可以得到表示該序列的音節(jié)向量;進入到Syllable Fusion 層,對相鄰音節(jié)進行向量的拼接,通過音節(jié)拼接之后的每個向量輸入到模型中。
本文的Encoding 層用的是雙向長短時記憶模型,Decoding 層使用條件隨機場模型。對于每個輸入序列,首先經(jīng)過編碼后輸入到雙向長短時記憶中,BiLSTM Layer 有一個向前和一個向后的LSTM并行將對應(yīng)位置的輸出向量進行拼接,得到的輸出包含過去時刻和未來時刻的上下文信息,然后將其輸入到條件隨機場中,解碼發(fā)生在模型的預(yù)測階段,CRF Layer 統(tǒng)計每個音節(jié)在文本中對應(yīng)標簽的概率,通過給定的觀察序列預(yù)測音節(jié)對應(yīng)的狀態(tài)序列,最終有效地保存句子前后的標簽信息。
在氣溫比較低的情況下,輸液液體的溫度時常會影響輸液效果或輸液的舒適度,而通過輸液加熱模塊,把輸液液體進入病人體內(nèi)之前加熱,以達到正常的輸液效果。
藏文結(jié)構(gòu)復(fù)雜且語料稀少,傳統(tǒng)詞向量模型很難獲取高質(zhì)量的藏文音節(jié)向量,針對此問題,本文選用模型結(jié)構(gòu)更為復(fù)雜的ALBERT 預(yù)訓(xùn)練語言模型,該預(yù)訓(xùn)練語言模型由西藏自治區(qū)藏文信息技術(shù)人工智能重點實驗室提供,具體訓(xùn)練參數(shù)如表1所示。
表1 藏文ALBERT預(yù)訓(xùn)練語言模型訓(xùn)練參數(shù)
音節(jié)特征融合是指將相鄰的兩個音節(jié)特征融合成一個音節(jié)特征的過程。在一句話中,通常被認為距離越近的兩個音節(jié),其語義關(guān)聯(lián)性也越強,通過將音節(jié)特征融合可使神經(jīng)網(wǎng)絡(luò)提取到更多的輸入特征。音節(jié)特征融合具體步驟如下:
1)在藏文語句X=[x1,x2,…xi,…xn]的句尾添加符號
2)將每個音節(jié)和相鄰后一音節(jié)拼接成的雙音節(jié)作為當前音節(jié)的輸入。
3)使用unigram 和bigram 相結(jié)合,作為當前音節(jié)的輸入。
例如對于?????????????五個音節(jié)來說,其unigram表示為??、???、??、??、????;bigram 表示為????、?????、????、??????、????
在序列標注任務(wù)中,模型評估往往采用準確率(P)、召回率(R)、F1 值(F)作為評價指標。準確率表示檢索出來的文本與總文本的比值,用于反映系統(tǒng)的查找精準程度;召回率表示搜索到的相關(guān)文本和所有相關(guān)文本的比值,用于衡量模型的查全率;而綜合指標即綜合考慮二者的評估對模型的表現(xiàn)進行一個更全面的評估。具體定義如下:
本實驗基于Python 語言和pytorch 深度學(xué)習(xí)庫進行實現(xiàn),實驗數(shù)據(jù)主要包括第二屆少數(shù)民族語言分詞評測大賽(MLWS2021)提供的藏文語料和實驗室自建藏文語料,涉及新聞、小說、詩歌等多個主題,對數(shù)據(jù)的處理分別經(jīng)過編碼的調(diào)整、病句的處理、語句的去重,最終以現(xiàn)有分詞工具分詞,以《信息處理用藏文分詞規(guī)范》為標準,經(jīng)過人工校對,得到本實驗數(shù)據(jù)集共8.5萬句,將數(shù)據(jù)順序隨機打亂,取其中6.5 萬句作為訓(xùn)練集,測試集和驗證集分別為1萬句。
預(yù)訓(xùn)練語言模型的應(yīng)用,使得原本無法針對各種語境變化的靜態(tài)音節(jié)向量表征,向著真正基于語境的語義特征表示演進。為驗證ALBERT 預(yù)訓(xùn)練語言模型對整個分詞模型的有效性,分別在不同基線模型中加入ALBERT,表2 展示了LSTM-CRF 和BiLSTM-CRF 網(wǎng)絡(luò)在加入ALBERT 前后的實驗效果對比。
表2 加入ALBERT效果對比
由表2 可看出,加入Albert 預(yù)訓(xùn)練語言模型后的分詞效果得到了提升,其中基于LSTM-CRF的方法精確率、召回率和F 值分別提升了1.3%、1.8%和1.5%,基于BiLSTM-CRF 的方法精確率、召回率和F值分別提高了1.3%、1.1%和1.2%。
音節(jié)特征融合通過音節(jié)拼接使神經(jīng)網(wǎng)絡(luò)提取到更多的輸入特征,為驗證音節(jié)特征融合方法的有效性,仍以LSTM-CRF 和BiLSTM-CRF 網(wǎng)絡(luò)模型作為對比,實驗效果如表3所示。
表3 使用音節(jié)特征融合效果對比
由表3 可看出,使用音節(jié)特征融合后的分詞效果得到了提升,其中基于LSTM-CRF 的方法精確率、召回率和F 值分別提升了0.9%、1.3%和1.1%,基于BiLSTM-CRF 的方法精確率、召回率和F 值分別提高了1.1%、0.8%和1.0%。
以上實驗表明不論是ALBERT 預(yù)訓(xùn)練語言模型還是音節(jié)特征融合,都促使了藏文分詞效果的提升,為進一步提升分詞效果,將不同的方法進行融合,具體實驗結(jié)果如表4。
表4 使用ALBERT與音節(jié)特征融合效果對比
對比實驗結(jié)果發(fā)現(xiàn),當同時融入ALBERT預(yù)訓(xùn)練語言模型和音節(jié)特征融合時,分詞達到SOTA 效果。至此,足以證明本文提出的ASBC 模型在藏文分詞方面的優(yōu)秀表現(xiàn)。
在得到完整的ASBC 藏文分詞模型之后,為進一步保證分詞粒度的準確性,提升分詞的效果,在預(yù)處理部分加入了詞典,該詞典包含常見的藏文人名和地名總共20611 個,運用雙向最大匹配算法保證測試語料中專有名詞的完整性,實驗效果如表5所示。
表5 加入詞典效果對比
由表5 可看出,加入名詞詞典的分詞效果得到了提升,但提升效果不明顯,可能存在以下兩個原因:1)測試語料中包含的詞典中的人名地名較少;2)詞典的加入導(dǎo)致語料中專有名詞的粒度發(fā)生改變,對前后詞語標簽信息產(chǎn)生一定的影響。
1)BiLSTM-CRF:
????/????/????/???????/????????/??????/????/?????????????/?
2)BiLSTM-CRF(ALBERT):
????/????/????/?????????????????????/????/?????????????/?
3)BiLSTM-CRF(音節(jié)特征融合):
????/????/????/???????/??????????????/????/?????????/????/?
4)ASBC:
????/????/????/?????????????????????/????/?????????/????/?/
比較句子(???????????????????????????????????????????????????)的不同分詞效果,發(fā)現(xiàn)BiLSTM-CRF模型將句子粒度分得太細,ALBERT 或音節(jié)特征融合具有聯(lián)系上下文信息的特性,有助于詞粒度的準確判斷,二者結(jié)合使之效果達到最佳。
ALBERT的Embedding層通過字典將每個音節(jié)映射成音節(jié)向量,通過預(yù)訓(xùn)練捕捉語法和語義層面的信息,藏文預(yù)訓(xùn)練語言模型可幫助模型獲取藏文語句中的上下文信息及在目標中建立上下文相關(guān)的隱含特征聯(lián)系,輔助模型更好地鎖定目標音節(jié)的標簽;音節(jié)特征融合連接相鄰音節(jié)的語義特征,進一步提升模型獲取到更多特征信息的能力。實驗驗證了ALBERT 預(yù)訓(xùn)練語言模型和音節(jié)特征融合對于藏文分詞的有效性,將兩種方法同時融入BiLSTM-CRF模型中,提出表現(xiàn)能力較好的ASBC藏文分詞模型,最后將ASBC 模型加入人名地名詞典,藏文分詞效果得到進一步提升。
雖然本文提出的ASBC 模型在藏文分詞上具有較好表現(xiàn),但僅依賴神經(jīng)網(wǎng)絡(luò)大量訓(xùn)練語料來提升分詞效果性價比不高,分詞與詞性有著極強的關(guān)聯(lián)性,接下來將結(jié)合藏文詞性標注對藏文分詞展開進一步的研究。