拉毛杰 安見才讓
摘? 要: 詞性標注是自然語言處理的基礎研究,應用的領域十分廣泛?;谵D換的錯誤驅動學習詞性標注是一種基于規(guī)則的算法,但由于此算法占用大量的計算機資源進行規(guī)則的提取,從而造成算法本身偏慢的問題。文章在原有算法的基礎上,跳過那些對語料庫的標注不夠明顯的規(guī)則,尋找應用最好的轉換規(guī)則,使語料庫錯誤標注降到最低,從而達到標注的目的。
關鍵詞: 詞性標注; 基于轉換學習; 規(guī)則; 自然語言處理
中圖分類號:TP391.1? ? ? ? ? 文獻標志碼:A? ? ?文章編號:1006-8228(2019)12-28-02
Research on Tibetan part of speech tagging of conversion-based error-driven learning
La Maojie, Anjian Cairang
(School of Computer, Qinghai University for Nationalities, Xining, Qinghai 810007, China)
Abstract: Part-of-speech tagging is the basic research of natural language processing, and the field of application is very extensive. Conversion-based error-driven learning part-of-speech tagging is a rule-based algorithm, but the algorithm takes up a lot of computer resources to extract rules, the algorithm itself is slow. Based on the original algorithm, this paper skips the rules that are not obvious enough to mark the corpus, and finds the best conversion rules to minimize the corpus error labeling, thus achieving the purpose of labeling.
Key words: part of speech tagging; conversion-based learning; rule; natural language processing
0 引言
隨著社會信息化的日益增強,互聯網越來越成為人們日常生活中的一部分,人們可以越來越多的用自然語言同計算機交流。但是這有個前提,就是計算機能夠理解人類的自然語言,這是一個很富有挑戰(zhàn)性的問題。這樣的問題稱作自然語言處理問題,詞性標注作為這一領域淺層處理中最基礎最重要的技術對整個語言處理起著至關重要的作用[1]。
目前,不同的高?;蚩蒲袡C構在藏語詞性標注領域取得了很好的研究成果,但現階段還沒有公認的,規(guī)范的,統(tǒng)一的藏語詞性標記集[5-6]。所以,訓練集、測試集和初始標注器要基于相同的標記集,才會提高準確率。
1 轉換規(guī)則
基于調研發(fā)現,目前詞性標注的主流方法有三種, 分別是統(tǒng)計標注法、規(guī)則標注法以及兩者融合的綜合性標注方法[2]。轉換規(guī)則是基于轉換的錯誤驅動學習算法中最重要的兩部分之一,它的設計對最終的結果有很大的影響?;谵D換的錯誤驅動學習算法盡管由于學習每條規(guī)則時對整個語料進行遍歷,這樣在訓練時消耗大量的時間[4]。但是,這些經過學習得到的規(guī)則,只要把他們按照排好的序列逐個的應用到測試的語料庫中即可,方便快速。
一個轉換規(guī)則由兩部分構成:一個是改寫規(guī)則,另一個是激活環(huán)境。
例如:在藏語詞性標注中,一個改寫規(guī)則為:把詞w的詞性標注改為量詞q。激活環(huán)境:它的條件為如果w的左相鄰詞為名詞(nj,nd等名詞類),w的右相鄰為數詞。應用這個規(guī)則就把下面句子中???的錯誤標注nj糾正為q。
????/nj??/ca??/f??/cp???/nd????/nj?????/q???/ve?/w
糾正后:????/nj??/ca??/f??/cp???/nd????/q?????/q???/ve?/w
2 基于轉換的錯誤驅動學習的算法描述
(1) 首先用初始標注器對Craw進行標注,得到帶有詞性標注的語料C1;
(2) 把C1與正確的語料庫進行比較和學習,根據標注規(guī)則模板得到規(guī)則集R1;
(3) 應用R1的每個規(guī)則集rj(j=1,…,n)對C1中錯誤標注進行糾正得到新的語料C1j
(j=1,2,…,n);C1j跟正確的語料標注結果C0比較,可以得到C1j中總的詞性標注錯誤
數Ej(i=1,2,3,…,n);
(4) 選擇提高語料標注正確率最高(錯誤數最?。俗⒁?guī)則r,并加入到規(guī)則集R2;
(5) 用r標注語料庫C1形成新的標注語料庫C2;
(6) C1=C2,重復(2)—(5),直到不能發(fā)現新的并能提高語料標注正確率的規(guī)則;
當需要標注新的語料庫時,首先用一個標注器進行標注,然后按有序的規(guī)則集合R2的順序依次用相應的規(guī)則對上一次標注的語料進行標注,形成最后的標注語料庫。
標注使用的規(guī)則為:
如果W的左相鄰的詞為量詞,W的右相鄰詞為名詞,則把W的動詞標注改為形容詞標注[3]。
3 實驗分析
本文實驗的測試集為200k左右的語料,通過運行系統(tǒng),生成上下文規(guī)則集,通過學習和使用每一條規(guī)則,使得準確率提高8.51%,錯誤數降低了1272個。
在圖2的例子中,一共有四個候選的轉換規(guī)則(T1,T2,T3,T4)。首先用初始標注器對C0_raw進行詞性標注,得到C1,將C1和C0比較,共有2366個錯誤標注數;然后依次對C1使用轉換規(guī)則T1,T2,T3,T4,結果是T3使得錯誤數降得最低。因此,將T3作為學習到的第一條轉換規(guī)則記錄下來。然后對C13依次使用全部候選的轉換規(guī)則,這次是T2使得錯誤數降低得最多,因此,將T2作為學習到的第二條轉換規(guī)則記錄下來。然后對C22依次使用全部的轉換的候選規(guī)則,這次錯誤數沒有再降低,也就是說,沒有學到新的轉換規(guī)則,于是學習過程才停止。
4 結束語
本文在藏語詞性結構的深入研究的基礎之上,利用轉換的錯誤驅動方法對藏語進行詞性標注,使得詞性標注準確率不斷地提高和錯誤數不斷地降低。這對進一步處理藏語詞性標注的研究具有重要的意義。但本文還存在規(guī)則提取時間偏長,算法偏慢的問題,對此我們仍需不斷地優(yōu)化和改進算法,不斷地突破新技術,使得藏語詞性標注進一步研究和完善。
參考文獻(References):
[1] 俞士汶.計算語言學概論[M].商務印書館,2003.
[2] 羊毛卓么.基于HMM藏文詞性標注的研究[J].信息系統(tǒng)工程,2017.
[3] 劉穎.計算語言學[M].清華大學出版社,2014.
[4] 安見才讓.藏文信息處理原理與技術實現[M].青海民族出版社,2017.
[5] 完么才讓.安見才讓.藏語詞性標注[J].信息與電腦(理論版),2013.
[6] 洛桑嘎登.藏文自動分詞與詞性標注研究[D].中央民族大學,2016.