完么扎西,尼瑪扎西
(1. 青海師范大學民族師范學院,青海 海南 813000;2. 西藏大學現(xiàn)代教育技術(shù)中心,西藏 拉薩 850000)
近幾年來,眾多專家和學者不但對藏語自動分詞算法進行了大量的研究,而且取得了顯著的成果。文獻[1]在提出用格助詞分塊思想的同時,提出了未登錄詞的識別方法,緊縮詞的識別和處理方法,其中緊縮詞的識別和處理方法是基于語法結(jié)構(gòu)的識別和處理方法;文獻[2]不僅在文獻[1]的基礎(chǔ)上進一步提出了用八個格助詞分塊的思想,而且首次提出了緊縮詞的識別和處理方法,即“還原法”;文獻[3]提出了人名音譯未登錄詞的識別和處理方法;文獻[4]提出了切分與格框架、標注一體化的藏語三級切分體系;文獻[5]在文獻[2]和[3]的基礎(chǔ)上進一步提出了格助詞分塊和臨界詞識別方法,同時也提出了歧義檢測和消歧的方法;文獻[6]提出了藏文數(shù)字組合的方法。
以上文獻中提到的方法對藏語自動分詞的準確率和切分速度有了很大的提高,但同時也存在一些不足。針對這些不足,本文以傳統(tǒng)藏文文法[7-8]和現(xiàn)代藏文文法[9-11]為理論依據(jù),采用最大正向匹配算法和Viterbi算法,構(gòu)建了基于規(guī)則和統(tǒng)計相結(jié)合的藏語自動分詞及詞性標注一體化的系統(tǒng),重點做到了以下幾個方面: 一、按照藏文添接法和詞的前后詞性關(guān)系進行組合的方法處理未登錄詞;二、構(gòu)建特殊詞表,用詞的前后詞性關(guān)系,提出了“排除-還原”的方法識別緊縮詞,且提高緊縮詞識別的準確率;三、根據(jù)“詞性規(guī)則法”消除歧義;四、用規(guī)則和統(tǒng)計相結(jié)合的方法,提高詞性標注的準確率。下面將對未登錄詞、緊縮詞和歧義等問題的處理方法做具體分析。
圖1 藏語自動分詞及詞性標注一體化流程圖
未登錄詞是指分詞詞典中不存在,但符合構(gòu)成藏文音節(jié)規(guī)則的單音節(jié)詞或多音節(jié)詞,和以及不一定符合構(gòu)成藏文音節(jié)規(guī)則的音譯詞。
(1) 符合藏文音節(jié)構(gòu)成規(guī)則的詞
藏語言中存在大量的具有一定構(gòu)詞規(guī)則的詞。這些詞的總構(gòu)詞方法分為音的構(gòu)詞法()和意的構(gòu)詞法()兩種,其中音的構(gòu)詞法又分為同性原則()、同音原則()和方便原則()三種,其中:
? 同音原則是指不論字性一致與否,后接成分的基字與前一音節(jié)的后加字是同一個字,或者后接成分的基字與前一音節(jié)的基字是同一個字,或者發(fā)音完全相同的進行組合。
? 方便原則是指按約定俗成的習慣添接法添接的。
(2) 音譯詞
(3) 數(shù)詞
藏語言中數(shù)詞分為基數(shù)詞、序數(shù)詞、總數(shù)詞、倍數(shù)詞、分數(shù)詞和概數(shù)詞等,其中:
(6)加強政策宣講和業(yè)務(wù)培訓。財政專項的最終執(zhí)行者是項目負責人,由于專業(yè)的關(guān)系,很多項目負責人對專項資金及財務(wù)的相關(guān)政策和規(guī)定都不是很了解,高校相關(guān)職能部門應(yīng)通過各種渠道,加強專項資金管理辦法和財務(wù)報銷規(guī)范的宣傳培訓,提高項目負責人的執(zhí)行意識,認識到按照預算進度完成項目支出的重要性和必要性。
讀入句子(不一定是完整的句子);
if(S為未登錄詞){
if(S在音譯詞表中){
if(S的下一個詞在音譯詞表中){
continue;
}else 進行切分;
} else if(S的前一個詞是動詞){
}else if(S的前一個詞是基數(shù)詞){
} else { 不組合。}
}else 處理其他;
(1) 緊縮詞的概念
(2) 縮寫詞的種類
(3) 緊縮詞的識別
識別以上三種情況中的緊縮詞時,“還原法”基本上能正確地識別,但是緊縮詞的前面部分為登錄詞而且需要添加、有再后加字的音節(jié)為未登錄詞的情況、上述第三種情況中的緊縮詞和為末尾的音譯詞等進行識別時,會出現(xiàn)錯誤的結(jié)果,例如,①“”和②“”這兩句為例, 因為①中緊縮詞的前部分(近處或旁邊)是登錄詞,②中的(gao)是音譯詞,所以“還原法”切分的結(jié)果為①“”和②“”,顯然這兩個結(jié)果都是錯的。如果的添加法“”(意思是后加字只能添加在單字(是指三十個字母)后面。)應(yīng)用到程序設(shè)計中,完全可以避免①的錯誤,因為中的是單字,所以必須要添加,然后再進行切分。以為末尾的音譯詞,的前面部分可能是未登錄詞,也可能是登錄詞,在很難識別是否為緊縮詞時,可以根據(jù)音譯詞表和詞的前后詞性關(guān)系,識別是否為緊縮詞,除此之外未能找到一個合理的識別方法。因此有待于研究。
讀入句子(不一定是完整的句子);
若S為未登錄詞;則
切分S;
}
if(S′在詞典中) 切分S′;
else S′是未登錄詞;
}
else{
切分S-1;
}
}
若S為未登錄詞;
else if(S在構(gòu)建詞表中){
if(S的下一個詞是自主動詞或不自主動詞或判斷詞或名詞){
if(S′在詞典中) 切分S′;
else S′是未登錄詞
}else{
切分S-1;
}
}else 切分S;
}else{
if(S′在詞典中) 切分S′;
else 切分S-1;
}else{
切分S-1;
}
}
歧義是自然語言中普遍存在的,藏語言中也不例外。它不僅是藏語自動分詞的難點,而且成為影響藏語自動分詞準確率的因素之一。目前對這個問題的研究除了文獻[5]和[12]外很少,與漢語歧義問題的研究相比很落后。歧義的定義和檢測歧義的方法與漢語完全相同,這里不再重述。
藏語歧義同樣分為兩類,即交集型歧義和組合型歧義。
(1) 交集型歧義
(2)組合型歧義
上述理論知識應(yīng)用到程序設(shè)計中,通過大量實驗搜集了以下幾種屬于交集型歧義的字段,并提出了“詞性規(guī)則法”,其方法是: 首先采用文獻[5]的方法檢測具有歧義的字段,其次通過該字段中各詞的詞性來判斷該字段屬于哪一類,最后用如下六個規(guī)則消除歧義。
本文以文學類、詩歌類、醫(yī)學類和新聞類等大小1M的語料上進行測試。統(tǒng)計文中的未登錄詞、緊縮詞和交集型歧義等出現(xiàn)的次數(shù)并通過準確率計算公式(準確率=(正確識別的總次數(shù)/測試文本中出現(xiàn)的總次數(shù))*100%)計算未登錄詞、緊縮詞和交集型歧義等的識別準確率,其實驗結(jié)果如圖二所示。
測試文本中出現(xiàn)的總次數(shù)/次正確識別的總次數(shù)/次準確率/%未登錄詞8997898399.84緊縮詞4040403899.95交集型歧義56451992.02圖2 識別準確率
通過實驗也發(fā)現(xiàn)“重組法”和“詞性規(guī)則法”只能識別部分未登錄詞和交集型歧義。因此,下一步的工作重點將解決如何提高無法用構(gòu)詞規(guī)則進行組合的未登錄詞的識別率和如何改進消除交集型歧義的方法。
[1] 陳玉忠,李保利,俞士汶. 藏文自動分詞系統(tǒng)的設(shè)計與實現(xiàn)[J].中文信息學報, 2003,17(03):15-20.
[2] 才智杰.藏文自動分詞系統(tǒng)中緊縮詞的識別[J].中文信息學報, 2009,23(01):35-37.
[3] 才智杰,才讓卓瑪.藏文自動分詞系統(tǒng)的設(shè)計[J]. 計算機工程與科學,2011,33(5): 151-154.
[4] 祁坤鈺.信息處理用藏文自動分詞研究[J].西北民族大學學報(哲學社會科學版), 2006,26(04):92-97.
[5] 劉匯丹,諾明花,趙維納,等. SegT: 一個實用的藏文分詞系統(tǒng)[J]. 中文信息學報, 2012, 26(1):97-103.
[6] Huidan Liu, Weina Zhao, Minghua Nuo, et al. Tibetan Number Identification Based on Classification of Number Components in Tibetan Word Segmentation[C]//Proceedings of the 23rd International Conference on Computational Linguistics (Posters Volume) (Coling 2010),2010:719-724.
[7] 噶瑪司都.司都文法詳解[M].西寧: 青海民族出版社,2003.
[8] 色多五世羅桑崔臣嘉措.藏文文法根本頌色多氏大疏[M].蘭州: 甘肅人名出版社,1981.
[9] 吉太加. 現(xiàn)代藏文語法通論[M].蘭州: 甘肅民族出版社,2000.
[10] 馬進武. 藏語語法四種結(jié)構(gòu)明晰[M].北京: 民族出版社,2008.
[11] 格桑央京等.實用藏文文法教程[M].成都: 四川民族出版社,2004.
[12] Yuan Sun, Xiaodong Yan, Xiaobing Zhao, et al. A resolution of overlapping ambiguity in Tibetan word segmentation[C]//Proceedings of the 3rd International Conference on Computer Science and Information Technology, 2010: 222-225.