劉芳 關(guān)白
摘要:藏文文本的自動校對是藏文信息處理的主要應(yīng)用領(lǐng)域之一,現(xiàn)代藏文詞的自動校對是其中重要的關(guān)鍵技術(shù)之一。本文根據(jù)藏文詞錯誤的類型,分別提出了對應(yīng)的校對方法。對非詞錯誤,采用分詞切分和散串匹配處理方法。對于真詞錯誤,主要檢查詞的二元接續(xù)關(guān)系和詞性鄰接關(guān)系,均取得了較好的校對效果。
關(guān)鍵詞:藏文文本;自動校對;非詞;真詞
中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)19-0200-02
Research for Modern Tibetan Word Automatic Proofreading Method
LIU Fang, GUAN Bai
(Tibetan Information Technology Research Center in Tibet University, Lasa 850000, China)
Abstract Tibetan text automatic proofreading is one of the main application fields of Tibetan information processing. Modern Tibetan word automatic proofreading is one of the important key technologies. This paper makes proofreading methods based on different types of Tibetan word error. Non word error proofreading could be done by word segmentation and string matching processing. True word error proofreading could be done by checking the binary relationship of words connection and adjacency relationship of words. Results of both proofreading methods are good.
Key words: Tibetan Text, Automatic Proofreading, Non Word, True Word
隨著藏區(qū)經(jīng)濟(jì)和網(wǎng)絡(luò)技術(shù)的發(fā)展,藏文信息處理技術(shù)得到了很大的發(fā)展,藏民族文化的傳播和發(fā)展也更迅速、手段更現(xiàn)代化。
文本自動校對是較復(fù)雜的語言處理過程,也是自然語言處理的重要研究領(lǐng)域之一。目前,對于英語、漢語的文本自動校對方法很多,所取得的研究成果也應(yīng)用在了較多的領(lǐng)域。從目前的研究現(xiàn)狀來看,針對藏文文本的自動校對技術(shù)的研究文獻(xiàn)還不太多,對藏文化的快速傳播和發(fā)展帶來了一定的影響。
藏文文本的自動校對技術(shù)除了應(yīng)用在藏文字的手寫識別和語音識別等方面,在藏文拼寫檢查、自動分詞、語料庫制作等領(lǐng)域也有著很廣泛的應(yīng)用[1]。因此,藏文詞的自動校對技術(shù)研究有很高的現(xiàn)實意義和實用價值。
目前,藏文文本的校對主要是基于語法、語義分析的方法[2]。該方法需要建立大量語料的詞庫、字符續(xù)接關(guān)系表、語法規(guī)則庫等。校對過程中需要將原始文本與詞庫和各種語法表進(jìn)行比對,然后將疑似錯誤的地方標(biāo)注出來。
本文主要針對現(xiàn)代藏文中出現(xiàn)的常見詞錯誤,分別對非詞和真詞的偵錯和糾錯提出了自動校對的方法。
1現(xiàn)代藏文詞的常見錯誤類型
1.1 非詞錯誤
1.2 真詞錯誤
2 現(xiàn)代藏文詞校對的功能設(shè)計
要對詞進(jìn)行校對首先要對待校文本進(jìn)行分詞處理,一個好的分詞算法對文本校對的最終結(jié)果起著舉足輕重的作用,分詞的正確率的高低直接影響到校對質(zhì)量的高低。
如上圖所以,我們采用BCCF算法對待校文本進(jìn)行分詞。BCCF算法首先用單垂線或雙垂線(
3 非詞錯誤自動校對
由于此前已完成的音節(jié)字的校對,因此此時的文本中不會再有非詞音節(jié)字。但在一些文本中,某一些真詞音節(jié)字組合在一起時,形成的藏文詞并非現(xiàn)代藏文中的真詞,而是一個非詞錯誤。非詞錯誤會使我們在對待校文本進(jìn)行自動分詞時,切分后的文本中連續(xù)出現(xiàn)較多的單字詞或無法成詞的多個音節(jié)字,也就是所謂的散串。因此,散串的定位與處理便成為非詞錯誤偵錯的關(guān)鍵。
對非詞錯誤將采用的校對方案如下:
1)對待校對藏文文本進(jìn)行分詞,得到分詞結(jié)果S=W1W2…Wn;
2)根據(jù)分詞結(jié)果,定位不成詞的音節(jié)字串或散串Wi;
3)將散串與詞的混淆集進(jìn)行最大逆向匹配,查詢是否有與WiWi+1…Wi+m字串完全匹配的,如果有,這個散串是錯誤的,從混淆集中得到與其對應(yīng)的正確的詞;
4)若匹配不成功則采用最小編輯距離法,對該散串進(jìn)行糾錯。
4 真詞錯誤自動校對
真詞錯誤指的是現(xiàn)代藏文中有這樣的詞,但不是當(dāng)前語境中所需要的詞,它會導(dǎo)致該詞與上下文搭配不當(dāng),因此也把它稱之為上下文相關(guān)的文本錯誤[4]。
對于真詞錯誤我們將采用詞的二元接續(xù)關(guān)系和詞性鄰接關(guān)系檢查進(jìn)行偵錯。
詞的二元接續(xù)關(guān)系是指有前后順序的詞之間的相鄰關(guān)系[5]。二元接續(xù)關(guān)系是指在考察詞W1W2…Wi-1WiWi+1…Wn中Wi和相鄰詞間的相鄰關(guān)系時,根據(jù)語料庫語言學(xué)中的二元模型理論,只須考察詞Wi-1和Wi以及Wi和Wi+1之間的關(guān)系即可[5]。經(jīng)過對大規(guī)模語料的分析處理,如果發(fā)現(xiàn)從Wi-1到Wi的轉(zhuǎn)移概率P(Wi/Wi-1)滿足一定的閾值限制,我們即認(rèn)為Wi-1和Wi接續(xù)[4]。在自動查錯過程中,若要考察Wi是否出錯,首先檢查Wi-1和Wi是否接續(xù),如果不接續(xù),這時再檢查Wi和Wi+1的接續(xù)關(guān)系(即檢查從Wi到Wi+1的轉(zhuǎn)移概率P(Wi+1/Wi))[6],如果Wi和Wi+1也不接續(xù),則判定的詞Wi出錯。
完成偵錯后,便采用詞的混淆集對其進(jìn)行糾錯,若該音節(jié)字無法通過混淆集糾錯,則采用最小編輯距離法為該非詞錯誤找可能的正確的候選詞,并對這些候選進(jìn)行排序,糾錯時以第一候選音節(jié)字加以改正。
5 現(xiàn)代藏文詞的自動校對實例說明
6 結(jié)束語
現(xiàn)代藏文詞的自動校對是在完成藏文音節(jié)字的自動校對以后進(jìn)行的。本文根據(jù)現(xiàn)代藏文詞中的非詞和真詞分別提出了對應(yīng)的自動校對方法??偨Y(jié)來看,在現(xiàn)代藏文詞的自動校對中,針對其錯誤類型需要建立專門的字詞混淆集,偵測到疑似錯誤的詞時,首先采用此混淆集對其進(jìn)行糾錯。無法用混淆集對其進(jìn)行糾錯的則采用最小編輯距離法對其進(jìn)行糾錯。
參考文獻(xiàn):
[1] 關(guān)白,才科扎西.現(xiàn)代藏文音節(jié)字自動校對研究[J].計算機(jī)工程與應(yīng)用,2012(29):151-156.
[2] 才讓卓瑪,才智杰.藏文文本自動校對系統(tǒng)開發(fā)研究[J].西北民族大學(xué)學(xué)報:自然科學(xué)版,2009(1):25-28.
[3] 珠杰,李天瑞,劉勝久.藏文文本自動校對方法及系統(tǒng)設(shè)計[J].北京大學(xué)學(xué)報:自然科學(xué)版,2014(1):142-148.
[4] 普布旦增,關(guān)白.基于統(tǒng)計的藏文音節(jié)字校對系統(tǒng)開發(fā)研究[J].西藏大學(xué)學(xué)報:自然科學(xué)版,2015(1):74-78.
[5] 張仰森,丁冰青.基于二元接續(xù)關(guān)系檢查的字詞級自動查錯方法[J].中文信息學(xué)報,2001(3):36-43.
[6] 于志恒.基于筆形相似的文本校對算法及其接口原型系統(tǒng)的研究[D].東北師范大學(xué),2007.