更桑吉 安見(jiàn)才讓
摘? 要: 通過(guò)對(duì)藏文的字形特征、拼寫(xiě)規(guī)律,以及文法規(guī)則的分析和研究,實(shí)現(xiàn)藏文詞語(yǔ)的實(shí)時(shí)檢錯(cuò)。借助形式語(yǔ)言有限狀態(tài)自動(dòng)機(jī)的方法,對(duì)藏文字結(jié)構(gòu)中的基字、前加字、上加字、下加字、后加字、再后加字之間的搭配規(guī)則設(shè)計(jì)了狀態(tài)圖和鄰接矩陣。該方法提高了藏文文本質(zhì)量,使原本復(fù)雜的書(shū)面語(yǔ)法規(guī)則變得簡(jiǎn)單直觀,從而使符合現(xiàn)代藏文音節(jié)組織結(jié)構(gòu)的詞語(yǔ)能實(shí)時(shí)檢錯(cuò)。該研究為實(shí)現(xiàn)藏文的自動(dòng)校對(duì)提供了基礎(chǔ)。
關(guān)鍵詞: 藏文; 文法規(guī)則; 有限狀態(tài)自動(dòng)機(jī); 校對(duì)
中圖分類(lèi)號(hào):TP391.1????????? 文獻(xiàn)標(biāo)識(shí)碼:A???? 文章編號(hào):1006-8228(2021)01-65-03
Research on Tibetan syllable organization using finite state automata
Geng Sangji, Anjian Cairang
(School of computer, Qinghai University for Nationalities, Xining, Qinghai 810007, China)
Abstract: By analyzing and studying the characteristics of Tibetan character, the spelling rule and grammar rule, the real-time error detection of Tibetan words is realized. With the help of finite state automata of formal language, this paper designs the state diagram and adjacency matrix for the matching rules among the basic characters, prefix letters, superfixed letters, subjoined letters, suffixed letters and up-adding characters in the Tibetan character structure. This method improves the quality of Tibetan text, makes the complex original written grammar rules simple and intuitive, so that the words in line with the modern Tibetan syllable organization structure can be error detected in real time. This research provides a basis for the realization of Tibetan automatic proofreading.
Key words: Tibetan; grammar rules; finite state automata; proofreading
0 引言
隨著藏區(qū)人民對(duì)信息數(shù)字化需求的提高,學(xué)習(xí)和利用信息數(shù)字化的技術(shù)手段來(lái)記載和傳承民族文字顯得非常重要,而人工智能領(lǐng)域?qū)Σ卣Z(yǔ)信息研究發(fā)展有著不可忽略的重要性。通過(guò)研究藏文音節(jié)和字形結(jié)構(gòu)[1-2],判斷基字所在位置、特殊音節(jié)的處理等步驟解決藏文構(gòu)件元素的識(shí)別[3];基于規(guī)則和CNN模型、基字定位等方法實(shí)現(xiàn)檢錯(cuò)[4-6],這些方法都各有利弊,因此本研究提出基于有限狀態(tài)自動(dòng)機(jī)的藏文音節(jié)組織結(jié)構(gòu)的研究方法處理檢錯(cuò)。
研究藏文或文本校對(duì)的主要對(duì)象是語(yǔ)言單位,在藏語(yǔ)言中最小的語(yǔ)言單位是字母,其次是音節(jié),音節(jié)由字母組成。而字形是字的形狀和結(jié)構(gòu),藏文字形以一個(gè)輔音字母為核心其余字母以此為基礎(chǔ)前后附加和上下疊加組合成一個(gè)字的結(jié)構(gòu),因此人們都說(shuō)藏文是由字母組合而成的一種拼音文字。藏文字母包括30個(gè)輔音字母和四個(gè)元音字母,藏文的音節(jié)分為七個(gè)構(gòu)件,核心的輔音字符稱(chēng)為基字,其余的字符按照相對(duì)于基字的位置來(lái)分別命名,加在基字前面的稱(chēng)為前加字,基字的上方和下方的分別稱(chēng)為上加字和下加字,基字后面的稱(chēng)為后加字和再后加字,元音位置在基字的上或下、上下加字的上方或下方[7]。藏文音節(jié)的組合形式比較多樣化,但是總體的組合規(guī)則相對(duì)固定,藏文音節(jié)可以只包含一個(gè)輔音字母,也可以包含多個(gè)輔音字母(最多六個(gè)),由此可知藏文音節(jié)中基字是必不可少的一個(gè)構(gòu)件,其他位置的構(gòu)件都可以空缺。
1 藏文字形結(jié)構(gòu)特點(diǎn)
藏文音節(jié)的組織結(jié)構(gòu)或書(shū)寫(xiě)順序是前加字、上加字、基字、下加字、元音、后加字和再后加字七種構(gòu)件組成,藏文的一個(gè)音節(jié)最多可包含七個(gè)構(gòu)件,每一種構(gòu)件都有它不可代替代的作用和功能。藏文字是按照從左至右的順序進(jìn)行書(shū)寫(xiě),因此它不僅具有線性結(jié)構(gòu)(橫向拼寫(xiě)性)同時(shí)也具有疊加結(jié)構(gòu)(縱向拼寫(xiě)性)的一種復(fù)雜文字,其中基字所在的水平方向上由前加字、基字、后加字、再后加字的橫向拼寫(xiě),基字所在的豎直方向上由上加字、基字、下加字和元音的縱向拼寫(xiě),如圖1-圖4所示。
本研究的依據(jù)或前提條件須滿(mǎn)足以下條件:
⑴ 藏文音節(jié)中所有音節(jié)的組合形式必須滿(mǎn)足現(xiàn)代藏文音節(jié)的結(jié)構(gòu);
⑵ 藏文音節(jié)結(jié)構(gòu)中所有構(gòu)件的組合要符合藏文拼寫(xiě)規(guī)律或組合規(guī)則。
2 藏文音節(jié)組合的語(yǔ)法規(guī)則
2.1 基字與前加字
2.2 基字與上加字
上加字有三個(gè)(?????),不同的上加字做上置輔音時(shí)的基字不相同,組合規(guī)則如表2所示。
2.3 基字與下加字
下加字有四個(gè)(? ? ? ? ),不同的下加字做下置輔音時(shí)的基字也不同,組合規(guī)則如表3所示。
2.4 基字與后加字
后加字有十個(gè)(???????????????????)與基字的組合規(guī)則如表4。
后加字與基字之間的組合規(guī)則不像其他組合規(guī)則,它沒(méi)有明確一一對(duì)應(yīng)的組合規(guī)則。
2.5 后加字與再后加字
再后加字是與后加字組合的,再后加字有兩個(gè)(???),與后加字的組合規(guī)則如表5。
3 基于有限狀態(tài)自動(dòng)機(jī)的規(guī)則表示
3.1 狀態(tài)圖
有限狀態(tài)自動(dòng)機(jī)也稱(chēng)為有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò),通常采用狀態(tài)圖表示,圖中的每一個(gè)結(jié)點(diǎn)表示不同的狀態(tài),其中一個(gè)圓圈(○)的代表開(kāi)始狀態(tài),雙圓圈(◎)的代表終止?fàn)顟B(tài)即結(jié)束標(biāo)志,狀態(tài)之間用有方向的弧線鏈接表示轉(zhuǎn)移狀態(tài),弧線上的標(biāo)記表示轉(zhuǎn)移的條件,也可看作是輸入符號(hào),轉(zhuǎn)移也可以是無(wú)條件的,即標(biāo)記為空字符(N)。從狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)的起始狀態(tài)開(kāi)始出發(fā),根據(jù)弧線上的條件決定向哪一個(gè)狀態(tài)轉(zhuǎn)移,這個(gè)過(guò)程一直持續(xù)下去,直到當(dāng)前狀態(tài)是終止?fàn)顟B(tài)(雙圓圈結(jié)點(diǎn)),則狀態(tài)過(guò)程可以結(jié)束[8-9],如圖5所示。
3.2 鄰接矩陣
鄰接矩陣是表示頂點(diǎn)之間相鄰關(guān)系的矩陣,用一個(gè)二位數(shù)組存放頂點(diǎn)之間關(guān)系(弧)的數(shù)據(jù),鄰接矩陣分為有向圖鄰接矩陣和無(wú)向圖鄰接矩陣。
有向圖鄰接矩陣的特點(diǎn)是,矩陣中第i行非零元素的個(gè)數(shù)為第i個(gè)頂點(diǎn)的出度(下一個(gè)狀態(tài)),第i列非零元素的個(gè)數(shù)為第i個(gè)頂點(diǎn)的入度(開(kāi)始狀態(tài)),直至遇到雙圓圈的頂點(diǎn)時(shí)結(jié)束,用鄰接矩陣表示圖,很容易確定圖中任意兩個(gè)頂點(diǎn)之間是否有邊(?。┫噙B,如表6所示。
4 實(shí)驗(yàn)分析
藏文音節(jié)組織結(jié)構(gòu)的檢錯(cuò)研究在精度方面已經(jīng)達(dá)到一定的程度,本文主要在檢錯(cuò)速度上做研究。選用900個(gè)常用的藏文詞語(yǔ)對(duì)此方法進(jìn)行測(cè)試,符合現(xiàn)代藏文音節(jié)組織結(jié)構(gòu)的詞語(yǔ)能達(dá)到實(shí)時(shí)的檢錯(cuò)速度,以下是檢錯(cuò)的流程。
選()字做實(shí)例講解,鄰接矩陣最左邊的列為狀態(tài),最上面的行為?。ㄞD(zhuǎn)移條件)。
⑴ 首先從S0開(kāi)始,S0的下一個(gè)狀態(tài)有六個(gè),分別是S1、S2、S3、S4、S5、S6本實(shí)驗(yàn)所選例子第一個(gè)字母是(?)也是第一個(gè)轉(zhuǎn)移條件,尋找行為S0,列為S3。
⑵ 列S3做下一個(gè)開(kāi)始狀態(tài)變?yōu)樾蠸3,下一個(gè)狀態(tài)有四個(gè),分別是S15、S16、S17、S18第二個(gè)轉(zhuǎn)移條件是上加字(?),行為S3,列為S17。
⑶ 以此類(lèi)推最后一個(gè)轉(zhuǎn)移條件是再后加字(?),行為S119,列為S131,雙圓圈結(jié)束。
5 結(jié)束語(yǔ)
音節(jié)是構(gòu)成藏文字最基本的單位,也是文本校對(duì)的依據(jù)點(diǎn),藏文音節(jié)具有獨(dú)特的構(gòu)造方法,根據(jù)不同的組合方法構(gòu)成了千變?nèi)f化的現(xiàn)代藏文,本文以音節(jié)為研究對(duì)象,借助語(yǔ)法規(guī)則描述和分析了音節(jié)結(jié)構(gòu),組成成分及組合規(guī)則,采用有限狀態(tài)自動(dòng)機(jī)的方法對(duì)藏文音節(jié)的傳統(tǒng)搭配規(guī)則設(shè)計(jì)了狀態(tài)圖和鄰接矩陣,這不僅起到減小人、物力資源的作用,同時(shí)提高了文本質(zhì)量和工作效率,而且書(shū)面語(yǔ)法規(guī)則變得更加簡(jiǎn)單直觀,使得文本校對(duì)技術(shù)不斷的提高,這對(duì)進(jìn)一步處理藏文文本校對(duì)的研究具有重要的意義。但該方法還存在圖形復(fù)雜,鄰接矩陣偏長(zhǎng)的問(wèn)題,這在未來(lái)工作中仍需不斷優(yōu)化和改進(jìn),不斷突破新技術(shù)使得文本校對(duì)在精度和速度上得到進(jìn)一步改善。
參考文獻(xiàn)(References):
[1] 陳小瑩.現(xiàn)代藏文音節(jié)結(jié)構(gòu)分析研究[J].智能計(jì)算機(jī)與應(yīng)用,2019.9(2).
[2] 才智杰,才讓卓瑪.藏文字形結(jié)構(gòu)分布研究[J].中文信息學(xué)報(bào),2016.30(4).
[3] 邊巴旺堆,卓嘎,陳延利,武強(qiáng).藏文構(gòu)件元素識(shí)別算法研究[J].中文信息學(xué)報(bào),2014.28(3).
[4] 王文玲,王雙成.藏文基字定位實(shí)現(xiàn)方法與過(guò)程[J].中國(guó)藏學(xué),2019.4.
[5] 才讓叁智,關(guān)白.基于規(guī)則的現(xiàn)代藏文音節(jié)字檢錯(cuò)研究[J].西藏大學(xué)學(xué)報(bào)(自然科學(xué)版),2017.1.
[6] 色差甲,貢保才讓?zhuān)抛尲?藏文音節(jié)拼寫(xiě)檢查的CNN模型[J].中文信息學(xué)報(bào),2019.33(1).
[7] 毛爾蓋·桑木旦.藏文語(yǔ)法明悅[M].青海民族出版社,2005.[8] 俞士汶.計(jì)算語(yǔ)言學(xué)概論[M].商務(wù)印書(shū)館,2003.
[9] 安見(jiàn)才讓.藏文信息處理原理與技術(shù)實(shí)現(xiàn)[M].青海民族出版社,2017.
收稿日期:2020-09-02
基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(61862054); 青海省應(yīng)用基礎(chǔ)研究項(xiàng)目(2019-ZJ-7066)
作者簡(jiǎn)介:更桑吉(1994-),女,藏族,青海同德人,碩士研究生,主要研究方向:藏文信息處理及應(yīng)用。
通訊作者:安見(jiàn)才讓?zhuān)?969-),男,藏族,青海西寧人,教授,主要研究方向:藏文信息處理及應(yīng)用。