藏文字頻統(tǒng)計軟件的設(shè)計與實現(xiàn)

2016-04-11 15:00:37李苗苗高定國普次仁扎西倉覺

電腦知識與技術(shù) 2016年4期

李苗苗+高定國+普次仁+扎西倉覺

摘要：藏字的頻度統(tǒng)計是藏文信息處理技術(shù)領(lǐng)域的一項基礎(chǔ)研究，對藏文拼寫檢查、字典建立等應(yīng)用有著重要的意義。該文根據(jù)藏文音節(jié)的特性，結(jié)合Unicode藏文基本集的編碼特征，提出了計算機統(tǒng)計藏文字頻的方法，設(shè)計實現(xiàn)了藏文字頻統(tǒng)計軟件，并在藏文樣本語料中進行測試，證明了方法的正確性。

關(guān)鍵詞：藏文；字頻；統(tǒng)計

中圖分類號：TP391 文獻標識碼：A 文章編號：1009-3044（2016）04-0179-03

The Design and Implementation of Tibetan Word Frequency Statistics Software

LI Miao-miao， GAO Ding-guo， PU Tsering， TRASHI CangJue

（Tibetan Information Technology Engineering Research Center， Tibetan University， Lhasa 850000， China）

Abstract： Word frequency statistics，which has important significance to the Tibetan spell checking， Tibetan dictionary building and other suchlike applications ， is a basic research in the field of Tibetan information processing technology . According to the characteristics of Tibetan syllables， combined with the features of encoding of Unicode Tibetan basic set， we proposed a method to statistic Tibetan word with computer ，and implemented the software ，which has been tested in a sample corpus， and achieved satisfactory result.

Key words： Tibetan； word frequency； statistics

1 背景

藏文字符是一種拼音性文種，由輔音和元音構(gòu)成藏文的一個音節(jié)。藏文音節(jié)以一個輔音字母為核心，此輔音字母為基礎(chǔ)在其前后或上下疊加其他輔音或元音構(gòu)成一個完整的藏文音節(jié)（簡稱為藏字）[1]。

藏文字頻的統(tǒng)計對研究藏文信息處理技術(shù)有著重要的意義，據(jù)統(tǒng)計，符合現(xiàn)代藏文書寫文法規(guī)則的藏字共有19380個[1] ，這是靜態(tài)統(tǒng)計的結(jié)果，包含了所有符合藏文文法書寫規(guī)則的藏字，但實際上并不都具有實際的意義，在藏文文本中也不會用到?jīng)]有意義的藏字。為了更好的統(tǒng)計實際應(yīng)用的現(xiàn)代藏字的數(shù)量，就要借助于大規(guī)模語料進行動態(tài)統(tǒng)計。

本文在研究藏文文本結(jié)構(gòu)的基礎(chǔ)上，整理出藏文音節(jié)的分割符號，以這些符號為統(tǒng)計藏文音節(jié)的分割點，提出了統(tǒng)計藏文音節(jié)的方法，并用軟件實現(xiàn)了該方法，在藏文樣本語料中進行測試，證明了方法的正確性。

2 藏字字頻統(tǒng)計的方法

藏文是一種拼音型文字，一般一個音節(jié)表示一個字。在文本中，藏文的音節(jié)主要以‘□（0x0F0B）、‘□（0x0F0D）和一些特殊符號分隔開[8]，我們在統(tǒng)計時，逐個從文本中讀取字符，并將讀取的字符存入字符串中，當讀取的字符為0x0F0B或0x0F0D或其他特殊符號（比如數(shù)字）等時，表示一個音節(jié)讀取結(jié)束，此時字符串中保存的就是當前讀取到的音節(jié)。按照該方法掃描語料，每次取得一個音節(jié)，就將該音節(jié)的頻度加1，最終就可以得到一個藏文音節(jié)的頻度統(tǒng)計結(jié)果。

參照Unicode藏文字符編碼集[4-5]，共整理了91個藏文的分隔符、數(shù)字、特殊符號。表1是藏文的38個音節(jié)分隔符、標點符號，表2是藏文的33個特殊符號和特殊字符，表3是藏文的20個數(shù)字符號。這些符號出現(xiàn)在文本中時，雖不是直接的隔字符號，但在文本中仍起到分隔音節(jié)的作用，因此在軟件設(shè)計中也被當作音節(jié)分隔符進行處理。

3 藏文字頻統(tǒng)計軟件的設(shè)計

藏文字頻統(tǒng)計軟件按其功能分為輸入、統(tǒng)計、輸出三個模塊，如圖1所示。

3.1 輸入模塊

輸入模塊實現(xiàn)的功能是：由用戶通過直觀的界面選擇待統(tǒng)計的藏文語料的存放路徑和統(tǒng)計結(jié)果輸出的路徑。

輸入模塊的流程圖如圖2所示。

3.2 字頻統(tǒng)計模塊

3.2.1 字頻統(tǒng)計的方法

為了提高統(tǒng)計過程中的存取效率，采用散列表存儲音節(jié)及其頻度，音節(jié)作為關(guān)鍵字，頻度作為值。散列表是根據(jù)關(guān)鍵碼值（Key value）而直接進行訪問的數(shù)據(jù)結(jié)構(gòu)，它通過把關(guān)鍵碼值映射到表中一個位置來訪問記錄，從而加快查找的速度[2]。

統(tǒng)計時，每讀取到一個完整的音節(jié)，就將其存入散列表中。存入的方法如下[7]：

1）如果散列表中已存在以該音節(jié)為關(guān)鍵字的項，將該關(guān)鍵字對應(yīng)的值（頻度）加1；

2）如果散列表中不存在以該音節(jié)為關(guān)鍵字的項，則新建一個項，關(guān)鍵字為該音節(jié)，值（頻度）為1。

針對非藏文字符、藏文特殊字符的處理：

1）當前字符為非藏文字符，若字符串非空，首先將字符串中的音節(jié)頻度加1，然后跳過該字符，讀取下一個字符；

2）當前字符為藏文分隔符、數(shù)字、特殊符號，若字符串非空，首先將字符串中的音節(jié)頻度加1，然后，將當前讀取的特殊符號的頻度加1（這樣，統(tǒng)計的結(jié)果中包括了對分隔符、數(shù)字、特殊符號的統(tǒng)計），再讀取下一個字符。

字頻統(tǒng)計模塊的流程圖如圖3所示。

3.2.2 字頻統(tǒng)計主要偽代碼

字頻統(tǒng)計過程中最關(guān)鍵的部分是對非藏文編碼、藏文分隔符、特殊字符的處理，該部分偽代碼如下：

STATISTICS（）

1 while ch>0

2 String s = null

3 if （ch>0x0FFF）||（ch<0x0F00）

4 //當前字符為非藏文編碼

5 read next char

6 else if （ch is punc）

7 //ch為藏文的分隔符、數(shù)字、特殊符號

8 s+=ch；

9 read next char

10 else

11 s+=ch

12 while （ch<0x0FFF）&&（ch>0x0F00）&&（ch is not punc）

13 //當前字符不是非藏文編碼、不是分隔符、數(shù)字、特殊符號

14 s+=ch

15 read next char

16 if s！=null

17 s.frequency ++

18 //將s這個音節(jié)的頻度加1

3.3 輸出模塊

輸出模塊實現(xiàn)的功能：將統(tǒng)計的結(jié)果輸出到文本文檔中。由于采用的是散列表的數(shù)據(jù)結(jié)構(gòu)，輸出時，將散列表中每一項的關(guān)鍵字和值依次打印到指定的文檔中即可。

輸出模塊的流程圖如圖4所示。

4 結(jié)束語

藏文字頻統(tǒng)計軟件在3000個文本上進行測試，共統(tǒng)計出12848個藏字，其中對數(shù)字、特殊符號、黏著詞、錯別字等進行初步處理后，得出藏文常用字共8132個，經(jīng)測試證明本文提出的方法正確可行。

該軟件尚不能有效的識別藏文中的格助詞、黏著詞，對于這類詞，可以通過“統(tǒng)計+規(guī)則匹配”的方式進行識別[3，6]，下一步將在該功能上進行完善。

參考文獻：

[1] 高定國，龔育昌. 現(xiàn)代藏字全集的屬性研究[J]. 中文信息學報， 2005（1）.

[2] 高文利，朱麗. 哈希表在計算語言學中的運用[J]. 現(xiàn)代語文， 2009（4）.

[3] 關(guān)白，才科扎西. 現(xiàn)代藏文音節(jié)字自動校對研究[J]. 計算機工程與應(yīng)用， 2012（29）.

[4] The Unicode，Inc.The Unicode Standard，Version 8.0.[DB/OL]. （2015-06-17）.http：//www.unicode.org.

[5] 高定國，珠杰. 藏文信息處理的原理與應(yīng)用[M]. 成都：西南交通大學出版社， 2013： 65-82.

[6] 才智杰. 藏文自動分詞系統(tǒng)中緊縮詞的識別[J]. 中文信息學報， 2009（1）.

[7] 李蓉蓉，李鳴. 計算機信息處理的字表建立和字頻統(tǒng)計[J]. 南京冶金學院學報， 2005（1）.

[8] 扎西次仁. 《中華大藏經(jīng).丹珠爾》藏文對勘本字頻統(tǒng)計分析[J]. 中國藏學， 1997（2）.