• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      藏文字頻統(tǒng)計軟件的設(shè)計與實現(xiàn)

      2016-04-11 15:00:37李苗苗高定國普次仁扎西倉覺
      電腦知識與技術(shù) 2016年4期
      關(guān)鍵詞:藏文統(tǒng)計

      李苗苗+高定國+普次仁+扎西倉覺

      摘要:藏字的頻度統(tǒng)計是藏文信息處理技術(shù)領(lǐng)域的一項基礎(chǔ)研究,對藏文拼寫檢查、字典建立等應(yīng)用有著重要的意義。該文根據(jù)藏文音節(jié)的特性,結(jié)合Unicode藏文基本集的編碼特征,提出了計算機統(tǒng)計藏文字頻的方法,設(shè)計實現(xiàn)了藏文字頻統(tǒng)計軟件,并在藏文樣本語料中進行測試,證明了方法的正確性。

      關(guān)鍵詞:藏文;字頻;統(tǒng)計

      中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2016)04-0179-03

      The Design and Implementation of Tibetan Word Frequency Statistics Software

      LI Miao-miao, GAO Ding-guo, PU Tsering, TRASHI CangJue

      (Tibetan Information Technology Engineering Research Center, Tibetan University, Lhasa 850000, China)

      Abstract: Word frequency statistics,which has important significance to the Tibetan spell checking, Tibetan dictionary building and other suchlike applications , is a basic research in the field of Tibetan information processing technology . According to the characteristics of Tibetan syllables, combined with the features of encoding of Unicode Tibetan basic set, we proposed a method to statistic Tibetan word with computer ,and implemented the software ,which has been tested in a sample corpus, and achieved satisfactory result.

      Key words: Tibetan; word frequency; statistics

      1 背景

      藏文字符是一種拼音性文種,由輔音和元音構(gòu)成藏文的一個音節(jié)。藏文音節(jié)以一個輔音字母為核心,此輔音字母為基礎(chǔ)在其前后或上下疊加其他輔音或元音構(gòu)成一個完整的藏文音節(jié)(簡稱為藏字)[1]。

      藏文字頻的統(tǒng)計對研究藏文信息處理技術(shù)有著重要的意義,據(jù)統(tǒng)計,符合現(xiàn)代藏文書寫文法規(guī)則的藏字共有19380個[1] ,這是靜態(tài)統(tǒng)計的結(jié)果,包含了所有符合藏文文法書寫規(guī)則的藏字,但實際上并不都具有實際的意義,在藏文文本中也不會用到?jīng)]有意義的藏字。為了更好的統(tǒng)計實際應(yīng)用的現(xiàn)代藏字的數(shù)量,就要借助于大規(guī)模語料進行動態(tài)統(tǒng)計。

      本文在研究藏文文本結(jié)構(gòu)的基礎(chǔ)上,整理出藏文音節(jié)的分割符號,以這些符號為統(tǒng)計藏文音節(jié)的分割點,提出了統(tǒng)計藏文音節(jié)的方法,并用軟件實現(xiàn)了該方法,在藏文樣本語料中進行測試,證明了方法的正確性。

      2 藏字字頻統(tǒng)計的方法

      藏文是一種拼音型文字,一般一個音節(jié)表示一個字。在文本中,藏文的音節(jié)主要以‘□(0x0F0B)、‘□(0x0F0D)和一些特殊符號分隔開[8],我們在統(tǒng)計時,逐個從文本中讀取字符,并將讀取的字符存入字符串中,當讀取的字符為0x0F0B或0x0F0D或其他特殊符號(比如數(shù)字)等時,表示一個音節(jié)讀取結(jié)束,此時字符串中保存的就是當前讀取到的音節(jié)。按照該方法掃描語料,每次取得一個音節(jié),就將該音節(jié)的頻度加1,最終就可以得到一個藏文音節(jié)的頻度統(tǒng)計結(jié)果。

      參照Unicode藏文字符編碼集[4-5],共整理了91個藏文的分隔符、數(shù)字、特殊符號。表1是藏文的38個音節(jié)分隔符、標點符號,表2是藏文的33個特殊符號和特殊字符,表3是藏文的20個數(shù)字符號。這些符號出現(xiàn)在文本中時,雖不是直接的隔字符號,但在文本中仍起到分隔音節(jié)的作用,因此在軟件設(shè)計中也被當作音節(jié)分隔符進行處理。

      3 藏文字頻統(tǒng)計軟件的設(shè)計

      藏文字頻統(tǒng)計軟件按其功能分為輸入、統(tǒng)計、輸出三個模塊,如圖1所示。

      3.1 輸入模塊

      輸入模塊實現(xiàn)的功能是:由用戶通過直觀的界面選擇待統(tǒng)計的藏文語料的存放路徑和統(tǒng)計結(jié)果輸出的路徑。

      輸入模塊的流程圖如圖2所示。

      3.2 字頻統(tǒng)計模塊

      3.2.1 字頻統(tǒng)計的方法

      為了提高統(tǒng)計過程中的存取效率,采用散列表存儲音節(jié)及其頻度,音節(jié)作為關(guān)鍵字,頻度作為值。散列表是根據(jù)關(guān)鍵碼值(Key value)而直接進行訪問的數(shù)據(jù)結(jié)構(gòu),它通過把關(guān)鍵碼值映射到表中一個位置來訪問記錄,從而加快查找的速度[2]。

      統(tǒng)計時,每讀取到一個完整的音節(jié),就將其存入散列表中。存入的方法如下[7]:

      1)如果散列表中已存在以該音節(jié)為關(guān)鍵字的項,將該關(guān)鍵字對應(yīng)的值(頻度)加1;

      2)如果散列表中不存在以該音節(jié)為關(guān)鍵字的項,則新建一個項,關(guān)鍵字為該音節(jié),值(頻度)為1。

      針對非藏文字符、藏文特殊字符的處理:

      1)當前字符為非藏文字符,若字符串非空,首先將字符串中的音節(jié)頻度加1,然后跳過該字符,讀取下一個字符;

      2)當前字符為藏文分隔符、數(shù)字、特殊符號,若字符串非空,首先將字符串中的音節(jié)頻度加1,然后,將當前讀取的特殊符號的頻度加1(這樣,統(tǒng)計的結(jié)果中包括了對分隔符、數(shù)字、特殊符號的統(tǒng)計),再讀取下一個字符。

      字頻統(tǒng)計模塊的流程圖如圖3所示。

      3.2.2 字頻統(tǒng)計主要偽代碼

      字頻統(tǒng)計過程中最關(guān)鍵的部分是對非藏文編碼、藏文分隔符、特殊字符的處理,該部分偽代碼如下:

      STATISTICS()

      1 while ch>0

      2 String s = null

      3 if (ch>0x0FFF)||(ch<0x0F00)

      4 //當前字符為非藏文編碼

      5 read next char

      6 else if (ch is punc)

      7 //ch為藏文的分隔符、數(shù)字、特殊符號

      8 s+=ch;

      9 read next char

      10 else

      11 s+=ch

      12 while (ch<0x0FFF)&&(ch>0x0F00)&&(ch is not punc)

      13 //當前字符不是非藏文編碼、不是分隔符、數(shù)字、特殊符號

      14 s+=ch

      15 read next char

      16 if s!=null

      17 s.frequency ++

      18 //將s這個音節(jié)的頻度加1

      3.3 輸出模塊

      輸出模塊實現(xiàn)的功能:將統(tǒng)計的結(jié)果輸出到文本文檔中。由于采用的是散列表的數(shù)據(jù)結(jié)構(gòu),輸出時,將散列表中每一項的關(guān)鍵字和值依次打印到指定的文檔中即可。

      輸出模塊的流程圖如圖4所示。

      4 結(jié)束語

      藏文字頻統(tǒng)計軟件在3000個文本上進行測試,共統(tǒng)計出12848個藏字,其中對數(shù)字、特殊符號、黏著詞、錯別字等進行初步處理后,得出藏文常用字共8132個,經(jīng)測試證明本文提出的方法正確可行。

      該軟件尚不能有效的識別藏文中的格助詞、黏著詞,對于這類詞,可以通過“統(tǒng)計+規(guī)則匹配”的方式進行識別[3,6],下一步將在該功能上進行完善。

      參考文獻:

      [1] 高定國, 龔育昌. 現(xiàn)代藏字全集的屬性研究[J]. 中文信息學報, 2005(1).

      [2] 高文利, 朱麗. 哈希表在計算語言學中的運用[J]. 現(xiàn)代語文, 2009(4).

      [3] 關(guān)白, 才科扎西. 現(xiàn)代藏文音節(jié)字自動校對研究[J]. 計算機工程與應(yīng)用, 2012(29).

      [4] The Unicode,Inc.The Unicode Standard,Version 8.0.[DB/OL]. (2015-06-17).http://www.unicode.org.

      [5] 高定國, 珠杰. 藏文信息處理的原理與應(yīng)用[M]. 成都: 西南交通大學出版社, 2013: 65-82.

      [6] 才智杰. 藏文自動分詞系統(tǒng)中緊縮詞的識別[J]. 中文信息學報, 2009(1).

      [7] 李蓉蓉, 李鳴. 計算機信息處理的字表建立和字頻統(tǒng)計[J]. 南京冶金學院學報, 2005(1).

      [8] 扎西次仁. 《中華大藏經(jīng).丹珠爾》藏文對勘本字頻統(tǒng)計分析[J]. 中國藏學, 1997(2).

      猜你喜歡
      藏文統(tǒng)計
      敦煌本藏文算書九九表再探
      西藏研究(2021年1期)2021-06-09 08:09:38
      西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
      布達拉(2020年3期)2020-04-13 10:00:07
      黑水城和額濟納出土藏文文獻簡介
      西夏學(2019年1期)2019-02-10 06:22:34
      基于條件隨機場的藏文人名識別研究
      藏文音節(jié)字的頻次統(tǒng)計
      2008—2015我國健美操科研論文的統(tǒng)計與分析
      人間(2016年27期)2016-11-11 17:33:19
      山東省交通運輸投資計劃管理信息系統(tǒng)的設(shè)計
      我國居民收入與消費關(guān)系的統(tǒng)計分析
      市場經(jīng)濟背景下的會計統(tǒng)計發(fā)展探究
      商(2016年27期)2016-10-17 05:50:19
      現(xiàn)代語境下的藏文報刊
      新聞傳播(2016年17期)2016-07-19 10:12:05
      武安市| 井研县| 浦北县| 静安区| 虎林市| 合川市| 安国市| 长岛县| 贵州省| 乌拉特前旗| 宁蒗| 驻马店市| 龙海市| 嘉鱼县| 新河县| 内乡县| 江西省| 韶关市| 抚州市| 襄城县| 江源县| 朝阳市| 建瓯市| 铅山县| 招远市| 盈江县| 从江县| 德保县| 锡林郭勒盟| 云阳县| 宾阳县| 凌海市| 宜兰市| 城口县| 巩留县| 田阳县| 涿鹿县| 类乌齐县| 台山市| 舟曲县| 恩平市|