• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    藏文(含梵文)字丁自動(dòng)識別方法研究

    2015-08-28 03:11:30完么才讓
    卷宗 2015年8期
    關(guān)鍵詞:藏文元音字符

    完么才讓

    摘 要:本文以《ISO/IEC 10646藏文編碼字符集 基本集》為參考,把其中除標(biāo)點(diǎn)符號外的字符歸類到字母集、主字集和元音集三個(gè)集合,再將測試文本中的藏文字符與三個(gè)集合逐一匹配的方法,準(zhǔn)確識別(本文所講識別,非OCR圖形識別)出藏文字丁。

    關(guān)鍵詞:ISO/IEC 10646;音節(jié);字?。蛔R別

    藏文字丁的準(zhǔn)確識別是字丁頻率、信息熵計(jì)算的前提,也是音節(jié)分類的基礎(chǔ),更是藏文識別必不可少的環(huán)節(jié)。收錄至中國知網(wǎng)的關(guān)于藏文字丁的幾篇論文都未談及藏文字丁的自動(dòng)識別方法,本文從一下三個(gè)方面詳細(xì)講解藏文(含梵文)字丁的自動(dòng)識別方法。

    1 字母集、主字集和元音集

    把藏文unicode字符集中除標(biāo)點(diǎn)符號等特殊字符外的其他字符分成字母集、主字集和元音集三個(gè)集合,分別用英文標(biāo)記letter_set、main_char_set和vowels_set表示,則

    letter_set集合中的字符都無上加字,即字符上下均無main_char_set和vowels_set集合所示的空心圓圈,這類字符在實(shí)際文本中多作為字母出現(xiàn),故將這類字符收錄到字母集中。相應(yīng)地,main_char_set集合所含字符大都上有空心圈,結(jié)合時(shí),附著在前一個(gè)字符的下面,把具有這個(gè)特征的字符收集到主字集中。vowels_set集合中的字符都下附空心圓圈,表名這類字符在具體文本中充當(dāng)元音,應(yīng)收集到元音集中。這三個(gè)集合是字丁識別的前提,以下內(nèi)容中用L、M和V分別代表letter_set、main_char_set和vowels_set,Li、Mi和Vi表示對應(yīng)集合中的任意元素。

    2 藏文字丁的基本分類

    藏文字丁可分為六大類型,分別為:

    所有藏文字丁可歸類到以上六種類型。

    3 識別方法

    在有了集合的劃分和字丁的基本分類后,即可依據(jù)如下所描述的方法識別出藏文字丁。假設(shè)字符串變量Ttext存放待測試的藏文文本,字符串變量WR表示字丁。根據(jù)字符串變量的性質(zhì),Ttext[i](i=0,1,2,…,Ttext->Length)表示文本的第i個(gè)字符,則

    (1)取出第0個(gè)字符Ttext[0],放至WR,再判斷Ttext[1]屬于集合letter_set、main_char_set還是vowels_set。

    如果Ttext[1] letter_set,說明Ttext[1]是字母,則Ttext[0]單獨(dú)構(gòu)成一個(gè)字丁WR,相當(dāng)于第二節(jié)的第1類字丁,轉(zhuǎn)到步驟(4);如果Ttext[1] vowels_set,說明Ttext[1]是元音,則Ttext[0]+Ttext[1]的組合構(gòu)成新的WR,等于第二節(jié)中的第2類字丁,轉(zhuǎn)到步驟(4)。如果Ttext[1] main_char_set,則轉(zhuǎn)到步驟(2)。

    (2)判斷Ttext[2]是字母、主字還是元音。若是字母,則由Ttext[0]+Ttext[1]構(gòu)成的新字丁WR即一個(gè)字丁,相當(dāng)于第二節(jié)的第3類字丁,轉(zhuǎn)到步驟(4);若為元音,則Ttext[0]+Ttext[1]+Ttext[2]為一個(gè)字丁,即第二節(jié)的第4類字丁,轉(zhuǎn)到步驟(4);如果Ttext[2]是主字,即Ttext[2] main_char_set,則轉(zhuǎn)入步驟(3)。

    (3)判斷Ttext[3]屬于哪個(gè)集合,若Ttext[3]為字母,則Ttext[0]+Ttext[1]+Ttext[2]為一個(gè)字丁,等于第二節(jié)的第5類字丁,轉(zhuǎn)到步驟(4);若Ttext[3]為元音,則Ttext[0]+Ttext[1]+Ttext[2]+ Ttext[4]為一個(gè)字丁,相當(dāng)于第二節(jié)的第6類字丁,轉(zhuǎn)到步驟(4)。

    (4)轉(zhuǎn)到步驟(1),從識別出的字丁的下一個(gè)字符繼續(xù)判斷,直至到達(dá)文本末尾。

    用算法流程圖表示如下

    4 結(jié)語

    本文特意對字丁識別方法作了分析,除了提出一種適用于藏梵文的字丁識別算法外,第一節(jié)的三個(gè)集合和第二節(jié)對字丁的分類,對藏文的結(jié)合規(guī)律總結(jié)了一個(gè)新的歸納和分類方式。

    參考文獻(xiàn)

    [1]王維蘭,丁曉青,祁坤鈺. 藏文識別中相似字丁的區(qū)分研究.中文信息學(xué)報(bào),2002(4):61-63

    [2] 王維蘭,陳萬軍. 藏文字丁、音節(jié)頻度及其信息熵. 語音信息處理,2004(2):27-31

    [3] 桑塔,達(dá)哇彭措. 信息處理用藏文字丁統(tǒng)計(jì).科技信息,2010(29):430

    猜你喜歡
    藏文元音字符
    尋找更強(qiáng)的字符映射管理器
    元音字母和元音字母組合的拼讀規(guī)則
    元音字母和元音字母組合的拼讀規(guī)則
    西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
    布達(dá)拉(2020年3期)2020-04-13 10:00:07
    字符代表幾
    一種USB接口字符液晶控制器設(shè)計(jì)
    電子制作(2019年19期)2019-11-23 08:41:50
    黑水城和額濟(jì)納出土藏文文獻(xiàn)簡介
    西夏學(xué)(2019年1期)2019-02-10 06:22:34
    消失的殖民村莊和神秘字符
    藏文音節(jié)字的頻次統(tǒng)計(jì)
    現(xiàn)代語境下的藏文報(bào)刊
    新聞傳播(2016年17期)2016-07-19 10:12:05
    镇赉县| 黄梅县| 尖扎县| 驻马店市| 阜宁县| 仲巴县| 奎屯市| 友谊县| 思南县| 宜都市| 阳春市| 浪卡子县| 朝阳区| 宁阳县| 新泰市| 元谋县| 蒙自县| 曲松县| 行唐县| 德化县| 安溪县| 泽州县| 宜兴市| 桐城市| 红桥区| 张家港市| 科技| 东台市| 嘉祥县| 禄丰县| 日喀则市| 乐平市| 彰武县| 遵义县| 望城县| 巴彦县| 清徐县| 江华| 乐平市| 墨竹工卡县| 郎溪县|