• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種改進(jìn)的哈薩克文編碼字符處理方法

    2017-10-11 07:09:48蔣同海艾孜麥提艾尼瓦爾
    中文信息學(xué)報(bào) 2017年4期
    關(guān)鍵詞:哈薩克字符字形

    董 軍,蔣同海,艾孜麥提·艾尼瓦爾,程 力,徐 春

    (1. 中國(guó)科學(xué)院 新疆理化技術(shù)研究所,新疆 烏魯木齊 830011;2. 中國(guó)科學(xué)院大學(xué),北京 100049;3. 新疆民族語(yǔ)音語(yǔ)言信息處理實(shí)驗(yàn)室,新疆 烏魯木齊 830011;4. 新疆財(cái)經(jīng)大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,新疆 烏魯木齊 830012)

    一種改進(jìn)的哈薩克文編碼字符處理方法

    董 軍1,2,3,蔣同海1,3,艾孜麥提·艾尼瓦爾1,2,3,程 力1,3,徐 春1,2,4

    (1. 中國(guó)科學(xué)院 新疆理化技術(shù)研究所,新疆 烏魯木齊 830011;2. 中國(guó)科學(xué)院大學(xué),北京 100049;3. 新疆民族語(yǔ)音語(yǔ)言信息處理實(shí)驗(yàn)室,新疆 烏魯木齊 830011;4. 新疆財(cái)經(jīng)大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,新疆 烏魯木齊 830012)

    哈薩克文;編碼字符;Unicode;OpenType

    Key words: Kazakh; coded character; Unicode; OpenType

    收稿日期: 2016-03-09 定稿日期: 2016-05-18

    基金項(xiàng)目: 中科院西部之光項(xiàng)目(YG2012114);中科院儀器設(shè)備功能開(kāi)發(fā)技術(shù)創(chuàng)新項(xiàng)目(YBXM-2014-04)

    1 引言

    我國(guó)哈薩克族人口約146萬(wàn),其中絕大多數(shù)生活在新疆的伊犁哈薩克自治州、木壘哈薩克自治縣和巴里坤哈薩克自治縣[1]。哈薩克文是新疆哈薩克族群眾使用的主要文字。根據(jù)我國(guó)憲法和民族區(qū)域自治法,哈薩克文和漢文在哈薩克族自治地方并行使用,在自治地方的行政、司法、教育、新聞出版等領(lǐng)域發(fā)揮著重要作用。另外,隨著我國(guó)與哈薩克斯坦等國(guó)家貿(mào)易往來(lái)和文化交流的日益頻繁,哈薩克文在我國(guó)的國(guó)際交流中也發(fā)揮著重要作用。

    2 哈薩克文的書寫習(xí)慣

    哈薩克文繼承了阿拉伯文從右向左書寫和連寫的書寫習(xí)慣。所謂連寫即字母在書寫的時(shí)候需要與前后相鄰的字母連接。這導(dǎo)致每個(gè)字母有多種書寫形式,如圖1所示。字母在書寫時(shí)必須根據(jù)自身及其前后字母的連接特性選擇正確的書寫形式,如圖2所示。

    圖1 哈薩克文字母的四種書寫形式

    圖2 三個(gè)相鄰哈薩克文字母的連寫

    3 哈薩克文編碼字符處理的現(xiàn)狀

    國(guó)際標(biāo)準(zhǔn)Unicode對(duì)哈薩克文處理提供了基本的支持。Unicode在阿拉伯文編碼字符的基本區(qū)(字符編碼: 0600-06FF)包含了全部哈薩克文字母以及符號(hào)的編碼字符。其中編碼字符(0674)、(0675)、(0676)、(0677)和(0678)專用于處理哈薩克文字母[2-3]。此外,Unicode定義的用于處理字母從右向左書寫的雙向算法[4],以及用于處理字母連寫的字符連寫規(guī)則也適用于哈薩克文字母的處理[5]。但除字母獨(dú)立書寫形式(FBDD)的編碼字符外,Unicode沒(méi)有定義字母其它書寫形式的編碼字符[6-7]。我國(guó)于2008年頒布的國(guó)家標(biāo)準(zhǔn)GB 21669定義了字母各種書寫形式的編碼字符[8]。但是Unicode和GB 21669都沒(méi)有提供字母特殊書寫習(xí)慣的處理方法。

    當(dāng)前,在哈薩克文信息處理工作中,普遍采用字母替換法處理字母

    。字母替換法即使用另外四個(gè)哈薩克文字母

    與字符

    結(jié)合表示哈薩克文字母

    [10]

    。例如,

    (我們)用字母替換法就表示為

    。我們分析了新疆人民政府網(wǎng)哈薩克文版、昆侖網(wǎng)哈薩克文版、天山網(wǎng)哈薩克文版、人民網(wǎng)哈薩克文版等政府主辦的哈薩克文網(wǎng)站使用的字符編碼,它們無(wú)一例外都采用字母替換法處理字母

    。圖4是采用字母替換法輸入單詞

    (我們)在Windows 7記事本應(yīng)用程序中的顯示結(jié)果。字母替換法產(chǎn)生的哈薩克文文本看上去是正確的,因?yàn)槿藗冊(cè)陂喿x的時(shí)候不會(huì)覺(jué)察到字母被替換。字母替換法的實(shí)現(xiàn)很容易,主流操作系統(tǒng)只需要安裝哈薩克文輸入法,以及包含哈薩克文字母字形及其連寫規(guī)則的OpenType字體,就可以具備哈薩克文處理能力。

    表1 字母替換前后的單詞排序

    4 改進(jìn)方法

    4個(gè)分區(qū)根據(jù)不同標(biāo)高主要包括C組填料回填、A、B組填料和級(jí)配砂礫墊層回填。填筑采用薄層輪加法,填筑時(shí),每層松鋪厚度不得超過(guò)30cm,由路基中心向兩側(cè)分層填筑壓實(shí)。

    表2 改進(jìn)后哈薩克文單詞排序

    表3 字母的全部書寫形式

    表4 處理字母各種書寫形式和字形需要的判斷和操作

    5 設(shè)置字形替換規(guī)則

    正確設(shè)置字形替換規(guī)則是哈薩克文OpenType字體制作的關(guān)鍵。有很多工具可以用來(lái)設(shè)置OpenType字體中的字形替換規(guī)則,例如,VOLT、AFDKO、Fontlab等。字形替換規(guī)則由若干字段構(gòu)成,所有類型字形替換規(guī)則擁有的字段是相同的。制作哈薩克文OpenType字體需要分別對(duì)六個(gè)規(guī)則的三個(gè)字段進(jìn)行設(shè)置。這六個(gè)規(guī)則是、、、、,三個(gè)字段是DIRECTION、SUBSTITUTION和CONTEXT。

    每種類型的規(guī)則都有特定的用途。規(guī)則、、用于設(shè)置字母字形與各種書寫形式字形的替換。規(guī)則用于設(shè)置相鄰字形與合體字形的替換。規(guī)則用于設(shè)置字形上下文環(huán)境滿足特定條件時(shí)的替換。另外,規(guī)則是按順序執(zhí)行的,后面的規(guī)則將在前面規(guī)則執(zhí)行結(jié)果的基礎(chǔ)上繼續(xù)執(zhí)行。因此,同樣的規(guī)則按不同的順序執(zhí)行,將得到不同的字形替換結(jié)果。為了得到我們希望的結(jié)果,應(yīng)當(dāng)先執(zhí)行規(guī)則、、,然后執(zhí)行規(guī)則,最后執(zhí)行規(guī)則

    6 結(jié)論

    [1] 中華人民共和國(guó)國(guó)家統(tǒng)計(jì)局.第六次人口普查數(shù)據(jù).[EB/OL]. http://www.stats.gov.cn/tjsj/.html,2015-12-16.

    [2] Unicode 8.0.0 Character Code Charts. Arabic [EB/OL].http://www.unicode.org/charts/PDF/U0600.pdf,2015-12-16.

    [3] 陳壯. 中國(guó)在ISO/ IEC JTC1/ SC2 的活動(dòng)與中文編碼的國(guó)際標(biāo)準(zhǔn)化[J]. 中文信息學(xué)報(bào), 2007, 21(4): 122-128.

    [4] Unicode Bidirectional Algorithm.[EB/OL]. http://www.unicode.org/reports/tr9/tr9-33.html,2015-12-16.

    [5] The Unicode Standard Version 8.0.0-Core Specification, Middle East-I Modern and Liturgical Scripts Eastern Script [EB/OL].http://www.unicode.org/versions/Unicode8.0.0/ch09.pdf,2015-12-20.

    [6] Unicode 8.0.0 Character Code Charts. Arabic Presentation Forms-A[EB/OL].http://www.unicode.org/charts/PDF/UFB50.pdf,2015-12-16.

    [7] Unicode 8.0.0 Character Code Charts. Arabic Presentation Forms-B[EB/OL].http://www.unicode.org/charts/PDF/UFE70.pdf,2015-12-20.

    [8] 全國(guó)信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會(huì).GB 21669-2008,信息技術(shù) 維吾爾文、哈薩克文、柯?tīng)柨俗挝木幋a字符集[S].北京: 中國(guó)標(biāo)準(zhǔn)出版社,2008: 4.

    [9] 肖明,胡金柱,趙慧. 字形技術(shù)及OpenType字體文件格式研究[J]. 中文信息學(xué)報(bào), 1999, 13(6): 54-61.

    [10] 木合亞提·尼亞孜別克, 古力沙吾利. 哈薩克文信息處理的現(xiàn)狀和發(fā)展方向[J]. 中文信息學(xué)報(bào), 2010, 24(4): 111-114.

    [11] Microsoft Typography Home. OpenType Registered features[EB/OL].http://www.microsoft.com/typography/otspec/features_ae.html,2015-12-20.

    董軍(1975—),博士,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、軟件測(cè)試。

    E-mail: dongjun@ms.xjb.ac.cn

    蔣同海(1963—),通信作者,博士,主要研究領(lǐng)域?yàn)橛?jì)算機(jī)應(yīng)用技術(shù)、自然語(yǔ)言處理。

    E-mail: jth@ms.xjb.ac.cn

    艾孜麥提·艾尼瓦爾(1988—),碩士,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。

    E-mail: azmat@ms.xjb.ac.cn

    An Improved Kazakh Letter Representation

    DONG Jun1,2,3, JIANG Tonghai1,3, Aizimaiti Ainiware1,2,3, CHENG Li1,3XU Chun1,2,4

    (1. The Xinjiang Technical Institute of Physics & Chemistry, Chinese Academy of Sciences, Urumqi, Xinjiang 830011, China;2. University of Chinese Academy of Sciences, Beijing 100049,China;3. Xinjiang Laboratory of Minority Speech and Language Information Processing, Urumqi, Xinjiang 830011, China;4. College of Computer Science and Engineering, Xinjiang University of Finance and Economics, Urumqi, Xinjiang 830012, China)

    1003-0077(2017)04-0094-06

    TP391

    A

    猜你喜歡
    哈薩克字符字形
    油畫《哈薩克牧羊女》
    絲綢之路(2023年2期)2023-07-10 21:34:47
    尋找更強(qiáng)的字符映射管理器
    阿依努爾——獻(xiàn)給一位哈薩克支教女孩
    心聲歌刊(2021年2期)2021-07-16 07:05:56
    字符代表幾
    一種USB接口字符液晶控制器設(shè)計(jì)
    電子制作(2019年19期)2019-11-23 08:41:50
    甲骨文“黍”字形義考
    甲骨文中的字形直立化二則
    消失的殖民村莊和神秘字符
    一件與衛(wèi)拉特人有關(guān)的清代哈薩克文檔案文書研究(哈薩克文)
    復(fù)習(xí)生字字形的方法
    荔浦县| 汶川县| 铜陵市| 集贤县| 鄄城县| 淮安市| 神农架林区| 清苑县| 广东省| 潍坊市| 丹棱县| 秦皇岛市| 科技| 四会市| 平乡县| 澄迈县| 扎鲁特旗| 屏南县| 呼和浩特市| 常州市| 庄河市| 香港| 佛冈县| 隆回县| 洛宁县| 曲靖市| 巴青县| 开封市| 兴业县| 松江区| 彰化县| 广昌县| 巴中市| 嘉善县| 高邑县| 惠水县| 万源市| 晋江市| 岳普湖县| 定襄县| 军事|