董 軍,蔣同海,艾孜麥提·艾尼瓦爾,程 力,徐 春
(1. 中國(guó)科學(xué)院 新疆理化技術(shù)研究所,新疆 烏魯木齊 830011;2. 中國(guó)科學(xué)院大學(xué),北京 100049;3. 新疆民族語(yǔ)音語(yǔ)言信息處理實(shí)驗(yàn)室,新疆 烏魯木齊 830011;4. 新疆財(cái)經(jīng)大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,新疆 烏魯木齊 830012)
一種改進(jìn)的哈薩克文編碼字符處理方法
董 軍1,2,3,蔣同海1,3,艾孜麥提·艾尼瓦爾1,2,3,程 力1,3,徐 春1,2,4
(1. 中國(guó)科學(xué)院 新疆理化技術(shù)研究所,新疆 烏魯木齊 830011;2. 中國(guó)科學(xué)院大學(xué),北京 100049;3. 新疆民族語(yǔ)音語(yǔ)言信息處理實(shí)驗(yàn)室,新疆 烏魯木齊 830011;4. 新疆財(cái)經(jīng)大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,新疆 烏魯木齊 830012)
哈薩克文;編碼字符;Unicode;OpenType
Key words: Kazakh; coded character; Unicode; OpenType
收稿日期: 2016-03-09 定稿日期: 2016-05-18
基金項(xiàng)目: 中科院西部之光項(xiàng)目(YG2012114);中科院儀器設(shè)備功能開(kāi)發(fā)技術(shù)創(chuàng)新項(xiàng)目(YBXM-2014-04)
我國(guó)哈薩克族人口約146萬(wàn),其中絕大多數(shù)生活在新疆的伊犁哈薩克自治州、木壘哈薩克自治縣和巴里坤哈薩克自治縣[1]。哈薩克文是新疆哈薩克族群眾使用的主要文字。根據(jù)我國(guó)憲法和民族區(qū)域自治法,哈薩克文和漢文在哈薩克族自治地方并行使用,在自治地方的行政、司法、教育、新聞出版等領(lǐng)域發(fā)揮著重要作用。另外,隨著我國(guó)與哈薩克斯坦等國(guó)家貿(mào)易往來(lái)和文化交流的日益頻繁,哈薩克文在我國(guó)的國(guó)際交流中也發(fā)揮著重要作用。
哈薩克文繼承了阿拉伯文從右向左書寫和連寫的書寫習(xí)慣。所謂連寫即字母在書寫的時(shí)候需要與前后相鄰的字母連接。這導(dǎo)致每個(gè)字母有多種書寫形式,如圖1所示。字母在書寫時(shí)必須根據(jù)自身及其前后字母的連接特性選擇正確的書寫形式,如圖2所示。
圖1 哈薩克文字母的四種書寫形式
圖2 三個(gè)相鄰哈薩克文字母的連寫
國(guó)際標(biāo)準(zhǔn)Unicode對(duì)哈薩克文處理提供了基本的支持。Unicode在阿拉伯文編碼字符的基本區(qū)(字符編碼: 0600-06FF)包含了全部哈薩克文字母以及符號(hào)的編碼字符。其中編碼字符(0674)、(0675)、(0676)、(0677)和(0678)專用于處理哈薩克文字母[2-3]。此外,Unicode定義的用于處理字母從右向左書寫的雙向算法[4],以及用于處理字母連寫的字符連寫規(guī)則也適用于哈薩克文字母的處理[5]。但除字母獨(dú)立書寫形式(FBDD)的編碼字符外,Unicode沒(méi)有定義字母其它書寫形式的編碼字符[6-7]。我國(guó)于2008年頒布的國(guó)家標(biāo)準(zhǔn)GB 21669定義了字母各種書寫形式的編碼字符[8]。但是Unicode和GB 21669都沒(méi)有提供字母特殊書寫習(xí)慣的處理方法。
當(dāng)前,在哈薩克文信息處理工作中,普遍采用字母替換法處理字母
。字母替換法即使用另外四個(gè)哈薩克文字母
與字符
結(jié)合表示哈薩克文字母
[10]
。例如,
(我們)用字母替換法就表示為
。我們分析了新疆人民政府網(wǎng)哈薩克文版、昆侖網(wǎng)哈薩克文版、天山網(wǎng)哈薩克文版、人民網(wǎng)哈薩克文版等政府主辦的哈薩克文網(wǎng)站使用的字符編碼,它們無(wú)一例外都采用字母替換法處理字母
。圖4是采用字母替換法輸入單詞
(我們)在Windows 7記事本應(yīng)用程序中的顯示結(jié)果。字母替換法產(chǎn)生的哈薩克文文本看上去是正確的,因?yàn)槿藗冊(cè)陂喿x的時(shí)候不會(huì)覺(jué)察到字母被替換。字母替換法的實(shí)現(xiàn)很容易,主流操作系統(tǒng)只需要安裝哈薩克文輸入法,以及包含哈薩克文字母字形及其連寫規(guī)則的OpenType字體,就可以具備哈薩克文處理能力。
表1 字母替換前后的單詞排序
4個(gè)分區(qū)根據(jù)不同標(biāo)高主要包括C組填料回填、A、B組填料和級(jí)配砂礫墊層回填。填筑采用薄層輪加法,填筑時(shí),每層松鋪厚度不得超過(guò)30cm,由路基中心向兩側(cè)分層填筑壓實(shí)。
表2 改進(jìn)后哈薩克文單詞排序
表3 字母的全部書寫形式
表4 處理字母各種書寫形式和字形需要的判斷和操作
正確設(shè)置字形替換規(guī)則是哈薩克文OpenType字體制作的關(guān)鍵。有很多工具可以用來(lái)設(shè)置OpenType字體中的字形替換規(guī)則,例如,VOLT、AFDKO、Fontlab等。字形替換規(guī)則由若干字段構(gòu)成,所有類型字形替換規(guī)則擁有的字段是相同的。制作哈薩克文OpenType字體需要分別對(duì)六個(gè)規(guī)則的三個(gè)字段進(jìn)行設(shè)置。這六個(gè)規(guī)則是
每種類型的規(guī)則都有特定的用途。規(guī)則
[1] 中華人民共和國(guó)國(guó)家統(tǒng)計(jì)局.第六次人口普查數(shù)據(jù).[EB/OL]. http://www.stats.gov.cn/tjsj/.html,2015-12-16.
[2] Unicode 8.0.0 Character Code Charts. Arabic [EB/OL].http://www.unicode.org/charts/PDF/U0600.pdf,2015-12-16.
[3] 陳壯. 中國(guó)在ISO/ IEC JTC1/ SC2 的活動(dòng)與中文編碼的國(guó)際標(biāo)準(zhǔn)化[J]. 中文信息學(xué)報(bào), 2007, 21(4): 122-128.
[4] Unicode Bidirectional Algorithm.[EB/OL]. http://www.unicode.org/reports/tr9/tr9-33.html,2015-12-16.
[5] The Unicode Standard Version 8.0.0-Core Specification, Middle East-I Modern and Liturgical Scripts Eastern Script [EB/OL].http://www.unicode.org/versions/Unicode8.0.0/ch09.pdf,2015-12-20.
[6] Unicode 8.0.0 Character Code Charts. Arabic Presentation Forms-A[EB/OL].http://www.unicode.org/charts/PDF/UFB50.pdf,2015-12-16.
[7] Unicode 8.0.0 Character Code Charts. Arabic Presentation Forms-B[EB/OL].http://www.unicode.org/charts/PDF/UFE70.pdf,2015-12-20.
[8] 全國(guó)信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會(huì).GB 21669-2008,信息技術(shù) 維吾爾文、哈薩克文、柯?tīng)柨俗挝木幋a字符集[S].北京: 中國(guó)標(biāo)準(zhǔn)出版社,2008: 4.
[9] 肖明,胡金柱,趙慧. 字形技術(shù)及OpenType字體文件格式研究[J]. 中文信息學(xué)報(bào), 1999, 13(6): 54-61.
[10] 木合亞提·尼亞孜別克, 古力沙吾利. 哈薩克文信息處理的現(xiàn)狀和發(fā)展方向[J]. 中文信息學(xué)報(bào), 2010, 24(4): 111-114.
[11] Microsoft Typography Home. OpenType Registered features[EB/OL].http://www.microsoft.com/typography/otspec/features_ae.html,2015-12-20.
董軍(1975—),博士,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、軟件測(cè)試。
E-mail: dongjun@ms.xjb.ac.cn
蔣同海(1963—),通信作者,博士,主要研究領(lǐng)域?yàn)橛?jì)算機(jī)應(yīng)用技術(shù)、自然語(yǔ)言處理。
E-mail: jth@ms.xjb.ac.cn
艾孜麥提·艾尼瓦爾(1988—),碩士,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。
E-mail: azmat@ms.xjb.ac.cn
An Improved Kazakh Letter Representation
DONG Jun1,2,3, JIANG Tonghai1,3, Aizimaiti Ainiware1,2,3, CHENG Li1,3XU Chun1,2,4
(1. The Xinjiang Technical Institute of Physics & Chemistry, Chinese Academy of Sciences, Urumqi, Xinjiang 830011, China;2. University of Chinese Academy of Sciences, Beijing 100049,China;3. Xinjiang Laboratory of Minority Speech and Language Information Processing, Urumqi, Xinjiang 830011, China;4. College of Computer Science and Engineering, Xinjiang University of Finance and Economics, Urumqi, Xinjiang 830012, China)
1003-0077(2017)04-0094-06
TP391
A