才智杰, 才讓卓瑪,2
(1. 青海師范大學 藏文信息處理省部共建教育部重點實驗室,青海 西寧 810008; 2. 陜西師范大學 計算機科學學院, 陜西 西安 710062)
藏文字符的向量模型及構件特征分析
才智杰1, 才讓卓瑪1,2
(1. 青海師范大學 藏文信息處理省部共建教育部重點實驗室,青海 西寧 810008; 2. 陜西師范大學 計算機科學學院, 陜西 西安 710062)
藏文字屬性分析是藏文信息處理的一項基礎性工作,對藏文信息處理的研究和藏語文教學具有重要的參考價值及指導意義。藏文字是一種特殊的拼音文字,由1~7個基本構件橫向和縱向拼接而成。因而藏文字符的屬性包括其組成的構件及其構件的位置特征,以及藏文字的使用頻度、結構、字長等屬性特征。該文通過分析藏文字的結構,分別建立了藏文字及藏文字符串的向量模型VMTT、VMTS和藏文字符串的稀疏域模型SLM,并在向量模型和稀疏域模型上研究了藏文字符的構件特征。
中文信息處理;向量模型;稀疏域模型;構件
藏文字創(chuàng)制至今進行了三次較大規(guī)模的厘定,制定了現(xiàn)代藏文文法,使藏語言文字步入了規(guī)范化的軌道[1-2]。符合現(xiàn)代藏文文法的藏文字稱作現(xiàn)代藏文字(沒有特殊說明時本文所提藏文字都指現(xiàn)代藏文字)?,F(xiàn)代藏文字是由30個輔音字母和四個元音字母構成的拼音文字,結構上由基本輔音(基字)、前加字、上加字、下加字、后加字、再后加字及元音組成,其中前加字、基字、后加字與再后加字橫向拼寫,而在基字所在的豎直方向上還可能有上加字、基字、下加字和元音的縱向拼寫[3-5]。因而藏文字的屬性分析包括:(1)藏文字構件分解[6-7];(2)藏文字符串或藏文字所含構件數;(3)藏文字構件位置特征[8-9];(4)藏文字的使用頻度、結構、字長等屬性特征[10-12]。向量模型將文本信息轉換成易于數學處理的向量方式[13],使得文本的各種運算和操作簡化。本文通過分析藏文字的結構,建立了藏文字及字符串的向量模型和藏文字符串的稀疏域模型,在此基礎上研究了藏文字符(藏文字及藏文字符串)所含構件數及構件位置特征。
2.1 藏文字的向量模型(VMTT)
定義1(藏文字的向量模型) 藏文字可用向量集A={ 2.2 藏文字符串的向量模型(VMTS)及構件特征分析 藏文字符串主要由藏文字和字分隔符組成,字分隔符是一個確定不變的符號“-”,只是用來分隔串中的字。字符串的所有藏文字都確定時,不需要存儲分隔符,此時藏文字符串可以看作由若干個藏文字組成。藏文字的向量模型VMTT中每個藏文字對應一個含七個分量的一維向量,將字符串中的每個藏文字的一維向量作為列可得到藏文字符串向量模型。 (1) (2) 由定義2可知,藏文字符串的向量模型由行數、列數和元素值確定,因而將其數據結構定義為: TypedefStruct {intmu,nu; //描述向量的行數和列數 inta[M][N]; //描述向量中元素 }Matrix; 由此可得VMTS模型下藏文字符所含構件數及構件位置特征屬性。 (1) 藏文字符串所含藏文字個數等于M.nu; (2) 藏文字符串中第j個字所含構件數等于第j列中非零元素的個數; (3) 藏文字符串所含構件總數等于其VMTS模型中非零元素個數,即 For(i=0;i For(j=0;j If(a[i][j]<>0)s++; (4) 構件位置特征可通過如下算法確定: Void VMTS - CPFA (Matrix M) {for(j=0;j {printf("
第%d個藏文字的",j+1); For(i=0;i If(M.a[i][j]!=0) Switch(i){ Case 0:printf("
前加字代號為:%d", M.a[i][j]);break; Case 1:printf("
上加字代號為:%d", M.a[i][j]);break; Case 2:printf("
基字代號為:%d", M.a[i][j]);break; Case 3:printf("
下加字代號為%d", M.a[i][j]);break; Case 4:printf("
元音代號為:%d", M.a[i][j]);break; Case 5:printf("
后加字代號為:%d", M.a[i][j]);break; Case 6:printf("
再后加字代號為:%d", M.a[i][j]);break;}} } 3.1 藏文字分布統(tǒng)計 一個完整的現(xiàn)代藏文字由1~7個構件組成,對1.5G藏語語料的構件分布情況進行統(tǒng)計得表1所示分布表。 表1 藏文字分布表 由表1可見,在藏字中含一個構件的藏文字占13.52%,含兩個構件的藏文字占28.22%,含三個構件的藏文字占30.59%,含四個構件的藏文字占21.43%,含五個構件的藏文字占5.61%,含六個構件的藏文字占0.37%,含七個構件的藏文字占0.04%,說明藏文字符串中的大多數藏文字由2~4個構件組成[17]。因而用VMTS模型表示藏文字符串得到的是稀疏矩陣,顯然直接用VMTS模型存儲藏文字符串不但需較大的存儲空間,而且算法時間復雜度也較大。如果只存儲藏文字符向量模型VMTS中的非0元素,從而建立藏文字符的稀疏域模型Sparse-Land Model(SLM),不但可以壓縮存儲空間,還能提高算法效率。 3.2 藏文字符串的稀疏域模型(SLM)及構件特征分析 設矩陣Am×n中有s個非零元素,若s遠遠小于矩陣元素的總數(即s< Typedef Struct {inti,j;//分別描述非零元素的行號和列號 Eemtypee;//描述非零元素的值 }SLM;//三元組類型 Typedef Struct {SLM data[MAXSIZE];//三元組表 int mu,nu,tu;//稀疏矩陣的行數、列數和非零元個數 }TMatrix; 圖1 SLM模型存儲實例圖 由此可得SLM模型下藏文字及字符串所含構件數及構件位置特征屬性。 (1) 藏文字符串所含字的個數等于其對應SLM的列數,即藏文字的個數等于T.nu; (2) 藏文字符串的第i個字所含構件數等于所有T.data[0..T.nu-1].j=i的個數,即 for(k=0;k (3) 藏文字符串所含構件總數等于T.tu; (4) 構件位置特征可通過如下算法確定: Void SLM- CPFA (TMatrix T) {for(k=0;k Case 1:ptintf("前加字代號為:%d",T.data[k].e);break; Case 2:ptintf("上加字代號為:%d",T.data[k].e);break; Case 3:ptintf("基字代號為:%d",T.data[k].e);break; Case 4:ptintf("下加字代號為%d",T.data[k].e);break; Case 5:ptintf("元音代號為:%d",T.data[k].e);break; Case 6:ptintf("后加字代號為:%d",T.data[k].e);break; Case 7:ptintf("再后加字代號為:%d",T.data[k].e);break;}} } 算法VMTS-CPFA的時間復雜度為O(M.m×M.n),算法SLM- CPFA的時間復雜度為O(T.tu);用VMTS模型存儲藏文字符串所用的空間規(guī)模為M.m×M.n,用SLM模型存儲藏文字符串的空間規(guī)模為T.tu;T.tu << M.m×M.n,所以基于SLM的藏文字符屬性分析性能比VMTS高。但在VMTS模型下分析藏文字符的屬性比SLM模型簡單。 本文對現(xiàn)代藏文字符存儲結構進行了深入研究,提出了藏文字的向量存儲模型(VMTT)及藏文字符的向量模型(VMTS)和稀疏域存儲模型(SLM),并分別在VMTS模型和SLM模型下對藏文字符構件特征進行了分析。在VMTS模型下M.mu恒等于7,藏文字符串所含字個數等于其行數M.nu,串中第j個藏文字所含構件個數等于該列非零元素個數,串所含構件數等于向量模型中非零元素個數,構件位置特征由VMTS - CPFA算法確定;在SLM模型下mu恒等于7,藏文字符串所含字的個數等于其列數T.nu,串中第i個藏文字所含構件數等于所有T.data[0..T.nu-1].j=i的個數,藏文字符串所含構件總數等于T.tu,構件位置特征由SLM- CPFA算法確定。通過一系列的實驗表明,藏文字符使用SLM存儲模型不但節(jié)省空間開銷,而且屬性分析效率也很高,但在VMTS模型下研究藏文字屬性非常簡單。今后在該研究成果的基礎上將進一步研究藏文字符稀疏域存儲模型下藏文句型結構。 [1] 百度百科.藏文[EB/OL].http://baike.baidu.com/view/230052.htm,2013-01-12. [2] 才旦夏茸.藏文文法詳解[M].西寧:青海民族出版社,1988. [3] 才智杰,才讓卓瑪.基于語料庫的藏文字屬性分析系統(tǒng)設計[J].計算機工程,2011,37(22):270-272. [4] 才智杰.藏文自動切分系統(tǒng)中緊縮詞的識別[J].中文信息學報,2009,23(1):35-37. [5] 黃鶴鳴,契嘎·德熙嘉措(趙晨星).基于DUCET的藏文排序方法[J].中文信息學報,2008,22(4):109-113. [6] 才讓卓瑪,才智杰.藏文字頻統(tǒng)計系統(tǒng)中字構件分解算法[J].計算機工程與科學,2011,33(3):159-162. [7] 才讓卓瑪,才智杰.現(xiàn)代藏文字構件分解方法[J].青海大學學報,2010,28(4):83-86. [8] CaiZhijie,CaiRangzhuoma.Statistical Analysis for Frequency of the Corpus-based Modern Tibetan Basic Components[C]//Proceedings of 2011 4th International Conference on Intelligent Networks and Intelligent Systems (ICINIS), Kunming, China, Nov. 1-3,2011: 214-217. [9] 陳玉忠,俞士汶.藏文信息處理的研究現(xiàn)狀與展望[J].中國藏學,2003,(4):97-107. [10] 扎西次仁.《中華大藏經·丹珠爾》藏文對勘本字頻統(tǒng)計分析[J].中國藏學,1997,(2):122-133. [11] 高定國,龔育昌.現(xiàn)代藏文字全集的屬性統(tǒng)計研究[J].中文信息學報,2005,19(1):71-75. [12] 江荻,董穎紅.藏文信息處理屬性統(tǒng)計研究[J].中文信息學報,1994,2(9):37-44. [13] 張曉艷,王挺,陳火旺.基于多向量和實體模糊匹配的話題關聯(lián)識別[J].中文信息學報,2008,22(1):9-14. [14] 林河水,程偉等.藏語的序性及排序方法[J].中文信息學報,2004,18(5):36-41. [15] 江荻等.書面藏語排序的數學模型及算法[J].計算機學報,2004,27(4):524-529. [16] 江荻,周季文.論藏文的序性及排序方法[J].中文信息學報,2000,14(1):56-64. [17] 才智杰,才讓卓瑪.班智達藏文標注詞典設計[J].中文信息學報,2010,24(5):46-49. Vector Space Models and Component Features Analysis of Tibetan Characters CAI Zhi-jie1CAI rang-zhuoma1,2 (1. Key Laboratory of Tibetan Information Processing, Ministry of Education, Qinghai Normal University, Xining,Qinghai 810008,China; 2. School of Computer Science, Shaanxi Normal University, Xi’an, Shaanxi 710062, China) Tibetan characters property is essential for Tibetan information processing, and it is substantial significance in education and scientific research. Because Tibetan characters writing is directed by both horizontal and vertical 1-7 Tibetan characters, the properties of Tibetan characters include the structure, length, frequency of Tibetan characters and the locality features of each characters. This paper establishes vector model (VMTT) of Tibetan characters, vector model (VMTS) and sparse-land model (SLM) of Tibetan character string, and conducts the component feature analysis of Tibetan characters based on these models. Chinese information processing; vector space model; sparse-land model; components 才智杰(1970—),教授,博士,主要研究領域為藏文信息處理,藏語自然語言處理。E?mail:Czjqhsd@163.com才讓卓瑪(1970—),教授,博士,主要研究領域為自然語言處理,藏文信息處理。E?mail:cr?zhuoma@163.com 1003-0077(2016)02-0202-05 2013-10-21 定稿日期: 2014-04-14 國家自然科學基金(61163018, 61262051, 61363055);教育部“春暉計劃”合作科研項目(Z2012093);國家社科基金(13BYY141);“長江學者和創(chuàng)新團隊發(fā)展計劃”創(chuàng)新團隊資助項目(IRT1068);青海省科技廳應用基礎研究計劃基金(2011-Z-755,2011-Z-754);青海師范大學科研創(chuàng)新計劃基金 TP A3 藏文字符串的稀疏域模型(SLM)及構件特征分析
4 結束語