傳統(tǒng)蒙古文與西里爾蒙古文相互轉(zhuǎn)換方法的研究

2014-08-03 15:23:46高光來閆學亮魏宏喜

計算機工程與應(yīng)用 2014年23期

關(guān)鍵詞：蒙古文字母證據(jù)

飛龍，高光來，閆學亮，魏宏喜

內(nèi)蒙古大學計算機學院，呼和浩特 010021

傳統(tǒng)蒙古文與西里爾蒙古文相互轉(zhuǎn)換方法的研究

飛龍，高光來，閆學亮，魏宏喜

內(nèi)蒙古大學計算機學院，呼和浩特 010021

1 引言

蒙古文是一個跨多國、多地區(qū)的語言，在世界上有廣泛影響，使用者分布在中國、蒙古國和俄羅斯聯(lián)邦等國家，尤其是中國和蒙古國使用的蒙古語言文字是“語同文不同”，即語言相同，文字不同。在中國使用的蒙古文叫“傳統(tǒng)蒙古文”，在蒙古國使用的蒙古文叫“西里爾蒙古文”（也叫新蒙古文，基立爾蒙古文，斯拉夫蒙古文等）。

隨著中國和蒙古國兩國之間的文化、教育和經(jīng)濟的交流與合作不斷深入，兩國之間的文字轉(zhuǎn)換工作也變得極其重要。傳統(tǒng)蒙古文和西里爾蒙古文的相互轉(zhuǎn)換工作會給兩國蒙古族同胞的交流帶來更多的便利，并且對蒙古族的科學，文化和教育發(fā)展同樣具有重要的意義。

包薩日娜、烏日力嘎和Hao Li[1-6]等人采用基于詞典的方法和基于規(guī)則的方法對傳統(tǒng)蒙古文和西里爾蒙古文的相互轉(zhuǎn)換進行了一系列的研究，并取得了一定的成果。但是，蒙古文是通過詞根綴接多個后綴的方式生成新詞的，按照這種生成方式，可以構(gòu)成近100萬的蒙古文單詞，詞典一般很難全部包含。而且，基于規(guī)則的方法很難歸納出所有的轉(zhuǎn)換規(guī)則，并且相當一部分單詞并不遵循轉(zhuǎn)換規(guī)則。所以，基于詞典和基于規(guī)則的方法有較大的局限性，很難達到實用要求。

本文提出了基于聯(lián)合序列模型[7-8]的傳統(tǒng)蒙古文和西里爾蒙古文的相互轉(zhuǎn)換方法，并優(yōu)化了相關(guān)參數(shù)。實驗中，基于聯(lián)合序列模型的轉(zhuǎn)換方法對傳統(tǒng)蒙古文到西里爾蒙古文的轉(zhuǎn)換（Traditional Mongolian To Cyril Mongolian Conversion，T2C）和西里爾蒙古文到傳統(tǒng)蒙古文的轉(zhuǎn)換（Cyril Mongolian To Traditional Mongolian Conversion，C2T）都得到了較好的實驗效果。

2 傳統(tǒng)蒙古文和西里爾蒙古文的比較

西里爾蒙古文是從傳統(tǒng)蒙古文演變而成的，語法和詞匯基本相同。傳統(tǒng)蒙古文和西里爾蒙古文的字母對照如表1所示。傳統(tǒng)蒙古文和西里爾蒙古文之間有不可分割的聯(lián)系，但二者之間有一定的區(qū)別：

（1）傳統(tǒng)蒙古文有35個字母，其中包含8個元音字母和27個輔音字母[9]。西里爾蒙古文也有35個字母，其中包含13個元音字母，20個輔音字母，硬化字母和軟化字母各一個[10]。

（2）西里爾蒙古文字母區(qū)分大小寫，而傳統(tǒng)蒙古文字母不區(qū)分大小寫。西里爾蒙古文字母的大寫用法跟英語相似。傳統(tǒng)蒙古文字母不區(qū)分大小寫，并且每個字母在詞中變化有很多，在單詞中，字母在上、中、下位置不同將導(dǎo)致寫法也不相同[11]。

（3）西里爾蒙古文和傳統(tǒng)蒙古文書寫方向不同。西里爾蒙古文采用的是從左到右的書序，從上到下的行序，而傳統(tǒng)蒙古文采用從上到下的書序，從左到右的行序[12]。

（4）書面語和口語的差別程度在西里爾蒙古文與傳統(tǒng)蒙古文中并不相同。西里爾蒙古文中的書面語和口語基本保持一致，口語中怎么發(fā)音就基本上怎么拼寫，而傳統(tǒng)蒙古文的書面語與口語不是一一對應(yīng)的，書面語轉(zhuǎn)口語時會出現(xiàn)元音和輔音的脫落、增加和變換等現(xiàn)象[13]。

表1 西里爾蒙古文和傳統(tǒng)蒙古文字母對照

傳統(tǒng)蒙古文和西里爾蒙古文相互轉(zhuǎn)換時單詞之間基本上是一一對應(yīng)的，但是由于上述傳統(tǒng)蒙古文和西里爾蒙古文的區(qū)別，從而它們的字母不是一一對應(yīng)，有一對多或多對一的現(xiàn)象。這些問題給傳統(tǒng)蒙古文和西里爾蒙古文的相互轉(zhuǎn)換工作帶來了一定的困難。

3 基于聯(lián)合序列模型的轉(zhuǎn)換方法

3.1 聯(lián)合序列模型

傳統(tǒng)蒙古文單詞和西里爾蒙古文單詞都是由字母串組成的，假設(shè)G為傳統(tǒng)蒙古文字母串的集合，西里爾蒙古文字母串集合為Φ。T2C轉(zhuǎn)換問題可表述為：

公式（1）表示對于傳統(tǒng)蒙古文單詞g∈G*尋找最有可能對應(yīng)的西里爾蒙古文單詞?∈Φ*。*表示所有字符串的集合。與此相似，C2T轉(zhuǎn)換問題也可以表示成公式（1）的形式。本文以T2C轉(zhuǎn)換為例描述了基于聯(lián)合序列模型的轉(zhuǎn)換方法，而C2T轉(zhuǎn)換方法跟T2C轉(zhuǎn)換方法完全相同。

聯(lián)合序列模型的基本思想是輸入和輸出序列共同可以生成包含輸入和輸出符號的聯(lián)合單位的共同序列。簡單情況下，每個單位帶有零或一個輸入符號和零或一個輸出符號。這相當于有限狀態(tài)轉(zhuǎn)換器（FST）的傳統(tǒng)定義。這種可以由多個輸入和輸出符號組成的單位稱之為共同序列（Co-sequence）或聯(lián)合多元（Joint Multigram）[14]。本文把傳統(tǒng)蒙古文和西里爾蒙古文字母的聯(lián)合多元（Traditional-Cyril Mongolian joint multigram）簡稱為tracyone。

tracyone是一對不等長的傳統(tǒng)蒙古文字母和西里爾蒙古文字母序列的組合={g，φ}∈Q?G*×Φ*。使用gq和φq分別表示的第一和第二部分。如果tracyone最多包含一個傳統(tǒng)蒙古文字母和一個西里爾蒙古文字母，則稱之為單數(shù)tracyone。Q的列表可以從訓(xùn)練數(shù)據(jù)中獲得，也可以通過手工指定。

傳統(tǒng)蒙古文字母和西里爾蒙古文字母序列被分成相等的段數(shù)，這樣的分組稱為聯(lián)合分割。對齊項是可以交換使用的。把這特殊的對齊類型稱為“m-to-n”。對于一個給定的輸入和輸出字符串對，分割tracyone的結(jié)果不是唯一的。對于可能有歧義的m-to-n對齊，可以對輸入的字母串進行自由的組合。例如，把傳統(tǒng)蒙古文單詞“轉(zhuǎn)寫：ebdegde，對應(yīng)的西里爾蒙古文：эвдэгд）分割成3個或7個tracyone同樣是有效的，如圖1和圖2所示。

圖1 生成3個tracyone序列的結(jié)果圖

圖2 生成7個tracyone序列的結(jié)果圖

這種模糊的聯(lián)合概率是由所有相匹配的tracyone序列的總和來決定的：

其中，q∈Q*是tracyones的一個序列，S(g，φ)是 g和φ的所有聯(lián)合分割的集合：

這里∧表示序列的串聯(lián)，K=|q|表示tracyone序列q的長度。聯(lián)合概率分布 p(g，φ)成為了tracyone序列q= q1q2…qK上的概率分布 p(q)，它可以用標準的M-gram模型近似表示：

位置 j＜1和 j＞K是被視為特殊的邊界符號qj=⊥，它允許作為蒙古文單詞的開始和結(jié)束位置的特征現(xiàn)象來建模。下面介紹了對于這種模型的估計方法。

3.2 模型估計

3.2.1 Multigram的最大期望值

下面考慮在不是聯(lián)合分割的訓(xùn)練數(shù)據(jù)中對可變長度單元的模型的推理問題。給定N個傳統(tǒng)蒙古文單詞和對應(yīng)的西里爾蒙古文單詞的訓(xùn)練樣本O1，O2，…，ON=(g1，φ1)，(g2，φ2)，…，(gN，φN)，但是傳統(tǒng)蒙古文和對應(yīng)的西里爾蒙古文字母沒有水平對齊。首先，由于一個聯(lián)合分割S定義唯一的聯(lián)合序列，發(fā)現(xiàn)如果有一個聯(lián)合序列模型，就可以計算每個訓(xùn)練樣本的任何聯(lián)合分割概率：

因此，訓(xùn)練數(shù)據(jù)的對數(shù)似然值可以用所有分割的總和來表示：

在聯(lián)合單位中分割S是一個隱藏的變量。最大似然率訓(xùn)練可以采用期望最大化算法（EM）。首先考慮上下文獨立的unigram（M=1）情況，更新參數(shù)θ′的重估公式如下：

其中，n(q)是在序列q中tracyone出現(xiàn)的次數(shù)。把e(;θ)稱其為 q 的證據(jù)（evidence），它表示在當前的參數(shù)θ下訓(xùn)練樣本中出現(xiàn)的期望值。e(;θ)可以通過前向后向過程計算得到。

對于高階模型(M＞1)，用h來表示在前邊的聯(lián)合單元序列 hj=(qj-M+1，qj-M+2，…，qj-1)。用 nq，h(q)來表示在序列 q 中 M-gram qj-M+1，qj-M+2，…，qj-1出現(xiàn)的次數(shù)。重估公式如下：

此外，默認序列q中已經(jīng)包含了開始和結(jié)束邊界標志。

顯然，上述公式不允許新的tracyone出現(xiàn)的概率為零。所以通過人工設(shè)置比較滿意的長度約束，并均勻分布到所有tracyones來初始化模型參數(shù)。通常只使用一個簡單的上限 L，即 |gq|≤L 和 |φq|≤L，但排除了不會生成的情況|gq|=|φq|=0。所以，更復(fù)雜的約束是可想而知的，例如傳統(tǒng)蒙古文字母和西里爾蒙古文字母序列長度的不同范圍，或下限設(shè)置。一個被公認的初始分布是tracyones總數(shù)的倒數(shù)：

其中，l=r=0表示附加的序列結(jié)束標志。

tracyone的長度約束參數(shù)L對tracyone的數(shù)目有明顯的影響。序列模型的其他外部參數(shù)是最大極限的歷史長度M。M和L一起規(guī)定了模型的有效范圍，即在給定的位置字母或音素的數(shù)目影響估計的概率值。

一般情況下，用最大似然估計法訓(xùn)練模型時，很可能會出現(xiàn)過擬合現(xiàn)象，并且在預(yù)測未出現(xiàn)的數(shù)據(jù)時效果不佳。同樣，從訓(xùn)練樣本中分析得到的一些單調(diào)初始化的tracyone會達到某個概率聚集，而只有其中的小部分將有助于“正確”的模型估計。這兩個問題分別會通過下面討論的平滑和裁剪進行處理。

3.2.2 證據(jù)裁剪

證據(jù)裁剪可以解決過擬合問題。也就是說，修剪低于閾值的證據(jù)值，取代在方程（12）中的 p(|h;θ)：

此過程不可能在迭代過程中使tracyones逐漸消失。證據(jù)裁剪同時有效地控制了tracyone列表的大小。在訓(xùn)練數(shù)據(jù)上，閾值τ需要進一步調(diào)整。

3.2.3 減值證據(jù)

比較估計公式（12）和典型的N-gram語言模型，注意到，除了用證據(jù)值替代傳統(tǒng)的N-gram計數(shù)值，面臨著本質(zhì)上是相同的建模問題。眾所周知，有效的平滑技術(shù)對建立好的語言模型是至關(guān)重要的。實證研究表明，用插值和邊緣保留回退分布作絕對減值，也被稱為Kneser-Ney平滑，比所有其他已知的平滑方法的效果都要好。不同于傳統(tǒng)語言模型的計數(shù)值，證據(jù)值是一個小數(shù)。所以采用從傳統(tǒng)的語言模型獲取的結(jié)果時必須謹慎，因為它們的推導(dǎo)可能依賴于整數(shù)計數(shù)的假設(shè)。絕對減值和插值估計方程如公式（15）所示：

為清楚起見，添加了一個下標M表示分布的階數(shù)。dM≥0 是減值參數(shù)。pM-1(|)是廣義的，低階(M-1)-gram 的分布使取決于減少的歷史i=(i-M+2，i-M+3，…，i-1)。λ(h)為歸一化參數(shù)，它使得所有的分布總和到1。

在語言模型中的最小計數(shù)值為1（除了未見過的事件），然而證據(jù)值可以變得任意小，實際上小于減值。所以減值的證據(jù)估計包含證據(jù)裁剪的一種形式：用低于減值參數(shù)的證據(jù)值的tracyones拒絕進入模型。證據(jù)裁剪這種形式和明確的形式（14）之間的一個顯著區(qū)別是在減值里對未見過的事件分配了減值證據(jù)，而在其余的證據(jù)有效地分配到了所有可見的事件。

仍然需要指定回退分布 pM-1。對減少歷史hˉ想利用一致性約束：

當然，公式（17）中的 pM-1()也需要平滑處理。平滑 pM-1的兩個方法看上去比較合理。第一是在公式（15）中“插入”減少的證據(jù)值（18），第二是平滑約束條件。

事實證明，除了對減值參數(shù)不同的解釋，這兩種方法會得到相同的結(jié)果。絕對減值遞歸地應(yīng)用于低階分布 pM-2，pM-3，…，p0。零元分布 p0跟所有潛在的tracyone（13）相同。由于小數(shù)的證據(jù)值不適合它自己的運算，所以在持有集（the hold-out set）上優(yōu)化減值參數(shù)d。

3.2.4 自底向上的模型建立和減值期望最大化

迭代過程中，用單調(diào)的概率分布初始化unigram模型（11），即所有可能的multigrams有相同的初始概率。在訓(xùn)練集上，用不受約束的計數(shù)c(q)選擇性的初始化，即在每個詞中不管相鄰的tracyones的重復(fù)，計tracyone的出現(xiàn)次數(shù)。

通過應(yīng)用平滑方法，這些計數(shù)（受tracyone長度約束的限制）被用于計算初始的概率分布。高階的M-gram模型使用以前生成的(M-1)-gram模型進行初始化。這意味著，在低階模型中只允許與不減值的M-gram相符合的歷史。

現(xiàn)在要解決的是證據(jù)減值怎么樣與EM算法相互進行交互的問題。首先，優(yōu)化減值需要數(shù)據(jù)集，這數(shù)據(jù)集獨立于計算證據(jù)值時的數(shù)據(jù)集。不分離這些數(shù)據(jù)集會導(dǎo)致減值的總值會低估。為此，從訓(xùn)練數(shù)據(jù)中分離訓(xùn)練集Ot和典型的較小的持有集Oh。訓(xùn)練集用于計算證據(jù)值，而持有集用于調(diào)整減值參數(shù)。

在每個迭代中原始的EM算法確實提高了樣本出現(xiàn)的可能性，但這通常會導(dǎo)致過度擬合和在某個點上持有集的可能性將開始減小。因此，在減值EM算法中為了確保持有集的可能性不降低，會更新減值。

3.3 解碼

估計模型之后，公式（1）可以用于T2C轉(zhuǎn)換。從傳統(tǒng)蒙古文到西里爾蒙古文轉(zhuǎn)換時，通常用極大值來近似公式（2）中的總和。

具體來說，對給定的傳統(tǒng)蒙古文字母串尋找最有可能對應(yīng)的tracyone序列，并轉(zhuǎn)換成對應(yīng)的西里爾蒙古文字母串。

4 實驗

實驗采用的性能評價標準為詞誤識率（Word Error Rate，WER）和字母誤識率（Letter Error Rate，LER）。

其中，Ncorrect為轉(zhuǎn)換正確的單詞數(shù)目，Ntotal為所有需要轉(zhuǎn)換的單詞數(shù)，Nphtotal為所有需要轉(zhuǎn)換的單詞對應(yīng)的字母個數(shù)總合，Nins為轉(zhuǎn)換時出現(xiàn)的插入錯誤個數(shù)，Ndel為轉(zhuǎn)換時所有出現(xiàn)的刪除錯誤總合，Nsub為轉(zhuǎn)換時所有出現(xiàn)的替換錯誤總合。

4.1 實驗1：基于聯(lián)合序列模型的轉(zhuǎn)換實驗

本文以從《新蒙漢詞典》[15]中搜集的65 232個傳統(tǒng)蒙古文和對應(yīng)的西里爾蒙古文單詞作為數(shù)據(jù)集。在做基于聯(lián)合序列模型的T2C和C2T轉(zhuǎn)換實驗時，選用60 000個詞對作為訓(xùn)練集，以5 232個詞對作為測試集。

訓(xùn)練T2C和C2T轉(zhuǎn)換的聯(lián)合序列模型時，持有集的大小為訓(xùn)練集的5%，平滑算法采用Kneser-Ney平滑算法。由于在聯(lián)合序列模型中tracyone的長度上限L和M-gram的階數(shù)M的大小會直接影響模型的復(fù)雜度和實驗的結(jié)果。因此，在做T2C和C2T轉(zhuǎn)換實驗時，本文通過一系列對比實驗獲得了最優(yōu)參數(shù)。

圖3和圖4所示的是在不同的tracyone長度上限L和M-gram的階數(shù)M的情況下，T2C和C2T轉(zhuǎn)換的字母誤識率結(jié)果圖。從圖3和圖4中可以看出當M=1時，L=4的T2C和C2T轉(zhuǎn)換效果最好，L=1的效果最差，但是當M大于4時，L=1的T2C和C2T轉(zhuǎn)換結(jié)果都明顯要好于其他情況，并且隨著M的增加會越發(fā)明顯。

圖3 在測試集上L和M不同值時T2C轉(zhuǎn)換結(jié)果比較圖

圖4 在測試集上L和M不同值時C2T轉(zhuǎn)換結(jié)果比較圖

當L=1時，在測試集和訓(xùn)練集上對M做了進一步的T2C和C2T實驗，實驗結(jié)果如表2和表3所示。從表2和表3中可以看出M=8時T2C和C2T結(jié)果都為最優(yōu)。當T2C轉(zhuǎn)換時，測試集上的詞誤識率達到了18.38%，字母誤識率達到了6.75%，訓(xùn)練集上的詞誤識率達到了3.24%，字母誤識率達到了0.64%。當C2T轉(zhuǎn)換時，測試集上的詞誤識率達到了18.77%，字母誤識率達到了7.14%，訓(xùn)練集上的詞誤識率達到了3.24%，字母誤識率達到了0.94%。實驗中，T2C和C2T轉(zhuǎn)換都得到了較好的實驗效果。

表2 在L=1時不同M值的T2C轉(zhuǎn)換結(jié)果

表3 在L=1時不同M值的C2T轉(zhuǎn)換結(jié)果

4.2 實驗2：基于規(guī)則的C2T轉(zhuǎn)換方法和基于聯(lián)合序列模型的C2T轉(zhuǎn)換方法比較

本文對基于規(guī)則的C2T轉(zhuǎn)換方法和基于聯(lián)合序列模型的C2T轉(zhuǎn)換方法進行了比較?；谝?guī)則的方法采用了蒙古文詞干綴接構(gòu)形后綴的轉(zhuǎn)換方法[1，3]。本文采用的基于規(guī)則的轉(zhuǎn)換方法中西里爾蒙古文和傳統(tǒng)蒙古文的對應(yīng)詞干庫包含52 830個蒙古文詞干，西里爾蒙古文和傳統(tǒng)蒙古文的對應(yīng)靜詞后綴庫包含336個構(gòu)形后綴，西里爾蒙古文和傳統(tǒng)蒙古文的對應(yīng)動詞后綴庫包含498個構(gòu)形后綴。本文結(jié)合傳統(tǒng)蒙古文和西里爾蒙古文的構(gòu)詞規(guī)則，并利用詞干庫和后綴庫建立了基于規(guī)則的轉(zhuǎn)換系統(tǒng)。實驗中，基于聯(lián)合序列模型的C2T轉(zhuǎn)換方法采用了 L=1，M=8時的聯(lián)合序列模型進行了C2T轉(zhuǎn)換。本文對包含11 365個西里爾蒙古文單詞的文檔集（TestSet1）和包含9 932個西里爾蒙古文單詞的文檔集（TestSet2）進行了C2T轉(zhuǎn)換實驗，實驗結(jié)果如圖5所示。

從圖5可以看出基于聯(lián)合序列模型的C2T轉(zhuǎn)換結(jié)果明顯好于基于規(guī)則的C2T轉(zhuǎn)換結(jié)果。并且，通過對實驗結(jié)果進行分析，發(fā)現(xiàn)基于規(guī)則的C2T轉(zhuǎn)換方法存在對于詞干不包含在詞干庫中的西里爾蒙古文單詞無法進行轉(zhuǎn)換，而且部分蒙古文單詞不遵守轉(zhuǎn)換規(guī)則等問題。然而，基于聯(lián)合序列模型的轉(zhuǎn)換方法較好地解決了這些問題。

圖5 基于規(guī)則和基于聯(lián)合序列模型的C2T轉(zhuǎn)換結(jié)果比較

5 結(jié)束語

本文首先對傳統(tǒng)蒙古文和西里爾蒙古文進行了比較，然后根據(jù)它們的特點提出了基于聯(lián)合序列模型的傳統(tǒng)蒙古文和西里爾蒙古文的相互轉(zhuǎn)換方法，并建立了對應(yīng)的相互轉(zhuǎn)換系統(tǒng)。為了獲得聯(lián)合序列模型相關(guān)參數(shù)的最優(yōu)值，做了一系列實驗。實驗結(jié)果表明，持有集為訓(xùn)練數(shù)據(jù)的5%，tracyone的長度上限 L=1，M-gram的階數(shù)M=8時，T2C和C2T轉(zhuǎn)換的誤識率都為最低。本文提出的基于聯(lián)合序列模型的相互轉(zhuǎn)換方法很好地解決了傳統(tǒng)蒙古文和西里爾蒙古文的相互轉(zhuǎn)換問題，并且基本達到了實用要求。

[1]包薩日娜.傳統(tǒng)蒙古文到新蒙文轉(zhuǎn)換中名詞及其格附加成分轉(zhuǎn)換的研究[D].呼和浩特：內(nèi)蒙古大學，2009.

[2]烏日力嘎.傳統(tǒng)蒙古文、西里爾蒙古文-漢文電子詞典的建立[D].呼和浩特：內(nèi)蒙古大學，2009.

[3]Li Hao，Sarina B.The study of comparison and conversion about traditional Mongolian and Cyrillic Mongolian[C]// 2011 4th InternationalConference on IntelligentNetworks and Intelligent Systems，2011：199-202.

[4]高紅霞，馬小蕾.西里爾蒙古文網(wǎng)頁向傳統(tǒng)蒙古文自動轉(zhuǎn)換系統(tǒng)的文字轉(zhuǎn)換研究[J].內(nèi)蒙古民族大學學報，2012，18（5）：17-18.

[5]明玉.基于詞典、規(guī)則與統(tǒng)計的蒙古文詞切分系統(tǒng)的研究[D].呼和浩特：內(nèi)蒙古大學，2011.

[6]Zhao Lili，Men Jia，Zhang Congpin，et al.A combination of statistical and rule-based approach for Mongolian lexical analysis[C]//2010 International Conference on Asian Language Processing，Harbin，2010：7-10.

[7]Bisani M，Ney H.Joint sequence models for grapheme-tophoneme conversion[J].Speech Communication，2008，50（5）：434-451.

[8]Wang D.Out-of-vocabulary spoken term detection[D].[S.l.]：University of Edinburgh，2010：85-110.

[9]確精扎布.蒙古文編碼[M].呼和浩特：內(nèi)蒙古大學出版社，2000.

[10]嘎拉桑朋斯格.基立爾蒙古文學習讀本[M].呼和浩特：內(nèi)蒙古教育出版社，2006.

[11]清格爾泰.蒙古語語法[M].呼和浩特：內(nèi)蒙古人民出版社，1992.

[12]圖門吉日嘎拉.現(xiàn)代蒙古語[M].呼和浩特：內(nèi)蒙古大學出版社，2009.

[13]舍·卻瑪.蒙古文、基里爾文正字法比較研究[M].呼和浩特：內(nèi)蒙古教育出版社，2010.

[14]Bisani M，Ney H.Multigram-based grapheme-to-phoneme conversion for LVCSR[C]//Proc Eurospeech’03，Geneva，2003：933-936.

[15]張志忠.新蒙漢詞典[M].北京：商務(wù)印書館，2011.

BAO Feilong,GAO Guanglai,YAN Xueliang,WEI Hongxi

College of Computer Science,Inner Mongolia University,Hohhot 010021,China

Traditional Mongolian and Cyrillic Mongolian are both Mongolian languages and are widely used in China and Mongolia respectively.With almost the same pronunciations,their written forms are totally different.According to the characteristic of the two languages,this paper proposes a joint sequence model based approach and depicts in detail the corresponding experiments performed.In the experiments,the word error rate and letter error rate for the traditional Mongolian to Cyrillic Mongolian conversion system are 18.38%and 6.75%,and that for Cyrillic Mongolian and traditional Mongolian conversion system are 18.77%and 7.14%.Experimental results show that the proposed approach can meet the basic requirements for practical use.

traditional Mongolian;Cyrillic Mongolian;joint sequence models;joint multigram

傳統(tǒng)蒙古文和西里爾蒙古文分別是在中國和蒙古國使用的蒙古文，它們的口語基本相同，但是書寫形式完全不同。結(jié)合傳統(tǒng)蒙古文和西里爾蒙古文的構(gòu)詞特點，提出了基于聯(lián)合序列模型的傳統(tǒng)蒙古文和西里爾蒙古文相互轉(zhuǎn)換方法，并做了大量的相互轉(zhuǎn)換實驗。實驗中，傳統(tǒng)蒙古文到西里爾蒙古文轉(zhuǎn)換系統(tǒng)的詞誤識率和字母誤識率分別達到了18.38%和6.75%，西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換系統(tǒng)的詞誤識率字母誤識率分別達到了18.77%和7.14%，基本達到了實用要求。

傳統(tǒng)蒙古文；西里爾蒙古文；聯(lián)合序列模型；聯(lián)合多元

TP391.1

10.3778/j.issn.1002-8331.1301-0314

BAO Feilong,GAO Guanglai,YAN Xueliang,et al.Research on conversion approach between traditional Mongolian and Cyrillic Mongolian.Computer Engineering and Applications,2014,50（23）：206-211.

國家自然科學基金（No.61263037，No.71163029）；內(nèi)蒙古自然科學基金（No.2014BS0604）；內(nèi)蒙古大學高層次人才引進科研項目資助。

飛龍（1985—），男，博士，講師，主研方向為蒙古文信息處理、語音識別與語音檢索；高光來（1964—），男，教授，博士生導(dǎo)師，主研方向為蒙古文信息處理、模式識別與人工智能；閆學亮（1984—），男，碩士生，主研方向為蒙古文信息處理、信息檢索；魏宏喜（1981—），男，博士，副教授，主研方向為蒙古文信息處理、文字識別。E-mail：csfeilong@imu.edu.cn

2013-01-28

2013-06-24

1002-8331（2014）23-0206-06

CNKI網(wǎng)絡(luò)優(yōu)先出版：2013-08-22,http://www.cnki.net/kcms/detail/11.2127.TP.20130822.1408.002.html