白雙成
(1.內(nèi)蒙古社會科學院 蒙古語信息技術研發(fā)中心,內(nèi)蒙古 呼和浩特 010020;(2.內(nèi)蒙古蒙科立軟件股份有限公司,內(nèi)蒙古 呼和浩特 010011)
蒙古文原始語料統(tǒng)計建模研究
白雙成1,2
(1.內(nèi)蒙古社會科學院 蒙古語信息技術研發(fā)中心,內(nèi)蒙古 呼和浩特 010020;(2.內(nèi)蒙古蒙科立軟件股份有限公司,內(nèi)蒙古 呼和浩特 010011)
蒙古文字符編碼與字形之間的多對多復雜轉(zhuǎn)換關系及錄入不規(guī)范等眾多原因?qū)е略颊Z料存在嚴重的拼寫多樣化現(xiàn)象和字形拼寫錯誤,成為大數(shù)據(jù)處理瓶頸。該文以蒙古文輸入法為例,利用大詞庫和形碼生成器,將原本基于讀音正確的詞晶格最佳路徑搜索問題轉(zhuǎn)換為基于形碼詞晶格路徑搜索問題,很好地解決了原始文本統(tǒng)計建模問題。實驗結果證明,該方法及字形歸并的模型優(yōu)化方法可顯著提高輸入效率,對所有蒙古文“音詞轉(zhuǎn)換”和“形詞轉(zhuǎn)換”研究都有廣泛的參考價值。
蒙古文原始文本;統(tǒng)計建模;讀音錯誤;字形錯誤;智能輸入
自然語言處理廣泛使用統(tǒng)計語言模型(Statistical Language Model,SLM),尤其是自然標注大數(shù)據(jù)(Naturally Annotated Big Data)、(深度)機器學習(Deep Machine Learning)、知識圖譜(Knowledge Graph)等眾多方法和理論,促使信息檢索(Information Retrieve)、機器翻譯(Machine Translation)、校對糾錯(Spell Check&Correct)、知識問答(Question Answering)等涉及自然語言應用的各領域研究工作獲得了較為顯著的進展,基于這些研究成果的各類應用投入使用。這些新技術、新方法的共同點是要以大量數(shù)據(jù)資源為依托。然而,就是由于“可直接利用”的蒙古文數(shù)字資源稀缺,方便獲取的未糾錯原始文本又無法直接利用資源,蒙古文信息處理對這些新技術、新方法顯得格外的反應遲緩。另一方面,下大力氣構建的各類詞典(Diction)和知識庫(Knowledge Base)得不到充分利用,顯得非常遺憾。我們急需在這方面進行深入探索和研究。
1.1 蒙古文糾錯語料現(xiàn)狀
Unicode[1]核心規(guī)范(Core Specification)中13.4節(jié)對蒙古文編碼原理(Encoding Principles)這樣描述:蒙古文編碼模式(EncodingModel)有別于Unicode中的任何其他文字,也較為復雜。因其復雜性,在此僅展示蒙古文映射的基本特性。因派生蒙古文的閃米特字母表(SemiticAlphabet)無法表全蒙古語讀音,很多字形被賦予不同讀音*實際上,同形字母使蒙古文具有了“跨方言”特性。,其正確讀音要依賴上下文來判斷。在這方面蒙古文的拼寫法(Orthography)與英文類似,但拉丁文中c不管讀作/k/或/s/,始終被認為是同一個字母(Letter)而賦予相同字符(Character)編碼。與此不同,蒙古文的相同字形,可能因有不同讀音而被賦予不同編碼。這主要源于現(xiàn)代蒙古語語法認為字母的讀音才是用于區(qū)別的顯著特征,而不是它的字形。
正如這段Unicode規(guī)范所述,我們所熟知的漢、英等多數(shù)文字都是“按形編碼”,字符編碼與字形之間是一對一的簡單對應關系,而蒙古文是“按音編碼”,字符編碼與字形之間是多對多的復雜轉(zhuǎn)換關系,這種特殊編碼方式是導致蒙古文文本中存在“拼寫形式多樣化現(xiàn)象”[2]或稱之為“同形異碼現(xiàn)象”[3]的根本原因。這種特殊的編碼方式也使其拼寫錯誤細分為“字形拼寫錯誤”和“讀音拼寫錯誤”兩個層次,讀音拼寫錯誤指雖然詞形正確但字符內(nèi)碼不正確,或者說讀音不正確。所以,蒙古文信息處理界一般認為只有“字形拼寫正確”且“讀音拼寫正確”的文本才是可直接利用的數(shù)據(jù)資源,本文稱之為“糾錯文本”(Corrected Text)或糾錯語料,而未經(jīng)糾錯或未經(jīng)讀音糾錯的文本為“原始文本”(Raw Text)或原始語料。
因糾錯語料單詞拼寫正確,我們直接從文本抽取單詞構建詞庫(Lexicon),可以直接進行各類統(tǒng)計分析,可以直接利用現(xiàn)有的各類語言模型解決很多問題。如果語料使用拉丁轉(zhuǎn)寫(Latinization*也稱作羅馬化(Romanization),就是將蒙古文字母使用拉丁字母轉(zhuǎn)寫方式。)方式,還可暫時忽略蒙古文編碼相關問題而直接套用各種模型。目前,我們所了解的蒙古文統(tǒng)計建模的研究基本都是基于拉丁轉(zhuǎn)寫的已糾錯語料[4-10]。
目前,蒙古文已糾錯語料及其統(tǒng)計研究存在如下幾個特點。
(1) 現(xiàn)有規(guī)模小,新建擴建難度大
只因真正符合讀音正確這一苛刻要求的糾錯語料建設是個費時、費力、費錢的浩大工程,從目前公開資料來看,只有內(nèi)蒙古大學蒙古學學院建立的100萬詞級語料[11](100TUM)是經(jīng)得起考驗的糾錯語料庫。雖然后來擴充到500萬詞級,近期進一步擴充到了1 000萬詞級,但基于這些擴充語料的研究還很少,其可靠性還需時間和實踐驗證。有研究人員提出通過自動糾錯方式構建糾錯語料方案,甚至100TUM建立初期就已經(jīng)利用了校對軟件。但蒙古文信息處理很多底層基礎研究還未解決好,工程化更是薄弱,未能形成完整技術體系現(xiàn)狀下,單純依賴“詞典+規(guī)則”校對和糾錯很難滿足糾錯語料建設高要求,剩余人工糾正工作仍然不輕松[12]*見確精扎布教授此書694頁“關于蒙古文糾錯軟件”一文。。
(2) 無法滿足日趨多樣化建模需求
百萬詞級規(guī)模雖然能夠滿足部分統(tǒng)計建模的科研需求,但是面向?qū)嶋H應用時明顯不足,更無法滿足需要大數(shù)據(jù)的統(tǒng)計模型。例如,詞向量表示(Word Vector Presentation)是深度機器學習的基礎,很顯然,語料量越大,低維空間(Low Dimensional Space)的詞向量越精準。逐步擴容的糾錯語料也許能夠滿足科研和部分實際應用需要,但我們不能單純等待搜集足夠量的糾錯語料后才開展相關研究工作。另一方面,僅限于糾錯語料的統(tǒng)計思路不利于大數(shù)據(jù)利用,更無法解決動態(tài)流通語料(Dynamic Current Corpus)的實時監(jiān)控、輿情分析、語情檢測等動態(tài)語料統(tǒng)計領域需求。新詞術語研究,語言動態(tài)監(jiān)測等時效性很強的工作更不可能依賴加工好的語料,必須尋求基于流通語料的利用渠道。由于原始語料量可以很大,即使在篩查特定條件詞(例如,長詞)、觀察搭配(Collocation)、觀察單詞長度分布等最基本和最簡單的統(tǒng)計必然要比糾錯語料表現(xiàn)出更好的統(tǒng)計分布。更何況,直接利用蒙古文原始語料的研究工作是糾錯語料建設的必要補充和回旋途徑,相輔相成,互為補充。
(3) 不易挖掘語言特性
如前所述,采用拉丁轉(zhuǎn)寫方式的語料便于不受限于蒙古文編碼的特殊限制及語言特性帶來的麻煩而無障礙利用現(xiàn)有統(tǒng)計模型,甚至早期不支持多字節(jié)編碼(Multi-Byte Character Set)的統(tǒng)計模型工具都可以直接利用。另一方面,由于拉丁轉(zhuǎn)寫方式與標準編碼都是“按音編碼”,便于轉(zhuǎn)化為標準編碼進行進一步研究。但最終我們必須解決好語言的特性問題并提煉為共性問題,才能利用好通用模型。因為人為糾正掩蓋了蘊含在實際應用中真實存在的錯誤,基于糾錯語料的統(tǒng)計方法已失去了接觸這些非常有用的“錯誤”信息的機會了。僅以單詞錄入不規(guī)范而言,我們可以統(tǒng)計觀察不同維度的共性,這些共性可能來源于不同錄入工具特性,也可能來源于不同區(qū)域或方言差異,是糾錯中不容錯過的重要信息。這一點是本文有別于以往所有蒙古文統(tǒng)計建模的重要特性。
1.2 原始語料利用面臨的困難
既然沒有足量可直接利用的糾錯語料,又無法滿足日趨多樣化的統(tǒng)計建模需求,那我們是否可以利用原始語料呢?
雖然不像英文一樣有取之不盡的數(shù)字資源,也不像漢文一樣具有龐大使用人群,但蒙古文也已經(jīng)積累了足夠多的數(shù)字資源。除每年各大出版社、報社、雜志社的正規(guī)出版物都有電子文檔外,近年來蒙古文網(wǎng)站發(fā)展迅猛,有日漸增多和繁榮趨勢。尤其是“中國蒙古語新聞網(wǎng)”等正規(guī)新聞網(wǎng)站內(nèi)容都是經(jīng)過多層審核發(fā)布,文字相對規(guī)范標準,拼寫準確度較高。雖說文字內(nèi)容存在大量讀音不正確,甚至不乏字形拼寫錯誤,也存在蒙古文編碼不統(tǒng)一,視覺順序與文本流順序不統(tǒng)一[13]等一系列問題。但這正是蒙古文目前使用的真實反映和寫照,蘊含著很多可利用、可挖掘信息,是我們需要關注和有待解決的問題。我們可以很方便地通過網(wǎng)絡爬蟲(Web Crawler)爬取這些網(wǎng)絡資源,稍作編碼轉(zhuǎn)換、行序恢復等預處理即可獲得原始文本資源。本文原始文本特指這種只做HTML標簽和排版格式剔除、行序恢復的未經(jīng)讀音和字形糾正、未經(jīng)標注和其他額外處理的文本資源。網(wǎng)絡文本資源內(nèi)容豐富且獲取便捷。雖然蒙古文網(wǎng)絡應用時間不長,但已經(jīng)顯示出了他的生命力,以其可獲得性(Accessibility)成為潛力最大的數(shù)字資源,雖然還不敢說輕松獲得海量大數(shù)據(jù),但我們有理由說便利獲取較大規(guī)模未標注數(shù)據(jù)時代已經(jīng)來臨。我們已經(jīng)站在了大數(shù)據(jù)門口,注重精加工、精處理之外,需要我們適當轉(zhuǎn)變思想,將數(shù)據(jù)廢氣(Data Exhaust)化廢為寶,從數(shù)據(jù)里提煉出有價值的信息和知識。
雖然我們已經(jīng)有條件獲取較大規(guī)模原始語料,但正如前所述,蒙古文原始語料還不是可直接利用的數(shù)字資源,原始語料的利用困難重重,其障礙主要來源于三個方面。
(1) 字形拼寫錯誤泛濫且隱蔽
由于蒙古文的書寫特性,尤其是連寫(Cursive Joining*這與漢字草書和英文花體等藝術層面的書寫方式有本質(zhì)區(qū)別。常見的連寫文字還有阿拉伯文(包括國內(nèi)使用的維吾爾文、哈薩克文和柯爾克孜文)和希伯來文等。)特點注定蒙古文的字形拼寫錯誤發(fā)生率遠高于其他字母獨立式的文字且更具隱蔽性,這一特性也加劇了原始語料的利用難度。據(jù)我們初步觀察,只出現(xiàn)一次的詞(Hapaxes)中,字形拼寫錯誤詞占據(jù)了很大一部分。
(2) 拼寫形式多樣化現(xiàn)象嚴重
如前所述,即使字形拼寫完全正確,其編碼可能相互不一致,這種“人機看法不一致”的后果是原本相同的詞被區(qū)分為多個詞,致使無法直接統(tǒng)計建模,甚至基本的查詢搜索都難以實現(xiàn)。這種蒙古文原始語料中存在的獨特且較為嚴重的拼寫形式多樣化現(xiàn)象成為原始語料利用的最大阻礙。
(3) 形態(tài)切分歧義多
不帶統(tǒng)計模型的蒙古文輸入法流程如圖1所示,從各種詞庫搜索匹配輸入碼k的候選詞依據(jù)某種排序算法排序后作為輸入法候選詞展示給用戶進行選擇。不管我們搜集多大的詞庫,都不可能是“全詞”詞典,不可能徹底解決OOV(未登錄詞)問題,所以還需要“音碼輸入算法”作為補充,讓用戶錄入OOV,這完全類似于漢字拼音輸入法中的全拼輸入。除了詞組庫中詞間搭配關系外,各單詞獨立輸入,沒有考慮詞間影響。
圖1 不帶統(tǒng)計模型的蒙古文輸入法流程圖
基于統(tǒng)計語言模型的漢字輸入法概念模型可簡化為圖2。用戶輸入的拼音串經(jīng)過音節(jié)切分器(Syllable Segmentor)切分為音節(jié)圖(Syllable Graph 可能存在切分歧義,如果考慮簡拼形式,切分歧義更多),再經(jīng)過晶格構建器(Lattice Builder)構造晶格(Lattice),最后由靜態(tài)統(tǒng)計語言模型(Static Statistical Language Model)獲取最佳路徑。
圖2 基于統(tǒng)計語言模型的漢字輸入法概念模型圖
如果有了足量蒙古文糾錯語料庫,我們就可以從語料直接抽取出詞典,經(jīng)過ID化、三元統(tǒng)計、計算回退參數(shù)等過程后就可以建立帶回退的靜態(tài)三元模型。因單詞間有明顯的間隔,詞庫建立過程也相對簡單。如果將蒙古文形態(tài)變化問題擱置,將所有單詞視作完全獨立的單詞,那么蒙古文SLM的輸入法應用上,除了輸入碼(相當于漢字的拼音)的切分和詞庫匹配策略有不同外整體思路與漢文沒有什么大區(qū)別。
另一方面,在某一漢字編碼標準下,漢字是個封閉集合,可輸入字數(shù)是確定的*GB2312收錄6 763個漢字,GB18030收錄70 244個漢字等,每個標準都有明確的收錄漢字數(shù)。,多音字的數(shù)量也是確定的,所以對于拼音串中的每個音節(jié)來說,其對應候選單字是固定的,這種字典較為容易獲得。字層面進行統(tǒng)計靜態(tài)語言模型即可獲得單字組成的晶格中的最佳路徑。如果還要支持詞(尤其是多字詞和詞組)級別的連續(xù)錄入,必須具備帶拼音的詞庫和詞組庫,并對語料進行與之匹配的分詞再進行建模。如果沒有分好詞的語料,或者是想利用原始文本,首要任務就是分詞。采取什么樣的分詞策略主要依賴于手中資源。例如,sunpinyin采取的是先使用正向最大匹配方法(FMM,forward maximum matching)分詞?!盀槿嗣?、人民、民辦、辦實事”等都是可能切分,所以“為人民辦實事”六個單詞為一個交集型歧義切分塊。分詞結果中的此類歧義切分部分視為一個特殊單詞,以此降低后續(xù)三元統(tǒng)計受歧義切分干擾。再利用構建好的統(tǒng)計模型進行二次切分,盡力解決上一步遺留的交集型歧義(Overlapping Ambiguity)切分并重新構建模型。除了自己做以外,可利用的第三方切詞工具和資源也很多。相對而言,蒙古文詞庫就是稀缺資源。
3.1 模型
基于以上分析,本文提出如圖3的基于原始語料的蒙古文輸入法概念模型。將原始語料映射為形碼語料,從形碼語料抽取形碼詞庫,構建形碼層次的靜態(tài)語言模型,將原本基于詞晶格|wij|的詞間最佳路徑搜索問題轉(zhuǎn)換為基于詞形碼晶格|tij|的最佳路徑搜索問題,利用此模型獲得|tij|的最佳路徑|si|后,利用|wij|到|tij|之間的映射關系獲得正確的詞序列|fi|。
很顯然此模型利用了蒙古文輸入法中多數(shù)重碼詞不是同形詞的事實。
3.2 評價指標
鑒于蒙古文輸入法一直沒有可參考的評價方法,本文選定輸入碼比作為評價指標。輸入碼比指使用一種輸入法錄入評價語料庫內(nèi)容時能夠正確錄入所有單詞的最短輸入碼的長度之和與另一種輸入法錄入相同內(nèi)容時能夠正確錄入所有單詞的最短輸入碼的長度之和的百分比。計算公式如式(1)所示。
(1)
n是評價語料庫句子數(shù),mi為第i個評價句單詞數(shù),k1和k2分別是預比較兩種輸入法輸入碼??紤]到目前我們所能比較輸入法有限,本文又主要考察引入統(tǒng)計模型后對輸入法的貢獻度,所以實際選用了最短輸入碼*輸入上下文環(huán)境w1w2……wn(一般為一個句子或一個短語)下能準確錄入這個上下文所有單詞的一系列輸入碼組合中的最短的那個組合k1k2……kn稱之為最短輸入碼序列。最短輸入碼序列中的ki稱之為wi的最短輸入碼。/生成碼*如果一個蒙古文讀音輸入法較為嚴謹完整,任意一個單詞w對應唯一一個全拼式讀音輸入碼k,這個k也只能推導出唯一一個w,我們將w的這種沒有二義性的輸入碼k,稱之為w的生成碼。在鍵盤映射輸入法狀態(tài)下的蒙古文編碼標準名義字符或?qū)睦∽帜妇涂梢钥闯墒巧纱a。比(I1指標),這個指標體現(xiàn)的是輸入法最短輸入碼相對于生成碼的百分比,或者簡單認為評價輸入法與一般讀音輸入法輸入碼長度的百分比,體現(xiàn)該輸入法較全拼式一般讀音輸入法的優(yōu)化程度。因生成碼等價于原文單詞,所以此項指標實際上就是平均碼長。比例越小,說明輸入法可以用越簡短的輸入碼輸入。式(1)中的k1ij是第i句第j詞的最短輸入碼,k2ij是第i句第j詞的生成碼。
圖3 基于原始語料的蒙古文輸入法概念模型圖
3.3 原始語料
本文原始語料采集自中國蒙古語新聞網(wǎng)MNN、中央人民廣播電臺民族網(wǎng)蒙古語網(wǎng)CNR和央視網(wǎng)蒙語網(wǎng)CNTV的部分新聞稿件,稱其為MGLNews,詳情如表1所示。
表1 生語料數(shù)據(jù)匯總表
3.4 評價語料
本文使用兩種評價語料庫,兩個評價語料庫各有側(cè)重點,形成互補。我們在兩種評價集上分別進行評價。
(1) 零散短句評價語料庫C1
評價語料庫由各自獨立的500句人工精選的輸入正確(必須保證讀音正確)的短句構成。我們在一位語言學家的統(tǒng)一領導和指引下,組織十位蒙古語文專業(yè)的本科生,讓每位搜集并錄入校對60句,再由一個語言學家進行統(tǒng)一篩選,保留500句。構建原則:
① 選擇復雜度適中的可連續(xù)輸入詞序列,避免嵌套、引用和跨標點句。雖說是句子,但不必苛求整句,每句原則不超過十個詞(輸入單元)。
② 語句符合語法規(guī)則和常規(guī),避免過于生僻或古怪說法。
③ 避免具有明顯學術爭議的拼寫方式和還未完全普及的外來詞。
表2 人造測試句示意表
(2) 整篇整句評價語料庫C2
雖然第一種評價語料庫是針對輸入法構造的專業(yè)評價語料庫,但我們認為還應該建立一個由整篇整句的更接近實際應用的語段構成的稍微大一點的數(shù)據(jù)作為一種評價語料庫更為合適。由于我們暫時無條件獨立構建這樣的測試集,所以我們從100TUM中選擇了高中語文部分(排除古文部分),總共48篇文章,自動斷句為490句,5 000詞形(token)。選擇高中語文課是考慮其涵蓋短篇小說、長篇小說節(jié)選、詩歌、新聞報道等多種題材,語句類型豐富,與實際應用接近,具有較強的代表性。雖然語料庫收納內(nèi)容時代較早,部分文章內(nèi)容具有明顯時代烙印,部分單詞拼寫方式經(jīng)過文字規(guī)范已有少許變化,但我們認為這些問題還是可以忽略的。
3.5 實驗結果
我們以沒有統(tǒng)計模型的蒙科立輸入法2012版(NOLM)為基準輸入法,對基于MGLNews的統(tǒng)計模型輸入法(RAW)、RAW基礎上進行基于字形歸并的模型優(yōu)化輸入法(RAW+)進行了對比評價,指標如表3所示。
表3 性能評價指標統(tǒng)計表
實驗結果表明,本文提出的生語料建模方法有效提高了指標,明顯縮短了輸入碼長度,且基于字形歸并的模型優(yōu)化后進一步獲得提高。
C2庫上的RAW指標和RAW+指標普遍要比C1庫指標略低。句子普遍長于C1語料、大篇幅文章切句、切詞可能存在歧義、量大等都有可能是原因。但這些對本文說明目標沒有明顯影響,所以暫時沒有進行進一步細致分析。
這一模型可以很好地解決針對輸入法應用的原始語料建模問題,開啟了針對原始語料利用和建模的研究,對蒙古文所有音詞轉(zhuǎn)換(語音輸入、讀音輸入等)和形詞轉(zhuǎn)換(校對、OCR識別等)應用都有很好的參考和借鑒作用,也是糾錯語料建設的必要輔助途徑。
本文提出的模型存在如下幾個特點。
4.1 需要大詞庫支持
本模型中我們要利用的是原始語料,單詞讀音是不可靠的,甚至字形都有可能是錯誤的,所以不能再像基于糾錯語料的模型一樣從語料中直接抽取單詞構建詞庫。獨立于語料構建的詞庫必然無法保證一一映射語料單詞,語料已無法用詞庫ID化,所以還需要一個額外的字形碼的詞庫。大詞庫詞表和語料庫形碼詞表是有交集的兩個獨立集合。對于輸入碼|ki|,對應的|wij|只取決于大詞庫,與語料無關,所以大詞庫必須大到能夠滿足日常一般應用為宜。因為大詞庫中單詞都是讀音字形拼寫正確的單詞,所以可以使用多種簡拼方式錄入這些單詞,并形成候選單詞的晶格。顯然,如果大詞庫不夠大,實驗難以獲得理想結果。
4.2 用音碼輸入OOV
工程實現(xiàn)上可以保存OOV,構建單獨的用戶詞典來允許簡拼方式錄入已錄入OOV。如果能夠構建一個較好的OOV回收策略,從語料庫眾多拼寫形式中猜測出正確拼寫形式并擴充詞庫是新詞回收的重要途徑。但本文暫且擱置此問題而認為用戶輸入是正確的,本文實驗數(shù)據(jù)只考慮OOV用音碼全拼方式錄入情況。
4.3 同形重碼的影響
4.4 詞形拼寫錯誤和形態(tài)變化影響
原始語料庫中詞形拼寫錯誤和形態(tài)變化是導致數(shù)據(jù)稀疏的兩大重要因素,而這兩項對原始語料的利用也非常重要,每一項都是值得專項研究的重要課題。為此本文只是對比了基于字形歸并的模型優(yōu)化結構,有待進一步細化研究。
4.5 自動糾錯
本文模型的核心思想是在對原始語料不進行糾錯情況下的利用和建模問題,但詞形歸并和形態(tài)分析實際上又部分回歸自動糾錯問題上,只是暫時不進行武斷糾錯后再利用,而是利用中逐步對文本進行排歧和糾錯。漢字拼音輸入法中也有文章引入了糾錯功能[16-17],這本身對蒙古文來說具有很好的參考價值,值得我們進一步深入研究。
[1] The Unicode Consortium[EB].http://www.Unicode.org .
[2] 白雙成,張勁松,蘇雅拉圖.蒙古文拼寫形式多樣化問題研究[C].CCL2015論文集.廣州.2015.
[3] 張小衡.中文的同形異碼字問題[J].中文信息學報.2015,29(4):144-150.
[4] 那順烏日圖,雪艷,葉嘉明.現(xiàn)代蒙古語語料庫加工技術的新進展--新一代蒙古語詞語自動切分與標注系統(tǒng)(Darhan Tagging System)[C].第十屆全國少數(shù)民族語言文字信息處理學術研討會論文集.青海.2005.
[5] 那順烏日圖.蒙古文詞根、詞干、詞尾的自動切分系統(tǒng)[J].內(nèi)蒙古大學學報(人文社會科學版).1997:53-57.
[6] 侯宏旭,劉群,劉志文.Skip2N蒙古文統(tǒng)計語言模型[J].內(nèi)蒙古大學學報,2008,39 (2):220-224.
[7] 趙偉,侯宏旭,從偉等.基于條件隨機場的蒙古語詞切分研究[J].中文信息學報.2010,24(5):31-35.
[8] 應玉龍,李淼,烏達巴拉等.基于條件隨機場的蒙古語詞性標注方法[J].計算機應用2010,30(8):2038-2040.
[9] 姜文斌,吳金星,烏日力嘎等.蒙古語有向圖形態(tài)分析器的判別式詞干詞綴切分[J].中文信息學報.2011,25(4):30-34.
[10] 蘇傳捷,侯宏旭,楊萍等.基于統(tǒng)計翻譯框架的蒙古文自動拼寫校對方法[J].中文信息學報.2013(6):175-179.
[11] 確精扎布.關于現(xiàn)代蒙古語文語料庫[J].內(nèi)蒙古大學學報(蒙文版).1992,1:1-5.
[12] 確精扎布.確精扎布蒙古文信息處理專輯[M] .呼和浩特:內(nèi)蒙古教育出版社,2014.
[13] 白雙成.蒙古文網(wǎng)站內(nèi)容管理系統(tǒng)研究[R].第十二屆全國少數(shù)民族語言文字信息處理學術研討會.拉薩.2009.
[14] 白雙成,張勁松,呼斯勒.蒙古文輸入法輸入碼方案研究[J].中文信息學報2013(06):169-174.
[15] 淑琴.蒙古文同形詞知識庫的構建[D].內(nèi)蒙古大學博士學位論文.2010.
[16] Chen Zheng,Lee K F.A new statistical approach to Chinese Pinyin input[C]//Proceedings of the Meeting on Associationfor Computational Linguistics.Association for Computational Linguistics,2000:241-247.
[17] Zheng Yabin,Li Chen,Sun Maosong.CHIME:An Efficient Error-Tolerant Chinese Pinyin Input Method.[C]//Proceedings of the Twenty-second International Joint Conference on Artificial Intelligence.2011,3:2551-2556.
Study of Mongolian Raw Text Modeling
BAI Shuangcheng1,2
(1.Inner Mongolia Academy of Social Science,Hohhot,Inner Mongolia 010020,China ; (2.Inner Mongolia Menksoft Co.,Ltd,Hohhot,Inner Mongolia 010011,China)
The Mongolian language model for its text is challenged by the same character with different codes owing to the different pronunciations of the character in various contexts.To address this issue for spelling input,this paper adopts a large dictionary with correct pronunciations,training a statistical spelling model to maximize the the pronunciation sequence directly from the candidate code sequence.Experiments indicate a more efficient spelling input method is achieved,which is also enlightening for “pronunciation-to-word” coversion and “spelling-to-word” conversion.
Mongolian corpus; statistical language model; pronunciation error; spelling error; intelligent input method
白雙成(1974—),博士,研究員,主要研究領域為蒙古文信息處理。E-mail:331869327@qq.com
1003-0077(2011)00-0118-08
2016-09-18 定稿日期:2016-11-15
國家電子發(fā)展基金2010年度、2011年度蒙古文專項;國家自然科學基金(61163020);內(nèi)蒙古自治區(qū)自然科基金(2011MS0918)
TP391
A