劉 林,史紅梅,張艷君
(山東農(nóng)業(yè)工程學院,山東濟南,250100)
統(tǒng)計機器翻譯中短語切分的新方法
劉 林,史紅梅,張艷君
(山東農(nóng)業(yè)工程學院,山東濟南,250100)
本文提出了一種新的短語切分方法,通過該方法可以將句子的短語切分進行概率化處理:首先把漢語語料庫中次數(shù)>2次的詞語串全部都識別出來,作為漢語短語,然后通過最短路徑方式實現(xiàn)短語切分,同時應用Viterbi算法對短語出現(xiàn)頻率進行迭代統(tǒng)計。
統(tǒng)計機器;機器翻譯;短語切分;新方法
二十世紀九十年代初期,國外科學家就根據(jù)信源信道思想提出了統(tǒng)計機器翻譯模型,而自此之后,人們又很快在基于統(tǒng)計方法的機器翻譯研究方面具有了巨大的進步?,F(xiàn)如今,主流的統(tǒng)計機器翻譯方法仍然是基于短語的統(tǒng)計機器翻譯,因為該方法可以較好地處理短距離依賴和一些常用搭配問題。通常情況下,基于短語的方法的原理是將任意連續(xù)字符串均看作短語,自動在雙語語料庫中學習雙語短語,然后進行以短語為單位的翻譯。有科學家提出了對齊模板方法,即通過將單詞映射到詞類中對句子級和短語級進行兩級對齊;另外還有學者提出了層次短語模型,即允許一個同步上下文無關(guān)文短語內(nèi)均具備子短語。目前,眾多科學家和學者仍舊在努力研究基于短語的新方法。
基于短語的統(tǒng)計機器翻譯系統(tǒng)的最小翻譯單位就是短語,也即是說,將句子拆分成若干個短于,由每個短語的翻譯而組成句子的翻譯。漢語與英語的不同點在于其最小單位是字,詞語是由字組成的,短語則是由詞語組成的,而所謂的“短語切分”與漢語的切詞類似,實際上就是在詞語切分的基礎上把句子切分成短語。故此,在短語切分之時可以借鑒漢語詞語的切分研究方法進行研究。這里采用了N-最短路徑法:根據(jù)短語庫對已經(jīng)分詞的句子中全部可能的短語構(gòu)造有向無環(huán)圖,得出N條最優(yōu)的路徑。不過,其中需要解決兩項問題:一者是如何得到短語庫;二者是如何確定有向無環(huán)圖的路徑長度。
1.1短語查找
由于短語比之詞語來說更加難以界定,不同人對短語的理解不同,因此很難像漢語切詞一般通過人工來做短語庫。對此,可以利用該方法中將任意連續(xù)的字符串看作短語的特點,自動于漢語單語語料庫中抽取短語庫。具體來說,這個短語查找的流程為:首先切分漢語語料庫中的詞語,詳細記錄每個詞語出現(xiàn)的位置,并將其存儲在WordMap中;然后找出表中每個詞語所在文件中的對應位置,并據(jù)此向后搜索若干個詞得到及保存詞串,將相應計數(shù)加1;最后其中出現(xiàn)次數(shù)>2的重復詞串即為短語庫。在這過程中,若其中一個短語是另外一個短語的子串,且兩者的出現(xiàn)次數(shù)相同,那么則保留長的那個。
1.2短語概率計算
短語概率指的就是有向無環(huán)圖的路徑長度,其可通過概率論的相關(guān)知識進行計算,具體的公式為:
公式中,c指的是漢語短語,N(c)指的是漢語短語在語料庫中出現(xiàn)的次數(shù)。
不過,僅通過這種概率估計方式所得到的結(jié)果是不夠準確的,而本文所提出的這種新的短語切分方法應用了Viterbi算法對短語出現(xiàn)頻率進行迭代統(tǒng)計,進而對短語的一元語言模型概率進行估計,所得到的結(jié)果更加準確。Viterbi算法的流程為:首先隨機指定模型參數(shù),然后計算出各訓練樣本的最大概率值,之后對概率進行重新統(tǒng)計、對模型參數(shù)進行更新,最后經(jīng)多次迭代后得出逼近真實值的概率分布。
統(tǒng)計機器翻譯的核心就是翻譯模型與解碼,其中翻譯模型的主要作用是反映對機器翻譯過程的認識,解碼的作用是搜索出最終譯文。
2.1翻譯模型
本文所提出的這種新的短語切分方法應用了Log-linear直接翻譯模型,具體的公式為:
而在全部可能的翻譯中,再選擇概率最大的一個作為最終翻譯:
2.2解碼
對于一個漢語句子來說,首先需要通過上述方法對其進行短語切分,取其中一個或以上最佳切分進行翻譯。然后需要通過柱式搜索方法對每個切分結(jié)果進行單調(diào)解碼,即按照從左至右的順序?qū)γ總€短語片段進行翻譯,而不用調(diào)整順序。為了加快搜索速度及節(jié)省內(nèi)存,解碼器可以只讀進每個漢語短語中若干個最好的翻譯,并限制搜索中每個棧的大小為m。Log-linear直接翻譯模型采用的是最小錯誤率訓練算法。
筆者在相關(guān)測試集上對該方法進行了實驗。本次實驗所采用的是2005年863評測所提供的訓練集,其中大約有英語詞和漢語詞各10M。通過SRI語言模型工具,利用該短語切分方法,對3-gram英語語言模型進行了訓練。
3.1翻譯模型訓練
首先通過GIZA++[12],進行了漢語→英語和英語→漢語兩個方向的訓練,獲得了詞語對齊,然后通過grow-diag-final[2]進行了優(yōu)化對齊,最后抽取短語,得到了翻譯概率表。
3.2短語切分方法
作為基線系統(tǒng),短語切分應用另一種方法:首先抽取語料庫中的漢語短語作為短語庫,以為短語切分的路徑長度,然后通過最短路徑方法進行短語切分。為了在搜索過程中取得翻譯質(zhì)量和翻譯效率的平衡,每個句子宜取二十個最佳短語切分進行翻譯。
3.3實驗結(jié)果
本實驗結(jié)果詳見表1。
表1 實驗結(jié)果
3.4問題分析
從結(jié)果中可以看出,相對于基線系統(tǒng)而言,該系統(tǒng)中通過使用短語切分模型能夠提高其翻譯質(zhì)量,一般可提高0.5左右個百分點。不過,對于對話卻會起到副作用,主要是由于:①該短語切分模型在訓練中是單獨使用的漢語語料,所以比較傾向于較短的短語,導致將本來就較短的句子切得更碎,降低了系統(tǒng)性能,而在雙語短語庫中長短語和短短語是俱存的;②疑問句在對話語料中所占的比重過大,而疑問句往往需要進行詞序調(diào)整,但該系統(tǒng)是順序解碼,所以在這方面的表現(xiàn)較差;③對話語料在訓練語料中約占了25%,這對于漢語的短語切分模型訓練而言相對較少,所以影響了其作用;④篇章中的句子大多較長,并且新聞語料較多,其詞序變化不是很強烈,所以通過短語切分模型能夠有效切分出常見短語。
本文提出了一種新的短語切分方法,并在相關(guān)測試集上得出了實驗結(jié)果:對話0.2232、篇章0.1766。實驗表明:對于篇章等長句子,通過使用短語切分模型能夠提高其翻譯質(zhì)量,一般可提高0.5左右個百分點。
[1]何中軍,劉群,林守勛. 統(tǒng)計機器翻譯中短語切分的新方法[J].中文信息學報,2007,01:85-89.
[2]薛永增,李生,趙鐵軍,楊沐昀. 短語統(tǒng)計機器翻譯的句法調(diào)序模型[J]. 通信學報,2008,01:7-14.
劉林, 1981年11月出生,性別男,民族漢,籍貫山東德州,學歷大學本科,職稱講師,研究方向軟件理論、機器學習。
A new method of phrase segmentation in statistical machine translation
Liu Lin,Shi Hongmei,Zhang Yanjun
(shandong agricultural engineering institute, jinan, shandong province, 250100)
this paper presents a new phrase segmentation method, the method can be sentence the phrase segmentation of randomization process: first of all, the number of Chinese corpora > two words list all identified, as Chinese phrases, then realize the shortest path phrase segmentation, at the same time using Viterbi algorithm to iterate phrases frequency statistics.
statistical machine; Machine translation; The phrase segmentation; The new method
項目:山東省高等學校科技計劃項目--基于最大熵翻譯模型的統(tǒng)計機器翻譯系統(tǒng)的設計與實現(xiàn)(J13LN59)