• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    統(tǒng)計機器翻譯中短語切分的新方法

    2017-03-16 03:40:48史紅梅張艷君
    電子測試 2017年2期
    關(guān)鍵詞:解碼語料語料庫

    劉 林,史紅梅,張艷君

    (山東農(nóng)業(yè)工程學院,山東濟南,250100)

    統(tǒng)計機器翻譯中短語切分的新方法

    劉 林,史紅梅,張艷君

    (山東農(nóng)業(yè)工程學院,山東濟南,250100)

    本文提出了一種新的短語切分方法,通過該方法可以將句子的短語切分進行概率化處理:首先把漢語語料庫中次數(shù)>2次的詞語串全部都識別出來,作為漢語短語,然后通過最短路徑方式實現(xiàn)短語切分,同時應用Viterbi算法對短語出現(xiàn)頻率進行迭代統(tǒng)計。

    統(tǒng)計機器;機器翻譯;短語切分;新方法

    0 引言

    二十世紀九十年代初期,國外科學家就根據(jù)信源信道思想提出了統(tǒng)計機器翻譯模型,而自此之后,人們又很快在基于統(tǒng)計方法的機器翻譯研究方面具有了巨大的進步?,F(xiàn)如今,主流的統(tǒng)計機器翻譯方法仍然是基于短語的統(tǒng)計機器翻譯,因為該方法可以較好地處理短距離依賴和一些常用搭配問題。通常情況下,基于短語的方法的原理是將任意連續(xù)字符串均看作短語,自動在雙語語料庫中學習雙語短語,然后進行以短語為單位的翻譯。有科學家提出了對齊模板方法,即通過將單詞映射到詞類中對句子級和短語級進行兩級對齊;另外還有學者提出了層次短語模型,即允許一個同步上下文無關(guān)文短語內(nèi)均具備子短語。目前,眾多科學家和學者仍舊在努力研究基于短語的新方法。

    1 短語切分方法

    基于短語的統(tǒng)計機器翻譯系統(tǒng)的最小翻譯單位就是短語,也即是說,將句子拆分成若干個短于,由每個短語的翻譯而組成句子的翻譯。漢語與英語的不同點在于其最小單位是字,詞語是由字組成的,短語則是由詞語組成的,而所謂的“短語切分”與漢語的切詞類似,實際上就是在詞語切分的基礎上把句子切分成短語。故此,在短語切分之時可以借鑒漢語詞語的切分研究方法進行研究。這里采用了N-最短路徑法:根據(jù)短語庫對已經(jīng)分詞的句子中全部可能的短語構(gòu)造有向無環(huán)圖,得出N條最優(yōu)的路徑。不過,其中需要解決兩項問題:一者是如何得到短語庫;二者是如何確定有向無環(huán)圖的路徑長度。

    1.1短語查找

    由于短語比之詞語來說更加難以界定,不同人對短語的理解不同,因此很難像漢語切詞一般通過人工來做短語庫。對此,可以利用該方法中將任意連續(xù)的字符串看作短語的特點,自動于漢語單語語料庫中抽取短語庫。具體來說,這個短語查找的流程為:首先切分漢語語料庫中的詞語,詳細記錄每個詞語出現(xiàn)的位置,并將其存儲在WordMap中;然后找出表中每個詞語所在文件中的對應位置,并據(jù)此向后搜索若干個詞得到及保存詞串,將相應計數(shù)加1;最后其中出現(xiàn)次數(shù)>2的重復詞串即為短語庫。在這過程中,若其中一個短語是另外一個短語的子串,且兩者的出現(xiàn)次數(shù)相同,那么則保留長的那個。

    1.2短語概率計算

    短語概率指的就是有向無環(huán)圖的路徑長度,其可通過概率論的相關(guān)知識進行計算,具體的公式為:

    公式中,c指的是漢語短語,N(c)指的是漢語短語在語料庫中出現(xiàn)的次數(shù)。

    不過,僅通過這種概率估計方式所得到的結(jié)果是不夠準確的,而本文所提出的這種新的短語切分方法應用了Viterbi算法對短語出現(xiàn)頻率進行迭代統(tǒng)計,進而對短語的一元語言模型概率進行估計,所得到的結(jié)果更加準確。Viterbi算法的流程為:首先隨機指定模型參數(shù),然后計算出各訓練樣本的最大概率值,之后對概率進行重新統(tǒng)計、對模型參數(shù)進行更新,最后經(jīng)多次迭代后得出逼近真實值的概率分布。

    2 翻譯模型與解碼

    統(tǒng)計機器翻譯的核心就是翻譯模型與解碼,其中翻譯模型的主要作用是反映對機器翻譯過程的認識,解碼的作用是搜索出最終譯文。

    2.1翻譯模型

    本文所提出的這種新的短語切分方法應用了Log-linear直接翻譯模型,具體的公式為:

    而在全部可能的翻譯中,再選擇概率最大的一個作為最終翻譯:

    2.2解碼

    對于一個漢語句子來說,首先需要通過上述方法對其進行短語切分,取其中一個或以上最佳切分進行翻譯。然后需要通過柱式搜索方法對每個切分結(jié)果進行單調(diào)解碼,即按照從左至右的順序?qū)γ總€短語片段進行翻譯,而不用調(diào)整順序。為了加快搜索速度及節(jié)省內(nèi)存,解碼器可以只讀進每個漢語短語中若干個最好的翻譯,并限制搜索中每個棧的大小為m。Log-linear直接翻譯模型采用的是最小錯誤率訓練算法。

    3 實驗

    筆者在相關(guān)測試集上對該方法進行了實驗。本次實驗所采用的是2005年863評測所提供的訓練集,其中大約有英語詞和漢語詞各10M。通過SRI語言模型工具,利用該短語切分方法,對3-gram英語語言模型進行了訓練。

    3.1翻譯模型訓練

    首先通過GIZA++[12],進行了漢語→英語和英語→漢語兩個方向的訓練,獲得了詞語對齊,然后通過grow-diag-final[2]進行了優(yōu)化對齊,最后抽取短語,得到了翻譯概率表。

    3.2短語切分方法

    作為基線系統(tǒng),短語切分應用另一種方法:首先抽取語料庫中的漢語短語作為短語庫,以為短語切分的路徑長度,然后通過最短路徑方法進行短語切分。為了在搜索過程中取得翻譯質(zhì)量和翻譯效率的平衡,每個句子宜取二十個最佳短語切分進行翻譯。

    3.3實驗結(jié)果

    本實驗結(jié)果詳見表1。

    表1 實驗結(jié)果

    3.4問題分析

    從結(jié)果中可以看出,相對于基線系統(tǒng)而言,該系統(tǒng)中通過使用短語切分模型能夠提高其翻譯質(zhì)量,一般可提高0.5左右個百分點。不過,對于對話卻會起到副作用,主要是由于:①該短語切分模型在訓練中是單獨使用的漢語語料,所以比較傾向于較短的短語,導致將本來就較短的句子切得更碎,降低了系統(tǒng)性能,而在雙語短語庫中長短語和短短語是俱存的;②疑問句在對話語料中所占的比重過大,而疑問句往往需要進行詞序調(diào)整,但該系統(tǒng)是順序解碼,所以在這方面的表現(xiàn)較差;③對話語料在訓練語料中約占了25%,這對于漢語的短語切分模型訓練而言相對較少,所以影響了其作用;④篇章中的句子大多較長,并且新聞語料較多,其詞序變化不是很強烈,所以通過短語切分模型能夠有效切分出常見短語。

    4 結(jié)語

    本文提出了一種新的短語切分方法,并在相關(guān)測試集上得出了實驗結(jié)果:對話0.2232、篇章0.1766。實驗表明:對于篇章等長句子,通過使用短語切分模型能夠提高其翻譯質(zhì)量,一般可提高0.5左右個百分點。

    [1]何中軍,劉群,林守勛. 統(tǒng)計機器翻譯中短語切分的新方法[J].中文信息學報,2007,01:85-89.

    [2]薛永增,李生,趙鐵軍,楊沐昀. 短語統(tǒng)計機器翻譯的句法調(diào)序模型[J]. 通信學報,2008,01:7-14.

    劉林, 1981年11月出生,性別男,民族漢,籍貫山東德州,學歷大學本科,職稱講師,研究方向軟件理論、機器學習。

    A new method of phrase segmentation in statistical machine translation

    Liu Lin,Shi Hongmei,Zhang Yanjun
    (shandong agricultural engineering institute, jinan, shandong province, 250100)

    this paper presents a new phrase segmentation method, the method can be sentence the phrase segmentation of randomization process: first of all, the number of Chinese corpora > two words list all identified, as Chinese phrases, then realize the shortest path phrase segmentation, at the same time using Viterbi algorithm to iterate phrases frequency statistics.

    statistical machine; Machine translation; The phrase segmentation; The new method

    項目:山東省高等學校科技計劃項目--基于最大熵翻譯模型的統(tǒng)計機器翻譯系統(tǒng)的設計與實現(xiàn)(J13LN59)

    猜你喜歡
    解碼語料語料庫
    《解碼萬噸站》
    《語料庫翻譯文體學》評介
    解碼eUCP2.0
    中國外匯(2019年19期)2019-11-26 00:57:32
    NAD C368解碼/放大器一體機
    Quad(國都)Vena解碼/放大器一體機
    把課文的優(yōu)美表達存進語料庫
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    華語電影作為真實語料在翻譯教學中的應用
    基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
    語言與翻譯(2015年4期)2015-07-18 11:07:45
    《苗防備覽》中的湘西語料
    屏南县| 宝兴县| 垦利县| 镇安县| 永年县| 乐昌市| 九寨沟县| 如皋市| 谷城县| 保定市| 连平县| 米脂县| 舟山市| 泰安市| 如东县| 亚东县| 洛扎县| 平顺县| 阳新县| 玉环县| 通渭县| 怀来县| 滕州市| 富阳市| 黄浦区| 五峰| 吉木萨尔县| 杭锦旗| 广河县| 毕节市| 普安县| 尚义县| 同江市| 库伦旗| 二连浩特市| 泽普县| 泰州市| 会理县| 麦盖提县| 运城市| 富宁县|