• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于分類的平行語料選擇方法

      2013-10-15 01:52:16涂兆鵬呂雅娟姚建民
      中文信息學(xué)報 2013年6期
      關(guān)鍵詞:例句語料平行

      王 星,涂兆鵬,謝 軍,呂雅娟,姚建民

      (1.蘇州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州215006;2.中國科學(xué)院 計算技術(shù)研究所 智能信息處理重點(diǎn)實(shí)驗室,北京100190;3.加州大學(xué) 戴維斯分校 計算機(jī)科學(xué)系,加州95616)

      1 引言

      平行語料在機(jī)器翻譯系統(tǒng)中起著重要的作用。大部分機(jī)器翻譯系統(tǒng),無論是基于短語的系統(tǒng)[1],還是基于句法的系統(tǒng)[2-4],都是從經(jīng)過詞語對齊的雙語語料中抽取翻譯規(guī)則。Och等人[5]的工作表明詞語對齊的平行語料的質(zhì)量直接決定了翻譯性能。一般來說,平行語料規(guī)模越大,質(zhì)量越高,則詞語對齊的質(zhì)量越高。

      然而,大規(guī)模高質(zhì)量的平行句對并不容易獲取。由于統(tǒng)計機(jī)器翻譯所需要的平行語料通常都是百萬句對級的,人工構(gòu)建顯然是不可能的。隨著網(wǎng)絡(luò)的發(fā)展,大量網(wǎng)絡(luò)雙語語料的存在使得構(gòu)建大規(guī)模平行語料成為了可能。但是網(wǎng)絡(luò)雙語語料中存在著大量的噪聲,質(zhì)量較低,直接使用會使噪聲引入到翻譯系統(tǒng)中,影響系統(tǒng)性能。

      如何從包含噪聲的雙語句對中選擇高質(zhì)量的平行句對受到了越來越多研究者的關(guān)注。例如,陳毅東等人[6]曾研究面向處理平行語料庫的篩選排序模型。姚樹杰等人[7]在組織訓(xùn)練語料時考慮語料覆蓋度問題。但是這些方法都經(jīng)驗性較強(qiáng),需要人工干預(yù),陳毅東等人[6]指出特征權(quán)重和語料選擇的分?jǐn)?shù)閾值一般都是人工經(jīng)驗給出。

      針對該類問題,本文提出一種自動的基于分類的平行語料選擇方法。首先,我們使用少數(shù)特征對平行語料進(jìn)行初步打分,選擇差異較大的少量句對構(gòu)建訓(xùn)練集(如最好的m個句對和最差的n個句對)。然后,在該訓(xùn)練集上我們使用更多的特征(包括詞匯特征,句法特征等)訓(xùn)練一個分類器,從而對其他平行語料進(jìn)行分類,以選擇高質(zhì)量的句對(正例句對)。實(shí)驗表明,過濾后的平行語料規(guī)模僅為原始語料的60%,使用過濾后的語料訓(xùn)練翻譯系統(tǒng),在NIST測試數(shù)據(jù)集合上取得了0.87BLEU點(diǎn)的提高。

      后續(xù)章節(jié)組織如下:第2節(jié)介紹相關(guān)工作,第3節(jié)介紹基于分類的訓(xùn)練語料選擇方法,第4節(jié)給出實(shí)驗和結(jié)果分析,最后一節(jié)給出結(jié)論和未來工作。

      2 相關(guān)工作

      陳毅東等人[6]曾研究面向處理平行語料庫的篩選排序模型,這個模型利用預(yù)先設(shè)定的特征將已有的平行語料進(jìn)行打分排序,之后選取分?jǐn)?shù)靠前的部分組織成為訓(xùn)練語料。姚樹杰等人[7]在組織訓(xùn)練語料時考慮語料覆蓋度問題。但是特征權(quán)重和得分閾值的選擇需要人工經(jīng)驗。

      呂雅娟等人[8,9]曾提出一種基于信息檢索模型的統(tǒng)計機(jī)器翻譯訓(xùn)練數(shù)據(jù)選擇與優(yōu)化方法,選擇現(xiàn)有訓(xùn)練數(shù)據(jù)資源中與待翻譯文本相似的句子組成訓(xùn)練子集,在不增加計算資源的情況下獲得與使用全部數(shù)據(jù)相當(dāng)甚至更好的機(jī)器翻譯結(jié)果。此方法需要提前知道測試文本的內(nèi)容。

      Han等人[10]在基于訓(xùn)練語料句對可以分為字面互譯和意譯的前提下,提出一種基于詞典和詞性的方法判斷句對是否字面互譯,調(diào)整字面互譯和意譯句對在詞對齊階訓(xùn)練段時權(quán)重,達(dá)到翻譯性能的提升。此方法是調(diào)整權(quán)重更好的利用語料,減小意譯句對的影響,此處的權(quán)值也需要人工經(jīng)驗給出。

      Munteanu等人[11,12]給出了大量的平行句對特征,通過利用少量的高質(zhì)量的平行語料構(gòu)建出正反例平行句對,訓(xùn)練分類器從大規(guī)模的非平行語料選擇出平行語料。但是此方法需要用到少量高質(zhì)量句對作為正例句對資源。

      3 基于分類的平行語料選擇方法

      語料可以劃分為完全平行句對、部分平行句對和完全不平行句對(噪聲句對)。我們的任務(wù)是從大規(guī)模訓(xùn)練語料中選擇高質(zhì)量的平行語料,希望獲得的是那些完全平行句對,即高質(zhì)量平行句對。

      通過觀察發(fā)現(xiàn),高質(zhì)量平行句對一般會表現(xiàn)出很多共性:比如源語句和目標(biāo)語句的互譯準(zhǔn)確、句對中源語句和目標(biāo)語句都是比較流暢等?;诖?,我們提出使用句對特征評價平行句對質(zhì)量,利用分類器自動判別句對質(zhì)量的好壞。下面分別介紹分類器的構(gòu)建和特征的選擇。

      3.1 分類器的構(gòu)建

      傳統(tǒng)的監(jiān)督式學(xué)習(xí)需要標(biāo)記樣本數(shù)據(jù)來訓(xùn)練分類器,然而在現(xiàn)實(shí)中很少有標(biāo)注好的平行語料庫。在此我們需要構(gòu)建足夠的正反例句對供分類器學(xué)習(xí)。如何構(gòu)造訓(xùn)練分類器的正反例句對是語料選擇中關(guān)鍵一步。

      文獻(xiàn)[7]給出一種簡單有效的排序模型對平行語料庫句對進(jìn)行排序。在設(shè)定權(quán)重后,句對得分成為衡量句對質(zhì)量的一個重要參考指標(biāo)。句對得分越大,句對被判定為平行句對的可能性越大。雖然對單個句對來看,無法依據(jù)其得分判定句對質(zhì)量好壞,但實(shí)驗證明分?jǐn)?shù)高的句對集合比分?jǐn)?shù)低的句對集合質(zhì)量更好。我們關(guān)心的是什么樣的句對更有可能成為高質(zhì)量平行句對?設(shè)想如果一個句對在各個特征都比另一個句對表現(xiàn)優(yōu)異,是否說明該句對成為高質(zhì)量平行句對有著更大的可能性?答案是肯定的,因為一個句對的綜合表現(xiàn)是由其各個特征所決定。我們可以尋找在各個特征上表現(xiàn)好或者表現(xiàn)不好的句對,使用這些句對構(gòu)造分類器訓(xùn)練的正負(fù)例句對。

      文獻(xiàn)[11]指出句對長度比例特征和基于雙語詞典的翻譯質(zhì)量特征可以簡單高效地評價句對的質(zhì)量。實(shí)驗證明翻譯模型概率也是十分有效的區(qū)分特征。同時,部分特征(比如語言模型得分特征)對高質(zhì)量句對的區(qū)分度不強(qiáng)。所以我們使用上述幾個特征作為訓(xùn)練集正負(fù)例句對的特征。在這幾個特征上全部得分較優(yōu)的句對選為正例句對,全部得分較差的句對選為負(fù)例句對。這樣,分類器訓(xùn)練所需要的正負(fù)例句對被構(gòu)造出來。

      本實(shí)驗采用ZhangLe的最大熵模型工具包MaxEnt** http://homepages.inf.ed.ac.uk/lzhang10/maxent_toolkit.html,該分類器實(shí)現(xiàn)了包含高斯平滑的最大熵算法,采用LBFGS參數(shù)估計方法。

      3.2 句對質(zhì)量評價特征

      基于雙語詞典的翻譯質(zhì)量(式1)

      Length(sen)表示句子sen的長度,即句子sen含有詞的個數(shù)。表示通過查閱雙語詞典,語句sen中所有在對應(yīng)另一端句子中能找到譯文的詞的總數(shù)。對于Translate(w),如果單詞w在對應(yīng)的另一端句子中存在翻譯項則為1,否則為0。

      文獻(xiàn)[7,10-11]都指出基于雙語詞典的翻譯質(zhì)量的特征是一種簡單有效的評價特征。直觀上看,P值大,表明句子中的很多詞能夠翻譯到對應(yīng)的另一端句子上,說明句對成為平行句對的可能性更大。所以,我們分別選取源端句子和目標(biāo)端句子的基于雙語詞典的翻譯質(zhì)量作為句對特征。

      翻譯模型概率

      對齊得分被證明[12]是一個簡單有效并具有辨別力的特征。在此我們用此公式表示源端句子f與目標(biāo)端句子e相互的翻譯概率。其中,arg maxfit(ej|fi)表示尋找單詞fi與另一端句子中單詞ej的最大翻譯概率。在此我們選取源端到目標(biāo)端翻譯概率、目標(biāo)端到源端的翻譯概率作為句對特征。

      語言模型

      Length(sen)表示句子的長度。Language-Model(sen)表示句子sen的語言模型得分。

      語言模型得分能夠衡量句子是否流暢。但是根據(jù)語言模型公式,我們知道一個句子長度對句子模型得分有影響。為了減緩這種影響,利于不同句子間的得分比較,我們對語言模型得分按句子長度進(jìn)行歸一化處理。

      語言模型參數(shù)在大規(guī)模單語語料上訓(xùn)練得到。實(shí)驗中我們分別計算語料中的漢英句子的四元語言模型得分。

      句子長度

      Length(s)表示源端句子的長度,即源端句子含有詞的個數(shù)。Length(t)表示目標(biāo)端句子的長度,即目標(biāo)端句子含有詞的個數(shù)。Ldiff值表示源端句子長度和目標(biāo)端句子長度差值,Lratio值表示源端句子長度和目標(biāo)端句子長度歸一化后的商值。

      文獻(xiàn)[7,11]都指出,句子長度是一個非常重要的特征。文獻(xiàn)[7]指出給定的語言對里的互譯句對長度應(yīng)符合一定的比例。并且給出漢英平行句對長度比的經(jīng)驗范圍0.5-1.2。通過對我們語料庫中語料的統(tǒng)計(圖1),發(fā)現(xiàn)語料庫中大部分漢英平行句對的長度比在該經(jīng)驗范圍內(nèi)。實(shí)驗中我們?nèi)〗?jīng)驗值θ=0.85對漢英長度比進(jìn)行歸一化處理。

      文獻(xiàn)[11]進(jìn)一步指出句子長度的差值也是一個衡量平行句對質(zhì)量好壞的重要標(biāo)志。所以我們分別選取源端句子長度和目標(biāo)端句子長度、兩者的差值以及兩者的歸一化后的商作為句對特征。

      未對齊詞數(shù)量

      文獻(xiàn)[11]指出,在經(jīng)過詞語對齊后平行句對間產(chǎn)生對齊鏈。一般來講,對齊鏈越多,說明句對間互譯的單詞越多,句對成為平行句對的概率也就越大。所以未對齊詞的數(shù)量也能夠說明平行句對質(zhì)量的好壞。在此,我們把源端和目標(biāo)端的未對齊詞數(shù)量和未對齊詞所占百分比作為句對特征。

      圖1 語料庫中漢英句對不同長度比所含句對數(shù)量分布

      最長對齊一致性片段和最長連續(xù)未對齊片段的長度

      文獻(xiàn)[11]指出最長對齊一致性片段的長度和最長連續(xù)未對齊片段的長度對句對是否平行有著很強(qiáng)的提示信息。這也和我們的直觀感覺相符合。所以本文中也將這兩者選擇作為句對特征。

      4 實(shí)驗

      實(shí)驗訓(xùn)練漢英雙語語料含有150萬句對,由實(shí)驗室內(nèi)部語料100萬句對和實(shí)驗室網(wǎng)絡(luò)挖掘語料50萬句對混合構(gòu)成。漢語句子平均句長為15,英語句子平均句長為17。對于訓(xùn)練語料,我們使用GIZA++[13]工具包進(jìn)行雙向?qū)R,然后采用“growdiag-final-and”策略獲得多到多的詞語對齊。使用搜狗新聞?wù)Z料訓(xùn)練漢語語言模型,使用Gigaword語料中新華部分訓(xùn)練英語語言模型,使用SRILM工具[14]訓(xùn)練的四元語言模型,模型使用KN方法進(jìn)行平滑。雙語詞典使用LDC漢英雙語詞典,含有漢語英文互譯詞匯54 170對。

      4.1 語料篩選實(shí)驗

      語料篩選流程:

      1.對所有的句對計算所有(共18個)特征得分。

      2.按基于雙語詞典的翻譯質(zhì)量得分(雙向)由高到低,翻譯模型得分(雙向)由高到低,句子長度商值歸一化得分(單向)由低到高分別對句對進(jìn)行排序,總共得到五個排序結(jié)果。

      3.根據(jù)五個排序,分別取排序的前m%和后n%判別為偽正例句對與偽負(fù)例句對。如果句對在五個排序中都被判別為偽正例句對,我們?nèi)∑錇檎鋵?。類似的,如果句對在五個排序中都被判別為偽負(fù)例句對,我們?nèi)∑錇樨?fù)例句對。其他句對作為待分類句對。(實(shí)驗中取m=30n=30,關(guān)于m,n的討論見后文)

      4.所有正例句對和負(fù)例句對組成訓(xùn)練集,使用所有的特征,訓(xùn)練最大熵分類器。

      5.使用訓(xùn)練好的最大熵分類器對待分類句對進(jìn)行分類。得到分類結(jié)果。

      在本實(shí)驗中,我們在步驟3取得473 249句對作為訓(xùn)練集,其中包括193 445個正例句對,279 804個反例句對。在該訓(xùn)練集上訓(xùn)練分類器,使用該分類器對1 026 751個待分類句對進(jìn)行分類,判別待分類句對中682 145個句對為正例句對。最后,我們使用所有的875 590個正例句對作為我們選出的新訓(xùn)練集進(jìn)行翻譯實(shí)驗。分類過程中訓(xùn)練句對和待分類句對中正負(fù)例句對的數(shù)量如表1所示。

      表1 分類過程中訓(xùn)練句對和待分類句對中正負(fù)例句對的數(shù)量

      4.2 機(jī)器翻譯實(shí)驗

      4.2.1 實(shí)驗設(shè)置

      實(shí)驗評測語料使用NIST2002年的評測語料(NIST02)作為開發(fā)集。NIST2005,2008年的評測語料(NIST05,NIST08)作為測試集。語言模型使用語料篩選試驗中的英語4元語言模型。實(shí)驗使用開源的基于短語的統(tǒng)計機(jī)器翻譯moses系統(tǒng)[15],短語抽取限制長度為7,采用 msd-bidirectional-fe調(diào)序模型。機(jī)器翻譯實(shí)驗中使用最小錯誤訓(xùn)練方法[16]優(yōu)化線性模型的參數(shù),采用大小寫不敏感的IBM BLEU-4[17]作為評測指標(biāo)。為了更合理的評測我們的方法,本文設(shè)置如下7個翻譯系統(tǒng):

      All:使用所有訓(xùn)練句對訓(xùn)練翻譯系統(tǒng)。

      Pos:使用所有正例句對訓(xùn)練翻譯系統(tǒng)。

      Neg:使用所有負(fù)例句對訓(xùn)練翻譯系統(tǒng)。

      Rand1:從所有訓(xùn)練句對中隨機(jī)選取與正例句對數(shù)量相等的句對組成句對集合,訓(xùn)練翻譯系統(tǒng)。

      Rand2:從所有訓(xùn)練句對中隨機(jī)選取與負(fù)例句對數(shù)量相等的句對組成句對集合,訓(xùn)練翻譯系統(tǒng)。

      RandPos:從正例句對集合隨機(jī)選取與負(fù)例句對數(shù)量相等的正例句對組成句對集合,訓(xùn)練翻譯系統(tǒng)。

      Pos+recallNeg:在Pos系統(tǒng)的已有正例句對語料基礎(chǔ)上,對每個負(fù)例句對進(jìn)行檢測,若該負(fù)例句對源端含有Pos系統(tǒng)訓(xùn)練集未覆蓋到的新詞,則將該句對加入到訓(xùn)練集中,否則跳過。使用最終得到的訓(xùn)練集合訓(xùn)練翻譯系統(tǒng)。

      4.2.2 實(shí)驗結(jié)果及分析

      通過表2的實(shí)驗結(jié)果我們可以觀察到各個系統(tǒng)在開發(fā)集和測試集上的譯測結(jié)果。Pos系統(tǒng)對比All系統(tǒng)在兩個測試集合上均取得更好的BLEU值(NIST05:+0.74NIST08:+0.87),測試集平均BLEU值提高了0.80個百分點(diǎn)。Pos系統(tǒng)不僅在BLEU值的取得提高,還減小了訓(xùn)練語料的規(guī)?!?xùn)練句對的數(shù)量減少近40%,縮減短語表規(guī)模,加快翻譯速度。但是在刪掉部分語料后,語料的覆蓋度降低,測試集翻譯結(jié)果中未翻譯詞的數(shù)量對比All系統(tǒng)增加了23%。

      表2 各個系統(tǒng)在開發(fā)集測試集的結(jié)果。*和**分別表示顯著性測試中ρ<0.05和ρ<0.01

      對比Pos系統(tǒng)與Rand1系統(tǒng)的結(jié)果,在訓(xùn)練句對數(shù)量相等的情況下,兩個測試集都取得更好的結(jié)果。這也說明我們選擇的正例句對有著更高的質(zhì)量。現(xiàn)在的疑問是,未被選擇的句對即Pos系統(tǒng)中未使用的負(fù)例句對質(zhì)量如何?我們可以觀察Rand2系統(tǒng)、RandPos系統(tǒng)、Neg系統(tǒng)的結(jié)果,我們可以看出在訓(xùn)練語料句對數(shù)量相等,未翻譯詞數(shù)量相當(dāng)?shù)那闆r下,RandPos系統(tǒng)BLEU 值、Rand2系統(tǒng)BLEU值、Neg系統(tǒng)的BLEU值在兩個測試集上依次遞減。這也和我們的預(yù)期所相符。RandPos系統(tǒng)與Neg系統(tǒng)結(jié)果的差異也表明正負(fù)例句對質(zhì)量的差異較大。

      Rand2系統(tǒng)、Rand1系統(tǒng)、All系統(tǒng)的訓(xùn)練語料的句對數(shù)依次增加,但兩個測試集合的BLEU值并非依次上漲。這與語料的選擇有關(guān),因為我們是隨機(jī)選擇的部分語料,新加入的語料中可能參雜著非平行句對,導(dǎo)致測試結(jié)果的BLEU值沒有增長。

      為了提高語料覆蓋度,針對未翻譯詞處理,我們加入了Pos+recallNeg系統(tǒng)對訓(xùn)練語料進(jìn)行如下處理:檢查每個負(fù)例句對,如果負(fù)例句對的源端含有正例句對源端單詞集合未出現(xiàn)的單詞,我們就將此負(fù)例句對加入訓(xùn)練集合。在略微增大訓(xùn)練集規(guī)模的情況下,減少了未翻譯詞的數(shù)量,進(jìn)一步提高譯文BLEU值。對比Pos系統(tǒng),Pos+recallNeg系統(tǒng)增加了47 765個句對。其翻譯結(jié)果中的未翻譯詞對比Pos系統(tǒng)有所減少,但是仍比All系統(tǒng)多,這與我們預(yù)估有所不同??紤]未翻譯詞出現(xiàn)的原因,一是測試集中存在未登錄詞。二是測試集中存在的某個詞,但是包含該詞翻譯的譯文沒有被選為最優(yōu)譯文而被拋棄。對比All系統(tǒng)與Pos+recallNeg系統(tǒng)的未翻譯詞,發(fā)現(xiàn)All系統(tǒng)未翻譯詞并非Pos+recall-Neg系統(tǒng)的未翻譯的子集,證明是第二點(diǎn)原因?qū)е翽os+recallNeg系統(tǒng)的未翻譯詞數(shù)量很多。在測試集BLEU值方面,對比Pos系統(tǒng),雖然在NIST08測試集提升0.42,但是另外一個測試集NIST05上卻降低(NIST05:-0.23)。其原因是添加負(fù)例句對,雖然在語料覆蓋度問題上有所改善,但是負(fù)例句對的增加導(dǎo)致訓(xùn)練語料的整體質(zhì)量降低,翻譯性能無法取得提升。這也說明在選取語料不僅要保證語料覆蓋度,同時要保證語料質(zhì)量。

      5 結(jié)論和未來工作

      本文提出一種自動的基于分類的平行語料選擇方法。利用少數(shù)特征選取差異較大的少量句對構(gòu)建訓(xùn)練集,在該訓(xùn)練集上我們使用更多的特征訓(xùn)練一個分類器,從而對余下平行語料進(jìn)行分類,以選擇高質(zhì)量的句對。實(shí)驗表明,使用過濾后的平行語料在規(guī)模僅為原始語料的60%的情況下翻譯BLEU值能有所提高。

      值得注意的是,我們所構(gòu)造的分類器訓(xùn)練正負(fù)例句對是通過取交集的方式構(gòu)建得到,我們根據(jù) 對每個特征排序取前m%和后n%構(gòu)造偽正負(fù)例句對,然后取交集得到分類器訓(xùn)練正負(fù)例句對。這里選取的正負(fù)例句對并不是真實(shí)的。在本文中為減少實(shí)驗復(fù)雜度,我們?nèi)=30,n=30進(jìn)行試驗。但我們可以引入已有信息對語料質(zhì)量進(jìn)行判斷,從而幫助我們更加合理地設(shè)置m,n的取值。換言之,m,n取值可以依賴于我們自身對語料質(zhì)量的評估。比如,對從網(wǎng)絡(luò)的獲取的語料,通過設(shè)置m取值小于n,構(gòu)造出數(shù)量少的訓(xùn)練正例句對。對人工構(gòu)造的平行語料,我們可以調(diào)整m大于n從而獲得較多的訓(xùn)練正例句對。引入更多信息,能夠幫助我們更好進(jìn)行語料選擇。

      未來工作從以下方面展開。如何構(gòu)造訓(xùn)練分類器的訓(xùn)練句對是語料選擇關(guān)鍵的一步。我們在將來會進(jìn)一步探索其他句對特征,構(gòu)造更具區(qū)分性的分類器訓(xùn)練句對。

      致謝

      該研究工作是第一作者在中國科學(xué)院計算技術(shù)研究所自然語言處理研究組客座實(shí)習(xí)期間完成的。涂兆鵬的工作是其在計算技術(shù)研究所自然語言處理研究組讀博期間完成。感謝蘇州大學(xué)姚建民教授和中國科學(xué)院計算所自然語言處理組呂雅娟研究員對本研究的支持,感謝謝軍博士和涂兆鵬師兄對本文工作的悉心指導(dǎo)。

      [1]Koehn P,Och F J,Marcu D.Statistical phrase-based translation[C]//Proceedings of the 2003Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1.Association for Computational Linguistics,2003:48-54.

      [2]Chiang D.A hierarchical phrase-based model for statistical machine translation[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics.Association for Computational Linguistics,2005:263-270.

      [3]Yang Liu,Qun Liu,Shouxun Lin.Tree-to-string alignment template for statistical machine translation[C]//Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics.2006:609-616

      [4]Jun Xie,Haitao Mi,Qun Liu.A novel dependency-tostring model for statistical machine translation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.2011:216-226.

      [5]Och F J,Ney H.The alignment template approach to statistical machine translation[J].Computational linguistics,2004,30(4):417-449.

      [6]陳毅東,史曉東,周昌樂.平行語料庫處理初探:一種排序模型[J].中文信息學(xué)報增刊,2006:66-70.

      [7]姚樹杰,肖桐,朱靖波.基于句對質(zhì)量和覆蓋度的統(tǒng)計機(jī)器翻譯訓(xùn)練語料選?。跩].中文信息學(xué)報,2011,25(002):72-77.

      [8]黃瑾,呂雅娟,劉群.基于信息檢索方法的統(tǒng)計翻譯系統(tǒng)訓(xùn)練數(shù)據(jù)選擇與優(yōu)化[J].中文信息學(xué)報,2008,22(2):40-46.

      [9]LüY,Huang J,Liu Q.Improving statistical machine translation performance by training data selection and optimization[C]//Proceedings of the 2007Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning(EMNLP-CoNLL).2007:343-350.

      [10]Han X,Li H,Zhao T.Train the machine with what it can learn:corpus selection for SMT[C]//Proceedings of the 2nd Workshop on Building and Using Comparable Corpora:from Parallel to Non-parallel Corpora.Association for Computational Linguistics,2009:27-33.

      [11]Munteanu D S,Marcu D.Improving machine translation performance by exploiting non-parallel corpora[J].Computational Linguistics,2005,31(4):477-504.

      [12]Munteanu D S,F(xiàn)raser A,Marcu D.Improved machine translation performance via parallel sentence extraction from comparable corpora[C]//Proceedings of HLT-NAACL 2004:Main Proceedings.2004:265-272.

      [13]Franz Josef Och,Hermann Ney.Improved Statistical Alignment Models[C]//Proceedings of the 38th ACL,2000.

      [14]Andreas Stolcke. SRILM-an extensible language modeling toolkit[C]//Proceedings of the 7th International Conference on Spoken Language Processing 2002:901-905.

      [15]Koehn P,Hoang H,Birch A,et al.Moses:Open source toolkit for statistical machine translation[C]//Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions.Association for Computational Linguistics,2007:177-180.

      [16]Och F J.Minimum error rate training in statistical machine translation[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 1.Association for Computational Linguistics,2003:160-167.

      [17]Papineni K,Roukos S,Ward T,et al.BLEU:a method for automatic evaluation of machine translation[C]//Proceedings of the 40th annual meeting on association for computational linguistics.Association for Computational Linguistics,2002:311-318.

      猜你喜歡
      例句語料平行
      向量的平行與垂直
      平行
      逃離平行世界
      英聲細(xì)語
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      好詞好句
      好詞好句
      再頂平行進(jìn)口
      汽車觀察(2016年3期)2016-02-28 13:16:36
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      好詞好句
      浦县| 集贤县| 定南县| 女性| 玉林市| 武隆县| 仁怀市| 兴义市| 新绛县| 鄂温| 延寿县| 桐柏县| 苍梧县| 前郭尔| 迭部县| 泾阳县| 临桂县| 龙里县| 阳东县| 砚山县| 汉川市| 抚顺县| 浦东新区| 理塘县| 张掖市| 岳阳县| 金寨县| 鹤岗市| 琼海市| 龙门县| 九江县| 新巴尔虎右旗| 辽源市| 民勤县| 延边| 贵南县| 新沂市| 缙云县| 新乡县| 达州市| 杭锦后旗|