劉婉月,艾山·吾買(mǎi)爾,敖乃翔,郭銳
(1.新疆大學(xué)信息科學(xué)與工程學(xué)院,烏魯木齊 830046;2. 新疆大學(xué)新疆多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室,烏魯木齊 830046;3. 中國(guó)電子科技集團(tuán)公司電子科學(xué)研究院,北京 1000414. 新疆聯(lián)海創(chuàng)智信息科技有限公司,烏魯木齊 830010)
由于缺乏大規(guī)模并行語(yǔ)料使NMT模型無(wú)法達(dá)到所需的性能[1],導(dǎo)致低資源語(yǔ)言的機(jī)器翻譯任務(wù)困難重重。為了解決這個(gè)問(wèn)題,出現(xiàn)了許多創(chuàng)新技術(shù)。迄今為止,最成功的方法是Sennrich等人的方法[2],通過(guò)反向翻譯將單語(yǔ)目標(biāo)文本轉(zhuǎn)換為偽造并行數(shù)據(jù)。此后,該技術(shù)已在許多后續(xù)研究中被證明是有效的,但大多數(shù)研究?jī)H使用BT的所有數(shù)據(jù)來(lái)提高NMT模型的質(zhì)量。在資源匱乏的環(huán)境中,低資源下很難訓(xùn)練高性能的反向翻譯模型,因此使用全部的BT數(shù)據(jù)效果并不好[3],合理適當(dāng)?shù)剡x擇BT數(shù)據(jù)子集更能有效提高模型的翻譯質(zhì)量。因此,確定最佳質(zhì)量的BT數(shù)據(jù)子集是一個(gè)值得探索的問(wèn)題。
為了解決低資源問(wèn)題,先前的研究學(xué)者們提出了很多不同的方法擴(kuò)充平行語(yǔ)料。在不修改NMT翻譯模型的條件下,通過(guò)前向翻譯將大量的源端單語(yǔ)數(shù)據(jù)翻譯成目標(biāo)語(yǔ)言,構(gòu)造大規(guī)模偽造語(yǔ)料庫(kù)[4-5]。使用目標(biāo)端單語(yǔ)數(shù)據(jù)進(jìn)行平行語(yǔ)料的擴(kuò)充,置源端為空,單語(yǔ)數(shù)據(jù)放置在目標(biāo)端聯(lián)合真實(shí)平行語(yǔ)料訓(xùn)練翻譯模型[6]。和前向翻譯完全相反,使用目標(biāo)單語(yǔ)數(shù)據(jù)反向翻譯成源端數(shù)據(jù),構(gòu)造偽造平行語(yǔ)料庫(kù)[7]。將單語(yǔ)數(shù)據(jù)同時(shí)放置在源端和目標(biāo)端聯(lián)合真實(shí)平行語(yǔ)料訓(xùn)練模型[7-8]。源端和目標(biāo)端單語(yǔ)數(shù)據(jù)同時(shí)使用,聯(lián)合反向翻譯和正向翻譯擴(kuò)充平行語(yǔ)料庫(kù)[9-11],使用單個(gè)翻譯模型聯(lián)合源端和目標(biāo)端單語(yǔ)數(shù)據(jù)構(gòu)造偽造語(yǔ)料庫(kù)[12]。
單純的使用大量的外部單語(yǔ)數(shù)據(jù)可以擴(kuò)充低資源語(yǔ)料庫(kù),但是低資源平行語(yǔ)料訓(xùn)練的NMT翻譯模型翻譯效果不佳,導(dǎo)致偽造的平行語(yǔ)料質(zhì)量不高,為了解決這個(gè)問(wèn)題,研究學(xué)者們又從兩個(gè)不同的方向提高偽造平行語(yǔ)料的質(zhì)量:修改翻譯模型內(nèi)部結(jié)構(gòu),提高翻譯模型的翻譯能力,使用不同的句子篩選方法,從大量的偽造語(yǔ)料中篩選高質(zhì)量語(yǔ)料。修改翻譯模型內(nèi)部結(jié)構(gòu),提出限制采樣,非限制采樣,重排序等方法使翻譯得到的句子質(zhì)量更高[11];置信度不斷評(píng)估反向翻譯模型的質(zhì)量,從而提高模型的翻譯質(zhì)量[13];翻譯模型禁用目標(biāo)到源模型的標(biāo)簽平滑以及限制性采樣[14]等方法,都能夠提高反向翻譯的句子的質(zhì)量。大量的偽造語(yǔ)料中篩選高質(zhì)量語(yǔ)料,將目標(biāo)單語(yǔ)翻譯成偽造源語(yǔ)言,然后將偽造源語(yǔ)言翻譯成偽造目標(biāo)語(yǔ)言,計(jì)算真實(shí)目標(biāo)單語(yǔ)和偽造目標(biāo)單語(yǔ)的相似度,按照真實(shí)句子和偽造句子的相似度進(jìn)行偽造語(yǔ)料的篩選[15-16],但是這樣需要將大量單語(yǔ)數(shù)據(jù)翻譯兩次,時(shí)間成本比較高。最簡(jiǎn)單且最通用的做法是用全部的源端單語(yǔ)訓(xùn)練語(yǔ)言模型,然后計(jì)算偽造句子的困惑度,將困惑度從小到大排序,將困惑度小的偽造語(yǔ)料篩選出來(lái)作為高質(zhì)量的偽造語(yǔ)料。
提出的方法不同于計(jì)算相似度篩選偽造語(yǔ)料,也不同于僅僅使用源端單語(yǔ)數(shù)據(jù)訓(xùn)練單一語(yǔ)言模型計(jì)算困惑度,按困惑度排序的方法。使用基于熵的方法,僅僅將句子翻譯一次,使用真實(shí)或偽造的雙語(yǔ)或單語(yǔ)數(shù)據(jù)訓(xùn)練單個(gè)或多個(gè)語(yǔ)言模型,按照不同的困惑度篩選方法,篩選高質(zhì)量的偽造語(yǔ)料,該方法不但降低了時(shí)間成本,而且方法簡(jiǎn)單易于實(shí)現(xiàn)。
偽造語(yǔ)料作為附加數(shù)據(jù),彌補(bǔ)低資源語(yǔ)言對(duì)不足的情況。在文中,提出了8種利用語(yǔ)言模型過(guò)濾偽造平行語(yǔ)料庫(kù)的方法,按照不同的語(yǔ)言模型劃分為4大類(lèi)M1,M2,M3,M4。不同的訓(xùn)練數(shù)據(jù)得到不同的語(yǔ)言模型,使用符號(hào)來(lái)表示這些訓(xùn)練數(shù)據(jù)和語(yǔ)言模型。雙語(yǔ)用b表示,單語(yǔ)用m表示,源端用s表示,目標(biāo)端用t表示,偽造數(shù)據(jù)用p表示,真實(shí)數(shù)據(jù)用r表示,語(yǔ)言模型用LM表示。
M1是用源端真實(shí)語(yǔ)料訓(xùn)練語(yǔ)言模型,得到語(yǔ)言模型LM_rbs,對(duì)反向翻譯偽造的源端數(shù)據(jù)進(jìn)行過(guò)濾采取四種不同的方式:
M1_a)使用LM_rbs對(duì)反向翻譯的每一個(gè)源端偽造句子計(jì)算困惑度,按照困惑度從小到大排序后,按百分比從全部偽造語(yǔ)料中選取困惑度小的偽造數(shù)據(jù)。
M1_b)使用LM_rbs對(duì)真實(shí)平行語(yǔ)料中的源端語(yǔ)料計(jì)算困惑度,困惑度從小到大排序,最小的20個(gè)困惑度求和取平均作為最小困惑度Minppl,最大的20個(gè)困惑度求和取平均作為最大困惑度Maxppl,使用LM_rbs計(jì)算源端偽造語(yǔ)料的困惑度,將困惑度在在Minppl和Maxppl之間的偽造語(yǔ)料篩選出來(lái)。
M1_c)使用LM_rbs對(duì)真實(shí)平行語(yǔ)料中的源端數(shù)據(jù)計(jì)算困惑度,所有困惑度求和取平均為平均困惑度Avgppl,使用LM_rbs計(jì)算源端偽造語(yǔ)料的困惑度,將困惑度小于等于Avgppl的偽造語(yǔ)料篩選出來(lái)。
M1_d)考慮到用語(yǔ)言模型計(jì)算困惑度時(shí),長(zhǎng)句子的困惑度會(huì)比短句子的困惑度高,但是短句子的質(zhì)量不一定比長(zhǎng)句子質(zhì)量好,因此提出按照句子長(zhǎng)度進(jìn)行困惑度選取的方法,使用LM_rbs對(duì)反向翻譯的每一個(gè)源端偽造句子計(jì)算困惑度,相同的長(zhǎng)度內(nèi)按照困惑度排序,從每個(gè)長(zhǎng)度區(qū)間內(nèi)的選取困惑度小的偽造數(shù)據(jù)。
M2是用源端偽造數(shù)據(jù)訓(xùn)練語(yǔ)言模型。這種方法和前面提出的M1_a篩選語(yǔ)料的過(guò)程完全相同,不同之處是語(yǔ)言模型的訓(xùn)練數(shù)據(jù),源端偽造數(shù)據(jù)訓(xùn)練語(yǔ)言模型是使用反向翻譯得到的全部源端偽造數(shù)據(jù)訓(xùn)練語(yǔ)言模型LM_ps。使用LM_ps對(duì)反向翻譯的每一個(gè)源端偽造句子計(jì)算困惑度照困惑度從小到大排序,按百分比從全部偽造語(yǔ)料中選取困惑度小的偽造數(shù)據(jù)。
M3是用偽造雙語(yǔ)語(yǔ)料和真實(shí)雙語(yǔ)語(yǔ)料分別訓(xùn)練語(yǔ)言模型,聯(lián)合使用4個(gè)不同的語(yǔ)言模型計(jì)算源端句子的困惑度。利用真實(shí)雙語(yǔ)句分別訓(xùn)練語(yǔ)言模型LM_rbs和LM_rbt,從單語(yǔ)數(shù)據(jù)m中選擇長(zhǎng)度分布與真實(shí)的雙語(yǔ)語(yǔ)料庫(kù)中的目標(biāo)端句子長(zhǎng)度比較接近的單語(yǔ)句子,訓(xùn)練LM_mt模型,將選擇的單語(yǔ)數(shù)據(jù)進(jìn)行翻譯,用翻譯得到的源端數(shù)據(jù)訓(xùn)練語(yǔ)言模型LM_ps。對(duì)每個(gè)偽造的源端句子按公式(1)(2)計(jì)算,λ∈{0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1},λ是插值化超參數(shù),在實(shí)驗(yàn)過(guò)程中進(jìn)行調(diào)整,確定最好的插值化超參數(shù),最后將ppl按照從小多大排序,按百分比從全部偽造語(yǔ)料中選取困惑度小的偽造數(shù)據(jù)。
pp1=δ(λ*|LMps-LMrbs|+(1-λ)*|LMmt-LMrbt)
(1)
(2)
M4是用源端偽造數(shù)據(jù)和源端真實(shí)數(shù)據(jù)分別訓(xùn)練語(yǔ)言模型,聯(lián)合使用兩個(gè)不同的語(yǔ)言模型計(jì)算源端偽造句子的困惑度,利用真實(shí)雙語(yǔ)句對(duì)中的源端數(shù)據(jù)訓(xùn)練語(yǔ)言模型LM_rbs,從偽造的全部源端數(shù)據(jù)中選擇和真實(shí)源端句子長(zhǎng)度接近的句子訓(xùn)練語(yǔ)言模型LM_ps,采取兩種不同的方法使用兩個(gè)語(yǔ)言模型來(lái)篩選數(shù)據(jù)。
M4_a)使用兩個(gè)語(yǔ)言模型對(duì)偽造語(yǔ)料計(jì)算ppl并加權(quán)求和,按公式(3)計(jì)算,LM_pbs權(quán)值為α,LM_rbs的權(quán)值為β,α ∶β=3 ∶7;4 ∶6;5 ∶5;7 ∶3;6 ∶4,按百分比從全部偽造語(yǔ)料中選取困惑度小的偽造數(shù)據(jù)。
pp1=α*LMrbs+β*LMpbs
(3)
M4_b)使用兩個(gè)語(yǔ)言模型對(duì)偽造語(yǔ)料按公式(4)(2)計(jì)算ppl,λ∈{0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9},λ是插值化超參數(shù),在實(shí)驗(yàn)過(guò)程中進(jìn)行調(diào)整,確定最好的插值化超參數(shù),按百分比從全部偽造語(yǔ)料中選取困惑度小的偽造數(shù)據(jù)。
pp1=δ(λ*LMrbs+(1-λ)*LMpbs)
(4)
使用OpenNMT Toolkit[17]訓(xùn)練所有的翻譯模型,所有實(shí)驗(yàn)使用的參數(shù)如下:編碼器和解碼器的層數(shù)為6層,詞向量維度為768,隱藏層維度768,多頭注意力的頭數(shù)為8,全連接隱藏層狀態(tài)4096,句子的最大長(zhǎng)度為150,優(yōu)化器方法是Adam,Label smoothing=0.1,學(xué)習(xí)率衰減方法為noam,最大訓(xùn)練批次為4096。
使用moses中的multi-bleu.perl計(jì)算bleu值。維漢翻譯模型中,維吾爾語(yǔ)使用bpe進(jìn)行切分,合并24k次,漢語(yǔ)按字切分,反向翻譯模型中維語(yǔ)和漢語(yǔ)均使用bpe切分,合并24k次。古吉拉特語(yǔ)和英語(yǔ)分別合并10k次,實(shí)驗(yàn)中的基線(xiàn)系統(tǒng)是用低資源平行語(yǔ)料和反向翻譯得到的偽造平行語(yǔ)料共同訓(xùn)練的翻譯模型。
用維語(yǔ)-漢語(yǔ)語(yǔ)言對(duì)進(jìn)行深入的實(shí)驗(yàn),用古吉拉特語(yǔ)-英語(yǔ)對(duì)最好的篩選方法進(jìn)行驗(yàn)證。其中維-漢雙語(yǔ)平行語(yǔ)料來(lái)自2019 CWMT和新疆大學(xué)多語(yǔ)種實(shí)驗(yàn)室小組自建的98萬(wàn)句對(duì)維吾爾語(yǔ)-漢語(yǔ)數(shù)據(jù)集,2019 CCMT中的驗(yàn)證集作為實(shí)驗(yàn)的驗(yàn)證數(shù)據(jù)集,漢語(yǔ)單語(yǔ)數(shù)據(jù)也來(lái)自2019CWMT。古吉拉特語(yǔ)-英語(yǔ)數(shù)據(jù)集來(lái)自WMT19,驗(yàn)證集為newdev2019,測(cè)試集為newtest2019,單語(yǔ)英語(yǔ)來(lái)自WMT19的news crawl數(shù)據(jù)集,從中篩選100萬(wàn)作為單語(yǔ)語(yǔ)料。如表1所示為實(shí)驗(yàn)數(shù)據(jù)集的數(shù)據(jù)量。
表1 數(shù)據(jù)統(tǒng)計(jì)
17萬(wàn)維漢句對(duì)的預(yù)處理包括編碼轉(zhuǎn)換、全角半角轉(zhuǎn)換、亂碼過(guò)濾、分詞、BPE切分。具體操作為利用新疆大學(xué)多語(yǔ)種實(shí)驗(yàn)室研發(fā)的編碼轉(zhuǎn)換工具對(duì)維漢語(yǔ)料進(jìn)行編碼轉(zhuǎn)換;利用開(kāi)源的哈爾濱工業(yè)大學(xué)中文NLP工具LTP對(duì)中文語(yǔ)料進(jìn)行分詞處理;用自主研發(fā)的維語(yǔ)分詞工具對(duì)維語(yǔ)語(yǔ)料分詞處理;用subword-nmt開(kāi)源工具對(duì)維漢語(yǔ)料bpe切分處理。CWMT2019的700萬(wàn)漢語(yǔ)進(jìn)行初步篩選,首先將700萬(wàn)漢語(yǔ)反向翻譯成維吾爾語(yǔ),同時(shí)將維漢雙語(yǔ)中句子長(zhǎng)度小于5大于140的句對(duì)刪除。計(jì)算17萬(wàn)數(shù)據(jù)和700萬(wàn)數(shù)據(jù)的單詞頻率,每行句子中單詞頻率之和除以句子長(zhǎng)度作為相似度標(biāo)準(zhǔn),將700萬(wàn)數(shù)據(jù)中與17萬(wàn)數(shù)據(jù)相似程度高的數(shù)據(jù)篩選出來(lái),最后得到478萬(wàn)數(shù)據(jù)。從478萬(wàn)數(shù)據(jù)中隨機(jī)選擇200萬(wàn)漢語(yǔ)作為單語(yǔ)數(shù)據(jù)。
古吉拉特語(yǔ)-英語(yǔ)數(shù)據(jù)集中古吉拉特語(yǔ)和[18]使用相同的預(yù)處理方式,使用Indic NLP Library工具切分,moses中的tokenizer.perl和truecase.perl對(duì)英語(yǔ)預(yù)處理。單語(yǔ)英語(yǔ)使用nltk切分句子最后得到的句子個(gè)數(shù)44001362,平行語(yǔ)料中英語(yǔ)的句長(zhǎng)在2-81,英語(yǔ)單語(yǔ)數(shù)據(jù)從大量單語(yǔ)中隨機(jī)選擇在句長(zhǎng)范圍內(nèi)的句子,選取100萬(wàn)作為單語(yǔ)數(shù)據(jù)。
維漢翻譯實(shí)驗(yàn)使用兩種不同的單語(yǔ)數(shù)據(jù),分別為新疆大學(xué)多語(yǔ)種實(shí)驗(yàn)室小組自建的98萬(wàn)句對(duì)中的漢語(yǔ)作為單語(yǔ)數(shù)據(jù)和從CWMT2019單語(yǔ)漢語(yǔ)中篩選出來(lái)的200萬(wàn)漢語(yǔ)。使用kenlm訓(xùn)練3-Gram統(tǒng)計(jì)語(yǔ)言模型,分別對(duì)92萬(wàn)和200萬(wàn)翻譯的維語(yǔ)進(jìn)行篩選。
3.3.1 篩選92萬(wàn)數(shù)據(jù)
實(shí)驗(yàn)中采用了8種不同的方法訓(xùn)練語(yǔ)言模型,計(jì)算反向翻譯的偽造語(yǔ)料的困惑度,如表2所示。
M1_a,M1_b,M1_c,M1_d使用相同的語(yǔ)言模型用不同的方法對(duì)偽造維語(yǔ)進(jìn)行篩選,其中M1_a的結(jié)果最高,比baseline高了0.53個(gè)bleu值。M1_b和M1_d方法模型效果比baseline要低,說(shuō)明這兩種方法并不能篩選出質(zhì)量高的偽造語(yǔ)料。M3方法提高了0.43個(gè)bleu值,剩余的幾種方法均有0.5個(gè)bleu以上的提高,在8種不同的方法中,M4_a方法訓(xùn)練的模型質(zhì)量最好為41.94,比baseline提高了0.93個(gè)bleu值,說(shuō)明這種方法篩選的偽造語(yǔ)料質(zhì)量最好。除此以外,由于自建的98萬(wàn)語(yǔ)料中漢語(yǔ)存在與之平行的維語(yǔ)數(shù)據(jù),98萬(wàn)真實(shí)語(yǔ)料同17萬(wàn)語(yǔ)料聯(lián)合訓(xùn)練模型的bleu值為42.03,和M4_a相比僅僅高了0.09個(gè)bleu值,由此可見(jiàn),使用M4_a篩選的偽造語(yǔ)料質(zhì)量相對(duì)較高。
表2 維-漢模型實(shí)驗(yàn)結(jié)果
使用語(yǔ)言模型計(jì)算偽造語(yǔ)料的困惑度,將偽造句子按困惑度從小到大排序,按照百分比從偽造語(yǔ)料中篩選出高質(zhì)量的偽造語(yǔ)料,如表3所示,M1_a的實(shí)驗(yàn)結(jié)果顯示,當(dāng)偽造語(yǔ)料取值大于top30時(shí),模型的質(zhì)量開(kāi)始高于baseline,當(dāng)取92萬(wàn)數(shù)據(jù)的top70時(shí),模型的質(zhì)量最好,bleu值為41.64。除此之外,在表3中可以看到,top10-top70隨著偽造數(shù)據(jù)的增加,模型的質(zhì)量也隨之升高,但是top80之后模型質(zhì)量下降,因?yàn)檫^(guò)多的偽造數(shù)據(jù)會(huì)引入過(guò)多的噪聲,從而降低模型的翻譯質(zhì)量。
表3 M1_a實(shí)驗(yàn)結(jié)果
續(xù)上表
3.3.2 篩選200萬(wàn)數(shù)據(jù)
由于98萬(wàn)數(shù)據(jù)是平行語(yǔ)料,實(shí)驗(yàn)中有真實(shí)的語(yǔ)料作對(duì)比,最終確定使用兩種語(yǔ)言模型聯(lián)合計(jì)算句子的困惑度,能夠篩選出質(zhì)量較好的偽造語(yǔ)料。接下來(lái),擴(kuò)大單語(yǔ)數(shù)據(jù)的規(guī)模,使用200萬(wàn)漢語(yǔ)作為反向翻譯的目標(biāo)單語(yǔ)數(shù)據(jù),構(gòu)造偽造語(yǔ)料庫(kù),使用M4_a的方法對(duì)偽造語(yǔ)料進(jìn)行篩選,實(shí)驗(yàn)結(jié)果如表4所示。權(quán)重比為3 ∶7時(shí),取top50的偽造數(shù)據(jù)翻譯模型達(dá)到了最好的效果bleu為43.23,baseline高出了1.25個(gè)bleu值。
表4 200萬(wàn)M4_a結(jié)果
3.3.3 古吉拉特語(yǔ)-英語(yǔ)驗(yàn)證實(shí)驗(yàn)
取100萬(wàn)數(shù)據(jù)的top90會(huì)得到最好的模型,因此下面所有的實(shí)驗(yàn)都是取的top90的數(shù)據(jù)。表5所示,M4_a方法進(jìn)行的實(shí)驗(yàn),偽造古吉拉特語(yǔ)和真實(shí)古吉拉特語(yǔ)分別訓(xùn)練語(yǔ)言模型,聯(lián)合使用兩個(gè)不同的語(yǔ)言模型計(jì)算偽造古吉拉特語(yǔ)句子的困惑度,按公式(3)計(jì)算,LM_ps權(quán)值為α,LM_rbs的權(quán)值為β,α ∶β=1 ∶9;2 ∶8;3 ∶7;4 ∶6;5 ∶5;6 ∶4;7 ∶3;8 ∶2;9 ∶1,按top90從全部偽造語(yǔ)料中選取困惑度小的偽造數(shù)據(jù),實(shí)驗(yàn)結(jié)果表明α ∶β=2 ∶8時(shí)比baseline結(jié)果高了1.06個(gè)bleu值,除此之外,隨著LM_ps權(quán)值的增大,模型的效果先提高后降低,選取的偽造數(shù)據(jù)質(zhì)量先越來(lái)越好隨后質(zhì)量越來(lái)越壞。
表5 古吉拉特語(yǔ)-英語(yǔ)驗(yàn)證實(shí)驗(yàn)結(jié)果
3.3.4 對(duì)比語(yǔ)言模型
本小節(jié)對(duì)比了4種不同的語(yǔ)言模型,包括統(tǒng)計(jì)語(yǔ)言模型kenlm、預(yù)訓(xùn)練語(yǔ)言模型bert、highway語(yǔ)言模型、rnnlm。在維漢語(yǔ)料上做實(shí)驗(yàn),四個(gè)實(shí)驗(yàn)使用相同的數(shù)據(jù)訓(xùn)練語(yǔ)言模型,相同的方法篩選合成的維語(yǔ)句子,其中使用M4_a方法獲取訓(xùn)練數(shù)據(jù)、訓(xùn)練語(yǔ)言模型并進(jìn)行語(yǔ)料篩選。實(shí)驗(yàn)中使用200萬(wàn)漢語(yǔ)作為單語(yǔ)數(shù)據(jù)。由于不存在已經(jīng)訓(xùn)練好的維語(yǔ)bert語(yǔ)言模型,所以維語(yǔ)的bert語(yǔ)言模型是重新訓(xùn)練的。
統(tǒng)計(jì)語(yǔ)言模型使用M4_a的方法篩選偽造語(yǔ)料的實(shí)驗(yàn),前期實(shí)驗(yàn)中,當(dāng)取top50的數(shù)據(jù)時(shí),模型的質(zhì)量最好,因此在對(duì)比實(shí)驗(yàn)中,每種不同的比例均取top50的數(shù)據(jù)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示。統(tǒng)計(jì)語(yǔ)言模型中最好的結(jié)果為43.21,bert語(yǔ)言模型最好的結(jié)果42.82,highway語(yǔ)言模型最好的結(jié)果是42.81,rnnlm最好的結(jié)果是43.11。使用統(tǒng)計(jì)語(yǔ)言模型篩選的偽造語(yǔ)料訓(xùn)練的翻譯模型的bleu值相對(duì)更高,翻譯模型的質(zhì)量更好。Bert語(yǔ)言模型產(chǎn)生這種結(jié)果的原因可能是因?yàn)榫S語(yǔ)bert語(yǔ)言模型是從頭開(kāi)始重新訓(xùn)練的,但是bert語(yǔ)言模型需要大規(guī)模的訓(xùn)練語(yǔ)料,維語(yǔ)bert訓(xùn)練數(shù)據(jù)較少,訓(xùn)練完成的語(yǔ)言模型計(jì)算句子困惑度準(zhǔn)確度不高,造成篩選的偽造語(yǔ)料質(zhì)量較低,訓(xùn)練的翻譯模型質(zhì)量不好。Highway語(yǔ)言模型的網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)簡(jiǎn)單,訓(xùn)練的語(yǔ)言模型相對(duì)于其他三個(gè)語(yǔ)言模型質(zhì)量最不好。rnnlm選擇的數(shù)據(jù)質(zhì)量相對(duì)高一些,但是仍沒(méi)有統(tǒng)計(jì)語(yǔ)言模型篩選的數(shù)據(jù)質(zhì)量好。
這四種不同的語(yǔ)言模型中,從3個(gè)不同的方面進(jìn)行對(duì)比。第一方面,語(yǔ)言模型的訓(xùn)練時(shí)間,bert語(yǔ)言模型和rnnlm語(yǔ)言模型訓(xùn)練的時(shí)間相對(duì)較長(zhǎng);highway語(yǔ)言模型的訓(xùn)練時(shí)間短,統(tǒng)計(jì)語(yǔ)言模型訓(xùn)練的時(shí)間最短,很快完成。第二方面:計(jì)算單語(yǔ)數(shù)據(jù)的困惑度時(shí)間,bert、rnnlm、highway都需要較長(zhǎng)的時(shí)間,其中bert花費(fèi)的時(shí)間最長(zhǎng),200萬(wàn)句子需要花費(fèi)幾天完成,而統(tǒng)計(jì)語(yǔ)言模型只需要幾分鐘就可以完成。第三方面:訓(xùn)練的語(yǔ)言模型的質(zhì)量方面,通過(guò)篩選偽造數(shù)據(jù)進(jìn)行機(jī)器翻譯的bleu值來(lái)判斷語(yǔ)言模型的好壞。由于在低資源情況下,維語(yǔ)數(shù)據(jù)并不多,因此bert語(yǔ)言模型的質(zhì)量并不高;highway語(yǔ)言模型和bert語(yǔ)言模型質(zhì)量差不多;rnnlm的質(zhì)量比前兩個(gè)要好很多,但是就翻譯模型的質(zhì)量而言,統(tǒng)計(jì)語(yǔ)言模型篩選的數(shù)據(jù)質(zhì)量要更好一些,也就是統(tǒng)計(jì)語(yǔ)言模型的質(zhì)量要比rnnlm更高一些。
因此,四種不同的語(yǔ)言模型,從三個(gè)不同的角度進(jìn)行比較,無(wú)論是模型的訓(xùn)練時(shí)間還是計(jì)算ppl的時(shí)間,或者是模型的質(zhì)量,統(tǒng)計(jì)語(yǔ)言模型都是最好的。
表6 對(duì)比實(shí)驗(yàn)
實(shí)驗(yàn)中一共使用了8種不同的方法進(jìn)行數(shù)據(jù)篩選,實(shí)驗(yàn)結(jié)果表明使用單一語(yǔ)言模型,無(wú)論是源端真實(shí)語(yǔ)料訓(xùn)練的語(yǔ)言模型還是源端合成語(yǔ)料訓(xùn)練的語(yǔ)言模型,他們篩選出的語(yǔ)料都能夠提高模型質(zhì)量,但是篩選的偽造數(shù)據(jù)質(zhì)量不是最好的;聯(lián)合使用這兩個(gè)語(yǔ)言模型,兩種語(yǔ)言模型計(jì)算的困惑度加權(quán)求和能夠篩選出最多的高質(zhì)量的偽造語(yǔ)料,在98萬(wàn)維漢實(shí)驗(yàn)數(shù)據(jù)上,模型取得了41.94的結(jié)果相比baseline提升了0.93個(gè)點(diǎn),和98萬(wàn)真實(shí)數(shù)據(jù)訓(xùn)練的模型相比僅僅低了0.09個(gè)點(diǎn)。在200萬(wàn)維漢實(shí)驗(yàn)數(shù)據(jù)上,模型取得了43.23的結(jié)果,相比于baseline高出了1.25個(gè)點(diǎn)。在古吉拉特語(yǔ)和英語(yǔ)數(shù)據(jù)集上提高了1.06個(gè)bleu。除此之外四種不同的語(yǔ)言模型進(jìn)行對(duì)比,從模型訓(xùn)練時(shí)間,困惑度計(jì)算時(shí)間以及篩選句子的質(zhì)量三個(gè)方面綜合考慮,統(tǒng)計(jì)語(yǔ)言模型是最好的選擇。
本文提出了8種不同基于熵的機(jī)器翻譯偽并行語(yǔ)料庫(kù)選擇方法,不同的方法在相同的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),對(duì)比結(jié)果表明,使用源端真實(shí)和偽造語(yǔ)料分別訓(xùn)練語(yǔ)言模型,加權(quán)求和能夠篩選出質(zhì)量非常好的偽造語(yǔ)料。文中提出的這8種不同的方法都是對(duì)反向翻譯語(yǔ)料進(jìn)行處理,并沒(méi)有對(duì)模型進(jìn)行修改,下一步的工作就是修改反向翻譯模型,從模型結(jié)構(gòu)入手,提高反向翻譯模型的質(zhì)量,從根本上提高反向翻譯偽造數(shù)據(jù)的質(zhì)量。