盧世祥 雷曉江 楊勁鋒
摘 要 統(tǒng)計機(jī)器翻譯中,語言模型的性能受限于訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量。為提高其性能,通常采用數(shù)據(jù)篩選的方法篩選合適的訓(xùn)練數(shù)據(jù)。本文對基于雙語數(shù)據(jù)篩選的方法進(jìn)行了全面綜述和分析,并對各類方法進(jìn)行了比較和總結(jié)。
【關(guān)鍵詞】統(tǒng)計機(jī)器翻譯 雙語數(shù)據(jù)篩選 語言模型自適應(yīng)
在統(tǒng)計機(jī)器翻譯中,語言模型的性能受限于訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量,并不是僅靠增加訓(xùn)練數(shù)據(jù)的規(guī)模就可以提高語言模型的性能,也要訓(xùn)練數(shù)據(jù)和當(dāng)前翻譯任務(wù)相匹配。因此,很多學(xué)者選擇從大規(guī)模訓(xùn)練數(shù)據(jù)中篩選和當(dāng)前翻譯任務(wù)相似的訓(xùn)練數(shù)據(jù)的角度來提高語言模型的性能。這樣可以提供更精確的模型概率,也更和當(dāng)前翻譯任務(wù)相匹配,進(jìn)而提高翻譯性能。
前人的基于數(shù)據(jù)篩選的語言模型自適應(yīng)方法大都依賴于一次解碼的翻譯結(jié)果,他們根據(jù)一次解碼的翻譯結(jié)果從目標(biāo)語言端語言模型的訓(xùn)練數(shù)據(jù)中篩選和當(dāng)前翻譯任務(wù)相似的訓(xùn)練數(shù)據(jù)。這些方法全部受限于翻譯結(jié)果的質(zhì)量,越好的初始翻譯結(jié)果會帶來越精確的篩選到的數(shù)據(jù)。但是翻譯結(jié)果遠(yuǎn)不夠精確,里面有很多噪聲數(shù)據(jù)。帶有噪聲的翻譯結(jié)果會誤導(dǎo)數(shù)據(jù)篩選過程,進(jìn)而將噪聲帶入篩選到的訓(xùn)練數(shù)據(jù)中,最終導(dǎo)致“噪聲繁衍”的問題,降低自適應(yīng)后的語言模型的性能。
另外,傳統(tǒng)的數(shù)據(jù)篩選方法都是基于詞袋模型的,可以看作是上下文內(nèi)容無關(guān)的。這些方法在整個數(shù)據(jù)篩選過程中將詞語孤立看待,以詞為單位,沒有考慮上下文內(nèi)容信息,會降低篩選到的數(shù)據(jù)的質(zhì)量。
為了解決以上方法的不足,很多學(xué)者從跨語言數(shù)據(jù)篩選和引入上下文內(nèi)容的角度提出了雙語數(shù)據(jù)篩選方法,基本上可以分為基于翻譯模型的雙語數(shù)據(jù)篩選和基于主題模型的雙語數(shù)據(jù)篩選兩類方法。在本論文中我們將對這兩類方法進(jìn)行全面綜述和分析,最后給出相關(guān)的比較,總結(jié)和展望。
1 基于雙語數(shù)據(jù)篩選的翻譯模型自適應(yīng)方法
1.1 基于詞翻譯的雙語數(shù)據(jù)篩選(CLWTM)
1.2 基于短語翻譯的雙語數(shù)據(jù)篩選(CLPTM)
首先,每一個句子T被分割成K個非空的短語序列t1,…,tk的集合U;其次,非空的短語系列t1,…,tk被依次轉(zhuǎn)化(翻譯)成一系列的非空的短語系列q1,…,qk;最后,將得到的短語轉(zhuǎn)化(翻譯)序列q1,…,qk的集合V 進(jìn)行調(diào)序組合生成句子S。
在以上假設(shè)下,基于短語翻譯的雙語數(shù)據(jù)篩選可以表示為:
其中,M表示K個短語調(diào)序后的結(jié)果;B(T,S)定義為U,V和M構(gòu)成的三元組集合,表示將T轉(zhuǎn)換成S的過程。
對于給定的部分對齊關(guān)系,我們關(guān)注的是由U,V和M構(gòu)成的三元組與部分對齊關(guān)系是一致的,記為B(T,S, )。一旦詞語對齊關(guān)系確定了,調(diào)序部分就可以忽略。利用最大化求和可以得到:
不同于基于詞的翻譯模型,基于短語的模型在數(shù)據(jù)篩選過程以短語為單位,融入了上下文信息,理論上可以獲得更好的性能,但是直接運用基于短語翻譯的相似值計算進(jìn)行數(shù)據(jù)篩選效果不好。為提高性能,通常采用線性排序的方法,將不同的模型作為特征,融合到統(tǒng)一的框架中。例如,短語翻譯特征,詞匯化特征,詞翻譯特征等。
1.3 基于聯(lián)合雙語主題模型的雙語數(shù)據(jù)篩選(JBLTM)
在數(shù)據(jù)篩選任務(wù)中,對于一個相似的雙語句對我們假設(shè)有完全相同的主題分布,以主題分布為目標(biāo)去做雙語數(shù)據(jù)的相似值計算。對于任何一個主題z,從一個帶有參數(shù)β的狄利克雷先驗分布中選取一對不同的詞分布(φ, φ)。其中,φ和φ分別是S和T的具體主題詞分布。對于每個S以及跟它配對的T,可以從一個帶有參數(shù)α的狄利克雷先驗分布中提取相應(yīng)的主題分布β。句子S中的每個詞可以通過先根據(jù)β選擇一個主題z來生成,然后再從φ中抽取出一個詞。
在以上條件下,一個跨語言主題相似句對的基于語義的對數(shù)可能性以及詞-主題分布可以計算如下:
接下來,通過最大化雙語數(shù)據(jù)的聯(lián)合對數(shù)可能性,并采用標(biāo)準(zhǔn)EM算法去估算參數(shù)(θ,φS,φT)。E步驟:針對每個隱變量z,計算句子S中的每個詞s和配對句子T中的每個詞t的后驗概率;M步驟:通過E步驟計算得到的后驗概率來更新參數(shù)。
1.4 基于成對雙語主題模型的雙語數(shù)據(jù)篩選(CBLTM)
在數(shù)據(jù)篩選任務(wù)中,對于一個相似的雙語句對不一定要有完全相同的主題分布,更加合理的應(yīng)該是相似的主題分布。因為相似句對在長度不同的時候,主題分布不可能完全相同變得尤其明顯。我們希望JBLTM趨向于在長句時的主題向量的生成更好,使得句對中兩個句子的對數(shù)可能性更高,而短句的最好的主題分布權(quán)重相對更小,進(jìn)而在JBLTM基礎(chǔ)上我們提出了CBLTM。
2 比較與總結(jié)
以上四種雙語數(shù)據(jù)篩選方法可以基本分為兩類:基于翻譯模型的雙語數(shù)據(jù)篩選和基于主題模型的雙語數(shù)據(jù)篩選:
2.1 基于翻譯模型的雙語數(shù)據(jù)篩選方法
相對于傳統(tǒng)的利用單語數(shù)據(jù)篩選的方法,雙語數(shù)據(jù)篩選可以解決“噪聲繁衍”的問題。另外,相對于傳統(tǒng)的基于詞袋模型的方法和基于詞翻譯的雙語數(shù)據(jù)篩選方法,基于短語翻譯的雙語數(shù)據(jù)篩選方法能夠從詞匯的層面考慮“局部”上下文內(nèi)容,在數(shù)據(jù)篩選過程中以短語為處理單位,提高數(shù)據(jù)篩選精度。
2.2 基于主題模型的雙語數(shù)據(jù)篩選方法
該類方法可以從詞的主題分布的層面考慮“全局”上下文內(nèi)容。假設(shè)語義相關(guān)的詞經(jīng)常出現(xiàn)在相似的上下文中,而這些語義相關(guān)的詞通??梢钥醋魇且粋€“主題”。該類方法將雙語數(shù)據(jù)篩選過程看作是在語言上獨立地跨語言語義表示,并且假設(shè)相似的雙語數(shù)據(jù)句對含有相同或是相似的主題分布,也就是相同或相似的全局上下文信息?;诼?lián)合雙語主題模型的雙語數(shù)據(jù)篩選方法對跨語言相似的句對賦予相似的主題分布并且在建模過程中對于不同長度的句對處理是相同的,所以更加適合于基于雙語數(shù)據(jù)篩選的語言模型自適應(yīng)任務(wù),并且有更好的性能。
相關(guān)實驗結(jié)果表明,相對于傳統(tǒng)方法,以上兩類方法可以進(jìn)一步提升數(shù)據(jù)篩選的性能,在語言模型困惑度和翻譯性能方面都有明顯提高,最終提高統(tǒng)計機(jī)器翻譯中語言模型自適應(yīng)的性能。endprint
從系統(tǒng)融合角度來說,基于翻譯模型的雙語數(shù)據(jù)篩選方法和基于主題模型的雙語數(shù)據(jù)篩選方法對于雙語數(shù)據(jù)篩選過程是相互補(bǔ)充的,可以通過線性排序函數(shù)對這兩類方法進(jìn)行融合,進(jìn)一步提高數(shù)據(jù)篩選的性能。融合后的模型既能從詞匯的層面考慮上下文信息,又能從語義的層面考慮上下文信息,因此融合后的模型比單一模型具有更好的上下文描述能力。
雖然以上數(shù)據(jù)篩選方法性能都相對很好,但是在實際系統(tǒng)運用中模型過于復(fù)雜,需在系統(tǒng)實現(xiàn)上做進(jìn)一步的優(yōu)化,精簡模型。如做相應(yīng)的關(guān)鍵詞信息處理,利用TextRank算法提取相應(yīng)的關(guān)鍵詞并對訓(xùn)練數(shù)據(jù)做處理,在此基礎(chǔ)上訓(xùn)練模型。另外,要在根本上提高語言模型自適應(yīng)的性能,還需在模型和大數(shù)據(jù)方面做相應(yīng)的深入研究,一是要做到數(shù)據(jù)融合和模型整合的統(tǒng)一,二是要做到海量規(guī)模的訓(xùn)練數(shù)據(jù)。
參考文獻(xiàn)
[1] Matthias Eck, Stephan Vogel and Alex Waibel. Language model adaptation for statistical machine translation based on information retrieval. Proceedings of LREC 2004, pages 327-330.
[2] Bing Zhao, Matthias Eck, and Stephan Vogel. Language model adaptation for statistical machine translation via structured query models. Proceedings of COLING 2004, pages 411-417.
[3] Sameer Maskey and Abhinav Sethy. Resampling auxiliary data for language model adaptation in machine translation for speech. Proceedings of ICASSP 2010, pages 4817-4820.
[4] Almut Silja Hildebrand, Matthias Eck, Stephan Vogel, and Alex Waibel. Adaptation of the translation model for statistical machine translation based information retrieval. Proceedings of EAMT 2005, pages 133-142.
[5] Sankaranarayanan Ananthakrishnan, Rohit Prasad, and Prem Natarajan. On-line language model biasing for dtatistical machine translation. Proceedings of ACL 2011, pages 445-449.
[6] Amittai Axelrod, Xiaodong He, and Jianfeng Gao. Domain adaptation via pseudo in-domain data selection. Proceedings of EMNLP 2011, pages 355-362.
[7] Shixiang Lu, Wei Wei, Xiaoyin Fu, and Bo Xu. Translation model based cross-lingual language model adaptation: from word models to phrase models. Proceedings of EMNLP-CoNLL 2012, pages 512-522.
[8] Shixiang Lu, Xiaoyin Fu, Wei Wei, Xingyuan Peng, and Bo Xu. Joint and coupled bilingual topic model based sentence representations for language model adaptation. Proceedings of IJCAI 2013, pages 2141-2147.
作者單位
廣東電網(wǎng)公司電力科學(xué)研究院 廣東省廣州市 510080endprint
從系統(tǒng)融合角度來說,基于翻譯模型的雙語數(shù)據(jù)篩選方法和基于主題模型的雙語數(shù)據(jù)篩選方法對于雙語數(shù)據(jù)篩選過程是相互補(bǔ)充的,可以通過線性排序函數(shù)對這兩類方法進(jìn)行融合,進(jìn)一步提高數(shù)據(jù)篩選的性能。融合后的模型既能從詞匯的層面考慮上下文信息,又能從語義的層面考慮上下文信息,因此融合后的模型比單一模型具有更好的上下文描述能力。
雖然以上數(shù)據(jù)篩選方法性能都相對很好,但是在實際系統(tǒng)運用中模型過于復(fù)雜,需在系統(tǒng)實現(xiàn)上做進(jìn)一步的優(yōu)化,精簡模型。如做相應(yīng)的關(guān)鍵詞信息處理,利用TextRank算法提取相應(yīng)的關(guān)鍵詞并對訓(xùn)練數(shù)據(jù)做處理,在此基礎(chǔ)上訓(xùn)練模型。另外,要在根本上提高語言模型自適應(yīng)的性能,還需在模型和大數(shù)據(jù)方面做相應(yīng)的深入研究,一是要做到數(shù)據(jù)融合和模型整合的統(tǒng)一,二是要做到海量規(guī)模的訓(xùn)練數(shù)據(jù)。
參考文獻(xiàn)
[1] Matthias Eck, Stephan Vogel and Alex Waibel. Language model adaptation for statistical machine translation based on information retrieval. Proceedings of LREC 2004, pages 327-330.
[2] Bing Zhao, Matthias Eck, and Stephan Vogel. Language model adaptation for statistical machine translation via structured query models. Proceedings of COLING 2004, pages 411-417.
[3] Sameer Maskey and Abhinav Sethy. Resampling auxiliary data for language model adaptation in machine translation for speech. Proceedings of ICASSP 2010, pages 4817-4820.
[4] Almut Silja Hildebrand, Matthias Eck, Stephan Vogel, and Alex Waibel. Adaptation of the translation model for statistical machine translation based information retrieval. Proceedings of EAMT 2005, pages 133-142.
[5] Sankaranarayanan Ananthakrishnan, Rohit Prasad, and Prem Natarajan. On-line language model biasing for dtatistical machine translation. Proceedings of ACL 2011, pages 445-449.
[6] Amittai Axelrod, Xiaodong He, and Jianfeng Gao. Domain adaptation via pseudo in-domain data selection. Proceedings of EMNLP 2011, pages 355-362.
[7] Shixiang Lu, Wei Wei, Xiaoyin Fu, and Bo Xu. Translation model based cross-lingual language model adaptation: from word models to phrase models. Proceedings of EMNLP-CoNLL 2012, pages 512-522.
[8] Shixiang Lu, Xiaoyin Fu, Wei Wei, Xingyuan Peng, and Bo Xu. Joint and coupled bilingual topic model based sentence representations for language model adaptation. Proceedings of IJCAI 2013, pages 2141-2147.
作者單位
廣東電網(wǎng)公司電力科學(xué)研究院 廣東省廣州市 510080endprint
從系統(tǒng)融合角度來說,基于翻譯模型的雙語數(shù)據(jù)篩選方法和基于主題模型的雙語數(shù)據(jù)篩選方法對于雙語數(shù)據(jù)篩選過程是相互補(bǔ)充的,可以通過線性排序函數(shù)對這兩類方法進(jìn)行融合,進(jìn)一步提高數(shù)據(jù)篩選的性能。融合后的模型既能從詞匯的層面考慮上下文信息,又能從語義的層面考慮上下文信息,因此融合后的模型比單一模型具有更好的上下文描述能力。
雖然以上數(shù)據(jù)篩選方法性能都相對很好,但是在實際系統(tǒng)運用中模型過于復(fù)雜,需在系統(tǒng)實現(xiàn)上做進(jìn)一步的優(yōu)化,精簡模型。如做相應(yīng)的關(guān)鍵詞信息處理,利用TextRank算法提取相應(yīng)的關(guān)鍵詞并對訓(xùn)練數(shù)據(jù)做處理,在此基礎(chǔ)上訓(xùn)練模型。另外,要在根本上提高語言模型自適應(yīng)的性能,還需在模型和大數(shù)據(jù)方面做相應(yīng)的深入研究,一是要做到數(shù)據(jù)融合和模型整合的統(tǒng)一,二是要做到海量規(guī)模的訓(xùn)練數(shù)據(jù)。
參考文獻(xiàn)
[1] Matthias Eck, Stephan Vogel and Alex Waibel. Language model adaptation for statistical machine translation based on information retrieval. Proceedings of LREC 2004, pages 327-330.
[2] Bing Zhao, Matthias Eck, and Stephan Vogel. Language model adaptation for statistical machine translation via structured query models. Proceedings of COLING 2004, pages 411-417.
[3] Sameer Maskey and Abhinav Sethy. Resampling auxiliary data for language model adaptation in machine translation for speech. Proceedings of ICASSP 2010, pages 4817-4820.
[4] Almut Silja Hildebrand, Matthias Eck, Stephan Vogel, and Alex Waibel. Adaptation of the translation model for statistical machine translation based information retrieval. Proceedings of EAMT 2005, pages 133-142.
[5] Sankaranarayanan Ananthakrishnan, Rohit Prasad, and Prem Natarajan. On-line language model biasing for dtatistical machine translation. Proceedings of ACL 2011, pages 445-449.
[6] Amittai Axelrod, Xiaodong He, and Jianfeng Gao. Domain adaptation via pseudo in-domain data selection. Proceedings of EMNLP 2011, pages 355-362.
[7] Shixiang Lu, Wei Wei, Xiaoyin Fu, and Bo Xu. Translation model based cross-lingual language model adaptation: from word models to phrase models. Proceedings of EMNLP-CoNLL 2012, pages 512-522.
[8] Shixiang Lu, Xiaoyin Fu, Wei Wei, Xingyuan Peng, and Bo Xu. Joint and coupled bilingual topic model based sentence representations for language model adaptation. Proceedings of IJCAI 2013, pages 2141-2147.
作者單位
廣東電網(wǎng)公司電力科學(xué)研究院 廣東省廣州市 510080endprint