多策略漢英平行語料的過濾方法研究

2021-06-22 08:32:36張國成王穎敏鐘恩俊江秋怡朱宏康陳毅東史曉東

廈門大學(xué)學(xué)報(bào)(自然科學(xué)版) 2021年4期

張國成，王穎敏，鐘恩俊，江秋怡，江舫，章棟，朱宏康，陳毅東，史曉東

(廈門大學(xué)信息學(xué)院，福建廈門 361005)

主流的神經(jīng)機(jī)器翻譯系統(tǒng)需要大量的語料進(jìn)行模型訓(xùn)練，而語料的質(zhì)量很大程度影響了翻譯模型的性能[1]，因此對(duì)語料進(jìn)行過濾來確保語料質(zhì)量尤為重要.語料過濾的主流方法一般是采用規(guī)則方法、統(tǒng)計(jì)方法和神經(jīng)網(wǎng)絡(luò)方法相結(jié)合的策略，其中統(tǒng)計(jì)方法和神經(jīng)網(wǎng)絡(luò)方法非常多，如Junczys-Dowmunt[2]提出對(duì)偶條件交叉熵(dual conditional cross-entropy)，Snchez-Cartagena等[3]從各種打分函數(shù)中學(xué)習(xí)權(quán)重的方法，還有不少研究者試圖從詞嵌入(word embedding)[4-6]角度衡量句對(duì)平行程度.

為了解決漢英平行語料中帶噪聲的問題，本文設(shè)計(jì)了兩種不同的模式：?jiǎn)蜗到y(tǒng)模式和多系統(tǒng)融合模式.其中單系統(tǒng)分為規(guī)則系統(tǒng)、Zipporah系統(tǒng)、詞對(duì)齊系統(tǒng)、語言模型系統(tǒng)、翻譯模型系統(tǒng)和雙語預(yù)訓(xùn)練模型系統(tǒng).多系統(tǒng)融合則是在單系統(tǒng)的基礎(chǔ)上，將表現(xiàn)優(yōu)異的系統(tǒng)的打分加權(quán)融合，融合的方式有兩種：一種是將得分相加，另一種是將得分相乘，以期獲得優(yōu)異的翻譯性能.

1 系統(tǒng)描述

本文提交的系統(tǒng)所使用的方法可分為3類：規(guī)則方法、統(tǒng)計(jì)方法和神經(jīng)網(wǎng)絡(luò)方法，系統(tǒng)的整體架構(gòu)如圖1所示.其中規(guī)則方法主要通過設(shè)計(jì)一系列規(guī)則來過濾質(zhì)量明顯不符合要求的語料；統(tǒng)計(jì)方法包括Zipporah系統(tǒng)、詞對(duì)齊模型和語言模型，通過在大量干凈的語料上統(tǒng)計(jì)特征信息達(dá)到過濾目的；神經(jīng)網(wǎng)絡(luò)方法包括翻譯模型和雙語預(yù)訓(xùn)練模型，在干凈的語料上訓(xùn)練得到泛化能力較強(qiáng)的模型，然后對(duì)帶噪聲的語料進(jìn)行過濾.最后，根據(jù)不同方法的成績，將表現(xiàn)優(yōu)異的方法加權(quán)融合，得到最終的干凈語料.

圖1 系統(tǒng)架構(gòu)圖Fig.1 System architecture diagram

1.1 規(guī)則方法

Pinnis[7]提出利用句子長度比例、最大句子長度、唯一句子對(duì)等過濾方法對(duì)語料進(jìn)行過濾.借鑒其工作，本文制定了4條規(guī)則：

1) 長度過濾規(guī)則，源端或目標(biāo)端句子長度超過80個(gè)單詞的句對(duì)記0分，否則記1分；

2) 長度比限制規(guī)則，源端與目標(biāo)端句子長度比超過1.7的句對(duì)記0分，否則記1分；

3) 語種識(shí)別規(guī)則，用langid(https:∥github.com/saffsd/langid.py)識(shí)別源端和目標(biāo)端語種，語種不正確的句對(duì)記0分，否則記1分；

4) 去重規(guī)則，重復(fù)的句對(duì)第一次出現(xiàn)記1分，否則記0分.

借助上述4條規(guī)則，針對(duì)給定的句對(duì)可以得到一個(gè)四維特征，每一維的值為0或1.

1.2 統(tǒng)計(jì)方法

1.2.1 Zipporah系統(tǒng)

Chaudhary等[8]嘗試將Zipporah(https:∥github.com/hainan-xv/zipporah)作為融合系統(tǒng)的一部分，取得了不錯(cuò)的成績.Zipporah系統(tǒng)是一種快速且可擴(kuò)展的系統(tǒng)，可以從大量嘈雜的數(shù)據(jù)池中選擇任意大小的“好數(shù)據(jù)”，用于神經(jīng)機(jī)器翻譯模型的訓(xùn)練.其原理是：首先將句子映射到特征空間，特征空間包含充分性得分和流利度得分兩個(gè)特征；然后使用邏輯回歸進(jìn)行二分類，類別分別是“好數(shù)據(jù)”和“壞數(shù)據(jù)”；最后采用式(1)進(jìn)行歸一化，得到平行程度得分

(1)

其中x為Zipporah系統(tǒng)的得分.

1.2.2 詞對(duì)齊模型

Zarina等[9]認(rèn)為非平行句對(duì)的詞對(duì)齊很少，因此本文考慮利用詞對(duì)齊進(jìn)行語料過濾.首先用fast_align(https:∥github.com/clab/fast_align)詞對(duì)齊工具在第16屆全國機(jī)器翻譯大會(huì)(CCMT 2020)提供的不帶噪聲的漢英平行語料上訓(xùn)練，然后對(duì)帶噪聲的語料進(jìn)行預(yù)測(cè)，可直接得到句對(duì)的詞對(duì)齊分?jǐn)?shù).由于在fast_align工具中，詞對(duì)齊分?jǐn)?shù)的計(jì)算方法是將詞對(duì)齊概率進(jìn)行對(duì)數(shù)求和，所以句子越長，詞對(duì)齊分?jǐn)?shù)越小，意味著系統(tǒng)偏好短句子.為了減少句子長度對(duì)詞對(duì)齊分?jǐn)?shù)的影響，本文中采用式(2)計(jì)算平行程度得分：

(2)

其中,salign為句對(duì)的詞對(duì)齊分?jǐn)?shù)，lsource和ltarget分別為源端和目標(biāo)端句子的長度.

在將句對(duì)的詞對(duì)齊分?jǐn)?shù)按照式(2)處理后，按照分?jǐn)?shù)從高到低進(jìn)行排序，經(jīng)過統(tǒng)計(jì)發(fā)現(xiàn)詞對(duì)齊分?jǐn)?shù)大于等于-4.5的句對(duì)數(shù)量約為400萬，大約1億個(gè)單詞.本文中認(rèn)定這些句對(duì)的質(zhì)量較好，它們?cè)跉w一化后的分?jǐn)?shù)應(yīng)該較高，于是設(shè)計(jì)了式(3)進(jìn)行分?jǐn)?shù)的歸一化：

(3)

1.2.3 語言模型

因?yàn)檎Z言模型可以過濾掉不合語法的數(shù)據(jù)，所以本文中考慮使用語言模型對(duì)語料進(jìn)行過濾.本文選擇不帶噪聲的語料庫生成語言模型，并利用該語言模型計(jì)算待過濾數(shù)據(jù)集的困惑度(perplexity,p)分?jǐn)?shù).

具體地，在不帶噪聲的雙語語料上使用SRILM(https:∥github.com/BitSpeech/SRILM)工具，為漢英語料分別訓(xùn)練一個(gè)5元語法(5-gram)語言模型，并使用這個(gè)語言模型分別計(jì)算待過濾雙語語料中漢英句子的困惑度分?jǐn)?shù).對(duì)于得到的漢英句子困惑度分?jǐn)?shù)，本文使用了兩個(gè)打分策略：句子級(jí)困惑度分?jǐn)?shù)和單詞級(jí)困惑度分?jǐn)?shù).

為了便于后續(xù)處理，將困惑度分?jǐn)?shù)進(jìn)行歸一化處理.在歸一化操作中，本文基于經(jīng)驗(yàn)設(shè)計(jì)了一系列分段函數(shù).

對(duì)漢語待過濾語料句子級(jí)困惑度分?jǐn)?shù)，本文設(shè)計(jì)的歸一化的分段函數(shù)如式(4)所示：

(4)

對(duì)英文待過濾語料句子級(jí)困惑度分?jǐn)?shù)，設(shè)計(jì)的歸一化分段函數(shù)如式(5)所示：

(5)

另外本文考慮了單詞級(jí)的困惑度分?jǐn)?shù)，分別計(jì)算了漢英數(shù)據(jù)集上每句話的詞平均困惑度分?jǐn)?shù)與整體數(shù)據(jù)集上的詞平均困惑度分?jǐn)?shù)，并設(shè)計(jì)了兩個(gè)分段函數(shù)對(duì)兩者的差值進(jìn)行歸一化處理.由于數(shù)據(jù)中存在句子很短但困惑度值非常大的現(xiàn)象，所以本文在計(jì)算整體數(shù)據(jù)集的詞平均困惑度分?jǐn)?shù)的時(shí)候，忽略了困惑度超過1萬的句子.

對(duì)漢語待過濾語料單詞級(jí)困惑度分?jǐn)?shù)，設(shè)計(jì)的歸一化分段函數(shù)如式(6)所示：

(6)

對(duì)英文待過濾語料單詞級(jí)困惑度分?jǐn)?shù)，設(shè)計(jì)的歸一化分段函數(shù)如式(7)所示：

(7)

最終，每個(gè)平行句對(duì)將得到4個(gè)特征分?jǐn)?shù).

1.3 神經(jīng)網(wǎng)絡(luò)方法

1.3.1 翻譯模型

基于以下設(shè)想：如果句子a與b是平行句對(duì)，那么a與b的語義相似，則將a翻譯成a′時(shí)，a′與b的語義仍然相似.Parcheta等[10]先對(duì)目標(biāo)端句子進(jìn)行翻譯，然后計(jì)算譯文與參考譯文之間的相似度，這種方法得到了更好的翻譯效果.

為實(shí)現(xiàn)上述設(shè)想，首先應(yīng)訓(xùn)練一個(gè)英漢翻譯模型，然后利用翻譯模型將英文句子翻譯成對(duì)應(yīng)譯文，最后計(jì)算譯文與參考譯文之間的相似性.對(duì)于相似度計(jì)算，本文采用了兩種指標(biāo)：基于詞的編輯距離和基于預(yù)訓(xùn)練詞向量的余弦相似度，最終形成2維相似度特征.

1) 模型設(shè)計(jì)

根據(jù)上述簡(jiǎn)介，若想計(jì)算翻譯譯文與參考譯文之間的相似度，首先應(yīng)得到翻譯譯文，因此需要一個(gè)翻譯模型.本文采用了清華大學(xué)開源的神經(jīng)機(jī)器翻譯工具THUMT(https:∥github.com/THUNLP-MT/THUMT.git)，該系統(tǒng)依賴較少，訓(xùn)練簡(jiǎn)便，適合快速訓(xùn)練神經(jīng)機(jī)器翻譯系統(tǒng).

訓(xùn)練集數(shù)據(jù)來源于CCMT 2020漢英翻譯任務(wù)提供的平行語料，對(duì)其進(jìn)行分詞和小寫化，并過濾掉長度超過150個(gè)單詞的句對(duì)，形成約1 000萬對(duì)的訓(xùn)練數(shù)據(jù).開發(fā)集為CCMT 2020漢英平行語料過濾任務(wù)指定的開發(fā)集.

主要的訓(xùn)練參數(shù)選擇默認(rèn)，并運(yùn)行約20輪，保存開發(fā)集上雙語互譯評(píng)估結(jié)果(BLEU)最高的5個(gè)模型，然后做模型平均，融合成一個(gè)最終模型，方向?yàn)橛ⅰ鷿h，將其記為M0.接著利用M0對(duì)帶噪聲的平行句對(duì)中的英文句子進(jìn)行解碼，得到對(duì)應(yīng)的漢語譯文.

2) 基于詞的編輯距離

該指標(biāo)本質(zhì)上是編輯距離，不過計(jì)算兩個(gè)句子匹配程度的粒度為詞，而不是單個(gè)字符.設(shè)a′與b為兩個(gè)分詞后的漢語句子，其中a′為英文源句a的翻譯譯文，那么編輯距離La′,b(|a′|,|b|)可以通過式(8)迭代計(jì)算得到.

(8)

在計(jì)算過程中，a′看作翻譯譯文，b看作參考譯文，考慮在帶噪聲的數(shù)據(jù)中，作為目標(biāo)端的b不一定與源端相對(duì)應(yīng).當(dāng)a與b不對(duì)應(yīng)時(shí)，a′和b距離較大，認(rèn)為此句對(duì)a和b平行程度較差，可以將句對(duì)過濾；反之距離較小則意味著翻譯模型給出的譯文和實(shí)際參考之間相似度較高，源句與目標(biāo)端句子的平行程度較高.根據(jù)編輯距離，最終句對(duì)的平行程度得分如式(9)所示：

(9)

3) 余弦相似度

由于翻譯模型M0可以將英文源句a翻譯成對(duì)應(yīng)漢語譯文a′，所以可以僅借助漢語詞向量計(jì)算a′和b之間的語義相似度.本文中之所以不用漢語和英文兩套單獨(dú)的詞向量，是因?yàn)檎Z種差異會(huì)造成語義空間的偏差，導(dǎo)致語義相似度計(jì)算不準(zhǔn)確.訓(xùn)練漢語詞向量使用的數(shù)據(jù)與機(jī)器翻譯訓(xùn)練集中的漢語端數(shù)據(jù)相同，訓(xùn)練工具采用gensim(https:∥radimrehurek.com/gensim/models/word2vec.html)工具包，訓(xùn)練窗口取5，去掉詞頻低于5的詞，并且考慮到相似計(jì)算壓力較大，因此維度取128維，訓(xùn)練10輪，最終保存模型記為M1.

對(duì)于a和b句對(duì)，a′是a的漢語譯文，那么利用M1，使用余弦函數(shù)即可得到該句對(duì)平行程度得分，如式(10)所示：

sa,b=cos(a′,b|M1).

(10)

1.3.2 雙語預(yù)訓(xùn)練模型

考慮到預(yù)訓(xùn)練模型包含大量的語義知識(shí)，因此本文利用sentence-BERT(sentence bidirectional encoder representations from Transforment)模型[11]在CCMT 2020給定的漢英單語語料上進(jìn)行微調(diào)，分別獲得漢語與英語的句向量.但是通過該方式獲得的句向量可能存在不同語種間向量空間未對(duì)齊的問題，即不同語種中意義相同的句子被映射到向量空間中的不同位置.因此評(píng)估兩個(gè)不同語言的句子之間的平行度時(shí)，本文采用馬氏距離平方之比作為度量指標(biāo).

馬氏距離表示數(shù)據(jù)的協(xié)方差距離，是一種計(jì)算兩個(gè)未知樣本集相似度的有效方法.使用馬氏距離等同于通過數(shù)據(jù)轉(zhuǎn)換的方法，消除樣本中不同特征維度間的相關(guān)性和量綱差異，使得歐式距離在新的分布上能有效度量樣本點(diǎn)到分布的距離.假設(shè)向量x表示均值為μ、協(xié)方差矩陣為Σ的多變量隨機(jī)向量，則其到中心的馬氏距離計(jì)算式如(11)所示：

d2(x)=(x-μ)TΣ-1(x-μ)=

(11)

在本文系統(tǒng)中，首先將每個(gè)句向量進(jìn)行標(biāo)準(zhǔn)化，使得其服從均值為0的隨機(jī)分布.對(duì)于每個(gè)已經(jīng)重新中心化的漢英句子向量對(duì)(l1,l2)，考慮變化空間中的3種情況：

(12)

(13)

(14)

其中e1，e2，e分別表示拼接向量[l1,0]，[0,l2]，[l1,l2]在馬氏空間中的向量.通過以上3種情況，可以利用下面的馬氏距離平方之比來度量兩種語言句子之間的平行度：

(15)

如果兩個(gè)句子具有相同的含義，則該句對(duì)在馬氏空間中的向量e的可能性不應(yīng)小于孤立的單個(gè)句子e1、e2在馬氏空間中向量的概率，m值越大，兩個(gè)句子之間的平行度越高.

最后，將m值進(jìn)行歸一化，利用式(16)來衡量兩個(gè)句子之間的平行度：

m′=1-m，

(16)

即m′越小，兩個(gè)句子之間的平行度越高.

2 實(shí)驗(yàn)與結(jié)果

2.1 數(shù)據(jù)處理

本文語料過濾系統(tǒng)的開發(fā)集、訓(xùn)練集和測(cè)試集分別為來自WMT 2018和WMT 2019的漢英新聞測(cè)試集(分別包含3 981句及2 000句原文和對(duì)應(yīng)參考譯文)、CCMT 2020不帶噪聲的漢英平行語料(902萬漢英句對(duì))和CCMT 2020帶噪聲的平行語料(3 432萬漢英句對(duì)).

其中對(duì)漢語語料使用jieba(https:∥github.com/fxsjy/jieba)分詞工具進(jìn)行分詞，對(duì)英語語料使用Moses(http:∥statmt.org/moses/)腳本分詞和小寫處理.由于數(shù)據(jù)量過大，防止在解碼時(shí)出現(xiàn)顯存溢出問題，所以將小寫后的噪聲數(shù)據(jù)進(jìn)行截?cái)嗵幚恚恳粋€(gè)句子最多保留前256個(gè)單詞.同時(shí)為了緩解未登錄詞(out of vocabulary,OOV)問題，提高模型對(duì)稀有詞和OOV的處理能力，本文中使用基于子詞切分的方法，對(duì)漢語語料和英語語料使用字節(jié)對(duì)編碼(BPE，https:∥github.com/rsennrich/subword-nmt)進(jìn)行切分.此外，為防止一次性加載并解碼3 400萬句對(duì)造成的內(nèi)存緊張和解碼時(shí)間過長等問題，本文對(duì)帶噪聲的數(shù)據(jù)進(jìn)行切分，每份包含200萬條數(shù)據(jù).最后，去掉長度大于150個(gè)單詞的句子，再去掉語種錯(cuò)誤的句子.

2.2 評(píng)測(cè)方法

在對(duì)帶噪聲的語料打分后，按照得分從高到低進(jìn)行排序從而實(shí)現(xiàn)語料過濾。本文選擇約含1億個(gè)詞的平行句對(duì)，使用CCMT 2020主辦方指定神經(jīng)機(jī)器翻譯工具M(jìn)arian，將前面所選擇的平行句對(duì)作為訓(xùn)練集，在Marian上進(jìn)行訓(xùn)練，然后在CCMT 2020主辦方指定測(cè)試集上進(jìn)行測(cè)試，使用機(jī)器翻譯領(lǐng)域常用的BLEU指標(biāo)作為評(píng)價(jià)指標(biāo)以評(píng)測(cè)過濾語料的質(zhì)量(結(jié)果見2.3和2.4節(jié))。

最終參賽者需向CCMT 2020主辦方提供1億個(gè)詞和5億個(gè)詞的兩份過濾后的語料，CCMT 2020主辦方將參賽者提交的語料作為訓(xùn)練集，使用Marian工具訓(xùn)練，保證訓(xùn)練過程中所有參數(shù)一致，在指定測(cè)試集上進(jìn)行測(cè)試，以此作為參賽者最終成績(結(jié)果見2.5節(jié))。

2.3 單系統(tǒng)實(shí)驗(yàn)

由于各個(gè)系統(tǒng)之間無依賴關(guān)系，所以可以并行進(jìn)行各個(gè)系統(tǒng)的實(shí)驗(yàn).具體地，選定規(guī)則系統(tǒng)、Zipporah系統(tǒng)、詞對(duì)齊系統(tǒng)、翻譯模型系統(tǒng)、語言模型系統(tǒng)、雙語預(yù)訓(xùn)練模型系統(tǒng)這6個(gè)作為基礎(chǔ)系統(tǒng)，分別依據(jù)每個(gè)系統(tǒng)對(duì)帶噪聲數(shù)據(jù)的打分從高到低進(jìn)行排序.需要注意的是，若有些系統(tǒng)有多個(gè)打分，則各個(gè)分?jǐn)?shù)相加或各個(gè)分?jǐn)?shù)相乘求綜合得分，權(quán)重均是1.0.再使用CCMT 2020提供的機(jī)器翻譯工具M(jìn)arian訓(xùn)練神經(jīng)機(jī)器翻譯系統(tǒng)，計(jì)算開發(fā)集上的翻譯結(jié)果與參考譯文之間的BLEU值.根據(jù)每個(gè)系統(tǒng)對(duì)應(yīng)BLEU值的高低選擇優(yōu)勢(shì)特征，嘗試在優(yōu)勢(shì)特征之間組合，得到更優(yōu)的排序.

受計(jì)算資源限制，本文對(duì)每個(gè)系統(tǒng)只訓(xùn)練10輪，取開發(fā)集上最高的BLEU值作為該系統(tǒng)的最終成績.每個(gè)系統(tǒng)的成績參考表1.其中，隨機(jī)系統(tǒng)將數(shù)據(jù)隨機(jī)打亂，同樣采樣1億個(gè)單詞的平行語料，隨機(jī)系統(tǒng)0只對(duì)數(shù)據(jù)隨機(jī)打亂1次，隨機(jī)系統(tǒng)1對(duì)數(shù)據(jù)隨機(jī)打亂5次.此外，為探究領(lǐng)域?qū)Τ煽兊挠绊懀疚膹牟粠г肼暤钠叫姓Z料中采集了1 409條漢語新聞樣本和1 434 條漢語非新聞樣本，從中劃分出200條新聞和200條非新聞作為開發(fā)集，訓(xùn)練一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的領(lǐng)域二分類器.從表1可以看出，各系統(tǒng)成績相差較大.隨機(jī)系統(tǒng)1的結(jié)果甚至超過了大部分的系統(tǒng)；最好的是基于翻譯模型的譯文與參考的相似度指標(biāo)；領(lǐng)域分類器效果最差，這是因?yàn)轭I(lǐng)域分類器主要用來選擇新聞?wù)Z料，而結(jié)果表明測(cè)試集中新聞?wù)Z料占比可能不高，從而導(dǎo)致表現(xiàn)較差.注意到翻譯模型過濾后的語料中排名靠前的句子對(duì)句長并不是非常敏感，因此大量長度適中的句子都有希望排到前面，而其他系統(tǒng)得分都傾向于短句優(yōu)先.規(guī)則系統(tǒng)雖然能無差別對(duì)待長句和短句，但由于無法衡量平行程度，所以在獨(dú)自發(fā)揮作用時(shí)效果并不突出.

表1 各單系統(tǒng)對(duì)應(yīng)的BLEU值Tab.1 BLEU values for each system %

將領(lǐng)域分類器用于帶噪聲數(shù)據(jù)的測(cè)試，并將新聞數(shù)據(jù)的預(yù)測(cè)概率作為得分.其中領(lǐng)域二分類器性能參考表2，可以看到該分類器性能較高，但從表1中可以看到，基于該分類器的翻譯性能很低，因而可以認(rèn)為在此任務(wù)中，領(lǐng)域?qū)Ψg模型的影響并不大.因此該分類器僅用做驗(yàn)證，本文并未將其納入到最終的系統(tǒng)中.

表2 基于CNN的領(lǐng)域二分類器性能Tab.2 Performance of two field classifier based on CNN %

2.3 多系統(tǒng)融合實(shí)驗(yàn)

結(jié)合表1的結(jié)果，本文中認(rèn)為翻譯模型系統(tǒng)、詞對(duì)齊模型系統(tǒng)、語言模型系統(tǒng)以及雙語預(yù)訓(xùn)練模型系統(tǒng)是潛力相對(duì)較大的系統(tǒng)，因此優(yōu)先對(duì)這些系統(tǒng)之間的組合進(jìn)行融合測(cè)試.多系統(tǒng)融合的方法相對(duì)比較簡(jiǎn)單，即將各系統(tǒng)的打分進(jìn)行融合，然后再重新排序.融合的方法有2種：按權(quán)重相乘、按權(quán)重相加.大部分情況下，僅嘗試了權(quán)重均為1.0的融合.表3展示了部分實(shí)驗(yàn)結(jié)果，可以看到融合系統(tǒng)總體上成績超過單系統(tǒng)成績，而且相乘的方法總體優(yōu)于加法.融合系統(tǒng)成績更好的主要原因是因?yàn)椴煌到y(tǒng)從不同出發(fā)點(diǎn)對(duì)句對(duì)平行程度進(jìn)行度量，所以多系統(tǒng)融合后能對(duì)句對(duì)有更全面評(píng)價(jià)，這也表明了方法融合的有效性.

表3 部分系統(tǒng)融合的結(jié)果Tab.3 Partial system integration results %

2.4 提交系統(tǒng)

實(shí)驗(yàn)發(fā)現(xiàn)并不是集成的系統(tǒng)越多成績就越好，經(jīng)過大量測(cè)試，發(fā)現(xiàn)“1,3,4”組合的魯棒性和BLEU值都較高，考慮到系統(tǒng)復(fù)雜性，本文選擇“1,3,4”組合作為主系統(tǒng)，又因規(guī)則方法在WMT 2018和WMT 2019語料過濾任務(wù)中被證明為提升翻譯性能的有效手段，且預(yù)訓(xùn)練模型在語義提取上具有優(yōu)勢(shì)，因此選擇“1,2,3,4,6”組合作為副系統(tǒng).最終評(píng)測(cè)結(jié)果見表4，可見本文提交的主系統(tǒng)system2綜合排名第二，在除IWSLT2020數(shù)據(jù)集外均排名第一.由于IWSLT2020數(shù)據(jù)集是口語語料，新聞?wù)Z料和口語語料有一定領(lǐng)域差異，導(dǎo)致該系統(tǒng)在IWSLT2020數(shù)據(jù)集上表現(xiàn)不佳，這也表明訓(xùn)練領(lǐng)域會(huì)影響過濾結(jié)果.

表4 最終評(píng)測(cè)結(jié)果Tab.4 Final evaluation result %

3 總結(jié)與展望

本文設(shè)計(jì)并實(shí)現(xiàn)了規(guī)則方法、統(tǒng)計(jì)方法和神經(jīng)網(wǎng)絡(luò)方法三類方法對(duì)漢英平行語料進(jìn)行過濾，并將多種方法融合來對(duì)噪聲語料進(jìn)行過濾.最終實(shí)驗(yàn)結(jié)果表明：相比于單系統(tǒng)，改進(jìn)的按權(quán)重相乘的多系統(tǒng)融合方法在測(cè)試集上取得了較好的結(jié)果，同時(shí)，在最終的5組評(píng)測(cè)結(jié)果中，本文提交的系統(tǒng)綜合排名第二，在多個(gè)數(shù)據(jù)集上排名第一，對(duì)語料過濾研究具有一定的參考價(jià)值.

在未來的工作中，可以從兩個(gè)方向做進(jìn)一步嘗試：一是挖掘更可靠的特征來區(qū)分高質(zhì)量和低質(zhì)量的語料；二是將針對(duì)特征組合方式做進(jìn)一步的優(yōu)化調(diào)整，如引入機(jī)器學(xué)習(xí)模型自動(dòng)學(xué)習(xí)最優(yōu)權(quán)重組合.