段仁翀,段湘煜
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215000)
字或詞可以被認(rèn)為是組成語(yǔ)言的基本單位,然而,人們經(jīng)常使用短語(yǔ)來(lái)表達(dá)具體的含義。例如,考慮“Machine translation is a branch of computational linguistics”這句英語(yǔ)譯文,如果將句子分割為:“[Machine translation][is][a branch of] [computational linguistics]”,則會(huì)變得更容易理解,其中每個(gè)括號(hào)中的詞組成一個(gè)短語(yǔ)。如果這些短語(yǔ)沒(méi)有被準(zhǔn)確翻譯,則在很大程度上影響譯文質(zhì)量。
傳統(tǒng)的基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯(Statistical Machine Translation,SMT)方法已被證明優(yōu)于基于單詞的方法[1-3]。然而,在現(xiàn)代神經(jīng)機(jī)器翻譯(Neural Machine Translation,NMT)方法[4-6]中關(guān)于短語(yǔ)的工作主要利用外部工具生成的短語(yǔ)來(lái)為神經(jīng)網(wǎng)絡(luò)模型提供額外的信息[7]。例如,文獻(xiàn)[8]使用SMT 模型生成的短語(yǔ)來(lái)擴(kuò)展波束搜索,文獻(xiàn)[9]使用SWAN[10]方法來(lái)獲得短語(yǔ)結(jié)構(gòu)并進(jìn)行建模。然而,除了外部短語(yǔ)信息外,即使是在訓(xùn)練集中出現(xiàn)過(guò)的短語(yǔ),模型也不能準(zhǔn)確翻譯。經(jīng)過(guò)測(cè)試,在WMT14 英德數(shù)據(jù)集中,對(duì)于訓(xùn)練集中4 個(gè)詞組成的短語(yǔ),標(biāo)準(zhǔn)的NMT模型的翻譯準(zhǔn)確率只有27.5%,表明大量短語(yǔ)沒(méi)有被準(zhǔn)確翻譯。因?yàn)镹MT 模型最小化每個(gè)詞的損失,這導(dǎo)致無(wú)顯式的約束來(lái)記憶短語(yǔ),所以即使是訓(xùn)練集中的短語(yǔ)也會(huì)被誤譯。
使用基于詞級(jí)別的適應(yīng)性訓(xùn)練來(lái)約束模型記憶短語(yǔ),這類方法通過(guò)為每個(gè)詞分配不一樣的權(quán)重來(lái)鼓勵(lì)模型專注于特定詞的翻譯。例如,因?yàn)闃?biāo)準(zhǔn)的Transformer[11]對(duì)于低頻單詞 翻譯準(zhǔn)確率較低,文獻(xiàn)[12]約束模型關(guān)注低頻并且有意義的詞,該方法緩解了模型過(guò)度擬合高頻詞而忽視那些低頻詞的問(wèn)題。文獻(xiàn)[13]旨在使用雙語(yǔ)互信息(Bilingual Mutual Information,BMI)來(lái)衡量詞的學(xué)習(xí)難度,對(duì)于容易學(xué)習(xí)的詞分配較大的權(quán)重,不容易學(xué)習(xí)的詞分配較小的權(quán)重。
本文提出一種短語(yǔ)感知適應(yīng)性訓(xùn)練(Phrase Awareness Adaptive Training,PAT)方法,旨在鼓勵(lì)模型記憶短語(yǔ)。該方法將NMT 產(chǎn)生的目標(biāo)句子中詞級(jí)別損失周期性變化的片段提取為短語(yǔ),基于模型產(chǎn)生的短語(yǔ),根據(jù)每個(gè)詞在短語(yǔ)中的相對(duì)位置調(diào)整其權(quán)重,短語(yǔ)中靠后的詞分配較大的權(quán)重。此外,神經(jīng)機(jī)器翻譯系統(tǒng)在解碼時(shí)采用自回歸機(jī)制,導(dǎo)致誤譯的短語(yǔ)對(duì)后續(xù)的譯文造成負(fù)面影響,為此,提出短語(yǔ)丟棄(Phrase Drop,PD)機(jī)制,即在訓(xùn)練中隨機(jī)丟棄目標(biāo)端的短語(yǔ),鼓勵(lì)模型從源端和已經(jīng)生成譯文中發(fā)掘更多信息,增加模型對(duì)誤譯短語(yǔ)的魯棒性。
由于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練中為每個(gè)單詞都分配一樣的權(quán)重的方案,沒(méi)有考慮到每個(gè)單詞具有不同的重要程度[14],因此產(chǎn)生了通過(guò)考慮某些附加信息為目標(biāo)端詞分配不同的訓(xùn)練權(quán)重的方法,被稱為適應(yīng)性訓(xùn)練。文獻(xiàn)[12]認(rèn)為低頻詞在訓(xùn)練中難以訓(xùn)練,應(yīng)當(dāng)具有更高的訓(xùn)練權(quán)重,所以提出了兩個(gè)啟發(fā)式目標(biāo)函數(shù),為不同頻率的目標(biāo)詞分配不同的權(quán)重。對(duì)于Exponential 目標(biāo),權(quán)重隨著頻率的降低而單調(diào)增加;對(duì)于Chi-Square 目標(biāo),只有那些有意義但相對(duì)低頻的詞可以分配更大的權(quán)重。文獻(xiàn)[13]認(rèn)為對(duì)于那些一詞多義的單詞應(yīng)當(dāng)在訓(xùn)練中有更高的寬容度,適當(dāng)降低一詞多義單詞的訓(xùn)練權(quán)重,因此提出了詞級(jí)別的訓(xùn)練目標(biāo)BMI,從雙語(yǔ)的角度衡量每個(gè)詞的學(xué)習(xí)難度,并動(dòng)態(tài)調(diào)整單詞權(quán)重。之前的研究?jī)H使用詞級(jí)的輔助信息,而本文方法使用短語(yǔ)級(jí)輔助信息,目的是為了通過(guò)改變權(quán)重來(lái)約束模型記憶短語(yǔ)。
基于短語(yǔ)的方法廣泛用于傳統(tǒng)的SMT 方法,并已被證明優(yōu)于基于單詞的方法[15-16],但在當(dāng)前NMT方法中,以往大多數(shù)的工作都集中在利用外部工具生成的短語(yǔ)上,文獻(xiàn)[8]引入一種基于注意力的混合搜索算法,該算法通過(guò)SMT 的短語(yǔ)翻譯擴(kuò)展了NMT的波束搜索。文獻(xiàn)[17]通過(guò)將短語(yǔ)存儲(chǔ)器中的目標(biāo)短語(yǔ)集成到NMT 中來(lái)翻譯短語(yǔ),其中短語(yǔ)存儲(chǔ)器由SMT 模型提供,然后NMT 解碼器從短語(yǔ)存儲(chǔ)器中選擇一個(gè)短語(yǔ)或從概率最高的詞匯中選擇一個(gè)單詞來(lái)生成。文獻(xiàn)[9]提出使用SWAN[10]對(duì)目標(biāo)語(yǔ)言中的短語(yǔ)結(jié)構(gòu)進(jìn)行建模。本文方法利用模型本身的性質(zhì)來(lái)查找短語(yǔ)并改善翻譯質(zhì)量,而無(wú)須額外的參數(shù)或信息。
知識(shí)遷移是利用數(shù)據(jù)或特征更豐富的老師模型來(lái)提升數(shù)據(jù)或特征相對(duì)較匱乏的學(xué)生模型的性能,它可以用不同的形式實(shí)現(xiàn),例如,文獻(xiàn)[18-20]使用的知識(shí)蒸餾,文獻(xiàn)[21-23]通過(guò)在大量的無(wú)監(jiān)督數(shù)據(jù)上訓(xùn)練一個(gè)超大的預(yù)訓(xùn)練模型,然后在此模型基礎(chǔ)上只需要極小的有監(jiān)督數(shù)據(jù)進(jìn)行微調(diào),就可以取得比大量有監(jiān)督數(shù)據(jù)從零開始訓(xùn)練模型更好的效果,如在機(jī)器翻譯領(lǐng)域上的應(yīng)用[24-25]。本文主要使用適應(yīng)性訓(xùn)練將短語(yǔ)知識(shí)從教師模型遷移到學(xué)生模型。
本文采用由編碼器與解碼器構(gòu)成的自注意力Transformer 模型作為主干模型,模型的學(xué)習(xí)目標(biāo)是通過(guò)給定一個(gè)源句子x={x1,x2,…,xN},NMT 模型逐字預(yù)測(cè)目標(biāo)句子y={y1,y2,…,yT} 的概率P(y|x),計(jì)算公式如下:
其中:y<t={y1,y2,…,yt-1}是時(shí)間步t之前的部分翻譯。NMT 的訓(xùn)練目標(biāo)是最小化負(fù)對(duì)數(shù)似然Lce,NMT,也稱為交叉熵?fù)p失函數(shù),計(jì)算公式如下:
每個(gè)時(shí)間步t的單詞損失Lt的計(jì)算公式如下:
為了鼓勵(lì)模型更多地關(guān)注目標(biāo)句子中特定的詞,文獻(xiàn)[12]將詞級(jí)適應(yīng)性目標(biāo)納入NMT 模型訓(xùn)練,損失函數(shù)如下:
其中:wt是分配給目標(biāo)詞yt的權(quán)重。在理想情況下,每個(gè)目標(biāo)詞的權(quán)重應(yīng)該不同,因?yàn)樗鼈冊(cè)诜g中具有不同的難度和重要性,但是在傳統(tǒng)的機(jī)器翻譯模型中所有詞的權(quán)重都相同,無(wú)法體現(xiàn)出個(gè)別單詞的重要性。文獻(xiàn)[12]通過(guò)使用詞頻信息來(lái)調(diào)整,文獻(xiàn)[13]使用包含源語(yǔ)言和目標(biāo)語(yǔ)言的互信息來(lái)計(jì)算調(diào)整wt,然而僅僅考慮每個(gè)詞的重要性還不夠,還需要進(jìn)一步考慮詞在短語(yǔ)中的重要性。本文通過(guò)分配適當(dāng)?shù)膚t來(lái)約束模型記憶訓(xùn)練集中的短語(yǔ),提高模型的翻譯質(zhì)量。
短語(yǔ)感知適應(yīng)性訓(xùn)練方法的目的是通過(guò)引入顯式約束來(lái)增強(qiáng)模型對(duì)于短語(yǔ)的記憶能力,短語(yǔ)感知適應(yīng)性訓(xùn)練框架如圖1 所示。
圖1 短語(yǔ)感知適應(yīng)性訓(xùn)練框架Fig.1 Framework of phrase perception adaptive training
該方法分為以下2 個(gè)步驟:
1)基于一個(gè)訓(xùn)練好的NMT 模型預(yù)先從訓(xùn)練集中分割短語(yǔ),得到短語(yǔ)表。
2)基于短語(yǔ)表加權(quán)適應(yīng)性目標(biāo)并訓(xùn)練模型。
2.2.1 基于損失的短語(yǔ)分割
為了增強(qiáng)模型的短語(yǔ)知識(shí),將訓(xùn)練集中的句子分割成短語(yǔ),獲得短語(yǔ)表。
給定一個(gè)句子對(duì){x,y},其中,x是由N個(gè)單詞xi組成的源序 列(x1,x2,…,xN),y是由T個(gè)單詞yi組成的目標(biāo)序列(y1,y2,…,yT),N和T分別是x和y的長(zhǎng)度。通過(guò)式(3)得到目標(biāo)句子y的標(biāo)記級(jí)損失L=(l1,l2,…,lT),其中l(wèi)i是yi的損失。
對(duì)于目標(biāo)句中的每個(gè)單詞yi,都有一個(gè)值pi來(lái)確定yi在某個(gè)短語(yǔ)中的相對(duì)位置。例如,考慮句子“他說(shuō)他喜歡蘋果”,即Y=(He,said,he,likes,apples)。假設(shè)[He say]和[he likes apples]是Y中的2 個(gè)短語(yǔ),那么對(duì)于yi,即“He”,設(shè)置它的位置p1=1,因?yàn)閥i是第1 個(gè)短語(yǔ)的開始。通過(guò)類比,得到p=(1,2,1,2,3)。本文通過(guò)NMT 模型本身學(xué)習(xí)的短語(yǔ)知識(shí)來(lái)得到p。pi的計(jì)算依賴于前一個(gè)詞的損失li-1。如果li-1大于當(dāng)前損失li,這意味著單詞yi和yi-1在同一個(gè)短語(yǔ)中,那么將yi附加到y(tǒng)i-1所在的短語(yǔ)中,即pi=pi-1+1;否則,將當(dāng)前詞yi為新短語(yǔ)的開始,即pi=1。根據(jù)上述描述,有:
其中:超參數(shù)α控制構(gòu)成短語(yǔ)的寬容度。α允許那些損失不嚴(yán)格小于前一個(gè)單詞損失的單詞合并到前一個(gè)短語(yǔ)中。將P=(p1,p2,…,pn)稱為短 語(yǔ)表,n是訓(xùn)練集上所有的句子數(shù)。
2.2.2 短語(yǔ)感知適應(yīng)性訓(xùn)練目標(biāo)
基于第2.2.1 節(jié)的方法,從訓(xùn)練集中得到了每個(gè)目標(biāo)句子的詞級(jí)別損失L=(l1,l2,…,lT)和短語(yǔ)表P=(p1,p2,…,pn),其中n是訓(xùn)練集大小。為了緩解短語(yǔ)遺忘問(wèn)題,設(shè)計(jì)短語(yǔ)感知訓(xùn)練目標(biāo)來(lái)約束NMT模型記憶短語(yǔ),遵循2 個(gè)步驟:1)縮放不同單詞的權(quán)重和;2)適應(yīng)性訓(xùn)練目標(biāo)。
基于L 和P,計(jì)算每個(gè)詞在其短語(yǔ)中的相對(duì)位置k的平均損失ak:
其中:p∈P,l∈L 表示遍歷所有句子。如果pi=k,指示函數(shù)Ipi=k值為1,否則為0。然后,得到第k位置的權(quán)重:
其中:a1表示短語(yǔ)中第1 個(gè)單詞的平均損失。在導(dǎo)出短語(yǔ)中每個(gè)相對(duì)位置pj的值s(pj)后,計(jì)算式(4)中每個(gè)詞級(jí)別權(quán)重:
每個(gè)詞的默認(rèn)權(quán)重為1,根據(jù)其位置添加額外的權(quán)重A·s(pj),超參數(shù)A控制s(pj)變化的幅度。
上述公式會(huì)對(duì)同一短語(yǔ)中靠后的詞分配較大的權(quán)重。直觀地說(shuō),較大的權(quán)重約束模型提高后續(xù)詞的預(yù)測(cè)概率,從而鼓勵(lì)模型找到更多的語(yǔ)法語(yǔ)義信息來(lái)記憶短語(yǔ)。
2.2.3 短語(yǔ)分割分析
本節(jié)首先通過(guò)實(shí)驗(yàn)證明第2.2.1 節(jié)短語(yǔ)分割的合理性,然后通過(guò)示例來(lái)說(shuō)明損失進(jìn)行短語(yǔ)分割的含義。
理想的短語(yǔ)產(chǎn)生方式是:對(duì)于同一種語(yǔ)言,不同的模型可以產(chǎn)生一致的短語(yǔ)表,而不是各自不同的短語(yǔ)表。
所以,通過(guò)計(jì)算不同模型的損失之間的皮爾森系數(shù),來(lái)量化地證明上文方法可以用作分割短語(yǔ)的合理性。從原始NIST 中英訓(xùn)練集中隨機(jī)抽取10、50和125 萬(wàn)數(shù)據(jù)作為訓(xùn)練集,分別訓(xùn)練標(biāo)準(zhǔn)的Transformer 模型,并計(jì)算兩兩之間在驗(yàn)證集上生成的詞級(jí)損失的皮爾森系數(shù),值越高,表示不同模型生成的短語(yǔ)越相似。計(jì)算公式如下:
其中:lx和ly分別表示相同句子下x和y這2 個(gè)模型的詞級(jí)別損失;ρ(·,·)表示皮爾森相關(guān)系數(shù)函數(shù);AVG(·)表示求訓(xùn)練集中所有句子的皮爾森相關(guān)系數(shù)的平均值。
任意2 個(gè)模型之間較高的皮爾森系數(shù)揭示了不同模型間的詞級(jí)別損失走勢(shì)存在統(tǒng)計(jì)學(xué)上顯著的相關(guān)性,這表明不同的模型會(huì)產(chǎn)生較為一致的短語(yǔ)。結(jié)果如表1 所示。
表1 不同規(guī)模數(shù)據(jù)下模型的皮爾遜系數(shù)Table 1 Pearson coefficient of model under different scale datas
下文使用一個(gè)例子闡述損失分割短語(yǔ)的含義,其中不同下劃線區(qū)間表示不同短語(yǔ)。標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)模型在推理中會(huì)對(duì)目標(biāo)句中的每個(gè)詞計(jì)算損失l=-loga p,其中,p表示模型對(duì)于每個(gè)單詞的預(yù)測(cè)概率,概率越大,那么對(duì)應(yīng)的損失也就越小。
目標(biāo)端句子:
The objective is to allow the patient to become pregnant with a baby using the new uterus.
對(duì)應(yīng)的詞級(jí)別損失值:
1.61 2.48 1.59 1.56 2.08 1.79 1.60 1.44 4.03 2.66 1.98 1.89 1.71 4.01 1.58 1.56 1.51 1.49
上述示例展示了模型對(duì)于某個(gè)目標(biāo)句子y 的詞級(jí)別損失??梢钥吹剑瑩p失的變化趨勢(shì)有一個(gè)清晰的模式,即它在某一個(gè)詞中跳到峰值,然后慢慢減少,波動(dòng)在整個(gè)句子中持續(xù)存在。這種模式揭示了翻譯模型在推斷過(guò)程中會(huì)突然遇到某個(gè)難以生成的單詞,然后后續(xù)的單詞生成難度會(huì)逐漸降低直到等到下一個(gè)特別難生成的單詞。
以上述示例中的一個(gè)小片段為例,考慮記為Φ的段[become pregnant with a baby],損失在Φ 的開頭上升到一個(gè)峰值(“become”),即生成它的概率最小,這是因?yàn)樵谶@個(gè)位置有許多可行的單詞翻譯,例如(“get”,“to”,“be”)等。
第1 個(gè)單詞(“become”)確定下來(lái)后,Φ 中后續(xù)詞的搜索空間由于語(yǔ)法或語(yǔ)義約束而變小,在表達(dá)相同意思下翻譯出(“pregnant”)的概率大幅增加。
與人講話類似,人們往往可以非常流利地講完一個(gè)短語(yǔ),然后在講下一個(gè)短語(yǔ)之前停頓思考。受此啟發(fā),本文將模型翻譯越來(lái)越流利(損失逐漸減小)的片段視作短語(yǔ)。
丟棄機(jī)制可用于增加噪聲或者屏蔽無(wú)關(guān)信息。標(biāo)準(zhǔn)的丟棄機(jī)制通過(guò)以一定的概率將輸入神經(jīng)元設(shè)置為零來(lái)防止過(guò)擬合[26],預(yù)訓(xùn)練模型通過(guò)還原被丟棄的詞來(lái)訓(xùn)練模型,以及在自回歸生成任務(wù)中對(duì)解碼端采用丟棄機(jī)制來(lái)增強(qiáng)模型的魯棒性。
神經(jīng)機(jī)器翻譯模型在解碼時(shí)采用自回歸機(jī)制,當(dāng)前詞的生成需要依賴以前詞,這就導(dǎo)致如果一個(gè)短語(yǔ)翻譯錯(cuò)誤會(huì)影響后續(xù)短語(yǔ)的翻譯。為了解決這個(gè)問(wèn)題,本文結(jié)合傳統(tǒng)的丟棄機(jī)制提出短語(yǔ)丟棄機(jī)制。該方法在訓(xùn)練中隨機(jī)丟棄目標(biāo)句子中的短語(yǔ),來(lái)模擬推斷過(guò)程中短語(yǔ)翻譯錯(cuò)誤的情況,如圖2 所示,將詞V3到詞V5組成的短語(yǔ)使用UNK 標(biāo)簽替換,用來(lái)模仿在推理過(guò)程中有些短語(yǔ)沒(méi)有被準(zhǔn)確翻譯的情況,以此鼓勵(lì)模型從源端或已經(jīng)生成的文本中發(fā)掘更多語(yǔ)法或語(yǔ)義信息。
圖2 短語(yǔ)丟棄機(jī)制示意圖Fig.2 Schematic drawing of phrase drop mechanism
具體來(lái)說(shuō),使用第2.2.1 節(jié)的方法將句子分割為短語(yǔ),并以一定概率隨機(jī)丟棄短語(yǔ)片段,其中每個(gè)短語(yǔ)的丟棄概率設(shè)置為15%,這個(gè)概率在預(yù)訓(xùn)練模型中被廣泛使用,能夠取得較好的性能。
本文在廣泛使用的WMT14 英語(yǔ)到德語(yǔ)、NIST漢語(yǔ)到英語(yǔ)任務(wù)上進(jìn)行實(shí)驗(yàn)。這兩個(gè)任務(wù)使用multi-bleu.perl 測(cè)量區(qū)分大小寫的BLEU值[27]。
3.1.1 數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)準(zhǔn)備主要有以下2 種:
1)漢語(yǔ)到英語(yǔ)。使用LDC 語(yǔ)料庫(kù)作為訓(xùn)練集,它由125 萬(wàn)個(gè)句子對(duì)組成,分別有2 790 萬(wàn)個(gè)中文詞和3 450 萬(wàn)個(gè)英文詞。采用MT06 作為驗(yàn)證集,MT02、MT03、MT04、MT05 和MT08 數(shù)據(jù)集作為測(cè)試集。使用Moses 腳本對(duì)英語(yǔ)句子進(jìn)行去噪,并根據(jù)Stanford Segmentor 腳本對(duì)中文句子進(jìn)行分詞,采用字節(jié)對(duì)編碼(BPE)和32 000 次合并操作。
2)英語(yǔ)到德語(yǔ)。訓(xùn)練數(shù)據(jù)包含從WMT2014 英德數(shù)據(jù)集收集的450 萬(wàn)句子對(duì),分別有1.18 億個(gè)英語(yǔ)單詞和1.11 億個(gè)德語(yǔ)單詞。將newstest2013 作為驗(yàn)證集,并在newstest2014 上測(cè)試模型。語(yǔ)料庫(kù)中的每個(gè)單詞都使用字節(jié)對(duì)編碼(BPE)[28]分割子詞單元,使用源端目標(biāo)端共享詞表。
3.1.2 訓(xùn)練設(shè)置
通過(guò)使用名為Fairseq[29]的開源工具來(lái)實(shí)現(xiàn)Transformer 系統(tǒng)。特別是對(duì)于中英,dropout 設(shè)置為0.3,在目標(biāo)嵌入層和輸出層之間共享相同的權(quán)矩陣。使用8 個(gè)GPU,每個(gè)GPU 的批次大小為4 096。其他超參數(shù)與Vaswani等[11]中的默認(rèn)配置相同,即使用6 層的編碼器與6 層的解碼器,隱狀態(tài)維度為512,標(biāo)簽平滑設(shè)置為0.1,并使用Adam 優(yōu)化器,學(xué)習(xí)率設(shè)置為0.000 7。
本文提出方法中有2 個(gè)重要的超參數(shù),即α和A。為了減少搜索空間,首先將A設(shè)置為1,并通過(guò)搜索調(diào)整驗(yàn)證集上的超參數(shù)α,即α∈ {0.00,0.15,0.30,0.45,0.60}。對(duì)于2 個(gè)語(yǔ)言對(duì),α的最佳值為0.15。在驗(yàn)證數(shù)據(jù)集上調(diào)整超參數(shù)A,結(jié)果如表2 所示。最后,使用在驗(yàn)證數(shù)據(jù)集上找到的最佳超參數(shù)來(lái)最終評(píng)估測(cè)試數(shù)據(jù)集,中英為A=1.4、α=0.15,英德為A=1.5、α=0.15。
表2 超參數(shù)A 與不同語(yǔ)言對(duì)的BLEU值Table 2 Hyperparameter A and BLEU values for different language pairs
本文重新實(shí)現(xiàn)以下基線,并將其與提出方法進(jìn)行比較:
Transformer:基線系統(tǒng)嚴(yán)格按照Vaswani等[11]的基礎(chǔ)模型配置來(lái)實(shí)現(xiàn)。
Exponential:該系統(tǒng)使用適應(yīng)性訓(xùn)練目標(biāo)[12]。權(quán)重由指數(shù)形式產(chǎn)生,對(duì)于低頻詞會(huì)獲得更高的權(quán)重,對(duì)于高頻詞會(huì)獲得更低的權(quán)重。
Chi-Square:該方法使用卡方分布作為權(quán)重函數(shù)來(lái)增加低頻詞目標(biāo)詞的訓(xùn)練權(quán)重[12]。
BMI:與前2 種方法類似,這種方法通過(guò)計(jì)算互信息來(lái)估計(jì)源端詞和目標(biāo)端詞之間的學(xué)習(xí)難度,然后為容易學(xué)習(xí)的詞添加額外的訓(xùn)練權(quán)重[13]。
Hybrid:該方法使用統(tǒng)計(jì)機(jī)器翻譯模型生成短語(yǔ),然后使用短語(yǔ)對(duì)擴(kuò)展波束搜索[8]。
NPMT:該方法對(duì)輸出序列中的短語(yǔ)結(jié)構(gòu)進(jìn)行建模,并且引入了一個(gè)新的層來(lái)對(duì)輸入進(jìn)行局部重新排序[9]。
表3 所示為基線模型和提出方法在NIST 中英和WMT2014 英德翻譯任務(wù)上的性能,Δ為與標(biāo)準(zhǔn)Transformer 相比的改進(jìn)。從表3 可以看出,提出方法在幾乎不需要任何額外的計(jì)算或存儲(chǔ)消耗就能帶來(lái)比Transformer 更加穩(wěn)定的改進(jìn)。與標(biāo)準(zhǔn)的Transformer 相比,在NIST 中英翻譯任務(wù)和WMT2014 英德翻譯任務(wù)的7 個(gè)測(cè)試集中,其中有5 個(gè)測(cè)試集取得了最優(yōu)的性能,BLEU 值分別提高了1.64 和0.96。
表3 中英和英德翻譯任務(wù)上的BLEU值Table 3 BLEU values on Chinese-English and English-German translation tasks
實(shí)驗(yàn)結(jié)果證明了本文提出方法的有效性。增加模型對(duì)短語(yǔ)的記憶能力及對(duì)誤譯的短語(yǔ)的魯棒性,可以幫助神經(jīng)機(jī)器翻譯模型取得更好的翻譯質(zhì)量。
消融實(shí)驗(yàn)如表4 所示,分別移除短語(yǔ)感知適應(yīng)性訓(xùn)練目標(biāo)和短語(yǔ)丟棄機(jī)制以測(cè)試其對(duì)模型的影響。移除短語(yǔ)感知適應(yīng)性訓(xùn)練目標(biāo)會(huì)顯著降低模型的BLEU值,相比之下,移除短語(yǔ)丟棄機(jī)制也會(huì)導(dǎo)致BLEU 值明顯下降,但是下降幅度較小。其中,移除短語(yǔ)分割表示不使用本文提出的短語(yǔ)分割方法,而使用文獻(xiàn)[13]提出的短語(yǔ)分割方法。實(shí)驗(yàn)結(jié)果證明了本文方法的有效性。
表4 消融實(shí)驗(yàn)結(jié)果Table 4 Results of ablation experiment
為了驗(yàn)證PAT 方法對(duì)記憶短語(yǔ)的有效性,首先對(duì)于中英翻譯任務(wù),將MT02到MT08測(cè)試集相連接作為一個(gè)大測(cè)試集。對(duì)于英德翻譯任務(wù),使用原始測(cè)試集。同時(shí),本文定義一個(gè)比率為目標(biāo)句子評(píng)分,公式如下:
如圖3 所示,PAT 方法在中英和英德的Familiar子集上的BLEU 值分別比基線提高了1.39 和1.14,表明加強(qiáng)模型的短語(yǔ)記憶可以在具有更熟悉短語(yǔ)的翻譯中獲得更出色的性能,并且不會(huì)在包含更多不熟悉短語(yǔ)的任務(wù)上犧牲翻譯質(zhì)量。標(biāo)準(zhǔn)的NMT 系統(tǒng)對(duì)訓(xùn)練集中的N-gram 短語(yǔ)的翻譯準(zhǔn)確率較低,部分原因是缺乏約束來(lái)記憶短語(yǔ)。
圖3 不同中英和英德測(cè)試子集上的BLEU值Fig.3 BLEU values on different Chinese-English and English-German test subsets
將訓(xùn)練集分別按照1-gram 到4-gram 的短語(yǔ)粒度劃分出所有短語(yǔ),并在所有基線模型與PAT 方法上測(cè)試不同短語(yǔ)粒度的翻譯準(zhǔn)確率,如表5所示。
表5 英德任務(wù)上訓(xùn)練集中n-grams 短語(yǔ)的翻譯準(zhǔn)確率Table 5 Translation accuracy of n-grams phrases in the training set on English-German tasks
從表5 可以看出,本文方法在提高n-gram 的翻譯準(zhǔn)確率方面優(yōu)于其他方法。同時(shí)也可以看出,相比1 個(gè)單詞的1-gram 短語(yǔ),4 個(gè)單詞的4-gram 短語(yǔ)明顯準(zhǔn)確率更低,這顯示了模型對(duì)于長(zhǎng)短語(yǔ)很差的記憶能力。
表1 的實(shí)驗(yàn)顯示(見第2.2.3 節(jié)),對(duì)于同一種語(yǔ)言,本文的短語(yǔ)感知適應(yīng)性訓(xùn)練會(huì)產(chǎn)生一致短語(yǔ),意味可以將短語(yǔ)知識(shí)從教師模型轉(zhuǎn)移到學(xué)生模型。
從原始NIST 中英訓(xùn)練集中隨機(jī)抽取3 萬(wàn)、10 萬(wàn)、25 萬(wàn)和50 萬(wàn)數(shù)據(jù)作為訓(xùn)練集。從WMT2014英德任務(wù)的訓(xùn)練集中隨機(jī)抽取10 萬(wàn)和25 萬(wàn)作為訓(xùn)練集,并在所有上述6 個(gè)訓(xùn)練子集上訓(xùn)練標(biāo)準(zhǔn)Transformer 模型和PAT模型(使 用PAT 方法的Transformer 模型)。
在相同的配置下訓(xùn)練基于老師模型短語(yǔ)表的PAT(PAT+Teacher)模型,驗(yàn)證翻譯質(zhì)量是否比使用學(xué)生模型短語(yǔ)表的PAT 模型更高。老師模型在原始的125 萬(wàn)中英任務(wù)上訓(xùn)練。
表6 所示為各個(gè)模型在測(cè)試集上的結(jié)果。首先與標(biāo)準(zhǔn)Transformer 相比,PAT 在不同大小的訓(xùn)練集下的BLEU 值都表現(xiàn)出明顯提升,并且隨著訓(xùn)練集大小的增加變得更加明顯。這主要是因?yàn)镹MT 模型由于訓(xùn)練集太小而造成模型的過(guò)度擬合,導(dǎo)致生成的短語(yǔ)表質(zhì)量很差。將PAT 與PAT+Teacher 進(jìn)行比較,發(fā)現(xiàn)PAT+Teacher 的翻譯性能優(yōu)于PAT,證明短語(yǔ)知識(shí)可以從老師模型遷移到學(xué)生模型來(lái)進(jìn)一步提升翻譯質(zhì)量。
表6 不同規(guī)模訓(xùn)練集上NMT 模型的BLEU值Table 6 BLEU values of NMT models on training sets of different sizes
標(biāo)準(zhǔn)Transformer 模型對(duì)訓(xùn)練集中的短語(yǔ)具有較低的翻譯準(zhǔn)確率。為了解決模型對(duì)于短語(yǔ)記憶能力差的問(wèn)題,本文提出短語(yǔ)感知適應(yīng)性訓(xùn)練,訓(xùn)練一個(gè)基本的神經(jīng)機(jī)器翻譯模型,根據(jù)模型對(duì)每個(gè)詞產(chǎn)生的損失來(lái)分割短語(yǔ),并對(duì)每個(gè)詞在短語(yǔ)中的相對(duì)位置分配不同的權(quán)重。此外,為了緩解誤譯的短語(yǔ)對(duì)后續(xù)譯文的影響,提出短語(yǔ)丟棄機(jī)制,增加模型對(duì)于誤譯的短語(yǔ)的魯棒性。實(shí)驗(yàn)結(jié)果表明,提出方法提高了訓(xùn)練集中短語(yǔ)的翻譯準(zhǔn)確率,此外將老師模型的短語(yǔ)知識(shí)遷移到學(xué)生模型可以獲得更高的翻譯質(zhì)量提升。下一步將研究基于短語(yǔ)知識(shí)的干預(yù)翻譯,通過(guò)將干預(yù)詞限制在短語(yǔ)的第1 個(gè)位置來(lái)提高翻譯的保真度,另外利用外部短語(yǔ)知識(shí)增加模型的短語(yǔ)知識(shí),如通過(guò)大量的單語(yǔ)語(yǔ)料來(lái)訓(xùn)練一個(gè)大的老師模型,將老師模型的短語(yǔ)知識(shí)遷移到學(xué)生模型上。