苗國(guó)義 劉明童 陳鈺楓 徐金安,? 張玉潔 馮文賀
融合小句對(duì)齊知識(shí)的漢英神經(jīng)機(jī)器翻譯
苗國(guó)義1劉明童2陳鈺楓1徐金安1,?張玉潔1馮文賀3
1.北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院, 北京 100044; 2.創(chuàng)新工場(chǎng)人工智能工程院, 北京 100080; 3.廣東外語(yǔ)外貿(mào)大學(xué)語(yǔ)言工程與計(jì)算實(shí)驗(yàn)室, 廣州 510420; ?通信作者, E-mail: jaxu@bjtu.edu.cn
針對(duì)當(dāng)前神經(jīng)機(jī)器翻譯在捕捉復(fù)雜句內(nèi)小句間的語(yǔ)義和結(jié)構(gòu)關(guān)系方面存在不足, 導(dǎo)致復(fù)雜句長(zhǎng)文本翻譯的篇章連貫性不佳的問(wèn)題, 提出一種融合小句對(duì)齊知識(shí)的漢英神經(jīng)機(jī)器翻譯方法。首先提出手工和自動(dòng)相結(jié)合的標(biāo)注方案, 構(gòu)建大規(guī)模小句對(duì)齊的漢英平行語(yǔ)料庫(kù), 為模型訓(xùn)練提供豐富的小句級(jí)別的漢英雙語(yǔ)對(duì)齊知識(shí); 然后設(shè)計(jì)一種基于小句對(duì)齊學(xué)習(xí)的神經(jīng)機(jī)器翻譯模型, 通過(guò)融合小句對(duì)齊知識(shí), 增強(qiáng)模型學(xué)習(xí)復(fù)雜句內(nèi)小句間語(yǔ)義結(jié)構(gòu)關(guān)系的能力。在 WMT17, WMT18 和 WMT19 漢英翻譯任務(wù)中的實(shí)驗(yàn)表明, 所提出的方法可以有效地提升神經(jīng)機(jī)器翻譯的性能。進(jìn)一步的評(píng)測(cè)分析顯示, 所提方法能有效地提高漢英神經(jīng)機(jī)器翻譯在復(fù)雜句翻譯上的篇章連貫性。
神經(jīng)機(jī)器翻譯; 小句對(duì)齊; 結(jié)構(gòu)關(guān)系; 篇章連貫性
當(dāng)前, 機(jī)器翻譯模型一般基于平行的對(duì)齊語(yǔ)料建模[1-5], 模型依賴(lài)學(xué)習(xí)單語(yǔ)詞與詞之間的語(yǔ)義關(guān)聯(lián)以及雙語(yǔ)間詞語(yǔ)語(yǔ)義的對(duì)齊信息, 將一種語(yǔ)言翻譯為另一種語(yǔ)言, 特別地, 神經(jīng)機(jī)器翻譯通過(guò)注意力機(jī)制自動(dòng)學(xué)習(xí)對(duì)齊信息, 展示出優(yōu)越的性能。然而, 由于現(xiàn)有平行語(yǔ)料缺少小句(clause)級(jí)別的對(duì)齊信息, 使得模型難以自動(dòng)學(xué)習(xí)和獲取篇章結(jié)構(gòu)信息, 以致在翻譯復(fù)雜句時(shí)往往性能較低。
近年來(lái), 神經(jīng)機(jī)器翻譯在上下文信息表示和學(xué)習(xí)方面取得很大的進(jìn)展。Jean 等[6]和 Zhang 等[7]引入額外編碼器模塊, 對(duì)更大的上下文進(jìn)行編碼, 并分別應(yīng)用在基于 RNN 和 Transformer 的神經(jīng)翻譯模型中。Miculicich 等[8]利用層次注意力結(jié)構(gòu)模型, 通過(guò)詞級(jí)和句子級(jí)分層注意力表示, 融合多個(gè)上下文, 并提高句子的語(yǔ)義表示能力。Shi 等[9]利用對(duì)抗學(xué)習(xí)方法來(lái)提高句子表示以及雙語(yǔ)對(duì)齊學(xué)習(xí)能力。最近, Bao 等[10]提出 G-Transformer 模型, 把整個(gè)篇章信息融入句子的表示中來(lái)提高對(duì)長(zhǎng)文本語(yǔ)義的理解和翻譯。然而, 只通過(guò)增加上下文信息不能有效地解決篇章翻譯連貫性等問(wèn)題。從理論上看, 篇章一般以小句而非大句(sentence)為基礎(chǔ)單位。從雙語(yǔ)差異來(lái)看, 雙語(yǔ)的篇章差異集中在復(fù)雜句層面。從漢英翻譯來(lái)看, 雙語(yǔ)的主從句差異、連接詞差異和指代差異等集中體現(xiàn)在復(fù)雜句層面[11-12]。
圖 1 給出一個(gè)漢英復(fù)雜句錯(cuò)譯的例子。一個(gè)由多個(gè)小句構(gòu)成的復(fù)雜中文長(zhǎng)句被當(dāng)前性能世界一流的谷歌神經(jīng)翻譯系統(tǒng)翻譯成多個(gè)孤立小句, 小句間的邏輯語(yǔ)義關(guān)系嚴(yán)重偏離源語(yǔ)言句子的表達(dá)。例如, 人工譯文中由“although”引導(dǎo)的主從結(jié)構(gòu)關(guān)系被機(jī)器錯(cuò)誤地翻譯成由“and”和“but”引導(dǎo)的并列結(jié)構(gòu)關(guān)系。圖 1 的例子清楚地表明, 目前神經(jīng)機(jī)器翻譯無(wú)法有效地捕捉復(fù)雜句語(yǔ)境下小句間的篇章結(jié)構(gòu)關(guān)系以及源語(yǔ)言與目標(biāo)語(yǔ)言之間的篇章結(jié)構(gòu)對(duì)齊知識(shí)。小句是語(yǔ)篇中基本的篇章結(jié)構(gòu)單位[13], 基于小句的學(xué)習(xí)對(duì)機(jī)器翻譯有重要的意義[11-12], 但當(dāng)前的神經(jīng)機(jī)器翻譯研究并沒(méi)有關(guān)注這一點(diǎn)。
針對(duì)以上問(wèn)題, 本文提出一種融合小句對(duì)齊知識(shí)的漢英神經(jīng)機(jī)器翻譯方法。在數(shù)據(jù)層面, 針對(duì)訓(xùn)練數(shù)據(jù)稀缺的問(wèn)題, 我們標(biāo)注了 4M 句對(duì)基于小句對(duì)齊的漢英復(fù)雜句平行語(yǔ)料, 將漢英雙語(yǔ)小句對(duì)齊知識(shí)顯式地標(biāo)注于平行語(yǔ)料庫(kù)中, 為模型訓(xùn)練提供豐富的小句級(jí)別的結(jié)構(gòu)對(duì)齊知識(shí)。在模型層面, 我們?cè)O(shè)計(jì)一種基于小句對(duì)齊學(xué)習(xí)的神經(jīng)機(jī)器翻譯模型, 通過(guò)增強(qiáng)源端基于小句成分的句子語(yǔ)義表示, 以及增強(qiáng)源端和目標(biāo)端小句對(duì)齊學(xué)習(xí)來(lái)有效地融合小句對(duì)齊知識(shí), 鼓勵(lì)模型學(xué)習(xí)復(fù)雜句內(nèi)小句間的語(yǔ)義結(jié)構(gòu)信息, 提高模型對(duì)復(fù)雜句長(zhǎng)文本翻譯的篇章連貫性和銜接性。
本文采用標(biāo)注式建模方式, 從 WMT 公開(kāi)數(shù)據(jù)集中抽取 4M 對(duì)復(fù)雜句對(duì)。首先采用人工方式標(biāo)注小規(guī)模語(yǔ)料, 然后訓(xùn)練模型自動(dòng)對(duì)復(fù)雜句對(duì)進(jìn)行大規(guī)模標(biāo)注, 形成大規(guī)模基于小句對(duì)齊的漢英平行語(yǔ)料, 為神經(jīng)機(jī)器翻譯模型提供顯式漢英小句對(duì)齊知識(shí)。我們參考馮文賀[11]的小句切分與對(duì)齊方案, 采用“源語(yǔ)優(yōu)先”的對(duì)齊策略, 首先按既定的漢語(yǔ)基本篇章單位進(jìn)行切分, 然后參考漢語(yǔ)切分結(jié)果切分英語(yǔ)小句, 并進(jìn)行漢英小句對(duì)齊。為獲得自動(dòng)標(biāo)注的大規(guī)模語(yǔ)料, 先進(jìn)行小規(guī)模的人工標(biāo)注, 手工標(biāo)注 10 萬(wàn)對(duì)復(fù)雜句的小句切分和對(duì)齊信息, 在其上進(jìn)行模型訓(xùn)練和方法驗(yàn)證。然后, 用本文方法進(jìn)行其余所有數(shù)據(jù)的自動(dòng)標(biāo)注。
小句識(shí)別任務(wù)也稱(chēng)為基本語(yǔ)篇單位(elementary discourse unit, EDU)識(shí)別。受 Li 等[14]的啟發(fā), 本文采用基于 Bi-LSTM-CRF 的序列標(biāo)注模型來(lái)識(shí)別和切分漢英小句。我們把小句識(shí)別視為序列標(biāo)注任務(wù), 從而實(shí)現(xiàn)小句邊界的自動(dòng)識(shí)別。如果一個(gè)詞在小句的結(jié)束位置, 則定義該詞標(biāo)簽為“Y”; 如果一個(gè)詞在小句內(nèi)部, 但不在小句結(jié)束位置, 則定義該詞標(biāo)簽為“N”。針對(duì)模型設(shè)計(jì), 我們充分考慮詞的詞性特征和句法特征對(duì)小句邊界的影響。首先, 利用斯坦福句法分析器 Stanford CoreNLP[15]獲取輸入句子中每個(gè)詞的詞性(part of speech, POS)特征和句法特征, 其中句法特征由父結(jié)點(diǎn)短語(yǔ)標(biāo)記表示; 然后, 把預(yù)訓(xùn)練所得的詞向量和詞性以及句法特征向量相加, 送入雙向 LSTM (Bi-LSTM)[16]層去學(xué)習(xí)詞的上下文特征表示; 最后, Bi-LSTM 輸出結(jié)果被送入 CRF[17]層, 做二分類(lèi)來(lái)預(yù)測(cè)當(dāng)前詞是否屬于小句的邊界。將此模型用在本文手工標(biāo)注的 10 萬(wàn)句對(duì)數(shù)據(jù)上, 為測(cè)試算法的準(zhǔn)確性, 將數(shù)據(jù)集分成 10份, 輪流將其中 9 份作為訓(xùn)練數(shù)據(jù), 1 份作為測(cè)試數(shù)據(jù)。對(duì) 10 萬(wàn)句對(duì)數(shù)據(jù)進(jìn)行 10 次 10 折交叉驗(yàn)證, 經(jīng)過(guò)對(duì)每個(gè)可能切分的位置進(jìn)行判斷, 中文小句識(shí)別效果達(dá)到=92.0,=93.6, F1=92.8, 英文小句的識(shí)別效果達(dá)到=94.6,=93.0, F1=93.8。
圖1 漢英神經(jīng)機(jī)器翻譯復(fù)雜句錯(cuò)譯的示例
漢英小句識(shí)別完成后, 需要做漢英小句對(duì)齊, 并為每個(gè)小句打上對(duì)齊標(biāo)簽和序號(hào)。傳統(tǒng)的句對(duì)齊方法包括基于長(zhǎng)度特征、詞匯特征和位置特征等方法。本文采用 Ding 等[18]提出的基于詞匯特征的句對(duì)齊方法, 把雙語(yǔ)詞對(duì)齊知識(shí)融入漢英小句對(duì)齊模型。我們先使用基于統(tǒng)計(jì)的詞對(duì)齊工具 Giza++[19], 在大規(guī)模漢英平行語(yǔ)料上學(xué)習(xí)到一個(gè)雙語(yǔ)對(duì)齊詞典。然后設(shè)計(jì)一個(gè)由兩個(gè)雙向 RNN (Bi-directional RNN)[20]構(gòu)成的編碼器。對(duì)漢英句對(duì)上每個(gè)詞x在雙語(yǔ)詞典中查找其對(duì)齊詞y, 這樣源語(yǔ)小句和目標(biāo)語(yǔ)小句都會(huì)產(chǎn)生一個(gè)對(duì)應(yīng)的對(duì)齊詞匯序列。把源語(yǔ)小句和目標(biāo)語(yǔ)小句每個(gè)詞與其對(duì)齊詞的詞向量拼接后, 送入編碼器的兩個(gè)雙向 RNN 進(jìn)行訓(xùn)練。利用余弦距離, 計(jì)算源語(yǔ)與目標(biāo)語(yǔ)小句間的語(yǔ)義相關(guān)度矩陣。語(yǔ)義相關(guān)度矩陣經(jīng)過(guò)最大池化, 轉(zhuǎn)換成一個(gè)向量, 并被送入多層感知機(jī), 最終預(yù)測(cè)兩個(gè)小句是否對(duì)齊。為提高漢英小句對(duì)齊精度, 在對(duì)齊模型預(yù)測(cè)的基礎(chǔ)上, 本文也加入基于小句長(zhǎng)度特征和位置特征的輔助判斷機(jī)制。通過(guò)對(duì)本文手工標(biāo)注的 10萬(wàn)句對(duì)數(shù)據(jù)進(jìn)行 10 次 10 折交叉驗(yàn)證測(cè)試, 漢英小句對(duì)齊效果達(dá)到=91.4,=89.8, F1=90.6。
圖2 給出一個(gè)漢英小句對(duì)齊的標(biāo)注示例。源和目標(biāo)句子都是由多個(gè)小句構(gòu)成的小句復(fù)合體(復(fù)雜句), 復(fù)雜句內(nèi)不同小句由標(biāo)號(hào)切分開(kāi), 漢英小句通過(guò)相同的標(biāo)號(hào)對(duì)齊。由圖 2 可見(jiàn), 標(biāo)點(diǎn)并不是小句切分的唯一依據(jù), 通常是依據(jù)詞之間的語(yǔ)義關(guān)聯(lián)切分小句。
本文通過(guò)以上標(biāo)注方法, 采用手工和自動(dòng)相結(jié)合的方式, 將小句對(duì)齊知識(shí)顯式地標(biāo)注在 4M 句對(duì)復(fù)雜句平行語(yǔ)料中, 為漢英神經(jīng)機(jī)器翻譯提供豐富的蘊(yùn)含小句結(jié)構(gòu)對(duì)齊知識(shí)的訓(xùn)練數(shù)據(jù)。另外, 平行語(yǔ)料中所選擇的每條復(fù)雜句都是多個(gè)小句的復(fù)合體, 可以視為具有完整小句關(guān)聯(lián)結(jié)構(gòu)的篇章單位, 對(duì)模型學(xué)習(xí)篇章層面的語(yǔ)義結(jié)構(gòu)知識(shí)是有意義的。
為使模型有效地學(xué)習(xí)到小句對(duì)齊知識(shí), 我們?cè)O(shè)計(jì)一種基于小句對(duì)齊學(xué)習(xí)的神經(jīng)機(jī)器翻譯模型。一方面, 增強(qiáng)源端基于小句成分的句子語(yǔ)義表示; 另一方面, 增強(qiáng)源端與目標(biāo)端小句對(duì)齊學(xué)習(xí)。兩方面結(jié)合起來(lái), 可以更好地提高翻譯模型對(duì)復(fù)雜句內(nèi)小句間結(jié)構(gòu)信息的感知和學(xué)習(xí)能力。圖 3 給出融合小句對(duì)齊知識(shí)的神經(jīng)機(jī)器翻譯模型架構(gòu)。
本文在 Transformer[4]架構(gòu)的基礎(chǔ)上, 提出一種多路協(xié)同自注意力機(jī)制(Multi-way Coordination Self-Attention, MC-SefAtt)來(lái)增強(qiáng)編碼器源語(yǔ)言句子基于小句成分的語(yǔ)義表示, 具體方法如下。
編碼器由相同的層堆疊構(gòu)成。在編碼器輸入層, 把輸入句子的詞序列每個(gè)詞的詞嵌入融合位置編碼作為輸入。由于標(biāo)注數(shù)據(jù)含有大量的小句對(duì)齊標(biāo)簽, 考慮到標(biāo)簽蘊(yùn)含豐富的小句層面的語(yǔ)義結(jié)構(gòu)信息, 我們把每個(gè)標(biāo)簽視為標(biāo)簽詞(如結(jié)構(gòu)連接詞), 隨其他詞按正常方式輸入。
圖2 基于復(fù)雜句的漢英小句對(duì)齊標(biāo)注示例
圖3 融合小句對(duì)齊知識(shí)的神經(jīng)機(jī)器翻譯模型架構(gòu)圖及提出的兩種注意力機(jī)制示意圖
同時(shí), 與式(1)并行計(jì)算每個(gè)小句序列W內(nèi)的點(diǎn)乘自注意力。計(jì)算公式如下:
,和分別表示從每個(gè)小句序列W轉(zhuǎn)換得到的query, key和value的矩陣表示, 1≤≤; Mask 為掩碼矩陣, 其作用是掩碼掉小句以外其他的詞表示, 使得當(dāng)前詞只與對(duì)應(yīng)小句內(nèi)部的詞做相關(guān)性計(jì)算。
=LayerNorm(FFN()+)。(4)
與編碼器類(lèi)似, 解碼器也由相同的層堆疊構(gòu)成。本文在解碼器每層的自注意力機(jī)制子層和全連接前饋神經(jīng)網(wǎng)絡(luò)子層之間設(shè)計(jì)一個(gè)編碼器-解碼器小句對(duì)齊注意力子層(clause aligned cross attention, CA-CrossAtt)來(lái)對(duì)雙語(yǔ)之間小句對(duì)齊信息進(jìn)行建模, 借助第1節(jié)在平行數(shù)據(jù)中標(biāo)注的小句對(duì)齊標(biāo)簽, 通過(guò)正則化的方法提高雙語(yǔ)小句間的注意力對(duì)齊權(quán)重, 鼓勵(lì)模型更好地從大規(guī)模標(biāo)注數(shù)據(jù)中學(xué)習(xí)基于小句的結(jié)構(gòu)對(duì)齊知識(shí), 從而提高神經(jīng)機(jī)器翻譯對(duì)復(fù)雜句的翻譯能力。
與編碼器輸入層處理方法類(lèi)似, 解碼器輸入層把目標(biāo)語(yǔ)言詞序列每個(gè)詞的詞嵌入融合位置編碼作為輸入, 將每個(gè)標(biāo)簽視為標(biāo)簽詞, 隨其他詞按正常方式輸入。
當(dāng)前常用的篇章級(jí)機(jī)器翻譯訓(xùn)練數(shù)據(jù)包括 TED 演講數(shù)據(jù)集(TED Talks)、中英字幕數(shù)據(jù)集(TVSUB)、WMT 公開(kāi)評(píng)測(cè)任務(wù)提供的 News-Commentary 數(shù)據(jù)集以及 Europarl 數(shù)據(jù)集等, 但這些都是規(guī)模受限數(shù)據(jù)集, 并且用于漢英翻譯任務(wù)的數(shù)據(jù)非常稀缺。針對(duì)這種情況, 我們從 WMT 大規(guī)模公開(kāi)數(shù)據(jù)集 Uni-ted Nations Parallel Corpus v1.0 中篩選 4M 句對(duì)漢英復(fù)雜句平行句對(duì), 并在上面標(biāo)注小句對(duì)齊標(biāo)簽(見(jiàn)1.1 節(jié)和 1.2 節(jié))。本文用該標(biāo)注數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù), 使用中到英翻譯方向的 WMT newsdev2017-ZHEN 作為驗(yàn)證集, 使用 WMT newstest2017-ZHEN, newstest2018-ZHEN 和 newstest 2019-ZHEN 這 3 個(gè)測(cè)試集驗(yàn)證模型性能。為驗(yàn)證本文方法的有效性, 基線(xiàn)系統(tǒng)都采用 4M 標(biāo)注數(shù)據(jù)去掉小句對(duì)齊標(biāo)簽后的數(shù)據(jù)集進(jìn)行訓(xùn)練。數(shù)據(jù)集統(tǒng)計(jì)信息見(jiàn)表 1。
采用 BPE[21]子詞切分方法, 源端和目標(biāo)端詞表均設(shè)為 40K; 編碼器和解碼器都設(shè)為 6 層, 多頭注意力頭數(shù)設(shè)為 8, 隱層維度和前饋神經(jīng)網(wǎng)絡(luò)維度分別設(shè)為 512 和 2048; 訓(xùn)練集的 Batch Size 設(shè)為 64, 采用 Adam Optimizer[22]優(yōu)化器, 優(yōu)化器初始學(xué)習(xí)率設(shè)為 0.00005, Dropout[23]比率設(shè)為 0.1; 其他設(shè)置采用 Vaswani[4]系統(tǒng)的默認(rèn)設(shè)置。本文模型的基線(xiàn)系統(tǒng)Transformer 采用開(kāi)源框架 OpenNMT[24]。
表1 數(shù)據(jù)集統(tǒng)計(jì)信息
本文選擇對(duì)字母大小寫(xiě)不敏感的 BLEU-4[25]評(píng)價(jià)指標(biāo)對(duì)譯文進(jìn)行質(zhì)量評(píng)估, 使用 multi-bleu.pl 腳本進(jìn)行計(jì)算。與已公開(kāi)發(fā)表的神經(jīng)機(jī)器翻譯方面的工作進(jìn)行性能比較(表 2)??梢钥闯? 與 Bahdanau等[2]的基于 RNN 的神經(jīng)機(jī)器翻譯模型 RNNSearch相比, 我們的模型在 BLEU 值上平均取得 2.99 個(gè)點(diǎn)的提升。與 Gehring 等[3]提出的基于卷積神經(jīng)結(jié)構(gòu)的翻譯模型 ConvS2S 相比, 我們的模型平均提高2.19 個(gè)點(diǎn)。與 Vaswani 等[4]提出的完全基于自注意力機(jī)制的 Transformer (base)模型相比, 我們的模型平均獲得 1.57 個(gè)點(diǎn)的提升。與 Shi 等[9]提出的基于對(duì)抗學(xué)習(xí)的句對(duì)齊學(xué)習(xí)方法相比, 我們的模型平均取得 0.59 個(gè)點(diǎn)的提升。由于本文模型中兩種注意力機(jī)制都沒(méi)有新增任何參數(shù), 僅在標(biāo)簽輸入時(shí)引入極少量參數(shù), 因此本文方法比基線(xiàn)系統(tǒng)的得分明顯提高, 可以排除單純因參數(shù)量增加導(dǎo)致效果提升這一因素, 驗(yàn)證了本文方法的有效性。與已有方法相比, 本文方法關(guān)注小句間語(yǔ)義結(jié)構(gòu)在整個(gè)篇章層次結(jié)構(gòu)中的重要作用, 通過(guò)小句的增強(qiáng)表示和小句對(duì)齊學(xué)習(xí), 有效地提升了機(jī)器翻譯的性能。
表2 WMT漢-英翻譯任務(wù)上的主要評(píng)測(cè)結(jié)果
說(shuō)明: 粗體數(shù)字為最優(yōu)結(jié)果。
我們分析了模型中各個(gè)部分對(duì)最終神經(jīng)機(jī)器翻譯性能的影響, 實(shí)驗(yàn)結(jié)果如表 3 所示。
從表 3 容易看出, 通過(guò)增強(qiáng)源端基于小句成分的句子表示和學(xué)習(xí)源端與目標(biāo)端小句對(duì)齊知識(shí), 本文模型有效地改進(jìn)了機(jī)器翻譯性能。模型(1)在基線(xiàn)系統(tǒng)(Transformer)基礎(chǔ)上使用多路協(xié)同自注意力機(jī)制(MC-SefAtt), 在句級(jí)語(yǔ)義表示的基礎(chǔ)上融入小句級(jí)語(yǔ)義表示, BLEU 值比基線(xiàn)系統(tǒng)平均提升 0.48個(gè)點(diǎn), 表明引入小句語(yǔ)義表示可以增強(qiáng)源語(yǔ)言句子表示能力, 并改進(jìn)神經(jīng)機(jī)器翻譯模型的性能。模型(2)在基線(xiàn)系統(tǒng)的基礎(chǔ)上使用編碼器-解碼器小句對(duì)齊注意力機(jī)制(CA-CrossAtt), 增強(qiáng)了編碼器和解碼器在小句層面的對(duì)齊學(xué)習(xí)能力, 捕獲更多源端和目標(biāo)端小句級(jí)語(yǔ)義關(guān)聯(lián)特征, BLEU 值比基線(xiàn)系統(tǒng)平均提升 1.05 個(gè)點(diǎn)。模型(3)在基線(xiàn)系統(tǒng)的基礎(chǔ)上同時(shí)采用 MC-SefAtt 和 CA-CrossAtt 兩種注意力機(jī)制, 編碼器編碼能力和解碼器預(yù)測(cè)能力進(jìn)一步提升, BLEU 值比基線(xiàn)系統(tǒng)平均提升 1.57 個(gè)點(diǎn)。實(shí)驗(yàn)結(jié)果表明, 本文提出的融合小句對(duì)齊知識(shí)的方法, 可以使模型有效地學(xué)到雙語(yǔ)小句層面的語(yǔ)義結(jié)構(gòu)對(duì)齊特征, 從而提高神經(jīng)機(jī)器翻譯的精度。
本文在模型中使用基于小句對(duì)齊的編碼器-解碼器注意力機(jī)制, 并采用正則化方法, 使用參數(shù)調(diào)節(jié)和分配注意力權(quán)重。圖 4 展示在 newstest2019測(cè)試集上不同取值對(duì)模型性能的影響。當(dāng)從 0增至 0.7 時(shí), 模型獲得 0.6 個(gè) BLEU 點(diǎn)的提升, 表明當(dāng)更多注意力分布在小句對(duì)齊信息上時(shí), 模型性能得到提升; 但當(dāng)取值超過(guò) 0.7 時(shí), 模型性能開(kāi)始下降。我們認(rèn)為過(guò)多的注意力分布在小句對(duì)齊上會(huì)損害模型的性能, 因此把值設(shè)為 0.7 來(lái)優(yōu)化編碼器-解碼器注意力機(jī)制, 以便提升模型的翻譯性能。
表3 模型各個(gè)部分有效性分析結(jié)果
圖4 不同λ取值對(duì)模型性能的影響
圖5 翻譯實(shí)例對(duì)比
為了進(jìn)一步驗(yàn)證模型在復(fù)雜句上的翻譯能力, 我們進(jìn)行翻譯實(shí)例對(duì)比和分析。圖 5 給出一個(gè)復(fù)雜句翻譯實(shí)例, 容易看出, Transformer (基線(xiàn)系統(tǒng))的譯文中, 子句 5 與 6 之間出現(xiàn)嚴(yán)重的語(yǔ)義結(jié)構(gòu)關(guān)系錯(cuò)誤(紅色標(biāo)記), 并且子句 6 中出現(xiàn)漏譯, 這些翻譯錯(cuò)誤被本文模型糾正過(guò)來(lái)(藍(lán)色標(biāo)記)。該實(shí)例進(jìn)一步驗(yàn)證了本文模型通過(guò)小句對(duì)齊知識(shí)的學(xué)習(xí), 能更好地感知和學(xué)到復(fù)雜句內(nèi)小句間的結(jié)構(gòu)關(guān)系, 從而提高對(duì)復(fù)雜句的翻譯性能, 提升復(fù)雜句長(zhǎng)文本翻譯的篇章連貫性。同時(shí)也驗(yàn)證了本文模型通過(guò)細(xì)粒度的小句對(duì)齊學(xué)習(xí), 進(jìn)一步提升源語(yǔ)言和目標(biāo)語(yǔ)言句子間的對(duì)齊建模能力, 使翻譯充分性[26]得到提高, 在一定程度上緩解了機(jī)器翻譯的漏譯問(wèn)題, 也提高了簡(jiǎn)單句的翻譯效果。
針對(duì)當(dāng)前漢英復(fù)雜句機(jī)器翻譯中存在的篇章連貫性問(wèn)題, 本文提出一種融合小句對(duì)齊知識(shí)的神經(jīng)機(jī)器翻譯解決方法。在數(shù)據(jù)層面, 采用小規(guī)模手工和大規(guī)模自動(dòng)的方式標(biāo)注 4M 句對(duì)基于小句對(duì)齊的漢英復(fù)雜句平行語(yǔ)料, 將漢英雙語(yǔ)小句結(jié)構(gòu)對(duì)齊知識(shí)顯式地標(biāo)注于平行語(yǔ)料庫(kù)中, 為漢英機(jī)器翻譯貢獻(xiàn)了小句對(duì)齊的平行雙語(yǔ)數(shù)據(jù)資源。在模型層面, 提出一種基于小句對(duì)齊學(xué)習(xí)的神經(jīng)機(jī)器翻譯模型, 充分利用標(biāo)注語(yǔ)料庫(kù)提供的小句對(duì)齊信息, 通過(guò)增強(qiáng)源端基于小句成分的句子語(yǔ)義表示和源端與目標(biāo)端小句對(duì)齊學(xué)習(xí)來(lái)有效融合小句對(duì)齊知識(shí), 訓(xùn)練模型學(xué)習(xí)更多復(fù)雜句內(nèi)小句層面的語(yǔ)義結(jié)構(gòu)特征。在 WMT17, WMT18 和 WMT19 翻譯任務(wù)公開(kāi)測(cè)試集上的實(shí)驗(yàn)結(jié)果表明, 本文方法能夠有效地提升漢英神經(jīng)機(jī)器翻譯的性能。分析結(jié)果表明, 本文方法在增強(qiáng)復(fù)雜句長(zhǎng)文本翻譯的篇章連貫性方面有明顯的改進(jìn), 對(duì)提高篇章翻譯的效果有很大的幫助。本文提出的模型通過(guò)細(xì)粒度的小句對(duì)齊學(xué)習(xí), 增強(qiáng)了源端和目標(biāo)端句子間的語(yǔ)義對(duì)齊建模能力, 使機(jī)器翻譯漏譯問(wèn)題得到改善, 也提升了簡(jiǎn)單句的翻譯精度。
今后的工作中, 我們將考慮在小句對(duì)齊的基礎(chǔ)上, 顯式地建?;谛【涞恼Z(yǔ)義結(jié)構(gòu)信息, 進(jìn)一步提高神經(jīng)機(jī)器翻譯對(duì)復(fù)雜句長(zhǎng)文本的翻譯性能。
[1]Sutskever I, Vinyals O, Le Q V.Sequence to sequence learning with neural networks // NIPS.Montreal, 2014: 3104-3112
[2]Bahdanau D, Cho K, Bengio Y.Neural machine translation by jointly learning to align and translate // ICLR.San Diego, 2015: 1-15
[3]Gehring J, Auli M, Grangier D, et al.Convolutional sequence to sequence learning // Proceedings of the 34th International Conference on Machine Learning.Sydney, 2017: 1243-1252
[4]Vaswani A, Shazeer N, Parmar N, et al.Attention is all you need // NIPS.Los Angeles, 2017: 5998-6008
[5]Zhang W, Feng Y, Meng F, et al.Bridging the gap between training and inference for neural machine translation // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.Florence, 2019: 4334-4343
[6]Jean S, Lauly S, Firat O, et al.Does neural machine translation benefit from larger context? [EB/OL].(2017-04-17)[2021-03-05].https://arxiv.org/abs/1704.05135
[7]Zhang Jiacheng, Luan Huanbo, Sun Maosong, et al.Improving the transformer translation model with document-level context // EMNLP.Brussels, 2018: 533-542
[8]Miculicich L, Ram D, Pappas N, et al.Document-level neural machine translation with hierarchical attention networks // EMNLP.Brussels, 2018: 2947-2954
[9]Shi X, Huang H, Jian P, et al.Improving neural machine translation with sentence alignment learning.Neurocomputing, 2021, 420: 15-26
[10]Bao Guangsheng, Zhang Yue, Teng Zhiyang, et al.G-transformer for document-level machine translation [EB/OL].(2021-05-31)[2021-06-01].https://arxiv.org/abs/2105.14761
[11]馮文賀.漢英篇章結(jié)構(gòu)平行語(yǔ)料庫(kù)構(gòu)建與應(yīng)用研究.北京: 科學(xué)出版社, 2019
[12]葛詩(shī)利, 宋柔.基于成分共享的英漢小句對(duì)齊語(yǔ)料庫(kù)標(biāo)注體系研究.中文信息學(xué)報(bào), 2020, 34(6): 27-35
[13]Mann W, Thompson S A.Rhetorical structure theory: toward a functional theory of text organization.Text, 1988, 8(3): 243-281
[14]Li Y, Lai C, Feng J, et al.Chinese and English elementary discourse units segmentation based on Bi-LSTM-CRF model // Proceedings of the 19th Chinese National Conference on Computational Linguistics.Haikou, 2020: 1068-1078
[15]Manning C D, Mihai S, John B, et al.The Stanford CoreNLP natural language processing toolkit // Pro-ceedings of the 52nd Annual Meeting of the Asso-ciation for Computational Linguistics.Baltimore, 2014: 55-60
[16]Hochreiter S, Schmidhuber J.Long short-term me-mory.Neural Computation, 1997, 9(8): 1735-1780
[17]Lafferty J, Mccallum A, Pereira F.Probabilistic models for segmenting and labeling sequence data // Proceedings of the Eighteenth International Confer-ence on Machine Learning.Williamstown, 2001: 282-289
[18]Ding Y, Li J, Gong Z, et al.Improving neural sen-tence alignment with word translation.Frontiers of Computer Science, 2020, 15(1): 1-10
[19]Och F J, Ney H.A systematic comparison of various statistical alignment models.Computational Lingui-stics, 2003, 29(1): 19-51
[20]Cho K, van Merri?nboer B, Gulcehre C, et al.Learn-ing phrase representations using RNN encoderdeco-der for statistical machine translation // Proceedings of the 2014 Conference on Empirical Methods in Natu-ral Language Processing.Doha, 2014: 1724-1734
[21]Sennrich R, Haddow B, Birch A.Neural machine translation of rare words with subword units // Pro-ceedings of the 54th Annual Meeting of the Associa-tion for Computational Linguistics.Berlin, 2016: 1715-1725
[22]Kingma D P, Ba J.Adam: a method for stochastic optimization [EB/OL].(2014-12-22)[2021-03-06].https://arxiv.org/abs/1412.6980
[23]Srivastava N, Hinton G, Krizhevsky A, et al.Dropout: a simple way to prevent neural networks from over-fitting.The Journal of Machine Learning Research, 2014, 15(1): 1929-1958
[24]Klein G, Kim Y, Deng Y, et al.OpenNMT: open-source toolkit for neural machine translation // Pro-ceedings of ACL 2017: System Demonstrations.Van-couver, 2017: 67-72
[25]Papineni K, Roukos S, Ward T, et al.BLEU: a method for automatic evaluation of machine translation // Proceedings of the 40th Annual Meeting on Associa-tion for Computational Linguistics.Philadelphia, 2002: 311-318
[26]Tu Z, Liu Y, Shang L, et al.Neural machine transla-tion with reconstruction // Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence.San Francisco, 2017: 3097-3103
Incorporating Clause Alignment Knowledge into Chinese-English Neural Machine Translation
MIAO Guoyi1, LIU Mingtong2, CHEN Yufeng1, XU Jin’an1,?, ZHANG Yujie1, FENG Wenhe3
1.School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044; 2.Sinovation Ventures AI Institute, Beijing, 100080; 3.Laboratory of Language Engineering and Computing, Guangdong University of Foreign Studies, Guangzhou 510420; ? Corresponding author, E-mail: jaxu@bjtu.edu.cn
Currently, neural machine translation (NMT) is insufficient in capturing the semantic and structural relationships between clauses in complex sentences, which often results in poor discourse coherence of long and complex sentence translation.To address this problem, the paper proposes a Chinese-English NMT approach by integrating the clause alignment knowledge into NMT.Firstly, a labeling scheme combining manual and automatic annotation is introduced to annotate a large-scale clause aligned Chinese-English parallel corpus that provides rich clause-level Chinese-English bilingual alignment knowledge for model training.Then, a NMT model is designed based on clause alignment learning for enhancing the ability of the model to learn the semantic structure relationships between clauses within complex sentences.Experimental results on WMT17, WMT18 and WMT19 Chinese-English translation tasks demonstrate that proposed method can significantly improve the NMT performance.Evaluation and analysis show that proposed method can effectively improve the discourse coherence of complex sentence in Chinese-English machine translation.
neural machine translation; clause alignment; structural relationship; discourse coherence
10.13209/j.0479-8023.2021.111
2021-06-09;
2021-08-13
國(guó)家重點(diǎn)研發(fā)計(jì)劃(2020AAA0108001)、國(guó)家自然科學(xué)基金(61976015, 61976016, 61876198, 61370130)和廣東省基礎(chǔ)與應(yīng)用基礎(chǔ)研究基金(2020A1515011056)資助