王浩暢,孫孟冉,趙鐵軍
(1.東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318; 2.哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001)
近年來(lái),隨著深度學(xué)習(xí)的快速發(fā)展,在機(jī)器翻譯(Machine Translation, MT)領(lǐng)域采用了許多深度學(xué)習(xí)算法[1-3],并取得了很好的效果。這使機(jī)器翻譯領(lǐng)域內(nèi)的研究方向從基于統(tǒng)計(jì)的機(jī)器翻譯轉(zhuǎn)向了基于深度學(xué)習(xí)的機(jī)器翻譯,被稱為神經(jīng)機(jī)器翻譯(Neural Machine Translation, NMT)?;谏疃葘W(xué)習(xí)技術(shù)的機(jī)器翻譯取得很好效果的前提是擁有一個(gè)大規(guī)模的平行語(yǔ)料庫(kù)。然而有許多稀缺語(yǔ)言或者特定領(lǐng)域內(nèi)的機(jī)器翻譯任務(wù)很難構(gòu)建大規(guī)模平行語(yǔ)料庫(kù),翻譯效果會(huì)嚴(yán)重降低。
采用深度學(xué)習(xí)模型的機(jī)器翻譯之所以會(huì)效果很好,是因?yàn)樗軓钠叫姓Z(yǔ)料中提取語(yǔ)句的關(guān)鍵信息,并進(jìn)行向量化表示。在訓(xùn)練過(guò)程中,平行語(yǔ)料的規(guī)模決定了模型能否提取更多的語(yǔ)句信息,平行語(yǔ)料規(guī)模越大,提取的語(yǔ)言信息就越多,翻譯的效果就越好,反之,翻譯效果就越差。隨著預(yù)訓(xùn)練模型的發(fā)展,研究人員相繼提出了多種預(yù)訓(xùn)練模型,如:Word2Vec[4-5]、ELMO[6]、GPT[7]、Bert[8]等。由于預(yù)訓(xùn)練模型采用龐大的語(yǔ)料進(jìn)行自監(jiān)督訓(xùn)練,使得模型中包含了大規(guī)模語(yǔ)料的詞法、句法、語(yǔ)法信息,各種自然語(yǔ)言處理任務(wù)在使用預(yù)訓(xùn)練模型的情況下都取得了很好的效果,預(yù)訓(xùn)練模型在自然語(yǔ)言處理領(lǐng)域中變得舉足輕重。
本文針對(duì)在低資源情況下的神經(jīng)機(jī)器翻譯的缺陷,提出一種基于ELMO預(yù)訓(xùn)練模型的低資源機(jī)器翻譯方法。在傳統(tǒng)的NMT模型的基礎(chǔ)上融合ELMO預(yù)訓(xùn)練模型,以少量的平行語(yǔ)料數(shù)據(jù)去訓(xùn)練模型。在土耳其語(yǔ)-英語(yǔ)翻譯任務(wù)上相比于反向翻譯提升近0.7個(gè)BLEU,在羅馬尼亞語(yǔ)-英語(yǔ)翻譯任務(wù)上提升近0.8個(gè)BLEU。為驗(yàn)證融合模型在多種語(yǔ)言翻譯任務(wù)中的有效性,以傳統(tǒng)的NMT模型訓(xùn)練出來(lái)的結(jié)果為基線模型,在中-英、法-英、德-英、西-英這4組低資源翻譯任務(wù)上相比于傳統(tǒng)神經(jīng)機(jī)器翻譯模型分別提升2.3、3.2、2.6、3.2個(gè)BLEU。
Koehn等人[9]的實(shí)驗(yàn)表明,NMT相比于統(tǒng)計(jì)機(jī)器翻譯無(wú)法更好地處理低資源平行語(yǔ)句。但是,通過(guò)一些對(duì)數(shù)據(jù)的處理或者對(duì)模型的遷移、改進(jìn)等其他方法有效地改進(jìn)了低資源神經(jīng)機(jī)器翻譯的不足,有些方法甚至超越了統(tǒng)計(jì)機(jī)器翻譯的效果。
其中通過(guò)數(shù)據(jù)增強(qiáng)的方式來(lái)改進(jìn)低資源神經(jīng)機(jī)器翻譯的效果較好。由于在統(tǒng)計(jì)機(jī)器翻譯中目標(biāo)語(yǔ)言的單語(yǔ)數(shù)據(jù)在語(yǔ)言流暢度上扮演著重要的角色[10],Sennrich等人[11]將目標(biāo)語(yǔ)言通過(guò)訓(xùn)練好的模型翻譯成源語(yǔ)言,用來(lái)創(chuàng)建并合成平行語(yǔ)料,這一過(guò)程被稱為反向翻譯。他們首先訓(xùn)練了一個(gè)目標(biāo)語(yǔ)言到源語(yǔ)言的模型,通過(guò)這個(gè)模型將目標(biāo)語(yǔ)言的單語(yǔ)數(shù)據(jù)當(dāng)成輸入然后生成源語(yǔ)句,并將單語(yǔ)數(shù)據(jù)和生成的源語(yǔ)句合并并加入到原始的平行語(yǔ)料中,以此來(lái)達(dá)到平行語(yǔ)料擴(kuò)充的目的。Currey等人[12]通過(guò)一種很直接的方式去增加目標(biāo)端的單語(yǔ)數(shù)據(jù),該方法將目標(biāo)語(yǔ)言中的單語(yǔ)語(yǔ)料庫(kù)復(fù)制成平行語(yǔ)料庫(kù),使源句與對(duì)應(yīng)的目標(biāo)句完全一致。然后將復(fù)制的語(yǔ)料庫(kù)與原始的并行數(shù)據(jù)混合,用于訓(xùn)練NMT模型,其中不區(qū)分平行數(shù)據(jù)和復(fù)制數(shù)據(jù)。Fadaee等人[13]受計(jì)算機(jī)視覺工作的啟發(fā),提出了一種新的數(shù)據(jù)增強(qiáng)方法,該方法以低頻詞為目標(biāo)通過(guò)在綜合創(chuàng)建的上下文中生成包含稀有詞的新句子加入到之前的平行語(yǔ)料中,用于NMT模型的訓(xùn)練。Nguyen等人[14]采用了一種既簡(jiǎn)單又高效的方法來(lái)達(dá)到擴(kuò)充數(shù)據(jù)的目的。他們將多個(gè)源語(yǔ)言到目標(biāo)語(yǔ)言的翻譯模型和目標(biāo)語(yǔ)言到源語(yǔ)言的翻譯模型的推斷產(chǎn)生的平行語(yǔ)料加入到原始的訓(xùn)練數(shù)據(jù)中,從而達(dá)到增強(qiáng)訓(xùn)練數(shù)據(jù)的目的。
還有許多研究人員通過(guò)對(duì)模型的創(chuàng)新來(lái)解決低資源神經(jīng)機(jī)器翻譯的難題。Zoph等人[15]使用了轉(zhuǎn)移學(xué)習(xí)的方式去解決低資源NMT問(wèn)題。他們首先尋找一組平行語(yǔ)料豐富的語(yǔ)言對(duì),然后構(gòu)造模型進(jìn)行訓(xùn)練(稱為父模型),訓(xùn)練結(jié)束后將模型的參數(shù)轉(zhuǎn)移到通過(guò)低資源平行語(yǔ)料構(gòu)建的模型(稱為子模型)中,然后在這些參數(shù)的基礎(chǔ)上進(jìn)行訓(xùn)練。Niu等人[16]發(fā)現(xiàn)采用雙向NMT建模的方法可以顯著改善低資源NMT的效果。Baziotis等人[17]采用了一種新穎的方法,該方法在NMT模型中融合了先驗(yàn)語(yǔ)言模型,從而達(dá)到提升模型翻譯精度的效果。Gulcehre等人[18]采用了深融合和淺融合的方式將預(yù)訓(xùn)練好的語(yǔ)言模型與NMT模型融合。無(wú)論是從模型還是數(shù)據(jù)方面,都能夠較好地解決低資源神經(jīng)機(jī)器翻譯問(wèn)題,甚至在某些方法中取得的效果好于統(tǒng)計(jì)機(jī)器翻譯的效果。本文采用的是預(yù)訓(xùn)練模型與NMT模型融合,方法類似于文獻(xiàn)[18]。
解碼器是由循環(huán)神經(jīng)網(wǎng)絡(luò)組成用來(lái)預(yù)測(cè)目標(biāo)序列y=(y1,…,yn)。其中每個(gè)yi的預(yù)測(cè)是基于循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏狀態(tài)si、上一個(gè)預(yù)測(cè)yi-1和上下文向量ci。ci的值是編碼器輸出的加權(quán)和。其中編碼器輸出的每一個(gè)權(quán)重值αij是通過(guò)一個(gè)對(duì)齊模型計(jì)算的。對(duì)齊模型是由一個(gè)單層的前饋神經(jīng)網(wǎng)絡(luò)組成的,通過(guò)反向傳播算法學(xué)習(xí)源語(yǔ)言和目標(biāo)語(yǔ)言中的對(duì)齊關(guān)系。
Peters等人[6]提出的ELMO預(yù)訓(xùn)練模型,其模型結(jié)構(gòu)如圖1所示。
圖1 ELMO模型結(jié)構(gòu)示意圖
模型采用了經(jīng)典的2階段網(wǎng)絡(luò)結(jié)構(gòu),第1個(gè)階段是利用語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練;第2個(gè)階段是在做下游任務(wù)時(shí),從預(yù)訓(xùn)練網(wǎng)絡(luò)中提取對(duì)應(yīng)單詞的網(wǎng)絡(luò)各層的詞嵌入作為新特征補(bǔ)充到下游任務(wù)中。
模型的結(jié)構(gòu)采用了雙向長(zhǎng)短期記憶網(wǎng)絡(luò)[20](Long Short-Term Memory, LSTM),預(yù)訓(xùn)練的任務(wù)目標(biāo)是根據(jù)單詞Wi的上下文去正確預(yù)測(cè)單詞Wi,Wi之前的單詞序列稱為上文,Wi之后的單詞序列稱為下文。圖1中左端的前向雙層LSTM代表正方向編碼器,輸入的是從左到右順序的除了預(yù)測(cè)單詞Wi外的上文;右端的逆向雙層LSTM代表反方向編碼器,輸入的是從右到左的逆序的句子下文;每個(gè)編碼器的深度都是2層LSTM疊加。
這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)利用大量語(yǔ)料做語(yǔ)言模型任務(wù)就能預(yù)先訓(xùn)練好這個(gè)網(wǎng)絡(luò),訓(xùn)練好這個(gè)模型后,輸入一個(gè)新句子Snew,句子中每個(gè)單詞都能得到對(duì)應(yīng)的3個(gè)嵌入:最底層是單詞的嵌入,往上是第1層雙向LSTM中對(duì)應(yīng)單詞位置的嵌入,這層編碼單詞的句法信息更多一些;再往上是第2層LSTM中對(duì)應(yīng)單詞位置的嵌入,這層編碼單詞的語(yǔ)義信息更多一些。
本文提出一種新的模型架構(gòu),如圖2所示,在NMT模型中融合ELMO預(yù)訓(xùn)練模型,編碼端和解碼端的輸入不僅僅輸入到NMT模型,還要輸入到ELMO模型中。將ELMO的輸出矩陣和NMT模型的嵌入矩陣進(jìn)行連接操作,使用低資源平行語(yǔ)料對(duì)模型進(jìn)行訓(xùn)練。
圖2 基于ELMO的seq2seq模型示意圖
ELMO預(yù)訓(xùn)練模型是基于大規(guī)模的無(wú)標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練的,它能夠從大規(guī)模的數(shù)據(jù)中學(xué)習(xí)到語(yǔ)言知識(shí),這使得ELMO能夠捕捉到更加通用的語(yǔ)言規(guī)律。將編碼端和解碼端的輸入喂給ELMO模型,得到的輸出能夠捕捉到輸入的詞性、句法、語(yǔ)法等信息。然后將ELMO的輸出和嵌入矩陣進(jìn)行拼接,將包含詞性、句法、語(yǔ)法信息的ELMO輸出一起送入模型進(jìn)行訓(xùn)練,使得模型能夠?qū)W習(xí)到更多的語(yǔ)法表示,從而提高模型的翻譯質(zhì)量。Peters等人[6]使用類似的方法在NLP各領(lǐng)域的任務(wù)上均取得了較大的提升。
在編碼階段,將序列x=(x1,…,xm)分別輸入到ELMO預(yù)訓(xùn)練模型和隨機(jī)初始化的嵌入矩陣,分別獲得輸出Eelmo矩陣和詞嵌入矩陣Eword,然后將兩者的矩陣進(jìn)行拼接操作得到矩陣E,如公式(1)所示:
E=Concat(Eelmo,Eword)
(1)
將拼接后的矩陣作為嵌入矩陣,在編碼階段經(jīng)過(guò)編碼得到輸出序列h=(h1,…,hm),計(jì)算公式如式(2)所示:
ht=f(xt,ht-1)
(2)
其中,ht代表t時(shí)間步的輸出,f是非線性函數(shù),這里一般用LSTM或者Gated Recurrent Units。
在解碼階段,輸入序列y=(y1,…,yn)的嵌入矩陣與編碼階段做相同操作,而后根據(jù)編碼端的輸出h=(h1,…,hm)和t時(shí)間步之前預(yù)測(cè)的目標(biāo)語(yǔ)言序列(y1,…,yt-1)來(lái)預(yù)測(cè)時(shí)間步t的目標(biāo)語(yǔ)言,計(jì)算公式如式(3)所示:
(3)
其中,p(yt|{y1,…,yt-1},h)=g(yt-1,st,ct),st是解碼端t時(shí)間步的隱藏狀態(tài)。ct是經(jīng)過(guò)注意力計(jì)算出的上下文向量,計(jì)算公式如式(4)所示:
(4)
其中,αtj的計(jì)算公式如式(5)所示:
(5)
其中,etj的計(jì)算公式如式(6)所示:
etj=a(st-1,hj)
(6)
其中,a的計(jì)算公式如式(7)所示:
a(st-1,hj)=vaTtanh(Wast-1+Uahj)
(7)
其中,va、Wa、Ua都是權(quán)重矩陣,在訓(xùn)練時(shí)可以隨機(jī)初始化。
為驗(yàn)證融合模型的有效性,本文在土耳其語(yǔ)-英語(yǔ)和羅馬尼亞語(yǔ)-英語(yǔ)這2組低資源平行語(yǔ)料上進(jìn)行實(shí)驗(yàn),此外為了驗(yàn)證融合模型在多種語(yǔ)言翻譯任務(wù)的有效性,分別模擬在低資源情況下中-英、法-英、德-英、西-英翻譯任務(wù)來(lái)評(píng)估模型的性能。
土耳其語(yǔ)-英語(yǔ)平行語(yǔ)料來(lái)源于WMT17的新聞翻譯任務(wù),共有20萬(wàn)平行句對(duì)。羅馬尼亞語(yǔ)-英語(yǔ)平行語(yǔ)料來(lái)源于WMT16翻譯任務(wù)[21],共有60萬(wàn)平行句對(duì)。在模擬的低資源情況中,主要都是從各種大型開源的平行語(yǔ)料庫(kù)中隨機(jī)選取少量的平行句對(duì)當(dāng)做訓(xùn)練集來(lái)對(duì)融合模型進(jìn)行訓(xùn)練,使用的驗(yàn)證集合測(cè)試集均來(lái)自開源語(yǔ)料用于驗(yàn)證和測(cè)試的語(yǔ)料,每種翻譯任務(wù)選取的平行語(yǔ)料數(shù)量約為20000對(duì),這些完整的數(shù)據(jù)分別來(lái)源于小牛翻譯開源社區(qū)的中-英平行語(yǔ)料、WMT14法-英平行語(yǔ)料、WMT13德-英平行語(yǔ)料和WMT13西班牙-英平行語(yǔ)料。
對(duì)于所有的平行語(yǔ)料都采用MOSES腳本對(duì)其進(jìn)行預(yù)處理,包括分詞、大小寫轉(zhuǎn)換等。然后使用字節(jié)對(duì)編碼[22](Byte Pair Encoding, BPE)將詞轉(zhuǎn)換成亞詞單元。
模型訓(xùn)練參數(shù)如下:在編碼端采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)作為編碼器,在解碼端采用雙層LSTM作為解碼器;詞嵌入的維度為512維;編碼器和解碼器的隱藏層維度為1024維,采用Adam優(yōu)化算法[23];Minibatch大小為64;學(xué)習(xí)率隨著迭代的次數(shù)下降;在推斷時(shí)采用集束搜索算法[24-25],集束搜索的寬度為10。在使用ELMO預(yù)訓(xùn)練模型時(shí),ELMO的輸出為3層輸出的平均值作為額外的詞嵌入矩陣。
在土耳其語(yǔ)-英語(yǔ)和羅馬尼亞語(yǔ)-英語(yǔ)翻譯任務(wù)上,在原有的平行語(yǔ)料上加入反向翻譯[11]數(shù)據(jù)進(jìn)行模型訓(xùn)練,以此模型作為基線模型。
在模擬的低資源翻譯任務(wù)中共訓(xùn)練了3種模型:
模型1 使用基本的NMT模型進(jìn)行訓(xùn)練,源語(yǔ)言和目標(biāo)語(yǔ)言的詞嵌入層均采用隨機(jī)初始化進(jìn)行訓(xùn)練。
模型2 使用融合ELMO的NMT模型,并且源語(yǔ)言和目標(biāo)語(yǔ)言的詞嵌入層只使用ELMO輸出的參數(shù)矩陣進(jìn)行訓(xùn)練。
模型3 使用融合ELMO的NMT模型、ELMO輸出參數(shù)矩陣和隨機(jī)初始化的嵌入矩陣進(jìn)行拼接進(jìn)行訓(xùn)練。
所有的實(shí)驗(yàn)結(jié)果以BLEU[26]分值作為評(píng)價(jià)標(biāo)準(zhǔn)。在土耳其語(yǔ)-英語(yǔ)和羅馬尼亞語(yǔ)-英語(yǔ)翻譯任務(wù)中實(shí)驗(yàn)的詳細(xì)結(jié)果如表1所示。在土耳其語(yǔ)-英語(yǔ)翻譯上使用的測(cè)試集是newtest2017,在羅馬尼亞語(yǔ)-英語(yǔ)翻譯任務(wù)上使用的測(cè)試集是newtest2016。
表1 在低資源翻譯任務(wù)上的詳細(xì)實(shí)驗(yàn)結(jié)果
采用反向翻譯模型[11]和Currey等人[12]提出的將目標(biāo)語(yǔ)言中的單語(yǔ)語(yǔ)料庫(kù)合并到低資源NMT的+copied模型作為本次實(shí)驗(yàn)的對(duì)比。從表1可以看出,在土耳其語(yǔ)-英語(yǔ)的翻譯任務(wù)上融合ELMO的模型相比于反向翻譯提升了超過(guò)0.7個(gè)BLEU,同時(shí)比+copied模型提升了超過(guò)0.4個(gè)BLEU。在羅馬尼亞語(yǔ)-英語(yǔ)翻譯任務(wù)中融合ELMO模型雖然比反向翻譯的表現(xiàn)好,但是相比于+copied模型差了將近0.4個(gè)BLEU,這可能因?yàn)榈唾Y源NMT主要缺陷是缺乏訓(xùn)練數(shù)據(jù),通過(guò)數(shù)據(jù)增強(qiáng)的方式更能夠提升效果。在+copied模型中使用了大量的單語(yǔ)語(yǔ)料起到了數(shù)據(jù)增強(qiáng)的作用,而融合ELMO模型本質(zhì)上只是捕捉到了訓(xùn)練數(shù)據(jù)的句法、語(yǔ)義等信息。所以效果沒有+copied模型表現(xiàn)的好。
模擬低資源翻譯任務(wù)的實(shí)驗(yàn)結(jié)果如表2所示。其中的BLEU值分別表示模型在驗(yàn)證集和測(cè)試集上的結(jié)果。
表2 模擬低資源翻譯任務(wù)的詳細(xì)實(shí)驗(yàn)結(jié)果
以模型1的結(jié)果作為基線模型,可以發(fā)現(xiàn)使用融合ELMO的2種模型的結(jié)果相比于模型1的結(jié)果提升較大。其中在中-英翻譯任務(wù)上最高提升了2.3個(gè)BLEU,在法-英翻譯任務(wù)上最高提升了3.2個(gè)BLEU,在德-英翻譯任務(wù)上最高提升了2.6個(gè)BLEU,在西-英翻譯任務(wù)上最高提升了3.2個(gè)BLEU。
無(wú)論是在土耳其語(yǔ)-英語(yǔ)和羅馬尼亞語(yǔ)-英語(yǔ)翻譯任務(wù)中還是在模擬多種語(yǔ)言的低資源翻譯任務(wù)中,使用融合ELMO模型的提升是相對(duì)較大的,說(shuō)明ELMO預(yù)訓(xùn)練模型和NMT模型的融合能顯著改善低資源神經(jīng)機(jī)器翻譯的結(jié)果。
從上述的模擬低資源翻譯任務(wù)實(shí)驗(yàn)中可以看出,每種語(yǔ)言翻譯任務(wù)在不同的模型上的提升效果也不同。如在中-英翻譯任務(wù)上,在模型3上的提升相對(duì)較大,而在德-英翻譯任務(wù)上在模型2上的提升相對(duì)較大。
在使用ELMO預(yù)訓(xùn)練模型時(shí),采用了3層輸出的平均值作為參數(shù)矩陣,這樣可以更好地表示語(yǔ)句的詞法、句法、語(yǔ)法信息。下面做一個(gè)對(duì)比試驗(yàn),采用每層的輸出分別作為參數(shù)矩陣,然后與NMT模型融合進(jìn)行訓(xùn)練,并在測(cè)試集上觀察模型的表現(xiàn)。
本文分別在4種平行句對(duì)上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。其中第1層表示采用ELMO預(yù)訓(xùn)練模型的第1層輸出,第2層表示采用ELMO預(yù)訓(xùn)練模型的第2層輸出,第3層表示ELMO的第3層輸出。
表3 在多種語(yǔ)言對(duì)上的實(shí)驗(yàn)結(jié)果
從實(shí)驗(yàn)結(jié)果可以看出,采用ELMO的3層輸出的結(jié)果隨著語(yǔ)種和模型的不同有不同的結(jié)果,如在中-英平行句對(duì)上采用ELMO的第1層輸出效果最好,而在法-英句對(duì)上采用ELMO第2層輸出效果最好。甚至有些模型采用ELMO輸出的模型效果比模型1的結(jié)果還差。這種情況說(shuō)明使用ELMO預(yù)訓(xùn)練模型時(shí),隨著任務(wù)的不同每層輸出的重要性也有所不同。其次,如果只采用某一層的輸出,模型的效果沒有使用3層平均的輸出效果好。說(shuō)明了將3層輸出進(jìn)行平均產(chǎn)生新的輸出,對(duì)模型效果提升較大。
本文提出了一種融合ELMO的NMT模型去解決低資源神經(jīng)機(jī)器翻譯問(wèn)題。主要工作如下:1)提出了一種基于ELMO預(yù)訓(xùn)練模型的低資源機(jī)器翻譯模型,并在多組平行語(yǔ)料上進(jìn)行實(shí)驗(yàn),結(jié)果相對(duì)基線模型有較大提升。2)為資源稀缺語(yǔ)言或特定領(lǐng)域的機(jī)器翻譯提供了一種使用預(yù)訓(xùn)練模型的方法去解決相關(guān)難題,并分析了ELMO模型每層的輸出對(duì)模型產(chǎn)生的影響。3)提升了低資源神經(jīng)機(jī)器翻譯的精度。
未來(lái)的工作將會(huì)從以下幾個(gè)方面進(jìn)行改進(jìn):1)采用加權(quán)平均方法對(duì)ELMO輸出的向量進(jìn)行計(jì)算并應(yīng)用于翻譯任務(wù)。2)隨著預(yù)訓(xùn)練模型的快速發(fā)展,一系列表現(xiàn)優(yōu)于ELMO的預(yù)訓(xùn)練模型相繼出現(xiàn),如Bert等,后續(xù)將會(huì)采用性能較好的預(yù)訓(xùn)練模型來(lái)對(duì)低資源神經(jīng)機(jī)器翻譯進(jìn)行進(jìn)一步的實(shí)驗(yàn)研究。3)本文采用的是傳統(tǒng)的神經(jīng)機(jī)器翻譯模型,相對(duì)Transformer模型[27]來(lái)說(shuō)效果相對(duì)較差。后續(xù)會(huì)采用Transformer模型對(duì)其進(jìn)行改進(jìn)。