• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于對(duì)偶學(xué)習(xí)的西里爾蒙古語-漢語機(jī)器翻譯研究

    2020-01-14 06:03:36蘇依拉孫曉騫巴圖其其格仁慶道爾吉
    關(guān)鍵詞:蒙漢對(duì)偶分詞

    蘇依拉 孫曉騫 巴圖其其格 仁慶道爾吉

    (內(nèi)蒙古工業(yè)大學(xué)信息工程學(xué)院 內(nèi)蒙古 呼和浩特 010080)

    0 引 言

    機(jī)器翻譯并不是一個(gè)年輕的研究方向,自1949年,Warren Weaver提出使用計(jì)算機(jī)來解決機(jī)器翻譯的任務(wù)開始,機(jī)器翻譯就開始在不同的范例下得到了一定的研究[1]。1954年在美國喬治敦大學(xué)用IBM計(jì)算機(jī)進(jìn)行的機(jī)器翻譯實(shí)驗(yàn)取得了理想的效果。但是1964年,全世界的機(jī)器翻譯被ALPAC報(bào)告打入了低谷[2]。1970年,隨著Chomsky語言學(xué)的興起以及人工智能的不斷發(fā)展,人們認(rèn)為實(shí)現(xiàn)機(jī)器翻譯必須對(duì)互譯的語言有一定的理解,在這種情況下,基于規(guī)則的方法逐漸發(fā)展起來了[3-4]。1980年,基于實(shí)例和基于統(tǒng)計(jì)的方法被提出,而從1999年開始,基于統(tǒng)計(jì)的機(jī)器翻譯方法取得了突破性的進(jìn)展,但隨后由于模型的復(fù)雜度不斷增加,造成了翻譯效果得不到明顯提高等問題[5-8]。

    基于Seq2Seq的神經(jīng)機(jī)器翻譯(Neural Machine Translation,NMT)框架由編碼器和解碼器組成,編碼器讀取輸入序列并輸出單個(gè)矢量,解碼器讀取該矢量以產(chǎn)生輸出序列[9]。自2013年以來,該框架獲得了迅速的發(fā)展,相對(duì)于統(tǒng)計(jì)機(jī)器翻譯而言在翻譯質(zhì)量上獲得了顯著的提升[10-12]。然而,基于Seq2Seq的神經(jīng)機(jī)器翻譯系統(tǒng)的訓(xùn)練通常需要上百萬句的平行語料庫,并且人工標(biāo)注代價(jià)十分昂貴,因此規(guī)模通常是有限的,這可能會(huì)限制相關(guān)的應(yīng)用和研究[13]。世界上除了少數(shù)像英文和中文等資源豐富的語言才有較好的平行語料庫外,大多數(shù)語種都屬于資源稀缺語種,語料庫比較匱乏。西里爾蒙漢平行語料庫就存在嚴(yán)重匱乏的問題。

    針對(duì)上述問題,Ren等[14]提出在數(shù)據(jù)稀缺語種上使用基于三角架構(gòu)的方法,其主要思想是,加入第三種語言與目標(biāo)語言構(gòu)成三角架構(gòu),而所謂的第三種語言必須是數(shù)據(jù)集比較豐富的大語種。該方法雖然能夠有效緩解數(shù)據(jù)稀疏問題造成的翻譯質(zhì)量不高的問題,但是尋找第三種語言極其的關(guān)鍵,像西里爾蒙古語這種資源嚴(yán)重匱乏的語種,英蒙平行語料庫的構(gòu)建也相當(dāng)困難,因此所述的第三種語言的尋找也是一個(gè)難題。近年來,遷移學(xué)習(xí)受到了廣泛的關(guān)注,Zoph等[15]將遷移學(xué)習(xí)引入低資源語言的神經(jīng)機(jī)器學(xué)習(xí)中,其思路是,把資源比較豐富的語言訓(xùn)練的翻譯模型的參數(shù)遷移到資源相對(duì)缺乏語言翻譯模型的訓(xùn)練過程中,該方法在一定程度上緩解了平行語料庫不足的問題。但是這種方法的前提是,需要訓(xùn)練出資源豐富語種之間的翻譯模型,無形之中加大了研究的困難。

    西里爾蒙古語和漢語之間的翻譯相關(guān)研究主要集中在統(tǒng)計(jì)機(jī)器翻譯中,研究比較滯后,因此本文將對(duì)偶學(xué)習(xí)應(yīng)用在西里爾蒙漢機(jī)器翻譯中。

    在機(jī)器翻譯中為了節(jié)省計(jì)算資源和降低計(jì)算復(fù)雜度,通常將詞典設(shè)置得比較小,這將會(huì)導(dǎo)致未登錄詞的產(chǎn)生,再加上西里爾蒙古語屬于黏著語,詞干和詞綴的組合方式較多,導(dǎo)致了西里爾蒙漢機(jī)器翻譯中嚴(yán)重的未登錄詞現(xiàn)象[16-18]。2016年Sennrich等[19]提出了使用BPE技術(shù)切分詞語的方法,近兩年該方法得到了迅速發(fā)展,并且在機(jī)器翻譯中有效地緩解了因未登錄詞導(dǎo)致的譯文質(zhì)量不高的問題。

    因此,本文首先通過BPE技術(shù)對(duì)西里爾蒙古語和漢語進(jìn)行預(yù)處理,然后通過KenLM框架預(yù)訓(xùn)練語言模型,使用Nematus框架預(yù)訓(xùn)練翻譯模型,最后利用隨機(jī)梯度下降算法進(jìn)行對(duì)偶學(xué)習(xí)的西里爾蒙漢機(jī)器翻譯模型的訓(xùn)練以提高譯文的質(zhì)量。將端到端的神經(jīng)機(jī)器翻譯作為基線系統(tǒng),利用BLEU值作為譯文的評(píng)價(jià)指標(biāo)。

    1 相關(guān)技術(shù)

    1.1 編碼器解碼器架構(gòu)

    端到端的神經(jīng)機(jī)器翻譯框架已經(jīng)成為神經(jīng)機(jī)器翻譯中非常經(jīng)典的框架,其包括編碼器和解碼器,所以也叫作編碼器解碼器框架(Encoder-Decoder),其結(jié)構(gòu)如圖1所示。

    圖1 編碼器解碼器架構(gòu)圖

    該模型的基本思想是:當(dāng)給定一個(gè)源語言句子時(shí),編碼器會(huì)將其編碼為維數(shù)固定的向量,解碼器根據(jù)此向量將其轉(zhuǎn)化為目標(biāo)語言句子。其中,編碼器和解碼器都可以使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)來實(shí)現(xiàn),但是通常使用的是長短期記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)。LSTM網(wǎng)絡(luò)也是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種。因?yàn)镽NN容易出現(xiàn)梯度消失的現(xiàn)象,而LSTM可以有效地避免這個(gè)問題。

    (1) 編碼器。編碼器中的LSTM網(wǎng)絡(luò)將輸入的源語言句子x=(x1,x2,…,xI)進(jìn)行編碼,用在西里爾蒙古語和漢語的翻譯中就是將西里爾蒙古語句子進(jìn)行編碼,并計(jì)算出隱層狀態(tài)(h1,h2,…,hI)。在計(jì)算隱層狀態(tài)時(shí),LSTM的輸入門、遺忘門和輸出門,分別用:ii、fi和Oj表示,其結(jié)構(gòu)如圖2所示。

    圖2 LSTM隱藏層結(jié)構(gòu)圖

    首先通過遺忘門決定什么信息可以通過單元狀態(tài),然后由輸入門決定需要更新的信息,最后由輸出門決定模型的輸出。隱藏層狀態(tài)hi的計(jì)算如下所示:

    (1)

    式中:sigmod和tanh為非線性激活函數(shù),W表示參數(shù)矩陣,b表示偏置,xi表示i時(shí)刻輸入的句子,hi-1表示i-1時(shí)刻的隱藏層狀態(tài)。

    隱藏層狀態(tài)是整個(gè)句子的壓縮表示,包含了整個(gè)句子的語義信息,此時(shí),編碼器的編碼過程結(jié)束。

    (2) 解碼器。解碼器同樣使用LSTM網(wǎng)絡(luò)來實(shí)現(xiàn)。在給定源語言句子x和目標(biāo)語言(y1,y2,…,yi-1)的條件下,解碼器根據(jù)隱藏狀態(tài)來估計(jì)當(dāng)前的目標(biāo)詞yi是由哪個(gè)源語言詞產(chǎn)生,即挑選出與目標(biāo)詞最為匹配的源語言詞。具體地,通過比較每個(gè)源語言詞可能產(chǎn)生該目標(biāo)詞的概率,然后挑出概率最大的,計(jì)算概率的公式如式(2)所示。同樣的方法依次生成目標(biāo)語言中的每一個(gè)字。

    p(yi|y1,y2,…,yi-1,X)=g(yi-1,si,ci)

    (2)

    si=f(si-1,yi,ci)

    (3)

    式中:上下文向量ci依賴編碼器編碼所得到的隱層狀態(tài)(h1,h2,…,hI),通過每個(gè)隱層狀態(tài)的加權(quán)平均得到上下文向量ci,計(jì)算過程如下所示:

    (4)

    hi到ci的權(quán)重aij的計(jì)算式為:

    (5)

    eij的計(jì)算式為:

    eij=a(si-1,hj)

    (6)

    1.2 分詞方法

    分詞是將句子以單詞或者詞根切分開并通過空格隔開的過程,是進(jìn)行自然語言處理任務(wù)首要且必不可少的操作。比較流行的分詞方法有基于詞典的分詞和基于統(tǒng)計(jì)的分詞方法。但這兩種分詞方法并不是最好的,各有各的優(yōu)缺點(diǎn)。基于詞典的分詞方法由于詞典大小的限制,很難做到覆蓋所有的詞,所以在分詞時(shí)通常會(huì)產(chǎn)生歧義。比如:“夏洛特?zé)馈保@個(gè)句子可以分成“夏洛特/煩惱”,也可以分成“夏洛/特?zé)馈保@然這兩個(gè)句子的意思大體一樣,但是由于分詞的原因會(huì)產(chǎn)生細(xì)微的差別。如果詞典里有“夏洛特”這個(gè)名詞的話,就會(huì)切分得比較好,反而如果詞典里沒有這個(gè)名詞的話,切分后的句子就會(huì)和原來的句子產(chǎn)生一定的差異。統(tǒng)計(jì)的方法容易帶來最少切分問題。

    (1) Jieba分詞。Jieba分詞結(jié)合了前面兩種分詞方法,首先對(duì)前綴詞進(jìn)行掃面,前綴詞是指詞典中的詞按照前綴包含的順序排列,例如:詞典中有“北”這個(gè)詞,后面以“北”開頭的像“北京”、“北京市”等詞就都會(huì)出現(xiàn),形成一種層級(jí)包含的結(jié)構(gòu)。假如將詞看成節(jié)點(diǎn),詞與詞之間的分詞符看作了邊,那分詞方案就會(huì)對(duì)應(yīng)著從第一個(gè)字到最后一個(gè)字的一條分詞的路徑。所以,基于前綴的分詞可以快速構(gòu)建包含全部有可能分詞結(jié)果的有向無環(huán)圖,而且這個(gè)圖中包含多條分詞的路徑。有向指的是全部的路徑都始于第一個(gè)字并且止于最后一個(gè)字,無環(huán)指的是節(jié)點(diǎn)之間不構(gòu)成閉環(huán)。標(biāo)注了的語料,可以使用動(dòng)態(tài)規(guī)劃的方法找出最大概率的路徑并將其作為最終的分詞結(jié)果。

    (2) BPE技術(shù)。BPE技術(shù)是2016年Sennrich等首次提出的對(duì)句子進(jìn)行不同粒度切分的方法,該方法的提出是為了有效緩解機(jī)器翻譯過程中的未登錄詞現(xiàn)象。在訓(xùn)練機(jī)器翻譯模型時(shí),為了節(jié)省資源經(jīng)常將詞典設(shè)置得比較小且詞典一般都不是來自自身的訓(xùn)練集,這樣就導(dǎo)致了未登錄詞大量出現(xiàn)。

    而BPE技術(shù)會(huì)首先將需要預(yù)處理的語料以最小的單元切分開,針對(duì)不同的語言,最小的單元也不同,對(duì)于西里爾蒙古語而言最小的單元就是西里爾蒙古文字母,對(duì)于漢語而言最小單元就是一個(gè)漢字。然后會(huì)對(duì)語料中所有相鄰的最小單元組合出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì)并且排序,找出出現(xiàn)頻率最高的組合,并將這些組合加入到詞典中同時(shí)刪除掉詞典中頻率最低的詞使詞典的大小保持不變。循環(huán)上面的過程,直到詞典里的詞在自身語料庫中出現(xiàn)的頻率都是較高的。例如,起初詞典里有“我們”這個(gè)詞,如果在遇到“我們的”這個(gè)詞時(shí),機(jī)器根本翻譯不出來,但是經(jīng)過BPE技術(shù)的處理后,有可能發(fā)現(xiàn)“我們的”這個(gè)詞出現(xiàn)的概率更高,所以就將“我們的”這個(gè)詞加入到詞典中去替換掉出現(xiàn)頻率最低的詞。

    本文首先使用BPE技術(shù)對(duì)通過網(wǎng)絡(luò)爬蟲爬取的84 835句對(duì)西里爾蒙漢平行語料中的西里爾蒙古文和67 288句西里爾蒙文單語數(shù)據(jù)進(jìn)行處理。得到的處理后的結(jié)果如圖3所示。

    圖3 經(jīng)過BPE技術(shù)處理的西里爾蒙文

    然后將經(jīng)過Jieba分詞處理的84 835句對(duì)西里爾蒙漢平行語料中的漢語和67 288句漢語單語數(shù)據(jù)進(jìn)行處理。得到的分詞結(jié)果如圖4所示。

    圖4 經(jīng)過Jieba分詞和BPE技術(shù)處理的漢語

    1.3 對(duì)偶學(xué)習(xí)

    雖然端到端的神經(jīng)機(jī)器翻譯方法近年來已經(jīng)取得了顯著的效果,但是該系統(tǒng)僅依靠平行語料庫進(jìn)行參數(shù)估計(jì)。由于小語種的語料通常不管是在數(shù)量、質(zhì)量還是覆蓋范圍上都受到很大的限制,所以如何利用單語數(shù)據(jù)來有效緩解因平行語料庫匱乏導(dǎo)致的譯文質(zhì)量不高的問題已經(jīng)被提到日程上了。

    文獻(xiàn)[20]提出了對(duì)偶學(xué)習(xí)機(jī)制,在這個(gè)機(jī)制中,單語數(shù)據(jù)與平行雙語數(shù)據(jù)扮演者相似的角色,在訓(xùn)練過程中,可以顯著降低對(duì)平行數(shù)據(jù)的要求。

    對(duì)偶學(xué)習(xí)的基本思想是:以西里爾蒙文和漢語之間的翻譯為例,假如西里爾蒙文用字母A表示,漢語用字母B表示。首先使用較少的西里爾蒙漢平行語料訓(xùn)練A到B和B到A的翻譯模型,將這兩個(gè)模型作為初始模型,互為對(duì)偶任務(wù)。盡管A和B之間的平行語料庫較少,但是很有可能找到大量的A和B的單語語料,把A語言的單語句子a先通過A到B的翻譯模型翻譯成b′,再通過B到A的翻譯模型將b′翻譯回A語言中的句子a′,最后通過對(duì)偶學(xué)習(xí)方法訓(xùn)練模型的參數(shù)以減小a和a′之間的差異。同樣的方法可以減小b與b′之間的差異。該過程可以通過圖5得到更深刻的理解。

    圖5 西里爾蒙古語與漢語互異的對(duì)偶學(xué)習(xí)

    圖5中男機(jī)器人只懂西里爾蒙古語,女機(jī)器人只懂漢語,首先男機(jī)器人通過噪聲信道發(fā)一句西里爾蒙古語給女機(jī)器人,噪聲信道通過翻譯模型將西里爾蒙古語翻譯成漢語,女機(jī)器人接收到這句漢語之后首先檢查這個(gè)句子,但她無法確認(rèn)這個(gè)翻譯是否正確。然后她通過另外一個(gè)噪聲信道使用另外一個(gè)翻譯模型將接收到的漢語句子翻譯成西里爾蒙文發(fā)送給男機(jī)器人,接收到此西里爾蒙文之后,男機(jī)器人會(huì)檢查該西里爾蒙文句子并通知女機(jī)器人她接收的信息是否包含了他原來的意思。通過這樣的反饋過程,兩個(gè)機(jī)器人就可以知道這兩個(gè)通信信道也就是兩個(gè)翻譯模型表現(xiàn)得是否良好以及能否提高它們的效果。同樣,這個(gè)通話過程也可以從第二個(gè)機(jī)器人開始。

    通過上面的例子發(fā)現(xiàn),盡管沒有平行語料庫,仍然能夠通過兩個(gè)翻譯模型的相互反饋得到質(zhì)量比較好的翻譯模型。

    2 實(shí) 驗(yàn)

    2.1 環(huán)境配置和實(shí)驗(yàn)流程

    本文的實(shí)驗(yàn)數(shù)據(jù)分為兩個(gè)部分,第一部分是通過網(wǎng)絡(luò)爬蟲在TED網(wǎng)站上爬取的84 835句西里爾蒙漢對(duì)齊語料,第二部分是由內(nèi)蒙古大學(xué)構(gòu)建的67 288句漢語單語數(shù)據(jù)和通過谷歌翻譯將這67 288句漢語數(shù)據(jù)翻譯成的西里爾蒙古語單語數(shù)據(jù)組成而成。其中,在訓(xùn)練兩個(gè)語言模型時(shí)分別使用的67 288句西里爾蒙文單語數(shù)據(jù)和漢語單語數(shù)據(jù);在訓(xùn)練預(yù)翻譯模型時(shí),使用大約20%的(24 835句)西里爾蒙漢對(duì)齊語料。對(duì)24 835句平行語料的劃分如表1所示。

    表1 數(shù)據(jù)集劃分表

    本文首先對(duì)語料庫進(jìn)行了分詞預(yù)處理和劃分,接著需要訓(xùn)練兩個(gè)語言模型和一個(gè)翻譯模型,最后通過隨機(jī)梯度下降算法訓(xùn)練得到基于對(duì)偶學(xué)習(xí)的西里爾蒙漢機(jī)器翻譯模型。本文的整體框架圖如圖6所示。

    圖6 整體框架圖

    圖6中:第一部分分別為西里爾蒙古語和漢語單語語料的預(yù)處理過程,得到了預(yù)處理后的單語語料;第二部分分別使用西里爾蒙古語和漢語單語數(shù)據(jù)訓(xùn)練語言模型;第三部分首先從TED網(wǎng)站上爬取的西里爾蒙漢對(duì)齊語料進(jìn)行預(yù)處理,然后進(jìn)行翻譯模型的預(yù)訓(xùn)練;第四部分通過使用隨機(jī)梯度下降算法進(jìn)行對(duì)偶學(xué)習(xí)的翻譯模型訓(xùn)練。

    2.2 預(yù)訓(xùn)練語言模型

    語言模型是利用統(tǒng)計(jì)的方法描述自然語言內(nèi)在的規(guī)律,簡單地說,語言模型是用來計(jì)算一個(gè)句子出現(xiàn)概率的模型。常用的語言模型訓(xùn)練工具有:SRILM、IRSTLM、BerkeyLM和KenLM等。這幾種所用的算法思想是基本一致的,只是在實(shí)現(xiàn)時(shí)有細(xì)微的不同。KenLM模型是在文獻(xiàn)[21]中提到的,該模型的兼容性特別好。因此,本文使用了KenLM作為語言模型的訓(xùn)練工具。

    將預(yù)處理好的67 288句漢語單語數(shù)據(jù)和西里爾蒙古語單語數(shù)據(jù)通過KenLM模型進(jìn)行訓(xùn)練分別得到漢語語言模型和西里爾蒙古語語言模型,并且將其分別保存在文件名為zh.zip和mn.zip的壓縮文件中。為通過對(duì)偶學(xué)習(xí)方法訓(xùn)練翻譯模型做好準(zhǔn)備工作。

    2.3 預(yù)訓(xùn)練翻譯模型

    近年來,基于神經(jīng)網(wǎng)絡(luò)的翻譯框架越來越多,Nematus是英國愛丁堡大學(xué)自然語言處理小組開發(fā)的一款基于thano的開源神經(jīng)機(jī)器翻譯系統(tǒng),具體為基于注意力機(jī)制的編碼器解碼器模型,在學(xué)術(shù)界具有一定的影響力。因此,本文使用Nematus框架預(yù)訓(xùn)練翻譯模型。將預(yù)處理好的24 835句西里爾蒙漢對(duì)齊語料通過Nematus框架進(jìn)行預(yù)訓(xùn)練得到的西里爾蒙漢預(yù)翻譯模型存儲(chǔ)在前綴為model.mm2zh.npz的文件中,其中第180輪也就是最后一輪得到的預(yù)翻譯模型如圖7所示。

    圖7 mn2zh翻譯模型

    得到的中文到西里爾蒙文的預(yù)翻譯模型存儲(chǔ)在前綴為model.zh2mn.npz的文件中,其中第180輪也就是最后一輪得到的預(yù)翻譯模型如圖8所示。

    圖8 zh2mn翻譯模型

    本文將BLEU值作為譯文質(zhì)量的衡量指標(biāo),訓(xùn)練了180個(gè)epoch時(shí)得到如表2所示的實(shí)驗(yàn)結(jié)果。

    表2 預(yù)翻譯模型的BLEU值

    由表2可知,第157輪得到的翻譯模型的BLEU值最高并且BLEU值呈現(xiàn)波動(dòng)上升趨勢。

    2.4 訓(xùn)練翻譯模型

    將預(yù)訓(xùn)練的語言模型和翻譯模型作為對(duì)偶學(xué)習(xí)模型訓(xùn)練的初始模型,西里爾蒙古文詞典大小為4 536個(gè)詞,漢語詞典大小為9 168個(gè)詞,LSTM編碼器和解碼器的詞向量維度設(shè)定為500維,Dropout設(shè)定為0.2,初始學(xué)習(xí)率設(shè)定為0.000 1,迭代20輪。分別得到西里爾蒙古語到漢語和漢語到西里爾蒙古語的對(duì)偶學(xué)習(xí)翻譯模型,對(duì)每輪得到的西里爾蒙漢翻譯模型進(jìn)行測試,圖9和圖10分別為第一輪和第二十輪的測試結(jié)果。

    圖9 第一輪測試結(jié)果

    圖10 第二十輪測試結(jié)果

    同樣,對(duì)每輪得到的漢語到西里爾蒙古語翻譯模型進(jìn)行測試,圖11和圖12分別為第一輪和第二十輪的測試結(jié)果。

    圖11 第一輪測試結(jié)果

    圖12 第二十輪測試結(jié)果

    通過圖9-圖12可以看出,在翻譯模型訓(xùn)練的初期,也就是第一輪,由于模型還沒有學(xué)習(xí)到很好的參數(shù),所以譯文的流利度不高,語句表達(dá)得也不太清楚,而隨著訓(xùn)練的繼續(xù)進(jìn)行,翻譯模型逐漸學(xué)習(xí)到了能夠比較明確表示語句之間關(guān)系的參數(shù)信息,到第14輪時(shí),譯文的質(zhì)量和流利度都有了一定的提升。表3給出了20輪的BLEU值。

    表3 翻譯模型的BLEU值

    通過表3可以看出,對(duì)偶學(xué)習(xí)訓(xùn)練方法有效提高了預(yù)訓(xùn)練模型的質(zhì)量。

    使用所有的平行數(shù)據(jù)集(84 835句對(duì))分別進(jìn)行了OpenNMT(語料沒有經(jīng)過BPE處理)、Nematus(語料進(jìn)行了BPE處理)和對(duì)偶學(xué)習(xí)的西里爾蒙漢互譯模型的訓(xùn)練。使用20%的平行數(shù)據(jù)集(24 835句對(duì))分別進(jìn)行了OpenNMT、Nematus和對(duì)偶學(xué)習(xí)的西里爾蒙漢互譯模型的訓(xùn)練。得到如表4所示的對(duì)比結(jié)果。

    表4 對(duì)比實(shí)驗(yàn)的BLEU值

    在西里爾蒙古語到漢語的OpenNMT和Nematus模型的互譯中,數(shù)據(jù)集的大小對(duì)翻譯效果的影響較大,而在基于對(duì)偶學(xué)習(xí)的神經(jīng)機(jī)器翻譯中,數(shù)據(jù)集的大小對(duì)翻譯效果的影響明顯減小了。

    2.5 實(shí)驗(yàn)結(jié)果分析

    表4的數(shù)據(jù)表明,基于對(duì)偶學(xué)習(xí)的西里爾蒙漢機(jī)器翻譯的效果遠(yuǎn)遠(yuǎn)超過了傳統(tǒng)的基于端到端的神經(jīng)機(jī)器翻譯模型,尤其是在平行語料庫的規(guī)模比較小的時(shí)候、有效地證明了所提出的基于對(duì)偶學(xué)習(xí)的西里爾蒙漢互譯方法的優(yōu)越性。針對(duì)只有24 835句平行語料訓(xùn)練出的6個(gè)翻譯模型,進(jìn)行了系統(tǒng)測試集的翻譯譯文的示例對(duì)比,如表5所示。

    表5 機(jī)器翻譯譯文示例對(duì)比

    通過表5可以看出,OpenNMT翻譯出來的句子語義表達(dá)得不夠清楚,并且伴有未登錄詞的出現(xiàn);Nematus翻譯出來的句子語義表達(dá)得也不夠清楚,但是未登錄詞明顯較少了;基于對(duì)偶學(xué)習(xí)的神經(jīng)機(jī)器翻譯生成的譯文不僅語義表達(dá)相對(duì)清楚而且也克服了未登錄詞現(xiàn)象的產(chǎn)生,有效提高了譯文的質(zhì)量。

    3 結(jié) 語

    大語種之間的機(jī)器翻譯已經(jīng)相對(duì)比較成熟,西里爾蒙古語與漢語之間由于平行語料庫的匱乏其效果一直不盡人意。為了緩解數(shù)據(jù)稀疏問題,本文進(jìn)行了基于對(duì)偶學(xué)習(xí)的西里爾蒙漢機(jī)器翻譯的研究,通過實(shí)驗(yàn)驗(yàn)證了在較少的數(shù)據(jù)集上基于對(duì)偶學(xué)習(xí)的神經(jīng)機(jī)器翻譯模型比傳統(tǒng)的神經(jīng)機(jī)器翻譯的譯文質(zhì)量有很大的提升。針對(duì)譯文中的未登錄詞現(xiàn)象,本文采用了BPE技術(shù),提高了西里爾蒙漢機(jī)器翻譯譯文的質(zhì)量。但是本文通過網(wǎng)絡(luò)爬蟲爬取的語料畢竟有限,如果語料庫的規(guī)模能夠再大一些,理論上譯文的質(zhì)量會(huì)得到更進(jìn)一步的提升。因此,接下來的工作將力爭收集大量高質(zhì)量的平行語料庫,并且試圖將其他更有效的方法應(yīng)用在西里爾蒙漢機(jī)器翻譯中。

    猜你喜歡
    蒙漢對(duì)偶分詞
    結(jié)巴分詞在詞云中的應(yīng)用
    《內(nèi)蒙古藝術(shù)》(蒙漢刊)首屆作者培訓(xùn)班掠影
    簡論蒙漢蛇文化比較研究
    淺析關(guān)于蒙漢章回小說的結(jié)構(gòu)
    值得重視的分詞的特殊用法
    清代歸化城土默特地區(qū)的草廠糾紛與蒙漢關(guān)系
    對(duì)偶平行體與對(duì)偶Steiner點(diǎn)
    對(duì)偶均值積分的Marcus-Lopes不等式
    對(duì)偶Brunn-Minkowski不等式的逆
    高考分詞作狀語考點(diǎn)歸納與疑難解析
    午夜福利在线在线| 一本精品99久久精品77| 少妇熟女aⅴ在线视频| 欧美+亚洲+日韩+国产| 最新在线观看一区二区三区| 亚洲中文日韩欧美视频| 国产av在哪里看| 国产成人福利小说| 成人av在线播放网站| 日本一本二区三区精品| 永久网站在线| 色哟哟·www| 亚洲四区av| 天堂影院成人在线观看| 国语自产精品视频在线第100页| 亚洲精品日韩av片在线观看| 欧美激情在线99| 国产69精品久久久久777片| 欧美潮喷喷水| 国产精品一区二区性色av| 久久中文看片网| 夜夜爽天天搞| 日本熟妇午夜| 国产 一区精品| 国产一区二区三区在线臀色熟女| 国产日本99.免费观看| 亚洲av中文字字幕乱码综合| 国产男靠女视频免费网站| 亚洲av日韩精品久久久久久密| 国产真实乱freesex| av在线老鸭窝| 老熟妇仑乱视频hdxx| 欧美精品国产亚洲| 非洲黑人性xxxx精品又粗又长| 国产成人a区在线观看| 国产老妇女一区| 精品一区二区免费观看| 嫁个100分男人电影在线观看| 亚洲人成网站在线播| 亚洲va日本ⅴa欧美va伊人久久| 色在线成人网| 狠狠狠狠99中文字幕| 一级av片app| 国产精品99久久久久久久久| 久久精品夜夜夜夜夜久久蜜豆| 亚洲七黄色美女视频| 欧美3d第一页| 黄色一级大片看看| 99久久中文字幕三级久久日本| 亚洲精品久久国产高清桃花| 精品久久久久久久久久免费视频| 国产爱豆传媒在线观看| 久久久久久大精品| 欧美丝袜亚洲另类 | 琪琪午夜伦伦电影理论片6080| 亚洲国产色片| 日韩在线高清观看一区二区三区 | 18禁裸乳无遮挡免费网站照片| 久久久久精品国产欧美久久久| 三级男女做爰猛烈吃奶摸视频| 婷婷六月久久综合丁香| 午夜福利视频1000在线观看| 国产在线男女| 久久国产乱子免费精品| 欧美黑人巨大hd| 校园春色视频在线观看| 国产精品亚洲一级av第二区| 亚洲国产欧洲综合997久久,| 简卡轻食公司| 国产精品野战在线观看| 亚洲真实伦在线观看| 俄罗斯特黄特色一大片| 亚洲男人的天堂狠狠| 婷婷精品国产亚洲av| 搡女人真爽免费视频火全软件 | 欧美色视频一区免费| 亚洲人成网站高清观看| 国产女主播在线喷水免费视频网站 | 亚洲成人免费电影在线观看| 88av欧美| 久99久视频精品免费| 欧美最黄视频在线播放免费| 日本五十路高清| 乱人视频在线观看| 99热这里只有是精品在线观看| 免费av观看视频| 一区二区三区高清视频在线| 床上黄色一级片| 1024手机看黄色片| 久久久久久久久中文| 亚洲精品亚洲一区二区| 深爱激情五月婷婷| 如何舔出高潮| 欧美激情久久久久久爽电影| 99热网站在线观看| 1024手机看黄色片| 欧美潮喷喷水| 大型黄色视频在线免费观看| 欧美性猛交╳xxx乱大交人| 夜夜夜夜夜久久久久| 中文资源天堂在线| 男女下面进入的视频免费午夜| 一区二区三区四区激情视频 | 狂野欧美白嫩少妇大欣赏| 九色国产91popny在线| 中文亚洲av片在线观看爽| 日本 av在线| 中亚洲国语对白在线视频| 伦精品一区二区三区| 亚洲精品日韩av片在线观看| 国产成人影院久久av| 精品久久久久久久久久免费视频| 亚洲av中文av极速乱 | 国产精品一区二区三区四区免费观看 | 久久精品国产清高在天天线| 久久久久国内视频| 一级av片app| 国产成人av教育| 干丝袜人妻中文字幕| 国产69精品久久久久777片| 国产 一区 欧美 日韩| 不卡视频在线观看欧美| 欧美又色又爽又黄视频| 最新中文字幕久久久久| 有码 亚洲区| 性插视频无遮挡在线免费观看| 很黄的视频免费| 国产成人a区在线观看| 日韩精品中文字幕看吧| 97碰自拍视频| 国产私拍福利视频在线观看| 深爱激情五月婷婷| 欧美xxxx性猛交bbbb| 特大巨黑吊av在线直播| a级一级毛片免费在线观看| 亚洲第一区二区三区不卡| 国产蜜桃级精品一区二区三区| 18禁裸乳无遮挡免费网站照片| 99热这里只有是精品50| 国产真实伦视频高清在线观看 | 在线播放无遮挡| 美女免费视频网站| 日本一二三区视频观看| 国产亚洲精品综合一区在线观看| eeuss影院久久| 亚洲av熟女| 乱码一卡2卡4卡精品| 91久久精品电影网| 最近中文字幕高清免费大全6 | 国产午夜精品久久久久久一区二区三区 | 91麻豆精品激情在线观看国产| 国产精品嫩草影院av在线观看 | 一进一出好大好爽视频| 简卡轻食公司| 亚洲,欧美,日韩| 精品人妻1区二区| 综合色av麻豆| 很黄的视频免费| 国产伦精品一区二区三区四那| 99久久久亚洲精品蜜臀av| 色噜噜av男人的天堂激情| 精品乱码久久久久久99久播| 亚洲欧美日韩卡通动漫| 久久久久性生活片| 亚洲在线观看片| 国产精品亚洲一级av第二区| 色噜噜av男人的天堂激情| 国产免费男女视频| 国产精品亚洲一级av第二区| 黄片wwwwww| 听说在线观看完整版免费高清| 可以在线观看的亚洲视频| 看黄色毛片网站| 国产av在哪里看| 长腿黑丝高跟| 成年人黄色毛片网站| 一卡2卡三卡四卡精品乱码亚洲| 亚洲欧美日韩高清在线视频| av天堂中文字幕网| 成人三级黄色视频| 听说在线观看完整版免费高清| 成人性生交大片免费视频hd| 亚洲天堂国产精品一区在线| 国内精品一区二区在线观看| 免费看a级黄色片| 色综合站精品国产| 麻豆国产av国片精品| 亚洲人成网站高清观看| 在线免费十八禁| 午夜福利成人在线免费观看| 国产激情偷乱视频一区二区| 国产精品98久久久久久宅男小说| 国产一区二区在线观看日韩| 听说在线观看完整版免费高清| 无人区码免费观看不卡| 99久久精品一区二区三区| 91久久精品电影网| 变态另类丝袜制服| 男人的好看免费观看在线视频| 亚洲精品456在线播放app | 亚洲精品成人久久久久久| 18禁在线播放成人免费| 精品无人区乱码1区二区| 亚洲在线自拍视频| 亚洲国产高清在线一区二区三| 国产伦精品一区二区三区视频9| 亚洲七黄色美女视频| 免费看日本二区| 中文字幕av在线有码专区| 国产爱豆传媒在线观看| 少妇的逼好多水| 简卡轻食公司| 欧美精品啪啪一区二区三区| 午夜a级毛片| 我要看日韩黄色一级片| 91午夜精品亚洲一区二区三区 | 我要看日韩黄色一级片| 日韩 亚洲 欧美在线| 国产探花在线观看一区二区| 国产伦在线观看视频一区| 欧美日韩精品成人综合77777| 久久6这里有精品| 99久国产av精品| 尾随美女入室| 国产精品福利在线免费观看| 欧美激情在线99| 校园春色视频在线观看| 又紧又爽又黄一区二区| 在线观看av片永久免费下载| 99九九线精品视频在线观看视频| 色视频www国产| 亚洲av二区三区四区| 亚洲国产欧洲综合997久久,| 97超级碰碰碰精品色视频在线观看| 久久久久国产精品人妻aⅴ院| 香蕉av资源在线| 久久午夜亚洲精品久久| 赤兔流量卡办理| 18禁黄网站禁片免费观看直播| 中亚洲国语对白在线视频| 中文字幕久久专区| 97碰自拍视频| 亚洲七黄色美女视频| 亚洲不卡免费看| 女同久久另类99精品国产91| 久久精品影院6| 亚洲一区高清亚洲精品| 两性午夜刺激爽爽歪歪视频在线观看| 亚洲 国产 在线| 免费看美女性在线毛片视频| 免费看av在线观看网站| 在线观看舔阴道视频| 精品人妻1区二区| 亚洲最大成人av| 很黄的视频免费| 搡老熟女国产l中国老女人| 97碰自拍视频| 久久久久久久午夜电影| 中文字幕精品亚洲无线码一区| 看黄色毛片网站| 亚洲 国产 在线| 淫秽高清视频在线观看| 在线看三级毛片| h日本视频在线播放| 长腿黑丝高跟| 99热这里只有是精品在线观看| 国产白丝娇喘喷水9色精品| 99久久中文字幕三级久久日本| 狂野欧美白嫩少妇大欣赏| 搞女人的毛片| 国产精品久久久久久精品电影| 久久久色成人| 尾随美女入室| 丰满的人妻完整版| 性色avwww在线观看| 免费在线观看日本一区| 日韩人妻高清精品专区| 亚洲av第一区精品v没综合| 乱码一卡2卡4卡精品| 神马国产精品三级电影在线观看| 少妇猛男粗大的猛烈进出视频 | 黄色丝袜av网址大全| 亚洲人成网站高清观看| 亚洲一区二区三区色噜噜| 午夜a级毛片| videossex国产| 老女人水多毛片| 国产爱豆传媒在线观看| 免费看美女性在线毛片视频| 欧美成人免费av一区二区三区| 日韩精品中文字幕看吧| 欧美黑人欧美精品刺激| 精品无人区乱码1区二区| 国产高清三级在线| 午夜福利高清视频| 女人十人毛片免费观看3o分钟| 国产又黄又爽又无遮挡在线| 国产高清视频在线播放一区| 亚洲性夜色夜夜综合| 男人狂女人下面高潮的视频| 特级一级黄色大片| 日韩精品有码人妻一区| 啪啪无遮挡十八禁网站| 精品午夜福利视频在线观看一区| 男人和女人高潮做爰伦理| 联通29元200g的流量卡| 国产高清视频在线播放一区| 免费av毛片视频| 三级毛片av免费| av在线老鸭窝| 久久久午夜欧美精品| 女人十人毛片免费观看3o分钟| 久久久精品大字幕| 久久精品人妻少妇| 欧美成人一区二区免费高清观看| 午夜视频国产福利| 欧美bdsm另类| 能在线免费观看的黄片| 国语自产精品视频在线第100页| 夜夜爽天天搞| 级片在线观看| 色在线成人网| 欧美xxxx黑人xx丫x性爽| 中文在线观看免费www的网站| 22中文网久久字幕| 少妇猛男粗大的猛烈进出视频 | 亚洲中文日韩欧美视频| 久久热精品热| 久久久久久久精品吃奶| 午夜精品一区二区三区免费看| 午夜免费成人在线视频| 欧美日韩亚洲国产一区二区在线观看| 亚洲av五月六月丁香网| 色综合站精品国产| 日本在线视频免费播放| 婷婷精品国产亚洲av在线| 久久久久国内视频| 美女 人体艺术 gogo| 伊人久久精品亚洲午夜| 美女高潮喷水抽搐中文字幕| 无人区码免费观看不卡| 国产黄片美女视频| 哪里可以看免费的av片| 高清在线国产一区| 日韩欧美精品v在线| 国模一区二区三区四区视频| 亚洲天堂国产精品一区在线| 一个人免费在线观看电影| 1024手机看黄色片| 亚洲av中文字字幕乱码综合| 丰满的人妻完整版| 国产淫片久久久久久久久| 日韩精品中文字幕看吧| 亚洲国产欧美人成| 精品日产1卡2卡| 91午夜精品亚洲一区二区三区 | 日韩在线高清观看一区二区三区 | 真人一进一出gif抽搐免费| 国产探花极品一区二区| 美女黄网站色视频| 国产真实乱freesex| 亚洲成人免费电影在线观看| 香蕉av资源在线| 91麻豆av在线| 亚洲精品亚洲一区二区| 免费观看的影片在线观看| av在线亚洲专区| 搡老岳熟女国产| eeuss影院久久| 熟女人妻精品中文字幕| 中文字幕av在线有码专区| 乱码一卡2卡4卡精品| 在线观看av片永久免费下载| 午夜亚洲福利在线播放| 内地一区二区视频在线| 1000部很黄的大片| 黄色视频,在线免费观看| 欧美中文日本在线观看视频| 动漫黄色视频在线观看| 亚洲国产欧美人成| 在线播放国产精品三级| 无遮挡黄片免费观看| 久久久色成人| 免费看光身美女| 精品乱码久久久久久99久播| 麻豆精品久久久久久蜜桃| 女同久久另类99精品国产91| 一区二区三区四区激情视频 | 人妻夜夜爽99麻豆av| 亚洲av二区三区四区| 欧美日韩中文字幕国产精品一区二区三区| 亚洲国产精品久久男人天堂| 99久久久亚洲精品蜜臀av| 久久亚洲真实| 亚洲三级黄色毛片| 亚洲av二区三区四区| 精品一区二区三区av网在线观看| 永久网站在线| 嫩草影院精品99| 国产大屁股一区二区在线视频| 99国产极品粉嫩在线观看| 在线观看午夜福利视频| 在线播放无遮挡| 一进一出好大好爽视频| 日本撒尿小便嘘嘘汇集6| 全区人妻精品视频| 69人妻影院| 日韩在线高清观看一区二区三区 | 国产精品自产拍在线观看55亚洲| 真人做人爱边吃奶动态| 美女xxoo啪啪120秒动态图| 小蜜桃在线观看免费完整版高清| 美女黄网站色视频| 精品99又大又爽又粗少妇毛片 | 午夜精品在线福利| 可以在线观看毛片的网站| 欧美日韩精品成人综合77777| 久9热在线精品视频| 又黄又爽又免费观看的视频| 久久久久久大精品| 99久久成人亚洲精品观看| 午夜免费成人在线视频| 18禁裸乳无遮挡免费网站照片| 韩国av一区二区三区四区| 国产午夜精品久久久久久一区二区三区 | 久久久久久久久久成人| 深夜精品福利| 国产精品久久电影中文字幕| 久久欧美精品欧美久久欧美| 美女cb高潮喷水在线观看| 精品福利观看| 免费看美女性在线毛片视频| 亚洲中文日韩欧美视频| 午夜亚洲福利在线播放| 亚洲专区国产一区二区| 国产淫片久久久久久久久| 嫩草影视91久久| 亚洲一区高清亚洲精品| 男女做爰动态图高潮gif福利片| 精品人妻一区二区三区麻豆 | 99九九线精品视频在线观看视频| 婷婷亚洲欧美| 给我免费播放毛片高清在线观看| 一级黄色大片毛片| 久久亚洲真实| 久久精品91蜜桃| 亚洲国产色片| 亚洲真实伦在线观看| 久久草成人影院| 欧美bdsm另类| 欧美国产日韩亚洲一区| 亚洲国产欧洲综合997久久,| 午夜日韩欧美国产| 搡老妇女老女人老熟妇| 白带黄色成豆腐渣| 一本一本综合久久| av在线观看视频网站免费| 99久国产av精品| 久久久成人免费电影| 亚洲在线自拍视频| 亚洲精品国产成人久久av| 特级一级黄色大片| 最近最新免费中文字幕在线| 国产极品精品免费视频能看的| 一进一出抽搐动态| 亚洲国产精品sss在线观看| 亚洲精品乱码久久久v下载方式| 国产精品国产三级国产av玫瑰| 窝窝影院91人妻| 美女xxoo啪啪120秒动态图| 久久精品国产亚洲av涩爱 | 亚洲av成人av| 在线观看舔阴道视频| 亚洲aⅴ乱码一区二区在线播放| 在线观看免费视频日本深夜| 简卡轻食公司| 无遮挡黄片免费观看| 别揉我奶头 嗯啊视频| 波多野结衣高清作品| 欧美高清成人免费视频www| 岛国在线免费视频观看| 午夜福利在线观看免费完整高清在 | 久久亚洲精品不卡| 日韩大尺度精品在线看网址| 我要搜黄色片| 欧美区成人在线视频| 亚洲av免费高清在线观看| 日韩一本色道免费dvd| 国产单亲对白刺激| 高清日韩中文字幕在线| 国产在线男女| av视频在线观看入口| 夜夜看夜夜爽夜夜摸| 中文字幕精品亚洲无线码一区| 国产一区二区在线观看日韩| 国产精品一区二区免费欧美| 我要看日韩黄色一级片| 白带黄色成豆腐渣| 1024手机看黄色片| 亚洲成人精品中文字幕电影| 又爽又黄a免费视频| 国产一区二区在线av高清观看| 搞女人的毛片| 美女cb高潮喷水在线观看| 日韩欧美国产一区二区入口| 亚洲美女搞黄在线观看 | 国产欧美日韩一区二区精品| 国产精品无大码| 99久久成人亚洲精品观看| 色哟哟·www| 特级一级黄色大片| 99久久精品国产国产毛片| av天堂在线播放| 国产久久久一区二区三区| 国产黄a三级三级三级人| 内射极品少妇av片p| 俺也久久电影网| 久久欧美精品欧美久久欧美| 日本三级黄在线观看| 99在线人妻在线中文字幕| 一个人看视频在线观看www免费| 18禁裸乳无遮挡免费网站照片| 男人舔奶头视频| 亚洲美女搞黄在线观看 | 可以在线观看的亚洲视频| 亚洲成人中文字幕在线播放| 成人美女网站在线观看视频| 制服丝袜大香蕉在线| 一区二区三区激情视频| 夜夜夜夜夜久久久久| 91麻豆精品激情在线观看国产| 波多野结衣巨乳人妻| 99久久无色码亚洲精品果冻| 在线观看av片永久免费下载| 亚洲久久久久久中文字幕| 床上黄色一级片| 两性午夜刺激爽爽歪歪视频在线观看| 给我免费播放毛片高清在线观看| 亚洲成人精品中文字幕电影| av在线老鸭窝| 国产黄色小视频在线观看| 亚洲第一区二区三区不卡| 啦啦啦啦在线视频资源| 亚洲18禁久久av| 国产探花极品一区二区| 午夜精品在线福利| 亚洲国产精品sss在线观看| 淫妇啪啪啪对白视频| 精品免费久久久久久久清纯| 精品一区二区三区人妻视频| 国产v大片淫在线免费观看| 十八禁网站免费在线| 日本熟妇午夜| 亚洲国产色片| 日本 av在线| 成人欧美大片| 欧美zozozo另类| 身体一侧抽搐| 成人亚洲精品av一区二区| 色哟哟·www| 国产白丝娇喘喷水9色精品| 午夜爱爱视频在线播放| 搡女人真爽免费视频火全软件 | 日本熟妇午夜| 亚洲国产色片| 少妇丰满av| 真人做人爱边吃奶动态| 性插视频无遮挡在线免费观看| 嫩草影视91久久| 天堂影院成人在线观看| 国内毛片毛片毛片毛片毛片| 亚洲中文字幕一区二区三区有码在线看| 一级av片app| 国产国拍精品亚洲av在线观看| 国产精品国产高清国产av| bbb黄色大片| 99热网站在线观看| 伦精品一区二区三区| 成年人黄色毛片网站| www日本黄色视频网| 国产探花在线观看一区二区| 少妇猛男粗大的猛烈进出视频 | 国产高清不卡午夜福利| 国产视频内射| 精品午夜福利在线看| 黄色配什么色好看| 欧美xxxx性猛交bbbb| 久久久久久久久大av| 亚洲无线观看免费| 1024手机看黄色片| 国产精品av视频在线免费观看| 91在线观看av| 国产免费一级a男人的天堂| 欧美成人一区二区免费高清观看| 亚洲美女黄片视频| 啦啦啦韩国在线观看视频| 岛国在线免费视频观看| 此物有八面人人有两片| 国产精品一区二区免费欧美| 亚洲欧美日韩卡通动漫| 亚洲av中文av极速乱 | 欧美性猛交黑人性爽| 亚洲中文字幕日韩| 成熟少妇高潮喷水视频| 国产精品爽爽va在线观看网站| av.在线天堂| 欧美日韩亚洲国产一区二区在线观看| 亚洲精品国产成人久久av| 免费观看在线日韩| 亚洲久久久久久中文字幕| 国产精品精品国产色婷婷| 1000部很黄的大片| 黄色丝袜av网址大全| 69人妻影院| 久久欧美精品欧美久久欧美|