• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      神經(jīng)機(jī)器翻譯前沿進(jìn)展

      2017-06-23 12:47:28
      關(guān)鍵詞:源語言解碼器編碼器

      劉 洋

      (清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系 北京 100084) (清華信息科學(xué)與技術(shù)國家實(shí)驗(yàn)室(籌) 北京 100084) (智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室(清華大學(xué)) 北京 100084)

      神經(jīng)機(jī)器翻譯前沿進(jìn)展

      劉 洋

      (清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系 北京 100084) (清華信息科學(xué)與技術(shù)國家實(shí)驗(yàn)室(籌) 北京 100084) (智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室(清華大學(xué)) 北京 100084)

      (liuyang2011@tsinghua.edu.cn)

      機(jī)器翻譯研究如何利用計(jì)算機(jī)實(shí)現(xiàn)自然語言之間的自動(dòng)翻譯,是人工智能和自然語言處理領(lǐng)域的重要研究方向之一.近年來,基于深度學(xué)習(xí)的神經(jīng)機(jī)器翻譯方法獲得迅速發(fā)展,目前已取代傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯成為學(xué)術(shù)界和工業(yè)界新的主流方法.首先介紹神經(jīng)機(jī)器翻譯的基本思想和主要方法,然后對最新的前沿進(jìn)展進(jìn)行綜述,最后對神經(jīng)機(jī)器翻譯的未來發(fā)展方向進(jìn)行展望.

      人工智能;深度學(xué)習(xí);神經(jīng)機(jī)器翻譯;編碼器-解碼器架構(gòu);注意力機(jī)制

      機(jī)器翻譯研究如何利用計(jì)算機(jī)實(shí)現(xiàn)自然語言之間的自動(dòng)轉(zhuǎn)換,是人工智能和自然語言處理領(lǐng)域的重要研究方向之一.機(jī)器翻譯作為突破不同國家和民族之間信息傳遞所面臨的“語言屏障”問題的關(guān)鍵技術(shù),對于促進(jìn)民族團(tuán)結(jié)、加強(qiáng)文化交流和推動(dòng)對外貿(mào)易具有重要意義.

      自20世紀(jì)40年代末至今,機(jī)器翻譯研究大體上經(jīng)歷了2個(gè)發(fā)展階段:理性主義方法占主導(dǎo)時(shí)期(1949—1992)和經(jīng)驗(yàn)主義方法占主導(dǎo)時(shí)期(1993—2016).早期的機(jī)器翻譯主要采用理性主義方法,主張由人類專家觀察不同自然語言之間的轉(zhuǎn)換規(guī)律,以規(guī)則形式表示翻譯知識.雖然這類方法能夠在句法和語義等深層次實(shí)現(xiàn)自然語言的分析、轉(zhuǎn)換和生成,卻面臨著翻譯知識獲取難、開發(fā)周期長、人工成本高等困難.

      隨著互聯(lián)網(wǎng)的興起,特別是近年來大數(shù)據(jù)和云計(jì)算的蓬勃發(fā)展,經(jīng)驗(yàn)主義方法在20世紀(jì)90年代以后開始成為機(jī)器翻譯的主流.經(jīng)驗(yàn)主義方法主張以數(shù)據(jù)而不是人為中心,通過數(shù)學(xué)模型描述自然語言的轉(zhuǎn)換過程,在大規(guī)模多語言文本數(shù)據(jù)上自動(dòng)訓(xùn)練數(shù)學(xué)模型.這一類方法的代表是統(tǒng)計(jì)機(jī)器翻譯[1-3],其基本思想是通過隱結(jié)構(gòu)(詞語對齊、短語切分、短語調(diào)序、同步文法等)描述翻譯過程,利用特征刻畫翻譯規(guī)律,并通過特征的局部性采用動(dòng)態(tài)規(guī)劃算法在指數(shù)級的搜索空間中實(shí)現(xiàn)多項(xiàng)式時(shí)間復(fù)雜度的高效翻譯.2006年,Google Translate在線翻譯服務(wù)的推出標(biāo)志著數(shù)據(jù)驅(qū)動(dòng)的統(tǒng)計(jì)機(jī)器翻譯方法成為商業(yè)機(jī)器翻譯系統(tǒng)的主流.盡管如此,統(tǒng)計(jì)機(jī)器翻譯仍面臨著翻譯性能嚴(yán)重依賴于隱結(jié)構(gòu)與特征設(shè)計(jì)、局部特征難以捕獲全局依賴關(guān)系、對數(shù)線性模型難以處理翻譯過程中的線性不可分現(xiàn)象等難題.

      自2014年以來,端到端神經(jīng)機(jī)器翻譯(end-to-end neural machine translation)[4-5]獲得了迅速發(fā)展,相對于統(tǒng)計(jì)機(jī)器翻譯而言在翻譯質(zhì)量上獲得顯著提升.圖1給出了統(tǒng)計(jì)機(jī)器翻譯與神經(jīng)機(jī)器翻譯在30種語言對上的對比實(shí)驗(yàn)結(jié)果[6],神經(jīng)機(jī)器翻譯在其中的27種語言對上超過統(tǒng)計(jì)機(jī)器翻譯.因此,神經(jīng)機(jī)器翻譯已經(jīng)取代統(tǒng)計(jì)機(jī)器翻譯成為Google、微軟、百度、搜狗等商用在線機(jī)器翻譯系統(tǒng)的核心技術(shù).

      Fig. 1 Comparison between statistical machine translation and neural machine translation (NMT) on 30 languages pairs[6]圖1 統(tǒng)計(jì)機(jī)器翻譯(Pb-SMT)與神經(jīng)機(jī)器翻譯(NMT)在30個(gè)語言對上的對比[6]

      1 神經(jīng)機(jī)器翻譯

      端到端神經(jīng)機(jī)器翻譯的基本思想是通過神經(jīng)網(wǎng)絡(luò)直接實(shí)現(xiàn)自然語言之間的自動(dòng)翻譯.為此,神經(jīng)機(jī)器翻譯通常采用編碼器-解碼器(encoder-decoder)框架實(shí)現(xiàn)序列到序列的轉(zhuǎn)換[5].

      以圖2為例,給定一個(gè)中文句子“布什 與 沙龍 舉行 了 會(huì)談”,編碼器-解碼器框架首先為每個(gè)中文詞生成向量表示,然后通過一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network)從左向右生成整個(gè)中文句子的向量表示.其中,“〈/s〉”表示句尾結(jié)束符.我們將源語言端所使用的遞歸神經(jīng)網(wǎng)絡(luò)稱為編碼器,即將源語言句子編碼成一個(gè)稠密、連續(xù)的實(shí)數(shù)向量.

      Fig. 2 The encoder-decoder framework圖2 編碼器-解碼器框架

      此后,目標(biāo)語言端采用另一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)將源語言句子向量反向解碼生成英文句子“Bush held a talk with Shalon 〈/s〉”.整個(gè)解碼過程逐詞生成,當(dāng)生成句尾結(jié)束符“〈/s〉”后,解碼過程終止.我們將目標(biāo)語言端所使用的遞歸神經(jīng)網(wǎng)絡(luò)稱為解碼器.需要注意的是,每一個(gè)新生成的英文詞都作為生成下一個(gè)英文詞的歷史信息.因此,解碼器可以視作包含源語言信息的目標(biāo)語言的語言模型.

      相對于傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯,基于編碼器-解碼器框架的神經(jīng)機(jī)器翻譯具有2個(gè)優(yōu)點(diǎn):

      1) 直接從生數(shù)據(jù)中學(xué)習(xí)特征.統(tǒng)計(jì)機(jī)器翻譯需要人工設(shè)計(jì)定義在隱結(jié)構(gòu)上的特征來刻畫翻譯規(guī)律.由于自然語言的高度復(fù)雜性,如何確保特征設(shè)計(jì)覆蓋全部語言現(xiàn)象成為重要挑戰(zhàn).神經(jīng)網(wǎng)絡(luò)最大的優(yōu)勢在于能夠直接從生數(shù)據(jù)中學(xué)習(xí)特征.研究結(jié)果表明,編碼器-解碼器框架學(xué)習(xí)到的句子向量表示能夠?qū)⒕浞ú煌?、語義相同的句子聚在一起,同時(shí)能夠?qū)⑼ㄟ^調(diào)換主語和賓語產(chǎn)生的句法相同、語義不同的句子區(qū)分開[5].

      2) 能夠捕獲長距離依賴.由于自然語言的復(fù)雜性和多樣性,表達(dá)相同含義,不同語言之間的詞語順序差異性非常大.這種語言結(jié)構(gòu)差異給統(tǒng)計(jì)機(jī)器翻譯帶來了嚴(yán)重的挑戰(zhàn).用戶在使用統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)時(shí),經(jīng)常會(huì)發(fā)現(xiàn)單個(gè)詞語翻譯很準(zhǔn)確,但整體上難以形成合乎語法的句子.這種現(xiàn)象產(chǎn)生的根源在于,統(tǒng)計(jì)機(jī)器翻譯通過隱結(jié)構(gòu)描述翻譯過程,為了在指數(shù)級的隱結(jié)構(gòu)組合空間中實(shí)現(xiàn)高效搜索,不得不采用局部特征來支持動(dòng)態(tài)規(guī)劃算法.除此之外,另一個(gè)重要原因在于考慮更多的上下文信息會(huì)面臨嚴(yán)重的數(shù)據(jù)稀疏問題.神經(jīng)機(jī)器翻譯通過基于長短時(shí)記憶(long short-term memory)的遞歸神經(jīng)網(wǎng)絡(luò)[7]能夠有效捕獲長距離依賴,同時(shí)通過向量表示緩解數(shù)據(jù)稀疏問題,顯著提升了譯文的流利度和可讀性.

      盡管如此,編碼器-解碼器框架仍然面臨一個(gè)嚴(yán)重的問題:編碼器生成的源語言句子向量表示的維度與源語言句子長度無關(guān).換句話說,無論是10個(gè)詞的源語言句子、還是100個(gè)詞的源語言句子,都會(huì)被編碼為固定維度的向量.這對于編碼器處理長距離信息傳遞帶來了極大的挑戰(zhàn).事實(shí)上,即使采用長短時(shí)記憶,編碼器往往還是難以有效處理長距離依賴,在長句上的翻譯質(zhì)量顯著下降[5].

      1.2 注意力機(jī)制

      Fig. 3 Attention-based neural machine translation圖3 基于注意力機(jī)制的神經(jīng)機(jī)器翻譯

      為了解決定長源語言句子向量難以捕獲長距離依賴的問題,文獻(xiàn)[6]引入了注意力(attention)機(jī)制動(dòng)態(tài)計(jì)算源語言端上下文.

      如圖3所示,基于注意力機(jī)制的神經(jīng)機(jī)器翻譯采用了完全不同的編碼器,其目標(biāo)不再是為整個(gè)源語言句子生成向量表示,而是為每個(gè)源語言詞生成包含全局信息的向量表示.該編碼器首先使用一個(gè)正向遞歸神經(jīng)網(wǎng)絡(luò)將信息從左向右傳遞,然后再使用一個(gè)逆向遞歸神經(jīng)網(wǎng)絡(luò)將信息從右向左傳遞,最后將正向和逆向的隱狀態(tài)拼接起來作為源語言詞的向量表示.這種做法的優(yōu)點(diǎn)在于每個(gè)源語言詞的向量表示均包含了其左側(cè)和右側(cè)的上下文信息.

      在目標(biāo)語言端,解碼器在生成每個(gè)目標(biāo)語言詞時(shí)動(dòng)態(tài)尋找與之相關(guān)的源語言上下文.例如,當(dāng)生成英文詞“Bush”的時(shí)候,中文詞“布什”與之最相關(guān),而“舉行”和“了”等詞可能并不相關(guān),只需要將“布什”的向量表示作為源端上下文傳遞到目標(biāo)端.而當(dāng)生成英文詞“held”的時(shí)候,最相關(guān)的中文詞是“舉行”和“了”.因此,注意力機(jī)制改變了信息傳遞的方式,能夠動(dòng)態(tài)計(jì)算最相關(guān)的上下文,從而更好地解決了長距離信息傳遞問題并顯著提升了神經(jīng)機(jī)器翻譯的性能.因此,基于注意力機(jī)制的編碼器-解碼器模型目前已成為神經(jīng)機(jī)器翻譯的主流方法并得到廣泛使用.

      2 前沿進(jìn)展

      神經(jīng)機(jī)器翻譯最早在2013年由文獻(xiàn)[8]提出,但當(dāng)時(shí)的翻譯效果并不理想,沒有超過統(tǒng)計(jì)機(jī)器翻譯.2014年和2015年文獻(xiàn)[5]所提出的解碼器和編碼器框架以及文獻(xiàn)[6]提出的注意力機(jī)制確定了神經(jīng)機(jī)器翻譯的主要架構(gòu),但是系統(tǒng)翻譯性能仍然僅僅與統(tǒng)計(jì)機(jī)器翻譯持平.可喜的是,神經(jīng)機(jī)器翻譯在2016年取得了突飛猛進(jìn)的進(jìn)展,翻譯性能顯著超過統(tǒng)計(jì)機(jī)器翻譯,并且成為以Google Translate為代表的商業(yè)翻譯系統(tǒng)的核心技術(shù)[9].由于近兩年來神經(jīng)機(jī)器翻譯方面的論文數(shù)量非常龐大,難以全部覆蓋,本文下面將主要從5個(gè)方面對神經(jīng)機(jī)器翻譯在2016年取得的重要進(jìn)展進(jìn)行簡要評述.

      2.1 訓(xùn)練算法

      給定平行語料庫,神經(jīng)機(jī)器翻譯的傳統(tǒng)訓(xùn)練準(zhǔn)則是極大似然估計(jì).文獻(xiàn)[10]指出極大似然估計(jì)存在2個(gè)問題:1)訓(xùn)練目標(biāo)中的損失函數(shù)是定義在詞語級別的,而機(jī)器翻譯的評價(jià)指標(biāo)(如BLEU)通常都是定義在句子或篇章級別的;2)在訓(xùn)練過程中每生成一個(gè)目標(biāo)語言詞都是以觀測數(shù)據(jù)作為上下文,而在測試過程中則是以可能存在錯(cuò)誤的模型預(yù)測作為上下文,因而在訓(xùn)練和測試階段存在不一致的問題.

      為了解決上述問題,文獻(xiàn)[11]將最小風(fēng)險(xiǎn)訓(xùn)練(minimum risk training)方法引入神經(jīng)機(jī)器翻譯.最小風(fēng)險(xiǎn)訓(xùn)練的基本思想是將模型預(yù)測引入訓(xùn)練過程,以機(jī)器翻譯評價(jià)指標(biāo)來定義損失函數(shù),通過降低模型在訓(xùn)練集上損失的期望值(即風(fēng)險(xiǎn))來緩解神經(jīng)機(jī)器翻譯訓(xùn)練和測試不一致的問題.這種方法可以視作是在統(tǒng)計(jì)機(jī)器翻譯中獲得廣泛應(yīng)用的最小錯(cuò)誤率訓(xùn)練方法[12]在神經(jīng)機(jī)器翻譯中的推廣形式.與之類似,文獻(xiàn)[10]采用REINFORCE算法將評價(jià)指標(biāo)融入訓(xùn)練過程,文獻(xiàn)[13]將訓(xùn)練過程與柱搜索緊密結(jié)合.Google推出的神經(jīng)機(jī)器翻譯系統(tǒng)中采用上述針對評價(jià)指標(biāo)優(yōu)化模型參數(shù)的訓(xùn)練算法,并發(fā)現(xiàn)在大規(guī)模訓(xùn)練數(shù)據(jù)上仍然能夠獲得穩(wěn)定且顯著的提升[9].

      這些方法的優(yōu)點(diǎn)在于能夠直接針對評價(jià)指標(biāo)來優(yōu)化模型參數(shù),同時(shí)訓(xùn)練方法與模型架構(gòu)和訓(xùn)練指標(biāo)無關(guān),可以應(yīng)用到任意的模型架構(gòu)和評價(jià)指標(biāo),顯著提升了神經(jīng)機(jī)器翻譯的性能.

      2.2 先驗(yàn)約束

      神經(jīng)機(jī)器翻譯廣受人詬病的一點(diǎn)是缺乏可解釋性,神經(jīng)網(wǎng)絡(luò)內(nèi)部都是實(shí)數(shù)向量,缺乏合理的語言學(xué)解釋,這使得研究人員對神經(jīng)機(jī)器翻譯進(jìn)行分析和調(diào)試變得尤為困難.因而,如何將人類的先驗(yàn)知識與數(shù)據(jù)驅(qū)動(dòng)的神經(jīng)網(wǎng)絡(luò)方法相結(jié)合成為神經(jīng)機(jī)器翻譯的一個(gè)重要研究方向.

      目前,將先驗(yàn)知識與神經(jīng)機(jī)器翻譯相結(jié)合主要有2種方式:

      1) 直接修改模型架構(gòu).文獻(xiàn)[14]為了解決神經(jīng)機(jī)器翻譯所面臨的翻譯過度和翻譯不足問題,將基于短語的統(tǒng)計(jì)機(jī)器翻譯中廣泛使用的覆蓋率(coverage)機(jī)制引入神經(jīng)網(wǎng)絡(luò),顯著提升了神經(jīng)機(jī)器翻譯系統(tǒng)輸出譯文的忠實(shí)度.文獻(xiàn)[15]也采用修改模型架構(gòu)的方式將位置偏移、Markov條件、繁殖率等結(jié)構(gòu)化約束加入神經(jīng)機(jī)器翻譯.

      2) 保留原始的模型架構(gòu),通過修改訓(xùn)練目標(biāo)影響模型參數(shù)訓(xùn)練.文獻(xiàn)[16]發(fā)現(xiàn)源語言到目標(biāo)語言翻譯模型和目標(biāo)語言到源語言翻譯模型在計(jì)算注意力時(shí)均存在不足但可以相互彌補(bǔ),因而通過在訓(xùn)練目標(biāo)中加入一致性(agreement)約束鼓勵(lì)2個(gè)模型相互幫助,同時(shí)提高了2個(gè)翻譯方向的性能.

      盡管上述工作取得了一定的進(jìn)展,但如何將先驗(yàn)知識與神經(jīng)機(jī)器翻譯相結(jié)合仍面臨著很大的挑戰(zhàn):無論是修改模型結(jié)構(gòu)還是修改訓(xùn)練目標(biāo),都只能加入有限的先驗(yàn)知識,目前仍然缺乏一個(gè)通用的框架來支持向神經(jīng)機(jī)器翻譯中加入任意的先驗(yàn)知識.

      2.3 模型架構(gòu)

      對于神經(jīng)機(jī)器翻譯而言,最重要的2個(gè)概念是門閥(gating)和注意力.前者是長短時(shí)記憶的核心機(jī)制,用來實(shí)現(xiàn)信息傳遞過程中“記憶”和“遺忘”功能;后者則引入動(dòng)態(tài)選擇相關(guān)上下文的理念.是否還存在更先進(jìn)的機(jī)制來進(jìn)一步改進(jìn)神經(jīng)機(jī)器翻譯的模型架構(gòu)?

      文獻(xiàn)[17]提出的神經(jīng)網(wǎng)絡(luò)圖靈機(jī)近年來廣受關(guān)注.如果將傳統(tǒng)遞歸神經(jīng)網(wǎng)絡(luò)中的隱狀態(tài)比作為“內(nèi)存”來存儲短時(shí)記憶的話,神經(jīng)網(wǎng)絡(luò)圖靈機(jī)則主張用“外存”來存儲長時(shí)記憶,其存儲單元尋址方式類似于注意力機(jī)制.無獨(dú)有偶,文獻(xiàn)[18]提出的記憶網(wǎng)絡(luò)(memory networks)也提出了非常類似的思想.目前,神經(jīng)網(wǎng)絡(luò)圖靈機(jī)在機(jī)器翻譯中的成功應(yīng)用很少,目前主要的進(jìn)展是文獻(xiàn)[19]將利用記憶機(jī)制來改進(jìn)解碼器,顯著提升了神經(jīng)機(jī)器翻譯的質(zhì)量.然而,memory的尋址機(jī)制實(shí)際上與attention的計(jì)算非常類似.在同時(shí)使用長短時(shí)記憶、attention和memory的情況下,memory能夠提供什么額外的有用信息,目前仍沒有清晰的語言學(xué)解釋,有待進(jìn)一步探索.

      另一個(gè)研究方向是依據(jù)統(tǒng)計(jì)機(jī)器翻譯中廣泛使用的語言學(xué)結(jié)構(gòu)來建立神經(jīng)機(jī)器翻譯模型.這方面的代表性工作是文獻(xiàn)[20]提出的樹到序列神經(jīng)機(jī)器翻譯,他們將統(tǒng)計(jì)機(jī)器翻譯中的樹到序列模型與神經(jīng)網(wǎng)絡(luò)相結(jié)合.這樣的建模方式存在一定的爭議性,因?yàn)樯疃葘W(xué)習(xí)通常主張從生數(shù)據(jù)中學(xué)習(xí)表示,而不是依賴于句法樹這樣由語言學(xué)家發(fā)明的人造結(jié)構(gòu).如何實(shí)現(xiàn)語言結(jié)構(gòu)與神經(jīng)網(wǎng)絡(luò)的有效結(jié)合將繼續(xù)成為神經(jīng)機(jī)器翻譯的研究熱點(diǎn)之一.

      2.4 受限詞匯量

      神經(jīng)機(jī)器翻譯的解碼器在生成目標(biāo)語言詞語時(shí),需要通過在整個(gè)目標(biāo)語言詞匯表上進(jìn)行歸一化來計(jì)算概率分布,因而計(jì)算復(fù)雜度極高.為了降低復(fù)雜度,神經(jīng)機(jī)器翻譯系統(tǒng)往往將詞匯表限制為高頻詞,并將其他所有低頻詞視為未登錄詞.2015年,神經(jīng)機(jī)器翻譯的研究人員主要通過未登錄詞替換[21]和采樣[22]等方法處理受限詞匯量問題.

      在2016年,研究人員更加關(guān)注如何用細(xì)粒度意義表示單元(如字母、字、語素、亞詞等)解決受限詞匯量問題.文獻(xiàn)[23]提出了詞語-字母混合模型,利用詞語模型處理高頻詞,利用字母模型處理低頻詞.文獻(xiàn)[24]提出利用字節(jié)對編碼(byte pair encoding)自動(dòng)發(fā)現(xiàn)亞詞(subword),進(jìn)而建立基于亞詞的神經(jīng)機(jī)器翻譯模型.文獻(xiàn)[25]提出一種不依賴于顯式切分的、基于字母的編碼器,在目標(biāo)語言端緩解了受限詞匯量問題.

      上述方法有效解決了神經(jīng)機(jī)器翻譯詞匯量受限的問題,但仍需在更多的黏著語、孤立語和屈折語上進(jìn)一步驗(yàn)證.

      2.5 低資源語言翻譯

      作為一種數(shù)據(jù)驅(qū)動(dòng)方法,神經(jīng)機(jī)器翻譯的性能高度依賴于平行語料庫的規(guī)模、質(zhì)量和領(lǐng)域覆蓋面.由于神經(jīng)網(wǎng)絡(luò)的參數(shù)規(guī)模龐大,只有當(dāng)訓(xùn)練語料庫達(dá)到一定規(guī)模,神經(jīng)機(jī)器翻譯才會(huì)顯著超過統(tǒng)計(jì)機(jī)器翻譯[26].然而,除了中文、英文等資源豐富語言,世界上絕大多數(shù)語言都缺乏大規(guī)模、高質(zhì)量、廣覆蓋率的平行語料庫.即使對于中文和英文,現(xiàn)有平行語料庫的領(lǐng)域也主要集中在政府文獻(xiàn)和時(shí)政新聞,對于絕大多數(shù)領(lǐng)域而言依然嚴(yán)重缺乏數(shù)據(jù).

      因此,如何充分利用現(xiàn)有數(shù)據(jù)來緩解資源匱乏問題成為2016年神經(jīng)機(jī)器翻譯的一個(gè)重要研究方向.文獻(xiàn)[27]提出利用現(xiàn)有機(jī)器翻譯系統(tǒng)翻譯單語數(shù)據(jù),通過構(gòu)造偽平行語料庫來緩解平行語料庫匱乏問題.文獻(xiàn)[28]將自動(dòng)編碼器引入神經(jīng)機(jī)器翻譯,提出了基于雙語語料庫和單語語料庫的半監(jiān)督學(xué)習(xí)方法.文獻(xiàn)[26]將遷移學(xué)習(xí)引入低資源神經(jīng)機(jī)器翻譯,將在資源豐富語言平行語料庫訓(xùn)練的模型參數(shù)遷移到資源匱乏語言翻譯模型的訓(xùn)練過程中.

      盡管上述方法都觀察到翻譯知識從資源豐富的語言對遷移到資源匱乏的語言對能夠顯著提升神經(jīng)機(jī)器翻譯的效果,但是由于向量表示缺乏可解釋性,這種知識遷移的內(nèi)在機(jī)制仍然沒有得到充分研究.事實(shí)上,對于整個(gè)神經(jīng)機(jī)器翻譯研究而言,目前對于翻譯過程中的內(nèi)部運(yùn)行機(jī)制的理解仍然十分困難,神經(jīng)網(wǎng)絡(luò)隱層的向量表示缺乏清晰的語言學(xué)解釋,這將成為未來的研究重點(diǎn).

      3 總結(jié)與展望

      綜上所述,神經(jīng)機(jī)器翻譯是近年來涌現(xiàn)出來的一種基于深度學(xué)習(xí)的機(jī)器翻譯方法,目前已經(jīng)取代傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯,成為新的主流技術(shù).相對于統(tǒng)計(jì)機(jī)器翻譯,神經(jīng)機(jī)器翻譯不僅能夠從生數(shù)據(jù)中直接學(xué)習(xí)特征,而且能夠通過長短時(shí)記憶和注意力等機(jī)制有效處理長距離依賴.盡管如此,神經(jīng)機(jī)器翻譯研究仍然面臨著諸多挑戰(zhàn),5個(gè)科學(xué)問題仍有待進(jìn)一步探索:

      1) 如何設(shè)計(jì)表達(dá)能力更強(qiáng)的模型?

      2) 如何提高語言學(xué)方面的可解釋性?

      3) 如何降低訓(xùn)練復(fù)雜度?

      4) 如何與先驗(yàn)知識相結(jié)合?

      5) 如何改進(jìn)低資源語言翻譯?

      我們相信,神經(jīng)機(jī)器翻譯在未來會(huì)獲得進(jìn)一步的發(fā)展,通過高質(zhì)量的機(jī)器翻譯服務(wù)造福社會(huì)大眾.

      [1]Brown P, Della Pietra S, Della Pietra V, et al. The mathematics of statistical machine translation: Parameter estimation[J]. Computational Linguistics, 1993, 19(2): 263-311

      [2]Och F, Ney H. Discriminative training and maximum entropy models for statistical machine translation[C] //Proc of the 40th ACL. Stroudsburg, PA: ACL, 2002: 295-302

      [3]Chiang D. A hierarchical phrase-based model for statistical machine translation[C] //Proc of the 43rd ACL. Stroudsburg, PA: ACL, 2005: 263-270

      [4]Sutskever I, Vinyals O, Le Q. Sequence to sequence learning with neural networks[C] //Proc of the 28th NIPS. Red Hook, NY: Curran Associates Inc, 2014: 3104-3112

      [5]Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv: 1409. 0473, 2014

      [6]Junczys-Dowmunt M, Dwojak T, Hoang H. Is neural machine translation ready for deployment? A case study on 30 translation directions[J]. arXiv: 1610. 01108v2, 2016

      [7]Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780

      [8]Kalchbrenner N, Blunsom P. Recurrent continuous translation models[C] //Proc of EMNLP. Stroudsburg, PA: ACL, 2013: 1700-1709

      [9]Wu Yonghui, Schuster M, Chen Zhifeng, et al. Google’s neural machine translation system: Bridging the gap between human and machine translation[J]. arXiv: 1609. 08144v2, 2016

      [10]Ranzato M, Chopra S, Auli M, et al. Sequence level training with recurrent neural networks[J]. arXiv: 1511. 06732, 2015

      [11]Shen Shiqi, Cheng Yong, He Zhongjun, et al. Minimum risk training for neural machine translation[C] //Proc of the 54th ACL. Stroudsburg, PA: ACL, 2016: 1683-1692

      [12]Och F. Minimum error rate training in statistical machine translation[C] //Proc of the 41st ACL. Stroudsburg, PA: ACL, 2003: 160-167

      [13]Wiseman S, Rush A. Sequence-to-sequence learning as beam-search optimization[C] //Proc of EMNLP. Stroudsburg, PA: ACL, 2016: 1296-1306

      [14]Tu Zhaopeng, Lu Zhengdong, Liu Yang, et al. Modeling coverage for neural machine translation[C] //Proc of the 54th ACL. Stroudsburg, PA: ACL, 2016: 76-85

      [15]Cohn T, Hoang C, Vymolova E, et al. Incorporating structural alignment biases into an attentional neural translation model[C] //Proc of NAACL. Stroudsburg, PA: ACL, 2016: 876-885

      [16]Cheng Yong, Shen Shiqi, He Zhongjun, et al. Agreement-based joint training for bidirectional attention-based neural machine translation[C] //Proc of the 25th IJCAI. Palo Alto, CA: IJCAI, 2016: 2761-2767

      [17]Graves A, Wayne G, Danihelka I. Neural turing machines[J]. arXiv: 1410. 5401v2, 2014

      [18]Weston J, Chopra S, Bordes A. Memory networks[J]. arXiv: 1410. 3916, 2014

      [19]Wang Mingxuan, Lu Zhengdong, Li Hang, et al. Memory-enhanced decoder for neural machine translation[C] //Proc of EMNLP. Stroudsburg, PA: ACL, 2016: 278-286

      [20]Eriguchi A, Hashimoto K, Tsuruoka Y. Tree-to-sequence attentional neural machine translation[C] //Proc of the 54th ACL. Stroudsburg, PA: ACL, 2016: 823-833

      [21]Luong M, Sutskever I, Le Q, et al. Addressing the rare word problem in neural machine translation[C] //Proc of the 53rd ACL. Stroudsburg, PA: ACL, 2015: 11-19

      [22]Jean S, Cho K, Memisevic R, et al. On using very large target vocabulary for neural machine translation [C] // Proc of the 53rd ACL. Stroudsburg, PA: ACL, 2015: 1-10

      [23]Luong M, Manning C. Achieving open vocabulary neural machine translation with hybrid word-character models[C] //Proc of the 54th ACL. Stroudsburg, PA: ACL, 2016: 1054-1063

      [24]Sennrich R, Haddow B, Birch A. Neural machine translation of rare words with subword units[C] //Proc of the 54th ACL. Stroudsburg, PA: ACL, 2016: 1715-1725

      [25]Chung J, Cho K, Bengio Y. A character-level decoder without explicit segmentation for neural machine translation[C] //Proc of the 54th ACL. Stroudsburg, PA: ACL, 2016: 1693-1703

      [26]Zoph B, Yuret D, May J, et al. Transfer learning for low-resource neural machine translation[C] //Proc of EMNLP. Stroudsburg, PA: ACL, 2016: 1568-1575

      [27]Sennrich R, Haddow B, Birch A. Improving neural machine translation models with monolingual data[C] //Proc of the 54th ACL. Stroudsburg, PA: ACL, 2016: 86-96

      [28]Cheng Yong, Xu Wei, He Zhongjun, et al. Semi-supervised learning for neural machine translation[C] //Proc of the 54th ACL. Stroudsburg, PA: ACL, 2016: 1965-1974

      Liu Yang, born in 1979. PhD, associate professor, PhD supervisor. Member of CCF and Chinese Information Processing Society. His main research interests include natural language processing and machine translation.

      Recent Advances in Neural Machine Translation

      Liu Yang

      (DepartmentofComputerScienceandTechnology,TsinghuaUniversity,Beijing100084) (TsinghuaNationalLaboratoryforInformationScienceandTechnology,Beijing100084) (StateKeyLaboratoryofIntelligentTechnologyandSystems(TsinghuaUniversity),Beijing100084)

      Machine translation, which aims at automatically translating between natural languages using computers, is one of important research directions in artificial intelligence and natural language processing. Recent years have witnessed the rapid development of neural machine translation, which has replaced conventional statistical machine translation to become the new mainstream technique in both academia and industry. This paper first introduces the basic ideas and state-of-the-art approaches in neural machine translation and then reviews recent important research findings. The paper concludes with a discussion about possible future directions.

      artificial intelligence; deep learning; neural machine translation; encoder-decoder framework; attention mechanism

      2016-11-10;

      2017-02-22

      國家自然科學(xué)基金優(yōu)秀青年科學(xué)基金項(xiàng)目(61522204) This work was supported by the National Natural Science Foundation of China for Excellent Young Scientists (61522204).

      TP391

      猜你喜歡
      源語言解碼器編碼器
      科學(xué)解碼器(一)
      科學(xué)解碼器(二)
      科學(xué)解碼器(三)
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
      林巍《知識與智慧》英譯分析
      淺析日語口譯譯員素質(zhì)
      基于FPGA的同步機(jī)軸角編碼器
      基于PRBS檢測的8B/IOB編碼器設(shè)計(jì)
      跨文化視角下對具有修辭手法諺語英譯漢的研究
      速讀·下旬(2016年7期)2016-07-20 08:50:28
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
      電子器件(2015年5期)2015-12-29 08:42:24
      涟源市| 吉林市| 许昌县| 交口县| 松滋市| 堆龙德庆县| 西城区| 牙克石市| 白山市| 布尔津县| 开化县| 邮箱| 汕尾市| 陇南市| 兴业县| 屏南县| 金溪县| 牙克石市| 垫江县| 佳木斯市| 聂拉木县| 陆良县| 五家渠市| 灌南县| 开化县| 满洲里市| 特克斯县| 宣汉县| 镇安县| 阳泉市| 瑞金市| 定陶县| 额敏县| 迁安市| 维西| 西城区| 遵义县| 鄢陵县| 锦屏县| 巩义市| SHOW|