• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      神經(jīng)機(jī)器翻譯綜述

      2019-01-22 11:54:58高明虎于志強(qiáng)
      關(guān)鍵詞:源語(yǔ)言目標(biāo)語(yǔ)言語(yǔ)料

      高明虎,于志強(qiáng)

      (云南民族大學(xué) 信息與網(wǎng)絡(luò)中心,云南 昆明 650500)

      機(jī)器翻譯是在保持語(yǔ)義一致性的基礎(chǔ)上,利用計(jì)算機(jī)軟件實(shí)現(xiàn)兩種語(yǔ)言的轉(zhuǎn)換的過(guò)程,屬于計(jì)算語(yǔ)言學(xué)(computational linguistics)的子領(lǐng)域,將人工智能與自然語(yǔ)言處理相結(jié)合是其重要的研究?jī)?nèi)容.自20世紀(jì)40年代機(jī)器翻譯任務(wù)產(chǎn)生以來(lái),機(jī)器翻譯大體經(jīng)歷了2個(gè)階段:早期的基于規(guī)則的機(jī)器翻譯(rule-based machine translation)和近期的統(tǒng)計(jì)機(jī)器翻譯(statistical machine translation,簡(jiǎn)稱SMT).自2014年將神經(jīng)網(wǎng)絡(luò)研究用于機(jī)器翻譯以來(lái),采用端到端的神經(jīng)機(jī)器翻譯(neural machine translation, NMT)[1-2]獲得了迅速發(fā)展.它采用一種全新的方法體系,直接使用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)源語(yǔ)言文本到目標(biāo)語(yǔ)言文本的映射.與統(tǒng)計(jì)機(jī)器翻譯不同,由于神經(jīng)機(jī)器翻譯不再需要進(jìn)行詞對(duì)齊、短語(yǔ)切分等步驟[3],也無(wú)需句法分析等語(yǔ)言學(xué)知識(shí)支持.具有人工成本低、開發(fā)周期短的優(yōu)點(diǎn),并且較好的克服了統(tǒng)計(jì)機(jī)器翻譯所面臨的語(yǔ)義表示、錯(cuò)誤傳播等問(wèn)題,成為Google、百度等國(guó)內(nèi)外公司在線機(jī)器翻譯系統(tǒng)的核心技術(shù).

      1 經(jīng)典機(jī)器翻譯模型

      經(jīng)典機(jī)器翻譯模型大體歷經(jīng)了2個(gè)發(fā)展歷程:基于語(yǔ)言規(guī)則的機(jī)器翻譯(1949—1992)和統(tǒng)計(jì)機(jī)器翻譯(1993—2016).語(yǔ)言學(xué)家認(rèn)為語(yǔ)言的表述是有規(guī)則可依的,因此基于規(guī)則的機(jī)器翻譯是由語(yǔ)言學(xué)專家先總結(jié)出不同自然語(yǔ)言之間的轉(zhuǎn)換規(guī)律,再以規(guī)則形式表示翻譯知識(shí),最后由計(jì)算機(jī)進(jìn)行規(guī)則的執(zhí)行.由于有語(yǔ)言學(xué)專家的深度參與,句法、詞法和語(yǔ)義等深層次自然語(yǔ)言特性可以被充分挖掘,但由于自然語(yǔ)言的靈活特性,基于規(guī)則的機(jī)器翻譯面臨著規(guī)則提取困難、程序開發(fā)難度大、人工成本高等困難.

      隨著互聯(lián)網(wǎng)的興起和硬件運(yùn)算能力的大幅提升,基于統(tǒng)計(jì)特性的統(tǒng)計(jì)機(jī)器翻譯得到重視,并在20世紀(jì)90年代后開始成為機(jī)器翻譯的主流模型.統(tǒng)計(jì)機(jī)器翻譯采用數(shù)據(jù)驅(qū)動(dòng)的方式,在大規(guī)模多語(yǔ)言文本數(shù)據(jù)上自動(dòng)訓(xùn)練數(shù)學(xué)模型,通過(guò)數(shù)學(xué)模型對(duì)翻譯過(guò)程進(jìn)行描述.其基本思想是通過(guò)統(tǒng)計(jì)方法獲取源語(yǔ)言與目標(biāo)語(yǔ)言之間的翻譯規(guī)律,用以指導(dǎo)隱結(jié)構(gòu)(詞語(yǔ)對(duì)齊、短語(yǔ)抽取、短語(yǔ)概率、短語(yǔ)調(diào)序等)的構(gòu)成來(lái)實(shí)現(xiàn)翻譯,翻譯過(guò)程如下:

      統(tǒng)計(jì)機(jī)器翻譯通過(guò)建立概率模型來(lái)計(jì)算F到E的概率,從而進(jìn)行翻譯.自面世以來(lái),統(tǒng)計(jì)機(jī)器翻譯取得了巨大的成功,2006年Google推出了 Translate翻譯平臺(tái),它的推出標(biāo)志著在商業(yè)應(yīng)用上,數(shù)據(jù)驅(qū)動(dòng)的統(tǒng)計(jì)機(jī)器翻譯取代了基于語(yǔ)言規(guī)則的機(jī)器翻譯成為翻譯系統(tǒng)的主流.盡管如此,統(tǒng)計(jì)機(jī)器翻譯仍面臨著翻譯性能嚴(yán)重依賴于對(duì)齊特性等隱結(jié)構(gòu)獲取難度大、局部特征難以捕獲全局依賴關(guān)系、不易調(diào)序影響翻譯流暢度等難題.

      2 神經(jīng)機(jī)器翻譯模型

      2.1 神經(jīng)網(wǎng)絡(luò)的發(fā)展

      神經(jīng)網(wǎng)絡(luò)最開始是受生物神經(jīng)系統(tǒng)的啟發(fā),為了模擬生物神經(jīng)系統(tǒng)而出現(xiàn)的. Pitts[4]于1943年最早提出了神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)模型,為了讓計(jì)算機(jī)能夠更加自動(dòng)且更加合理的設(shè)置權(quán)重,1957年,Rosenblatt[5]提出了一種最簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)——感知機(jī)(Perceptron)算法.該算法使用特征向量來(lái)表示的前饋式人工神經(jīng)網(wǎng)絡(luò),它是一種二元分類器,為單層的人工神經(jīng)網(wǎng)絡(luò).1969年,Marvin Minsky 和 Seymour Papert證明感知機(jī)不能解決簡(jiǎn)單的異或(XOR)等線性不可分問(wèn)題,使得人工神經(jīng)網(wǎng)絡(luò)發(fā)展進(jìn)入了低潮.到20世紀(jì)80年代末,隨著分布式表達(dá)和反向傳播算法[6]等算法的提出,神經(jīng)網(wǎng)絡(luò)的研究才迎來(lái)了第二次興起.近年來(lái),神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像識(shí)別、語(yǔ)音識(shí)別等領(lǐng)域取得巨大成功,在自然語(yǔ)言處理任務(wù)上(如語(yǔ)言模型、句法分析、序列標(biāo)注等任務(wù)[7]),神經(jīng)網(wǎng)絡(luò)的應(yīng)用也有很好效果.

      2.2 神經(jīng)機(jī)器翻譯基本思想

      學(xué)術(shù)界很早就提出了將神經(jīng)網(wǎng)絡(luò)應(yīng)用于機(jī)器翻譯的思想,20世紀(jì)90年代,Castano等利用小規(guī)模平行語(yǔ)料實(shí)現(xiàn)了基于神經(jīng)網(wǎng)絡(luò)的翻譯方法[8],但由于平行語(yǔ)料規(guī)模和硬件計(jì)算能力限制,未能取得超越性的效果.深度學(xué)習(xí)熱潮興起之后,神經(jīng)網(wǎng)絡(luò)常被用于結(jié)合統(tǒng)計(jì)機(jī)器翻譯用于詞語(yǔ)對(duì)齊、依存分析、規(guī)則抽取等任務(wù)中.

      2013年,Kalchbrenner 和Blunsom[9]重新總結(jié)并提出了基于神經(jīng)網(wǎng)絡(luò)的翻譯方法,引起了學(xué)術(shù)界的關(guān)注.隨后, Sutskever[10]、 Cho[11-12]、 Jean[13-14]等人各自實(shí)現(xiàn)了完全基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯模型.

      神經(jīng)機(jī)器翻譯的基本思想與統(tǒng)計(jì)機(jī)器翻譯相同,即概率最大化.在翻譯建模上不借用其他手段,只采用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)源語(yǔ)言到目標(biāo)語(yǔ)言的轉(zhuǎn)換.與統(tǒng)計(jì)機(jī)器翻譯的離散表示方法不同,神經(jīng)機(jī)器翻譯采用連續(xù)空間表示方法(continuous space representation)表示詞語(yǔ)、短語(yǔ)和句子.在翻譯建模上,不需要進(jìn)行詞對(duì)齊、 短語(yǔ)抽取、短語(yǔ)概率計(jì)算、最大熵調(diào)序等統(tǒng)計(jì)機(jī)器翻譯的處理步驟,而是完全采用神經(jīng)網(wǎng)絡(luò)完成從源語(yǔ)言到目標(biāo)語(yǔ)言的映射,神經(jīng)機(jī)器翻譯通常采用編碼器-解碼器(encoder-decoder)框架實(shí)現(xiàn)源序列到目標(biāo)序列的轉(zhuǎn)換[2].其中編碼器讀取源語(yǔ)言輸入“x1”、“x2”、“x3” 、“x4”, 輸出固定維度的語(yǔ)義編碼向量C; 解碼器讀取該向量,解碼生成目標(biāo)語(yǔ)言詞語(yǔ)序列“y1”、“y2”、“y3”, 如圖1所示.

      與統(tǒng)計(jì)機(jī)器翻譯相比,基于編碼器-解碼器框架的神經(jīng)機(jī)器翻譯無(wú)需人工設(shè)計(jì)定義在隱結(jié)構(gòu)上的特征來(lái)描述翻譯規(guī)律,而是直接從訓(xùn)練語(yǔ)料中學(xué)習(xí)特征.因此規(guī)避了由于自然語(yǔ)言的高度復(fù)雜性帶來(lái)的大量的特征設(shè)計(jì)工作.

      2.3 神經(jīng)機(jī)器翻譯各種類型及其特點(diǎn)

      神經(jīng)網(wǎng)絡(luò)依據(jù)拓?fù)浣Y(jié)構(gòu)特點(diǎn)可以分成多種類型,如前饋神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network),循環(huán)神經(jīng)網(wǎng)絡(luò)等.以下對(duì)近年來(lái)在機(jī)器翻譯、摘要抽取、序列標(biāo)注、情感分類等自然語(yǔ)言處理任務(wù)上常用的神經(jīng)網(wǎng)絡(luò)進(jìn)行了分析.

      2.3.1 循環(huán)神經(jīng)網(wǎng)絡(luò)

      循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)是目前神經(jīng)機(jī)器翻譯所采用的主流網(wǎng)絡(luò)結(jié)構(gòu),它將隱狀態(tài)在相同的網(wǎng)絡(luò)層次中循環(huán)傳遞,因此具有序列化結(jié)構(gòu)的自然語(yǔ)言句子可以作為它的輸入[15-16].循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示.

      x= {x1,x2,…,xT}表示輸入的源語(yǔ)言序列,每個(gè)時(shí)間步t的隱藏狀態(tài)由以下公式進(jìn)行更新:

      ht=f(ht-1,xt,θ).

      其中,f為非線性函數(shù),ht-1為前一時(shí)刻的隱狀態(tài),Xt為t時(shí)刻的輸入,θ為網(wǎng)絡(luò)參數(shù).網(wǎng)絡(luò)通過(guò)如下進(jìn)行更新:

      at=Wht-1+Uxt+b

      ;

      ht=tanh(at)

      ;

      ot=Vht+c

      ;

      循環(huán)神經(jīng)網(wǎng)絡(luò)適合處理變長(zhǎng)序列數(shù)據(jù).理論上能夠捕捉到所有之前時(shí)刻的隱狀態(tài),這在一定程度上解決了長(zhǎng)距離依賴問(wèn)題.

      2.3.2 循環(huán)神經(jīng)網(wǎng)絡(luò)變型

      從理論上講,循環(huán)神經(jīng)網(wǎng)絡(luò)可以通過(guò)充分訓(xùn)練得到的參數(shù)解決長(zhǎng)距離依賴問(wèn)題,但實(shí)際效果并不理想.原因在于訓(xùn)練的過(guò)程中采用反向傳播(backpropagation through time, BPTT)[17]來(lái)進(jìn)行誤差的傳遞,從而調(diào)整網(wǎng)絡(luò)參數(shù),在實(shí)際應(yīng)用中會(huì)產(chǎn)生梯度消失問(wèn)題[18].長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)[19]是循環(huán)神經(jīng)網(wǎng)絡(luò)的變形結(jié)構(gòu),引入了門控的概念,通過(guò)遺忘門、輸入門和輸出門進(jìn)行信息選擇和更新,具有與循環(huán)神經(jīng)網(wǎng)絡(luò)相似的結(jié)構(gòu)和優(yōu)點(diǎn),且性能更好.

      門限循環(huán)單元(gated recurrent units, GRU)[11,20]將長(zhǎng)短時(shí)記憶循環(huán)單元的輸入門和遺忘門合并成更新門(update gate),又引入了重置門(reset gate),用更新門控制當(dāng)前狀態(tài)需要遺忘的歷史信息和接受的新信息,用重置門控制候選狀態(tài)中有多少信息是從歷史信息中得到.該結(jié)構(gòu)是對(duì)長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)化,效果與后者相近,并降低了計(jì)算量.

      前饋神經(jīng)網(wǎng)絡(luò)中,矩陣相乘是時(shí)間復(fù)雜度較高的部分.簡(jiǎn)單循環(huán)單元(simple recurrent unit,SRU)[21]對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),門計(jì)算只依賴于當(dāng)前輸入的循環(huán),使模型只有逐點(diǎn)矩陣相乘的計(jì)算依賴于之前的時(shí)間步.從而減少了計(jì)算量,能夠讓網(wǎng)絡(luò)更容易的進(jìn)行并行化.

      遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network,recursive NN)是循環(huán)神經(jīng)網(wǎng)絡(luò)的變形結(jié)構(gòu),以樹形結(jié)構(gòu)進(jìn)行組織,通常用于表示自然語(yǔ)言句法結(jié)構(gòu)[22].

      循環(huán)神經(jīng)網(wǎng)絡(luò)及其重要變型的不同之處如表1所示.

      表1 循環(huán)神經(jīng)網(wǎng)絡(luò)及其重要變型的差異

      2.3.3 卷積神經(jīng)網(wǎng)絡(luò)

      卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)在圖像分類中取得了巨大成功,在處理圖像時(shí),實(shí)際是以像素作為輸入.與圖像任務(wù)不同的是,NLP任務(wù)的輸入基本上是矩陣形式的句子或文檔.矩陣的每一行是一個(gè)向量,本質(zhì)上是序列化的輸入.卷積神經(jīng)網(wǎng)絡(luò)常被應(yīng)用到文本分類中,比如情感分類、信息識(shí)別、主題分類中.由于卷積操作過(guò)程會(huì)丟失一些詞的位置信息,因此在處理序列化輸入的任務(wù)方面,例如翻譯、詞性標(biāo)注和實(shí)體抽取時(shí)效果不是很理想.但近期很多研究通過(guò)融入位置等信息[23],在保持了卷積神經(jīng)網(wǎng)絡(luò)的并行能力的同時(shí),加強(qiáng)了對(duì)序列化輸入的處理.

      3 總結(jié)及展望

      目前,神經(jīng)機(jī)器翻譯取得巨大成功,在很多語(yǔ)言對(duì)上的效果已經(jīng)超越統(tǒng)計(jì)機(jī)器翻譯.從2014年開始,產(chǎn)出了大量的科研成果與實(shí)際產(chǎn)品.由于研究時(shí)間較短,該翻譯模型仍然存在許多值得更加深入探索的問(wèn)題,以下幾點(diǎn)有可能成為未來(lái)研究集中方向.

      1) 提高翻譯框架可解釋性.基于編碼器解碼器結(jié)構(gòu)的神經(jīng)機(jī)器翻譯,實(shí)現(xiàn)了源語(yǔ)言到目標(biāo)語(yǔ)言的直接翻譯,但是相比統(tǒng)計(jì)機(jī)器翻譯,神經(jīng)機(jī)器翻譯過(guò)程更類似于在黑盒中運(yùn)行,難以從語(yǔ)言學(xué)的角度對(duì)翻譯過(guò)程進(jìn)行解釋.已有研究證明,可以從可視化[24]、隱含句法結(jié)構(gòu)信息抽取[25]等角度對(duì)翻譯過(guò)程進(jìn)行分析, 以此改正翻譯錯(cuò)誤,是神經(jīng)機(jī)器翻譯未來(lái)重要的研究方向.

      2) 外部知識(shí)融入.與統(tǒng)計(jì)機(jī)器翻譯相比,神經(jīng)機(jī)器翻譯結(jié)果在句子的流暢度上有較大提升,但是與語(yǔ)法句法等語(yǔ)言學(xué)想關(guān)的翻譯錯(cuò)誤仍會(huì)在神經(jīng)機(jī)器翻譯中出現(xiàn),因此,融合語(yǔ)言學(xué)知識(shí)對(duì)于神經(jīng)機(jī)器翻譯性能的提升至關(guān)重要,這一點(diǎn)在資源稀缺型語(yǔ)言和特定領(lǐng)域的翻譯任務(wù)中尤為迫切,語(yǔ)言學(xué)知識(shí)包括詞匯、句法、語(yǔ)義等不同粒度的知識(shí),詞匯級(jí)知識(shí)包含詞素、詞性標(biāo)注、分詞標(biāo)記等.句法級(jí)包括短語(yǔ)樹、依存樹和謂詞框架等.語(yǔ)義級(jí)別包含詞義推導(dǎo)、語(yǔ)義樹等.融合更加豐富的外部知識(shí)是神經(jīng)機(jī)器翻譯重要研究?jī)?nèi)容,也是提高翻譯性能的重要方法,有待深入研究.

      3) 多語(yǔ)言機(jī)器翻譯.翻譯系統(tǒng)學(xué)習(xí)一種通用的表征,其中不同語(yǔ)言中具有相同意義的句子都以類似的方式表示,這些為多語(yǔ)言之間的遷移學(xué)習(xí)研究提供了良好的基礎(chǔ).在多語(yǔ)平行語(yǔ)料,或者多語(yǔ)可比語(yǔ)料基礎(chǔ)上研究基于神經(jīng)網(wǎng)絡(luò)的多語(yǔ)言機(jī)器翻譯,對(duì)低資源語(yǔ)言甚至資源豐富型語(yǔ)言的翻譯都具有學(xué)術(shù)價(jià)值和實(shí)用價(jià)值,是自然語(yǔ)言處理研究的一個(gè)重要方向.

      4) 多模態(tài)翻譯.傳統(tǒng)神經(jīng)機(jī)器翻譯過(guò)程中,文本翻譯過(guò)程與翻譯場(chǎng)景等信息是相互獨(dú)立的,因此,導(dǎo)致神經(jīng)機(jī)器翻譯的結(jié)果往往不夠智能,不能自適應(yīng)的產(chǎn)生適合翻譯場(chǎng)景的文本翻譯結(jié)果.然而相同場(chǎng)景中的圖像、文本信息屬于異類信息,彼此之間存在巨大的語(yǔ)義鴻溝,因此將對(duì)齊后的多模態(tài)特征融入神經(jīng)機(jī)器翻譯網(wǎng)絡(luò),實(shí)現(xiàn)多模態(tài)神經(jīng)機(jī)器翻譯,是提升翻譯效果乃至實(shí)現(xiàn)智能翻譯的一個(gè)值得探索的方向.

      神經(jīng)機(jī)器翻譯代表了一種全新的機(jī)器翻譯模型,目前在主流語(yǔ)言對(duì)上的性能已經(jīng)超越統(tǒng)計(jì)機(jī)器翻譯,成為當(dāng)前的主流技術(shù).神經(jīng)機(jī)器翻譯能夠從平行語(yǔ)料中直接學(xué)習(xí)特征,應(yīng)用難度較低,并且能夠通過(guò)長(zhǎng)短時(shí)記憶和注意力等機(jī)制有效處理長(zhǎng)距離依賴問(wèn)題.雖然該方法在資源依賴、訓(xùn)練算法、可解釋性等方面存在不足之處,但是在未來(lái)必將獲得長(zhǎng)足的發(fā)展.

      猜你喜歡
      源語(yǔ)言目標(biāo)語(yǔ)言語(yǔ)料
      林巍《知識(shí)與智慧》英譯分析
      淺析日語(yǔ)口譯譯員素質(zhì)
      教材插圖在英語(yǔ)課堂閱讀教學(xué)中的運(yùn)用及實(shí)例探討
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      跨文化視角下對(duì)具有修辭手法諺語(yǔ)英譯漢的研究
      速讀·下旬(2016年7期)2016-07-20 08:50:28
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      以口譯實(shí)例談雙語(yǔ)知識(shí)的必要性
      考試周刊(2015年36期)2015-09-10 15:03:38
      二語(yǔ)習(xí)得過(guò)程中的石化現(xiàn)象分析
      《苗防備覽》中的湘西語(yǔ)料
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
      二连浩特市| 邢台市| 中西区| 龙陵县| 镇远县| 达尔| 新竹市| 武平县| 辽阳县| 铁力市| 广昌县| 枣阳市| 井研县| 拜城县| 峨边| 呈贡县| 三原县| 措勤县| 且末县| 惠水县| 花垣县| 三穗县| 木兰县| 时尚| 夏河县| 顺平县| 双柏县| 衡南县| 汝城县| 德安县| 台东县| 饶平县| 龙岩市| 名山县| 桦川县| 余庆县| 光泽县| 江陵县| 巴林左旗| 简阳市| 固安县|