• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      序列-序列模型注意力機制模塊基本原理探究

      2020-01-13 07:48:14馬春鵬趙鐵軍
      智能計算機與應用 2020年1期
      關鍵詞:錯誤率語料庫注意力

      馬春鵬, 趙鐵軍

      (哈爾濱工業(yè)大學 計算機科學與技術學院, 哈爾濱 150001)

      0 引 言

      在基于序列-序列模型的神經(jīng)網(wǎng)絡機器翻譯中,編碼器和解碼器的神經(jīng)網(wǎng)絡結構有很多。常見的結構包括循環(huán)神經(jīng)網(wǎng)絡[1-2]、卷積神經(jīng)網(wǎng)絡[3]、自編碼神經(jīng)網(wǎng)絡[4]等等。雖然模型的結構有所不同,但是注意力機制模塊在各個模型中都存在。

      對于機器翻譯任務來說,注意力矩陣表示了目標語言句子和源語言句子之間的對應關系。因其與詞對齊之間的高度相關性,因此通常被當作是一種概率形式的詞對齊模型[5-6]?;谶@種思路,有一些研究表明,令詞對齊矩陣與真正的詞對齊盡量相似,能夠提升神經(jīng)網(wǎng)絡機器翻譯的性能[7-9]。對于基于卷積神經(jīng)網(wǎng)絡的機器翻譯系統(tǒng)來說,詞對齊矩陣的可視化輸出也表明了其與詞對齊之間的相似性(例如,文獻[3]的圖3)。

      研究又發(fā)現(xiàn),對于自編碼神經(jīng)網(wǎng)絡(也被稱為Transformer),注意力矩陣與詞對齊之間差異很大。例如,在圖1中,基于自編碼神經(jīng)網(wǎng)絡的模型的注意力矩陣并沒有捕捉到英語和漢語單詞之間的對應關系,而基于循環(huán)神經(jīng)網(wǎng)絡的模型的注意力矩陣與正確的詞對齊具有很高的相關性。而且,對于自編碼神經(jīng)網(wǎng)絡,這種與詞對齊的差異十分普遍。后文會給出關于這一事實的定量分析。

      研究觀察到的這些現(xiàn)象與之前的關于神經(jīng)網(wǎng)絡機器翻譯的研究是矛盾的。之前的研究普遍認為,神經(jīng)網(wǎng)絡機器翻譯模型是通過注意力矩陣模塊學習詞對齊的。因此,為什么基于自編碼網(wǎng)絡的神經(jīng)機器翻譯模型的注意力矩陣與詞對齊有很大的差異,是一個很值得研究的問題。后文將會對這個問題做出解答。實驗結果驗證了提出的論述,同時,通過向基于自回歸網(wǎng)絡的神經(jīng)機器翻譯模型中加入若干新的模塊,即能使其正確地學習到詞對齊。

      (a) 真正的詞對齊矩陣 (b) 基于循環(huán)神經(jīng)網(wǎng)絡的模型 (c) Transformer

      (a) True word alignment (b) RNN-based model (c) Transformer

      圖1 3個注意力矩陣

      Fig. 1 Three attention matrices

      1 兩種神經(jīng)網(wǎng)絡機器翻譯模型的重新表述

      為了后文的敘述方便,文中使用同一的數(shù)學語言,將2種神經(jīng)網(wǎng)絡機器翻譯模型(基于循環(huán)神經(jīng)網(wǎng)絡的模型與基于自編碼神經(jīng)網(wǎng)絡的模型)進行重新表述。對此擬做研究論述如下。

      1.1 基于循環(huán)神經(jīng)網(wǎng)絡的機器翻譯模型

      基于循環(huán)神經(jīng)網(wǎng)絡的模型在很長一段時間內都是神經(jīng)網(wǎng)絡機器翻譯的主流模型,并且已經(jīng)被部署到了大型的商用系統(tǒng)上[10-11]。通過引入注意力機制模塊,機器翻譯的性能超過了傳統(tǒng)的統(tǒng)計機器翻譯方法。

      (1)

      函數(shù)RNN可以是門循環(huán)單元或是長短時記憶網(wǎng)絡。下一層的輸入可寫作如下數(shù)學形式:

      (2)

      wt[j]=argmax(softmax(FFNN(Ot[j]))),

      (3)

      (4)

      (5)

      向量Cl[j]是Os各個列的加權平均,計算公式具體如下:

      (6)

      這個被稱作是基于循環(huán)神經(jīng)網(wǎng)絡的注意力機制。這里只描述了一種被廣泛使用的基于循環(huán)神經(jīng)網(wǎng)絡的注意力機制,即文獻[12]提出的點積注意力機制。

      1.2 基于自編碼網(wǎng)絡的機器翻譯模型

      與基于循環(huán)神經(jīng)網(wǎng)絡的模型相比,基于自編碼網(wǎng)絡的機器翻譯模型最近在速度和精度上都已經(jīng)超過了前者。這一模型同樣使用了序列-序列模型。與基于循環(huán)神經(jīng)網(wǎng)絡的模型不同,編碼器按照如下的方式計算隱含層的向量,即:

      (7)

      (8)

      下一層的輸入按照如下方式進行計算,即:

      (9)

      這里,研究考慮了網(wǎng)絡中的殘差連接[13]的情形。

      (10)

      (11)

      (12)

      上面的方程中的自注意力機制就是本論文研究的主題。

      2 循環(huán)神經(jīng)網(wǎng)絡注意力機制與自編碼網(wǎng)絡注意力機制的比較

      文中猜測,對于基于自編碼網(wǎng)絡的機器翻譯系統(tǒng),注意力矩陣與詞對齊并不相關。為了驗證這一猜測,研究通過實驗比較了2種神經(jīng)網(wǎng)絡機器翻譯模型在詞對齊任務上的效果。

      2.1 實驗配置與基線系統(tǒng)

      文中使用LDC數(shù)據(jù)集來訓練英語-漢語的神經(jīng)網(wǎng)絡機器翻譯模型。LDC語料庫由以下部分構成:LDC2002E18、LDC2003E07、LDC2003E14、LDC2004T07的Hansards部分、LDC2004T08以及LDC2005T06。合計約140萬平行句對。翻譯性能根據(jù)單詞粒度的BLEU得分[14]進行評價。選擇使用NIST MT 2002數(shù)據(jù)集進行評價。這個數(shù)據(jù)集含有878個平行句對。

      由于在NIST MT 2002中,沒有人工標記的詞對齊信息,因此使用一個人工標注的詞對齊語料庫(THU語料庫,http://nlp.csai.tsinghua.edu.cn/~ly/systems/TsinghuaAligner/TsinghuaAligner.html)來評價詞對齊的學習質量。這個語料庫由英語-漢語平行句對組成,這些句對的詞對齊信息已經(jīng)被人工標注完畢。每個詞對齊信息都關聯(lián)著一個標注人員的確信程度(“確信”或“不確信”)。研究將包含“不確信”的句對全部刪除。為了提升評價的可信性,只評價長句子(即,包含10個詞對齊以上的句子)。最終的THU語料庫包含854個平行句對。需要注意的是,雖然THU語料庫還提供了130萬的平行句對用于訓練一個詞對齊模型,但是只使用了THU語料庫的測試集部分。評價的度量是詞對齊錯誤率(AER)。在評價AER時,研究強制令解碼器輸出參考譯文的單詞,選擇詞對齊矩陣中的最大值作為對齊的源語言單詞,進行評價。

      2種神經(jīng)網(wǎng)絡機器翻譯模型都是基于OpenNMT(http://opennmt.net)[15]實現(xiàn)的。對于基于循環(huán)神經(jīng)網(wǎng)絡的機器翻譯模型,編碼器和解碼器都有2個隱含層,隱含層的單元是長短時記憶網(wǎng)絡。對于自編碼網(wǎng)絡的神經(jīng)機器翻譯模型,編碼器和解碼器的層數(shù)均為6。研究使用了多頭注意力機制,頭的數(shù)量為8。同時還使用了層歸一化策略[16]。關于模型的正則化,則使用了下面的方法:標簽平滑[17]和dropout[18]。在優(yōu)化時,選擇使用了Adam優(yōu)化算法[19]。

      表1給出了基線系統(tǒng)的實驗結果。對于基于自編碼神經(jīng)網(wǎng)絡的機器翻譯模型,由于采用了多頭注意力機制,詞對齊是通過最后一個頭進行計算的。雖然自編碼網(wǎng)絡的機器翻譯模型的翻譯質量要遠好于另一方,但是注意力矩陣給出的詞對齊的質量要遠差于另一方。

      表1 基線系統(tǒng)的實驗結果

      2.2 自注意力機制不同頭的效果

      之前已經(jīng)有研究表明,對于多頭自注意力機制來說,調節(jié)頭的數(shù)量[20]或者對各個頭取平均[21]會對模型的性能產(chǎn)生很大的影響。因此,研究考察了在學習詞對齊的任務上,調節(jié)自注意力機制的頭會產(chǎn)生怎樣的影響。

      表2給出了自注意力機制的不同頭計算得到的詞對齊錯誤率。由表2可以看到,雖然詞對齊錯誤率各不相同,但是所有的頭都沒有很好地學習到詞對齊。所有的詞對齊錯誤率都要遠高于基于循環(huán)神經(jīng)網(wǎng)絡的機器翻譯模型的注意力模塊計算得到的詞對齊錯誤率(18.9)。

      表2 Transformer不同頭的AER

      表3給出了調節(jié)自注意力機制頭的數(shù)量的結果,以及對各個頭取平均的結果。表3中,井號(#)表示頭的數(shù)量,“hlast”表示使用最后一個頭計算詞對齊錯誤率,“aver”表示使用所有頭的平均值來計算詞對齊錯誤率。

      表3 調節(jié)自注意力機制頭數(shù)目的效果

      Tab. 3 Effects of modifying the number of heads of self-attention mechanism

      系統(tǒng)AERBLEU (MT02)BLEU (THU)#=1,hlast31.323.3528.30#=2,hlast27.923.8727.82#=4,hlast30.124.7628.03#=8,hlast28.225.5028.18#=16,hlast29.125.2428.55#=8, aver32.325.5028.18

      可以看到,雖然機器翻譯的性能幾乎會隨著頭數(shù)量的增加而變好,但是詞對齊錯誤率幾乎不變。對所有頭取平均也不會讓詞對齊錯誤率有所降低。因此,對于基于自編碼網(wǎng)絡的神經(jīng)機器翻譯模型來說,僅僅調節(jié)頭的數(shù)目是不夠的,并不能夠讓模型學習到很好的詞對齊。

      2.3 訓練階段模型的演化

      圖2給出了單詞粒度的BLEU得分與詞對齊錯誤率在訓練過程中的變化情況。BLEU得分是在NIST MT 02語料庫上測試得到的,詞對齊錯誤率是在THU語料庫上測試得到的。正如研究前期預想的那樣,2個模型的BLEU得分都會隨著訓練的進行而逐漸升高,并且基于自編碼網(wǎng)絡的機器翻譯模型會得到更好的翻譯效果。然而,自編碼網(wǎng)絡的神經(jīng)機器翻譯模型的詞對齊錯誤率要比基于循環(huán)神經(jīng)網(wǎng)絡的模型更高,并且會隨著訓練的進行而變得越來越高,也就是說詞對齊的效果會越來越差。這就為前文的猜想提供了一個證據(jù),即,基于自編碼神經(jīng)網(wǎng)絡的神經(jīng)機器翻譯系統(tǒng)的注意力矩陣并不是詞對齊。

      圖2 AER與單詞粒度BLEU得分的演化過程

      2.4 有監(jiān)督注意力機制方法的效果

      遵循文獻[8]的做法,研究使用金標準的詞對齊來引導模型的訓練。對于基于自編碼網(wǎng)絡的神經(jīng)機器翻譯系統(tǒng),只對多頭自注意力機制的最后一個頭進行引導。具體地,首先將金標準的詞對齊轉化為0-1的矩陣,再使用一個服從正態(tài)分布N(0,0.5)的高斯濾波器對矩陣進行平滑。然后,在訓練時,將在損失函數(shù)中加入下面一項。具體如下:

      (13)

      其中,A*是平滑后的金標準詞對齊矩陣,A是神經(jīng)網(wǎng)絡機器翻譯模型學習得到的注意力矩陣。

      對于文中的實驗,LDC訓練語料庫的金標準詞對齊矩陣是使用GIZA++(http://www.fjoch.com/GIZA++.html)工具得到的。表4給出了有監(jiān)督注意力機制方法的實驗結果。對于基于循環(huán)神經(jīng)網(wǎng)絡的機器翻譯模型,使用有監(jiān)督注意力機制的方法,詞對齊的錯誤率有所降低,機器翻譯的性能有所提升。然而,對于基于自編碼神經(jīng)網(wǎng)絡的機器翻譯模型,使用有監(jiān)督注意力機制的方法,雖然詞對齊的錯誤率得到了大幅度的降低,但是機器翻譯的性能受到了很大程度的損害。這就證明了本次研究中的假設:自編碼神經(jīng)網(wǎng)絡的機器翻譯模型的注意力矩陣與詞對齊是有很大差異的,因此金標準的詞對齊會誤導訓練過程的進行。

      表4 有監(jiān)督注意力機制的實驗結果

      3 自注意力機制與詞對齊不匹配的原因

      通過上述實驗分析,一個很自然的問題就是:為什么自注意力機制與詞對齊不存在對應關系。這就是本節(jié)所關注的問題。

      3.1 暴露范圍的不同

      當計算編碼器的表示時,除了表面上使用的具體數(shù)學公式有所不同外,研究發(fā)現(xiàn),其根本性的不同在于暴露范圍的不同。

      (14)

      (15)

      這種計算方式被稱作后向編碼遮罩。編碼器的其它層也可以按照類似的方式進行計算。

      表5給出了添加編碼遮罩的實驗結果。星號表示實驗結果具有統(tǒng)計顯著性。由表5可以看到,雖然詞對齊的錯誤率仍然要高于基于循環(huán)神經(jīng)網(wǎng)絡的機器翻譯模型,但是通過添加編碼遮罩的方式,確實能夠讓基于自編碼網(wǎng)絡的機器翻譯模型學習到更好的詞對齊。此外,雖然編碼遮罩減少了編碼器所使用的信息,但是在THU語料庫上的翻譯效果并沒有受到太大的影響。對于NIST MT 02語料庫,BLEU得分在一定程度上甚至還有所上升,這一點就超出了設計預期。因此,分析后可知,暴露范圍的不同確實是造成自編碼網(wǎng)絡的神經(jīng)機器翻譯模型無法成功學習到詞對齊的原因之一。

      表5 加入編碼遮罩的效果

      3.2 依賴關系的不同

      (16)

      表6給出了在編碼器或解碼器的最后一層上方添加循環(huán)神經(jīng)網(wǎng)絡層的效果。研究選擇的循環(huán)神經(jīng)網(wǎng)絡是雙向的長短時記憶單元網(wǎng)絡。表6中的井號(#)表示循環(huán)神經(jīng)網(wǎng)絡的層數(shù),星號表示實驗結果具有統(tǒng)計顯著性。

      表6 添加雙向循環(huán)神經(jīng)網(wǎng)絡的結果

      從實驗結果中,可以看到,在編碼器或解碼器一側添加循環(huán)神經(jīng)網(wǎng)絡并沒有顯著的差別。隨著循環(huán)神經(jīng)網(wǎng)絡層數(shù)的增加,模型可以學習到更好的詞對齊。而且,在大多數(shù)情形下,機器翻譯的效果都有所提升。這個實驗就證明了,依賴關系的不同也是造成基于自編碼網(wǎng)絡的機器翻譯系統(tǒng)無法學習到優(yōu)質詞對齊的原因之一。

      4 結束語

      研究發(fā)現(xiàn)Transformer的注意力機制矩陣并不對應于詞對齊。研究設計了多組實驗,通過實驗數(shù)據(jù),定量地證明了這一點。同時,分析給出了這個現(xiàn)象的原因,并且提出了2種方法,使其能夠成功地學習到詞對齊。

      猜你喜歡
      錯誤率語料庫注意力
      限制性隨機試驗中選擇偏倚導致的一類錯誤率膨脹*
      讓注意力“飛”回來
      《語料庫翻譯文體學》評介
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      正視錯誤,尋求策略
      教師·中(2017年3期)2017-04-20 21:49:49
      把課文的優(yōu)美表達存進語料庫
      A Beautiful Way Of Looking At Things
      解析小學高段學生英語單詞抄寫作業(yè)錯誤原因
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      降低學生計算錯誤率的有效策略
      湖口县| 彝良县| 余庆县| 石首市| 泰州市| 额济纳旗| 西和县| 文安县| 海伦市| 略阳县| 长汀县| 蒲江县| 西畴县| 长沙市| 应城市| 陆丰市| 冷水江市| 电白县| 吉首市| 武川县| 洞口县| 华阴市| 越西县| 耒阳市| 东宁县| 宜春市| 青冈县| 阳东县| 东辽县| 乌什县| 夏邑县| 方正县| 安塞县| 沭阳县| 曲阜市| 鄂尔多斯市| 甘泉县| 榆中县| 奉新县| 太湖县| 嵩明县|