• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合數(shù)據(jù)增強與多樣化解碼的神經(jīng)機器翻譯

    2021-06-22 08:32:38張一鳴劉俊鵬宋鼎新黃德根
    關(guān)鍵詞:檢查點解碼語料

    張一鳴,劉俊鵬,宋鼎新,黃德根

    (大連理工大學(xué)計算機科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)

    近年來,隨著端到端結(jié)構(gòu)[1]的提出,神經(jīng)機器翻譯獲得了迅速發(fā)展.早期的神經(jīng)機器翻譯采用循環(huán)神經(jīng)網(wǎng)絡(luò)對句子建模,將源語言的句子壓縮成一個向量供譯文生成使用;但傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時容易發(fā)生梯度爆炸和梯度消失的問題[2],無法有效地傳遞長距離的信息,因此翻譯效果較差.為此,長短期記憶網(wǎng)絡(luò)[3]和門循環(huán)單元[4]的引入能更好地捕捉長距離依賴,顯著改善了神經(jīng)機器翻譯系統(tǒng)的性能,從而超越了統(tǒng)計機器翻譯方法[5-6].然而,考慮到循環(huán)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的不穩(wěn)定性以及串行執(zhí)行的低效率,一些高效并行的網(wǎng)絡(luò)結(jié)構(gòu)被相繼提出,其中應(yīng)用最廣泛的是基于卷積神經(jīng)網(wǎng)絡(luò)的ConvS2S模型[7]和基于自注意力機制的Transformer模型[8].相比之下,Transformer模型的翻譯性能更加優(yōu)異,目前已成為機器翻譯領(lǐng)域的主流模型.但受限于詞表大小和雙語語料規(guī)模,神經(jīng)機器翻譯往往在實體翻譯和模型泛化性上表現(xiàn)不佳;同時,解碼階段采用“最佳模型”進行預(yù)測的方式可能無法獲得全局最優(yōu)的譯文結(jié)果.

    面向第16屆全國機器翻譯大會(CCMT 2020)中英新聞領(lǐng)域的機器翻譯任務(wù),本文主要從以下3個方面改進上述問題:1) 數(shù)據(jù)泛化.基于規(guī)則識別匹配和外部資源對時間表達式、數(shù)字、人名等實體進行泛化.2) 數(shù)據(jù)增強.使用源端單語句子構(gòu)造偽雙語句對,通過長度比、詞對齊等篩選條件對偽語料進行過濾,然后擴充到雙語平行語料中提升翻譯性能.3) 多樣化解碼策略.調(diào)整長度懲罰因子、束搜索寬度參數(shù),嘗試用不同的方式結(jié)合檢查點平均和模型集成來進行解碼,并以雙語互譯評估(BLEU)值作為評價標準對多個候選譯文進行重打分,得到最優(yōu)譯文.

    1 數(shù)據(jù)泛化

    1.1 語料預(yù)處理

    實驗使用的數(shù)據(jù)集均來自CCMT 2020公開的語料,包括CCMT中英新聞領(lǐng)域的雙語平行語料和中文單語語料XMU-CWMT 2017.其中,雙語句對數(shù)量約為902萬,中文單語句子數(shù)量約為500萬.

    首先,為了提高數(shù)據(jù)質(zhì)量,在訓(xùn)練前對上述語料進行過濾處理,包括:過濾含有亂碼的句子,將轉(zhuǎn)義字符替換為對應(yīng)的符號,將全角符號統(tǒng)一轉(zhuǎn)換為半角格式,去除重復(fù)的句子.其次,為緩解詞匯稀疏的現(xiàn)象,對語料進行泛化處理,詳見1.2節(jié).之后使用NiuTrans[9]中提供的分詞工具對中英文進行分詞,并篩選保留中英文句子長度比在0.4~1.6范圍內(nèi)的句子.最后,為了精簡詞表,更好地解決集外詞的問題,采用Sennrich等[10]提出的字節(jié)對編碼(byte pair encoding,BPE)(https:∥github.com/resennrich/subword-nmt)分別將中英文詞語切分成更小粒度的子詞,翻譯后再進行恢復(fù).

    1.2 語料泛化處理

    新聞領(lǐng)域的語料中常包含著大量的命名實體,如人名、地名和機構(gòu)名等,這些命名實體出現(xiàn)的次數(shù)較多,但重復(fù)率不高,尤其是人名.為了緩解詞匯稀疏的現(xiàn)象,本研究對語料進行泛化處理[11].對訓(xùn)練語料進行人名泛化,在測試階段對中文單語進行人名、地名和機構(gòu)名的泛化.同時,對時間表達式、數(shù)字等特殊表達也進行了泛化.采用基于規(guī)則的方法對數(shù)字、日期和時間表達式進行識別和匹配,然后用“$number”、“$date”和“$time”標簽對匹配項進行替換.在一個句子中通常存在著多個同類泛化成分,為了加以區(qū)分并降低恢復(fù)難度,在標簽中添加不同的數(shù)字編號進行區(qū)分,即“$number_i”、“$date_i”、“$time_i”(i=0,1,…,n).采用實驗室內(nèi)部開發(fā)的中文實體識別工具和Stanford CoreNLP開源工具(http:∥nlp.stanford.edu/software/stanford-english-corenlp-2018-10-05-models.jar)分別對中英文實體進行識別.然后,基于中英文人名詞典對人名進行識別匹配.初步匹配后,根據(jù)中文人名常使用漢語拼音作為英文翻譯這一特點,綜合拼音模糊匹配以及中英文人名首字母音譯規(guī)律對人名進行再次匹配.用“$name”標簽對匹配項進行替換,同樣加數(shù)字編號進行區(qū)分,即“$name_i”(i=0,1,…,n).受限于外部資源,僅在測試階段對中文單語增加了地名和機構(gòu)名的泛化.通過訓(xùn)練集的詞頻統(tǒng)計,使用中國省份名稱的中英文翻譯作為標簽對兩類實體進行泛化,如“北京-Beijing”和“天津-Tianjin”等.

    數(shù)據(jù)泛化階段,雙語語料的泛化需要保證中英兩側(cè)泛化標簽的一致性,若存在單側(cè)識別不匹配的情況,則保持原有形式不作處理;單語語料的泛化則需要對所有匹配項進行泛化處理.由于在測試階段對單語進行了泛化處理,所以解碼后的譯文中包含泛化標簽,根據(jù)標簽對應(yīng)關(guān)系對泛化部分進行恢復(fù)后才能得到最終譯文.對于數(shù)字、日期和時間表達式來說,統(tǒng)計常用中英文表達的轉(zhuǎn)換規(guī)律,根據(jù)這些規(guī)律編寫固定的翻譯規(guī)則進行恢復(fù);對于人名、地名和機構(gòu)名來說,使用外部詞典進行還原.對人名來說,若詞典中無匹配結(jié)果,則使用中文人名的拼音作為英文翻譯結(jié)果.

    2 數(shù)據(jù)增強

    為了更好地利用單語語料,Sennrich等[12]提出了一種利用目標端的單語數(shù)據(jù)生成偽雙語句對的數(shù)據(jù)增強技術(shù),即反向翻譯技術(shù),可以有效擴充訓(xùn)練語料,提升翻譯質(zhì)量.Zhang等[13]提出了利用源端單語句子的數(shù)據(jù)增強方法,同樣可以有效地增強雙語模型.在此基礎(chǔ)上,采用正向翻譯技術(shù)來構(gòu)造偽雙語句對,以此來增強雙語模型.數(shù)據(jù)增強的總體流程如圖1所示.

    圖1 數(shù)據(jù)增強流程圖Fig.1 Flow chart of data enhancement

    2.1 偽雙語語料的構(gòu)建

    為了提高偽雙語句對的質(zhì)量,需要對中文單語語料進行額外的過濾處理,包括:去除包含特殊符號的句子,去除字符長度小于11且中文字符占比小于0.5的句子,以“;”和“。”作為切分點對長句進行切割.

    過濾后得到質(zhì)量相對較好的中文單語語料.利用事先訓(xùn)練的一個翻譯性能較好的正向翻譯模型將該中文單語語料翻譯成英文平行語料,進而共同構(gòu)成初始偽雙語語料.

    2.2 偽雙語語料過濾

    為了保證偽雙語語料的質(zhì)量,使用長度比和詞對齊兩個約束對生成的偽雙語語料進行過濾:首先,將長度比限定在0.4~1.6的范圍內(nèi),剔除句子長度差距過大的句對以減少干擾;其次,使用GIZA++工具(http:∥code.google.com/p/giza-pp/downloads/detail?name=giza-pp-v1.0.7.tar.gz)對偽雙語句對進行詞對齊,去掉詞對齊比率過低的句子.過濾后,將偽雙語語料擴充到雙語平行語料中形成新的訓(xùn)練集.融合后訓(xùn)練集中包含的雙語平行語料和偽雙語語料句子數(shù)分別為670萬和680萬,其中關(guān)于雙語平行語料和偽雙語語料的統(tǒng)計均為過濾之后實際用于訓(xùn)練的數(shù)量,在此基礎(chǔ)上訓(xùn)練數(shù)據(jù)增強后的中英神經(jīng)翻譯模型.

    3 解碼策略

    實驗融合檢查點平均[14]、模型集成、重打分方法在解碼階段提高譯文質(zhì)量.下面分別對這3個方面進行介紹.

    1) 檢查點平均.檢查點平均是指將同一模型在不同時刻保存的參數(shù)進行平均.保存的參數(shù)通常選擇模型基本收斂時對應(yīng)的最后N個時刻的參數(shù),防止引入其他噪聲.以同等的權(quán)重對N個檢查點的參數(shù)進行平均,得到魯棒性更強的模型參數(shù).

    2) 模型集成.模型集成是利用多個機器翻譯系統(tǒng)協(xié)同進行解碼的方法,在神經(jīng)機器翻譯領(lǐng)域有著廣泛的應(yīng)用[14-15].集成解碼使用的模型可以使用同構(gòu)或者異構(gòu)的系統(tǒng),一般來說結(jié)構(gòu)和初始化均不同的模型通常更具有差異性,能夠帶來更大的提升.

    3) 重打分.解碼階段,同一個源句子可以通過調(diào)整長度懲罰因子和束搜索寬度參數(shù)設(shè)置的方式生成多個候選譯文.進一步實驗發(fā)現(xiàn),對于不同的源句子而言,最佳候選翻譯往往對應(yīng)不同的參數(shù)設(shè)置.因此,使用單一參數(shù)設(shè)置解碼得到的譯文結(jié)果往往無法達到最優(yōu).為此,實驗中使用句子級別的BLEU值作為評分標準,通過重打分選取多個候選譯文結(jié)果中得分最高的句子作為最終輸出.

    實驗采用相同的驗證集,通過調(diào)整訓(xùn)練語料規(guī)模以及隨機初始化等方式訓(xùn)練了k個英文到中文的翻譯模型M1,M2,…,Mk以用于重打分.當輸入一個中文源句子S進行解碼時,首先通過調(diào)整參數(shù)的方式生成n個候選譯文,形成候選列表C.然后,選取C中的一個候選譯文Ci,使用M1,M2,…,Mk對其進行反向解碼,將其重新翻譯成多個中文句子L1,L2,…,Lk.分別計算L1,L2,…,Lk與S的BLEU值,得到V1,…,Vk.以模型M1,M2,…,Mk在訓(xùn)練階段驗證集上獲得的最高BLEU值作為各自的權(quán)重W1,…,Wk,通過加權(quán)求和得到譯文句子Ci的評價分數(shù)Si.重復(fù)上述操作,循環(huán)n次后得到與候選列表C相對應(yīng)的評價分數(shù)列表.最后,對比n個候選譯文的評價分數(shù),從C中選擇得分最高的候選譯文T作為最終輸出.

    4 實驗結(jié)果

    4.1 實驗參數(shù)

    本實驗使用開源框架THUMT(http:∥github.com/THUNLP/THUMT)中提供的Transformer模型作為基線系統(tǒng),實驗參數(shù)如下:編碼器與解碼器的層數(shù)均為6層,詞向量與隱層狀態(tài)維度均為512,前饋神經(jīng)網(wǎng)絡(luò)中的隱層狀態(tài)維度為2 048,多頭注意力機制使用8個頭.訓(xùn)練階段中的每個批次(batch)包含6 250個詞,模型訓(xùn)練20萬步,每2 000步保存一次模型參數(shù)(檢查點),并在訓(xùn)練過程中保存最優(yōu)的10個檢查點.損失函數(shù)使用極大似然估計,并使用Adam梯度優(yōu)化算法,初始學(xué)習(xí)率為1.0,預(yù)熱學(xué)習(xí)步數(shù)為4 000.訓(xùn)練集雙語語料使用BPE算法進行切分,中英文詞表大小均限制為3.2萬,且兩者不共享詞表.解碼階段,使用集束搜索算法和長度懲罰因子對模型進行調(diào)優(yōu).實驗使用兩個NVIDIA TITAN Xp GPU進行訓(xùn)練.

    模型方面,首先通過隨機初始化參數(shù)的方式訓(xùn)練了4個增強的中英模型,然后選取每個模型中BLEU值得分最高的3個檢查點進行檢查點平均,最后對4個平均模型進行模型集成來完成最后的解碼.在重打分階段引入了4組不同參數(shù)設(shè)置下生成的譯文結(jié)果作為候選項,訓(xùn)練了3個不同的英中模型用于譯文結(jié)果的重打分.

    4.2 實驗結(jié)果與分析

    系統(tǒng)在驗證集newstest2019上的結(jié)果如表1所示,評測指標采用大小寫不敏感的BLEU值,使用multi-BLEU(https:∥github.com/moses-smt/mose-sdecoder/blob/master/scripts/generic/multibleu.perl)作為評測工具.

    從表1可以看出,在基線系統(tǒng)(系統(tǒng)0)上逐步加入正向翻譯、檢查點平均、模型集成、重打分構(gòu)成系統(tǒng)1~4,這些方法對系統(tǒng)BLEU值的提高均有幫助,總體可提高4.89個百分點.其中,正向翻譯技術(shù)提升的效果較為顯著,相較于基線系統(tǒng)可以提高3.48個百分點,說明單語數(shù)據(jù)的引入可顯著提升機器翻譯的性能.

    表1 newstest2019驗證集的BLEU值Tab.1 BLEU values of newstest2019 validation sets

    同時,在實驗過程中對以下3個方面進行分析:

    1) 正向翻譯分析

    在數(shù)據(jù)增強實驗階段,使用長度比和詞對齊兩個約束條件對生成的偽雙語句對進行過濾.為了探索語料過濾手段的有效性,分別將過濾前和過濾后的偽雙語語料與雙語平行語料融合生成不同的訓(xùn)練集,然后各自訓(xùn)練生成不同的中英翻譯模型.對比分析兩個模型在驗證集上的表現(xiàn)來檢驗語料過濾的有效性,結(jié)果如表2所示.可以看出:偽平行語料的加入有助于雙語模型的提升;同時,偽雙語語料的過濾能有效地消除語料中的噪聲,進一步提高語料質(zhì)量.

    表2 語料過濾對翻譯性能的影響Tab.2 Influence of corpus filteringon translation performance

    2) 長度懲罰因子分析

    在正向翻譯實驗的基礎(chǔ)上探索了不同的長度懲罰因子α對實驗的影響.首先,將束搜索大小設(shè)置為12,然后調(diào)整長度懲罰因子的值來進行實驗,結(jié)果如表3所示.隨著長度懲罰因子的增加,BLEU值呈現(xiàn)先增后減的趨勢,說明在一定范圍內(nèi)調(diào)整長度懲罰因子有助于BLEU值的提高,而過大的長度懲罰因子可能會導(dǎo)致束搜索無法選擇正確的結(jié)果.

    表3 長度懲罰因子對BLEU值的影響Tab.3 Influence of length normalization on BLEU values

    3) 束搜索大小分析和重打分分析

    (a) 束搜索大小分析 實驗探索了不同的束搜索大小對實驗的影響.將長度懲罰因子α設(shè)置為1.6,通過調(diào)整不同的束搜索大小來進行對比實驗,結(jié)果如表4所示:隨著束搜索大小的增加,BLEU值有所提高.對比束搜索大小設(shè)置為12和15時得到的譯文結(jié)果,可以發(fā)現(xiàn):束搜索大小設(shè)置為15時整體BLEU值雖然有所提高,但是會使部分句子的BLEU值變低,即兩種設(shè)置下存在不同的高分句子,使得整體的譯文結(jié)果無法達到最優(yōu).進一步分析發(fā)現(xiàn),當束搜索大小從12增加到15時,雖然會使驗證集中194個譯文句子的BLEU值上升,但也使得121個譯文句子的BLEU值下降.為此本文采用重打分進一步提高整體的翻譯性能.

    表4 束搜索大小對BLEU值的影響Tab.4 Influence of beam size on BLEU values

    (b) 重打分分析 由于條件限制,實驗過程中只對束搜索大小為12和15的兩種情況進行了重打分分析.將二者各自得分最高的譯文句子綜合在一起進行重打分,BLEU值為29.95%,可見綜合不同參數(shù)設(shè)置下BLEU值得分最高的句子生成的譯文結(jié)果比單一參數(shù)設(shè)置下譯文結(jié)果的BLEU值有所提升,可以緩解部分句子在參數(shù)調(diào)整階段得分降低的情況,提升整體的翻譯質(zhì)量.

    5 結(jié) 論

    面向CCMT 2020中英新聞領(lǐng)域機器翻譯任務(wù),本研究提出了一種融合數(shù)據(jù)增強技術(shù)和多樣化解碼策略的方法來提高機器翻譯的性能.使用Transformer作為基線系統(tǒng),從數(shù)據(jù)處理、數(shù)據(jù)增強、多樣化解碼策略3個方面進行了改進.實驗融合了包括正向翻譯、檢查點平均、模型集成、重打分等多種技術(shù)來提高翻譯性能.實驗結(jié)果顯示,這些方法能夠明顯提高譯文質(zhì)量,且改進后的系統(tǒng)較基線系統(tǒng)的BLEU值提升了4.89個百分點.

    在下一步的工作中,擬擴充語料的規(guī)模并結(jié)合更深層次的模型配置以提高雙語模型的整體性能,同時擬通過迭代回譯等方式更好地利用單語數(shù)據(jù)增強雙語模型,并嘗試在重打分階段融入更多的特征來篩選譯文結(jié)果.

    猜你喜歡
    檢查點解碼語料
    《解碼萬噸站》
    Spark效用感知的檢查點緩存并行清理策略①
    免疫檢查點抑制劑相關(guān)內(nèi)分泌代謝疾病
    解碼eUCP2.0
    中國外匯(2019年19期)2019-11-26 00:57:32
    免疫檢查點抑制劑在腫瘤治療中的不良反應(yīng)及毒性管理
    NAD C368解碼/放大器一體機
    Quad(國都)Vena解碼/放大器一體機
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
    分布式任務(wù)管理系統(tǒng)中檢查點的設(shè)計
    丹巴县| 册亨县| 东乌| 滨州市| 开鲁县| 陇西县| 永春县| 青阳县| 县级市| 合肥市| 德庆县| 外汇| 仙居县| 贡嘎县| 格尔木市| 遂宁市| 类乌齐县| 定远县| 巴中市| 项城市| 庆阳市| 通榆县| 阿拉善右旗| 洞头县| 万宁市| 赤水市| 阿克苏市| 曲水县| 平果县| 富宁县| 襄城县| 阿尔山市| 普格县| 文成县| 大田县| 钟山县| 手游| 德格县| 交城县| 汤阴县| 塔城市|