• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合零指代識(shí)別的篇章級(jí)機(jī)器翻譯

      2023-10-25 02:21:56李軍輝貢正仙
      中文信息學(xué)報(bào) 2023年8期
      關(guān)鍵詞:指代省略代詞

      汪 浩,李軍輝,貢正仙

      (蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

      0 引言

      代詞在自然語言中占有重要地位,其蘊(yùn)涵著豐富的語篇信息。在漢語、日語等語言中,如果可以從周圍的語境或?qū)υ捴型茢喑鼍渥又械拇~,那么該代詞往往會(huì)被省略,以使句子更加簡(jiǎn)潔精煉。這種特殊的語法現(xiàn)象被稱為零指代現(xiàn)象,這些語言被稱為代詞省略語言(Pro-drop Languages)。這種充滿口語化的表達(dá)雖然不會(huì)對(duì)人類理解語言造成困難,但當(dāng)計(jì)算機(jī)處理此類文本時(shí),則對(duì)文本理解可能會(huì)出現(xiàn)極大的偏差。在機(jī)器翻譯任務(wù)中,這種不適應(yīng)現(xiàn)象尤其顯著。當(dāng)把代詞省略語言的句子翻譯成非代詞省略語言的時(shí)候(如從漢語到英語),機(jī)器翻譯系統(tǒng)會(huì)因?yàn)闊o法正確翻譯出省略的代詞(Dropped Pronouns,DP)而導(dǎo)致翻譯性能明顯下降。這個(gè)問題在非正式的文本領(lǐng)域中尤其嚴(yán)重,如對(duì)話和會(huì)談等,因?yàn)樵谶@些領(lǐng)域中,為了使句子更加緊湊,代詞經(jīng)常被省略[1]。Wang等[2]分析了一個(gè)大規(guī)模中英對(duì)話語料庫(kù),結(jié)果表明,在該語料中文端的文本中,大約有26%的代詞被省略了。由此可見,解決省略代詞翻譯難題對(duì)非正式文本領(lǐng)域的機(jī)器翻譯任務(wù)具有重大的意義。

      先前的研究人員在統(tǒng)計(jì)機(jī)器翻譯模型和傳統(tǒng)的神經(jīng)機(jī)器翻譯模型基礎(chǔ)上做了一些緩解省略代詞翻譯錯(cuò)誤的研究。例如,Wang等[3]首次提出利用平行語料庫(kù)中的對(duì)齊信息自動(dòng)標(biāo)注出省略代詞的方法,較大程度上恢復(fù)了中文對(duì)話語料的省略代詞,使得翻譯性能得到了非常顯著的提升。Tan等[4]利用特殊的標(biāo)注方法,將標(biāo)注的省略代詞的翻譯作為外部詞匯知識(shí)整合到神經(jīng)網(wǎng)絡(luò)翻譯中。但由于零指代機(jī)器翻譯領(lǐng)域一直得到的關(guān)注不足,導(dǎo)致研究人員尚未基于最為先進(jìn)的機(jī)器翻譯模型——Transformer[5]來解決省略代詞翻譯的難題,相關(guān)研究一直存在空白。受此啟發(fā),本文首次將機(jī)器翻譯模型Transformer引入零指代機(jī)器翻譯領(lǐng)域。Transformer雖然能夠利用獨(dú)特的多頭注意力機(jī)制來捕獲更多的語義信息,但面對(duì)看不見的省略代詞,也只能翻譯出一些簡(jiǎn)單的部分,仍然無法準(zhǔn)確地翻譯出更復(fù)雜句子中的省略代詞。特別地,由于零指代的識(shí)別往往需要篇章上下文信息,因此本文先通過往模型中引入篇章上下文信息,再進(jìn)行零指代識(shí)別。同時(shí),本文將零指代識(shí)別看作是一個(gè)分類任務(wù),即識(shí)別零指代在句子中擔(dān)當(dāng)?shù)木浞ǔ煞帧?/p>

      本文利用聯(lián)合學(xué)習(xí)的架構(gòu),將分類任務(wù)和翻譯任務(wù)聯(lián)合起來,在不改變翻譯模型的基礎(chǔ)上,向翻譯模型隱式地加入有效的零指代信息,緩解省略代詞翻譯錯(cuò)誤問題。同樣,我們也期望分類任務(wù)和翻譯任務(wù)的作用: 分類為翻譯提供更多的零指代信息,翻譯幫助分類解決歧義等問題。此外,先前的研究表明篇章信息能夠很好地處理零指代消解問題[6-7],而且篇章信息早已被證明能夠顯著提高機(jī)器翻譯的性能,解決譯文不通順、不連貫的問題[8-10]。Wang等[11]使用層次神經(jīng)網(wǎng)絡(luò)來總結(jié)文本中當(dāng)前句子的上下文,并將其集成到預(yù)測(cè)省略代詞的聯(lián)合模型中,取得了不錯(cuò)的效果。但是Wang并未充分利用篇章信息來同時(shí)提高翻譯與預(yù)測(cè)任務(wù)的性能。本文的模型更進(jìn)一步,利用聯(lián)合學(xué)習(xí)共享模塊的結(jié)構(gòu)和注意力機(jī)制,充分利用豐富的篇章信息來同時(shí)提升兩個(gè)任務(wù)的效果。本文提出的方法在大規(guī)模中英對(duì)話語料庫(kù)上的實(shí)驗(yàn)結(jié)果表明,該方法可以顯著提高省略代詞的翻譯性能,與本文中強(qiáng)大的基準(zhǔn)模型相比,翻譯性能提高了1.48個(gè)BLEU值。

      本文的主要貢獻(xiàn)有:

      (1) 本文首次在零指代機(jī)器翻譯任務(wù)中引入當(dāng)前最為先進(jìn)的機(jī)器翻譯建模模型Transformer,并取得顯著效果;

      (2) 本文提出了一個(gè)簡(jiǎn)單的模型來共同學(xué)習(xí)翻譯任務(wù)和省略代詞的分類任務(wù),并且證明了分類任務(wù)可以輔助提升翻譯任務(wù)的性能;

      (3) 本文驗(yàn)證了篇章上下文信息對(duì)機(jī)器翻譯任務(wù)和零指代任務(wù)的有效性。

      1 相關(guān)工作

      1.1 零指代機(jī)器翻譯

      零指代機(jī)器翻譯離不開省略代詞的恢復(fù)任務(wù),前人在省略代詞的恢復(fù)研究方面取得了很大的進(jìn)展。Yang等[1]首次提出在中文文本信息中恢復(fù)省略代詞,通過訓(xùn)練一個(gè)17類的最大熵分類器來判斷句子中省略代詞的類別。Wang等[3]首次提出利用平行語料的對(duì)齊關(guān)系來恢復(fù)省略代詞的方法,取得了非常卓越的效果。但Wang等提出的方法存在天然的缺陷,解碼過程中由于無法看到目標(biāo)端的句子,因此無法利用對(duì)齊關(guān)系來恢復(fù)測(cè)試集的源端省略代詞,轉(zhuǎn)而利用已恢復(fù)的語料訓(xùn)練生成器生成省略代詞,但該模型性能較差,會(huì)造成錯(cuò)誤傳播,影響到翻譯任務(wù)的性能。Wang等[2,11]在聯(lián)合學(xué)習(xí)的架構(gòu)基礎(chǔ)上,利用一種重構(gòu)的方式將編碼器和解碼器輸出表征重構(gòu)回恢復(fù)省略代詞后的源端句子,解碼時(shí)由于翻譯模塊參數(shù)已固定而且輸入源端句子為未恢復(fù)省略代詞的句子,不會(huì)受到省略代詞的錯(cuò)誤預(yù)測(cè)的影響,取得了不錯(cuò)的效果。

      本文在前人的基礎(chǔ)上,引入了更為先進(jìn)的機(jī)器翻譯建模模型Transformer,在翻譯任務(wù)的基礎(chǔ)上,聯(lián)合了更為有效的句法成分識(shí)別任務(wù),除此之外,進(jìn)一步加入篇章上下文,使得零指代機(jī)器翻譯取得更好的效果。

      1.2 篇章翻譯

      主流的機(jī)器翻譯關(guān)注句子級(jí)別的翻譯,這種逐句翻譯的方式在句子層次上可能是完美的,但是忽略掉了篇章之內(nèi)句子之間的上下文信息,會(huì)導(dǎo)致翻譯句子缺乏流暢性和邏輯性,篇章級(jí)翻譯的興起有效改善了這些問題。

      Wang等[12]提出了多層次循環(huán)神經(jīng)網(wǎng)絡(luò),總結(jié)句子之間的篇章信息,并利用不同的策略將這些篇章信息集成到標(biāo)準(zhǔn)NMT模型中。Zhang等[9]采用多編碼器的結(jié)構(gòu),通過額外的編碼器來對(duì)上下文信息進(jìn)行特征抽取,與源語言信息融合,用于目標(biāo)語言生成。Maruf等[13]在Transformer的基礎(chǔ)上,將篇章級(jí)上下文表征和字符級(jí)注意力表征相結(jié)合,并將這種多層上下文注意力模塊融入編碼器和解碼器中。Yang等[14]提出了一種新的以查詢?yōu)閷?dǎo)向的膠囊網(wǎng)絡(luò),該網(wǎng)絡(luò)利用改進(jìn)的動(dòng)態(tài)路由算法來增強(qiáng)篇章級(jí)神經(jīng)機(jī)器翻譯的性能??紤]到主流篇章級(jí)翻譯模型通常采用一個(gè)額外的上下文編碼器,Chen等[15]使用大規(guī)模源端單語篇章對(duì)該上下文編碼器進(jìn)行預(yù)訓(xùn)練。Chen等[16]進(jìn)一步使用大規(guī)模源端單詞篇章和平行句對(duì)大幅度提高篇章翻譯的性能。研究者在基于源端上下文建模的方式上取得了顯著的成果,而基于目標(biāo)端上下文建模的方式同樣也受到很多關(guān)注。Voita等[17]和Xiong等[8]采用兩階段訓(xùn)練方法,第一階段生成句子級(jí)目標(biāo)端句子,第二階段從生成的譯文中抽取篇章信息,進(jìn)行譯文的二次生成,都取得了性能提升。

      與之前的工作相比較,本文為了減少算力消耗和參數(shù)量,采用共享參數(shù)的多編碼器結(jié)構(gòu)來抽取篇章信息,由于模型的多個(gè)任務(wù)共享編碼器模塊,因此本文只是在編碼器中融入篇章信息。

      2 背景

      2.1 省略代詞

      在代詞省略語言中,如漢語和日語,零指代出現(xiàn)的頻率明顯要高于非代詞省略語言如英語[6]。由于代詞在語篇中包含了豐富的指代信息,而且對(duì)話領(lǐng)域中的句子一般都較短,零指代現(xiàn)象不僅導(dǎo)致代詞的翻譯缺失,而且損害了輸出的句子結(jié)構(gòu)甚至語義。如表1展示的是有省略代詞句子的翻譯實(shí)例,Src和Ref表示源端句子和參考譯文,NMT表示標(biāo)準(zhǔn)Transformer的輸出譯文。從源端句子可以看出,例1中的主語代詞“我們”和例2中的賓語代詞“它”都被省略了,但在目標(biāo)端翻譯中這些代詞是不可缺少的。對(duì)人類來說,理解源端具有省略成分的句子不是問題,因?yàn)槲覀兛梢院苋菀椎貜纳舷挛闹型评沓鲞@些省略的代詞。如例2展示,代詞“它”是一個(gè)指示代詞,指示著前一句中的先行詞“蛋糕”,人類可以輕易地從前一句推斷出后一句省略了“它”,但這對(duì)機(jī)器來說是非常困難的。如例1展示,人類也能夠從全句推斷出句子缺少了主語,然后根據(jù)具體語義推斷主語代詞為“我們”,這同樣考驗(yàn)著機(jī)器的理解能力。

      表1 省略代詞的翻譯實(shí)例(括號(hào)中代詞指源端句子中的省略代詞)

      具體地,省略代詞的存在使代詞省略語言到非代詞省略語言的翻譯模型面臨巨大的挑戰(zhàn)。如表1中的例子所示,NMT是使用當(dāng)前最先進(jìn)的機(jī)器翻譯建模模型Transformer生成的譯文,如例1中Transformer無法成功地將源端缺失的代詞翻譯出來,造成目標(biāo)端譯文不夠完整,語義不通順。例2中,NMT由于無法捕捉到省略代詞的信息,導(dǎo)致將源端句子翻譯成“did you do”,不僅譯文翻譯不完整,而且出現(xiàn)了錯(cuò)誤翻譯的現(xiàn)象。

      2.2 神經(jīng)機(jī)器翻譯模型

      句子級(jí)神經(jīng)機(jī)器翻譯模型: 機(jī)器翻譯的目標(biāo)是將輸入的源語言句子轉(zhuǎn)化為目標(biāo)語言句子,經(jīng)典的方法是通過多分類模型對(duì)源端句子進(jìn)行建模,并通過自回歸模型生成目標(biāo)端句子的分布。設(shè)源端句子為x=x1,x2,…,xJ,目標(biāo)端句子為y=y1,y2,…,yI,其中y

      而神經(jīng)機(jī)器翻譯(NMT)的目標(biāo)是通過深度神經(jīng)網(wǎng)絡(luò)的編碼器-解碼器結(jié)構(gòu)構(gòu)造這個(gè)目標(biāo)函數(shù),其中θ為神經(jīng)網(wǎng)絡(luò)的超參數(shù)。

      篇章級(jí)神經(jīng)機(jī)器翻譯模型: 基于篇章上下文的機(jī)器翻譯任務(wù)則是在句子級(jí)翻譯建模模型的基礎(chǔ)上,結(jié)合同一篇章內(nèi)部分或所有上下文信息來進(jìn)行建模,如式(2)所示。

      其中,D表示對(duì)應(yīng)篇章中所有句子的集合,D-j表示篇章中除去第j個(gè)句子的其他句子。

      3 融合零指代識(shí)別的篇章級(jí)神經(jīng)機(jī)器翻譯

      3.1 零指代識(shí)別任務(wù)

      給定一個(gè)句子,傳統(tǒng)的零指代識(shí)別需要識(shí)別零指代出現(xiàn)的位置,以及缺失的代詞。一方面,考慮到零指代出現(xiàn)的位置非常具有歧義性,如在句子“今天 要 不要 去 電影”中,省略的代詞既可以出現(xiàn)在“今天”前,也可以出現(xiàn)在其后。另一方面,考慮到省略的代詞種類繁多,如實(shí)驗(yàn)數(shù)據(jù)訓(xùn)練集中省略的代詞種類達(dá)28種。

      而本文提出的零指代識(shí)別任務(wù)是指利用分類器模塊對(duì)源端句子中省略代詞所表示的句法成分進(jìn)行識(shí)別。本文模型中分類器的真實(shí)標(biāo)簽來自于識(shí)別出省略代詞后的句子。我們先識(shí)別原始句子中的省略代詞,訓(xùn)練集使用詞對(duì)齊的方式識(shí)別省略代詞,測(cè)試集則是使用Wang等[3]提出的省略代詞生成器自動(dòng)識(shí)別省略代詞,然后利用開源的依存句法分析庫(kù)DDParser(1)https://gitee.com/baidu/DDParser分析這些省略代詞的句法成分,統(tǒng)計(jì)并歸類,最終確定了分類器分類的四個(gè)標(biāo)簽: 缺失主語類,缺失賓語類、缺失定語類以及不缺失代詞類,標(biāo)簽實(shí)例如表2所示。

      3.2 模型結(jié)構(gòu)

      本文的出發(fā)點(diǎn)是如何更加有效地利用零指代信息來提升翻譯模型的效果。本文提出的模型的框架如圖1所示, 模型框架是基于Transformer的序列到序列模型,Transformer采用多頭注意力機(jī)制(multi-head attention), 能夠直接對(duì)序列中任意位置之間的關(guān)系進(jìn)行建模,這很好地解決了長(zhǎng)距離依賴問題,進(jìn)行多頭注意力計(jì)算時(shí),需要將輸入表征分別處理成Query(Q),Key(K),Value(V),然后利用這三個(gè)表征進(jìn)行注意力的計(jì)算,該過程用式(3)~式(5)表示如下。

      圖1 融合零指代識(shí)別的神經(jīng)機(jī)器翻譯模型

      其中,dk表示為表征K的維度。

      (4)

      其中,Cat表示拼接操作,h表示總頭數(shù),WO表示多頭拼接之后進(jìn)行線性變換的權(quán)重矩陣。

      本文模型在Transformer的基礎(chǔ)上進(jìn)行了適應(yīng)性改進(jìn),整體模型由編碼器(Encoder)、解碼器(Decoder)和分類器三個(gè)模塊構(gòu)成。

      編碼器我們對(duì)標(biāo)準(zhǔn)的Transformer編碼器進(jìn)行了改進(jìn)。編碼器由多層完全相同的子模塊堆疊而成,每一個(gè)子模塊由一個(gè)多頭自注意力子層、一個(gè)多頭上下文注意力子層和一個(gè)全連接前饋神經(jīng)網(wǎng)絡(luò)構(gòu)成。與標(biāo)準(zhǔn)的Transformer編碼器不同,本文額外引入了上下文注意力子層來融合篇章上下文信息,如圖1中虛線所指就是上下文信息的編碼過程,編碼端的輸入由當(dāng)前句及其上下文組成。為了減少計(jì)算成本,本文采用共享編碼器的結(jié)構(gòu),編碼器先編碼當(dāng)前句的上下文句子,上下文注意力子層不參與此過程,第二步編碼當(dāng)前句時(shí)三個(gè)子層同時(shí)參與計(jì)算,上下文注意力子層的輸入K,V來自于第一步中上下文的編碼輸出,Q來自于當(dāng)前句自注意力子層的輸出,當(dāng)前句的編碼輸出結(jié)果輸入到解碼端進(jìn)行下一步計(jì)算。

      解碼器解碼器與標(biāo)準(zhǔn)的Transformer解碼器一致,由多個(gè)完全相同的子模塊堆疊而成,每一個(gè)子模塊由一個(gè)多頭掩碼自注意力子層、一個(gè)多頭上下文注意力子層和一個(gè)全連接前饋神經(jīng)網(wǎng)絡(luò)構(gòu)成。解碼端輸入只有源端當(dāng)前句的對(duì)應(yīng)目標(biāo)端句子,這與編碼端的輸入不同。解碼器的輸出會(huì)被映射到目標(biāo)端詞表的空間,利用Softmax函數(shù)計(jì)算詞表中各個(gè)詞對(duì)應(yīng)的預(yù)測(cè)概率,最終將預(yù)測(cè)結(jié)果與真實(shí)結(jié)果計(jì)算損失。

      分類器分類器由兩層全連接層加上Sigmoid函數(shù)構(gòu)成,輸出是四元標(biāo)簽分類的結(jié)果。由于分類器的分類目標(biāo)是基于句子級(jí)的向量表征,本文將編碼器的輸出表征通過Max-pooling和Mean-pooling操作之后拼接在一起構(gòu)成分類器的輸入。最終,分類器的輸出與真實(shí)的標(biāo)簽計(jì)算損失。

      3.3 聯(lián)合學(xué)習(xí)

      本文模型采用聯(lián)合學(xué)習(xí)的訓(xùn)練方式,分為翻譯任務(wù)和分類任務(wù)。模型的損失函數(shù)分為兩部分,包括神經(jīng)機(jī)器翻譯模型的翻譯損失和省略代詞的分類損失。

      翻譯目標(biāo)端的相關(guān)損失函數(shù)如式(6)所示。

      (6)

      其中,D表示訓(xùn)練集中總平行篇章對(duì)數(shù),Sn表示第n個(gè)平行篇章對(duì)中的句子總數(shù),Xn和Yn表示第n個(gè)平行篇章對(duì)的源端句子和目標(biāo)端句子。wn,t表示第n個(gè)平行篇章對(duì)的第t個(gè)句子的總token數(shù),cn,(t)表示引入的上下文信息,θ表示模型的訓(xùn)練參數(shù)。

      零指代分類損失如式(7)所示。

      最終,本文的聯(lián)合學(xué)習(xí)的訓(xùn)練目標(biāo)如式(8)所示。

      其中,α是零指代分類損失的權(quán)重參數(shù),本文模型中設(shè)置α為1.0。

      4 實(shí)驗(yàn)

      4.1 實(shí)驗(yàn)設(shè)置

      本文在大規(guī)模中英對(duì)話語料庫(kù)上進(jìn)行驗(yàn)證實(shí)驗(yàn)。該對(duì)話數(shù)據(jù)集由電影或電視劇字幕構(gòu)成,訓(xùn)練集、驗(yàn)證集和測(cè)試集分別包含2.15M,1.09K和1.15K個(gè)平行句對(duì),驗(yàn)證集和測(cè)試集是隨機(jī)選擇兩集完整的電視劇節(jié)目字幕挑選出來的,表3列出了語料的統(tǒng)計(jì)情況,該語料中句子一般較短,源語言和目標(biāo)語言的代詞數(shù)量差距較大,這體現(xiàn)了代詞省略的問題,表中也展示了訓(xùn)練集、驗(yàn)證集和測(cè)試集中省略代詞(DP)的數(shù)量。

      表3 對(duì)話數(shù)據(jù)集的統(tǒng)計(jì)情況

      本文采用Jieba分詞工具(2)https://github.com/fxsjy/jieba對(duì)中文句子進(jìn)行分詞,而目標(biāo)端英文句子則使用Moses腳本[18]進(jìn)行分詞處理。由于原數(shù)據(jù)集中保留了篇章信息,但是沒有生成獨(dú)立的篇章,我們手動(dòng)將數(shù)據(jù)集切割成獨(dú)立的篇章,每個(gè)篇章中包含7個(gè)句子。本文對(duì)中英文數(shù)據(jù)分別采用了子詞化操作[19],子詞化操作數(shù)為30K。翻譯任務(wù)的評(píng)估指標(biāo)為大小寫不敏感的NIST BLEU[20],由mteval-v13a.pl測(cè)試腳本計(jì)算得出。此外,本文還對(duì)模型翻譯性能的BLEU值提升進(jìn)行了顯著性測(cè)試[21]。

      本文的建模模型Transformer來源于OpenNMT(3)https://github.com/OpenNMT/OpenNMT-py,在其基礎(chǔ)上加以改進(jìn),將其改進(jìn)為以篇章為單位更新參數(shù)的模型。本文將編碼器和解碼器設(shè)置為6層,多頭注意力機(jī)制中含有8個(gè)頭,同時(shí)設(shè)置Dropout值為0.1,隱層維度和前饋神經(jīng)網(wǎng)絡(luò)中間層單元數(shù)分別為512和2 048,學(xué)習(xí)率設(shè)置為1.0。選擇的優(yōu)化器為Adam優(yōu)化函數(shù)[22],其中β1為0.9,β2為0.998。訓(xùn)練時(shí)批處理大小為4 096個(gè)token以內(nèi)。進(jìn)行解碼時(shí),設(shè)置Beam Size為5,所有其他的設(shè)置采用Vaswani系統(tǒng)[5]中的默認(rèn)設(shè)置。

      4.2 實(shí)驗(yàn)結(jié)果

      為了驗(yàn)證本文提出方法和模型的有效性,我們?cè)谥杏⒎g任務(wù)上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)包括四個(gè)模型,如表4所示。

      表4 中英對(duì)話翻譯實(shí)驗(yàn)結(jié)果(表示與Baseline相比較,BLEU值在p=0.01時(shí)具有顯著性提高)

      (1) 基準(zhǔn)模型是由沒有標(biāo)注出省略代詞的中英雙語語料使用標(biāo)準(zhǔn)Transformer模型訓(xùn)練,在同樣沒有經(jīng)過標(biāo)注處理的測(cè)試集上進(jìn)行測(cè)試,由表中的Baseline表示。

      (2) +Context表示在Baseline基礎(chǔ)上,在源端編碼器中融合篇章上下文信息,本文中選取的篇章上下文為兩句。

      (3) +DP-parse表示在Baseline基礎(chǔ)上,聯(lián)合判斷省略代詞在句子中句法成分的分類任務(wù),測(cè)試集利用的省略代詞信息是由Wang[3]提出的代詞生成器模型自動(dòng)生成的。

      (4) +Context +DP-parse 表示在聯(lián)合任務(wù)的基礎(chǔ)上, 向模型加入源端上下文信息所取得的翻譯效果。

      本文提出模型的實(shí)驗(yàn)效果表4展示出本文提出模型在中英對(duì)話測(cè)試集上的性能結(jié)果。

      (1) 與基準(zhǔn)模型相比,只聯(lián)合省略代詞的分類任務(wù)后取得了0.88的BLEU值提升,這證明了本文使用聯(lián)合學(xué)習(xí)方法的有效性。

      (2) 在進(jìn)一步向模型中加入篇章上下文后,翻譯任務(wù)的BLEU取得了1.48的明顯提升,最終測(cè)試集BLEU值達(dá)到了37.40,分類任務(wù)的準(zhǔn)確率也提升了約3個(gè)百分點(diǎn),這也表明篇章上下文信息不僅能夠提升翻譯效果,對(duì)省略代詞的分類任務(wù)也有積極的作用。

      與先前研究的對(duì)比表4展示了之前經(jīng)典的零指代機(jī)器翻譯研究的模型性能。

      (1) DPEs-ref通過LSTM+CRF的標(biāo)注模型,恢復(fù)了對(duì)話語料中的省略代詞,并用等價(jià)的目標(biāo)語言代詞代替省略代詞的方式,有效提高了翻譯的性能,但是由于該機(jī)器翻譯建模采用為基于RNN的序列到序列模型,最終模型性能只與標(biāo)準(zhǔn)Transformer模型性能相一致,這也顯示出Transformer建模模型的強(qiáng)大之處。

      (2) Shared-Rec研究是通過聯(lián)合重構(gòu)器模塊的方式,利用編碼器和解碼器的輸出來重新解析省略代詞信息。ZP-joint是在Shared-Rec的基礎(chǔ)之上額外聯(lián)合一個(gè)序列標(biāo)注任務(wù),最終取得了37.11的性能。

      (3) 與之前模型相比較,本文提出的模型在參數(shù)量遠(yuǎn)小于其他模型的條件下,依舊取得了37.40的BLEU值,比之前該大規(guī)模對(duì)話語料上最好效果提高了0.29個(gè)BLEU,證明了本文提出的模型不僅具有優(yōu)異的性能,還具有消耗算力少、訓(xùn)練時(shí)間短的優(yōu)勢(shì)。

      4.3 代詞恢復(fù)質(zhì)量對(duì)翻譯性能的影響

      顯式融合零指代信息指直接將識(shí)別出的省略代詞加入到原始句子,然后利用識(shí)別后的句子訓(xùn)練模型,由于訓(xùn)練集利用詞對(duì)齊識(shí)別代詞方法的準(zhǔn)確率遠(yuǎn)高于測(cè)試集利用代詞生成器的識(shí)別方式,這導(dǎo)致使用自動(dòng)識(shí)別的測(cè)試集測(cè)試時(shí),錯(cuò)誤的省略代詞會(huì)嚴(yán)重影響翻譯的性能。針對(duì)顯式融合零指代信息方式對(duì)翻譯性能的影響,本文在兩種訓(xùn)練集和三種不同的測(cè)試集上做了對(duì)比實(shí)驗(yàn)。如表5所示: ①訓(xùn)練集包括未識(shí)別原始訓(xùn)練集中省略代詞和利用詞對(duì)齊自動(dòng)識(shí)別原始訓(xùn)練集中省略代詞兩種; ②測(cè)試集包括未識(shí)別原始測(cè)試集中的省略代詞,自動(dòng)識(shí)別省略代詞和人工標(biāo)注省略代詞三種。該對(duì)比實(shí)驗(yàn)使用的模型都用標(biāo)準(zhǔn)Transformer訓(xùn)練,參數(shù)都保持一致。

      表5 代詞識(shí)別質(zhì)量對(duì)翻譯性能影響的實(shí)驗(yàn)結(jié)果

      分析模型在不同數(shù)據(jù)集組合上的翻譯效果后,得到以下結(jié)論:

      (1) 在未識(shí)別省略代詞訓(xùn)練集的實(shí)驗(yàn)中,使用自動(dòng)識(shí)別和人工識(shí)別的測(cè)試集都可以提高最終的測(cè)試效果,但自動(dòng)識(shí)別的方式提高了0.93個(gè)BLEU值,而人工識(shí)別提高了3.75個(gè)BLEU值,這證明了識(shí)別省略代詞的效果越好,翻譯性能提升越明顯,進(jìn)一步證明零指代翻譯具有很大的研究前景。

      (2) 在自動(dòng)識(shí)別省略代詞訓(xùn)練集的實(shí)驗(yàn)中,由于訓(xùn)練數(shù)據(jù)中帶有省略代詞的信息,因此使用未識(shí)別的測(cè)試集時(shí),訓(xùn)練和測(cè)試存在不一致,性能會(huì)出現(xiàn)巨大的下降;使用自動(dòng)識(shí)別的測(cè)試集時(shí),與未識(shí)別出省略代詞訓(xùn)練集組相比,性能下降了0.6個(gè)BLEU值,本文認(rèn)為這是由于詞對(duì)齊識(shí)別的準(zhǔn)確率很高,自動(dòng)識(shí)別代詞錯(cuò)誤率很高,錯(cuò)誤的省略代詞影響了句子的原本語義,導(dǎo)致識(shí)別出的省略代詞沒有對(duì)翻譯產(chǎn)生積極影響;使用人工識(shí)別的測(cè)試集時(shí),與未識(shí)別出省略代詞訓(xùn)練集組相比,提升了0.7個(gè)BLEU,達(dá)到了40.37的BLEU值性能,本文認(rèn)為這是由于訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的識(shí)別質(zhì)量都很高,因此可以達(dá)到更好的效果。

      上述實(shí)驗(yàn)結(jié)果表明,在無平行數(shù)據(jù)條件下提高省略代詞的識(shí)別質(zhì)量是零指代機(jī)器翻譯的重難點(diǎn),這也是我們未來研究的重點(diǎn)。

      4.4 代詞翻譯的性能

      參考Miculicich[23-24]的研究,本文對(duì)測(cè)試集中代詞的翻譯效果進(jìn)行分析實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示。由實(shí)驗(yàn)結(jié)果可以看出,與Baseline的代詞翻譯效果相比較,本文模型提升了0.97個(gè)百分點(diǎn),證明了本文提出的融合零指代信息和篇章信息的模型能夠有效地提升指代翻譯的性能。

      表6 代詞翻譯性能的實(shí)驗(yàn)結(jié)果

      4.5 篇章長(zhǎng)度對(duì)翻譯性能的影響

      本文通過引入篇章上下文信息提升了翻譯性能。為了探究不同的篇章長(zhǎng)度對(duì)翻譯性能的影響,本文做了相關(guān)的對(duì)比實(shí)驗(yàn)。表7展示了本文提出模型在不同長(zhǎng)度的篇章信息下的翻譯性能。由實(shí)驗(yàn)結(jié)果可以看出,當(dāng)篇章句子長(zhǎng)度為2時(shí)模型取得最佳的翻譯效果,使用更多的篇章句子時(shí)不僅使得翻譯效果下降,而且還增加了計(jì)算代價(jià)。這與Zhang等[9]的結(jié)論相一致,遠(yuǎn)距離篇章上下文信息的影響是有限的。因此本文采用的篇章上下文句子長(zhǎng)度為2句。

      表7 不同的篇章長(zhǎng)度對(duì)翻譯性能影響實(shí)驗(yàn)結(jié)果

      4.6 有省略句子與無省略句子翻譯性能對(duì)比

      雖然本文實(shí)驗(yàn)使用的對(duì)話數(shù)據(jù)集句子中存在很多的省略代詞,但是數(shù)據(jù)集中大部分句子都是完整無省略代詞的句子。為了探究無省略代詞和有省略代詞句子的翻譯性能的差距,本文做了相關(guān)的對(duì)比實(shí)驗(yàn)。如表8中所示,我們根據(jù)句子是否存在省略代詞將原始的測(cè)試集分成了無省略測(cè)試集(表示為NDP),和有省略測(cè)試集(表示為DP),分別使用標(biāo)準(zhǔn)的Transformer模型和本文提出的模型進(jìn)行測(cè)試。

      表8 有省略句子和無省略句子翻譯對(duì)比實(shí)驗(yàn)結(jié)果

      分析模型在兩種不同數(shù)據(jù)集上的測(cè)試效果后,得到以下結(jié)論:

      (1) 在無省略測(cè)試集上,Baseline和本文提出模型的性能都高于全部的原始測(cè)試集,這證明了無省略代詞的翻譯能夠取得更好的效果,本文提出模型比Baseline提高了1.27個(gè)BLEU值,因而認(rèn)為我們的模型融合的篇章信息中除了零指代信息之外,還存在其他的語義信息,能夠幫助提高翻譯的效果。

      (2) 在有省略測(cè)試集上,Baseline的翻譯效果出現(xiàn)了明顯的下降,而我們的模型雖然也出現(xiàn)了下降,但是達(dá)到的效果與Baseline相比,提高了1.8個(gè)BLEU值,這表明標(biāo)準(zhǔn)的Transformer難以很好地處理省略代詞的翻譯,而本文提出的模型可有效地緩解省略代詞的翻譯錯(cuò)誤問題。

      4.7 實(shí)例分析

      本節(jié)展示一些使用本文提出的模型識(shí)別出省略代詞的例子,進(jìn)一步證明本文提出方法的有效性。如表9所示,Source表示源端未識(shí)別代詞的句子;Context表示源端的上下文,本文模型采用兩句上下文,以“||”分割;Ref表示目標(biāo)端參考譯文;Baseline是使用Transformer模型得到的譯文;NMT表示使用本文提出模型得到的譯文。

      表9 實(shí)例分析

      例1和例2中,源端句子存在省略代詞"你"和"我們",Baseline由于沒有融合零指代信息,所以無法成功翻譯出you和we,而Our模型正確地翻譯出you和we,這表明了本文提出的模型能有效捕捉省略代詞的信息。例3和例4的實(shí)例中雖然也能夠捕捉到零指代信息,卻沒有正確地翻譯出代詞,我們認(rèn)為這是由于有些省略代詞是需要充分結(jié)合上下文才能推斷得出的,本文模型雖然融入了篇章信息,但是模型預(yù)測(cè)復(fù)雜的零指代關(guān)系時(shí),還存在著一些不足,無法從篇章信息獲取對(duì)應(yīng)的零指代信息,這也需要進(jìn)一步對(duì)篇章信息進(jìn)行加工處理融合與零指代關(guān)系更有效的篇章信息。

      5 總結(jié)

      針對(duì)對(duì)話領(lǐng)域的零指代機(jī)器翻譯如何利用好零指代信息來提升翻譯效果,本文提出了一種基于聯(lián)合學(xué)習(xí)的模型結(jié)構(gòu)。首先,引入現(xiàn)今最先進(jìn)的神經(jīng)機(jī)器翻譯建模模型Transformer來提升翻譯的質(zhì)量,在此基礎(chǔ)上聯(lián)合分類任務(wù)對(duì)源端句子中的省略成分進(jìn)行分類,再通過融入篇章信息來進(jìn)一步提升翻譯和分類的性能。在大規(guī)模中英對(duì)話數(shù)據(jù)集上的實(shí)驗(yàn)證明了本文提出模型的有效性。

      但是,本文模型還存在著一些不足。本文融合篇章信息的方式存在優(yōu)化的空間,在處理比較復(fù)雜的省略代詞信息時(shí),由于模型難以從駁雜的篇章信息中抽取有效地零指代信息,導(dǎo)致難以正確翻譯出省略代詞。在未來的研究中,會(huì)對(duì)如何更加有效的利用好篇章信息進(jìn)行進(jìn)一步研究。除此之外,如何在無平行數(shù)據(jù)的情況下提高省略代詞的識(shí)別準(zhǔn)確性也是我們研究的重點(diǎn)。

      猜你喜歡
      指代省略代詞
      Let’s Save Food To Fight Hunger
      復(fù)合不定代詞點(diǎn)撥
      奧卡姆和布列丹對(duì)指代劃分的比較
      代詞(一)
      代詞(二)
      偏旁省略異體字研究
      這樣將代詞考分收入囊中
      中間的省略
      詩(shī)選刊(2015年6期)2015-10-26 09:47:13
      “不一而足”話討論
      自然語言中的指代技術(shù)的研究
      河南科技(2014年10期)2014-02-27 14:09:37
      囊谦县| 西乌| 高密市| 东城区| 茶陵县| 枣强县| 云安县| 岫岩| 黔西| 台湾省| 静乐县| 洞口县| 余干县| 澎湖县| 延川县| 中山市| 宜宾市| 吴江市| 兴城市| 黄浦区| 凉城县| 来凤县| 云霄县| 长治县| 兴化市| 萝北县| 西畴县| 德保县| 汉中市| 莱阳市| 天水市| 万年县| 遵义市| 泌阳县| 长汀县| 延长县| 湖州市| 荣成市| 高台县| 澄城县| 桐柏县|