• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      神經(jīng)機(jī)器翻譯中英語(yǔ)單詞及其大小寫(xiě)聯(lián)合預(yù)測(cè)模型

      2019-04-17 03:56:22靳曉寧
      中文信息學(xué)報(bào) 2019年3期
      關(guān)鍵詞:詞表解碼器語(yǔ)料

      張 楠,李 響,靳曉寧,陳 偉

      (1. 北京工業(yè)大學(xué) 北京未來(lái)網(wǎng)絡(luò)科技高精尖創(chuàng)新中心,北京 100124;2. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所,北京 100190;3. 中國(guó)科學(xué)院大學(xué),北京 100049;4. 北京搜狗科技發(fā)展有限公司,北京 100084)

      0 引言

      受現(xiàn)實(shí)應(yīng)用的驅(qū)動(dòng),機(jī)器翻譯近幾年一直是備受關(guān)注的研究熱點(diǎn)[1]。針對(duì)機(jī)器翻譯,傳統(tǒng)的解決方案是統(tǒng)計(jì)機(jī)器翻譯。近幾年深度學(xué)習(xí)在圖像領(lǐng)域得到了很好的發(fā)展,在分類領(lǐng)域取得了超越人類的成績(jī)[2],受此影響,深度學(xué)習(xí)的方式也迅速在機(jī)器翻譯中得到廣泛應(yīng)用。2014年,Jacob Devlin提出了神經(jīng)網(wǎng)絡(luò)聯(lián)合模型,相對(duì)于傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯方法獲得了顯著的性能提升[3]。今年,微軟Hany等又應(yīng)用神經(jīng)機(jī)器翻譯的方式將翻譯的質(zhì)量首次超越人類[4]。神經(jīng)機(jī)器翻譯逐漸成為機(jī)器翻譯的主流方法,本文亦是采用神經(jīng)機(jī)器翻譯進(jìn)行漢英翻譯任務(wù)。

      以往的漢英翻譯任務(wù),生成的英文譯文多為小寫(xiě),需要額外的步驟恢復(fù)譯文中單詞的大小寫(xiě)信息。一般情況下,單詞的大小寫(xiě)形式可分為三種: 全大寫(xiě)(USA、WTO等)、首字母大寫(xiě)(China、Bill等)、全小寫(xiě)(prediction、model等)。同一單詞的不同大小寫(xiě)形式,有時(shí)會(huì)代表不同的含義。比如“the white house” 可翻譯為白色房子,但是“the White House” 則特指“白宮”。不規(guī)范的書(shū)寫(xiě)形式,會(huì)極大地阻礙文本的可讀性,降低閱讀速度。當(dāng)前,很多機(jī)器翻譯方法得到小寫(xiě)形式的英文譯文后,通過(guò)使用大小寫(xiě)詞表或者訓(xùn)練好的單詞大小寫(xiě)恢復(fù)模型來(lái)恢復(fù)單詞的原有大小寫(xiě)信息,增強(qiáng)譯文的可讀性。大小寫(xiě)恢復(fù)是對(duì)輸入的單詞序列恢復(fù)其應(yīng)有的大小寫(xiě)信息[5]。這在命名體識(shí)別和語(yǔ)音識(shí)別等領(lǐng)域中亦有廣泛應(yīng)用[6-7]。

      本文基于目前主流的Transformer翻譯模型[8],提出了一種聯(lián)合預(yù)測(cè)小寫(xiě)形式英文單詞及其對(duì)應(yīng)大小寫(xiě)屬性的神經(jīng)機(jī)器翻譯方法,在同一個(gè)解碼器輸出層分別預(yù)測(cè)單詞及其大小寫(xiě)屬性。預(yù)測(cè)單詞和預(yù)測(cè)單詞大小寫(xiě)兩項(xiàng)任務(wù)共享模型中的同一個(gè)解碼器,在預(yù)測(cè)單詞大小寫(xiě)屬性時(shí),不僅考慮了譯文中單詞的屬性及位置,還充分融合了源端漢語(yǔ)的上下文信息。解碼端預(yù)測(cè)單詞及其對(duì)應(yīng)單詞的大小寫(xiě)是同時(shí)進(jìn)行的,相較于傳統(tǒng)方式減少了處理流程和處理時(shí)間。翻譯預(yù)測(cè)結(jié)束后,根據(jù)解碼得到的大小寫(xiě)類別信息,對(duì)小寫(xiě)譯文中的單詞進(jìn)行大小寫(xiě)還原。在WMT 2017漢英新聞翻譯任務(wù)測(cè)試集上,相比基線方法,我們提出的方法在大小寫(xiě)敏感和大小寫(xiě)不敏感兩個(gè)評(píng)價(jià)指標(biāo)上分別提高0.97 BLEU和1.01 BLEU。

      1 相關(guān)工作

      針對(duì)恢復(fù)譯文中英語(yǔ)單詞的大小寫(xiě),傳統(tǒng)的處理方式主要有兩種。一是基于查表的方式,通過(guò)對(duì)訓(xùn)練語(yǔ)料中單詞的各種大小寫(xiě)形式進(jìn)行統(tǒng)計(jì),將含有特定大小寫(xiě)信息的單詞構(gòu)建成一個(gè)表。在翻譯得到譯文后,譯文中的每個(gè)單詞根據(jù)詞表選擇一個(gè)可行性最大的形式進(jìn)行恢復(fù)。該方法一般需要較大的詞表才能達(dá)到一定的詞語(yǔ)覆蓋度。單詞大小寫(xiě)形式與單詞屬性、在句子中所處的位置以及上下文語(yǔ)境都有關(guān)系,這種方式?jīng)]有考慮譯文的上下文信息,因此也容易產(chǎn)生錯(cuò)誤恢復(fù)。而且在實(shí)際的數(shù)據(jù)中,同一單詞可能有多種不同的大小寫(xiě)形式,會(huì)造成恢復(fù)結(jié)果的歧義。另一種譯文大小寫(xiě)恢復(fù)的方法是訓(xùn)練一個(gè)單詞大小寫(xiě)的恢復(fù)模型。例如,Lita等使用trigram 模型恢復(fù)句子中的大小寫(xiě)信息[5];Chelba和Acero 將大小寫(xiě)恢復(fù)視為一個(gè)序列標(biāo)注問(wèn)題[9],并使用最大熵馬爾科夫模型來(lái)融合單詞和它們的大小寫(xiě)信息;Raymond 利用循環(huán)神經(jīng)網(wǎng)絡(luò)在字符級(jí)別上預(yù)測(cè)單詞大小寫(xiě)信息[10]。以上這些訓(xùn)練恢復(fù)模型的方法都是在單語(yǔ)料上進(jìn)行,翻譯結(jié)束后,針對(duì)目標(biāo)端譯文進(jìn)行大小寫(xiě)恢復(fù),增加了處理流程和時(shí)間開(kāi)銷。并且這些方法都沒(méi)有考慮源端語(yǔ)料的情況,當(dāng)翻譯結(jié)果不準(zhǔn)確時(shí)將對(duì)單詞大小寫(xiě)信息的恢復(fù)產(chǎn)生極大干擾。

      除了以上兩種方式,Sennrich和Haddow提出的BPE(Byte Pair Encoding)[11]方式也能在一定程度上解決譯文大小寫(xiě)恢復(fù)的問(wèn)題。BPE將單詞拆解為更小、更常見(jiàn)的子詞單元。通過(guò)這種方式既在詞表中保留字詞的大小寫(xiě)屬性,詞表大小也未顯著增大。

      我們提出的聯(lián)合預(yù)測(cè)模型,將預(yù)測(cè)單詞和預(yù)測(cè)單詞的大小寫(xiě)屬性進(jìn)行聯(lián)合,在翻譯預(yù)測(cè)單詞的同時(shí),也預(yù)測(cè)單詞的大小寫(xiě)屬性。預(yù)測(cè)大小寫(xiě)時(shí),不僅考慮了目標(biāo)端英文單詞的上下文信息,也考慮了源端漢語(yǔ)的上下文語(yǔ)義信息,因此能得到質(zhì)量更好的譯文。

      2 聯(lián)合預(yù)測(cè)模型

      基于Transformer模型的聯(lián)合預(yù)測(cè)架構(gòu),將預(yù)測(cè)單詞的任務(wù)task1和預(yù)測(cè)單詞大小寫(xiě)屬性的任務(wù)task2進(jìn)行聯(lián)合。

      2.1 整體架構(gòu)

      在進(jìn)行大小寫(xiě)預(yù)測(cè)時(shí),用一個(gè)獨(dú)立的解碼器來(lái)預(yù)測(cè)單詞的大小寫(xiě)屬性,實(shí)際上會(huì)給模型增加很多的參數(shù),加大了模型的訓(xùn)練難度及解碼時(shí)間。單詞的大小寫(xiě)形式很少,大致可以分為4類: 全大寫(xiě)、開(kāi)頭大寫(xiě)、小寫(xiě)、其他。對(duì)于這種較少屬性類別的預(yù)測(cè),不需過(guò)多的參數(shù),所以我們針對(duì)單詞預(yù)測(cè)和大小寫(xiě)預(yù)測(cè)這兩個(gè)任務(wù)采用共享解碼器的方案。

      訓(xùn)練聯(lián)合預(yù)測(cè)模型需要漢語(yǔ)語(yǔ)料、英語(yǔ)語(yǔ)料,以及根據(jù)英語(yǔ)語(yǔ)料中單詞原有大小寫(xiě)屬性構(gòu)建的英語(yǔ)單詞標(biāo)簽語(yǔ)料。選取公開(kāi)數(shù)據(jù)集中的漢英平行語(yǔ)料,根據(jù)其中英語(yǔ)語(yǔ)料中單詞的大小寫(xiě)屬性構(gòu)建英語(yǔ)標(biāo)簽語(yǔ)料。根據(jù)英語(yǔ)單詞具有首字母大寫(xiě)、全大寫(xiě)、小寫(xiě)、其他四種大小寫(xiě)屬性,構(gòu)建對(duì)應(yīng)的單詞屬性訓(xùn)練語(yǔ)料。英語(yǔ)標(biāo)簽語(yǔ)料構(gòu)建完成后,將英語(yǔ)語(yǔ)料中的單詞全部轉(zhuǎn)為小寫(xiě)。由此得到漢語(yǔ)語(yǔ)料、英語(yǔ)語(yǔ)料和英語(yǔ)標(biāo)簽語(yǔ)料。

      基于Transformer模型,翻譯模型由兩部分組成: 編碼器和解碼器。編碼器由一個(gè)多頭注意力結(jié)構(gòu)和一個(gè)前向反饋組成,解碼器由兩個(gè)多頭注意力結(jié)構(gòu)和一個(gè)前向反饋組成。多頭注意力結(jié)構(gòu)是用于學(xué)習(xí)單詞或者詞組之間的注意力,前向反饋學(xué)習(xí)語(yǔ)言內(nèi)部的關(guān)系。將漢語(yǔ)語(yǔ)料輸入編碼器,經(jīng)過(guò)多頭注意力結(jié)構(gòu),編碼器學(xué)習(xí)漢語(yǔ)詞組之間的注意力,然后經(jīng)過(guò)正則化處理做前向反饋,再經(jīng)過(guò)正則化處理輸出到下一部分。此編碼器處理過(guò)程重復(fù)N次。編碼器每次正則化處理都要加上前一步的輸入。編碼器的輸出是解碼器的部分輸入。解碼器的另一部分輸入為英語(yǔ)語(yǔ)料。將英語(yǔ)語(yǔ)料輸入到解碼器時(shí),英語(yǔ)詞向量要右移一位。將輸入的英語(yǔ)詞向量序列通過(guò)做標(biāo)記(Mask)的方式,屏蔽還未翻譯到的單詞。然后解碼器通過(guò)多頭注意力結(jié)構(gòu)學(xué)習(xí)英語(yǔ)單詞之間的注意力,將結(jié)果正則化處理后與編碼器的輸出再次輸入到一個(gè)多頭注意力結(jié)構(gòu)中,學(xué)習(xí)漢語(yǔ)與英語(yǔ)之間的注意力,再將結(jié)果正則化處理后進(jìn)行前向反饋,對(duì)前向反饋的結(jié)果再正則化處理后輸入到下一部分。此解碼器處理過(guò)程處理N次。解碼器每次正則化處理也都要加上前一步的輸入。有異于Transformer模型,本模型的解碼器輸出有兩個(gè)預(yù)測(cè)任務(wù),一個(gè)預(yù)測(cè)單詞task1,另一個(gè)用于預(yù)測(cè)單詞的大小寫(xiě)信息task2。解碼器輸出經(jīng)過(guò)線性映射和softmax處理后預(yù)測(cè)單詞,以英語(yǔ)詞向量語(yǔ)料為真實(shí)標(biāo)簽求取預(yù)測(cè)損失。另一個(gè)解碼器輸出經(jīng)過(guò)線性映射和softmax處理后預(yù)測(cè)單詞大小寫(xiě),以英語(yǔ)單詞大小寫(xiě)標(biāo)簽為真實(shí)標(biāo)簽求取預(yù)測(cè)損失。所以,模型損失函數(shù)Loss由兩部分組成,一部分是預(yù)測(cè)單詞task1的損失,另一部分是預(yù)測(cè)單詞大小寫(xiě)task2的損失,如式(1)所示。

      Loss=losstask1+λlosstask2

      (1)

      兩部分均使用交叉熵?fù)p失函數(shù)[12]。

      2.2 點(diǎn)積注意力函數(shù)

      圖1中,模型注意力函數(shù)的輸入Q、K、V,分別代表query、key、value。具體實(shí)現(xiàn)操作如圖2(a)所示,根據(jù) query和 key 的相似度計(jì)算注意力權(quán)重。然后根據(jù)注意力權(quán)重對(duì)value每個(gè)詞向量進(jìn)行加權(quán)即得到注意力。模型采用了縮放點(diǎn)積注意力(scaled dot-product attention),如式(2)所示。

      (2)

      圖1 共享解碼器聯(lián)合預(yù)測(cè)架構(gòu)

      圖2 多頭注意力機(jī)制模型

      其中,queryQ和keyK的維度是相同的,都是dk。ValueV的維度是dv。其中標(biāo)記(mask)主要是用來(lái)去除矩陣乘后對(duì)角線之間的關(guān)系。

      2.3 多頭注意力的機(jī)制

      模型采用了多頭注意力的機(jī)制(multi-head attention),如圖2(b)所示,將Q、K、V進(jìn)行h次不同的線性映射,然后再將線性映射的結(jié)果映射到dk、dk、dv維。分別對(duì)每一個(gè)映射之后得到的queries,keys以及values進(jìn)行注意力函數(shù)的并行操作,生成dv維的輸出值,如式(3)、式(4)所示。

      Transformer模型沒(méi)有使用循環(huán)神經(jīng)網(wǎng)絡(luò)或者卷積神經(jīng)網(wǎng)絡(luò),為了使用序列的順序信息,需要將序列的相對(duì)位置及絕對(duì)位置信息加入到模型中去。對(duì)漢英語(yǔ)料、標(biāo)簽語(yǔ)料分別抽取詞表,建立單詞與ID的映射,通過(guò)詞表將語(yǔ)料轉(zhuǎn)換成ID序列。再將漢、英序列以及標(biāo)簽序列轉(zhuǎn)換成對(duì)應(yīng)的詞向量,在詞向量中采用正弦和余弦函數(shù)[8]加入位置編碼信息后輸入到模型中。

      3 實(shí)驗(yàn)及數(shù)據(jù)分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)

      本實(shí)驗(yàn)采用的平行語(yǔ)料為WMT 2017漢英任務(wù)訓(xùn)練數(shù)據(jù)中的CWMT部分?jǐn)?shù)據(jù),共700萬(wàn)條漢英數(shù)據(jù)。測(cè)試用的是WMT 2017漢英新聞翻譯任務(wù)測(cè)試集。

      根據(jù)漢英訓(xùn)練語(yǔ)料里英語(yǔ)語(yǔ)料單詞的大小寫(xiě)屬性構(gòu)建英語(yǔ)標(biāo)簽語(yǔ)料。我們將英語(yǔ)單詞分為4種類別: ①其他; ②小寫(xiě); ③開(kāi)頭大寫(xiě); ④全大寫(xiě)。根據(jù)英語(yǔ)語(yǔ)料里英文單詞的大小寫(xiě)屬性,構(gòu)建對(duì)應(yīng)的單詞屬性標(biāo)簽訓(xùn)練語(yǔ)料。英語(yǔ)單詞標(biāo)簽訓(xùn)練語(yǔ)料構(gòu)建完成后,將英語(yǔ)語(yǔ)料中的單詞全部轉(zhuǎn)換為小寫(xiě)形式。對(duì)于源端漢語(yǔ)語(yǔ)料,我們用jieba分詞[注]https: //github.com/fxsjy/jieba將訓(xùn)練語(yǔ)句進(jìn)行分詞。至此得到了訓(xùn)練要用的漢語(yǔ)語(yǔ)料、英語(yǔ)語(yǔ)料以及英語(yǔ)標(biāo)簽語(yǔ)料。

      對(duì)漢語(yǔ)語(yǔ)料、英語(yǔ)語(yǔ)料分別進(jìn)行詞頻統(tǒng)計(jì),取詞頻出現(xiàn)較高的單詞構(gòu)建漢語(yǔ)詞表以及英語(yǔ)詞表。針對(duì)訓(xùn)練語(yǔ)料中詞表未覆蓋到的單詞,用UNK來(lái)表示。英語(yǔ)單詞大小寫(xiě)的分類很少,所以選取全部的類別,得到英語(yǔ)標(biāo)簽語(yǔ)料的標(biāo)簽詞表。

      3.2 實(shí)驗(yàn)設(shè)計(jì)

      3.2.1 基本實(shí)驗(yàn)

      本文設(shè)計(jì)了3組實(shí)驗(yàn),如表1所示。

      Baseline1: 將訓(xùn)練數(shù)據(jù)和驗(yàn)證集中英語(yǔ)單詞轉(zhuǎn)為小寫(xiě),抽取英語(yǔ)詞表大小6萬(wàn),詞表對(duì)英文數(shù)據(jù)中單詞的覆蓋率達(dá)到98%。漢語(yǔ)詞表大小4萬(wàn),對(duì)訓(xùn)練數(shù)據(jù)中分詞后詞組覆蓋率達(dá)到97%。同時(shí)驗(yàn)證集的英語(yǔ)端也轉(zhuǎn)小寫(xiě),用于測(cè)試,作為Baseline1。

      表1 實(shí)驗(yàn)詞表大小

      Baseline2: 保留英語(yǔ)數(shù)據(jù)大小寫(xiě)信息,重新抽取英文詞表,詞表大小9.3萬(wàn)(與實(shí)驗(yàn)1 英語(yǔ)詞表的覆蓋率保持一致),漢語(yǔ)詞表大小不變。

      Our_Method: 我們提出的聯(lián)合預(yù)測(cè)方法根據(jù)單詞所處的位置預(yù)測(cè)大小寫(xiě)信息。模型在預(yù)測(cè)單詞的同時(shí)預(yù)測(cè)該單詞可能的大小寫(xiě)信息。詞表大小和Baseline1相同,漢語(yǔ)詞表4萬(wàn),英文詞表6萬(wàn)。

      3.2.2 BPE實(shí)驗(yàn)

      目前處理翻譯譯文大小寫(xiě)的主要方法是BPE(Byte Pair Encoding)。BPE方法將大小寫(xiě)敏感的語(yǔ)料拆解為常見(jiàn)的子詞,在降低詞表的同時(shí)又減少了譯文中UNK的數(shù)量,從而極大地保存了句子的結(jié)構(gòu)特征和流暢性。用BPE漢英平行語(yǔ)料進(jìn)行處理。效果如下:

      源端: 企業(yè) 集團(tuán) 就 網(wǎng)絡(luò) 安全@@ 法 向 中國(guó) 提@@ 訴求 。

      目標(biāo)端: Business Groups Appeal to China Over Cyber@@ security Law.

      BPE將單詞或詞組拆解成了更小的組成部分。比如“安全法”拆解成“安全@@”和“法”,將“提訴求”拆解成“提@@”和“訴求”,將“Cybersecurity”拆解成了“Cyber@@”和“security”

      這個(gè)實(shí)驗(yàn)主要是用來(lái)驗(yàn)證聯(lián)合預(yù)測(cè)的方式在BPE的方法下是否依然能取得較好的效果。根據(jù)BPE處理后的訓(xùn)練數(shù)據(jù)抽取詞表。以3.2.1節(jié)中Baseline2和Our_Method為基礎(chǔ)設(shè)置對(duì)比實(shí)驗(yàn)Baseline3和Our_Method_BPE。

      Baseline3: 除詞表大小和訓(xùn)練數(shù)據(jù)與Baseline2不同外,其余操作、設(shè)置均相同。

      Our_Method_BPE: 除卻詞表大小和訓(xùn)練數(shù)據(jù)與Our_Method不同外,其余操作、設(shè)置均相同(表2)。

      表2 BPE實(shí)驗(yàn)詞表達(dá)小

      Baseline3的目標(biāo)端詞表大小為35 599,Our_Method_BPE的目標(biāo)端詞表大小為29 457,兩個(gè)詞表對(duì)英文數(shù)據(jù)單詞的覆蓋度達(dá)到100%。

      在預(yù)測(cè)使用beam search 解碼時(shí),大小寫(xiě)分類的選擇并不參與beam search,只是選取概率最大的一個(gè)類別作為預(yù)測(cè)單詞大小寫(xiě)屬性的結(jié)果。

      我們?cè)趦蓮圱itan XP上訓(xùn)練我們的模型。在tensor2tensor框架[13]下,基于Transformer模型實(shí)現(xiàn)程序。Transformer中N=4,4個(gè)編碼層4個(gè)解碼層,詞向量(embeding)為512維度,隱層的維度是1 024。batch大小為4 096,學(xué)習(xí)率0.1,warm up為4 000。損失函數(shù)中λ=1。其他參數(shù)選用的均是transformer_base的參數(shù)。

      3.3 實(shí)驗(yàn)結(jié)果

      我們使用機(jī)器翻譯領(lǐng)域常用的BLEU[14]作為評(píng)價(jià)指標(biāo)來(lái)比較各個(gè)實(shí)驗(yàn)的結(jié)果, 腳本使用Moses系統(tǒng)[15]提供的multi-bleu.pl[注]https: //github.com/moses-smt/mosesdecoder/blob/master/scripts/generic/multi-bleu.perl。

      3.3.1 基本實(shí)驗(yàn)

      由表3可知,我們的方法在大小寫(xiě)敏感和不敏感的兩個(gè)指標(biāo)上均高于Baseline2 1BLEU左右。大小寫(xiě)不敏感也高于Baseline1聯(lián)合的方式,不僅在翻譯的同時(shí)預(yù)測(cè)單詞大小寫(xiě),還提升了譯文的質(zhì)量。

      表3 基本實(shí)驗(yàn)結(jié)果

      由于3個(gè)實(shí)驗(yàn)的詞表大小寫(xiě)有所不同,我們還統(tǒng)計(jì)了4個(gè)實(shí)驗(yàn)結(jié)果中UNK字符的數(shù)量(表4)。

      表4 實(shí)驗(yàn)結(jié)果UNK數(shù)量

      由表4可知,Baseline2和Our_Method的UNK均比Baseline1少。Baseline2的目標(biāo)端英文詞表(9.3萬(wàn))比Baseline1的詞表(6萬(wàn))要大,所以降低了譯文中的UNK數(shù)量。Baseline1和Our_Method的英文詞表雖然相同,但是由于Our_Method同時(shí)預(yù)測(cè)了單詞的大小寫(xiě)信息,所以O(shè)ur_Method的英文詞表的可表示單詞量遠(yuǎn)大于Baseline1,以此降低了UNK的數(shù)量。

      由于Baseline1的UNK數(shù)量非常多。在去除結(jié)果中所有的UNK后,再次測(cè)試了BLEU結(jié)果,如表5所示。

      表5 去除UNK后結(jié)果

      由表5可知,在排除UNK影響后,Baseline1的大小寫(xiě)不敏感結(jié)果要優(yōu)于Baseline2。雖然Baseline2的英文詞表(9.3萬(wàn))與Baseline1的詞表對(duì)訓(xùn)練語(yǔ)料具有相同的單詞覆蓋度,但是詞表的增大也增加了模型的訓(xùn)練參數(shù),提升了模型的訓(xùn)練難度,進(jìn)而影響譯文質(zhì)量。由于Baseline2和Our_Method的UNK數(shù)量較少,所以去除UNK后的結(jié)果基本沒(méi)有變化。Our_Method結(jié)果依然比兩個(gè)Baseline的翻譯質(zhì)量要好。與Baseline1相比,兩者具有相同的詞表大小,但是Our_Method由于預(yù)測(cè)了大小寫(xiě)屬性,增加了可表示單詞的數(shù)量,擴(kuò)大了單詞覆蓋率。從圖1聯(lián)合預(yù)測(cè)的翻譯架構(gòu)可知,模型學(xué)習(xí)的注意力分為3個(gè)部分: 源端漢語(yǔ)注意力、目標(biāo)端英語(yǔ)注意力以及源端漢語(yǔ)和目標(biāo)端英語(yǔ)之間的注意力。當(dāng)擴(kuò)大了英文詞表的大小或者提升了詞表的可表示單詞數(shù)量,可以讓模型學(xué)習(xí)到更多英語(yǔ)單詞之間的注意力分配機(jī)制以及漢語(yǔ)字詞與英語(yǔ)單詞之間的注意力關(guān)系,使模型在翻譯預(yù)測(cè)單詞時(shí)能夠做出更精確的預(yù)測(cè)。Our_Method與Baseline2相比,雖然漢語(yǔ)詞表大小相同且英語(yǔ)詞表對(duì)訓(xùn)練數(shù)據(jù)具有相同的覆蓋度,但是由于Our_Method預(yù)測(cè)單詞有四種分類,所以實(shí)際可表示的單詞數(shù)量比Baseline2的詞表要多。另一方面,Our_Method的詞表大小比Baseline2小了3.3萬(wàn),這也減少了模型的參數(shù),更有利于模型訓(xùn)練。

      3.3.2 BPE實(shí)驗(yàn)

      從表6可知,多任務(wù)聯(lián)合預(yù)測(cè)的Our_Method_BPE結(jié)果要好于Baseline3的結(jié)果,但是不像Our_Method與Baseline2相比提升得那么明顯。同時(shí),通過(guò)比較Baseline2和Baseline3,我們可知BPE處理數(shù)據(jù)后訓(xùn)練出的模型,性能也較優(yōu)。通過(guò)統(tǒng)計(jì)翻譯結(jié)果,譯文中未發(fā)現(xiàn)UNK,這是由于BPE通過(guò)分解子詞的方式,有效地提升了詞表對(duì)訓(xùn)練數(shù)據(jù)的覆蓋度,英語(yǔ)詞表對(duì)訓(xùn)練數(shù)據(jù)的覆蓋度達(dá)到了100%,所以在結(jié)果中沒(méi)有出現(xiàn)UNK的情況。在英語(yǔ)詞表對(duì)訓(xùn)練數(shù)據(jù)的覆蓋度達(dá)到了100%的情況下,通過(guò)預(yù)測(cè)子詞的大小寫(xiě)屬性,增加的可表示單詞數(shù)量有限。同時(shí)聯(lián)合預(yù)測(cè)方式,英文詞表比Baseline3英文詞表小了6 142,在一定程度上有所減小,所以O(shè)ur_Method_BPE的結(jié)果對(duì)Baseline3有所提升,但是提升不像之前實(shí)驗(yàn)?zāi)敲疵黠@。

      表6 BPE實(shí)驗(yàn)結(jié)果

      4 總結(jié)

      本文以漢英翻譯中英文單詞的大小寫(xiě)預(yù)測(cè)為研究對(duì)象,提出了一種在神經(jīng)機(jī)器翻譯訓(xùn)練中聯(lián)合預(yù)測(cè)英語(yǔ)單詞及其大小寫(xiě)屬性的方法。以往的大小寫(xiě)恢復(fù)多是在機(jī)器翻譯結(jié)束后根據(jù)譯文進(jìn)行恢復(fù)。本文提出的方法,綜合考慮了源端和目標(biāo)端兩者的信息,根據(jù)單詞所處的位置以及單詞本身的屬性預(yù)測(cè),達(dá)到了很高的準(zhǔn)確度。由于聯(lián)合預(yù)測(cè)大小寫(xiě)的方式降低了詞表的大小,并且提升了詞表的可表示單詞數(shù)量,使模型可以學(xué)習(xí)到更多單詞之間的注意力關(guān)系,降低模型參數(shù)數(shù)量的同時(shí)還提升了譯文的質(zhì)量。在WMT 2017漢英新聞翻譯任務(wù)測(cè)試集上,本文提出的聯(lián)合預(yù)測(cè)方法在大小寫(xiě)敏感和不敏感兩個(gè)指標(biāo)上均高于基線實(shí)驗(yàn)。

      猜你喜歡
      詞表解碼器語(yǔ)料
      科學(xué)解碼器(一)
      科學(xué)解碼器(二)
      科學(xué)解碼器(三)
      A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會(huì)項(xiàng)目名稱漢英對(duì)照詞表
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語(yǔ)料
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
      荣成市| 朝阳县| 柳州市| 奉新县| 长乐市| 武威市| 屏东县| 弋阳县| 通辽市| 福鼎市| 龙陵县| 新密市| 晋宁县| 探索| 乾安县| 凤凰县| 威远县| 温宿县| 壶关县| 达拉特旗| 宁波市| 益阳市| 醴陵市| 诸城市| 沅陵县| 南召县| 武夷山市| 金昌市| 楚雄市| 普定县| 灵石县| 新和县| 内江市| 汉阴县| 信阳市| 大洼县| 教育| 雅安市| 东丰县| 麻栗坡县| 徐闻县|