• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合烏爾都語詞性序列預(yù)測(cè)的漢烏神經(jīng)機(jī)器翻譯*

      2024-03-19 11:10:26陳歡歡MuhammadNaeemUlHassan
      關(guān)鍵詞:關(guān)聯(lián)矩陣語料注意力

      陳歡歡,王 劍,Muhammad Naeem Ul Hassan

      (1.昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南 昆明 650500; 2.昆明理工大學(xué)云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)

      1 引言

      隨著信息技術(shù)的快速發(fā)展,機(jī)器翻譯作為自然語言處理的重要組成部分得到了廣泛的應(yīng)用與發(fā)展。近年來,由于計(jì)算機(jī)計(jì)算能力的快速提升以及深度學(xué)習(xí)算法的提出,神經(jīng)機(jī)器翻譯NMT(Neural Machine Translation)取得了良好的結(jié)果,在大規(guī)模平行語料的基礎(chǔ)上,能夠有效地學(xué)習(xí)各種語言的特點(diǎn)。然而,烏爾都語和漢語在句法結(jié)構(gòu)上存在較大的差異,烏爾都語屬于印歐語系,其句子主干成分的語序基本均為主語-賓語-謂語SOV(Subject-Object-Verb)結(jié)構(gòu),其次烏爾都語的語序結(jié)構(gòu)相對(duì)自由,如圖1所示,部分詞在句中的位置并不唯一,這些都影響著傳統(tǒng)翻譯方法的效果。

      Figure 1 Example of Urdu: I can’t go圖1 烏爾都語示例:我不能走

      語言的差異性對(duì)機(jī)器翻譯系統(tǒng)的性能有著不可忽略的影響,因此本文提出融合烏爾都語詞性POS(Part of Speech)序列預(yù)測(cè)的神經(jīng)機(jī)器翻譯方法。首先,訓(xùn)練詞性預(yù)測(cè)模型,使用Transformer在原語言的基礎(chǔ)上預(yù)測(cè)目標(biāo)語言的詞性序列,以此學(xué)習(xí)烏爾都語的語序結(jié)構(gòu)特征。然后,訓(xùn)練翻譯模型,將詞性序列預(yù)測(cè)模型的知識(shí)融入翻譯模型中,基于統(tǒng)計(jì)方法構(gòu)建烏爾都語詞匯與詞性標(biāo)簽關(guān)聯(lián)矩陣,以詞性序列預(yù)測(cè)結(jié)果指導(dǎo)翻譯模型生成譯文。

      2 相關(guān)工作

      機(jī)器翻譯出現(xiàn)以來主要經(jīng)歷3個(gè)發(fā)展階段:基于規(guī)則的翻譯、統(tǒng)計(jì)機(jī)器翻譯和神經(jīng)機(jī)器翻譯NMT。神經(jīng)機(jī)器翻譯完全使用神經(jīng)網(wǎng)絡(luò)來完成從源語言到目標(biāo)語言的翻譯過程,采用分布式語言表示,將翻譯知識(shí)隱含在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)中,對(duì)語言表示和翻譯模型實(shí)現(xiàn)聯(lián)合建模和學(xué)習(xí),訓(xùn)練端到端神經(jīng)機(jī)器翻譯模型,完成源語言文本到目標(biāo)語言文本的直接轉(zhuǎn)換[1,2]。神經(jīng)機(jī)器翻譯以其獨(dú)特的優(yōu)勢(shì)迅速成為主流的機(jī)器翻譯方法,并在翻譯技術(shù)上取得了巨大突破,翻譯質(zhì)量也不斷得到改善和提升。

      受限于烏爾都語相關(guān)語料資源稀少,漢烏語言翻譯相關(guān)研究一直以來寥寥無幾。從可查文獻(xiàn)來看,Zakira等[3,4]曾將神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于漢烏語言翻譯,分別使用OpenNMT和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM(Long Short-Term Memory)實(shí)現(xiàn)漢語到烏爾都語的翻譯。然而,這些工作缺乏有針對(duì)性的創(chuàng)新,翻譯效果欠佳。

      作為參照,英烏雙語之間的翻譯研究已有不少的研究成果。高巍等[5,6]分別將Transformer和Bi-LSTM(Bidirectional Long Short-Term Memory)網(wǎng)絡(luò)應(yīng)用于烏英機(jī)器翻譯。Jawaid等[7]考慮了烏爾都語和英語之間的語序差異,構(gòu)建了基于短語的統(tǒng)計(jì)機(jī)器翻譯,通過對(duì)源語言句子的句法分析樹中的短語進(jìn)行重新排序來提升翻譯質(zhì)量。Shahnawaz等[8]考慮英烏雙語的語言特征不同,提出基于GIZA++( GIZA是SMT工具包EGYPT的一個(gè)組成部分,GIZA++是GIZA的擴(kuò)展版本)、SRILM(SRI Language Modeling, SRI是一個(gè)獨(dú)立的非盈利性研究組織)和Moses的英烏機(jī)器翻譯系統(tǒng)模型,Moses采用最小翻譯錯(cuò)誤率訓(xùn)練模型,對(duì)因子翻譯模型進(jìn)行譯碼和訓(xùn)練,最終提升翻譯效果。

      神經(jīng)機(jī)器翻譯的優(yōu)異效果使其逐漸成為主流的機(jī)器翻譯方法。Zoph等[9]將長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM應(yīng)用于烏英機(jī)器翻譯。Rai等[10]提出了一種基于卷積的端到端的英烏機(jī)器翻譯模型,該模型降低了注意詞映射的非線性,并在最終結(jié)果上優(yōu)于Mixture Models[11]、OpenNMT[12]和Wiseman-Rush Models[13]等翻譯模型。Shahnawaz等[14]提出了一種基于機(jī)器翻譯實(shí)例推理CBR(Case-Based Reasoning)、翻譯規(guī)則庫模型和人工神經(jīng)網(wǎng)絡(luò)模型的烏英機(jī)器翻譯模型,采用CBR方法選擇合適的翻譯規(guī)則,以便將輸入的英文語句翻譯成烏爾都語。由于翻譯規(guī)則需要語言專家人為制定,該方法的實(shí)現(xiàn)需要較大的工作量且實(shí)現(xiàn)難度很大。因此,針對(duì)語言差異性規(guī)則改進(jìn)的翻譯方法仍需進(jìn)一步探究。

      本文提出融合烏爾都語詞性序列預(yù)測(cè)的神經(jīng)機(jī)器翻譯方法,在傳統(tǒng)機(jī)器翻譯模型的基礎(chǔ)上融合詞性序列的預(yù)測(cè)結(jié)果,構(gòu)成新的機(jī)器翻譯模型框架,通過輔助模型學(xué)習(xí)烏爾都語詞性序列特征來提升翻譯效果。

      3 模型構(gòu)建

      本文基于Transformer模型提出了融合烏爾都語詞性序列預(yù)測(cè)的漢烏神經(jīng)機(jī)器翻譯模型,通過訓(xùn)練詞性序列預(yù)測(cè)模型學(xué)習(xí)烏爾都語的詞性序列特征,并將學(xué)習(xí)到的特征融入傳統(tǒng)的機(jī)器翻譯模型中,模型的整體框架如圖2所示,輸入為中文句子,輸出為烏爾都語句子。

      Figure 2 Chinese-Urdu translation model圖2 漢烏翻譯模型

      3.1 Transformer模型

      2017年,Vaswani等[15]提出了完全基于注意力(Attention)機(jī)制的Transformer模型,其總體結(jié)構(gòu)仍是編碼器-解碼器的結(jié)構(gòu),但Transformer拋棄了序列計(jì)算,使得模型高并行化,顯著提高了計(jì)算效率和模型性能。Transformer模型結(jié)構(gòu)如圖3所示,其中N表示層數(shù)。編碼器分為自注意力層和前饋神經(jīng)網(wǎng)絡(luò)層。解碼器除包含編碼器結(jié)構(gòu)中自注意力層和前饋神經(jīng)網(wǎng)絡(luò)層外,在自注意力層和前饋神經(jīng)網(wǎng)絡(luò)層間加入交叉注意力層(編碼器-解碼器注意力層),同時(shí)在自注意力層加入序列掩碼。

      Figure 3 Structure of Transformer model圖3 Transformer模型結(jié)構(gòu)

      Transformer創(chuàng)新性地使用了自注意力機(jī)制,其定義如式(1)所示:

      (1)

      其中,Q、K和V是經(jīng)由3個(gè)線性變換矩陣得到的向量表征,dk表示向量的維度。

      模型使用了多頭注意力來捕捉不同子空間下詞之間的關(guān)聯(lián)關(guān)系,多頭注意力機(jī)制通過并行計(jì)算多個(gè)自注意力,從不同的表示子空間中學(xué)習(xí)不同的上下文信息,如式(2)和式(3)所示:

      MultiHead(Q,K,V)=

      Concat(head1,head2,…,headh,…,headH)

      (2)

      (3)

      其中,headh(1≤h≤H)表示模型使用的第h個(gè)注意力頭。

      Transformer通過注意力機(jī)制學(xué)習(xí)句子中每個(gè)詞之間的關(guān)聯(lián)關(guān)系,有效地解決了長(zhǎng)距離依賴的問題,并且Attention機(jī)制支持并行化計(jì)算,極大提高了計(jì)算效率,在翻譯任務(wù)上取得了顯著的效果。

      3.2 詞性序列預(yù)測(cè)模型

      Figure 4 Example of Urdu word order: I sent him a letter圖4 烏爾都語詞序示例:我給他寄了一封信

      漢烏雙語語序結(jié)構(gòu)存在差異,而這種差異性明顯地表現(xiàn)在詞性序列上,為提升翻譯效果,本文將詞性序列的差異性融入翻譯過程中。本文考慮翻譯過程中先對(duì)目標(biāo)詞的詞性進(jìn)行預(yù)測(cè),再對(duì)目標(biāo)詞進(jìn)行預(yù)測(cè)的方式。預(yù)測(cè)概率表達(dá)如式(4)所示:

      P(yt)=P(ypos)×P(yt|ypos)

      (4)

      其中,ypos表示預(yù)測(cè)的詞性標(biāo)簽,yt表示根據(jù)預(yù)先預(yù)測(cè)出的詞性標(biāo)簽預(yù)測(cè)出的目標(biāo)詞,P(ypos)表示預(yù)測(cè)的詞性概率,P(yt)表示預(yù)測(cè)出的目標(biāo)詞概率。

      序列預(yù)測(cè)模型的輸入和輸出如圖5所示,模型編碼端輸入源語句,解碼端輸入目標(biāo)語和目標(biāo)語對(duì)應(yīng)的詞性序列。編碼端和解碼端的詞嵌入表達(dá)分別如式(5)和式(6)所示:

      (5)

      (6)

      Figure 5 Prediction model of part of speech sequence圖5 詞性序列預(yù)測(cè)模型

      模型預(yù)測(cè)時(shí)輸入源語言序列和已知目標(biāo)語言序列及對(duì)應(yīng)詞性信息,輸出下一個(gè)目標(biāo)詞的詞性預(yù)測(cè)?;谠~性預(yù)測(cè)結(jié)果與翻譯模型的詞預(yù)測(cè)結(jié)果聯(lián)合預(yù)測(cè)下一個(gè)目標(biāo)詞。再將預(yù)測(cè)的目標(biāo)詞同時(shí)輸入翻譯模型和詞性預(yù)測(cè)模型的解碼端繼續(xù)預(yù)測(cè)下一個(gè)目標(biāo)詞,直至預(yù)測(cè)到結(jié)束標(biāo)簽‘〈e〉’,從而得到源語言對(duì)應(yīng)的翻譯語句。

      給定編碼端輸入序列x=(x1,x2,…,xn)和已生成的翻譯序列y=(y1,y2,…,yn),解碼端產(chǎn)生下一個(gè)詞的詞性標(biāo)簽概率P(Tt|y

      3.3 融入詞性序列預(yù)測(cè)信息的翻譯模型

      翻譯模型同樣使用Transformer模型,參數(shù)設(shè)置與序列預(yù)測(cè)模型保持一致。

      為將詞性序列預(yù)測(cè)結(jié)果融入翻譯模型中,本文利用統(tǒng)計(jì)方法構(gòu)建詞性標(biāo)簽-詞表關(guān)聯(lián)矩陣?;跒鯛柖颊Z帶詞性標(biāo)簽語料統(tǒng)計(jì)詞典中每個(gè)詞的詞性,構(gòu)建大小為vocab_size×postag_size的關(guān)聯(lián)矩陣。矩陣中詞與詞性標(biāo)簽有關(guān)聯(lián)關(guān)系的對(duì)應(yīng)位置為1,反之為0,由此構(gòu)建詞性標(biāo)簽-詞表關(guān)聯(lián)矩陣。關(guān)聯(lián)矩陣構(gòu)建示例如圖6所示,以稀疏的0-1矩陣表現(xiàn)烏爾都語詞和詞性標(biāo)簽的對(duì)應(yīng)關(guān)系。

      Figure 6 Construction of incidence matrix圖6 關(guān)聯(lián)矩陣構(gòu)建

      由關(guān)聯(lián)矩陣將詞性序列預(yù)測(cè)結(jié)果和翻譯模型預(yù)測(cè)結(jié)果結(jié)合起來。設(shè)t時(shí)刻利用漢烏翻譯模型解碼端產(chǎn)生下一個(gè)詞的預(yù)測(cè)概率為P(yt|y

      P(yt|y

      P(Tt|y

      (7)

      其中,E表示關(guān)聯(lián)矩陣,最后通過Softmax函數(shù)估計(jì)t時(shí)刻目標(biāo)語單詞的概率分布。

      3.4 模型構(gòu)建流程

      模型構(gòu)建完成后,分別對(duì)詞性序列預(yù)測(cè)模型和翻譯模型進(jìn)行訓(xùn)練。模型構(gòu)建流程大致如圖7所示。

      Figure 7 Process of system圖7 模型構(gòu)建流程

      4 實(shí)驗(yàn)與結(jié)果分析

      4.1 實(shí)驗(yàn)環(huán)境

      本文實(shí)驗(yàn)使用總數(shù)據(jù)約72 000條漢烏平行語料,數(shù)據(jù)來源于古蘭經(jīng)以及Subtitles網(wǎng)站,訓(xùn)練集、驗(yàn)證集和測(cè)試集的劃分如表1所示。

      Table 1 Dataset partition表1 數(shù)據(jù)集劃分

      數(shù)據(jù)集的處理方面,本文使用了自然語言處理工具NLTK(Natural Language ToolKit)對(duì)中文文本進(jìn)行切分,烏爾都語方面則僅以空格作為詞的邊界來對(duì)語料進(jìn)行分詞處理。對(duì)于雙語語料設(shè)置了最長(zhǎng)序列長(zhǎng)度50,舍棄了過長(zhǎng)平行句對(duì)。實(shí)驗(yàn)環(huán)境基于NVIDIA?GeForce RTXTM3060 GPU,Windows系統(tǒng),Python版本為3.6.0,PyTorch版本為1.10.2。

      此外本文使用Bushra Jawaid發(fā)布的烏爾都語詞性標(biāo)記器[16]來對(duì)本文實(shí)驗(yàn)數(shù)據(jù)中的烏爾都語部分進(jìn)行詞性標(biāo)記,該標(biāo)記器基于SVMTool訓(xùn)練,準(zhǔn)確率達(dá)到87.74%,圖8展示了部分?jǐn)?shù)據(jù)的標(biāo)記結(jié)果。

      Figure 8 Examples of part of speech labels in Urdu language texts圖8 烏爾都語文本詞性標(biāo)記示例

      4.2 實(shí)驗(yàn)結(jié)果評(píng)估和分析

      本文將融入烏爾都語詞性序列預(yù)測(cè)的翻譯模型與基準(zhǔn)Transformer模型進(jìn)行對(duì)比實(shí)驗(yàn),參數(shù)設(shè)置如表2所示。

      圖9展示了本文模型和基準(zhǔn)模型的損失變化,隨著迭代次數(shù)Epoch的增加,損失值逐漸降低。由于加入了預(yù)測(cè)的詞性信息,本文模型的損失在初始時(shí)便低于基準(zhǔn)Transformer模型,隨迭代次數(shù)增加,模型逐漸收斂,最終本文模型損失相較于基準(zhǔn)模型低0.17左右,由此可以看出本文模型對(duì)于實(shí)驗(yàn)數(shù)據(jù)擁有較好的擬合度。

      Table 2 Model parameters表2 模型參數(shù)

      Figure 9 Curves of loss圖9 損失變化曲線

      本文實(shí)驗(yàn)中采用的評(píng)價(jià)指標(biāo)為BLEU(BiLingual Evaluation Understudy)[17]值。BLEU值是用來衡量機(jī)器翻譯文本與參考文本之間的相似程度的指標(biāo),本文通過BLEU值來衡量譯文質(zhì)量。實(shí)驗(yàn)中每迭代一次就對(duì)模型的翻譯效果進(jìn)行一次測(cè)試,在測(cè)試集上運(yùn)行,根據(jù)輸出的BLEU值檢測(cè)翻譯效果的變化,測(cè)試集大小為3 000條數(shù)據(jù)。表3展示了每迭代5次時(shí)測(cè)試的BLEU值。圖10為BLEU值隨Epoch的變化曲線。 從圖10可以看出,與基準(zhǔn)Transformer模型相比,本文提出的融入烏爾都語詞性序列預(yù)測(cè)的翻譯模型的BLEU值提高較為明顯,在迭代40次時(shí)最優(yōu)結(jié)果為0.34,相較于基準(zhǔn)模型其BLEU值提升了0.13。這說明融入詞性序列信息的翻譯模型能夠有效提升翻譯效果。

      Table 3 Change of BLEU scores表3 BLEU值變化

      Figure 10 Curves of BLEU scores圖10 BLEU值變化曲線

      Table 4 Comparison of models表4 模型對(duì)比

      5 結(jié)束語

      巴基斯坦作為中國的友好鄰邦和“一帶一路”倡議的重要國家,開展?jié)h烏語言機(jī)器翻譯研究具有非常重要的現(xiàn)實(shí)意義。本文提出融合烏爾都語詞性序列信息的漢烏神經(jīng)機(jī)器翻譯模型,將預(yù)測(cè)目標(biāo)語言的詞性序列信息融入翻譯模型中,最終實(shí)驗(yàn)結(jié)果表明,本文方法的BLEU值相較于基準(zhǔn)模型的有所提升。本文在漢烏語言神經(jīng)機(jī)器翻譯方面進(jìn)行了開創(chuàng)性的研究,也為后續(xù)的改進(jìn)打下了研究基礎(chǔ)?,F(xiàn)階段由于語料庫數(shù)據(jù)較少且數(shù)據(jù)來源單一,模型并不能充分學(xué)習(xí)語言知識(shí),導(dǎo)致模型的泛化能力不夠,因此,擴(kuò)充語料是下一步工作的要點(diǎn)。另外,翻譯模型和詞性序列預(yù)測(cè)模型的融合可以進(jìn)一步優(yōu)化,有研究證明Transformer模型自底向上各層網(wǎng)絡(luò)依次聚焦于詞級(jí)-語法級(jí)-語義級(jí)的表示[18],那么詞性序列預(yù)測(cè)模型是否對(duì)翻譯模型的中低層表示具有指導(dǎo)意義是未來值得驗(yàn)證的探究點(diǎn)。

      猜你喜歡
      關(guān)聯(lián)矩陣語料注意力
      n階圈圖關(guān)聯(lián)矩陣的特征值
      讓注意力“飛”回來
      單圈圖關(guān)聯(lián)矩陣的特征值
      基于關(guān)聯(lián)矩陣主對(duì)角線譜理論的歐拉圖研究
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      n階圈圖的一些代數(shù)性質(zhì)
      A Beautiful Way Of Looking At Things
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語料
      太仆寺旗| 古浪县| 鸡泽县| 墨江| 龙口市| 慈溪市| 胶南市| 疏勒县| 长沙市| 佛坪县| 黔西| 南投市| 安塞县| 承德县| 裕民县| 贡嘎县| 安吉县| 岑巩县| 新绛县| 亳州市| 遂平县| 肃南| 莲花县| 宝兴县| 榆中县| 乌拉特后旗| 集贤县| 吉林市| 东宁县| 彭阳县| 临武县| 东台市| 沿河| 石渠县| 黔江区| 平阳县| 黔东| 开化县| 库车县| 财经| 华阴市|