• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于復(fù)述增廣的醫(yī)療領(lǐng)域機(jī)器翻譯

      2022-02-24 08:55:08龍從軍
      電子與信息學(xué)報 2022年1期
      關(guān)鍵詞:漢英雙語領(lǐng)域

      安 波 龍從軍

      (中國社會科學(xué)院民族學(xué)與人類學(xué)研究所 北京 100081)

      1 引言

      機(jī)器翻譯(Machine Translation, MT)是利用計算機(jī)將源語言的文本翻譯為目標(biāo)語言的文本的技術(shù),是自然語言處理的核心任務(wù)之一,對于實現(xiàn)跨語言交流等應(yīng)用具有重要價值[1—3]。機(jī)器翻譯按照發(fā)展階段可以大致分為基于詞典的機(jī)器翻譯[4]、基于規(guī)則的機(jī)器翻譯[5]、基于統(tǒng)計的機(jī)器翻譯[6]和基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯[3]。當(dāng)前,隨著深度神經(jīng)網(wǎng)絡(luò)在自然語言處理中的廣泛應(yīng)用,基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯取得了較好的性能,成為當(dāng)前機(jī)器翻譯領(lǐng)域的主流方法[3,7]。醫(yī)療領(lǐng)域機(jī)器翻譯在藥品研發(fā)、跨境醫(yī)療等領(lǐng)域具有重要的應(yīng)用價值,也得到了學(xué)界和企業(yè)界的廣泛重視[8—10]。

      基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯通常需要較多的訓(xùn)練數(shù)據(jù),目前的大規(guī)模平行語料主要以新聞、政策文檔等領(lǐng)域的數(shù)據(jù)為主,缺少大規(guī)模開源醫(yī)療領(lǐng)域的漢英平行數(shù)據(jù)集[11—13],因此訓(xùn)練數(shù)據(jù)不足是制約醫(yī)療領(lǐng)域機(jī)器翻譯的關(guān)鍵因素之一。針對訓(xùn)練數(shù)據(jù)不足的問題,研究者們提出無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、數(shù)據(jù)增廣等方法來減少模型對訓(xùn)練數(shù)據(jù)的依賴[13—16]。其中數(shù)據(jù)增廣通過自動生成新的訓(xùn)練數(shù)據(jù)的方式來增加訓(xùn)練數(shù)據(jù),具有較好的通用性,得到了學(xué)界的廣泛關(guān)注[13]。常用的數(shù)據(jù)增廣方法包括基于回譯的數(shù)據(jù)增廣、基于同義詞替換的數(shù)據(jù)增廣和基于復(fù)述生成的數(shù)據(jù)增廣[16—20]。其中基于回譯的數(shù)據(jù)增廣通過兩次不同方向的機(jī)器翻譯實現(xiàn)[19],如將漢語句子通過漢英翻譯模型翻譯為英文句子,然后通過英漢翻譯模型將英文句子翻譯為中文句子。該方法依賴于已有機(jī)器翻譯模型的性能?;谠~典替換的數(shù)據(jù)增廣方法主要依賴于同義詞詞典對句子中的同義詞進(jìn)行替換,受限于同義詞詞典的規(guī)模和領(lǐng)域,并且句子語言的多樣性變化較小[17]。

      機(jī)器翻譯數(shù)據(jù)是相同語義在不同語言下的表示,復(fù)述是相同語義在同一語言下的不同表述,因此基于已有的雙語平行語料,通過在源語言/目標(biāo)語言上進(jìn)行復(fù)述生成,能夠生成新的對齊數(shù)據(jù),從而實現(xiàn)數(shù)據(jù)增廣(如圖1所示)[20]?;诟哔|(zhì)量的復(fù)述數(shù)據(jù)可以訓(xùn)練較好的復(fù)述生成模型,生成語義一致但詞匯、句法不同的數(shù)據(jù)[21]。因此基于復(fù)述生成的數(shù)據(jù)增廣方法可以更好地處理語言的多樣性,增強(qiáng)模型的魯棒性、減少對訓(xùn)練數(shù)據(jù)的依賴[21,22]。

      基于上述分析,本文提出基于復(fù)述增廣的醫(yī)療機(jī)器翻譯方法。該方法首先利用高質(zhì)量的漢語復(fù)述數(shù)據(jù)訓(xùn)練漢語復(fù)述生成模型。其次,設(shè)計實現(xiàn)基于漢英雙語醫(yī)學(xué)電子書中抽取雙語平行數(shù)據(jù)集,并在采集到的漢英醫(yī)療領(lǐng)域平行數(shù)據(jù)上利用復(fù)述生成方法進(jìn)行數(shù)據(jù)增廣,得到更大規(guī)模的漢英醫(yī)療機(jī)器翻譯平行語料。最后,利用多種主流的神經(jīng)機(jī)器翻譯方法進(jìn)行機(jī)器翻譯的模型驗證。實驗結(jié)果表明,我們提出的方法能夠有效地提升漢英醫(yī)療機(jī)器翻譯的性能(平均提升6個點的BLEU值),驗證了基于復(fù)述增廣的機(jī)器翻譯方法的價值。需要說明的是,本文在數(shù)據(jù)增廣時以漢語作為主要增廣對象,主要目的是能夠更好地實現(xiàn)漢語與其他語言的翻譯,如漢英、漢日、漢韓等,漢語與這些語言之間均存在如跨境醫(yī)療的翻譯需求。以漢語作為數(shù)據(jù)增廣的對象,可以實現(xiàn)對漢語與其他多種語言之間機(jī)器翻譯的性能。

      本文的主要貢獻(xiàn)包括以下3點:

      (1) 本文設(shè)計實現(xiàn)了一種基于復(fù)述生成的方式提升醫(yī)療機(jī)器翻譯性能的方法,該方法具有較好的通用性,能夠提升多種主流的機(jī)器翻譯模型;

      (2) 通過對比基于同義詞替換、基于深度學(xué)習(xí)的復(fù)述生成模型和基于大規(guī)模預(yù)訓(xùn)練語言模型的復(fù)述生成模型發(fā)現(xiàn),基于大規(guī)模預(yù)訓(xùn)練語言模型(Bert, MT5)的復(fù)述生成方法能夠更大程度地提升機(jī)器翻譯的性能;

      (3) 本文利用醫(yī)療領(lǐng)域著作、指南、病歷等雙語數(shù)據(jù)構(gòu)建了一個漢英醫(yī)療機(jī)器翻譯數(shù)據(jù)集。

      2 相關(guān)工作

      本文主要涉及機(jī)器翻譯和基于數(shù)據(jù)增廣的模型提升工作,本節(jié)將從這兩個方面分別進(jìn)行介紹。

      2.1 機(jī)器翻譯

      機(jī)器翻譯是自然語言處理的核心任務(wù),因其具有非常強(qiáng)的應(yīng)用價值和市場需求,一直是自然語言處理領(lǐng)域的研究熱點[1,2]。機(jī)器翻譯按照發(fā)展階段可以大致分為:早期基于詞典的機(jī)器翻譯(Dictionary Based Machine Translation, DBMT)、融合詞典和語言知識的規(guī)則翻譯(Rule Based Machine translation, RBMT)、統(tǒng)計機(jī)器翻譯(Statistic Machine Translation, SMT)和神經(jīng)機(jī)器翻譯(Neural Machine Translation, NMT)[3—6]。隨著深度學(xué)習(xí)的快速發(fā)展和計算性能的爆炸式提升,基于深度學(xué)習(xí)的神經(jīng)機(jī)器翻譯成為當(dāng)前研究和應(yīng)用的主流方法[3]。

      IBM在1954年在IBM-701計算機(jī)上首次實現(xiàn)了英俄機(jī)器翻譯實驗,驗證了機(jī)器翻譯的可行性,正式拉開了機(jī)器翻譯研究的序幕[23]。這一時期由于軍事、政治、文化的需求,各國對于外文資料均有較多的翻譯需求,因此也對機(jī)器翻譯研究提供了較多地支持,也產(chǎn)生了包含LMT等具有代表性的系統(tǒng)。但是由于翻譯質(zhì)量差、速度慢等特點,1966年ALPAC對于機(jī)器翻譯的負(fù)面評價導(dǎo)致機(jī)器翻譯的研究出現(xiàn)了短暫的停滯。

      20世紀(jì)70年代,基于規(guī)則的機(jī)器翻譯逐漸成熟,機(jī)器翻譯再一次得到較為廣泛地應(yīng)用。這類方法依賴于一定的規(guī)則對詞法/句法等語言學(xué)信息進(jìn)行轉(zhuǎn)換實現(xiàn)機(jī)器翻譯。這一時期的代表系統(tǒng)包括:Systran, Japanese MT systems和EUROTRA[24—26]等。這類方法的缺點也存在人工規(guī)則制定成本高、規(guī)則易沖突、不利于系統(tǒng)擴(kuò)展等缺點。

      統(tǒng)計機(jī)器翻譯利用機(jī)器學(xué)習(xí)將機(jī)器翻譯建模為從源語言到目標(biāo)語言的生成問題,即求解最大化p(t|s),其中s為源語言句子,t為目標(biāo)語言句子。統(tǒng)計機(jī)器翻譯最早在1949年由瓦倫基于香農(nóng)的信息論提出[27]。最早可行的統(tǒng)計機(jī)器翻譯模型則是由IBM研究院提出,并實現(xiàn)IBM Model-1到IBM Model-5 5種統(tǒng)計機(jī)器翻譯模型[28]。為了解決基于詞翻譯的語義單元過小的問題,研究者提出基于短語的機(jī)器翻譯,得到了廣泛地應(yīng)用。目前愛丁堡大學(xué)維護(hù)的Moses[29]是統(tǒng)計機(jī)器翻譯最為成功的開源實現(xiàn)。在國內(nèi),小牛翻譯開源的NiuTrans也得到了較為廣泛的關(guān)注[30]。

      近年來,隨著深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)在自然語言處理領(lǐng)域的廣泛應(yīng)用,基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯(NMT)也得到廣泛的關(guān)注。神經(jīng)機(jī)器翻譯同樣將機(jī)器翻譯建模為從源語言到目標(biāo)語言的生成問題。2013年Kalchbrenner等人[31]提出了基于編碼器-解碼器結(jié)構(gòu)的神經(jīng)機(jī)器翻譯方法,該方法使用卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network, CNN)[32]作為源語言的編碼器,使用迭代神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network, RNN)[33]作為目標(biāo)語言的解碼器。為了解決RNN帶來的梯度爆炸和梯度消失問題,基于長短時記憶網(wǎng)絡(luò)(Long Short Time Memory, LSTM)[34]的模型被引入機(jī)器翻譯的編解碼模型,并提出了在機(jī)器翻譯領(lǐng)域著名的Seq2Seq框架[35]。受到圖像領(lǐng)域啟發(fā),注意力機(jī)制(Attention)被引入到機(jī)器翻譯模型中,該機(jī)制動態(tài)的建模在生成目標(biāo)詞時所應(yīng)當(dāng)關(guān)注的源語言詞的信息,能夠更好地指導(dǎo)目標(biāo)詞的生成,因此得到了廣泛地應(yīng)用[36]。近期,谷歌將基于自注意力機(jī)制(self attention)的Transformer結(jié)構(gòu)引入到機(jī)器翻譯模型中,取得了非常好的效果,成為當(dāng)前神經(jīng)機(jī)器翻譯的主流方法[37]。

      因為有著強(qiáng)烈的市場需求,神經(jīng)機(jī)器翻譯得到了學(xué)界和企業(yè)界的廣泛重視,在各大自然語言處理、人工智能的頂級會議中均為較多數(shù)量的神經(jīng)機(jī)器翻譯的研究工作。目前,谷歌、百度、搜狗、有道、小牛等公司也在神經(jīng)機(jī)器翻譯上投入了大量的資源。

      2.2 基于復(fù)述的數(shù)據(jù)增廣

      與其他基于深度學(xué)習(xí)的模型類似,神經(jīng)機(jī)器翻譯通常需要大量的訓(xùn)練數(shù)據(jù)才能訓(xùn)練得到較好的模型,然而對于小語種或垂直領(lǐng)域而言,往往缺乏大規(guī)模的訓(xùn)練數(shù)據(jù),如漢藏翻譯、醫(yī)療機(jī)器翻譯等。針對數(shù)據(jù)稀缺的問題,基于無監(jiān)督的機(jī)器翻譯、基于遷移學(xué)習(xí)的機(jī)器翻譯和基于數(shù)據(jù)增廣的機(jī)器翻譯受到學(xué)者們的廣泛關(guān)注。

      數(shù)據(jù)增廣在圖像處理、自然語言處理等領(lǐng)域具有廣泛地應(yīng)用。在自然語言處理領(lǐng)域,數(shù)據(jù)增廣的方法主要包括:基于同義詞替換的方法、基于回譯(back translation)的方法和基于復(fù)述生成的數(shù)據(jù)增廣方法?;谕x詞替換的方法借助于已有的同義詞詞典或詞向量來獲取詞匯的同義詞,通過同義詞替換的方式生成新的句子,以達(dá)到數(shù)據(jù)增廣的目的。然而,基于同義詞替換的方法主要受限于高質(zhì)量的同義詞詞典,并且僅在詞匯級別上進(jìn)行替換難以生成具有多樣性的句子。隨著機(jī)器翻譯等技術(shù)的提升,基于回譯的機(jī)器翻譯越來越多地用于數(shù)據(jù)增廣。然而,基于回譯的機(jī)器數(shù)據(jù)增廣方法嚴(yán)重依賴于已有的機(jī)器翻譯模型,且已有的商用機(jī)器翻譯服務(wù)(百度、谷歌)均為通用領(lǐng)域的機(jī)器翻譯,在醫(yī)療文本翻譯方面不能進(jìn)行有效的翻譯?;趶?fù)述的數(shù)據(jù)增廣是利用復(fù)述生成的方法對數(shù)據(jù)進(jìn)行增廣,復(fù)述生成也成為自然語言處理領(lǐng)域數(shù)據(jù)增廣的常用方法[20,22]。

      通常機(jī)器翻譯的訓(xùn)練數(shù)據(jù)為語義對齊的雙語句子,而復(fù)述是相同語義在同種語言下的不同表達(dá),因此通過復(fù)述生成的方法對機(jī)器翻譯訓(xùn)練句對中的一個句子進(jìn)行復(fù)述,得到的復(fù)述句與訓(xùn)練句對中的另外一個句子天然的形成新的機(jī)器翻譯訓(xùn)練句對?;趶?fù)述的數(shù)據(jù)增廣方法主要涉及復(fù)述數(shù)據(jù)集和復(fù)述生成方法,在漢語環(huán)境下已經(jīng)有了多種公開的復(fù)述數(shù)據(jù)集,如BQ Corpus[38], Chinese PPDB1),https://github.com/casnlu/Chinese-PPDBPKU paraphrase bank[39], Phoenix Paraphrasing dataset2)https://ai.baidu.com/broad/subordinate?dataset=paraphrasing等,為本文的研究提供了語料庫支撐。復(fù)述生成方法主要可以分為:基于詞典與規(guī)則的復(fù)述生成、基于統(tǒng)計學(xué)習(xí)的復(fù)述生成和基于神經(jīng)網(wǎng)絡(luò)的復(fù)述生成。隨著訓(xùn)練數(shù)據(jù)規(guī)模的提升,深度學(xué)習(xí)依賴其強(qiáng)大的建模能力,在復(fù)述生成領(lǐng)域取得了較好的效果。包括基于迭代神經(jīng)網(wǎng)絡(luò)的復(fù)述生成,基于長短是記憶網(wǎng)絡(luò)的復(fù)述生成和基于Transformer的復(fù)述生成[40]。近期,大規(guī)模預(yù)訓(xùn)練語言模型在自然語言處理領(lǐng)域得到了廣泛的應(yīng)用,如Bert[41], MT5[42]等,這些模型利用其較強(qiáng)的文本表示與文本生成能力能夠在一定程度上提升模型的泛化能力和生成文本的多樣性。

      3 基于復(fù)述增廣的醫(yī)療機(jī)器翻譯方法

      本文的基本思路是在已有漢英醫(yī)療機(jī)器翻譯平行句對的基礎(chǔ)上,利用復(fù)述生成技術(shù)對平行句對中的漢語句子進(jìn)行復(fù)述,進(jìn)而生成具有與英文句子相同語義的漢語新句子構(gòu)建新的平行句對,從而達(dá)到復(fù)述數(shù)據(jù)擴(kuò)充的目的,如圖1所示。本文的方法主要包含以下3個步驟:(1)首先基于已有的漢語復(fù)述語料集構(gòu)建漢語復(fù)述生成模型;(2)然后利用中文復(fù)述生成模型對采集的漢英醫(yī)療機(jī)器翻譯數(shù)據(jù)集進(jìn)行數(shù)據(jù)增廣;(3)最后在增廣后的雙語平行數(shù)據(jù)集上進(jìn)行神經(jīng)機(jī)器翻譯模型的訓(xùn)練,得到醫(yī)療機(jī)器翻譯模型。本節(jié)將從中文復(fù)述生成模型、醫(yī)療漢英平行語料采集和復(fù)述增廣的神經(jīng)機(jī)器翻譯方法3個方面分別進(jìn)行介紹。

      圖1 基于復(fù)述生成的機(jī)器翻譯數(shù)據(jù)增廣示意圖

      3.1 漢語復(fù)述生成模型

      復(fù)述生成模型能夠產(chǎn)生與給定文本字面不同但語義相同的文本,按照復(fù)述粒度的不同,可以分為詞級復(fù)述(即同義詞)、短語級復(fù)述、句子級復(fù)述和文檔級復(fù)述。本文針對機(jī)器翻譯雙語平行語料庫數(shù)據(jù)增廣的需要,僅涉及句子級復(fù)述。我們使用復(fù)述生成來實現(xiàn)漢語句子的復(fù)述,復(fù)述生成模型的訓(xùn)練依賴于高質(zhì)量的復(fù)述數(shù)據(jù)集,本文通過融合BQ Corpus, Chinese PPDB, PKU paraphrase bank和Phoenix Paraphrasing dataset 4個數(shù)據(jù)集,形成一個較大規(guī)模的中文復(fù)述數(shù)據(jù)集。

      近期,基于深度學(xué)習(xí)的文本生成方法取得了顯著地提升,本文在Seq2Seq框架下實現(xiàn)了3種常用的復(fù)述生成模型,包括基于RNNSearch的復(fù)述生成模型、基于BiLSTM的復(fù)述生成模型和基于Transformer[36]的復(fù)述生成模型。同時,為了能夠更好地實現(xiàn)對醫(yī)療專有名詞的翻譯(疾病詞、癥狀詞、藥品名、手術(shù)名等),本文引入了Copy機(jī)制來實現(xiàn)高質(zhì)量的專有名詞的翻譯。大規(guī)模預(yù)訓(xùn)練語言模型通過在大規(guī)模文本數(shù)據(jù)上的訓(xùn)練,可以增強(qiáng)模型的泛化能力,也能提升文本生成的多樣性。因此,我們在Bert和MT5[43]的基礎(chǔ)上進(jìn)行微調(diào),訓(xùn)練得到復(fù)述生成模型。復(fù)述生成的整體框架如圖2所示。

      如圖2所示,其中基于深度學(xué)習(xí)的復(fù)述生成模型(BiLSTM, Transformer)的表示層使用預(yù)訓(xùn)練的詞向量,本文使用騰訊發(fā)布中文預(yù)訓(xùn)練詞向量3)https://ai.tencent.com/ailab/nlp/zh/embedding.html,中文分詞采用北京大學(xué)開源的pkuseg4)https://github.com/lancopku/pkuseg-python。編碼層和解碼層采用對應(yīng)的模型,如Transformer的編碼層和解碼層均使用Transformer,分類層采用Softmax。基于預(yù)訓(xùn)練語言模型的復(fù)述生成模型(Bert,MT5)均以漢字為單位作為輸入,表示層和編碼層均采用語言模型的文本表示方法。其中基于Bert的方法在編碼層和解碼層為兩個單獨的Bert模型,共享詞表但是分別訓(xùn)練。由于MT5本身為文本生成模型,因此只需要在漢語復(fù)述數(shù)據(jù)上進(jìn)行微調(diào)(fine-tuning)即可得到復(fù)述生成模型。

      圖2 復(fù)述生成整體框架圖

      3.2 漢英醫(yī)療機(jī)器翻譯數(shù)據(jù)采集

      目前缺少開源的大規(guī)模醫(yī)療領(lǐng)域漢英機(jī)器翻譯數(shù)據(jù)[44]。針對這種現(xiàn)狀,本文通過對醫(yī)療領(lǐng)域的雙語電子書進(jìn)行雙語平行語料的抽取(包括:醫(yī)學(xué)著作、指南、病歷中英雙語版本),構(gòu)建了一個包含10萬句對的醫(yī)療領(lǐng)域漢英機(jī)器翻譯數(shù)據(jù)集。具體的構(gòu)建流程如圖3所示。其中“漢語書”和“英語書”指的是相同電子書的不同語言的版本,通過掃描后形成對齊的電子書。OCR模塊將圖片格式的數(shù)據(jù)轉(zhuǎn)換為漢語和英語的文本數(shù)據(jù),本文使用百度開源的OCR識別接口實現(xiàn)字符識別5)https://github.com/PaddlePaddle。在得到文本數(shù)據(jù)之后,通過章節(jié)編號、標(biāo)題等信息實現(xiàn)章節(jié)的切分和對齊。在章節(jié)內(nèi)部,使用Giza++[45]實現(xiàn)詞級別的對齊。利用詞對齊的信息,找到雙語數(shù)據(jù)中的錨點句(雙語句子中的詞完全對齊),然后使用動態(tài)規(guī)劃算法來實現(xiàn)雙語章節(jié)內(nèi)部的句子對齊。之后,通過谷歌翻譯6)https://translate.google.cn/將英文翻譯為英文,并通過SentenceBert[46]計算句子的語義相似度,過濾掉相似度低于一定閾值的句子對。最后,對得到的雙語對齊數(shù)據(jù)進(jìn)行去重,去掉中英文完全一致的句子對。

      圖3 基于雙語電子書的漢英醫(yī)療機(jī)器翻譯數(shù)據(jù)抽取方法

      通過上述步驟,本文從醫(yī)學(xué)著作、指南、雙語病歷等數(shù)據(jù)中抽取出了約10萬條句子對,形成了一個較大規(guī)模的醫(yī)療機(jī)器翻譯數(shù)據(jù)集。本文通過隨機(jī)抽取的方式將數(shù)據(jù)分為訓(xùn)練集、驗證集和測試集,具體的統(tǒng)計信息如表1所示。

      表1 漢英醫(yī)療機(jī)器翻譯數(shù)據(jù)集

      3.3 基于復(fù)述增廣的機(jī)器翻譯方法

      通過上述步驟,本文得到了漢語復(fù)述生成模型和漢英醫(yī)療機(jī)器翻譯數(shù)據(jù)集。本節(jié)介紹通過復(fù)述生成模型對雙語平行句對中的漢語句子進(jìn)行復(fù)述生成。新生成的句子與原句子對應(yīng)的英文句子構(gòu)成新的雙語對齊數(shù)據(jù)。通過上述方法實現(xiàn)了對雙語平行語料的增廣。該方法的整體框架如圖4所示。

      圖4 復(fù)述增廣的機(jī)器翻譯方法框架圖

      本文的主要目的是驗證基于復(fù)述生成的增廣方法是否能夠有效地提升神經(jīng)機(jī)器翻譯的性能,因此本文復(fù)現(xiàn)了幾種主流的機(jī)器翻譯模型作為基礎(chǔ)模型,包括Seq2Seq, RNNSearch和Transformer。本文在這3種模型先開展實驗,來驗證方法的有效性。

      4 實驗

      4.1 實驗設(shè)置

      本節(jié)主要介紹復(fù)述生成模型、神經(jīng)機(jī)器翻譯模型的實驗?zāi)P驮O(shè)置。本文基于Transformer實現(xiàn)復(fù)述生成模型,word embedding dim地址為300、beam設(shè)置為50,batch size設(shè)置為64、句子長度設(shè)置為256、learning rate設(shè)置為0.01、optimizer設(shè)置為Adam。神經(jīng)機(jī)器翻譯包含Seq2Seq, RNNSearch和Transformer3種模型,模型的超參數(shù)設(shè)置如表2所示。本文使用BLEU值作為模型的評價指標(biāo)。本文的所有實驗均為在訓(xùn)練集上進(jìn)行訓(xùn)練,在驗證集上找到最優(yōu)的超參和epoch次數(shù),在測試集上得到結(jié)果。本文所有實驗均在一臺GPU服務(wù)器上進(jìn)行,其基本配置如下:CPU 2*AMD 霄龍7742、512G DDR4內(nèi)存、4* Nvidia RTX 24G顯卡。本文使用BLUE值作為評價不同模型翻譯結(jié)果的主要指標(biāo)。

      表2 模型參數(shù)設(shè)置

      4.2 對比實驗

      為了能夠驗證復(fù)述增廣方法對于漢英醫(yī)療機(jī)器翻譯的作用,本文設(shè)置了多組對比實驗,包括:(1)在采集的機(jī)器翻譯語料上直接使用基礎(chǔ)機(jī)器翻譯模型(Seq2Seq, RNNSearch和Transformer)進(jìn)行訓(xùn)練;(2)使用基于同義詞替換(WordRep)的方法對機(jī)器翻譯數(shù)據(jù)進(jìn)行增廣,然后使用機(jī)器翻譯模型進(jìn)行訓(xùn)練;(3)使用本文提出的幾種復(fù)述生成方法對數(shù)據(jù)進(jìn)行增廣,然后使用機(jī)器翻譯模型進(jìn)行訓(xùn)練。其中基于同義詞替換的方法,本文使用哈爾濱工業(yè)大學(xué)的同義詞詞典7)http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm作為同義詞數(shù)據(jù)源。

      4.3 實驗結(jié)果

      由于本文主要為了驗證基于復(fù)述生成的數(shù)據(jù)增廣方法對于醫(yī)療機(jī)器翻譯的增強(qiáng)效果,因此主實驗為3種模型在沒有數(shù)據(jù)增廣和有數(shù)據(jù)增廣之后的效果的對比,該實驗設(shè)置生成的復(fù)述句子為4個,新生成的訓(xùn)練數(shù)據(jù)集是原始訓(xùn)練數(shù)據(jù)的5倍數(shù)據(jù)量。該部分的實驗結(jié)果如表3所示,其中“-para”表示增廣之后的訓(xùn)練集得到的模型。

      從表3我們可以得到以下結(jié)論:

      表3 漢英醫(yī)療機(jī)器翻譯結(jié)果

      (1)基于復(fù)述生成的數(shù)據(jù)增廣方法能夠顯著地提升醫(yī)療領(lǐng)域機(jī)器翻譯的性能,驗證了復(fù)述增廣的方法在機(jī)器翻譯領(lǐng)域具有一定的通用性。

      (2)基于同義詞替換的方法(WordRep)基本不能提升機(jī)器翻譯的性能,在RNNSearch模型下甚至降低了模型的性能,我們推測是可能是由于同義詞詞典為通用領(lǐng)域的同義詞,在醫(yī)療領(lǐng)域缺少相關(guān)的詞匯導(dǎo)致的。

      (3)基于語言模型的復(fù)述生成方法(Bert, MT5)能夠更大程度地提升模型的性能,說明通過這種方法生成的復(fù)述句子能夠更好地提升機(jī)器翻譯的性能。

      (4)基于MT5的復(fù)述生成方法相對于基于Bert的復(fù)述生成方法能夠更大程度地提升機(jī)器翻譯的性能,說明MT5在復(fù)述生成任務(wù)上具有更好的性能和多樣性。

      為了更清晰地展示本文提出的方法訓(xùn)練得到醫(yī)療領(lǐng)域機(jī)器翻譯的性能,本文在表4中使用一個例子來直觀地展示本文提出的方法與百度和谷歌的機(jī)器翻譯的對比。醫(yī)療專家的人工評價也認(rèn)為本文提出的方法能夠較好地保持漢語句子的語義,翻譯的結(jié)果比較符合常見的病例描述方式,同時在醫(yī)療詞匯的翻譯上也更加準(zhǔn)確(如“并持續(xù)加重”翻譯為“progressive worsening”)。

      表4 漢英醫(yī)療機(jī)器翻譯例子

      4.4 不同的復(fù)述數(shù)量對翻譯性能的影響

      為了進(jìn)一步地驗證復(fù)述增廣對機(jī)器翻譯性能地提升作用,本節(jié)通過設(shè)置不同的復(fù)述數(shù)量來觀察對于復(fù)述模型的提升效果。本部分實驗以Transformer作為基礎(chǔ)模型,然后通過不同的增廣數(shù)量來開展實驗。該部分的實驗結(jié)果如圖5所示,其中橫坐標(biāo)為1表示僅使用原始訓(xùn)練數(shù)據(jù),橫坐標(biāo)為2時復(fù)述生成數(shù)量設(shè)置為1,即使用2倍的數(shù)據(jù)進(jìn)行訓(xùn)練,以此類推。

      從圖5可知,不同的復(fù)述數(shù)量對于機(jī)器翻譯的性能有較大影響,在初期階段通過增加訓(xùn)練數(shù)據(jù)可以快速提升機(jī)器翻譯的BLEU值,并且當(dāng)使用5倍的數(shù)據(jù)進(jìn)行訓(xùn)練時達(dá)到最優(yōu)的效果。當(dāng)訓(xùn)練數(shù)據(jù)超過5倍的數(shù)據(jù)時,性能開始下降,我們推測是因為復(fù)述模型引入了更多的噪音且多樣性不足等原因,導(dǎo)致機(jī)器翻譯性能的下降。

      圖5 不同復(fù)述數(shù)量對機(jī)器翻譯性能的影響

      綜上所述,實驗結(jié)果表明基于單語復(fù)述增強(qiáng)的方式能夠較好地提升醫(yī)療機(jī)器翻譯的性能。我們認(rèn)為這是由于機(jī)器翻譯在理解愿語言文本和生成目標(biāo)語言文本的時候均需要處理語言多樣性的問題。在訓(xùn)練數(shù)據(jù)不足的情況下,單語復(fù)述能夠提升模型應(yīng)對一種語言多樣性的能力,進(jìn)而優(yōu)化機(jī)器翻譯的性能。

      5 結(jié)束語

      針對醫(yī)療領(lǐng)域機(jī)器翻譯訓(xùn)練數(shù)據(jù)不足的問題,本文提出一種基于復(fù)述生成進(jìn)行數(shù)據(jù)增廣的方法來增強(qiáng)醫(yī)療領(lǐng)域機(jī)器翻譯的性能的方法。該方法借助于大規(guī)模單語復(fù)述數(shù)據(jù)集構(gòu)建復(fù)述生成模型。同時,本文設(shè)計實現(xiàn)了一種從醫(yī)療領(lǐng)域電子書中抽取漢英醫(yī)療機(jī)器翻譯數(shù)據(jù)的方法,構(gòu)建了一個10萬句級別的醫(yī)療領(lǐng)域機(jī)器翻譯數(shù)據(jù)集。最后,利用復(fù)述生成模型對醫(yī)療機(jī)器翻譯的訓(xùn)練數(shù)據(jù)進(jìn)行增廣,得到更大規(guī)模的訓(xùn)練數(shù)據(jù)。在3種不同的神經(jīng)機(jī)器翻譯方法的實驗結(jié)果表明,基于復(fù)述增廣的機(jī)器翻譯方法能夠有效地提升醫(yī)療機(jī)器翻譯的效果。同時,實驗結(jié)果表明基于大規(guī)模預(yù)訓(xùn)練語言模型的復(fù)述方式能夠最大程度地提升機(jī)器翻譯的性能。但從實驗結(jié)果中也可以看出,復(fù)述生成仍然會引入一部分噪音,因此針對機(jī)器翻譯如何生成更高質(zhì)量的復(fù)述句子,避免引入噪音是未來工作的重點。

      猜你喜歡
      漢英雙語領(lǐng)域
      領(lǐng)域·對峙
      青年生活(2019年23期)2019-09-10 12:55:43
      話題鏈在漢英篇章翻譯中的統(tǒng)攝作用
      從目的論看環(huán)保公示語的漢英翻譯
      新常態(tài)下推動多層次多領(lǐng)域依法治理初探
      快樂雙語
      新晨(2013年7期)2014-09-29 06:19:50
      快樂雙語
      新晨(2013年5期)2014-09-29 06:19:50
      快樂雙語
      新晨(2013年10期)2014-09-29 02:50:54
      漢英文字的幽默修辭功能淺探
      語言與翻譯(2014年1期)2014-07-10 13:06:14
      肯定與質(zhì)疑:“慕課”在基礎(chǔ)教育領(lǐng)域的應(yīng)用
      3D 打?。合冗M(jìn)制造領(lǐng)域的必爭之地
      杭州科技(2013年5期)2013-03-11 16:40:59
      萍乡市| 广丰县| 元谋县| 呼伦贝尔市| 东山县| 新建县| 荆州市| 九台市| 昌图县| 巴马| 丽水市| 临邑县| 宜兰县| 沅江市| 翼城县| 安吉县| 仪征市| 手机| 达拉特旗| 刚察县| 剑阁县| 祥云县| 新源县| 石城县| 泸州市| 阿拉善盟| 新建县| 新平| 新竹市| 常宁市| 环江| 邳州市| 应城市| 台山市| 威远县| 通化县| 荥阳市| 丹寨县| 丹棱县| 仙桃市| 镇赉县|