• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于融合多語言交互的在線翻譯輔助系統(tǒng)

      2020-12-23 06:57:07胡曉榕
      微型電腦應(yīng)用 2020年11期
      關(guān)鍵詞:機(jī)器學(xué)習(xí)

      胡曉榕

      摘 要:隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,目前翻譯行業(yè)也逐漸引入該技術(shù)用來提升翻譯效果。文章以實(shí)現(xiàn)在線學(xué)習(xí)為目標(biāo),為了學(xué)習(xí)人員能夠在不斷糾正過程中進(jìn)行學(xué)習(xí),設(shè)計(jì)了一套端到端平臺(tái),該平臺(tái)將機(jī)器翻譯服務(wù)器集成到專業(yè)翻譯人員最常用的用戶界面中,實(shí)現(xiàn)在機(jī)器不斷從人的選擇中學(xué)習(xí)并根據(jù)特定領(lǐng)域或用戶風(fēng)格調(diào)整模型的同時(shí),節(jié)省學(xué)習(xí)人員后期的編輯工作,提升了在線翻譯過程中的輔助效果。

      關(guān)鍵詞:機(jī)器學(xué)習(xí);翻譯行業(yè);端到端平臺(tái);翻譯模型

      中圖分類號:TP393

      文獻(xiàn)標(biāo)志碼:A

      文章編號:1007-757X(2020)11-0080-02

      Abstract:With the development of machine learning technology, the translation industry has gradually introduced this technology to improve translation results. This article aims at online learning. In order that the learner can get progress in the process of continuous correction, an end-to-end platform is designed. This platform integrates the machine translation server into the user interface which is commonly used by professional translators. By continuously learning from human choices and adjusting models according to specific fields or user styles, it saves the editing work of the learners in the later stages and improves the auxiliary effect in the online translation process.

      Key words:machine learning;translation industry;end-to-end platform;translation model

      0?引言

      在翻譯行業(yè)中,翻譯的效果至關(guān)重要,直接關(guān)系著業(yè)務(wù)人員的工作效率。如今,翻譯行業(yè)的高效性需求必須滿足快速的商業(yè)需求,為此,需要在較短的時(shí)間內(nèi)為用戶提供準(zhǔn)備高質(zhì)量的翻譯結(jié)果。隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,文獻(xiàn)[1]中提出使用支持向量機(jī)(一種監(jiān)督學(xué)習(xí)模型)獲得了安德森雜質(zhì)模型的格林函數(shù),用來實(shí)現(xiàn)自學(xué)習(xí)提升。

      機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展,為翻譯行業(yè)提供了可高效、快捷翻譯結(jié)果的途徑,即“人性化”翻譯,稱為后期編輯(PE),該模式目前在翻譯行業(yè)中被證明是有效的[2],被稱為是機(jī)器翻譯(Machine Translation,MT),隨著MT功能的不斷完善,此工作流程已成為翻譯行業(yè)的重要內(nèi)容。

      PE過程本身就在不斷生成新的雙語數(shù)據(jù),此數(shù)據(jù)通常用于創(chuàng)建特定于域的語料庫,可用于將系統(tǒng)從更廣泛的域改編為特定的域客戶端或樣式。在線學(xué)習(xí)(Online Learning,OL)范式指在PE過程中執(zhí)行這種調(diào)整[3]:每次用戶驗(yàn)證后期編輯的翻譯時(shí),系統(tǒng)都會(huì)在考慮到此數(shù)據(jù)的情況下進(jìn)行更新。因此,當(dāng)產(chǎn)生下一個(gè)翻譯時(shí),系統(tǒng)將考慮先前的版本,從而將產(chǎn)生更好的翻譯(或更切近于人類語言用于規(guī)范)。

      OL范式已迅速引起研究人員和行業(yè)的關(guān)注,基于短語的統(tǒng)計(jì)MT系統(tǒng)從用戶后期編輯中逐步改編而成,最近,OL技術(shù)也被應(yīng)用于神經(jīng)機(jī)器翻譯(NMT)系統(tǒng)[4],本文介紹了內(nèi)部OL框架的演示系統(tǒng),在該系統(tǒng)中,將翻譯服務(wù)器與翻譯程序的用戶友好界面SDL Trados Studio集成在一起,從而提升了多語言交互翻譯過程中的效率。

      1?系統(tǒng)設(shè)計(jì)

      從用戶在PE流程中生成的后期編輯中提升翻譯效果,為此,通過即時(shí)更新系統(tǒng),即,一旦發(fā)布者確認(rèn)了句子,便會(huì)立即進(jìn)行更新,在用戶確認(rèn)編輯之后,立即使用源語句和后編輯作為培訓(xùn)來更新NMT(Neural Machine Translation)系統(tǒng)的模型。 這種適應(yīng)可以在梯度下降之后進(jìn)行,梯度下降是神經(jīng)網(wǎng)絡(luò)的常規(guī)訓(xùn)練方法。

      本文設(shè)計(jì)的OL框架體系結(jié)構(gòu)由三個(gè)主要模塊組成:MT引擎、用戶界面和鏈接兩者的翻譯服務(wù)器。此外,還添加了一個(gè)日志記錄選項(xiàng),以使用戶能夠跟蹤擊鍵、時(shí)間和鼠標(biāo)移動(dòng)等信息,該系統(tǒng)的體系架構(gòu),如圖1所示。

      翻譯過程包括將機(jī)器翻譯傳遞到用戶界面,培訓(xùn)過程使用用戶提供的反饋對MT引擎進(jìn)行再培訓(xùn)。這兩個(gè)過程都是通過客戶端-服務(wù)器通信執(zhí)行的,接下來,詳細(xì)描述各個(gè)模塊的具體功能。

      (1) 機(jī)器翻譯引擎

      MT引擎的核心由生成翻譯的模型組成,可以在需要時(shí)進(jìn)行重新訓(xùn)練。每個(gè)翻譯項(xiàng)目都有其自己的模型,其模型是根據(jù)項(xiàng)目的需要設(shè)置的,所有模型都是基于神經(jīng)網(wǎng)絡(luò)的,并使用OpenNMT-py進(jìn)行了訓(xùn)練[5]。

      每個(gè)MT模型都有其自己的配置文件,其中包含個(gè)性化的翻譯和OL選項(xiàng),例如標(biāo)記化、子詞分段和學(xué)習(xí)率等。

      (2) 翻譯服務(wù)器

      翻譯服務(wù)器與MT模型進(jìn)行通信,以生成翻譯并根據(jù)用戶的發(fā)布版本來修改系統(tǒng)。該服務(wù)器基于OpenNMT-py的REST服務(wù)器,并使用HTTP協(xié)議定義消息以服務(wù)于用戶的請求。翻譯服務(wù)器的代碼已公開且可用,在OpenNMT-py中創(chuàng)建了一個(gè)分支,該分支具有此服務(wù)器并與其所有不同模型兼容。

      用戶界面和MT引擎之間的通信是通過GET和POST請求執(zhí)行的。服務(wù)器等待翻譯請求,收到請求后,這些請求將以JSON格式發(fā)送到機(jī)器翻譯引擎,當(dāng)用戶對機(jī)器翻譯片段進(jìn)行更正時(shí),將更正發(fā)送到翻譯引擎。

      (3) 用戶界面

      在翻譯行業(yè)中,翻譯人員最常用的用戶界面是SDL Trados Studio。系統(tǒng)用戶界面,如圖2所示。

      用戶在如下情況自動(dòng)獲得機(jī)器翻譯輸出:單擊界面中線段的目標(biāo)部分,然后,用戶對片段進(jìn)行后期編輯,并在糾正翻譯后對其進(jìn)行確認(rèn)。

      SDL允許開發(fā)Trados Studio插件來增強(qiáng)和擴(kuò)展該工具。此外,SDL擁有龐大的開發(fā)人員社區(qū)[5],可通過附加軟件和應(yīng)用程序來更快的學(xué)習(xí)該框架。本文將自適應(yīng)框架整合為Trados Studio插件,該插件將用戶界面、Trados Studio與翻譯服務(wù)器互聯(lián)。當(dāng)用戶確認(rèn)后期編輯時(shí),已審核的細(xì)分將發(fā)送回MT引擎,以使用此新信息進(jìn)行重新訓(xùn)練。

      (4) 日志記錄

      為了衡量PE過程中OL的翻譯效率和有效性,系統(tǒng)集成了工具來記錄在后期編輯給定文件中涉及的時(shí)間、擊鍵和鼠標(biāo)移動(dòng)等動(dòng)作。為此,Trados合并了Qualitivity[6]插件。該插件生成一個(gè)XML日志文件,其中包含每個(gè)段的所有按鍵時(shí)間信息,如圖3所示。

      利用這些日志信息,可以衡量將MT與OL一起用于后期編輯文件所需的工作量。使用專業(yè)翻譯人員在模擬和真實(shí)環(huán)境中進(jìn)行的初步實(shí)驗(yàn)[6]報(bào)告稱,MT系統(tǒng)生成的翻譯質(zhì)量有了顯著提高。

      2?實(shí)驗(yàn)分析

      本章節(jié)分析了在用戶試用中獲得的結(jié)果,如表1所示。

      表1顯示了與使用參考樣本進(jìn)行更新的非NMT系統(tǒng)相比,NMT系統(tǒng)的翻譯質(zhì)量的結(jié)果[7-9]。通過這種綜合設(shè)置獲得的結(jié)果支持通過在線學(xué)習(xí)進(jìn)行智能化翻譯的有用性。

      在所有情況下,NMT系統(tǒng)都比非NMT系統(tǒng)獲得更好的TER和BLEU(機(jī)器翻譯的評價(jià)指標(biāo))。我們從TER的角度獲得的結(jié)果表明后期編輯這些樣本所需的人力更少。

      接下來進(jìn)行人工后期編輯實(shí)驗(yàn),三名專業(yè)翻譯參與了實(shí)驗(yàn)。對于NMT系統(tǒng)測試,所有后期編輯人員都使用相同的系統(tǒng)啟動(dòng)任務(wù),該系統(tǒng)使用每個(gè)人自己的后期編輯工具進(jìn)行調(diào)整。因此,在在線學(xué)習(xí)過程結(jié)束時(shí),每個(gè)后期編輯都獲得了相關(guān)的翻譯服務(wù)。對于靜態(tài)實(shí)驗(yàn),最初的NMT系統(tǒng)在整個(gè)過程中均保持不變,為了避免多次翻譯相同文本的影響,每個(gè)參與者在每種情況下后編輯了一個(gè)不同的測試集,如表2所示。

      該實(shí)驗(yàn)的測試結(jié)果如表3所示。

      這些數(shù)字是不同后期編輯所獲得結(jié)果的平均值,對于集合T1,每個(gè)句子的后期編輯時(shí)間的大幅減少尤其重要(每個(gè)句子平均7.5秒)。在測試集T2中,NMT系統(tǒng)的后期編輯時(shí)間也比非NMT系統(tǒng)的稍短一些,為0.7秒。

      3?總結(jié)

      本文介紹了一個(gè)在線翻譯框架,該框架結(jié)合了通過在線學(xué)習(xí)對系統(tǒng)進(jìn)行即時(shí)調(diào)整的功能。這種模式允許翻譯人員/后期編輯人員產(chǎn)生更多具有人類品質(zhì)的文本,即提升翻譯效率,因?yàn)橄到y(tǒng)不斷從用戶的后期編輯中學(xué)習(xí),從而避免了重復(fù)錯(cuò)誤。本文已將MT服務(wù)器集成到SDL Trados Studio用戶界面中,實(shí)驗(yàn)結(jié)果證明該系統(tǒng)在翻譯過程中有較高的效率。

      參考文獻(xiàn)

      [1]?Arsenault, Louis-Franois, Lopez-Bezanilla A, Von Lilienfeld O A, et al. Machine learning for many-body physics:The case of the Anderson impurity model[J]. Physical Review B, 2014, 90(15):136-155.

      [2]?Cadwell, Patrick, Castilho, et al. Human factors in machine translation and post-editing among institutional translators[J]. Translation Spaces, 2016, 5(2):222-243.

      [3]?Subakan Y C, Samragdis P. Diagonal RNNs in Symbolic Music Modeling[C]. 2017 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics(WASPAA), 2017:23-29.

      [4]?Klein G, Kim Y, Deng Y, et al. OpenNMT:Open-Source Toolkit for Neural Machine Translation[C]. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics-System Demonstrations,2017:67-72.

      [5]?PosEdion: Post-Editing Assessment in Python. https://community.sdl.com2015.06.13/2019.11.28.

      [6]?Voice or Machine? Translation? https://community.sdl.com/product-groups/translationproductivity/w/customer-experience/2251.qualitivity,2019,08.18/2019.12.12.

      [7]?林寒.基于多語言交互的英語翻譯在線輔助系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2019,42(6):22-25.

      [8]?夏吾吉,華卻才讓.基于有限狀態(tài)自動(dòng)機(jī)阿拉伯?dāng)?shù)字與藏文數(shù)詞自動(dòng)翻譯[J].計(jì)算機(jī)工程與科學(xué),2018,40(3):550-554.

      [9]?余倩.基于特征提取算法的交互式英漢翻譯系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2018,41(4):161-163.

      (收稿日期:2020.03.12)

      猜你喜歡
      機(jī)器學(xué)習(xí)
      基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
      基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
      前綴字母為特征在維吾爾語文本情感分類中的研究
      下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
      活力(2016年8期)2016-11-12 17:30:08
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      基于Spark的大數(shù)據(jù)計(jì)算模型
      基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
      基于圖的半監(jiān)督學(xué)習(xí)方法綜述
      機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
      拉萨市| 西贡区| 安化县| 文山县| 鹤山市| 轮台县| 泽库县| 增城市| 丽江市| 望江县| 施甸县| 巴中市| 金山区| 彭泽县| 鄂温| 晋中市| 高淳县| 思南县| 武陟县| 罗平县| 土默特右旗| 土默特左旗| 庆云县| 同仁县| 静海县| 始兴县| 镇远县| 庄浪县| 沈阳市| 满洲里市| 宝应县| 长宁区| 余庆县| 镇雄县| 九龙县| 裕民县| 玉龙| 大埔县| 灯塔市| 汾阳市| 顺平县|