• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于文本相似性匹配的計(jì)算機(jī)輔助翻譯軟件研究

      2020-07-14 01:52:14
      甘肅科技 2020年1期
      關(guān)鍵詞:數(shù)據(jù)量語料庫(kù)短文

      何 斌

      (解放軍91404部隊(duì),河北 秦皇島 066001)

      查準(zhǔn)率與響應(yīng)速度是計(jì)算機(jī)輔助翻譯軟件最重要的兩項(xiàng)指標(biāo)。查準(zhǔn)率的實(shí)際反應(yīng)是檢索反饋的原文與用戶檢索的原文之間的匹配程度,也就是檢索反饋結(jié)果能把語料庫(kù)中所有具有翻譯參考價(jià)值的譯文按相似度排序呈現(xiàn)給用戶。與傳統(tǒng)的數(shù)據(jù)庫(kù)模糊查詢不同,檢索內(nèi)容不是確定的檢索關(guān)鍵字,實(shí)際上被檢索目標(biāo)與檢索內(nèi)容只存在文本上相似或近似。所以,諸如Like語句實(shí)現(xiàn)的模糊查詢?cè)谟?jì)算機(jī)輔助軟件的檢索中并不適用。另外,與其它的檢索系統(tǒng)一樣響應(yīng)速度是計(jì)算機(jī)輔助翻譯軟件最主要的性能指標(biāo),通常情況翻譯語料庫(kù)數(shù)據(jù)量較大,故查詢速度的優(yōu)化對(duì)計(jì)算機(jī)輔助軟件的尤為重要。

      針對(duì)上述問題,采用文本相似度算法實(shí)現(xiàn)高匹配度檢索,并運(yùn)用云計(jì)算和并行運(yùn)行等方法優(yōu)化響應(yīng)速度,最終實(shí)現(xiàn)計(jì)算機(jī)輔助翻譯軟件最優(yōu)的用戶體驗(yàn)。

      1 計(jì)算機(jī)輔助翻譯

      1.1 計(jì)算機(jī)輔助翻譯

      計(jì)算機(jī)輔助翻譯 (Computer Assisted Translation,CAT)是通過計(jì)算機(jī)軟件來實(shí)現(xiàn)的專業(yè)翻譯解決方案,它與機(jī)器翻譯(Machine Translation,MT)有著本質(zhì)的區(qū)別。機(jī)器翻譯依賴于計(jì)算機(jī)的自動(dòng)翻譯,而計(jì)算機(jī)輔助翻譯是在人的參與下完成整個(gè)翻譯過程。形式最簡(jiǎn)單的計(jì)算機(jī)輔助翻譯只是一個(gè)數(shù)據(jù)庫(kù),譯者可以紀(jì)錄以前的翻譯結(jié)果以便于將來再次使用以及進(jìn)行方便有效的檢索。計(jì)算機(jī)輔助翻譯工作原理是翻譯人員利用已有的原文和譯文,建立起一個(gè)或多個(gè)翻譯記憶庫(kù),在翻譯過程中,系統(tǒng)將自動(dòng)搜索翻譯記憶庫(kù)中相同或相似的翻譯資源(如句子、段落等),給出參考譯文,使用戶避免無謂的重復(fù)勞動(dòng),只需專注于新內(nèi)容的翻譯。對(duì)于給出的參考譯文,譯者可以完全照搬,也可以修改后使用,如果覺得不滿意,還可以棄之不用。簡(jiǎn)單來說計(jì)算機(jī)輔助翻譯就是:TM(記憶體/語料庫(kù))+MT(機(jī)器翻譯)+HT(人工翻譯)。計(jì)算機(jī)輔助翻譯相比人工翻譯有翻譯效率高、譯文一致性好、翻譯成本低的優(yōu)勢(shì),正不斷受到重視和發(fā)展。

      計(jì)算機(jī)輔助翻譯技術(shù)的核心就是翻譯記憶技術(shù),譯者在進(jìn)行翻譯工作的同時(shí),翻譯記憶庫(kù)在后臺(tái)不斷學(xué)習(xí)和自動(dòng)儲(chǔ)存新的譯文,實(shí)時(shí)更新記憶體,每當(dāng)相同或相近的短語出現(xiàn)時(shí),系統(tǒng)會(huì)自動(dòng)提示用戶使用記憶庫(kù)中最接近的譯法。計(jì)算機(jī)輔助翻譯軟件實(shí)現(xiàn)的關(guān)鍵技術(shù)就是譯文模糊匹配及查詢效率。

      2 計(jì)算機(jī)輔助翻譯軟件設(shè)計(jì)方案

      2.1 軟件總體設(shè)計(jì)

      本方案創(chuàng)新性設(shè)計(jì)基于網(wǎng)絡(luò)的多用戶計(jì)算機(jī)輔助翻譯軟件,軟件可實(shí)現(xiàn)多用戶并發(fā)在線使用,完成一個(gè)翻譯項(xiàng)目的多人分工并發(fā)協(xié)同工作。軟件由語料庫(kù)、字典數(shù)據(jù)庫(kù)、譯文獲取模塊、模糊匹配查詢模塊、譯文插入模塊、語料庫(kù)自動(dòng)更新模塊等組成。

      主要工作流程為:

      第一步,翻譯人員把將要翻譯的工作文檔(原文)輸入給計(jì)算機(jī)輔助翻譯軟件,軟件逐句讀取原文。

      第二步,軟件自動(dòng)按已讀取的整句進(jìn)行模糊查詢,從語料庫(kù)返回匹配度相近的譯文,原文與譯文同時(shí)顯示于工作區(qū)域。

      第三步,軟件對(duì)當(dāng)前的原文進(jìn)行分詞,并按分詞結(jié)果逐詞返回譯文。

      第四步,翻譯人員對(duì)照語料庫(kù)返回的譯文、單詞譯文、原文進(jìn)行校對(duì)。

      第五步,譯文校對(duì)完成后,由軟件插入工作文檔中原文位置之后,同時(shí)對(duì)語料庫(kù)進(jìn)行更新。

      第六步,返回第一步。

      計(jì)算機(jī)輔助翻譯軟件工作流程,如圖1所示。

      圖1 計(jì)算機(jī)輔助翻譯軟件工作流程圖

      計(jì)算機(jī)輔助翻譯軟件采用C/S結(jié)構(gòu),語料庫(kù)數(shù)據(jù)庫(kù)采用Postgresql,字典數(shù)據(jù)采用SQLite,客戶端采用C#進(jìn)行構(gòu)建。技術(shù)架構(gòu)如圖2所示:

      圖2 計(jì)算機(jī)輔助翻譯軟件技術(shù)架構(gòu)圖

      計(jì)算機(jī)輔助翻譯軟件人機(jī)操作界面主要分成翻譯輔助區(qū)與翻譯文檔區(qū)兩部分限組成,翻譯文檔區(qū)顯示被翻譯文檔(Word文檔),翻譯輔助區(qū)主要為獲取的原文語句獲取顯示、翻譯結(jié)果及其它用戶操作等交互界面。具體界面設(shè)置與效果如圖3所示:

      圖3 軟件人機(jī)界面

      2.2 計(jì)算機(jī)輔助翻譯軟件實(shí)現(xiàn)的關(guān)鍵技術(shù)

      計(jì)算機(jī)輔助翻譯軟件實(shí)現(xiàn)的核心是對(duì)語料庫(kù)的查詢,技術(shù)關(guān)鍵是查詢速度及查詢效果,查詢速度越快、詞條模糊匹配效果越好則用戶體驗(yàn)就越好。

      1)查詢速度。信息系統(tǒng)的查詢速度是用戶體驗(yàn)的最關(guān)鍵指標(biāo),查詢響應(yīng)時(shí)間越短用戶體驗(yàn)越好。據(jù)調(diào)查,數(shù)據(jù)軟件查詢費(fèi)時(shí)0~2s則用戶體驗(yàn)最好,費(fèi)時(shí)2~8s用戶可以容忍,如查詢費(fèi)時(shí)大于8s則用戶不能忍受。所以,計(jì)算機(jī)輔助翻譯軟件查詢響應(yīng)時(shí)間必須控制在8s以下,最于2s則最優(yōu)。對(duì)計(jì)算機(jī)輔助翻譯軟件的使用人員而言,語料庫(kù)越大語料可重用性就越高,翻譯工作則越高效。實(shí)際應(yīng)用中語料庫(kù)數(shù)據(jù)量比較大(作者當(dāng)前項(xiàng)目的語料庫(kù)的數(shù)據(jù)量大于400萬條),且數(shù)據(jù)量隨使用不斷增長(zhǎng)。查詢響應(yīng)時(shí)間一般與數(shù)據(jù)量成反比,故當(dāng)數(shù)據(jù)量超過百萬條后常用方法查詢時(shí)間超過8s,所以必須對(duì)數(shù)據(jù)庫(kù)查詢方法進(jìn)行優(yōu)先和優(yōu)化才能達(dá)到查詢最優(yōu)化。

      2)模糊匹配。在翻譯過程中,軟件檢索語料庫(kù),尋找合適的譯文。除在重復(fù)性高的技術(shù)文檔翻譯中有完全匹配的情況外,絕大部分檢索都為模糊匹配。實(shí)事上模糊匹配效果也是決定計(jì)算機(jī)輔助翻譯工具是否好用的最重要指標(biāo)。

      最理想的模糊匹配模式就是從語料庫(kù)中尋找譯文意思相近的語句,而通用的數(shù)據(jù)庫(kù)檢索方法只能實(shí)現(xiàn)最多關(guān)鍵詞匹配。

      例:理想模糊匹配模式,翻譯She like collecting stamps.語料庫(kù)中如果沒有類似于“She like collecting stamps too.”這樣的語句,就會(huì)優(yōu)先返回“She is fond of collecting stamps.”作為翻譯參考。但如果按最多關(guān)鍵詞匹配就很可能無作任何結(jié)果返回。隨便說一下,原文為中文則必需在檢索之前先要對(duì)原句進(jìn)行中文分詞,原因是計(jì)算機(jī)不會(huì)自動(dòng)識(shí)別句中的詞語。比如一句“結(jié)婚的和尚未結(jié)婚的”,可能分成“結(jié)婚/的/和尚/未/結(jié)婚/的”這樣檢索。

      綜上所述,模糊查詢算法是軟件實(shí)現(xiàn)最核心的關(guān)鍵技術(shù),其算法優(yōu)化將是整個(gè)軟件易用性最大的挑戰(zhàn)。

      2.3 查詢技術(shù)選擇

      2.3.1 基于文本相似度算法的查詢

      (1)文本長(zhǎng)度過濾。在計(jì)算機(jī)輔助翻譯過程中,考慮到查詢目標(biāo)往往與查詢內(nèi)容長(zhǎng)度相近的特點(diǎn),可以首先對(duì)數(shù)據(jù)進(jìn)行文本長(zhǎng)度過濾。文本長(zhǎng)度過濾運(yùn)算代價(jià)較小,可以極速縮小被查數(shù)據(jù)庫(kù)庫(kù)表的規(guī)模,可為下一步文本相比節(jié)省時(shí)間。

      其中,source_text查詢內(nèi)容,p_source_text為查詢目標(biāo)。目標(biāo)文本長(zhǎng)度設(shè)置為查詢文本長(zhǎng)度不多于且不少于5個(gè)字符。

      (2)文本相似度算法?;谠~語(單詞)重合的重疊相似度算法將短文本內(nèi)容看成是獨(dú)立關(guān)鍵詞的集合,通過兩個(gè)短文本的共現(xiàn)詞的個(gè)數(shù)來判斷兩個(gè)短文本的相似性。

      若兩個(gè)短文本中共現(xiàn)詞的個(gè)數(shù)越多,則兩個(gè)短文本就越相似;反之,兩個(gè)短文本的相似度就越低;同時(shí),為保證兩個(gè)短文本的相對(duì)相似度一致,采用相似度計(jì)算公式1:

      基中samewords(S1,S2)表示S1與S2中都出現(xiàn)的關(guān)鍵詞個(gè)數(shù);Len(S1)表示中的關(guān)鍵詞個(gè)數(shù),Len(S2)表示S2中的關(guān)鍵詞個(gè)數(shù)。經(jīng)本軟件測(cè)試用戶調(diào)查統(tǒng)計(jì)得知,S1與S2的比調(diào)整為85%用戶體驗(yàn)滿意度最高。

      2.3.2 快速查詢技術(shù)優(yōu)化

      為提升翻譯人員的使用體驗(yàn),減小翻譯實(shí)時(shí)翻譯時(shí)間。在查詢算法上的優(yōu)化同時(shí)還考慮其它方法進(jìn)行查詢時(shí)間的縮短。

      1)云計(jì)算。一般來講,用于計(jì)算機(jī)翻譯的辦公計(jì)算機(jī)在性能方面有著較大的差異,進(jìn)而導(dǎo)致計(jì)算機(jī)輔助翻譯軟件呼應(yīng)時(shí)間不同帶給用戶不同的用戶體驗(yàn)。為減小由于用戶計(jì)算機(jī)不同帶來的差異,在軟件設(shè)計(jì)時(shí)把大部分計(jì)算工作放在服務(wù)器上完成,用戶端只完成數(shù)據(jù)信息的傳遞與顯示。這種“云計(jì)算”的設(shè)計(jì)架構(gòu)在最大程度提高計(jì)算機(jī)輔助翻譯軟件性能的同時(shí)也讓每一位用戶享有比較接近的用戶體驗(yàn)。

      2)并行運(yùn)算查詢。并行運(yùn)算的設(shè)計(jì)也是為提升性能的考慮。由于數(shù)據(jù)庫(kù)表大的原因上經(jīng)過上述優(yōu)化后查詢速度依然不理想,所以需要把數(shù)據(jù)庫(kù)拆分成若干個(gè)小數(shù)據(jù)庫(kù)進(jìn)行并行查詢而后對(duì)查詢結(jié)果進(jìn)行合并,從而最大程度縮短查詢時(shí)間。并行運(yùn)算時(shí)間成本原理如圖4所示:

      圖中并行運(yùn)算時(shí)間成本公式2。

      圖4 并行運(yùn)算時(shí)間成本示意圖

      其中t為整個(gè)計(jì)算過程時(shí)間,tS0為并行計(jì)算任務(wù)拆分花費(fèi)時(shí)間,ti為單項(xiàng)個(gè)并行任務(wù)計(jì)算時(shí)間,ts1為計(jì)算結(jié)果合并時(shí)間。tS0、tS1隨任務(wù)拆分?jǐn)?shù)量n增加而增加,所以并不是并行數(shù)量越大越好。對(duì)同一檢索條件下不同并行數(shù)的測(cè)試,本方案最終選擇n=10為最優(yōu)并行查詢數(shù),實(shí)驗(yàn)結(jié)果比對(duì)見表1。

      表1 同一檢索條件下并行查詢的耗時(shí)比較

      3 結(jié)束語

      本文設(shè)計(jì)并實(shí)現(xiàn)了多用戶網(wǎng)絡(luò)計(jì)算機(jī)輔助翻譯軟件,采用網(wǎng)絡(luò)語料庫(kù)結(jié)合本地字典數(shù)據(jù)庫(kù)的方法實(shí)現(xiàn)了多人在線并行翻譯工作。實(shí)驗(yàn)結(jié)果表明,綜合運(yùn)用了文本長(zhǎng)度過濾、相似度匹配、并行運(yùn)算等方法使翻譯語句查詢響應(yīng)時(shí)間控制在用戶可接受范圍內(nèi),同時(shí)翻譯的查準(zhǔn)率較為理想。在實(shí)際應(yīng)用中,本軟件設(shè)計(jì)功能、性能滿足多人同時(shí)在線翻譯的并行工作。下一步,將對(duì)語料庫(kù)進(jìn)行進(jìn)一步優(yōu)化,并持續(xù)改進(jìn)查詢算法,使系統(tǒng)查詢響應(yīng)時(shí)間進(jìn)一步縮短。

      猜你喜歡
      數(shù)據(jù)量語料庫(kù)短文
      基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
      計(jì)算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
      高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
      《語料庫(kù)翻譯文體學(xué)》評(píng)介
      寬帶信號(hào)采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計(jì)與研究
      電子制作(2019年13期)2020-01-14 03:15:18
      KEYS
      Keys
      把課文的優(yōu)美表達(dá)存進(jìn)語料庫(kù)
      基于JAVAEE的維吾爾中介語語料庫(kù)開發(fā)與實(shí)現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      短文改錯(cuò)
      宜城市| 永州市| 湖州市| 治县。| 曲靖市| 潞城市| 兴仁县| 衡阳市| 土默特右旗| 马尔康县| 东丰县| 苏尼特左旗| 保靖县| 福州市| 西藏| 建始县| 澎湖县| 延川县| 栖霞市| 锡林浩特市| 河北省| 甘德县| 乌拉特中旗| 基隆市| 高雄市| 千阳县| 阳泉市| 北票市| 濮阳县| 天峨县| 新化县| 合肥市| 山阳县| 方正县| 平乡县| 青田县| 民和| 衡水市| 阿瓦提县| 丰县| 德州市|