文 / 祖麗瑚瑪爾 · 吐爾干
在最近的幾年里,系統(tǒng)融合技術(shù)受到了國內(nèi)外學(xué)者的熱捧,機器翻譯領(lǐng)域被國內(nèi)外的很多學(xué)者運用到系統(tǒng)融合中,例如根據(jù)混亂的網(wǎng)絡(luò)解碼將一些詞匯進行整合的方式。在進行詞匯級別系統(tǒng)融合的過程中,其翻譯舉例詞起到了非常重要的作用,翻譯舉例詞對齊會對系統(tǒng)的整合性造成影響,其中典型的方式如下:
在翻譯的舉例詞對齊被編輯距離作為根據(jù)、根據(jù)在語料庫中的翻譯舉例詞進行對照、根據(jù)Meteor的翻譯舉例詞對照和根據(jù)語言學(xué)文化的舉例假設(shè)詞,即使將以上的這些例子運用到漢語翻譯假設(shè)詞對照時,還是不能準(zhǔn)確定位到漢語翻譯假設(shè)相近意思進行替換的詞或短語。
解釋其意義是傳遞一樣的信息的一種方式,在學(xué)者們通過文本產(chǎn)生和文本書籍的查閱后,得出結(jié)果:它可以產(chǎn)生更加順暢和豐富的文本,而且在此過程中不僅可以使機器翻譯的質(zhì)量更好,還可以在輸入文檔中詢查到相同的信息,使此過程更加便捷。
針對群體的不同,句子等級、短語等級和詞匯等級三個方面,在系統(tǒng)融合中如今被作為考察對象。將各系統(tǒng)的翻譯假設(shè),被認(rèn)為是平行語料。它是根據(jù)語料庫的翻譯假設(shè)詞整合方法,因為使用雙語對齊模型翻譯假設(shè)的雙向詞對齊,在語料不足時經(jīng)常導(dǎo)致數(shù)據(jù)缺乏,而且只支持表面形式,是因為此對齊方法只借著語料庫的范圍。
另外,人力采集、使用現(xiàn)有的詞匯資源提取、根據(jù)語料庫的釋義提取,這3種屬于釋義提取方法。
通過雙語語料庫轉(zhuǎn)換成釋義,使用有效的雙語語料資源和雙語短語表,被稱為釋義提取方法。
根據(jù)Meteor翻譯假設(shè)詞對齊,是由于翻譯假設(shè)詞對齊方式,在如今詞匯等級系統(tǒng)融合備受歡迎,它把釋義匹配模塊添加在表面形式匹配、詞干、同義詞匹配基礎(chǔ)上,由于語言的釋義匹配不完整,所以在進行維漢機器翻譯系統(tǒng)融合探索時,不能使用漢語釋義信息,需要額外增加漢語釋義內(nèi)容,然后將它運用到維漢機器翻譯的系統(tǒng)融合中。
創(chuàng)新是發(fā)展的動力,一項新技術(shù)只有通過不斷創(chuàng)新才能提高它的社會價值,穩(wěn)定它在新科技領(lǐng)域的地位。本文通過修正假設(shè)詞對齊結(jié)果以及提取的方式發(fā)現(xiàn)研究維漢機器翻譯,證明了構(gòu)建和解碼混淆網(wǎng)絡(luò)才是獲得融合結(jié)果的方法。
系統(tǒng)融合需要重視單語詞的對齊情況,因直接影響著翻譯選取的好壞,漢語翻譯假設(shè)進行單語詞對齊時的弊端也是存在的,一是現(xiàn)有工具只是“表面形式者”,出現(xiàn)兩個翻譯假設(shè)的詞相同,會認(rèn)為兩個詞匹配,打破原有信息數(shù)據(jù)的穩(wěn)定性,丟失信息等嚴(yán)重現(xiàn)象,那么釋義信息的引入就解決了這個問題,讓對齊工具發(fā)揮最大限度的短語匹配能力。例如出現(xiàn)容易混淆的詞語時,釋義匹配器便會快速匹配與之相對應(yīng)的短語。但是釋義匹配器也是存在局限性的,比如只支持部分語種的釋義匹配功能,有待進一步提高。
本文探討如何將漢語釋義信息引入維漢機器翻譯系統(tǒng),實踐中循序漸進地提高了維漢機器翻譯的質(zhì)量。當(dāng)然,有利有弊,弊端就是只能用語言模型和全局系統(tǒng)權(quán)重混淆網(wǎng)絡(luò),用提高閾值的方法來過濾釋義表。創(chuàng)新才是發(fā)展的動力,維吾爾語言的特性,讓維漢機器翻譯系統(tǒng)融合的新方法仍在開發(fā)中,新方法能有效提高翻譯質(zhì)量,相信不久的將來不同語言的交流成為可能。