胡創(chuàng)業(yè) 黃欣欣
摘要:該文介紹了如何利用翻譯API技術(shù)構(gòu)建HSK漢語-烏茲別克語平行詞庫的關(guān)鍵技術(shù)和方法,采用基于翻譯API技術(shù)對HSK漢語詞匯完成自動有效的翻譯對齊工作,實現(xiàn)HSK漢-烏平行詞庫的構(gòu)建目標。并通過兩種方法對平行詞庫完成擴充,最后對未完成對齊的詞匯進行人工近義詞校對,使HSK平行詞庫趨于完善。
關(guān)鍵詞:翻譯API;HSK;平行詞庫;對齊;擴充
中圖分類號:TP311? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)14-0201-03
Abstract: This article introduces the key technologies and methods of how to use the translation API technology to build the HSK Chinese-Uzbek parallel thesaurus. The translation API technology is used to complete the automatic and effective translation alignment of HSK Chinese vocabulary to achieve the construction goal of the HSK Chinese-Uzbek parallel thesis. The parallel thesaurus is expanded by two methods. Finally, artificial synonym proofreading is performed on the incompletely aligned words to make the HSK parallel thesaurus perfect.
Key words: translation API; HSK; parallel thesaurus; alignment; expansion
1 背景
平行語料庫是同一含義不同語言對齊所組成的語料資源,對機器翻譯研究具有重要作用和意義[1-2]。目前在國內(nèi)研究構(gòu)建漢語-烏茲別克語對齊語料庫的技術(shù)外均相對較少,本文將主要介紹漢-烏雙語對齊語料庫構(gòu)建技術(shù)研究,此研究能為漢-烏機器翻譯技術(shù)研究者提供語料基礎(chǔ),具有一定的學(xué)術(shù)價值與應(yīng)用價值[3]。
通過對相關(guān)文獻資料調(diào)查研究發(fā)現(xiàn),漢語-烏茲別克語對齊語料庫的研究仍然處在發(fā)展緩慢的初期階段[4]。國家戰(zhàn)略的發(fā)展要求我們國家必須加速推進漢-烏對齊語料庫的構(gòu)建和技術(shù)研究[5],這項研究技術(shù)的成果會對后期的漢-烏機器翻譯研究有很大促進作用,并為中烏雙方的無障礙交流提供有效的現(xiàn)代信息交流工具,帶動兩國之間的經(jīng)濟、文化、科技、教育等方面的交流和發(fā)展[6-7]。
本文以漢語水平考試(HSK)漢語詞匯為基礎(chǔ),引出如何利用翻譯API技術(shù)自動生成漢語-烏茲別克語雙語對齊詞庫,及其相關(guān)技術(shù)、問題和實現(xiàn)解決技術(shù)方法。漢語水平考試(HSK)中共有1至6級漢語詞匯5000個,實驗采用翻譯API技術(shù)能夠快速有效生成漢-烏平行語料庫,并將庫中少量未完成翻譯詞匯進行人工校對,從而形成不斷完善的漢-烏平行語料詞庫。這對后期的漢-烏機器翻譯研究以及烏茲別克語使用者學(xué)習(xí)漢語都將會有很大的幫助[8-9]。
2 翻譯應(yīng)用程序接口(API)的應(yīng)用
隨著近幾年機器翻譯技術(shù)的興起[10],研究人員開發(fā)了各具不同功能的翻譯程序,谷歌翻譯、有道翻譯、百度翻譯是國內(nèi)應(yīng)用比較多的三種翻譯程序。這三種翻譯程序都有可以應(yīng)用程序接口。有道翻譯和百度翻譯所包含語種多為國際主流語言,而谷歌翻譯除了主流語言以外還包括了許多非主流語言,科研人員可以通過調(diào)用翻譯應(yīng)用程序接口來解決各樣功能的翻譯問題[11-12]。文中研究內(nèi)容為漢語-烏茲別克語的雙語語料庫構(gòu)建,參照下表1分析可知,只有谷歌翻譯包含烏茲別克語語種,所以本文采用谷歌翻譯應(yīng)用程序接口。
谷歌翻譯和其他大多翻譯軟件一樣都為用戶提供API,本文主要使用的是python庫中的googletrans包,其核心思想是模擬用戶進行訪問網(wǎng)頁并獲取網(wǎng)頁內(nèi)容,通過構(gòu)造URL發(fā)起GET請求,得到一個JSON結(jié)果并提取翻譯內(nèi)容。
3 HSK漢-烏平行詞庫構(gòu)建
3.1 HSK漢語語料準備與預(yù)處理
語料準備。漢語水平考試(HSK)大綱詞匯,語料存儲格式為EXCEL表格形式,語料里面內(nèi)容有漢語水平考試(HSK)考試大綱詞匯一至六級共5000個。每個詞匯后都帶有括號并標明等級,這屬于噪聲部分需要后期處理,并且一至六級詞匯都在一個表格,一次翻譯內(nèi)容較多且不易分類,因此需要分為一至六級的六個表格進行分類處理。
語料預(yù)處理。去除括號及等級部分,采用表格截取公式為=LEFT(A2,F(xiàn)IND("(",A2)-1),其中A2表示第一列第二行單元格內(nèi)容,F(xiàn)IND函數(shù)表示定位查找目標位置,LEFT表示從左邊開始截取,截取完成就會去除語料詞后面冗余部分,只保留語料詞的有用詞匯部分。最后,通過快速復(fù)制公式方法快速處理剩余所有詞匯。例如:原樣的格式“愛(一級)”,改為我們需要的詞匯格式“愛”。建立無帶其他附加符號的漢語詞,總共處理5000個漢語詞匯。
3.2 漢-烏對齊語料自動構(gòu)建
此次實驗使用的核心思路如下,通過循環(huán)依次讀取語料詞匯表中已處理的詞匯;通過調(diào)用谷歌翻譯應(yīng)用程序接口技術(shù),根據(jù)不同翻譯環(huán)境設(shè)計翻譯模型。而在調(diào)用谷歌翻譯應(yīng)用程序接口技術(shù)時,由于谷歌翻譯服務(wù)器有反爬蟲機制而不能頻繁訪問使用,因此需要通過實驗測試它的訪問最佳參數(shù)。通過如圖1所示的實驗結(jié)果分析,當(dāng)翻譯每次翻譯頻次為50次、休眠時間為30秒時,為訪問谷歌翻譯服務(wù)器的最佳狀態(tài)。
語料分類。將原本集中在一張表的所有等級詞匯,按等級分類分成六張表存儲,便于分類管理以及后期使用。后期在處理過程中可以按類別分批處理,彼此類別之間不會相互影響。最后通過整理分類得出完整的對照語料庫,以六級詞匯為例如圖2所示。
從上圖我們可以看出大部分HSK漢語詞匯均可有效地翻譯并寫入表中,部分詞匯第三方軟件無法識別翻譯,如上圖中的“曖昧”一詞,這是中國漢語中比較形象的一個詞匯,但國外可能無法理解其含義,因此需要找到它的近義詞如“含糊”,進行再次翻譯并人工校正。
4 HSK漢-烏平行詞庫擴充
4.1 基于烏茲別克語語料的HSK詞庫擴充
1)語料預(yù)處理。對于直接從烏茲別克語網(wǎng)站上爬取的烏茲別克語語料,里面帶有很多垃圾語料和噪聲語料,如網(wǎng)頁結(jié)構(gòu)標簽、數(shù)字、網(wǎng)頁鏈接以及符號等等,整理收集后分類如下表2所示,如果不對其進行預(yù)處理除雜,將會對后期實驗產(chǎn)生很大影響。
2)分詞去重。通過對預(yù)處理語料分詞后共得到大小共14M的烏語詞語料文檔,經(jīng)過分詞處理后共計得到1512129條詞匯。文檔中有大量重復(fù)詞語,需采用文檔去重技術(shù)對詞語料文檔進行去重。使用去重工具,將列表中重復(fù)項去掉,最終得到的去重詞表通過循環(huán)寫入表中,共計得到不重復(fù)烏茲別克語詞條共計11054條,我們這里定義其為新詞庫。
3)新詞庫的平行詞庫構(gòu)建。
上述所得到的是按順序排列且不重復(fù)的烏茲別克語新詞庫,這里仍然使用基于翻譯API技術(shù)的詞對齊語料庫的構(gòu)建方法實現(xiàn)新詞庫的平行詞庫的構(gòu)建,具體實現(xiàn)模型如圖3所示。
5 結(jié)束語
本文首先介紹了翻譯API技術(shù)的相關(guān)應(yīng)用,并利用此項技術(shù)完成對HSK漢-烏平行詞庫的自動構(gòu)建。但HSK詞庫中的詞匯是比較常用詞匯,并不能完整涵蓋所有詞匯,因此還有很大的擴展空間。而對于HSK詞庫的擴充本文采用了兩種方法,一種方法是結(jié)合所構(gòu)建的漢-烏平行語料庫中的平行詞庫,以烏茲別克語詞匯為基準對照HSK詞庫進行對照擴充;另一種方法是結(jié)合漢語詞典對HSK詞庫進行擴充。這兩種HSK詞庫擴充方法各有優(yōu)缺點,基于烏茲別克語語料的HSK詞庫擴充方法所擴充新詞都是基于烏茲別克語詞匯,基本上都能找到其對應(yīng)的平行漢語詞匯;而基于漢語詞典的HSK詞庫擴充方法的擴充規(guī)模較大,但其擴充新詞中會存在一定量的詞匯無法找到對應(yīng)的平行烏茲別克語詞匯。兩種擴充方法的優(yōu)缺點具有互補的特性,因此將兩種方法結(jié)合起來對HSK詞庫進行擴充可以達到很好的效果。
參考文獻:
[1] 蘭彩玉.中藥漢英雙語平行語料庫的設(shè)計及構(gòu)建[J].亞太傳統(tǒng)醫(yī)藥,2014,10(8):1-3.
[2] 房璐.英漢可比較語料庫的構(gòu)建與應(yīng)用研究[D].蘇州:蘇州大學(xué),2011.
[3] 阿西穆·托合提.維吾爾語-烏茲別克語機器翻譯研究[D].烏魯木齊:新疆大學(xué),2017.
[4] 徐雄飛.大中華區(qū)詞對齊自動抽取研究[D].南昌:江西師范大學(xué),2016.
[5] 李哲.俄漢-漢俄平行語料庫建設(shè)與研制的迫切性及應(yīng)用價值[J].文學(xué)教育(下),2018(1):90-91.
[6] Tao Deng.Correspondence Analysis of English-Chinese Contrast Relationship and Adverbial Module in the Construction of Parallel Translation Corpus[C]//Institute of Management Science and Industrial Engineering.Proceedings of 2018 4th International Conference on Education,Management and Information Technology(ICEMIT 2018).Institute of Management Science and Industrial Engineering:Computer Science and Electronic Technology International Society,2018:4.
[7] 沈韻,張煉.基于平行語料庫的計算機輔助翻譯軟件在翻譯教學(xué)中的應(yīng)用——以雪人CAT軟件為例[C]//外語教育與翻譯發(fā)展創(chuàng)新研究(第七卷),2018:254-257.
[8] Lihua Sun.Teaching Design for Translation Based on English-Chinese Parallel Corpus[C]//Singapore Management and Sports Science Institute,Singapore\International Communication Sciences Association, Hong Kong.Proceedings of 2017 2nd EBMEI International Conference on Education,Information and Management (EBMEI-EIM 2017).Singapore Management and Sports Science Institute,Singapore\International Communication Sciences Association,Hong Kong:智能信息技術(shù)應(yīng)用學(xué)會,2017:4.
[9] Levshina N.A multivariate study of T/V forms in European languages based on a parallel corpus of film subtitles[J].Research in Language,2017,15(2):153-172.
[10] 劉克強.基于平行語料庫的莫言小說英譯特征研究[C]//外語教育與翻譯發(fā)展創(chuàng)新研究(第六卷),2017:236-241.
[11] Afolabi S.Translation and interpretation market needs analysis:towards optimizing professional translator and interpreter training in Nigeria[J].The Interpreter and Translator Trainer,2019,13(1):104-106.
[12] Nú?ez J L,Bola?os-Medina A.Predictors of problem-solving in translation:implications for translator training[J].The Interpreter and Translator Trainer,2018,12(3):282-298.
【通聯(lián)編輯:謝媛媛】