祖力克爾江 艾孜海爾江 艾孜爾古麗
摘要:該文主要研究雙語平行詞匯語料庫為目的研究翻譯插件技術(shù)及方法,并進(jìn)行探討。首先陳述雙語平行語料庫構(gòu)建進(jìn)展和研究技術(shù)及方法;其次介紹漢語語料形成方法;探索通過引入API翻譯插件完成讀取一翻譯一寫入的語料詞匯翻譯對(duì)齊工作,并通過人工校正后生成漢維詞典;最后通過實(shí)驗(yàn),分析方法的可行性和可靠性。
關(guān)鍵詞:雙語;詞匯;翻譯技術(shù);雙語詞典
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)06-0202-03
在“人工智能”“大數(shù)據(jù)處理”領(lǐng)域開展自然語言處理工作對(duì)大量對(duì)雙語資源庫和語言知識(shí)庫的需求越來越大,對(duì)資源知識(shí)庫的構(gòu)建工作越來越重視。在現(xiàn)實(shí)生活中語言成為我們交流發(fā)展之間最大的障礙,這個(gè)問題在社會(huì)交流過程中尤為突出,影響人們的生活、學(xué)習(xí)、工作。為解決語言溝通問題,就需要一個(gè)可靠的漢語一維吾爾語機(jī)器翻譯系統(tǒng),完成這樣一個(gè)完整的漢語維吾爾語翻譯系統(tǒng)就需要大量的基礎(chǔ)工作作為支撐,漢語一維吾爾語雙語資源構(gòu)建對(duì)漢維機(jī)器翻譯起了重要作用。本文的主要工作就是研究漢語一維吾爾語機(jī)器翻譯系統(tǒng)的基礎(chǔ)部分之一——漢語一維吾爾語雙語資源庫的構(gòu)建。
目前國內(nèi)隨著統(tǒng)計(jì)機(jī)器翻譯的發(fā)展,多種不同的翻譯方法相繼被提出:基于詞的翻譯模型,基于短語的翻譯模型,基于形式句法的翻譯模型,基于句法的翻譯模型等。本文采用目前工業(yè)界和學(xué)術(shù)界中廣泛使用的層次短語模型(基于形式句法)。在統(tǒng)計(jì)機(jī)器翻譯過程中,詞語對(duì)齊為機(jī)器翻譯的關(guān)鍵。詞語對(duì)齊利用大量雙語平行句對(duì),依靠無監(jiān)督的統(tǒng)計(jì)信息,自動(dòng)對(duì)雙語平行句對(duì)進(jìn)行詞對(duì)齊。常用的工具為根據(jù)IBMmode實(shí)現(xiàn)的GIZAG++。不管使用什么方都法離不開詞對(duì)齊資源的支持。真實(shí)語料需要經(jīng)分析和處理,才能成為有用的資源。世界上第一個(gè)網(wǎng)絡(luò)檢索工具Web Crawler于1994年誕生,目前家喻戶曉的主流搜索引擎有Google、Baidu、搜狗和LiveSearch等。為了獲取雙語平行語料,一個(gè)最重要的條件是有雙語知識(shí),也可以理解為雙語互譯詞信息,雙語互譯詞是一個(gè)寶貴的資源,因此本文重點(diǎn)研究雙語詞典的獲取技術(shù)問題。
本研究采用網(wǎng)絡(luò)爬蟲技術(shù)、網(wǎng)頁正文提取技術(shù)、文本預(yù)處理技術(shù)等文本采集和加工技術(shù),開展雙語語言資源獲取。除了對(duì)齊技術(shù)、術(shù)語提取技術(shù)等外,還有文本分類技術(shù)、去重技術(shù)、句子邊界識(shí)別等技術(shù),服務(wù)于語言資源知識(shí)庫建設(shè)。該成果將在自然語言理解、機(jī)器翻譯、人工智能、大數(shù)據(jù)分析、語言模型構(gòu)造等方面廣泛應(yīng)用。
本研究選擇網(wǎng)絡(luò)媒體語料作為漢語詞匯資源庫語料,使用Python編程工具快速有效地生成漢語一維吾爾語對(duì)照詞表,并經(jīng)過后期人工校對(duì),形成漢語一維吾爾語雙語詞匯資源庫。對(duì)后期的漢語維吾爾語機(jī)器翻譯系統(tǒng)開發(fā)奠定基礎(chǔ),這對(duì)學(xué)習(xí)國語也有很大的幫助,提高其交流水平,以減少溝通障礙。因此,構(gòu)建漢語維吾爾語詞匯雙語資源庫具有重要意義,服務(wù)于決勝全面建成小康社會(huì),實(shí)現(xiàn)最偉大的夢(mèng)想。
1漢維雙語文本語料獲取技術(shù)研究
1.1語料獲取
在雙語平行詞匯語料庫構(gòu)建過程中,為建設(shè)漢一維雙語詞匯資源庫,利用Scrapy爬蟲框架爬取“天山網(wǎng)”(網(wǎng)絡(luò)媒體語料)中的漢語語料,通過漢語分詞處理系統(tǒng)形成大量漢語詞匯語料庫。
1.2語料預(yù)處理
處理初始語料遇到以下幾種問題,
(1)編碼問題,根據(jù)不同情況會(huì)遇到漢語語料的編碼格式問題,主要是uff-8與gbk直接的相互轉(zhuǎn)換,這個(gè)問題讀取和寫入時(shí)用python代碼來處理。
(2)替換某些特定字符,需要替換字符的時(shí)候使用自己編寫腳本進(jìn)行替換。
(3)去除數(shù)據(jù)中不是文本的部分,主要是針對(duì)爬蟲收集的語料數(shù)據(jù),由于爬下來的內(nèi)容中有很多html的標(biāo)簽,需要?jiǎng)h除這些標(biāo)簽。對(duì)爬取的頁面用X-path來進(jìn)行頁面分析提取題目,作者,發(fā)布時(shí)間,正文。提取的文本里有少量的標(biāo)點(diǎn)符號(hào),這些多余的標(biāo)點(diǎn)符號(hào)則用正則表達(dá)式刪除。
2翻譯插件技術(shù)研究
2.1研究思路
隨著社會(huì)發(fā)展,特別是科學(xué)、互聯(lián)網(wǎng)信息的快速增長,人們的生活、工作及學(xué)習(xí)方式逐步適應(yīng)新的生活、工作、學(xué)習(xí)方式,現(xiàn)有的雙語對(duì)照標(biāo)準(zhǔn)詞匯資源庫,靠人工處理不能滿足人民生活、工作及學(xué)習(xí)需求。為了適應(yīng)人民現(xiàn)代生活、工作及學(xué)習(xí)需求,為了利用好互聯(lián)網(wǎng)資源,本文研究翻譯插件技術(shù),自動(dòng)、動(dòng)態(tài)的增加雙語對(duì)照標(biāo)準(zhǔn)詞匯資源庫的詞匯,滿足人民不斷產(chǎn)生的新時(shí)代生活、工作、學(xué)習(xí)需求。
首先使用自己開發(fā)的爬蟲軟件收集漢語網(wǎng)絡(luò)媒體文本語料,再進(jìn)行預(yù)處理,以文本形式保存,并構(gòu)建漢語文本電子語料庫;其次利用漢語通用的分詞軟件,對(duì)文本進(jìn)行分詞,構(gòu)建漢語單語詞匯表;通過翻譯插件技術(shù),構(gòu)建漢維雙語對(duì)照動(dòng)態(tài)標(biāo)準(zhǔn)詞匯資源庫。
2.2翻譯器模型
隨著機(jī)器翻譯技術(shù)的興起,市面上出現(xiàn)了大量具有不同功能、適應(yīng)不同環(huán)境、滿足不同需求的詞典或翻譯軟件,其中應(yīng)用比較廣泛的有谷歌翻譯、有道翻譯、百度翻譯。三大主流翻譯軟件都為用戶提供了免費(fèi)或有償?shù)膽?yīng)用程序接口(API),這三種翻譯工具除了應(yīng)用環(huán)境不同以外,所包含的語言數(shù)量也不同。谷歌翻譯包含語言種類有104種,有道翻譯包含語言種類有23種,百度翻譯包含語言種類28種,其中有道翻譯和百度翻譯所包含語種多為國際主流語言,而谷歌翻譯除了主流語言以外還包括了許多非主流語言,這就為許多語言研究者提供了便利,研究者可以通過調(diào)用翻譯插件快速處理問題。本文主要研究基于翻譯插件的漢語一維吾爾語的雙語詞匯資源庫構(gòu)建技術(shù)。
本次研究核心算法主要是通過循環(huán)依次讀取語料詞匯表中的已處理詞匯;然后通過引入的互聯(lián)網(wǎng)搜索引擎技術(shù)搜索符合翻譯需求的資源;通過翻譯插件翻譯,對(duì)讀取詞匯依次翻譯生成翻譯結(jié)果,其中這一翻譯過程,為防止出現(xiàn)因訪問頻繁而導(dǎo)致翻譯失敗或禁止翻譯,采用詞匯階段方法,在每個(gè)階段翻譯結(jié)束后使翻譯程序強(qiáng)制調(diào)整,調(diào)整結(jié)束后再進(jìn)入下一個(gè)階段的詞匯翻譯;最后將翻譯生成結(jié)果,通過正則表達(dá)式獲取正確翻譯結(jié)果,并依次輸入到其對(duì)應(yīng)詞匯的下一列單元格。其構(gòu)建模型如圖1所示。
2.3翻譯器的實(shí)現(xiàn)
構(gòu)建對(duì)齊雙語詞匯庫流程:按順序在漢語詞匯表中讀取詞匯;將讀取內(nèi)容利用程序調(diào)用搜索引擎模塊,搜索對(duì)應(yīng)的API翻譯插件對(duì)齊翻譯;將翻譯結(jié)果寫入詞匯表中與翻譯內(nèi)容對(duì)齊位置,構(gòu)建對(duì)齊雙語語料。由上述方法構(gòu)建而成的對(duì)齊雙語詞匯庫實(shí)例結(jié)果如表1所示。
在完成自動(dòng)生成漢維對(duì)照詞表的過程中,所遇到并需要解決的問題主要集中在數(shù)據(jù)從讀到翻譯再到寫入方法的實(shí)現(xiàn)上。首先是對(duì)表格的讀取,通過讀取表格方法讀取表格數(shù)據(jù),寫人數(shù)據(jù)到表格;其次是完成翻譯過程,翻譯過程主要采用的是引入搜索引擎找到需要的API翻譯插件,通過編程模仿用戶進(jìn)行翻譯行為,并獲取翻譯結(jié)果。具體實(shí)驗(yàn)中發(fā)現(xiàn),翻譯過程中出現(xiàn)翻譯過于頻繁導(dǎo)致翻譯中斷或主機(jī)被禁。針對(duì)這個(gè)問題,采用大規(guī)模詞匯翻譯時(shí)利用分段處理方法詞匯翻譯為一個(gè)階段,每個(gè)階段之間強(qiáng)制程序睡眠一段時(shí)間。通過反復(fù)實(shí)驗(yàn),積累經(jīng)驗(yàn)基礎(chǔ)上,翻譯過程中采用50個(gè)詞匯為一個(gè)翻譯階段,每個(gè)階段時(shí)間間隔為30秒的實(shí)驗(yàn)策略,可以達(dá)到快速穩(wěn)定地自動(dòng)生成對(duì)照詞表的效果。
3實(shí)驗(yàn)分析
本文使用的語料來源主要是“網(wǎng)站新聞”媒體中爬取的漢語語料,經(jīng)過公開的分詞軟件來進(jìn)行分詞,并構(gòu)建詞匯語料庫。本文以20萬種詞匯作為實(shí)驗(yàn)對(duì)象,進(jìn)行實(shí)驗(yàn)。詞匯翻譯率85%以上,翻譯正確率75%左右,達(dá)到預(yù)期研究效果。在研究中發(fā)現(xiàn)了以下這個(gè)問題。
(1)語料來源的動(dòng)態(tài)性。由于本文使用的語料來源“網(wǎng)站新聞”媒體,更新速度快,靜態(tài)翻譯平臺(tái)無法適應(yīng)產(chǎn)生的新詞匯,影響翻譯率的提高。
(2)翻譯平臺(tái)提供的資源有限。由于是從網(wǎng)絡(luò)媒體上爬下來,會(huì)出現(xiàn)一定規(guī)模的未登錄詞,影響翻譯率的提高。
(3)翻譯平臺(tái)提供的資源中具有一個(gè)詞匯多種翻譯的現(xiàn)象,導(dǎo)致翻譯正確率不太高。
中英平行語料對(duì)齊技術(shù)以及機(jī)器翻譯技術(shù)相對(duì)成熟。在進(jìn)一步研究漢語一維吾爾語平行語料庫以及機(jī)器翻譯時(shí),可以借鑒這些成果,采取多種方法,使用智能技術(shù)手段提升漢語一維吾爾語平行語料庫及機(jī)器翻譯質(zhì)量。