郭靜芳 張令通
摘要:信息技術(shù)的高度發(fā)展和各地、各民族之間的交流日益密切,帶來了機器翻譯的繁榮景象,通過對白族語言語音、詞匯、語法方面的特點分析的方法,以及對多種少數(shù)民族語言與漢語之間的機器翻譯方法的對比分析,從而尋找到最適合白一漢語互譯的機器翻譯的方法。
關(guān)鍵詞:白族語言;機器翻譯;方法;對比分析
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2020)05-0224-02
1研究背景及研究現(xiàn)狀
(1)研究背景:機器翻譯的大約產(chǎn)生在1930年,一名法國科學(xué)家率先提出了機器翻譯的思想;繼而產(chǎn)生了用于語言翻譯的機器,帶來了機器翻譯的繁榮。中國機器翻譯研究起步于二十世紀(jì)六十年代,后來因為初期的機器翻譯出現(xiàn)阻礙而導(dǎo)致其發(fā)展一度中斷,直到1975年之后機器翻譯才得到進(jìn)一步得發(fā)展。而少數(shù)民族語言的機器翻譯出現(xiàn)在上個世紀(jì)八十年代,以蒙語、藏語和維語為主要研究對象進(jìn)行初步的嘗試。(2)研究現(xiàn)狀:目前,機器翻譯的技術(shù)已經(jīng)越來越精湛,對于英語、法語等廣泛使用的語言有很好的成效,但是對于我國少數(shù)民族語言來說,由于語料規(guī)模小、語序差距大等問題導(dǎo)致少數(shù)民族的機器翻譯很難達(dá)到想要的效果。(3)研究基礎(chǔ):基于機器翻譯的普及和繁榮,國家對少數(shù)民族的重視和少數(shù)民族的機器翻譯也日漸成熟,使白語的機器翻譯更加有理論和技術(shù)的支持。
2常用機器翻譯的種類及對比
2.1神經(jīng)網(wǎng)絡(luò)的機器翻譯的研究
2.1.1蒙漢機器翻譯
基本步驟:(1)以CRU-CRF混合算法來進(jìn)行分詞模塊構(gòu)建。(2)通過門控循環(huán)神經(jīng)網(wǎng)絡(luò)(GRU)和條件隨機場(CRF)相結(jié)合的方式來對待標(biāo)注序列進(jìn)行語義分析和標(biāo)注。(3)利用分布式表示方式對切分的單詞進(jìn)行向量化處理。(4)基于神經(jīng)網(wǎng)絡(luò)模型來構(gòu)造編碼器。
優(yōu):在源語言和目標(biāo)語言的對齊處理上展現(xiàn)出較好的性能,同時在翻譯質(zhì)量上,其對應(yīng)的BLEU值也得到了提高;切分蒙古文有效的解決了蒙古文的數(shù)據(jù)稀疏性,提高了蒙漢神經(jīng)機器翻譯的性能。
劣:對有限的蒙漢雙語語料中的專有名詞、人名、地名和數(shù)字等名詞泛化處理,構(gòu)詞詞綴的處理問題;對長句的處理能力較弱。
2.1.2維漢機器翻譯
基本步驟:(1)將老維吾爾文進(jìn)行拉丁化處理。(2)實現(xiàn)了基于神經(jīng)網(wǎng)絡(luò)維漢機器翻譯,并在此基礎(chǔ)上將傳統(tǒng)的LTSM或GRU等非線性單元替換為LUA非線性單元。
優(yōu):當(dāng)源端語言采用詞亞詞為翻譯單元而目標(biāo)端語言采用詞為翻譯單元時所得到的翻譯效果最好,通過Nginx+Django+uwsgi的實現(xiàn)方式使整個翻譯系統(tǒng)具有較高的翻譯速度和并發(fā)量。
劣:亞詞不能完全解決集外詞問題。
2.2基于混合策略的蒙漢機器翻譯的研究
基本步驟:(1)準(zhǔn)備雙語訓(xùn)練語料庫;(2)雙語訓(xùn)練語料庫預(yù)處理;(3)漢蒙短語翻譯表的建立侗語對齊、短語抽取);(4)蒙古語語言模型的訓(xùn)練;(5)解碼:重點研究:蒙古語的格、復(fù)數(shù)及領(lǐng)屬等附加成分的形態(tài)分析;蒙古語語序的漢語調(diào)序方法。
2.3基于規(guī)則的漢藏機器翻譯系統(tǒng)中的句法分析方法研究
模塊:詞典維護(hù)模塊、規(guī)則維護(hù)模塊、分詞標(biāo)注模塊、漢藏翻譯模塊、系統(tǒng)設(shè)置模塊。
優(yōu):以動詞謂語為軸心,把詞項信息同語法規(guī)則相結(jié)合,把語法分析和語義分析融為一爐,實現(xiàn)語法分析和語義分析的一體化,并采用句法分析二分法就可以大大提高機器翻譯語法分析的效率。
劣:出現(xiàn)時間早。
2.4基于統(tǒng)計的漢藏翻譯系統(tǒng)關(guān)鍵研究與實現(xiàn)
技術(shù)原理:(1)樹到串的翻譯模型,抽取具體規(guī)則中更一般的規(guī)則;(2)中介語言方法;(3)專名識別;(4)統(tǒng)計翻譯模型訓(xùn)練方法:無監(jiān)督方法;(5)時態(tài)標(biāo)注;(6)擴(kuò)充已有的統(tǒng)計翻譯模型:藏文動詞的時態(tài)處理、動詞的及物性、格助詞處理等。
優(yōu):對藏文動詞的時態(tài)處理、動詞的及物性處理、格助詞處理等進(jìn)行了適當(dāng)?shù)奶幚?改善了統(tǒng)計機器翻譯訓(xùn)練過程的盲目性、低效性、冗余性、表面性等不足。
劣:漢藏雙語平行語料規(guī)模不夠,影響藏語自動分詞系統(tǒng)的分詞準(zhǔn)確率和翻譯引擎的翻譯準(zhǔn)確率
3幾種常見少數(shù)民族語言的對分析
3.1幾種語言的對比(表1)
3.2白語特征簡介
白族語屬于漢藏語系藏緬語族,分為大理(南部)、劍川(中部)、碧江(北部)這三個部分。
語音分析,輔音方面:雙唇、唇齒、舌尖、舌面、舌根。
元音方面:分松緊兩類,這一特點與彝語支語言相同。
詞匯方面,單音節(jié)詞較多,多音節(jié)詞較少。白語詞匯中漢語借詞所占比例是相當(dāng)高的,構(gòu)詞形式有附加式、重疊式和復(fù)合式三類。
語法方面,白語語序以主謂賓的結(jié)構(gòu)為主,與漢語相似,但也保留了古代白語的主賓謂型語序;白語量詞發(fā)達(dá),一般情況量詞置于名詞之后,其中部分量詞已具有名詞綴;白語聲調(diào)較多,例如動詞、助動詞的否定和肯定以及人稱代詞的數(shù)和格的變化,都需要通過語調(diào)的曲折變化來表達(dá)。
4白-漢語適用的機器翻譯方法
目前,基于統(tǒng)計和基于實例這兩種機器翻譯方法的技術(shù)已經(jīng)十分成熟,但是這兩種機器翻譯的方法與語料庫密不可分,它們的準(zhǔn)確度直接依賴于與語料庫的覆蓋面、精確度,因此需要大規(guī)模的雙語語料庫,盡管漢語語料庫的建設(shè)取得了很大的成就,比如:CCL漢語語料庫總字符數(shù)已經(jīng)到達(dá)了783,163 175,其中現(xiàn)代漢語語料庫也有581794456字符,但是白語可收集的語料少、語料庫小,以至于不是特別有效。所以我們可以通過語法方面的研究進(jìn)行補足,基于規(guī)則的機器翻譯的方法是依靠語言學(xué)家總結(jié)的語言翻譯規(guī)則庫,通過對句子的語法分析,按照語法規(guī)則進(jìn)行判斷和推導(dǎo),再生成目標(biāo)語言語句,一般通過以動詞謂語為軸心,把語法和語義相結(jié)合,實現(xiàn)利用語法分析進(jìn)行語義分析。而且,我國的自動分詞系統(tǒng)已經(jīng)有9%以上的正確率,因此可以采用統(tǒng)計與規(guī)則相結(jié)合的方式進(jìn)行白族語言機器翻譯,充分發(fā)揮規(guī)則和統(tǒng)計的作用,從而提高機器翻譯的準(zhǔn)確率。再加上白族語屬于漢藏語系藏緬語族,與藏語的發(fā)音、詞匯、語法等方面有很大的相似度,因此對與藏語適用的機器翻譯的方法對白語也基本適用。
綜上,根據(jù)白族語言特點和各類機器翻譯的特點,白語的機器翻譯可采用統(tǒng)計與規(guī)則相結(jié)合的混合策略實現(xiàn)。
5結(jié)語
通過對比分析多種常用的少數(shù)民族語言與漢語之間互譯的機器翻譯方法的優(yōu)點和不足,并根據(jù)白族語言語音、詞匯、語法方面的特點,提出了采用統(tǒng)計與規(guī)則相結(jié)合的混合策略實現(xiàn)白漢語互譯的機器翻譯方法,通過統(tǒng)計與規(guī)則二者之間的互補,解決白語語料庫不足的問題,并可通過不斷補充語料庫和完善規(guī)則庫,使白漢語互譯的效果得到進(jìn)一步的提升。