阿依古麗·哈力克,艾山·吾買爾,吐?tīng)柛ひ敛祭簦ü柦ぐ⒈鹊臒嵛魈?,買合木提·買買提
(1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2.新疆多語(yǔ)種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,新疆 烏魯木齊 830046)
漢維時(shí)間數(shù)字和量詞的識(shí)別與翻譯研究
阿依古麗·哈力克1,2,艾山·吾買爾1,2,吐?tīng)柛ひ敛祭?,2,卡哈爾江·阿比的熱西提1,2,買合木提·買買提1,2
(1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2.新疆多語(yǔ)種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,新疆 烏魯木齊 830046)
統(tǒng)計(jì)機(jī)器翻譯對(duì)時(shí)間、數(shù)字、量詞的泛化能力較弱,為了提高漢維機(jī)器翻譯系統(tǒng)對(duì)時(shí)間、數(shù)字和量詞短語(yǔ)的翻譯性能,該文利用雙語(yǔ)語(yǔ)料庫(kù)挖掘并提取漢語(yǔ)時(shí)間、數(shù)字、量詞表達(dá)與翻譯模式,實(shí)現(xiàn)了基于模板的時(shí)間、數(shù)字、無(wú)歧義量詞翻譯方法及基于上下文的有歧義量詞翻譯方法。時(shí)間、數(shù)字、無(wú)歧義量詞、有歧義量詞的翻譯F值達(dá)到了93.23%、90.15%、96.55%、87.58%,實(shí)驗(yàn)證明,該方法具有簡(jiǎn)單高效的優(yōu)點(diǎn)。
時(shí)間數(shù)字;無(wú)歧義量詞;有歧義量詞;翻譯規(guī)則;翻譯模板
命名實(shí)體識(shí)別與翻譯在機(jī)器翻譯、信息處理系統(tǒng)中具有重大意義。目前,對(duì)命名實(shí)體的識(shí)別與翻譯研究工作在國(guó)內(nèi)外已取得大量的研究成果[1]。Shruti Mathur[2]等用基于規(guī)則的方法對(duì)英語(yǔ)—印語(yǔ)命名實(shí)體內(nèi)的常見(jiàn)形式進(jìn)行了識(shí)別與翻譯。Deepti Bhalla[3]等使用基于統(tǒng)計(jì)的方法識(shí)別命名實(shí)體,通過(guò)平行語(yǔ)料庫(kù)實(shí)現(xiàn)了英語(yǔ)—印語(yǔ)命名實(shí)體的翻譯。Sameer R. Maskey[4]等通過(guò)規(guī)則,分析句法開發(fā)了英語(yǔ)—阿拉伯語(yǔ)命名實(shí)體的翻譯系統(tǒng)。Sebastian M P[5]等基于統(tǒng)計(jì)實(shí)現(xiàn)了英語(yǔ)—馬拉雅拉姆語(yǔ)的機(jī)器翻譯。Feng D[6]等研究了英漢命名實(shí)體對(duì)齊的新方法。Str?tgen J等基于規(guī)則的時(shí)間表達(dá)式識(shí)別與規(guī)范化實(shí)現(xiàn)了HeideTime系統(tǒng)[7]。尹存燕[8]等對(duì)中英命名實(shí)體識(shí)別及對(duì)齊研究提出了中文分詞優(yōu)化方法。鄭宏[9]、翟飛飛[10]等分別對(duì)時(shí)間、數(shù)字命名實(shí)體及數(shù)量詞的識(shí)別問(wèn)題使用了基于CYK++算法和語(yǔ)料庫(kù)、基于規(guī)則的方法。李風(fēng)環(huán)[11]等基于面向主題事件構(gòu)建了時(shí)間識(shí)別模型。趙紫玉[12-13]分別利用基于短語(yǔ)的翻譯模型、規(guī)則與CRF統(tǒng)計(jì)相結(jié)合的方法研究日語(yǔ)時(shí)間表達(dá)式識(shí)別與日漢翻譯。王偉、李君嬋、鄔桐等[14-16]對(duì)中文時(shí)間表達(dá)式的識(shí)別與翻譯提出了基于有限狀態(tài)自動(dòng)機(jī),規(guī)則庫(kù)、最大熵,正則文法的方法。楊萍[17]等對(duì)漢語(yǔ)-新蒙古文命名實(shí)體進(jìn)行翻譯,首先對(duì)漢語(yǔ)命名實(shí)體進(jìn)行標(biāo)注,然后獲取漢語(yǔ)HMM詞對(duì)齊結(jié)果,最后通過(guò)滑動(dòng)窗口方法選取置信度最高的命名實(shí)體翻譯。王斯日古楞等[18]對(duì)漢—蒙機(jī)器翻譯系統(tǒng)中的量詞短語(yǔ)進(jìn)行了研究。鄒樂(lè)琳等[19]基于統(tǒng)計(jì)的方法實(shí)現(xiàn)了維語(yǔ)時(shí)間表達(dá)式的識(shí)別。張磊等[20]對(duì)維語(yǔ)數(shù)詞類命名實(shí)體(時(shí)間、日期、百分比、貨幣)進(jìn)行了研究。目前,中國(guó)民族語(yǔ)文翻譯局在線翻譯系統(tǒng)(http://www.mzywfy.org.cn/)和新疆多語(yǔ)種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室基于短語(yǔ)的Tilmach漢維—維漢統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)(http://www.tilmach.cn/)對(duì)時(shí)間、數(shù)字、量詞的譯文質(zhì)量不理想??梢?jiàn),對(duì)漢維時(shí)間數(shù)字和量詞的識(shí)別與翻譯研究工作較少,尤其是漢維方向翻譯工作沒(méi)有針對(duì)性的研究。
本文對(duì)漢語(yǔ)時(shí)間、數(shù)字、量詞分類及維吾爾文翻譯進(jìn)行詳細(xì)分析,并構(gòu)建了相應(yīng)的時(shí)間日期識(shí)別與翻譯模板、數(shù)字識(shí)別與翻譯模板、無(wú)歧義量詞詞典、基于上下文的有歧義量詞翻譯規(guī)則庫(kù),實(shí)現(xiàn)了漢維方向的時(shí)間、數(shù)字、量詞識(shí)別與翻譯算法。
漢語(yǔ)是典型的孤立語(yǔ),屬于漢藏語(yǔ)系漢語(yǔ)語(yǔ)族;而維吾爾語(yǔ)是黏著語(yǔ),屬于阿爾泰語(yǔ)系突厥語(yǔ)族,在中國(guó)境內(nèi)使用的維吾爾語(yǔ)是以阿拉伯字母為基礎(chǔ)的老維文。漢語(yǔ)維吾爾語(yǔ)語(yǔ)法信息、翻譯規(guī)律不同,因此對(duì)時(shí)間數(shù)字和量詞分別進(jìn)行討論。本文研究的老維文在word里顯示時(shí)存在因未安裝維吾爾語(yǔ)輸入法而導(dǎo)致排版格式混亂的情況,因此維語(yǔ)例子使用拉丁文表示。
2.1 漢維時(shí)間日期的分析
由于漢語(yǔ)維吾爾語(yǔ)在各個(gè)方面的不同,在漢語(yǔ)-維吾爾語(yǔ)機(jī)器翻譯系統(tǒng)中,時(shí)間表達(dá)式的翻譯準(zhǔn)確率比較低,幾乎沒(méi)有對(duì)應(yīng)的翻譯結(jié)果。對(duì)一些時(shí)間表達(dá)式的翻譯情況對(duì)比如表1所示。
表1 機(jī)器翻譯系統(tǒng)的時(shí)間日期翻譯對(duì)比表
可見(jiàn),翻譯結(jié)果出現(xiàn)數(shù)字次序混亂、標(biāo)點(diǎn)符號(hào)、詞尾丟失或多加等錯(cuò)誤情況。原因是時(shí)間觸發(fā)詞(年、月、日)在不同的維語(yǔ)時(shí)間表達(dá)式中譯文不同,比如: 漢語(yǔ)中“月”對(duì)應(yīng)維語(yǔ)的“Ay”在不同的時(shí)間表達(dá)式中翻譯結(jié)果如表2所示。
表2 時(shí)間觸發(fā)詞的歧義情況表
本文為解決此問(wèn)題將時(shí)間日期分五類研究,如表3所示。
表3 漢語(yǔ)-維吾爾語(yǔ)時(shí)間日期示例表
續(xù)表
時(shí)間日期分類漢語(yǔ)維吾爾語(yǔ)重大紀(jì)念日,節(jié)日“古爾邦節(jié)”,“肉孜節(jié)”,“五·一”國(guó)際勞動(dòng)節(jié)Qurbanh?yitRozah?yit5-ayning1-küniEmgekchilerBayrim
可見(jiàn),“明天早上九點(diǎn)半”雖然由“明天”-“Ete”,“早上”-“Etigen”,“九點(diǎn)半”-“Toqquz y?rim”等三個(gè)時(shí)間基本單元組成,但在翻譯時(shí)不能利用時(shí)間基本單元組合的方法,應(yīng)考慮整個(gè)模塊,在后面加“da”詞尾?!敖刂?月7日到9日”同樣不能利用基本單元組合的方法翻譯,也是應(yīng)考慮整個(gè)模塊,翻譯結(jié)果為: “5-ayning7-künidin9-künigiche”,因?yàn)椤敖刂埂?,?月7日”,“到”,“9日”分別對(duì)應(yīng)為“giche”和“5-ayning 7-küni”和“Din”和“9-küni”,利用基本單元組合的方法翻譯會(huì)出現(xiàn)位置不穩(wěn)定,導(dǎo)致語(yǔ)法錯(cuò)誤。
2.2 漢語(yǔ)數(shù)字維吾爾語(yǔ)翻譯
本文把漢維數(shù)字的對(duì)比關(guān)系分為三種: 1)漢語(yǔ)中數(shù)字可分為基數(shù)詞和序數(shù)詞[21]。維吾爾語(yǔ)中數(shù)字分為約數(shù)詞、集合數(shù)詞、分?jǐn)?shù)詞、序數(shù)詞、基數(shù)詞。2)漢語(yǔ)的數(shù)字寫法有多種形式,例如,對(duì)于阿拉伯?dāng)?shù)字“4”漢語(yǔ)中有“四”、“肆”等寫法。維吾爾語(yǔ)有“T?t”一種寫法。3)漢語(yǔ)中十位數(shù)字的表示形式是“一到九之間的任何一個(gè)數(shù)”字后面加上“十”而形成的,比如: “二十、三十、四十…”。維吾爾語(yǔ)中這些數(shù)字都有專稱,例如,“Yigirme、ottuz、qiriq、ellik、atmish、yetmish、seksen、toqsan”。
數(shù)字根據(jù)翻譯結(jié)果的不同,總結(jié)如表4所示。
表4 漢維數(shù)字翻譯示例表
可見(jiàn),漢語(yǔ)的序數(shù)詞根據(jù)意義和計(jì)算方法在維吾爾語(yǔ)里分為約數(shù)詞、集合數(shù)詞、分?jǐn)?shù)詞、序數(shù)詞,基數(shù)詞在兩個(gè)語(yǔ)言中一一對(duì)應(yīng)。根據(jù)分類構(gòu)建規(guī)則,對(duì)不同搭配格式利用平行語(yǔ)料和翻譯模板的方法實(shí)現(xiàn)翻譯。
2.3 漢語(yǔ)-維吾爾語(yǔ)量詞對(duì)應(yīng)關(guān)系的分析
量詞是表示事物和動(dòng)作計(jì)算單位的詞匯。在文獻(xiàn)[21]中漢語(yǔ)量詞的特點(diǎn)可歸納為如下幾種: 1)在漢語(yǔ)中根據(jù)物體形狀的不同,使用的量詞也有所不同,因此漢語(yǔ)中的量詞較多,大概有507個(gè)量詞。2)在結(jié)構(gòu)上,漢語(yǔ)的量詞位于數(shù)字和名詞之間,數(shù)字需要結(jié)合量詞才能修飾名詞。3)根據(jù)表示對(duì)象的不同,漢語(yǔ)量詞分為名量詞、動(dòng)量詞、復(fù)合量詞等三大類。句子中的名量詞和動(dòng)量詞不能省略,否則會(huì)出現(xiàn)語(yǔ)法錯(cuò)誤。句子中復(fù)合量詞(名量詞+動(dòng)量詞)中動(dòng)量詞省略掉后不會(huì)出現(xiàn)語(yǔ)法錯(cuò)誤,但兩個(gè)句子的意思完全不同。
漢維量詞異同點(diǎn): 1)維吾爾語(yǔ)量詞沒(méi)有漢語(yǔ)量詞數(shù)量多,常用的有“Tal、dane”。2)維吾爾語(yǔ)中量詞不能單獨(dú)做句子的重要成分,它只位于名詞或動(dòng)詞的前面,直接修飾名詞或動(dòng)詞。3)漢語(yǔ)中有些量詞在維吾爾語(yǔ)中沒(méi)有對(duì)應(yīng)的翻譯,即丟失。
在Tilmach和中國(guó)民族語(yǔ)文翻譯局在線翻譯系統(tǒng)出現(xiàn)錯(cuò)誤情況。例如,量詞短語(yǔ)“一線希望”、“一份情”的正確翻譯結(jié)果應(yīng)為: “ümid(希望)”、“muhebbet(情)”,即數(shù)字和量詞均丟失,但在Tilmach中翻譯結(jié)果是“Azraq ümid”、“Bir parche muhebbet baghlash”,在中國(guó)民族語(yǔ)文翻譯局中翻譯結(jié)果是“Azraq ümid”、“Bir ülüsh mihir”。有些事物或行為就必須使用“數(shù)字+量詞+名詞”來(lái)表示,量詞決不能省略,例如,“十斤面”要翻譯為“On(十)jing(斤)un(面)”,不能省略“jing”。漢語(yǔ)根據(jù)量詞的搭配格式可分為四種,具體如表5所示。
表5 漢維量詞示例表
續(xù)表
量詞短語(yǔ)格式漢語(yǔ)量詞短語(yǔ)維吾爾語(yǔ)譯文數(shù)字+名詞兩兄弟Aka-iniikkeylen量詞+名詞雙人車Qoshkishlikmashina數(shù)字+名詞+名詞一車瓷磚Birmashinasapalxish
可見(jiàn),量詞短語(yǔ)“一群人”、“一所學(xué)?!狈g結(jié)果都不同,“一群人”的數(shù)字、量詞、名詞全部翻譯;“一所學(xué)?!狈g數(shù)字和名詞,量詞丟失?!耙环羼橊劇?、“一枚戒指”…中“峰,枚…”等量詞對(duì)應(yīng)的維吾爾語(yǔ)翻譯結(jié)果為只有一種“Tal”?!耙卉嚧纱u”中“車”是名詞,但在量詞短語(yǔ)中看成量詞。所以,漢語(yǔ)中量詞根據(jù)翻譯需求的不同分為有歧義量詞和無(wú)歧義量詞兩大類,有歧義量詞指數(shù)字一一對(duì)應(yīng)、但量詞是一個(gè)對(duì)應(yīng)多個(gè)(其中包含量詞丟失的情況);無(wú)歧義量詞指數(shù)字一一對(duì)應(yīng)、量詞也一一對(duì)應(yīng),數(shù)詞一一對(duì)應(yīng)、但量詞丟失,數(shù)字一一對(duì)應(yīng)、但量詞多個(gè)對(duì)應(yīng)一個(gè),數(shù)字、量詞均丟失四種情況。維吾爾語(yǔ)里面有歧義量詞根據(jù)句子上下文的不同翻譯結(jié)果也不同,一個(gè)量詞有多種翻譯結(jié)果,如表6所示。
表6 漢維量詞特殊情況示例表
可見(jiàn),漢語(yǔ)中量詞根據(jù)后面的不同名詞有不同的翻譯結(jié)果?!耙活^?!?、“一頭獅子”、“一頭大蒜”的“一頭”翻譯為“Bir tuyaq”、“Bir”、“Bir bash”三種不同結(jié)果。同樣,“一盤菜”、“一盤錄音帶”、“一盤電線”的“一盤”翻譯為“Bir texse”、“Bir dane”、“Bir y?gime”三種不同結(jié)果。因此在量詞識(shí)別與翻譯過(guò)程中,詳細(xì)分類會(huì)提高機(jī)器翻譯的準(zhǔn)確率。
2.4 度量單位
漢維度量單位由數(shù)字和量詞組成,不需要名詞。翻譯示例如表7所示。
可見(jiàn),度量單位的翻譯為固定譯文。
表7 漢維度量單位示例表
根據(jù)上述漢維翻譯規(guī)律和語(yǔ)法特點(diǎn),利用雙語(yǔ)語(yǔ)料庫(kù)挖掘包含時(shí)間數(shù)字和量詞的句子,對(duì)每一類分別構(gòu)建人工編制規(guī)則庫(kù)用于提取漢語(yǔ)時(shí)間數(shù)字和量詞短語(yǔ),翻譯時(shí)分別提出了翻譯模板、對(duì)無(wú)歧義量詞平行語(yǔ)料庫(kù)、基于上下文的有歧義量詞翻譯規(guī)則和規(guī)則與統(tǒng)計(jì)相結(jié)合的方式,本方法提高了翻譯準(zhǔn)確率和召回率。
3.1 漢維時(shí)間的識(shí)別與翻譯方法
根據(jù)實(shí)際需求對(duì)時(shí)間表達(dá)式?jīng)]有利用分詞系統(tǒng),而是構(gòu)建人工編制規(guī)則庫(kù)。即對(duì)這些包含前后介詞的表達(dá)式翻譯為維語(yǔ)時(shí),根據(jù)不同的時(shí)間表達(dá)式類型,分別建立了一一對(duì)應(yīng)的272個(gè)規(guī)則和翻譯模板。這個(gè)方法雖然繁瑣,但準(zhǔn)確率高,對(duì)新聞中時(shí)間表達(dá)式的覆蓋率為96%。對(duì)時(shí)間表達(dá)式構(gòu)造人工編制規(guī)則庫(kù)時(shí),由于維吾爾語(yǔ)和漢語(yǔ)的書寫方向相反,為了避免語(yǔ)法錯(cuò)誤,把兩種語(yǔ)言的規(guī)則庫(kù)分開存儲(chǔ)在兩個(gè)文本文檔中。該方法使機(jī)器翻譯準(zhǔn)確率有明顯提高。規(guī)則和模板一一對(duì)應(yīng)的示例如表8、表9 所示。
表8 漢語(yǔ)時(shí)間表達(dá)式規(guī)則庫(kù)示例表
續(xù)表
漢語(yǔ)規(guī)則庫(kù)(d{1,4}年d{1,2}月d{1,2}日凌晨d{1,2}時(shí)d{1,2}分)
表9 維語(yǔ)時(shí)間表達(dá)式翻譯模板示例表
可見(jiàn),漢語(yǔ)規(guī)則庫(kù)和維語(yǔ)模板一一對(duì)應(yīng)。根據(jù)上圖的人工編制規(guī)則識(shí)別時(shí)間表達(dá)式,利用翻譯模板抽取對(duì)應(yīng)的翻譯結(jié)果。過(guò)程如下:
輸入句子: 2013年12月至2014年6月期間,被告人韋海(廣西籍)與境外人員“阿樂(lè)”等共謀組織中國(guó)境內(nèi)人員偷渡至越南。
匹配規(guī)則后的識(shí)別結(jié)果: 2013年12月至2014年6月期間。
Tilmach的譯文: <2013年12月至2014年6月> mezgilide。中國(guó)民族語(yǔ)文翻譯局的翻譯結(jié)果為: <2013年12月至2014年6月> mezgilide。
本方法譯文用拉丁文表示: 2013-yil 12-aydin 2014-yil 6-ayghiche。與正確譯文相同。
對(duì)時(shí)間日期的識(shí)別與翻譯完全不依賴各種中文分詞系統(tǒng)、標(biāo)注和統(tǒng)計(jì)方法,而是利用人工編制規(guī)則庫(kù)和翻譯模板進(jìn)行識(shí)別與翻譯,使Tilmach的翻譯準(zhǔn)確率有明顯提高。時(shí)間日期的識(shí)別與翻譯處理算法如圖1所示。
圖1 時(shí)間日期識(shí)別與翻譯處理算法
3.2 漢維數(shù)字的識(shí)別與翻譯方法
Tilmach對(duì)基數(shù)詞已有了較好的翻譯準(zhǔn)確率,因此本文解決的是序數(shù)詞、約數(shù)詞、集合數(shù)詞、分?jǐn)?shù)詞、百分?jǐn)?shù)、倍數(shù),并對(duì)每一類分別構(gòu)建人工編制規(guī)則庫(kù),如表10所示。
表10 數(shù)字規(guī)則與模板
續(xù)表
數(shù)字類型例子漢語(yǔ)規(guī)則特點(diǎn)維維吾爾語(yǔ)模板分?jǐn)?shù)詞三分之二數(shù)字+分之+數(shù)字adinb百分?jǐn)?shù)百分之90百分之+數(shù)字apirsent倍數(shù)三倍數(shù)字+倍aHesse
可見(jiàn),序數(shù)詞、約數(shù)詞、集合數(shù)詞、分?jǐn)?shù)詞等都是先用規(guī)則來(lái)識(shí)別數(shù)字,然后一一匹配對(duì)應(yīng)的模板庫(kù)。數(shù)字識(shí)別與翻譯處理算法如圖2所示。
3.3 漢維量詞的識(shí)別與翻譯
在量詞短語(yǔ)的機(jī)器翻譯中,對(duì)收集的語(yǔ)料進(jìn)行統(tǒng)計(jì)分析,根據(jù)維吾爾語(yǔ)的翻譯規(guī)律進(jìn)行分類,構(gòu)建量詞短語(yǔ)的平行語(yǔ)料庫(kù)并存儲(chǔ)在兩個(gè)文本文檔中。分詞對(duì)比如表11所示。
圖2 數(shù)字識(shí)別與翻譯處理算法
表11 識(shí)別方法對(duì)比表
為使?jié)h維量詞短語(yǔ)的識(shí)別與翻譯達(dá)到盡可能高的覆蓋率,本文對(duì)無(wú)歧義量詞識(shí)別時(shí)利用人工編制規(guī)則庫(kù)識(shí)別,對(duì)有歧義量詞使用哈工大分詞系統(tǒng)和人工編制規(guī)則相結(jié)合的方法,翻譯時(shí)單獨(dú)使用模板翻譯或統(tǒng)計(jì)的方法準(zhǔn)確率不高,利用翻譯模板和Tilmach相結(jié)合的方法有更高的準(zhǔn)確率。
3.3.1 有歧義量詞的識(shí)別與翻譯
有歧義量詞(數(shù)字一一對(duì)應(yīng),但量詞一個(gè)對(duì)應(yīng)多個(gè))具體的識(shí)別與翻譯過(guò)程如下: 利用人工編制規(guī)則和哈工大分詞系統(tǒng)識(shí)別量詞短語(yǔ)。翻譯時(shí)根據(jù)哈工大的詞性標(biāo)注結(jié)果定位句子里面的名詞“/n”來(lái)決定這個(gè)量詞的翻譯結(jié)果,我們利用這個(gè)特點(diǎn),構(gòu)建(Special quantifier)平行語(yǔ)料庫(kù),從平行語(yǔ)料庫(kù)中抽取對(duì)應(yīng)的翻譯結(jié)果,然后結(jié)合Tilmach實(shí)現(xiàn)漢維量詞短語(yǔ)翻譯。漢語(yǔ)中45個(gè)有歧義量詞,量詞“把”翻譯結(jié)果如表12所示。
可見(jiàn),利用本方法對(duì)“一把米、一把花兒”翻譯時(shí)“數(shù)字、量詞、名詞”均翻譯出來(lái),翻譯結(jié)果為“Bir(一)siqim(把)gürüch(米)”、“Bir(一)deste(把)gül(花兒)”,與正確譯文相同。但在Tilmach中“一把米”翻譯結(jié)果“Bir baghlam m?tir”是錯(cuò)誤的。對(duì)“一把年齡”,這種“數(shù)字+量詞+名詞”格式的量詞短語(yǔ),翻譯結(jié)果僅剩“名詞”,“數(shù)字、量詞”都丟失,翻譯結(jié)果應(yīng)為“Yash”。
表12 有歧義量詞翻譯示例表
3.3.2 無(wú)歧義量詞的識(shí)別與翻譯
無(wú)歧義量詞具體的識(shí)別與翻譯過(guò)程如下: 首先分為四大類(1.數(shù)字一一對(duì)應(yīng),但量詞是多個(gè)對(duì)應(yīng)一個(gè);2.數(shù)字和量詞都丟失;3.數(shù)字一一對(duì)應(yīng),但量詞丟失;4.數(shù)字一一對(duì)應(yīng),量詞也一一對(duì)應(yīng)),然后利用人工編制規(guī)則識(shí)別量詞短語(yǔ)。
本文分析漢語(yǔ)和維吾爾語(yǔ)的異同點(diǎn),將量詞短語(yǔ)分為下述五種情況。量詞識(shí)別與翻譯處理算法如圖3所示。
分類一 漢語(yǔ)中的“峰、枚、顆、粒、方、管、則、發(fā)、盞、床、炷、柄、梃、梭”等14個(gè)量詞在維吾爾語(yǔ)中的翻譯結(jié)果都是“Tal、dane(兩字意思相同僅寫法不同)”。對(duì)這種情況解決的方法相對(duì)簡(jiǎn)單,從Many To One平行語(yǔ)料庫(kù)中找出它對(duì)應(yīng)的翻譯結(jié)果即可。
分類二 漢語(yǔ)中包含“輪、手、樁、宗、陣、記、攤、汪、鴻、團(tuán)、脬”等11個(gè)量詞的漢語(yǔ)短語(yǔ)翻譯為維吾爾語(yǔ)時(shí),短語(yǔ)格式“數(shù)字+量詞+名詞”對(duì)應(yīng)到維吾爾語(yǔ)時(shí)僅剩下“名詞”格式,即漢語(yǔ)數(shù)字和量詞都對(duì)應(yīng)為空串。例如,“一輪圓月”、“一手好字”中翻譯結(jié)果為“Tulun(圓)Ay(月)”、“Yaxshi(好)s?z(字)”,“一輪圓月”的“一、輪”、“一手好字”的“一、手”都要翻譯為空。
圖3 量詞識(shí)別與翻譯處理算法
分類三 漢語(yǔ)中“幢、座、扇、堵、所、架、艘、本、家、口、孔、尊、爿、樁、宗、件、羅、首、匝、客、挺、垛、孔、桿、眼”等25個(gè)漢語(yǔ)量詞翻譯為維語(yǔ)時(shí)沒(méi)有對(duì)應(yīng)的翻譯結(jié)果,對(duì)這種情況的量詞翻譯結(jié)果使用(Many To Null)平行語(yǔ)料庫(kù)僅輸出數(shù)字的翻譯結(jié)果。例如: 在Tilmach中“一眼井”結(jié)果為“Bir k?z quduq”,但正確的結(jié)果應(yīng)為“Bir(一)quduq(井)”,“眼”丟失。
分類四 漢語(yǔ)中260個(gè)量詞翻譯為維吾爾語(yǔ)時(shí)有對(duì)應(yīng)的翻譯結(jié)果。例如,“一群人、一出戲、一帖藥、一劑藥、八味藥”中的量詞翻譯結(jié)果分別為“top、meydan、chaplaq、quta、xil”。對(duì)這種情況從(One To One)平行語(yǔ)料庫(kù)中抽取對(duì)應(yīng)的數(shù)字、量詞翻譯結(jié)果,然后兩個(gè)翻譯結(jié)果合并即可。度量單位(長(zhǎng)度、面積、體重、重量、貨幣)也屬于無(wú)歧義量詞,在格式“數(shù)字+單位”后面加或不加名詞不會(huì)影響翻譯結(jié)果。
本文實(shí)驗(yàn)的時(shí)間數(shù)字語(yǔ)料來(lái)自《新疆人民日?qǐng)?bào)》、“天山網(wǎng)”的最新新聞,從中自動(dòng)收集23 447句包含時(shí)間數(shù)字的句子,隨機(jī)抽取包含9 769個(gè)時(shí)間數(shù)字的5 048句;量詞語(yǔ)料來(lái)自“北京大學(xué)語(yǔ)料庫(kù)”,從中收集39 000句包含量詞的句子,隨機(jī)抽取包含6 723個(gè)量詞的4 190句,收集1 540句包含度量單位(長(zhǎng)度、面積、體積、體重及貨幣等105個(gè))的句子,隨機(jī)抽取598句分別做實(shí)驗(yàn)。
在測(cè)試語(yǔ)料中,對(duì)所有句子進(jìn)行人工標(biāo)注、分類、使用平行語(yǔ)料庫(kù)和翻譯模板進(jìn)行翻譯。最后與Tilmach進(jìn)行對(duì)比實(shí)驗(yàn),證明了本工作的必要性。
4.1 時(shí)間數(shù)字與量詞實(shí)驗(yàn)語(yǔ)料及分析
時(shí)間數(shù)字、量詞、質(zhì)量單位的語(yǔ)料信息如表13—表17所示。
表13 含時(shí)間數(shù)字的漢語(yǔ)語(yǔ)料庫(kù)表
表14 含時(shí)間數(shù)字語(yǔ)料信息表
表15 含量詞的漢語(yǔ)語(yǔ)料庫(kù)表
表16 含量詞語(yǔ)料信息表
續(xù)表
量詞分類維語(yǔ)數(shù)字翻譯結(jié)果關(guān)系維語(yǔ)量詞翻譯結(jié)果關(guān)系提取語(yǔ)料句數(shù)測(cè)試語(yǔ)料句數(shù)(含翻譯)測(cè)試語(yǔ)料量詞個(gè)數(shù)無(wú)歧義一一對(duì)應(yīng)多對(duì)一 86008601362丟失 丟失 5520552986一一對(duì)應(yīng)丟失 84408441423一一對(duì)應(yīng)一一對(duì)應(yīng)69208821056共3900041906723
表17 含度量單位語(yǔ)料信息表
4.2 評(píng)測(cè)方法
本文評(píng)測(cè)指標(biāo)采用三個(gè)值: 準(zhǔn)確率(P)、召回率(R)、F-Score,計(jì)算公式如下:
(1)
(2)
(3)
4.3 實(shí)驗(yàn)及結(jié)果分析
本文對(duì)時(shí)間數(shù)字和量詞采用不同的方法進(jìn)行測(cè)試,然后與Tilmach的翻譯結(jié)果進(jìn)行對(duì)比試驗(yàn)。時(shí)間表達(dá)式的識(shí)別與翻譯過(guò)程如下:
輸入兩條句子:
1. 截至2014年6月25日申請(qǐng)2.3萬(wàn)余人,同比增長(zhǎng)了5倍多。
2. 全疆8月份開始依法全面實(shí)施統(tǒng)一的普通護(hù)照簽發(fā)管理政策。
翻譯結(jié)果用拉丁文表示為:
1. 2009- <2014年6月25日> 23 ming adem iltimas,bulturqi shu mezgildikidin besh hessidin artuq k?peydi.
2. 8-ayda Shinjang boyiche bashlap adettiki omumyüzlük qanun boyiche yolgha qoyup,bir tutash bashqurush siyasitini pasport bergüchi.
可見(jiàn),在句1中,時(shí)間表達(dá)式“截至2014年6月25日”沒(méi)能翻譯,并多加了數(shù)字“2009-”和“23”;在句2中,“8月份開始”翻譯結(jié)果添加了詞尾“da”,但應(yīng)該要添加“din baxlap”。使用人工編制規(guī)則庫(kù)識(shí)別時(shí)間表達(dá)式:“截至2014年6月25日”、“8月份開始”,匹配翻譯模板輸出翻譯結(jié)果為: “2014-yili 6-ayning 25-künigiche”、“5 Hesse”、“8-aydin bashlap”,與正確的翻譯結(jié)果相同。
漢維量詞短語(yǔ)的識(shí)別與翻譯過(guò)程如下:
輸入句子: 夕陽(yáng)的余暉透過(guò)霞云,灑在江心,形成一線閃爍的金斑。
識(shí)別: 在哈工大的分詞系統(tǒng)詞性標(biāo)注結(jié)果: 夕陽(yáng)/n 的/u 余暉/n 透過(guò)/v 霞云/n ,/wp 灑/v 在/p 江心/n ,/wp 形成/v 一線/n 閃爍/v 的/u 金斑/n 。/wp。其中“一線”是名詞,但漢語(yǔ)翻譯為維吾爾語(yǔ)時(shí)該句中的“線”應(yīng)是量詞。
翻譯結(jié)果用拉丁文表示為: Kechki shepeq bek güzel bolidu diki qalduq nur bulut reng shepeq tumanning singip ?tüsh meyxana,sinxana, y?qinlashmay 1- s?pide shekillendürüsh bilen chaqnisa ala altun
可見(jiàn),在Tilmach中量詞短語(yǔ)“一線”的翻譯結(jié)果是錯(cuò)誤的“1-s?pide”,正確結(jié)果“一線”應(yīng)丟失;匹配平行語(yǔ)料時(shí)應(yīng)按照分類方法中數(shù)字一一對(duì)應(yīng)、但量詞一對(duì)多的情況根據(jù)后面的名詞來(lái)翻譯量詞短語(yǔ),即“一線”根據(jù)后面的名詞“金斑”,翻譯結(jié)果應(yīng)為“ ”空串。
4.3.1 識(shí)別實(shí)驗(yàn)及結(jié)果分析
對(duì)時(shí)間數(shù)字和量詞考慮句子的上下文信息,建立規(guī)則庫(kù)和模板庫(kù),對(duì)量詞詳細(xì)分類分別建立平行語(yǔ)料庫(kù)實(shí)現(xiàn)翻譯,可以達(dá)到比較高的翻譯準(zhǔn)確率。時(shí)間數(shù)字、量詞、度量單位識(shí)別實(shí)驗(yàn)結(jié)果如表18—表20所示。
表18 時(shí)間數(shù)字識(shí)別實(shí)驗(yàn)結(jié)果表
續(xù)表
時(shí)間數(shù)字本方法P/%R/%F/%集合數(shù)詞85.6583.3484.47倍數(shù)96.5094.6795.58
表19 量詞識(shí)別實(shí)驗(yàn)結(jié)果表
表20 度量單位識(shí)別實(shí)驗(yàn)結(jié)果表
4.3.2 翻譯實(shí)驗(yàn)及結(jié)果分析
根據(jù)時(shí)間數(shù)字和量詞的解決方法不同,分別做對(duì)比實(shí)驗(yàn),如表21—表24所示。
表21 時(shí)間數(shù)字翻譯實(shí)驗(yàn)結(jié)果表
可見(jiàn),對(duì)Tilmach不能識(shí)別與翻譯的部分有歧義量詞和無(wú)歧義量詞應(yīng)使用人工編制規(guī)則、對(duì)有歧義量詞利用規(guī)則與統(tǒng)計(jì)相結(jié)合的方法使譯文質(zhì)量有明顯提高。
表22 量詞翻譯實(shí)驗(yàn)結(jié)果表
表23 基于規(guī)則與統(tǒng)計(jì)相結(jié)合的實(shí)驗(yàn)結(jié)果表
表24 單位翻譯實(shí)驗(yàn)結(jié)果表
表25 基線系統(tǒng)翻譯結(jié)果對(duì)比表
表25給出了本方法與Tilmach、中國(guó)民族語(yǔ)文翻譯局在線翻譯系統(tǒng)的性能進(jìn)行比較。本方法詳細(xì)分析漢維機(jī)器翻譯中時(shí)間、數(shù)字、量詞的歧義性、差異性和實(shí)際需求情況,對(duì)每一部分都分別采用不同的方法: 對(duì)時(shí)間、數(shù)字要考慮上下文介詞并采用不同的翻譯模板,對(duì)量詞最關(guān)鍵是分類并采用不同的識(shí)別與翻譯處理算法。所以本文最關(guān)鍵的工作是為提高漢-維機(jī)器翻譯系統(tǒng)中的翻譯準(zhǔn)確率對(duì)時(shí)間數(shù)字和量詞的分類采取不同的算法進(jìn)行研究。
本文分析漢—維時(shí)間數(shù)字和量詞的差異性,時(shí)間表達(dá)式中觸發(fā)詞(年、月、日)、數(shù)字、量詞在不同的維語(yǔ)時(shí)間數(shù)字、量詞短語(yǔ)譯文也有所不同、利用統(tǒng)計(jì)的方法出現(xiàn)數(shù)字次序亂、標(biāo)點(diǎn)符號(hào)、詞尾丟失或多加等錯(cuò)誤情況。該方法根據(jù)它們的特點(diǎn)構(gòu)建人工編制規(guī)則庫(kù)、漢維翻譯模板,對(duì)這些包含前后介詞的時(shí)間數(shù)字翻譯為維吾爾語(yǔ)時(shí),根據(jù)不同的時(shí)間表達(dá)式類型構(gòu)建對(duì)應(yīng)的規(guī)則庫(kù)和翻譯模板;對(duì)有歧義量詞和四種無(wú)歧義量詞構(gòu)建五種平行語(yǔ)料庫(kù)并輸出翻譯結(jié)果,對(duì)第一種有歧義量詞短語(yǔ)利用規(guī)則和統(tǒng)計(jì)相結(jié)合的方法、后四種無(wú)歧義量詞利用人工編制規(guī)則的方法使翻譯準(zhǔn)確率有明顯提高。該方法與Tilmach、中國(guó)民族語(yǔ)文翻譯局在線翻譯系統(tǒng)相比,在翻譯準(zhǔn)確率上有巨大的提高。本方法簡(jiǎn)單,效率高,目標(biāo)明確。
未來(lái)相關(guān)的工作可以在其他少數(shù)民族語(yǔ)言中時(shí)間、數(shù)字和量詞方面共享,可以幫助提高整體領(lǐng)域的發(fā)展。
[1] 趙軍.命名實(shí)體識(shí)別、排歧和跨語(yǔ)言關(guān)聯(lián)[J].中文信息學(xué)報(bào),2009,23(2): 3-17.
[2] Mathur S, Saxena V P.Hybrid Approach to English-Hindi Name Entity Transliteration[J].Eprint Arxiv,2014.
[3] Deepti Bhalla,Nisheeth Joshi,Iti Mathur,et al.Improving the Quality of MT Output using Novel Name Entity Translation Scheme[C]//Proceedings of the 2013 International Conference on Advances in Computing,Communications and Informatics(ICACCI).India,2013: 1548-1553.
[4] Maskey S R,Cmejrek M,Zhou B,et al.Class-based named entity translation in a speech to speech translation system[C]//Proceedings of the Spoken Language Technology Workshop,2008.Sl.2009: 253-256.
[5] Sebastian M P, Sheena KK, Kumar G S. Extension Schemes for the Alignment Model of English-Malayalam Statistical Machine Translator[C]//Proceedings of the 2012 International Conference on Advances in Computing and Communications. IEEE Computer Society, 2012: 86-89.
[6] Feng D,Lü Y,Zhou M.A new approach for English-Chinese named entity alignment[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing(EMNLP).Stroudsburg,PA,2004: 372-379.
[7] Str?tgen J,Gertz M.HeidelTime: High quality rule-based extraction and normalization of temporal expressions[C]//Proceedings of the 5th International Workshop on Semantic Evalution.USA PA,Stroudsbury: Association for Computational Linguistics,2010: 321-324.
[8] 尹存燕,黃書劍,戴新宇,等.中英命名實(shí)體識(shí)別及對(duì)齊中的中文分詞優(yōu)化[J].電子學(xué)報(bào),2015,43(8): 1481-1487.
[9] 鄭宏.漢英雙向時(shí)間數(shù)字和數(shù)量詞的識(shí)別與翻譯技術(shù)[D].哈爾濱工業(yè)大學(xué)碩士學(xué)位論文,2011,6.
[10] 翟飛飛,夏睿,周玉,等.漢英雙向時(shí)間和數(shù)字命名實(shí)體的識(shí)別與翻譯系統(tǒng)[C].第五屆全國(guó)機(jī)器翻譯研討會(huì)論文集.2009: 172-179.
[11] 李風(fēng)環(huán),鄭德權(quán),趙鐵軍.基于淺層語(yǔ)義分析的主題事件的時(shí)間識(shí)別[J].山東大學(xué)學(xué)報(bào),2015,50(11): 74-80.
[12] 趙紫玉,徐金安,張玉潔,等.規(guī)則與統(tǒng)計(jì)相結(jié)合的日語(yǔ)時(shí)間表達(dá)式識(shí)別[J].中文信息學(xué)報(bào),2013,27(6): 192-200.
[13] 趙紫玉,徐金安,張玉潔,等.日語(yǔ)時(shí)間表達(dá)式識(shí)別與日漢翻譯研究[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,50(1): 180-186.
[14] 王偉,趙東巖,蘇婷婷.C-TERN: 一種基于CFSA的軍事新聞文本時(shí)間信息處理算法[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,50(1): 9-16.
[15] 李君嬋,譚紅葉,王風(fēng)娥.中文時(shí)間表達(dá)式及類型識(shí)別[J],計(jì)算機(jī)科學(xué),2012,39(11A): 191-194,211.
[16] 鄔桐,周雅倩,黃萱菁,等.自動(dòng)構(gòu)建時(shí)間基元規(guī)則庫(kù)的中文時(shí)間表達(dá)式識(shí)別.中文信息學(xué)報(bào)[J],2010,24(4): 3-10.
[17] 楊萍,侯宏旭,蔣玉鵬,等.基于雙語(yǔ)對(duì)齊的漢語(yǔ)-新蒙古文命名實(shí)體翻譯[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)學(xué)報(bào)),2016,52(1): 148-154.
[18] 王斯日古楞,斯琴圖,那順烏日?qǐng)D,等.漢蒙機(jī)器翻譯系統(tǒng)中量詞翻譯[J].中文信息學(xué)報(bào),2010,24(5): 92-95.
[19] 鄒樂(lè)琳,吐?tīng)柛ひ啦祭?,麥熱哈巴·艾力,?基于詞干提取的維吾爾語(yǔ)事件類時(shí)間短語(yǔ)識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2014,35(2): 625-630.
[20] 張磊,楊雅婷,米成剛,等.維吾爾語(yǔ)數(shù)詞類命名實(shí)體的識(shí)別與翻譯[J].計(jì)算機(jī)應(yīng)用與軟件,2015,32(8): 64-67.
[21] 孫德金.漢語(yǔ)語(yǔ)法教程[M].民族版.北京語(yǔ)言大學(xué)出版社.2012.
Research on Recognition and Translation of Chinese -Uyghur Time and Numeral and Quantifier
Ayiguli Halike1,2,Hasan Wumaier1,2,Tuergen Yibulayin1,2,Kahaerjiang Abiderexiti1,2,Maihemuti Maimaiti1,2
(1.School of Information Science and Engineering,Xinjiang University,Urumqi,Xinjiang 830046,China;2.Xinjiang Laboratory of Multi-Language Information Technology,Urumqi,Xinjiang 830046,China)
The Chinese-Uyghur statistical machine translation system for times, numerals and quantifiers generalization ability are relatively weak. This paper uses a corpus approach to mine and extract the Chinese times, numerals and quantifier, realizing context based ambiguous quantifier translation. Experimental results show that the proposed method achieves 93.23%, 90.15%, 96.55%, and 87.58% in F-measure for the translation of times, numerals, unambiguous quantifiers and ambiguous quantifiers.
times and numerals; unambiguous quantifiers; ambiguous quantifiers; translation rules;translation template
阿依古麗?哈力克(1991—),碩士,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理與機(jī)器翻譯。E-mail:1506867752@qq.com艾山?吾買爾(1981—),通信作者,副教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理與機(jī)器翻譯。E-mail:hasan1479@xju.edu.cn吐?tīng)柛?伊布拉音(1958—),教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、機(jī)器翻譯、軟件工程。E-mail:turgun@xju.edu.cn
1003-0077(2016)06-0190-11
2016-05-31 定稿日期: 2016-07-20
新疆多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室開放課題(2016D03023);國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展(973)計(jì)劃(2014CB340506);國(guó)家自然科學(xué)基金(61331011,61262060,61262061,61063026,61462083)
TP391
A