官卻多杰
(青海師范大學(xué)民族師范學(xué)院,青海共和,813000)
機(jī)器翻譯用藏文自動(dòng)分詞探究
官卻多杰
(青海師范大學(xué)民族師范學(xué)院,青海共和,813000)
針對(duì)藏漢機(jī)器翻譯過(guò)程中的藏文預(yù)處理,提出切分單元盡可能短語(yǔ)化,從而降低藏文分詞算法的復(fù)雜度。經(jīng)測(cè)試能有效提高藏漢機(jī)器翻譯的效果,符合藏漢機(jī)器翻譯源文預(yù)處理的需求。
機(jī)器翻譯;藏文;自動(dòng)分詞
在藏漢機(jī)器翻譯過(guò)程中,首先要對(duì)源文藏文部分進(jìn)行分詞預(yù)處理。源文切分粒度直接影響分詞算法的復(fù)雜度,單純意義的分詞算法將會(huì)以詞為單位進(jìn)行自動(dòng)切分,盡可能切分到最細(xì)小的詞語(yǔ)單元。但在藏漢機(jī)器翻譯時(shí),切分粒度太小則翻譯單元隨之增加,并且需要進(jìn)一步考慮這些細(xì)小的翻譯單元在目標(biāo)語(yǔ)言中的位置。由此可知,采用純粹的分詞算法進(jìn)行藏漢機(jī)器翻譯源文預(yù)處理,既增加了分詞算法的復(fù)雜度,又降低了藏漢機(jī)器翻譯的效率。本文提出在藏漢機(jī)器翻譯源文預(yù)處理時(shí),藏文分詞粒度盡可能短語(yǔ)化,與翻譯詞典中最長(zhǎng)的詞條匹配,減少翻譯單元和語(yǔ)序調(diào)整等額外的開(kāi)銷(xiāo),從而縮短預(yù)處理時(shí)間并有效提高藏漢機(jī)器翻譯的效率和質(zhì)量。
文章借鑒陳玉忠等人提出的基于格助詞和接續(xù)特征的書(shū)面藏文自動(dòng)分詞方案[1],首先對(duì)藏文進(jìn)行預(yù)處理,對(duì)文本中的非藏文部分進(jìn)行切分;其次,對(duì)純藏文部分進(jìn)行處理,根據(jù)藏文標(biāo)點(diǎn)符號(hào)和格助詞將上一步得到內(nèi)容進(jìn)行更加詳細(xì)的劃分;最后對(duì)切分中出現(xiàn)的歧義和未登錄詞進(jìn)行識(shí)別并及時(shí)處理,從而確保切分的準(zhǔn)確性,將所有的小段切分結(jié)果進(jìn)行重新組成,形成最后的輸出結(jié)果。
文章進(jìn)行分詞算法研究的主要目的是對(duì)藏漢機(jī)器翻譯中的源文部分進(jìn)行預(yù)處理工作,機(jī)器翻譯用藏文分詞算法不僅要盡可能多的認(rèn)詞,同時(shí)需要兼顧后續(xù)翻譯時(shí)能夠找到切分出的詞匯譯文,因此該分詞算法所用的詞典不能簡(jiǎn)單的考慮到分詞,同時(shí)也應(yīng)該充分考慮其收錄的詞匯是否具有譯文。考慮到這些因素,詞典收錄了《新編藏文字典》和《藏漢大辭典》的詞條,其中多數(shù)藏文詞匯都有相應(yīng)的漢文譯文。在進(jìn)行自動(dòng)分詞研究的過(guò)程中主要使用哈希表進(jìn)行詞典構(gòu)造。哈希表的元素查找速度不受表中元素個(gè)數(shù)的影響,元素查找速度較快。[2]
在保留與詞典匹配的最長(zhǎng)塊的前提下,依據(jù)藏文文法中各類(lèi)格助詞的特性和藏文標(biāo)點(diǎn)符號(hào)將純藏文文本進(jìn)行切分,對(duì)切分結(jié)果進(jìn)一步進(jìn)行消除切分歧義和識(shí)別未登錄詞的工作,得到更加精確的切分結(jié)果,從而避免機(jī)器翻譯中的錯(cuò)誤。
3.1 格助詞切分
對(duì)藏文進(jìn)行分詞的核心在于結(jié)合藏文字、詞、句各類(lèi)形式特征來(lái)確定格助詞及其接續(xù)特征規(guī)則的識(shí)別。因此,在進(jìn)行藏文分詞的過(guò)程中如何準(zhǔn)確的實(shí)現(xiàn)對(duì)格助詞劃分關(guān)系到分詞的最終效果。
表1 作格助詞添接規(guī)則
表2 屬格助詞添接規(guī)則
表3 正向最大匹配分詞過(guò)程
3.2 正向最大匹配分詞算法設(shè)計(jì)
利用詞典對(duì)藏文分詞時(shí)采用正向最大匹配方法,將被切分段從第一個(gè)音節(jié)開(kāi)始直到末尾都假設(shè)為詞在詞典中進(jìn)行查找,直至發(fā)現(xiàn)以該音節(jié)為起點(diǎn)的最長(zhǎng)詞然后切分,用同樣的思路將剩下部分進(jìn)一步進(jìn)行切分。在完成藏文分詞工作之后,還需要將所有切分的小段進(jìn)行重新組合。切分過(guò)程如表3所示,假如在進(jìn)行切分時(shí),需要進(jìn)行切分的文中的成詞詞條都沒(méi)有在詞典中收錄,就需要對(duì)表中所有的需要進(jìn)行查詢(xún)的詞條進(jìn)行查找,遍歷一次后確定沒(méi)有沒(méi)有匹配詞條,就將待切文本作為一塊。
在對(duì)藏文進(jìn)行分詞時(shí)經(jīng)常會(huì)遇到切分歧義和未登錄現(xiàn)象,這兩個(gè)問(wèn)題對(duì)藏文分詞的最終準(zhǔn)確性會(huì)產(chǎn)生影響。因此,在進(jìn)行藏文分詞時(shí),解決好歧義消除并對(duì)未登錄詞進(jìn)行自動(dòng)識(shí)別,對(duì)提高藏文分詞的準(zhǔn)確性有十分重要的作用。
4.1 歧義消除
切分歧義是漢語(yǔ)自動(dòng)分詞研究中的一大難題[4],藏文分詞中也同樣存在這樣的問(wèn)題,由于藏文詞也存在多義性,并且在詞與詞之間沒(méi)有自然切分的標(biāo)記,因此通過(guò)程序?qū)Σ匚奈谋具M(jìn)行自動(dòng)分詞,難免會(huì)出現(xiàn)歧義現(xiàn)象。
在對(duì)藏文文本進(jìn)行自動(dòng)分詞時(shí)經(jīng)常出現(xiàn)的歧義主要有交集歧義和組合型歧義兩種,如“”,可切分為“”或“”,又如“”,可被切分為“”或“”。在檢測(cè)到歧義的基礎(chǔ)上才能采取有效的措施消除歧義現(xiàn)象,使切分工作更加準(zhǔn)確。
文章在進(jìn)行研究的過(guò)程中通過(guò)正向最大匹配得到分詞的初步結(jié)果,在進(jìn)行分詞的過(guò)程中只通過(guò)正向最大匹配工作是無(wú)法確認(rèn)是否產(chǎn)生切分歧義的。故此為了及時(shí)發(fā)現(xiàn)并解決切分歧義問(wèn)題,在進(jìn)行正向最大匹配的基礎(chǔ)上還需要進(jìn)行一次逆向最大匹配,如果所得結(jié)果不一致則表明出現(xiàn)了切分歧義。這種方法主要應(yīng)用到交集型歧義現(xiàn)象檢測(cè)中,而對(duì)于組合型歧義則很難起到應(yīng)有的效果。為此,在進(jìn)行漢文分詞研究時(shí),使用正向最小匹配以及逆向最大匹配的方法,則不僅能對(duì)檢測(cè)交集型歧義字段起到有效作用,還能夠?qū)M合型歧義字段進(jìn)行有效識(shí)別[5]。而這種方法在藏文分詞中是否也能起到較好的效果需要進(jìn)一步驗(yàn)證。雖然在進(jìn)行實(shí)際切分時(shí),雙向匹配存在檢測(cè)盲區(qū),但是仍舊有比較高的切分歧義檢測(cè)能力并且是十分容易實(shí)現(xiàn)的。文章在藏文自動(dòng)分詞過(guò)程中,主要采用雙向匹配檢測(cè)切分時(shí)存在的歧義。
藏文切分歧義消除還目前沒(méi)有具有權(quán)威性的研究成果,采用何種方法檢測(cè)并解決在藏文分詞中出現(xiàn)的切分歧義,沒(méi)有系統(tǒng)的理論成果和方法進(jìn)行借鑒。文章在進(jìn)行研究的過(guò)程中,也只是對(duì)這一問(wèn)題進(jìn)行初步探討,通過(guò)對(duì)真實(shí)的藏文文本進(jìn)行多次測(cè)試,表明文章中經(jīng)過(guò)預(yù)處理以及分詞處理后所得到的分詞結(jié)果準(zhǔn)確率比較高,因此可以將其做為進(jìn)行藏漢機(jī)器翻譯時(shí)對(duì)藏文的預(yù)處理工具。文章在研究過(guò)程中沒(méi)有對(duì)歧義檢測(cè)以及如何消除歧義進(jìn)行進(jìn)一步深入的研究,而主要是借鑒了漢語(yǔ)在進(jìn)行自動(dòng)分詞中消除歧義以及檢測(cè)歧義的方法,對(duì)藏文進(jìn)行自動(dòng)分詞時(shí)出現(xiàn)的歧義進(jìn)行參照性設(shè)想。至于能否講漢語(yǔ)自動(dòng)分詞中消解歧義所使用的方法直接引入藏文自動(dòng)分詞歧義消解的過(guò)程中,還需要進(jìn)行跟進(jìn)一步的研究和論證工作。
4.2 未登錄詞處理
在進(jìn)行自動(dòng)分詞時(shí),如果存在沒(méi)有收錄的詞匯,就必定會(huì)出現(xiàn)不能夠識(shí)別的詞匯,這些詞匯指的就是未登錄詞。在漢文自動(dòng)分詞研究中對(duì)未登錄的術(shù)語(yǔ)詞,利用大規(guī)模語(yǔ)料提煉出N元漢字串的分布由機(jī)器自動(dòng)生成候選表,在此基礎(chǔ)上通過(guò)人工選出新詞并添加到詞表中,再通過(guò)詞典對(duì)未登錄詞匯進(jìn)行識(shí)別。在處理沒(méi)有登錄的專(zhuān)有名詞時(shí),首先按專(zhuān)有名詞庫(kù)中的統(tǒng)計(jì)知識(shí)以及歸納知識(shí)中的特定結(jié)構(gòu)規(guī)則,猜測(cè)可能成為專(zhuān)有名詞的漢字串并給出其置信度,之后使用對(duì)該給專(zhuān)有名詞表示意義的緊鄰上下文信息,以及全局統(tǒng)計(jì)量和局部統(tǒng)計(jì)量,進(jìn)行進(jìn)一步的鑒定[6]。
藏文分詞未登錄詞的識(shí)別需要不斷拓展和深入研究藏文詞頻信息、術(shù)語(yǔ)信息等的統(tǒng)計(jì)工作,并結(jié)合藏文自身的語(yǔ)法特征進(jìn)行識(shí)別。本文在進(jìn)行研究的過(guò)程中主要以探討的形式對(duì)藏文自動(dòng)分詞的過(guò)程中出現(xiàn)的歧義現(xiàn)象進(jìn)行嘗試性消除,并且在這個(gè)過(guò)程中對(duì)未登錄詞進(jìn)行了簡(jiǎn)單的處理,實(shí)踐證明本文中未登錄詞的識(shí)別方法有一定實(shí)際作用。
在文章進(jìn)行研究的過(guò)程中充分借鑒了前人的研究成果,根據(jù)藏文文法的獨(dú)特特點(diǎn),設(shè)計(jì)并實(shí)現(xiàn)了切分精度較高的藏文自動(dòng)分詞算法,實(shí)踐證明文章提出的藏文自動(dòng)分詞方法具有一定的實(shí)用性,這為進(jìn)行藏漢機(jī)器翻譯源文預(yù)處理提供了技術(shù)上的保障。
[1]陳玉忠,李保利,俞士汶,蘭措吉.基于格助詞和連續(xù)特征的藏文自動(dòng)分詞方案.語(yǔ)言文字應(yīng)用,2003,1:75-82
[2]雍俊海. Java程序設(shè)計(jì)教程.北京:清華大學(xué)出版社.2007:148-149
[3]才智杰.藏文自動(dòng)分詞系統(tǒng)中緊縮詞的識(shí)別.中文信息學(xué)報(bào),2009,23(1):35-37
[4]孫茂松,鄒嘉彥.漢語(yǔ)自動(dòng)分詞研究評(píng)述.當(dāng)代語(yǔ)言學(xué),2001,3(1):22-32
[5]苗奪謙,衛(wèi)志華.中文文本信息處理的原理與應(yīng)用.北京:清華大學(xué)出版社,2007:34-37
[6]孫茂松,鄒嘉彥.漢語(yǔ)自動(dòng)分詞研究評(píng)述.當(dāng)代語(yǔ)言學(xué),2001,3(1):22-32.
Research on Tibetan Segmentation for Machine Translation
Guan Queduojie
(National Normal College of Qinghai Normal University,Qinghai Gonghe,810008)
According to the Tibetan and Chinese Machine Translation pretreatment process, put forward phrases as segmentation unit, so as to reduce the complexity of the Tibetan word segmentation algorithm. The test can improve the effect of Tibetan and Chinese Machine Translation effectively, meet Tibetan and Chinese Machine Translation source text pretreatment requirements.
Machine Translation;Tibetan;segmentation
TP391
A