王斯日古楞,斯琴圖,那順烏日圖
(1. 內(nèi)蒙古師范大學(xué) 計算機與信息工程學(xué)院,內(nèi)蒙古 呼和浩特 010022;2. 內(nèi)蒙古師范大學(xué) 網(wǎng)絡(luò)中心,內(nèi)蒙古 呼和浩特 010022; 3. 內(nèi)蒙古大學(xué) 蒙古學(xué)學(xué)院, 內(nèi)蒙古 呼和浩特 010021)
關(guān)于漢蒙機器翻譯,我們曾經(jīng)做過基于規(guī)則的研究[1],基于實例的研究[2]和基于短語的統(tǒng)計方法研究[3]。漢語和蒙古語的語序有較大的差別,在基于短語的漢蒙統(tǒng)計機器翻譯系統(tǒng)中,我們發(fā)現(xiàn)存在大量的語序錯誤。在基于短語的統(tǒng)計機器翻譯系統(tǒng)的具體翻譯結(jié)果中,對于兩種語言中語序相同的句子,翻譯效果較好。例如:
(1) 輸入:這張匯款單,在哪里取款?
輸出:ENE MONGGO G0BIGVLHV HAGVDASV,HAMIG_A J0G0S GARGAJV ABHV BVI ?
(2) 輸入:今天天氣怎么樣?
輸出:ONODOR-UN CAG AGVR-VN BAYIDAL YAMAR BVI ?
可見,以上兩個句子中漢語和蒙古語句子語序基本上一樣,翻譯效果還不錯。但是,對于那些語序不同的句子,翻譯結(jié)果就沒那么理想了,會出現(xiàn)大量的語序錯誤。例如:
(1) 輸入:我想?yún)⒓右粋€旅游團。
輸出:BI 0R0LCAY_A GEJU B0D0JV NIGEN JIGVLCILAL-VN BOLHOM .
(2) 輸入:我沒有湯匙。
輸出:UGEI BI NIGE HALBAG_A .
對于這兩個譯文,我們是沒法接受的。其主要原因是譯文語序不符合蒙古語句子的語序。這是由于漢蒙兩種語言的語序差異較大,基于短語的翻譯模型只能解決一些局部語序的調(diào)整。因此,我們考慮使用句法規(guī)則,在漢蒙統(tǒng)計機器翻譯系統(tǒng)中進行調(diào)序。本文提出了基于蒙古語語序的漢語句子調(diào)序方法,此調(diào)序方法對基于短語的漢蒙統(tǒng)計機器翻譯系統(tǒng)的NIST和BLUE值都有明顯的提高。
基于短語的統(tǒng)計機器翻譯只解決了短距離的局部調(diào)序,為了解決長距離調(diào)序,研究人員開始使用基于句法的調(diào)序方法。隨著統(tǒng)計機器翻譯技術(shù)的發(fā)展,基于句法的統(tǒng)計機器翻譯已經(jīng)成為近幾年的研究熱點?;诰浞ǖ慕y(tǒng)計方法將句法信息引入翻譯中,以句法結(jié)構(gòu)作為翻譯單元,建立結(jié)構(gòu)之間的互譯關(guān)系。在基于句法的模型中,結(jié)構(gòu)之間的互譯關(guān)系是通過翻譯規(guī)則聯(lián)系起來的,這些規(guī)則可以從平行語料庫中自動獲取,也可以通過人工進行歸納總結(jié)。
文獻[4]和[5]都在源語言預(yù)處理階段使用了語言學(xué)句法分析。文獻[4]中的規(guī)則是對雙語語料的學(xué)習(xí)后得到的,在英語到法語的機器翻譯系統(tǒng)實驗中BLEU值提高了10%。文獻[5]中對于德語到英語的翻譯,根據(jù)語言學(xué)知識總結(jié)出六種德語子句到英語的調(diào)序規(guī)則。文獻[6]提出了一種將句法分析和基于短語的統(tǒng)計機器翻譯的優(yōu)點結(jié)合起來進行調(diào)序的概率方法,對于給定的句子及其句法樹,通過樹操作生成調(diào)序后的n_best作為基于短語統(tǒng)計解碼器的輸入,此方法在漢語到英語的翻譯實驗中BLEU值提高了1.56%。
我們在基于短語的漢蒙統(tǒng)計機器翻譯系統(tǒng)中提出基于蒙古語語序的漢語句子調(diào)序策略。主要方法是對于輸入的漢語句子先進行分詞和詞性標(biāo)注,之后對句法樹進行分析,根據(jù)調(diào)序規(guī)則對需要調(diào)序的部分進行調(diào)序,使得漢語句子的語序盡量接近蒙古語句子的順序,最后將調(diào)序后的漢語句子送到統(tǒng)計解碼器進行單調(diào)解碼?;玖鞒倘鐖D1所示。
圖1 融入調(diào)序模型的系統(tǒng)流程
在漢蒙機器翻譯系統(tǒng)中,對漢語的分析是前提。為了進行調(diào)序,首先要對漢語句子進行分詞和句法分析,我們選擇了中國科學(xué)院計算技術(shù)研究所的網(wǎng)上資源ICTCLAS和ICTPROP。
ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)是中國科學(xué)院計算技術(shù)研究所研制的漢語詞法分析系統(tǒng),作者采用一種基于層疊隱馬模型的漢語詞法分析方法[7],目前已經(jīng)升級到了ICTCLAS3.0,我們使用了免費的ICTCLAS1.0,對漢語句子進行分詞和詞性標(biāo)注。ICTPROP是中國科學(xué)院計算技術(shù)研究所開發(fā)的一個概率型的自然語言句法分析器[8]。ICTPROP 的分析算法是綜合了多種優(yōu)化策略的改進型chart分析算法, 分析結(jié)果是概率最大的一棵分析樹。我們使用ICTPROP對漢語句子進行句法分析。
在具體實驗過程中,漢語句法分析器對于較長的漢語句子分析成功率較低。為了提高句法分析器的成功率,我們首先將漢語句子分解成子句,然后對每個子句進行分析和調(diào)序,最后將調(diào)序后的各個子句按照順序合并成一個句子。一般,漢語句子翻譯成蒙古語后,各個子句的順序是不會改變的,所以這種做法不會影響整個句子的翻譯結(jié)果。我們通過漢語句子中出現(xiàn)的逗號(,)、分號(;)、冒號(:)、感嘆號(!),問號(?)和句號(。)等將漢語句子切分為子句。子句調(diào)序的依據(jù)是漢蒙句子轉(zhuǎn)換規(guī)則,因此我們首先對漢蒙句子轉(zhuǎn)換規(guī)則進行了研究,從中總結(jié)歸納出了具有語序變化的規(guī)則,然后編寫了子句調(diào)序模塊。下面詳細介紹調(diào)序規(guī)則和調(diào)序算法。
我們把漢語句法規(guī)則分為兩部分,一部分是與蒙古語語序相同的,另一部分是與蒙古語語序不同的。我們只考察那些語序不同的規(guī)則,給出相應(yīng)的變換形式。
規(guī)則格式定義為:
其中:X為源語言漢語的短語結(jié)構(gòu)句法規(guī)則,對應(yīng)漢語的正確語序,我們將其稱為分析規(guī)則,即漢語句法分析規(guī)則;Y是漢語規(guī)則中的每個語法成分對應(yīng)到蒙古語時的順序和成分,即調(diào)序部分,我們稱其為調(diào)序規(guī)則。Z是限制條件,指出用此規(guī)則調(diào)序時,對某個語法成分可設(shè)置單詞限制條件。條件部分是可選的,即可以有,可以沒有。
分析規(guī)則X的形式為:α->β
其中α為規(guī)則的左部,是一個漢語短語標(biāo)記(見表1)。β是規(guī)則的右部,由一個或多個標(biāo)記組成,標(biāo)記可以是短語標(biāo)記,也可以是詞性標(biāo)記(見表2),各個標(biāo)記之間以一個空格分割。
表1 概率句法分析器中的句子、短語標(biāo)記及其對應(yīng)規(guī)則數(shù)
調(diào)序規(guī)則Y的形式為:A(γ1γ2……),其中A表示規(guī)則中左部漢語短語標(biāo)記對應(yīng)的蒙古語短語標(biāo)記,每個γi表示一個替換項或一個插入成分。替換項的形式為B/C, 含義是分析規(guī)則中的漢語語法成分C在蒙古語中對應(yīng)語法成分為B,B是蒙古語的詞類或短語標(biāo)記(見表3),C為漢語的詞類或短語標(biāo)記。插入成分形式為D,D為蒙古語的詞類或短語標(biāo)記,S表示蒙古語的一個單詞或附加成分,含義是用這個規(guī)則調(diào)序時,在此位置要插入S。
限制條件Z是單詞限制條件,格式:C=S 或C!=S,用來指出某個分析規(guī)則中的語法成分對應(yīng)的單詞與S中給出的一個或多個單詞相等或不等。
表2 漢語詞性標(biāo)記集
表3 蒙古語詞類標(biāo)記集
例如:vp->vp np=>VP(NP/np VP/vp)$vp!=是
分析規(guī)則X為:vp->vp np ,表示漢語的vp由一個vp 后跟一個np組成。
調(diào)序規(guī)則Y為:VP(NP/np VP/vp),表示漢語的動詞短語對應(yīng)到蒙古語時也是動詞短語VP,此VP由NP后跟VP構(gòu)成,NP對應(yīng)分析規(guī)則的np, VP對應(yīng)分析規(guī)則的vp,可見語序是不同的。
限制條件Z:vp!=是,表示使用此規(guī)則調(diào)序時,分析規(guī)則右邊的vp對應(yīng)的單詞不等于“是”。
漢語短語標(biāo)記使用了漢語概率句法分析器中的短語標(biāo)記集,見表1。漢語詞語用ICTCLAS進行詞性標(biāo)注時選擇了北大標(biāo)記集,即在《現(xiàn)代漢語語法信息詞典詳解》[9]中規(guī)定的漢語詞性標(biāo)記集,見表2,共26個標(biāo)記。
蒙古語的詞類標(biāo)記使用了在2008年11月通過的《信息處理用蒙古文詞語標(biāo)記集》國家標(biāo)準(zhǔn)[10]。其中一級標(biāo)記集規(guī)定了25個標(biāo)記,見表3。
對于蒙古語短語,在《蒙古語語法信息詞典框架設(shè)計》[11]中把蒙古語短語分為名詞短語(NP)、形容詞短語(AP)、動詞短語(VP)、代詞短語(RP)、數(shù)詞短語(MCP)、數(shù)量詞短語(MP)、方位詞短語(OP)、時間詞短語(TP)、副詞短語(DP)、后置詞短語(GP)等10 種,同時根據(jù)實際需要,我們參考了文獻[12]和[13],將主謂短語(DJ)、語氣詞短語(SP)和情態(tài)詞短語(XP)等都放到蒙古語的短語標(biāo)注集中,共有13個蒙古語短語標(biāo)記。
確定規(guī)則格式和標(biāo)記集后,我們構(gòu)造了基于蒙古語語序的漢語句子調(diào)序規(guī)則。我們在漢語分詞、詞性標(biāo)注和句法分析的基礎(chǔ)上,對如何將一個漢語句子的短語結(jié)構(gòu)樹轉(zhuǎn)換成相應(yīng)的蒙古語語法樹進行了研究,進一步從中歸納出12條具有語序變化的轉(zhuǎn)換規(guī)則,把這部分規(guī)則我們稱之為漢蒙調(diào)序規(guī)則,包括7條動詞短語調(diào)序規(guī)則,3條介詞短語調(diào)序規(guī)則和2條主謂短語的調(diào)序規(guī)則,在文獻[14]中給出了詳細說明。
根據(jù)調(diào)序規(guī)則,我們設(shè)計了調(diào)序算法,編寫了調(diào)序程序。程序主要把以文件形式的規(guī)則轉(zhuǎn)換成線性表的形式,同時為了便于調(diào)序?qū)⒏怕示浞ǚ治銎鞯姆治鼋Y(jié)果樹轉(zhuǎn)換成二叉樹的形式,最后進行具體調(diào)序。調(diào)序算法的基本流程為:(1) 根據(jù)規(guī)則文件,建立相應(yīng)規(guī)則數(shù)據(jù)表;(2) 根據(jù)規(guī)則對帶詞性標(biāo)記的句子調(diào)序;(3) 釋放申請的資源;
其中(1)和(2)對應(yīng)初始化模塊和調(diào)序模塊。
初始化模塊主要把文本文件形式的調(diào)序規(guī)則轉(zhuǎn)換成線性表數(shù)據(jù)結(jié)構(gòu),以便分析處理。初始化模塊算法流程如下:
打開規(guī)則文件
規(guī)則序號I=0;
WHILE(規(guī)則文件不結(jié)束)
{
讀入一條規(guī)則;
原始字符串規(guī)則列表后面插入規(guī)則;
從原始字符串規(guī)則分離出左邊規(guī)則;
將〈左邊規(guī)則,編號I〉對應(yīng)到關(guān)系映射MAP;
分離右邊規(guī)則;
分析規(guī)則,建立反應(yīng)左邊規(guī)則變換成右邊規(guī)則的conv_node數(shù)組;
建立調(diào)序規(guī)則線性表conv_list;
I++;}
調(diào)序模塊首先將漢語概率句法分析程序的結(jié)果樹用孩子兄弟表示法轉(zhuǎn)換成一棵二叉樹,然后通過二叉樹進行語序調(diào)序。調(diào)序時使用了后序遍歷的遞歸算法。后序遍歷的遞歸算法如下:
Conv_tree(struct_mynode *root)
{ Conv_tree(root.child)
Conv_tree(root.brother)
if(root->child != NULL)
{獲取當(dāng)前規(guī)則左部;
獲取當(dāng)前規(guī)則右部;
從rulenum查找當(dāng)前規(guī)則,得到編號I;
根據(jù)編號從調(diào)序規(guī)則表CONV_LIST中查找對應(yīng)調(diào)序規(guī)則;
如果找到,則根據(jù)調(diào)序規(guī)則進行調(diào)序;}
}
我們將調(diào)序程序嵌入到統(tǒng)計機器翻譯系統(tǒng)中,以開關(guān)形式選擇是否進行調(diào)序。調(diào)序模塊與統(tǒng)計解碼器相互獨立,互不影響。
實驗語料我們使用了CWMT2009 漢蒙評測語料,實驗語料規(guī)模如表4所示,開發(fā)集和測試集上的實驗結(jié)果如表5所示。其中:baseline系統(tǒng)[3]是基于短語的漢蒙統(tǒng)計機器翻譯系統(tǒng);QF表示對訓(xùn)練語料進行了形態(tài)切分; JF:表示進行了句法調(diào)序。
表4 實驗語料說明
從表5中我們可以看到,形態(tài)切分對于系統(tǒng)性能的提高是非常明顯的。同時,調(diào)序規(guī)則對于在開發(fā)集和測試集上的性能都有一定的提高。在開發(fā)集實驗中, BLEU值在形態(tài)切分后提高了1.06%,調(diào)序后提高了2.07%。在測試集實驗中,切分后BLEU值提高了 1.84%,在切分的基礎(chǔ)上進行調(diào)序后BLEU值又提高了0.37%。
表5 開發(fā)集和測試上的實驗結(jié)果
為了測試句法調(diào)序模塊的真正作用,我們通過人工分析,從開發(fā)集和測試集中將詞法和句法分析錯誤的句子去掉,從400個句子的開發(fā)集中挑出了261個漢語分析正確的,從400個句子的測試集中挑出了244個漢語分析正確的句子進了實驗,實驗結(jié)果如表6所示。表6給出的實驗結(jié)果顯示,在語言模型和短語表相同的情況下,我們看到在基于短語的漢蒙統(tǒng)計機器翻譯中,使用詞法和句法等語言學(xué)知識能夠提高系統(tǒng)性能。在開發(fā)集實驗中,BLEU值切分后提高了0.27%,調(diào)序后提高了3.59%。在測試集實驗中,切分后BLEU值提高了2.15%,在切分的基礎(chǔ)上進行調(diào)序后BLEU值提高了0.65%。
表6 過濾后開發(fā)集和測試上的實驗結(jié)果
下面是加入調(diào)序模塊后的系統(tǒng)運行過程及翻譯結(jié)果實例。
輸入:我想?yún)⒓右粋€旅游團。
分詞之前: 我想?yún)⒓右粋€旅游團。
分詞之后: 我/r 想/v 參加/v 一個/m 旅游團/n 。/w
調(diào)序之后: 我/r 一個/m 旅游團/n 參加/v 想/v 。/w
使用的規(guī)則: vp->vp np=>VP(NP/np VP/vp)$vp!=是
使用的規(guī)則: vp->vp vp=>VP(VP//vp VP/vp)
去掉標(biāo)記后: 我 一個 旅游團 參加 想 。
譯文2: BI NIGE JIGVLCILAL-VN BOLHOM-DU 0R0LCAHV GEJU B0D0JV BAYIN_A .
實驗結(jié)果顯示對于語序差異較大的漢語和蒙古語,基于蒙古語語序的漢語句子調(diào)序方法對于系統(tǒng)性能的提高相當(dāng)有效。下一步,我們將不斷地完善調(diào)序規(guī)則,擴大語料庫規(guī)模,進一步提高基于短語的漢蒙統(tǒng)計機器翻譯系統(tǒng)的性能。
[1] 那順烏日圖,劉群,巴達瑪放德斯?fàn)?關(guān)于漢蒙機器輔助翻譯系統(tǒng)[J].阿爾泰學(xué)報,2001:91-95.
[2] 侯宏旭,劉群,那順烏日圖.基于實例的漢蒙機器翻譯[J].中文信息學(xué)報,2007,21(4):65-72.
[3] 王斯日古楞,斯琴圖,那順烏日圖.基于短語的漢蒙統(tǒng)計機器翻譯研究[J],計算機工程與應(yīng)用,2010,(5):138-142.
[4] Fei Xia, and Michael McCord 2004. Improving a Statistical MT System with Automatically Learned Rewrite Patterns[C]//Proceedings for COLING 2004.
[5] Michael Collins, Philipp Koehn, and Ivona Kucerova.2005. Clause Restructuring for Statistical MachineTranslation[C]//Proceedings for ACL 2005.
[6] Chi-Ho Li, Dongdong Zhang, Mu Li, Ming Zhou, Minghui Li, Yi Guan,A Probabilistic Approach to Syntax-based Reordering for Statistical Machine Translation[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, Prague, Czech Republic, June, 2007:720-727.
[7] 劉群,張華平,俞鴻魁,等,基于層疊隱馬模型的漢語詞法分析[J].計算機研究與發(fā)展,2004,41(8):1421-1429.
[8] 張浩,劉群,白碩.結(jié)構(gòu)上下文相關(guān)的概率句法分析[C]//第一屆學(xué)生計算語言學(xué)研討會(SWCL2002)2002.
[9] 俞士汶,等.現(xiàn)代漢語語法信息詞典詳解[M].北京:清華大學(xué)出版社,1998年.
[10] 那順烏日圖,等.《信息技術(shù) 信息處理用蒙古文詞語標(biāo)記集》國家標(biāo)準(zhǔn)[S].2008年11月.
[11] 那順烏日圖.蒙古語語法信息詞典框架設(shè)計[D].內(nèi)蒙古大學(xué),2000年博士學(xué)位論文.
[12] 巴達瑪敖德斯?fàn)?面向機器翻譯的漢蒙短語轉(zhuǎn)換規(guī)則研究[M].呼和浩特:內(nèi)蒙古教育出版社,2006年3月.
[13] 達胡白乙拉.蒙古語基本動詞短語自動識別研究[D]. 呼和浩特:內(nèi)蒙古大學(xué), 2005年博士學(xué)位論文.
[14] Wang.Siriguleng,Siqintu and Nasun-urtu. The research on reordering rule of Chinese-Mongolian statistical machine translation[J]. Advanced Materials Research Vols,268-270(2011): 2185-2190.