于俊婷, 何宏業(yè), 劉伍穎, 易綿竹
(1.洛陽(yáng)外國(guó)語(yǔ)學(xué)院 語(yǔ)言工程系 河南 洛陽(yáng) 471003; 2.廣東外語(yǔ)外貿(mào)大學(xué) 語(yǔ)言工程與計(jì)算實(shí)驗(yàn)室 廣東 廣州 510420)
基于同義詞詞林的平滑BLEU研究
于俊婷1, 何宏業(yè)1, 劉伍穎2, 易綿竹1
(1.洛陽(yáng)外國(guó)語(yǔ)學(xué)院 語(yǔ)言工程系 河南 洛陽(yáng) 471003; 2.廣東外語(yǔ)外貿(mào)大學(xué) 語(yǔ)言工程與計(jì)算實(shí)驗(yàn)室 廣東 廣州 510420)
基于同義詞詞林提出一種語(yǔ)義空間變換算法,并將其應(yīng)用于平滑BLEU中,提出一種改進(jìn)的基于同義詞詞林的BLEUS評(píng)測(cè)方法,該方法針對(duì)候選譯文中短譯文或英文縮寫可能導(dǎo)致一元語(yǔ)法零匹配的情況,對(duì)傳統(tǒng)BLEUS的n元語(yǔ)法均進(jìn)行了平滑處理,并且以參考譯文的一元語(yǔ)法為標(biāo)準(zhǔn),對(duì)候選譯文進(jìn)行語(yǔ)義空間變換.在俄漢雙語(yǔ)句子數(shù)據(jù)集上對(duì)谷歌、百度、必應(yīng)、有道在線翻譯系統(tǒng)的俄漢翻譯輸出譯文進(jìn)行評(píng)測(cè),改進(jìn)方法與傳統(tǒng)BLEUS的評(píng)測(cè)結(jié)果一致;基于同義詞詞林的BLEUS提升傳統(tǒng)BLEUS的評(píng)測(cè)性能,使得百度的NBLEUS值提高了3.99%,谷歌提高了7.66%,必應(yīng)提高了11.15%,有道提高了4.65%.與此同時(shí),驗(yàn)證了基于同一類型評(píng)測(cè)方法的縱向比較方法的有效性.
同義詞詞林; BLEUS; BLEUS-syn; 評(píng)測(cè)
機(jī)器翻譯系統(tǒng)評(píng)測(cè)通常指對(duì)給定翻譯系統(tǒng)生成的譯文質(zhì)量進(jìn)行量化評(píng)測(cè).國(guó)家語(yǔ)言文字工作委員會(huì)發(fā)布的《語(yǔ)言文字規(guī)范》中規(guī)定[1]:機(jī)器翻譯系統(tǒng)的語(yǔ)言文字評(píng)測(cè)主要有人工評(píng)測(cè)和自動(dòng)評(píng)測(cè)兩類.其中人工評(píng)測(cè)主要是由語(yǔ)言專家主觀地對(duì)系統(tǒng)輸出譯文的忠實(shí)度和流利度進(jìn)行打分,主觀性強(qiáng),受外界因素影響比較大,代價(jià)高昂.研究者更傾向于使用自動(dòng)評(píng)測(cè)對(duì)系統(tǒng)譯文進(jìn)行量化評(píng)測(cè).
自動(dòng)評(píng)測(cè)方法一般可以分為3類:基于語(yǔ)言學(xué)檢測(cè)點(diǎn)的方法[2]、基于字符串相似度的方法[3]、基于機(jī)器學(xué)習(xí)的方法.基于字符串相似度的方法成為目前單一指標(biāo)評(píng)測(cè)中應(yīng)用最為廣泛的評(píng)測(cè)方法,其中應(yīng)用最為成熟、廣泛的是2002年P(guān)apineni等人提出的BLEU;隨后針對(duì)BLEU無(wú)法應(yīng)用于句子級(jí)評(píng)測(cè)、不考慮召回率等問題,研究者們進(jìn)行了大量的改進(jìn)研究:最為著名的且應(yīng)用較為廣泛的是文獻(xiàn)[4]提出的平滑BLEU(BLEUS)以及ROUGE-N系列[5]評(píng)測(cè)方法,還有基于詞對(duì)齊的METEOR[6]評(píng)測(cè)方法.
面向漢語(yǔ)可供選擇的語(yǔ)義資源有很多,同義詞詞林作為一部漢語(yǔ)語(yǔ)義類詞典,具有明確的同義詞集合,更適合同義詞匹配的應(yīng)用.語(yǔ)言表達(dá)具有多樣性,信息處理的難度增加,將同義詞詞林應(yīng)用于自動(dòng)評(píng)測(cè)方法,可以改善其性能.本文提出一種基于同義詞詞林[7]的語(yǔ)義空間變換算法,并將其應(yīng)用于平滑BLEU方法,在BLEUS平滑技術(shù)[8]中除了精確詞形匹配,還加入基于同義詞詞林的同義詞匹配,可以彌補(bǔ)系統(tǒng)只有一個(gè)參考譯文的缺陷,增加候選譯文和參考譯文相似度,以此提高BLEUS評(píng)測(cè)性能.
1.1 平滑BLEU介紹
2004年,Lin等[4]首次提出平滑BLEU(BLEUS),即當(dāng)n>1時(shí),對(duì)匹配的n元語(yǔ)法個(gè)數(shù)和總的n元語(yǔ)法個(gè)數(shù)分別加1,以保證候選譯文不足n個(gè)詞時(shí)依然可以得到正的BLEUS值.
但是當(dāng)漢語(yǔ)譯文經(jīng)過分詞之后對(duì)候選譯文和參考譯文進(jìn)行詞語(yǔ)級(jí)n元語(yǔ)法匹配時(shí),由于中文分詞器分詞粒度、譯文表達(dá)的缺省等原因,有可能會(huì)出現(xiàn)整個(gè)譯文較短被分成一個(gè)詞語(yǔ)或者源語(yǔ)言句子被翻譯成英文縮略語(yǔ)的情況;再者為保持n元語(yǔ)法準(zhǔn)確率的一致性,對(duì)所有的n元語(yǔ)法均采用加1平滑處理.
1.2 基于同義詞詞林的語(yǔ)義空間變換算法
機(jī)器翻譯實(shí)際上就是對(duì)“同一語(yǔ)義”的不同編碼[9],其核心內(nèi)容是相同的,只是形式不同.由于語(yǔ)言表達(dá)的多樣化,信息處理的難度逐漸增加,不同系統(tǒng)對(duì)于相同內(nèi)容的翻譯會(huì)呈現(xiàn)出不同的表現(xiàn)方式,語(yǔ)義分析和同義詞替換對(duì)于機(jī)器翻譯評(píng)測(cè)有著很重要的作用.同義詞詞林具有明確的同義詞集合,能夠很好地提高候選譯文和參考譯文的匹配程度,而且不會(huì)影響譯文的可讀性.故本文提出一種基于同義詞詞林的語(yǔ)義空間變換(semantic space transformation, SST)算法,對(duì)BLEUS進(jìn)行改進(jìn)優(yōu)化.
1.2.1 同義詞詞林簡(jiǎn)介
圖1 同義詞詞林樹狀層次體系圖Fig.1 Cilin tree hierarchy
同義詞詞林是由梅家駒等學(xué)者編纂的一部對(duì)漢語(yǔ)詞匯按語(yǔ)義全面分類的義類詞典,最終詞表包含77 343條詞語(yǔ)[10],其語(yǔ)義分類圖如圖1所示.其中包括:詞語(yǔ)的同義詞、相關(guān)詞和獨(dú)立詞[11].義項(xiàng)是描寫詞義的最小單位,所有義項(xiàng)構(gòu)成一個(gè)大的樹狀層次體系,并采用一個(gè)虛擬節(jié)點(diǎn)O將所有樹連接起來,只有葉節(jié)點(diǎn)是相同或相似或獨(dú)立的詞的集合.
1.2.2 同義詞詞林編碼體系改進(jìn)
為了便于計(jì)算,本文采用6級(jí)編碼體系,對(duì)每一級(jí)采用二位十進(jìn)制數(shù)編碼,其中英文字母按照順序編碼,比如“A”或者“a”用01代替,“B”或者“b”用02代替,依次順延;最后兩位我們稱為“標(biāo)記位”,為新的編碼體系中的第6級(jí),“=”用01代替,“#”用02代替,“@”用03代替.新的編碼體系采用十二位十進(jìn)制數(shù)編碼,從根節(jié)點(diǎn)開始向右一直追溯到葉節(jié)點(diǎn),如表1所示,則“Da15B02#”的新編碼為“040115020202”.
表1 改進(jìn)的《同義詞詞林》二位數(shù)編碼體系表
1.2.3 基于同義詞詞林的語(yǔ)義空間變換算法
語(yǔ)義空間變換(SST)算法主要是基于參考譯文的一元語(yǔ)法進(jìn)行的,對(duì)候選譯文和參考譯文進(jìn)行匹配構(gòu)成映射時(shí),首先進(jìn)行精確詞形匹配,然后進(jìn)行基于同義詞詞林的同義詞匹配,二者順序無(wú)重疊地進(jìn)行.語(yǔ)義空間變換算法主要包含兩個(gè)main函數(shù):isSynonym和sst,其偽代碼如圖2所示.
圖2 SST算法偽代碼
當(dāng)輸入詞語(yǔ)content1和content2時(shí),isSynonym函數(shù)啟動(dòng):1) 假如兩個(gè)詞語(yǔ)均不在同義詞詞林中,但是詞形相同,則返回index=1;2) 利用getCodesByContent函數(shù)從“同義詞詞林.xls”文件中分別提取content1和content2的十二位編碼集合code1和code2,因?yàn)橥x詞詞林中每個(gè)詞語(yǔ)可能有多個(gè)義項(xiàng),故每個(gè)詞語(yǔ)的編碼集合可能對(duì)應(yīng)有多個(gè)編碼,假如兩編碼集合中有相同的編碼,則返回index=1.index=1表示這兩個(gè)詞語(yǔ)content1和content2詞形相同或者是同義詞,可以互相匹配.
當(dāng)sst函數(shù)啟動(dòng)時(shí),以參考譯文中的一元語(yǔ)法為標(biāo)準(zhǔn),對(duì)候選譯文實(shí)施語(yǔ)義空間變換:1) 將分詞后的參考譯文ref取一元語(yǔ)法后存入動(dòng)態(tài)數(shù)組al1,進(jìn)行去重后存入數(shù)組arr[],分詞后的候選譯文candi取一元語(yǔ)法后存入動(dòng)態(tài)數(shù)組al2;2) 數(shù)組arr[]中的元素content與動(dòng)態(tài)數(shù)組al2中的一元組content2進(jìn)行isSynonym函數(shù)求值為1時(shí),利用arr[]數(shù)組中的該元素content替換al2中對(duì)應(yīng)的一元組content2,并將進(jìn)行語(yǔ)義空間變換后的候選譯文重新存入新的動(dòng)態(tài)數(shù)組并轉(zhuǎn)化為字符串型動(dòng)態(tài)數(shù)組seg22以備后續(xù)使用;3) 其中CHIsegment函數(shù)為分詞函數(shù),將譯文進(jìn)行分詞,ngram函數(shù)將分詞后的譯文取其一元語(yǔ)法.
語(yǔ)義空間變換算法,以參考譯文一元語(yǔ)法為標(biāo)準(zhǔn),基于同義詞詞林對(duì)候選譯文中的一元語(yǔ)法進(jìn)行同義詞替換,在不破壞機(jī)器翻譯系統(tǒng)輸出候選譯文可讀性的前提下,增加了譯文之間的相似度,提高了自動(dòng)評(píng)測(cè)方法的整體性能.
1.3 基于同義詞詞林的BLEUS
漢語(yǔ)語(yǔ)言文化豐富多樣,同一意義可以有不同的表達(dá)形式,尤其是在自動(dòng)評(píng)測(cè)機(jī)器翻譯系統(tǒng)譯文質(zhì)量時(shí),基于同義詞詞林的語(yǔ)義空間變換算法的引入,能有效提高自動(dòng)評(píng)測(cè)指標(biāo)的匹配性能.本節(jié)提出一種基于同義詞詞林的BLEUS自動(dòng)評(píng)測(cè)指標(biāo).
給定一個(gè)參考譯文r和一個(gè)候選譯文c,基于參考譯文中的一元語(yǔ)法進(jìn)行語(yǔ)義空間變換,假設(shè)候選譯文和參考譯文相匹配的一元語(yǔ)法數(shù)目為m1.1) 精確詞形匹配:以參考譯文為標(biāo)準(zhǔn),在進(jìn)行候選譯文中的一元語(yǔ)法Wc與參考譯文中的一元語(yǔ)法Wr匹配過程中,如果詞形完全相同,則可以匹配成功,m1加1;2) 同義詞匹配:如果詞形不同,則進(jìn)行同義詞匹配,如果Wc和Wr是同義詞,則m1加1,同時(shí)將Wc替換為Wr;比如“部隊(duì)”和“軍隊(duì)”基于同義詞詞林是同義詞可以互相匹配;3) 精確詞形匹配和同義詞匹配按照順序且無(wú)重疊地進(jìn)行.基于一元語(yǔ)法的兩種匹配模式,將一元語(yǔ)法替換后的候選譯文與原始的參考譯文進(jìn)行2~4元語(yǔ)法匹配并求得對(duì)應(yīng)的準(zhǔn)確率值,如此便增加了n元語(yǔ)法的匹配概率,從而改善了n元語(yǔ)法的準(zhǔn)確率.對(duì)各階n元語(yǔ)法的準(zhǔn)確率進(jìn)行平滑,求得最終的NBLEU值,由此基于同義詞詞林的BLEUS算法即可實(shí)現(xiàn).
基于同義詞詞林的BLEUS算法對(duì)傳統(tǒng)的BLEU進(jìn)行了平滑處理,使得句子級(jí)評(píng)測(cè)成為可能;而且對(duì)一元語(yǔ)法也進(jìn)行了平滑處理,很好地應(yīng)對(duì)了輸出譯文較短甚至為一個(gè)詞語(yǔ)以及英文縮寫詞語(yǔ)的出現(xiàn)而導(dǎo)致一元語(yǔ)法零匹配的情況,使得句子級(jí)評(píng)測(cè)分?jǐn)?shù)更加穩(wěn)定可靠;同時(shí)以參考譯文為標(biāo)準(zhǔn)引入了基于同義詞詞林的語(yǔ)義空間變換算法,減少了因?yàn)闈h語(yǔ)語(yǔ)義表達(dá)的多樣性造成的匹配率降低的情況,提高了候選譯文和參考譯文的匹配效率.
2.1 實(shí)驗(yàn)語(yǔ)料及環(huán)境
實(shí)驗(yàn)中,雙語(yǔ)句子數(shù)據(jù)集采用基于俄漢雙語(yǔ)新聞的句子對(duì)齊語(yǔ)料庫(kù)[12],其中包含52 892個(gè)俄漢雙語(yǔ)對(duì)齊句對(duì),采用分層采樣的方式將這些俄漢句對(duì)分為訓(xùn)練集和測(cè)試集以備后續(xù)實(shí)驗(yàn)使用.其中測(cè)試集包括1 057個(gè)句對(duì),這些句子按照俄語(yǔ)句子長(zhǎng)度進(jìn)行升序排序,并且已經(jīng)被去重處理,形式上各不相同.基于網(wǎng)絡(luò)上主流的俄漢在線翻譯系統(tǒng)谷歌、百度、必應(yīng)、有道對(duì)俄語(yǔ)句子進(jìn)行俄漢翻譯,得到4個(gè)在線翻譯系統(tǒng)的漢語(yǔ)機(jī)器譯文.其中語(yǔ)料庫(kù)中人工對(duì)齊的漢語(yǔ)句子作為人工參考譯文.
實(shí)驗(yàn)均在具有8.00GB的內(nèi)存和CPU為Intel(R) Core(TM) i7-6700HQ的計(jì)算機(jī)上運(yùn)行.
2.2 實(shí)驗(yàn)結(jié)果
首先利用測(cè)試集對(duì)傳統(tǒng)BLEUS進(jìn)行實(shí)驗(yàn),其中按照俄語(yǔ)句子長(zhǎng)度對(duì)平行語(yǔ)料進(jìn)行了升序排序.通過對(duì)谷歌、百度、必應(yīng)、有道4個(gè)在線系統(tǒng)的輸出候選譯文與人工參考譯文采用傳統(tǒng)BLEUS指標(biāo)進(jìn)行評(píng)測(cè),得到NBLEUS值,由于BLEU進(jìn)行了平滑技術(shù)的處理,其句子級(jí)評(píng)測(cè)分?jǐn)?shù)有效,且整個(gè)實(shí)驗(yàn)測(cè)試集上4個(gè)系統(tǒng)的NBLEUS平均值如圖3所示.然后利用同一組測(cè)試語(yǔ)料,同樣的方法采用基于同義詞詞林的BLEUS對(duì)4個(gè)在線翻譯系統(tǒng)輸出譯文的質(zhì)量進(jìn)行評(píng)測(cè),得到4個(gè)系統(tǒng)的NBLEUS平均值(NBLEUS-syn)如圖3所示.
由圖3中可以看到,橫坐標(biāo)代表BLEU的幾種平滑方法,縱坐標(biāo)為每種平滑方法在測(cè)試集上的平均NBLEUS值.1) 4個(gè)在線翻譯系統(tǒng)的整體變化趨勢(shì)是相似的,排序是一致的,百度系統(tǒng)的俄漢在線翻譯性能最優(yōu),谷歌系統(tǒng)性能比百度略差,優(yōu)于有道系統(tǒng)的性能,必應(yīng)系統(tǒng)的俄漢在線翻譯性能最差.2) 基于同義詞詞林的語(yǔ)義空間變換的引入,使得baseline的BLEUS性能得以改善,對(duì)于同一個(gè)系統(tǒng)而言,基于同義詞詞林的BLEUS性能比傳統(tǒng)BLEUS有所提升,百度系統(tǒng)的NBLEUS-syn比NBLEUS提升了3.99%,谷歌系統(tǒng)提升了7.66%,必應(yīng)系統(tǒng)性能提升了11.15%,有道系統(tǒng)提升了4.65%.3) 應(yīng)用語(yǔ)義空間變換算法之后,谷歌系統(tǒng)和必應(yīng)系統(tǒng)的性能提升幅度較大,百度和有道系統(tǒng)的性能改善幅度較小,主要原因在于谷歌系統(tǒng)和必應(yīng)系統(tǒng)的輸出候選譯文在語(yǔ)言表達(dá)及習(xí)慣用語(yǔ)方面與人工參考譯文的表達(dá)差異較大,當(dāng)采用以參考譯文為標(biāo)準(zhǔn)的語(yǔ)義空間變換算法后,谷歌系統(tǒng)和必應(yīng)系統(tǒng)的譯文用詞與參考譯文相同,故性能提升較多;而百度系統(tǒng)和有道系統(tǒng)的譯文語(yǔ)言表達(dá)方面與參考譯文差異較小,故性能提升較小.4) 對(duì)于基于同一種評(píng)測(cè)指標(biāo)NBLEUS的不同平滑算法采用縱向比較的方式進(jìn)行實(shí)驗(yàn),即通過NBLEUS均值衡量,更加方便明確,有利于評(píng)測(cè)指標(biāo)性能參數(shù)的調(diào)整與優(yōu)化,大大節(jié)約能源與時(shí)間,提高時(shí)效性.由此分析,語(yǔ)義空間變換算法可以明顯改善傳統(tǒng)BLEUS的性能,提升NBLEUS值,既能很好地避免短譯文和英文縮略語(yǔ)導(dǎo)致出現(xiàn)零準(zhǔn)確率的問題,又不會(huì)影響候選譯文的可讀性.
在對(duì)傳統(tǒng)BLEUS和基于同義詞詞林的BLEUS進(jìn)行性能比較時(shí),上文采用NBLEUS均值來進(jìn)行衡量,對(duì)基于同一類型的評(píng)測(cè)方法進(jìn)行縱向比較;但是最傳統(tǒng)的方法是采用人工的方法計(jì)算自動(dòng)評(píng)分與人工流利度和忠實(shí)度分?jǐn)?shù)的相關(guān)系數(shù),系數(shù)越高,說明評(píng)測(cè)指標(biāo)性能越好.本文采用皮爾森相關(guān)系數(shù)rxy來計(jì)算自動(dòng)評(píng)測(cè)指標(biāo)與人工評(píng)測(cè)得分的相關(guān)性,從而驗(yàn)證縱向比較的可行性.對(duì)于包含變量自動(dòng)打分x和人工打分y的測(cè)試集上的數(shù)據(jù)點(diǎn){(xi,yi)},自動(dòng)打分x和人工打分y之間的皮爾森相關(guān)系數(shù)為[13]:
4個(gè)俄漢在線翻譯系統(tǒng)采用傳統(tǒng)BLEUS和基于同義詞詞林的BLEUS評(píng)測(cè)方法的自動(dòng)評(píng)分與人工的忠實(shí)度(ade)和流利度(flu)分?jǐn)?shù)的的相關(guān)系數(shù)如圖4所示.
圖3 4個(gè)在線系統(tǒng)的俄漢翻譯BLEUS評(píng)測(cè)結(jié)果Fig.3 BLEUS evaluation results of 4 systems
圖4 系統(tǒng)采用不同評(píng)測(cè)方法的忠實(shí)度(ade)和流利度(flu)的相關(guān)系數(shù)
由圖4可以分析得到,對(duì)于傳統(tǒng)BLEUS評(píng)測(cè)方法,加入基于同義詞詞林的語(yǔ)義空間變換之后,忠實(shí)度和流利度的相關(guān)系數(shù)均有所提高,表明使用精確詞形匹配和同義詞匹配順序、無(wú)重疊匹配比只使用精確詞形匹配,在提高譯文忠實(shí)度的同時(shí),沒有影響譯文的流利度,而且譯文依然可讀.上文縱向比較的實(shí)驗(yàn)結(jié)果與人工評(píng)價(jià)的結(jié)果一致,因此,基于同一類型的不同參數(shù)設(shè)置的評(píng)測(cè)方法通過縱向比較評(píng)判性能的方法和人工評(píng)價(jià)結(jié)果是一致的,說明縱向比較是有效的,能夠方便明確地對(duì)基于同一類型的不同評(píng)測(cè)方法性能進(jìn)行比較,有利于評(píng)測(cè)指標(biāo)性能參數(shù)的調(diào)整與優(yōu)化,大大節(jié)約能源與時(shí)間,提高時(shí)效性.
同樣,此方法可以應(yīng)用到離線的開源統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中進(jìn)行研究,在語(yǔ)料規(guī)模不受限的情況下,可以很大程度地提升機(jī)器翻譯系統(tǒng)的性能.基于同義詞詞林的BLEUS評(píng)測(cè)方法能夠大幅度提升傳統(tǒng)BLEUS的評(píng)測(cè)性能,在評(píng)測(cè)目標(biāo)語(yǔ)言為漢語(yǔ)的機(jī)器翻譯系統(tǒng)方面可以發(fā)揮很好的作用.
本文主要基于同義詞詞林提出了一種改進(jìn)的平滑BLEU評(píng)測(cè)方法,針對(duì)候選譯文中短譯文或英文縮寫可能導(dǎo)致一元語(yǔ)法零匹配的情況,對(duì)傳統(tǒng)BLEUS的n元語(yǔ)法均進(jìn)行了平滑處理,并且對(duì)一元語(yǔ)法匹配時(shí)引入同義詞匹配,而后對(duì)替換后的詞語(yǔ)求2~4元語(yǔ)法的準(zhǔn)確率.該評(píng)測(cè)方法與傳統(tǒng)BLEUS評(píng)測(cè)結(jié)果一致,且能夠大幅度提升傳統(tǒng)BLEUS的評(píng)測(cè)性能,在評(píng)測(cè)目標(biāo)語(yǔ)言為漢語(yǔ)的機(jī)器翻譯系統(tǒng)方面可以發(fā)揮很好的作用.目前只是進(jìn)行了淺層次的語(yǔ)義空間變換,后期工作中還會(huì)對(duì)同類詞、引入知網(wǎng)以及基于同義詞詞林的ROUGE、METEOR等其他評(píng)測(cè)指標(biāo)的改進(jìn)進(jìn)行更加細(xì)致的研究.
[1] 中華人民共和國(guó)教育部國(guó)家語(yǔ)言文字工作委員會(huì).機(jī)器翻譯系統(tǒng)評(píng)測(cè)規(guī)范:GF-2006[S].2006.
[2] YU S.Automatic evaluation of output quality for machine translation systems[J].Machine translation,1993,8(1):117-126.
[3] PAPINEN K,ROUKOS S,WARD T,et al.BLEU: a method for automatic evaluation of machine translation [C]// Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics.Philadelphia,2002:311-318.
[4] LIN C Y,OCH F J.Orange: method for evaluating automatic evaluation metrics for machine translation [C]// Proceedings of the International Committee on Computational Linguistics 2004.Barcelona,2004.
[5] LIN C Y.Rouge: package for automatic evaluation of summaries [C]// Proceedings of Workshop on Text Summarization Branches out, Post-conference Workshop of Association for Computational Linguistics 2004.Barcelona,2004.
[6] BANERJEE S,LAVIE A.Meteor: an automatic metric for MT evaluation with improved correlation with human judgments [C]// ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for MT and/or Summarization.Michigan,2005.
[7] 梅家駒,竺一鳴,高蘊(yùn)琦,等.同義詞詞林[M].2版.上海:上海辭書出版社,1996.
[8] CHEN B,CHERRY C.A systematic comparison of smoothing techniques for sentence-level BLEU [C]// Proceedings of the 9th Workshop on Statistical Machine Translation on Association for Computational Linguistics 2014.Baltimore,2014:362-367.
[9] 張鈸.自然語(yǔ)言處理的計(jì)算模型[J].中文信息學(xué)報(bào),2007,21(3):3-7.
[10]田久樂,趙蔚.基于同義詞詞林的詞語(yǔ)相似度計(jì)算方法[J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2010,28(6):602-608.
[11]徐建民,劉清江.基于同義詞關(guān)系的局部查詢擴(kuò)展[J].鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2010,42(1):45-48.
[12]DU W,LIU W,YU J,et al.Russian-Chinese sentence-level aligned news corpus [C]// Proceedings of the 18th Annual Conference of the European Association for Machine Translation.Antalya,2015:213.
[13]姚建民,周明,趙鐵軍,等.基于句子相似度的機(jī)器翻譯評(píng)價(jià)方法及其有效性分析[J].計(jì)算機(jī)研究與發(fā)展,2004,41(7):1258-1265.
(責(zé)任編輯:王海科)
Research on Smoothed BLEU Based on Thesaurus of Cilin
YU Junting1, HE Hongye1, LIU Wuying2, YI Mianzhu1
(1.DepartmentofLanguageEngineering,LuoyangUniversityofForeignLanguages,Luoyang471003,China; 2.LaboratoryofLanguageEngineeringandComputing,GuangdongUniversityofForeignStudies,Guangzhou510420,China)
A new algorithm based on thesaurus of Cilin was put forward with the name statistical space transformation (SST). And then it was applied into traditional smoothed BLEU(BLEUS).And an improved smoothed BLEU was got based on thesaurus of Cilin. As many cases of short translations or English abbreviations in candidate translations might cause unigram without matches, this new evaluation metric smoothed the traditional BLEUSn-gram and made the candidate translation unigram “synonymy match” based on thesaurus of Cilin,and took the reference translations unigrams as standard.Exact match and synonymy match were applied in unigram matching. Experiments were performed in Russian and Chinese bilingual sentence data set,and it evaluated the output translations of online translation system such as Google, Baidu, Bing and Youdao. The evaluation results of Cilin-based BLEUS and traditional BLEUS were proved to be consistent. Cilin-based BLEUS could greatly enhance the traditional BLEUS evaluation performance.NBLEUSvalue of the Baidu improveed 3.99 percent, Google improved 7.66 percent, Bing improved 11.15 percent, and Youdao improved 4.65 percent.Experiments were performed on the longitudinal comparisons to evaluate the metrics with different parameter settings based on the same measurement. And the results were consistent with the results of the human evaluation.
thesaurus of Cilin; BLEUS; BLEUS-syn; evaluation
2016-11-10
國(guó)家語(yǔ)言文字工作委員會(huì)重點(diǎn)項(xiàng)目(ZDI135-26);廣東省高校特色創(chuàng)新項(xiàng)目(2015KTSCX035).
于俊婷(1984—),女,河北衡水人,博士,主要從事機(jī)器翻譯評(píng)測(cè)研究,E-mail:314201559@qq.com;通訊作者:劉伍穎(1980—),男,江西九江人,副研究員,主要從事計(jì)算語(yǔ)言學(xué)和自然語(yǔ)言處理研究,E-mail:wyliu@gdufs.edu.cn.
TP391.1
A
1671-6841(2017)02-0054-06
10.13705/j.issn.1671-6841.2016307