劉林+付琦+武麗萍
摘要:文章主要針對(duì)漢語語言模型規(guī)模大小的具體情況以及語法元數(shù)在英漢統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的影響進(jìn)行研究分析。在研究過程中,主要是通過相應(yīng)的模型進(jìn)行實(shí)驗(yàn),通過相應(yīng)的研究分析,最終表明層次短語的翻譯系統(tǒng)的翻譯效果明顯高于基于短語的翻譯系統(tǒng),對(duì)于不同語言的模型來說,其元數(shù)以及規(guī)模對(duì)具體的翻譯效果都具有很大的影響。
關(guān)鍵詞:語言模型;基于短語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng);層次短語
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)35-0198-02
在漢語言翻譯工作開展過程中,語言模型占據(jù)著重要地位,特別是在統(tǒng)計(jì)機(jī)器翻譯、語音識(shí)別、漢語分詞、自動(dòng)糾錯(cuò)過程中,其應(yīng)用范圍十分廣泛。就現(xiàn)階段來說,機(jī)器翻譯過程中,主要使用的是n語言模型。此種模型在應(yīng)用過程中,其結(jié)構(gòu)較為簡(jiǎn)單,人們?cè)谘芯窟^程中只是知道其大小以及n語言的元數(shù)對(duì)翻譯的質(zhì)量具有較大的影響,但是,并不知道造成影響的具體情況,因此,文章在研究過程中主要針對(duì)現(xiàn)階段較為流行短語的統(tǒng)計(jì)翻譯系統(tǒng)和基于層次短語的統(tǒng)計(jì)翻譯系統(tǒng)的影響。
1 英漢統(tǒng)計(jì)翻譯系統(tǒng)中漢語語言模型的應(yīng)用分析
統(tǒng)計(jì)語言型根本目的是為了能夠?qū)ψ址畇概率分布P(s)進(jìn)行展示,假如讓w1l=(w1,…wl),表示長(zhǎng)度為I根本字符,Wi代表一個(gè)重要元素,基本上都表示一個(gè)單詞。在漢語語言模型中,其主表示為一些以漢語句子為基礎(chǔ)所分離出的生詞。在翻譯工作不斷的發(fā)展過程中,短語統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)代表著目前翻譯的發(fā)展方向,此系統(tǒng)在實(shí)際的利用過程中,基本上都是將某個(gè)短語看成一個(gè)翻譯單元,系統(tǒng)在翻譯中,首先都是把源語言的句子S拆分成j個(gè)短語:S1S2…Sj,在對(duì)每個(gè)Sk,k=1…j,利用翻譯模型,可以將翻譯目標(biāo)轉(zhuǎn)變?yōu)門i。最后利用調(diào)序模型以及語言模型輸出翻譯結(jié)果,輸出n個(gè)翻譯較好的結(jié)果TI。短語翻譯模型在實(shí)際的翻譯應(yīng)用過程中,能夠?qū)Ψg過程中較短的句子進(jìn)行翻譯。通過對(duì)P.Koehn等人的研究結(jié)果進(jìn)行分析顯示;當(dāng)語句長(zhǎng)度能夠拓展到3個(gè)單詞以上,翻譯系統(tǒng)的整體性能性能沒有明顯的提升,并且相應(yīng)的數(shù)據(jù)稀疏問題也逐漸增多。并且,在大多數(shù)情況下,簡(jiǎn)單的語言翻譯模型不能對(duì)短語之間的順序進(jìn)行有效的調(diào)整。
工作人員在研究過程中,為了解決短語的翻譯模型不能對(duì)短語之間的順序進(jìn)行有效的調(diào)整的情況,筆者通過研究分析,提出了采用基于層次短語的翻譯模型嘗試解決短語的翻譯模型不能對(duì)短語之間的順序進(jìn)行有效的調(diào)整的問題。主要的思路為:在研究過程中,不同的語言句子由相應(yīng)的層次化短語組成,設(shè)定層次化短語主要由兩部分組成,即子短語與單詞,在實(shí)際訓(xùn)練時(shí)借助同步上下文無關(guān)文法,從雙語對(duì)齊的語料中選擇相應(yīng)的語言知識(shí),進(jìn)而獲得帶有相應(yīng)變量的基本短語對(duì)以及短語結(jié)構(gòu)。但是,本質(zhì)內(nèi)容都一樣,都是SCFG形成的式子。翻譯系統(tǒng)模型中同步上下文無關(guān)文法的應(yīng)用,能夠保證該翻譯模型最大化的接近語言翻譯要求。同時(shí),在翻譯的過程中并不需要借助其他語言知識(shí)。因此,該翻譯模型在實(shí)際應(yīng)用的過程中采用形式化語法?;趯哟味陶Z的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)實(shí)際應(yīng)用的具體步驟為:首先,在實(shí)際的翻譯過程,需要借助層次化短語對(duì)部分語句進(jìn)行層次化翻譯,并按照實(shí)際狀況將翻譯過后的語句進(jìn)行連接,進(jìn)而獲得完整的翻譯句子。
2 漢語語言模型的規(guī)模對(duì)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的影響實(shí)驗(yàn)分析
1)語料預(yù)處理及語言模型訓(xùn)練
該實(shí)驗(yàn)在實(shí)際的研究分析過程中,主要采用的是我國(guó)在2007年SSMT評(píng)測(cè)中的新聞?lì)I(lǐng)域英中翻譯測(cè)試集作為開發(fā)集,訓(xùn)練數(shù)據(jù)采用全部語料(該語料由SSMT077評(píng)測(cè)以及NISTMT077提供),訓(xùn)練實(shí)驗(yàn)的主要數(shù)據(jù)來源為美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院(NIST)MT07評(píng)測(cè)和SSMT07評(píng)測(cè)提供的全部語料。全部語料中包含了四千萬句漢語單語語料,按照過濾原則(處理后語料中句子的全部詞匯是否全在SSMT07中出現(xiàn))對(duì)雙語對(duì)齊語料進(jìn)行篩選,通過過濾選擇合適的雙語對(duì)齊語料。
在英文語料預(yù)處理的工作包括以下幾個(gè)方面:①詞串化、②亂碼過濾、③雙字節(jié)字符處理等,在預(yù)處理的過程中需要把全部的大寫字母都轉(zhuǎn)換成為小寫字母等。對(duì)于中文語料預(yù)處理工作內(nèi)容為:剔除亂碼,雙字節(jié)字母替換,分詞等工作內(nèi)容。在實(shí)際的工作開展過程中,分詞主要采用工具是計(jì)算過程中所研發(fā)的ICTCLAS3.0.
如果采用SRILM工具包訓(xùn)練語言模型,語言模型都是根據(jù)訓(xùn)練集規(guī)模實(shí)際情況以及n元語法的元數(shù)對(duì)其進(jìn)行不同的劃分,在劃分過程中,根據(jù)語言模型的大小進(jìn)行劃分,可以劃分成六種不同的元語法,分別為100、200、500、1000、2000、4000(萬句),對(duì)于小語言模型句子,全部是從最后一種大語料庫(kù)中選擇。依據(jù)不同的n元語法元數(shù),可以劃分成三種不同的元語法,分別為3、4、5元語法。所有語言模型的參數(shù)表示為:
該實(shí)驗(yàn)所采用的翻譯系統(tǒng)是由基于層次短語和短語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)組成。一方面,對(duì)于基于短語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),能夠從大規(guī)模雙語預(yù)料中選取相應(yīng)容量的短句,再采用GIZA++對(duì)齊訓(xùn)練詞。解碼器在進(jìn)行搜索時(shí)采用柱搜索法,搜索過程中利用以下特征:①IBM扭曲模型、②方向概率、③短語懲罰、④句子長(zhǎng)度懲罰、⑤扭曲概率、⑥n元語法語言模型、⑦雙向詞匯化概率、⑧雙向短語翻譯概率。另一方面,對(duì)于基于層次短語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),其主要作用是為系統(tǒng)提供參考,從大規(guī)模雙語預(yù)料中訓(xùn)練出翻譯模型所需要的雙語預(yù)料。層次短語統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的概率計(jì)算需要借助短語系統(tǒng)的線性對(duì)數(shù),在實(shí)際計(jì)算過程中使用以下5個(gè)特征:①規(guī)則特征(如數(shù)字、時(shí)間以及人名規(guī)則等)、②句子長(zhǎng)度懲罰、③N-gram語言模型、④兩個(gè)方向的詞匯概率、⑤兩個(gè)方向的短語概率。
3 實(shí)驗(yàn)結(jié)果
在實(shí)驗(yàn)過程中,根據(jù)不同大小、元數(shù)劃分的語言模型分別輸入到基于層次短語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)以及基于短語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中進(jìn)行解碼,在解碼時(shí)上述兩個(gè)系統(tǒng)中的參數(shù)配置不變,翻譯模型保持一致,實(shí)驗(yàn)不需要對(duì)未登陸詞進(jìn)行處理,選取SSMT2007新聞?lì)I(lǐng)域測(cè)試集為測(cè)試集。最后,對(duì)最終的翻譯結(jié)果進(jìn)行BLEU打分,具體如下表所示:
在上述表格中,兩個(gè)英漢翻譯系統(tǒng)所選用的訓(xùn)練數(shù)據(jù)一致,并且基于短語的英漢翻譯系統(tǒng)的打分值結(jié)果比基于層次短語英漢翻譯系統(tǒng)BLEU打分結(jié)果差。但是不管采用哪種系統(tǒng),當(dāng)語言模型大小為4000萬句,元數(shù)為4元,其表現(xiàn)效果最好,具體的打分情況為0.3509 和 0.4331。通常來說,當(dāng)增加語言模型規(guī)范時(shí),將會(huì)提高BLEU打分,但是在實(shí)際應(yīng)用中受到硬件條件的限制,尤其是在內(nèi)存相對(duì)較小的狀況下,將會(huì)增加訓(xùn)練語料,會(huì)對(duì)系統(tǒng)造成一定的影響,訓(xùn)練語料增加時(shí)應(yīng)該做好剪裁工作。
4 結(jié)論
綜上所述,通過相應(yīng)的實(shí)驗(yàn)分析, 我們可以看出來,對(duì)于不同系統(tǒng),并不是擴(kuò)大規(guī)?;蛘咴黾诱Z言模型元數(shù),就能夠獲得良好的翻譯效果。而是需要考慮數(shù)據(jù)稀疏、裁剪等因素,并且在硬件條件允許的條件下,解決數(shù)據(jù)稀疏問題,并不斷擴(kuò)大語言模型規(guī)模,只有這樣才能保證翻譯結(jié)果的準(zhǔn)確性。
參考文獻(xiàn):
[1] 王韋華,徐波.漢語語言模型的規(guī)模對(duì)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的影響[J].微計(jì)算機(jī)信息,2010,26(27):108-109.
[2] 銀花.基于短語的蒙漢統(tǒng)計(jì)機(jī)器翻譯研究[D].內(nèi)蒙古師范大學(xué),2011.
[3] 奚寧,趙迎功,湯光超等.統(tǒng)計(jì)機(jī)器翻譯中多種語言模型的融合[C]//第七屆全國(guó)機(jī)器翻譯研討會(huì)論文集,2011:220-228.
[4] 米莉萬·雪合來提,麥熱哈巴·艾力,吐爾根·依布拉音等.維吾爾語詞尾對(duì)漢維統(tǒng)計(jì)機(jī)器翻譯影響的研究[J].計(jì)算機(jī)工程,2014(3):224-227.
[5] 董人菘,王華,張曉鐘等.依存句法語言模型對(duì)短語統(tǒng)計(jì)機(jī)器翻譯性能的影響[J].計(jì)算機(jī)科學(xué),2014,41(2):99-101.
[6] Philipp Koehn, Amittai Axelrod, Alexandra Birch Mayne, et al.Edinburgh System Description forthe 2005 IWSLT Speech Trans-lation Evaluation. International Workshop on Spoken Language Translation. 2005.