內(nèi)容摘要:BLEU作為當(dāng)前相對(duì)具備較高應(yīng)用價(jià)值的機(jī)器算法之一,在機(jī)器翻譯尤其是語句生成領(lǐng)域存在著一定的協(xié)同發(fā)展作用。現(xiàn)就BLEU衡量標(biāo)準(zhǔn)在NLP領(lǐng)域的實(shí)際地位及發(fā)展歷程,淺析基于BLEU的格律詩生成的自動(dòng)評(píng)測(cè)方法研究。
關(guān)鍵詞:BLEU NLP 機(jī)器翻譯 語句生成 自動(dòng)評(píng)測(cè)方法
BLEU作為NLP領(lǐng)域中十分經(jīng)典的衡量標(biāo)準(zhǔn),目前在多數(shù)機(jī)器語句生成技術(shù)中均存在著相應(yīng)應(yīng)用。早在2002年該衡量標(biāo)準(zhǔn)便得到了國外研究人員的提出,并與同年由Kishore Papineni et al.在相關(guān)學(xué)術(shù)會(huì)議中提出。這一衡量標(biāo)準(zhǔn)在實(shí)際發(fā)展過程中通過機(jī)器計(jì)算來完成對(duì)兩個(gè)句子的共現(xiàn)詞頻率計(jì)算來實(shí)現(xiàn)對(duì)兩句語句一致程度的最終測(cè)評(píng)。雖然就該自動(dòng)評(píng)估方式而言容易受常用詞以及較短翻譯句式的影響,但不可否認(rèn)其在諸如格律詩等文學(xué)類語句自動(dòng)生成領(lǐng)域存在著較大的應(yīng)用價(jià)值。現(xiàn)就筆者觀點(diǎn),對(duì)基于BLEU的格律是自動(dòng)生成評(píng)測(cè)方法進(jìn)行相應(yīng)研究。
一.BLEU概述
在機(jī)器翻譯領(lǐng)域BLEU技術(shù)存在著較為廣泛的應(yīng)用范圍。由于當(dāng)前機(jī)器翻譯領(lǐng)域之中在語句生成方面的需求面日益寬廣,因此在語句生成的邏輯研究以及機(jī)器算法開發(fā)方面的投入力度也隨之增加。為保證語句生成的實(shí)際質(zhì)量滿足相應(yīng)需求方的具體需求,需要在語句生成過程中做到生成思路符合人工智能的實(shí)際思路,并在具體算法設(shè)計(jì)上對(duì)語句之間的邏輯性和語言性做到良好的認(rèn)知。
BLEU作為機(jī)器翻譯領(lǐng)域中常用輔助工具的一種,其本質(zhì)是指雙語互譯質(zhì)量評(píng)估輔助工具,作用于評(píng)估機(jī)器翻譯的具體質(zhì)量。BLEU的設(shè)計(jì)思想與評(píng)判機(jī)器翻譯好壞的思想是一致的:機(jī)器翻譯結(jié)果越接近專業(yè)人工翻譯的結(jié)果,則越好。眾所周知,對(duì)于機(jī)器翻譯實(shí)際質(zhì)量的評(píng)測(cè)工作往往是由人工來完成,同時(shí)在面對(duì)多數(shù)機(jī)器翻譯的實(shí)際作品時(shí)也通常存在著翻譯結(jié)果與實(shí)際表達(dá)含義存在著出入的情況發(fā)生。為應(yīng)對(duì)這一現(xiàn)象便進(jìn)行了BLEU技術(shù)的開發(fā)工作。這一舉措不僅實(shí)現(xiàn)了對(duì)于機(jī)器翻譯語句質(zhì)量檢測(cè)的信息化渠道搭建,同時(shí)極大的節(jié)約了人工檢測(cè)的成本與時(shí)間。BLEU是做不到百分百的準(zhǔn)確的,它只能做到個(gè)大概判斷,它的目標(biāo)也只是給出一個(gè)快且不差自動(dòng)評(píng)估解決方案,但這一結(jié)果已然體現(xiàn)了機(jī)器檢測(cè)結(jié)果體系在機(jī)器翻譯領(lǐng)域的應(yīng)用價(jià)值。當(dāng)前對(duì)于BLEU技術(shù)的開發(fā)工作仍在繼續(xù),實(shí)現(xiàn)BLEU算法的機(jī)器翻譯檢測(cè)工具同樣具備了較高的應(yīng)用程度,并在相關(guān)行業(yè)領(lǐng)域存在了一定程度的普及。
二.格律詩自動(dòng)評(píng)測(cè)方法研究中BLEU技術(shù)的應(yīng)用價(jià)值分析
當(dāng)前現(xiàn)存的BLEU參與的漢語言文學(xué)作品自動(dòng)生成系統(tǒng)中較為成功的一款便是由微軟亞洲研究所自主開發(fā)研究的對(duì)聯(lián)自動(dòng)生成系統(tǒng)。由于對(duì)聯(lián)在實(shí)際格式上與格律詩存在著較大的相似之處,尤其是在對(duì)仗、押韻以及各式、寓意方面的需求存在著較大的共通之處,因此在格律詩自動(dòng)生成系統(tǒng)中同樣可以應(yīng)用這一體系的運(yùn)行特點(diǎn)來在思路方面帶來突破。自動(dòng)對(duì)聯(lián)系統(tǒng)在實(shí)際統(tǒng)計(jì)翻譯理論的結(jié)合以及統(tǒng)計(jì)翻譯理論應(yīng)用的思路方面在于通過現(xiàn)有數(shù)字建模技術(shù)來對(duì)對(duì)聯(lián)信息中的源語句、格式類型進(jìn)行建模,通過較為復(fù)雜的運(yùn)算進(jìn)行創(chuàng)作格式以及創(chuàng)作思路的規(guī)律模擬;同時(shí)通過數(shù)字建模系統(tǒng)能夠有效的對(duì)作品之中大多數(shù)案例中上下文之間的語義關(guān)系進(jìn)行模擬,找出目標(biāo)語句之間的對(duì)應(yīng)關(guān)系。這一機(jī)制體現(xiàn)出的特點(diǎn)與BLEU應(yīng)用價(jià)值大致吻合,且在實(shí)際應(yīng)用過程中通過BLEU評(píng)測(cè)標(biāo)準(zhǔn)能夠基本判斷對(duì)聯(lián)生成質(zhì)量是否符合用戶基本需求。同樣的,對(duì)聯(lián)自動(dòng)生成系統(tǒng)與格律詩自動(dòng)生成系統(tǒng)在搭建思路方面存在著較高的共通之處,為確保用戶在使用格律詩自動(dòng)生成系統(tǒng)時(shí)能夠?qū)崿F(xiàn)自身需求得到大致滿足,進(jìn)行BLEU標(biāo)準(zhǔn)的搭建具有著較高的應(yīng)用價(jià)值。由于格律詩自動(dòng)生成系統(tǒng)在自身系統(tǒng)自動(dòng)評(píng)測(cè)方法上對(duì)效率及準(zhǔn)確精度存在著較大需求,同時(shí)在詩詞自動(dòng)生成過程中有效避免了常用詞對(duì)BLEU的實(shí)際干擾,因此該標(biāo)準(zhǔn)在格律詩的自動(dòng)生成系統(tǒng)中存在著較為高度的發(fā)展空間,二者協(xié)同發(fā)展的實(shí)際前景具有科研價(jià)值。
三.基于BLEU的格律詩生成自動(dòng)評(píng)測(cè)方法研究
作為新興的機(jī)器算法檢測(cè)的衡量標(biāo)準(zhǔn)之一,BLEU標(biāo)準(zhǔn)在實(shí)際應(yīng)用過程中存在著較為明顯的優(yōu)缺點(diǎn)。其優(yōu)勢(shì)在于自身檢測(cè)結(jié)果的應(yīng)用價(jià)值顯著且具備了較為高度的參考價(jià)值,同時(shí)相對(duì)于人工檢測(cè)方式而言這一檢測(cè)機(jī)制響應(yīng)時(shí)間更短、檢測(cè)效果更明顯,且在多數(shù)的自動(dòng)評(píng)測(cè)方法之中這一單元的應(yīng)用成本要明顯低于人工成本。然而同時(shí)BLEU的缺陷相對(duì)而言同樣較為顯著。首先,BLEU作為邏輯層面的檢測(cè)響應(yīng)機(jī)制在語法語義方面的應(yīng)用缺失較為嚴(yán)重,雖然能夠基本實(shí)現(xiàn)對(duì)于語言邏輯層面的布控,卻不考慮語言表達(dá)(語法)上的準(zhǔn)確性;其次,由于當(dāng)前BLEU應(yīng)用詞庫依舊處于填充過程之中,因此在關(guān)鍵詞檢測(cè)中雖然具備較高的精確度,但在常用詞檢測(cè)之中同樣會(huì)受到詞庫匱乏這一弊端的影響,測(cè)評(píng)精度會(huì)受常用詞的干擾;第三,短譯句的測(cè)評(píng)精度有時(shí)會(huì)較高;同時(shí)沒有考慮同義詞或相似表達(dá)的情況,可能會(huì)導(dǎo)致合理翻譯被否定。這一結(jié)果顯然不是研究人員所期望的實(shí)際結(jié)果,因此目前對(duì)于BLEU標(biāo)準(zhǔn)的界定較為模糊,是否落實(shí)應(yīng)用這一標(biāo)準(zhǔn)也是多數(shù)檢測(cè)評(píng)測(cè)系統(tǒng)搭建的重點(diǎn)探討問題之一。
目前對(duì)于格律詩自動(dòng)生成系統(tǒng)的應(yīng)用建設(shè)已然具備了較為完善的相關(guān)經(jīng)驗(yàn),且格律詩的創(chuàng)作應(yīng)用具備了較大的特殊性。于漢語語言文學(xué)與計(jì)算機(jī)算法的結(jié)合發(fā)展相對(duì)傳統(tǒng)計(jì)算機(jī)算法的發(fā)展建設(shè)進(jìn)程而言其建設(shè)工作的內(nèi)涵相對(duì)較為復(fù)雜,因此實(shí)際應(yīng)用過程中對(duì)于機(jī)器算法的實(shí)際質(zhì)量存在著較高要求。這一系統(tǒng)的運(yùn)作機(jī)制在于通過對(duì)漢語言文學(xué)以及詩詞類藝術(shù)鑒賞進(jìn)行數(shù)字建模,來實(shí)現(xiàn)通過計(jì)算機(jī)技術(shù)系統(tǒng)化的生成格律詩題材的文學(xué)作品,以適應(yīng)現(xiàn)階段社會(huì)環(huán)境中的信息化藝術(shù)發(fā)展形勢(shì)。同時(shí)格律詩由于自身特殊的文學(xué)地位在創(chuàng)作過程中同樣具備了較高的難度。眾所周知,格律詩在自身題材中包含了律詩以及絕句兩大組成部分,我國漢語語言文學(xué)史上具有著較高的地位。而格律詩的自動(dòng)生成系統(tǒng)開發(fā)難度之所以較高是因?yàn)檫@一題材的詩詞作品在創(chuàng)作過程中對(duì)于已經(jīng)以及韻腳存在著高度的要求,既需要在題材格式上滿足詩詞的多元化搭配,同時(shí)在詩詞自身的意境上同樣需要具有較高的文學(xué)素養(yǎng)。
在格律詩自動(dòng)生成系統(tǒng)中進(jìn)行基于BLEU的自動(dòng)評(píng)測(cè)發(fā)展時(shí)間相對(duì)較短,且依舊存在著經(jīng)驗(yàn)缺失的問題,因此就筆者觀點(diǎn)而言對(duì)其進(jìn)行自動(dòng)評(píng)測(cè)方法研究具有著一定的積極價(jià)值。目前常見的基于BLEU是自動(dòng)評(píng)測(cè)方法主要存在于關(guān)鍵詞檢測(cè)以及核心語句建模兩大方面。關(guān)鍵詞檢測(cè)是指在格律詩的自動(dòng)生成過程中首句生成階段。目前我國常見的格律詩自動(dòng)生成系統(tǒng)在進(jìn)行首句生成時(shí)主要依靠于《詩學(xué)含英》中的分類體系進(jìn)行參考。眾所周知,《詩學(xué)含英》一書中在語義類別的具體分類上面向不同的詩詞類型共存在著40大類、1016個(gè)關(guān)鍵詞、41248個(gè)詞匯,因此在進(jìn)行首句生成時(shí)該自動(dòng)生成系統(tǒng)僅僅需要用戶進(jìn)行詩詞題材的選擇以及三個(gè)關(guān)鍵詞的確定即可完成對(duì)于格律詩首句的生成工作。而核心語句建模則相對(duì)較為復(fù)雜,是指通過對(duì)同一類型關(guān)鍵詞、核心詞匯的評(píng)測(cè)來完成對(duì)于格律詩自身風(fēng)格的數(shù)字建模工作。在通過相似度檢測(cè)以及首句、二三四句的實(shí)際生成關(guān)系確認(rèn)后通過核心語句建模能夠有效確保語句在生成后韻腳、平仄均符合律詩或絕句對(duì)于整體作品的相關(guān)需求。
BLEU標(biāo)準(zhǔn)與格律詩的自動(dòng)生成體系建設(shè)具有著較高的協(xié)同發(fā)展價(jià)值,同時(shí)就BLEU標(biāo)準(zhǔn)的實(shí)際發(fā)展來看這一理論在自動(dòng)生成等技術(shù)領(lǐng)域的實(shí)際應(yīng)用已然具備了一定的成熟度。為確保我國相關(guān)格律詩自動(dòng)生成系統(tǒng)在實(shí)際應(yīng)用過程中能夠穩(wěn)定發(fā)揮自身機(jī)制特點(diǎn),在作品生成時(shí)滿足用戶具體需求,對(duì)BLEU進(jìn)行應(yīng)用是當(dāng)前我國格律詩自動(dòng)生成系統(tǒng)開發(fā)研究的重點(diǎn)工作內(nèi)容之一。相關(guān)科研人員還應(yīng)加強(qiáng)對(duì)于該技術(shù)類型的具體認(rèn)知,實(shí)現(xiàn)基于BLEU理論的格律詩自動(dòng)生成的評(píng)測(cè)方法及實(shí)際作用符合該系統(tǒng)的開發(fā)需求。
參考文獻(xiàn)
[1]杜金華,張萌,宗成慶,孫樂.中國機(jī)器翻譯研究的機(jī)遇與挑戰(zhàn)——第八屆全國機(jī)器翻譯研討會(huì)總結(jié)與展望[J].中文信息學(xué)報(bào),2016,(07):15-16
[2]蔣銳瀅,崔磊,何晶,周明,潘志庚.基于主題模型和統(tǒng)計(jì)機(jī)器翻譯方法的中文格律詩自動(dòng)生成[J].計(jì)算機(jī)學(xué)報(bào),2017,(16):30-34
[3]何晶,周明,蔣龍.基于統(tǒng)計(jì)的漢語格律詩生成研究[J].中文信息學(xué)報(bào),2015,(22):35-40
(作者介紹:朱騏,鹽城工學(xué)院信息學(xué)院副教授,從事計(jì)算機(jī)應(yīng)用與教學(xué)、中國古典文學(xué)研究)