• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      詞匯相似度約束的短語(yǔ)抽取

      2010-07-18 03:35:52梁華參趙鐵軍薛永增孫加?xùn)|
      關(guān)鍵詞:源語(yǔ)言語(yǔ)詞對(duì)數(shù)

      梁華參,趙鐵軍,薛永增,孫加?xùn)|

      (1.哈爾濱工業(yè)大學(xué)語(yǔ)言語(yǔ)音教育部-微軟重點(diǎn)實(shí)驗(yàn)室,哈爾濱 150001,hsliang@mtlab.hit.edu.cn;2.哈爾濱工業(yè)大學(xué)媒體技術(shù)與藝術(shù)系,哈爾濱 150001)

      詞匯相似度約束的短語(yǔ)抽取

      梁華參1,趙鐵軍1,薛永增2,孫加?xùn)|1

      (1.哈爾濱工業(yè)大學(xué)語(yǔ)言語(yǔ)音教育部-微軟重點(diǎn)實(shí)驗(yàn)室,哈爾濱 150001,hsliang@mtlab.hit.edu.cn;2.哈爾濱工業(yè)大學(xué)媒體技術(shù)與藝術(shù)系,哈爾濱 150001)

      為克服傳統(tǒng)的短語(yǔ)抽取方法對(duì)詞對(duì)齊信息的依賴性強(qiáng),抗噪聲能力差這一缺陷,提出基于詞匯相似度約束的短語(yǔ)抽取策略;在此框架下,提出了3種基于詞匯相似度的約束方法:Dice系數(shù)、Phi平方系數(shù)和對(duì)數(shù)似然比.在IWSLT2004語(yǔ)料上進(jìn)行的實(shí)驗(yàn)表明,3種基于詞匯相似度的約束方法的翻譯系統(tǒng)的BLEU評(píng)分均優(yōu)于傳統(tǒng)的翻譯系統(tǒng);其中基于對(duì)數(shù)似然比方法得到的翻譯模型比基線系統(tǒng)Pharaoh的 BLEU-4評(píng)分提高了15.14%.

      機(jī)器翻譯;統(tǒng)計(jì)機(jī)器翻譯;短語(yǔ)抽取;詞匯相似度

      與傳統(tǒng)的基于詞的統(tǒng)計(jì)翻譯模型相比,基于短語(yǔ)的模型有效利用了上下文關(guān)系來(lái)指導(dǎo)翻譯過程,從而顯著提高了翻譯質(zhì)量.王野翊[1]提出的基于結(jié)構(gòu)的翻譯模型,其實(shí)質(zhì)是采用一個(gè)類似IBM詞對(duì)齊模型2的方法來(lái)對(duì)齊雙語(yǔ)短語(yǔ),在此基礎(chǔ)上再進(jìn)行詞一級(jí)的對(duì)齊.與此相類似的,Och[2]提出了對(duì)齊模板模型.Och將對(duì)齊短語(yǔ)泛化為基于詞類的對(duì)齊模板,并采用了線性對(duì)數(shù)模型作為整體框架.Koehn[3]考慮了調(diào)序因素,提出了一個(gè)基于詞對(duì)齊的短語(yǔ)翻譯模型.Marcu等[4]采用聯(lián)合概率代替條件概率,提出了基于短語(yǔ)和聯(lián)合概率的翻譯模型.張盈等[5]提出了短語(yǔ)對(duì)齊和切分相結(jié)合的短語(yǔ)等價(jià)對(duì)抽取方法.程葳[6]提出了雙語(yǔ)語(yǔ)塊的概念,并在此基礎(chǔ)上建立了一個(gè)口語(yǔ)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng).Vogel[7]分析比較了幾種短語(yǔ)統(tǒng)計(jì)翻譯模型,提出了一個(gè)混合模型.這些研究工作都是基于樹串的統(tǒng)計(jì)機(jī)器翻譯研究的基礎(chǔ)[8-9].

      本文在Koehn等人研究的基礎(chǔ)上,針對(duì)短語(yǔ)等價(jià)對(duì)有效抽取問題,提出基于詞匯相似度約束的短語(yǔ)抽取策略,來(lái)充分利用自動(dòng)詞對(duì)齊結(jié)果,并減小錯(cuò)誤詞對(duì)齊結(jié)果造成的精度損失.采用這種約束策略可以避免抽取到不完整的短語(yǔ)互譯對(duì).

      1 基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)框架

      1.1 翻譯模型

      統(tǒng)計(jì)機(jī)器翻譯中,翻譯的任務(wù)就是在給定源語(yǔ)言句子f的條件下,搜索使得條件概率P(e|f)最大的目標(biāo)語(yǔ)句子^e,作為翻譯結(jié)果輸出.在對(duì)數(shù)線性模型下,條件概率P(e|f)通過一系列特征函數(shù)的線性組合來(lái)計(jì)算,即

      基于短語(yǔ)的翻譯模型把翻譯過程,從傳統(tǒng)的以詞為單位的轉(zhuǎn)換方式,轉(zhuǎn)化為以短語(yǔ)為單位的轉(zhuǎn)換方式.在基于短語(yǔ)的翻譯模型中,短語(yǔ)抽取方法中詞對(duì)齊信息的利用對(duì)于翻譯模型有直接影響.

      1.2 對(duì)齊矩陣與重組

      設(shè):源語(yǔ)言和目標(biāo)語(yǔ)言句子分別為f=f1…fm,e=e1…en,有下列定義:

      定義1(對(duì)齊點(diǎn)) 如果源語(yǔ)詞fj與目標(biāo)語(yǔ)詞ei存在對(duì)應(yīng)關(guān)系,則稱(j,i)是一個(gè)連接,也稱之為對(duì)齊點(diǎn).

      定義2(對(duì)齊矩陣) 與句對(duì)(f,e)對(duì)應(yīng)的m×n階的矩陣A被稱作對(duì)齊矩陣.

      設(shè)源語(yǔ)言到目標(biāo)語(yǔ)言的詞對(duì)齊矩陣為A1,相應(yīng)的目標(biāo)語(yǔ)言到源語(yǔ)言的詞對(duì)齊矩陣為A2,將兩個(gè)方向上的詞對(duì)齊結(jié)果中的連接重新進(jìn)行組合得到的矩陣A稱為詞對(duì)齊重組矩陣.

      雙語(yǔ)詞對(duì)齊的重組方法主要有:intersect,union,grow,grow-diag,grow-diag-final,grow-diagfinal-and等.

      2 短語(yǔ)與詞匯相似度約束

      2.1 嚴(yán)格短語(yǔ)與非嚴(yán)格短語(yǔ)

      定義3 設(shè):f=f1…fm,e=e1…en分別為源語(yǔ)言和目標(biāo)語(yǔ)言句子,a是兩個(gè)句子上的對(duì)齊,則短語(yǔ)互譯對(duì) <ei1…eim,fj1…fjn>是與a一致的,當(dāng)且僅當(dāng)有下列條件成立:

      圖1(a)給出了幾個(gè)一致與不一致的短語(yǔ)示例.可以看出,這種短語(yǔ)抽取方法是嚴(yán)格按照詞對(duì)齊進(jìn)行的,因此本文稱此類短語(yǔ)為嚴(yán)格短語(yǔ).

      由于嚴(yán)格短語(yǔ)完全符合詞對(duì)齊限制,因此它的抗噪聲能力不強(qiáng),這在一定程度上影響了嚴(yán)格短語(yǔ)抽取的準(zhǔn)確性.本文嘗試放寬一致性的條件,使得短語(yǔ)對(duì)中的詞可以對(duì)齊到該短語(yǔ)之外.只要這個(gè)詞同時(shí)也和短語(yǔ)內(nèi)的某個(gè)詞對(duì)齊,也就是滿足條件:

      稱這種短語(yǔ)為非嚴(yán)格短語(yǔ),如圖1(b)所示.

      圖1 嚴(yán)格短語(yǔ)抽取與非嚴(yán)格短語(yǔ)抽取中的一致和不一致

      2.2 約束短語(yǔ)

      非嚴(yán)格短語(yǔ)抽取方法所需滿足的條件過于寬泛,有時(shí)候會(huì)抽取到不完整的短語(yǔ)互譯對(duì).例如,對(duì)于圖2中的情形,因?yàn)樵谠~對(duì)齊(黑框)中“we”同時(shí)對(duì)齊到“我們”和“聯(lián)系”,非嚴(yán)格短語(yǔ)抽取方法會(huì)抽取到錯(cuò)誤短語(yǔ)互譯對(duì):“和 你 聯(lián)系?we contact you”.

      本文嘗試采用對(duì)對(duì)齊點(diǎn)進(jìn)行約束的辦法來(lái)避免這種情況,使得抽取到的短語(yǔ)互譯對(duì)包含比較確定的互譯詞對(duì),例如“我們?we”、“聯(lián)系?contact”(灰圓圈),從而避免正確的互譯詞對(duì)在短語(yǔ)抽取中被拆開,以便抽取到正確的短語(yǔ)互譯對(duì).即增加條件.

      圖2 約束對(duì)短語(yǔ)抽取的影響

      定義4 稱滿足條件:

      的短語(yǔ)為θ約束短語(yǔ),簡(jiǎn)稱為約束短語(yǔ),其中,sim(ei,fj)是詞匯相似度度量函數(shù),θ是閾值.

      3 詞匯相似度約束

      給出3種相似度度量函數(shù)作為sim(ei,fj):

      1)Dice系數(shù)(Dice Coefficient).

      設(shè):#(e)為目標(biāo)語(yǔ)詞e出現(xiàn)的頻次,#(f)為源語(yǔ)言詞f出現(xiàn)的頻次,#(e,f)為e和f共現(xiàn)的頻次,則這兩個(gè)詞的Dice系數(shù)定義為

      Dice系數(shù)的值介于[ 0,1]之間.數(shù)值越大表示兩個(gè)詞的相似度越高.

      2)Phi平方系數(shù) (Phi-Square Coefficient).

      在這種方法中,不僅要考察兩個(gè)詞同現(xiàn)的情況,還要考察兩個(gè)詞不同現(xiàn)的情況.為此,對(duì)于每一個(gè)源語(yǔ)言詞f和每一個(gè)目標(biāo)語(yǔ)詞e,作聯(lián)列表如表1所示.

      表1 聯(lián)列表

      表1中a為同時(shí)包含目標(biāo)語(yǔ)詞e和源語(yǔ)言詞f的句對(duì)數(shù),b為包含詞e,但不包含詞f的句對(duì)數(shù),c為不包含詞e,但包含詞f的句對(duì)數(shù),d=N-a-b-c是不包含詞e和f的句對(duì)數(shù),N為語(yǔ)料中句對(duì)總數(shù).

      Phi平方系數(shù)φ2是通過聯(lián)列表來(lái)計(jì)算兩個(gè)詞的相似度的常用方法.

      φ2的值也介于[ 0,1]之間,值越大表示兩個(gè)詞之間的相似度越高.

      3)對(duì)數(shù)似然比 (Log Likelihood Ratio,LLR).

      通過聯(lián)列表計(jì)算詞匯相似度的另一種方法是對(duì)數(shù)似然比,又稱為G2-統(tǒng)計(jì)量[10],定義為

      4 結(jié)果與討論

      4.1 嚴(yán)格短語(yǔ)模型和非嚴(yán)格短語(yǔ)模型的對(duì)比實(shí)驗(yàn)

      在IWSLT2004漢英翻譯數(shù)據(jù)集上測(cè)試并比較了Koehn的嚴(yán)格短語(yǔ)抽取方法和本文提出的非嚴(yán)格短語(yǔ)抽取方法.其中訓(xùn)練集為20 000句漢英句對(duì),測(cè)試集為500句漢語(yǔ)句子.在這里對(duì)數(shù)據(jù)集略作處理:利用哈工大分詞工具[11]對(duì)漢語(yǔ)部分重新進(jìn)行了分詞,英語(yǔ)部分則進(jìn)行了切分.嚴(yán)格短語(yǔ)抽取和解碼方面采用了Pharaoh工具包.在翻譯結(jié)果中去掉了除“′”以外的所有標(biāo)點(diǎn)符號(hào),并且合并了類似“I′ll”這樣的縮寫.翻譯結(jié)果采用BLEU自動(dòng)評(píng)價(jià)方法[12]進(jìn)行評(píng)價(jià),評(píng)價(jià)結(jié)果如表2所示.

      表2 嚴(yán)格短語(yǔ)抽取與非嚴(yán)格短語(yǔ)抽取的評(píng)價(jià)結(jié)果(BLEU)

      從表2中可以看出,對(duì)齊重組方法的不同對(duì)最終翻譯結(jié)果BLEU評(píng)分的影響較大.但是非嚴(yán)格短語(yǔ)抽取的BLEU評(píng)分普遍好于嚴(yán)格短語(yǔ)抽取(兩者基于intersect對(duì)齊的結(jié)果相同).這是因?yàn)榉菄?yán)格短語(yǔ)本身具有一定的抗噪聲能力,從而減輕了對(duì)詞對(duì)齊準(zhǔn)確性的要求.

      4.2 詞匯相似度約束的影響

      表3給出了不同約束策略對(duì)非嚴(yán)格短語(yǔ)抽取的影響.從總體上看,應(yīng)用約束后翻譯結(jié)果普遍有所提高.Dice系數(shù)約束對(duì)于BLEU評(píng)分提升幅度不大,效果不明顯.Phi平方系數(shù)約束在各種對(duì)齊重組方法下都能較為顯著地提高BLEU評(píng)分,因此是一個(gè)通用有效的約束策略.對(duì)數(shù)似然比約束只對(duì)union,grow,grow-diag這些詞對(duì)齊重組方法有效,在 grow-diag-final,grow-diag-final-and詞對(duì)齊重組方法下BLEU評(píng)分有顯著的降低.

      表3 不同約束策略下的評(píng)價(jià)結(jié)果(BLEU)

      Dice系數(shù)僅僅考慮了雙語(yǔ)詞同現(xiàn)的情況,沒有考慮不同現(xiàn)的情況,難以形成有效的約束,效果不好.Phi平方系數(shù)方法不僅考慮雙語(yǔ)詞同現(xiàn)的情況,還考慮了雙語(yǔ)詞不同現(xiàn)的情況,有利于避免間接共現(xiàn)這樣的問題,其約束效果比Dice系數(shù)方法要好.而對(duì)數(shù)似然比方法雖然對(duì)于低頻詞有比較好的效果,但是當(dāng)應(yīng)用于 grow-diag-final和grow-diag-final-and詞對(duì)齊重組方法時(shí),較易于僅將約束限制在新加入的對(duì)齊點(diǎn)上,反而限制了短語(yǔ)抽取的有效性;相反地,當(dāng)采用 union、grow、grow-diag這些能夠召回較多的詞對(duì)齊點(diǎn)的重組方法時(shí),由于有較多的對(duì)齊點(diǎn)進(jìn)行短語(yǔ)抽取,限制減少,其結(jié)果是3種約束策略中最好的.

      5 結(jié)論

      1)同樣的對(duì)齊重組方法,非嚴(yán)格短語(yǔ)模型的翻譯評(píng)價(jià)結(jié)果好于嚴(yán)格短語(yǔ)模型.

      2)詞匯相似度約束策略對(duì)于翻譯結(jié)果的影響:Dice系數(shù)約束策略效果不明顯;Phi平方系數(shù)約束策略普遍有效;對(duì)數(shù)似然比約束策略雖然只對(duì)union,grow,grow-diag 3種詞對(duì)齊重組方法有效,但在這3種方法上的結(jié)果卻是最好的.

      [1]WANG Y.Grammar Inference and Statistical Machine Translation[D].Pittsburgh:Carnegie Mellon University,1998.

      [2]OCH F J,NEY H.A systematic comparison of various statistical alignment models[J].Computational Linguistics, 2003,29(1):19-51.

      [3]KOEHN P,OCH F J,MARCU D.Statistical phrasebased translation[C]//Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology.Morristown NJ:Association for Computational Linguistics,2003:48-54.

      [4]MARCU D,WONG W.A phrase-based,joint probability model for statistical machine translation[C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing.Morristown NJ:Association for Computational Linguistics,2002:133-139.

      [5]ZHANG Y,VOGEL S,WAIBEL A.An integrated phrase segmentation and alignment algorithm for statistical machine translation[C]//Proceedings of International Conference on Natural Language Processing and Knowledge Engineering(NLP-KE′03).New York:IEEE Xplore,2003:567-573.

      [6]程崴.限定領(lǐng)域內(nèi)漢英口語(yǔ)的統(tǒng)計(jì)翻譯方法研究[D].北京:中國(guó)科學(xué)院自動(dòng)化研究所,2003.

      [7]VOGEL S,ZHANG Y,HUANG F,et al.The CMU statistical machine translation system[C]//Proceeding of the Ninth Machine Translation Summit. [S.l.]:[s.n.],2003:110-117.

      [8]MARCU D,WANG Wei,ECHIHABI A,et al.Spmt:Statistical machine translation with syntactified target language phrases[C]//Proceedings of the 2006 Conference on Empirical Methods in Natural Language.Morristown NJ:Association for Computational Linguistics,2006:44-52.

      [9]WATANABE T,TSUKADA H,ISOZAKI H.Left-toright target generation for hierarchical phrase-based translation[C]//Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics.Morristown NJ:Association for Computational Linguistics,2006:777-784.

      [10]DUNNING T.Accurate methods for the statistics of surprise and coincidence[J].Computational Linguistics, 1993,19(1):61-74.

      [11]趙鐵軍,呂雅娟,于浩,等.提高漢語(yǔ)自動(dòng)分詞精度的多步處理策略[J].中文信息學(xué)報(bào), 2001,15(1):13-18.

      [12]PAPINENI K,ROUKOS S,WARD T,et al.BLEU:A method for automatic evaluation of machine translation[C]//Proceedings of the 40th Annual Conference of the Association for Computational Linguistics(ACL-02).Morristown NJ:Association for Computational Linguistics,2002:311-318.

      Phrase extraction based on constraints of word similarities

      LIANG Hua-shen1,ZHAO Tie-jun1,XUE Yong-zeng2,SUN Jia-dong1

      (1.MOE-MS Key Lab of Natural Language Processing and Speech,Harbin Institute of Technology,Harbin 150001,China,hsliang@mtlab.hit.edu.cn;2.Dept.of New Media and Art,Harbin Institute of Technology,Harbin 150001,China)

      Aimed at the problem that the traditional phrase extraction method is strictly dependent on word alignments,and is not pruned to alignment errors,a loose phrase extraction method,which does not strictly depend on word alignments.In this method,constraints are posed on alignment points to avoid ill-formed phrase pairs.Three constraint strategies are proposed based on word similarities:Dice coefficient,Phi-square coefficient and log-likelihood ratio.Experiments were carried out on the corpus of IWSLT 2004.Results show that the BLEU scores of the best results of loose phrase extraction can be improved by 15.14%,compared with the baseline system Pharaoh.

      machine translation;statistical machine translation;phrase extraction;word similarity

      TP391

      A

      0367-6234(2010)05-0775-04

      2009-06-08.

      國(guó)家自然科學(xué)基金重點(diǎn)資助項(xiàng)目(60736014);國(guó)家高

      技術(shù)研究發(fā)展計(jì)劃重點(diǎn)資助項(xiàng)目(2006AA010208).

      梁華參(1982—),男,博士研究生;

      趙鐵軍(1962—),男,教授,博士生導(dǎo)師.

      (編輯 張 紅)

      猜你喜歡
      源語(yǔ)言語(yǔ)詞對(duì)數(shù)
      含有對(duì)數(shù)非線性項(xiàng)Kirchhoff方程多解的存在性
      指數(shù)與對(duì)數(shù)
      你是那樣美 唐心語(yǔ)詞
      歌海(2021年3期)2021-07-25 02:30:48
      指數(shù)與對(duì)數(shù)
      林巍《知識(shí)與智慧》英譯分析
      《老子》“自”類語(yǔ)詞哲學(xué)范疇釋要
      對(duì)數(shù)簡(jiǎn)史
      淺析日語(yǔ)口譯譯員素質(zhì)
      跨文化視角下對(duì)具有修辭手法諺語(yǔ)英譯漢的研究
      速讀·下旬(2016年7期)2016-07-20 08:50:28
      從文化理?yè)?jù)看英漢語(yǔ)詞翻譯
      龙山县| 河津市| 琼中| 精河县| 长汀县| 湖南省| 琼中| 大足县| 宣威市| 玛多县| 汉寿县| 成都市| 韩城市| 神木县| 泾阳县| 定西市| 宝鸡市| 宜川县| 巴楚县| 大荔县| 阳江市| 郑州市| 梅河口市| 兴国县| 蒙城县| 乌拉特前旗| 武平县| 绵竹市| 栾川县| 五河县| 西昌市| 罗源县| 黔南| 天全县| 邵武市| 万源市| 苏州市| 赤水市| 永春县| 临漳县| 新宁县|