• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于單詞分類的歸一化神經(jīng)網(wǎng)絡(luò)語言模型研究

      2017-01-11 10:40:44陳鉻亮徐佳
      福建工程學(xué)院學(xué)報 2016年4期
      關(guān)鍵詞:機器翻譯

      陳鉻亮, 徐佳

      (1.清華大學(xué) 交叉信息研究院,北京 100084; 2.中國科學(xué)院計算技術(shù)研究所,北京 100190)

      ?

      基于單詞分類的歸一化神經(jīng)網(wǎng)絡(luò)語言模型研究

      陳鉻亮1, 徐佳2

      (1.清華大學(xué) 交叉信息研究院,北京 100084; 2.中國科學(xué)院計算技術(shù)研究所,北京 100190)

      摘要:提出了一種基于單詞分類的神經(jīng)網(wǎng)絡(luò)語言模型,以解決歸一化問題。實驗方法為,在基礎(chǔ)翻譯系統(tǒng)中加入模型參數(shù),然后利用開發(fā)集調(diào)整參數(shù),再對測試集進(jìn)行翻譯,對比加入模型參數(shù)前后的翻譯質(zhì)量以及訓(xùn)練模型和翻譯過程所需時間。實驗結(jié)果表明,在保證歸一化的前提下,該模型的性能優(yōu)于Vaswani等人的模型,且翻譯質(zhì)量與Vaswani等人的模型相當(dāng)。

      關(guān)鍵詞:機器翻譯; 語言模型; 單詞分類

      自然語言處理是人工智能研究的一個重要領(lǐng)域,該領(lǐng)域的研究目的是讓計算機能夠理解并自動處理人類的自然語言。語言模型是自然語言處理研究中的一個重要模型,它的作用是衡量一段語料的通順程度。當(dāng)前,語言模型被廣泛運用于自然語言處理的各個方面,如語音識別,機器翻譯,輸入法和自動拼寫糾錯。

      上世紀(jì)50年代,Shannon提出了n元文法模型[1]。該模型用一段詞語序列出現(xiàn)的概率來衡量這段文字的通順程度。進(jìn)一步,該模型假定詞語序列是一個時齊馬氏鏈,出于實際應(yīng)用的需要,假定每一個詞在給定它之前至多n-1個詞(稱為該詞的歷史)的前提下與其他詞無關(guān)。雖然距今已經(jīng)六十多年,但n元文法模型依舊是最經(jīng)典的語言模型。

      傳統(tǒng)的n元文法模型利用n元組的相對頻率來估計每個詞給定其歷史的條件概率。隨著計算機性能的提升,神經(jīng)網(wǎng)絡(luò)方法開始廣泛運用于人工智能的各個領(lǐng)域,包括自然語言處理。2013年,Vaswani等人提出了一種基于神經(jīng)網(wǎng)絡(luò)的語言模型[2]。與傳統(tǒng)的n元文法模型不同,Vaswani等人從語料中提取出n元組,然后以每個n元組的前n-1個詞為輸入,第n個詞為輸出來訓(xùn)練神經(jīng)網(wǎng)絡(luò),得到一個神經(jīng)網(wǎng)絡(luò)語言模型。該網(wǎng)絡(luò)的輸入層為n-1個詞,輸出層的結(jié)點個數(shù)等于字典大小,其輸出正比于以這n-1個詞為歷史的單詞條件概率分布。

      一個概率模型,從理論上來說是需要歸一化的。然而,一旦字典變大,將網(wǎng)絡(luò)輸出歸一化就十分費時,這是實際應(yīng)用所不允許的。Vaswani等人引用了Min和Teh在研究中發(fā)現(xiàn)的一種高效的獲得近似歸一化結(jié)果的方法[2-3],巧妙地回避了這個問題。然而,這并不代表歸一化問題不存在。

      另一方面,Kneser和Ney在進(jìn)行語音識別的研究時,提出了利用單詞分類來提高效率的方法[4]。這啟發(fā)我們從另一個角度考慮歸一化問題的解決方法:產(chǎn)生歸一化問題的根本原因是字典太大,如果字典不大,那么歸一化就不需要太多時間,也就不存在效率問題了。于是,不考慮每個詞給定前n-1個詞的條件概率,而是先將單詞分類,然后考慮每個詞的類別給定前n-1個詞的類別的條件概率。這樣,輸出層的結(jié)點數(shù)就從字典大小降低為類別個數(shù),可以在實際應(yīng)用允許的條件下進(jìn)行歸一化。而且,采用單詞分類方法也可以減少語料的稀疏性對模型帶來的影響[4]。本文提出了一種基于單詞分類的神經(jīng)網(wǎng)絡(luò)語言模型,以解決歸一化問題。

      1 模型描述

      Kneser和Ney提出了基于單詞分類的n元文法模型[4]:

      其中,Chi為hi所屬類的序列。又假定在給定單詞w的所屬類Cw的情況下w與Ch獨立,即

      P(w|Cw,Ch)=P(w|Cw)

      假如只知道一個詞的所屬類和該類的單詞個數(shù),而對其他信息一無所知的話,沒有理由去假定這個詞在該類中比其他詞更頻繁或更不頻繁出現(xiàn)。所以,在上述模型的基礎(chǔ)上進(jìn)一步假定,每一類中的單詞給定其所屬類的條件概率相等,即

      于是有

      單一的單詞分類方法不能保證取得良好的翻譯質(zhì)量。為此,可采用多種單詞分類方法,對每種方法得到一個語言模型,最后將這些模型合并,得到最終的語言模型:

      其中,λm是權(quán)重系數(shù),可利用開發(fā)集來調(diào)整。

      2 模型的實現(xiàn)

      2.1單詞分類

      采用Kneser和Ney提出的統(tǒng)計學(xué)習(xí)方法[4],利用Och和Ney發(fā)布的工具GIZA++中的mkcls組件[5]將訓(xùn)練集的單詞分為100、200、300和400類。

      2.2訓(xùn)練語言模型

      得到單詞分類表后,先選擇每類中詞頻最高的單詞作為該類的代表,然后將訓(xùn)練集和開發(fā)集當(dāng)中的所有單詞都替換為該單詞所在類的代表,最后采用Vaswani等人的方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)語言模型,參數(shù)與Vaswani等人文章中的參數(shù)基本一致。最后共得到4個神經(jīng)網(wǎng)絡(luò)模型LM1-4。

      2.3測試集概率的計算

      2.4權(quán)重系數(shù)λm的確定

      權(quán)重系數(shù)根據(jù)模型在開發(fā)集上的翻譯質(zhì)量來調(diào)整。

      3 實驗及結(jié)果

      用機器翻譯實驗檢驗?zāi)P停瑢嶒瀮?nèi)容是漢語到英語的翻譯任務(wù)。

      訓(xùn)練集、開發(fā)集和測試集均取自IWSLT2014[6]的漢語-英語語料,使用雙語訓(xùn)練集的英語部分作為語言模型訓(xùn)練語料。語料的統(tǒng)計數(shù)據(jù)見表1,為方便僅列英文部分的統(tǒng)計數(shù)據(jù)。翻譯工具使用Moses[7],為Moses的默認(rèn)設(shè)置,采用短語翻譯模型[8],對齊工具用GIZA++[5],使用MERT[9]方法調(diào)整各模型的權(quán)重系數(shù)。

      首先以n元文法模型為語言模型進(jìn)行翻譯,以此為基準(zhǔn),對每個漢語句子輸出其最好的100個候選翻譯,作為基準(zhǔn)候選翻譯表,并取最好的翻譯候選作為基準(zhǔn)翻譯結(jié)果。隨后,對每個候選翻譯分別使用LM1-4求出對數(shù)概率,以此為特征加入基準(zhǔn)候選翻譯表,再根據(jù)開發(fā)集調(diào)整各模型的權(quán)重系數(shù),得到翻譯結(jié)果。為了與經(jīng)典的神經(jīng)網(wǎng)絡(luò)語言模型比較,按照文獻(xiàn)[2]中的參數(shù),訓(xùn)練了一個歸一化的神經(jīng)網(wǎng)絡(luò)語言模型LM0,并分別將其給出的對數(shù)概率加入基準(zhǔn)候選翻譯表,同樣調(diào)整權(quán)重系數(shù),得到翻譯結(jié)果。用BLEU[10]分?jǐn)?shù)來評價翻譯結(jié)果的好壞,分?jǐn)?shù)越高結(jié)果越好。

      表1 實驗所用語料的統(tǒng)計數(shù)據(jù)Tab.1 Statistics of experimental corpus

      實驗結(jié)果見表2。雖然LM1-4只考慮了分類信息而沒有考慮具體的單詞信息,但加入LM1-4的翻譯結(jié)果不遜于加入LM0的結(jié)果。也就是說,LM1-4在滿足歸一化要求的同時不會降低翻譯質(zhì)量。這個結(jié)果與Kneser和Ney的研究結(jié)果[4]一致。LM1-4翻譯結(jié)果良好的原因是,基于單詞分類的模型比基于具體單詞的模型更加穩(wěn)健,一定程度上解決了訓(xùn)練樣本稀疏性的問題。

      表2 翻譯實驗結(jié)果Tab.2 Result of translation in BLEU score %

      測試了訓(xùn)練LM0和LM1-4以及運用它們求測試集概率的耗時。測試所用計算機的CPU為Intel(R) Core(TM) i7-4700HQ雙核2.4GHz,內(nèi)存為4GB,均以8線程運行。

      測試結(jié)果見表3??梢钥闯觯琇M1-4在求測試集概率時的耗時要遠(yuǎn)短于LM0,這是符合預(yù)期的,因為歸一化所需時間與字典大小成正比,LM1-4的字典大小要遠(yuǎn)小于LM0,花在歸一化上的時間自然就更短。但在訓(xùn)練時間方面LM1-4要長于LM0,主要是因為單詞分類需要消耗大量時間,類別越多,分類所需時間就越長,LM4的單詞分類時間甚至超過了神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練時間。不過,考慮到在翻譯實務(wù)中需要面對遠(yuǎn)多于測試集的數(shù)據(jù),在翻譯速度上占優(yōu)的LM1-4顯然好于LM0。

      表3各模型訓(xùn)練和解碼耗時

      Tab.3Time taken for the training and decoding of models

      模型LM0LM1LM2LM3LM4訓(xùn)練時間/min828199134155解碼時間/s156045495552

      4 結(jié)語

      實驗證實了將單詞分類的方法運用到神經(jīng)網(wǎng)絡(luò)語言模型中以解決歸一化問題的可行性。在翻譯實踐中,歸一化模型是否優(yōu)于非歸一化模型,還需進(jìn)一步的研究;但在理論上,歸一化模型的數(shù)學(xué)基礎(chǔ)遠(yuǎn)比非歸一化的模型來得扎實可靠。

      參考文獻(xiàn):

      [1] Shannon C E.Prediction and entropy of printed English[J].Bell System Technical Journal, 1951, 30(1):50-64.

      [2] Vaswani A, Zhao Y, Fossum V, et al.Decoding with large-scale neural language models improves translation[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing.Seattle, America: Association for Computational Linguistics,2013:1387-1392.

      [3] Mnih A, Teh Y W.A fast and simple algorithm for training neural probabilistic language models[C]//Proceedings of the 29th International Conference on Machine Learning.Edinburgh: International Machine Learning Society,2012:1751-1758.

      [4] Kneser R, Ney H.Improved clustering techniques for class-based statistical language modelling[C]//Eurospeech'93.Berlin, Germany: International Speech Communication Association,1993:973-976.

      [5] Och F J, Ney H.A systematic comparison of various statistical alignment models//[J].Computational Linguistics, 2003, 29(1):19-51.

      [6] Koehn P, Hoang H, Birch A, et al.Moses: Open source toolkit for statistical machine translation[C]//Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions.Prague, Czech: Association for Computational Linguistics, 2007.177-180.

      [7] Koehn P, Och F J, Marcu D.Statistical phrase-based translation[C]// Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology.Edmonton, Canada: Association for Computational Linguistics, 2003.127-133.

      [8] Och F J.Statistical machine translation : from single word models to alignment templates[J].Rwth Aachen, 2002, 10(2):65-70.

      [9] Papineni K, Roukos S, Ward T, et al.BLEU: a method for automatic evaluation of machine translation[C]// Proceedings of the 40th Annual Meeting on Association for Computational Linguistics.Philadelphia, America: Association for Computational Linguistics, 2002.311-318.

      (責(zé)任編輯: 陳雯)

      Research on word classification-based normalized neural network language model

      Chen Geliang1, Xu Jia2

      (1.IIIS, Tsinghua University, Beijing 100084, China; 2.ICT, Chinese Academy of Sciences, Beijing 100190, China)

      Abstract:A word classification-based neural network language model was proposed to resolve normalization problems.Model parameters were introduced to the basic translation system, which were adjusted by development sets.The test sets were translated.The translation quality and training model and the time taken by the translation were compared.The results indicate that the model is superior to that of Vasvani in performance with its translation quality being similar to that of Vasvani.

      Key words:machine translation; language model; word classification

      doi:10.3969/j.issn.1672-4348.2016.04.014

      收稿日期:2016-07-22

      基金項目:國家自然科學(xué)基金(61033001);國家自然科學(xué)基金(61361136003)

      第一作者簡介:陳鉻亮(1990-),男,福建福州人,碩士研究生,研究方向:機器翻譯,自然語言處理,人工智能。

      中圖分類號:TP391.2

      文獻(xiàn)標(biāo)志碼:A

      文章編號:1672-4348(2016)04-0382-04

      猜你喜歡
      機器翻譯
      海量數(shù)據(jù)機器單詞中關(guān)鍵語義篩選方法研究
      機器翻譯不可盲取
      青春歲月(2017年1期)2017-03-14 11:28:47
      信息時代下機器翻譯的“可譯”與“不可譯”
      互聯(lián)網(wǎng)+新時代下人機翻譯模式研究
      考試周刊(2017年2期)2017-01-19 09:13:50
      “語聯(lián)網(wǎng)+行業(yè)” 助力中國偉大復(fù)興
      考試周刊(2017年2期)2017-01-19 09:12:54
      大數(shù)據(jù)背景下石油科技翻譯
      智富時代(2016年12期)2016-12-01 17:03:10
      機器翻譯不可盲取
      基于免費在線翻譯工具的機器翻譯缺陷探討
      漢哈機器翻譯中的文字轉(zhuǎn)換技術(shù)研究
      機器翻譯句法錯誤分析
      大悟县| 南康市| 陈巴尔虎旗| 苗栗县| 景洪市| 洛浦县| 晋中市| 尚志市| 无极县| 青海省| 手游| 济南市| 北安市| 敖汉旗| 平乡县| 延吉市| 三亚市| 清镇市| 来安县| 土默特左旗| 峨边| 阳江市| 潜山县| 灵寿县| 教育| 庆云县| 新巴尔虎左旗| 松滋市| 无为县| 白银市| 普兰县| 安溪县| 安顺市| 周宁县| 阳城县| 永和县| 普兰县| 常德市| 潮州市| 和龙市| 永康市|