• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      藏語N-gram語言模型中的平滑技術(shù)研究

      2019-12-11 02:14:52仁青吉
      關(guān)鍵詞:測試數(shù)據(jù)語料文本

      仁青吉

      (甘肅民族師范學(xué)院 藏區(qū)非遺重點(diǎn)實(shí)驗(yàn)室,甘肅 合作 747000)

      0 引言

      語言模型在一個識別系統(tǒng)中占據(jù)著非常重要的地位,比如說在一個識別系統(tǒng)中,當(dāng)出現(xiàn)一個同音字時,單憑聲學(xué)模型已經(jīng)不能正確的確定文本的內(nèi)容,因?yàn)閷τ趦蓚€同音的字來說機(jī)器光憑聲音是不能確定當(dāng)前讀的這個字是同音字當(dāng)中的哪一個,所以聲學(xué)模型描述和處理語音信號的能力有限,因此,光靠聲學(xué)模型還不能達(dá)到理想的效果.我們還有許多非聲學(xué)的模型,如句法、語義、語境等沒有善加利用,這時語言模型就起到了關(guān)鍵性和決定性的作用,一個可靠的語言模型對識別系統(tǒng)的識別率及效率起著至關(guān)重要的作用.

      1 建模平臺的搭建和語言模型的生成

      SRILM的主要目標(biāo)是支持語言模型的估計和評測.估計是從訓(xùn)練數(shù)據(jù)中得到一個模型,包括最大似然估計及相應(yīng)的平滑算法,而評測是從測試集中技術(shù)其困惑度.最基礎(chǔ)和最核心的模塊是n-gram模塊,這也是最早實(shí)現(xiàn)的模塊,包括兩個工具:ngram-count和ngram.在訓(xùn)練語言模型的時候主要是用ngram-count來生成訓(xùn)練文本的技術(shù)文件count,然后再利用命令ngram生成訓(xùn)練文本的語言模型,在這個過程中可以添加不同的參數(shù)來測試不同的平滑算法,ngram-count被用來估計語言模型,ngram生成訓(xùn)練文本的語言模型.本次實(shí)驗(yàn)所用到的語言建模工具為SRILM,其運(yùn)行于Linux操作系統(tǒng)環(huán)境下.

      圖1 語言模型生成過程

      訓(xùn)練和評測語言模型的的流程,分為三個步驟:

      1)由語料生成計數(shù)文件;

      2)由計數(shù)文件訓(xùn)練語言模型;

      3)利用已經(jīng)訓(xùn)練好的語言模型來計算測試數(shù)據(jù)的困惑度.

      基于統(tǒng)計的語言模型是從統(tǒng)計學(xué)的角度來統(tǒng)計某種語言單位(如詞、字、音素等)的分布概率,在具體的實(shí)驗(yàn)中,是生產(chǎn)某種語言文本的統(tǒng)計模型,給定句子集合:

      其中要統(tǒng)計每個單詞在該句子集合中出現(xiàn)的概率時,我們應(yīng)該用如下公式:

      p(wi|wi-1) = count(wi-1,wi) / count(wi-1)

      其中部分bigram的語言模型如下所示:

      由于基于統(tǒng)計的語言模型的生成首先是通過統(tǒng)計語料文本當(dāng)中的每一個已經(jīng)分好的語言單位比如詞、字等,所以我們開始要通過n-gram count來統(tǒng)計該文本當(dāng)中的語言單位.

      表1count實(shí)例

      表2 count實(shí)例

      表3 語言模型實(shí)例

      語言模型是用來計算一個句子概率的模型,如下公式所示:

      p(S)=p(w1,w2,w3,w4,w5,…,wn)

      =p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)

      其中p(S)代表語言模型,那么,如何計算p(wi|w1,w2,...,wi-1)才是最簡單、直接的方法呢?假設(shè)下一個詞的出現(xiàn)依賴它前面的一個詞,這樣語言模型叫bigram則有:

      p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)

      =p(w1)p(w2|w1)p(w3|w2)...p(wn|wn-1)

      假設(shè)下一個詞的出現(xiàn)依賴于它前面的兩個詞,這樣的語言模型叫trigram則有:

      p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)

      =p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|wn-1,wn-2)

      2 實(shí)驗(yàn)

      在做平滑算法測試實(shí)驗(yàn)的過程中,為了使平滑算法測試實(shí)驗(yàn)的結(jié)果更直觀且更有說服力,在做實(shí)驗(yàn)時不是把整個文本都拿到一起做平滑測試實(shí)驗(yàn),而是將整個文本進(jìn)行分塊,對語料進(jìn)行預(yù)先處理后要測試的文本的大小有20MB,依次將文本分成1∶4∶6∶8的比例,將這些分塊好的文本分別標(biāo)記為A、B、C、D,并將整個文件標(biāo)記為E,然后進(jìn)行算法測試.

      實(shí)驗(yàn)步驟:

      步驟一:

      Ngram-count -text train.txt

      -order 3

      -write train.count

      步驟二:

      Ngram-count -read train.count

      -order 3

      -lm Good-Turing.lm

      步驟三:

      Ngram-count -read train.count

      -order 3

      -lm Good-Turing3-7.lm

      -gt1min 3 -gt1max 7

      -gt2min 3 -gt2max 7

      -gt3min 3 -gt2max 7

      以Good-Turing為例,利用命令ngram生成訓(xùn)練文本的語言模型,在這個過程中可以添加不同的參數(shù)來測試不同的平滑算法,相應(yīng)的被用來估計語言模型和計算語言模型的困惑度.

      實(shí)驗(yàn)一

      實(shí)驗(yàn)數(shù)據(jù)描述:實(shí)驗(yàn)數(shù)據(jù)為藏語旅游風(fēng)俗文化和一些日常的生活用語,訓(xùn)練數(shù)據(jù)A(1 MB),測試數(shù)據(jù)(260 KB),測試結(jié)果見表4.

      表4對A的平滑測試

      實(shí)驗(yàn)二

      實(shí)驗(yàn)數(shù)據(jù)描述:實(shí)驗(yàn)數(shù)據(jù)為藏文新聞報刊類的文本,訓(xùn)練數(shù)據(jù)B(4MB),測試數(shù)據(jù)(255KB),測試結(jié)果見表5.

      表5對B的平滑測試

      實(shí)驗(yàn)三

      實(shí)驗(yàn)數(shù)據(jù)描述:實(shí)驗(yàn)數(shù)據(jù)為藏文新聞報刊類的文本,訓(xùn)練數(shù)據(jù)C(6MB),測試數(shù)據(jù)(255KB),測試結(jié)果見表6.

      表6對C的平滑測試

      實(shí)驗(yàn)四

      實(shí)驗(yàn)數(shù)據(jù)描述:實(shí)驗(yàn)數(shù)據(jù)為藏文新聞報刊類的文本,訓(xùn)練數(shù)據(jù)D(8MB),測試數(shù)據(jù)(255KB),測試結(jié)果見表7.

      表7對D的平滑測試

      實(shí)驗(yàn)五

      實(shí)驗(yàn)數(shù)據(jù)描述:實(shí)驗(yàn)數(shù)據(jù)為藏文新聞報刊類的文本,訓(xùn)練數(shù)據(jù)E(20MB),測試數(shù)據(jù)(255KB),測試結(jié)果見表8.

      表8對E的平滑測試

      圖2不同平滑算法對不同語言模型的困惑度比較

      3 總結(jié)

      從以上五個實(shí)驗(yàn)的五組實(shí)驗(yàn)數(shù)據(jù)中可以看出,分塊的A、B、C、D、E這五個不同大小的文本來說,Modified Kneser-Ney方法表現(xiàn)最好,Absolute方法表現(xiàn)比Good-Turing3-7好,Witten-Bell表現(xiàn)比Good-Turing 要好,最差的是Good-Turing3-7.當(dāng)數(shù)據(jù)量小時,Good-Turing方法和Witten-Bell相差不多,當(dāng)數(shù)據(jù)量增大時,Witten-Bell方法就明顯優(yōu)于Good-Turing.但是,平滑方法性能的好與不好是由很多因素決定的,沒有絕對的好與不好,應(yīng)該依據(jù)現(xiàn)有的條件而定.困惑度是對模型選擇下一個詞的范圍大小的度量,困惑度越小,識別器就越容易識別,困惑度越大,識別器的識別難度就越大.比如,對一個語音識別系統(tǒng)來說,困惑度就是表示識別器每次將會在多大的1個詞集合中選擇下一個詞.

      猜你喜歡
      測試數(shù)據(jù)語料文本
      在808DA上文本顯示的改善
      測試數(shù)據(jù)管理系統(tǒng)設(shè)計與實(shí)現(xiàn)
      基于doc2vec和TF-IDF的相似文本識別
      電子制作(2018年18期)2018-11-14 01:48:06
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      基于自適應(yīng)粒子群優(yōu)化算法的測試數(shù)據(jù)擴(kuò)增方法
      空間co-location挖掘模式在學(xué)生體能測試數(shù)據(jù)中的應(yīng)用
      體育科技(2016年2期)2016-02-28 17:06:21
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
      仪陇县| 理塘县| 肥城市| 阿拉善盟| 宜都市| 东宁县| 图们市| 枝江市| 武平县| 荥经县| 德令哈市| 峨眉山市| 金昌市| 高清| 湘西| 阿拉尔市| 贵州省| 淅川县| 噶尔县| 永登县| 华坪县| 贡嘎县| 南通市| 罗山县| 新闻| 孟村| 兴城市| 四平市| 沙坪坝区| 陇南市| 江都市| 上蔡县| 靖西县| 芜湖县| 顺平县| 大英县| 丹寨县| 抚宁县| 临武县| 攀枝花市| 积石山|