• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于MFCC和IPA轉(zhuǎn)換的關(guān)鍵音檢索系統(tǒng)研究

      2016-07-04 06:20:35李志偉
      關(guān)鍵詞:國際音標(biāo)音頻文件檢索系統(tǒng)

      李志偉

      摘 要:海量視音頻信息檢索一直是人們研究與應(yīng)用的熱點(diǎn)。文章介紹的一種關(guān)鍵音檢索系統(tǒng),使用MFCC算法提取語音特征,調(diào)用Viterbi解碼算法和國際音標(biāo)模式庫,解碼得出該音頻文件對應(yīng)的國際音標(biāo)序列。并利用距離編輯算法計(jì)算得出關(guān)鍵詞在音頻文件各個(gè)時(shí)間點(diǎn)處的置信度,獲取檢索模塊輸出的檢索結(jié)果。本系統(tǒng)具有與待檢測語言無關(guān)的特點(diǎn),對普通話和英語的檢索準(zhǔn)確率不低于90%,且支持敏感度調(diào)節(jié)和多詞匯并行檢測的優(yōu)點(diǎn)。

      關(guān)鍵詞:語音檢索;MFCC算法;IPA

      中圖分類號:TN912.34 文獻(xiàn)標(biāo)識碼:A 文章編號:1006-8937(2016)02-0048-02

      1 概 述

      面對海量的視音頻信息流,依靠傳統(tǒng)的人工處理技術(shù)費(fèi)時(shí)費(fèi)力,急需要采用自動化的監(jiān)控和高效的信息檢索技術(shù)。而傳統(tǒng)的視音頻檢索技術(shù)主要依賴于人工標(biāo)注,所能搜索的范圍也受限于標(biāo)注信息,這遠(yuǎn)不能滿足快速增長的海量數(shù)據(jù)處理的需求,不能提供更準(zhǔn)確的基于內(nèi)容的檢索。與詞匯無關(guān)的關(guān)鍵詞檢測方法(Key Word Spotting,KWS),是在一段連續(xù)語音中找出給定的目標(biāo)詞的發(fā)音所出現(xiàn)的準(zhǔn)確時(shí)間段,并給出每個(gè)候選段的置信度。其缺點(diǎn)在于無法處理集外詞,對于比較自然隨意的語音(Spontaneous Speech)和在噪音的環(huán)境下,識別率會下降。

      國際音標(biāo),又稱國際語音字母(International Phonetic Alphabet,IPA),是用于為全世界所有語言注音的符號系統(tǒng)。它根據(jù)一符一音的原則把發(fā)音規(guī)則表示成相應(yīng)符號。通過最小的音素發(fā)音方式,就可以對任何語音進(jìn)行標(biāo)注。

      對于常用的語言,如漢語可以使用44個(gè)音標(biāo)標(biāo)注,英語50個(gè)標(biāo)注。

      本文介紹的語音檢索系統(tǒng)就是利用國際音標(biāo)的一符一音的原則,對于最小的發(fā)音單元“音素”進(jìn)行計(jì)算機(jī)建模。該系統(tǒng)基于MFCC算法,通過轉(zhuǎn)換預(yù)料庫成對應(yīng)的國際音標(biāo),經(jīng)Viterbi解碼和距離編輯算法檢索出結(jié)果,系統(tǒng)具備與詞匯無關(guān)和多關(guān)鍵詞檢測的特點(diǎn)。

      下面分別從MFCC算法、系統(tǒng)設(shè)計(jì)及其優(yōu)缺點(diǎn)三個(gè)方面進(jìn)行介紹。

      2 MFCC算法

      2.1 MFCC算法綜述

      目前最有效的提取語音特征的方法是MFCC或線性預(yù)測倒譜系數(shù)(LPCC)法。

      其中,MFCC特征提取方法是根據(jù)人耳對不同頻率的聲音信號具有不同的感知能力,且在頻域上聲音信號呈現(xiàn)非線性關(guān)系而提出。

      該方法首先對語音信號預(yù)加重、分幀、加窗處理,然后對每幀進(jìn)行離散傅里葉變換,得到在頻率域上的能量分布。

      根據(jù)人耳特性設(shè)置一組三角濾波器組,計(jì)算每個(gè)濾波器輸出的能量的對數(shù),再經(jīng)過離散余弦變換,得到一組系數(shù)即MFCC。

      2.2 具體步驟

      具體步驟如下:

      ①原始語音信號經(jīng)過預(yù)加重、分幀、加窗,用FFT轉(zhuǎn)化為頻域信號x(m),并計(jì)算其短時(shí)能量譜P(f)。將P(f)轉(zhuǎn)化為美爾坐標(biāo)上的頻率P(fmel)。

      ②在美爾頻域內(nèi)將三角帶通濾波器加于Mel坐標(biāo),得到濾波器組Hm(k),0≤m≤M0,M0為濾波器個(gè)數(shù).每個(gè)濾波器的中心頻率為f(m),每個(gè)帶通濾波器的傳遞參數(shù)為:

      MFCC充分考慮了人的聽覺特性,沒有任何前提假設(shè),具有良好的識別性能和抗噪能力。

      3 系統(tǒng)設(shè)計(jì)

      語音檢索系統(tǒng)的第一步,即是對獲取的音頻文件進(jìn)行去噪處理。

      其次,提取音頻文件的MFCC特征,并通過對不同語言的語料庫進(jìn)行訓(xùn)練,完善國際音標(biāo)模式庫,也即國際音標(biāo)的隱馬爾科夫模型。

      通過系統(tǒng)內(nèi)部“漢子—拼音—國際音標(biāo)”的映射表將待檢索的關(guān)鍵詞轉(zhuǎn)化為國際音標(biāo)。調(diào)用Viterbi解碼算法和國際音標(biāo)模式庫,解碼得出該音頻文件對應(yīng)的國際音標(biāo)序列。

      最后,利用距離編輯算法計(jì)算得出關(guān)鍵詞在音頻文件各個(gè)時(shí)間點(diǎn)處的置信度,獲取檢索模塊輸出的檢索結(jié)果,然后根據(jù)用戶對置信度區(qū)間的調(diào)節(jié)而動態(tài)的顯示。

      系統(tǒng)設(shè)計(jì)流程,如圖1所示。

      4 系統(tǒng)優(yōu)缺點(diǎn)

      建設(shè)國際音標(biāo)(IPA)的語音模式庫是音標(biāo)檢索系統(tǒng)的重要一環(huán)。對于該檢索系統(tǒng)來講,只要語言(或方言)能夠用國際音標(biāo)進(jìn)行標(biāo)注,均可以檢索。具體優(yōu)缺點(diǎn)如下。

      4.1 具有語言無關(guān)性

      將音頻文件轉(zhuǎn)換為國際音標(biāo)標(biāo)注,具有語言無關(guān)性的優(yōu)點(diǎn),支持任何一種語言的檢索。不需要知道語言的具體含義,只需要獲得關(guān)鍵詞的發(fā)音,即可用國際音標(biāo)進(jìn)行標(biāo)注,對音頻文件快速檢索。

      4.2 準(zhǔn)確率高,誤報(bào)率低

      普通話和英語檢索準(zhǔn)確率應(yīng)達(dá)到90%以上,誤報(bào)率低于10%。30 min音頻,搜索5個(gè)音素,耗時(shí)<1s。1h音頻,搜索5個(gè)音素,耗時(shí)約3~5 s。由于系統(tǒng)采用Viterbi算法對音頻MFCC特征文件進(jìn)行解碼,參與解碼的冗余音素較多,對系統(tǒng)的檢索速度和精度有一定影響。

      4.3 支持敏感度調(diào)節(jié)

      關(guān)鍵詞的音素序列在對本地音頻解碼得到的音素序列上進(jìn)行檢索,通過距離編輯算法計(jì)算得出每個(gè)音素對應(yīng)時(shí)間點(diǎn)處的置信度,從而在音頻的各個(gè)時(shí)間點(diǎn)處貼上了與關(guān)鍵詞的相似值(也稱置信度)的標(biāo)簽,從而用戶可以任意篩選自己需要得到的置信區(qū)間的音頻時(shí)間點(diǎn),具有敏感度調(diào)節(jié)的功能。

      5 結(jié) 語

      本文介紹了一種基于MFCC特征提取的關(guān)鍵音標(biāo)檢索系統(tǒng),該系統(tǒng)對提取的特征加以訓(xùn)練,并加入國際音標(biāo)映射表,經(jīng)Viterbi解碼,輸出音素序列,再經(jīng)距離編輯算法得出檢索結(jié)果。的音標(biāo)轉(zhuǎn)換的關(guān)鍵音檢索系統(tǒng),采用了基于MFCC算法。它具備與詞匯無關(guān)的關(guān)鍵詞檢測能力,同時(shí)又能夠提供較快速的搜索速度和準(zhǔn)確的檢測結(jié)果。支持多關(guān)鍵字并行檢索和敏感度調(diào)節(jié)的能力,對語音檢索系統(tǒng)的研究具有一定的理論參考意義。

      參考文獻(xiàn):

      [1] 王明合,張二華,唐振民,等.基于Fisher線性判別分析的語音信號端點(diǎn) 檢測方法[J].電子與信息學(xué)報(bào),2015,(6).

      [2] 李偉,吳及,呂萍.面向海量數(shù)據(jù)的語音敏感信息檢測系統(tǒng)[J].信息工程 大學(xué)學(xué)報(bào),2010,(5).

      [3] 牛濱,孔令志,羅森林,等.基于MFCC和GMM的個(gè)性音樂推薦模型[J].北 京理工大學(xué)學(xué)報(bào),2009,(4).

      猜你喜歡
      國際音標(biāo)音頻文件檢索系統(tǒng)
      國際音標(biāo)和漢語拼音之間的關(guān)聯(lián)
      收錄《信號處理》的檢索系統(tǒng)及數(shù)據(jù)庫
      信號處理(2018年1期)2018-09-03 07:53:04
      收錄《信號處理》的檢索系統(tǒng)及數(shù)據(jù)庫
      信號處理(2018年5期)2018-06-28 02:16:02
      本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫收錄
      信號處理(2018年4期)2018-06-27 03:34:16
      本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫收錄
      信號處理(2018年3期)2018-06-27 03:30:18
      自然拼讀法和國際音標(biāo)在英語教學(xué)中的應(yīng)用比較
      國際音標(biāo)的發(fā)展變化對我國教材音標(biāo)注音規(guī)范的啟示
      基于Android手機(jī)的音頻文件取證技術(shù)研究
      初中英語國際音標(biāo)教學(xué)模式初探
      提取APP中的音頻文件
      電腦愛好者(2015年5期)2015-09-10 07:22:44
      义乌市| 昌平区| 商南县| 买车| 黄浦区| 闵行区| 天柱县| 西平县| 易门县| 溧阳市| 榆林市| 金山区| 永济市| 赤水市| 马边| 雷山县| 高碑店市| 芒康县| 灌南县| 九龙城区| 鄂伦春自治旗| 紫金县| 思茅市| 盐城市| 千阳县| SHOW| 乳源| 时尚| 浙江省| 仪陇县| 拉萨市| 巴塘县| 昭平县| 湘阴县| 陆河县| 鄄城县| 宁阳县| 铜陵市| 景谷| 金昌市| 永川市|