• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      支持向量機(jī)在低信噪比語(yǔ)音識(shí)別中的應(yīng)用

      2013-07-11 09:36:36張雪英劉曉峰
      關(guān)鍵詞:特征參數(shù)識(shí)別率信噪比

      郭 超,張雪英,劉曉峰

      1.太原理工大學(xué) 信息工程學(xué)院,太原 0300242.太原理工大學(xué) 理學(xué)院 數(shù)學(xué)系,太原 030024

      支持向量機(jī)在低信噪比語(yǔ)音識(shí)別中的應(yīng)用

      郭 超1,張雪英1,劉曉峰2

      1.太原理工大學(xué) 信息工程學(xué)院,太原 030024
      2.太原理工大學(xué) 理學(xué)院 數(shù)學(xué)系,太原 030024

      語(yǔ)音識(shí)別技術(shù)的目的是使計(jì)算機(jī)能聽(tīng)懂人類的語(yǔ)言,實(shí)現(xiàn)人機(jī)語(yǔ)言通信,方便自然快捷地操作計(jì)算機(jī)。傳統(tǒng)的語(yǔ)音識(shí)別模型,如隱馬爾可夫模型(Hidden Markov Models,HMM)和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)都是基于統(tǒng)計(jì)學(xué)理論的,只有當(dāng)訓(xùn)練樣本集充分大時(shí),識(shí)別性能才會(huì)最好。但實(shí)際問(wèn)題中樣本數(shù)目有限,因而實(shí)際應(yīng)用中往往難以達(dá)到理想的效果。

      支持向量機(jī)是20世紀(jì)90年代中期興起的一種模式識(shí)別方法,其理論基礎(chǔ)是統(tǒng)計(jì)學(xué)習(xí)的理論(Statistical Learning Theory)中的結(jié)構(gòu)風(fēng)險(xiǎn)最小化(Structural Risk Minimization)原理和VC(Vapnik-Chervonenkis)維理論。與HMM、ANN等傳統(tǒng)的模式識(shí)別方法相比,SVM能較好地解決小樣本、過(guò)學(xué)習(xí)和局部極小點(diǎn)等實(shí)際問(wèn)題,具有更好的泛化能力和分類精確性。

      支持向量機(jī)具有很強(qiáng)的非線性分類能力。它通過(guò)引入核函數(shù)(需滿足Mercer條件),將輸入空間的非線性劃分問(wèn)題轉(zhuǎn)化為高維特征空間的線性劃分問(wèn)題,有效解決了有限樣本條件下構(gòu)建高維數(shù)據(jù)模型的問(wèn)題[1]。此外,采用核函數(shù)計(jì)算代替了高維空間中的內(nèi)積計(jì)算,避免了因維數(shù)升高而導(dǎo)致的計(jì)算困難,從而簡(jiǎn)化了計(jì)算。利用不同的核函數(shù),可以構(gòu)造不同的支持向量機(jī)。

      1 支持向量機(jī)

      當(dāng)訓(xùn)練樣本集為線性近似可分時(shí),需引入非負(fù)松弛變量ξi≥0,i=1,2,…,l,上述最優(yōu)分類超平面的求解問(wèn)題變?yōu)椋?/p>

      其中,C>0稱為懲罰參數(shù),C越大表示對(duì)錯(cuò)誤分類的懲罰越大。引入Lagrange乘子法可以將上述最優(yōu)化問(wèn)題轉(zhuǎn)化為一個(gè)二次規(guī)劃對(duì)偶問(wèn)題,即

      其中,αi為與第i個(gè)樣本對(duì)應(yīng)的Lagrange乘子,非零αi對(duì)應(yīng)的樣本點(diǎn)就是支持向量。對(duì)問(wèn)題(2)求解后,可以得到相應(yīng)的決策函數(shù):

      其中,α*i(至少有一個(gè)α*i≠0)為最優(yōu)解,b*為分類閾值,x為待識(shí)別的樣本。

      對(duì)于非線性可分的數(shù)據(jù)集,可以通過(guò)一個(gè)非線性函數(shù)φ()·將訓(xùn)練集數(shù)據(jù)x映射到一個(gè)高維線性特征空間Z,其對(duì)應(yīng)的決策函數(shù)變?yōu)椋?/p>

      其中,K(x ,xi)=φ(x)·φ(xi)稱為核函數(shù),它是輸入空間中的兩個(gè)樣本矢量映射到高維線性空間的像的內(nèi)積,即用核函數(shù)來(lái)代替映射函數(shù)φ(·)的內(nèi)積運(yùn)算。因此,只需要知道核函數(shù)K(x ,xi)就可以確定一個(gè)支持向量機(jī),而無(wú)需顯式地知道特征空間Z和映射函數(shù)φ(·)。

      目前常用的核函數(shù)有以下幾種:(1)多項(xiàng)式核函數(shù)

      (2)Gaussian徑向基(Radial Basis Function)核函數(shù)

      (3)Sigmoid核函數(shù)

      2 語(yǔ)音識(shí)別系統(tǒng)

      典型的語(yǔ)音識(shí)別系統(tǒng)包括預(yù)處理、特征提取和訓(xùn)練識(shí)別網(wǎng)絡(luò)等三個(gè)部分。對(duì)語(yǔ)音信號(hào)的預(yù)處理主要包括反混疊失真濾波、預(yù)加重以及端點(diǎn)檢測(cè)等內(nèi)容。經(jīng)過(guò)預(yù)處理后,對(duì)語(yǔ)音信號(hào)進(jìn)行特征提取。將這些特征數(shù)據(jù)保存成特定的特征文件作為SVM的輸入來(lái)進(jìn)行訓(xùn)練和識(shí)別。

      本實(shí)驗(yàn)預(yù)處理包括對(duì)原始語(yǔ)音信號(hào)進(jìn)行預(yù)加重、加窗和分幀等處理。預(yù)加重通過(guò)一個(gè)傳遞函數(shù)為H() z= 1-αz-1( ) 0.9<α<1.0的濾波器進(jìn)行濾波;加窗分幀選用Hamming窗。

      經(jīng)過(guò)預(yù)處理后,本實(shí)驗(yàn)提取改進(jìn)的MFCC參數(shù)作為語(yǔ)音特征參數(shù)。傳統(tǒng)的MFCC特征提取算法過(guò)程如下:語(yǔ)音信號(hào)在預(yù)處理分幀加窗后,通過(guò)離散傅里葉變換(DFT)得到其頻譜,然后將語(yǔ)音能量譜通過(guò)一組Mel頻率上均勻分布的濾波器,求出各個(gè)濾波器輸出,對(duì)其取對(duì)數(shù),并作離散余弦變換(DCT),即可得到MFCC參數(shù)。改進(jìn)的MFCC參數(shù)是將Bark小波變換取代DCT,由此得到的Mel頻率離散小波倒譜系數(shù)(Mel-Frequency Discrete Wavelet Cepstral Coefficients,MFDWCs)更符合人耳的聽(tīng)覺(jué)特性,魯棒性更好[3]。MFDWCs特征參數(shù)經(jīng)動(dòng)態(tài)時(shí)間調(diào)整進(jìn)行時(shí)間歸一化處理后,得到統(tǒng)一的1 024維的語(yǔ)音特征矢量序列,即每個(gè)輸入樣本維數(shù)為1 024。改進(jìn)的MFCC參數(shù)與傳統(tǒng)的MFCC參數(shù),利用SVM進(jìn)行語(yǔ)音識(shí)別的結(jié)果見(jiàn)表1。

      表1 改進(jìn)的MFDWCs參數(shù)與傳統(tǒng)MFCC參數(shù)識(shí)別率比較(%)

      提取出語(yǔ)音特征參數(shù)后,對(duì)特征參數(shù)進(jìn)行歸一化處理。歸一化的最大優(yōu)點(diǎn)在于統(tǒng)一基本度量單位,這樣可以避免同一維參數(shù)中,過(guò)大參數(shù)的權(quán)值作用掩蓋掉較小參數(shù)的權(quán)值作用。此外,歸一化還可以有效簡(jiǎn)化計(jì)算過(guò)程中的數(shù)值復(fù)雜度,加快收斂速度[4]。本文采用將參數(shù)值歸一化到[-1,1]的最大最小線性歸一法,對(duì)應(yīng)公式為:

      其中x和y分別為歸一化前后的原始值和目標(biāo)值,MinValue 和MaxValue為同一維屬性中的最小值和最大值。

      3 多類分類方法與實(shí)驗(yàn)環(huán)境

      SVM本身是一個(gè)兩類問(wèn)題的判別方法。對(duì)于小詞匯量的非特定人語(yǔ)音識(shí)別,需要將k個(gè)詞匯分開(kāi)( ) N>2。這是一個(gè)多類分類問(wèn)題,因此涉及到多類問(wèn)題到二類問(wèn)題的轉(zhuǎn)換。本實(shí)驗(yàn)采用一對(duì)一分類法來(lái)進(jìn)行SVM多類分類[5],即在k個(gè)不同類別訓(xùn)練集中找出所有不同類別的兩兩組合,構(gòu)建M=k( ) k-1 2個(gè)兩類分類器。將待識(shí)別樣本分別用M個(gè)SVM子分類器進(jìn)行測(cè)試,統(tǒng)計(jì)在M個(gè)決策函數(shù)結(jié)果中各類別的得票數(shù)。最后,得票數(shù)最多的類別為該待識(shí)別樣本的類別。若有兩個(gè)以上類別的得票數(shù)相等且最多,則判定該待識(shí)別樣本為標(biāo)號(hào)最小的類別。

      本實(shí)驗(yàn)使用9人在不同SNR(0 dB,5 dB,10 dB,15 dB,20 dB,25 dB,30 dB,無(wú)噪音)下的發(fā)音作為訓(xùn)練數(shù)據(jù)庫(kù),語(yǔ)音樣本分別為10詞、20詞、30詞、40詞、50詞韓語(yǔ)發(fā)音,且每人每個(gè)詞發(fā)音3次。因此,整個(gè)數(shù)據(jù)庫(kù)在不同SNR下分別有10、20、30、40、50個(gè)類別,對(duì)應(yīng)的訓(xùn)練樣本分別有270、540、810、1 080、1 350個(gè)。語(yǔ)音信號(hào)采樣率為11.025 kHz,語(yǔ)音幀長(zhǎng)為256點(diǎn),幀移為128點(diǎn)。語(yǔ)音中的噪聲為高斯白噪聲。使用另外7人在相應(yīng)SNR下的發(fā)音樣本作為識(shí)別數(shù)據(jù)庫(kù)。實(shí)驗(yàn)平臺(tái)為VC++6.0,實(shí)驗(yàn)工具為開(kāi)放源碼的LIBSVM[4]。

      實(shí)驗(yàn)中首先對(duì)SVM的懲罰參數(shù)C和Gaussian核參數(shù)γ利用網(wǎng)格搜索法進(jìn)行參數(shù)尋優(yōu)。將C分別取{20,21,22,…,214,215}等16個(gè)值,γ分別取{20,2-0.5,2-1,…,2-9.5,2-10}等21個(gè)值,使用這16×21對(duì)( ) C,γ組合分別利用訓(xùn)練數(shù)據(jù)庫(kù)訓(xùn)練SVM,從而將在不同詞匯量和不同信噪比情況下,綜合識(shí)別率最高的( ) C,γ組合作為最終的SVM參數(shù)。實(shí)驗(yàn)最終選定的參數(shù)為(C ,γ)=(29,2-9),得到如表1的不同信噪比和不同詞匯量下的識(shí)別準(zhǔn)確率,并與基于RBF神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別(輸入的特征參數(shù)為相同的MFDWCs)結(jié)果作比較。

      4 實(shí)驗(yàn)結(jié)果與結(jié)論

      從表2中可以看到,基于SVM識(shí)別網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng)比基于RBF人工神經(jīng)網(wǎng)絡(luò)更高的識(shí)別準(zhǔn)確率。在0~30 dB以及純凈語(yǔ)音的情況下,SVM的平均識(shí)別率均高于RBF人工神經(jīng)網(wǎng)絡(luò)的識(shí)別率。特別是在0 dB、5 dB低信噪比的情況下,SVM的識(shí)別率分別為87.53%、94.22%,而RBF的識(shí)別率分別為82.14%、91.98%,這表明SVM的識(shí)別精度下降比RBF要小很多,充分證明SVM具有非常良好的魯棒性和泛化性能。圖1是SVM與RBF在不同信噪比下的平均識(shí)別率的對(duì)比圖。

      本文主要研究了基于支持向量機(jī)的小詞匯量語(yǔ)音識(shí)別系統(tǒng)。與RBF人工識(shí)別網(wǎng)絡(luò)相比,特別是在低信噪比情況下,支持向量機(jī)具有更高的識(shí)別率。今后的工作中,需要進(jìn)一步從理論上研究SVM具有優(yōu)良抗噪性能的原因。此外,將對(duì)支持向量機(jī)在更大詞匯量語(yǔ)音識(shí)別系統(tǒng)中的性能進(jìn)行實(shí)驗(yàn)研究。

      表2 不同信噪比下SVM與RBF識(shí)別準(zhǔn)確率的比較(%)

      圖1 SVM與RBF平均識(shí)別準(zhǔn)確率的比較

      [1]Vapnik V N.Statistical learning theory[M].New York:John Wiley and Sons,1998.

      [2]鄧乃揚(yáng),田英杰.支持向量機(jī)——理論、算法與拓展[M].北京:科學(xué)出版社,2009.

      [3]Zhang Xueying,Bai Jing,Liang Wuzhou.The speech recognition system based on bark wavelet MFCC[C]//8th International Conference on Signal Processing.Beijing:[s.n.],2006:16-20.

      [4]Chang Chih-Chung,Lin Chih-Jen.LIBSVM:a library for support vector machines[EB/OL].[2010-10-15].http://www.csie. ntu.edu.tw/~cjlin/libsvm.

      [5]Hsu Chih-Wei,Lin Chih-Jen.A comparison of methods for multiclass support vector machines[J].IEEE Transactions on Neural Networks,2002,13(2).

      GUO Chao1,ZHANG Xueying1,LIU Xiaofeng2

      1.College of Information Engineering,Taiyuan University of Technology,Taiyuan 030024,China
      2.Department of Math,College of Science,Taiyuan University of Technology,Taiyuan 030024,China

      A low SNR speech recognition system for isolated words and non-specific speakers is constructed in this paper.Improved MFCC speech features(Mel-Frequency Discrete Wavelet Cepstral Coefficients,MFDWCs)are adopted and Support Vector Machines(SVM)is utilized as classification algorithm.The system obtains higher recognition accuracy,comparing to the results based on RBF Artificial Neural Network(ANN).The experimental results show SVM possesses better robustness than RBF ANN,especially in low SNRs.

      support vector machines;Gaussian kernel;speech recognition;low Signal Noise Ratio(SNR)

      采用改進(jìn)的MFCC語(yǔ)音特征參數(shù)(Mel頻率離散小波倒譜系數(shù)),使用支持向量機(jī)作為分類算法,構(gòu)建了低信噪比環(huán)境下的孤立詞非特定人語(yǔ)音識(shí)別系統(tǒng),取得了較高的識(shí)別率。將實(shí)驗(yàn)結(jié)果與基于RBF神經(jīng)網(wǎng)絡(luò)的識(shí)別結(jié)果進(jìn)行比較,結(jié)果表明在低信噪比時(shí),SVM的識(shí)別率比使用RBF神經(jīng)網(wǎng)絡(luò)有較大提高,具有非常好的魯棒性。

      支持向量機(jī);Gaussian核;語(yǔ)音識(shí)別;低信噪比

      A

      TN912

      10.3778/j.issn.1002-8331.1107-0460

      GUO Chao,ZHANG Xueying,LIU Xiaofeng.Application of support vector machines in low SNR speech recognition. Computer Engineering and Applications,2013,49(5):213-215.

      國(guó)家自然科學(xué)基金(No.61072087)。

      郭超(1987—),男,碩士研究生,主要研究領(lǐng)域?yàn)檎Z(yǔ)音信號(hào)處理;張雪英(1964—),女,教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)檎Z(yǔ)音信號(hào)處理;劉曉峰(1979—),男,博士研究生,講師,主要研究領(lǐng)域?yàn)橹悄芩惴?、?shù)值計(jì)算。E-mail:tyzhangxy@163.com

      2011-07-22

      2011-09-23

      1002-8331(2013)05-0213-03

      CNKI出版日期:2011-11-14 http://www.cnki.net/kcms/detail/11.2127.TP.20111114.0939.030.html

      猜你喜歡
      特征參數(shù)識(shí)別率信噪比
      故障診斷中信號(hào)特征參數(shù)擇取方法
      基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
      基于深度學(xué)習(xí)的無(wú)人機(jī)數(shù)據(jù)鏈信噪比估計(jì)算法
      基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
      低信噪比下LFMCW信號(hào)調(diào)頻參數(shù)估計(jì)
      提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
      低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
      基于PSO-VMD的齒輪特征參數(shù)提取方法研究
      高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
      于田县| 抚松县| 南投市| 五莲县| 屯门区| 昆山市| 牙克石市| 高碑店市| 新邵县| 廊坊市| 芜湖县| 南平市| 封丘县| 中超| 临猗县| 柳林县| 宿州市| 临沭县| 南漳县| 台东市| 宜君县| 常德市| 宜良县| 广元市| 西平县| 罗定市| 喜德县| 冷水江市| 犍为县| 罗源县| 太谷县| 平乡县| 大荔县| 上栗县| 紫云| 新化县| 长兴县| 景宁| 麻城市| 福清市| 静宁县|