• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于子帶譜熵的二階CMN語音識(shí)別魯棒性研究

      2015-08-24 11:06:27謝楊梅
      池州學(xué)院學(xué)報(bào) 2015年6期
      關(guān)鍵詞:子帶端點(diǎn)信噪比

      謝楊梅,呂 釗

      基于子帶譜熵的二階CMN語音識(shí)別魯棒性研究

      謝楊梅1,呂釗2

      (1.池州學(xué)院數(shù)學(xué)與計(jì)算機(jī)學(xué)院,安徽池州247000;2.安徽大學(xué)計(jì)算智能與信號(hào)處理教育部重點(diǎn)實(shí)驗(yàn)室,安徽合肥230039)

      在自動(dòng)語音識(shí)別系統(tǒng)(ASR)中魯棒性是一個(gè)至關(guān)重要的問題,為了抑制訓(xùn)練和測試環(huán)境的失配,降低背景噪聲和信道傳輸對(duì)語音信號(hào)的影響,文章提出了一種基于子帶譜熵的二階CMN語音識(shí)別算法。該算法利用子帶譜熵在低信噪比下對(duì)語音信號(hào)進(jìn)行端點(diǎn)檢測具有較高穩(wěn)健性的特點(diǎn),將帶噪語音分割為背景噪聲段和語音信號(hào)段,為抑制噪聲和信道對(duì)語音識(shí)別系統(tǒng)的干擾,采用在不同的區(qū)間去除各自的倒譜平均值來實(shí)現(xiàn)。仿真實(shí)驗(yàn)結(jié)果表明,該算法克服了傳統(tǒng)CMN算法不能處理環(huán)境噪聲及傳輸信道對(duì)語音信號(hào)所產(chǎn)生的非線性畸變的缺點(diǎn),有效提高了語音識(shí)別系統(tǒng)的魯棒性。

      子帶譜熵;二階倒譜平均歸正;語音識(shí)別;魯棒性

      DOI:10.13420/j.cnki.jczu.2015.06.008

      1 引言

      在安靜的實(shí)驗(yàn)環(huán)境下,語音識(shí)別系統(tǒng)已經(jīng)達(dá)到了很高的識(shí)別水平,但在真實(shí)環(huán)境下,總是伴有噪聲和信道的干擾。因此,必然會(huì)引起系統(tǒng)性能的下降[1-3]。為了改善語音識(shí)別系統(tǒng)的魯棒性,Atal提出在句子中減去長時(shí)的倒譜均值的方法以去除信道的影響,將每一幀信號(hào)的倒譜系數(shù)都減去畸變語音信號(hào)倒譜參數(shù)的平均值,是目前采用比較多的一種算法,也被認(rèn)為是一種標(biāo)準(zhǔn)的信道特征補(bǔ)償算法[4]。但在實(shí)際操作中,信道及噪聲對(duì)語音信號(hào)產(chǎn)生的往往是非線性畸變,傳統(tǒng)的倒譜歸正算法不能取得理想的去噪效果。因此文章提出了一種基于子帶譜熵的二階倒譜平均歸正(Band-partitioning spectral Entropy Two Levels-Cepatral Mean Normalization,簡寫為BETL-CMN)算法,即利用子帶譜熵算法在低信噪比環(huán)境下具有較高端點(diǎn)檢測正確率的特點(diǎn),實(shí)現(xiàn)了對(duì)語音信號(hào)和背景噪聲的分段處理,通過在不同語音段上去除各自的倒譜平均值來補(bǔ)償信道的影響。

      2 倒譜平均歸正(CMN)

      倒譜平均歸正是一種常用的特征增強(qiáng)方法[5],其過程如下:

      給定一個(gè)語音信號(hào)y(m),對(duì)其進(jìn)行分幀處理后,進(jìn)行短時(shí)分析可計(jì)算出倒譜特征,從而獲得T個(gè)倒譜向量序列,這些矢量的平均yˉ為:

      倒譜平均歸正方法是將每個(gè)yt矢量都減去yˉ,從而獲得歸正后的倒譜矢量y?t,即:

      假設(shè)信號(hào)y(n)為源信號(hào)x(m)在濾波器h(m)上的響應(yīng)輸出。矢量h表示倒譜域上濾波器影響,則每個(gè)元素h 可表示為:

      式(3)中,B表示美爾頻帶的個(gè)數(shù),||H(ωk)表示h(m)在第k個(gè)頻帶的頻率響應(yīng)幅值。

      我們知道,對(duì)兩個(gè)時(shí)域卷積信號(hào)進(jìn)行傅里葉變換后,其運(yùn)算關(guān)系將會(huì)由卷積變?yōu)槌诵?,再通過對(duì)數(shù)運(yùn)算后可變成加性運(yùn)算,即:

      因此樣本的平均值yˉ為:

      考慮式(2)、(4)和式(5),其歸正的倒譜為:

      通過上述分析可以看出,倒譜平均歸正算法在計(jì)算發(fā)音均值時(shí)難以有效區(qū)分有聲段與無聲段,并且當(dāng)系統(tǒng)中噪聲與信道干擾不能被近似成為線性模型時(shí),其有效性將會(huì)受到較大影響。為了解決這一問題,基于子帶譜熵的二階倒譜歸正(BETLCMN)算法被提出了。

      3 BETL-CMN算法分析

      3.1噪聲及信道對(duì)語音信號(hào)倒譜的影響

      通常,在功率譜域,信道和噪聲對(duì)純凈語音分別具有如下的乘性和加性影響

      此處k=1,2,…,K,末尾的交叉項(xiàng)的均值為零,因?yàn)檎Z音x和噪聲n是相互統(tǒng)計(jì)獨(dú)立的。雖然對(duì)每幀來說,該項(xiàng)都不為零,但是如果我們在一定頻帶范圍內(nèi)對(duì)它求和(例如計(jì)算美爾三角濾波器組輸出能量),它的值通常比較小。所以對(duì)于美爾濾波器組輸出能量,語音、噪聲和信道之間的關(guān)系近似為

      對(duì)上式兩邊同時(shí)取對(duì)數(shù)得到失真的語音對(duì)數(shù)功率譜的形式

      從上式中可以看出,如果在加性噪聲較小的情況下,可以采用常規(guī)的CMN方法在倒譜域上抑制信道畸變對(duì)帶噪語音信號(hào)的影響。然而,在噪聲不能忽略的情況下,該方法在去噪時(shí)性能則表現(xiàn)得不盡如人意。

      3.2二級(jí)CMN方法

      為了處理由于信道傳輸及噪聲對(duì)語音信號(hào)產(chǎn)生的非線性畸變,有人提出采用二級(jí)CMN方法[2],對(duì)非線性通道畸變進(jìn)行分段線性處理,即先將語音信號(hào)分為語音和背景兩部分,并分別計(jì)算每部分倒譜矢量的平均值xˉb和xˉs,然后按式(10)計(jì)算每一幀補(bǔ)償后的倒譜系數(shù)x?t:

      3.3基于子帶譜熵的信號(hào)端點(diǎn)檢測

      為了實(shí)現(xiàn)將帶噪語音劃分為語音和背景兩部分,首先對(duì)帶噪語音信號(hào)進(jìn)行分幀與加窗處理,幀重疊率為50%,在此基礎(chǔ)上,對(duì)每幀信號(hào)進(jìn)行傅里葉變換,得到每幀信號(hào)頻率分量的能量譜,我們定義每個(gè)頻率分量歸一化譜概率密度函數(shù)為:

      上式中s(fi)表示頻率分量fi的譜能量,pi為對(duì)應(yīng)的概率密度,N為傅里葉變換點(diǎn)數(shù),i為待分析的某段語音幀。

      因此,譜熵[6-8]被定義為:

      式中H(l)是l幀語音信號(hào)的譜熵。從譜熵的性質(zhì)[3,4]可知,H(l)不是譜的能量而是基于譜的能量變化,所以譜熵參數(shù)在不同水平噪聲環(huán)境下具有一定的穩(wěn)健性。為了進(jìn)一步提高端點(diǎn)檢測的穩(wěn)健性,克服噪聲對(duì)每一譜點(diǎn)幅值的干擾,我們將一幀分成若干個(gè)子帶,再對(duì)每一子帶求譜熵,即:

      式中X(k,l)表示l幀語音k階頻點(diǎn)的幅度譜,Nb是每一幀的子帶數(shù)(如:Nb=32),Eb(m,l)表示第m子帶的子帶能量。因此,更新后子帶能量的概率為:

      故子帶譜熵[6]Hb(l)最終定義為:

      4 仿真實(shí)驗(yàn)與結(jié)果分析

      實(shí)驗(yàn)采用單通道對(duì)語音信號(hào)進(jìn)行采樣,采樣率為8KHz,采樣精度為16bit,實(shí)驗(yàn)噪聲來自于NOISEX-92數(shù)據(jù)庫。實(shí)驗(yàn)中,我們將原始純凈語音與噪聲信號(hào)按式(16)在不同信噪比下進(jìn)行混合。

      式中Ps和Pn分別表示語音信號(hào)的功率與噪聲信號(hào)的功率,si和ni分別為語音和噪聲信號(hào)的幅度,T是測試語音的長度。

      4.1端點(diǎn)檢測實(shí)驗(yàn)

      實(shí)驗(yàn)語音采樣率為8KHz,幀長設(shè)置為32ms(256個(gè)樣本點(diǎn)),幀移為16ms(128個(gè)樣本點(diǎn)),其內(nèi)容包含來自100個(gè)講話者的10個(gè)阿拉伯?dāng)?shù)字。圖1和圖2分別顯示了純凈語音及SNR=-5dB時(shí),使用子帶譜熵的方法進(jìn)行端點(diǎn)檢測的波形圖,紅線代表語音信號(hào)的起點(diǎn)與終點(diǎn)。

      圖1純凈語音信號(hào)波形及使用子帶譜熵進(jìn)行端點(diǎn)檢測波形

      圖2帶噪語音波形(SNR=0dB)及使用子帶譜熵進(jìn)行端點(diǎn)檢測波形

      從圖中可以看出,子帶譜熵的方法不僅可以較好地實(shí)現(xiàn)對(duì)純凈語音信號(hào)的端點(diǎn)檢測,而且在低信噪比環(huán)境下,由于譜熵是基于譜的能量變化而不是譜的能量,避免了噪聲與信道所帶來的對(duì)譜的能量的干擾,實(shí)現(xiàn)了低信噪比環(huán)境下端點(diǎn)檢測較高的魯棒性。

      表1中ZCR/AMP表示采用傳統(tǒng)能量/過零率算法;BSE(Band-partitioning Spectral Entropy)表示采用子帶譜熵算法。上表描述了在-5dB,0dB,5dB與10dB四種信噪比較環(huán)境下,分別使用ZCR/AMP與BSE進(jìn)行端點(diǎn)檢測的實(shí)驗(yàn)結(jié)果??梢钥闯?,子帶譜熵的端點(diǎn)檢測算法對(duì)不同噪聲不同信噪比的情況下對(duì)系統(tǒng)識(shí)別相比較傳統(tǒng)的能量/過零率算法都有明顯地提高,如對(duì)于SNR=20dB的白噪聲,應(yīng)用傳統(tǒng)的能量/過零率算法(ZCR/AMP)端點(diǎn)檢測正確率為95.6%,隨著信噪比的逐步降低,其檢測率也隨之下降,當(dāng)SNR=0dB時(shí),識(shí)別正確率降為82.5%。利用子帶譜熵(BSE)算法,在SNR=20dB識(shí)別率為99.6%,較ZCR/AMP算法提高了4%,當(dāng)SNR=0dB時(shí),識(shí)別率仍保持89.9%,較ZCR/AMP算法提高了7.4%。通過計(jì)算不同噪聲環(huán)境下端點(diǎn)檢測正確率的平均值可以看出,BSE算法相比較ZCR/AMP算法,在對(duì)語音信號(hào)起點(diǎn)的檢測上,其正確率提高約6.4%,而在終點(diǎn)的檢測上正確率提高更大,約為10.1%。

      表1 語音信號(hào)端點(diǎn)檢測正確率

      傳統(tǒng)的ZCR/AMP算法相比較BSE算法在信噪比降低時(shí)正確率下降,其原因可歸結(jié)于僅使用能量與過零率難以有效區(qū)分原始語音信號(hào)的清音與摩擦音,這將導(dǎo)致基于ZCR/AMP方法的端點(diǎn)檢測性能下降。而BSE算法由于計(jì)算的是基于譜能量的變化量,而不是譜能量,所以可以較好地區(qū)分出語音信號(hào)的起始點(diǎn)與終止點(diǎn)。

      4.2語音識(shí)別實(shí)驗(yàn)

      實(shí)驗(yàn)中所使用的語音數(shù)據(jù)庫采樣率為8KHz,包含來自100個(gè)講話者的10個(gè)阿拉伯?dāng)?shù)字與10個(gè)中文單詞所構(gòu)成的連續(xù)語音段。其中90位講話者用來訓(xùn)練非特定人語音識(shí)別模版,10位講話者用來進(jìn)行測試。為了提取MFCC特征參數(shù),幀長同樣取為32ms(256個(gè)樣本點(diǎn)),幀移為16ms(128個(gè)樣本點(diǎn)),并對(duì)原始語音信號(hào)進(jìn)行系數(shù)為0.97的預(yù)加重和漢明窗化,以提取靜態(tài)倒譜12特征參數(shù)基礎(chǔ)上與一階差分系數(shù),共24維特征參數(shù)。設(shè)置最大迭代次數(shù)為Nmax=40次,結(jié)束迭代概率門限Error=5e-6。在語音庫訓(xùn)練都收斂后,建立了10個(gè)采用自左向右的連續(xù)HMM模型參數(shù),其中訓(xùn)練的狀態(tài)數(shù)為6,高斯混合數(shù)是3。圖3至圖6分別代表了不同噪聲環(huán)境下的語音識(shí)別準(zhǔn)確率,其中,baseline表示原始帶噪語音信號(hào)直接送入識(shí)別器所獲取的識(shí)別精度;CMN表示采用普通倒譜歸正算法時(shí),語音識(shí)別器在識(shí)別精度;EZTL-CMN(Energy Zero-crossing Two Levels CMN)表示采用基于傳統(tǒng)能量/過零率算法進(jìn)行端點(diǎn)檢測的二階倒譜歸正算法;BETL-CMN表示采用基于子帶譜熵的二階倒譜歸正算法。

      圖3 白噪聲下的識(shí)別精度

      從實(shí)驗(yàn)結(jié)果中可以看出,由于CMN算法采用了對(duì)增強(qiáng)后語音失真和剩余噪聲的補(bǔ)償策略,從而改善了語音系統(tǒng)的識(shí)別性能,因此與基本識(shí)別系統(tǒng)相比,采用CMN算法的系統(tǒng)性能無論在何種噪聲環(huán)境下都明顯優(yōu)于基本識(shí)別系統(tǒng);基于能量/過零率的倒譜歸正(EZTL-CMN)算法雖然考慮到了語音信號(hào)的非線性畸變,但是通過表1的實(shí)驗(yàn)結(jié)果可以看出,該算法在低信噪比環(huán)境下對(duì)語音信號(hào)的端點(diǎn)檢測正確率不高,從而直接導(dǎo)致了語音識(shí)別系統(tǒng)正確率沒有明顯提高。而采用本文提出的基于子帶譜熵的二階倒譜歸正算法(BETL-CMN),其語音識(shí)別性能要優(yōu)于前面幾種算法,并且性能的提升的程度取決于噪聲的類型。比如對(duì)于白噪聲、汽車噪聲或飛機(jī)發(fā)動(dòng)機(jī)噪聲,BETL-CMN算法相比較基線系統(tǒng)平均提升了約40%(以SNR=5dB為例),尤其是在白噪聲情況下,其識(shí)別率提升更大,從21.0%提升到79.2%,提升了58.2%,這是因?yàn)檫@一類噪聲相對(duì)均勻地分布在整個(gè)頻帶上,在語音段內(nèi)減去其倒譜均值后能較好地保留了原始語音信息;而對(duì)于機(jī)槍噪聲,其系統(tǒng)提升率相對(duì)較少(僅為8.1%),原因可能是這類噪聲的能量主要集中在部分頻譜上,因此從頻域分析來看,對(duì)語音信號(hào)形成不均勻干擾,所以在語音段內(nèi)進(jìn)行倒譜規(guī)正后,有可能會(huì)影響到語音信號(hào)的原始信息,從而導(dǎo)致識(shí)別率下降。

      5 結(jié)語

      圖5 汽車噪聲下的識(shí)別精度

      為了抑制信道及噪聲對(duì)語音信號(hào)產(chǎn)生的非線性畸變,文章提出了基于子帶譜熵的二階倒譜歸正算法(BETL-CMN),該算法能在不同信噪比,尤其是在低信噪比環(huán)境下準(zhǔn)確進(jìn)行端點(diǎn)檢測,實(shí)現(xiàn)語音信號(hào)與背景噪聲的有效區(qū)分,然后使用傳統(tǒng)的CMN算法對(duì)背景噪聲信號(hào)進(jìn)行信道補(bǔ)償,以降低非線性信道畸變對(duì)語音識(shí)別系統(tǒng)的影響。仿真結(jié)果表明,BETL-CMN算法由于采用了分段線性模型處理方法,因此對(duì)語音信號(hào)的非線性畸變具有較好的去噪效果,同時(shí)相比較傳統(tǒng)的CMN算法及基于能量/過零率的二階CMN算法,語音識(shí)別系統(tǒng)魯棒性得以大幅度的提升。

      圖6 機(jī)槍噪聲下的識(shí)別精度

      [1]Gerkmann T,Krawczyk-Becker M and Le Roux J.Phase processing for single-channel speech enhancement[J].IEEE Signal Processing Magazine,2015,32(2):55-66.

      [2]何勇軍,韓紀(jì)慶.語音識(shí)別中帶寬失配的補(bǔ)償研究[J].計(jì)算機(jī)學(xué)報(bào),2011,34(9):1629-1637.

      [3]夏樂樂,孫永榮,王勇.基于自適應(yīng)噪聲估計(jì)的語音增強(qiáng)技術(shù)[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(23):225-228.

      [4]Atal BS.Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification and verification[J].J Acoust Soc Am,1974,55(6):1304-1312.

      [5]Yamamoto K,Jabloun F,einhard K,et al.Robust endpoint detection for speech recognition based on discriminative feature extraction[C]//IEEE Proceedings ICASSP,2006.

      [6]Wu BF and Wang KC.Robust endpoint detection algorithm based on the adaptive band-partitioning spectral entropy in adverse environments[J].IEEE Transaction on speech and audio processing,2005,13(5):762-775.

      [7]侯周國,錢盛友,姚暢.短時(shí)域語音端點(diǎn)檢測中譜熵算法的改進(jìn)[J].計(jì)算機(jī)工程與應(yīng)用,2006,42(21):55-56.

      [8]Misra H,Martigny S,Ikbal S,et al.Multi-resolution spectral entropy feature for robust ASR[C]//IEEE Proceedings ICASSP,2005.

      [責(zé)任編輯:桂傳友]

      TN912

      A

      1674-1102(2015)06-0023-04

      2015-09-24

      安徽高校省級(jí)優(yōu)秀青年人才基金項(xiàng)目(2011SQRL162);池州學(xué)院自然科學(xué)科研項(xiàng)目(2010ZR010)。

      謝楊梅(1979-),女,安徽池州人,池州學(xué)院數(shù)學(xué)與計(jì)算機(jī)學(xué)院講師,碩士,研究方向?yàn)橹悄苄畔⑻幚?,呂釗?979-),男,安徽宿州人,安徽大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院副教授,博士,研究方向?yàn)橹悄苄畔⑻幚砼c人機(jī)交互技術(shù)。

      猜你喜歡
      子帶端點(diǎn)信噪比
      非特征端點(diǎn)條件下PM函數(shù)的迭代根
      一種基于奇偶判斷WPT的多音干擾抑制方法*
      子帶編碼在圖像壓縮編碼中的應(yīng)用
      電子制作(2019年22期)2020-01-14 03:16:24
      基于深度學(xué)習(xí)的無人機(jī)數(shù)據(jù)鏈信噪比估計(jì)算法
      不等式求解過程中端點(diǎn)的確定
      低信噪比下LFMCW信號(hào)調(diào)頻參數(shù)估計(jì)
      電子測試(2018年11期)2018-06-26 05:56:02
      低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
      參數(shù)型Marcinkiewicz積分算子及其交換子的加權(quán)端點(diǎn)估計(jì)
      基于虛擬孔徑擴(kuò)展的子帶信息融合寬帶DOA估計(jì)
      基丁能雖匹配延拓法LMD端點(diǎn)效應(yīng)處理
      汉沽区| 九龙城区| 尚义县| 安阳县| 新巴尔虎左旗| 肥乡县| 淮北市| 化德县| 泰兴市| 龙海市| 西平县| 汕头市| 惠州市| 冷水江市| 电白县| 昌平区| 阳西县| 大冶市| 土默特左旗| 青海省| 大宁县| 怀柔区| 芦山县| 临汾市| 弋阳县| 米易县| 金昌市| 板桥市| 蛟河市| 临泉县| 项城市| 綦江县| 老河口市| 金堂县| 合江县| 大庆市| 滦平县| 卢龙县| 台安县| 喀喇| 达孜县|