• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于自適應(yīng)超高斯混合模型的語音增強(qiáng)算法

      2014-07-25 09:20:42趙改華張雄偉
      數(shù)據(jù)采集與處理 2014年2期
      關(guān)鍵詞:譜估計(jì)幅度高斯

      趙改華 周 彬 張雄偉

      (解放軍理工大學(xué)指揮信息系統(tǒng)學(xué)院,南京,210007)

      引 言

      在語音通信過程中,語音信號不可避免地會受到噪聲的干擾,影響通信質(zhì)量和語音信號的后續(xù)處理,語音增強(qiáng)技術(shù)是從帶噪語音中盡可能提取原始純凈語音的重要手段,在提高語音可懂度、改善語音通信質(zhì)量等方面有重要的應(yīng)用。在眾多的增強(qiáng)技術(shù)中基于統(tǒng)計(jì)模型的短時譜估計(jì)法以其復(fù)雜度低和相對有效的特點(diǎn),長期以來受到了廣大研究者的廣泛關(guān)注。

      基于統(tǒng)計(jì)模型的短時譜估計(jì)語音增強(qiáng)算法,主要是在不同的語音和噪聲先驗(yàn)分布模型假設(shè)條件下,依據(jù)一定的準(zhǔn)則,如:最小均方誤差(Minimum mean square error,MMSE)、最大后驗(yàn)概率(Maximum a prosteriori,MAP)、最大似然值(Maximum likelihood,ML),對語音信號的短時譜進(jìn)行最優(yōu)估計(jì)。經(jīng)典的基于統(tǒng)計(jì)模型的短時譜估計(jì)法是由Ephraim和Malah提出的基于高斯模型的最小均方誤差短時幅度譜(Short-time spectral amplitude-minimum mean square error,STSAMMSE)[1]估計(jì)算法。對語音信號統(tǒng)計(jì)模型的深入研究表明,超高斯模型更符合語音信號的實(shí)際分布[2],據(jù)此,研究者提出了許多改進(jìn)算法,例如文獻(xiàn)[3~6]提出的基于超高斯語音模型的短時譜估計(jì)算法,包括基于超高斯模型的復(fù)頻譜MMSE估計(jì)算法、基于超高斯模型的幅度譜MAP估計(jì)算法、基于Gamma模型的DCT域MMSE估計(jì)算法和基于超高斯模型的對數(shù)譜MMSE估計(jì)算法,相對于基于高斯模型的增強(qiáng)算法增強(qiáng)效果有所提升。

      上述增強(qiáng)算法都假設(shè)語音信號幅度譜服從單一的分布函數(shù),而事實(shí)上,由于語音信號產(chǎn)生的復(fù)雜性及其非平穩(wěn)性,其分布很難用單一的函數(shù)準(zhǔn)確描述[7]。因此,研究者提出了一些利用較為復(fù)雜的混合模型為語音信號建模的新方法,如文獻(xiàn)[8]提出的基于高斯混合模型復(fù)頻譜MMSE估計(jì)算法,文獻(xiàn)[9]提出的基于瑞利混合模型的幅度譜MMSE估計(jì)算法,近年來,研究者提出了一些高斯混合模型的改進(jìn)模型來進(jìn)一步提高增強(qiáng)效果,例如:文獻(xiàn)[10]提出的基于高斯尺度混合模型的對數(shù)譜估計(jì)算法,文獻(xiàn)[11]提出的基于超高斯混合模型的幅度譜MMSE估計(jì)算法。相對于采用單一模型的增強(qiáng)算法,增強(qiáng)效果有較大提高。然而,這些混合模型對每幀語音信號建模時所用的混合分量及其權(quán)重都是固定的,而事實(shí)上,語音信號幅度譜的實(shí)際分布是動態(tài)變化的,每個混合分量與當(dāng)前語音信號的相似度也是變化的,因此,固定的權(quán)重并不合理。同時,有些混合分量與當(dāng)前語音信號相差較大的,將其引入混合模型不利于逼近當(dāng)前語音信號的實(shí)際分布[12]。

      針對上述算法存在的問題,本文提出了一種基于超高斯混合模型的語音增強(qiáng)算法。首先,采用EM算法將語音信號分為多個分量;然后,在增強(qiáng)過程中選擇與當(dāng)前幀相似度較大的部分混合分量,并利用初始增強(qiáng)語音更新選中混合分量的概率密度函數(shù)(Probability density function,PDF);其次,估計(jì)對應(yīng)每個選中混合分量的幅度譜最小均方誤差估計(jì)式,并依據(jù)混合分量與當(dāng)前幀的相似度更新對應(yīng)的子類增強(qiáng)語音的權(quán)重;最終的增強(qiáng)語音由子類增強(qiáng)語音的加權(quán)和獲得。

      1 傳統(tǒng)短時譜估計(jì)算法

      假設(shè)s(n)表示純凈語音信號,x(n)表示加性噪聲信號,那么時域帶噪語音信號可表示為y(n)=s(n)+x(n),對時域帶噪語音信號進(jìn)行分幀、加窗和STFT變換,得到帶噪語音信號在頻域內(nèi)的表示為

      式中:l(l=0,1,2,…)表示幀序號;k(k=0,1,…)表示頻帶序號,用幅度和相位表示為

      一般地,假設(shè)噪聲復(fù)頻域系數(shù)的實(shí)部和虛部分別服從高斯分布,則噪聲幅度譜系數(shù)服從瑞利分布[8],表示為

      式中表示噪聲系數(shù)方差。假設(shè)語音復(fù)頻域系數(shù)的實(shí)部和虛部也分別服從高斯分布,則語音幅度譜系數(shù)服從瑞利分布,表示為

      式中表示語音系數(shù)方差,純凈語音的MMSE估計(jì)式為[1]

      2 本文算法

      如前文所述,語音信號的復(fù)雜性和非穩(wěn)定性決定了用單一的函數(shù)描述語音信號幅度譜的分布是不準(zhǔn)確的,據(jù)此,本文提出了基于自適應(yīng)超高斯混合模型的語音增強(qiáng)算法,不僅可以更好地逼近當(dāng)前語音信號的實(shí)際分布,而且可以跟蹤語音信號幅度譜分布隨幀移的動態(tài)變化。算法可分為3個模塊:訓(xùn)練模塊、預(yù)處理模塊、增強(qiáng)模塊,如圖1所示。

      圖1 算法流程圖Fig.1 Flowchart of the proposed algorithm

      2.1 訓(xùn)練模塊

      訓(xùn)練模塊作用是采用超高斯混合模型,將語音信號分為多個分量,并確定每個分量的初始PDF及權(quán)重。每個分量采用文獻(xiàn)[4]推導(dǎo)的語音信號幅度譜的超高斯分布建模為

      通過不同的參數(shù)(μ,ν)取值,式(6)可以非常精確地逼近對應(yīng)的Gamma和Laplace分布。大量實(shí)驗(yàn)數(shù)據(jù)表明語音信號幅度譜的實(shí)際分布介于Gamma分布和Laplace分布之間,本文采用能夠較為準(zhǔn)確地逼近語音信號幅度譜實(shí)際分布的參數(shù)組:(μ=1.74,ν=0.126)[4]。語音信號幅度譜的超高斯混合分布表示為C個子分量的加權(quán)和,表示為

      式中ωc表示每個分量的權(quán)重,且滿足限制條件

      2.2 增強(qiáng)模塊

      增強(qiáng)模塊是整個算法的核心部分。首先,選擇與初始增強(qiáng)語音似然值最大的I個分量并更新其PDF;然后,利用更新之后的PDF計(jì)算對應(yīng)選中分量的最小均方誤差估計(jì)式,并利用初始增強(qiáng)語音與對應(yīng)分量的似然值計(jì)算子類增強(qiáng)語音的權(quán)重;子類增強(qiáng)語音加權(quán)求和即得到最終的增強(qiáng)語音。

      2.2.1 子類的選擇及更新

      式中η表示模型更新的速度,在試驗(yàn)中觀察到η=0.95較為合適。

      2.2.2 子類增強(qiáng)語音及其權(quán)重的估計(jì)

      假設(shè)噪聲服從高斯分布,則語音信號的幅度譜的MMSE估計(jì)式表示為[1]

      式(11)中零階貝塞爾函數(shù)可以近似表示為[13]

      假設(shè)語音信號的幅度譜服從超高斯分布,將近似式(12,6)代入式(11),根據(jù)文獻(xiàn)[13]中的公式3.462.1,求積分獲得I類增強(qiáng)語音的幅度譜MMSE估計(jì)式為

      3 實(shí)驗(yàn)仿真

      仿真實(shí)驗(yàn)在MATLAB環(huán)境下進(jìn)行,將本文提出的增強(qiáng)算法與以下2種算法進(jìn)行比較,包括:文獻(xiàn)[6]提出的基于超高斯模型的MMSE對數(shù)譜估計(jì)法;文獻(xiàn)[9]提出的基于瑞利混合模型的MMSE幅度譜估計(jì)法。為簡化表示,這兩種算法分別表示為Super-gauss,RMM。本文提出的算法表示為:SGMM。

      采用標(biāo)準(zhǔn)語音庫timit中的純凈語音對超高斯混合模型進(jìn)行訓(xùn)練。原始噪聲信號從標(biāo)準(zhǔn)噪聲庫Noisex92中選取,包括高斯白噪聲、汽車噪聲,并下采樣為8kHz。純凈語音信號為標(biāo)準(zhǔn)語音庫timit中的標(biāo)準(zhǔn)漢語語音信號,采用8kHz采樣,時間長度約為8s,男女聲各8句。利用MATLAB對噪聲信號和純凈語音進(jìn)行混和,信噪比分別定為0,5,10dB。噪聲估計(jì)采用統(tǒng)計(jì)最小量跟蹤算法[14],先驗(yàn)信噪比計(jì)算采用面向判決的方法[1]為

      式中α=0.98,采用增強(qiáng)后和增強(qiáng)前語音分段信噪比提高量來衡量不同短時譜估計(jì)算法的噪聲抑制性能,分段信噪比定義為

      表1給出了在不同噪聲和信噪比條件下3種算法的分段信噪比的提高量。從表中可以看出,相較于單一成分的Super-gauss短時譜估計(jì)算法,由于采用了多種成分加權(quán)疊加的方式來更為精確地逼近語音信號的實(shí)際分布,RMM算法和本文提出的SGMM算法在抑制噪聲方面有更為顯著的效果。

      表1 3種算法的分段信噪比提高量 dBTable 1 Improved segmental SNR of three algorithms

      采用對數(shù)頻譜距離LSD衡量增強(qiáng)語音的失真度,對數(shù)譜距離定義為

      圖2給出了在不同噪聲和信噪比條件下的LSD改進(jìn)曲線。LSD是一種語音信號失真測度,測度值越小表明語音信號譜失真越小,語音質(zhì)量越接近原始語音。從圖中可以看出,相較于固定模型的Super-gauss和RMM兩種譜估計(jì)算法,本文提出的基于自適應(yīng)超高斯混合模型的譜估計(jì)算法能夠更好地描述原始語音的分布,增強(qiáng)語音的失真度更小。

      圖2 對數(shù)頻譜距離改進(jìn)曲線Fig.2 Improved LSD curve

      采用客觀質(zhì)量評估方法PESQ衡量增強(qiáng)語音的質(zhì)量。表2給出了在不同噪聲和信噪比條件下的PESQ評估結(jié)果,從表2中可以看出,本文算法的增強(qiáng)語音的PESQ得分都明顯高于其他兩種譜估計(jì)算法,說明其具有更好的感知質(zhì)量,主觀測試也驗(yàn)證了這一結(jié)論。

      表2 四種算法PESQ評估得分Table 2 PESQ scores of four algorithms

      由于在增強(qiáng)階段,對于每幀語音信號都要重新選擇混合分量并更新其權(quán)重,因此增強(qiáng)效果的提升是以計(jì)算量的增加為代價的。這也是許多類似自適應(yīng)增強(qiáng)算法共同存在的情況[15]。

      4 結(jié)束語

      本文提出了一種新的基于自適應(yīng)超高斯混合模型的語音增強(qiáng)算法,不僅將混合模型應(yīng)用于超高斯幅度譜分布,且自適應(yīng)更新模型參數(shù),相對于傳統(tǒng)的信號模型,本文提出的自適應(yīng)超高斯混合模型能夠更好地逼近語音信號的實(shí)際分布。仿真結(jié)果也驗(yàn)證了本文提出算法的優(yōu)越性,不僅提高了噪聲抑制性能,而且增強(qiáng)語音的失真度也有所下降。在下一步的工作中將針對噪聲信號的非平穩(wěn)性對噪聲模型進(jìn)行優(yōu)化,有望提高算法的增強(qiáng)效果。

      [1] Ephraim Y,Malah D.Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator[J].IEEE Trans Acoust Speech,Signal Process,1984,32(6):1109-1121.

      [2] Gazor S,Zhang W.Speech probability distribution[J].IEEE Signal Process Lett,2003,10(7):2042-207.

      [3] Martin R.Speech enhancement based on minimum mean-square error estimation and super Gaussian priors[J].IEEE Trans Speech Audio Process,2005,13(5):845-856.

      [4] Lotter T,Vary P.Speech enhancement by MAP spectral amplitude estimation using a super-Gaussian speech model[J].Eurasip J Signal Process,2005,(7):1110-1126.

      [5] 鄒霞,陳亮,張雄偉.一種基于Gamma語音模型的語音增強(qiáng)算法[J].通信學(xué)報(bào),2006,27(10):118-123.

      Zou Xia,Cheng Liang,Zhang Xiongwei.Speech enhancement with Gamma speech modeling[J].Journal on Communications,2006,27(10):118-123.

      [6] Hendriks R C.Heusdens R,Jensen J.Log-spectral magnitude MMSE estimators under super-gaussian densities[J].Inter Speech,2009,10(6):1319-1322.

      [7] Ephraim Y.A Bayesian estimation approach for speech enhancement using hidden Markov models[J].IEEE Trans Acoust Speech,Signal Process,1992,40(4):725-735.

      [8] Ding Guohong,Wang Xia,Cao Yang,et al.Speech enhancement based on speech spectral complex Gaussian mixture model[C]//IEEE Int Conf Acoustic,Speech,Signal Process(ICASSP).Philadephia,USA:IEEE,2005:165-168.

      [9] Erkelens J S,Jensen J,Heusdens R.Speech enhancement based on Rayleigh mixture modeling of speech spectral amplitude distributions[C]//European Signal Proc Conf(EUSIPCO).Poznan,Poland:[s.n.],2007:65-69.

      [10]Hao Jiucang,Lee Te-Won.Speech enhancement using Gaussian scale mixture models[J].IEEE Trans on ASLP,2010,18(6):1127-1136.

      [11]Wang Haiyan,Zhao Xiaohui,Gu Haijun.Speech enhancement using super gauss mixture model of speech spectral amplitude[J].The Journal of China University of Posts and Telecommunications,2011,18(1):13-18.

      [12]Jancovic P,Zou X,K?küer M.Speech enhancement based on sparse code shrinkage employing multiple speech models[J].Speech Communication,2012,54:108-118.

      [13]Gradshteyn I S,Ryzhik Z M.Table of integrals,series,and products[M].New York:Academic,1980.

      [14]Martin R.Noise power spectral density estimation based on optimal smoothing and minimum statistics[J].IEEE Transactions on Speech and Audio Processing,2001,9(5):504:512.

      [15]曹斌芳,李建奇.基于自適應(yīng)仿生小波變換的語音增強(qiáng)方法[J].數(shù)據(jù)采集與處理,2010,25(6):741-745.

      Cao Binfang,Li Jianqi.Speech enhancement method based on adaptive bionic wavelet transform[J].Journal of Data Acquisition and Processing,2010,25(6):741-745.

      猜你喜歡
      譜估計(jì)幅度高斯
      小高斯的大發(fā)現(xiàn)
      天才數(shù)學(xué)家——高斯
      微波超寬帶高速數(shù)控幅度調(diào)節(jié)器研制
      基于MATLAB實(shí)現(xiàn)的AR模型功率譜估計(jì)
      基于ANSYS的四連桿臂架系統(tǒng)全幅度應(yīng)力分析
      經(jīng)典功率譜估計(jì)方法的研究
      有限域上高斯正規(guī)基的一個注記
      Welch譜估計(jì)的隨機(jī)誤差與置信度
      2014年中期預(yù)增(降)幅度最大的50家上市公司
      脈沖噪聲環(huán)境下的改進(jìn)MUSIC譜估計(jì)方法
      全州县| 西宁市| 鸡西市| 北碚区| 阿荣旗| 曲周县| 建德市| 松溪县| 成都市| 开鲁县| 明水县| 宜昌市| 南充市| 双流县| 通州市| 卢湾区| 阿拉善右旗| 广昌县| 新闻| 镇巴县| 饶平县| 平山县| 鲁山县| 奉化市| 博白县| 桓台县| 白城市| 昌吉市| 广水市| 宜都市| 武定县| 泰宁县| 青龙| 罗定市| 台安县| 金川县| 本溪市| 漠河县| 那坡县| 剑河县| 曲沃县|