基于自適應(yīng)超高斯混合模型的語音增強(qiáng)算法

2014-07-25 09:20:42趙改華張雄偉

數(shù)據(jù)采集與處理 2014年2期

趙改華周彬張雄偉

（解放軍理工大學(xué)指揮信息系統(tǒng)學(xué)院，南京，210007）

引言

在語音通信過程中，語音信號不可避免地會受到噪聲的干擾，影響通信質(zhì)量和語音信號的后續(xù)處理，語音增強(qiáng)技術(shù)是從帶噪語音中盡可能提取原始純凈語音的重要手段，在提高語音可懂度、改善語音通信質(zhì)量等方面有重要的應(yīng)用。在眾多的增強(qiáng)技術(shù)中基于統(tǒng)計(jì)模型的短時譜估計(jì)法以其復(fù)雜度低和相對有效的特點(diǎn)，長期以來受到了廣大研究者的廣泛關(guān)注。

基于統(tǒng)計(jì)模型的短時譜估計(jì)語音增強(qiáng)算法，主要是在不同的語音和噪聲先驗(yàn)分布模型假設(shè)條件下，依據(jù)一定的準(zhǔn)則，如：最小均方誤差（Minimum mean square error，MMSE）、最大后驗(yàn)概率（Maximum a prosteriori，MAP）、最大似然值（Maximum likelihood，ML），對語音信號的短時譜進(jìn)行最優(yōu)估計(jì)。經(jīng)典的基于統(tǒng)計(jì)模型的短時譜估計(jì)法是由Ephraim和Malah提出的基于高斯模型的最小均方誤差短時幅度譜（Short-time spectral amplitude-minimum mean square error，STSAMMSE）［1］估計(jì)算法。對語音信號統(tǒng)計(jì)模型的深入研究表明，超高斯模型更符合語音信號的實(shí)際分布［2］，據(jù)此，研究者提出了許多改進(jìn)算法，例如文獻(xiàn)［3～6］提出的基于超高斯語音模型的短時譜估計(jì)算法，包括基于超高斯模型的復(fù)頻譜MMSE估計(jì)算法、基于超高斯模型的幅度譜MAP估計(jì)算法、基于Gamma模型的DCT域MMSE估計(jì)算法和基于超高斯模型的對數(shù)譜MMSE估計(jì)算法，相對于基于高斯模型的增強(qiáng)算法增強(qiáng)效果有所提升。

上述增強(qiáng)算法都假設(shè)語音信號幅度譜服從單一的分布函數(shù)，而事實(shí)上，由于語音信號產(chǎn)生的復(fù)雜性及其非平穩(wěn)性，其分布很難用單一的函數(shù)準(zhǔn)確描述［7］。因此，研究者提出了一些利用較為復(fù)雜的混合模型為語音信號建模的新方法，如文獻(xiàn)［8］提出的基于高斯混合模型復(fù)頻譜MMSE估計(jì)算法，文獻(xiàn)［9］提出的基于瑞利混合模型的幅度譜MMSE估計(jì)算法，近年來，研究者提出了一些高斯混合模型的改進(jìn)模型來進(jìn)一步提高增強(qiáng)效果，例如：文獻(xiàn)［10］提出的基于高斯尺度混合模型的對數(shù)譜估計(jì)算法，文獻(xiàn)［11］提出的基于超高斯混合模型的幅度譜MMSE估計(jì)算法。相對于采用單一模型的增強(qiáng)算法，增強(qiáng)效果有較大提高。然而，這些混合模型對每幀語音信號建模時所用的混合分量及其權(quán)重都是固定的，而事實(shí)上，語音信號幅度譜的實(shí)際分布是動態(tài)變化的，每個混合分量與當(dāng)前語音信號的相似度也是變化的，因此，固定的權(quán)重并不合理。同時，有些混合分量與當(dāng)前語音信號相差較大的，將其引入混合模型不利于逼近當(dāng)前語音信號的實(shí)際分布［12］。

針對上述算法存在的問題，本文提出了一種基于超高斯混合模型的語音增強(qiáng)算法。首先，采用EM算法將語音信號分為多個分量；然后，在增強(qiáng)過程中選擇與當(dāng)前幀相似度較大的部分混合分量，并利用初始增強(qiáng)語音更新選中混合分量的概率密度函數(shù)（Probability density function，PDF）；其次，估計(jì)對應(yīng)每個選中混合分量的幅度譜最小均方誤差估計(jì)式，并依據(jù)混合分量與當(dāng)前幀的相似度更新對應(yīng)的子類增強(qiáng)語音的權(quán)重；最終的增強(qiáng)語音由子類增強(qiáng)語音的加權(quán)和獲得。

1 傳統(tǒng)短時譜估計(jì)算法

假設(shè)s（n）表示純凈語音信號，x（n）表示加性噪聲信號，那么時域帶噪語音信號可表示為y（n）＝s（n）＋x（n），對時域帶噪語音信號進(jìn)行分幀、加窗和STFT變換，得到帶噪語音信號在頻域內(nèi)的表示為

式中：l（l＝0，1，2，…）表示幀序號；k（k＝0，1，…）表示頻帶序號，用幅度和相位表示為

一般地，假設(shè)噪聲復(fù)頻域系數(shù)的實(shí)部和虛部分別服從高斯分布，則噪聲幅度譜系數(shù)服從瑞利分布［8］，表示為

式中表示噪聲系數(shù)方差。假設(shè)語音復(fù)頻域系數(shù)的實(shí)部和虛部也分別服從高斯分布，則語音幅度譜系數(shù)服從瑞利分布，表示為

式中表示語音系數(shù)方差，純凈語音的MMSE估計(jì)式為［1］

2 本文算法

如前文所述，語音信號的復(fù)雜性和非穩(wěn)定性決定了用單一的函數(shù)描述語音信號幅度譜的分布是不準(zhǔn)確的，據(jù)此，本文提出了基于自適應(yīng)超高斯混合模型的語音增強(qiáng)算法，不僅可以更好地逼近當(dāng)前語音信號的實(shí)際分布，而且可以跟蹤語音信號幅度譜分布隨幀移的動態(tài)變化。算法可分為3個模塊：訓(xùn)練模塊、預(yù)處理模塊、增強(qiáng)模塊，如圖1所示。

圖1 算法流程圖Fig.1 Flowchart of the proposed algorithm

2.1 訓(xùn)練模塊

訓(xùn)練模塊作用是采用超高斯混合模型，將語音信號分為多個分量，并確定每個分量的初始PDF及權(quán)重。每個分量采用文獻(xiàn)［4］推導(dǎo)的語音信號幅度譜的超高斯分布建模為

通過不同的參數(shù)（μ，ν）取值，式（6）可以非常精確地逼近對應(yīng)的Gamma和Laplace分布。大量實(shí)驗(yàn)數(shù)據(jù)表明語音信號幅度譜的實(shí)際分布介于Gamma分布和Laplace分布之間，本文采用能夠較為準(zhǔn)確地逼近語音信號幅度譜實(shí)際分布的參數(shù)組：（μ＝1.74，ν＝0.126）［4］。語音信號幅度譜的超高斯混合分布表示為C個子分量的加權(quán)和，表示為

式中ωc表示每個分量的權(quán)重，且滿足限制條件

2.2 增強(qiáng)模塊

增強(qiáng)模塊是整個算法的核心部分。首先，選擇與初始增強(qiáng)語音似然值最大的I個分量并更新其PDF；然后，利用更新之后的PDF計(jì)算對應(yīng)選中分量的最小均方誤差估計(jì)式，并利用初始增強(qiáng)語音與對應(yīng)分量的似然值計(jì)算子類增強(qiáng)語音的權(quán)重；子類增強(qiáng)語音加權(quán)求和即得到最終的增強(qiáng)語音。

2.2.1 子類的選擇及更新

式中η表示模型更新的速度，在試驗(yàn)中觀察到η＝0.95較為合適。

2.2.2 子類增強(qiáng)語音及其權(quán)重的估計(jì)

假設(shè)噪聲服從高斯分布，則語音信號的幅度譜的MMSE估計(jì)式表示為［1］

式（11）中零階貝塞爾函數(shù)可以近似表示為［13］

假設(shè)語音信號的幅度譜服從超高斯分布，將近似式（12，6）代入式（11），根據(jù)文獻(xiàn)［13］中的公式3.462.1，求積分獲得I類增強(qiáng)語音的幅度譜MMSE估計(jì)式為

3 實(shí)驗(yàn)仿真

仿真實(shí)驗(yàn)在MATLAB環(huán)境下進(jìn)行，將本文提出的增強(qiáng)算法與以下2種算法進(jìn)行比較，包括：文獻(xiàn)［6］提出的基于超高斯模型的MMSE對數(shù)譜估計(jì)法；文獻(xiàn)［9］提出的基于瑞利混合模型的MMSE幅度譜估計(jì)法。為簡化表示，這兩種算法分別表示為Super-gauss，RMM。本文提出的算法表示為：SGMM。

采用標(biāo)準(zhǔn)語音庫timit中的純凈語音對超高斯混合模型進(jìn)行訓(xùn)練。原始噪聲信號從標(biāo)準(zhǔn)噪聲庫Noisex92中選取，包括高斯白噪聲、汽車噪聲，并下采樣為8kHz。純凈語音信號為標(biāo)準(zhǔn)語音庫timit中的標(biāo)準(zhǔn)漢語語音信號，采用8kHz采樣，時間長度約為8s，男女聲各8句。利用MATLAB對噪聲信號和純凈語音進(jìn)行混和，信噪比分別定為0，5，10dB。噪聲估計(jì)采用統(tǒng)計(jì)最小量跟蹤算法［14］，先驗(yàn)信噪比計(jì)算采用面向判決的方法［1］為

式中α＝0.98，采用增強(qiáng)后和增強(qiáng)前語音分段信噪比提高量來衡量不同短時譜估計(jì)算法的噪聲抑制性能，分段信噪比定義為

表1給出了在不同噪聲和信噪比條件下3種算法的分段信噪比的提高量。從表中可以看出，相較于單一成分的Super-gauss短時譜估計(jì)算法，由于采用了多種成分加權(quán)疊加的方式來更為精確地逼近語音信號的實(shí)際分布，RMM算法和本文提出的SGMM算法在抑制噪聲方面有更為顯著的效果。

表1 3種算法的分段信噪比提高量 dBTable 1 Improved segmental SNR of three algorithms

采用對數(shù)頻譜距離LSD衡量增強(qiáng)語音的失真度，對數(shù)譜距離定義為

圖2給出了在不同噪聲和信噪比條件下的LSD改進(jìn)曲線。LSD是一種語音信號失真測度，測度值越小表明語音信號譜失真越小，語音質(zhì)量越接近原始語音。從圖中可以看出，相較于固定模型的Super-gauss和RMM兩種譜估計(jì)算法，本文提出的基于自適應(yīng)超高斯混合模型的譜估計(jì)算法能夠更好地描述原始語音的分布，增強(qiáng)語音的失真度更小。

圖2 對數(shù)頻譜距離改進(jìn)曲線Fig.2 Improved LSD curve

采用客觀質(zhì)量評估方法PESQ衡量增強(qiáng)語音的質(zhì)量。表2給出了在不同噪聲和信噪比條件下的PESQ評估結(jié)果，從表2中可以看出，本文算法的增強(qiáng)語音的PESQ得分都明顯高于其他兩種譜估計(jì)算法，說明其具有更好的感知質(zhì)量，主觀測試也驗(yàn)證了這一結(jié)論。

表2 四種算法PESQ評估得分Table 2 PESQ scores of four algorithms

由于在增強(qiáng)階段，對于每幀語音信號都要重新選擇混合分量并更新其權(quán)重，因此增強(qiáng)效果的提升是以計(jì)算量的增加為代價的。這也是許多類似自適應(yīng)增強(qiáng)算法共同存在的情況［15］。

4 結(jié)束語

本文提出了一種新的基于自適應(yīng)超高斯混合模型的語音增強(qiáng)算法，不僅將混合模型應(yīng)用于超高斯幅度譜分布，且自適應(yīng)更新模型參數(shù)，相對于傳統(tǒng)的信號模型，本文提出的自適應(yīng)超高斯混合模型能夠更好地逼近語音信號的實(shí)際分布。仿真結(jié)果也驗(yàn)證了本文提出算法的優(yōu)越性，不僅提高了噪聲抑制性能，而且增強(qiáng)語音的失真度也有所下降。在下一步的工作中將針對噪聲信號的非平穩(wěn)性對噪聲模型進(jìn)行優(yōu)化，有望提高算法的增強(qiáng)效果。

［1］ Ephraim Y，Malah D.Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator［J］.IEEE Trans Acoust Speech，Signal Process，1984，32（6）：1109-1121.

［2］ Gazor S，Zhang W.Speech probability distribution［J］.IEEE Signal Process Lett，2003，10（7）：2042-207.

［3］ Martin R.Speech enhancement based on minimum mean-square error estimation and super Gaussian priors［J］.IEEE Trans Speech Audio Process，2005，13（5）：845-856.

［4］ Lotter T，Vary P.Speech enhancement by MAP spectral amplitude estimation using a super-Gaussian speech model［J］.Eurasip J Signal Process，2005，（7）：1110-1126.

［5］鄒霞，陳亮，張雄偉.一種基于Gamma語音模型的語音增強(qiáng)算法［J］.通信學(xué)報(bào)，2006，27（10）：118-123.

Zou Xia，Cheng Liang，Zhang Xiongwei.Speech enhancement with Gamma speech modeling［J］.Journal on Communications，2006，27（10）：118-123.

［6］ Hendriks R C.Heusdens R，Jensen J.Log-spectral magnitude MMSE estimators under super-gaussian densities［J］.Inter Speech，2009，10（6）：1319-1322.

［7］ Ephraim Y.A Bayesian estimation approach for speech enhancement using hidden Markov models［J］.IEEE Trans Acoust Speech，Signal Process，1992，40（4）：725-735.

［8］ Ding Guohong，Wang Xia，Cao Yang，et al.Speech enhancement based on speech spectral complex Gaussian mixture model［C］／／IEEE Int Conf Acoustic，Speech，Signal Process（ICASSP）.Philadephia，USA：IEEE，2005：165-168.

［9］ Erkelens J S，Jensen J，Heusdens R.Speech enhancement based on Rayleigh mixture modeling of speech spectral amplitude distributions［C］／／European Signal Proc Conf（EUSIPCO）.Poznan，Poland：［s.n.］，2007：65-69.

［10］Hao Jiucang，Lee Te-Won.Speech enhancement using Gaussian scale mixture models［J］.IEEE Trans on ASLP，2010，18（6）：1127-1136.

［11］Wang Haiyan，Zhao Xiaohui，Gu Haijun.Speech enhancement using super gauss mixture model of speech spectral amplitude［J］.The Journal of China University of Posts and Telecommunications，2011，18（1）：13-18.

［12］Jancovic P，Zou X，K?küer M.Speech enhancement based on sparse code shrinkage employing multiple speech models［J］.Speech Communication，2012，54：108-118.

［13］Gradshteyn I S，Ryzhik Z M.Table of integrals，series，and products［M］.New York：Academic，1980.

［14］Martin R.Noise power spectral density estimation based on optimal smoothing and minimum statistics［J］.IEEE Transactions on Speech and Audio Processing，2001，9（5）：504：512.

［15］曹斌芳，李建奇.基于自適應(yīng)仿生小波變換的語音增強(qiáng)方法［J］.數(shù)據(jù)采集與處理，2010，25（6）：741-745.

Cao Binfang，Li Jianqi.Speech enhancement method based on adaptive bionic wavelet transform［J］.Journal of Data Acquisition and Processing，2010，25（6）：741-745.