趙改華 周 彬 張雄偉
(解放軍理工大學(xué)指揮信息系統(tǒng)學(xué)院,南京,210007)
在語音通信過程中,語音信號不可避免地會受到噪聲的干擾,影響通信質(zhì)量和語音信號的后續(xù)處理,語音增強(qiáng)技術(shù)是從帶噪語音中盡可能提取原始純凈語音的重要手段,在提高語音可懂度、改善語音通信質(zhì)量等方面有重要的應(yīng)用。在眾多的增強(qiáng)技術(shù)中基于統(tǒng)計(jì)模型的短時譜估計(jì)法以其復(fù)雜度低和相對有效的特點(diǎn),長期以來受到了廣大研究者的廣泛關(guān)注。
基于統(tǒng)計(jì)模型的短時譜估計(jì)語音增強(qiáng)算法,主要是在不同的語音和噪聲先驗(yàn)分布模型假設(shè)條件下,依據(jù)一定的準(zhǔn)則,如:最小均方誤差(Minimum mean square error,MMSE)、最大后驗(yàn)概率(Maximum a prosteriori,MAP)、最大似然值(Maximum likelihood,ML),對語音信號的短時譜進(jìn)行最優(yōu)估計(jì)。經(jīng)典的基于統(tǒng)計(jì)模型的短時譜估計(jì)法是由Ephraim和Malah提出的基于高斯模型的最小均方誤差短時幅度譜(Short-time spectral amplitude-minimum mean square error,STSAMMSE)[1]估計(jì)算法。對語音信號統(tǒng)計(jì)模型的深入研究表明,超高斯模型更符合語音信號的實(shí)際分布[2],據(jù)此,研究者提出了許多改進(jìn)算法,例如文獻(xiàn)[3~6]提出的基于超高斯語音模型的短時譜估計(jì)算法,包括基于超高斯模型的復(fù)頻譜MMSE估計(jì)算法、基于超高斯模型的幅度譜MAP估計(jì)算法、基于Gamma模型的DCT域MMSE估計(jì)算法和基于超高斯模型的對數(shù)譜MMSE估計(jì)算法,相對于基于高斯模型的增強(qiáng)算法增強(qiáng)效果有所提升。
上述增強(qiáng)算法都假設(shè)語音信號幅度譜服從單一的分布函數(shù),而事實(shí)上,由于語音信號產(chǎn)生的復(fù)雜性及其非平穩(wěn)性,其分布很難用單一的函數(shù)準(zhǔn)確描述[7]。因此,研究者提出了一些利用較為復(fù)雜的混合模型為語音信號建模的新方法,如文獻(xiàn)[8]提出的基于高斯混合模型復(fù)頻譜MMSE估計(jì)算法,文獻(xiàn)[9]提出的基于瑞利混合模型的幅度譜MMSE估計(jì)算法,近年來,研究者提出了一些高斯混合模型的改進(jìn)模型來進(jìn)一步提高增強(qiáng)效果,例如:文獻(xiàn)[10]提出的基于高斯尺度混合模型的對數(shù)譜估計(jì)算法,文獻(xiàn)[11]提出的基于超高斯混合模型的幅度譜MMSE估計(jì)算法。相對于采用單一模型的增強(qiáng)算法,增強(qiáng)效果有較大提高。然而,這些混合模型對每幀語音信號建模時所用的混合分量及其權(quán)重都是固定的,而事實(shí)上,語音信號幅度譜的實(shí)際分布是動態(tài)變化的,每個混合分量與當(dāng)前語音信號的相似度也是變化的,因此,固定的權(quán)重并不合理。同時,有些混合分量與當(dāng)前語音信號相差較大的,將其引入混合模型不利于逼近當(dāng)前語音信號的實(shí)際分布[12]。
針對上述算法存在的問題,本文提出了一種基于超高斯混合模型的語音增強(qiáng)算法。首先,采用EM算法將語音信號分為多個分量;然后,在增強(qiáng)過程中選擇與當(dāng)前幀相似度較大的部分混合分量,并利用初始增強(qiáng)語音更新選中混合分量的概率密度函數(shù)(Probability density function,PDF);其次,估計(jì)對應(yīng)每個選中混合分量的幅度譜最小均方誤差估計(jì)式,并依據(jù)混合分量與當(dāng)前幀的相似度更新對應(yīng)的子類增強(qiáng)語音的權(quán)重;最終的增強(qiáng)語音由子類增強(qiáng)語音的加權(quán)和獲得。
假設(shè)s(n)表示純凈語音信號,x(n)表示加性噪聲信號,那么時域帶噪語音信號可表示為y(n)=s(n)+x(n),對時域帶噪語音信號進(jìn)行分幀、加窗和STFT變換,得到帶噪語音信號在頻域內(nèi)的表示為
式中:l(l=0,1,2,…)表示幀序號;k(k=0,1,…)表示頻帶序號,用幅度和相位表示為
一般地,假設(shè)噪聲復(fù)頻域系數(shù)的實(shí)部和虛部分別服從高斯分布,則噪聲幅度譜系數(shù)服從瑞利分布[8],表示為
式中表示噪聲系數(shù)方差。假設(shè)語音復(fù)頻域系數(shù)的實(shí)部和虛部也分別服從高斯分布,則語音幅度譜系數(shù)服從瑞利分布,表示為
式中表示語音系數(shù)方差,純凈語音的MMSE估計(jì)式為[1]
如前文所述,語音信號的復(fù)雜性和非穩(wěn)定性決定了用單一的函數(shù)描述語音信號幅度譜的分布是不準(zhǔn)確的,據(jù)此,本文提出了基于自適應(yīng)超高斯混合模型的語音增強(qiáng)算法,不僅可以更好地逼近當(dāng)前語音信號的實(shí)際分布,而且可以跟蹤語音信號幅度譜分布隨幀移的動態(tài)變化。算法可分為3個模塊:訓(xùn)練模塊、預(yù)處理模塊、增強(qiáng)模塊,如圖1所示。
圖1 算法流程圖Fig.1 Flowchart of the proposed algorithm
訓(xùn)練模塊作用是采用超高斯混合模型,將語音信號分為多個分量,并確定每個分量的初始PDF及權(quán)重。每個分量采用文獻(xiàn)[4]推導(dǎo)的語音信號幅度譜的超高斯分布建模為
通過不同的參數(shù)(μ,ν)取值,式(6)可以非常精確地逼近對應(yīng)的Gamma和Laplace分布。大量實(shí)驗(yàn)數(shù)據(jù)表明語音信號幅度譜的實(shí)際分布介于Gamma分布和Laplace分布之間,本文采用能夠較為準(zhǔn)確地逼近語音信號幅度譜實(shí)際分布的參數(shù)組:(μ=1.74,ν=0.126)[4]。語音信號幅度譜的超高斯混合分布表示為C個子分量的加權(quán)和,表示為
式中ωc表示每個分量的權(quán)重,且滿足限制條件
增強(qiáng)模塊是整個算法的核心部分。首先,選擇與初始增強(qiáng)語音似然值最大的I個分量并更新其PDF;然后,利用更新之后的PDF計(jì)算對應(yīng)選中分量的最小均方誤差估計(jì)式,并利用初始增強(qiáng)語音與對應(yīng)分量的似然值計(jì)算子類增強(qiáng)語音的權(quán)重;子類增強(qiáng)語音加權(quán)求和即得到最終的增強(qiáng)語音。
2.2.1 子類的選擇及更新
式中η表示模型更新的速度,在試驗(yàn)中觀察到η=0.95較為合適。
2.2.2 子類增強(qiáng)語音及其權(quán)重的估計(jì)
假設(shè)噪聲服從高斯分布,則語音信號的幅度譜的MMSE估計(jì)式表示為[1]
式(11)中零階貝塞爾函數(shù)可以近似表示為[13]
假設(shè)語音信號的幅度譜服從超高斯分布,將近似式(12,6)代入式(11),根據(jù)文獻(xiàn)[13]中的公式3.462.1,求積分獲得I類增強(qiáng)語音的幅度譜MMSE估計(jì)式為
仿真實(shí)驗(yàn)在MATLAB環(huán)境下進(jìn)行,將本文提出的增強(qiáng)算法與以下2種算法進(jìn)行比較,包括:文獻(xiàn)[6]提出的基于超高斯模型的MMSE對數(shù)譜估計(jì)法;文獻(xiàn)[9]提出的基于瑞利混合模型的MMSE幅度譜估計(jì)法。為簡化表示,這兩種算法分別表示為Super-gauss,RMM。本文提出的算法表示為:SGMM。
采用標(biāo)準(zhǔn)語音庫timit中的純凈語音對超高斯混合模型進(jìn)行訓(xùn)練。原始噪聲信號從標(biāo)準(zhǔn)噪聲庫Noisex92中選取,包括高斯白噪聲、汽車噪聲,并下采樣為8kHz。純凈語音信號為標(biāo)準(zhǔn)語音庫timit中的標(biāo)準(zhǔn)漢語語音信號,采用8kHz采樣,時間長度約為8s,男女聲各8句。利用MATLAB對噪聲信號和純凈語音進(jìn)行混和,信噪比分別定為0,5,10dB。噪聲估計(jì)采用統(tǒng)計(jì)最小量跟蹤算法[14],先驗(yàn)信噪比計(jì)算采用面向判決的方法[1]為
式中α=0.98,采用增強(qiáng)后和增強(qiáng)前語音分段信噪比提高量來衡量不同短時譜估計(jì)算法的噪聲抑制性能,分段信噪比定義為
表1給出了在不同噪聲和信噪比條件下3種算法的分段信噪比的提高量。從表中可以看出,相較于單一成分的Super-gauss短時譜估計(jì)算法,由于采用了多種成分加權(quán)疊加的方式來更為精確地逼近語音信號的實(shí)際分布,RMM算法和本文提出的SGMM算法在抑制噪聲方面有更為顯著的效果。
表1 3種算法的分段信噪比提高量 dBTable 1 Improved segmental SNR of three algorithms
采用對數(shù)頻譜距離LSD衡量增強(qiáng)語音的失真度,對數(shù)譜距離定義為
圖2給出了在不同噪聲和信噪比條件下的LSD改進(jìn)曲線。LSD是一種語音信號失真測度,測度值越小表明語音信號譜失真越小,語音質(zhì)量越接近原始語音。從圖中可以看出,相較于固定模型的Super-gauss和RMM兩種譜估計(jì)算法,本文提出的基于自適應(yīng)超高斯混合模型的譜估計(jì)算法能夠更好地描述原始語音的分布,增強(qiáng)語音的失真度更小。
圖2 對數(shù)頻譜距離改進(jìn)曲線Fig.2 Improved LSD curve
采用客觀質(zhì)量評估方法PESQ衡量增強(qiáng)語音的質(zhì)量。表2給出了在不同噪聲和信噪比條件下的PESQ評估結(jié)果,從表2中可以看出,本文算法的增強(qiáng)語音的PESQ得分都明顯高于其他兩種譜估計(jì)算法,說明其具有更好的感知質(zhì)量,主觀測試也驗(yàn)證了這一結(jié)論。
表2 四種算法PESQ評估得分Table 2 PESQ scores of four algorithms
由于在增強(qiáng)階段,對于每幀語音信號都要重新選擇混合分量并更新其權(quán)重,因此增強(qiáng)效果的提升是以計(jì)算量的增加為代價的。這也是許多類似自適應(yīng)增強(qiáng)算法共同存在的情況[15]。
本文提出了一種新的基于自適應(yīng)超高斯混合模型的語音增強(qiáng)算法,不僅將混合模型應(yīng)用于超高斯幅度譜分布,且自適應(yīng)更新模型參數(shù),相對于傳統(tǒng)的信號模型,本文提出的自適應(yīng)超高斯混合模型能夠更好地逼近語音信號的實(shí)際分布。仿真結(jié)果也驗(yàn)證了本文提出算法的優(yōu)越性,不僅提高了噪聲抑制性能,而且增強(qiáng)語音的失真度也有所下降。在下一步的工作中將針對噪聲信號的非平穩(wěn)性對噪聲模型進(jìn)行優(yōu)化,有望提高算法的增強(qiáng)效果。
[1] Ephraim Y,Malah D.Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator[J].IEEE Trans Acoust Speech,Signal Process,1984,32(6):1109-1121.
[2] Gazor S,Zhang W.Speech probability distribution[J].IEEE Signal Process Lett,2003,10(7):2042-207.
[3] Martin R.Speech enhancement based on minimum mean-square error estimation and super Gaussian priors[J].IEEE Trans Speech Audio Process,2005,13(5):845-856.
[4] Lotter T,Vary P.Speech enhancement by MAP spectral amplitude estimation using a super-Gaussian speech model[J].Eurasip J Signal Process,2005,(7):1110-1126.
[5] 鄒霞,陳亮,張雄偉.一種基于Gamma語音模型的語音增強(qiáng)算法[J].通信學(xué)報(bào),2006,27(10):118-123.
Zou Xia,Cheng Liang,Zhang Xiongwei.Speech enhancement with Gamma speech modeling[J].Journal on Communications,2006,27(10):118-123.
[6] Hendriks R C.Heusdens R,Jensen J.Log-spectral magnitude MMSE estimators under super-gaussian densities[J].Inter Speech,2009,10(6):1319-1322.
[7] Ephraim Y.A Bayesian estimation approach for speech enhancement using hidden Markov models[J].IEEE Trans Acoust Speech,Signal Process,1992,40(4):725-735.
[8] Ding Guohong,Wang Xia,Cao Yang,et al.Speech enhancement based on speech spectral complex Gaussian mixture model[C]//IEEE Int Conf Acoustic,Speech,Signal Process(ICASSP).Philadephia,USA:IEEE,2005:165-168.
[9] Erkelens J S,Jensen J,Heusdens R.Speech enhancement based on Rayleigh mixture modeling of speech spectral amplitude distributions[C]//European Signal Proc Conf(EUSIPCO).Poznan,Poland:[s.n.],2007:65-69.
[10]Hao Jiucang,Lee Te-Won.Speech enhancement using Gaussian scale mixture models[J].IEEE Trans on ASLP,2010,18(6):1127-1136.
[11]Wang Haiyan,Zhao Xiaohui,Gu Haijun.Speech enhancement using super gauss mixture model of speech spectral amplitude[J].The Journal of China University of Posts and Telecommunications,2011,18(1):13-18.
[12]Jancovic P,Zou X,K?küer M.Speech enhancement based on sparse code shrinkage employing multiple speech models[J].Speech Communication,2012,54:108-118.
[13]Gradshteyn I S,Ryzhik Z M.Table of integrals,series,and products[M].New York:Academic,1980.
[14]Martin R.Noise power spectral density estimation based on optimal smoothing and minimum statistics[J].IEEE Transactions on Speech and Audio Processing,2001,9(5):504:512.
[15]曹斌芳,李建奇.基于自適應(yīng)仿生小波變換的語音增強(qiáng)方法[J].數(shù)據(jù)采集與處理,2010,25(6):741-745.
Cao Binfang,Li Jianqi.Speech enhancement method based on adaptive bionic wavelet transform[J].Journal of Data Acquisition and Processing,2010,25(6):741-745.