馬子驥, 倪 忠, 余 旭
(湖南大學(xué) 電氣與信息工程學(xué)院,湖南 長沙 410000)
與單麥克風(fēng)降噪算法在時域和頻域處理相比,基于多麥克風(fēng)陣列的降噪算法可以充分利用空間濾波技術(shù),對其他方向的噪聲進(jìn)行濾波處理,從而獲得更好的降噪效果。Griffiths L J和Jim C W在文獻(xiàn)[1]中提出了廣義旁瓣對消器(generalized sidelobe canceller,GSC)方法,Gannot S在此基礎(chǔ)上提出了基于傳遞函數(shù)(transfer function,TF)的GSC方法[2]。在處理平穩(wěn)噪聲時的效果很好,但在處理非平穩(wěn)噪聲時表現(xiàn)欠佳。文獻(xiàn)[3,4]針對非平穩(wěn)噪聲,在后置濾波段利用最小控制遞歸平均(minima controlled recursive averaging,MCRA)算法估計。Israel Cohen對MCRA進(jìn)行了改進(jìn),提出了一種改進(jìn)的最小控制遞歸平均算法(improved MCRA,IMCRA)[5],可在復(fù)雜環(huán)境,比如非平穩(wěn)噪聲、低信噪比條件下估計噪聲。Cohen I 和 Berdugo B在文獻(xiàn)[6]中將GSC和最佳修正對數(shù)譜幅度估計算法(optimally modified log spectral amplitude estimator,OM-LSA)結(jié)合,利用GSC的輸出信號和參考噪聲的相互關(guān)系進(jìn)行后置濾波。Gannot S在此基礎(chǔ)上進(jìn)一步改進(jìn),用TF-GSC替代GSC,更好地適應(yīng)復(fù)雜變換的噪聲環(huán)境[7]。
本文算法在此基礎(chǔ)上進(jìn)一步改進(jìn),提高了語音存在概率估計的準(zhǔn)確性,從而能更準(zhǔn)確地更新噪聲功率譜估計,提高了對噪聲的抑制能力,并減少了語音損失。
多通道后置濾波的主要思想是利用TF-GSC自適應(yīng)波束輸出信號與參考噪聲信號之比估計目標(biāo)語音缺失概率,并更新噪聲功率譜估計,最終通過OM-LSA方法獲得較為純凈的目標(biāo)語音信號。多通道后置濾波方法的結(jié)構(gòu)框圖如圖1所示。
圖1 多通道后置濾波算法原理框圖
SY(t,ejω)=αs·SY(t-1,ejω)+(1-αs)·
(1)
ψ(t,ejω)=
(2)
式中M為文獻(xiàn)[5,8]提出的非平穩(wěn)噪聲功率譜密度的最小控制遞歸平均(minima controlled recursive averaging,MCRA)估計。定義自適應(yīng)波束輸出信號的后驗信噪比
γs(t,ejω)|Y(t,ejω)|2/MY(t,ejω)
(3)
(4)
利用文獻(xiàn)[9]方法求出語音存在概率
p(t,ejω)=
(5)
式中ξ(t,ejω)E{|S(t,ejω)|2}/λ(t,ejω);υ(t,ejω)γ(t,ejω)ξ(t,ejω)/(1+(t,ejω));γ(t,ejω)|Y(t,ejω)|2/λ(t,ejω)。
利用“直接判決”法[10]求得
(1-α)max{γ(t,ejω)-1,0}
(6)
噪聲功率譜估計為
(7)
(8)
求解目標(biāo)語音信號的短時傅里葉變換
(9)
式中G(t,ejω)為OM-LSA增益函數(shù)
從上述原理可知多通道后置濾波算法的關(guān)鍵在于先驗語音缺失概率q(t,ejω)估計和噪聲功率譜密度估計的準(zhǔn)確性。本文通道后置濾波算法進(jìn)行改進(jìn)。
由式(4)可知,先驗語音缺失概率q(t,ejω) 結(jié)合γs(t,ejω) 和ψ(t,ejω)求取,γs(t,ejω)用于判斷TF-GSC輸出波束信號是否變化,TBRR判斷該變化是由目標(biāo)語音信號引起還是由噪聲引起。假設(shè)目標(biāo)語音信號與噪聲信號不相關(guān),當(dāng)瞬時信號變化主要由目標(biāo)語音信號引起時,TBRR一般比較大[12];反之,當(dāng)信號瞬時變化由噪聲引起時,參考噪聲變化大于輸出波束變化,此時TBRR小于1。含噪語音信號在經(jīng)過TF-GSC處理之后被抑制了一部分噪聲[7],在長弱語音段且噪聲變化比較大的情況下,經(jīng)過TF-GSC處理之后的輸出信號變化可能小于參考噪聲的變化,此時,ψ(t,ejω)的值小于ψlow,從而將含目標(biāo)語音信號誤判為不含目標(biāo)語音信號,導(dǎo)致語音失真。因此,結(jié)合文獻(xiàn)[5~7]的求先驗語音缺失概率的方法,得到新的求先驗語音缺失概率的公式
(10)
由式(10)知,當(dāng)在TBRR小于閾值ψhigh,且γs(t,ejω)≤γlow和ζ<ζ0時將信號判斷為目標(biāo)語音缺失信號,防止在長弱語音強噪聲段因TBRR小于1時,將語音信號誤判成噪聲。當(dāng)ψ(t,ejω)>ψhigh,γs(t,ejω)和ζ<ζ0任意一個條件成立時,即確定目標(biāo)語音信號存在。在不能確定語音信號是否存在時,用γs(t,ejω)的一次線性函數(shù)求先驗語音不存在概率[5]。
為了驗證本文算法的性能,通過麥克風(fēng)陣列采集實際語音信號,并利用MATLAB軟件對算法進(jìn)行了仿真測試。并與文獻(xiàn)[8]中提出的MCRA算法、文獻(xiàn)[7]中提出的基于TF-GSC的多通道濾波方法進(jìn)行了比較分析。實驗設(shè)置如下:麥克風(fēng)陣列由4個麥克風(fēng)組成間距為0.8 cm的均勻線性陣列,目標(biāo)聲源為正對陣列中間位置,距離2 m處的錄音,噪聲為與陣列成50°處的錄音,如圖2所示。
圖2 陣列麥克風(fēng)示意
麥克風(fēng)采樣頻率為64 kHz,采樣精度為24 bit。實驗中相關(guān)參數(shù)設(shè)置如下:加窗為Hamming窗,窗長1 024,幀長取窗長,幀移為幀長的1/2。實驗時將一段數(shù)據(jù)分成5部分,每部分500幀。其他實驗參數(shù)設(shè)置情況參照文獻(xiàn)[7],α=0.9,αs=0.92,αλ=0.85,β=1.47,ψlow=1,ψhigh=3.6,γlow=1,γhigh=4.6,b=[0.25 0.5 0.25],ε=0.01,Gmin=20 dB。
將目標(biāo)語音信號和噪聲信號按不同比例線性相加,生成5種的信噪比:9.482 8,4.968 6,3.331 5,0.860 5,-3.494 4 dB。在以上5種信噪比條件下,對含噪語音信號分別采用TF-GSC+MCRA和本文算法進(jìn)行語音增強實驗,實驗結(jié)果如表1所示,可以看出:相比于TF-GSC+MCAR算法,本文算法能進(jìn)一步提高信噪比,尤其是在高輸入信噪比段,效果更明顯。
表1 不同信噪比下算法性能比較 dB
圖3(a)、圖3(b)分別為上述實驗條件下最左邊位置的麥克風(fēng)接收到的目標(biāo)語音信號和帶噪語音信號的語譜圖。圖2(c)為帶噪語音信號經(jīng)過TF-GSC增強后的語音信號語譜圖??梢钥闯觯篢F-GSC算法對非平穩(wěn)噪聲抑制有比較明顯的效果,但仍殘留了部分噪聲。圖3(d)、圖3(e)分別為利用文獻(xiàn)[7]中提出的TF-GSC+OM-LSA算法和本文算法增強后的語音信號語譜圖,經(jīng)過對比可知:TF-GSC+OM-LSA算法雖然能有效抑制噪聲,但造成了大量的語音失真,而本文算法能有效抑制語音失真,同時保留了目標(biāo)語音信號。
圖3 信號處理前后語譜
以麥克風(fēng)陣列為例,對傳統(tǒng)的多通道后置濾波算法進(jìn)行了改進(jìn),提高了先驗語音存在概率估計的準(zhǔn)確性,從而能更準(zhǔn)確地更新噪聲功率譜估計,減少了噪聲過估計和噪聲估計不足的情況。實驗結(jié)果表明:相對傳統(tǒng)的多通道后置濾波語音增強算法,新算法對非平穩(wěn)噪聲,尤其是當(dāng)噪聲為語音時具有較好的抑制能力,并且能有效減少語音失真,提高了信噪比,改善了語音質(zhì)量。
參考文獻(xiàn):
[1] Griffiths L J,Jim C W.An alternative approach to linearly constrained adaptive beamforming[J].IEEE Trans on Antennas Propagat,1982,30:27-34.
[2] Gannot S,Burshtein D,Weinstein E.Signal enhancement using beamforming and nonstationarity with application to speech[J].IEEE Trans on signal Processing,2001,49:1614-1626.
[3] Cohen I.On speech enhancement under signal presence un-certainty[C]∥The 26th IEEE International Conference on Speech Signal Process,2001:167-170.
[4] Cohen I,Berdugo B.Spectral enhancement by tracking speech presence probability in subbands[C]∥IEEE Workshop on Hands Free Speech Communication,2001:95-98.
[5] Cohen I.Noise spectrum estimation in adverse environments:Improved minima controlled recursive averahinging[J].IEEE Trans on Speech and Audio Processing,2003,11:466-475.
[6] Cohen I,Bedugo B.Microphone array postfiltering for nonstationary noise suppression[C]∥Proc of International Conference on Acoustics and Speech Signal Process,Orlando,FL,2002:901-904.
[7] Cohen I,Gannot S.Speech Enhancement based on the general transfer function GSC and postfiltering[J].IEEE Trans on Speech and Audio Processing,2004,12(6):561-571.
[8] Cohen I,Bedugo B.Microphone array post-filtering for nonstationary noise suppression[C]∥Proc of International Conference on Acoustics and Speech Signal Process,Orlando,2002:901-904.
[9] Cohen I,Berdugo B.Noise estimation by minima controlled recursive averaging for robust speech enhancement[J].IEEE Trans on Signal Processing,2002,9:12-15.
[10] Ephraim Y,Malah D.Speech enhancement using a minimum mean square error short-time spectral amplitude estimator[J].IEEE Trans on Acoust,Speech and Signal Processing,1984,32:1109-1121.
[11] Cohen I,Berdugo B.Speech enhancement for nonstationary noise environments[J].IEEE Trans on Signal Processing,2001,81(11):2403-2418.
[12] Ephraim Y.Speech enhancement using a minimum mean spuare error log spectral amplitude estimator[J].IEEE Trans on Acoust,Speech and Signal Processing,1985,33:443-445.
[13] Cohen I.Multi-channel post-filtering in noise environments[J].IEEE Trans on Signal Processing,2004,52:1149-1160.