馮 炎 安寶坤
( 西藏大學(xué)現(xiàn)代教育技術(shù)中心, 拉薩 850000)
現(xiàn)實(shí)世界中存在各種各樣的噪聲,語音信號常常被不相關(guān)的加性噪聲所污染,噪聲功率譜的變化要比語音緩慢的多,語音增強(qiáng)算法可以降低帶噪語音信號中的噪聲干擾。
在帶噪語音信號中,常常假設(shè)噪聲的均值為零,噪聲方差即噪聲功率譜需要予以估計(jì)。噪聲功率譜的準(zhǔn)確估計(jì)會直接影響語音增強(qiáng)效果。噪聲功率譜的欠估計(jì)與過估計(jì)都會對語音增強(qiáng)算法帶來較大的影響,噪聲過估計(jì)會使增強(qiáng)后的語音出現(xiàn)較大的失真,原因是噪聲的過估計(jì)等價于增益函數(shù)計(jì)算時后驗(yàn)信噪比和先驗(yàn)信噪比的欠估計(jì),而后驗(yàn)信噪比和先驗(yàn)信噪比的欠估計(jì)會使算法過多地抑制噪聲,從而使語音失真。語音增強(qiáng)的效果常常取決于噪聲功率譜的準(zhǔn)確估計(jì)[1-7],尤其是在非平穩(wěn)噪聲環(huán)境中。因此,快速地估計(jì)出背景噪聲對語音增強(qiáng)算法有很大的幫助。
加權(quán)噪聲功率譜估計(jì)算法(簡稱WN算法)能快速跟蹤噪聲變化,采用該算法使增強(qiáng)后的語音具有較高的語音質(zhì)量[8]。WN噪聲功率譜估計(jì)算法主要有三個步驟:即信噪比(簡稱SNR)估計(jì), 通過估計(jì)出的信噪比結(jié)合加權(quán)因子函數(shù)從而得到加權(quán)因子,將帶噪語音信號與加權(quán)因子相乘得到加權(quán)值并求平均得到估計(jì)出的噪聲功率譜。
為了避免加權(quán)噪聲功率譜估計(jì)算法不足,我們針對該算法提出了一個改進(jìn)算法,該算法使用平滑因子對加權(quán)噪聲功率譜估計(jì)算法計(jì)算出的噪聲進(jìn)行平滑。實(shí)驗(yàn)也驗(yàn)證了改進(jìn)算法的性能。
用x(t)和d(t)分別表示純凈語音和不相關(guān)的加性噪聲,觀測到的帶噪語音信號為y(t)為,進(jìn)行短時離散傅利葉變換后得到:
Y(n,k)=X(n,k)+D(n,k)
(1)
其中n和k分別表示時間幀序號和頻率點(diǎn)序號。
WN噪聲功率譜估計(jì)算法首先從信噪比(簡稱SNR)估計(jì)開始, 通過估計(jì)出的信噪比結(jié)合加權(quán)因子函數(shù)從而得到加權(quán)因子,將帶噪語音信號與加權(quán)因子相乘得到加權(quán)值并求平均得到估計(jì)出的噪聲功率譜。
(2)
計(jì)算加權(quán)因子的非線性函數(shù):
(3)
(4)
對計(jì)算得到的在窗口長度為Lz內(nèi)的加權(quán)帶噪語音求平均,進(jìn)而得到估計(jì)的噪聲功率譜:
(5)
式中Ψ(Z(n,k))表示Z(n,k)中非零元素的個數(shù),trace{·}是對數(shù)組中對角元素求和的操作。由于Z(n,k)是一個行向量,所以trace{Z(n,k)}就是對簡單的對該向量中的非零元素求和。
Z(n,k)計(jì)算如下:
(6)
式(6)是根據(jù)前面估計(jì)出的信噪比對Z(n,k)進(jìn)行更新。Z(n,k)的長度一定,也就是求均值的窗長度不變,當(dāng)所估計(jì)出的信噪比小于某個閥值時,認(rèn)為該幀的噪聲影響明顯,則Z(n,k)求均值的窗需要更新一次,從而得到新的噪聲估計(jì)值。
(7)
在初始幾幀一般都是噪聲,本文對初始幾幀進(jìn)行平均,其中Tinit表示初始幀的大小。
為評價本文提出的改進(jìn)算法的性能,將WN算法及改進(jìn)的WN算法分別應(yīng)用于MMSE語音增強(qiáng)系統(tǒng)[6]進(jìn)行實(shí)驗(yàn)仿真。實(shí)驗(yàn)中采用的語音段取自TIMIT數(shù)據(jù)庫,分取其中的3個女聲和3個男聲。這些語音的采樣頻率是8kHz、16bits編碼。實(shí)驗(yàn)中采用的噪聲是來自于Noisex92噪聲庫,取其中的白噪聲(White)、工廠噪聲(factory)以及戰(zhàn)斗機(jī)噪聲(f16),將上述語音段分別與這3種噪聲合成信噪比為0、5、10,15 dB的帶噪語音。對這些語音信號作短時傅立葉變換,變換時采用分幀幀長為256點(diǎn),幀間重疊為128點(diǎn),為避免分幀時產(chǎn)生的截斷效應(yīng),采用漢明窗對分幀的語音信號進(jìn)行“加窗”處理。
先驗(yàn)信噪比估計(jì)中的參數(shù)設(shè)定[6]:α=0.98,ξmin=-25 dB。
改進(jìn)算法中的參數(shù)設(shè)定:σ=0.96
為評價本文提出改進(jìn)算法的性能,表1給出了噪聲估計(jì)算法的相對估計(jì)誤差對比。從表1可以看出,相對于傳統(tǒng)的WN算法,本文提出的算法取得了更小的相對估計(jì)誤差,從而證實(shí)改進(jìn)算法抑制了更多的噪聲過估計(jì)。
表1 相對估計(jì)誤差對比
為了評價本文的語音增強(qiáng)算法的整體性能,表2給出了分段信噪比增益實(shí)驗(yàn),值越大說明所增強(qiáng)后的語音越接近實(shí)際語音。從實(shí)驗(yàn)數(shù)據(jù)可看出,在不同的輸入信噪比和不同的噪聲環(huán)境的實(shí)驗(yàn)中,本文的改進(jìn)算法可以較好地提高增強(qiáng)后語音的分段信噪比。
表2 分段信噪比增益對比
以上主要研究了帶噪語音增強(qiáng)算法中的噪聲估計(jì)問題。通過分析傳統(tǒng)WN估計(jì)算法,發(fā)現(xiàn)該算法會在語音劇烈變化區(qū)域出現(xiàn)噪聲過估計(jì),針對該問題提出了改進(jìn)算法,通過對WN算法估計(jì)的噪聲進(jìn)行平滑,從而抑制了在語音劇烈變化區(qū)域的噪聲過估計(jì)。將改進(jìn)算法應(yīng)用到基于最小均方誤差的語音增強(qiáng)系統(tǒng)時,發(fā)現(xiàn)采用改進(jìn)算法能夠提供更準(zhǔn)確的噪聲估計(jì),進(jìn)而會使增強(qiáng)后的語音有充分的噪聲抑制和更好的語音質(zhì)量??陀^實(shí)驗(yàn)證實(shí)了該算法的優(yōu)越性能。本文研究的結(jié)果為進(jìn)一步的帶噪語音識別技術(shù)奠定基礎(chǔ)。
[1] Hao J,Attias H,Nagarajan S,et al.Speech Enhancement,Gain,and Noise Spectrum Adaptation Using Approximate Bayesian Estimation[J].IEEE Transactions on Audio,Speech and Language Processing,2009,17(1):24-37.
[2] Ephraim Y,Cohen I.Recent Advancements in Speech Enhancement[M]The Electrical Engineering Handbook:3rd ed.Boca Raton,FL:CRC,2004.
[3] 馮炎.基于直接判決估計(jì)和預(yù)測估計(jì)的語音增強(qiáng)算法[J],信息與電子工程,2010,8(1):76-7979.
[4] 馮炎,尼瑪扎西.基于頻帶間相關(guān)性的加權(quán)噪聲功率譜估計(jì)[J].信息與電子工程,2010,8(4):431-435.
[5] Benesty Jacob,Makino Shoji,CHEN Jingdong.Speech Enhancement[M].Berlin:Springer,2005:115-133.
[6] Ephraim Y,Malah D.Speech Enhancement Using a Minimum Mean-square Error Short-time Spectral Amplitude Estimator[J].IEEE Transactions on Acoustics,Speech and Signal Processing,1984,32(6):1109-1121.
[7] CappéO.Elimination of the Musical Noise Phenomenon with the Ephraim and Malah Noise Suppressor[J].IEEE Transactions on Speech and Audio Processing,1994,2(2):345-349.
[8] Kato M,Sugiyama A, Serizawa M,Noise Suppression with High Speech Quality Based on Weighted Noise Estimation and MMSE STSA[G].IWAENC,2001:183-186.