孫博凱
(哈爾濱理工大學(xué) 測(cè)控技術(shù)與通信工程學(xué)院,黑龍江 哈爾濱150080)
譜減法的目的在于將語(yǔ)音短時(shí)譜進(jìn)行估計(jì),事先假設(shè)噪聲統(tǒng)計(jì)平穩(wěn),噪聲的幅度譜值在有語(yǔ)音時(shí)段和無(wú)語(yǔ)音時(shí)段的數(shù)學(xué)期望值都是相等的。根據(jù)語(yǔ)音信號(hào)和加性噪聲是相互獨(dú)立互不相關(guān)這一特性,把有語(yǔ)音時(shí)段噪聲幅度值替換成無(wú)語(yǔ)音時(shí)段的噪聲幅度譜估計(jì)值,然后再和帶有噪語(yǔ)音幅度譜值相減,可以估計(jì)出語(yǔ)音幅度譜值,后與帶有噪聲的語(yǔ)音相位一并進(jìn)行傅里葉反變換,最終計(jì)算出增強(qiáng)后的語(yǔ)音信號(hào)。學(xué)者提出了許多關(guān)于譜減法的改進(jìn)方法[1-4],比如在聽(tīng)覺(jué)掩蔽效應(yīng)和AR-HMM模型的基礎(chǔ)上對(duì)譜減法進(jìn)行改進(jìn),這些改進(jìn)算法能在很大程度上抑制“音樂(lè)噪聲”。傳統(tǒng)的譜減算法必須假定語(yǔ)音信號(hào)和噪聲信號(hào)是統(tǒng)計(jì)互不相關(guān)的,表明即使在無(wú)語(yǔ)期間,噪聲也一樣會(huì)影響全部頻帶,噪聲頻譜在實(shí)際應(yīng)用中分布是不規(guī)則的,噪聲能量也會(huì)互不相同的表現(xiàn)在頻域上。
傳統(tǒng)譜減法基本原理如圖1所示。
圖1 傳統(tǒng)譜減法基本原理Fig.1 Basic block diagram of the conventional spectral subtraction
假定y(n)、s(n)和d(n)分別為第n個(gè)取樣點(diǎn)帶噪語(yǔ)音的離散信號(hào)、原始純凈語(yǔ)音的離散信號(hào)和加性噪聲的離散信號(hào),給定純凈語(yǔ)音信號(hào)與噪聲信號(hào)是在相互獨(dú)立的情況下,則帶噪語(yǔ)音信號(hào)為 :
y(n)、s(n)和d(n)加窗處理后各自用yw(n),sw(s)dw(n),來(lái)表示,有yw(m)=sw(m)+dw(m), 對(duì)其兩邊作傅里葉變換,整理得:
則有帶噪語(yǔ)音信號(hào)的功率譜為:
式(3)中:(ω)——Dw(ω)的復(fù)共軛函數(shù);(ω)——Sw(ω)的復(fù)共軛函數(shù);——語(yǔ)音短時(shí)的功率譜。Yw(ω)的 DFT 為
式中,λd(k)——無(wú)語(yǔ)時(shí)段噪聲Dw(ω)的統(tǒng)計(jì)平均值。
噪聲在某一段隨機(jī)時(shí)間內(nèi)是平穩(wěn)的,可以近似認(rèn)為噪聲在產(chǎn)生前和產(chǎn)生期間的功率譜相等,于是噪聲的估計(jì)值可以根據(jù)產(chǎn)生前的無(wú)語(yǔ)音的幀來(lái)獲得。估值可能導(dǎo)致這個(gè)差值為負(fù),但功率譜只能取正。于是采用半波整流和全波整流兩種方法。利用半波整流方法處理時(shí),對(duì)幅度為正的保持不變,非正的部分為0。對(duì)應(yīng)的表達(dá)式:
式(6)是從功率譜角度考慮的,如果從幅度譜角度出發(fā)時(shí),幅度譜減為:
半波整流幅度譜減輸入和輸出幅度譜關(guān)系特性如圖2所示。
圖2 輸入和輸出幅度譜關(guān)系Fig.2 Input and output amplitude spectrum relationship
此方法目的在于對(duì)帶有噪聲語(yǔ)音信號(hào)幅度譜進(jìn)行過(guò)門(mén)限處理,其門(mén)限值設(shè)定為噪聲均值λd(k)的值,除了那些幅值小于門(mén)限值的那些信號(hào),達(dá)到了提高語(yǔ)音信號(hào)質(zhì)量的目的。
由于人耳的感知特性對(duì)信號(hào)相位感知還達(dá)不到靈敏的程度,于是把增強(qiáng)后信號(hào)的估計(jì)值(ω)的相位等同于帶噪語(yǔ)音相位得:
利用全波整流法時(shí),幅度為正的值不變,其他部分取絕對(duì)值,表達(dá)式為:
余下的處理和半波整流法相同。
傳統(tǒng)譜減法的優(yōu)勢(shì)在于其設(shè)計(jì)簡(jiǎn)單,便于計(jì)算,能夠明顯的提高語(yǔ)音信號(hào)質(zhì)量,其不足是處理后的語(yǔ)音信號(hào)帶有明顯的“音樂(lè)噪聲”,耳聽(tīng)起來(lái)就像流水聲并帶有節(jié)奏起伏?!耙魳?lè)噪聲”的產(chǎn)生會(huì)對(duì)語(yǔ)音信號(hào)一定的負(fù)面影響,如對(duì)信號(hào)的抑制和損傷,同時(shí),對(duì)人耳對(duì)語(yǔ)音感知的舒適度也會(huì)產(chǎn)生影響[5-6]。
噪聲的頻譜特征的表現(xiàn)形式為它是成高斯分布的,幅值變化范圍寬,利用傳統(tǒng)譜減法處理語(yǔ)音時(shí)殘留“音樂(lè)噪聲”的一個(gè)根本原因,會(huì)使語(yǔ)音信號(hào)出現(xiàn)負(fù)值,如果把非正的值都處理為0,致使頻譜上形成尖峰,即產(chǎn)生“音樂(lè)噪聲”。這種噪聲每幀在隨機(jī)的頻率內(nèi)出現(xiàn)尖峰的集中表現(xiàn),有可能對(duì)語(yǔ)音信號(hào)的抑制作用強(qiáng)于未被處理過(guò)的噪聲,更加令人反感,它的產(chǎn)生是傳統(tǒng)譜減法不可避免的,只能減弱,以提高語(yǔ)音的舒適度。
改進(jìn)算法的原理是將帶噪的語(yǔ)音信號(hào)按照頻率劃分成不同的頻帶,并使這些頻帶之間互不交疊,而后根據(jù)頻帶內(nèi)帶有噪聲的語(yǔ)音信號(hào)和噪聲的信噪比,選取自適應(yīng)算法計(jì)算得出這個(gè)頻帶的過(guò)減因子。
帶噪語(yǔ)音在多帶譜減算法語(yǔ)音增強(qiáng)時(shí)的功率譜表示為:
bk——第k個(gè)頻帶的頻率起點(diǎn);
bk+1——第k個(gè)頻帶的頻率終點(diǎn);
ak——第k個(gè)頻帶過(guò)減因子。
ak的值由第k個(gè)頻帶的分段帶有噪聲的語(yǔ)音信號(hào)與噪聲信號(hào)信噪比SNRk來(lái)確定,如下式:
式中,SNRk——第k個(gè)頻帶信噪比,由下式計(jì)算得到:
式中,δk——噪聲過(guò)減因子,可調(diào)節(jié)各個(gè)頻帶的噪聲抑制度并且通過(guò)它的取值可以觀察出信號(hào)能量的分布特點(diǎn)。
Kamath實(shí)驗(yàn)中得出結(jié)論:δk的值是常數(shù)由下式確定:
式中:fk——第k個(gè)頻帶的頻率上限峰值;Fs——采樣頻率。
語(yǔ)音信號(hào)能量大多出現(xiàn)在低頻段,為了減少語(yǔ)音失真,我們可以在上面找個(gè)一個(gè)較小的值,當(dāng)取到這個(gè)值的時(shí)候語(yǔ)音的失真程度最低,保證語(yǔ)音清晰度維持在一個(gè)理想的水平,同樣的在高頻段也可以找到適當(dāng)?shù)闹挡⒔Y(jié)合人耳感知特性去除在該頻段出現(xiàn)的噪聲。
式(16)內(nèi)的頻譜乘系數(shù)b通常等于0.002。
利用MATLAB軟件來(lái)仿真多帶譜減算法進(jìn)行語(yǔ)音增強(qiáng)實(shí)驗(yàn),仿真實(shí)驗(yàn)選取一段在實(shí)驗(yàn)室安靜條件下采集的男聲十個(gè)阿拉伯?dāng)?shù)字 (1-10)的標(biāo)準(zhǔn)漢語(yǔ)發(fā)音。各自加入選自NoiseX92標(biāo)準(zhǔn)噪聲庫(kù)中的白噪聲和粉紅噪聲,噪聲與語(yǔ)音信號(hào)的都經(jīng)過(guò)16 kHz的采樣,512點(diǎn)分幀,幀移為256點(diǎn),實(shí)驗(yàn)是在不同的信噪比條件下進(jìn)行的,下面開(kāi)始介紹有代表性仿真實(shí)驗(yàn)的結(jié)果。
仿真實(shí)驗(yàn)通過(guò)波形圖和語(yǔ)譜圖進(jìn)行增強(qiáng)效果對(duì)比的方式來(lái)進(jìn)行,前者能夠更為直接的觀察增強(qiáng)效果。后者能集中顯示和語(yǔ)音語(yǔ)句特性相關(guān)的信息,這樣就具備頻譜圖和波形圖各自的優(yōu)點(diǎn)。利用語(yǔ)譜圖上得到的信息就可以觀察出噪聲殘留的結(jié)構(gòu)以及時(shí)域和頻域的分布特性,功率的大小和語(yǔ)譜圖上的顏色有關(guān),顏色越深代表功率越大,相反顏色越淺代表功率越小。
圖3(c)是信噪比為0的加入白噪聲的帶噪語(yǔ)音,通過(guò)傳統(tǒng)譜減法和改進(jìn)的譜減法對(duì)其進(jìn)行語(yǔ)音增強(qiáng),實(shí)驗(yàn)結(jié)果的波形圖見(jiàn)圖 3(e)、圖 3(g)和語(yǔ)譜圖見(jiàn)圖 3(f)、圖 3(h),從波形圖見(jiàn)圖3(e)可以看到新算法進(jìn)行語(yǔ)音增強(qiáng)后語(yǔ)音質(zhì)量明顯提高,表示為殘留的噪聲大量減少。圖3(f)中的離散的點(diǎn)狀紋,是“音樂(lè)噪聲”在語(yǔ)譜圖上的表現(xiàn)形式。帶噪語(yǔ)音在進(jìn)過(guò)改進(jìn)譜減算法增強(qiáng)后,點(diǎn)狀紋明顯減少即“音樂(lè)噪聲”明顯減少。
白噪聲的功率譜密度是均勻的分布在整個(gè)頻帶上的,它是理想噪聲的一種,在實(shí)際應(yīng)用環(huán)境中,我們遇到的噪聲大多為有色噪聲,故在實(shí)驗(yàn)中我們加入粉紅噪聲,比白噪聲更貼進(jìn)真實(shí)環(huán)境。圖4中的仿真實(shí)驗(yàn)是通過(guò)傳統(tǒng)譜減法和多頻帶譜減法分別處理受到粉紅噪聲干擾的帶噪語(yǔ)音,其信噪比為0,在波形圖和語(yǔ)譜圖的對(duì)比下,觀察到多頻帶譜減算法的語(yǔ)音增強(qiáng)效果仍然比傳統(tǒng)譜減法好。
圖3 白噪聲下語(yǔ)音增強(qiáng)實(shí)驗(yàn)(SNR=0)Fig.3 Speech enhancement experiments under white noised (SNR=0)
將多頻帶分解方法應(yīng)用于傳統(tǒng)譜減語(yǔ)音增強(qiáng)算法,將帶有噪聲的語(yǔ)音信號(hào)、估計(jì)的噪聲信號(hào)按不同頻率上劃分成為不同的頻帶,使這些頻帶之間互不交疊,根據(jù)每個(gè)頻帶內(nèi)的分段帶噪語(yǔ)音信號(hào)與噪聲信號(hào)的信噪比,用自適應(yīng)算法計(jì)算出這個(gè)頻帶過(guò)減因子,以提升增強(qiáng)語(yǔ)音的性能,能夠更有效的抑制產(chǎn)生殘留的“音樂(lè)噪聲”,語(yǔ)音信號(hào)的可讀性也有所上升。利用MATLAB實(shí)驗(yàn)仿真驗(yàn)證了多帶譜減法的增強(qiáng)效果優(yōu)于傳統(tǒng)譜減法,其表現(xiàn)為在增強(qiáng)過(guò)后的語(yǔ)音信號(hào)中殘留的“音樂(lè)噪聲”明顯降低,較大程度得提升了語(yǔ)音信號(hào)的質(zhì)量。
圖4 粉紅噪聲下語(yǔ)音增強(qiáng)實(shí)驗(yàn)(SNR=0)Fig.4 Speech enhancement experiments under pink noise (SNR=0)
[1]李媛,鐵勇,那順烏力吉,等.基于擴(kuò)展譜減法的語(yǔ)音增強(qiáng)算法及實(shí)現(xiàn)[J].內(nèi)蒙古大學(xué)學(xué)報(bào):自然科學(xué)版,2008,39(1):97-101.
LI Yuan,TIE Yong,Na-shun-wu-li-ji,et al.Algorithm and realization ofspeech enhancementbased on extended spectral substraction[J].Journal of Inner Mongolia University:Natural Science Edition,2008,39(1):97-101.
[2]錢(qián)國(guó)清,趙鶴鳴.基于改進(jìn)譜減算法的語(yǔ)音增強(qiáng)新方法[J].計(jì)算機(jī)工程與應(yīng)用,2005, 35(5):42-43.
QIAN Guo-qing,ZHAO He-ming.New speech enhancement algorithm based on the improved spectral subtraction[J].Computer Engineering and Applications,2005,35(5):42-43.
[3]暢通.語(yǔ)音增強(qiáng)算法的研究與實(shí)現(xiàn)[D].西安:西安電子科技大學(xué),2007.
[4]常大曉,李萬(wàn)玉,董介春.基于擴(kuò)展譜減法語(yǔ)音增強(qiáng)系統(tǒng)的DSP實(shí)現(xiàn) [J].青島大學(xué)學(xué)報(bào)工程技術(shù)版,2005,20(4):61-64.
CHANG Da-xiao,LI Wan-yu,DONG Jie-chun.Implementing a speech enhancement system with ESS on DSP[J].Journal of Qingdao University Engineering&Technology Edition,2005,20(4):61-64.
[5]Martin R.Noise power spectral density estimation based on optimal smoothing and minimum statistics[J].IEEE Trans on Speech and Audio Processing,2001,9(5):504-512.
[6]孟靜.語(yǔ)音增強(qiáng)算法性能的評(píng)價(jià)研究[D].蘭州:蘭州交通大學(xué),2010.
[7]Jax P,Vary P.Artificial bandwidth extension of speech signals using MMSE estimation based on a hidden Markov model[J].IEEE International Conference on Aeeousties,Speech and Sigllal Proeessing,2003(1):680-683.