廖逢釵 盧昌荊
(三明學(xué)院 數(shù)學(xué)與計(jì)算機(jī)科學(xué)系,福建 三明 365004)
基于譜減的雙元指向傳聲器陣列語(yǔ)音增強(qiáng)
廖逢釵 盧昌荊
(三明學(xué)院 數(shù)學(xué)與計(jì)算機(jī)科學(xué)系,福建 三明 365004)
設(shè)計(jì)了一種結(jié)構(gòu)簡(jiǎn)單的用于語(yǔ)音增強(qiáng)的雙元指向性傳聲器陣列,利用陣列中不同方位陣元對(duì)目標(biāo)信號(hào)和干擾信號(hào)的增益不同的特點(diǎn),有效估計(jì)噪聲信號(hào)的功率譜,再利用傳統(tǒng)譜減算法的思想,實(shí)現(xiàn)語(yǔ)音增強(qiáng)。實(shí)驗(yàn)結(jié)果表明提出的算法是有效的,與經(jīng)典的譜減算法相比具有更佳的語(yǔ)音增強(qiáng)效果。
譜減;傳聲器陣列;語(yǔ)音增強(qiáng);傅立葉變換;衰減系數(shù)
在實(shí)際應(yīng)用中,由于環(huán)境噪聲的干擾,許多語(yǔ)音信號(hào)處理系統(tǒng)的性能急劇下降,導(dǎo)致語(yǔ)音的質(zhì)量變差。語(yǔ)音增強(qiáng)算法就是從被污染的帶噪語(yǔ)音信號(hào)中提取盡可能純凈的目標(biāo)信號(hào),改善語(yǔ)音信號(hào)的質(zhì)量,它可分單通道語(yǔ)音增強(qiáng)和多通道語(yǔ)音增強(qiáng)。基于短時(shí)幅度譜估計(jì)的語(yǔ)音增強(qiáng)算法[1][2]、基于語(yǔ)音生成模型的語(yǔ)音增強(qiáng)算法[3]、基于聽(tīng)覺(jué)模型的語(yǔ)音增強(qiáng)研究[4]和基于人工神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)算法[5]等都屬于單通道語(yǔ)音增強(qiáng)。傳統(tǒng)譜減法[1](Classical Spectral Subtraction,CSS)是最常用的單通道語(yǔ)音增強(qiáng)算法,它具有計(jì)算量小、易于實(shí)時(shí)實(shí)現(xiàn)等優(yōu)點(diǎn),在魯棒語(yǔ)音識(shí)別、助聽(tīng)器、語(yǔ)音編碼技術(shù)、信號(hào)分離等領(lǐng)域得到了廣泛的應(yīng)用[6-10]。但在傳統(tǒng)的譜減算法中,噪聲的估計(jì)是用無(wú)音期間的加權(quán)平均值來(lái)代替當(dāng)前分析幀中各頻點(diǎn)的噪聲頻譜分布。由于噪聲頻譜服從高斯分布,其幅度隨機(jī)變化的范圍很寬,因此在相減時(shí),如果某頻點(diǎn)處噪聲分量較大,就會(huì)產(chǎn)生很大的殘留噪聲,即 “音樂(lè)噪聲”,這是譜減法中常出現(xiàn)的問(wèn)題。近幾年,在高檔的語(yǔ)音信號(hào)處理系統(tǒng)中,引進(jìn)多通道語(yǔ)音增強(qiáng)算法,它可以有效解決上述問(wèn)題,但它在數(shù)據(jù)采集時(shí)需要較多的通道數(shù),設(shè)備復(fù)雜,計(jì)算量隨著通道數(shù)的增加而增大。
針對(duì)以上不同算法存在的問(wèn)題,本文結(jié)合傳統(tǒng)譜減算法,提出二元指向性傳聲器陣列譜減 (Dual Directivity Microphone Array Spectral Subtraction,DDMASS)語(yǔ)音增強(qiáng)算法。DDMA-SS算法在硬件方面要求不高,只要能雙通道錄音即可。在算法方面,計(jì)算量和CSS相當(dāng),它利用陣列中不同方位的陣元對(duì)目標(biāo)信號(hào)和干擾信號(hào)的增益不同來(lái)估計(jì)目噪聲信號(hào)的功率譜,最終實(shí)現(xiàn)語(yǔ)音增強(qiáng)的目標(biāo)。DDMA-SS算法與傳統(tǒng)的單通道譜減算法相比,不論目標(biāo)語(yǔ)音是否存在,它都可以實(shí)時(shí)估計(jì)噪聲功率譜密度,增強(qiáng)后語(yǔ)音的殘留音樂(lè)噪聲明顯削弱。
經(jīng)典譜減法[1]的基本思想是:假設(shè)噪聲是平穩(wěn)的加性噪聲,并且假設(shè)目標(biāo)信號(hào)和噪聲是相互獨(dú)立的,那么就可以從帶噪語(yǔ)音的幅度譜(或功率譜)中減去噪聲的幅度譜(或功率譜),從而得到較為純凈的目標(biāo)信號(hào)的頻譜。假設(shè)信號(hào)模型是:
s(k)、n(k)是時(shí)域信號(hào)經(jīng)過(guò)加窗處理后的目標(biāo)語(yǔ)音信號(hào)和加性噪聲信號(hào),x(k)是合成后的信號(hào)。(1)式傅立葉變換得到:
經(jīng)典譜減可以用以下式子表示:
其中,H(ejω)是譜減濾波器,可以通過(guò)以下方法計(jì)算:
這里,μ(ejω)代表噪聲的頻譜,它的幅度是用無(wú)語(yǔ)音活動(dòng)期間的噪聲平均值來(lái)代替,相位用X(ejω)的相位替代。譜減之后用逆傅立葉變換和幀疊加處理即可獲得增強(qiáng)后的語(yǔ)音。
基本譜減算法用靜音時(shí)的幅度譜(或功率譜)作為噪聲幅度譜(或功率譜)的估計(jì)值,在平穩(wěn)噪聲場(chǎng)合可以獲得滿意的效果,而在非平穩(wěn)噪聲的情況下效果變差,有殘留音樂(lè)噪聲產(chǎn)生。為此,下面引入DDMA-SS算法。
1.2.1 傳聲器陣列的拓?fù)浣Y(jié)構(gòu)
圖1是用于實(shí)現(xiàn)DDMA-SS算法的傳聲器陣列的拓?fù)浣Y(jié)構(gòu)示意圖,A和B是指向性傳聲器,它們的間距為d,它們的極性圖相差π,設(shè)目標(biāo)信號(hào)S在A傳聲器的正前方,干擾信號(hào)n在另一側(cè)。
圖1.DDMA-SS算法的傳聲器陣列的拓?fù)浣Y(jié)構(gòu)示意圖
1.2.2 DDMA-SS算法
圖2是DDMA-SS算法流程的示意圖,算法主要由快速傅立葉變換(FFT)、譜減(SS)、衰減系數(shù)估計(jì)(attenuation coefficient estimate,ACE)、逆傅立葉變換-疊加(IFFT-ADD),語(yǔ)音活動(dòng)檢測(cè)(Voice Activity Detection,VAD)等幾個(gè)模塊構(gòu)成。下面介紹算法的原理。
設(shè)純凈目標(biāo)語(yǔ)音和加性干擾噪聲分別是s、n,兩個(gè)指向性傳聲器A、B接收到的時(shí)域信號(hào)x1、x2可以近似表示為(在下文為了敘述方便,分別稱對(duì)應(yīng)的兩個(gè)通道為A通道和B通道):
圖2.DDMA-SS算法流程示意圖
這里λ和μ分別是干擾噪聲和目標(biāo)語(yǔ)音的相對(duì)衰減系數(shù)(0≤λ≤1,0≤μ≤1),它主要由傳聲器的指向特性決定的。式(5)、(6)離散傅立葉變換后得:
其中,i是頻點(diǎn) (1≤i≤ L,L=2mm ∈Z+,L 是幀長(zhǎng))。由(7)、(8)可得:
其中,Re(·)表示求互相關(guān)值。由于目標(biāo)語(yǔ)音s和加性干擾噪聲n是獨(dú)立的、所以si和ni也是獨(dú)立的,所以有:
(14)式的分母部分只與衰減系數(shù)有關(guān),可以看作常數(shù),只影響最終總體信號(hào)的強(qiáng)弱。另外,在實(shí)際應(yīng)用中往往(λiμi)2<<1,所以忽略分母部分得:
(15)式的物理意義是:一幀內(nèi),目標(biāo)信號(hào)s的i第頻點(diǎn)的功率譜可以通過(guò)以下兩個(gè)步驟獲得:
①傳聲器B接收信號(hào)的第i頻點(diǎn)的功率譜衰減(即乘以(λi)2)后作為噪聲功率譜的估計(jì)值;
②從傳聲器A接收信號(hào)的第i頻點(diǎn)的功率譜減去①估計(jì)的噪聲功率譜,即可得到目標(biāo)語(yǔ)音頻譜的估計(jì)值。
以上兩個(gè)步驟的關(guān)鍵是確定衰減系數(shù)λi,它可以通過(guò)目標(biāo)語(yǔ)音不存在時(shí),兩個(gè)通道第i頻點(diǎn)的功率比值獲得,即令(15)式左邊等于零,并整理得:
這里,下標(biāo)VNA表示目標(biāo)語(yǔ)音不活動(dòng) (Voice No Activity),即只有干擾噪聲。
求得λi后,由(15)式可以獲得目標(biāo)語(yǔ)音幅度的估計(jì)值:
最后,si的相位用的相位代替,使用逆傅立葉變換及合成處理得到增強(qiáng)后的語(yǔ)音:
實(shí)驗(yàn)數(shù)據(jù)是利用USB總線接口的2路同步數(shù)據(jù)采集系統(tǒng)錄制的,采樣頻率8KHz,采樣位數(shù)16bit。實(shí)驗(yàn)環(huán)境是一房間,長(zhǎng)、寬、高分別是3500mm、3100mm和2650mm。為了方便控制信噪比,用兩個(gè)揚(yáng)聲器分別播放錄制好的噪聲和語(yǔ)音。
語(yǔ)音的內(nèi)容是中文 “近似”、“景致”、“進(jìn)行曲”、“酒家”、“舉例”等詞組。選用的噪聲是機(jī)場(chǎng)噪聲、計(jì)算機(jī)噪聲、風(fēng)扇噪聲等。實(shí)驗(yàn)時(shí),A通道的信噪比控制在0dB左右,總共采集30組實(shí)驗(yàn)數(shù)據(jù)。對(duì)信號(hào)進(jìn)行處理時(shí),采用漢明窗進(jìn)行分幀,每幀256個(gè)采樣點(diǎn)(32ms),幀移40%。
圖3是實(shí)驗(yàn)的一個(gè)語(yǔ)音信號(hào)波形實(shí)例,(a)、(b)、(c)、(d)、(e)分別是純凈的參考語(yǔ)音波形、通道A的時(shí)域波形、通道B的時(shí)域波形、CSS算法的輸出波形、DDMA-SS算法的輸出波形。圖4是圖3對(duì)應(yīng)的譜圖。相比于A通道信號(hào),用CSS算法和DDMA-SS算法增強(qiáng)后的語(yǔ)音信號(hào)信噪比平均改善分別是2.1dB和2.6dB,增強(qiáng)后的語(yǔ)音清晰,背景噪聲基本被抑制。通過(guò)人工反復(fù)試聽(tīng)發(fā)現(xiàn),DDMA-SS算法采用了兩個(gè)指向性傳聲器對(duì)噪聲信號(hào)和目標(biāo)信號(hào)的不同抑制作用來(lái)估計(jì)噪聲的功率譜,所以它與CSS算法相比,殘余音樂(lè)噪聲得到明顯的改善。
在譜減算法的基礎(chǔ)上,提出基于譜減的二元指向傳聲器陣列語(yǔ)音增強(qiáng)算法,實(shí)驗(yàn)結(jié)果表明,該算法可以有效抑制殘留音樂(lè)噪聲。但本文研究的聲源比較單一,對(duì)復(fù)雜聲源的情況有待進(jìn)一步研究。
圖3.語(yǔ)音信號(hào)波形實(shí)例
圖4.語(yǔ)音信號(hào)譜圖實(shí)例
[1]S.F.Boll.Suppression of acoustic noise in speech using spectral subtraction [J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1979,vol.27(no.2):113.
[2]EPHTSIM Y ,MALAH D .Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator[J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1984,vol.32(no.6):1109.
[3]LIM F,OPPENHEIM A V .All-pole modeling of degraded speech [J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1978,vol.26(no.3):197.
[4]VIRAG N.Single channel speech enhancement based on masking properties of the human auditory system[J].IEEE Transactions on Speech and Audio Processing,1999,vol.7(no.2):126.
[5]TAMURA S.An analysis on a noise reduction neural network[J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1989,vol.3:2001.
[6]Xu,H.;Tan,Z.-H.;Dalsgaard,P.;Lindberg,B..Robust Speech Recognition by Nonlocal Means Denoising Processing[J].IEEE signal processing letters,2008,vol.15:701.
[7]IOSIF MPORAS;TODOR GANCHEV;OTILIA KOCSIS;NIKOS FAKOTAKIS.SPEECH ENHANCEMENT FOR ROBUST SPEECH RECOGNITION IN MOTORCYCLE ENVIRONMENT [J].International Journal of Artificial Intelligence Tools,2010,vol.19(no.2):159.
[8]Fa-Long Luo;Arye Nehorai.Recent Developments in Signal Processing for Digital Hearing Aids[J].IEEE Signal Processing Magazine,2006,vol.23(no.5):103.
[9]Chatree BUDSABATHON;Akinori NISHIHARA.Dithered Subb and Coding with Spectral Subtraction [J].IEICE Transactionson Fundamentals of Electronics,Communications and Computer Sciences,2006,vol.E89-A(no.6):1788.
[10]Hsu,C.-L.On the Improvement of Singing Voice Separation for Monaural Recordings Using the MIR-1K Dataset[J].IEEE transactions on audio,speech,and language processing,2010,vol.18(no.2):310.
Spectral Subtraction Based on Dual Directivity Microphone Array Speech Enhancement
LIAO Fengchai LU Changjing
(Mathematics and Computer Department,Sanming University,Sanning,F(xiàn)ujian 365004)
A simple dual directivity microphone array used to speech enhancement is designed,noise power spectral is est mated availably using the characteristic that difference azimuth element in array has difference gain to object signal and interfere signal.Any more,achieves speech enhancement using the idea of classical Spectral Subtraction.Experiment result indicates that proposal algorithm is effective,and it’s speech enhance ment effect is better than classical Spectral Subtraction algorithm.
Spectral Subtraction ;microphone array;speech enhancement;Fourier transform ;attenuation coefficient
TN641
A
1674-2109(2011)02-0073-04
2011-01-31
福建省自然科學(xué)基金(2009J01296)。
廖逢釵(1968-),男,漢族,副教授,主要研究方向:語(yǔ)音信號(hào)處理和嵌入式技術(shù)。
book=4,ebook=242