李 俊 周 萍 景新幸
1(桂林電子科技大學(xué)電子工程與自動(dòng)化學(xué)院 廣西 桂林 541004)
2(桂林電子科技大學(xué)信息與通信學(xué)院 廣西 桂林 541004)
?
車載環(huán)境下語音增強(qiáng)的研究
李俊1周萍1景新幸2
1(桂林電子科技大學(xué)電子工程與自動(dòng)化學(xué)院廣西 桂林 541004)
2(桂林電子科技大學(xué)信息與通信學(xué)院廣西 桂林 541004)
摘要針對(duì)車載環(huán)境下語音系統(tǒng)受到外界強(qiáng)噪聲的干擾而導(dǎo)致識(shí)別精度降低以及通信質(zhì)量受損的問題,提出一種自適應(yīng)MMSE-LSA估計(jì)與TEO(Teager Energy Operator)能量端點(diǎn)檢測相結(jié)合的語音增強(qiáng)算法。TEO端點(diǎn)檢測可以將語音分為語音段和非語音段,從而在噪聲估計(jì)時(shí)可以更好地跟蹤噪聲的變化,得到更加準(zhǔn)確的先后驗(yàn)信噪比,使增強(qiáng)后的語音最大限度地接近純凈語音,而且對(duì)車載噪聲的增強(qiáng)效果比其他噪聲更好。在車載環(huán)境中進(jìn)行實(shí)驗(yàn),結(jié)果顯示該方法與MMSE-LSA以及傳統(tǒng)的譜減法相比,提高了輸出信噪比,減弱了音樂噪聲,在可懂度和清晰度方面均具有優(yōu)勢。
關(guān)鍵詞車載噪聲信噪比TEO端點(diǎn)檢測語音增強(qiáng)
RESEARCH ON SPEECH ENHANCEMENT ALGORITHM UNDER ON-BOARD ENVIRONMENT
Li Jun1Zhou Ping1Jing Xinxing2
1(School of Electronic Engineering and Automation,Guilin University of Technology,Guilin 541004,Guangxi,China)2(School of Information and Communication,Guilin University of Technology,Guilin 541004,Guangxi,China)
AbstractVoice system could be disturbed by external strong noise under on-board environment, which will lead to decline in accuracy of recognition and damage of communication quality. In order to solve this problem, we proposed a speech enhancement algorithm combining adaptive MMSE-LSA estimation and TEO (Teager energy operator) endpoint detection. According to TEO endpoint detection method, speech can be divided into voice segment and non-voice segment so that in noise estimation the changes of noise can be better tracked and more accurate priori SNR and posterior SNR can be gained as well, this makes the enhanced speech sufficiently approach the original speech. In addition, TEO endpoint detection has a much better effect in enhancing vehicle noise than any other noises. Experiment was carried out under on-board environment, results showed that this method, compared with MMSE-LSA estimation and traditional spectral subtraction, improved the output SNR, reduced the music noise, and had the advantages in both intelligibility and clarity.
KeywordsOn-board noiseSignal-to-noise ratioTEOEndpoint detectionSpeech enhancement
0引言
在汽車內(nèi)部由于動(dòng)力系統(tǒng)的運(yùn)行產(chǎn)生的齒輪嚙合,高速行駛時(shí)車輪與地面和空氣的摩擦以及其他振動(dòng)源共同形成了車載噪聲[3]。車載語音通信難免會(huì)受到噪聲的干擾,帶有很強(qiáng)的背景噪聲的語音信號(hào)很難被車載語音系統(tǒng)識(shí)別,必須對(duì)車載語音進(jìn)行增強(qiáng)處理,消除背景噪聲,提高汽車中語音通信的質(zhì)量和車載系統(tǒng)的識(shí)別率。
傳統(tǒng)的譜減法、維納濾波法、最小均方差估計(jì)法在去除背景噪聲方面有很好的效果,但是有的時(shí)候會(huì)造成語音的失真或者產(chǎn)生強(qiáng)烈的音樂噪聲[2,4]。通過研究發(fā)現(xiàn)自適應(yīng)MMSE-LSA估計(jì)算法對(duì)背景噪聲抑制度高,使語音失真度低。
自適應(yīng)MMSE-LSA算法是利用先驗(yàn)信噪比計(jì)算增益函數(shù),從而得出純凈語音的估計(jì)值。因此對(duì)噪聲的準(zhǔn)確估計(jì)顯得尤為重要,文中提出一種基于TEO能量端點(diǎn)檢測的方法與其結(jié)合,實(shí)驗(yàn)證明這種算法可以更好地抑制音樂噪聲,適用于車載環(huán)境中,對(duì)volvo噪聲的去除效果明顯。
1自適應(yīng)MMSE-LSA算法描述
人耳對(duì)語音的感知主要依賴語音信號(hào)的幅度,而對(duì)其相位不敏感[10]。大量的研究發(fā)現(xiàn)語音具有短時(shí)平穩(wěn)性,即在30 ms以內(nèi)通??梢哉J(rèn)為語音是穩(wěn)態(tài)分布的,所以短時(shí)分幀處理為研究語音信號(hào)提供了很大的方便。把每一幀信號(hào)都近似認(rèn)為是平穩(wěn)信號(hào)來處理,MMSE-LSA正是估計(jì)出純凈語音的短時(shí)對(duì)數(shù)譜幅度[1]。然后利用人耳對(duì)語音相位不敏感的特性,用FFT變換時(shí)得到的原始語音信號(hào)的短時(shí)譜相位和估計(jì)的短時(shí)對(duì)數(shù)譜譜幅度重構(gòu)語音信號(hào),把重構(gòu)的信號(hào)作為純凈語音信號(hào)[7,8]。MMSE-LSA估計(jì)算法在對(duì)語音增強(qiáng)的過程中會(huì)涉及到先驗(yàn)信噪比和后驗(yàn)信噪比的估算。隨著對(duì)噪聲估計(jì)結(jié)果的變化,需要對(duì)信噪比進(jìn)行及時(shí)更新,由于在先驗(yàn)信噪比的估算中引入了調(diào)節(jié)系數(shù)α,通常對(duì)其值設(shè)定一個(gè)范圍,根據(jù)多次試驗(yàn)的結(jié)果確定一個(gè)經(jīng)驗(yàn)值。但這種方法難免使其適應(yīng)性減弱,可能不同的環(huán)境中,不同的信噪比時(shí)若繼續(xù)使用相同的值就會(huì)造成語音失真或者產(chǎn)生過多的音樂噪聲,需要對(duì)α 值及時(shí)更新。自適應(yīng)MMSE-LSA則是采用先驗(yàn)信噪比的最小均方差,根據(jù)噪聲的變化,得到α在不同噪聲情況下的最優(yōu)值即自適應(yīng)效果。
用x(n),d(n)和y(n)分別表示純凈語音,噪聲和帶噪語音,文中研究的噪聲是指語音中的加性噪聲。則:
y(n)=x(n)+d(n)
(1)
式(1)經(jīng)過FFT變換之后可得:
|Y(n,k)|2=|X(n,k)|2+|D(n,k)|2
(2)
其中,|Y(n,k)|2,|X(n,k)|2和|D(n,k)|2分別表示帶噪語音,純凈語音和噪聲的短時(shí)譜幅度則:
Y(n,k)=|Y(n,k)|∠θy
(3)
X(n,k)=|X(n,k)|∠θx
(4)
(5)
又由文獻(xiàn)[1]知:
|X(n,k)|=G(n,k)|Y(n,k)|
(6)
其中:
(7)
其中,ξ(n,k)是語音信號(hào)的第n幀第k個(gè)頻率點(diǎn)的先驗(yàn)信噪比,定義為:
(8)
(9)
從式(7)得知要計(jì)算出增益函數(shù)就必須知道先驗(yàn)信噪比,從而才能估計(jì)出純凈語音,能否準(zhǔn)確地估計(jì)出先驗(yàn)信噪比將關(guān)系感到語音增強(qiáng)的效果。傳統(tǒng)MMSE-LSA估計(jì)對(duì)先驗(yàn)信噪比的估計(jì)采用直接判決法。
(10)
式中,α根據(jù)經(jīng)驗(yàn)其取值范圍為[0.8,1],ε是一個(gè)無限接近0的正實(shí)數(shù),γ[n,k]是后驗(yàn)信噪比(SNRpost(n,k)),定義如下:
(11)
由文獻(xiàn)[5]可知先驗(yàn)信噪比估計(jì)公式的另一種表示方式為:
(12)
(13)
式(13)是一個(gè)半波整流函數(shù)。
(14)
由式(12)和式(14)可以得到下式:
(1-α(n,k))2·(ξ(n,k)+1)2
(15)
對(duì)M求導(dǎo),并假設(shè)?M/?α[n,k]=0,則可以求出α的最優(yōu)解:
(16)
2基于TEO的語音端點(diǎn)檢測
語音信號(hào)由語音段和噪聲段共同構(gòu)成,用端點(diǎn)檢測的方法將其區(qū)分出來再增強(qiáng)處理效果更明顯[12]。譜減法以及基于譜減法的改進(jìn)方法,在語音的增強(qiáng)過程中對(duì)噪聲的估計(jì)都是選取帶噪語音的開始幾幀能量譜的平均值或者加權(quán)平均值,即一般情況下認(rèn)為語音的開始部分只存在噪聲不存在語音,但是這種假設(shè)對(duì)平穩(wěn)噪聲環(huán)境中具有一定的適用性。對(duì)車載環(huán)境中的語音增強(qiáng)需要考慮到汽車在行駛的過程中,產(chǎn)生的車載噪聲隨著汽車所處的外界環(huán)境不同,并不是固定不變,實(shí)際上是非平穩(wěn)的。用端點(diǎn)檢測的方法檢測出噪聲段和語音段對(duì)噪聲進(jìn)行實(shí)時(shí)更新,才能使增強(qiáng)后的語音更真實(shí)。因此探尋一種適合車載環(huán)境的端點(diǎn)檢測方法也是很關(guān)鍵的。經(jīng)過試驗(yàn)的驗(yàn)證比較發(fā)現(xiàn)基于TEO的語音端點(diǎn)檢測更適用于車載環(huán)境。
很多研究中都默認(rèn)聲音的模型就是平面波沿著管軸傳播。然而TEO理論則認(rèn)為語音的產(chǎn)生是非線性的,語音是由聲道中的渦流和平面共同作用產(chǎn)生的,而且這一結(jié)論被流體力學(xué)所支持[9]。在連續(xù)信號(hào)x(t)中,TEO定義為:
ψ[x(t)]=(x′(t))2-x(t)x″(t)
(17)
當(dāng)x(t)為離散時(shí)間信號(hào)時(shí),其TEO能量可以近似表示為:
ψ[x(t)]=x(n)2-x(n-1)x(n+1)
(18)
由式(18)可知,離散x(t)的TEO能量不僅與自身有關(guān)而且還和其前一時(shí)刻后一時(shí)刻的值密切聯(lián)系。自適應(yīng)MMSE-LSA算法的性能好壞依賴于噪聲估計(jì),噪聲估計(jì)的準(zhǔn)確性又依賴于端點(diǎn)檢測?;赥EO的端點(diǎn)檢測相比短時(shí)能量和短時(shí)過零率方法準(zhǔn)確率有很大的提高,相比譜熵法復(fù)雜度以及計(jì)算量都有很可觀的降低[2]。
基于TEO是端點(diǎn)檢測首先根據(jù)信號(hào)是離散的還是連續(xù)的通過式(17)或者式(18)求出帶噪語音的TEO能量。對(duì)原是語音信號(hào)進(jìn)行分幀加窗處理,對(duì)每一幀信號(hào)進(jìn)行計(jì)算,求其TEO能量Ei,和傳統(tǒng)的短時(shí)雙門限一樣,在端點(diǎn)檢測時(shí)我們?cè)O(shè)定一個(gè)TEO能量值,作為門限。經(jīng)過對(duì)帶噪語音的TEO能量曲線的研究,設(shè)置門限L=Emin+Emean×0.1,當(dāng)Ei大于L時(shí)則認(rèn)為是語音段,反之為噪聲段,其中Emin表示整段語音TEO能量的最小值,Emean表示整段語音的TEO能量均值。
把純凈的語音分別加入white、babble、factory、volvo各種噪聲,形成-5、0、5、15 dB不同的信噪比的帶噪語音,比較TEO能量端點(diǎn)檢測方法在不同的噪聲中的檢測率,結(jié)果如圖1所示。
圖1 TEO能量端點(diǎn)檢測在四種不同噪聲中的檢測率
從圖1可以看出基于TEO的端點(diǎn)檢測在不同的噪聲環(huán)境中效果不同,對(duì)車輛噪聲的增強(qiáng)效果與信噪比近似成正比例關(guān)系,隨著信噪比的逐漸增大識(shí)別率直線上升。不僅在高信噪比時(shí)有較高的檢測率而且在0 dB以下相對(duì)于其用于其他噪聲環(huán)境中的檢測率最高,說明該方法適應(yīng)范圍比較廣穩(wěn)定性高,綜合考慮得出一個(gè)結(jié)論:基于TEO的端點(diǎn)檢測方法很適合在車載環(huán)境中應(yīng)用。
3實(shí)驗(yàn)結(jié)果
為了驗(yàn)證文中方法的性能,分別在MATLAB仿真環(huán)境下進(jìn)行試驗(yàn)和在實(shí)際車載環(huán)境中通過車載識(shí)別系統(tǒng)測試識(shí)別率。將文中的算法與傳統(tǒng)譜減法,MMSE-LSA估計(jì)作比較。試驗(yàn)采用的純凈語音信號(hào)采樣頻率為8 KHz,采樣精度為16 bit,對(duì)信號(hào)進(jìn)行分幀幀長為256,幀移為128。并使用噪聲語音庫NOISEX-92中的volvo.wav車輛噪聲加到純凈語音中構(gòu)成不同的信噪比的帶噪語音,比較算法的性能,如表1所示。
表1 三種算法輸出信噪比對(duì)比
從表1中的數(shù)據(jù)可以得知用傳統(tǒng)譜減法增強(qiáng)后的輸出信噪比與輸入信噪比相比較提升了很多。然而相比于文中的方法和MMSE-LSA估計(jì)傳統(tǒng)譜減法效果還是有一定的差距。關(guān)鍵是傳統(tǒng)譜減法會(huì)帶來比較嚴(yán)重的音樂噪聲。譜減法采用噪聲的統(tǒng)計(jì)均值代替當(dāng)前幀的噪聲,要是噪聲估計(jì)值的更新不及時(shí),當(dāng)估計(jì)噪聲小于某幀中所含有的噪聲分量,相減之后就會(huì)殘留噪聲。在頻譜上形成離散的譜峰,在時(shí)域中就表現(xiàn)為類似正弦信號(hào)疊加產(chǎn)生的音樂一樣的噪聲,比較刺耳,影響聽覺的可懂度和清晰度,還會(huì)使人聽覺產(chǎn)生疲勞,被稱為“音樂噪聲”。文中方法相對(duì)于MMSE-LSA在信噪比提升方面大概提高0.5 dB。但是由于傳統(tǒng)的譜減法和MMSE-LSA算法都會(huì)在增強(qiáng)后的語音中引入較強(qiáng)的音樂噪聲,通過文中的算法增強(qiáng)之后的語音在聽覺感受上有明顯的改善,清晰度和可懂度也提高了。圖2以信噪比為0 dB為例,更加直觀地顯示出增強(qiáng)效果的差異,MMSE-LSA增強(qiáng)后明顯殘留較多噪聲。
圖2 文中方法與MMSE-LSA增強(qiáng)效果對(duì)比
研究增強(qiáng)算法的最終目的是為了提高車載語音識(shí)別系統(tǒng)的識(shí)別率,因此必須把文中的方法應(yīng)用到實(shí)際的車載環(huán)境中檢測其效果。測試的詞語有錄音、播放、停止、天窗、暫停、開門、關(guān)門、關(guān)窗、打開、關(guān)閉10個(gè)詞。先讓1名同學(xué)在實(shí)驗(yàn)室環(huán)境下進(jìn)行訓(xùn)練作為參考模版,然后尋找10名同學(xué)作為測試對(duì)象,有男生也有女生,在真實(shí)的汽車環(huán)境中進(jìn)行識(shí)別實(shí)驗(yàn)。每個(gè)同學(xué)以任意順序說出上述10個(gè)詞語并記錄識(shí)別結(jié)果,重復(fù)上述操作10次,即每個(gè)詞測試了100次。統(tǒng)計(jì)每個(gè)詞的識(shí)別率,實(shí)驗(yàn)結(jié)果如表2所示。
表2 各詞語的識(shí)別率統(tǒng)計(jì)和比較
從表2中可以看出文中算法識(shí)別率達(dá)到92%已經(jīng)很可觀,通過上述實(shí)驗(yàn)文中方法不管是在仿真環(huán)境中,還是在實(shí)際車載環(huán)境中都取得不錯(cuò)的效果。
4結(jié)語
為了提高車載環(huán)境中語音通信的質(zhì)量,本文提出自適應(yīng)MMSE-LSA與TEO能量端點(diǎn)檢測相結(jié)合的算法。通過在車載系統(tǒng)中的驗(yàn)證和與其他增強(qiáng)方法的比較表明本文方法對(duì)車載噪聲有很好的增強(qiáng)效果。不僅提高了輸出信號(hào)的信噪比和車載系統(tǒng)的成功識(shí)別率,而且增強(qiáng)后的語音在主觀聽覺感受上很好地抑制了音樂噪聲。
參考文獻(xiàn)
[1] 張鵬,張艷寧,付中華,等.基于MMSE-LSA語音增強(qiáng)算法在非平穩(wěn)環(huán)境下的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2007,28(19):4695-4697.
[2] 趙歡,王綱金,胡煉,等.車載環(huán)境下基于樣本熵的語音端點(diǎn)檢測方法[J].計(jì)算機(jī)研究與發(fā)展,2011,48(3):144-147.
[3] 姚黎.車載語音識(shí)別系統(tǒng)的語音增強(qiáng)方法研究[D].武漢:武漢理工大學(xué),2012.
[4] 姜占才,孫燕,王得芳.基于譜減和LMS的自適應(yīng)語音增強(qiáng)[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(7):142-145.
[5] Ephraim Y,Malah D.Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator[J].Acoustics,Speech and Signal Processing,IEEE Transactions on,1984,32(6):1109-1121.
[6] Jia Hairong,Zhang Xueying,Jin Chengsheng.A speech enhancement method based on wavelet packet and hearing masking effect[C]//2010 2nd International Conference on Signal Processing Systems,2010:272-275.
[7] 徐耀華,郭英,范海寧.語音增強(qiáng):使用burg譜先驗(yàn)信噪比估計(jì)消除“音樂噪聲”[J].信號(hào)處理,2009,25(1):141-146.
[8] 李世紹,高勇.低信噪比下基于FastIca和MMSE-LSA的語音識(shí)別[J].電聲技術(shù),2014,38(1):62-65.
[9] Teager H M,Teager S M.Evidence for nonlinear sound production mechanisms in the vocal tract[M].Speech Production and Speech Modeling.Springer Netherlands,1990:241-261.
[10] 張雪英.數(shù)字語音處理及matlab仿真[M].電子工業(yè)出版社,2011.
[11] 朱興宇,萬洪杰.基于麥克風(fēng)陣列的語音增強(qiáng)系統(tǒng)設(shè)計(jì)[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(3):240-243.
[12] 王勁松,李柏巖,宋輝.基于小波分解和信號(hào)相關(guān)函數(shù)的語音端點(diǎn)檢測[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(7):103-104,124.
中圖分類號(hào)TP391.42
文獻(xiàn)標(biāo)識(shí)碼A
DOI:10.3969/j.issn.1000-386x.2016.02.031
收稿日期:2014-08-18。廣西區(qū)自然科學(xué)基金項(xiàng)目(2012GXNS FAA053221)。李俊,碩士,主研領(lǐng)域:語音信號(hào)處理。周萍,教授。景新幸,教授。