葉琪,陶亮,周健,王華彬
?
基于聯(lián)合失真控制的子空間語音增強(qiáng)算法
葉琪1,2,陶亮1,周健1,2,王華彬1
(1. 安徽大學(xué)計(jì)算智能與信號(hào)處理教育部重點(diǎn)實(shí)驗(yàn)室,安徽合肥230031;2. 安徽大學(xué)媒體計(jì)算研究所,安徽合肥230601)
為提高低信噪比環(huán)境下的語音可懂度,提出了一種基于聯(lián)合失真控制的子空間語音增強(qiáng)算法。由于誤差信號(hào)中的語音失真和殘余噪聲分量不能被同時(shí)最小化,同時(shí),由語音估計(jì)器引起的語音放大失真超過6.02 dB時(shí)會(huì)嚴(yán)重?fù)p害語音可懂度。為此分別對(duì)語音失真和殘余噪聲進(jìn)行最小化處理,最小化時(shí)把語音放大失真控制在6.02 dB以下作為約束條件,通過求解兩個(gè)約束最優(yōu)化問題得到兩個(gè)不同的估計(jì)器,再對(duì)這兩個(gè)估計(jì)器進(jìn)行加權(quán)求和,得到一種基于聯(lián)合失真控制的語音估計(jì)器。實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)的子空間增強(qiáng)方法,在低信噪比環(huán)境下所提出的算法能更有效提高增強(qiáng)后語音的可懂度。
語音可懂度;失真控制;子空間增強(qiáng)
自語音增強(qiáng)技術(shù)被提出以來,該技術(shù)被廣泛地應(yīng)用到助聽器、通訊設(shè)備以及自動(dòng)識(shí)別等系統(tǒng)中。現(xiàn)有的增強(qiáng)技術(shù)主要分為四類,譜減法類[1]、維納濾波類[2]、統(tǒng)計(jì)模型類[3]和子空間類[4-7]。子空間方法將估計(jì)誤差分為語音失真和殘余噪聲兩部分,并在這兩部分之間進(jìn)行權(quán)衡控制。相比于其他方法,經(jīng)子空間法處理后的語音受到音樂噪聲的影響較小。Ephraim等[4]假設(shè)背景噪聲為白噪聲,利用卡胡南-洛夫變換(Karhunen-Loeve Transform,KLT)變換將含噪語音空間分解為相正交的信號(hào)子空間和噪聲子空間,最后將噪聲子空間置零,從信號(hào)子空間中估計(jì)出語音信號(hào)。為了處理有色噪聲的情況,Mittal等[5]將含噪語音幀按噪聲幀和語音幀分類,并分別處理。Rezayee等[6]則利用語音信號(hào)特征向量近似對(duì)角化噪聲協(xié)方差矩陣,得到次優(yōu)估計(jì)方法。Yi Hu等[7]提出了基于廣義特征值分解的方法,獲得了有色噪聲下的最優(yōu)估計(jì)器。
傳統(tǒng)算法的主要目的是改善語音質(zhì)量,并不一定能提高語音可懂度。Yi Hu等[8]對(duì)4類不同的增強(qiáng)算法是否能提高語音可懂度進(jìn)行了研究。研究發(fā)現(xiàn),傳統(tǒng)算法并不能提高語音可懂度,低信噪比的情況下甚至?xí)档涂啥?。Loizou等[9]分析了傳統(tǒng)算法不能提高語音可懂度的因素。研究發(fā)現(xiàn),由增益函數(shù)引起的語音放大失真和語音衰減失真對(duì)可懂度的影響不同,超過6.02 dB的放大失真會(huì)嚴(yán)重?fù)p害可懂度,衰減失真對(duì)可懂度的影響卻很小。為提高語音可懂度,有不少研究人員在增強(qiáng)算法的設(shè)計(jì)中引入了失真控制,直接或間接地找出對(duì)可懂度有害的放大失真區(qū)域,再將增強(qiáng)后語音的放大失真約束在6.02 dB以下[10-13]。也有學(xué)者利用非對(duì)稱代價(jià)函數(shù)對(duì)衰減失真和放大失真給予不同的懲罰力度[14],以削弱放大失真的影響。
傳統(tǒng)子空間增強(qiáng)方法在增強(qiáng)過程中只考慮最小化誤差信號(hào)中的語音失真分量,也沒有對(duì)衰減失真和放大失真進(jìn)行分類控制。本文對(duì)基于廣義特征值分解算法的估計(jì)器推導(dǎo)進(jìn)行改進(jìn),由于語音失真和殘余噪聲不能被同時(shí)最小化,本文通過分別最小化語音失真和殘余噪聲,同時(shí)引入失真控制,將語音放大失真控制在6.02 dB以下作為約束條件,對(duì)求解出的兩個(gè)語音估計(jì)器進(jìn)行加權(quán)求和,得到最終的語音估計(jì)器。
在單通道子空間語音增強(qiáng)算法中,假設(shè)干凈語音信號(hào)和加性噪聲不相關(guān),含噪語音表示如下:
其中,、、分別是維的含噪語音、干凈語音、干擾噪聲。令是干凈語音的線性估計(jì),是的線性估計(jì)器,由估計(jì)產(chǎn)生的誤差信號(hào)為
(2)
(4)
(6)
經(jīng)估計(jì)器處理得到的估計(jì)語音和干凈語音間會(huì)存有誤差,當(dāng)誤差為負(fù)值時(shí),說明由估計(jì)器引起了衰減失真,相反,則是放大失真。文獻(xiàn)[9]研究發(fā)現(xiàn),設(shè)和分別是干凈語音和估計(jì)語音的幅度譜,則當(dāng),即放大失真超過6.02 dB時(shí),語音可懂度損失嚴(yán)重。為提高可懂度,將放大失真控制在6.02 dB以下,即需使,將其轉(zhuǎn)化為下式:
轉(zhuǎn)化式(8)得到下式:
(9)
(11)
由式(11)解得的估計(jì)器為:
將式(6)代入式(12),可將估計(jì)器化簡(jiǎn)為
(13)
其中,設(shè)
上述估計(jì)器在最小化語音失真的基礎(chǔ)上推出,由于語音失真和殘余噪聲不能被同時(shí)最小化[4],但在增強(qiáng)后語音中,兩者同時(shí)存在,并共同影響增強(qiáng)后語音的質(zhì)量和可懂度。為減小兩種失真對(duì)增強(qiáng)后語音可懂度的影響,本文通過最小化殘余噪聲推出另外一個(gè)估計(jì)器,最后利用和加權(quán)求和,得到基于聯(lián)合控制的估計(jì)器。
(15)
其中,設(shè)
(17)
(19)
(20)
根據(jù)上述思路,本文改進(jìn)算法實(shí)施步驟如下:
為驗(yàn)證本文算法對(duì)語音可懂度增強(qiáng)的有效性,使用Matlab進(jìn)行實(shí)驗(yàn)仿真。采用選自IEEE句子語音庫中的50句語音作為干凈語料。噪聲數(shù)據(jù)選用Noisex92數(shù)據(jù)庫[16]中的White高斯白噪聲、m109坦克噪聲和Babble噪聲。實(shí)驗(yàn)中,干凈語料和噪聲數(shù)據(jù)使用的采樣率為8 kHz,幀長(zhǎng)設(shè)為32 ms,幀間重疊率為50%。
首先,在50句干凈語音中選一句加入0 dB的m109噪聲作為帶噪語音,語音內(nèi)容為“A rod is used to catch pink salmon.”,共8個(gè)單詞,采用傳統(tǒng)子空間算法和本文算法得到的增強(qiáng)后語音的波形圖和語譜圖如圖1、2所示。從圖1、2可以看到,增強(qiáng)語音的圖形與干凈語音非常接近,本文算法可以保留更多語音信息,在提高可懂度的同時(shí),也能有效去除背景噪聲。
采樣點(diǎn)數(shù)/(×104)
(a) 干凈語音
采樣點(diǎn)數(shù)/(×104)
(b) 含噪聲語音(0 dB m109噪聲)
采樣點(diǎn)數(shù)/(×104)
(c) 傳統(tǒng)子空間算法
其次,用4種信噪比將干凈語音和噪聲進(jìn)行混合,信噪比分別為:-6、-3、0、3 dB。采用4種處理方式:加噪未處理、文獻(xiàn)[7]時(shí)域估計(jì)器TDC(Time Domain Contraints)、文獻(xiàn)[7]頻域估計(jì)器SDC(Spectrum Domain Contraints) 和本文算法去噪處理。實(shí)驗(yàn)取50個(gè)測(cè)試語音評(píng)測(cè)值的平均值作為語音增強(qiáng)后可懂度的評(píng)價(jià)值。使用可懂度衡量指標(biāo)信噪比損失值SNRLoss[17]和STOI(Short-Time Objective Intelligibility)[18]對(duì)4種不同處理方式處理后語音可懂度性能進(jìn)行評(píng)價(jià)。SNRLoss算法通過比較增強(qiáng)前后語音的各子帶激勵(lì)譜信噪比丟失的方法進(jìn)行可懂度測(cè)試,信噪比損失值越大,語音的可懂度越小。STOI算法給出一個(gè)(0,1)范圍內(nèi)的值,STOI值越大,表示增強(qiáng)后的語音可懂度越高。SNRLoss評(píng)測(cè)結(jié)果見圖3,STOI評(píng)測(cè)結(jié)果見圖4。
(a) 干凈語音
(b) 含噪聲語音(0 dB m109噪聲)
(c) 傳統(tǒng)子空間算法
(d) 本文點(diǎn)數(shù)
圖2 語譜圖
Fig.2 Speech spectrograms
從圖3中可以看到,在不同噪聲的不同信噪比下,本文算法的SNRLoss評(píng)測(cè)值要明顯低于加噪未處理和文獻(xiàn)[7]中TDC和SDC的評(píng)測(cè)值,即便輸入信噪比為-6 dB情況下,SNRLoss值遠(yuǎn)小于其他三種處理方式。信噪比丟失值越小,說明語音的可懂度效果越好。圖4顯示的本文算法的STOI值要明顯高于其他三種處理方式。本文算法通過將放大失真控制在6.02 dB以下,在信噪比較低時(shí),以更多地抑制誤差信號(hào)中的殘余噪聲成分,降低由估計(jì)器引起的放大失真,在信噪比比較高時(shí),語音能量能對(duì)噪聲能量起掩蔽作用,以抑制誤差信號(hào)中的語音失真成分為主。SNRLoss和STOI的評(píng)測(cè)結(jié)果表明,本文算法可取得更好和更穩(wěn)定的可懂度效果。
最后,為進(jìn)行主觀聽辨實(shí)驗(yàn),挑選2男2女共4名聽力正常測(cè)試者進(jìn)行詞語聽辨測(cè)試,被試聽的語音包括加噪未處理和經(jīng)TDC估計(jì)器、SDC估計(jì)器和本文算法去噪處理后的增強(qiáng)語音,其中UN表示加噪未處理的情況。分別在上述4種信噪比和3種背景噪聲下進(jìn)行聽辨實(shí)驗(yàn)。表1給出了不同算法增強(qiáng)后語音聽辨實(shí)驗(yàn)中的平均詞語識(shí)別率。從表1中可以看出,在三種不同噪聲背景下,本文算法的詞語識(shí)別率明顯高于改進(jìn)前的算法,進(jìn)一步證實(shí)了本文算法可懂度增強(qiáng)效果的有效性。
(a) 高斯白噪聲
(b)m109坦克噪聲
(a) 高斯白噪聲
(b) m109坦克噪聲
表1 不同背景噪聲下不同算法的詞語識(shí)別率比較
本文提出了一種基于聯(lián)合失真控制的子空間語音增強(qiáng)算法。將對(duì)超過6.02 dB的放大失真的控制結(jié)合到約束最優(yōu)化問題中,即在最小化語音失真的同時(shí),將語音失真和殘余噪聲同時(shí)進(jìn)行約束,得到基于語音失真的估計(jì)器。另外,由于誤差信號(hào)中存在的語音失真和殘余噪聲不能被同時(shí)最小化,在信噪比不同區(qū)域,語音失真和殘余噪聲的含量又各不相同,所以推出基于殘余噪聲的估計(jì)器,即最小化殘余噪聲,并同時(shí)約束語音失真和殘余噪聲。最后將上述兩個(gè)不同的估計(jì)器加權(quán)求和得到新的估計(jì)器,信噪比低時(shí),以最小化殘余噪聲為主,信噪比高時(shí),以最小化語音失真為主。本文算法通過對(duì)放大失真的控制,減少由放大失真對(duì)語音可懂的損害。實(shí)驗(yàn)結(jié)果表明,相比于加噪未處理和YiHu提出的子空間算法,本文算法有更有效、更穩(wěn)定的可懂度增強(qiáng)效果。
[1] Boll S. Suppression of acoustic noise in speech using spectral subtraction[J]. Acoustics Speech & Signal Processing IEEE Transactions on, 1979, 27(2): 113-120.
[2] Scalart P, Filho J V. Speech enhancement based on a priori signal to noise estimation[C]//IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP), Atlanta, 1996, 2: 629-632.
[3] Ephraim Y, Malah D. Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator[J]. Acoustics, Speech and Signal Processing, IEEE Transactions on, 1984, 32(6): 1109-1121.
[4] Ephraim Y, Van Trees H L. A signal subspace approach for speech enhancement[J]. Speech and Audio Processing, IEEE Transactions on, 1995, 3(4): 251-266.
[5] Mittal U, Phamdo N. Signal/noise KLT based approach for enhancing speech degraded by colored noise[J]. Speech & Audio Processing IEEE Transactions on, 2000, 8(2):1847-1850.
[6] Rezayee A, Gazor S. An adaptive KLT approach for speech enhancement[J]. Speech & Audio Processing IEEE Transactions on, 2001, 9(2): 87-95.
[7] Hu Y, Loizou P C. A generalized subspace approach for enhancing speech corrupted by colored noise[J]. Speech and Audio Processing, IEEE Transactions on, 2003, 11(4): 334-341.
[8] Hu Y, Loizou P C. A comparative intelligibility study of single-microphone noise reduction algorithms[J]. The Journal of the Acoustical Society of America, 2007, 122(3): 1777-1786.
[9] Loizou P C, Kim G. Reasons why current speech-enhancement algorithms do not improve speech intelligibility and suggested solutions[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(1): 47-56.
[10] Li N, Bao C C, Xia B Y, et al. Speech intelligibility improvement using the constraints on speech distortion and noise over-estimation[C]//IEEE International Conference on Intelligent Information Hiding and Multimedia Signal Processing, Beijing, 2013: 602-606.
[11] 郭利華, 馬建芬. 具有高可懂度的改進(jìn)的維納濾波的語音增強(qiáng)算法[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2014, 31(11): 155-157.
GUO Lihua, MA Jianfen. An improved wiener filtering speech enhancement algorithm with high intelligibility[J]. Computer Applications and Software, 2014, 31(11):155-157.
[12] Yang Y X, Ma J F. Speech Intelligibility Enhancement Using Distortion Control[J]. Advanced Materials Research, 2014, 912-914: 1391-1394.
[13] Ma Y, Nishihara A. A modified Wiener filtering method combined with wavelet thresholding multitaper spectrum for speech enhancement[J]. EURASIP Journal on Audio, Speech, and Music Processing, 2014, 2014(1): 1-11.
[14] 周健, 鄭文明, 王青云等. 提高耳語音可懂度的非對(duì)稱壓縮語音增強(qiáng)方法[J]. 聲學(xué)學(xué)報(bào), 2014, 39(4): 501-508.
ZHOU Jian, ZHENG Wenming, WANG Qingyun, et al. An asymmetric attenuated speech enhancement approach for improving intelligibility of noisy whisper[J]. Acta Acustica, 2014, 39(4): 501-508.
[15] Montazeri V, Khoubrouy S A, Panahi I M S. Evaluation of a new approach for speech enhancement algorithms in hearing aids[C]// IEEE International Conference on Engineering in Medicine and Biology Society (EMBC), 2012: 2857-2860.
[16] Varga A, Steeneken H J M. Assessment for automatic speech recognition: II. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems[J]. Speech Communication, 1993, 12(93): 247-251.
[17] Ma J, Loizou P C. SNR loss: A new objective measure for predicting the intelligibility of noise-suppressed speech[J]. Speech Communication, 2011, 53(3): 340–354.
[18] Taal C, Hendriks R, Heusdens R, et al. An algorithm for intelligibility prediction of time-frequency weighted noisy speech[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 49(7): 2125-2136.
A subspace speech enhancement algorithm based on combined distortion control
YE Qi1,2, TAO Liang1,ZHOU Jian1,2, WANG Hua-bin1
(1.Key Laboratory of Intelligent Computing and Signal Processing of Ministry of Education,Anhui University, Hefei 230031,Anhui, China;2.Institute of Media Computing, Anhui University, Hefei 230601,Anhui, China)
In order to improve speech intelligibility in low signal-to-noise ratio environment, a subspace speech enhancement algorithm combined with distortion control is proposed. Due to the facts that the components of speech distortion and residual noise in the error signal can not be simultaneously minimized and that the amplification distortion of speech in excess of 6.02dB caused by speech estimator will seriously damage the speech intelligibility, the speech distortion and the residual noise are minimized respectively, and meanwhile the speech amplification distortion is kept below 6.02dB as a constraint condition. By solving these two constraint optimization problems, two different estimators are obtained, and then a weighted sum of these two estimators is made to get the speech estimator based on combined distortion control. The results show that the proposed approach can improve enhanced speech intelligibility more effectively in low signal-to-noise ratio environment, compared with the traditional subspace enhancement method.
speech intelligibility; distortion control; subspace enhancement
TN912.35
A
1000-3630(2016)-03-0254-06
10.16300/j.cnki.1000-3630.2016.03.014
2015-05-23;
2015-08-23
國(guó)家自然科學(xué)基金(61301295, 61372137)、安徽省自然科學(xué)基金(1308085QF100)、安徽大學(xué)博士啟動(dòng)資金資助項(xiàng)目.
葉琪(1990-), 女, 安徽宣城人, 碩士研究生, 研究方向?yàn)檎Z音增強(qiáng)。
葉琪, E-mail:yeqi17@126.com