楊鶴飛 鄭成詩 李曉東
(中國科學(xué)院聲學(xué)研究所 北京 100190)
(中國科學(xué)院上海高等研究院 上海 201210)
基于譜優(yōu)勢(shì)與非線性變換混合的立體聲聲學(xué)回聲消除方法
楊鶴飛 鄭成詩 李曉東*
(中國科學(xué)院聲學(xué)研究所 北京 100190)
(中國科學(xué)院上海高等研究院 上海 201210)
立體聲聲學(xué)回聲控制系統(tǒng)中,兩通道信號(hào)間的強(qiáng)相關(guān)性導(dǎo)致自適應(yīng)算法的解不唯一,濾波器失調(diào)較大。為了解決此問題,并盡可能地保留語音質(zhì)量,該文基于心理聲學(xué)上的譜優(yōu)勢(shì)效應(yīng)提出一種新型的混合立體聲聲學(xué)回聲消除方法。根據(jù)譜優(yōu)勢(shì)效應(yīng),在3個(gè)低次諧頻處注入能量較弱的正弦信號(hào),以減弱低頻相關(guān)性。同時(shí)對(duì)非線性變換法進(jìn)行改進(jìn),以用于中高頻去相關(guān)處理。與傳統(tǒng)方法的多方面性能測試對(duì)比結(jié)果表明:所提方法能有效改善失調(diào)性能并提高收斂速度,且具有較小的語音失真。
語音信號(hào)處理;立體聲聲學(xué)回聲消除;去相關(guān);譜優(yōu)勢(shì);非線性變換
通信系統(tǒng)中由于存在聲學(xué)回聲問題而需要進(jìn)行聲學(xué)回聲消除(Acoustic Echo Cancellation, AEC),可利用自適應(yīng)算法[1,2]實(shí)現(xiàn)該目的。立體聲具有較強(qiáng)空間感,已廣泛應(yīng)用于語音通信系統(tǒng)。此時(shí),遠(yuǎn)端房間內(nèi)的兩通道傳聲器信號(hào)間存在強(qiáng)相關(guān)性。這導(dǎo)致自適應(yīng)濾波器的收斂值不唯一,從而使立體聲聲學(xué)回聲消除(Stereo AEC, SAEC)系統(tǒng)的濾波器失調(diào)較大[3]。為了改善失調(diào)性能,需對(duì)兩通道傳聲器信號(hào)進(jìn)行去相關(guān)預(yù)處理。同時(shí),為了保證通信質(zhì)量,相應(yīng)處理不應(yīng)引入明顯的語音失真。
目前已有大量的去相關(guān)方法可應(yīng)用于SAEC。一類方法在信號(hào)中添加一部分其它信號(hào)。其中最典型的是非線性變換法,即在信號(hào)中添加一部分其本身的非線性變換[3];雖然有多種非線性變換可供選擇,但半波整流變換最有效[4]。亦有人提出在兩個(gè)通道中添加相互獨(dú)立的低強(qiáng)度隨機(jī)噪聲[5],但為了不影響聽覺感知,信噪比需足夠高以至于去相關(guān)效果十分有限;此時(shí)可利用聽覺掩蔽效應(yīng)對(duì)添加噪聲的頻譜進(jìn)行幅度調(diào)制[6],以增強(qiáng)去相關(guān)效果。另一類方法通過直接改變?cè)夹盘?hào)來降低通道間相關(guān)性,如全通濾波法[7]、時(shí)變的相位調(diào)制法[8]和時(shí)間反轉(zhuǎn)法[9]等。其中,時(shí)間反轉(zhuǎn)法僅選擇性地對(duì)能量足夠弱的數(shù)據(jù)幀進(jìn)行時(shí)域反轉(zhuǎn)。為了在去相關(guān)與語音失真之間取得更好的折中,近年的SAEC研究開始關(guān)注心理聲學(xué)效應(yīng),并結(jié)合其它方法進(jìn)行分頻段處理。文獻(xiàn)[10]基于聽覺掩蔽效應(yīng)在低頻部分添加掩蔽噪聲,并在高頻段進(jìn)行時(shí)變的全通濾波;文獻(xiàn)[11]等結(jié)合基頻遺失效應(yīng)與非線性相位調(diào)制,其后期研究進(jìn)一步將信號(hào)分為3個(gè)頻段進(jìn)行不同處理[12]。
本文基于心理聲學(xué)效應(yīng)提出一種混合SAEC方法。根據(jù)心理聲學(xué)譜優(yōu)勢(shì)效應(yīng)在3個(gè)低次諧頻成分附近注入正弦信號(hào),以降低低頻相關(guān)性;在高頻段則利用時(shí)變的非線性相位調(diào)制對(duì)非線性變換去相關(guān)法進(jìn)行改進(jìn)。為了簡潔,下文中將所提出的方法簡寫為SDNT (Spectral Dominance-Nonlinear Transformation)法。
根據(jù)人耳聽覺特性,人耳聽覺系統(tǒng)在1.5 kHz以下對(duì)相位變化比較敏感[10]。因此,為了減小語音失真需盡量保持該頻率范圍內(nèi)的信號(hào)相位不變,本文利用心理聲學(xué)效應(yīng)實(shí)現(xiàn)該目的。譜優(yōu)勢(shì)效應(yīng)是一種心理聲學(xué)效應(yīng),它是指:復(fù)音信號(hào)中,某些諧頻成分對(duì)音高感知的影響更顯著[13]。文獻(xiàn)[14]指出,當(dāng)復(fù)音信號(hào)的基頻低于350 Hz時(shí),其音高感知主要取決于四次及以上的諧頻成分。因此可通過改變立體聲某一通道信號(hào)中的3個(gè)低次諧頻成分來達(dá)到低頻去相關(guān)的目的,根據(jù)譜優(yōu)勢(shì)效應(yīng),如此操作不會(huì)引入明顯的聽覺損失。
綜合上述分析,本文將SDNT法中的分頻點(diǎn)取為1 kHz。在1 kHz以下的低頻段,基于譜優(yōu)勢(shì)效應(yīng)改變立體聲語音信號(hào)中某一通道(本文選左通道)的3個(gè)低次諧頻成分??衫脼V波器實(shí)現(xiàn)改變諧頻的目的,但實(shí)際濾波器的旁瓣影響將引入額外的失真。本文采用注入正弦信號(hào)的方法,分別在3個(gè)低次諧頻成分附近注入能量較弱的正弦信號(hào),且各正弦信號(hào)受相應(yīng)諧頻成分控制。
在1 kHz以上的高頻段,由于雙耳聲級(jí)差對(duì)聲源定位的影響增強(qiáng),處理時(shí)應(yīng)盡量保持信號(hào)幅值不變。本文基于非線性相位調(diào)制得到一種改進(jìn)的非線性變換法。為了進(jìn)一步降低相關(guān)性,調(diào)制相位隨時(shí)間變化。考慮到人耳的相位敏感度隨頻率遞減,將非線性相位調(diào)制成分在信號(hào)中的能量占比設(shè)定為隨頻率遞增。
由此得到結(jié)合心理聲學(xué)譜優(yōu)勢(shì)效應(yīng)的混合SAEC方法,即SDNT法,其實(shí)現(xiàn)框圖如圖1所示,其中x1(n)與x2(n)分別表示左、右通道信號(hào)。低頻段的譜優(yōu)勢(shì)處理僅應(yīng)用于x1(n);而高頻處理則同時(shí)對(duì)兩通道信號(hào)進(jìn)行,但分別對(duì)x1(n)與x2(n)采用不同的調(diào)制相位。下面分別在2.1節(jié)和2.2節(jié)中對(duì)低、高頻處理進(jìn)行詳盡闡述。
圖1 SDNT法的實(shí)現(xiàn)框圖
2.1 低頻處理
2.1.1 基頻檢測 首先利用加權(quán)自相關(guān)法[15]檢測基頻。假設(shè)加權(quán)自相關(guān)函數(shù)為()ψτ,其最大值所對(duì)應(yīng)的時(shí)延數(shù)0τ即為基頻周期的估計(jì)值。語音信號(hào)中,需預(yù)先限定基頻取值范圍。考慮到語音信號(hào)的基頻最高約為500 Hz[16],但位于區(qū)間[60,300] Hz內(nèi)的概率高達(dá)97%[17];另外,譜優(yōu)勢(shì)效應(yīng)僅在基頻低于350 Hz時(shí)適用[14]。為了既適用于多數(shù)語音信號(hào),又滿足譜優(yōu)勢(shì)前提,本文將基頻取值范圍限定為[60,350] Hz。如此相當(dāng)于
其中,sf為信號(hào)的采樣頻率。
式(1)得到的基頻周期精度較低,僅為1個(gè)采樣周期;為了提高檢測精度,可進(jìn)一步對(duì)以最大值為中心的相鄰3個(gè)()ψτ值進(jìn)行插值。設(shè)所用插值間隔為τΔ,則所得基頻的估計(jì)精度為
其值隨0τ的減小而降低,因此最低基頻精度為
根據(jù)τ0可得基頻估計(jì)值為f0=fs/τ0,相應(yīng)地,二、三次諧頻分別為2f0和3f0。為了改變3個(gè)低次諧頻成分,本文將f0,2f0和3f0取為待注入正弦信號(hào)的頻率。由于受基頻檢測算法的精度限制,f0存在一定的估計(jì)誤差,從而使得被改變的不再是信號(hào)的3個(gè)低次諧頻成分,這可能會(huì)引入較大的語音失真??紤]到人耳的最低可辨別特性[18],當(dāng)兩個(gè)頻率之差不大于閾值df時(shí),人耳不能對(duì)二者進(jìn)行區(qū)分,其中df取值為[18]
由此易知,0f,02f和03f的估計(jì)誤差均應(yīng)不高于1 Hz。由于df隨單頻信號(hào)持續(xù)時(shí)間的縮短而增大[18],且語音信號(hào)中同一基頻值的持續(xù)時(shí)間很短,本文將基頻檢測精度限定為不低于1 Hz,結(jié)合式(3)得
本文采樣頻率為16 kHz,此時(shí)Δτ≤0.13,可將插值間隔設(shè)定為0.1個(gè)采樣點(diǎn)。
2.1.2 基頻和二、三次諧頻處理 傅里葉變換得到左通道信號(hào)的頻譜X1(f)。利用基頻估計(jì)值檢索X1(f),分別得到基頻與二、三次諧頻信號(hào)的幅值和初相,并進(jìn)行幅值加權(quán)得到
其中,i = 1, 2, 3分別對(duì)應(yīng)于基頻和二、三次諧頻,A,?,σ分別表示幅值、初相和幅值加權(quán)因子,函數(shù)angle{·}表示對(duì)復(fù)數(shù)取相位,σi在[0,1]內(nèi)取值。所需注入的3個(gè)正弦信號(hào)的頻率分別為fi=i·f0,其幅值和初相采用式(6)所得結(jié)果。由此構(gòu)造出3個(gè)正弦信號(hào)si(n),并通過時(shí)域加法注入到左通道信號(hào)中。si(n)負(fù)責(zé)改變第i次諧頻,易知σi越大,第i次諧頻的改變程度越大,語音失真越明顯。
2.2 高頻處理
非線性變換法的頻域表示為
其中,Xj( f ), j=1,2為xj(n)的頻譜;β為非線性加權(quán)系數(shù),在[0,1]內(nèi)取值;函數(shù){}F·表示非線性變換,傳統(tǒng)的非線性變換去相關(guān)法中一般采用半波整流變換[3]。由于人耳聽覺系統(tǒng)在高頻對(duì)信號(hào)的幅值變化比較敏感,本文利用非線性相位調(diào)制得到一種改進(jìn)的非線性變換法。
對(duì)于1 kHz以上的高頻段,根據(jù)式(7)同時(shí)對(duì)兩通道信號(hào)進(jìn)行變換。函數(shù){}F·采用非線性相位調(diào)制,且兩通道的調(diào)制相位互為相反數(shù),由此得到本文所采用的高頻處理:
其中,調(diào)制相位Θ隨幀數(shù)m和頻率f非線性變化。為了保證IFFT的實(shí)數(shù)性,sf/2處的Θ值為0,因此,
其中,?=2π·m·f/fs。對(duì)于相鄰兩個(gè)數(shù)據(jù)幀,?值的相對(duì)差異為[(m+1)-m]/m=1/m,隨m遞減,即調(diào)制相位Θ的變化速度越來越慢;信號(hào)較長時(shí),去相關(guān)效果將大為減弱。因此,將?值優(yōu)化為
其中,Λ表示變化周期,本文取為200幀,“%”表示將m對(duì)Λ求余數(shù)。
對(duì)于式(8)所示變換,變換前后信號(hào)能量幾乎不變,此時(shí)通道間相干系數(shù)與頻域互相關(guān)函數(shù)等價(jià)。下面利用互相關(guān)函數(shù)來評(píng)價(jià)高頻去相關(guān)效果。變換后,兩通道信號(hào)間的頻域互相關(guān)函數(shù)C12( f )為
其中,E{}·表示數(shù)學(xué)期望,“*”表示對(duì)復(fù)數(shù)取共軛。式(11)的推導(dǎo)過程中利用了如下假設(shè):
在1~2 kHz范圍內(nèi),人耳聽覺系統(tǒng)對(duì)信號(hào)的相位和幅值均比較敏感[10],因此將此頻率范圍內(nèi)的β取為折中值0.5。由于人耳聽覺系統(tǒng)的相位敏感度隨頻率升高而降低,當(dāng)頻率高于2 kHz時(shí),令β隨f線性遞增。結(jié)合上述統(tǒng)計(jì)結(jié)果,得到非線性加權(quán)系數(shù)β的值如式(13)所示,其值在fs/2處取最大值0.9。得益于式(9)中調(diào)制相位的分段定義,β在1 kHz以下的非零值并不會(huì)對(duì)低頻信號(hào)產(chǎn)生影響。
為了對(duì)比不同的iσ取值方案,采用如下指標(biāo)對(duì)其性能進(jìn)行評(píng)價(jià):
(1)通道間相干系數(shù)(Inter-Channel Correlation Coefficient, ICCC): ICCC越小,相關(guān)性越弱。其定義為
(2)失調(diào)[19](MISalignment, MIS):失調(diào)是評(píng)價(jià)自適應(yīng)通道辨識(shí)能力的量化指標(biāo),其定義為
其中,hj為物理脈沖響應(yīng),(n)為第n個(gè)采樣周期內(nèi)的自適應(yīng)脈沖響應(yīng),表示2范數(shù)。
(3)語音質(zhì)量感知評(píng)估[20](Perceptual Evaluation of Speech Quality, PESQ): PESQ將主觀音質(zhì)客觀量化,它在-0.5~4.5之間[20]取值,其值越大,表示失真越小。本文利用文獻(xiàn)[21]中的PESQ算法計(jì)算其值。
3.1 σi對(duì)低頻去相關(guān)性能的影響
首先定義函數(shù)δm(f),當(dāng)頻率f在第m幀被檢測為3個(gè)低次諧頻之一時(shí)δm(f)=1,否則δm(f)=0;然后定義,以及S(f)= p。令表示不高于1 kHz的低頻部分的ICCC值。考慮X1(f)=X2(f)=X(f)的情況,未進(jìn)行低頻去相關(guān)處理時(shí)ICCClow(f)≡1。為了便于觀察σi的影響機(jī)理,令σ1=σ2=σ3=σ,則處理后的低頻ICCC值為
由此得到如下結(jié)論:
由于語音信號(hào)的基頻時(shí)刻變化,對(duì)于所有數(shù)據(jù)幀m, δm(f)=1成立的次數(shù)很少,可得到Sp(f)<S(f)/ (2+σ)。此時(shí),式(17)的值為負(fù),ICC(f)隨Sp(f)遞減。因此,頻率f在3個(gè)低次諧頻中的出現(xiàn)概率越大,相應(yīng)地有Sp(f)越大,ICC(f)越小,即結(jié)論(2)成立。
圖2 互相關(guān)函數(shù)在高頻段(>1 kHz)的平均值隨非線性加權(quán)系數(shù)的變化曲線
以一段長20 min,采樣率16 kHz的男聲語音信號(hào)做為樣本數(shù)據(jù),利用2.1.1節(jié)所述方法對(duì)濁音段進(jìn)行基頻檢測,統(tǒng)計(jì)得到各頻率在基頻與二、三次諧頻中的出現(xiàn)概率如圖4所示。當(dāng)頻率高于約350 Hz時(shí),出現(xiàn)概率隨頻率升高而降低。因此,當(dāng)σ1=σ2=σ3時(shí),根據(jù)結(jié)論(2)易知ICC將近似隨頻率升高而增大。
3.2 σi的選取
為了確定σi的最佳取值,對(duì)不同取值方案進(jìn)行性能對(duì)比。由于σi僅影響左通道信號(hào)的低頻處理,此處討論左通道PESQ和低頻ICCC。但MIS性能將在全頻帶討論。首先選擇3種取值方案: SDNT, σ1=0.10,σ2=0.20,σ3=0.30; SDNT-a, σ1= 0.20, σ2=0.35,σ3=0.50和SDNT-b, σ1=0.50, σ2=0.50, σ3=0.50。對(duì)男、女聲語音下的性能進(jìn)行平均,得到上述3種取值方案的性能對(duì)比如圖5所示。由圖5(a)可見,σ1<σ2<σ3時(shí)能獲得較平坦的低頻ICCC性能,且σi越大,去相關(guān)效果越好,這與3.1節(jié)的結(jié)論吻合。觀察圖5(b),方案SDNT-a和SDNT-b下的失調(diào)性能并未比方案SDNT好,可能的原因是:當(dāng)?shù)皖lICCC值在一定范圍內(nèi)變化時(shí),整體ICCC-f曲線的形狀對(duì)失調(diào)性能影響更大。由于本文旨在改善失調(diào)性能,綜合圖5可將σi之間的關(guān)系設(shè)定為σ3:σ2:σ1=3:2:1。
令σ3:σ2:σ1=3:2:1,不同σ1值時(shí)的MIS曲線收斂值與PESQ如表1所示。結(jié)果顯示,當(dāng)σ1從0增大至0.1時(shí),失調(diào)得到明顯改善且PESQ降低較慢;而當(dāng)σ1從0.1增大至0.2時(shí)則相反。σ1=0.1時(shí)(即方案SDNT),算法在失調(diào)性能與語音質(zhì)量間取得了較好的折中;因此可認(rèn)為方案SDNT是最佳取值方案之一。實(shí)際應(yīng)用時(shí),可根據(jù)系統(tǒng)要求調(diào)節(jié)σi的值。
圖3 ICCC隨σ的變化曲線
圖4 不同頻率值在3個(gè)低 次諧頻中的出現(xiàn)概率
圖5 不同的幅值加權(quán)因子取值方案下的性能對(duì)比
表1 不同σ1值時(shí)的MIS曲線收斂值和左通道PESQ
考慮單向傳輸、遠(yuǎn)端房間中聲源位置固定的SAEC場景。近端房間尺寸為4×3×3 m3,揚(yáng)聲器分別位于{1,2,1.2} m和{3,2,1.2} m,傳聲器分別位于{1.8,1,1.2} m和{2.2,1,1.2} m。采用信噪比為30 dB的高斯白噪聲模擬近端房間內(nèi)的背景噪聲。測試用語音信號(hào)采用TIMIT數(shù)據(jù)庫[22]中所有男聲和女聲信號(hào)。采樣率取16 kHz,房間混響時(shí)間設(shè)為128 ms,利用虛源模型[23]得到揚(yáng)聲器至傳聲器的物理傳遞函數(shù),長度為1024個(gè)采樣點(diǎn)。自適應(yīng)通道辨識(shí)時(shí)采用經(jīng)典的的NLMS算法[2],步長0.4,自適應(yīng)濾波器取512階。
將SDNT法與以下方法進(jìn)行性能比較:
(1)NLT(NonLinear Transformation)法:即采用半波整流變換的非線性變換法[3]。
(2)MFNP(Missing Fundamental-Nonlinear Phase modulation)法[11]:在低于500 Hz的低頻段,利用心理聲學(xué)上的基頻遺失效應(yīng),在高頻段則進(jìn)行非線性相位調(diào)制。
(3)STR(Selective Time-Reversal)法[9]:對(duì)左通道信號(hào)中能量低于閾值的信號(hào)幀進(jìn)行時(shí)間反轉(zhuǎn),右通道信號(hào)則保持不變。幀長取256點(diǎn),能量閾值為0.01。
NLT法是一種非線性方法,SDNT法的高頻處理亦是,但二者采用不同的非線性變換:NLT進(jìn)行半波整流,而SDNT的高頻處理利用非線性相位調(diào)制;另外,SDNT在低、高頻進(jìn)行不同處理,而NLT則在全頻帶進(jìn)行相同處理。MFNP與SDNT均利用心理聲學(xué)效應(yīng)進(jìn)行低頻處理,但前者結(jié)合基頻遺失效應(yīng),后者則基于譜優(yōu)勢(shì)效應(yīng);同時(shí),二者采用不同的高頻處理,前者直接進(jìn)行相位調(diào)制,后者則利用非線性變換去相關(guān)法。STR法與上述方法均不同,但由于其操作簡便、技巧新穎,本文將其與SDNT法進(jìn)行性能對(duì)比。
測試時(shí),STR法直接進(jìn)行幀操作,NLT法則逐點(diǎn)計(jì)算。其它方法均進(jìn)行加權(quán)重疊求和,幀長512點(diǎn),即32 ms,重疊率50%,所用窗函數(shù)w(n)如式(18)[24]所示。
其中,L等于幀長。根據(jù)第3節(jié)的結(jié)論,SDNT法中的幅值加權(quán)因子取值為:σ1=0.10,σ2=0.20和σ3=0.30。
下面分別利用ICCC,失調(diào),回聲往返損耗增益[9](Echo-Return-Loss Enhancement, ERLE)和PESQ對(duì)各種SAEC方法的通道間相干性、失調(diào)、回聲消除量和語音失真性能進(jìn)行對(duì)比評(píng)價(jià)。對(duì)男、女聲語音下的性能進(jìn)行平均,得到的結(jié)果見圖6,其中的“none”對(duì)應(yīng)于未處理的原始信號(hào)。
4.1 通道間相干性
利用ICCC隨頻率的變化曲線檢測各方法的去相關(guān)性能。計(jì)算ICCC時(shí),對(duì)所有數(shù)據(jù)幀進(jìn)行平均以估計(jì)數(shù)學(xué)期望,幀長512點(diǎn),重疊率80%。經(jīng)前述各種方法處理后的立體聲信號(hào)所對(duì)應(yīng)的ICCC值如圖6(a)所示。
由于未考慮遠(yuǎn)端房間的染色效應(yīng),未處理時(shí),兩通道信號(hào)間的ICCC值接近1。就去相關(guān)效果而言,STR法最差,僅極低頻和中高頻相干系數(shù)略有減小;NLT法次之,極低頻與中頻段ICCC值較低。MFNP法在500 Hz以下利用基頻遺失效應(yīng),從而獲得強(qiáng)去相關(guān)效果;其在500~2000 Hz頻段的ICCC值較高,高頻段ICCC值再次降低。SDNT法的高頻去相關(guān)效果明顯優(yōu)于低頻。由于進(jìn)行分頻段操作,SDNT法與MFNP法的ICCC值分別在約1 kHz和500 Hz處發(fā)生突變,且MFNP法幾乎在
圖6 4種方法的性能對(duì)比
全頻帶具有最低的ICCC值。SDNT法的去相關(guān)強(qiáng)度幾乎與頻率成正比;且由于諧頻成分改變程度較低,其低頻去相關(guān)效果差。
4.2 失調(diào)
仿真結(jié)果如圖6(b)所示,4種方法的失調(diào)學(xué)習(xí)曲線與“none”曲線的對(duì)比驗(yàn)證了去相關(guān)預(yù)處理在SAEC中的必要性。SDNT法具有最快的收斂速度和最佳辨識(shí)精度,而NLT法性能最差。對(duì)照?qǐng)D6(a)易知,STR法雖然去相關(guān)效果最差,但其自適應(yīng)性能優(yōu)于NLT法,其收斂精度甚至高于MFNP法;MFNP法的去相關(guān)效果幾乎最佳,但失調(diào)性能則不然。由此可見,不同頻率處的通道間相干性對(duì)失調(diào)具有不同程度的影響。
4.3 回聲消除量
好的去相關(guān)方法應(yīng)該在改善失調(diào)性能的同時(shí),不損傷系統(tǒng)的噪聲消除性能。ERLE表征回聲消除量的大小,它是評(píng)價(jià)回聲消除算法性能的常用物理量,其定義為
其中,d(n)為傳聲器信號(hào);e(n)為經(jīng)回聲消除后的誤差信號(hào)。ERLE越大,回聲消除越干凈。仿真得到不同去相關(guān)方法下的ERLE曲線如圖6(c)所示。4種去相關(guān)方法的回聲消除性能差別不大,但STR法性能最佳,其ERLE曲線幾乎與未處理時(shí)的重合。其次是SDNT法,其ERLE收斂略慢。NLT法和MFNP法的ERLE性能相似,其收斂精度較低,且收斂速度較慢。
4.4 語音失真
圖6(d)給出了經(jīng)過不同去相關(guān)方法處理后的語音信號(hào)的PESQ值。“none”方法對(duì)應(yīng)于未處理,信號(hào)無失真,其PESQ值為理想值4.5。4種SAEC方法中,綜合左右通道情況,SDNT法的音質(zhì)失真最?。磺矣捎谟彝ǖ赖牡皖l部分無處理,其所對(duì)應(yīng)的PESQ值較左通道的高。STR法僅對(duì)左通道信號(hào)處理,其右通道信號(hào)無失真,但左通道信號(hào)失真大。MFNP法與NLT法同時(shí)對(duì)左右通道進(jìn)行處理,在兩通道中均存在較大失真,且前者失真較后者??;MFNP法中,為了保持通道間同步,對(duì)右通道的低頻部分進(jìn)行時(shí)延補(bǔ)償,但卻破壞了低、高頻間的信號(hào)同步,因此在圖6(d)中具有較小的右通道PESQ值。
本文基于譜優(yōu)勢(shì)效應(yīng)與改進(jìn)的非線性變換法提出一種新型SAEC方法,并給出了一種最佳的幅值加權(quán)因子取值方案。在不同性能方面將本文方法與傳統(tǒng)方法進(jìn)行測試對(duì)比,結(jié)果表明其在去相關(guān)性、失調(diào)以及語音失真方面均具有較佳性能,能有效解決SAEC中的解失調(diào)問題。
[1] Malik S and Benesty J. Variationally diagonalized multichannel state-space frequency-domain adaptive filtering for acoustic echo cancellation[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Vancouver, 2013: 595-599.
[2] Nishiyama K. A unified view of adaptive algorithms for finite impulse response filters using the H fra∞mework[J]. Signal Processing, 2014, 97(2014): 55-63.
[3] Benesty J, Morgan D R, and Sondhi M M. A better understanding and an improved solution to the specific problems of stereophonic acoustic echo cancellation[J]. IEEE Transactions on Speech and Audio Processing, 1998, 6(2): 156-165.
[4] Morgan D R, Hall J L, and Benesty J. Investigation of several types of nonlinearities for use in stereo acoustic echo cancellation[J]. IEEE Transactions on Speech and Audio Processing, 2001, 9(6): 686-696.
[5] Romoli L, Cecchi S, and Piazza F. A combined approach for channel decorrelation in stereo acoustic echo cancellation exploiting time-varying frequency shifting[J]. IEEE Signal Processing Letters, 2013, 20(7): 717-720.
[6] Romoli L, Cecchi S, and Piazza F. Evaluation of a channel decorrelation approach for stereo acoustic echo cancellation [C]. 8th International Symposium on Image and Signal Processing and Analysis, Trieste, 2013: 783-788.
[7] Ali M. Stereophonic acoustic echo cancellation system using time varying all-pass filtering for signal decorrelation[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Seattle, 1998: 3689-3692.
[8] Herre J, Buchner H, and Kellermann W. Acoustic echo cancellation for surround sound using perceptually motivated convergence enhancement[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Honolulu, 2007: 17-20.
[9] Nguyen D Q, Gan W S, and Khong A W H. Time-reversal approach to the stereophonic acoustic echo cancellation problem[J]. IEEE Transactions on Audio, Speech and Language Processing, 2011, 19(2): 385-395.
[10] Valin J M. Perceptually-motivated nonlinear channel decorrelation for stereo acoustic echo cancellation[C]. Hands-Free Speech Communication and Microphone Arrays, Trento, 2008: 188-191.
[11] Cecchi S, Romoli L, Peretti P, et al.. A combined psychoacoustic approach for stereo acoustic echo cancellation[J]. IEEE Transactions on Audio, Speech and Language Processing, 2011, 19(6): 1530-1539.
[12] Romoli L, Cecchi S, Peretti P, et al.. A mixed decorrelation approach for stereo acoustic echo cancellation based on the estimation of the fundamental frequency[J]. IEEE Transactions on Audio, Speech and Language Processing, 2012, 20(2): 690-698.
[13] Schwartz D A and Purves D. Pitch is determined by naturally occuring periodic sounds[J]. Hearing Research, 2004, 194(1): 31-46.
[14] Plomp R. Pitch of complex tones[J]. The Journal of the Acoustical Society of America, 1967, 41(6): 1526-1533.
[15] Shimamura T and Kobayashi H. Weighted autocorrelation for pitch extraction of noise speech[J]. IEEE Transactions on Speech and Audio Processing, 2001, 9(7): 727-730.
[16] 韓紀(jì)慶, 張磊, 鄭鐵然. 語音信號(hào)處理[M]. 北京: 清華大學(xué)出版社, 2013: 86-91. Han Ji-qing, Zhang Lei, and Zheng Tie-ran. Speech Signal Processing[M]. Beijing: Tsinghua University Press, 2013: 86-91.
[17] Hu X, Wang S, Zheng C, et al.. A cepstrum-based preprocessing and postprocessing for speech enhancement in adverse environments[J]. Applied Acoustics, 2013, 74(12): 1458-1462.
[18] Zwicker E and Fastl H. Psychoacoustics: Facts and Models[M]. New York: Springer-Verlag, 1990: 185-187.
[19] Stanciu C, Benesty J, Paleologu C, et al.. A widely linear model for stereophonic acoustic echo cancellation[J]. Signal Processing, 2013, 93(2): 511-516.
[20] Hines A, Skoglund J, Kokaram A, et al.. Robustness of speech quality metrics to background noise and network degradations: Comparing ViSQOL, PESQ and POLQA[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Vancouver, 2013: 3697-3701.
[21] Loizou P C. Speech Enhancement: Theory and Practice[M]. Boca Raton, FL: CRC Press, 2007: 514-524.
[22] Garofolo J S. DAPRA TIMIT acoustic-phonetic speech database [OL]. http://web.mit.edu/course/6/6.863/share/ nltk_lite/timit/, 1990.10.
[23] Habets E A P. Room impulse response generator [OL]. http://home.tiscali.nl/ehabets/rir_generator.html, 2014.08.
[24] Montgomery C. Vorbis I specification[OL]. http://www. xiph.org/vorbis/doc/Vorbis_I_spec.html, 2013.08.
楊鶴飛: 女,1988年生,博士生,研究方向?yàn)橐纛l信號(hào)處理.
鄭成詩: 男,1980年生,博士,副研究員,主要研究方向?yàn)檎Z音信號(hào)處理、音頻信號(hào)處理.
李曉東: 男,1966年生,博士,研究員,主要研究方向?yàn)檎Z音信號(hào)處理、音頻信號(hào)處理以及非線性聲學(xué).
A Stereo Acoustic Echo Cancellation Method Based on the Hybrid of Spectral Dominance and Nonlinear Transformation
Yang He-fei Zheng Cheng-shi Li Xiao-dong
(Institute of Acoustics, Chinese Academy of Sciences, Beijing 100190, China)
(Shanghai Advanced Research Institute, Chinese Academy of Sciences, Shanghai 201210, China)
In stereophonic Acoustic Echo Cancellation (AEC) systems, the strong correlation between the two stereophonic channels leads to nonuniqueness of adaptive solutions and further large filter misalignment. To solve this problem and preserve speech quality, the psychoacoustic spectral dominance effect is utilized to propose a novel hybrid decorrelation method for stereo AEC. According to spectral dominance, weak sinusoids are injected at the three lowest harmonics so as to reduce low-frequency coherence. Besides, the nonlinear transformation method is modified and applied to high-frequency decorrelation. Comparison test on several performances with traditional approaches is carried out. Results show that the proposed method can effectively improve filter misalignment together with convergence rate. Moreover, low speech distortion can be achieved simultaneously.
Speech signal processing; Stereophonic Acoustic Echo Cancellation (AEC); Decorrelation; Spectral dominance; Nonlinear transformation
TN912.3
A
1009-5896(2015)02-0373-07
10.11999/JEIT140274
2014-03-04收到,2014-11-04改回
國家自然科學(xué)基金(61201403)資助課題
*通信作者:李曉東 lxd@mail.ioa.ac.cn