馮濤,孫怡然
(南京信息工程大學(xué),江蘇 南京 210044)
麥克風(fēng)陣列技術(shù)在多通道語(yǔ)音去混響中是眾所周知的,它可以通過(guò)空間區(qū)分不同方向的聲音,在一定程度上抑制混響。在多通道線性預(yù)測(cè)的原理是設(shè)計(jì)一個(gè)線性預(yù)測(cè)器,估計(jì)出語(yǔ)音的混響部分,從混響語(yǔ)音中減去被估計(jì)出的部分就能估計(jì)出期望的語(yǔ)音信號(hào)。
RLS算法在矩陣逆變換的過(guò)程中條件數(shù)會(huì)增多,使該算法存在潛在的不穩(wěn)定問(wèn)題,以及使用常數(shù)遺忘因子而導(dǎo)致系統(tǒng)突然變化時(shí)收斂緩慢等問(wèn)題。前者可以用QR分解解決,而后者常用自適應(yīng)遺忘因子來(lái)解決
本文提出了一種基于濾波器系數(shù)近似導(dǎo)數(shù)的VFF控制方案。其主要思想是通過(guò)權(quán)值向量的變化來(lái)衡量自適應(yīng)濾波器的收斂行為。在接近穩(wěn)態(tài)時(shí),權(quán)值向量表現(xiàn)出更少的變化,并且可以使用更小的步長(zhǎng)。同樣,當(dāng)權(quán)值向量表現(xiàn)出相當(dāng)大的變化時(shí),可以選擇更大的步長(zhǎng)。這種方法也適用于RLS算法。仿真結(jié)果表明,該算法不僅提高了去混響的能力,還提高了穩(wěn)定性。
現(xiàn)在假設(shè)在一個(gè)密閉的環(huán)境中,有且只有一個(gè)聲源,這個(gè)聲源產(chǎn)生的語(yǔ)音信號(hào)由個(gè)麥克風(fēng)捕捉,而麥克風(fēng)捕獲的信號(hào)不可避免會(huì)帶有噪聲,因此,麥克風(fēng)捕捉到的信號(hào)可以表示為:
其中,()表示麥克風(fēng)捕捉到的信號(hào),()表示語(yǔ)音信號(hào),()是加性噪聲。為了接下來(lái)的討論方便,令()=0。
對(duì)時(shí)域信號(hào)采用短時(shí)傅里葉變換后,第個(gè)麥克風(fēng)捕獲到的信號(hào)可以表示為:
混響信號(hào)(,)能表示為:
用L代表MCLP濾波器的長(zhǎng)度,作為時(shí)域內(nèi)的預(yù)測(cè)延時(shí),g是線性預(yù)測(cè)過(guò)濾器的預(yù)測(cè)系數(shù),對(duì)每個(gè)頻點(diǎn)進(jìn)行計(jì)算后,省略掉,公式可以表示為:
將(3)式帶入(4)式可得需要的估計(jì)信號(hào)為:
其中:
()用來(lái)表示加權(quán)系數(shù);的取值介于(0,1),表示為遺忘因子;加權(quán)系數(shù)又可以表示為:
是個(gè)無(wú)窮小的數(shù),用于保證()是一個(gè)非負(fù)數(shù),代表形狀參數(shù),假設(shè)后期混響服從指數(shù)分布,則()的功率譜密度就可以表示為:
其中:
代入公式得出后期混響的估計(jì)值為:
若采用最小二乘法遞歸求解 可以表示為:
由于式(17)中矩陣求逆過(guò)程的條件數(shù)增大,只用最小二乘法來(lái)求解會(huì)存在潛在的不穩(wěn)定問(wèn)題,通過(guò)QR分解的方法減少條件數(shù),可以表現(xiàn)出更好的數(shù)值穩(wěn)定性。利用QR分解原理可以對(duì)上述式子進(jìn)行重新整理算法過(guò)程具體為:
(1)給定了已擴(kuò)充的數(shù)據(jù)矩陣:
其在(-1)幀處的QRD為:
(2)形成新的增強(qiáng)的數(shù)據(jù)矩陣:
在QR-RLS算法中加入時(shí)變遺忘因子,不僅能提供更好的數(shù)值穩(wěn)定性,還具有快速的瞬態(tài)收斂和跟蹤性能。
與傳統(tǒng)的VFF方案不同,所提出的VFF控制方案是基于濾波器系數(shù)的近似導(dǎo)數(shù)。該方法可以表述為:
將(26)替換(8)中的,便得到了VFF-QR-RLS。
本文的設(shè)置了兩個(gè)麥克風(fēng)組成麥克風(fēng)線性陣列,用于模擬人耳,并對(duì)一段11 s的混響信號(hào)進(jìn)行去混響。實(shí)驗(yàn)中的各項(xiàng)參數(shù)如表1所示。
表1 實(shí)驗(yàn)參數(shù)
算法的性能用Mel頻率倒譜系數(shù)距離改善(ΔMFCC)來(lái)評(píng)估,Mel頻率倒譜系數(shù)(MFCC)把純凈語(yǔ)音作為參考信號(hào),分別計(jì)算參考信號(hào)與混響信號(hào)和去混響信號(hào)之間的MFCC失真距離,記作MFCC和MFCC。然后兩者作差便得到Mel頻率倒譜距離改善(ΔMFCC),該值越大時(shí),說(shuō)明去混響效果越好。
RLS和QR-RLS算法的遺忘因子的取值為0.96,而VFF-QR-RLS的遺忘因子,γ=0.96,γ=0.99。仿真結(jié)果如圖1所示。
圖1 三種算法的ΔMFCC距離改善
由圖2上和圖2中可知,QR-RLS具有和RLS相同的效果,并且通過(guò)QR分解的方法減少條件數(shù),還可以表現(xiàn)出更好的數(shù)值性質(zhì)。圖中畫圈的部分進(jìn)行比較可以發(fā)現(xiàn),VFFQR-RLS算法能夠更快趨于穩(wěn)定,有更好的數(shù)值穩(wěn)定性。
為了進(jìn)一步評(píng)估算法的性能和去混響效果,本文還采用了語(yǔ)音質(zhì)量感知評(píng)價(jià)對(duì)實(shí)驗(yàn)中的去混響語(yǔ)音進(jìn)行評(píng)估,最終得分取的是10組不同的模擬混響樣本實(shí)驗(yàn)結(jié)果的平均值,不同算法去混響信號(hào)得分如圖2所示(混響時(shí)間=(300 ms,600 ms,900 ms)),從圖中數(shù)據(jù)可以看出,在不同混響程度中,VFF-QR-RLS算法的得分都是最高的,這也驗(yàn)證了算法的有效性。
圖2 不同方法去混響前后語(yǔ)音信號(hào)的平均PESQ得分
本文對(duì)基于QR-RLS的多通道線性預(yù)測(cè)去混響算法進(jìn)行了改進(jìn),加入了時(shí)變遺忘因子,該方法提高了算法的去混響能力以及數(shù)值的穩(wěn)定性。仿真的實(shí)驗(yàn)結(jié)果驗(yàn)證了該算法的有效性。