茅正沖, 邵朱宇
(江南大學(xué) 輕工過程先進(jìn)控制教育部重點(diǎn)實(shí)驗(yàn)室,江蘇 無錫 214122)
?
壓縮感知的改進(jìn)小波抗噪識別系統(tǒng)設(shè)計(jì)*
茅正沖, 邵朱宇
(江南大學(xué) 輕工過程先進(jìn)控制教育部重點(diǎn)實(shí)驗(yàn)室,江蘇 無錫 214122)
根據(jù)小波樹稀疏性的好壞自適應(yīng)分配觀測數(shù)目,然后由觀測數(shù)目調(diào)整小波樹的節(jié)點(diǎn)個數(shù),使小波樹中節(jié)點(diǎn)數(shù)目與觀測數(shù)目不匹配的問題得以解決。將預(yù)處理后的語音信號經(jīng)改進(jìn)小波去噪,進(jìn)而通過Gammatone濾波器組,提取特征參數(shù)GFCC。在高斯混合模型下仿真實(shí)驗(yàn)進(jìn)行。結(jié)果表明:該方法與傳統(tǒng)非稀疏性適應(yīng)觀測的小波去噪方法相比信噪比提高了14 %,有效削弱了語音信號中噪聲的影響,且系統(tǒng)的識別率與魯棒性都有明顯提高。
壓縮感知; 小波去噪; 稀疏性適應(yīng)觀測; 抗噪算法; 識別率
壓縮感知作為近些年新興的信號處理技術(shù),是一種在采樣過程中利用較少數(shù)據(jù)就能有效提取信號信息,然后通過重構(gòu)算法從采樣信息中恢復(fù)原信號的方法[1]。信號的稀疏性是壓縮感知的前提和基礎(chǔ),但是正如語音和圖像等信號,它們本身并不是稀疏的,但可以通過某種變換在其變換域中得到一個稀疏的信號以此來適用壓縮感知。對于語音信號通??梢赞D(zhuǎn)換到離散余弦變換(DCT)域、小波域等變換域來獲得稀疏信號。
本文提出的基于壓縮感知的改進(jìn)小波抗噪識別系統(tǒng),根據(jù)語音幀稀疏性的好壞為語音幀分配不同的觀測數(shù),再根據(jù)觀測數(shù)目調(diào)整小波樹節(jié)點(diǎn)的個數(shù),最后由觀測值重構(gòu)小波樹模型,得到經(jīng)小波處理后的語音信號。實(shí)驗(yàn)結(jié)果證明,與傳統(tǒng)小波抗噪方法相比,平均信噪比提高了14 %。
1.1壓縮感知基本原理
1.2語音信號小波樹模型
圖1 小波樹模型Fig 1 Wavelet tree model
雖然系數(shù)向量Θ具有一定的稀疏性,但是直接觀測并不能得到最好的重構(gòu)效果。為此利用壓縮排序選擇算法CSSA[4]對小波樹進(jìn)行修剪來獲得更好的稀疏性,且與原信號保持較小的誤差。定義k稀疏的小波樹模型信號為
(1)
Ω中的非零系數(shù)形成相連的子樹,以此逼近原始信號
S*=argmax{B(S)}
(2)
式中S為系數(shù)向量Θ的索引,代表節(jié)點(diǎn)位置,S*為小波樹中最大能量的節(jié)點(diǎn),B(S)為系數(shù)向量Θ的能量序列。尺度系數(shù)υ為初始默認(rèn)選中的節(jié)點(diǎn),若S*的父節(jié)點(diǎn)p(S*)在子樹中未被選中,則節(jié)點(diǎn)S*及其父節(jié)點(diǎn)p(S*)進(jìn)行壓縮合并成一個超節(jié)點(diǎn),并更新它們的取值為其平均值;若父節(jié)點(diǎn)p(S*)已被選中,則S*也標(biāo)記為選中。然后更新迭代次數(shù)
t=t+n(S*)
(3)
式中n(S*)為當(dāng)前節(jié)點(diǎn)S*包含的節(jié)點(diǎn)個數(shù),t為當(dāng)前迭代次數(shù)。當(dāng)t 1.3小波樹稀疏性適應(yīng)觀測 帶噪語音信號可以粗略分為噪聲段、帶噪清音段和帶噪濁音段。其中帶噪濁音段包含了絕大部分的語音信息,有著比較規(guī)律的諧波性,在變換域中呈現(xiàn)出良好的稀疏性,由于噪聲信號一般稀疏性較差,所以在重構(gòu)時能濾除該段部分噪聲[6];而其他聲音段語音信息量小,稀疏性差,重構(gòu)效果不理想。壓縮感知原理指出,觀測數(shù)目越多對于信號的重構(gòu)效果越好。為此,對稀疏性好信息量大的語音幀分配較多的觀測數(shù)目;對稀疏性差信息量小的語音幀則分配較少的觀測數(shù)目,雖然這會導(dǎo)致重構(gòu)不精確,但由于該部分語音幀信息量較小,較低的重構(gòu)信噪比并不會影響語音整體的重構(gòu)效果。在小波樹模型中,對系數(shù)向量Θ進(jìn)行稀疏性的判斷,這里用Gini系數(shù)[7]來表征信號的稀疏性 (4) Gammatone濾波器能很好地模擬人耳基底膜的分頻特性,本文通過該濾波器組提取特征參數(shù)GFCC。先對帶噪信號作預(yù)處理(預(yù)加重、分幀和加窗)和基于本文算法的壓縮重構(gòu),然后將恢復(fù)的信號通過一組64通道的Gammatone濾波器組,其中心頻率在50~8 000 Hz之間[8],時域表達(dá)形式如下 g(f,t)=kta-1e-2πbtcos(2πft+φ),t≥0 (5) 式中k為濾波器增益,a為濾波器階數(shù),f為中心頻率,φ為相位,b為衰減因子,該因子決定相應(yīng)的濾波器的帶寬,它與中心頻率f的關(guān)系為 b=24.7(4.37f/1000+1) (6) 由于Gammatone濾波器的時域表達(dá)式為沖擊響應(yīng)函數(shù),所以,將其進(jìn)行傅里葉變換就可以得到其頻率響應(yīng)特性。語音信號通過該濾波器時,輸出信號Gm(i)的響應(yīng)表達(dá)式為 Gm(i)=[|g|(i,m)]1/2,i=0,…,N-1; m=0,…,M-1 (7) 式中N=64為濾波器的通道數(shù),M為采樣之后的幀數(shù)。這樣Gm(i)就構(gòu)成了一個矩陣,它的每一列稱為Gammatone特征系(GF)[9],一個GF特征矢量由64個頻率成分組成。由于相鄰的濾波器通道有重疊的部分,GF特征矢量相互之間存在相關(guān)性。為了減小GF特征矢量的維度和相關(guān)性,這里對每一個GF特征矢量進(jìn)行離散余弦變換(DCT),具體表示為 (8) 將系數(shù)Ci(j)稱為GFCC系數(shù)。在實(shí)際的說話人識別系統(tǒng)中,由于計(jì)算量大,并非取全部維數(shù)的GFCC系數(shù)。文獻(xiàn)[10]證明,由主成分分析(principalcomponentsanalysis,PCA)技術(shù),可以把64維GFCC系數(shù),按累積貢獻(xiàn)率不小于85 %的準(zhǔn)則,降到26維。降維后的GFCC特征參數(shù)表示為 G(i)={Cj(i)|j=1,…,26} (9) 基于壓縮感知的改進(jìn)小波抗噪識別系統(tǒng)的算法流程如下: 步驟1對帶噪語音信號進(jìn)行預(yù)處理,對一幀語音進(jìn)行多尺度小波分解,得到系數(shù)向量Θ。 步驟2計(jì)算Θ的Gini系數(shù)G(Θ)。若G(Θ)>0.9,取0.8M個觀測數(shù),M為常規(guī)非稀疏性觀測實(shí)驗(yàn)所取的觀測數(shù),按稀疏度k1修剪小波樹,k1的選擇由仿真實(shí)驗(yàn)中表1確定,若G(Θ)<0.9,取0.4M個觀測數(shù),按稀疏度k2修剪小波樹。 步驟3利用CSSA算法對原始稀疏向量Θ進(jìn)行小波樹的修剪,對不同觀測數(shù)目選擇合適的小波樹節(jié)點(diǎn)數(shù)量,即該向量的稀疏度。 步驟4對觀測信號y進(jìn)行小波樹模型的重構(gòu),重構(gòu)出系數(shù)向量,詳細(xì)步驟如下: 步驟6將重構(gòu)得到的降噪信號提取特征參數(shù)GFCC,然后在高斯混合模型中進(jìn)行識別。 實(shí)驗(yàn)所用的語音庫是用麥克風(fēng)錄制的,語音采用的是單聲道,8kHz的采樣頻率,16bit量化。語音庫由50個不同年齡段的男女所錄制而成,每個人錄制10段語音,時長2~5s不等,總共500段。首先研究了一段麥克風(fēng)錄制的語音信號“咖啡”在小波分解下系數(shù)向量的稀疏性,對每一幀的多尺度小波分解系數(shù)用CSSA算法對小波樹修剪并計(jì)算其Gini系數(shù),結(jié)果如圖2。 圖2 各幀系數(shù)向量的Gini系數(shù)分布Fig 2 Gini coefficient distribution of each frame coefficient vector 對于原始向量,第1~5幀及24~28幀處Gini系數(shù)較低,表示其稀疏性較差,分析可以發(fā)現(xiàn)語音信號這幾幀的區(qū)間大部分都在聲母“k”和“f”的清音部分,其他幀則是在韻母“a”和“ei”的濁音部分,稀疏性較好。 對于小波樹模型,保留較少的小波樹節(jié)點(diǎn)雖然可以提高系數(shù)向量的稀疏性,但是卻增大了與原信號的誤差,在一定觀測數(shù)目下的壓縮重構(gòu)又需要較好的稀疏性。為此,本文對觀測數(shù)目和保留的小波樹節(jié)點(diǎn)數(shù)之間關(guān)系對重構(gòu)信號的影響進(jìn)行研究。分別選取聲母“k”“f”和韻母“a”“ei”各取一幀N=512來代表清音幀和濁音幀,結(jié)果如表1。 表1 觀測數(shù)、小波樹稀疏度同信噪比關(guān)系 分析表1發(fā)現(xiàn)在特定的觀測數(shù)目下,無論是清音還是濁音幀都可以唯一確定一個稀疏度來得到最好重構(gòu)效果,如表2。 表2 不同觀測數(shù)下的最佳稀疏度 通過確定特定觀測數(shù)目下的最佳稀疏度,對整段語音進(jìn)行基于稀疏性適應(yīng)的小波樹觀測壓縮重構(gòu),對于信息量高的濁音幀采取 個數(shù)目觀測;對信息量低的清音幀采取 個數(shù)目觀測。語音段“咖啡”共有10幀清音44幀濁音,相當(dāng)于對整段語音信號每幀采用 個觀測數(shù)目。圖3對比了本文稀疏性適應(yīng)觀測方法同固定觀測數(shù)每幀為 非稀疏性適應(yīng)觀測方法的各幀重構(gòu)信噪比情況。 圖3 各幀重構(gòu)信噪比對比Fig 3 Comparison of reconstructed SNR of each frame 觀察圖3發(fā)現(xiàn)在清音幀部分,本文方法重構(gòu)信噪比不如非稀疏性方法,但在含有大多數(shù)語音信息的濁音幀部分,信噪比遠(yuǎn)高于非稀疏性方法。計(jì)算幀平均重構(gòu)信噪比,非稀疏性適應(yīng)方法只有20.23 dB,而稀疏性適應(yīng)方法達(dá)到了23.12 dB,幀平均信噪比上提高了14 %。 最后,選取本文語音庫中每個人的4段語音作為訓(xùn)練樣本集,用高斯混合模型(GMM)對其訓(xùn)練。另外6段語音作為測試樣本集,混入標(biāo)準(zhǔn)噪聲庫NOISEX—92中的白噪聲,信噪比分別為-5,0,5 dB和10 dB,用本文方法對其進(jìn)抗噪重構(gòu),然后通過Gammatone濾波器組提取特征參數(shù)GFCC,在GMM模型中進(jìn)行識別,GMM的混合數(shù)為16,結(jié)果如圖4??梢园l(fā)現(xiàn),本文方法的識別率要高于傳統(tǒng)非稀疏性適應(yīng)觀測方法。 圖4 白噪聲下的識別結(jié)果Fig 4 Recognition result under White noise 本文給出了一種基于壓縮感知的改進(jìn)小波抗噪識別系統(tǒng),先對帶噪語音信號作預(yù)處理,然后經(jīng)改進(jìn)小波壓縮重構(gòu),將重構(gòu)恢復(fù)的語音信號通過Gammatone濾波器組提取特征參數(shù)GFCC,最后在GMM模型中識別。該方法有效權(quán)衡語音信號稀疏性、觀測數(shù)目及重構(gòu)精度。實(shí)驗(yàn)結(jié)果證明:在相同壓縮比情形下,與非稀疏性適應(yīng)觀測方法相比本文有更高的重構(gòu)信噪比和識別率。雖然小波樹模型有較好的稀疏性,但模型較為固定并沒從信號本身構(gòu)造出更好的稀疏域。因此,為特定信號構(gòu)造一個更好的稀疏變換,同時使用一個快速有效的重構(gòu)算法仍是以后研究的重點(diǎn)。 [1]Donoho D.Compressed sensing[J].IEEE Transactions on Information Theory,2006,52(4):1289-1306. [2]雷穎,錢永青,孫洪.幀間自適應(yīng)語音信號壓縮感知[J].信號處理,2012,28(6):894-899. [3]Baraniuk R G.Optimal tree approximation with wavelets[C]∥SPIE’s International Symposium on Optical Science,Enginee-ring,and Instrumentation,International Society for Optics and Photonics,1999:196-207. [4]Baraniuk R G,Jones D L.A signal-dependent time-frequency representation: Optimal kernel design[J].IEEE Transactions on Signal Processing,1993,41(4):1589-1602. [5]Needell D,Tropp J A.CoSaMP:Iterative signal recovery from incomplete and inaccurate samples[J].Applied and Computational Harmonic Analysis,2009,26(3):301-321. [6]周小星,王安娜,孫紅英,等.基于壓縮感知過程的語音增強(qiáng)[J].清華大學(xué)學(xué)報(bào),2011,51(9):1234-1238. [7]Hurley N,Rickard S.Comparing measures of sparsity[J].IEEE Transactions on Information Theory,2009,55(10):4723-4741. [8]王玥,錢志鴻,王雪,等.基于伽馬通濾波器組的聽覺特征提取算法研究[J].電子學(xué)報(bào),2010,38(3):525-528. [9]Shao Yang,Jin Zhaozhang,Wang Deliang.An auditory-based feature for robust speech recognition[C]∥IEEE International Conference on Acoustics, Speech and Signal Processing,Institute of Electrical and Electronics Engineers,US,2009:4625-4628. [10] Zhang Wanfeng,Yang Yingchun,Wu Zhaohui,et al.Experimental evaluation of a new speaker identification framework using PCA[C]∥IIEEE International Conference on Systems,Man and Cybernetics,2003:4147-4152. Design of improved wavelet anti-noise recognition system based on compressive sensing* MAO Zheng-chong, SHAO Zhu-yu (Key Laboratory of Advanced Process Control for Light Industry,Ministry of Education,Jiangnan University,Wuxi 214122,China) Allocate observation numbers adaptively,according to sparsity in wavelet tree of speech frames,change number of wavelet tree nodes with different observation numbers.This method solves mismatching problem between the nodes number in the tree model and measurement of speech signal.Denoising the preprocessed speech signal by improved wavelet,then,through Gammatone filters to deal with the enhanced speech signal, extract feature parameters GFCC.Simulation experiment results demonstrate that SNR increases 14 % compared with traditional wavelet method,effectively reduce effect of noise in speech signal and the system recognition rate and robustness are improved obviously. compressive sensing; wavelet denoising; sparsity adapt to observation; anti-noise algorithm; recognition rate 2015—11—04 江蘇省自然科學(xué)基金資助項(xiàng)目(BK20131107); 國家自然科學(xué)基金資助項(xiàng)目(60973095) TP 391.4 A 1000—9787(2016)08—0094—04 茅正沖(1964-),男,江蘇啟東人, 副教授,研究生導(dǎo)師,主要研究方向?yàn)闄C(jī)器人視聽覺識別。 DOI:10.13873/J.1000—9787(2016)08—0094—042 Gammatone特征提取
3 算法流程
4 實(shí)驗(yàn)結(jié)果與分析
5 結(jié) 論