曾以成, 陳雨鶯, 毛燕湖, 謝小娟
(湘潭大學 物理與光電工程學院,湖南 湘潭 411105)
基于經(jīng)驗模態(tài)分解結(jié)合傅氏變換與Wigner分布的Mel頻率倒譜系數(shù)提取*
曾以成*, 陳雨鶯, 毛燕湖, 謝小娟
(湘潭大學 物理與光電工程學院,湖南 湘潭 411105)
根據(jù)語音信號的非平穩(wěn)特點,用經(jīng)驗模態(tài)分解方法把語音信號分解成一系列固有模態(tài)函數(shù)(Intrinsic Mode Function,IMF),一個IMF只含有語音信號的一部分信息,不同IMF分量攜帶的特征信息不同,對這些IMFs進行加權(quán)處理,得到新的語音,再對其進行后續(xù)處理.Wigner-Ville分布能精確地定位信號的時頻結(jié)構(gòu),而傳統(tǒng)傅氏變換不能反映信號的瞬時變化情況,但多分量信號的Wigner-Ville分布受困于交叉項的干擾,因此利用Wigner-Ville分布的優(yōu)點,采用Wigner-Ville譜與傅氏譜結(jié)合來代替單獨的傅氏譜作為每幀的特征,進行Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)提取.實驗表明,經(jīng)改進后的MFCC參數(shù)較傳統(tǒng)的MFCC參數(shù)應用于說話人識別系統(tǒng),識別率有較大提升,且魯棒性較好.
經(jīng)驗模態(tài)分解;Wigner-Ville譜;傅氏變換;Mel頻率倒譜系數(shù)
語音信號是復雜的非平穩(wěn)信號,但短時平穩(wěn),包含語義、個人特征、情感等特征信息,不同特征信息需用不同的特征參數(shù)表征,所以,特征參數(shù)的提取是語音信號處理的一個關(guān)鍵步驟.常見的反映個性特征信息的特征參數(shù)有:基音周期、線性預測參數(shù)、線譜對參數(shù)(Line Spectrum Pair,LSP)、梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)以及口音敏感參數(shù)(Accent Sensitive Cepstrum Coefficient,ASCC)等.MFCC考慮了人耳的聽覺特性,將頻譜轉(zhuǎn)化為基于Mel頻率的非線性頻譜,然后轉(zhuǎn)換到倒譜域上.因沒有任何前提假設(shè),MFCC參數(shù)具有良好的識別性能和抗噪能力.
為進一步提高說話人識別系統(tǒng)的識別率,很多學者嘗試對MFCC進行改進[1~7].比如,文獻[3]考慮到Mel頻率倒譜系數(shù)中各維分量對于不同說話人的區(qū)分程度,采用加權(quán)的辦法進行矢量量化,使特征參數(shù)能夠更好地區(qū)分不同說話人,但文中加權(quán)系數(shù)的選擇還有待研究.文獻[4]提出基于概率加權(quán)平均的Mel子帶特征重建算法,減少了幀間突變現(xiàn)象,增強了Mel子帶特征的幀間連續(xù)性,但重建誤差仍然會影響語音識別系統(tǒng)性能的提高.文獻[5]將感知加權(quán)技術(shù)應用到Mel倒譜分析中,通過對基于心理聲學模型計算得到的信號掩蔽比差值獲得感知權(quán)重函數(shù),而其中誤差函數(shù)的最小化問題,對識別性能有一定的影響.文獻[6]將語音頻譜能量高頻部分進行加權(quán)來提取MFCC參數(shù),這種方法可使語音增強,提高語音魯棒性,但對于高頻與低頻怎么區(qū)分卻是一個問題.這些改進方法使得說話人識別率有所提升,但提升的高度還有待進一步增加.
Wigner-Ville分布[8,9]適合于非平穩(wěn)信號的分析與處理.它具有比其他時頻分布更好的時頻聚集性,能夠很好地區(qū)分一個信號是單分量信號還是多分量信號,在識別信號項的情況下,還可以知道信號的組成頻率隨時間的變化規(guī)律,這與傳統(tǒng)的傅氏分析法相比具有一定的優(yōu)越性,因為傅氏變換不具有時間和頻率的“定位”功能,不能反映信號的瞬時變化情況.
基于上述考慮,本文提出一種基于經(jīng)驗模態(tài)分解(Empirical Mode Decomposition,EMD)[10,11]結(jié)合傅氏變換與Wigner分布的MFCC特征提取算法.首先,應用EMD分解法處理語音信號,其次,將Wigner-Ville(WV)譜和傅氏譜結(jié)合,經(jīng)過Mel濾波器組,進行離散余弦變換,提取說話人的MFCC特征參數(shù),最后采用高斯混合模型(GMM)實現(xiàn)說話人識別.
EMD是一種新的應用于非線性與非平穩(wěn)時間序列信號的分解方法,其核心是:把任意一個復雜信號分解成一系列不同尺度的固有模態(tài)函數(shù)(Intrinsic Mode Function,IMF)和一個殘余分量,每一個IMF代表了原信號不同頻率段的振蕩變化,突出信號的局部特征,殘余分量則體現(xiàn)信號中的緩慢變化量[12,13].
先將語音信號分幀(每幀10~30 ms),一幀期間內(nèi)的信號視為平穩(wěn)過程,將整幀信號作離散傅里葉變換(Discrete Fourier Transform,DFT)等處理得到該幀信號的頻譜或者功率譜特性.這種處理方法遇到的問題是幀長的選取是否合宜,若選得太長,在語音信號的特性時變明顯的情況下,幀會將不同時刻具有相當特性差別的特征彼此混淆,或?qū)⒁恍┒虝r出現(xiàn)的重要特征沖淡.反之,若幀長取太短,則會因幀內(nèi)樣本數(shù)少而不足以表征低頻成分,這相當于加上了使信號畸變的低通濾波.解決這個問題的途徑之一是將幀長取得較長,采用高階信號譜來代替傅里葉譜,使之能較好地表征時變信號的特性.而WV譜就是一種高階信號譜,離散WV譜的定義是:
(1)
由W(n,θ)的定義式可見,W(n,θ)實際就是xA(n+k)·xA*(n-k)的傅里葉變換,也即xA(n)的一種自協(xié)方差的傅里葉變換,與信號本身的傅里葉譜相比,對于非平穩(wěn)信號,在較長幀長情況下,信號傅里葉譜特征的表征性能已有所下降,而WV譜只要該信號的自協(xié)方差還接近平穩(wěn),它的表征性能還是很好的[16].
語音信號經(jīng)過EMD分解后,得到的每一級IMF中所包含的信息量是不同的,這里,我們根據(jù)每個IMF序列與原始序列的相關(guān)性,來衡量一個IMF的信息量.而相關(guān)性由相關(guān)系數(shù)r來描述,r的表達式如下:
(2)
圖1 原始語音信號
Fig.1 The original speech signal
以“同舟共濟”這個詞組的普通話漢語語音為例(采樣頻率為8 000Hz),波形如圖1所示.取其中400個采樣點(從6001點到6400點)進行EMD分解,得到一組IMF,如圖2所示.由圖可見,這段語音信號分解出5個IMF和1個殘差序列.
圖2 EMD 分解后的IMF 分量集,從上到下依次為IMF1~IMF5與殘差
Fig.2 IMF components obtained by EMD method, and from top to bottom are IMF1to IMF5and the residual
由圖2可以看出,分解后得到的第一個固有模態(tài)函數(shù)IMF1,極大值、極小值點最多,之后的IMF隨著極大值、極小值點的減少而依次變得平坦.所以,設(shè)語音信號x(t),經(jīng)過EMD分解后得到n個IMF,對其進行加權(quán)[17,18],數(shù)學表達式為:
(3)
圖3 原始信號與IMF 加權(quán)后的信號對比(200 個采樣點)
Fig.3 Contrast the original signal with the weighted signal (200 sampling points)
由圖3可以看出,進行加權(quán)處理后,得到的新信號的幅度明顯變小了,這是因為一部分不相關(guān)的信息被篩除了,保留的是我們需要的相關(guān)信息,相當于為進行特征參數(shù)提取對原始語音進行了“優(yōu)化”.
我們對加權(quán)后得到的新信號分別作WV運算和快速傅里葉變換(FastFourierTransformation,F(xiàn)FT).
若信號x(n)=x1(n)+x2(n),則它的WV分布為:
Wx(n,ω)=Wx1(n,ω)+Wx2(n,ω)+2Re[Wx1,x2(n,ω)],
(4)
式中:2Re[Wx1,x2(n,ω)]是x1(n)和x2(n)的互Wigner分布,稱為交叉項,這是信號疊加產(chǎn)生的干擾.由此看出,兩個信號和的Wigner分布并不等于它們各自Wigner分布的和.當信號由很多分量疊加組成時,交叉項會嚴重到無法區(qū)分信號項和交叉項.
對于FFT,它是線性變換,不存在交叉項,但其時頻聚集性不好;對于WV分布,它具有很好的時頻聚集性,但存在嚴重的交叉項.本文結(jié)合兩者的優(yōu)點,得到既不含交叉項且時頻聚集性又好的新分布.
當信號分別作FFT和WV處理后,即得到Fx(n,ω)和Wx(n,ω),對二者進行相乘運算,當兩者都有信號項時,可以得到乘積結(jié)果,而WV的交叉項對應的FFT區(qū)域沒有信號,所以乘積為0.通過這種算法,實現(xiàn)一個表征性能更優(yōu)的分布[19,20].
進行FFT與WV相乘運算后,再經(jīng)過Mel濾波器組,作離散余弦變換(DiscreteCosineTransform,DCT),得到MFCC.具體的MFCC參數(shù)提取流程如圖4所示.
實驗采用10個人的漢語語音庫,其中5名男性,5名女性,采樣頻率為16 kHz.我們對原始語音進行預加重,然后分幀去靜音(采用短時平均能量作為判斷標志),得到處理后的語音.將處理后的語音作為流程圖中的語音信號,按上述步驟進行分析處理.
在上述流程圖中,若去掉分解步驟,則得到的參數(shù)定義為WV-FFT的MFCC參數(shù);若去掉相乘步驟,則得到的參數(shù)定義為IMF加權(quán)的MFCC參數(shù);若進行完整的流程圖運算,則得到的參數(shù)定義為WV-IMF的MFCC參數(shù).
將這三種參數(shù)與傳統(tǒng)的MFCC參數(shù)作比較,進行說話人識別測試.在理想情形下,測試結(jié)果如表1所示.
表1 理想情形下四種方法的識別結(jié)果
由表1可以看出,經(jīng)本文改進后的MFCC參數(shù)的識別率相比傳統(tǒng)的MFCC參數(shù),有大幅度提升.WV-FFT的MFCC參數(shù)與IMF加權(quán)的MFCC參數(shù)的識別率提高了大約10%,而WV-IMF的MFCC參數(shù)的識別率最高,比傳統(tǒng)MFCC參數(shù)的識別率高出了15%左右,這說明本文提出的方法具有更好的識別效果.
然而,在現(xiàn)實生活中,語音信號不可能是純凈的,我們在原始語音中加入隨機噪聲(高斯白噪聲),對比這些參數(shù)在不同信噪比下的說話人識別率.測試結(jié)果如表2所示.
比較表2中的結(jié)果可知,加入噪聲后,在高信噪比下,經(jīng)本文改進過的MFCC參數(shù)的識別率都有提升,提升幅度最大的是WV-IMF的MFCC.隨著信噪比的降低,WV-FFT的MFCC參數(shù)的識別率迅速下降,IMF加權(quán)的MFCC參數(shù)次之,而WV-IMF的MFCC參數(shù)的識別率下降是最緩慢的,所以低信噪比下,WV-IMF的MFCC識別率最好.
表2 高斯白噪聲下不同信噪比的識別結(jié)果
噪聲也可以分為很多種,在加入不同種類的噪聲情況下,識別率也有所不同.這里,我們選擇標準噪聲庫NoiseX-92中比較常見的三種噪聲來作比較實驗,分別是潺潺的發(fā)言聲、粉紅噪聲(自然界最常見的噪聲)和工廠噪聲,將它們分別加入語音信號,信噪比定為30 dB,再來比較說話人識別率.測試結(jié)果如表3所示.
表3 不同噪聲下同一信噪比的識別結(jié)果
由表3可知,對于傳統(tǒng)的MFCC參數(shù),在潺潺的發(fā)言聲環(huán)境下識別率相對較好,而改進后的三種MFCC參數(shù),在粉紅噪聲環(huán)境下說話人識別率相對較高.其中,WV-IMF的MFCC參數(shù)的識別率最高,相對于傳統(tǒng)的MFCC參數(shù),有最大幅度的提升;潺潺的發(fā)言聲環(huán)境下,IMF加權(quán)的MFCC參數(shù)和WV-IMF的MFCC參數(shù)的識別率相差不大,WV-IMF的MFCC參數(shù)的識別率略高于IMF加權(quán)的MFCC參數(shù)的識別率;工廠噪聲環(huán)境下,識別率相對較低,但是,WV-IMF的MFCC參數(shù)的識別率仍然高于其他MFCC參數(shù).整體來看,噪聲環(huán)境下,WV-IMF的MFCC的識別率最好.
本文提出了一種基于EMD結(jié)合傅氏變換和Wigner分布的MFCC特征提取方法.首先,利用EMD分解出的IMF與原始信號的相關(guān)性來篩去部分無用信息,這一步驟相當于為MFCC的提取對原始語音進行了“優(yōu)化”,而結(jié)合FFT與Wigner分布的方法在去掉交叉項的同時保留了良好的時頻分辨率.實驗表明,本文方法較傳統(tǒng)的MFCC參數(shù)提取法,說話人識別率有一定提高.在理想情況下,本文方法得到的識別率高出傳統(tǒng)MFCC參數(shù)提取法將近15%;在高斯白噪聲環(huán)境下,識別率都有所下降,但是本文方法仍然高出傳統(tǒng)MFCC參數(shù)提取法10%以上;在潺潺的發(fā)言環(huán)境下,本文方法的識別率提高了14%左右,在粉紅噪聲、工廠噪聲這兩種特殊噪聲情形下,本文方法的識別率提高了24%左右.但信噪比較低的時候(信噪比20 dB以下),說話人識別系統(tǒng)的識別率比較低,所以如何提高低信噪比下的說話人識別率還需要進一步研究.
[1] 鮮曉東,樊宇星. 基于Fisher比的梅爾倒譜系數(shù)混合特征提取方法[J].計算機應用,2014,34(2):558-561,579.
[2] 俸云,景新幸,葉懋. MFCC特征改進算法在語音識別中的應用[J].計算機工程與科學,2009,31(12):146-148.
[3] 邵央,劉丙哲,李宗葛. 基于MFCC和加權(quán)矢量量化的說話人識別系統(tǒng)[J].計算機工程與應用,2002,38(5):127-128.
[4] 羅宇,杜利民. 基于概率加權(quán)平均的Mel子帶特征重建算法[J].電子學報,2004,32(10):1 738-1 741.
[5] 劉亞麗,楊鴻武,黃德智. 基于加權(quán)Mel倒譜系數(shù)的說話人識別[J].計算機應用與軟件,2009,26(9):24-27.
[6] 陳迪,龔衛(wèi)國,李波. 噪聲魯棒性說話人識別語音高頻加權(quán)MFCC提取[J].儀器儀表學報,2008,29(3):668-672.
[7] 湯霖,彭土有,尹俊勛.普通話水平客觀測試中的韻母測試研究[J].湘潭大學自然科學學報,2012,34(1):95-100.
[8] QIAN S, MORRIS J M. Wigner distribution decomposition and cross-terms delete representation[J].Signal Processing,1992,27:125-144.
[9] WONG K M, JIN Q. Estimation of the time-varying frequency of a signal: The cramer-ral bound and the application of Wigner distribution[J]. IEEE Trans Signal Processing, 1990,1 770:358-375.
[10] HUANG N E, SHEN Z, LONG S R, et al. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-station time series analysis[J].The Royal Society,1998,A454:903-995.
[11] HUANG N E,WU M L, QU W, et al. Applications of Hilbert-Huang transform to nonstationary financial time series analysis[J].Applied Stochastic Models in Business and Industry,2003,19:245-268.
[12] YANG Z H, QI D X,YANG L H. A novel approach for detecting pitch based on Hilbert-Huang Transform[R]. Sun Yat-sen University, 2004.
[13] YAN R Q, GAO R X. A tour of the Hilbert-Huang transform: an empirical tool for signal analysis[J]. IEEE Instrumentation & Measurement Magazine,2007,10(5):40-45.
[14] 杜曉青,于鳳芹. 基于HHT倒譜系數(shù)的說話人識別算法[J].計算機工程與應用,2014(3):198- 202.
[15] 劉麗偉,張瑤,趙孔新,等. 基于HHT的語音特征參數(shù)提取及其在說話人識別中的應用[J].長春工業(yè)大學學報(自然科學版),2009,30(6):696- 701.
[16] 王炳錫,屈丹,彭煊. 實用語音識別基礎(chǔ)[M].北京:國防工業(yè)出版社,2005:66-74.
[17] 李凌,曾以成,雷雄國.EMD在說話人辨認中的應用[J].湘潭大學自然科學學報,2006,28(3):108-111.
[18] 孫汝儒,肖迪. 基于加權(quán)IMF對時間序列相似匹配[J].計算機應用研究,2013,30(12):3 664-3 666.
[19] 趙淑紅. 短時傅立葉變換與Wigner-Ville分布聯(lián)合確定地震信號瞬時頻率[J].西安科技大學學報,2010,30(4):447-450.
[20] 吳小羊,劉天佑. 基于時頻重排的地震信號Wigner-Ville分布時頻分析[J].石油地球物理勘探,2009,44(2):201-205.
責任編輯:羅 聯(lián)
Mel Frequency Cepstrum Coefficient Extraction Method Based on Empirical Mode Decomposition and Combined Spectrum of Fourier Transform and Wigner Distribution
ZENGYi-cheng*,CHENYu-ying,MAOYan-hu,XIEXiao-juan
(Department of Physics and Photoelectric Engineering, Xiangtan University, Xiangtan 411105 China)
Speech signal has the non-stationary and nonlinear characteristics, and is decomposed into a number of intrinsic mode functions by applying Empirical Mode Decomposition method. Each IMF contains only part of the information of the speech signal, and different characteristic information carried by different IMF component. Then these IMFs are weighted to get a new speech signal for further processing. Wigner-Ville Distribution can accurately reflect the time-frequency structure of the signal. On the contrary, the Fourier transform can not reflect the instantaneous change of signal. But Wigner-Ville Distribution trapped in cross-term interference by multi-component signals generated. Take advantage of Wigner-Ville Distribution, and using Wigner-Ville spectrum and Fourier spectrum combine to replace Fourier spectrum as the characteristic of each frame for extracting Mel Frequency Cepstrum Coefficient (MFCC). Experiments show that in speaker recognition system, compared with the classical MFCC parameter, the improved MFCC parameter in this article provides a higher accuracy and better robustness.
Empirical Mode Decomposition(EMD); Wigner-Ville spectrum; Fourier transform; Mel Frequency Cepstrum Coefficient(MFCC)
2005-01-06
曾以成(1962— ), 男,湖南 漣源人,博士,教授,博士生導師.E-mail:yichengz@xtu.edu.cn
TP391
A
1000-5900(2015)02-0020-07