王秀芳郭淞赫崔翔宇楊丹迪
(東北石油大學(xué)a.電氣信息工程學(xué)院;b.計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318)
伴隨著計(jì)算機(jī)和智能手機(jī)的進(jìn)一步普及發(fā)展,人機(jī)交互頻率不斷提高,語音識別[1-2](Speech Recognition)已經(jīng)在各個方面對人們的生活產(chǎn)生了巨大的影響。語音信號識別過程中的一個重要組成部分即是語音信號特征提取[3],良好的聲學(xué)特征提取對語音識別系統(tǒng)的性能起著舉足輕重的作用,所以語音信號特征提取技術(shù)已成為當(dāng)下研究熱門。
20世紀(jì),貝爾實(shí)驗(yàn)室的研究人員對數(shù)字元音的共振峰頻譜能量進(jìn)行了研究,開發(fā)出一個針對特定說話人的英文數(shù)字語音識別系統(tǒng)——Audrey。經(jīng)過數(shù)年后,線性預(yù)測編碼技術(shù)[4](LPC:Linear Predictive Coding)被提出并開始在語音識別系統(tǒng)中不斷使用,而動態(tài)時間規(guī)劃技術(shù)[5](DTW:Dynamic Time Warping)的提出進(jìn)一步推進(jìn)了語音信號特征提取識別的發(fā)展進(jìn)程。目前比較常用的語音特征提取法有線性預(yù)測倒譜系數(shù)提取法[6](LPCC:Linear Predictive Cepstral Coefficient)和梅爾頻率倒譜系數(shù)提取法[7](MFCC:Mel Frequency Cepstral Coefficient)。其中,梅爾頻率倒譜系數(shù)提取法是通過模仿人耳的功能提取語音信號特征,在大多數(shù)的語音識別系統(tǒng)中,MFCC的低階系數(shù)通常會被當(dāng)作輸入的特征矢量。由于其識別率高,魯棒性好等優(yōu)點(diǎn)[8],目前在語音信號智能識別領(lǐng)域已經(jīng)得到了廣泛的發(fā)展,成為當(dāng)下最常用的語音特征。但因?yàn)檎Z音信號在傳播過程中會受到環(huán)境,傳播介質(zhì),傳感器性能的各種影響,語音樣本會摻雜各式各樣的噪音[9]。目前提取MFCC特征過程中降噪手段一般會濾掉部分原信號,導(dǎo)致特征提取不準(zhǔn)確,從而降低系統(tǒng)識別率。如何降低MFCC在語音識別系統(tǒng)的誤碼率,提高系統(tǒng)識別語音信號的成功率始終是個難題。
采用經(jīng)驗(yàn)?zāi)B(tài)分解(EMD:Empirical Mode Decomposition)方法[9]處理信號,不會運(yùn)用任何已經(jīng)定義好的函數(shù)作為基底,而是將任何信號按頻率由高到低分解成若干個固有模態(tài)分量(IMF:Intrinsic Mode Function)[10]。該方法能把信號中的噪聲均勻地分解到每層IMF中,可以提升微弱信號所在層的信噪比,因?yàn)槊總€IMF分量都含有原信號在不同時間尺度所具備的局部特征,所以對各IMF分量分析可以更準(zhǔn)確地反映原信號細(xì)節(jié)特征的相關(guān)信息[11],且各層信號都具有很高的信噪比和良好的時頻聚焦性,因此更加適用于處理非線性信號的含噪語音信號。但由于對得到的IMF處理方法不同會使重構(gòu)信號的確度各不相同,因此如何有效地處理得到的IMF成為該方法目前的重要問題。
筆者使用改進(jìn)的經(jīng)驗(yàn)?zāi)B(tài)分解方法,將通過分解語音信號得到的IMF分類,將原信號占比高的IMF分量重構(gòu)并提取MFCC,在消除噪聲信號的同時盡可能多地保存了原信號的成分,有效地提升了系統(tǒng)的識別率。由于可以將信號的噪聲分解到每層IMF分量中,以此增強(qiáng)微弱信號所在層的信噪比,所以該方法特別適用于分析語音信號序列。
人類的聽覺系統(tǒng)是一種特別的非線性系統(tǒng),聽覺系統(tǒng)對于不同頻率信號的反應(yīng)靈敏度是有區(qū)別的。通過對人耳聽覺機(jī)理的研究發(fā)現(xiàn),人耳聽覺系統(tǒng)的敏感度對不同頻率的信號會各不相同。對聽覺系統(tǒng)的結(jié)構(gòu)模擬相當(dāng)于是在低頻到高頻這一段頻帶內(nèi)布置一組帶通濾波器,這組帶通濾波器的結(jié)構(gòu)是按照臨界帶寬的大小由密到疏排布,對輸入的語音信號進(jìn)行濾波[12]。將每個帶通濾波器濾波后得到的輸出信號能量再進(jìn)一步處理后就可以作為識別系統(tǒng)中語音信號的輸入特征。對輸入的語音信號不需要做任何限制,這也是MFCC的優(yōu)點(diǎn)之一,因?yàn)檫@種輸入特征并不依賴于原語音信號中的任何基本性質(zhì)。因而,相對于基于聲道模型提取的LPCC,MFCC在信噪比降低時具備更好抗干擾性和對輸入信號的低要求等優(yōu)點(diǎn)。
倒譜參數(shù)能展現(xiàn)出人耳頻率非線性的特點(diǎn),其與頻率f的關(guān)系可由
近似表示。圖1給出了Mel倒譜頻率與線性頻率的關(guān)系。
圖1 線性頻率-Mel倒譜頻率關(guān)系圖Fig.1 Linear frequency-MEL cepstrum frequency diagram
由圖1可以看出,在Mel頻域里,人的聽覺系統(tǒng)感知度變?yōu)榫€性比例[13],有助于對語音信號的處理和分析。相當(dāng)于在Mel頻域內(nèi),當(dāng)Mel頻率差一倍,相應(yīng)人聽到的音調(diào)就會差一倍。
改進(jìn)的MFCC語音信號特征提取法實(shí)際操作流程圖如圖2所示。分步驟敘述如下。
圖2 改進(jìn)的MFCC語音信號特征提取法實(shí)際操作流程圖Fig.2 An improved MFCC voice signal feature extraction method for practical operation flow chart
1)預(yù)處理。語音信號預(yù)處理過程是將輸入的語音信號直接通過一個濾波器,該濾波器滿足
其中μ通常取0.97。預(yù)加重的作用是增強(qiáng)語音信號中的高頻部分,讓語音信號在頻帶中的信噪比能近似保持不變,降低信號處理過程的難度。
2)EMD分解為N個IMF分量并區(qū)分重構(gòu)信號X(t)′。將經(jīng)預(yù)處理得到的語音信號通過EMD方法分解成若干個IMF分量,再對得到的IMF分量進(jìn)行自相關(guān)處理。噪聲信號自相關(guān)函數(shù)特點(diǎn)如圖3所示。
圖3 噪聲信號及噪聲信號自相關(guān)函數(shù)圖像Fig.3 Image of noise signal and noise signal autocorrelation function
由于隨機(jī)噪聲信號具備弱關(guān)聯(lián)性及隨機(jī)性的特點(diǎn),導(dǎo)致了隨機(jī)噪聲信號會出現(xiàn)在零點(diǎn)處自相關(guān)函數(shù)值很大,在其他任意點(diǎn)處自相關(guān)函數(shù)值瞬間衰減到很小的圖像特點(diǎn)[14]。所以隨機(jī)噪聲信號的自相關(guān)函數(shù)圖像完全不具備任何相關(guān)性,明顯與一般信號的自相關(guān)函數(shù)圖像區(qū)分開,可以通過這一特點(diǎn)將得到的IMF分量分成以噪聲信號主導(dǎo)的a類IMF分量和以原信號主導(dǎo)的b類IMF分量兩大類。對b類IMF分量重構(gòu)得到信號X(t)′。
3)分幀、加窗。把N個語音信號的數(shù)據(jù)采樣點(diǎn)集合為一個觀測單位,定義這個觀測單位為幀。通常N的取值為256或512,在每個重疊區(qū)域包含了M個取樣點(diǎn),M值通常是N的一半。將信號的每幀都乘以漢寧窗。假設(shè)分幀后的語音信號為S(n),n=0,1,…,N-1(其中N為幀的大小),則語音信號和漢寧窗W(n)相乘后的表達(dá)式如下
漢寧窗W(n)的表達(dá)式如下
其中a取值0.46,這一過程主要是為了增加語音信號每幀左右端的連續(xù)性。
4)快速傅里葉變換(FFT:Fast Fourier Transform)。語音信號在時域上的變換基本不能反映出信號的特性,通常將語音信號轉(zhuǎn)換到頻域里觀察語音信號的特性。所以經(jīng)過加窗過程后,需要再次經(jīng)過快速傅里葉變換(FFT)得到該語音信號頻譜。
5)Mel濾波器組。將上一步得到的語音信號再通過一組Mel尺度的三角形濾波器組[15],該濾波器組中心頻率為f(m),其滿足每個帶通濾波器的傳遞函數(shù)為
采樣率設(shè)置為fs=8 000 Hz,這里設(shè)置濾波器個數(shù)M=24。
6)取對數(shù)能量。對處理過的能量譜取對數(shù),從而得到相應(yīng)的對數(shù)能量,滿足
7)DCT(Discrete Cosine Transform)變換。將s(m)經(jīng)離散余弦變換(DCT)得到MFCC系數(shù)
倒譜參數(shù)YMFCC能準(zhǔn)確地反映出語音信號的靜態(tài)特性,對其求取差分得到的結(jié)果能反映出語音信號的動態(tài)特性。差分參數(shù)的計(jì)算滿足
其中Q是倒譜系數(shù)的階數(shù);d t是第t個一階差分;K是一階導(dǎo)數(shù)之間的時間差;Ct是第t個倒譜系數(shù)。由于一般會選取YMFCC的低階系數(shù)作系統(tǒng)的特征矢量,所以維數(shù)選擇12維,筆者采取動態(tài)特征與靜態(tài)特征結(jié)合的方式[16],進(jìn)一步求取一階差分YMFCC也就是YΔMFCC。所以,特征提取的全部組成即是N維MFCC參數(shù)(N/2YMFCC+N/2YΔMFCC)。
語音信號添加不同比例的高斯白噪聲作為目標(biāo)信號,對目標(biāo)信號進(jìn)行基于改進(jìn)經(jīng)驗(yàn)?zāi)B(tài)分解的含噪語音信號特征提取,目標(biāo)信號和加噪信號如圖4所示。
圖4 原始信號和加噪信號圖例Fig.4 Legend of original signal and noise-adding signal
對得到的所有IMF分量進(jìn)行自相關(guān)處理,得到各IMF自相關(guān)函數(shù)圖像,如圖5所示。
從圖5中可以看出,前12個IMF分量均為噪聲主導(dǎo),將以原信號為主導(dǎo)的b類IMF分量重構(gòu)結(jié)合得到重構(gòu)信號,對重構(gòu)信號處理,得到12維MFCC和12維一階差分MFCC。
圖5 各IMF分量自相關(guān)函數(shù)圖像Fig.5 Image of IMF component autocorrelation function
本實(shí)驗(yàn)在安靜的實(shí)驗(yàn)室內(nèi)完成,選擇隱馬爾可夫模型(HMM:Hidden Markov Model)系統(tǒng),語音樣本由6男6女共12人采集,規(guī)定所有人都為普通話發(fā)音,保存的文件為.wav格式。將12個人隨機(jī)分成3男3女各兩組,依次對26個英文字母進(jìn)行發(fā)音,每相隔2 min錄音一次,共錄制4次,相應(yīng)得到1 248組數(shù)據(jù)。把測得數(shù)據(jù)分為兩組,前1 040個數(shù)據(jù)用于訓(xùn)練系統(tǒng),后208個用于識別測試系統(tǒng)性能。實(shí)驗(yàn)設(shè)置采樣頻率為18 kHz,一幀的采樣點(diǎn)數(shù)為256。使用幀長為32 ms,幀移為16 ms的漢寧窗進(jìn)行語音信號的預(yù)處理,Mel濾波器中三角濾波器選為24個,按照改進(jìn)的語音信號MFCC提取流程依次進(jìn)行。由于采樣過程中傳感器性能、電流干擾、外界因素等影響,幾乎不存在純凈語音信號,所以實(shí)驗(yàn)過程中采用加入不同信噪比的高斯白噪聲進(jìn)行比對測試,分別采用不同的特征提取算法進(jìn)行對比,EMD算法的重構(gòu)方法是取互相關(guān)系數(shù)較高的IMF分量。實(shí)驗(yàn)數(shù)據(jù)如表1所示。
表1 幾種不同的特征提取算法識別率比較表Tab.1 Comparison table of recognition rates of several different feature extraction algorithms (%)
通過對表1中數(shù)據(jù)分析可知,無噪聲時,5種算法所能達(dá)到的識別率都高于80%,在語音信號中加入高斯白噪聲后,語音識別率相應(yīng)會有所降低。但整體上,基于改進(jìn)的模態(tài)分解處理語音信號MFCC在語音識別系統(tǒng)的識別率得到了顯著提高。說明通過區(qū)分噪聲和原信號主導(dǎo)模態(tài)分量并提取信號特征的方法對處理語音這種非線性信號具有明顯優(yōu)勢,該實(shí)驗(yàn)結(jié)果充分驗(yàn)證了該算法的可行性。
筆者提出一種對通過經(jīng)驗(yàn)?zāi)B(tài)分解語音信號得到的固有模態(tài)分量分類,并對分類后的IMF處理,重構(gòu)并提取MFCC的方法。在消除噪聲信號的同時盡可能多地保存原信號,有效提升了語音系統(tǒng)的識別性能。實(shí)驗(yàn)結(jié)果表明,無論是否存在噪聲,采用該方法的系統(tǒng)所得到識別率都高于其他幾種方法。