劉順蘭,竇園園,應(yīng)娜
(杭州電子科技大學(xué)通信學(xué)院,浙江杭州310018)
對于一個語音識別系統(tǒng),一方面希望其具有較高的識別率,能夠保證識別的準(zhǔn)確度,另外一方面希望其占用的資源盡可能的少,計算量盡可能的低,以提高系統(tǒng)的實用性與實時性。在資源受限的一些系統(tǒng)中,如何在保證一定識別率的情況下,盡可能的降低系統(tǒng)存儲及計算資源,這點顯得尤為重要[1]。而系統(tǒng)的性能與特征參數(shù)有關(guān),在目前常用的語音識別特征中美爾倒譜頻率系數(shù)(Mel Frequency Ceptral Coefficient,MFCC)+美爾倒譜頻率系數(shù)的一階差分(first-order differential MFCC,ΔMFCC)特征以其具備的高識別率和良好的抗噪聲能力,應(yīng)用最為廣泛[2]。本文研究了MFCC+ΔMFCC特征,圍繞白噪聲、粉紅噪聲、車載噪聲和工廠噪聲這4種典型噪聲不同信噪比下的語音進(jìn)行了仿真研究,分析了在不同噪聲影響下的語音信號的美爾頻率倒譜系數(shù)靜態(tài)特征及其動態(tài)特征各分量對識別率的影響,為在保證系統(tǒng)有較高識別率的情況下,減少系統(tǒng)的計算量,提高實時性提供了依據(jù)。
(1)算法原理
Mel頻率和線性頻率的轉(zhuǎn)換關(guān)系[3]如:
MFCC特征提取的過程如圖1所示。圖1中,Mel頻率濾波的作用是把線性頻率變換到Mel頻率域,并對語音信號的幅度平方譜進(jìn)行平滑。log[·]操作一方面壓縮了語音譜的動態(tài)范圍,另一方面將頻域中的乘性成分變成了對數(shù)譜域中的加性成分,能有效濾除乘性噪聲。將不同頻段的頻譜成分解相關(guān)的處理主要由離散余弦變換實現(xiàn),DCT變換后,各維向量之間相互獨立。
圖1 MFCC特征提取過程
具體流程如下[4]。
1)先對語音信號s(n)進(jìn)行一系列的預(yù)處理,包括分幀、加窗和預(yù)加重,得到處理后的信號si(n)所以由此可見MFCC特征也是基于短時幀的信號。
2)對每幀信號進(jìn)行離散傅里葉變換:
實際計算時,一般用FFT,N取512。
3)求出每幀信號的功率譜,然后通過Mel濾波器組。假設(shè)Mel濾波器組是由M個濾波器組成,每個濾波器是中心頻率為f(m)的三角濾波器,中心頻率f(m)之間的間隔隨著m的增加而增加。三角濾波器的傳遞函數(shù)為:
f(m)可以定義為:
式中,fl、fh為濾波器的頻率應(yīng)用范圍的最低頻率和最高頻率,N為FFT長度,F(xiàn)s為采樣率是fmel(.)函數(shù)的逆函數(shù),由式1可知:
對經(jīng)過Mel頻率濾波器的信號取對數(shù),得對數(shù)頻譜:
4)對對數(shù)譜信號X(m)進(jìn)行DCT變換,即可得到MFCC特征參數(shù):
(2)倒譜提升窗口
為了提高倒譜特征的抗噪聲能力,也為了增加MFCC特征矢量中的低階分量的穩(wěn)定性,在MFCC矢量不同分量處添加不同的權(quán)值,而這些權(quán)值的取值主要是靠一個窗函數(shù)來實現(xiàn):
式中,C(k)為MFCC系數(shù),W(k)為窗函數(shù):
式中,K為MFCC階數(shù)。
(3)Mel頻率倒譜差分參數(shù)
MFCC刻畫了語音信息的靜態(tài)特性,而Mel頻率倒譜差分參數(shù)刻畫了語音信息的動態(tài)特性[5],ΔMFCC反映了人耳聽覺模型的動態(tài)特性。差分參數(shù)的計算為:
式中,I為常數(shù),通常取2;ΔMFCC就是一階差分Mel頻率倒譜參數(shù),在實際應(yīng)用時,往往把MFCC和ΔMFCC混為一個整體認(rèn)為一幀語音信號的特征參數(shù)。用同樣公式對一階差分參數(shù)進(jìn)行計算,可得到二階差分參數(shù)(△△MFCC)。
系統(tǒng)識別率與特征參數(shù)的階數(shù)K有關(guān)[5],階數(shù)越高,特征的表現(xiàn)力越強,階數(shù)越低,特征表現(xiàn)力越弱。在對純凈語音處理的情況下,隨著特征階數(shù)的增加,識別率不斷增大,到達(dá)一定值后,識別率趨于穩(wěn)定,甚至有略微下降趨勢,此時可以確定一個最優(yōu)階數(shù)?,F(xiàn)在假設(shè)加入背景噪聲,在同一背景噪聲不同信噪比或是在不同噪聲相同信噪比下,確定系統(tǒng)在背景噪聲下的最優(yōu)階數(shù)。
實驗條件(本文所有實驗均使用此條件):15個女性發(fā)音,40個男性發(fā)音,語音樣本為10個英文單詞,每個單詞發(fā)音55次,采樣率為16kHz;實驗中用到的白噪聲、粉紅噪聲、車載噪聲和工廠噪聲均采用Signal Processing Information Base錄制的噪聲庫。實驗?zāi)P瓦x擇:采用3階混合Gauss概率密度函數(shù)的CHMM模型,狀態(tài)數(shù)為4。實驗中加Hamming窗,幀長取320個采樣點,幀移為160個采樣點,信噪比為分別為15dB、10dB、5dB、0dB、-5dB。
受不同噪聲影響下的語音如圖2所示,在各信噪比下平均識別率隨著階數(shù)變化的情況。其中橫坐標(biāo)為特征階數(shù),縱坐標(biāo)為各信噪比下的平均識別率。由圖2可知:在階數(shù)較低時,識別率隨著階數(shù)的增加而增加,到達(dá)階數(shù)18附近趨于最大,但繼續(xù)增加階數(shù),識別率變化的趨勢沒有繼續(xù)遞增,反而出現(xiàn)下降的情況,所以一般來說,階數(shù)不宜取得過高,也不宜過低。
圖2 MFCC+ΔMFCC特征在不同噪聲不同階數(shù)下的平均識別率
實驗:在MFCC+ΔMFCC(18+18)參量中去掉某一分量找到對誤識率影響較大的分量。為方便理解,用MelΔ(k)表示特征MFCC+ΔMFCC組合,即
式中,K代表特征階數(shù),此處取36。DMelΔ(k)表示缺失某一特征分量時的特征參數(shù),可表示為
在不同噪聲不同信噪比下誤識率上升平均值與缺失MFCC和△MFCC特征分量的關(guān)系如圖3所示,橫坐標(biāo)為信噪比,縱坐標(biāo)為誤識率的變化值。通過分析圖3可知:在白噪聲下可以考慮缺失MFCC低階分量,缺失后對高信噪比時的識別率影響不大,而低信噪比時識別率反而增加。對于△MFCC參數(shù)可以缺失第一個分量;對于受到粉紅噪聲影響的語音,MFCC+△MFCC特征不應(yīng)缺失任一分量,也就是每一個分量都包含有用信息;對于受到車載噪聲影響的語音,MFCC+△MFCC特征可以缺失部分高階MFCC分量和部分△MFCC分量,相比較其他噪聲而言,受到車載噪聲干擾的語音可以選用更少的特征參數(shù)分量;對于受到工廠噪聲影響的語音,由于噪聲環(huán)境相對復(fù)雜,MFCC+△MFCC特征不應(yīng)缺失任一分量,也就是每一個分量都包含有用信息。
圖3 不同噪聲下不同信噪比MFCC特征和ΔMFCC特征與誤識率的關(guān)系
本文圍繞白噪聲、粉紅噪聲、車載噪聲和工廠噪聲這4種典型噪聲不同信噪比下的語音進(jìn)行仿真討論,首先確定了MFCC特征的最優(yōu)階數(shù)18,然后研究了在不同噪聲影響下美爾倒譜頻率靜態(tài)特征(MFCC)及其動態(tài)特征(ΔMFCC)各分量對識別率的影響,從上述分析可知,系統(tǒng)所處的壞境不一樣,所選取的MFCC+ΔMFCC特征分量應(yīng)該不同,而不是籠統(tǒng)的像很多文獻(xiàn)里不考慮噪聲特點問題,盲目的舍棄MFCC低階分量。為在保證系統(tǒng)有較高識別率的情況下,減少系統(tǒng)的計算量,提高實時性和魯棒性提供依據(jù)。
[1]Rabiner L,Juang B H.Fundamentals of speech recognition[M].北京:清華大學(xué)出版社,1999:125-134.
[2]Shannon B J,Paliwal K K.MFCC computation from magnitude spectrum of higher lag autocorrlation coefficients for robust speech recognition[C].New York:Spoken Language Processing,2004:986-987.
[3]何強,何英.Matlab擴(kuò)展編程[M].北京:清華大學(xué)出版社,2002:105-109.
[4]溫源,李明,侯震,等.一種新的語音識別特征——Mel倒譜差分平方和特征[C].深圳:第六屆全國人機語音通訊學(xué)術(shù)會議,2001:5-7.
[5]王讓定,柴佩琪.語音倒譜特征的研究[J].計算機工程,2003,29(13):31-33.