陳 樹, 于海波
(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫 214122)
對于一個具體的語音識別系統(tǒng),會存在噪聲問題(環(huán)境噪聲或者說話人因素造成的噪聲),這種差異性信息,必然會帶入到建模的過程中。而在測試階段,這種差異性往往會發(fā)生變化,從而導(dǎo)致訓(xùn)練模型和識別數(shù)據(jù)的失配,進而導(dǎo)致系統(tǒng)的誤識率提高[1]。
目前,使用最為廣泛的特征參數(shù)為線性預(yù)測倒譜系數(shù)(linear prediction cepstral coefficients,LPCC)和梅爾頻率倒譜系數(shù)(mel frequency cepstral coefficients,MFCC)[2],但是2種參數(shù)在噪聲環(huán)境下的識別性能較差,如何在噪聲環(huán)境中提取具有較高識別率的特征參數(shù)一直是研究熱點之一。2011年,Li Q首次提出了耳蝸倒譜系數(shù)(cochlear filter cepstral coefficient,CFCC)[3],在噪聲環(huán)境中的識別性能優(yōu)于MFCC參數(shù),但在低信噪比時,識別率仍然出現(xiàn)了大幅下降且CFCC的特征區(qū)分能力不強。此外,國內(nèi)外的許多學(xué)者也提出了諸多對原有特征提取的優(yōu)化方法。文獻[4]將MFCC和線性預(yù)測編碼(linear predictive coding,LPC)結(jié)合后使用,取得了一定的抗噪聲效果,但是實時性較差;文獻[5]將LPC參數(shù)在梅爾頻率下進行非線性變換,再進行微分等操作,提高了二次特征提取的實時性,但識別精度無明顯提高;文獻[6]提出了一種針對MFCC特征參數(shù)的后處理算法,有效降低了噪聲對系統(tǒng)的影響;文獻[7]將語音幀的能量算子加入到CFCC參數(shù)中,文獻[8]將語音信號的相位信息與CFCC結(jié)合,并應(yīng)用于說話人識別系統(tǒng),獲得了較好的魯棒性,但對語音識別系統(tǒng)的效果有限。
因此,為了進一步提高在噪聲環(huán)境中的語音識別的識別率,本文分析了CFCC特征參數(shù),引入了一種后處理算法針對CFCC區(qū)分能力低的缺點,對特征提取后的特征參數(shù)進行線性變換,即通過一種改進的線性判別分析(linear discriminant analysis,LDA)線性變換方法對語音特征參數(shù)進行線性變換后,得到了更具有語音區(qū)分能力的特征,引入均值方差歸一化,對特征參數(shù)歸一化處理,進一步降低噪聲對系統(tǒng)的干擾。實驗結(jié)果表明:經(jīng)過本文算法提取的特征參數(shù)通過隱馬爾可夫模型(hidden Markov model,HMM)[9]進行訓(xùn)練和識別,提高了在噪聲環(huán)境中語音識別率,取得了較好的效果。
CFCC是基于聽覺變換的特征參數(shù),在噪聲環(huán)境下的識別性能優(yōu)于傳統(tǒng)的MFCC特征參數(shù),具有較好的抗噪聲和識別效果。CFCC特征參數(shù)的提取方法如圖1所示。
圖1 CFCC特征提取框圖
1)耳蝸濾波:Li Q[3]定義了耳蝸濾波器組模擬耳蝸基底膜的作用,濾波器對語音信號的處理稱聽覺變換其過程為[3]
(1)
式中f(t)為時域語音信號;ψa,b(t)為耳蝸濾波函數(shù)
(2)
式中α,β均為大于0的實數(shù),經(jīng)驗值為3和0.2,α和β決定了ψa,b(t)的頻域形狀和寬度;u(t)為單位階躍函數(shù);θ為初始相位;b為隨時間可變的實數(shù);a為尺度變量,由濾波器組的中心頻率fC和最低中心頻率fL決定
(3)
耳蝸濾波器的頻率響應(yīng)如圖2所示。
圖2 耳蝸濾波器的頻率響應(yīng)
2)毛細胞窗口:用于模擬耳蝸毛細胞將基底膜振動轉(zhuǎn)換為聽覺神經(jīng)信號的過程,可由式(4)~式(5)來表示
h(a,b)=[T(a,b)]2,?a,b
(4)
(5)
3)非線性響度變換:將毛細胞窗口的輸出由能量值轉(zhuǎn)化為感知響度
y(i,j)=[S(i,j)]1/3
(6)
4)離散余弦變換:進行離散余弦變換(discrete cosine transform,DCT)得到最后的CFCC特征參數(shù)。
本文借鑒對MFCC參數(shù)改進的方法,引入了一種改進的LDA[10]的方法對CFCC參數(shù)進行了改進,在降維的同時獲得了區(qū)分性更高的新特征。
HMM用于語音識別時,對角形式的協(xié)方差矩陣是最佳的選擇,可以在有限的訓(xùn)練語料下,通過較少的模型參數(shù)得到較高的識別性能。經(jīng)過LDA變換的語音特征向量雖然已具有了很好的區(qū)分能力,但并不是對角形式,因此,本文使用最大似然線性變換(maximum likelihood linear transformation,MLLT)對LDA變換得到的協(xié)方差矩陣對角化。
LDA的轉(zhuǎn)換公式為
y=WTx
(7)
(8)
Sb計算如下
(9)
假設(shè)經(jīng)過LDA求取的矩陣為W,為經(jīng)MLLT變換后的協(xié)方差矩陣,有
(10)
式中N為訓(xùn)練語料的個數(shù);Nj為第j個樣本的語料個數(shù);θj為第j個樣本的協(xié)方差矩陣。
本文對經(jīng)過LDA和MLLT變換后的語音特征參數(shù)進行歸一化處理,引入了倒譜均值方差歸一化[11](cepstral mean and variance normalization,CMVN)的方法,進而提升語音識別系統(tǒng)的識別率。語音特征提取的步驟如下:
1)采用CFCC方法提取語音特征參數(shù)。
3)獲得對角矩陣,在步驟(2)轉(zhuǎn)化后的特征上進行MLLT更新,產(chǎn)生對角矩陣。得到滿足HMM的矩陣。
4)利用CMVN對特征向量進行歸一化處理,得到最終的語音特征參數(shù)。CMVM是將語音特征向量先經(jīng)過均值歸一化后再進行方差歸一化處理,分別如式(11)和式(12)所示
(11)
(12)
式中μ為特征向量的均值;σ為標(biāo)準差。
經(jīng)上述4個步驟得到的語音特征參數(shù)具有原CFCC特征參數(shù)幀間的信息,區(qū)分能力更強,且特征維數(shù)和計算復(fù)雜度未增加,利用均值方差歸一化,降低了加性噪聲和卷積噪聲對語音信號的影響。
實驗數(shù)據(jù)是從清華大學(xué)公開語音數(shù)據(jù)庫中截取的語音數(shù)據(jù),語音信號采樣頻率為19 980 Hz,16 bit量化。截取后的語音庫共有114個說話人(男性57人,女性57人),每人10條語音數(shù)據(jù)。實驗,采用104人的語音數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),10人為測試數(shù)據(jù)(其中5人為女性,5人為男性)。噪聲數(shù)據(jù)庫采用了NOISEX—92噪聲數(shù)據(jù)庫中的3種典型噪聲:white噪聲、pink噪聲和f16噪聲,將噪聲按不同信噪比分別添加到純凈語音中形成帶噪語音。整個語音識別系統(tǒng)采用卡內(nèi)基梅隆大學(xué)開發(fā)的Sphinx開源工具搭建,聲學(xué)模型為連續(xù)HMM,訓(xùn)練工具為Sphinxtrain,語言模型的訓(xùn)練工具為Cmucmltk。
仿真系統(tǒng)中對輸入系統(tǒng)的語音信號進行了預(yù)加重,系數(shù)為0.97,按幀長400個采樣點進行分幀,幀移為160,使用漢明窗進行加窗處理。語音的特征參數(shù)選取39維CFCC參數(shù),噪聲信噪比分別選擇-5,0,5,10,15 dB。
實驗一將MFCC和CFCC 2種特征參數(shù)分別應(yīng)用于語音識別系統(tǒng)中,比較其在不同信噪比的噪聲中的系統(tǒng)識別正確率,然后將本文改進的特征提取方法應(yīng)用于語音識別系統(tǒng)中,并對各個方法在不同信噪比噪聲中的性能進行比較,實驗結(jié)果如圖3所示。
圖3 不同測試條件下識別正確率對比
圖3(a)的數(shù)據(jù)表明:在信噪比較高(10 dB和15 dB)時,3種特征參數(shù)均達到了95 %以上的識別率。但隨著信噪比的降低,使用MFCC參數(shù)的識別正確率急劇降低,在信噪比為-5 dB時,識別正確率為19 %。而CFCC特征參數(shù)的識別率雖然也隨之降低,但相較于MFCC參數(shù)在各個信噪比的條件下,識別率均高于MFCC。利用本文提出的特征提取方法在各個信噪比條件下的識別正確率均優(yōu)于MFCC和CFCC參數(shù),在-5 dB條件下,達到了44 %。
同樣,由圖3(b)和圖3(c)可知,在pink噪聲和f16噪聲的環(huán)境下,MFCC參數(shù)在信噪比低于5 dB的條件下,識別正確率也出現(xiàn)急劇降低的情況,而CFCC參數(shù)和本文改進的CFCC方法有較好的噪聲魯棒性,尤其在信噪比低于0 dB時,本文方法的識別正確率遠優(yōu)于MFCC和CFCC。在f16噪聲中,-5 dB的條件下,識別正確率仍達到了50 %。因此,本文方法在語音識別系統(tǒng)中對提高各種噪聲環(huán)境中的識別正確率均起到了一定的作用,具有較好的實用價值。
實驗二研究了對特征參數(shù)進行LDA轉(zhuǎn)換后的不同維度對系統(tǒng)識別性能的影響,修改LDA維數(shù),比較訓(xùn)練后模型的識別正確率數(shù)值變化,找出關(guān)聯(lián)。實驗的聲學(xué)模型采用傳統(tǒng)的連續(xù)密度HMM,每個模型的狀態(tài)數(shù)3個,均為高斯混合分布。實驗以white噪聲0 dB時的實驗數(shù)據(jù)為例,得到的實驗結(jié)果如表1所示。
表1 0 dB下不同LDA維度系統(tǒng)識別正確率
由表1可知,在實際聲學(xué)模型訓(xùn)練時,要根據(jù)訓(xùn)練數(shù)據(jù)找合適的維數(shù)值。而且對不同訓(xùn)練數(shù)據(jù)對狀態(tài)數(shù)不同的聲學(xué)模型,正確率改善效果也會不同。針對于本文采用的實驗數(shù)據(jù),經(jīng)實驗證明,最佳的LDA維度為29。
為了進一步提高CFCC參數(shù)的抗噪性,提出了一種改進的基于CFCC的特征提取方法。新的特征參數(shù)不僅降低了特征維度,并且提高了特征參數(shù)的區(qū)分能力,通過對語音數(shù)據(jù)庫構(gòu)建隱馬爾科夫模型,實現(xiàn)了一個完整的語音識別系統(tǒng)。實驗結(jié)果表明:系統(tǒng)能夠減小不同噪聲不同信噪比條件下對系統(tǒng)識別正確率造成的較大影響。本文方法能提高語音識別系統(tǒng)的識別正確率,下一步將研究算法的實際應(yīng)用。
參考文獻:
[1] 何勇軍,付茂國,孫廣路.語音特征增強方法綜述[J].哈爾濱理工大學(xué)學(xué)報,2014,19(2):19-25.
[2] Gupta K,Gupta D.An analysis on LPC,RASTA and MFCC techniques in automatic speech recognition system[C]∥2016 6th International Conference on Cloud System and Big Data Enginee-ring,IEEE,2016:493-497.
[3] Li Q,Huang Y.An auditory-based feature extraction algorithm for robust speaker identification under mismatched conditions[J].IEEE Transactions on Audio Speech & Language Processing,2011,19(6):1791-1801.
[4] Islam M Babul,Rahman Md Mahfuzur,Islam M Babul,et al.Performance evaluation of blind equalization for Mel-LPC-based speech recognition under different noisy conditions[J].Inter-national Journal of Computer Applications,2013,65(4):4-8.
[5] 羅 元,吳承軍,張 毅,等.Mel頻率下基于LPC的語音信號深度特征提取算法[J].重慶郵電大學(xué)學(xué)報:自然科學(xué)版,2016,28(2):174-179.
[6] 張 毅,謝延義,羅 元,等.一種語音特征提取中Mel倒譜系數(shù)的后處理算法[J].智能系統(tǒng)學(xué)報,2016,11(2):208-215.
[7] 李晶皎,安 冬,楊 丹,等.噪聲環(huán)境下說話人識別的TEO-CFCC特征參數(shù)提取方法[J].計算機科學(xué),2012,39(12):195-197.
[8] 李作強,高 勇.基于CFCC和相位信息的魯棒性說話人辨識[J].計算機工程與應(yīng)用,2015,51(17):228-232.
[9] Karpagavalli S,Chandra E.Phoneme and word-based model for tamil speech recognition using GMM-HMM[C]∥2015 Inter-national Conference on Advanced Computing and Communication Systems,IEEE,2015:1-5.
[10] Haeb-Umbach R,Ney H.Linear discriminant analysis for improved large vocabulary continuous speech recognition[C]∥1992 IEEE International Conference on Acoustics,Speech,and Signal Processing,ICASSP’92,IEEE,1992:13-16.
[11] 肖云鵬,葉衛(wèi)平.基于特征參數(shù)歸一化的魯棒語音識別方法綜述[J].中文信息學(xué)報,2010,24(5):106-116.