謝小娟 曾以成 熊冰峰
摘要:為了提高說話人識別的準(zhǔn)確率,可以同時采用多個特征參數(shù),針對綜合特征參數(shù)中各維分量對識別結(jié)果的影響可能不一樣,同等對待并不一定是最優(yōu)的方案這個問題,提出基于Fisher準(zhǔn)則的梅爾頻率倒譜系數(shù)(MFCC)、線性預(yù)測梅爾倒譜系數(shù)(LPMFCC)、Teager能量算子倒譜參數(shù)(TEOCC)相混合的特征參數(shù)提取方法。首先,提取語音信號的MFCC、LPMFCC和TEOCC三種參數(shù);然后,計算MFCC和LPMFCC參數(shù)中各維分量的Fisher比,分別選出六個Fisher比高的分量與TEOCC參數(shù)組合成混合特征參數(shù);最后,采用TIMIT語音庫和NOISEX92噪聲庫進行說話人識別實驗。仿真實驗表明,所提方法與MFCC、LPMFCC、MFCC+LPMFCC、基于Fisher比的梅爾倒譜系數(shù)混合特征提取方法以及基于主成分分析(PCA)的特征抽取方法相比,在采用高斯混合模型(GMM)和BP神經(jīng)網(wǎng)絡(luò)的平均識別率在純凈語音環(huán)境下分別提高了21.65個百分點、18.39個百分點、15.61個百分點、15.01個百分點與22.70個百分點;在30dB噪聲環(huán)境下,則分別提升了15.15個百分點、10.81個百分點、8.69個百分點、7.64個百分點與17.76個百分點。實驗結(jié)果表明,該混合特征參數(shù)能夠有效提高說話人識別率,且具有更好的魯棒性。
關(guān)鍵詞:說話人識別;Fisher準(zhǔn)則;梅爾頻率倒譜系數(shù);線性預(yù)測系數(shù);Teager能量算子
中圖分類號:TN912 文獻標(biāo)志碼:A
Abstract: In order to improve the accuracy of speaker recognition, multiple feature parameters should be adopted simultaneously. For the problem that each dimension comprehensive feature parameter has the different influence on the identification result, and treating them equally may not be the optimal solution, a feature parameter extraction method based on Fisher criterion combined with Mel Frequency Cepstrum Coefficient (MFCC), Linear Prediction Mel Frequency Cepstrum Coefficient (LPMFCC) and Teager Energy Operators Cepstrum Coefficient (TEOCC) was proposed. Firstly, parameters of MFCC, LPMFCC and TEOCC from speech signals were extracted, and then the Fisher ratio of each dimension of MFCC and LPMFCC parameters was calculated, six components were selected respectively by using Fisher standard to combine with TEOCC parameter into a mixture feature which was used to realize speaker recognition on the TIMIT acousticphonetic continuous speech corpus and NOISEX92 noise library. The simulation results show that the average recognition rate of the proposed method by using Gauss Mixed Model (GMM) and Back Propagation (BP) neural network compared with MFCC, LPMFCC, MFCC+LPMFCC, parameter extraction method for MFCC based on Fisher criterion and the feature extraction method based on Principal Component Analysis (PCA) is increased by 21.65 percentage points, 18.39 percentage points, 15.61 percentage points, 15.01 percentage points, 22.70 percentage points in the pure voice database, and by 15.15 percentage points, 10.81 percentage points, 8.69 percentage points, 7.64 percentage points, 17.76 percentage points in 30dB noise environments. The results show that the mixture feature can improve the recognition rate effectively and has better robustness.
Key words:speaker recognition; Fisher criterion; Mel Frequency Cepstrum Coefficent (MFCC); Linear Prediction Coefficient (LPC); Teager Energy Operator (TEO)
0 引言
隨著語音信號處理技術(shù)的進步,語音信息服務(wù)正走向智能化,說話人識別(Speaker Recognition, SR)[1]已被廣泛地應(yīng)用于信息安全領(lǐng)域、通信領(lǐng)域、司法領(lǐng)域和軍事等領(lǐng)域[2]。而如何從說話人的語音信號中提取出能表征說話人個性、易分類且不隨時間空間變化的有效特征參數(shù)是說話人識別的關(guān)鍵。
目前,常用的特征參數(shù)主要有線性預(yù)測倒譜系數(shù)(Linear Prediction Cepstral Coefficent, LPCC)和梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficent, MFCC)[3]。近幾年來,針對這兩種特征參數(shù),人們提出了許多種改進的方法。
文獻[4]利用語音信號的相關(guān)特性和人耳聽覺感知特性,將LPCC和MFCC組合作為特征參數(shù)來提高說話人識別系統(tǒng)性能;文獻[5]組合了LPCC、MFCC及其一階、二階差分參數(shù)來進行說話人識別,但識別率只有小幅度提高,并且識別速度慢,需要大量的時間,實時性不夠好;文獻[6]研究了在LPCC和MFCC中加入基于Bark子波濾波器組的特征參數(shù)來提高語音識別率的方法;文獻[7]利用主成分分析(Principal Component Analysis,PCA)方法組合LPCC、MFCC和一階微分參數(shù)來改善說話人識別性能;文獻[8]提出了一種在MFCC基礎(chǔ)上增加歸一化短時能量參數(shù)和一階差分作為特征參數(shù)的改進算法;文獻[9]采用非線性冪函數(shù)對人耳的聽覺特性進行模擬,得到新的MFCC及其差分和加權(quán)倒譜系數(shù)的組合特征參數(shù)來提高說話人識別準(zhǔn)確率。由此可見將兩種或兩種以上的不同特征參數(shù)直接組合,雖然有利于提高說話人識別系統(tǒng)的性能,但實際上,組合參數(shù)不僅會增加特征參數(shù)的維數(shù),而且有冗余信息。
為了解決直接組合參數(shù)不理想的問題,可對特征參數(shù)中各維分量對識別貢獻進行評價。目前常用的評價方法有兩種,利用Fisher準(zhǔn)則得到特征向量的最佳投影方向(分離度最大)[10]和通過增減特征分量的方法來判斷特征分量對識別的貢獻程度[11]。甄斌等[12]采用增減特征分量的方法研究了MFCC各維倒譜分量對說話人識別和語音識別的貢獻,但是該方法計算量較大,同時受環(huán)境影響較大;鮮曉東等[13]通過Fisher比有效地選擇MFCC、逆梅爾倒譜系數(shù)(Inverted Mel Frequency Cepstrum Coefficient, IMFCC)和中頻梅爾倒譜系數(shù)(Midfrequency Mel Frequency Cepstrum Coefficient, MidMFCC)三種參數(shù),組合成一種混合特征參數(shù)(以下記為XF特征參數(shù)),縮短了計算時間,提高了系統(tǒng)識別率, 因此利用Fisher準(zhǔn)則來分析特征向量,確定特征分量的可分離性是一種有效的方法。
本文將結(jié)合聲道特征、人耳的線性感知特性和非線性能量特性,通過計算MFCC和LPMFCC,然后利用Fisher準(zhǔn)則,選擇其中可分離程度較大的特征分量,與Teager能量算子倒譜參數(shù)(Teager Energy Operators Cepstrum Coefficient, TEOCC)組成一種混合特征參數(shù),進行說話人識別。
1 語音特征參數(shù)提取
1.1 MFCC參數(shù)提取
MFCC考慮了人耳的聽覺特性,將頻譜轉(zhuǎn)化為基于Mel頻標(biāo)的非線性頻譜,然后轉(zhuǎn)換到倒譜域上;由于充分考慮了人的聽覺特性,而且沒有任何提前假設(shè),MFCC參數(shù)具有良好的識別性能和抗噪能力[3]。
MFCC參數(shù)提取過程如圖1所示,其中預(yù)處理包括預(yù)加重、分幀、加窗和端點檢測,DFT(Discrete Fourier Transform)表示快速傅里葉變換,DCT(Discrete Cosine Transform)表示離散余弦變換。
1.2 LPMFCC參數(shù)提取
線性預(yù)測系數(shù)(Linear Prediction Coefficient, LPC)是表征聲道模型的線性時變系統(tǒng)的參數(shù),它反映了說話人的聲道特性,在說話人識別中具有廣泛的應(yīng)用。但LPC在所有頻率上都是線性逼近語音的,這與人耳的聽覺特性不一致,并且它對噪聲的影響特別敏感,包含了語音高頻部分的大部分噪聲細節(jié),從而會影響系統(tǒng)的性能。由于語音信息主要集中在低頻部分,Mel濾波器組在低頻區(qū)域的分布比較集中,所以借鑒MFCC,將實際頻率的LPC系數(shù)轉(zhuǎn)化為Mel頻率的LPC系數(shù),得到線性預(yù)測梅爾參數(shù)(Linear Prediction Mel Frequency Cepstrum Coefficient, LPMFCC),這樣使聲道特征和人耳聽覺特征結(jié)合了起來,應(yīng)用于說話人識別系統(tǒng)會有更好的識別效果。
LPMFCC參數(shù)提取算法如下:
1)對語音信號進行預(yù)處理,包括預(yù)加重、分幀、加窗和端點檢測;
2)計算每幀語音信號的LPC系數(shù);
3)每幀信號的LPC系數(shù)經(jīng)過DFT得到離散頻譜,然后計算功率譜;
4)將上述功率譜通過Mel濾波器組進行濾波處理,并計算對數(shù)功率譜;
5)將對數(shù)功率譜經(jīng)過離散余弦變換得到LPMFCC。
1.3 TEOCC參數(shù)提取
Teager能量算子(Teager Energy Operators, TEO)是由Kaiser[14]提出的一種非線性差分算子,不僅具有非線性能量跟蹤信號特性,能夠合理地呈現(xiàn)信號能量的變換,而且能夠消除信號的零均值噪聲影響,增強語音信號,同時進行信號特征提取。
由此可以看出,TEO能消除零均值噪聲的影響。而通常所用的能量估計方法沒有這種消除噪聲的能力,將非線性的TEO引入到語音信號的特征提取中,不僅能更好地反映信號的能量變化,而且能消除噪聲對語音信號的影響,從而達到更好的檢測效果。
Teager能量算子倒譜參數(shù)(TEOCC)提取算法如下:
1)對語音信號進行預(yù)處理,包括預(yù)加重、分幀、加窗和端點檢測;
2)根據(jù)式(1)計算每幀語音信號的平均TEO;
3)計算對數(shù)TEO,并作離散余弦變換得到1維TEOCC。
1.4 混合特征參數(shù)提取
MFCC、LPMFCC和TEOCC三種特征參數(shù)分別表征了語音信號在人耳感知、聲道和非線性能量方面的特征,以及體現(xiàn)了三種特征參數(shù)對噪聲的敏感程度,可以結(jié)合這三種特征對語音信號進行描述。但是,將它們直接疊加組合會產(chǎn)生一些問題。如果MFCC和LPMFCC兩種參數(shù)各提取12維,TEOCC參數(shù)提取1維,那么將會得到25維參數(shù),增加了特征參數(shù)的維數(shù),不僅增大了計算量,而且增加了系統(tǒng)訓(xùn)練和識別時間。同時由于各維特征參數(shù)對識別的貢獻程度不一樣,有些參數(shù)可能包含大量的冗余信息甚至是干擾信息,如果將它們同等對待,最終會影響識別效果,所以必須對各維參數(shù)進行特征選擇,選出那些可分離性最優(yōu)且能有效地表征語音信號的特征分量,從而達到降維的目的并得到最優(yōu)的識別性能。在模式識別中特征參數(shù)的類別可分離性可以用Fisher比來判別。
混合特征參數(shù)的提取算法如下:
1)對語音信號進行預(yù)處理,包括預(yù)加重、分幀、加窗和端點檢測;
2)分別對預(yù)處理后的語音信號提取12維MFCC參數(shù)、12維LPMFCC參數(shù)和1維TEOCC參數(shù);
3)從MFCC和LPMFCC兩種特征參數(shù)中各選擇Fisher比(即區(qū)分度)最大的6個維數(shù)分量進行組合,記作MFCC+LPMFCC特征參數(shù),然后將其與TEOCC參數(shù)組合成13維混合特征參數(shù)。
2 實驗結(jié)果及分析
為了驗證本文提出的混合特征參數(shù)的有效性和實時性及其在噪聲環(huán)境下的識別性能,采用了TIMIT語音數(shù)據(jù)庫[16]和NOISEX92噪聲數(shù)據(jù)庫[17]進行了仿真實驗。設(shè)置TIMIT語音庫說話人閉集70個人(男40個,女30個),每個說話人錄制10段語句、7段用于模型訓(xùn)練和3段用于測試。實驗中對預(yù)處理后的語音分別提取12維MFCC、12維LPMFCC、12維MFCC+LPMFCC、18維XF特征參數(shù)和13維本文混合特征參數(shù),進行說話人識別實驗;為了進一步論證基于Fisher比的特征抽取方法的有效性,提取了12維PCMLT參數(shù)與之進行對比分析實驗,其中PCMLT參數(shù)是基于PCA的MFCC、LPMFCC和TEOCC的組合特征參數(shù),提取過程是對預(yù)處理后的語音信號提取12維MFCC和12維LPMFCC進行PCA降維處理,分別得到6維特征參數(shù),然后與TEOCC組合成新的特征參數(shù)。所有實驗都是在Windows 7操作平臺上運行,所有的識別結(jié)果均是通過多次測試平均統(tǒng)計得到。
2.1 實驗一
測試在純凈語音環(huán)境下特征參數(shù)的識別性能。實驗采用高斯混合模型(Gaussian Mixture Model, GMM)和反向傳播(Back Propagation, BP)神經(jīng)網(wǎng)絡(luò)為分類器分別進行測試,并記錄了在純凈語音下不同特征參數(shù)的識別結(jié)果。其中GMM的混合階數(shù)均為8階;分別設(shè)置12維、13維和18維特征參數(shù)的BP神經(jīng)網(wǎng)絡(luò)輸入層隱含層輸出層結(jié)構(gòu)的神經(jīng)元數(shù)為127570、137570和187570,并設(shè)置網(wǎng)絡(luò)參數(shù):學(xué)習(xí)率η=0.35,動態(tài)參量a=0.85,訓(xùn)練精度E≤e-5。如表1所示,記錄了兩種模型在純凈語音環(huán)境下幾種特征參數(shù)的識別率。
從表1可以看出,在基于Fisher比提取的MFCC和LPMFCC特征中引入TEOCC特征,識別率有明顯提高。而基于PCA特征抽取方法,雖然能減小特征參數(shù)之間的相關(guān)性、突出差異性,保留特征參數(shù)中一些重要的“成分”,舍去一些冗余的、包含信息量很少的“成分”,但是不能完全地保留最有效和最重要的信息,其識別效果反而變差。在GMM下,本文特征參數(shù)與MFCC、LPMFCC、MFCC+LPMFCC、XF特征參數(shù)和PCMLT參數(shù)相比, 識別率有顯著的提升,分別提高了22.98個百分點、19.24個百分點、17.41個百分點、17.15個百分點和24.71個百分點。同樣在BP神經(jīng)網(wǎng)絡(luò)為分類器測試下,雖然6種特征參數(shù)識別率相比GMM下的識別率均有小幅度下降,但本文特征參數(shù)識別率與MFCC和LPMFCC、MFCC+LPMFCC、XF特征參數(shù)和PCMLT參數(shù)相比仍然有大幅提升,分別提升了20.32個百分點、17.53個百分點、13.81個百分點、12.87個百分點和20.68個百分點。這綜合說明了在純凈語音環(huán)境下本文方法具有更好的識別效果。
2.2 實驗二
測試在噪聲環(huán)境下特征參數(shù)的識別性能。為每個說話人的測試語音加入NOISEX92噪聲數(shù)據(jù)庫中生活較常見的噪聲進行實驗,并記錄了特征參數(shù)的識別性能,仿真結(jié)果如圖3所示。
從仿真結(jié)果可以看出,在不同的噪聲以及不同的信噪比下,本文提出的特征參數(shù)對說話人識別性能改善明顯,與MFCC、LPMFCC、MFCC+LPMFCC、XF特征參數(shù)、PCMLT參數(shù)相比,平均識別率在30dB信噪比下分別提高了15.15個百分點、10.81個百分點、8.69個百分點、7.64個百分點與17.76個百分點,在0dB信噪比下分別提升了7.82個百分點、7.72個百分點、2.88個百分點、2.73個百分點與9.13個百分點。實驗結(jié)果表明本文特征參數(shù)魯棒性較MFCC參數(shù)、LPMFCC參數(shù)、MFCC+LPMFCC參數(shù)、XF特征參數(shù)以及PCMLT參數(shù)要強,主要是由于MFCC參數(shù)考慮了人耳的聽覺特性,LPCC能夠體現(xiàn)說話人的聲道特征,對元音有較好的描述能力,且通過Fisher比選擇出了可分離性最優(yōu)且能有效地表征語音信號的特征分量,而TEOCC參數(shù)不僅反映了語音信號非線性能量特征,還能夠消除噪聲對語音信號的影響,所以本文特征參數(shù)結(jié)合了這幾種特征參數(shù)的優(yōu)點,識別性能和噪聲魯棒性都得到了進一步提高。
2.3 實驗三
正確率的高低是檢驗所用算法性能的一個指標(biāo),但在實際應(yīng)用中還要考慮其實時性問題。實驗采用了Matlab串行和并行計算兩種方法定量描述各個算法的運行時間,其中串行計算是基于單線程串行處理數(shù)據(jù)和任務(wù),而并行計算是利用Matlab并行計算工具箱,在多核和多處理器計算機上執(zhí)行數(shù)據(jù)并行和任務(wù)并行的算法,將串行Matlab應(yīng)用程序轉(zhuǎn)換為并行Matlab應(yīng)用程序,從而提高計算機處理速率。具體的并行計算處理方法如下:
1)初始化Matlab并行計算環(huán)境;
2)利用Parallel Computing Toolbox(并行計算工具箱),使用parfor(并行for循環(huán))和spmd(單程序多數(shù)據(jù))注釋代碼段,幾乎不需要修改全部代碼,對串行Matlab代碼進行并行轉(zhuǎn)換,縮短算法運行時間;
3)終止Matlab并行計算環(huán)境。
表2是在采用串行計算下六種特征參數(shù)進行說話人識別的時間比較。表3是采用并行計算下本文特征參數(shù)在不同GMM混合度的識別時間。從表2可以看出,在串行計算下,無論哪個混合階數(shù),本文方法與MFCC、LPMFCC、MFCC+LPMFCC與XF特征方法相比,所用時間最長。時間的增加是由于本文方法增加了1維TEOCC特征參數(shù),增大了計算的復(fù)雜度,使特征提取時間增多,增大了系統(tǒng)訓(xùn)練和識別時間。從表3可以看出,當(dāng)采用并行計算時,本文方法的實時性得到了進一步提高。與串行計算相比,其識別時間幾乎縮短了一半,具體處理時可采用該方法來獲得更好的實時性。
3 結(jié)語
通過綜合MFCC和LPMFCC以及TEO等特征,提出了基于Fisher線性判別準(zhǔn)則,將這三種特征有效地相結(jié)合的說話人識別方法。Matlab軟件仿真,采用TIMIT語音庫和NOISEX92噪聲庫進行說話人識別實驗,結(jié)果表明,在純凈語音條件下本文提出的混合特征參數(shù)方法平均識別率比MFCC方法、LPMFCC方法、MFCC+LPMFCC方法、XF特征方法與PCMLT方法分別提高了21.65%、18.39%、15.61%、15.01%與22.30%;并且在噪聲條件下本文方法說話人識別性能較MFCC、LPMFCC、MFCC+LPMFCC與XF特征方法以及PCMLT方法均更優(yōu),且具有更好的魯棒性。但是由于本文方法增加了1維TEOCC特征參數(shù),相比MFCC、LPMFCC與MFCC+LPMFCC方法稍微增大了系統(tǒng)訓(xùn)練和識別時間,所以還需要進一步研究改進。
參考文獻:
[1]MEHLA R, AGGARWAL R K. Automatic speech recognition: a survey[J]. International Journal of Advanced Research in Computer Science and Electronics Engineering (IJARCSEE), 2014, 3(1): 45-53.
[2]趙力. 語音信號處理[M]. 北京: 機械工業(yè)出版社, 2003:1-4.(ZHAO L. Speech Signal Processing[M]. Beijing: China Machine Press, 2003: 1-4.)
[3]王炳錫,屈丹,彭煊.實用語音識別基礎(chǔ)[M].北京:國防工業(yè)出版社,2005:147-149. (WANG B X, QU D, PENG X. Practical Fundamentals of Speech Recognition[M]. Beijing: National Defense Industry Press, 2005: 147-149.)
[4]YUJIN Y, PEIHUA Z, QUN Z. Research of speaker recognition based on combination of LPCC and MFCC[C]// Proceedings of the 2010 IEEE International Conference on Intelligent Computing and Intelligent Systems. Piscataway, NJ: IEEE, 2010, 3: 765-767.
[5]余建潮,張瑞林.基于MFCC和LPCC的說話人識別[J].計算機工程與設(shè)計, 2009, 30(5): 1189-1191.(YU J C, ZHANG R L. Speaker recognition method using MFCC and LPCC features [J]. Computer Engineering and Design, 2009, 30(5): 1189-1191.)
[6]張曉俊,陶智,吳迪,等.采用多特征組合優(yōu)化的語音特征參數(shù)研究[J].通信技術(shù),2013, 45(12): 98-100. (ZHANG X J, TAO Z, WU D, et al. Study of speech characteristic parameters by optimized multifeature combination[J]. Communications Technology, 2013, 45(12): 98-100.)
[7]JING X, MA J, ZHAO J, et al. Speaker recognition based on principal component analysis of LPCC and MFCC[C]// Proceedings of the 2014 IEEE International Conference on Signal Processing, Communications and Computing. Piscataway, NJ: IEEE, 2014: 403-408.
[8]宋樂,白靜.說話人識別中改進特征提取算法的研究[J]. 計算機工程與設(shè)計, 2014, 35(5): 1772-1775.(SONG L, BAI J. Study of improving feature extraction algorithm in speaker recognition[J]. Computer Engineering and Design, 2014, 35(5): 1772-1775.)
[9]岳倩倩,周萍,景新幸. 基于非線性冪函數(shù)的聽覺特征提取算法研究[J]. 微電子學(xué)與計算機,2015,32(6):163-166. (YU Q Q, ZHOU P, JING X X. The auditory feature extraction algorithm based on powerlaw nonlinearity function[J]. Microelectronics & Computer, 2015, 32(6): 163-166.)
[10]李夢超.基于說話人識別的特征參數(shù)提取改進算法的研究[D].南京:南京師范大學(xué),2014:27-36. (LI M C. The modified extractionalgorithms of feature parameters based on speaker recognition[D]. Nanjing: Nanjing Normal University, 2014: 27-36.)
[11]KANEDERA N, ARAI T, HERMANSKY H, et al. On the importance of various modulation frequencies for speech recognition[C]// Proceedings of the 5th European Conference on Speech Communication and Technology. Rhodes:ISCA, 1997: 1079-1082.
[12]甄斌,吳璽宏,劉志敏,等.語音識別和說話人識別中各倒譜分量的相對重要性[J].北京大學(xué)學(xué)報(自然科學(xué)版),2001,37(3):371-378.(ZHEN B, WU X H, LIU Z M, et al. On the importance of components of the MFCC in speech and speaker recognition[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2001, 37(3): 371-378.)
[13]鮮曉東, 樊宇星. 基于Fisher比的梅爾倒譜系數(shù)混合特征提取方法[J]. 計算機應(yīng)用, 2014,34(2):558-561. (XIAN X D, FAN Y X. Parameter extraction method for Mel frequency cepstral coefficients based on Fisher criterion[J]. Journal of Computer Applications, 2014, 34(2): 558-561.)
[14]KAISER J F. On a simple algorithm to calculate the “energy” of a signal[C]// Proceedings of the 1988 IEEE International Conference on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 1990: 381-384.
[15]李晉徽,楊俊安,項要杰.基于高斯濾波器及費舍爾準(zhǔn)則的特征提取方法[J].電路與系統(tǒng)學(xué)報, 2013, 18(2): 400-404. (LI J H, YANG J A, XIANG Y J. The feature sets extracting method based on Gaussian filter and Fisher criterion[J]. Journal of Circuits and Systems, 2013, 18(2): 400-404.)
[16]LI Q, REYNOLDS D A. Corpora for the evaluation of speaker recognition systems[C]// Proceedings of the 1999 IEEE International Conference on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 1999, 2: 829-832.
[17]VARGA A, STEENEKEN H J M, TOMLINSON M, et al. The NOISEX92 study on the effect of additive noise on automatic speech recognition[R]. Malvern: DRA Speech Research Unit, 1992.