王 娜
福建師范大學(xué)福清分校 福建福清 350300
基于MFCC的語音評分方法研究
王 娜
福建師范大學(xué)福清分校 福建福清 350300
針對目前語言學(xué)習(xí)中普遍存在的發(fā)音問題,提出了一種基于MFCC的語音評分方法,通過對測試語言和標(biāo)準(zhǔn)語音進(jìn)行預(yù)處理、特征提取及模式比對等過程,找出它們的相似度并由評分機(jī)制給出得分。實(shí)驗(yàn)證明該方法能夠確保評測的準(zhǔn)確性,具有較強(qiáng)的實(shí)用性。
語音評分;特征提取;動態(tài)時間規(guī)整法;梅爾頻率倒譜系數(shù)
我國地域遼闊,不同地區(qū)的人說話時往往帶有一定的地域特色,即“口音”。有的時候方言可能會產(chǎn)生人們溝通時的語言隔閡。隨著改革開放和社會主義市場經(jīng)濟(jì)的發(fā)展,社會對普及普通話的需求日益迫切。推廣普通話,營造良好的語言環(huán)境,有利于促進(jìn)人與人之間的交流,這不但是素質(zhì)教育的重要內(nèi)容,而且是十分必要的。在語音教學(xué)中,上課的時間非常有限,教師難以對學(xué)生的發(fā)音進(jìn)行一對一的指導(dǎo);在語音測試中,教師自身評測水平有一定的主觀性,信度難以得到保證。文獻(xiàn)[1]提出了一種發(fā)音評分的方法,該方法除了可以對詞和句子進(jìn)行打分,還可以對音素發(fā)音錯誤進(jìn)行自動診斷提出;文獻(xiàn)[2]提出了一種基于特征比較的語音評分方法,通過分析輸入語音,提取語音特征并與參考標(biāo)準(zhǔn)進(jìn)行匹配比較,由評分機(jī)制根據(jù)相似程度大小給出評價得分;文獻(xiàn)[3]采用圖樣比對的方法對測試語音和標(biāo)準(zhǔn)語音進(jìn)行比較,從而找出二者之間的差異程度,并配合評分機(jī)制給予評分;文獻(xiàn)[4]利用HMM和GMM分別對中文的發(fā)音和聲調(diào)進(jìn)行評分,并以Downhill Simplex Search進(jìn)行了評分系統(tǒng)參數(shù)的最佳化,以求達(dá)到和中文專家一致的評分標(biāo)準(zhǔn);文獻(xiàn)[5]提出用連續(xù)隱馬爾可夫模型(Hidden Markov Model,HMM)來表示音質(zhì)的客觀評價方法,該模型中采用對稱距離測度來刻畫輸入和輸出HMM模型之間的相似度,最終得到語音質(zhì)量的估計值。
針對目前語言發(fā)音教學(xué)的不足,本研究充分考慮了漢語自身的特點(diǎn),構(gòu)建了一種基于MFCC的語音評分方法,通過分析輸入語音,提取其特征并和參考標(biāo)準(zhǔn)讀音進(jìn)行比較,從而對被測試者的發(fā)音作出客觀的評價。
系統(tǒng)主要由4個相對獨(dú)立的模塊構(gòu)成,其工作流程如圖1所示,它們分別是:初始化模塊、特征提取模塊、模式比對模塊和自動評分模塊。
圖1 語音評分系統(tǒng)的流程圖
1.初始化模塊
初始化模塊包括用戶語音和標(biāo)準(zhǔn)語音的采集及預(yù)處理。為了保證系統(tǒng)具有良好的識別效果,輸入的語音信號都要進(jìn)行預(yù)處理。預(yù)處理包括采樣、量化、預(yù)加重、端點(diǎn)檢測、分幀和加漢明窗等步驟。
2.特征提取模塊
語音評分的一個重要模塊就是特征提取,目前語音識別系統(tǒng)常用的特征有線性預(yù)測系數(shù)(LPC)、LPC倒譜系數(shù)(LPCC)、線譜對參數(shù)(LSP)、短時頻譜、共振峰頻率、Mel頻率倒譜系數(shù)(MFCC)等。文獻(xiàn)[6]對比了語音識別中常用的特征參數(shù)(包括帶通濾波器組的頻譜參數(shù)、線性預(yù)測系數(shù)、線性預(yù)測倒譜系數(shù)和Mel頻率倒譜系數(shù)MFCC)及其失真測度,得出MFCC的魯棒性最好的結(jié)論。
3.模式比對模塊
模式比對模塊采用動態(tài)時間歸整(Dynamic Time Warping,DTW)算法,通過對輸入語音和參考標(biāo)準(zhǔn)語音進(jìn)行比較,找出它們的差異程度,即用估測二者的特征參數(shù)的差距來反映它們之間的相似度。
4.自動評分模塊
自動評分模塊建立了一套利用標(biāo)準(zhǔn)語音資料評分的評分機(jī)制,首先設(shè)定測試語音與標(biāo)準(zhǔn)語音兩相同特征比對之后的結(jié)果,其距離與分?jǐn)?shù)間的關(guān)系,設(shè)定公式如式(1) 。
由這個公式我們就可以將距離轉(zhuǎn)換成分?jǐn)?shù),只要設(shè)定好兩組的dist及對應(yīng)的scorefea,即可從中求出a和b,接著由距離值可以計算出對應(yīng)的分?jǐn)?shù)。
當(dāng)有測試語音進(jìn)來時,我們分別和標(biāo)準(zhǔn)語音比較音量強(qiáng)度曲線、基頻軌跡及梅爾倒頻譜參數(shù)3個特征,分別算出距離[distl,dist2,dist3]后,由距離轉(zhuǎn)分?jǐn)?shù)的公式(2)得出評分結(jié)果:
w1、w2、w3為3個特征的各自權(quán)重。
該語音評分系統(tǒng)的核心部分是特征提取和動態(tài)時間規(guī)整算法。本評分算法能夠大大減少系統(tǒng)處理的運(yùn)輸量,從而提高了系統(tǒng)的執(zhí)行速度。
1.預(yù)加重
語音經(jīng)過采樣有由模擬信號轉(zhuǎn)化為數(shù)字信號,然后通過一個一階高通濾波器來做預(yù)加重處理。由于語音信號的平均功率譜受聲門激勵和口鼻輻射的影響,高頻端大約在800Hz以上按6dB/倍頻程跌落,為此要在預(yù)處理中進(jìn)行預(yù)加重。預(yù)加重的目的是濾除低頻干擾以突顯高頻部分,其傳遞函數(shù)為H(z)=1-kz-1,本文中的k取0.95。
2.特征提取
人耳對不同頻率的語音具有不同的感知能力,實(shí)驗(yàn)發(fā)現(xiàn),在1000Hz以下,感知能力與頻率成線性關(guān)系,而在1000Hz以上,感加能力則與頻率成對數(shù)關(guān)系。為了模擬人耳對不同頻率語音的感知特性,人們提出了Mel頻率的概念,其意義為:1Mel為1000Hz的音調(diào)感知程度的1/1000。梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)即為基于上述梅爾頻率的概念而提出的。它利用一組三角濾波器對語音信號短時幅度譜進(jìn)行頻域?yàn)V波。其中每個濾波器中心頻率和帶寬的設(shè)置模擬了人耳的聽覺感知特性,即在低頻段頻率分辨率高而在高頻段頻率分辨率低。LPC模型是基于發(fā)音模型建立的,LPCC系數(shù)也是一種基于合成的參數(shù)。這種參數(shù)沒有充分利用人耳的聽覺特性。實(shí)際上,人的聽覺系統(tǒng)是一個特殊的非線性系統(tǒng),它響應(yīng)不同頻率信號的靈敏度是不同的,基本上是一個對數(shù)的關(guān)系。MFCC參數(shù)的計算是以“bark”為其頻率基準(zhǔn)的,它和線性頻率的轉(zhuǎn)換關(guān)系是:
MFCC的計算過程如下:
(1)采用連續(xù)分段的方法對語音信號進(jìn)行分幀處理,為了使幀保持連貫性,令每一幀的幀尾與下一幀的幀頭重疊。
(2)將時域信號x(n)后補(bǔ)若干個0以形成長度為N(一般取N=512)的序列,然后經(jīng)過離散傅立葉變換(DFT)后得到線性頻譜X(k),轉(zhuǎn)換公式如式(4) :
(3)求頻譜幅度的平方得到能量譜S(m)。
(4)在頻域上構(gòu)造一組三角形濾波器得到每個頻帶的輸出對出頻譜,再經(jīng)過離散余弦變換(DCT)求得梅爾倒頻譜參數(shù)c(n),如式(5):
3.動態(tài)時間規(guī)整算法
日本學(xué)者Itakura根據(jù)語音識別符合多階段決策的內(nèi)在特性,將動態(tài)規(guī)劃思想引入到識別中,提出了動態(tài)時間規(guī)整技術(shù),極大地改進(jìn)了語音識別的效果,推動了語音識別的發(fā)展。由于同一個人在不同的時段說同樣的孤立詞有可能因?yàn)檎Z速不同造成提取的語音長度有差異,所以不能直接將輸入的語音和標(biāo)準(zhǔn)模板進(jìn)行比對。
假設(shè)語音參數(shù)共有I幀矢量,而參考模板共有J幀矢量,且I≠J,動態(tài)時間規(guī)整就是要尋找一個時間規(guī)整函數(shù)j=ω(i),它將測試矢量的時間軸i非線形地映射到模板的時間軸j上,并使該函數(shù)ω滿足式(6):
式(6)中d[T(i),R((i))]是第i幀測試矢量T(i)和第j幀模板矢量R(j)之間的距離測度,D則是處于最優(yōu)時間規(guī)整情況下兩矢量的距離。由于DTW不斷地計算兩矢量的距離以尋找最優(yōu)的匹配路徑,所以得到的兩矢量匹配是累積距離最小的規(guī)整函數(shù),這就保證了它們之間存在最大的聲學(xué)相似特性。實(shí)際中,DTW是采用動態(tài)規(guī)劃技術(shù)(DP)來加以具體實(shí)現(xiàn)的。動態(tài)規(guī)劃是一種最優(yōu)化算法。
為了獲得穩(wěn)定的參數(shù),系統(tǒng)的前期處理即在Matlab 7.0上進(jìn)行大量的實(shí)驗(yàn)和仿真。整個系統(tǒng)是以Microsoft Visual C++6.0為開發(fā)工具,采用C++為設(shè)計語言,在CPU為Intel Pentium 4 3.0G、操作系統(tǒng)為Windows XP的PC機(jī)上實(shí)現(xiàn)的。
語音評分系統(tǒng)的界面如圖2所示,系統(tǒng)開始運(yùn)行的時候,首先輸入一個用戶ID,在該文本框的右側(cè)有3個按鈕,分別是開始錄音、停止錄音和錄音保存。按下“開始錄音”按鈕,系統(tǒng)會彈出錄音參數(shù)對話框,要求用戶選擇采樣頻率(采樣次數(shù)/秒)、位數(shù)和聲道,確定后即可通過麥克風(fēng)進(jìn)行語音錄入。錄音結(jié)束后,系統(tǒng)能夠提供基本的錄音和播放的功能,并在界面上顯示即時錄制的波形,本例為用戶錄入“我為什么非要教書不可”和該句在普通話水平測試標(biāo)準(zhǔn)朗讀庫中的語音對比?!皹?biāo)準(zhǔn)語音”和“原始語音”的兩個窗口均可通過鼠標(biāo)和鍵盤上的上下左右平移鍵進(jìn)行縮放和移動,也可以截取其中的部分聲音樣本單獨(dú)存盤?!邦A(yù)加重”“特征提取”“原始特征”“確定”這4個按鈕分別對應(yīng)系統(tǒng)的初始化模塊、特征提取模塊、模式比對模塊和自動評分模塊。
圖2 語音評分系統(tǒng)的界面
實(shí)驗(yàn)的語音采集是由10位20~40歲的被測試者(其中男性5名,女性5名)手持麥克風(fēng)在普通機(jī)房進(jìn)行錄音完成的,他們在情緒平靜的情況下發(fā)音比較自然。利用4次不同的時間對這10名用戶完成4次語音采集,每次說同一句話,共50句,然后在這4次語音樣本中選取1個最清晰的作為原始語音。標(biāo)準(zhǔn)語音來源于全國普通話水平測試的標(biāo)準(zhǔn)朗讀語音。采用普通聲卡,Windows自帶的錄音軟件,采樣頻率為16Hz,PCM方式,量化精度為8bits。本系統(tǒng)使用13維的MFCC進(jìn)行特征提取。用戶利用本系統(tǒng)評分與參加全國普通話水平測試的分?jǐn)?shù)對比情況如表1所示。
表1 利用本系統(tǒng)評分與參加全國普通話水平測試的分?jǐn)?shù)對比情況表
本文依照漢語發(fā)音的特點(diǎn),提出了基于MFCC的語音評分方法,采用動態(tài)時間規(guī)整法按照模塊化思想設(shè)計了該評分系統(tǒng)。評測結(jié)果表明,本文的語音評價系統(tǒng)在實(shí)際使用中能夠獲得良好的評價性能,比較符合人的主觀感覺,其評價結(jié)果能夠反映出被測試者的普通話水平。
[1]Tobias Cincarek, Rainer Gruhn, Christian Hacker,et al. Automatic pronunciation scoring of words and sentences independent from the non-native’s first language[J].Computer Speech and Language,2009,23(1):65~88
[2]劉振安,羅永釗.基于特征比較的語音評分方法研究[J].計算機(jī)應(yīng)用.2005,25(12):2928~2930
[3]李俊毅.語音評分[D].碩士,臺灣清華大學(xué),2002
[4]Jiang-ChunChen,Jyh-Shing Roger Jang, Jun-Yi Li ,et al. Automatic Pronunciation Assessment for Mandarin Chinese[C].In IEEE International Conference on Multimedia and Expo (ICME) , 2004,1979~1982
[5]Li, W.,Kubichek, R.F..Out put-based objective speech quality measurement using continuous hidden Markov models [C].In:Proceedings. Seventh International Symposiumon Signal Processing and Its Applications,2003,389~392
[6]易克初,田斌,付強(qiáng).語音信號處理[M].北京:國防工業(yè)出版社,2002
[7]胡航.語音信號處理[M].黑龍江:哈爾濱工業(yè)大學(xué)出版社, 2000,
[8]蔡蓮紅,黃德智,蔡銳.現(xiàn)代語音技術(shù)基礎(chǔ)與應(yīng)用[M].北京:清華大學(xué)出版社,2003
[9]陸偉,戴蓓蒨,李輝,等. MFCC中的基音頻率信息對說話人識別系統(tǒng)性能的影響[J].中國科學(xué)技術(shù)大學(xué)學(xué)報,2009,39(8):859~860
[10]何強(qiáng),何英.MATLAB擴(kuò)展編程[M].北京:清華大學(xué)出版社,2003
[11]Yu Hongzhi,A Research on Recognition of Tibetan Speakers Based on MFCC and Delta Features[C].In:International Forum on Computer Science-Technology and Applications, 2009. 234~238
[12]張雄偉,陳亮,楊吉斌.現(xiàn)代語音處理技術(shù)及應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2003
[13]趙力.語音信號處理[M].北京:機(jī)械工業(yè)出版社,2003
Research of speech evaluation based on MFCC
Wang Na
Fuqing branch of Fujian normal university, Fuqing, 350300, China
In order to solve the common inaccurate pronunciation problems, the paper proposes an algorithm for accomplishing speech evaluation based on MFCC. It takes pre-processing , feature extraction and pattern matching to the test speech and the standard one and tries to find the similarity between them. The result is given by the mechanism. Experimental results show that the algorithm which retains the comparable performance has a strong practicality.
speech evaluation; feature extraction; dynamic time warping; mel-frequency cepstral coefficients (MFCC)
2010-03-18
王娜,碩士,講師。