胡君,景新幸,楊海燕
HU Jun,JING Xinxing, YANG Haiyan
桂林電子科技大學(xué) 信息與通信學(xué)院,廣西,桂林 541004
School of information and Communication, Guilin University of Electrical Technology, Guilin,Guangxi, 541004, China
漢語是世界上使用人數(shù)最多的語言,越來越多的國外人加入學(xué)習(xí)漢語的行列中。在漢語的學(xué)習(xí)過程中,ML2大都缺乏語言環(huán)境且容易受自身母語的影響,對漢語發(fā)音的掌握尤為困難。隨著計算機技術(shù)與自動語音識別(Automatic Speech Recognition ,ASR)技術(shù)的引入與發(fā)展,計算機輔助語言教學(xué)(Computer assisted language learning,CALL)系統(tǒng)很好的解決發(fā)音訓(xùn)練問題[1-3],可以隨時、隨地提供良好的漢語學(xué)習(xí)環(huán)境,實時對學(xué)習(xí)語音進行評價同時給予錯誤信息反饋。
發(fā)音評分作為計算機輔助漢語教學(xué)系統(tǒng)中的核心部分,解決學(xué)習(xí)者學(xué)習(xí)語音質(zhì)量評價的問題,目前針對發(fā)音評分主要從主觀和客觀兩個角度進行分析。主觀的角度主要是基于語音特征比較的評分方法,由學(xué)習(xí)語音與標準語音之間的特征參數(shù)距離來衡量學(xué)習(xí)語音的質(zhì)量,如文獻[2]采用動態(tài)時間規(guī)整(Dynamic time warping,DTW)方法。此類方法的優(yōu)劣取決于標準語音的標準程度,同時缺少一定的客觀性;客觀的角度則是基于聲學(xué)模型的評分方法,如文獻[3]和文獻[4]采用基于隱馬爾可夫模型(Hidden Markov model,HMM)的后驗概率的方法。這類方法是基于置信度概率大小的計算,算法復(fù)雜度高且計算量大,不利于系統(tǒng)擴展。
本文針對ML2學(xué)習(xí)者研究基于計算機輔助漢語教學(xué)系統(tǒng)的發(fā)音評分方法,將發(fā)音評分分為發(fā)音效果與發(fā)音方式兩者的評分,從主觀和客觀兩個角度描述發(fā)音語音,引入雙語料語音庫減小系統(tǒng)受標準語音庫的影響。采用 BDTW方法進行發(fā)音效果和發(fā)音方式相似度判斷。最后依據(jù)各部分評分結(jié)果得出最后的系統(tǒng)得分。
發(fā)音評分就是確定學(xué)習(xí)語音與標準語音之間的相似度大小,可以從發(fā)音效果和發(fā)音方式兩方面進行比較。發(fā)音效果評分是比較學(xué)習(xí)語音與標準語音聽覺上的相似度,而發(fā)音方式評分則側(cè)重于判斷發(fā)音方式的準確程度。發(fā)音效果和發(fā)音方式是發(fā)音質(zhì)量兩個不同的評價角度,在發(fā)音質(zhì)量中的影響程度隨著發(fā)音質(zhì)量不同而不同。
2.1.1 特征參數(shù)提取
語音特征參數(shù)可以表征語音的內(nèi)容特性,語音的比較即為語音特征參數(shù)的比較。語音發(fā)音效果可以采用梅爾倒譜參數(shù)(Mel Frequency Cepstral Coefficients,MFCC)、韻律參數(shù)和能量參數(shù)來表征。MFCC能充分利用人耳的聽覺特性,具有很好的系統(tǒng)魯棒性【5】;漢語作為一門聲調(diào)語言,韻律在發(fā)音質(zhì)量中占有很大的比重,因此系統(tǒng)中韻律參數(shù)對于反應(yīng)學(xué)習(xí)者發(fā)音效果質(zhì)量有很重要的評價作用;基頻軌跡曲線可以很好的反應(yīng)語音聲調(diào)、韻律的變化;能量也可作為反映發(fā)音效果的重要參數(shù),因此本文提取MFCC、基頻軌跡曲線和能量作為發(fā)音效果特征參數(shù)。
2.1.2 BDTW評分算法
發(fā)音效果的評分關(guān)鍵是比較在發(fā)音聽覺上與標準語音的相似度,基于DTW技術(shù)是用來尋找語音參數(shù)之間最近的匹配路徑,通過距離大小可以反映語音相似度大小。BDTW算法是在 DTW基礎(chǔ)上引入雙語種說話人(Bilingual Speaker and Mandarin as a second language,B2)語音庫作為輔助參考標準,將B2語音與標準語音之間的距離作為參考距離來衡量學(xué)習(xí)語音與標準語音之間的距離。在進行學(xué)習(xí)語音評分之前需要進行參考距離的距離訓(xùn)練。
B2語音庫是雙語種說話人的良好到差各個等級發(fā)音,作為輔助參考標準可以消除一部分由于ML2母語影響造成的發(fā)音聽覺上的差異,同時精細學(xué)習(xí)者的發(fā)音效果,提供更好的學(xué)習(xí)指導(dǎo)。非標準的B2語音還可用于評分映射模型訓(xùn)練。圖1示出了雙語音特征比較的評分算法流程。
2.1.3 MFCC特征比評分
系統(tǒng)在模型訓(xùn)練階段,首先收集母語為漢語的標準發(fā)音者(Learner with Mandarin as first language ,ML1)的發(fā)音作為標準語音庫,提取標準語音庫MFCC參數(shù),假設(shè)標準語音庫中共含有L個語料的標準語音,每個ML1語音在B2語音庫中對應(yīng)N個B2標準語音,利用DTW分別求出ML1與之對應(yīng)的最短MFCC參數(shù)距離,構(gòu)成MFCC-ML1參考距離庫,則ML1庫中某個語音的MFCC-ML1參考距離庫可以表示為:{DMl-B1, DMl-B2,…DMl-Bi…DMl-BN}。
發(fā)音評分階段提取學(xué)習(xí)語音的MFCC參數(shù),將學(xué)習(xí)語音與ML1標準語音的MFCC特征參數(shù)距離定義為學(xué)習(xí)距離 Dl-Ml。將學(xué)習(xí)距離與標準距離庫進行匹配,尋找最小的特征距離作為最終評判距離Dfin,經(jīng)過評分機制的映射得到特征比得分。
MFCC特征比評分計算公式為:其中 a和 b為常數(shù),可以通過實驗確定,min(DMli-Bij)為第i個發(fā)音的參考距離庫中最小距離,DMli-Bij為第i個發(fā)音參考距離庫中第j項距離值,i=1,2…L,j=1,2…N。dist表示歐式距離。
圖1 基于DTW的雙語音特征比較的評分算法流程圖
2.1.4 聲調(diào)、能量特征比評分
聲調(diào)、能量特征評分是基于基頻軌跡、能量曲線的相似度比較。在B2中尋找到與學(xué)習(xí)語音MFCC距離最小的語音后,提取該語音的基音周期及基頻軌跡曲線,并與學(xué)習(xí)語音的基音周期及基頻軌跡曲線進行距離比較。這里的距離取歐氏距離,聲調(diào)、能量評分公式為:
其中a[ i]和b[ i]分別為匹配B2語音和學(xué)習(xí)語音的基頻軌跡曲線或者能量包絡(luò)曲線DTW路徑上各點值,C為計算系數(shù),由實驗確定。
2.1.5 發(fā)音效果得分
發(fā)音效果得分由MFCC、聲調(diào)評分和能量參數(shù)評分三部分的線性加權(quán)得到。計算公式為:
其中wi(i=1,2,3)分別為 MFCC、聲調(diào)評分和能量參數(shù)權(quán)重,可以通過線性回歸的方法得到。Scorei(i=1,2,3)分別為 MFCC、聲調(diào)、能量得分。
ML2的發(fā)音傾向于清晰度低而且持續(xù)時間長,整體發(fā)音不飽滿,發(fā)音方式容易受母語影響,特別是對于漢語的第三聲、有無后鼻音、和有無翹舌音的發(fā)音掌握比較困難,而這三者又是漢語的特色所在。因此在進行發(fā)音效果評分之前系統(tǒng)需要能夠判斷ML2學(xué)習(xí)者的第三聲、后鼻音、和翹舌音的三種發(fā)音方式的準確程度。
2.2.1 特征參數(shù)
一般來說,第三聲與非三聲語音相比,能量和過零率相似,而三聲持續(xù)時間卻要大于非三聲;翹舌音的過零率要比非翹舌音的過零率大的多;后鼻音與非后鼻音整體能量相差不大,只是后鼻音能量在發(fā)音轉(zhuǎn)折前部分高而后部分低,而非后鼻音相反在發(fā)音前部分低而后部分能量較高,能量曲線可以很好的反應(yīng)這種特性。因此可以比較學(xué)習(xí)語音與標準語音的語音能量、過零率、發(fā)音持續(xù)時間三種特征參數(shù)來評價學(xué)習(xí)語音發(fā)音方式。
2.2.2 評分實現(xiàn)
將整個語音庫按發(fā)音方式進行分類并進行標注,分為:三聲和非三聲集合 1、有鼻音和無鼻音的集合 2、有卷舌音和無卷舌音集合 3。分別提取集合中各語音的發(fā)音方式特征參數(shù),如集合1中提取發(fā)音持續(xù)時間、集合2中提取能量曲線、集合3中提取過零率。在學(xué)習(xí)語音識別后階段通過簡單的決策樹來確定該學(xué)習(xí)語音比較的參數(shù),如圖2所示。運用BDTW技術(shù)找到與標準語音的距離最相近的M個語音,計算學(xué)習(xí)語音與M個相近的標準語音的參數(shù)平均距離,由評分機制求出學(xué)習(xí)語音的發(fā)音方式得分。
發(fā)音方式評分的計算公式:
其中distc為學(xué)習(xí)語音與標準語音之間的歐式距離,M 由實驗得出,dist為標準語音與學(xué)習(xí)語音之間的距離,distC為標準語音與學(xué)習(xí)語音之間的平均距離,λ為計算系數(shù),由實驗得到。
學(xué)習(xí)語音的最終系統(tǒng)得分包含發(fā)音效果評分與發(fā)音方式評分兩部分,分別為兩部分設(shè)定閾值,動態(tài)的為兩部分分配權(quán)值。在小于閾值情況下,發(fā)音方式評分權(quán)重大,發(fā)音效果評分權(quán)重低,相應(yīng)的大于閾值時發(fā)音效果評分的權(quán)重更高。即在發(fā)音方式小于閾值的情況下,認為發(fā)音評分低主要來源于發(fā)音方式錯誤而增加發(fā)音方式的權(quán)重以減少主觀上的錯誤評分,反之則注重發(fā)音效果的評判。系統(tǒng)得分公式為:
圖2 決策樹判斷語音比較的發(fā)音方式參數(shù)
其中f1,f2為權(quán)重值,且f1>f2,由實驗得到。Scoref,scorex分別為發(fā)音效果和發(fā)音方式閾值。
本實驗實現(xiàn)的是母語為英語的學(xué)習(xí)者學(xué)習(xí)漢語的發(fā)音評分。實驗中包含漢語標準語音庫、雙語種說話人漢語語音庫及測試語音庫三種語音庫。標準語音庫來源于863標準語音庫,雙語種說話人漢語標準語音庫采用20名(其中10男性10女性)母語為英語的說話人語音,說話人每人說50個字詞,由專家評分,評分為良好以上(70%)的說話人語音作為B2標準語音庫,測試語音自實驗室收集的10名(5男5女)母語為英語的學(xué)生每人10個字詞的發(fā)音,每個字詞發(fā)音10遍,將系統(tǒng)得分與專家評分進行對比,得到機器與人工評分的相關(guān)度。實驗仿真均在Mtalab 7.0環(huán)境下進行。
由于選擇庫標準時性別不同對于評分結(jié)果影響很大,因此需要建立性格相關(guān)的發(fā)音評分模型。建立男聲、女聲獨立的語音庫,提取學(xué)習(xí)語音參數(shù)過程之前判斷學(xué)習(xí)者性別,調(diào)用相應(yīng)的標準語音庫。表1為某一個測試者10次發(fā)音“我們”學(xué)習(xí)語音的系統(tǒng)評分和人工評分結(jié)果。Scoref,scorex閾值分別取45和60,M取10。
表1可以看出,學(xué)習(xí)者在發(fā)音方式得分低的情況下,系統(tǒng)得分偏低,在發(fā)音方式得分增加的同時,發(fā)音效果與系統(tǒng)得分提高,在發(fā)音方式穩(wěn)定的情況下,系統(tǒng)得分取決于發(fā)音效果得分,這與人工評分保持一致,也說明了系統(tǒng)的有效性。
表1 學(xué)習(xí)者10次發(fā)音評分及人工評分
將本文基于發(fā)音效果和發(fā)音方式的BDTW特征比評分命名 Effect-Mode-BDTW方法,Effect-Mode-BDTW方法和其他評分算法與專家評分之間的相關(guān)性比較結(jié)果如表2所示。
Effect-Mode-BDTW方法較段時長、對數(shù)釋然、GOP算法在相關(guān)度上有所提高,且實施方案簡便、評分更為全面。而相對于類似方法的 MFCC-DTW 方法,更為突出漢語發(fā)音的特點,對ML2學(xué)習(xí)者發(fā)音特性都有較好的學(xué)習(xí)評價。對于發(fā)音方式的評判目前只是包含三種易錯的發(fā)音方式,在加入更多發(fā)音方式評判后系統(tǒng)性能更優(yōu)。
表2 算法之間的相關(guān)度比較
本文引入雙語種說話人語音,將發(fā)音評分分為發(fā)音效果和發(fā)音方式兩部分,由特征參數(shù)的相似度評價語音的發(fā)音質(zhì)量。該方法簡單有效,適用于ML2的漢語評分。不同母語的學(xué)習(xí)者發(fā)音方式不同,且發(fā)音方式本身具有多樣性,系統(tǒng)對表征發(fā)音方式的特征參數(shù)及其評分尚不完善,還需要提取更為有效的發(fā)音效果特征參數(shù)、建立更多更為精細的發(fā)音方式集合以提高發(fā)音評分準確性。
[1]宋芳芳,宋曉麗,馬青玉.基于語音識別技術(shù)的英語口語自學(xué)系統(tǒng)評分機制的研究[J].Computer Kowledge and Technology 2009, 5(7):1726-1728.
[2]劉振安, 羅永釗.基于特征比較的語音評分方法研究[J].計算機應(yīng)用.2005,25(12):2928-2930.
[3]Chaohuang, Fengzhang, Frank K.soong .Improving automatic evaluation of Mandarin pronuncition with speaker adaptive training and MLLR speaker adaption[c].Chinese Spoken Language Processing,2008:1-4.
[4]Fengpei Ge,LiLu,YonghongYan.Experimental Invest-igation of Mandari Pronunciation Quality ssessment System[C].2011 International Symposium on Computer Science and Society, 2011:235-239.
[5]Tobias Cincarek, Rainer Gruhn,Christian Hacker.Automatic pronunciation scoring of words and sentences independent from the non-native’s first language[J].Computer Speech and Language, Volum-e23 Issue1, January 2009:65-88.
[6]Helme Strik, Khiet Truong, Febe de Wet,Cstia Cucchiarini.Comparing different approaches for automatic pronunciation error detection[J].Speech Communication, Volume 51 ,issue10,October 2009:845-852.[7]NEUMEYER L, FRANCO H, DIGALAK IS V, et al.Automatic Scoring of Pronunciation Quality[J].Spee-ch Communication,2000, 30(2):83- 93.
[8]WITT SM, YOUNG S J.Phone Level Pronunciat ion S coring and Assessment for Interact ive Language Learn ing[ J].Speech Communication, 2000, 30(2):95 - 108.