基于計算機輔助漢語教學(xué)系統(tǒng)的發(fā)音評分

2014-04-03 07:33:12胡君景新幸楊海燕

計算機工程與應(yīng)用 2014年12期

關(guān)鍵詞：特征參數(shù)發(fā)音語音

胡君，景新幸，楊海燕

HU Jun,JING Xinxing, YANG Haiyan

桂林電子科技大學(xué) 信息與通信學(xué)院，廣西，桂林 541004

School of information and Communication, Guilin University of Electrical Technology, Guilin,Guangxi, 541004, China

1 引言

漢語是世界上使用人數(shù)最多的語言，越來越多的國外人加入學(xué)習(xí)漢語的行列中。在漢語的學(xué)習(xí)過程中，ML2大都缺乏語言環(huán)境且容易受自身母語的影響，對漢語發(fā)音的掌握尤為困難。隨著計算機技術(shù)與自動語音識別(Automatic Speech Recognition ，ASR）技術(shù)的引入與發(fā)展，計算機輔助語言教學(xué)(Computer assisted language learning，CALL)系統(tǒng)很好的解決發(fā)音訓(xùn)練問題[1-3]，可以隨時、隨地提供良好的漢語學(xué)習(xí)環(huán)境，實時對學(xué)習(xí)語音進行評價同時給予錯誤信息反饋。

發(fā)音評分作為計算機輔助漢語教學(xué)系統(tǒng)中的核心部分，解決學(xué)習(xí)者學(xué)習(xí)語音質(zhì)量評價的問題，目前針對發(fā)音評分主要從主觀和客觀兩個角度進行分析。主觀的角度主要是基于語音特征比較的評分方法，由學(xué)習(xí)語音與標準語音之間的特征參數(shù)距離來衡量學(xué)習(xí)語音的質(zhì)量，如文獻[2]采用動態(tài)時間規(guī)整（Dynamic time warping，DTW）方法。此類方法的優(yōu)劣取決于標準語音的標準程度，同時缺少一定的客觀性；客觀的角度則是基于聲學(xué)模型的評分方法，如文獻[3]和文獻[4]采用基于隱馬爾可夫模型（Hidden Markov model，HMM）的后驗概率的方法。這類方法是基于置信度概率大小的計算，算法復(fù)雜度高且計算量大，不利于系統(tǒng)擴展。

本文針對ML2學(xué)習(xí)者研究基于計算機輔助漢語教學(xué)系統(tǒng)的發(fā)音評分方法，將發(fā)音評分分為發(fā)音效果與發(fā)音方式兩者的評分，從主觀和客觀兩個角度描述發(fā)音語音，引入雙語料語音庫減小系統(tǒng)受標準語音庫的影響。采用 BDTW方法進行發(fā)音效果和發(fā)音方式相似度判斷。最后依據(jù)各部分評分結(jié)果得出最后的系統(tǒng)得分。

2 發(fā)音評分方法

發(fā)音評分就是確定學(xué)習(xí)語音與標準語音之間的相似度大小，可以從發(fā)音效果和發(fā)音方式兩方面進行比較。發(fā)音效果評分是比較學(xué)習(xí)語音與標準語音聽覺上的相似度，而發(fā)音方式評分則側(cè)重于判斷發(fā)音方式的準確程度。發(fā)音效果和發(fā)音方式是發(fā)音質(zhì)量兩個不同的評價角度，在發(fā)音質(zhì)量中的影響程度隨著發(fā)音質(zhì)量不同而不同。

2.1 發(fā)音效果評分

2.1.1 特征參數(shù)提取

語音特征參數(shù)可以表征語音的內(nèi)容特性，語音的比較即為語音特征參數(shù)的比較。語音發(fā)音效果可以采用梅爾倒譜參數(shù)（Mel Frequency Cepstral Coefficients，MFCC)、韻律參數(shù)和能量參數(shù)來表征。MFCC能充分利用人耳的聽覺特性，具有很好的系統(tǒng)魯棒性【5】；漢語作為一門聲調(diào)語言，韻律在發(fā)音質(zhì)量中占有很大的比重，因此系統(tǒng)中韻律參數(shù)對于反應(yīng)學(xué)習(xí)者發(fā)音效果質(zhì)量有很重要的評價作用；基頻軌跡曲線可以很好的反應(yīng)語音聲調(diào)、韻律的變化；能量也可作為反映發(fā)音效果的重要參數(shù)，因此本文提取MFCC、基頻軌跡曲線和能量作為發(fā)音效果特征參數(shù)。

2.1.2 BDTW評分算法

發(fā)音效果的評分關(guān)鍵是比較在發(fā)音聽覺上與標準語音的相似度，基于DTW技術(shù)是用來尋找語音參數(shù)之間最近的匹配路徑，通過距離大小可以反映語音相似度大小。BDTW算法是在 DTW基礎(chǔ)上引入雙語種說話人（Bilingual Speaker and Mandarin as a second language，B2）語音庫作為輔助參考標準，將B2語音與標準語音之間的距離作為參考距離來衡量學(xué)習(xí)語音與標準語音之間的距離。在進行學(xué)習(xí)語音評分之前需要進行參考距離的距離訓(xùn)練。

B2語音庫是雙語種說話人的良好到差各個等級發(fā)音，作為輔助參考標準可以消除一部分由于ML2母語影響造成的發(fā)音聽覺上的差異，同時精細學(xué)習(xí)者的發(fā)音效果，提供更好的學(xué)習(xí)指導(dǎo)。非標準的B2語音還可用于評分映射模型訓(xùn)練。圖1示出了雙語音特征比較的評分算法流程。

2.1.3 MFCC特征比評分

系統(tǒng)在模型訓(xùn)練階段，首先收集母語為漢語的標準發(fā)音者（Learner with Mandarin as first language ，ML1）的發(fā)音作為標準語音庫，提取標準語音庫MFCC參數(shù)，假設(shè)標準語音庫中共含有L個語料的標準語音，每個ML1語音在B2語音庫中對應(yīng)N個B2標準語音，利用DTW分別求出ML1與之對應(yīng)的最短MFCC參數(shù)距離，構(gòu)成MFCC-ML1參考距離庫，則ML1庫中某個語音的MFCC-ML1參考距離庫可以表示為：{DMl-B1, DMl-B2,…DMl-Bi…DMl-BN}。

發(fā)音評分階段提取學(xué)習(xí)語音的MFCC參數(shù)，將學(xué)習(xí)語音與ML1標準語音的MFCC特征參數(shù)距離定義為學(xué)習(xí)距離 Dl-Ml。將學(xué)習(xí)距離與標準距離庫進行匹配，尋找最小的特征距離作為最終評判距離Dfin，經(jīng)過評分機制的映射得到特征比得分。

MFCC特征比評分計算公式為：其中 a和 b為常數(shù)，可以通過實驗確定，min(DMli-Bij)為第i個發(fā)音的參考距離庫中最小距離，DMli-Bij為第i個發(fā)音參考距離庫中第j項距離值，i=1,2…L，j=1,2…N。dist表示歐式距離。

圖1 基于DTW的雙語音特征比較的評分算法流程圖

2.1.4 聲調(diào)、能量特征比評分

聲調(diào)、能量特征評分是基于基頻軌跡、能量曲線的相似度比較。在B2中尋找到與學(xué)習(xí)語音MFCC距離最小的語音后，提取該語音的基音周期及基頻軌跡曲線，并與學(xué)習(xí)語音的基音周期及基頻軌跡曲線進行距離比較。這里的距離取歐氏距離，聲調(diào)、能量評分公式為：

其中a[ i]和b[ i]分別為匹配B2語音和學(xué)習(xí)語音的基頻軌跡曲線或者能量包絡(luò)曲線DTW路徑上各點值，C為計算系數(shù)，由實驗確定。

2.1.5 發(fā)音效果得分

發(fā)音效果得分由MFCC、聲調(diào)評分和能量參數(shù)評分三部分的線性加權(quán)得到。計算公式為：

其中wi(i=1,2,3)分別為 MFCC、聲調(diào)評分和能量參數(shù)權(quán)重，可以通過線性回歸的方法得到。Scorei(i=1,2,3)分別為 MFCC、聲調(diào)、能量得分。

2.2 發(fā)音方式評分

ML2的發(fā)音傾向于清晰度低而且持續(xù)時間長，整體發(fā)音不飽滿，發(fā)音方式容易受母語影響，特別是對于漢語的第三聲、有無后鼻音、和有無翹舌音的發(fā)音掌握比較困難，而這三者又是漢語的特色所在。因此在進行發(fā)音效果評分之前系統(tǒng)需要能夠判斷ML2學(xué)習(xí)者的第三聲、后鼻音、和翹舌音的三種發(fā)音方式的準確程度。

2.2.1 特征參數(shù)

一般來說，第三聲與非三聲語音相比，能量和過零率相似，而三聲持續(xù)時間卻要大于非三聲；翹舌音的過零率要比非翹舌音的過零率大的多；后鼻音與非后鼻音整體能量相差不大，只是后鼻音能量在發(fā)音轉(zhuǎn)折前部分高而后部分低，而非后鼻音相反在發(fā)音前部分低而后部分能量較高，能量曲線可以很好的反應(yīng)這種特性。因此可以比較學(xué)習(xí)語音與標準語音的語音能量、過零率、發(fā)音持續(xù)時間三種特征參數(shù)來評價學(xué)習(xí)語音發(fā)音方式。

2.2.2 評分實現(xiàn)

將整個語音庫按發(fā)音方式進行分類并進行標注，分為：三聲和非三聲集合 1、有鼻音和無鼻音的集合 2、有卷舌音和無卷舌音集合 3。分別提取集合中各語音的發(fā)音方式特征參數(shù)，如集合1中提取發(fā)音持續(xù)時間、集合2中提取能量曲線、集合3中提取過零率。在學(xué)習(xí)語音識別后階段通過簡單的決策樹來確定該學(xué)習(xí)語音比較的參數(shù)，如圖2所示。運用BDTW技術(shù)找到與標準語音的距離最相近的M個語音，計算學(xué)習(xí)語音與M個相近的標準語音的參數(shù)平均距離，由評分機制求出學(xué)習(xí)語音的發(fā)音方式得分。

發(fā)音方式評分的計算公式：

其中distc為學(xué)習(xí)語音與標準語音之間的歐式距離，M 由實驗得出，dist為標準語音與學(xué)習(xí)語音之間的距離，distC為標準語音與學(xué)習(xí)語音之間的平均距離，λ為計算系數(shù)，由實驗得到。

2.3 系統(tǒng)得分

學(xué)習(xí)語音的最終系統(tǒng)得分包含發(fā)音效果評分與發(fā)音方式評分兩部分，分別為兩部分設(shè)定閾值，動態(tài)的為兩部分分配權(quán)值。在小于閾值情況下，發(fā)音方式評分權(quán)重大，發(fā)音效果評分權(quán)重低，相應(yīng)的大于閾值時發(fā)音效果評分的權(quán)重更高。即在發(fā)音方式小于閾值的情況下，認為發(fā)音評分低主要來源于發(fā)音方式錯誤而增加發(fā)音方式的權(quán)重以減少主觀上的錯誤評分，反之則注重發(fā)音效果的評判。系統(tǒng)得分公式為：

圖2 決策樹判斷語音比較的發(fā)音方式參數(shù)

其中f1，f2為權(quán)重值，且f1>f2，由實驗得到。Scoref，scorex分別為發(fā)音效果和發(fā)音方式閾值。

3 實驗結(jié)果與分析

3.1 實驗數(shù)據(jù)庫

本實驗實現(xiàn)的是母語為英語的學(xué)習(xí)者學(xué)習(xí)漢語的發(fā)音評分。實驗中包含漢語標準語音庫、雙語種說話人漢語語音庫及測試語音庫三種語音庫。標準語音庫來源于863標準語音庫，雙語種說話人漢語標準語音庫采用20名（其中10男性10女性）母語為英語的說話人語音，說話人每人說50個字詞，由專家評分，評分為良好以上（70%）的說話人語音作為B2標準語音庫，測試語音自實驗室收集的10名（5男5女）母語為英語的學(xué)生每人10個字詞的發(fā)音，每個字詞發(fā)音10遍，將系統(tǒng)得分與專家評分進行對比，得到機器與人工評分的相關(guān)度。實驗仿真均在Mtalab 7.0環(huán)境下進行。

3.2 系統(tǒng)評分結(jié)果

由于選擇庫標準時性別不同對于評分結(jié)果影響很大，因此需要建立性格相關(guān)的發(fā)音評分模型。建立男聲、女聲獨立的語音庫，提取學(xué)習(xí)語音參數(shù)過程之前判斷學(xué)習(xí)者性別，調(diào)用相應(yīng)的標準語音庫。表1為某一個測試者10次發(fā)音“我們”學(xué)習(xí)語音的系統(tǒng)評分和人工評分結(jié)果。Scoref，scorex閾值分別取45和60，M取10。

表1可以看出，學(xué)習(xí)者在發(fā)音方式得分低的情況下，系統(tǒng)得分偏低，在發(fā)音方式得分增加的同時，發(fā)音效果與系統(tǒng)得分提高，在發(fā)音方式穩(wěn)定的情況下，系統(tǒng)得分取決于發(fā)音效果得分，這與人工評分保持一致，也說明了系統(tǒng)的有效性。

表1 學(xué)習(xí)者10次發(fā)音評分及人工評分

3.3 算法之間的相關(guān)度比較

將本文基于發(fā)音效果和發(fā)音方式的BDTW特征比評分命名 Effect-Mode-BDTW方法，Effect-Mode-BDTW方法和其他評分算法與專家評分之間的相關(guān)性比較結(jié)果如表2所示。

Effect-Mode-BDTW方法較段時長、對數(shù)釋然、GOP算法在相關(guān)度上有所提高，且實施方案簡便、評分更為全面。而相對于類似方法的 MFCC-DTW 方法，更為突出漢語發(fā)音的特點，對ML2學(xué)習(xí)者發(fā)音特性都有較好的學(xué)習(xí)評價。對于發(fā)音方式的評判目前只是包含三種易錯的發(fā)音方式，在加入更多發(fā)音方式評判后系統(tǒng)性能更優(yōu)。

表2 算法之間的相關(guān)度比較

4 結(jié)束語

本文引入雙語種說話人語音，將發(fā)音評分分為發(fā)音效果和發(fā)音方式兩部分，由特征參數(shù)的相似度評價語音的發(fā)音質(zhì)量。該方法簡單有效，適用于ML2的漢語評分。不同母語的學(xué)習(xí)者發(fā)音方式不同，且發(fā)音方式本身具有多樣性，系統(tǒng)對表征發(fā)音方式的特征參數(shù)及其評分尚不完善，還需要提取更為有效的發(fā)音效果特征參數(shù)、建立更多更為精細的發(fā)音方式集合以提高發(fā)音評分準確性。

[1]宋芳芳,宋曉麗,馬青玉.基于語音識別技術(shù)的英語口語自學(xué)系統(tǒng)評分機制的研究[J].Computer Kowledge and Technology 2009, 5(7):1726-1728.

[2]劉振安, 羅永釗.基于特征比較的語音評分方法研究[J].計算機應(yīng)用.2005,25(12):2928-2930.

[3]Chaohuang, Fengzhang, Frank K.soong .Improving automatic evaluation of Mandarin pronuncition with speaker adaptive training and MLLR speaker adaption[c].Chinese Spoken Language Processing,2008:1-4.

[4]Fengpei Ge,LiLu,YonghongYan.Experimental Invest-igation of Mandari Pronunciation Quality ssessment System[C].2011 International Symposium on Computer Science and Society, 2011:235-239.

[5]Tobias Cincarek, Rainer Gruhn,Christian Hacker.Automatic pronunciation scoring of words and sentences independent from the non-native’s first language[J].Computer Speech and Language, Volum-e23 Issue1, January 2009:65-88.

[6]Helme Strik, Khiet Truong, Febe de Wet,Cstia Cucchiarini.Comparing different approaches for automatic pronunciation error detection[J].Speech Communication, Volume 51 ,issue10,October 2009:845-852.[7]NEUMEYER L, FRANCO H, DIGALAK IS V, et al.Automatic Scoring of Pronunciation Quality[J].Spee-ch Communication,2000, 30(2):83- 93.

[8]WITT SM, YOUNG S J.Phone Level Pronunciat ion S coring and Assessment for Interact ive Language Learn ing[ J].Speech Communication, 2000, 30(2):95 - 108.