• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于計算機輔助漢語教學(xué)系統(tǒng)的發(fā)音評分

      2014-04-03 07:33:12胡君景新幸楊海燕
      計算機工程與應(yīng)用 2014年12期
      關(guān)鍵詞:特征參數(shù)發(fā)音語音

      胡君,景新幸,楊海燕

      HU Jun,JING Xinxing, YANG Haiyan

      桂林電子科技大學(xué) 信息與通信學(xué)院,廣西,桂林 541004

      School of information and Communication, Guilin University of Electrical Technology, Guilin,Guangxi, 541004, China

      1 引言

      漢語是世界上使用人數(shù)最多的語言,越來越多的國外人加入學(xué)習(xí)漢語的行列中。在漢語的學(xué)習(xí)過程中,ML2大都缺乏語言環(huán)境且容易受自身母語的影響,對漢語發(fā)音的掌握尤為困難。隨著計算機技術(shù)與自動語音識別(Automatic Speech Recognition ,ASR)技術(shù)的引入與發(fā)展,計算機輔助語言教學(xué)(Computer assisted language learning,CALL)系統(tǒng)很好的解決發(fā)音訓(xùn)練問題[1-3],可以隨時、隨地提供良好的漢語學(xué)習(xí)環(huán)境,實時對學(xué)習(xí)語音進行評價同時給予錯誤信息反饋。

      發(fā)音評分作為計算機輔助漢語教學(xué)系統(tǒng)中的核心部分,解決學(xué)習(xí)者學(xué)習(xí)語音質(zhì)量評價的問題,目前針對發(fā)音評分主要從主觀和客觀兩個角度進行分析。主觀的角度主要是基于語音特征比較的評分方法,由學(xué)習(xí)語音與標準語音之間的特征參數(shù)距離來衡量學(xué)習(xí)語音的質(zhì)量,如文獻[2]采用動態(tài)時間規(guī)整(Dynamic time warping,DTW)方法。此類方法的優(yōu)劣取決于標準語音的標準程度,同時缺少一定的客觀性;客觀的角度則是基于聲學(xué)模型的評分方法,如文獻[3]和文獻[4]采用基于隱馬爾可夫模型(Hidden Markov model,HMM)的后驗概率的方法。這類方法是基于置信度概率大小的計算,算法復(fù)雜度高且計算量大,不利于系統(tǒng)擴展。

      本文針對ML2學(xué)習(xí)者研究基于計算機輔助漢語教學(xué)系統(tǒng)的發(fā)音評分方法,將發(fā)音評分分為發(fā)音效果與發(fā)音方式兩者的評分,從主觀和客觀兩個角度描述發(fā)音語音,引入雙語料語音庫減小系統(tǒng)受標準語音庫的影響。采用 BDTW方法進行發(fā)音效果和發(fā)音方式相似度判斷。最后依據(jù)各部分評分結(jié)果得出最后的系統(tǒng)得分。

      2 發(fā)音評分方法

      發(fā)音評分就是確定學(xué)習(xí)語音與標準語音之間的相似度大小,可以從發(fā)音效果和發(fā)音方式兩方面進行比較。發(fā)音效果評分是比較學(xué)習(xí)語音與標準語音聽覺上的相似度,而發(fā)音方式評分則側(cè)重于判斷發(fā)音方式的準確程度。發(fā)音效果和發(fā)音方式是發(fā)音質(zhì)量兩個不同的評價角度,在發(fā)音質(zhì)量中的影響程度隨著發(fā)音質(zhì)量不同而不同。

      2.1 發(fā)音效果評分

      2.1.1 特征參數(shù)提取

      語音特征參數(shù)可以表征語音的內(nèi)容特性,語音的比較即為語音特征參數(shù)的比較。語音發(fā)音效果可以采用梅爾倒譜參數(shù)(Mel Frequency Cepstral Coefficients,MFCC)、韻律參數(shù)和能量參數(shù)來表征。MFCC能充分利用人耳的聽覺特性,具有很好的系統(tǒng)魯棒性【5】;漢語作為一門聲調(diào)語言,韻律在發(fā)音質(zhì)量中占有很大的比重,因此系統(tǒng)中韻律參數(shù)對于反應(yīng)學(xué)習(xí)者發(fā)音效果質(zhì)量有很重要的評價作用;基頻軌跡曲線可以很好的反應(yīng)語音聲調(diào)、韻律的變化;能量也可作為反映發(fā)音效果的重要參數(shù),因此本文提取MFCC、基頻軌跡曲線和能量作為發(fā)音效果特征參數(shù)。

      2.1.2 BDTW評分算法

      發(fā)音效果的評分關(guān)鍵是比較在發(fā)音聽覺上與標準語音的相似度,基于DTW技術(shù)是用來尋找語音參數(shù)之間最近的匹配路徑,通過距離大小可以反映語音相似度大小。BDTW算法是在 DTW基礎(chǔ)上引入雙語種說話人(Bilingual Speaker and Mandarin as a second language,B2)語音庫作為輔助參考標準,將B2語音與標準語音之間的距離作為參考距離來衡量學(xué)習(xí)語音與標準語音之間的距離。在進行學(xué)習(xí)語音評分之前需要進行參考距離的距離訓(xùn)練。

      B2語音庫是雙語種說話人的良好到差各個等級發(fā)音,作為輔助參考標準可以消除一部分由于ML2母語影響造成的發(fā)音聽覺上的差異,同時精細學(xué)習(xí)者的發(fā)音效果,提供更好的學(xué)習(xí)指導(dǎo)。非標準的B2語音還可用于評分映射模型訓(xùn)練。圖1示出了雙語音特征比較的評分算法流程。

      2.1.3 MFCC特征比評分

      系統(tǒng)在模型訓(xùn)練階段,首先收集母語為漢語的標準發(fā)音者(Learner with Mandarin as first language ,ML1)的發(fā)音作為標準語音庫,提取標準語音庫MFCC參數(shù),假設(shè)標準語音庫中共含有L個語料的標準語音,每個ML1語音在B2語音庫中對應(yīng)N個B2標準語音,利用DTW分別求出ML1與之對應(yīng)的最短MFCC參數(shù)距離,構(gòu)成MFCC-ML1參考距離庫,則ML1庫中某個語音的MFCC-ML1參考距離庫可以表示為:{DMl-B1, DMl-B2,…DMl-Bi…DMl-BN}。

      發(fā)音評分階段提取學(xué)習(xí)語音的MFCC參數(shù),將學(xué)習(xí)語音與ML1標準語音的MFCC特征參數(shù)距離定義為學(xué)習(xí)距離 Dl-Ml。將學(xué)習(xí)距離與標準距離庫進行匹配,尋找最小的特征距離作為最終評判距離Dfin,經(jīng)過評分機制的映射得到特征比得分。

      MFCC特征比評分計算公式為:其中 a和 b為常數(shù),可以通過實驗確定,min(DMli-Bij)為第i個發(fā)音的參考距離庫中最小距離,DMli-Bij為第i個發(fā)音參考距離庫中第j項距離值,i=1,2…L,j=1,2…N。dist表示歐式距離。

      圖1 基于DTW的雙語音特征比較的評分算法流程圖

      2.1.4 聲調(diào)、能量特征比評分

      聲調(diào)、能量特征評分是基于基頻軌跡、能量曲線的相似度比較。在B2中尋找到與學(xué)習(xí)語音MFCC距離最小的語音后,提取該語音的基音周期及基頻軌跡曲線,并與學(xué)習(xí)語音的基音周期及基頻軌跡曲線進行距離比較。這里的距離取歐氏距離,聲調(diào)、能量評分公式為:

      其中a[ i]和b[ i]分別為匹配B2語音和學(xué)習(xí)語音的基頻軌跡曲線或者能量包絡(luò)曲線DTW路徑上各點值,C為計算系數(shù),由實驗確定。

      2.1.5 發(fā)音效果得分

      發(fā)音效果得分由MFCC、聲調(diào)評分和能量參數(shù)評分三部分的線性加權(quán)得到。計算公式為:

      其中wi(i=1,2,3)分別為 MFCC、聲調(diào)評分和能量參數(shù)權(quán)重,可以通過線性回歸的方法得到。Scorei(i=1,2,3)分別為 MFCC、聲調(diào)、能量得分。

      2.2 發(fā)音方式評分

      ML2的發(fā)音傾向于清晰度低而且持續(xù)時間長,整體發(fā)音不飽滿,發(fā)音方式容易受母語影響,特別是對于漢語的第三聲、有無后鼻音、和有無翹舌音的發(fā)音掌握比較困難,而這三者又是漢語的特色所在。因此在進行發(fā)音效果評分之前系統(tǒng)需要能夠判斷ML2學(xué)習(xí)者的第三聲、后鼻音、和翹舌音的三種發(fā)音方式的準確程度。

      2.2.1 特征參數(shù)

      一般來說,第三聲與非三聲語音相比,能量和過零率相似,而三聲持續(xù)時間卻要大于非三聲;翹舌音的過零率要比非翹舌音的過零率大的多;后鼻音與非后鼻音整體能量相差不大,只是后鼻音能量在發(fā)音轉(zhuǎn)折前部分高而后部分低,而非后鼻音相反在發(fā)音前部分低而后部分能量較高,能量曲線可以很好的反應(yīng)這種特性。因此可以比較學(xué)習(xí)語音與標準語音的語音能量、過零率、發(fā)音持續(xù)時間三種特征參數(shù)來評價學(xué)習(xí)語音發(fā)音方式。

      2.2.2 評分實現(xiàn)

      將整個語音庫按發(fā)音方式進行分類并進行標注,分為:三聲和非三聲集合 1、有鼻音和無鼻音的集合 2、有卷舌音和無卷舌音集合 3。分別提取集合中各語音的發(fā)音方式特征參數(shù),如集合1中提取發(fā)音持續(xù)時間、集合2中提取能量曲線、集合3中提取過零率。在學(xué)習(xí)語音識別后階段通過簡單的決策樹來確定該學(xué)習(xí)語音比較的參數(shù),如圖2所示。運用BDTW技術(shù)找到與標準語音的距離最相近的M個語音,計算學(xué)習(xí)語音與M個相近的標準語音的參數(shù)平均距離,由評分機制求出學(xué)習(xí)語音的發(fā)音方式得分。

      發(fā)音方式評分的計算公式:

      其中distc為學(xué)習(xí)語音與標準語音之間的歐式距離,M 由實驗得出,dist為標準語音與學(xué)習(xí)語音之間的距離,distC為標準語音與學(xué)習(xí)語音之間的平均距離,λ為計算系數(shù),由實驗得到。

      2.3 系統(tǒng)得分

      學(xué)習(xí)語音的最終系統(tǒng)得分包含發(fā)音效果評分與發(fā)音方式評分兩部分,分別為兩部分設(shè)定閾值,動態(tài)的為兩部分分配權(quán)值。在小于閾值情況下,發(fā)音方式評分權(quán)重大,發(fā)音效果評分權(quán)重低,相應(yīng)的大于閾值時發(fā)音效果評分的權(quán)重更高。即在發(fā)音方式小于閾值的情況下,認為發(fā)音評分低主要來源于發(fā)音方式錯誤而增加發(fā)音方式的權(quán)重以減少主觀上的錯誤評分,反之則注重發(fā)音效果的評判。系統(tǒng)得分公式為:

      圖2 決策樹判斷語音比較的發(fā)音方式參數(shù)

      其中f1,f2為權(quán)重值,且f1>f2,由實驗得到。Scoref,scorex分別為發(fā)音效果和發(fā)音方式閾值。

      3 實驗結(jié)果與分析

      3.1 實驗數(shù)據(jù)庫

      本實驗實現(xiàn)的是母語為英語的學(xué)習(xí)者學(xué)習(xí)漢語的發(fā)音評分。實驗中包含漢語標準語音庫、雙語種說話人漢語語音庫及測試語音庫三種語音庫。標準語音庫來源于863標準語音庫,雙語種說話人漢語標準語音庫采用20名(其中10男性10女性)母語為英語的說話人語音,說話人每人說50個字詞,由專家評分,評分為良好以上(70%)的說話人語音作為B2標準語音庫,測試語音自實驗室收集的10名(5男5女)母語為英語的學(xué)生每人10個字詞的發(fā)音,每個字詞發(fā)音10遍,將系統(tǒng)得分與專家評分進行對比,得到機器與人工評分的相關(guān)度。實驗仿真均在Mtalab 7.0環(huán)境下進行。

      3.2 系統(tǒng)評分結(jié)果

      由于選擇庫標準時性別不同對于評分結(jié)果影響很大,因此需要建立性格相關(guān)的發(fā)音評分模型。建立男聲、女聲獨立的語音庫,提取學(xué)習(xí)語音參數(shù)過程之前判斷學(xué)習(xí)者性別,調(diào)用相應(yīng)的標準語音庫。表1為某一個測試者10次發(fā)音“我們”學(xué)習(xí)語音的系統(tǒng)評分和人工評分結(jié)果。Scoref,scorex閾值分別取45和60,M取10。

      表1可以看出,學(xué)習(xí)者在發(fā)音方式得分低的情況下,系統(tǒng)得分偏低,在發(fā)音方式得分增加的同時,發(fā)音效果與系統(tǒng)得分提高,在發(fā)音方式穩(wěn)定的情況下,系統(tǒng)得分取決于發(fā)音效果得分,這與人工評分保持一致,也說明了系統(tǒng)的有效性。

      表1 學(xué)習(xí)者10次發(fā)音評分及人工評分

      3.3 算法之間的相關(guān)度比較

      將本文基于發(fā)音效果和發(fā)音方式的BDTW特征比評分命名 Effect-Mode-BDTW方法,Effect-Mode-BDTW方法和其他評分算法與專家評分之間的相關(guān)性比較結(jié)果如表2所示。

      Effect-Mode-BDTW方法較段時長、對數(shù)釋然、GOP算法在相關(guān)度上有所提高,且實施方案簡便、評分更為全面。而相對于類似方法的 MFCC-DTW 方法,更為突出漢語發(fā)音的特點,對ML2學(xué)習(xí)者發(fā)音特性都有較好的學(xué)習(xí)評價。對于發(fā)音方式的評判目前只是包含三種易錯的發(fā)音方式,在加入更多發(fā)音方式評判后系統(tǒng)性能更優(yōu)。

      表2 算法之間的相關(guān)度比較

      4 結(jié)束語

      本文引入雙語種說話人語音,將發(fā)音評分分為發(fā)音效果和發(fā)音方式兩部分,由特征參數(shù)的相似度評價語音的發(fā)音質(zhì)量。該方法簡單有效,適用于ML2的漢語評分。不同母語的學(xué)習(xí)者發(fā)音方式不同,且發(fā)音方式本身具有多樣性,系統(tǒng)對表征發(fā)音方式的特征參數(shù)及其評分尚不完善,還需要提取更為有效的發(fā)音效果特征參數(shù)、建立更多更為精細的發(fā)音方式集合以提高發(fā)音評分準確性。

      [1]宋芳芳,宋曉麗,馬青玉.基于語音識別技術(shù)的英語口語自學(xué)系統(tǒng)評分機制的研究[J].Computer Kowledge and Technology 2009, 5(7):1726-1728.

      [2]劉振安, 羅永釗.基于特征比較的語音評分方法研究[J].計算機應(yīng)用.2005,25(12):2928-2930.

      [3]Chaohuang, Fengzhang, Frank K.soong .Improving automatic evaluation of Mandarin pronuncition with speaker adaptive training and MLLR speaker adaption[c].Chinese Spoken Language Processing,2008:1-4.

      [4]Fengpei Ge,LiLu,YonghongYan.Experimental Invest-igation of Mandari Pronunciation Quality ssessment System[C].2011 International Symposium on Computer Science and Society, 2011:235-239.

      [5]Tobias Cincarek, Rainer Gruhn,Christian Hacker.Automatic pronunciation scoring of words and sentences independent from the non-native’s first language[J].Computer Speech and Language, Volum-e23 Issue1, January 2009:65-88.

      [6]Helme Strik, Khiet Truong, Febe de Wet,Cstia Cucchiarini.Comparing different approaches for automatic pronunciation error detection[J].Speech Communication, Volume 51 ,issue10,October 2009:845-852.[7]NEUMEYER L, FRANCO H, DIGALAK IS V, et al.Automatic Scoring of Pronunciation Quality[J].Spee-ch Communication,2000, 30(2):83- 93.

      [8]WITT SM, YOUNG S J.Phone Level Pronunciat ion S coring and Assessment for Interact ive Language Learn ing[ J].Speech Communication, 2000, 30(2):95 - 108.

      猜你喜歡
      特征參數(shù)發(fā)音語音
      Hickory, Dickory, Dock
      故障診斷中信號特征參數(shù)擇取方法
      基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
      魔力語音
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      基于PSO-VMD的齒輪特征參數(shù)提取方法研究
      Playing with h
      統(tǒng)計特征參數(shù)及多分類SVM的局部放電類型識別
      電測與儀表(2015年7期)2015-04-09 11:40:04
      榆树市| 靖江市| 南雄市| 泰和县| 乌拉特中旗| 谢通门县| 上虞市| 顺平县| 修武县| 准格尔旗| 杭锦旗| 平安县| 南涧| 三都| 临清市| 桓仁| 诸城市| 保康县| 保山市| 潞西市| 措勤县| 辽中县| 嘉义县| 尼玛县| 凤冈县| 乐安县| 三穗县| 滁州市| 申扎县| 芜湖市| 丽水市| 衢州市| 集安市| 万宁市| 湟中县| 娱乐| 萍乡市| 东乡| 阜宁县| 闻喜县| 罗田县|