梁瑋
摘? ?要:針對傳統(tǒng)英語發(fā)音學習過程中存在的發(fā)音不準確、缺乏發(fā)音評價和糾錯指導的現(xiàn)狀。提出了基于Android平臺開發(fā)一款發(fā)音跟讀、發(fā)音比對、發(fā)音評分和糾錯多功能應用的英語發(fā)音訓練系統(tǒng)?;诙虝r過零率端點檢測進行語音預處理,獲得較為穩(wěn)定的語音段信號,利用美爾倒普系數(shù)(MFCC)提取語音信號特征值,獲得每幀語音頻譜特性。通過矢量間距離計算表征信號的匹配度,在自適應(AP)評價法來實現(xiàn)平均匹配距離與發(fā)音評分間的邏輯關系,得到發(fā)音共振峰包絡圖,利用生成的發(fā)音共振峰對比圖構(gòu)建發(fā)音共振峰和讀音口型模型進行發(fā)音跟讀質(zhì)量反饋。實際應用結(jié)果表明:開發(fā)的系統(tǒng)應用能夠準確進行定性化的發(fā)音口型糾正,有效滿足現(xiàn)代英語學習過程中的智能化、實時性和便攜化需求。
關鍵詞:語音識別;英語語音;Andorid系統(tǒng)
中圖分類號:TP391? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A
文章編號:1003—6199(2020)02—0155—05
Abstract:In view of the present situation of inaccurate pronunciation,lack of pronunciation evaluation and error correction guidance in the process of traditional English pronunciation learning. An English pronunciation training system based on Android platform is proposed for pronunciation following reading,pronunciation comparison,pronunciation scoring and error correction. speech preprocessing based on short-time zero-crossing rate endpoint detection to obtain a more stable speech segment signal,using the mer inverted coefficient (mfcc) to extract the speech signal eigenvalues and obtain the speech spectrum characteristics of each frame. Using vector-to-vector distance to calculate the matching degree of the representation signal,the average matching distance and pronunciation evaluation are realized in the adaptive (AP) evaluation method? In this paper,the phonetic resonance peak envelope map is obtained,and the model of pronunciation resonance peak and pronunciation mouth pattern is constructed by using the generated phonetic resonance peak contrast map. The practical application results show that the developed system can accurately carry out the correction of pronunciation and mouth shape,and effectively meet the needs of intelligence,real-time and portability in the process of modern English learning.
Key words:speech recognition;English speech;Anorid system
英語作為國際通用語言,一直受到各國重視。國內(nèi)對英語學習熱情一直在不斷高漲,各類英語學習軟件、平臺層出不窮[1-2]。但在整個學習過程中,由于缺乏對英語口語發(fā)音的評價和反饋糾正,導致大部分學習中聽說能力較弱,難以實現(xiàn)標準的口語化交流。隨著互聯(lián)網(wǎng)信息技術的發(fā)展,利用語音識別技術來輔助英語發(fā)音學習,在一定程度上有效糾正了學習者的錯誤發(fā)音方式[3],如目前應用較為成熟的FLUENCY外語發(fā)音系統(tǒng),EduSpeak語音系統(tǒng)、PLASER語音發(fā)音訓練系統(tǒng)等[4-6]。不同的發(fā)音系統(tǒng)提供了語音信號的識別捕捉、基于英語發(fā)音的類別劃分、基于語普、時長的反饋評分等,但各類陪平臺均存在一定的缺陷[7-9]。如FLUENCY采用動態(tài)時間規(guī)整(Dynamic Time Warping DTW)進行英語單詞和語句訓練識別,有效降低了匹配運算量,但語音發(fā)音中未考慮到單詞間的相似特征,導致發(fā)音評價對比難以實現(xiàn)[10]。PLASER語音系統(tǒng)基于英語單詞的因素評分置信度進行區(qū)分,導致語音信號特模糊,難以實現(xiàn)精準化匹配,且這些系統(tǒng)主要集中于計算機平臺系統(tǒng),難以實現(xiàn)當前便攜化、及時化的訓練需求[11]?;贏ndroid平臺,在對語音信號進行處理后,采用美爾倒普系數(shù)(MFCC)和矢量間距離計算進行語音信號的匹配度計算,利用生成的發(fā)音共振峰進行發(fā)音跟讀質(zhì)量反饋,實現(xiàn)英語發(fā)音和糾錯的定性化。
1? ?語音信號識別和匹配
1.1? ?語音識別算法設計
語音識別是由氣流激勵聲道產(chǎn)生,本質(zhì)上是讓機器識別人的語音[12]。即在一個極小的時間段內(nèi),利用語音頻譜等特征量作為定值參數(shù),利用短時平穩(wěn)信號處理技術提取語音信號中的特征矢量值,與待測語音特征矢量比較來實現(xiàn)語音的對比識別。如圖1為典型的語音識別流程。
預處理:相關研究指出,語音識別系統(tǒng)中存在的識別錯誤大部分是基于端點檢測異常引起[13]。同時,現(xiàn)實學習中存在的背景噪音,進一步增加了語音信號端點檢測的難度。針對 Android平臺特征,在比較不同端點檢測法基礎上,采用基于短時過零率端點檢測進行語音預處理。由于濁音能量較低,通過率低,清音則具有較高的能量,通過率相對高,采用短時過零率的端點檢測法能夠較好的判定較為穩(wěn)定的語音段信號[14]。
語音信號特征提?。哼M行語音信號預處理后,需要提取信號的特征參數(shù),利用參數(shù)進行語音信號描述方便對信號的后續(xù)處理。本系統(tǒng)在比較各類特征參數(shù)提取算法的基礎上,采用美爾倒普系數(shù)(MFCC)[15],如圖2為MFCC參數(shù)提取流程圖。
首先將初始語音信號進行分幀加窗處理獲得單幀信號x(n),通過對短時信號x(n)進行傅里葉變換(FFT),獲得線性頻譜X(k),由三角濾波器得到對數(shù)能量S(i),進行離散余弦變換(DCT)得到單幀語音信號的MFCC特征參數(shù):
1.2? ?語音信號模式匹配
通過比較待評價語音和參考標準語音的特征參數(shù)差距來表征兩者的相似性。不同語音間的發(fā)音語速、方式差異性較大,傳統(tǒng)的比較法難以進行區(qū)分[16]。采用動態(tài)規(guī)整(DTW)將測試模板和參考模板特征矢量的匹配度通過矢量間距離表示,即對于特征矢量T(n)和參考模板特征矢量R(m),存在有:
2? ?發(fā)音反饋評價技術
2.1? ?發(fā)音評價算法
通過對測試語音模板和標準模板信號匹配獲得匹配距離Dmin(N,M)作為兩者發(fā)音差異性的度量,建立一個評分機制對相似度進行評分。由于不同發(fā)音對應的語音幀長不同,因此,通常采用每幀的平均匹配距離來比較可靠發(fā)音水平的高低,即:
式中:N為測試模板幀長。發(fā)音反饋評價就是要建立起幀平均匹配距離與發(fā)音評分間的邏輯關系。本文基于自適應(AP)評價法來實現(xiàn)平均匹配距離與發(fā)音評分間的邏輯關系,定義AP評分算法為:
式中:x、y為自適應函數(shù),通過系統(tǒng)自適應訓練生成,具體流程如圖3所示:
在評分參數(shù)模塊中,專家根據(jù)學習者的若干發(fā)音進行經(jīng)驗評分,因此,每一個發(fā)音所建立的MFCC幀匹配距離都對應一個專家評分。即每一個幀匹配距離與專家評分數(shù)據(jù),滿足關系:
式中,x,y為自適應函數(shù)。通過最小二乘曲線擬合獲得[17]。當樣本空間越大,則獲得的擬合函數(shù)精度越高??紤]到樣本空間太大影響到平臺的計算實時性,為簡化評分參數(shù)生成過程,通常選擇最適合的3個樣本進行評分計算。
2.2? ?發(fā)音反饋與口型矯正
相關研究表明,元音共振峰的高低與口腔和舌頭出力點存在相互對應關系[18]。國際音標中,英語發(fā)音共48個音素,包括20個元音和28個輔音。國人在英語發(fā)音中主要在于元音的發(fā)音。歐美人采用的“后部發(fā)音法”,在發(fā)音過程中,由口腔后方作為主要發(fā)音位置,發(fā)音較為細膩。而漢語發(fā)音過程中主要以口腔前部發(fā)力為主,嘴唇大開大合,舌尖部位靈活,缺乏細膩感,因而容易產(chǎn)生所謂的“中式英語”。
人在發(fā)音中,聲道和口腔起共振腔作用,通過共振腔的濾波作用能夠?qū)崿F(xiàn)聲音能量在不同頻率上的重新分配,在某一頻率聲音得到加強形成共振峰,是發(fā)音信息的主要來源。對于英語元音發(fā)音,通常包括3個共振峰,其中較低頻率共振峰在頻譜上較為明顯,攜帶了語音共振峰的主要特征[19]。而共振峰數(shù)值與口腔形狀和舌位有直接關系,即舌位越高,共振峰越低,開口度越大[20],因此,系統(tǒng)采用較低頻的共振峰來判定發(fā)音質(zhì)量。
為得到發(fā)音共振峰特性,將初始的信號經(jīng)過預處理、DFT變換后,獲得每幀語音頻譜特性。通過距離計算獲得語音信號頻譜包絡,其中獲得的包絡最大值即是語音最高共振峰[21],如圖4中F1即元音第一共振峰。
在語音信號處理時,對于每幀語音,在短時間內(nèi)可以看作是短時平穩(wěn)信號,每幀的發(fā)音對應的口型和舌位是一定的,不同幀段的共振峰具有唯一性,反應了發(fā)音過程中口型和舌尖的變化。在Android平臺可采用發(fā)音共振峰對比圖反應整個發(fā)音口型變化,若代表標準參考發(fā)音和測試發(fā)音所形成的共振波折線重合度越高,則發(fā)音越準確。若學習中發(fā)音的共振峰偏高于標準參考發(fā)音,則根據(jù)共振峰的發(fā)音口型和舌位置關系,學習者可減小口型,抬高舌位來糾正發(fā)音。
3? ?系統(tǒng)的設計與實現(xiàn)
3.1? ?開發(fā)環(huán)境
基于Anroid平臺實現(xiàn)軟件開發(fā),實現(xiàn)語音跟讀、發(fā)音對比和評分、反饋一系列功能。系統(tǒng)運行環(huán)境如下:
PC操作系統(tǒng):Windows XP
開發(fā)軟件/硬件環(huán)境:Android 0S 4.0/Andorid智能手機;
編程語言:Java
開發(fā)組件:JDK6;Andorid SDK1.8
3.2? ?功能應用
通過系統(tǒng)功能分析,確定四大功能模塊,分別為:視頻播放、語音錄入、發(fā)音評分、發(fā)音共振圖像顯示四大功能模塊。其中系統(tǒng)所有界面,均采用擴展活動(Activity)實現(xiàn)。
如圖5為系統(tǒng)主界面圖。其中包括音標、單詞的發(fā)聲練習等快捷按鈕,單擊菜單欄按鈕會跳轉(zhuǎn)至相應的功能界面,同時,“幫助”按鈕會彈出系統(tǒng)幫助窗口。
評分參數(shù)自適應作為系統(tǒng)特色,點擊“評分自適應”菜單欄便會跳轉(zhuǎn)至自適應訓練界面。系統(tǒng)根據(jù)每次發(fā)音的幀匹配距離與專家打分生成自適應參數(shù),提高評分函數(shù)準確性和自適應能力。點擊“發(fā)音跟讀”按鈕,系統(tǒng)將示范音頻和錄入音頻對比。點擊“圖像參考”按鈕,后臺指令調(diào)用相關語音識別算法,顯示錄制發(fā)音和標準發(fā)音共振峰對比圖形,用戶可根據(jù)共振圖來進行發(fā)音糾正。點擊“專家評分”按鈕,系統(tǒng)計算幀的匹配距離,并顯示在評分對話框中。對話中中設置了一個EditText空間來負責獲取專家打分數(shù)據(jù),并在AlertDialog中建立“生成評分函數(shù)”,用戶可點擊提交,也可以恢復默認評分函數(shù),重新進行錄音比對。
本系統(tǒng)中還提供了單詞發(fā)音練習,當進入單詞發(fā)音練習集界面后,點擊“發(fā)音跟讀”錄入發(fā)音,點擊“發(fā)音對比”進行比對,點擊“發(fā)音評價”,系統(tǒng)根據(jù)評分算法進行評分,并將成績顯示在發(fā)音成績窗口,也可在成績窗口點擊“查看共振峰圖”按鈕,方便用戶進行發(fā)音比較和口音糾正。
4? ?結(jié)? ?論
針對語音識別技術,討論了語音評分和語音糾正算法。并基于Android平臺研發(fā)了一款包括語音跟讀、語音評價和語音糾正的多功能語音訓練系統(tǒng),實現(xiàn)對語音學習的智能化、便攜化。研究的主要成果:
(1)基于AP評分方法將發(fā)音評分和反饋糾錯模塊置于同一系統(tǒng)中生成自適應參數(shù)進行發(fā)音評分。根據(jù)發(fā)音工作峰和口型的關系建立發(fā)音共振峰對比圖實現(xiàn)發(fā)音跟讀質(zhì)量反饋,進行定性化的發(fā)音口型糾正。
(2)通過Android平臺開發(fā)建立發(fā)音評價和反饋的英語發(fā)音訓練系統(tǒng),進行發(fā)音跟讀、發(fā)音比對、發(fā)音評分和糾錯多功能應用,實現(xiàn)語音發(fā)音學習的智能化、實時性和便攜化。
參考文獻
[1]? ? 景亞鵬,鄭駿,胡文心. 基于深層神經(jīng)網(wǎng)絡(DNN)的漢語方言種屬語音識別[J]. 華東師范大學學報(自然科學版),2014(01):60-67.
[2]? ? 李春蘭. 英語口語自動發(fā)音校對系統(tǒng)設計[J]. 現(xiàn)代電子技術,2017,40(24):59-61.
[3]? ? 袁里馳. 基于改進的隱馬爾科夫模型的語音識別方法[J]. 中南大學學報(自然科學版),2008,39(06):1303-1308.
[4]? ? 吳延占. 基于HMM與遺傳神經(jīng)網(wǎng)絡的改進語音識別系統(tǒng)[J]. 計算機系統(tǒng)應用,2016,25(01):204-208.
[5]? ? 戴禮榮,張仕良,黃智穎. 基于深度學習的語音識別技術現(xiàn)狀與展望[J]. 數(shù)據(jù)采集與處理,2017,32(02):221-231.
[6]? ? 金曉宏. 基于隱馬爾可夫模型的英語口語考試智能評分系統(tǒng)[J]. 內(nèi)蒙古師范大學學報(自然科學漢文版),2017,46(03):386-389.
[7]? ? 王曉斌,倪傳斌. 神經(jīng)認知體系的構(gòu)建——基于二語語音識別的研究[J]. 南京師大學報(社會科學版),2012(02):116-122.
[8]? ? 劉健剛,馬冬梅,趙力. 英語口語機考評分系統(tǒng)除噪處理的研究[J]. 中國科技論文,2012,7(04):302-307.
[9]? ? 李艷玲,顏永紅. 多特征融合的英語口語考試自動評分系統(tǒng)的研究[J]. 電子與信息學報,2012,34(09):2097-2102.
[10]? 陳妍,邱小軍. 母語為漢語的聽者聽英語時的空間去掩蔽現(xiàn)象研究[J]. 聲學學報,2011,36(02):231-238.
[11]? 梁青青,楊鴻武. 基于語音識別和語速修改的語音復讀系統(tǒng)[J]. 計算機工程,2011,37(05):288-290.
[12]? 趙博,檀曉紅. 基于語音識別技術的英語口語教學系統(tǒng)[J]. 計算機應用,2009,29(03):761-763.
[13]? 馮楚瀅,司徒國強,倪瑋隆. 協(xié)同深度學習推薦算法研究[J]. 計算機系統(tǒng)應用,2019,28(01):169-175.
[14]? 王國梁,梁維謙. 嵌入式中等詞匯量英語語音識別片上系統(tǒng)[J]. 清華大學學報(自然科學版),2005(10):99-102.
[15]? 吳蔚瀾,蔡猛. 低數(shù)據(jù)資源條件下基于Bottleneck特征與SGMM模型的語音識別系統(tǒng)[J]. 中國科學院大學學報,2015,32(01):97-102.
[16]? 張文林,牛銅,屈丹,等. 基于聲學特征空間非線性流形結(jié)構(gòu)的語音識別聲學模型[J]. 自動化學報,2015,41(05):1024-1033.
[17]? 許金喜,張新有. Android平臺基于MQTT協(xié)議的推送機制[J].? 計算機系統(tǒng)應用,2015,24(01):185-190.
[18]? 王山海,景新幸. 基于深度學習神經(jīng)網(wǎng)絡的孤立詞語音識別的研究[J]. 計算機應用研究,2015,32(08):2289-2291.
[19]? 張晴晴,劉勇紅. 基于卷積神經(jīng)網(wǎng)絡的連續(xù)語音識別[J]. 工程科學學報,2015,37(09):1212-1217.
[20]? 田莎莎,唐菀,佘緯. 改進MFCC參數(shù)在非特定人語音識別中的研究[J]. 科技通報,2013,29(03):139-142.
[21]? 白靜,楊利紅,張雪英. 一種面向語音識別的抗噪SVM參數(shù)優(yōu)化方法[J]. 中南大學學報(自然科學版),2013,44(02):604-611.