溫玉華
摘? 要: 為了提高英語(yǔ)發(fā)音錯(cuò)誤自動(dòng)校正系統(tǒng)的校正準(zhǔn)確度,提出基于DTW算法的英語(yǔ)發(fā)音錯(cuò)誤自動(dòng)校正系統(tǒng)設(shè)計(jì)。依托語(yǔ)音識(shí)別傳感器優(yōu)化設(shè)計(jì)和發(fā)音識(shí)別處理器改進(jìn)設(shè)計(jì),完成系統(tǒng)的硬件設(shè)計(jì);基于英語(yǔ)發(fā)音采集程序設(shè)計(jì)和提取英語(yǔ)發(fā)音錯(cuò)誤信號(hào)參數(shù),完成系統(tǒng)的軟件設(shè)計(jì)。在DTW算法基礎(chǔ)上,實(shí)現(xiàn)了英語(yǔ)發(fā)音錯(cuò)誤自動(dòng)校正系統(tǒng)設(shè)計(jì)。測(cè)試結(jié)果表明,基于DTW算法的英語(yǔ)發(fā)音錯(cuò)誤自動(dòng)校正系統(tǒng)相比于傳統(tǒng)校正系統(tǒng),英語(yǔ)發(fā)音校正的準(zhǔn)確率提升了36.53%。
關(guān)鍵詞: 自動(dòng)校正; 英語(yǔ)發(fā)音; 系統(tǒng)設(shè)計(jì); DTW算法; 程序設(shè)計(jì); 系統(tǒng)測(cè)試
中圖分類(lèi)號(hào): TN912.34?34? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A? ? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2020)10?0124?03
Design of DTW algorithm based automatic correction system for
English pronunciation mistakes
WEN Yuhua
(Inner Mongolia Agricultural University, Hohhot 010019, China)
Abstract: A design of DTW algorithm based automatic correction system for English pronunciation mistakes is proposed to improve the calibration accuracy of the automatic correction system for English pronunciation mistakes. The hardware design of the system is completed based on the optimized design of speech recognition sensor and the improved design of pronunciation recognition processor. The software design of the system is completed based on the design of English pronunciation collection program and the extraction of English pronunciation mistake signal parameters. The design of automatic correction system for English pronunciation errors is realized based on DTW algorithm. The testing results show that the English pronunciation correction accuracy of the DTW algorithm based automatic correction system for English pronunciation mistake is 36.53% higher than that of the traditional correction system.
Keywords: automatic correction; English pronunciation; system design; DTW algorithm; program design; system testing
隨著對(duì)計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)需求的提高,發(fā)音錯(cuò)誤自動(dòng)校正系統(tǒng)的研究也越來(lái)越受到人們的重視[1?3]。針對(duì)傳統(tǒng)英語(yǔ)發(fā)音錯(cuò)誤自動(dòng)校正系統(tǒng)存在的其他數(shù)據(jù)信息干擾、多種語(yǔ)音混淆、雜音無(wú)法徹底消除、語(yǔ)音識(shí)別混亂等問(wèn)題,本文將DTW算法應(yīng)用到英語(yǔ)發(fā)音錯(cuò)誤自動(dòng)校正系統(tǒng)設(shè)計(jì)中對(duì)英語(yǔ)發(fā)音進(jìn)行在線語(yǔ)音識(shí)別,將一些常用詞匯語(yǔ)音識(shí)別應(yīng)用在特定的環(huán)境中,解決人們生活中的難題。
1? 英語(yǔ)發(fā)音錯(cuò)誤自動(dòng)校正系統(tǒng)硬件設(shè)計(jì)
1.1? 語(yǔ)音識(shí)別傳感器優(yōu)化設(shè)計(jì)
語(yǔ)音識(shí)別傳感器是利用二極管完成語(yǔ)音識(shí)別,將英語(yǔ)發(fā)音轉(zhuǎn)換成數(shù)字信號(hào)。目前應(yīng)用最廣泛的語(yǔ)音識(shí)別傳感器是CMOS傳感器和CCD傳感器。CMOS傳感器中每一個(gè)二級(jí)管都會(huì)連接一個(gè)識(shí)別器和轉(zhuǎn)換電路,采用類(lèi)似內(nèi)存電路的方式將識(shí)別到的英語(yǔ)發(fā)音輸出[4];而CCD傳感器優(yōu)化了CMOS傳感器的內(nèi)部結(jié)構(gòu),只有一個(gè)識(shí)別器[5],每一個(gè)二極管的英語(yǔ)發(fā)音數(shù)據(jù)都會(huì)一次傳到下一個(gè)單元中,經(jīng)傳感器最底端的部分整合后輸出,最后經(jīng)過(guò)傳感器末端的識(shí)別器,識(shí)別成功后輸出[6]。
1.2? 發(fā)音識(shí)別處理器改進(jìn)設(shè)計(jì)
本文發(fā)音識(shí)別處理器在原優(yōu)化基礎(chǔ)上進(jìn)行改進(jìn)設(shè)計(jì),根據(jù)DTW算法完成英語(yǔ)發(fā)音的分析與識(shí)別,它強(qiáng)調(diào)的是英語(yǔ)語(yǔ)音處理的實(shí)時(shí)性。因此發(fā)音識(shí)別處理器除了具有普通處理器的控制功能和高速運(yùn)算外,還針對(duì)實(shí)時(shí)英語(yǔ)發(fā)音處理的要求,改進(jìn)了處理器機(jī)構(gòu)、指令系統(tǒng)和流程,提高了校正的準(zhǔn)確度[7]。DSP芯片的選擇對(duì)發(fā)音識(shí)別處理器的改進(jìn)設(shè)計(jì)也非常重要,不僅關(guān)系到英語(yǔ)發(fā)音的處理速度,還牽涉到處理器的改進(jìn)難度和進(jìn)程。
發(fā)音識(shí)別處理器的改進(jìn)要考慮芯片的處理速度和識(shí)別精度,對(duì)于一個(gè)自動(dòng)英語(yǔ)發(fā)音系統(tǒng)來(lái)講,發(fā)音識(shí)別的處理速度是最重要的,必須要求處理器在限定的時(shí)間內(nèi)完成相應(yīng)的處理任務(wù),否則就很難保證英語(yǔ)發(fā)音處理的實(shí)時(shí)性。發(fā)音識(shí)別處理器在設(shè)計(jì)時(shí),根據(jù)DTW算法以及處理的時(shí)間要求來(lái)決定處理器芯片的識(shí)別速度。一般情況下,浮點(diǎn)DSP芯片的英語(yǔ)發(fā)音識(shí)別精度要高于定點(diǎn)DSP芯片的英語(yǔ)發(fā)音識(shí)別精度,在英語(yǔ)發(fā)音錯(cuò)誤自動(dòng)校正方面具有較高的校正準(zhǔn)確率[8]。處理器芯片的內(nèi)部結(jié)構(gòu)圖如圖1所示。
基于英語(yǔ)發(fā)音錯(cuò)誤自動(dòng)校正的處理器芯片主要針對(duì)數(shù)據(jù)處理速度快、硬件資源廣的特點(diǎn),選擇滿足英語(yǔ)發(fā)音數(shù)據(jù)處理的處理器芯片。英語(yǔ)發(fā)音錯(cuò)誤自動(dòng)校正系統(tǒng)的大量運(yùn)算就是英語(yǔ)發(fā)音錯(cuò)誤的數(shù)據(jù)處理,因此考慮處理速度因素后,決定選擇TDSP?TF887作為處理器芯片的選擇方案[9]。發(fā)音識(shí)別處理器架構(gòu)是基于最佳代碼密度而設(shè)計(jì)的一種混合16/32位指令級(jí)架構(gòu),這種架構(gòu)適合于復(fù)雜英語(yǔ)發(fā)音錯(cuò)誤數(shù)據(jù)的處理能力,可以提高英語(yǔ)發(fā)音錯(cuò)誤自動(dòng)校正的準(zhǔn)確率。
以上針對(duì)原始語(yǔ)音識(shí)別傳感器的缺點(diǎn),優(yōu)化設(shè)計(jì)了傳感器的內(nèi)部結(jié)構(gòu),完成了語(yǔ)音識(shí)別傳感器的優(yōu)化設(shè)計(jì);又結(jié)合英語(yǔ)語(yǔ)音實(shí)時(shí)處理的要求,選擇合適的處理器芯片,加快識(shí)別的速度和精度,完成發(fā)音識(shí)別處理的改進(jìn)設(shè)計(jì),從而實(shí)現(xiàn)了系統(tǒng)的硬件設(shè)計(jì)。
2? 英語(yǔ)發(fā)音錯(cuò)誤自動(dòng)校正系統(tǒng)軟件設(shè)計(jì)
2.1? 英語(yǔ)發(fā)音采集程序設(shè)計(jì)
英語(yǔ)發(fā)音錯(cuò)誤信號(hào)采集是英語(yǔ)發(fā)音錯(cuò)誤自動(dòng)矯正系統(tǒng)的第一個(gè)過(guò)程,該采集程序可以自動(dòng)搜索出發(fā)音錯(cuò)誤的語(yǔ)音信號(hào),不僅提高了英語(yǔ)發(fā)音錯(cuò)誤的校正效率,還提高了校正的精準(zhǔn)度。如果程序中沒(méi)有語(yǔ)音設(shè)備,系統(tǒng)就會(huì)顯示參數(shù)錯(cuò)誤[10]。所以在程序運(yùn)行前安裝語(yǔ)音設(shè)備在安裝語(yǔ)音設(shè)備的基礎(chǔ)上,將英語(yǔ)發(fā)音錯(cuò)誤信號(hào)參數(shù)初始化,確保接收到的英語(yǔ)發(fā)音是系統(tǒng)支持的格式。為識(shí)別到的英語(yǔ)發(fā)音緩沖區(qū)分配儲(chǔ)存空間,開(kāi)始計(jì)算錯(cuò)誤信號(hào)參數(shù),最后停止信號(hào)采集[11?12]。英語(yǔ)發(fā)音采集程序運(yùn)行流程如圖2所示。
2.2? 提取英語(yǔ)發(fā)音錯(cuò)誤信號(hào)參數(shù)
如何提取發(fā)音錯(cuò)誤信號(hào),以及提取的參數(shù)內(nèi)容,都會(huì)影響系統(tǒng)的校正準(zhǔn)確度[13]。提取英語(yǔ)發(fā)音錯(cuò)誤信號(hào)參數(shù)得到有價(jià)值的英語(yǔ)發(fā)音錯(cuò)誤信息,從而可以確保校正的準(zhǔn)確度。具體提取步驟如下:
1) 首先將采集到的英語(yǔ)發(fā)音錯(cuò)誤信號(hào)進(jìn)行預(yù)加重、分幀、加窗處理,其中英語(yǔ)發(fā)音錯(cuò)誤信號(hào)的采樣點(diǎn)數(shù)為256,之后對(duì)其進(jìn)行傅里葉變換得到錯(cuò)誤信號(hào)的頻譜。
2) 求英語(yǔ)發(fā)音錯(cuò)誤信號(hào)的功率譜。
3) 將求得的功率譜進(jìn)行梅爾濾波器運(yùn)算,得到一個(gè)運(yùn)算結(jié)果,將結(jié)果取對(duì)數(shù)得到一個(gè)對(duì)數(shù)頻譜。
4) 將得到的對(duì)數(shù)頻譜進(jìn)行由時(shí)域到頻域的變化,用于錯(cuò)誤信號(hào)的離散余弦變換[14],公式如下:
[Cn=Smcosπnm+0.5M] (1)
式中:[Sm]表示對(duì)數(shù)頻譜;[cosπnm+0.5M]為錯(cuò)誤信號(hào)的離散余弦變換。
5) 將每一幀發(fā)音錯(cuò)誤信號(hào)都采用上述特征提取,得到一個(gè)最有價(jià)值的英語(yǔ)發(fā)音錯(cuò)誤信號(hào)。
英語(yǔ)發(fā)音錯(cuò)誤信號(hào)的提取可以通過(guò)計(jì)算錯(cuò)誤信號(hào)的功率譜,實(shí)現(xiàn)英語(yǔ)發(fā)音錯(cuò)誤的自動(dòng)校正,降低計(jì)算復(fù)雜程度的同時(shí),也提高了英語(yǔ)發(fā)音錯(cuò)誤的校正準(zhǔn)確率[15]。綜上所述,依托語(yǔ)音識(shí)別傳感器優(yōu)化設(shè)計(jì)和發(fā)音識(shí)別處理器改進(jìn)設(shè)計(jì),完成了系統(tǒng)的硬件設(shè)計(jì);基于英語(yǔ)發(fā)音采集程序設(shè)計(jì)和提取英語(yǔ)發(fā)音錯(cuò)誤信號(hào)參數(shù),完成了系統(tǒng)的軟件設(shè)計(jì),在DTW算法基礎(chǔ)上,實(shí)現(xiàn)了英語(yǔ)發(fā)音錯(cuò)誤自動(dòng)校正系統(tǒng)設(shè)計(jì)。
3? 系統(tǒng)測(cè)試
3.1? 設(shè)定實(shí)驗(yàn)參數(shù)
為了驗(yàn)證基于DTW算法的英語(yǔ)發(fā)音錯(cuò)誤自動(dòng)校正系統(tǒng)對(duì)英語(yǔ)發(fā)音錯(cuò)誤校正的準(zhǔn)確度,選擇牛津大學(xué)出版社的英語(yǔ)詞典,里面包含23 156個(gè)詞語(yǔ),包括32篇英語(yǔ)發(fā)音適讀文章和18篇測(cè)試資料。設(shè)置如下參數(shù):英語(yǔ)發(fā)音的振動(dòng)音頻在[-100,100]之間;衡量英語(yǔ)發(fā)音的有效參數(shù)[wn=11]為8.5;[max X]的極限值分別為3.2,3.6,4.0,4.2。
3.2? 構(gòu)建英語(yǔ)發(fā)音數(shù)據(jù)庫(kù)
英語(yǔ)發(fā)音數(shù)據(jù)庫(kù)是校正系統(tǒng)的輸入內(nèi)容,包括標(biāo)準(zhǔn)發(fā)音數(shù)據(jù)庫(kù)、詞典數(shù)據(jù)庫(kù)和待測(cè)語(yǔ)音庫(kù)。詞典數(shù)據(jù)庫(kù)采用BEEP數(shù)據(jù)庫(kù),將英語(yǔ)發(fā)音數(shù)據(jù)庫(kù)設(shè)置成開(kāi)放式,所有人均可提交英語(yǔ)發(fā)音內(nèi)容并擴(kuò)展。
為了評(píng)價(jià)基于DTW算法的英語(yǔ)發(fā)音錯(cuò)誤自動(dòng)校正系統(tǒng)的校正準(zhǔn)確度,引入準(zhǔn)確率和召回率來(lái)衡量英語(yǔ)發(fā)音錯(cuò)誤自動(dòng)校正的準(zhǔn)確度,準(zhǔn)確率和召回率公式如下:
[準(zhǔn)確率=查找出真正錯(cuò)誤的個(gè)數(shù)查找到英語(yǔ)發(fā)音錯(cuò)誤總數(shù)×100%]? (2)
[召回率=查找出真正錯(cuò)誤的個(gè)數(shù)待校正英語(yǔ)發(fā)音中的錯(cuò)誤個(gè)數(shù)×100%] (3)
3.3? 實(shí)驗(yàn)結(jié)果
利用上述指標(biāo),在英語(yǔ)發(fā)音數(shù)據(jù)庫(kù)中完成系統(tǒng)測(cè)試實(shí)驗(yàn),結(jié)果如圖3所示。從圖3可以看出,傳統(tǒng)校正系統(tǒng)對(duì)英語(yǔ)發(fā)音錯(cuò)誤的校正準(zhǔn)確率和召回率都很低,英語(yǔ)發(fā)音錯(cuò)誤自動(dòng)校正的準(zhǔn)確率最高只有62.6%,10次測(cè)試結(jié)果中,英語(yǔ)發(fā)音錯(cuò)誤自動(dòng)校正準(zhǔn)確率的平均值為59.02%;而采用基于DTW算法的英語(yǔ)發(fā)音錯(cuò)誤自動(dòng)校正系統(tǒng)對(duì)英語(yǔ)發(fā)音錯(cuò)誤的校正準(zhǔn)確率和召回率基本上都超過(guò)了90%,準(zhǔn)確率最高達(dá)到了96.3%,10次測(cè)試結(jié)果中,英語(yǔ)發(fā)音錯(cuò)誤自動(dòng)校正準(zhǔn)確率的平均值為92.99%。因此,可以得出基于DTW算法的英語(yǔ)發(fā)音錯(cuò)誤自動(dòng)校正系統(tǒng)可以提高英語(yǔ)發(fā)音錯(cuò)誤校正的準(zhǔn)確度。
4? 結(jié)? 語(yǔ)
本文提出基于DTW算法的英語(yǔ)發(fā)音錯(cuò)誤自動(dòng)校正系統(tǒng)設(shè)計(jì)。在完成硬件設(shè)計(jì)和軟件設(shè)計(jì)后,實(shí)現(xiàn)了基于DTW算法的校正系統(tǒng)設(shè)計(jì)。測(cè)試結(jié)果表明,該系統(tǒng)相比于傳統(tǒng)校正系統(tǒng)英語(yǔ)發(fā)音校正的準(zhǔn)確率提升了36.53%。
參考文獻(xiàn)
[1] 王興剛.英文發(fā)音中錯(cuò)誤語(yǔ)音自動(dòng)識(shí)別系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2018,41(10):179?182.
[2] 李春蘭.英語(yǔ)口語(yǔ)自動(dòng)發(fā)音校對(duì)系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2017,40(24):59?61.
[3] 趙丹,鐘楠.在線連續(xù)交互式英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2017,40(15):137?140.
[4] 田林,盛風(fēng)濤,黃天姿.基于4?氨基吖啶酮小分子傳感器的設(shè)計(jì)、合成及識(shí)別性能研究[J].化學(xué)試劑,2017,39(4):405?408.
[5] 李林,魏新華,毛罕平.冬油菜田雜草探測(cè)光譜傳感器設(shè)計(jì)與應(yīng)用[J].農(nóng)業(yè)工程學(xué)報(bào),2017,33(18):127?133.
[6] 李智,滕科嘉,李銳華.液氧煤油發(fā)動(dòng)機(jī)地面試驗(yàn)低溫壓力傳感器校準(zhǔn)系統(tǒng)設(shè)計(jì)[J].低溫工程,2017,11(6):56?62.
[7] 李功麗,戴紫彬.基于流體系架構(gòu)的分組密碼處理器設(shè)計(jì)[J].計(jì)算機(jī)研究與發(fā)展,2017,54(12):2824?2833.
[8] 王旭,付家為,何虎.混合架構(gòu)通用數(shù)字信號(hào)處理器設(shè)計(jì)[J].計(jì)算機(jī)工程與設(shè)計(jì),2017,38(1):70?74.
[9] 陳黎明,陳鋮穎,楊駿.用于智能傳聲器的低功耗語(yǔ)音降噪處理器設(shè)計(jì)[J].上海交通大學(xué)學(xué)報(bào),2018,52(9):1098?1103.
[10] 李明凱,劉鐵軍,周民.基于USB及CPLD的超聲信號(hào)采集器設(shè)計(jì)及應(yīng)用[J].儀表技術(shù)與傳感器,2018(5):86?90.
[11] 楊紅莉,曾憲陽(yáng),郁漢琪.高速攝像頭數(shù)據(jù)采集系統(tǒng)設(shè)計(jì)及算法研究[J].電子器件,2017,40(5):1161?1166.
[12] 苗海林,殷楠,李玉峰.多火災(zāi)危險(xiǎn)特征信息采集系統(tǒng)設(shè)計(jì)[J].船海工程,2018,47(6):108?110.
[13] 朱普茂,章鵬,丁頻一.馬丁代克深度輪誤差校正系統(tǒng)設(shè)計(jì)[J].傳感技術(shù)學(xué)報(bào),2017(6):867?871.
[14] 李維凱,張瑋,殷達(dá)鈺.CSRm束流累積階段閉軌校正系統(tǒng)設(shè)計(jì)[J].強(qiáng)激光與粒子束,2019,31(3):64?68.
[15] 沈凱,姚志成,何岷.彈載相控陣?yán)走_(dá)近場(chǎng)校準(zhǔn)系統(tǒng)設(shè)計(jì)研究[J].計(jì)算機(jī)仿真,2018,35(8):11?14.