米輝輝 李成偉
摘要:本文自建了語音數(shù)據(jù)庫,用于系統(tǒng)搭建中模型的訓(xùn)練和測試,設(shè)計并實現(xiàn)了一個英文語音撥號系統(tǒng),進(jìn)而實現(xiàn)了英文語音撥號應(yīng)用系統(tǒng)。本文重點(diǎn)設(shè)計并實現(xiàn)了一個英文語音撥號應(yīng)用系統(tǒng),該系統(tǒng)是一個連續(xù)語音識別系統(tǒng),能夠?qū)?-9英文數(shù)字串和5組人名進(jìn)行識別,具有一個人性化的人機(jī)交互界面,能對識別結(jié)果進(jìn)行實時顯示。性能測試表明系統(tǒng)對特定人取得了很好的識別效果:語句級識別率達(dá)到了80%,字詞級的識別率達(dá)到了100%。
關(guān)鍵詞:語音識別;隱馬爾科夫模型;語音撥號系統(tǒng)
1 引言
本文自建了語音數(shù)據(jù)庫,用于系統(tǒng)搭建中模型的訓(xùn)練和測試,設(shè)計并實現(xiàn)了一個英文語音撥號系統(tǒng),進(jìn)而實現(xiàn)了英文語音撥號應(yīng)用系統(tǒng)。本文重點(diǎn)設(shè)計并實現(xiàn)了一個英文語音撥號應(yīng)用系統(tǒng),該系統(tǒng)是一個連續(xù)語音識別系統(tǒng),能夠?qū)?-9英文數(shù)字串和5組人名進(jìn)行識別,具有一個人性化的人機(jī)交互界面,能對識別結(jié)果進(jìn)行實時顯示。性能測試表明系統(tǒng)對特定人取得了很好的識別效果:語句級識別率達(dá)到了80%,字詞級的識別率達(dá)到了100%。
2系統(tǒng)結(jié)構(gòu)及實現(xiàn)
2.1 基于ATK的實時語音撥號系統(tǒng)的設(shè)計與實現(xiàn)
本系統(tǒng)是一個實時英文語音撥號應(yīng)用系統(tǒng),其搭建過程可以分為兩大步:1、基于HTK(Hidden Markov Model Toolkit)的撥號系統(tǒng)的搭建;2、使用基于HTK的撥號系統(tǒng)的任務(wù)語法文件、任務(wù)字典文件、模型列表文件和模型文件,在Microsoft Visual Studio 2010平臺下運(yùn)用ATK工具箱進(jìn)行編程,實現(xiàn)識別結(jié)果的實時顯示,并且能夠?qū)ο到y(tǒng)工作過程進(jìn)行監(jiān)控。
2.1.1 ATK語音識別系統(tǒng)結(jié)構(gòu)
使用ATK搭建的語音識別應(yīng)用系統(tǒng)結(jié)構(gòu)如圖2-2所示。
在基于HTK的英文語音撥號系統(tǒng)的基礎(chǔ)上,使用ATK工具箱在VISUAL STUDIO 2010平臺下編程實現(xiàn)本系統(tǒng)。
在系統(tǒng)運(yùn)行界面,在cmd命令框中輸入命令,進(jìn)入debug文件夾,輸入命令:TREC –C 參數(shù)文件即可進(jìn)入本英文語音撥號應(yīng)用系統(tǒng),系統(tǒng)運(yùn)行界面如圖2-3所示。
圖2-3中,AREC識別窗口,能夠?qū)ψR別結(jié)果進(jìn)行實時顯示。在AREC窗口底部,還能顯示識別器狀態(tài)、識別時間、目前最匹配的模型、活躍的模型數(shù)目等參數(shù)。ACODE窗口能夠顯示語音數(shù)據(jù)被轉(zhuǎn)化成為特征參數(shù)的情況。MONITOR窗口是系統(tǒng)監(jiān)視器,能夠監(jiān)視系統(tǒng)各模塊的工作情況。
2.1.2 系統(tǒng)性能分析
本系統(tǒng)是一個英文語音撥號應(yīng)用系統(tǒng),能夠連續(xù)識別0-9英文數(shù)字串以及5組英文人名,并能夠?qū)ψR別結(jié)果進(jìn)行實時顯示。特別地,本系統(tǒng)是針對音素進(jìn)行建模,因此添加一個新的電話號碼無需更新系統(tǒng),而添加新的人名也只需更新相應(yīng)的任務(wù)字典和任務(wù)語法,系統(tǒng)的可擴(kuò)充能力強(qiáng)。本系統(tǒng)具有靈活的撥號語法,典型的撥號語句是DIAL+電話號碼和CALL或PHONE+人名,特別地,運(yùn)用人名進(jìn)行撥號時,既可以叫全名也可以只叫姓,符合人們的生活習(xí)慣,具有較強(qiáng)的實用性。識別結(jié)果顯示界面如圖2-4所示。
在圖2-4中,系統(tǒng)對4句撥號語句進(jìn)行了連續(xù)識別,其中一句基于數(shù)字的撥號,3句基于人名的撥號,均正確識別并顯示。并且系統(tǒng)具有較快的反應(yīng)速度,進(jìn)行實時識別時,系統(tǒng)延時不明顯。
本系統(tǒng)的識別效果可用HRESULTS函數(shù)來進(jìn)行評價,運(yùn)行HRESULTS函數(shù),得圖2-5結(jié)果顯示。
由圖2-5可知,本系統(tǒng)的語句級的識別率達(dá)到了80%,而單詞級的識別率則達(dá)到了100%,可見系統(tǒng)達(dá)到了很好的識別效果。值得注意的是,該結(jié)果是在較為安靜的實驗室環(huán)境下錄制的測試數(shù)據(jù)所得到了識別率,在噪聲較大的環(huán)境下,系統(tǒng)的識別效果將有所下降。因此,本系統(tǒng)的抗噪聲干擾能力有待加強(qiáng)
3 本文小結(jié)
本文介紹了基于ATK的英文語音撥號系統(tǒng)的設(shè)計與實現(xiàn),并對系統(tǒng)的性能進(jìn)行了分析。本系統(tǒng)是一個英文語音撥號應(yīng)用系統(tǒng),能夠連續(xù)識別0-9英文數(shù)字串以及5組英文人名。本系統(tǒng)具有良好的人機(jī)交互界面,能夠?qū)ψR別結(jié)果進(jìn)行實時顯示,系統(tǒng)的反應(yīng)較快,具有很小的識別延時。經(jīng)測試,本系統(tǒng)取得了較好的識別效果,語句級的識別率達(dá)到了80%,而字詞級的識別率則達(dá)到了100%。
參考文獻(xiàn)
[1] Daniel Jurafsky,James H. Martin. Speech and Language Processing:An Introduction to Natural Language Process,Computational Linguistics,and Speech Recognition [M]. Second Edition. POSTS & TELECOM PRESS,2010:35-49,319-321
[2] 劉幺和,宋庭新. 語音識別與控制應(yīng)用技術(shù)[M]. 科學(xué)出版社,2008:2-10
[3] 趙力. 語音信號處理[M]. 第2版. 機(jī)械工業(yè)出版社,2009:1-4
[4] 李宏梅,伍小芹. 有關(guān)語音識別技術(shù)的研究[J]. 現(xiàn)代電子技術(shù). 2010,33(8):138-139
[5] 王炳錫,屈丹,彭煊. 實用語音識別基礎(chǔ)[M]. 國防工業(yè)出版社,2005:180-181
[6] 韓紀(jì)慶,張磊,鄭鐵然. 語音信號處理[M]. 清華大學(xué)出版社,2004:1-6
[7] 趙博. 語音識別應(yīng)用于計算機(jī)輔助語言學(xué)習(xí)的研究[D]. 上海交通大學(xué)碩士學(xué)位論文. 2009:1-2,13-14
[8] http://htk.eng.cam.ac.uk/
[9]張強(qiáng),陶宏才. 基于HTK的語音識別語言模型設(shè)計及性能分析[J]. 成都信息工程學(xué)院學(xué)報. 2009,24(2):142-143
[8] 劉盈. 大詞表連續(xù)語音識別系統(tǒng)的研究與實現(xiàn)[D]. 清華大學(xué)工學(xué)碩士學(xué)位論文,2005:2-3
[9] 楊行峻,遲惠生. 語音信號數(shù)字處理[M]. 電子工業(yè)出版社,1995:330-335
(作者單位:國網(wǎng)四川省電力公司檢修公司)