基于HMM的連續(xù)語音識別系統(tǒng)的構(gòu)建與研究
劉妍秀,付海東
(長春大學(xué)教務(wù)處,長春130022)
摘要:通過闡述連續(xù)語音識別系統(tǒng)的結(jié)構(gòu)組成,根據(jù)一般的語音識別流程,采用HTK工具應(yīng)用HMM方法,設(shè)計并實現(xiàn)了一個連續(xù)語音識別系統(tǒng)。通過該系統(tǒng)進行連續(xù)語音識別測試及分析。
關(guān)鍵詞:HMM;連續(xù)語音識別;HTK
收稿日期:2014-11-12
基金項目:吉林省科技廳自然科學(xué)
作者簡介:劉妍秀(1984-),女,吉林長春人,實驗師,碩士,主要從事計算機語音識別方面的研究。
中圖分類號:TP912.32文獻標(biāo)志碼:A
在各種交流方式中,最為快捷的方式就是用語音進行交流。一直以來,人們最大的夢想就是能與所使用的設(shè)備直接進行語音交流,期望使用語音作為一種接口,通過語音命令讓設(shè)備完成相應(yīng)的動作。語音技術(shù)就是通過對人類的語音信號信息進行一系列的處理,讓這些設(shè)備和機器能夠正確識別和理解[1]。隨著語音識別的應(yīng)用需求不斷增加,語音識別技術(shù)正逐步成為人機交互中的關(guān)鍵技術(shù)。本文構(gòu)建的語音識別系統(tǒng)是非特定人、大詞匯量、基于隱馬爾可夫模型的連續(xù)語音識別系統(tǒng)。系統(tǒng)在linux系統(tǒng)下使用HTK開發(fā)工具建立連續(xù)語音識別模型,通過該系統(tǒng)進行連續(xù)語音識別的測試及分析。
1系統(tǒng)的結(jié)構(gòu)組成
語音識別系統(tǒng)的一般流程主要分為建模過程和識別過程,圖1描述了語音識別系統(tǒng)的一般流程,首先對語音進行信號處理并提取語音特征,建模時對語音特征進行分類,識別時將待識別特征與模型進行對比得到分析結(jié)果。圖1中虛線以上描述的是建模部分,虛線以下描述的是識別部分[2]。
圖1 語音識別系統(tǒng)的結(jié)構(gòu)組成
我們的識別系統(tǒng)是一個獨立于說話人的、大詞匯量的、基于隱馬爾可夫模型的連續(xù)語音識別系統(tǒng)。整個系統(tǒng)使用HTK來建立語音識別模型,HTK是一種基于HMM的語音處理工具。利用HTK通過一系列的修改和演進,使得識別系統(tǒng)的性能得到了大幅度提升。
整個系統(tǒng)的工作流程有以下4個步驟:第一,準(zhǔn)備數(shù)據(jù)也稱預(yù)處理。是對音頻數(shù)據(jù)進行音素級的標(biāo)注,先將連續(xù)語音發(fā)音的羅馬字用perl腳本工具和Hled進行標(biāo)注,再用輔助工具將各個音素的開始幀與結(jié)束幀進行劃分,并存儲在文件中。第二,特征提取。編碼實現(xiàn)信號處理,信號增強,補償和降噪處理等技術(shù),并形成物理音素的三元音素網(wǎng)絡(luò)。第三,聲學(xué)建模。是通過三元音素網(wǎng)絡(luò)和語音的MFCC一起訓(xùn)練得到,并且融合高斯混合數(shù)進來進行狀態(tài)分類,最終得到約有2000個狀態(tài)的HMM聲學(xué)模型。第四,語音識別。用語音識別引擎julius進行語音識別[3]。
圖2顯示的是連續(xù)語音識別系統(tǒng)的結(jié)構(gòu)。整個系統(tǒng)是由很多模塊構(gòu)成的, 這些模塊通過一組參數(shù)文件相結(jié)合。整個系統(tǒng)大致可以分為四個部分:數(shù)據(jù)準(zhǔn)備部分提供語音文件和與語音對應(yīng)的文本文件;特征提取部分為MFCC特征提取以及語音信號去噪;訓(xùn)練部分為根據(jù)音素列表和MFCC特征生成聲學(xué)模型;識別部分使用JULIUS進行模型測試。
圖2 連續(xù)語音識別系統(tǒng)的結(jié)構(gòu)
2模型建立
連續(xù)語音識別聲學(xué)模型的建立采用比較流行的HMM方式,建模時選取音素而不是音節(jié)作為訓(xùn)練的基本單位,音素與發(fā)音標(biāo)注并不相同,可以用英語中的音標(biāo)與形成單詞的字母來進行類比,音素是根據(jù)語言學(xué)特點對發(fā)音進行的定義,而不是單純的拼寫。在日語發(fā)音中,音素有40個,在訓(xùn)練時根據(jù)實際情況引入了三個無音部分作為無音音素,分別為語音開始前、后的靜音部分和連續(xù)語音中間由于人為思考、換氣等原因產(chǎn)生的停頓無音部分,在音素中分別標(biāo)記為SliB,SliE和sp[4]。所以最終參與建模的單音素共有43個。
連續(xù)語音識別模式為上下文文本相關(guān)模式,其原因在于連續(xù)語音的發(fā)音逼近收到外界的干擾,在發(fā)音過程中的相鄰音素之間還會相互干擾。為了減少相鄰發(fā)音之間的相互干擾,需要使用三音素模型來進行分析。三音素就是判斷發(fā)音時以三個音素中間的音素為中心音素,并依據(jù)該音素的前后發(fā)音作為中心音素模型左右音素,將三個合成一個單元作為模型建立的依據(jù),把這種方式稱為三音素模型。在連續(xù)語音識別中,該方法能增加模型的魯棒性。
其缺點是由于連續(xù)語音發(fā)音的多樣性導(dǎo)致三音素模型會以立方級水平增加,不利于最后識別模型的建立,因此還要考慮將相同類型的三音素模型進行狀態(tài)捆綁,這是根據(jù)經(jīng)驗和實驗得出的。這個操作通過對所有的三音素模型進行多次訓(xùn)練,利用HEEd工具函數(shù)和決策樹文件得到。
為了得到更加精確的聲學(xué)模型,我們用到了很多種狀態(tài)參數(shù)。任意數(shù)量的混合狀態(tài)和單因素模型都可以在聲學(xué)模型中使用。其中一種被稱為高斯混合數(shù)的方法被用于進一步減少聲學(xué)模型的計算成本。額外的單音素HMM被用于稀疏狀態(tài)的預(yù)選擇。首先,計算在每一幀中與聲學(xué)模型的相似性。 然后計算與單音素狀態(tài)相匹配的稀疏狀態(tài)。最后,通過未選中的狀態(tài)可以推出單音素自身的概率[5]。
3訓(xùn)練過程
本系統(tǒng)中的語法定義按照日語特有的語法結(jié)構(gòu)對發(fā)音進行約束來進行處理的。為了方便HTK進行語音識別,還需要對語法定義文件進行格式轉(zhuǎn)換的處理。圖3中顯示的是將語法定義文件轉(zhuǎn)化為SLF文件。依據(jù)此文件可以得到音素之間的狀態(tài)轉(zhuǎn)換關(guān)系。
我們將每個音素相鄰的左右音素也就是上下文文本組合在一起形成一個物理三音素模型,進行標(biāo)記,該三音素根據(jù)發(fā)音的前后建立三音素隱馬爾可夫模型。圖4中顯示的是部分三音素HMM標(biāo)注圖。
圖3 底層SLF格式圖
圖4 三音素HMM標(biāo)注圖
4系統(tǒng)的數(shù)據(jù)源
系統(tǒng)建模語音數(shù)據(jù)來源與日文標(biāo)準(zhǔn)語音庫語JNAS(Japanese news article sentences)數(shù)據(jù)庫,該庫中數(shù)據(jù)內(nèi)容由男女播音員朗讀,朗讀的文本資料源自報紙《每日新聞》,男女各153人共朗讀2萬3千多個句子,發(fā)音均為日語標(biāo)準(zhǔn)發(fā)音。
5識別結(jié)果及分析
在識別過程使用本文提出的方法,在JULIUS中定義詞典和語言模型,采用兩次搜索的方式對識別結(jié)果進行匹配,第一遍根據(jù)MFCC特征與模型進行匹配搜索,生成音素級的文本,第二遍搜索根據(jù)詞典和語言模型生成最終的結(jié)果,圖5顯示的是整個語音的識別流程。
圖5 識別流程
該結(jié)果與正確的參考文本進行比較計算最終的識別正確率,識別精度,刪除性錯誤,插入性錯誤和子詞錯誤的百分比,從而實現(xiàn)對連續(xù)語音識別的測試及分析。
6結(jié)語
非特定人、大詞匯量和連續(xù)語音這三個難題,在同一系統(tǒng)下要求解決從語音特征的精確化到更多的從整體的角度考慮建立最佳的語音識別系統(tǒng)。據(jù)此,從前端信號處理(濾波器設(shè)計),中間模型建立(隱馬爾可夫模型 Hidden Markov Model HMM),識別過程(算法設(shè)計)這三個方面來進行綜合考慮,針對本文應(yīng)用的方法可以根據(jù)以上三個方面做進一步的改進。
參考文獻:
[1]韓紀(jì)慶,張磊,鄭鐵冉.語音信號處理[M].北京:清華大學(xué)出版社,2004.
[2]袁里馳.基于改進的隱馬爾科夫模型的語音識別方法[J].中南大學(xué)學(xué)報,2008,39(6):23-26.
[3]A.De la Torre,A.M.Peinado,J.C. Segura,J.L.Perez-Cordoba,M.C.Benitez and A.J.Rubio,Histogram equalization of speech representation for robust speech recognition [J].IEEE Transactions on Acoustics, Speech and Signal Processing, Mar,2005,50(8):355-366.
[4]蔡琴.基于HTK的維吾爾語連續(xù)數(shù)字語音識別研究[D].烏魯木齊:新疆大學(xué),2007.
[5]金銀燕,于鳳琴,何艷.基于時頻分布與MFCC 的說話人識別[J].計算機系統(tǒng)應(yīng)用,2012,21(4):189-190.
責(zé)任編輯:吳旭云
Construction and Research of a Continuous Speech Recognition System Based on HMM
LIU Yanxiu, FU Haidong
(Academic Affairs Office, Changchun University, Changchun 130022,China)
Abstract:Through describing the structural composition of the continuous speech recognition system, according to the general speech recognition process, this paper uses the HMM tool application methods of HTK to design and implement a continuous speech recognition system. Continuous speech recognition test and analysis are made by the system.
Keywords:HMM;continuous speech recognition; HTK