王彪
(寶雞文理學院 數學系,陜西 寶雞 721013)
語音識別(speech recognition)是機器通過識別和理解過程把人類的語音信號轉變?yōu)橄鄳奈谋净蛎畹募夹g。其根本目的是研究出一種具有聽覺功能的機器,這種機器能直接接受人的語音,理解人的意圖,并做出相應的反映[1]。
隨著計算機和語音處理技術的發(fā)展,語音識別技術已成為目前世界上最熱門的技術之一。它以語音為研究對象,涉及多個學科,目前發(fā)展已經相當成熟。但它仍然面臨很多問題,嚴重制約其發(fā)展。不過,隨著語音識別技術的不斷發(fā)展,相信問題將會逐漸得到解決,從而反過來也會促使語音識別技術不斷完善,使其在我們的日常生活中發(fā)揮越來越重要的作用。例如:語音撥號系統、信息網絡查詢系統、旅游業(yè)及服務業(yè)的各種查詢系統、車用導航系統、家用電器遙控系統、語音訂票系統等等,這些領域都離不開語音識別技術。
為了能夠達到識別簡單語音的要求,筆者設計了一個基于LPCC參數的語音識別系統。該系統包含以下幾個主要功能:錄制語音、播放語音、預處理、分段濾波、特征提取和識別語音。 最后以“0,1,2,3,4,5,6,7,8,9”10 個語音為例進行仿真實驗,實驗驗證了本系統基本能夠實現識別簡單語音的任務,取得了預期的結果。
線性預測倒譜參數(LPCC)[2]是線性預測系數(LPC)在倒譜域中的表示。該特征是基于語音信號為自回歸信號的值時,利用線性預測分析獲得倒譜系數。該特征是基于語音信號為自回歸信號的值時,利用線性預測分析獲得倒譜系數。LPCC參數的優(yōu)點是計算量小,易于實現,對元音有較好的描述能力,其缺點在于對輔音的描述能力差,抗噪聲性能較差。
由于通過自相關法求得的LPC系數保證了系統的穩(wěn)定性,使得式(1)所對應的聲道模型傳輸函數具有最小相位。
利用這一特點,可以推導出語音信號的倒譜和LPC系數之間的遞推關系:
或是由LPC得到
根據同態(tài)處理的概念和語音信號產生的模型,語音信號的倒譜 c(n)等于激勵信號的倒譜e^(n)與聲道傳輸函數的倒譜h^(n)之和。通過分析激勵信號的語音特點以及聲道傳輸函數的零極點分布情況,可知e^(n)的分布范圍很寬,c(n)從低時域延伸到高時域,而h^(n)主要分布于低時域中。語音信號所攜帶的語義信息主要體現在聲道傳輸函數上,因而在語言識別中通常取語音信號倒譜的低時域構成LPC倒譜特征c,即
式中,q為LPC倒譜特征的階數。
文中設計了一個基于MFCC參數的語音識別系統,其基本能夠識別簡單的語音單元。該系統主要功能有錄制語音、播放語音、預處理、分段濾波、特征提取和識別語音。平臺功能劃分如圖1所示。
圖1 系統功能模塊圖Fig.1 Module chart of system function
根據本系統的各個功能,將其分成3個大的核心模塊。分別是采集模塊、處理模塊和識別模塊。
1)錄制語音 通過麥克風錄入聲音,并保存為.wav的格式,以備后用。
用函數 wavrecord錄制語音,然后用函數wavwrite(y,filename)將變量y中儲存的數據寫入名為filename的WAVE文件中。
2)播放語音 播放已錄制的語音WAVE文件,并輸出其波形圖和語譜圖。
在此,用wavread和sound函數分別讀取、播放語音。求取波形圖和語譜圖時,要用到length函數和FFT變換。通過波形圖和語譜圖能夠得到語音信號的時域和頻域信息,把此二者結合起來能夠比較準確的判斷其頻率、能量等有用信息,從而為后續(xù)的處理提供可靠的數據基礎。
1)預處理 對前面錄制的語音信號進行去除噪聲和端點檢測處理,為后續(xù)工作提供更加清晰有效的信號。即去除語音信號在產生、傳輸及接收的過程中所污染到噪聲;端點檢測就是找到信號中有用的語音成分。這些工作都是語音信號處理工作所不可缺少的重要環(huán)節(jié)。
2)分段濾波 對經預處理后語音信號進行分段濾波,將不同頻率的語音信號分離開,從而能夠更好的識別語音信號。本文用濾波器組將語音信號分成M個子帶信號[3],根據每個子帶信號所具有的能量的不同,也即“重要性”不同,而進行不同的對待和處理。
3)特征提取 語音的特征參數能有效地體現說話人語音所包含的與其他說話人不同的特點,它在整個識別過程中起著至關重要的作用。文中提取語音信號的LPCC參數[4],以表征段語音,為后面的識別工作提供一個較為可靠的參考數據。
1)模式匹配 新錄入的語音經特征提取后,將其特征參數與數據庫中參考模板的特征參數按照某種原則進行匹配比較,找出相似度最高、失真率最低的參考模板所對應的語音,此語音即為識別結果。
2)輸出結果 輸出前面的識別結果。輸出結果有兩種,待識別語音特征參數與數據庫中模板特征參數的相似度符合條件,則可以識別,輸出識別結果,如:待識別語音為“1”;否則,輸出“庫中無此語音!”。
1)語音模板的獲取
運用系統的采集模塊錄制一個普通男聲聲音,錄制“0,1,2,3,4,5,6,7,8,9”10 個語音為實驗對象, 分別命名為0a.wav、1a.wav、2a.wav、3a.wav、4a.wav、5a.wav、6a.wav、7a.wav、8a.wav、9a.wav。分析處理后,提取特征參數[5],經過模板訓練,為10個語音分別選取最合適的語音作為模板,存入數據庫建立參考模型庫。
2)待測語音的獲取
類似, 錄制一組普通男聲的聲音, 同樣為“0,1,2,3,4,5,6,7,8,9”10 個語音,作為 10 個待測語音信號。分別命名為0b.wav、1b.wav、2b.wav、3b.wav、4b.wav、5b.wav、6b.wav、7b.wav、8b.wav、9b.wav。
3)語音識別
用文中的方法對10個待測語音進行識別。首先讀入語音信號的wav文件,用函數wavread來完成;其次,對讀入信號進行端點檢測,應用函數vad來處理;再次,提取其LPCC參數作為特征參數,并將所有特征參數分別存入到參考模板的結構數組中或待測語音的結構數組中。接下來,要求得所有待測語音和參考模板之間的距離,以進行模式匹配,并將這些距離存入矩陣dist,然后用函數min找出最小累積距離,其對應的模板即為所要的識別結果。
仿真實驗結果如圖2所示。
從上圖中可以看出,程序完成了任務要求,獲得了正確的識別結果。進而表示本系統的識別模塊能較好的完成識別簡單語音的任務。
文中首先介紹了LPCC參數[6-7],然后敘述了文中語音識別系統的各個功能模塊,并對各個模塊進行詳細設計,最后通 過 實 驗 驗 證 本 文 系 統 的 可 行 性 。 以 “0,1,2,3,4,5,6,7,8,9”10 個語音為例,錄制多組語音,從中選定參考模板和待測語音,用本系統對待測語音進行識別,從程序的輸出結果可以看出,識別得到了正確的結果。這充分說明了本系統能夠完成識別簡單語音的任務。
圖2 語音識別結果Fig.2 Speech recognition result
盡管本系統也存在一定的不足之處,如:對于整句語音不能很好處理,并且在復雜環(huán)境下(較高噪聲時)也存在一定的局限性,這都是亟待改進的地方。
[1]韓紀慶,張磊,鄭鐵然.語音信號處理[M].北京:清華大學出版社,2004.
[2]王炳錫,屈丹,彭煊,等.實用語音識別基礎[M].北京:國防工業(yè)出版社,2005.
[3]秦毅,秦樹人,毛永芳.連續(xù)小波變換快速帶通濾波實現算法的研究[J].振動與沖擊,2008,27(12):23-27.
QIN Yi,QIN Shu-ren,MAO Yong-fang.Fash algorithm for continuous wavelet transform based on band-pass filtering[J].Journal of Vibration and Shock,2008,27(12):23-27.
[4]陳杰,張玲華,吳璽宏.基于小波包一LPCC的說話人識別特征參數 [J].南京郵電大學學報:自然科學版,2007,27(6):54-56.
CHEN Jie,ZHANG Ling-hua,WU Xi-hong. Feature extraction based on waveletpacket-LPCC in speaker recognition[J].Journal of Nanjing University of Post and Telecommunications:Natrtal Science, 2007,27(6):54-56.
[5]李萓.語音特征參數提取方法研究[D].西安:西安電子科技大學,2006.
[6]榮薇,陶智,顧濟華,等.基于改進LPCC和MFCC的漢語耳語音識別[J].計算機工程與應用, 2007,43(30):213-216.
RONG Wei,TAO Zhi,GU Ji-hua,et al.Identification of Chinese whispered speech based on modified LPCC and MFCC[J].Computer Engineering and Applicafiom,2007,43(30):213-216.
[7]余建潮,張瑞林.基于MFCC和LPCC的說話人識別[J].計算機工程與設計,2009,30(5):1189-1191.
YU Jian-chao,ZHANG Rui-1in.Speaker recognition method using MFCC and LPCC features[J].Computer Engineering and Design,2009,30(5):1189-1191.