田雪陽(yáng)+楊宇++劉子寒+李淵
LI Yuan
(上海電機(jī)學(xué)院,上海 201306)
(Shanghai Dianji University,Shanghai 201306,China)
摘要:在基于虛擬儀器LabVIEW的環(huán)境中,通過(guò)與MATLAB相結(jié)合設(shè)計(jì)一個(gè)語(yǔ)音識(shí)別登陸系統(tǒng),對(duì)電腦聲卡采集到的語(yǔ)音信號(hào)進(jìn)行處理分析,提取聲音的特征參數(shù)Mel倒譜系數(shù)并保存,然后通過(guò)矢量量化的模式匹配來(lái)進(jìn)行身份確認(rèn)。
Abstract: The whole study is based on virtual instrument LabVIEW with the combination of MATLAB. This system processes and analyzes the voice signal collected by computers sound card, then extracts the signals characteristic parameters MFCC and save them in the computer. The parameters are designed through VQ algorithma to identify speaker.
關(guān)鍵詞:語(yǔ)音識(shí)別;LabVIEW;MATLAB;Mel倒譜系數(shù);矢量量化算法
Key words: speech recognition;LabVIEW;MATLAB;MFCC;VQ algorithm
中圖分類號(hào):TN912.3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-4311(2017)21-0203-03
1 語(yǔ)音識(shí)別模型
語(yǔ)音識(shí)別系統(tǒng)是建立在一定的硬件平臺(tái)和操作系統(tǒng)之上的一套應(yīng)用軟件系統(tǒng)。語(yǔ)音識(shí)別一般分兩個(gè)步驟,第一步是訓(xùn)練階段,是建立識(shí)別基本單元的聲學(xué)模型以及進(jìn)行文法分析的語(yǔ)言模型等;第二步是語(yǔ)音識(shí)別階段,根據(jù)實(shí)際情況的要求采用一種語(yǔ)音識(shí)別的算法,采用語(yǔ)音分析方法分析出這種識(shí)別方法所要求的語(yǔ)音特征參數(shù),按照一定的準(zhǔn)則和測(cè)度與系統(tǒng)模型進(jìn)行比較,通過(guò)判決得出識(shí)別結(jié)果。
2 Mel倒譜系數(shù)
語(yǔ)音信號(hào)的時(shí)域分析通常是將一幀語(yǔ)音信號(hào)中的各個(gè)時(shí)域采樣值直接構(gòu)成一個(gè)參數(shù)矢量,這種分析方法的特點(diǎn)是表示語(yǔ)音信號(hào)比較直觀、物理意義明確、實(shí)現(xiàn)起來(lái)比較簡(jiǎn)單、運(yùn)算量少等。語(yǔ)音信號(hào)的頻域分析就是分析語(yǔ)音信號(hào)的頻域特性,這種參數(shù)是將一幀語(yǔ)音信號(hào)進(jìn)行某種變化后而產(chǎn)生的參數(shù)矢量。在語(yǔ)音信號(hào)的頻域特征參數(shù)中,目前使用最為廣泛的是線性預(yù)測(cè)倒譜系數(shù)(Linear Predictive Cepstral Coding,LPCC)和Mel頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficient,MFCC),由于MFCC更符合人耳的聽(tīng)覺(jué)特性,因此本文語(yǔ)音識(shí)別系統(tǒng)采用的特征參數(shù)是MFCC。下面將著重介紹其相關(guān)理論和提取過(guò)程。
2.1 MFCC原理
4 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
4.1 語(yǔ)音采集
系統(tǒng)運(yùn)行以后,點(diǎn)擊“樣本采集存儲(chǔ)”,此語(yǔ)音的特征參數(shù)相當(dāng)于是保存識(shí)別的“鑰匙”,圖2為語(yǔ)音信號(hào)采集的程序框圖。
4.2 語(yǔ)音分析
語(yǔ)音信號(hào)特征參數(shù)MFCC的提取,是通過(guò)使用LabVIEW中對(duì)MATLAB腳本節(jié)點(diǎn)調(diào)用的方法來(lái)實(shí)現(xiàn)的。將輸入的語(yǔ)音信號(hào)先降噪預(yù)處理,再提取其MFCC參數(shù),訓(xùn)練其VQ碼本,進(jìn)行語(yǔ)音識(shí)別時(shí)則計(jì)算樣本語(yǔ)音信號(hào)的VQ碼本和測(cè)試語(yǔ)音信號(hào)MFCC之間的歐氏距離,判斷其是否小于設(shè)定的閾值。
5 系統(tǒng)測(cè)試與結(jié)論
系統(tǒng)前面板的測(cè)試結(jié)果如圖3所示,左邊的為硬件控制面板,本系統(tǒng)與Arduino硬件進(jìn)行數(shù)據(jù)傳輸,可以將測(cè)試結(jié)果在Uno板上顯示。設(shè)定好采樣時(shí)間為10s,采集完樣本語(yǔ)音和測(cè)試語(yǔ)音信號(hào)后,點(diǎn)擊“語(yǔ)音對(duì)比”,語(yǔ)音信號(hào)的MFCC參數(shù)在前面板上顯示,語(yǔ)音匹配的LED指示燈亮起,失真測(cè)度顯示為3.87(設(shè)定的閾值為4.1)。
經(jīng)過(guò)測(cè)試,當(dāng)設(shè)定采樣時(shí)間為5s時(shí),語(yǔ)音識(shí)別的成功率為87%,設(shè)定采樣時(shí)間為10s時(shí),識(shí)別的成功率為96%;經(jīng)過(guò)多次測(cè)試,當(dāng)錄入的語(yǔ)音文本內(nèi)容不相同時(shí),得到的失真測(cè)度相差不大,并且都可以通過(guò)識(shí)別。同時(shí),使用頭戴式耳機(jī)比直接使用電腦聲卡直接采集語(yǔ)音信號(hào)的識(shí)別率更高。
可見(jiàn),當(dāng)樣本語(yǔ)音錄入時(shí)間越長(zhǎng),那么提取的特征參數(shù)越精確,并且使用MFCC和VQ算法作為語(yǔ)音信號(hào)特征參數(shù)提取的語(yǔ)音登陸系統(tǒng),實(shí)現(xiàn)的是以文本內(nèi)容無(wú)關(guān)的說(shuō)話人確認(rèn)。
在錄入語(yǔ)音文本內(nèi)容相同,錄入語(yǔ)音時(shí)間相同的情況下,使用頭戴式耳機(jī)的失真測(cè)度比直接使用電腦麥克風(fēng)收音的失真測(cè)度要低,即室內(nèi)噪聲對(duì)識(shí)別準(zhǔn)確度還是有一定的影響。
6 結(jié)束語(yǔ)
本系統(tǒng)采用的是基于提取語(yǔ)音特征參數(shù)Mel倒譜系數(shù)MFCC的基礎(chǔ)上,使用矢量量化VQ的識(shí)別算法進(jìn)行語(yǔ)音特征匹配。通過(guò)研究VQ的特性,并且通過(guò)對(duì)特征參數(shù)、碼本容量的大小和失真測(cè)度的選取,完全能夠進(jìn)行基本的語(yǔ)音識(shí)別,并且計(jì)算量也很小,識(shí)別速度也相對(duì)較快,具有一定的實(shí)用性。
參考文獻(xiàn):
[1]趙力.語(yǔ)音信號(hào)處理[M].二版.機(jī)械工業(yè)出版社,2009.
[2]周鵬.許鋼.馬曉瑜.汪石農(nóng).張明艷.精通LabVIEW信號(hào)處理[M].北京:清華大學(xué)出版社,2013.
[3]劉平.LabVIEW程序設(shè)計(jì)基礎(chǔ)[M].北京:清華大學(xué)出版社,2012.
[4]欒穎.MATLAB R2013a工程分析與仿真[M].北京:清華大學(xué)出版社,2014.