戚龍
摘要:本課題基于非特定人語音識別的原理和過程,結(jié)合BP神經(jīng)網(wǎng)絡(luò)的建模理論及特點,主要研究了BP神經(jīng)網(wǎng)絡(luò)模型在語音模式識別中的應(yīng)用問題。同時針對標(biāo)準(zhǔn)BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練收斂速度慢及容易陷入局部最小的缺點,提出了Sigmoid學(xué)習(xí)率BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法,并通過仿真計算,得出在非特定人語音識別應(yīng)用方面Sigmoid學(xué)習(xí)率BP神經(jīng)網(wǎng)絡(luò)算法的收斂速度要優(yōu)于標(biāo)準(zhǔn)BP神經(jīng)網(wǎng)絡(luò)算法且識別率更高。
Abstract: Based on the principle and process of non-specific speech recognition, this paper focuses on the application of BP neural network model in speech pattern recognition, combined with the modeling theory and characteristics of BP neural network. At the same time, the Sigmoid learning rate BP neural network training algorithm is proposed for the training of BP neural network, and the Sigmoid learning rate BP neural network is obtained by simulating the non-specific speech recognition application. The convergence rate of the algorithm is better than that of the standard BP neural network algorithm and the recognition rate is higher.
關(guān)鍵詞:BP神經(jīng)網(wǎng)絡(luò);學(xué)習(xí)率;語音識別
Key words: BP neural network;learning rate;speech recognition
中圖分類號:TP183 文獻標(biāo)識碼:A 文章編號:1006-4311(2017)33-0200-03
0 引言
市場上成熟的語音識別產(chǎn)品基本都是基于統(tǒng)計模式識別理論而開發(fā)的,但因人工神經(jīng)網(wǎng)絡(luò)具有非線性、自適應(yīng)性、魯棒性、自學(xué)習(xí)特性且易于硬件實現(xiàn)的優(yōu)點,以及具有強大的分類能力和輸入輸出映射能力,使其應(yīng)用于語音模式識別領(lǐng)域?qū)⒂泻艽蟮陌l(fā)展?jié)摿?,將人工神?jīng)網(wǎng)絡(luò)應(yīng)用于語音識別,改進現(xiàn)有語音識別系統(tǒng)的性能,是當(dāng)前語音識別研究的一個重要方向,具有重大的現(xiàn)實意義。
1 標(biāo)準(zhǔn)BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)是一種多層前饋神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)的主要特點是信號前向傳遞,誤差反向傳導(dǎo)。在向前傳導(dǎo)中,輸入信號從輸入層經(jīng)隱含層逐層處理,直至輸出層。每一層的神經(jīng)元狀態(tài)只影響下一層神經(jīng)元狀態(tài)。如果輸出層得不到期望輸出,則轉(zhuǎn)入反向傳播,根據(jù)預(yù)測誤差調(diào)整網(wǎng)絡(luò)權(quán)值和閾值,從而使BP神經(jīng)網(wǎng)絡(luò)預(yù)測輸出不斷逼近期望輸出。BP神經(jīng)網(wǎng)絡(luò)具有非線性無限逼近的特點。
BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
2 網(wǎng)絡(luò)收斂速度改進方法
BP神經(jīng)網(wǎng)絡(luò)屬于有導(dǎo)師學(xué)習(xí)算法,根據(jù)期望輸出和實際網(wǎng)絡(luò)輸出之間誤差來調(diào)整神經(jīng)元間連接的強度或權(quán)值。但是BP神經(jīng)網(wǎng)絡(luò)標(biāo)準(zhǔn)學(xué)習(xí)算法在訓(xùn)練時收斂速度較慢,且容易產(chǎn)生過學(xué)習(xí)現(xiàn)象,而學(xué)習(xí)率的大小對網(wǎng)絡(luò)收斂速度和訓(xùn)練結(jié)果影響很大。如果學(xué)習(xí)率太小,則學(xué)習(xí)速度太慢;如果學(xué)習(xí)率太大,則容易產(chǎn)生過學(xué)習(xí)現(xiàn)象。本文在標(biāo)準(zhǔn)BP神經(jīng)網(wǎng)絡(luò)算法的基礎(chǔ)上對其進行改進,主要是采用變學(xué)習(xí)率BP神經(jīng)網(wǎng)絡(luò)算法,學(xué)習(xí)率使用Sigmoid函數(shù)并用迭代的方法求出,本文把該學(xué)習(xí)率定義為Sigmoid學(xué)習(xí)率,具體計算步驟如下。
對步驟4的改進算法如下,u為Sigmoid學(xué)習(xí)率:
對步驟5的改進算法如下:
3 將改進的BP神經(jīng)網(wǎng)絡(luò)算法用于非特定人語音識別系統(tǒng)的設(shè)計
語音識別系統(tǒng)的設(shè)計有很多種方法,我們采用BP神經(jīng)網(wǎng)絡(luò)模型進行語音識別系統(tǒng)的設(shè)計,首先要將待識別的語音信號輸入識別系統(tǒng),經(jīng)過預(yù)處理后用數(shù)學(xué)方法提取語音特征信號,提取的語音特征信號可以看出是語音模式,然后將該語音模式歸一化處理,輸入BP神經(jīng)網(wǎng)絡(luò)語音識別系統(tǒng)進行識別。而基于BP神經(jīng)網(wǎng)絡(luò)的語音識別建模又分為BP神經(jīng)網(wǎng)絡(luò)構(gòu)建、BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練和BP神經(jīng)網(wǎng)絡(luò)分類三個步驟,具體語音識別系統(tǒng)流程如圖2所示。
首先我們根據(jù)系統(tǒng)輸入輸出數(shù)據(jù)特點構(gòu)建BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),由于語音特征輸入信號有24維,待分類的語音特征信號有10個,所以BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)為24-25-10,即輸入層設(shè)置24個節(jié)點,隱含層設(shè)置25個節(jié)點,輸出層設(shè)置10個節(jié)點。
然后我們選取10個命令詞的語音信號作為訓(xùn)練數(shù)據(jù),根據(jù)倒譜系數(shù)法提取這10個命令詞的語音特征信號并存儲于數(shù)據(jù)庫文件中,這10個命令詞分別用1到10標(biāo)識,提取出的語音信號分別存儲于數(shù)據(jù)庫文件中,每組數(shù)據(jù)25維,第1維為序號標(biāo)識,后24維為語音特征信號。根據(jù)命令詞的序號分別設(shè)定不同命令詞語音信號的期望輸出,如序號為1時,期望輸出向量為[1,0,0,0,0,0,0,0,0,0],以此類推,序號為10時輸出向量為[0,0,0,0,0,0,0,0,0,1]。
隨機提取該命令詞的100組不同人的語音數(shù)據(jù)作為訓(xùn)練樣本,并對訓(xùn)練數(shù)據(jù)進行歸一化處理,然后將處理后的語音數(shù)據(jù)輸入系統(tǒng)之中,對改進的BP神經(jīng)網(wǎng)絡(luò)語音識別系統(tǒng)進行訓(xùn)練。并另外提取其他50組不同人的該命令詞的語音數(shù)據(jù)作為測試數(shù)據(jù),進行語音識別測試。
4 仿真實驗及結(jié)果分析
本節(jié)首先在相同命令詞語音信號訓(xùn)練數(shù)據(jù)的基礎(chǔ)上,對標(biāo)準(zhǔn)BP神經(jīng)網(wǎng)絡(luò)算法和改進的基于Sigmoid學(xué)習(xí)率BP神經(jīng)網(wǎng)絡(luò)算法在收斂速度和訓(xùn)練誤差方面進行比較,驗證了改進的基于Sigmoid學(xué)習(xí)率BP神經(jīng)網(wǎng)絡(luò)算法在非特定人語音識別方向上的可行性。經(jīng)大量計算表明本文提出的基于Sigmoid學(xué)習(xí)率BP神經(jīng)網(wǎng)絡(luò)算法降低了對網(wǎng)絡(luò)隨機初始權(quán)值的依賴性,提高了模型訓(xùn)練收斂速度。
圖3描述的是在初始權(quán)值和激勵函數(shù)相同的情況下,標(biāo)準(zhǔn)BP神經(jīng)網(wǎng)絡(luò)算法和改進的基于Sigmoid學(xué)習(xí)率BP神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練誤差和收斂速度結(jié)果的比較。其中上方藍色曲線表示標(biāo)準(zhǔn)BP神經(jīng)網(wǎng)絡(luò)算法在訓(xùn)練次數(shù)和訓(xùn)練誤差二維坐標(biāo)上生成的二維曲線,下方綠色曲線表示改進的基于Sigmoid學(xué)習(xí)率BP神經(jīng)網(wǎng)絡(luò)算法在訓(xùn)練次數(shù)和訓(xùn)練誤差二維坐標(biāo)上生成的二維曲線。分析圖3可以看出在訓(xùn)練誤差相同的情況下基于Sigmoid學(xué)習(xí)率BP神經(jīng)網(wǎng)絡(luò)算法的訓(xùn)練次數(shù)要少于標(biāo)準(zhǔn)BP神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練次數(shù),而在訓(xùn)練次數(shù)相同的情況下,基于Sigmoid學(xué)習(xí)率BP神經(jīng)網(wǎng)絡(luò)算法的訓(xùn)練誤差要低于標(biāo)準(zhǔn)BP神經(jīng)網(wǎng)絡(luò)算法的訓(xùn)練誤差。隨著訓(xùn)練次數(shù)逐漸增多,兩種算法的訓(xùn)練誤差都呈現(xiàn)單調(diào)下降的趨勢,而基于Sigmoid學(xué)習(xí)率BP神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練誤差曲線始終在標(biāo)準(zhǔn)BP神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練誤差曲線下方。
5 結(jié)語
本文介紹了標(biāo)準(zhǔn)BP神經(jīng)網(wǎng)絡(luò)模型和算法,并在此基礎(chǔ)上針對網(wǎng)絡(luò)訓(xùn)練收斂速度慢及容易產(chǎn)生過學(xué)習(xí)現(xiàn)象提出了改進的基于Sigmoid學(xué)習(xí)率BP神經(jīng)網(wǎng)絡(luò)算法,并將其應(yīng)用于非特定人語音識別研究,實驗結(jié)果表明基于Sigmoid學(xué)習(xí)率BP神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練收斂速度更快,識別誤差更小,識別率更高。
參考文獻:
[1]趙力語音信號處理[M].機械工業(yè)出版社,2009.
[2]MATLAB中文論壇.MATLAB神經(jīng)網(wǎng)絡(luò)30個案例分析[M].北京航空航天大學(xué)出版社,2010.
[3]韓力群.人工神經(jīng)網(wǎng)絡(luò)教程[M].北京郵電大學(xué)出版社,2006.
[4]高紅.BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率的優(yōu)化方法[J].長春師范學(xué)院學(xué)報,2010.
[5]劉玄和,陳睿,彭偉,等.一種BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率的優(yōu)化設(shè)計[J].湖北工業(yè)大學(xué)學(xué)報,2007,22(3):1-3.endprint