周鈞鍇 畢君郁
摘要:隨著人口老齡化的加劇,空巢老人精神世界貧瘠的問(wèn)題引起了更多的關(guān)注。將語(yǔ)音識(shí)別系統(tǒng)應(yīng)用于養(yǎng)老軟件,為豐富老人的精神世界提供了更多的途徑,該文介紹了一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)開(kāi)發(fā)的語(yǔ)音識(shí)別系統(tǒng),并將其應(yīng)用于基于Android系統(tǒng)開(kāi)發(fā)的養(yǎng)老軟件。
關(guān)鍵詞:語(yǔ)音識(shí)別;卷積神經(jīng)網(wǎng)絡(luò);互聯(lián)網(wǎng)養(yǎng)老
中圖分類號(hào):TP311? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)28-0229-02
空巢老人的精神世界貧瘠是老齡化社會(huì)中亟待解決的問(wèn)題,手機(jī)軟件操作難導(dǎo)致老人難以使用手機(jī)獲取信息。語(yǔ)音識(shí)別技術(shù)可以用在語(yǔ)音控制、語(yǔ)音輸入等多個(gè)方面,降低手機(jī)軟件的操作難度。卷積神經(jīng)網(wǎng)絡(luò)在時(shí)間和空間上具有平移不變性卷積,可以克服語(yǔ)音信號(hào)因說(shuō)話人和環(huán)境的不同產(chǎn)生的多樣性,且易于實(shí)現(xiàn)快速的大規(guī)模并行化運(yùn)算,為卷積神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的應(yīng)用提供了基礎(chǔ)。
1 軟件介紹
1.1 主要功能
基于語(yǔ)音識(shí)別技術(shù)的“愛(ài)巢”養(yǎng)老軟件(以下簡(jiǎn)稱本軟件),是一個(gè)關(guān)注空巢老人精神世界的服務(wù)類軟件。針對(duì)空巢老人操作手機(jī)困難的問(wèn)題,增加語(yǔ)音控制、語(yǔ)音輸入等功能,旨在降低空巢老人使用手機(jī)的難度,同時(shí)為老人提供更多的信息獲取途徑。
1.2 軟件開(kāi)發(fā)方法
本軟件基于Android系統(tǒng)實(shí)現(xiàn)了語(yǔ)音識(shí)別系統(tǒng),編程語(yǔ)言采用python。語(yǔ)音信號(hào)的預(yù)處理采用雙門(mén)限端點(diǎn)檢測(cè)算法,使用短時(shí)過(guò)零率檢測(cè)清音,使用短時(shí)平均能量檢測(cè)濁音。特征提取采用Mel參數(shù)和基于感知線性預(yù)測(cè)分析提取的感知線性預(yù)測(cè)倒譜,模擬了人耳對(duì)語(yǔ)音的處理特點(diǎn)。為良好地適應(yīng)老人說(shuō)話的多樣性和環(huán)境的多樣性,語(yǔ)音識(shí)別算法使用具有良好自動(dòng)調(diào)節(jié)能力的卷積神經(jīng)網(wǎng)絡(luò)(CNN)。
2 語(yǔ)音識(shí)別系統(tǒng)核心實(shí)現(xiàn)
不同的語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn)細(xì)節(jié)不同,但識(shí)別過(guò)程大致相同,一個(gè)典型的語(yǔ)音識(shí)別過(guò)程如圖1所示。
本軟件的語(yǔ)音識(shí)別算法使用卷積神經(jīng)網(wǎng)絡(luò)(CNN),核心實(shí)現(xiàn)步驟包括MFCC特征提取、數(shù)據(jù)歸一化和卷積神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)分類。
2.1 MFCC特征提取
對(duì)語(yǔ)音wav文件進(jìn)行MFCC特征提取,MFCC特征提取的流程如圖2所示。
將語(yǔ)音信號(hào)的靜態(tài)特征和動(dòng)態(tài)特征結(jié)合能提高系統(tǒng)的識(shí)別性能,因此本系統(tǒng)采用由靜態(tài)MFCC系數(shù)、動(dòng)態(tài)一階差分參數(shù)和二階差分參數(shù)、幀能量共同構(gòu)成MFCC的方式。
2.1.1 靜態(tài)MFCC特征提取
預(yù)加重處理即將語(yǔ)音信號(hào)通過(guò)一個(gè)高通濾波器,提升高頻部分,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜,同時(shí)突出高頻的共振峰。經(jīng)分幀后,將每一幀乘以漢明窗以增加幀左端和右端的連續(xù)性。再將各幀進(jìn)行快速傅立葉變換得到各幀的頻譜,并對(duì)頻譜取模平方得到語(yǔ)音信號(hào)的功率譜。
將能量譜通過(guò)一組Mel尺度的三角形濾波器組,對(duì)頻譜進(jìn)行平滑化,并消除諧波的作用,突出語(yǔ)音的共振峰,三角濾波器的頻率響應(yīng)定義如式(1)。
2.2 基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)分類
為加快梯度下降求最優(yōu)解的速度和提高精度,首先對(duì)得到的數(shù)據(jù)進(jìn)行歸一化處理。本系統(tǒng)采用標(biāo)準(zhǔn)差歸一化處理,轉(zhuǎn)化函數(shù)如式(5)。
其中[μ]和[σ]分別表示原始數(shù)據(jù)的均值和標(biāo)準(zhǔn)差。
再使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)歸一化后的數(shù)據(jù)進(jìn)行分類,經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)主要包括卷積層、池化層和全連接層。
卷積層的功能是對(duì)語(yǔ)音信號(hào)的特征進(jìn)行提取。卷積層含有多個(gè)卷積核,每個(gè)卷積核對(duì)應(yīng)一個(gè)權(quán)重系數(shù)和一個(gè)偏差量,卷積核在計(jì)算時(shí),將輸入層上的滑動(dòng)卷積結(jié)果求和并與此層的偏差量相加,如式(6)(7)所示。
式中,[C]、[D]和[Q]分別表示卷積核的數(shù)量、輸入向量的數(shù)量和卷積核的深度,[HW]、[RS]和[EF]分別表示輸入層向量、卷積核和輸出層向量的高度和寬度,[N]表示卷積步長(zhǎng),[A[n]]表示卷積核的偏差量。
池化層的目的是簡(jiǎn)化卷積層的輸出,減少網(wǎng)絡(luò)層的參數(shù),本系統(tǒng)采用最大池化的方式,即選取窗口范圍內(nèi)的最大值作為輸出。數(shù)據(jù)經(jīng)過(guò)池化層后,還需經(jīng)過(guò)非線性運(yùn)算ReLu函數(shù),以增強(qiáng)模型的識(shí)別性能。
全連接層為向量與權(quán)值矩陣的乘積再與偏差量相加后得到的結(jié)果與非線性運(yùn)算相結(jié)合。
2.3 卷積神經(jīng)網(wǎng)絡(luò)系統(tǒng)實(shí)現(xiàn)
本軟件實(shí)現(xiàn)的語(yǔ)音識(shí)別系統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型如圖3所示。此卷積神經(jīng)網(wǎng)絡(luò)模型由2層卷積層和5層全連接層組成,初始的輸入尺寸為40×1×3,第二個(gè)卷積層的輸入為第一個(gè)卷積層的輸出,每個(gè)全連接層的輸入都為前一層的輸出。
2.4 系統(tǒng)測(cè)試
由于語(yǔ)音識(shí)別受個(gè)體差異和環(huán)境差異的影響,我們隨機(jī)選取了四名軟件的用戶進(jìn)行語(yǔ)音識(shí)別效果的測(cè)試,測(cè)試結(jié)果如表1所示。
從表1可以看出,該軟件的語(yǔ)音識(shí)別系統(tǒng)識(shí)別正確率較高,達(dá)到80%以上,且識(shí)別時(shí)間小于50ms,能夠進(jìn)行實(shí)際的應(yīng)用。
3 結(jié)語(yǔ)
本文基于卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算并行性與數(shù)據(jù)的高重復(fù)性,通過(guò)MFCC特征提取、數(shù)據(jù)歸一化和卷積神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)分類,開(kāi)發(fā)了語(yǔ)音識(shí)別系統(tǒng)并應(yīng)用到養(yǎng)老軟件中,實(shí)現(xiàn)了針對(duì)老人高達(dá)80%語(yǔ)音識(shí)別正確率和小于50ms識(shí)別時(shí)間的手機(jī)軟件。
參考文獻(xiàn):
[1] 張晴晴,劉勇,潘接林,等.基于卷積神經(jīng)網(wǎng)絡(luò)的連續(xù)語(yǔ)音識(shí)別[J].工程科學(xué)學(xué)報(bào),2015,37(09):1212-1217.
[2] 屈家麗,賀光輝,王國(guó)興.語(yǔ)音識(shí)別中卷積神經(jīng)網(wǎng)絡(luò)的FPGA實(shí)現(xiàn)[J].微電子學(xué)與計(jì)算機(jī),2018,35(09):37-41+46.
[3] 楊洋,汪毓鐸.基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)算法的語(yǔ)音識(shí)別[J].應(yīng)用聲學(xué),2018,37(06):940-946.
[4] 禹琳琳.語(yǔ)音識(shí)別技術(shù)及應(yīng)用綜述[J].現(xiàn)代電子技術(shù),2013,36(13):43-45.
[5] 趙志宏,楊紹普,馬增強(qiáng).基于卷積神經(jīng)網(wǎng)絡(luò)LeNet-5的車牌字符識(shí)別研究[J].系統(tǒng)仿真學(xué)報(bào),2010,22(03):638-641.
[6] 張建華.基于深度學(xué)習(xí)的語(yǔ)音識(shí)別應(yīng)用研究[D].北京郵電大學(xué),2015.
[7] 周飛燕,金林鵬,董軍.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2017,40(06):1229-1251.
【通聯(lián)編輯:代影】