周紅鍇
摘? 要: 由于孤立詞語音自動識別技術(shù)具有操作簡便,方便日常生活的特點,因此該文設(shè)計基于單片機控制的孤立詞語音自動識別系統(tǒng)。系統(tǒng)采用型號為SH86270主控單片機接收由SH69P848AM芯片控制的語音識別電路輸出結(jié)果,通過A/D轉(zhuǎn)換器得到離散數(shù)字語音信號,將孤立詞語音信號轉(zhuǎn)換為電信號,再經(jīng)A/D轉(zhuǎn)換器轉(zhuǎn)換為數(shù)字信號后輸入系統(tǒng)進行預(yù)處理。采用動態(tài)時間規(guī)整算法獲取距離最短語音信息,得到孤立詞語音識別結(jié)果。實驗結(jié)果表明,該系統(tǒng)具有較好的聲學相似性,可有效識別出測試的孤立詞語音信號與標準信號的最小距離,識別率和濾除干擾率均很高,識別時間短,識別效果顯著。
關(guān)鍵詞: 孤立詞語音識別; 系統(tǒng)設(shè)計; 電路設(shè)計; 語音信號獲取; 信號轉(zhuǎn)換; 信號預(yù)處理
中圖分類號: TN876?34; TU855? ? ? ? ? ? ? ? ? 文獻標識碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)18?0064?03
Abstract: As the isolated?word speech recognition technology has the characteristics of easy for operation and convenient for daily life, an isolated?word speech recognition system based on SCM (single chip microcomputer) control is designed. In the system, the SH86270 SCM is used to receive the output results of speech recognition circuit controlled by SH69P848AM chip, the discrete digital speech signal is obtained by A/D converter, and the isolated?word speech signal is converted into the electrical signal and then is converted into digital signal by A/D converter for inputting into the system for preprocessing. The speech information with the shortest distance is obtained by means of the dynamic time warping algorithm to gain the results of the isolated?word speech recognition. The experimental results show that the system has better acoustic similarity, can effectively recognize the minimum distance between the tested isolated?word speech signal and the standard signal, has high recognition rate, high interference filtering rate, short recognition time, and remarkable recognition effect.
Keywords: isolatedword speech recognition; system design; circuit design; speech acquisition; signal conversion; signal preprocessing
0? 引? 言
語音識別功能正慢慢地走進人們的生活[1],語音識別技術(shù)中的孤立詞語音識別技術(shù)已應(yīng)用到多種領(lǐng)域當中,孤立詞語音識別技術(shù)在智能建筑、車庫開啟等方面較為常見,比如密碼鎖的開啟、電視語音換臺、圖書館語音搜索圖書、手機導(dǎo)航語音查找等[2],這些功能的廣泛應(yīng)用使孤立詞語音識別技術(shù)更加貼近人們的生活,尤其對殘疾人或是老年人的生活有很大幫助。但孤立詞語音自動識別技術(shù)的算法相對繁瑣,給研究人員帶來了工作難度。因此,該文設(shè)計基于單片機控制的孤立詞語音自動識別系統(tǒng)。該系統(tǒng)的主控單片機選擇Sinowealth公司生產(chǎn)的SH86270型號單片機,同時選擇該公司SH69P848AM型號的芯片完成語音識別過程,該芯片內(nèi)部集成優(yōu)化過的孤立詞語音識別算法,可促進語音自動識別任務(wù)的高效完成。
1? 孤立詞語音自動識別系統(tǒng)設(shè)計
1.1? 硬件電路設(shè)計
主控制器電路和語音識別電路共同構(gòu)成硬件電路,采用SH86270主控單片機控制SH69P848AM芯片,SH69P848AM芯片控制語音識別電路,同時控制語音識別電路,輸出結(jié)果也由SH86270主控單片機處理,該單片機利用總線進行監(jiān)控[3]。
1.1.1? 控制器電路
將SH86270主控單片機看成一個控制器,采用精簡指令集計算機結(jié)構(gòu),在該結(jié)構(gòu)內(nèi)設(shè)置256 KB FLASH,SH86270主控單片機由于自身的高性能和低能耗在語音自動識別系統(tǒng)中具有很大的優(yōu)勢,且可將其看成是一種8位微處理器。
1.1.2? SH69P848AM語音識別電路
SH69P848AM芯片集成語音識別處理器、濾波電路、A/D轉(zhuǎn)換器、聲音輸出接口等[4],將SH69P848AM芯片的迷你磁盤設(shè)置為高電平,SPIS為低電平,SDI,SDO等都是SPI總線的引腳,中斷端口為INTB,發(fā)現(xiàn)識別結(jié)果與MP3數(shù)據(jù)不一致后,中斷端口會發(fā)生中斷[5]。此時,主控單片機接收到中斷信號后處理該中斷信號。
1) 濾波電路
濾波電路負責過濾掉語音輸入時存在的噪聲,當上截頻為3 380 Hz、下截頻為58 Hz時,傳遞到多單片機系統(tǒng)的數(shù)據(jù)錯誤率很低,單片機計算的繁雜程度被大幅度降低[6]。為了排除數(shù)字信號的干擾,后置濾波通常會通過巴特沃斯濾波電路,實現(xiàn)語音的準確回放[7]。
2) A/D和D/A轉(zhuǎn)換
該系統(tǒng)以ADl674作為A/D轉(zhuǎn)換芯片,D/A轉(zhuǎn)換需要通過選擇DA5651A作為電流輸出性轉(zhuǎn)換器,并外接一個轉(zhuǎn)換電路,得到模擬電壓的輸出[8]。SH86270主控單片機存在一個P0口,將該P0口當成D/A轉(zhuǎn)換器的數(shù)據(jù)傳遞口,P2.3口會接收到SH86270主控單片機發(fā)出的輸入寄存選擇信號CS,且當P2.3口輸出低電平時,向SH86270主控單片機傳達模擬轉(zhuǎn)換命令,使該單片機完成模擬轉(zhuǎn)換。
1.2? 系統(tǒng)軟件設(shè)計
1.2.1? 孤立詞語音識別的基本原理
語音信號被A/D轉(zhuǎn)換器轉(zhuǎn)換為數(shù)字信號,看成系統(tǒng)輸入[9]。系統(tǒng)對其進行抗混疊濾波、分幀、加窗等預(yù)處理,預(yù)處理后開始端點檢測、特征提取等,完成后開始訓(xùn)練和識別處理。訓(xùn)練過程中某語音單元會被多次重復(fù)[10],系統(tǒng)選擇多個特征信號,組成標準信息庫;語音信息全部錄入到系統(tǒng)中,系統(tǒng)將提取的特征信息與標準信息庫中的特征信息進行對比,選擇最相似的語音信息即為識別結(jié)果。
1.2.2? 語音識別算法
時間規(guī)整和距離測度計算相融合的動態(tài)時間規(guī)整算法(Dynamic Time Warping)即為DTW算法。標準信息匹配過程中,對彎折斜率存在一定限制,使外部的格點相應(yīng)的幀匹配距離無需計算[11]。當對格點進行計算時,每一列格點的匹配計算只需要用到前一列的4個網(wǎng)格,對于產(chǎn)生的幀匹配距離矩陣以及累積距離矩陣均無需保留。以上算法可以降低DTW算法的繁雜程度,減少對存儲空間的要求,使計算更加高效。當將動態(tài)彎折分為三部分時,分別設(shè)置為(1,[ma]),([ma]+1,[mb]),([mb]+1,P),式中:
假設(shè)[ma]和[mb]的取值均為相近的整數(shù),因此獲取Q和P相應(yīng)長度的限制條件為:
當[ma]和[mb]的取值并不符合以上條件時,則可判定[ma]和[mb]取值的差距較大,動態(tài)彎折匹配無法實現(xiàn)。此時,x軸上的語音幀只需與y軸上[ymin,ymax]的語音幀相對比,則ymin和ymax為:
2? 實驗分析
2.1? 孤立詞語音識別結(jié)果
實驗選取含有350個孤立詞的小系統(tǒng)詞表,采用文中系統(tǒng)對孤立詞表進行語音識別,識別前需訓(xùn)練所有待識別的孤立詞,設(shè)置參加訓(xùn)練人數(shù)為15人,未參加訓(xùn)練人數(shù)為12人,采用文中系統(tǒng)對孤立詞語音信號進行識別。訓(xùn)練孤立詞與未訓(xùn)練孤立詞的部分語音識別結(jié)果如圖1所示。
由圖1可知,采用本文系統(tǒng)識別經(jīng)過訓(xùn)練的孤立詞語音信號時,識別率均超過95%,未經(jīng)訓(xùn)練的孤立詞語音信號的識別率最高僅為86.58%;采用文中系統(tǒng)識別多人訓(xùn)練的孤立詞語音信號時,識別時間最高為0.57 s,但未經(jīng)訓(xùn)練的信號識別時間最高達到0.78 s。顯然,經(jīng)過訓(xùn)練的孤立詞樣本不僅識別率高,且識別時間短。因此,該文系統(tǒng)可識別出經(jīng)過訓(xùn)練的孤立詞樣本和未經(jīng)過訓(xùn)練的孤立詞樣本,但針對于經(jīng)過訓(xùn)練的孤立詞樣本,其語音識別效果更好。
在實際的孤立詞語音識別過程中,針對未經(jīng)訓(xùn)練的孤立詞樣本識別率低且用時多的問題,可通過增大樣本數(shù)增加識別率,縮短識別時間。
2.2? 孤立詞識別效果
選取PC機錄制的語音信號,且設(shè)定采樣頻率為7 600 kHz,量化存儲為7 bit,語音信號為PCM格式且單聲道。通常語音信號的平穩(wěn)幀長為12~32 ms,為了降低計算的繁雜性,文中系統(tǒng)選用的幀長P和幀移Q的語音點分別為256和128。
指定一人讀取數(shù)字“1~5”,將該語音錄制下來,作為測試的孤立詞語音信號,采用文中系統(tǒng)識別測試的孤立詞語音信號與標準信號間的距離,如表1所示。
表1中,行為測試的孤立詞語音信號,列為標準信號。由該表可知,測試的孤立詞語音信號中的“1~5”與標準信號中的“1~5”中每一個對應(yīng)的數(shù)字均存在最小距離,而且表格形成對角線方向的距離值最小,由此可知,該文系統(tǒng)具有較好的聲學相似性,識別效果更為明顯。
以上面的錄制數(shù)字實驗為依據(jù),指定一人發(fā)出“開機”“關(guān)機”“東方衛(wèi)視”“中央五套”“音量降低”5個孤立詞的發(fā)音,將該組發(fā)音作為測試的孤立詞語音信號,采用文中系統(tǒng)識別測試的孤立詞語音信號與標準信號間的距離,如表2所示。
由表2可知,與錄制數(shù)字孤立詞語音識別實驗一樣,本文系統(tǒng)有效地識別了表格所形成對角線方向的距離值最小。因此文中系統(tǒng)的識別效果明顯。
2.3? 孤立詞識別性能
為了驗證文中系統(tǒng)在孤立詞識別性能方面的優(yōu)勢,分別采用HMM非特定人孤立詞語音識別系統(tǒng)、基于ZCPA和DHMM的孤立詞語音識別系統(tǒng),以及文中系統(tǒng)對上文實驗中的5個孤立詞的發(fā)音進行識別,比較3個系統(tǒng)的識別性能,如表3所示。
由表3可知,采用HMM非特定人孤立詞語音識別系統(tǒng)、基于ZCPA和DHMM的孤立詞語音識別系統(tǒng)以及文中系統(tǒng)識別實驗中的5個孤立詞時,文中系統(tǒng)無論在識別率、識別時間,還是濾除干擾率方面都表現(xiàn)出了良好的優(yōu)勢。
3? 結(jié)? 論
孤立詞語音自動識別技術(shù)不僅使日?;顒痈鼮楸憬?,而且使生活設(shè)備更加現(xiàn)代化。該文系統(tǒng)通過單機片控制整個孤立詞語音自動識別系統(tǒng),結(jié)合語音信號預(yù)處理、端點檢測、特征提取等技術(shù),完成孤立詞語音自動識別過程。結(jié)果表明,文中系統(tǒng)無論在孤立詞的語音識別率、識別時間,還是濾除干擾率方面效果明顯,因此文中設(shè)計系統(tǒng)具有廣闊的發(fā)展前景。
參考文獻
[1] 侯一民,李永平.基于卷積神經(jīng)網(wǎng)絡(luò)的孤立詞語音識別[J].計算機工程與設(shè)計,2019,40(6):1751?1756.
[2] 許良鳳,劉泳海,胡敏,等.語譜圖改進完全局部二值模式的語音情感識別[J].電子測量與儀器學報,2018,32(5):25?32.
[3] 李璨,王讓定,嚴迪群.基于卷積神經(jīng)網(wǎng)絡(luò)的翻錄語音檢測算法[J].計算機應(yīng)用,2018,38(1):79?83.
[4] 李云紅,梁思程,賈凱莉,等.一種改進的DNN?HMM的語音識別方法[J].應(yīng)用聲學,2019,38(3):371?377.
[5] 姜芃旭,傅洪亮,陶華偉,等.一種基于卷積神經(jīng)網(wǎng)絡(luò)特征表征的語音情感識別方法[J].電子器件,2019,42(4):998?1001.
[6] 劉明珠,李曉琴,陳洪恒.基于支持向量機的語音情感識別算法研究[J].哈爾濱理工大學學報,2019,24(4):118?126.
[7] 韓燕燕,程衛(wèi)軍.基于北斗系統(tǒng)的語音通信終端設(shè)計與實現(xiàn)[J].電視技術(shù),2017,41(z4):167?171.
[8] 陳哲懷,鄭文露,游永彬,等.標簽同步解碼算法及其在語音識別中的應(yīng)用[J].計算機學報,2019,42(7):1511?1523.
[9] 張曉冰,楊啟亮,邢建春,等.面向軟件模糊自適應(yīng)的語音式任務(wù)目標識別與結(jié)構(gòu)化轉(zhuǎn)換[J].計算機工程,2018,44(4):59?65.
[10] 潘瑋,汪靜瑩,劉天俐,等.基于語音的抑郁癥識別[J].科學通報,2018,63(20):2081?2092.
[11] 艾斯卡爾·肉孜,王東,李藍天,等.說話人識別中的分數(shù)域語速歸一化[J].清華大學學報(自然科學版),2018,58(4):337?341.