霍彥明 姜峰 馮怡林 李爭(zhēng)
摘? 要: 隨著科技的發(fā)展,以人機(jī)交互模型為基礎(chǔ)的語(yǔ)音識(shí)別系統(tǒng)正逐步融入于人們的生活當(dāng)中,但是追溯之前的研究,語(yǔ)音識(shí)別在降噪處理方面仍存在一些不足。為了設(shè)計(jì)一種對(duì)環(huán)境噪聲適應(yīng)性強(qiáng),能夠無(wú)偏差地進(jìn)行智能人機(jī)交互的系統(tǒng),提出一種使用特殊抗噪處理的麥克風(fēng)和基于波束賦形技術(shù)與V290pub語(yǔ)音模塊的新型降噪語(yǔ)音識(shí)別系統(tǒng)。利用新型數(shù)字信號(hào)處理IC"BU8332KV?M"的波束賦形技術(shù)結(jié)合V290pub內(nèi)置的抗噪聲濾波器來(lái)實(shí)現(xiàn)在語(yǔ)音識(shí)別過(guò)程中的降噪處理。以STC89C52單片機(jī)為主控MCU,針對(duì)家電設(shè)備的實(shí)際需求來(lái)完成最終系統(tǒng)設(shè)計(jì)。實(shí)驗(yàn)結(jié)果表明,在嘈雜環(huán)境下新型降噪語(yǔ)音識(shí)別系統(tǒng)對(duì)比傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)有更高的語(yǔ)音識(shí)別精度,且具備拒絕錯(cuò)誤識(shí)別的功能,適用于存在環(huán)境噪聲干擾的各種語(yǔ)音系統(tǒng)中。
關(guān)鍵詞: 降噪; 語(yǔ)音識(shí)別系統(tǒng); 波束賦形技術(shù); V290pub語(yǔ)音模塊; 系統(tǒng)設(shè)計(jì); 實(shí)驗(yàn)分析
中圖分類(lèi)號(hào): TN912?34? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A? ? ? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2020)10?0046?05
Novel denoising speech recognition system based on beam forming technology and V290pub speech module
HUO Yanming, JIANG Feng, FENG Yilin, LI Zheng
(School of Electrical Engineering, Hebei University of Science and Technology, Shijiazhuang 050018, China)
Abstract: With the development of science and technology, the speech recognition system based on human?computer interaction model is gradually integrated into people′s lives. However, the speech recognition still has some shortcomings in noise reduction processing when looking back at pervious researches. In order to design a system that has strong adaptability to environmental noise and can carry out intelligent human?computer interaction without deviation, a microphone with special anti?noise processing and a novel denoising speech recognition system based on beam forming technology and V290pub speech module are proposed. The beam forming technology of the new digital signal processing IC "BU8332KV?M" is combined with the build?in anti?noise filter of V290pub to realize the reduction processing in the process of speech recognition. The STC89C52 MCU is used as the main control MCU to complete the final system design according to the actual needs of home appliances. The experimental results that the novel denoising speech recognition system has higher speech recognition accuracy than that of the traditional speech recognition system in noisy environment, and has the function of rejecting the error recognition, which is suitable for various speech systems working in environmental noise interference.
Keywords: noise reduction; speech recognition system; beam forming technology; V290pub speech module; system design; experimental analysis
0? 引? 言
近年來(lái),將語(yǔ)音控制應(yīng)用于生活的方方面面的研究熱度持續(xù)升溫,運(yùn)用語(yǔ)音識(shí)別技術(shù)的設(shè)備具有更方便、快捷、靈活的優(yōu)點(diǎn)[1]。語(yǔ)音交互智能系統(tǒng)不光要有相對(duì)穩(wěn)定的識(shí)別性能,在不同的環(huán)境中也要能保持良好的工作狀態(tài)。因此,能否很好地完成噪聲環(huán)境中語(yǔ)音的正確識(shí)別就成為衡量一個(gè)語(yǔ)音識(shí)別系統(tǒng)質(zhì)量高低的標(biāo)準(zhǔn)。所以在進(jìn)行語(yǔ)音識(shí)別之前先對(duì)語(yǔ)音進(jìn)行降噪處理就顯得尤為重要,能夠增強(qiáng)語(yǔ)音識(shí)別系統(tǒng)的穩(wěn)定性并且提高正確識(shí)別率[2]。
本文對(duì)麥克風(fēng)進(jìn)行了特殊的抗噪處理,以數(shù)字信號(hào)處理IC"BU8332KV?M"作為進(jìn)行語(yǔ)音識(shí)別之前的降噪處理核心芯片,利用兩個(gè)無(wú)指向性的麥克風(fēng)形成敏銳的指向性,即波束賦形技術(shù)來(lái)提高語(yǔ)音品質(zhì)實(shí)現(xiàn)清晰語(yǔ)音[3]。選用V290pub語(yǔ)音模塊替代常用的LD3320,因?yàn)閂290pub本身也具備降噪功能,而這一點(diǎn)是LD3320所不具備的,并且在其他識(shí)別技術(shù)方面V290pub較LD3320也都有所提高??梢哉f(shuō)BU8332KV?M與V290pub的結(jié)合是處理語(yǔ)音識(shí)別環(huán)境噪聲的雙保險(xiǎn)。
1? 波束賦形技術(shù)
波束賦形是一種使用傳感器陣列定向發(fā)送和接收信號(hào)的信號(hào)處理技術(shù)。波束賦形技術(shù)通過(guò)調(diào)整相位陣列基本單元的參數(shù),使得某些角度的信號(hào)獲得相長(zhǎng)干涉,而另一些角度的信號(hào)獲得相消干涉,進(jìn)而提高接收端的信噪比,有效抑制邊緣干擾[4]。
本文所涉及的波束賦形技術(shù)利用的是由兩個(gè)麥克風(fēng)產(chǎn)生的相位差來(lái)降低目標(biāo)方向以外的語(yǔ)音,降低環(huán)境噪聲,提高目標(biāo)聲源的清晰度。波束賦形技術(shù)之所以能形成指向性是因?yàn)槠鋵⒅赶蜉S轉(zhuǎn)向了聲源的方向,進(jìn)而有效降低了環(huán)境的噪聲。通過(guò)優(yōu)化處理,運(yùn)行波束賦形功能時(shí)延遲時(shí)間可以控制在10 ms以?xún)?nèi),并且最大限度地減小對(duì)其他電路的影響。使用兩個(gè)無(wú)指向性的麥克風(fēng)形成波束賦形技術(shù)的BU8332KV?M的工作原理圖如圖1所示。
通過(guò)實(shí)驗(yàn)檢測(cè),如圖2所示,在環(huán)境噪聲等級(jí)為65 dB SPL的環(huán)境下語(yǔ)音識(shí)別率從0%提高到了50%;在環(huán)境噪聲等級(jí)為55 dB SPL的環(huán)境下語(yǔ)音識(shí)別率從10%提高到了90%;當(dāng)語(yǔ)音識(shí)別率已經(jīng)達(dá)到一定的水準(zhǔn)之后想要繼續(xù)提升是很困難的,但應(yīng)用此芯片后在環(huán)境噪聲等級(jí)為45 dB SPL的環(huán)境下語(yǔ)音識(shí)別率還能從80%提升到95%。由此可見(jiàn),其對(duì)于噪聲條件下的語(yǔ)音識(shí)別率提升作用顯著。
2? V290pub語(yǔ)音識(shí)別模塊
傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)為:拼音串+51單片機(jī)+LD3320,但這其中存在諸多缺陷,例如識(shí)別指令少、識(shí)別距離短、沒(méi)有誤識(shí)別功能以及特定人識(shí)別功能,其中最為嚴(yán)重的缺陷便是抗噪能力差,因此就需要在此傳統(tǒng)系統(tǒng)的基礎(chǔ)上做出改進(jìn),選擇V290pub替代LD3320就是重要改進(jìn)之一。V290pub使用了最新的語(yǔ)音識(shí)別芯片技術(shù),內(nèi)置降噪模塊和識(shí)別打分模塊(用于提供錯(cuò)誤拒絕識(shí)別功能),V290pub不僅具備離線(xiàn)識(shí)別功能,而且還能通過(guò)Uart送出語(yǔ)音流,方便上傳到云端服務(wù)器進(jìn)行識(shí)別,從而實(shí)現(xiàn)在線(xiàn)識(shí)別,同時(shí)降低“誤識(shí)別”與“誤觸發(fā)”兩類(lèi)錯(cuò)誤。
V290pub較LD3320的升級(jí):
1) 內(nèi)部增加抗噪聲濾波器,更靈敏
配合芯片內(nèi)部的識(shí)別靈敏度寄存器和錄音增益寄存器,可以在嘈雜現(xiàn)場(chǎng)工作,也可以在安靜的環(huán)境中提供8 m的有效識(shí)別距離。使得原來(lái)需要提高音量才能讓LD3320芯片有識(shí)別效果的情況,在完成芯片替換后說(shuō)話(huà)者只需要以正常的音量就可以完成語(yǔ)音識(shí)別[5]。
2) 識(shí)別打分功能,防止誤觸發(fā)
V290Pub對(duì)每次的識(shí)別結(jié)果都進(jìn)行了打分,最高為100分,這個(gè)分?jǐn)?shù)可以理解為識(shí)別匹配的程度。當(dāng)識(shí)別結(jié)果為90分時(shí),說(shuō)明比識(shí)別結(jié)果為60分時(shí)要發(fā)音更準(zhǔn)確。用戶(hù)可以使用這個(gè)分?jǐn)?shù)來(lái)設(shè)定有效值區(qū)間,只有識(shí)別分?jǐn)?shù)在有效值區(qū)間內(nèi)的識(shí)別結(jié)果才能作為有效的識(shí)別結(jié)果,從而有效地避免了誤觸發(fā)。
3) “垃圾詞語(yǔ)”吸收噪聲
V290Pub支持通過(guò)串口修改命令詞,方便隨時(shí)修改識(shí)別列表并在識(shí)別列表中設(shè)計(jì)一些“垃圾詞語(yǔ)”用來(lái)吸收噪聲,有效地降低誤識(shí)別率?!袄~語(yǔ)”是指比如某個(gè)應(yīng)用場(chǎng)景中需要識(shí)別的關(guān)鍵詞語(yǔ)是4條:“向前”“向后”“開(kāi)門(mén)”“關(guān)門(mén)”。在把這4個(gè)關(guān)鍵詞語(yǔ)設(shè)置好后可以再另外設(shè)置一些“垃圾詞語(yǔ)”,比如“前門(mén)”“后門(mén)”“前后”“開(kāi)關(guān)”等。只有識(shí)別結(jié)果是4個(gè)關(guān)鍵詞語(yǔ)之內(nèi)的才被認(rèn)為識(shí)別有效,如果識(shí)別結(jié)果是“垃圾詞語(yǔ)”,則說(shuō)明是其他聲音導(dǎo)致的誤識(shí)別,識(shí)別模塊不予響應(yīng)。
4) 錄音功能
V290Pub提供了錄音功能,可以在執(zhí)行VSR進(jìn)行識(shí)別的同時(shí),把現(xiàn)場(chǎng)的聲音上傳到云端服務(wù)器進(jìn)行輔助識(shí)別。
5) 內(nèi)部循環(huán)識(shí)別
一次識(shí)別初始化設(shè)置后V290pub語(yǔ)音模塊會(huì)不停地進(jìn)行內(nèi)部VAD檢測(cè),并在聲音停頓的地方給出一次識(shí)別結(jié)果。不需要每次都送入識(shí)別列表,以及把寄存器設(shè)置的一次最長(zhǎng)識(shí)別時(shí)間的限制設(shè)置為無(wú)限長(zhǎng)。
3? 系統(tǒng)設(shè)計(jì)
3.1? 系統(tǒng)硬件設(shè)計(jì)
系統(tǒng)由硬件和軟件兩部分構(gòu)成,硬件部分又可分為語(yǔ)音處理部分與語(yǔ)音識(shí)別部分??紤]到系統(tǒng)組件對(duì)成本、體積以及集成度的要求,本系統(tǒng)采用的處理單元是STC89C52單片機(jī)及其外圍電路。整個(gè)系統(tǒng)由語(yǔ)音輸入模塊(麥克風(fēng))、語(yǔ)音處理模塊、語(yǔ)音識(shí)別模塊、主控模塊(單片機(jī))、語(yǔ)音播報(bào)模塊(喇叭)、控制模塊(繼電器)以及電源模塊構(gòu)成[6]。
3.1.1? 語(yǔ)音處理部分
此部分主要由BU8332KV?M與V290pub內(nèi)置的抗噪聲濾波器組成,配合特殊化抗噪處理麥克風(fēng)使用??乖臌溈孙L(fēng)的特殊之處在于其與硬件緊密地連接從而減少回聲干擾,麥克風(fēng)內(nèi)部的聲音采集元件不與硬體部分發(fā)生直接接觸,而是通過(guò)能吸收聲音能量的海綿孔將其包裹。BU8332KV?M為了提升語(yǔ)音品質(zhì),采用能形成敏銳指向性的波束賦形技術(shù),使兩個(gè)無(wú)指向性的麥克風(fēng)形成指向性,并且通過(guò)噪聲抑制功能降低指向軸方向上殘留的固定噪聲,此方法與只刪除噪聲的方法不同,可以進(jìn)一步加強(qiáng)聲源。V290pub內(nèi)置的抗噪聲濾波器更為靈敏,包含低通濾波器和二階的陷波濾波器,低通濾波器主要為了過(guò)濾噪聲,而采用陷波濾波器在特定的頻率成分處增加相位超前來(lái)抵消低通濾波器的相位延遲,從而保證系統(tǒng)的穩(wěn)定性。而且抗噪聲濾波器以微小的體積集成在V290pub當(dāng)中,不會(huì)對(duì)模塊中其他電路產(chǎn)生負(fù)面影響。通過(guò)兩步優(yōu)化降噪處理,將完成降噪后的語(yǔ)音輸入到V290pub的語(yǔ)音識(shí)別芯片中。語(yǔ)音處理系統(tǒng)原理框圖如圖3所示。
3.1.2? 語(yǔ)音識(shí)別部分
該部分由V290pub、主控MCU及其外圍電路組成,主要負(fù)責(zé)對(duì)接收到的語(yǔ)音信號(hào)進(jìn)行識(shí)別并輸出識(shí)別的結(jié)果。V290pub兼顧特定人與非特定人語(yǔ)音識(shí)別技術(shù),它不需要外接任何輔助的FLASH和RAM,也不需要用戶(hù)提前進(jìn)行訓(xùn)練和錄音,就能實(shí)現(xiàn)語(yǔ)音識(shí)別功能??梢愿鶕?jù)實(shí)際場(chǎng)景需要,隨時(shí)編輯和更新關(guān)鍵詞語(yǔ)的內(nèi)容,并且其關(guān)鍵詞列表是可以動(dòng)態(tài)編輯的。外接的E2PROM里可以放防止誤識(shí)別的“垃圾詞語(yǔ)”內(nèi)容,用來(lái)幫助語(yǔ)音芯片降低錯(cuò)誤識(shí)別率。同時(shí),V290pub內(nèi)置的識(shí)別打分模塊對(duì)每次的識(shí)別結(jié)果都提供了一個(gè)分?jǐn)?shù),也能夠有效降低錯(cuò)誤識(shí)別率[7?8]。圖4為語(yǔ)音識(shí)別系統(tǒng)原理框圖。
3.2? 系統(tǒng)電路設(shè)計(jì)
硬件平臺(tái)的主控MCU選擇的是STC89C52,根據(jù)芯片內(nèi)部的邏輯結(jié)構(gòu),以及STC89C52的引腳功能,下面給出了STC89C52控制V290pub的電路連接圖。圖5所示為STC89C52的電路連接圖,圖6所示為V290pub的電路連接圖。
圖5、圖6中,P0.0~P0.7連接的是V290pub的相關(guān)引腳,P3.6和P3.7主要是對(duì)V290pub進(jìn)行讀寫(xiě)處理,P1.6連接了E2PROM的串行時(shí)鐘的輸入(SCL),P1.7連接了E2PROM的串行數(shù)據(jù)的輸入和輸出(SDA)。LED是通過(guò)單片機(jī)的P1.5引腳進(jìn)行控制的,根據(jù)改變引腳的高低電平來(lái)控制LED的亮滅。當(dāng)一次識(shí)別結(jié)束后,引腳輸出高電平,燈滅;下次識(shí)別結(jié)束后引腳輸出低電平,燈亮。用這種交替的亮滅過(guò)程來(lái)提示語(yǔ)音識(shí)別過(guò)程的結(jié)束與否[9]。
根據(jù)STC89C52的引腳連接可對(duì)應(yīng)V290pub的引腳連接。在系統(tǒng)的設(shè)計(jì)中,將“垃圾詞語(yǔ)”存儲(chǔ)在E2PROM里,圖7所示為24C02的電路連接圖。
3.3? 系統(tǒng)軟件設(shè)計(jì)
本系統(tǒng)的軟件采用模塊化進(jìn)行編程,分別由主控制器程序、語(yǔ)音識(shí)別程序、語(yǔ)音播報(bào)程序等組成。系統(tǒng)啟動(dòng)后,程序初始化,開(kāi)始循環(huán)檢測(cè),當(dāng)檢測(cè)到相關(guān)指令時(shí),執(zhí)行相關(guān)指令所對(duì)應(yīng)的操作。假設(shè)外圍設(shè)備為智能風(fēng)扇,當(dāng)使用者說(shuō)出“打開(kāi)智能風(fēng)扇”時(shí),系統(tǒng)控制風(fēng)扇打開(kāi),同時(shí)語(yǔ)音播報(bào)回復(fù)“智能風(fēng)扇已經(jīng)打開(kāi)”[10]。系統(tǒng)軟件設(shè)計(jì)的主要程序流程圖如圖8所示。
4? 實(shí)驗(yàn)分析
本文所設(shè)計(jì)的語(yǔ)音識(shí)別系統(tǒng)主要針對(duì)的是抗噪處理,為了更好地檢測(cè)系統(tǒng)抗噪功能的實(shí)現(xiàn)和語(yǔ)音指令識(shí)別效果,實(shí)驗(yàn)采用普通家庭的家中客廳作為實(shí)驗(yàn)場(chǎng)地,以客廳的電視大約60 dB的音量播放電視劇為背景,測(cè)試過(guò)程中選擇多個(gè)不同音色的人在此環(huán)境下分別進(jìn)行傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)與新型降噪語(yǔ)音識(shí)別系統(tǒng)的實(shí)驗(yàn)。觀察非特定人群在兩種系統(tǒng)下的識(shí)別效果,每個(gè)語(yǔ)音指令測(cè)試50次,對(duì)每個(gè)語(yǔ)音指令的識(shí)別成功率進(jìn)行統(tǒng)計(jì)。
表1、表2分別為傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)與新型降噪語(yǔ)音識(shí)別系統(tǒng)的部分非特定人語(yǔ)音指令識(shí)別結(jié)果,表中數(shù)據(jù)表示實(shí)驗(yàn)50次的成功次數(shù)。
由表1、表2的對(duì)比可知,傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)的非特定人語(yǔ)音指令正確識(shí)別率在37%左右,而本文所設(shè)計(jì)的新型降噪語(yǔ)音識(shí)別系統(tǒng)對(duì)于非特定人語(yǔ)音指令的識(shí)別準(zhǔn)確率接近95%,誤識(shí)別率減小到了5%左右。從目前的測(cè)試情況看,系統(tǒng)性能和功能相對(duì)穩(wěn)定,控制效果較好,具備響應(yīng)速度快、準(zhǔn)確率高、實(shí)用性強(qiáng)的優(yōu)點(diǎn)。
兩種不同的語(yǔ)音識(shí)別系統(tǒng)下對(duì)多條語(yǔ)音指令處理后的波形如圖9、圖10所示。
5? 結(jié)? 語(yǔ)
將語(yǔ)音識(shí)別應(yīng)用在嘈雜環(huán)境中的識(shí)別成功率問(wèn)題一直是語(yǔ)音信號(hào)處理領(lǐng)域的研究熱點(diǎn)和難點(diǎn),本文針對(duì)現(xiàn)有語(yǔ)音識(shí)別系統(tǒng)抗噪能力不足的問(wèn)題,提出采用特殊抗噪處理的MIC,采用BU8332KV?M信號(hào)處理IC結(jié)合V290pub語(yǔ)音識(shí)別模塊實(shí)現(xiàn)良好的降噪處理,完成在嘈雜環(huán)境中的語(yǔ)音識(shí)別并最終達(dá)到語(yǔ)音控制終端設(shè)備的目的。文中給出了系統(tǒng)各模塊的軟硬件設(shè)計(jì),硬件模塊選型合理,程序功能設(shè)計(jì)完善,系統(tǒng)識(shí)別率高,穩(wěn)定性好,方便集成。測(cè)試結(jié)果表明,本系統(tǒng)能實(shí)現(xiàn)嘈雜環(huán)境中的語(yǔ)音識(shí)別,識(shí)別成功率在95%左右,達(dá)到了良好的語(yǔ)音控制效果,可以替代傳統(tǒng)的開(kāi)關(guān)及遙控器。因此,拓寬語(yǔ)音識(shí)別技術(shù)的應(yīng)用范圍對(duì)改善人們的生活有著深遠(yuǎn)的意義。
參考文獻(xiàn)
[1] 劉幺和,宋庭新.語(yǔ)音識(shí)別與控制應(yīng)用技術(shù)[M].北京:科學(xué)出版社,2008.
[2] 王群,曾慶寧,謝先明,等.低信噪比環(huán)境下的語(yǔ)音識(shí)別方法研究[J].聲學(xué)技術(shù),2017,36(1):50?56.
[3] 潘麗杰,徐本亮,朱琪,等.基于雙麥克風(fēng)降噪技術(shù)的語(yǔ)音識(shí)別系統(tǒng)[J].現(xiàn)代電子技術(shù),2016,39(2):137?139.
[4] 王力,何丙發(fā),孫慶鋒.一種陣列天線(xiàn)快速波束賦形方法[J].現(xiàn)代雷達(dá),2016,38(8):70?74.
[5] YE Z M, MOHAMADIAN H. Application of modern control theory on performance analysis of generalized notch filters [C]// International Conference on Modern Circuits & Systems Technologies. Thessaloniki: IEEE, 2016: 17?21.
[6] 傅大梅,盛彬.語(yǔ)音識(shí)別無(wú)線(xiàn)開(kāi)關(guān)控制裝置的設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2017,40(14):33?35.
[7] MITTAL Y, TOSHNIWAL P, SHARMA S, et al. A voice?controlled multi?functional smart home automation system [C]// 2015 Annual IEEE India Conference. New Delh: IEEE, 2016: 31?35.
[8] 付蔚,唐鵬光,李倩.智能家居語(yǔ)音控制系統(tǒng)的設(shè)計(jì)[J].自動(dòng)化儀表,2014,35(1):46?50.
[9] 涂樸.基于STC89C52的公交智能報(bào)站系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2015,38(9):104?105.
[10] 何侃,田亞清,李強(qiáng),等.基于LD3320的語(yǔ)音識(shí)別智能垃圾桶設(shè)計(jì)[J].國(guó)外電子測(cè)量技術(shù),2015,34(6):85?88.