胡冬琴 王琳娜
摘 要:本設(shè)計(jì)采用高性能處理器,高速數(shù)據(jù)傳輸功能的802.11AC WiFi芯片以及語(yǔ)音處理DSP芯片為架構(gòu),利用智能麥克風(fēng)為輸入口,通過(guò)語(yǔ)音識(shí)別技術(shù)構(gòu)成整個(gè)技術(shù)平臺(tái),收集到的語(yǔ)音數(shù)據(jù)會(huì)通過(guò)WiFi或者4G通訊模組被發(fā)送到云端服務(wù)器進(jìn)行處理,組成一套完整的智能家居語(yǔ)音控制系統(tǒng)。
關(guān)鍵詞:語(yǔ)音識(shí)別 智能家居 WiFi
中圖分類(lèi)號(hào):G64 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2018)12(c)-0040-02
1 智能家居的意義
在智能家居方面,總能聽(tīng)到用戶對(duì)手機(jī)作為唯一入口的抱怨,客廳應(yīng)該是一個(gè)首先受益于語(yǔ)音識(shí)別的地方,因?yàn)閭鹘y(tǒng)電視遙控器的眾多按鍵就讓電視的操作很不方便,新的互聯(lián)網(wǎng)電視更是讓很多人尤其是老年人不知道怎么使用,而語(yǔ)音識(shí)別使得你可以直接對(duì)電視說(shuō)出你想看什么節(jié)目,想看什么電影則更是會(huì)方便很多。其次是燈、空調(diào)、窗簾等這種高頻次簡(jiǎn)單操作類(lèi)的家居設(shè)備,語(yǔ)音識(shí)別將給人帶來(lái)大大的方便。目前,從目前國(guó)內(nèi)外的研究情況來(lái)看,在智能家居應(yīng)用中,以智能音箱、智能開(kāi)關(guān)等家居為載體的語(yǔ)音識(shí)別技術(shù)應(yīng)用越來(lái)越廣泛。利用亞馬遜的echo智能音箱、阿里巴巴的X1智能音箱等,都是行業(yè)的標(biāo)桿性產(chǎn)品。因此,我們有必要研究出相關(guān)的應(yīng)用方案,并在智能家居中推廣,利用語(yǔ)音識(shí)別技術(shù)去控制家里的冰箱、空調(diào)等設(shè)備。然后把這種研究成果轉(zhuǎn)化成課程改革項(xiàng)目并做成課程模塊進(jìn)行推廣,具有很好的現(xiàn)實(shí)意義。
本項(xiàng)目主要使用高性能處理器,高速數(shù)據(jù)傳輸功能的802.11AC WiFi芯片以及語(yǔ)音處理DSP芯片為架構(gòu),搭建整個(gè)系統(tǒng)平臺(tái),利用智能麥克風(fēng)為輸入口,通過(guò)語(yǔ)音識(shí)別技術(shù)構(gòu)成整個(gè)技術(shù)平臺(tái),收集到的語(yǔ)音數(shù)據(jù)會(huì)通過(guò)WiFi或者4G通訊模組被發(fā)送到云端服務(wù)器進(jìn)行處理,這樣就組成一套完整的智能家居語(yǔ)音控制系統(tǒng)。項(xiàng)目中涉及的語(yǔ)音處理DSP系統(tǒng),使用業(yè)內(nèi)最流行的Knowles公司的Audio DSP系統(tǒng),具有非常高的處理性能,是目前應(yīng)用最流行的語(yǔ)音處理芯片,非常適合應(yīng)用在智能家居語(yǔ)音控制系統(tǒng)中。本項(xiàng)目涉及的智能家居語(yǔ)音控制系統(tǒng)主要使用全志公司的充電芯片、高端ARM A處理器芯片,以及博通公司的802.11ac WiFi芯片,集成在一起組成一款高性能的智能化的語(yǔ)音控制設(shè)備。
2 系統(tǒng)硬件設(shè)計(jì)
系統(tǒng)硬件設(shè)計(jì)主要是語(yǔ)音控制終端,終端的主要作用為:帶有麥克風(fēng)陣列,可搜集各個(gè)方向的聲音,收集到的聲音被送到語(yǔ)音處理器進(jìn)行語(yǔ)音喚醒,并把有用的語(yǔ)音信息進(jìn)行語(yǔ)音識(shí)別,高性能處理器會(huì)根據(jù)識(shí)別的語(yǔ)音進(jìn)行下一步的控制動(dòng)作,控制相應(yīng)的家居設(shè)備,一些設(shè)備信息和不能識(shí)別的語(yǔ)音信息將被傳到云端服務(wù)器。系統(tǒng)硬件主要包括ARM處理器、4G模塊、存儲(chǔ)器以及WiFi模塊,Audio處理器單元以及供電系統(tǒng)。
2.1 語(yǔ)音識(shí)別和麥克風(fēng)陣列原理
所謂麥克風(fēng)陣列就是放置在空間中不同位置的多個(gè)麥克風(fēng)。根據(jù)聲波傳播理論,利用多個(gè)麥克風(fēng)收集到的信號(hào)可以將某一方向傳來(lái)的聲音增強(qiáng)或抑制,利用這種方法,麥克風(fēng)陣列可以將噪聲環(huán)境中特定聲音信號(hào)有效增強(qiáng)。麥克風(fēng)陣列技術(shù)廣泛應(yīng)用于智能家居中,它負(fù)責(zé)對(duì)從聲源來(lái)的聲音進(jìn)行采集并進(jìn)行識(shí)別,系統(tǒng)根據(jù)識(shí)別的結(jié)果進(jìn)行動(dòng)作的處理。麥克風(fēng)陣列和語(yǔ)音識(shí)別的原理如下:模擬語(yǔ)音信號(hào)經(jīng)語(yǔ)音處理器采樣,采樣的頻率設(shè)置為8kHz,則一秒鐘采樣8000次,一個(gè)采樣點(diǎn)按8bit的精度量化,那么一秒鐘就有8000×8bit=64×103bit≈8kByte(小于)。將采樣信號(hào)送入到RAM中;在系統(tǒng)RAM中,設(shè)置三段緩存區(qū),每段大小為8kB,也就是一段緩存區(qū)存滿的時(shí)間為1s,三段緩沖區(qū)循環(huán)利用,提高系統(tǒng)的實(shí)時(shí)性;當(dāng)一段緩存區(qū)數(shù)據(jù)填滿后,系統(tǒng)從緩沖區(qū)中取出數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行分析,首先對(duì)數(shù)字語(yǔ)音信號(hào)進(jìn)行加窗分幀,采用漢明窗,取每幀的長(zhǎng)度為20ms,幀移為10ms,每幀包括160個(gè)采樣點(diǎn),進(jìn)行端點(diǎn)檢測(cè),若檢測(cè)到不是語(yǔ)音信號(hào)的起始點(diǎn),則直接丟掉;若檢測(cè)到時(shí)是語(yǔ)音信號(hào)的起始點(diǎn),則從該幀開(kāi)始,對(duì)每幀數(shù)字信號(hào)提取特征參數(shù),并存放到特征參數(shù)模板庫(kù)中,也即一段內(nèi)存中,依此類(lèi)推,當(dāng)檢測(cè)到數(shù)字語(yǔ)音信號(hào)的終點(diǎn)時(shí),則停止進(jìn)行特征參數(shù)的提取和存放。循環(huán)進(jìn)行,這個(gè)循環(huán)的次數(shù)即訓(xùn)練要求的次數(shù)。
2.2 高性能ARM處理器
在本系統(tǒng)采用Rock Chip公司的高性能微處理RK3288,這是一款四核Cortex-A17,主頻為1.8GHz,被認(rèn)為是近幾年應(yīng)用最為廣泛的ARM處理器,支持MIPI、USB OTC、支持5路USB2.0 HOST等高性能數(shù)據(jù)傳輸和顯示接口,能夠滿足項(xiàng)目的研發(fā)需求。RK3288在整個(gè)系統(tǒng)如同人的大腦,它是整個(gè)系統(tǒng)的核心部分,它負(fù)責(zé)語(yǔ)音信號(hào)的收集并把這些語(yǔ)音信號(hào)進(jìn)行識(shí)別,它要把這些從麥克風(fēng)陣列采集到的數(shù)據(jù)進(jìn)行“翻譯”,并根據(jù)這些指令去控制相應(yīng)的控制設(shè)備。RK3288采用Linux操作系統(tǒng),可以運(yùn)行802.11ac/b/g/n/c無(wú)線通訊協(xié)議,使系統(tǒng)沒(méi)有4G網(wǎng)絡(luò)時(shí)與WIFI路由器連接。
2.3 無(wú)線通訊4G模塊及Wi-Fi模組
采用SIMCOM公司的SIM7600CE模塊作為整個(gè)系統(tǒng)的蜂窩解決方案,負(fù)責(zé)把需要發(fā)送的數(shù)據(jù)發(fā)送到云端服務(wù)器,SIM7600CE模塊可支持GSM、WCDMA、TDD-LTE和FDD-LTE功能,具有很高的性價(jià)比。SIM7600CE提供一路SPI接口,兩路SDIO接口電路,很方便的與MCU進(jìn)行數(shù)據(jù)通信,也提供了一路USB2.0接口,以便于進(jìn)行程序調(diào)試。采用博通BCM4356方案,通過(guò)PCIe接口與處理器連接,信號(hào)從天線到2.4G&5.8G的雙頻天線,到Diplexer 來(lái)進(jìn)行天線頻率的選擇,進(jìn)入到芯片內(nèi)部進(jìn)行處理。系統(tǒng)采用DDR3L類(lèi)型的RAM和三星存儲(chǔ)器KLM8G1GEND,這兩種器件具有性能穩(wěn)定,讀取速度快的特點(diǎn),方便系統(tǒng)重啟時(shí)恢復(fù)。
3 系統(tǒng)軟件設(shè)計(jì)
系統(tǒng)軟件主要包括服務(wù)器軟件,以及語(yǔ)音控制終端軟件兩個(gè)部分組成,服務(wù)器端軟件主要存儲(chǔ)語(yǔ)音控制設(shè)備上傳得數(shù)據(jù),以及供用戶通過(guò)Web的方式登錄服務(wù)器并去查詢?cè)O(shè)備的一些信息。數(shù)據(jù)服務(wù)器可分為前端頁(yè)面導(dǎo)航部分和后端架構(gòu)模型部分,前端頁(yè)面導(dǎo)航部分負(fù)責(zé)展示系統(tǒng)的整體拓?fù)浣Y(jié)構(gòu),后端架構(gòu)中的Web Socket服務(wù),負(fù)責(zé)服務(wù)器與網(wǎng)關(guān)的實(shí)時(shí)通訊。
采集端的軟件設(shè)計(jì)過(guò)程是:首先,用戶通過(guò)特定的語(yǔ)音去喚醒語(yǔ)音控制終端,語(yǔ)音控制終端通過(guò)麥克風(fēng)陣列采集語(yǔ)音數(shù)據(jù),采集到的數(shù)據(jù)被送到RAM中進(jìn)行語(yǔ)音識(shí)別,由于Audio處理器內(nèi)部的RAM比較小,只能識(shí)別少數(shù)的語(yǔ)音指令,大部分的語(yǔ)音指令需要通過(guò)麥克風(fēng)陣列―――〉A(chǔ)udio 處理器―――〉高性能ARM處理器―――〉WiFI/4G模組,然后數(shù)據(jù)被發(fā)送到云端處理器進(jìn)行語(yǔ)音分析,分析完成后會(huì)翻譯成約定的通訊協(xié)議通過(guò)云端服務(wù)器―――〉高性能ARM處理器,再通過(guò)路由器發(fā)送給其它設(shè)備進(jìn)行相應(yīng)指令的操作。
4 總結(jié)
從這個(gè)系統(tǒng)的架構(gòu)來(lái)看,本系統(tǒng)的核心在于語(yǔ)音識(shí)別和云端部分的系統(tǒng)設(shè)計(jì)。本項(xiàng)目具有語(yǔ)音數(shù)據(jù)采集、識(shí)別、傳送、返回、執(zhí)行的全過(guò)程,這是一個(gè)典型的物聯(lián)網(wǎng)系統(tǒng)架構(gòu),這樣架構(gòu)的語(yǔ)音識(shí)別控制平臺(tái),具有識(shí)別準(zhǔn)確、反映迅速,執(zhí)行快的特點(diǎn),這樣的產(chǎn)品將會(huì)在智能家軍中會(huì)應(yīng)用越來(lái)越廣泛。本系統(tǒng)架構(gòu)簡(jiǎn)單,開(kāi)發(fā)快,成本低,產(chǎn)品化后肯定能夠快速的打開(kāi)市場(chǎng),為企業(yè)帶來(lái)價(jià)值。
參考文獻(xiàn)
[1] 俞棟. 語(yǔ)音識(shí)別實(shí)踐[m]. Kindle電子書(shū),2016.
[2] 海登. 智能家居原理及應(yīng)用[m]. 武漢:華中科技大學(xué)出版社,2014.