姜辰凱
摘 要:隨著人類社會的進步和科學的迅猛發(fā)展,人們開始追求智能、便捷的家居環(huán)境,因此智能家居得到迅速地崛起。本為主要以NL6621嵌入式硬件和軟件為平臺,VS1003為音頻解碼芯片錄制語音。并利用隱馬爾可夫(HMM)算法進行語音模型訓練和語音匹配,實現(xiàn)智能家居語音控制系統(tǒng)。
關鍵詞:智能家居;語音識別;模式識別;嵌入式系統(tǒng)
智能家居系統(tǒng)是以家庭住宅作為系統(tǒng)的基本應用平臺,利用計算機通信、模式識別、自動控制等技術將家居生活中有關的設備進行有機的結合,構建出一套高效、智能的家居自動控制和管理系統(tǒng)。
本文以智能家居為背景,將語音識別技術應用于智能家居環(huán)境中。通過語音技術識別出短語命令從而進行家居設備的控制,建立起一套便捷、智能的家居智能控制和事務管理系統(tǒng),使系統(tǒng)更加智能化。
研究的意義:科技讓生活更智能,語音讓交互更便捷。無論是再技術先進的品牌,再友善的人機交互界面,都沒有語音交互控制來的簡便直接.所以,如果智能家居能與語音交互融于一體,那么智能家居產(chǎn)業(yè)也許會迎來一次劃時代的突破。
一、語音識別與智能家居
隨著智能家居市場的發(fā)展,國外的IT巨頭們已先后以智能家居與語音相結合的方式進入智能家居領域:谷歌收購NEST布局智能家居,不斷強化Google Now的語音入口;蘋果HomeKit智能家居平臺與Siri也不斷加強融合;市場上流行的Echo智能音箱使用了亞馬遜的Alexa語音技術;微軟也發(fā)布語音助手Cortana,將它作為智能家居領域擴展交互入口。從這些國外科技大佬們對語音產(chǎn)業(yè)的重視和投入,可以看出智能語音與智能家居的融合是大勢所趨,業(yè)內普遍認為語音作為人類信息最自然、最便捷的交互方式,必將成為未來智能家居設備中的重要組成部分。
(一)語言識別技術
語言識別技術也被稱為自動語音識別Automatic Speech Recognition,(ASR),其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入,與說話人識別及說話人確認不同,后者嘗試識別或確認發(fā)出語音的說話人而非其中所包含的詞匯內容。語音識別技術與其他自然語言處理技術如機器翻譯及語音合成技術相結合,可以構建出更加復雜的應用,語音識別技術正逐步成為計算機信息處理技術中的關鍵術.語音技術的應用已經(jīng)成為一個具有競爭性的新興高技術產(chǎn)業(yè)。
(二)語言識別算法
目前具有代表性的語音識別方法主要有動態(tài)時間規(guī)整技術(DTW)、隱馬爾可夫模型(HMM)、矢量量化(VQ)、人工神經(jīng)網(wǎng)絡(ANN)、支持向量機(SVM)、獨立分量分析(ICA)等方法。
1.動態(tài)時間規(guī)整算法(DynamicTimeWarping,DTW)是在非特定人語音識別中一種簡單有效的方法.該算法基于動態(tài)規(guī)劃的思想,解決了發(fā)音長短不一的模板匹配問題,是語音識別技術中出現(xiàn)較早、較常用的一種算法。
2.隱馬爾可夫模型(HMM)是語音信號處理中的一種統(tǒng)計模型,是由Markov鏈演變來的,所以它是基于參數(shù)模型的統(tǒng)計識別方法。由于其模式庫是通過反復訓練形成的與訓練輸出信號吻合概率大的最佳模型參數(shù)而不是預先儲存好的模式樣本,且其識別過程中運用待識別語音序列與HMM參數(shù)之間的似然概率達到最大值所對應的最佳狀態(tài)序列作為識別輸出,因此是較理想的語音識別模型。
3.矢量量化(Vector Quantization)是一種重要的信號壓縮方法。與HMM相比,矢量量化主要適用于小詞匯量、孤立詞的語音識。
4.人工神經(jīng)網(wǎng)絡(ANN)本質上是一個自適應非線性動力學系統(tǒng),模擬了人類神經(jīng)活動的原理,具有自適應性、并行性、魯棒性、容錯性和學習特性,其強大的分類能力和輸入-輸出映射能力在語音識別中都很有吸引力。
5.支持向量機(Support vector machine)是應用統(tǒng)計學理論的一種新的學習機模型,支持向量機由于它具有良好的理論基礎,所以在各個領域中得到廣泛應用,使用支持向量機對說話人進行建模也在最近幾年得到許多研究。
二、基于NL6621嵌入式硬件設計
語音識別的硬件平臺主要包括中央處理器NL6621,可讀寫存儲器,聲卡芯片vs1003以及一些外圍設備,主系統(tǒng)使用新岸線公司的NL6621。MCU采用的最高主頻為160MHz,支持802.llb/g/n/i/e/p和Wi-Fidirect,BSS STA,軟AP,Wi-Fi保護設置以及WMM-PS和WPA/WPA2安全協(xié)議。codec芯片是vs1003,它與核心控制器NL6621的數(shù)據(jù)通信是通過SPI總線方式進行的。它集成了麥克風輸入接口,音頻輸出接口,對話筒輸入或者線路輸入進行IMA ADPCM編碼,能有效的接受和播放音頻信息。
三、基于NL6621嵌入式軟件設計
軟件設計主要包括兩部分實現(xiàn)軟件控制嵌入式系統(tǒng)和基于HMM技術的語音識別算法編寫,針對嵌入式系統(tǒng)控制部分,包括硬件初始化以及采集音頻信號。主要是使用NL6621提供的軟件開發(fā)包,利用SDK編寫應用程序,包括硬件管腳初始化,波特率匹配,錄音文件配置,Wi-Fi配置,錄音,音頻文件格式轉化、程序編寫完成后需要用燒寫工具進行燒寫。然后系統(tǒng)開始工作,通過語音輸入設備MIC采集語音,并通過聲卡VS1003輸入語音。
四、結束語
本文通過設計了一個簡單嵌入式語音平臺,并以實驗驗證了其語音識別的有效性及可行性。將程序下載到NL6621平臺上運行實現(xiàn)語音傳入,相信對智能家居中嵌入式語音控制開發(fā)具有一定的意義。我們仍要通過不斷研究并設計更加可靠方便的系統(tǒng),從而使智能家居語音識別走向更成熟的市場。
參考文獻:
[1]張雄偉.現(xiàn)代語音處理技術及應用[M].北京:機械工業(yè)出版社,2003.
[2]趙力.語音信號處理[M].北京;機械工業(yè)出版社,2009.
[3]顧亞強.非特定人語音識別關鍵技術研究[D].長沙.國防科學技術大學碩士學位論文,2009.
[4]杜曉偉.嵌入式語音識別的研究與實現(xiàn)[D].北京.北方工業(yè)大學信息工程學院,2011.
[5]劉榮輝.基于智能家居控制的嵌入式語音識別系統(tǒng)[J].廣州.廣東工業(yè)大學學報,2014.