岳雅婷,孫文清,張雅婷,朱雨情,張 琦
(安徽三聯(lián)學院,安徽 合肥 230601)
智能小耳主要利用智能喚醒的功能,完成使用者的指令,對耳機做出的一系列的創(chuàng)新都是更好地為使用者提供服務,在生活中給使用者有很大的幫助。 智能小耳的喚醒功能幫助使用者順利完成操作,來電、去電的語音與文字互轉顯示功能可以輕松方便的接收發(fā)送信息。
“智能小耳”設備開啟后能自動加載內部資源,這時設備處于休眠狀態(tài)。 當用戶說出原先設定的特定喚醒詞后,設備就會被喚醒,此時設備解除休眠狀態(tài)進入工作狀態(tài),等待用戶下一步的指令。 在此過程中,用戶不需要動手操作,直接憑借聲音說出特定喚醒詞再用語音進行后續(xù)操作,利用語音喚醒的功能,設備不用時刻處于工作的狀態(tài),可以很大程度節(jié)省能耗,全程不需要動手操作完全憑借語音,所以十分便捷[1-3]。
語音喚醒技術的實現(xiàn)主要是依賴語音喚醒模型,它是整個語音喚醒系統(tǒng)的核心。 語音喚醒模型主要功能是在聽到喚醒詞后就能立刻從休眠狀態(tài)轉換為工作狀態(tài),所以必須實時監(jiān)測,才可以在聽到喚醒詞后做到立刻反饋。 即使處于不聯(lián)網(wǎng)狀態(tài),也可以做出及時響應。
語音識別流程主要是輸入、前端處理(預處理)、特征處理、識別過程、文本后處理。
1.2.1 輸入
輸入是指音頻信號。
1.2.2 前端處理(預處理)
當需要被識別的音頻信號輸入后,需要對音頻進行一些優(yōu)化處理。 例如,音頻中有一段靜音,需要切掉靜音部分,這就是靜音檢測(Voice Activity Detection,VAD)技術,也叫端點檢測。 靜音檢測用于檢測出含有聲音信息的音頻,切除靜音的部分。 靜音檢測可以設置靜音檢測時長,根據(jù)時長判斷是否是靜音,從什么時間開始切除。 部分音頻中含有噪聲,需要對其進行降噪處理,這樣可以更好地進入后續(xù)的任務流程。 還有一些語音的預處理過程例如分幀、加窗、預加重[4-8]。
1.2.3 特征提取
在預處理完成之后,需要對音頻進行聲學特征參數(shù)提取,這些特征提取主要是通過參數(shù)的方式獲取音頻的特征,將音頻的特征變成計算機能夠處理的語音特征向量,方便計算機理解、記錄和對比。 每段音頻的特征參數(shù)基本上都是不一樣的,同樣一段話的不同音色的音頻特征可能更接近一些。
1.2.4 模型生成
當特征提取成功后,根據(jù)這些參數(shù)特征生成模型,稱為聲學模型,聲學模型主要是用于生成音素。 在中文中,音素指拼音的聲母韻母。
1.2.5 模型匹配
將提取的特征參數(shù)與聲學模型和語言模型進行匹配。 與聲學模型對比給出對應音素的概率,從而判斷具體的音素。 和語音模型對比給出漢字或者詞語的概率。
1.2.6 生成文字
通過語言模型的對比,生成漢字,也根據(jù)上下文的句子優(yōu)化識別出來的文字。
1.2.7 數(shù)字歸一化
在識別的音頻中如果出現(xiàn)數(shù)字時,識別出來剛開始時是漢字。 例如,“123”會被識別成“一二三”。 為了便于用戶的理解,提高用戶體驗,則需要將數(shù)字歸一化,把漢字轉化為阿拉伯數(shù)字。
語音識別技術在整個語音交互中是一個不可或缺的技術,但是有一些瓶頸問題。 比如,在轉換過程中容易出現(xiàn)差錯。 現(xiàn)如今的技術可以做到盡可能將識別錯誤率降在一個容錯的范圍內,少量的錯誤并不會對整段話的理解產(chǎn)生影響,智能行業(yè)的發(fā)展伴隨著這種技術,是相輔相成的[9-10]。
本套系統(tǒng)采用了智能喚醒技術、語音文字互轉技術、語音播報和語音識別技術。 利用藍牙技術將智能耳機與手機相匹配連接,做到下達指令并準確完成以及語音文字互轉顯示。 系統(tǒng)分為信息采集模塊、信息處理模塊和人機交互模塊3 個部分,如圖1 所示。 這套系統(tǒng)為老人提供了很多方便,無論是老年機還是智能機都可以與智能小耳通過藍牙連接,連接上之后可以通過小耳的特殊功能—智能喚醒和來電、去電的語音與文字互轉顯示等功能,來實現(xiàn)與別人聯(lián)系溝通。這款產(chǎn)品利用自身的特殊功能完成老人們的需求,給使用者更好的使用感。
圖1 智能無線耳機的系統(tǒng)模塊化結構
開啟耳機與手機藍牙,將手機與耳機進行匹配,匹配成功后,利用智能喚醒功能喚醒耳機的智能助理。再對智能助理下達命令,智能助理接收命令后,根據(jù)命令的內容對手機進行相應的控制,如使用者收到消息時,聽到消息的提示音,讓小耳提取消息,根據(jù)使用者的需求,利用來電去電的語音與文字互轉功能。 當使用者需要消息以語音的形式呈現(xiàn)時,如果消息是語音則不改變形式,如果消息是文字則利用此功能轉換為語音。 使用者需要消息以文字的形式呈現(xiàn)時,如果消息是文字則不改變形式,如果消息是語音則利用此功能轉換為文字,最后將結果反饋給使用者。 智能無線耳機的功能流程,如圖2 所示。
圖2 智能無線耳機的功能流程
2.1.1 信息采集模塊
信息采集模塊主要包括使用者指令采集技術來檢測信息,完成使用者命令。 使用者指令采集用于采集使用者所發(fā)出的指令,利用語音文字轉換器實現(xiàn)語音文字互轉功能,這款軟件具有操作簡單、實時高效、轉字準確的特點,從而達到信息采集的目的。
2.1.2 信息處理模塊
進行信息采集后,選用合適的單片機來接收和存儲數(shù)據(jù)。 將采集到的信息與使用者命令相匹配,在使用者的允許下完成指令的內容。 在使用的過程中,使用者將耳機與手機利用藍牙相連接,從而實現(xiàn)耳機控制手機這一功能。
2.1.3 人機交互模塊
系統(tǒng)主要為老人提供服務,人機交互帶來更加便捷、人性化的服務體驗。 耳機開機后通過藍牙自動與手機連接,此時,使用者給智能小耳下達語音指令,系統(tǒng)識別人聲后搜索相關字,將其轉化為機器語言進行編碼、譯碼處理。 系統(tǒng)會結合數(shù)據(jù)庫完成指令的內容,最后通過語音或文字的形式呈現(xiàn)給使用者。
市場上的耳機功能單一,并且只能進行簡單的語音通話,不能通過語音操控耳機和手機。 智能小耳則能通過智能喚醒、來電與去電的語音與文字互轉顯示等功能來滿足老年人的需求,以創(chuàng)新的功能和方便易攜的小巧機身吸引老年人群,以豐富實用的功能滿足消費者。 因此,本產(chǎn)品實用性很強,具有新穎性、先進性、獨特性的特點,并帶有特色功能,使用也是十分方便簡單,能靠指令實現(xiàn)很多功能,給予客戶一種新的體驗。
文章著手于解決老年人的精神上與生活上的需求。 助力小耳智能喚醒功能可以幫助使用者更方便地完成操作,在使用者下達命令之后,能夠快速準確的完成指令。