鄭州科技學院 王 馳 白琛宇 鄺思豪 崔寶利 王 成
互聯(lián)網(wǎng)科技的快速發(fā)展使現(xiàn)如今人們的生活質(zhì)量有了進一步的提升,在日常生活中可以看到許多語音操控和交互的例子,如手機、電腦、智能音箱以及家用掃地機器人的語音助手等等,使用語音控制代替手動操作極大便捷了人們的生活;本文講述了語音模塊在機器人等智能設(shè)備中是如何應用的,日常使用的機器人及現(xiàn)如今主流的智能設(shè)備所使用的語音控制模塊;探討了語音模塊的發(fā)展歷程和探討未來可能的發(fā)展方向。
最早的人與機器的交談的例子發(fā)生在愛迪生發(fā)明留聲機時期,人們第一次聽到機器人發(fā)出 的聲音,但隨后產(chǎn)生的電話也只是傳輸人與人之間信息交流的工具而已。由于語音是最方便且是人們最向往的與機器人的交流方式,因而人們對與機器人的語音對話的探索從未停止。受到技術(shù)的限制以及生活環(huán)境等的原因,語音交互的發(fā)展并不是那么順利;直至20世紀80年代,語音識別技術(shù)才能夠準確地將人們的口語轉(zhuǎn)化為文本,這是語音識別技術(shù)發(fā)展的奠基石。隨后的二十年,人們不斷的對語音識別技術(shù)的準確率進行提升,并且向其可以作出回應的方向不斷探索。
近幾年,隨著科學技術(shù)的不斷發(fā)展語音識別技術(shù)也有了長足進步,由于手機和電腦逐漸成為人們生活中不可或缺的一部分,語音模塊也開始在人們所使用的電子設(shè)備中使用并愈發(fā)成熟,迄今為止語音識別的數(shù)據(jù)準確率可以達到驚人的95%,下面來了解一下這是如何實現(xiàn)的。
語音模塊的主要組成部分有麥克風、語音芯片、揚聲器以及差分電路、放大電路等各種不同功能的電路;涉及有語音采集、語音合成以及語音識別三大主要技術(shù),語音采集和語音識別兩部分工作相輔相成,工作原理一般是先進行采集然后進行識別,圖1所示為語音識別原理的簡單框架圖。
語音識別的實現(xiàn)過程:由麥克風進行語音輸入(語音采集)、采集到的信息會先進行預處理包括噪聲濾波、預加重、端點檢測等方式去除噪聲的影響并實現(xiàn)語音信號到數(shù)字信號的轉(zhuǎn)換、智能語音識別芯片通過對數(shù)字信號利用MFCC、ASCC、LPCC等倒譜系數(shù)進行頻譜分析,提取聲音的關(guān)鍵詞及相應的特征信號,這時基本已經(jīng)確定了語音識別的結(jié)果,但是為了保證結(jié)果的準確和輸出結(jié)果的合理會將特征參數(shù)同步到語音數(shù)據(jù)庫進行比較分析,最后得出相應的識別結(jié)果進入正在使用的MCU。
語音合成主要涉及的技術(shù)為:語音-文字轉(zhuǎn)換也就是TTS,其功能可以分為文本數(shù)據(jù)分析、語言韻律建模和最終的語音合成輸出;語音識別和語音合成都是是構(gòu)建語音交互系統(tǒng)不可缺少的一環(huán),圖2所示為簡單的文語轉(zhuǎn)化輸出圖。
圖1 語音識別原理
圖2 單音節(jié)文語轉(zhuǎn)換流程
由上述可得知,識別結(jié)果進入到MCU之后,為使人們真正得到并聽懂識別的結(jié)果,需要語音合成模塊進行語言和韻律處理(也就是通過文本和詞進行規(guī)整和劃分,通過一系列的語法或者語義上的分析使計算機能夠理解并利用特定的語音合成技術(shù)對語音的基本單元和韻律做出相應的調(diào)整和修改)最后輸出符合要求的聲音;使用不同的語音合成技術(shù)語音交互的輸出效果當然會不一樣,而目前常用的語音合成技術(shù)主要是共振峰合成、波形拼接合成和LMA聲道模型技術(shù)。
語音芯片可以分為語音識別芯片和語音合成芯片它們都是語音模塊的核心硬件組成;芯如其名,語音識別芯片、語音合成芯片就是在傳統(tǒng)的語音芯片中添加語音識別、語音合成等的主要功能;它們能讓機器聽懂人類的語言,也能讓機器發(fā)出人類可以聽懂的聲音,因此機器人可以從人的語言中分析出需要執(zhí)行的命令,執(zhí)行命令操作的同時做出相應語音回應。除此之外,多數(shù)語音芯片還具有高品質(zhì)、高壓縮率錄音放音功能,可在一定程度上實現(xiàn)人機對話。那么使用不同的語音識別和語音合成技術(shù),語音交互的效果會有什么區(qū)別呢?接下來會對常用的幾種語音識別芯片介紹來了解:
NRK10芯片:是一款高性能、低成本的離線語音識別芯片,基于固定詞條、非特定人識別同時還有播報功能(需要外掛SPI-Flash)。優(yōu)點:識別率高、工業(yè)級性能、簡單易用、更新詞條方便等優(yōu)勢,在安靜無回聲環(huán)境中,2m內(nèi)識別率可達90%及以上;廣泛應用在智能家居、AI人工智能、玩具等多種領(lǐng)域;語種識別比較豐富;休眠后可以從任何GPIO、RTC、或WDT中斷來喚醒,使其進入待機狀態(tài);待機狀態(tài)下通過喚醒詞或詞條進入工作狀態(tài)。缺點:識別詞條數(shù)量較少同時還有字數(shù)的限制;在噪聲環(huán)境中識別能力有較大的減弱。
LD3320芯片:集成了處理器和A/D和D/A轉(zhuǎn)換器、麥克風等輸入輸出接口,降低了系統(tǒng)的成本;是一款基于“關(guān)鍵詞語列表”的非特定人聲語音識別芯片;用戶可自由編輯50條關(guān)鍵語句;優(yōu)點:不需要外接任何輔助芯片,具有高準確度和相對準確的語音識別效果;缺點:容易有誤觸發(fā)、誤識別,有時在切換不同詞條程序時有較長的等待時間。
SYN6658芯片:通過UART接口或SPI接口通訊方式,接收待合成的文本數(shù)據(jù),實現(xiàn)TTS文語轉(zhuǎn)換。具有小尺寸貼片封裝、硬件接口簡單、低功耗、音色清亮圓潤等特點;支持任意中文文本的合成、可以適應室外嚴酷環(huán)境;識別文本、數(shù)字、字符串更智能、更準確,語音合成自然度更高;缺點:芯片不會主動休眠、同樣喚醒時需要先發(fā)送喚醒命令。
UM5100芯片:集成了連續(xù)可變斜率增量調(diào)制方式(CVSD)的數(shù)據(jù)調(diào)制器、地址總線(A0~Al4)的地址信號發(fā)生器、三態(tài)數(shù)據(jù)總線緩沖器、工作方式控制接口電路、串并行雙向轉(zhuǎn)換器、時鐘振蕩器及控制電路、分頻器等部分,采用低功耗COMS型工藝制作;缺點:沒有工作模式選擇、采樣速率選擇和放音速度的選擇,當時鐘頻率和存儲器確定之后,其錄音時間和放時間就是固定的;語音信號的記錄和再生需外接SRAM型或EPRAM型存儲器。
不論是語音識別芯片還是語音合成芯片都是無法直接單獨應用到機器人等硬件設(shè)備上的,廠家會根據(jù)芯片的特性、功能的不同與其它各種相應的零器件集成在一塊電路板上稱為語音模塊,擁有語音識別、語音播報等相應的能力。
語音模塊在機器人方面應用十分廣泛,尤其服務機器人行業(yè)智能控制領(lǐng)域。2012年以來全球機器人市場規(guī)模的不斷攀升及市場份額的不斷擴大,服務機器人發(fā)展迎來了黃金時代;國家科技部印發(fā)《服務機器人科技發(fā)展“十二五”專項規(guī)劃》提出我國要不斷鉆研和開發(fā)服務機器人的創(chuàng)新創(chuàng)造,突破制約服務機器人產(chǎn)業(yè)發(fā)展的關(guān)鍵技術(shù),讓服務機器人產(chǎn)業(yè)成為我國未來戰(zhàn)略性新興產(chǎn)業(yè);所以目前市場上兒童學習機、小度音箱、天貓精靈等智能硬件成出不窮。服務機器人在各種細分產(chǎn)業(yè)的快速發(fā)展也很大程度上促使語音技術(shù)的不斷革新。
語音機器人的發(fā)展經(jīng)歷了三個階段。第一個階段,IVR技術(shù)(互動式語音應答),比較常見的形式就是撥打客服電話(非人工)辦理業(yè)務時使用,缺點就是基本上都是使用按鍵形式。第二個階段就是實時的對話機器人,也會在電話中經(jīng)常使用,由于語音技術(shù)的不斷發(fā)展,這種機器人能根據(jù)人們所說的話進行回應,但固定的程序限制及關(guān)鍵詞庫較少使得它只能回答一些簡單的問題,完成簡單的工作任務。第三個階段就是現(xiàn)階段的機器人,科研人員對機器人語音模塊在各種場景的應用,說話內(nèi)容、語氣以及怎么回答都做出了非常細膩地創(chuàng)新,這也使得現(xiàn)在常見的語音助手或是社交群里的語音機器人能夠根據(jù)人們的問題進行快速且相對準確的回答,這使得人工智能的應用更加便捷,能夠更多地為人類提供服務。
2017年10月,羅格朗聯(lián)合南京物聯(lián)在南京舉行了主題為“AIOT,遇見新未來”的物聯(lián)網(wǎng)暨智能家居全球高峰論壇活動。同時AIOT也是在我國首次被提出且深受各行業(yè)關(guān)注;AIOT(人工智能物聯(lián)網(wǎng))=AI(人工智能)+IOT(物聯(lián)網(wǎng)),它的提出吸引了來自人工智能、物聯(lián)網(wǎng)、互聯(lián)網(wǎng)、家電等領(lǐng)域?qū)<页鱿?,深入探討AIOT等相關(guān)技術(shù)的應用及影響,行業(yè)首次將AIOT概念推向大眾化。同日,第一屆小米IOT開發(fā)者大會上,小米宣布與百度達成深度合作,將在物聯(lián)網(wǎng)與人工智能領(lǐng)域展開合作。萬物互聯(lián)與人工智能的時代聯(lián)合到來,而人工智能與物聯(lián)網(wǎng)將形成完美的互補和結(jié)合,人工智能將會成為物聯(lián)網(wǎng)進一步持續(xù)發(fā)展新的突破點,讓物聯(lián)網(wǎng)進入了一個新的時代。
圖3 中國服務機器人銷售與全球規(guī)模對比
隨著AIOT時代的到來、技術(shù)不斷革新,科技的智能化大大的方便人們的生活。作為人與機器交互的“通道”,智能語音交互技術(shù)也呈現(xiàn)出爆發(fā)式增長趨勢,我國致力發(fā)展語音交互技術(shù)也取得了巨大的成就,科大訊飛,小米,百度等企業(yè)都有推出基于智能語音交互技術(shù)的相關(guān)產(chǎn)品。智能語音交互技術(shù)會與家具、家電、可穿戴設(shè)備相融合,實現(xiàn)智能家電、智能家具、智能穿戴設(shè)備,通過語音喚醒語音助手從而實現(xiàn)其各自功能??赏ㄟ^不同的喚醒關(guān)鍵詞來喚醒相應的語音助手,從而避免喚醒混亂。
智慧化生活人們只需要靠“說”就可現(xiàn)實你想干的事情?,F(xiàn)有的語音交互它能夠?qū)⒂脩舻恼Z音輸出轉(zhuǎn)換為文字,之后自然語言處理技術(shù)開始發(fā)揮作用,對用戶的意圖進行識別,并根據(jù)用戶的意圖執(zhí)行各種操作。如果用戶想進行對話,則調(diào)用人機交互技術(shù)與用戶交流,交流的結(jié)果通過語音合成技術(shù)返回給用戶。但語音交互在智能方面缺乏“情感”,在與其交流溝通時并不能完全理解人的意圖,以及其理解用戶意圖時無法結(jié)合用戶個性化因素來回答用戶的問題,不能滿足不同用戶不同情感,上下文不同場景的交互需求等情況,難以實現(xiàn)真正的智能語音交互。
機器人的應用從枯燥乏味的手動操作,到現(xiàn)如今語音智能控制,開啟了智能化的時代。服務機器人在近些年越來越受到大眾的歡迎,銷量也在持續(xù)增長就是最好的例子;在全球市場占比我國的服務機器人銷售額在逐年增長,如圖3所示。
IFR統(tǒng)計數(shù)據(jù)顯示,2019年中國服務機器人市場規(guī)模約22億美元,約占全球25%的市場份額。不同于在工業(yè)機器人領(lǐng)域中國處于銷售市場與高精技術(shù)不成正比的境況,在服務機器人領(lǐng)域中國在市場規(guī)模、產(chǎn)業(yè)鏈乃至先進交互技術(shù)等方面具備全球競爭優(yōu)勢,有望成為全球行業(yè)領(lǐng)導者。
做好服務機器人的關(guān)鍵在于實現(xiàn)語音交互的智能化,智能化語音交互技術(shù)也是服務機器人行業(yè)發(fā)展的必然趨勢。隨著2020年5G技術(shù)小范圍民用、大數(shù)據(jù)分析技術(shù)日益成熟、各種云端數(shù)據(jù)庫的應用,可以說互聯(lián)網(wǎng)時代真正的到來。語音交互技術(shù)未來發(fā)展應該是結(jié)合云端數(shù)據(jù),利用大數(shù)據(jù)分析技術(shù)和物聯(lián)網(wǎng)技術(shù)應用到家電行業(yè)、通信服務業(yè)、汽車電子等行業(yè),可以對用戶的意圖理解更加的智能,富有“感情”的與人對話。其次是交流具有個性化,能夠根據(jù)不同的用戶習慣來與用戶溝通,讓合成的語音更加流暢自然,且富有各自音色。從而不同形式的智能交互機器人在不同的領(lǐng)域上服務人類,體現(xiàn)人類文明發(fā)展的趨勢、彰顯科技進步的強大魅力。