(江南大學設計學院 214000)
隨著科技的不斷發(fā)展和設計師對人本身的關注,用戶交互界面隨之經歷了幾次主要演變:從具有較高使用要求的命令程序界面(CLI),到需要一定學習過程的圖形用戶界面(GUI),以及正在崛起的基本不需要任何學習成本的自然用戶界面(NUI)。20世紀70年代以來,人工智能技術發(fā)展迅猛,世紀期出現(xiàn)了具有一定交互功能的語音應答,語音交互前期簡稱為ivr(Interactive Voice Response)即語音互動式應答,隨后在人工智能和模式識別技術的影響下,自然的交互方式開始逐步在各個方面進入大眾視野,其中以智能音箱為代表的語音交互技術是當下NUI市場化最趨于成熟的技術,并成為智能家居設計中重要的一環(huán)。根據(jù)數(shù)據(jù)機構Strategy Analytics研究報告《中國2019智能音箱用戶調查》中顯示,中國目前有3500萬左右的家庭擁有智能音箱,其中超過一半的用戶擁有兩臺或以上的智能音箱,并且有三分之一的智能音箱用戶使用的是帶屏音箱。隨著市場化推動,越來越多的研究者們聚焦于語音交互設計,因此本文主要通過智能音箱的技術需求流程設計分析,以期通過結合相關技術的可行性來提高語音交互識別的準確率和情感輸出并在此基礎上提升用戶體驗。
與傳統(tǒng)的GUI界面相比,智能音箱語音交互在智能家居控制環(huán)節(jié)有以下的優(yōu)勢:(1)自然語音交流,無需其他肢體接觸,可以在距離空間內完成交互行為;(2)可以一人操控,也可以親子等場景下多人使用;(3)不消耗學習成本,語言是人天生具備的能力,沒有使用熟練度要求;(4)硬件成本較低,具有較高普世價值。
但是與移動智能助手相比,智能音箱在智能家居的使用中也存在著一定的劣勢:(1)對語言標準度要求比較高,口音較重的用戶語言識別度較低;(2)噪音條件下語音識別準確度較低;(3)對使用距離有一定要求,遠距離使用需要協(xié)助移動端連接;(4)語音輸出擬人化情感表現(xiàn)不夠自然,難以融入人性化氣息。
對于智能音箱而言,由于其使用場景開放,無邊界的輸入方式在提供便利的同時也面臨著用戶在與設備交流時會產生大量的無用或錯誤的指令信息,從而造成溝通障礙,相較于場景及交互目的有所限制的企業(yè)定制服務設備,例如銀行智能服務機器人,在較長的一段時間內其準確率和情感化表現(xiàn)難以達到并滿足用戶體驗需求。
在《統(tǒng)計自然語言處理》第二版中,對人機對話系統(tǒng)進行了闡述,即語言生成器在對話管理模塊的指導和控制下生成響應的句子。在人機對話過程中,一共有五個環(huán)節(jié),分別是語音識別→口語解析→問題求解→語言生成→語言合成。也就是說,在與用戶進行語音交互過程中,機器要經過語音信號接收并轉化為可用數(shù)據(jù),將其結果進行需求提取和解析,再與所相對應的領域信息進行耦合,完成指令信息或得到其他反饋后再通過語音合成技術最終表達給用戶。
在這些環(huán)節(jié)中,語音識別與語音合成部分決定著用戶體驗,因此如何準確的識別并且自然的反饋,成為智能音箱語音交互設計的核心問題。以小米旗下智能音箱小愛同學為例,在其完整的智能語音交互過程中,主要經歷以下四個階段:
1.ASR(Automatic Speech Recognition)語音識別:在該模塊下,系統(tǒng)將收集到的語音信息進行分析,轉化為文本或機器語言,主要通過訓練數(shù)據(jù)庫解碼來實現(xiàn)從語音到文字的轉化。在這個過程中,當有用戶提交的信息或新興詞匯被多次錯誤識別時,會進行迭代糾正,在后續(xù)的過程中進行優(yōu)化和更改。
2.NLP(Natural Language Processing)需求理解:在這個階段中,一般是將用戶的意圖進行拆分和提取,從而完成對應指令。NLP模塊是實現(xiàn)智能語音交互的關鍵部分,決定著機器是否可以理解用戶真實意圖和實際需求。
3.Skill:合理反饋:這個階段中,根據(jù)語音交互設備的使用目的和范圍的差異,其技能指向性也不盡相同。需要根據(jù)上一階段需求的用戶指令,做出符合用戶預期的反饋,比如銀行導向服務型技能;以天貓精靈、小愛同學等為代表的智能家居型技能等。
4.TTS(Text-To-Speech)語音反饋:一般有兩種方式來輸出語音,一種是在大量的錄入信息中選取需要的詞匯片段進行拼接,另一種是使用參數(shù)算法產生語音數(shù)據(jù)?,F(xiàn)階段這兩種語音反饋方式都能夠滿足基本的語音輸出目的,但是由于語言的情感限制,還難以達到舒適的自然交流狀態(tài)。
為了實現(xiàn)更高準度的語音識別,近年來技術領域提出了很多新的情緒識別算法,來提升機器的理解能力,經典的語音情感識別模型有兩種,一種是將情緒化語言進行標簽分類,比如高興、傷心、生氣等。一種是對情感進行劃分,利用維度空間概念對不同的情緒狀態(tài)進行分類,這種方法相比較前一種更加客觀的根據(jù)情緒本身的正負效應和高低來進行劃分,因此范圍更廣,能夠收集到全部重疊或模糊的情感狀態(tài)。值得思考的是,復旦大學曾將DTW(動態(tài)時間規(guī)整)情緒識別信息模型與MFCC(Mel倒譜系數(shù))特征參數(shù)結合,對嬰兒部分常見情緒狀態(tài)信息進行識別,并能夠達到70%以上的識別率,當情緒識別輔助文本情感趨向來參與語音識別和需求理解模塊中,是否會更加懂得用戶所想,甚至主動察覺用戶情緒精神變化問題,從而在醫(yī)學領域有所幫助呢?
由于自然語言的多重含義,譬如同樣的詞組在不同的語境下表達的意思也不相同,因此如果能夠對用戶進行角色分析,并將所用詞組與上下文語境進行結合,輔助網(wǎng)絡新型詞語的不斷更新和納入,云端與終端貫通結合,未來智能語音設備將可以大幅提升用戶命令需求的識別準確率,在這一點上是有跡可循的。除此之外,在不斷提升語音合成技術的同時,在智能音箱設計中加入虛擬人格設定,提升語音反饋人性化體驗,輔助補足語音不夠自然的缺陷,從而提升用戶代入感。
以用戶為核心是交互設計的重要準則,技術的發(fā)展為語音交互設計師們提出了新的挑戰(zhàn),如何協(xié)助現(xiàn)有技術,實現(xiàn)更加準確、自然高效的用戶體驗,根據(jù)以上環(huán)節(jié)需求,嘗試提出以下設計方法:
語音信息采集及轉化階段相當于智能音箱的“耳朵”,針對語音交互中識別準確度的劣勢,與體感交互技能相結合,為智能音箱增加“眼睛”,視覺與聽覺相互協(xié)作,當難以對語音中的情緒進行提取識別時,可以參考用戶動作與表情,對口音較重或者不夠標準化的用戶語言文本進行修改與更正,消除歧義。
諾曼曾在《情感化設計》一書中提出,情感化設計在反思層與產品的特性關系表現(xiàn)為三個層級,即確定自我形象、滿足個性化需求、形成持久記憶與關注。在智能音箱設計中,增加個性化人設定制,找準用戶定位及用戶愛好方向,可以輔助設備理解用戶特殊情感需求,比如追星女孩在使用語言中可能會參雜大量飯圈用語,體育愛好者日常語言中也會使用大量體育詞匯,因此針對此類人群語言傾向,滿足其個性化表現(xiàn)需求,不斷優(yōu)化相關環(huán)境語言信息,甚至預測未來對話及需求方向,從而增強特定該范圍人群的語音需求識別準確度,引發(fā)情感共鳴。
對智能音箱進行品牌人格化設計,為其表現(xiàn)聲音和性格注入魅力。比如幽默化言語的應用,將語境中同義詞匯進行替換,幽默作為情感表達的重要載體,會為智能設備增強吸引力和親和力,對現(xiàn)階段不夠流暢自然的聲音反饋作為輔助代償機制,最終提升用戶對產品的回憶與情感依賴。
情景感知能夠通過預測用戶的需求來減少用戶的操作,具有一定的主動性。譬如當用戶詢問上一次點的外賣時,其目的是想要再次預定或者詢問同店鋪下其他相關部分推薦餐點,當二次詢問過后,根據(jù)用戶購買記錄主動詢問是否再次預定或詢問相關推薦需求,根據(jù)用戶興趣模型進行自主需求溝通,減少用戶重復操作,提升用戶滿意度,加強用戶心理依賴。
語音交互硬件成本較低,因此先一步推廣成為大眾接觸自然用戶界面的契機,智能音箱的市場化推廣,也使得用戶對智能家居中采用自然語音交互方式的接受度明顯提高,隨著模式識別與人工智能技術的不斷發(fā)展,融合更多適配的交互渠道,可以預見未來家居無窮的“智慧”。短期條件下與體感等其他自然交互方式相比較語音交互實現(xiàn)場景更為廣闊,學科和市場的成熟發(fā)展為自然的交互設計帶來了更多機遇,與此同時,設計師們也應該從其技術層面加深了解,并探尋其可能在情感化方面或交互方式上帶來的不同體驗。為了能夠實現(xiàn)真正的自然交互愿景,還應在跨學科的設計實踐中探索更多的創(chuàng)新點與未來發(fā)展的可能性。