劉柏亨 原松梅
摘 要:隨著VR技術的進一步普及,其應用場景也從娛樂擴展到醫(yī)療、文化等各個領域,數(shù)字博物館便是在VR技術支持下應運而生的,具有文化傳播價值。為了體現(xiàn)VR數(shù)字博物館的交互性和代入感,語音交互設計一直是數(shù)字博物館設計中急需解決的重要問題。本文從語音交互設計入手,對數(shù)字博物館中如何實現(xiàn)語音交互設計以及用戶體驗進行探討,以期為開發(fā)高水平的VR數(shù)字博物館提供有益借鑒。
關鍵詞: 數(shù)字博物館;交互設計;語音識別;VR
文章編號: 2095-2163(2019)03-0232-05 中圖分類號: TP18 文獻標志碼: A
0 引 言
時下,隨著數(shù)字化技術的迅速發(fā)展,即使得基于移動終端的數(shù)字博物館應運而生,真正突破了一時一地的時空局限,滿足了人們足不出戶、在手機終端瀏覽各地博物館相關藏品信息的客觀需求。但美中不足的是,數(shù)字博物館僅僅是以文字、圖片或視頻的形式來呈現(xiàn)展館內(nèi)容,導致其體驗感和沉浸感完全不及游覽實體博物館。
得益于虛擬現(xiàn)實(Virtual, Reality, VR)技術的迅猛發(fā)展,基于VR技術的數(shù)字博物館不但突破了實體博物館的時空局限,而且能以多感官、多層次和立體化的方式呈現(xiàn)展館內(nèi)容,彌補了其它終端臨場感和代入感不強的缺陷 ;此外,VR的交互性對用戶具有更強的吸引力。
考慮到目前的場地和成本限制,現(xiàn)有的消費級VR交互方式仍是以手柄為主,在交互體驗的自然性上表現(xiàn)較差,而作為自然交互方式的代表,語音交互一直都是VR交互研究的重要問題,且在VR數(shù)字博物館中也具有較高的實用價值。據(jù)此,本文將針對語音交互設計在VR數(shù)字博物館中的應用和用戶體驗進行探討。對此可做研究論述如下。
1 VR及其交互設計概述
1.1 VR技術
VR技術是一種計算機仿真技術,通過對三維世界的模擬創(chuàng)造出一種嶄新的交互系統(tǒng)。其特點是能讓用戶以主角的身份進入到一種由計算機圖形技術構成的、具有感知的虛擬空間環(huán)境中,用戶通過借助 VR 設備與虛擬環(huán)境中的對象進行交互,以接近現(xiàn)實親歷場景的效果,對三維虛擬空間環(huán)境進行更真實的體驗。
1.2 VR中的交互設計
與在圖形用戶界面占據(jù)主流地位的視窗-圖標-菜單-指針(Window-Icon-Menu-Pointer,WIMP)界面范式不同,VR所遵循的是基于VR的交互(Reality-based Interaction,RBI),這一框架在2006年由ACM CHI會議的發(fā)起者Jacob等人[1]提出,主要包括物理學原理、人體感知與技能、環(huán)境感知與技能、社會感知與技能四個層次。
從Post-WIMP到RBI范式的過程中,再沒有出現(xiàn)類似WIMP一樣穩(wěn)居業(yè)界榜首的范式[2],這是因為VR交互設備所使用的不再是單一、固定的離散型信息輸入,而是呈現(xiàn)出多通道的特性,人們通過聽覺、觸覺甚至是味覺的感知,能夠獲得數(shù)倍于以往終端的信息量和豐富體驗。
合適的輸入設備對于VR的交互也同樣重要,目前的離散輸入設備、連續(xù)輸入設備大多包含鍵盤、三維鼠標、力反饋手套、深度相機等種類,例如Kinect和Leap Motion等,而腦電波輸入設備、語音和生理信號感知設備還不成熟,距離走出實驗室尚需時日。
在消費級VR交互設備上,諸如按鍵手柄、深度相機等較為常見,其它交互設備由于連接復雜、不便攜帶等諸多限制仍然難以進入消費級市場,因此除了對視覺上的交互設計之外,對語音輸入方面的交互設計研究也同樣是現(xiàn)階段的研究重點。
2 探究VR數(shù)字博物館交互設計的必要性
2.1 數(shù)字博物館建設的必要性
維基百科中給出的數(shù)字博物館的定義為:“數(shù)字博物館是以博物館為主題,結合多媒體技術應用的展示平臺”[3]。隨著人們生活水平的不斷提高,文化消費成為了時下重要的消費內(nèi)容之一,而參觀游覽博物館就是文化消費的一種。同時,人們的生活方式發(fā)生了極大的變化,即使足不出戶也可便捷享受高品質(zhì)的現(xiàn)代服務及帶來的優(yōu)良體驗,而更多喜愛藝術、文化和歷史的人則有了在家中觀看博物館、美術館等世界各地展館藏品的需求,如此就使得數(shù)字博物館的建設獲得了發(fā)展契機。目前,科技的飛速進步證明:VR技術作為數(shù)字博物館設計中核心關鍵的技術,真正提供了突破時間和空間的限制、在虛擬世界中實現(xiàn)交互體驗的可能。
2.2 VR數(shù)字博物館交互設計的必要性
近年來,各地博物館在虛擬數(shù)字展館建設上均有可觀進展,雖然大部分博物館囿于資金、人力資源等實際條件仍處在傳統(tǒng)網(wǎng)站階段,但已有博物館開始著手或陸續(xù)加大了基于VR技術和相關平臺的數(shù)字博物館的研發(fā)投入力度,而且正處于快速發(fā)展的黃金階段。
2017年10月底,完全虛擬存在于VR的博物館——克萊默博物館(Kremer Museum)誕生了,并于2018年3月進入HTC VIVE的官方應用商城VIVEPORT,人民幣售價37元。作為一個極具創(chuàng)新意義的博物館,克萊默博物館將VR技術與世界級大師的繪畫作品相結合,其中展示了荷蘭黃金時代的許多泰斗級大師倫勃朗、克伊普、艾爾波特·蓋依普和弗蘭斯·哈爾斯的作品等,這也是世界上第一個完全在VR世界建立的博物館,是VR技術在數(shù)字博物館設計中的成功標志性應用。
與實際的博物館場館和傳統(tǒng)網(wǎng)站階段的虛擬博物館不同,VR技術應用的本身就意味著其交互的復雜性、多重性和更多的可能性。由于VR研究仍處于技術的更新演變期,其在虛擬博物館上的應用也不僅僅只立足于展品和實體場館場地的還原,VR平臺載體的創(chuàng)新、尤其是交互上的創(chuàng)新將為應用的內(nèi)容本身帶來更多的選擇和設計空間。
2.3 VR數(shù)字博物館場景下語音交互研究的必要性
由于六自由度平臺和觸感手套等交互裝備和相應交互方式受場地和購買成本等的限制,因此難以大規(guī)模進入消費級市場,而語音交互所需的設備門檻對于標準的VR設備而言并不高,目前的VR頭顯基本都配備了麥克風設備,不具備麥克風語音輸入設備的PC頭顯也可以通過PC上的語音輸入接口進行輸入。
2016年過后,隨著VR技術相關研究水平的不斷提升,眾多實體博物館都在積極推進與VR場館相關應用的開展與落地,這些應用所面向的用戶很少能使用類似觸感手套等高成本的交互方式,語音交互就成為了除手柄交互外的最佳選擇。
3 語音交互在VR數(shù)字博物館中的應用研究
語音交互屬于自然語言理解領域,是人工智能領域的分支之一。一個成熟的智能語音交互系統(tǒng)應包含語音識別模塊、自然語言理解模塊、自然語言生成模塊、語音合成模塊和對話管理模塊。將以前沿研究成果Deep-FSMN模型為基礎,開放式語音合成平臺為輔,重點闡述在VR數(shù)字博物館應用場景下的語音交互設計過程,研究過程詳見如下。
3.1 Deep-FSMN模型在語音識別的應用
阿里達摩院于2018年6月公開了一種改進的前饋型序列記憶網(wǎng)絡(Feed-forward Sequential Memory Network,F(xiàn)SMN)架構,即Deep-FSMN(DFSMN),將其應用在大詞匯量的連續(xù)語音識別場景中,相比于BLSTM模型在各方面均具有一定優(yōu)勢。研究可知,這是一種基于FSMN模型的聲學模型。
該模型是在cFSMN結構的基礎上,通過在相鄰的存儲塊之間引入跳過連接層。這些跳過連接層則可以實現(xiàn)信息流向不同的層。其結構如圖1所示。
由圖1可見,在cFSMN層中,一個標準的隱層會被低秩權重矩陣分解為2個層,而一個cFSMN可解析為4個cFSMN層和2個DNN層,總共12個層,當需要通過增加存儲塊來進行高階訓練時,這種結構會導致梯度消失問題,故而特別引入了跳過連接層,這種設計旨在使低層梯度能通過存儲塊輸出流到更高層的存儲塊。同時,在反向傳播的過程中也能將高層的梯度分配到低層,而這將有助于提升識別效率。
這一模型現(xiàn)已開源至github,支持通過搭建在線語音識別系統(tǒng)或從阿里云接入等方式來定制更高效的訓練和語音識別功能,在VR交互中較多孤立詞識別場景下可能會有更好的表現(xiàn)。
3.2 語音合成和VR空間聲技術
虛擬環(huán)境應對用戶的輸入產(chǎn)生反饋,包括功能上的交互和語音應答等。在VR數(shù)字博物館中,經(jīng)常會遇到場館解說詞不便公開或難以采樣處理的情況,現(xiàn)有的音頻資料難以直接或經(jīng)過處理后投付使用,因此采用語音合成(Text-to-speech,TTS)技術對文字資料進行轉(zhuǎn)語音處理即是一種較為合理的解決方案。
與直接參考博物館現(xiàn)有解說詞和語音資料相比較,采用TTS技術有利有弊。即使借助目前的人工智能技術,在將TTS合成的語音與博物館專業(yè)解說員的解說詞進行對照后會發(fā)現(xiàn),其在感情處理、語音語調(diào)(抑揚頓挫)上仍有很大差距。另外,專業(yè)的解說詞經(jīng)過了專門的寫作潤色和加工,是適合連續(xù)朗讀的;而TTS的文字來源多樣、且不一,會令用戶產(chǎn)生不自然的感覺,進而帶來與VR世界脫節(jié)的用戶體驗。
VR環(huán)境與傳統(tǒng)交互平臺的一個鮮明區(qū)別就在于其交互對象的虛擬性,每一個交互都是發(fā)生在虛擬的三維空間中的,虛擬實體發(fā)出的聲音需要模擬聲音的空間位置和傳播情況,因此,在選用雙聲道揚聲器作為輸出設備的前提下,應在開發(fā)環(huán)境中使用空間音頻。
VR空間聲技術是在三維音頻技術的基礎上衍生而來,其中一個關鍵技術就是VR三維音頻渲染技術將采集、解碼得到的聲道、對象和聲場信號在VR設備上重放,達到真實感和空間感兼具的聽覺體驗。Ambisonics音頻文件經(jīng)過解碼之后再次還原成一個空間聲場,此聲音相當于是從球形空間中各個方位的虛擬揚聲器(Virtual Speakers)上發(fā)出來的[5]。在本類系統(tǒng)的應用場景中,揚聲器多為雙聲道立體聲揚聲器,大體上可分為PC端桌面揚聲器和立體聲耳機兩種,VR空間聲技術的虛擬揚聲器則恰好作為發(fā)聲的虛擬實體的映射存在于VR博物館的場景中。
3.3 基于VR的數(shù)字博物館中語音交互設計研究
本研究擬以解放戰(zhàn)爭三大戰(zhàn)役之一的遼沈戰(zhàn)役紀念館為目標場館,通過搭建基于VR平臺的數(shù)字博物館實驗,并將使用語音指令控制和語音交互來完成整個體驗和游覽過程。
基于前述研究成果,本實驗將運行在HTC VIVE上,同時采用Unity 2018進行基礎性的虛擬資產(chǎn)搭建[6],以及基本漫游功能的配置,通過與HTC VIVE自帶手柄相結合的交互方式,實現(xiàn)在游覽過程中的語音交互。
文中的VR博物館的語音輸入交互基本流程如圖2所示。由圖2可知,當用戶需要操作控制器進行漫游時,即按下映射了腳本的手柄控制器,使語音識別系統(tǒng)進入語音激活檢測(Voice Active Detection,VAD)狀態(tài),保持激活檢測狀態(tài),輸入語音信號,經(jīng)過錄音腳本傳輸至識別模塊,識別后再將結果作為文本輸出。交互邏輯則需要以快速迭代模式進行開發(fā),首先梳理基本語音指令控制邏輯,繼而將針對目標VR博物館中的內(nèi)容進行擴充。
考慮到針對VR應用場景的語音交互,尤其是語音指令控制功能的交互,將默認使用中文語料進行訓練,本系統(tǒng)將滿足遼沈戰(zhàn)役紀念館的游覽和交互使用,語料中除基本的交互常用詞和高頻詞之外,還有該館的場館名、主要和具有代表性的藏品名及相關背景的重點名稱等,這些信息在大部分公共的漢語普通話語料庫中有所收錄,文中對其闡釋分析如下。
目標場館、也就是遼沈戰(zhàn)役紀念館占地18.8萬平方米,以遼沈戰(zhàn)役軍事主題為切入點,其中《攻克錦州》是中國第一座全景畫館,被譽為中國博物館和世界美術史的藝術精品和經(jīng)典之作[7]。這些重點城市和戰(zhàn)役等內(nèi)容,馬云飛等重點人物、連同戰(zhàn)史館、支前館等館名及藏品名,如果作為單個孤立字、詞加以識別,雖然在字本身的識別上可以取得最優(yōu)結果,但對于該類專有詞匯識別效率并不高。因此通過借鑒游戲中語音指令控制的研發(fā)經(jīng)驗,可授權開發(fā)者或管理員能夠自行定制專門的語料,便于在同類博物館之間的快速應用與移植。
從圖2可以看出,本系統(tǒng)使用了與VR頭盔設備相結合的方式進行語音交互,以HTC VIVE平臺的交互設備為核心,期望實現(xiàn)手柄與語音指令同步交替控制的理想體驗。
與VR技術相結合的語音交互所涉及的不僅是交互場景的改變,更是由實體的交互轉(zhuǎn)向與虛擬實體的交互,是一個新的開始,對其交互體驗的評價和研究也不能憑借單一結果或數(shù)據(jù)的衡定與考察,而應采用以量化評價標準為主、用戶體驗為輔的多樣化研究方式來進行科學系統(tǒng)的綜合評估。
4 交互體驗和評價研究
4.1 語音識別的評價
對于這一類的在線語音識別,通過輸出識別結果的字符串進行評價,將其作為單獨的語音識別系統(tǒng)做出評價 同時,以純識別系統(tǒng)的識別率作為主要參考標準,而在一般情況下,這一識別率的技術指標就是詞錯誤率(Word Error Rate,WER)。
為了使識別出來的詞序列和標準的詞序列之間保持一致,需要進行替換、刪除或者插入某些詞,這些插入、替換或刪除的詞的總個數(shù),除以標準的詞序列中詞的總個數(shù)的百分比,即為WER,其數(shù)學公式可表示為:
其中,S為Substitution,即替換詞個數(shù);D為Deletion,即刪除詞個數(shù);I為Insertion,即插入詞個數(shù);N為總單詞數(shù)。
但在實際使用中,語音識別的效率也至關重要。已有研究表明:在線環(huán)境或是VR場景中,語音的錄制和傳輸都會產(chǎn)生延遲,而交互中的語音指令控制對交互反饋的時間要求較高,當采用了Deep-FSMN聲學模型后,不僅在一定程度上提高了識別效率,而且也減少了建模過程的聲音信號損失。因此,在進行評價時也需要反饋時間。
4.2 語音合成的評價
語音合成技術將文本轉(zhuǎn)化為聲音,廣泛應用于多種場合中。其實現(xiàn)需用到語言學、語音學的諸多知識,不同的TTS系統(tǒng)在準確性、自然度、清晰度、還原度等方面也有著不一樣的表現(xiàn),因此,本系統(tǒng)的評價標準主要由3個部分組成,可對其分述如下。
(1)發(fā)音準確性。線上語料中頻繁出現(xiàn)的多音字、數(shù)字、符號、夾雜英文等會給TTS帶來挑戰(zhàn),具體如圖3所示。這類情況的發(fā)音錯誤會導致較差用戶體驗。發(fā)音準確是確保用戶體驗的基本要求,現(xiàn)有的TTS系統(tǒng)已可以保證在交互場景下基本的發(fā)音準確性。
(2)韻律準確性。前端文本處理過程中會對文本進行分詞處理和時長預估,為準確評估TTS停頓和發(fā)音時長的合理性,可以準備不同領域、不同句式、不同情感的文本,通過眾測主觀判斷合成語音是否可接受,計算TTS韻律準確性。
(3)平均主觀意見分(Mean Opinion Score,MOS)。業(yè)界對語音的整體評測一般使用MOS作為標準。在邀請聽音人試聽合成語音后,聽音人根據(jù)分值描述,從擬人性、連貫性、韻律感等方面為語音選擇合適的評判分數(shù)。
遼沈戰(zhàn)役紀念館承載著豐富的歷史內(nèi)涵,其解說詞多具有較為充沛的情感,但由于目前技術原因,時下的TTS語音合成的擬人性和情感仍然屬于大樣本訓練的結果,而非真正的人性化的情感,因此在擬人性的評測上應適當放寬要求。
4.3 VR交互體驗評估
這一部分采用問卷調(diào)研的方式,問卷設計基本思想遵循的是VR研究經(jīng)典問卷(Presence Questionnaire,PQ)。
VR研究經(jīng)典問卷是由美國陸軍研究所的Witmer等人于1992年提出,并于1998年再次更新、且通過了可靠性驗證,由此將提升臨場感的因素分為控制因素、感官因素、分神因素和真實度因素四類[8]。在VR交互上主要是從控制因素方面進行問卷設計。
通常而言,控制因素包括控制程度、控制的直接性、可預期性和控制模式。對于虛擬環(huán)境而言,用戶對任務環(huán)境的控制越符合自然習慣,控制程度越強,給虛擬環(huán)境帶來的變化越明顯、也越容易預測,用戶的臨場感隨即也就越強。遵循這一原則,本研究嘗試在目標場館的應用場景下進行用戶體驗評價問卷的設計。
VR語音交互問卷問題分類見表1。表1中給出了5個基本的問題分類,采用李克特量表對用戶進行調(diào)研。其中,每個分類可拆分成多個細節(jié)問題,主要監(jiān)測了該系統(tǒng)的功能性體驗,例如Q1和Q5從一定程度上考察了語音識別的效率和表現(xiàn)情況,Q2考察了三維音頻的體驗,Q3則考察TTS功能,這些問題細化后即成為一份完整的問卷,從場館內(nèi)容的針對性、交互的可用性等方面進行全方位的研究,以期從每個問題中尋求對應的改進方案。
5 結束語
基于VR的數(shù)字博物館已成為當下VR應用領域的研究熱點。本文即以Deep-FSMN模型為基礎,通過應用場景的針對性訓練、TTS與實體館語音素材的混合應用及量化標準和主觀評測的結合,在VR博物館場景下語音識別效率的提升上有一定進展,并實現(xiàn)了VR數(shù)字博物館的語音交互體驗的優(yōu)化,為后續(xù)研究和開發(fā)更為成熟的VR數(shù)字博物館提供了有益的支持。誠然,VR技術及應用領域還有廣闊的探索研發(fā)空間。值得期待的是,其在數(shù)字博物館的開發(fā)設計及其文化傳播中必將發(fā)揮更大的作用。
參考文獻
[1]JACOB R J K, GIROUARD A, HIRSHFIELD L M, et al. Reality-based interaction: A framework for Post-WIMP interfaces[C]//Proceeding of the Twenty-sixth Annual SIGCHI Conference on Human Factors in Computing Systems (CHI '08).Florence, Italy:ACM,2008: 201-210.
[2]張鳳軍,? 戴國忠, 彭曉蘭. 虛擬現(xiàn)實的人機交互綜述[J]. 中國科學: 信息科學, 2016, 46(12):1711-1736.
[3]維基百科. 數(shù)字博物館[EB/OL]. https://zh.wikipedia.org/wiki/虛擬博物館.
[4]ZHANG Shiliang, LEI Ming, YAN Zhijie, et al. Deep-FSMN for large vocabulary continuous speech recognition[C]//2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Calgary, AB, Canada: IEEE,2018:5869-5873.
[5]胡瑞敏, 王曉晨, 張茂勝, 等. 三維音頻技術綜述[J].? 數(shù)據(jù)采集與處理, 2014, 29(5):661-676.
[6]叢曉丹,吳岡,管練武. 基于Unity3D的數(shù)字紀念館虛擬漫游設計[J]. 自動化技術與應用, 2017, 36(11):85-88,92.
[7]遼沈戰(zhàn)役紀念館. 遼沈戰(zhàn)役紀念館官方簡介 [EB/OL]. [2017]. http://www.jzlszy.com/index.php?m=page&a=index&id=132.
[8]WITMER B G, SINGER M J. Measuring presence in virtual environments: A presence questionnaire[J]. Presence:Teleoperators and Virtual Environments , 1998, 7(3): 225-240.