【摘要】伴隨深度學(xué)習(xí)、大數(shù)據(jù)和云計(jì)算的的發(fā)展,人工智能近十年經(jīng)歷一段突飛猛進(jìn)的發(fā)展,并在智能語(yǔ)音交互等領(lǐng)域成功落地。智能語(yǔ)音交互技術(shù)與新聞傳播的結(jié)合,給傳媒界帶來(lái)了聲控智媒這一全新的媒介形態(tài)。本文試探究智能語(yǔ)音交互媒介的特點(diǎn)、發(fā)展問(wèn)題并分析目前的創(chuàng)新趨勢(shì),以期對(duì)智能媒介的可持續(xù)發(fā)展提供參考。
【關(guān)鍵詞】智能語(yǔ)音交互;發(fā)展問(wèn)題;創(chuàng)新趨勢(shì)
中圖分類(lèi)號(hào):TN94? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ? ? DOI:10.12246/j.issn.1673-0348.2021.21.035
智能語(yǔ)音交互技術(shù)作為人工智能領(lǐng)域的的重要突破技術(shù),通過(guò)與新聞傳播的結(jié)合,帶來(lái)了聲控智媒這一全新的媒介形態(tài)。聲控智媒目前主要有兩種存在方式:其一是嵌入電視或手機(jī)之中,如蘋(píng)果公的siri和小米的小愛(ài)同學(xué),其二是獨(dú)立存在的智能設(shè)備,如智能音箱等。作為新一代的傳播媒介,其發(fā)展及創(chuàng)新受到了學(xué)界與業(yè)界的廣泛關(guān)注。
1. 特點(diǎn)
1.1 互動(dòng)性
聲控智媒作為一種新型的人機(jī)交互終端,不同于手機(jī)的觸控交互,也不同于之前報(bào)紙、廣播與電視的單向交互方式,聲控智媒為用戶(hù)提供了語(yǔ)音對(duì)話(huà)交互,用戶(hù)不是被動(dòng)的接收信息,而是基于自身的需求,向智能設(shè)備發(fā)出請(qǐng)求獲取信息,同時(shí)隨著連續(xù)對(duì)話(huà)技術(shù)的進(jìn)步,用戶(hù)可以深度體驗(yàn)與智能設(shè)備的對(duì)話(huà),從對(duì)話(huà)中獲取更多的信息,滿(mǎn)足自身的信息獲取需求。
1.2 場(chǎng)景性
用戶(hù)使用聲控智媒往往是基于特定的場(chǎng)景,獲取當(dāng)下場(chǎng)景中最需要的信息。以不同時(shí)間段信息需求為例,各大品牌的智能音箱都會(huì)設(shè)置早上與晚上場(chǎng)景,用戶(hù)早上起床后,智能音箱會(huì)播報(bào)早間新聞和一些健康資訊,晚上回家后,智能音箱也會(huì)為用戶(hù)播放當(dāng)天新聞和放松音樂(lè)。當(dāng)然在不同的地點(diǎn)使用聲控智媒的需求也不盡相同,例如在客廳用戶(hù)會(huì)使用智能音箱控制一些家電,如果是在廚房則會(huì)想知道如何去制作一道菜肴。不同的場(chǎng)景下,基于用戶(hù)的不同需求,智能語(yǔ)音交互終端會(huì)呈現(xiàn)不同的功能。
1.3 海量性
隨著云計(jì)算和大數(shù)據(jù)技術(shù)的成熟,聲控智媒通過(guò)連接互聯(lián)網(wǎng)就擁有了海量的內(nèi)容。目前各大語(yǔ)音交互平臺(tái)的內(nèi)容主要有平臺(tái)方搭建的知識(shí)圖譜和第三方平臺(tái)提供的各種技能。通過(guò)對(duì)知識(shí)圖譜搭建與第三方內(nèi)容接入整合,目前在智能語(yǔ)音產(chǎn)品上不僅可以聽(tīng)音樂(lè)、電臺(tái),還可以詢(xún)問(wèn)各種百科知識(shí),豐富了人們娛樂(lè)與獲取信息的方式。
2. 發(fā)展問(wèn)題
2.1 技術(shù)方面,喚醒與語(yǔ)義理解體驗(yàn)不佳
智能語(yǔ)音交互技術(shù)作為聲控智媒的核心,其涉及的技術(shù)主要有語(yǔ)音喚醒、語(yǔ)音識(shí)別、自然語(yǔ)義理解、智能搜索與語(yǔ)音合成。用戶(hù)往往通過(guò)喚醒詞喚醒設(shè)備,說(shuō)出自己的請(qǐng)求,設(shè)備通過(guò)語(yǔ)音識(shí)別將用戶(hù)的音頻轉(zhuǎn)化為文字,同時(shí)通過(guò)自然語(yǔ)義理解分析用戶(hù)的意圖并翻譯為機(jī)器語(yǔ)言,并通過(guò)智能搜索匹配用戶(hù)意圖最接近的技能進(jìn)行回答及操作設(shè)備。在整個(gè)過(guò)程中,任何一環(huán)節(jié)出錯(cuò),都無(wú)法給用戶(hù)提供滿(mǎn)意的體驗(yàn)。例如目前智能語(yǔ)音助手的誤喚醒問(wèn)題,就是在語(yǔ)音喚醒環(huán)節(jié),用戶(hù)最常反饋的痛點(diǎn)問(wèn)題,指的是用戶(hù)并沒(méi)有講出喚醒詞,智能設(shè)備卻被自動(dòng)喚醒。
此外,自然語(yǔ)義理解是整個(gè)語(yǔ)音生態(tài)的核心技術(shù),也是用戶(hù)感知設(shè)備是否懂自己的關(guān)鍵,其實(shí)現(xiàn)原理是將用戶(hù)的輸入映射到預(yù)先根據(jù)不同場(chǎng)景定義的語(yǔ)義槽中,讓機(jī)器理解語(yǔ)言的意思。目前此項(xiàng)技術(shù)仍存在一定的局限,因?yàn)槿祟?lèi)的語(yǔ)言是復(fù)雜多樣的,不同的語(yǔ)境下所表達(dá)的意思可能完全不同,例如很多用戶(hù)反饋有時(shí)候語(yǔ)音助手聽(tīng)不懂用戶(hù)的話(huà),答非所問(wèn),甚至?xí)盏讲缓线m甚至完全摸不著頭腦的對(duì)話(huà)。
2.2 內(nèi)容方面,版權(quán)資源割據(jù)與實(shí)時(shí)新聞技能缺乏
智能語(yǔ)音交互產(chǎn)品上匯集了豐富的第三方平臺(tái)內(nèi)容,但是由于網(wǎng)絡(luò)版權(quán)問(wèn)題和各家生態(tài)的競(jìng)爭(zhēng),導(dǎo)致目前用戶(hù)真正能聽(tīng)到的內(nèi)容有限。同時(shí)用戶(hù)往往需要購(gòu)買(mǎi)多家內(nèi)容平臺(tái)的會(huì)員,缺乏統(tǒng)一的內(nèi)容管理及付費(fèi)機(jī)制。此外在音箱上聽(tīng)新聞也是用戶(hù)最常用的功能之一,目前音箱上的新聞?lì)悆?nèi)容主要分為新聞簡(jiǎn)報(bào)與實(shí)時(shí)新聞。新聞簡(jiǎn)報(bào)是通常不超過(guò)兩分鐘的新聞報(bào)道,實(shí)時(shí)新聞是用戶(hù)針對(duì)當(dāng)下熱門(mén)時(shí)事內(nèi)容進(jìn)行詢(xún)問(wèn)。目前各家平臺(tái)會(huì)與傳統(tǒng)媒體定制專(zhuān)門(mén)的新聞簡(jiǎn)報(bào),但是對(duì)于實(shí)時(shí)新聞服務(wù)還比較欠缺,例如用戶(hù)在向音箱發(fā)出想看最近新聞的指令,音箱往往回復(fù)并不知曉或搜索網(wǎng)頁(yè)新聞進(jìn)行播報(bào),這樣的機(jī)器朗讀的內(nèi)容往往較為生硬,不符合人們的收聽(tīng)習(xí)慣。
2.3 數(shù)據(jù)方面:用戶(hù)隱私風(fēng)險(xiǎn)凸顯
語(yǔ)音助手要準(zhǔn)確識(shí)別用戶(hù)意圖,不可避免的要對(duì)海量的數(shù)據(jù)進(jìn)行處理與存儲(chǔ)。一般用戶(hù)向設(shè)備說(shuō)出一個(gè)特定的觸發(fā)詞,交互設(shè)備就可立即喚醒,并記錄用戶(hù)的請(qǐng)求。所發(fā)出的請(qǐng)求會(huì)被發(fā)送到云端服務(wù)器進(jìn)行數(shù)據(jù)分析處理,在這個(gè)過(guò)程中用戶(hù)的數(shù)據(jù)將會(huì)保存在云端。語(yǔ)音助手需要通過(guò)對(duì)不同的用戶(hù)數(shù)據(jù)訓(xùn)練模型以提高其識(shí)別的準(zhǔn)確率。此外,由于機(jī)器是難以知道自己的準(zhǔn)確性,這個(gè)時(shí)候往往是需要專(zhuān)業(yè)人員對(duì)機(jī)器模型的滿(mǎn)足率進(jìn)行評(píng)測(cè)并標(biāo)注,這個(gè)時(shí)候就必然會(huì)涉及到直接聽(tīng)取用戶(hù)聲音數(shù)據(jù)的情況。由于智能語(yǔ)音設(shè)備的誤喚醒率還比較高,導(dǎo)致用戶(hù)不想被記錄的聲音數(shù)據(jù)會(huì)在無(wú)意識(shí)的情況下被存儲(chǔ)下來(lái)。據(jù)《衛(wèi)報(bào)》報(bào)道,Siri被誤喚醒時(shí)的錄音內(nèi)容也會(huì)被記錄下來(lái)進(jìn)行分析,這些錄音除了聲音之外,還附帶了用戶(hù)數(shù)據(jù),包括錄音發(fā)生的位置、聯(lián)系方式和app應(yīng)用數(shù)據(jù)。隨著智能語(yǔ)音產(chǎn)品走入千家萬(wàn)戶(hù),語(yǔ)音大數(shù)據(jù)資源也越積越多,用途越來(lái)越廣泛。然而,語(yǔ)音數(shù)據(jù)在收集和利用中的隱私風(fēng)險(xiǎn)也越來(lái)越大。
2.4 經(jīng)濟(jì)方面,缺乏成熟的商業(yè)模式
IDC數(shù)據(jù)顯示,2020年中國(guó)智能音箱市場(chǎng)銷(xiāo)量達(dá)到3676萬(wàn)臺(tái),累計(jì)下降8.6%,同時(shí)我國(guó)智能音箱的普及率僅為20%,究其部分原因是因?yàn)闆](méi)有成熟的商業(yè)模式導(dǎo)致無(wú)法盈利。目前智能音箱的盈利主要來(lái)自賣(mài)硬件與提供互聯(lián)網(wǎng)服務(wù)。首先,智能音箱的硬件還無(wú)法完全盈利。盡管我國(guó)智能音箱硬件補(bǔ)貼已進(jìn)入收縮階段,2019年的補(bǔ)貼額依然達(dá)到15.8億元。另外智能音箱的互聯(lián)網(wǎng)服務(wù)上也存在著局限,互聯(lián)網(wǎng)服務(wù)的盈利主要分為面向消費(fèi)者提供內(nèi)容訂閱或會(huì)員服務(wù)和面向廣告主出售音頻廣告的收入。對(duì)于消費(fèi)者來(lái)說(shuō),為了聽(tīng)內(nèi)容而購(gòu)買(mǎi)不同的會(huì)員的體驗(yàn)并不佳,導(dǎo)致智能音箱的會(huì)員服務(wù)收入實(shí)際并不高。同時(shí)由于智能音箱播放的內(nèi)容時(shí)長(zhǎng)較短,很難在其中插播太多廣告,所以來(lái)自互聯(lián)網(wǎng)營(yíng)銷(xiāo)上的收入也并不多。目前智能音箱的商業(yè)模式尚不成熟,導(dǎo)致業(yè)界無(wú)論是人才還是內(nèi)容投入都不是太多,這樣就更無(wú)法形成完整的商業(yè)閉環(huán)。
3.創(chuàng)新趨勢(shì)
3.1 互聯(lián)化,協(xié)同喚醒改進(jìn)交互體驗(yàn)
近年來(lái),隨著各個(gè)平臺(tái)語(yǔ)音算法的基礎(chǔ)性能不斷提高,用戶(hù)所反饋的識(shí)別準(zhǔn)確率、時(shí)延問(wèn)題也在不斷改進(jìn)。與此同時(shí),用戶(hù)希望在多智能設(shè)備環(huán)節(jié)下,各設(shè)備能互聯(lián)互通。在此之前當(dāng)一個(gè)空間存在多臺(tái)語(yǔ)音交互設(shè)備時(shí),往往出現(xiàn)“一呼百應(yīng)”的現(xiàn)象,2019年以來(lái)業(yè)界開(kāi)始重視將聲學(xué)感知空間的能力與交互系統(tǒng)結(jié)合起來(lái),實(shí)現(xiàn)多設(shè)備的就近喚醒應(yīng)答,避免多設(shè)備重復(fù)響應(yīng)和執(zhí)行指令??梢灶A(yù)見(jiàn)的是,隨著接入互聯(lián)網(wǎng)的智能設(shè)備越來(lái)越多,新技術(shù)將不斷提高語(yǔ)音交互的可靠性,促進(jìn)萬(wàn)物充分互聯(lián)互通,帶來(lái)全新的物聯(lián)網(wǎng)時(shí)代。
3.2 有屏化,拓展新的終端形態(tài)
近兩年,市場(chǎng)上開(kāi)始推出帶屏的智能音箱,并獲得了市場(chǎng)認(rèn)可,主要原因是相比于聲音的展示,多一個(gè)觸控屏幕,用戶(hù)能獲得更多的交互體驗(yàn)與內(nèi)容展示。使用的場(chǎng)景也被極大的拓寬,不但可以收聽(tīng)音頻還可以看圖片和視頻,進(jìn)而拓展到視頻輔導(dǎo)等教育場(chǎng)景。另外有屏幕的智能音箱添加攝像頭可應(yīng)用計(jì)算機(jī)視覺(jué)能力,使智能音箱將視覺(jué)和語(yǔ)言同時(shí)作為語(yǔ)音理解源,不僅通過(guò)聲音獲取信息,同時(shí)還可以用眼睛來(lái)識(shí)別說(shuō)話(huà)者的口型、情緒表情,提升其語(yǔ)音的理解力,更好的滿(mǎn)足用戶(hù)的需求。
3.3 數(shù)據(jù)離線(xiàn)化,注重用戶(hù)隱私安全
隨著用戶(hù)對(duì)個(gè)人隱私越來(lái)越重視,再加上政府相關(guān)隱私政策的制定,各個(gè)語(yǔ)音交互平臺(tái)開(kāi)始對(duì)自家產(chǎn)品開(kāi)發(fā)離線(xiàn)化處理技能,例如蘋(píng)果最新推出的ios 15系統(tǒng)中,siri可以在沒(méi)有互聯(lián)網(wǎng)連接的情況下,離線(xiàn)處理多種類(lèi)型的請(qǐng)求,包括電話(huà)、消息、應(yīng)用程序啟動(dòng)等,并且產(chǎn)生的數(shù)據(jù)將保存在用戶(hù)自己的終端。同時(shí)國(guó)內(nèi)各個(gè)廠商也在把離線(xiàn)化及本地化存儲(chǔ)作為自家產(chǎn)品重點(diǎn)開(kāi)發(fā)的功能,切實(shí)保障用戶(hù)的隱私。分析數(shù)據(jù)離線(xiàn)化這個(gè)趨勢(shì),我們可看到隨著產(chǎn)品越來(lái)越完善,是可以做到既維持用戶(hù)的體驗(yàn)又保證用戶(hù)的隱私安全的。
3.4 人性化,擬人化對(duì)話(huà)與情感音色
作為語(yǔ)音助手,用戶(hù)不單單將其看成一個(gè)工具,而是一個(gè)更偏向擬人化的交流對(duì)象。例如在“第七代微軟小冰發(fā)布會(huì)”上,微軟小冰就使用了全雙工語(yǔ)音交互技術(shù),能夠?qū)崿F(xiàn)用戶(hù)與人工智能同時(shí)邊聽(tīng)邊說(shuō)的交互體驗(yàn)。使小冰像人一樣學(xué)會(huì)傾聽(tīng)和傾訴,同時(shí)還能對(duì)話(huà)題進(jìn)行延伸和追問(wèn),使用戶(hù)與之交流的單次平均對(duì)話(huà)輪數(shù)高達(dá)到23輪。不同的用戶(hù)對(duì)語(yǔ)音助手有著個(gè)性化需求,通過(guò)為語(yǔ)音助手定制不同的音色與人設(shè),可以滿(mǎn)足用戶(hù)情感化需求。例如在小米小愛(ài)同學(xué)5.0版本,用戶(hù)可以選擇特別定制的女友音色,其聲音和人設(shè)因?yàn)樽匀徽鎸?shí)獲得用戶(hù)的喜歡,并在網(wǎng)絡(luò)上發(fā)起熱烈的討論,究其原因是因?yàn)橛脩?hù)希望語(yǔ)音助手成為更人性化的伙伴。
4. 結(jié)語(yǔ)
聲控智媒作為人工智能新時(shí)代的產(chǎn)物,發(fā)展過(guò)程中必然會(huì)面對(duì)到來(lái)自技術(shù)、產(chǎn)品、隱私與商業(yè)模式等因素限制,但是隨著語(yǔ)音交互技術(shù)的不斷更新突破,加上各個(gè)平臺(tái)人才與內(nèi)容的持續(xù)投入,聲控智能必然跨越創(chuàng)新擴(kuò)散理論中“早期采用者”階段,跨入大眾化媒介時(shí)代。
參考文獻(xiàn):
[1]史安斌,胡宇.聲控智媒與新聞傳播:現(xiàn)狀與前景[J].青年記者,2019(01):79.
[2]李蓀,范志琰.AI+趨勢(shì)下智能語(yǔ)音產(chǎn)業(yè)多模態(tài)發(fā)展趨勢(shì)研究[J].信息通信技術(shù)與政策,2019(06):19.
[3]管佖路,顧理平.智能語(yǔ)音交互技術(shù)下的用戶(hù)隱私風(fēng)險(xiǎn)——以智能音箱的使用為例[J].傳媒觀察,2021(06):18.
[4]劉德寰,王妍,孟艷芳.國(guó)內(nèi)新聞傳播領(lǐng)域人工智能技術(shù)研究綜述[J].中國(guó)記者,2020(03):78.
作者簡(jiǎn)介:鄒希豪,江西吉安人,碩士在讀,單位:武漢大學(xué)新聞傳播學(xué)院,研究方向:數(shù)據(jù)新聞。