自動駕駛有所謂的L1—L4,所以不管車企還是技術(shù)提供商都按著這臺階逐步爬坡,幾乎每個人都理解,終極的自動駕駛是不太可能一蹴而就在短期實現(xiàn)的。語音交互領(lǐng)域的情形則正相反,雖然短期也就能達到類似自動駕駛L2的水平,但每個人的潛在預(yù)期都比L4還高。
語音交互的便利程度正好與人工智能的發(fā)展程度成正比,智能程度越高語音交互的等級也就越高,所以其終極形態(tài)與人工智能的終極形態(tài)類似。
如果拋棄特別夸張的想象來說,那語音交互要能達成《她》或者《黑鏡》里描述的樣子:當你給它輸入數(shù)據(jù)后,它能夠根據(jù)輸入數(shù)據(jù)表現(xiàn)出不同的個性;在數(shù)據(jù)的處理上它近乎是全能的,只受個人權(quán)限的限制;如果真的賦予實體,那它可以感知周圍環(huán)境并做出與人類似但很多方面會更優(yōu)秀的反應(yīng)。
今天的智能音箱和未來相對終極的語音交互方式以及設(shè)備相比,其差距要遠大于286電腦和今天的Pad的差距。
一旦發(fā)展成上面這樣的程度,那語音交互就會徹底的打開邊界,而不只是我們使用數(shù)據(jù)的一種方式。甚至會成為生活的必需品。我們不會對iPhone產(chǎn)生依戀,但語音交互則會。
回顧下《黑鏡》里描述的場景,可以對此有更好的理解:女主人公的丈夫去世,過于思念自己丈夫的女主人公通過公開自己丈夫的數(shù)據(jù)創(chuàng)建了一個有性格的、屬于自己的語音交互機器人。這個機器人在絕大多數(shù)方面表現(xiàn)和女主丈夫一致。女主使用一段時間后,就升級了這服務(wù),為這語音交互機器人賦予了和自己丈夫一樣的形體。
這看著非??苹?,但實際上一旦語音交互達到上述程度,那這類事情幾乎一定發(fā)生。既然我們能接受很宅的躲在家里,那就一定能接受這樣一種非真實,但更完美的電子助手進入心靈的世界。《她》這部電影雖然沒拍,但如果有為個性化語音交互系統(tǒng)塑形的服務(wù),主人公也一定會接受。
在這里互聯(lián)網(wǎng)反倒是限制了我們的想象力,因為互聯(lián)網(wǎng)更多的體現(xiàn)的只是工具的屬性,但實際上語音交互系統(tǒng)所要涵蓋的范圍要比互聯(lián)網(wǎng)大得多。當前之所以它能做的還不多,主要是層級還不夠。
我們可以這樣定義語音交互的L1階段:能以極高的準確率,在典型的環(huán)境下響應(yīng)用戶的語音輸入。極高的準確率最低應(yīng)該在90%+。這時承載語音交互的設(shè)備主要負責功能性的提示與反饋(燈與屏幕等)。
當前所有與語音相關(guān)的公司,事實上都是在達成L1的路上。L1的出口為語音交互習慣徹底樹立,人們面對每款設(shè)備的時候會首先想到用語音操作,而不是遙控器或者屏幕。
在L1階段語音交互更像是自動化程度、精準程度更高的搜索,但搜索的范圍擴大了。不單是局限于已有的數(shù)字內(nèi)容,也擴展到家電、視頻通話等正常搜索不會覆蓋的領(lǐng)域。
我們可以這樣定義L2階段:能以極高的準確率識別出交互的當事人和環(huán)境,然后進行個性化的交互。這時承載語音交互的設(shè)備通過攝像頭等傳感器能夠?qū)崟r進行感知,可以進行適當移動,初步擬人。
L2階段體現(xiàn)的是個性化,不再是千人一面。如果L2得以達成,那《她》所描述的場景是可以實現(xiàn)的。語音交互可以定制出性格,而這種性格很可能確實滿足某個人的心理期待。
在L2階段,語音交互會打破工具的邊界,嘗試走入過去重來沒被搜索等介入的領(lǐng)域,比如排遣寂寞?,F(xiàn)在的各種APP是按照領(lǐng)域來切分的,而在L2階段,那所有APP的邊界會被打破,信息的輸出是按照人來切分的。也就是說不再有BAT頭條、美團等,而只是有張三的語音交互助理,李四的語音交互助理。
我們可以這樣定義L3階段:只要有數(shù)據(jù),那語音交互系統(tǒng)的能力是可以無邊界擴展的(包括個性和能力)。交互設(shè)備可以進行擬人化輸出。
L3階段體現(xiàn)的是后端內(nèi)容擴展的無邊界特性,不再是有多少智能就有多少人工以及擬人化輸出,擬人化輸出包括移動,說話的語調(diào),風格,姿態(tài)等。
如果L3階段得以實現(xiàn),那《黑鏡》描述的場景是可以實現(xiàn)的。只要有一個人充分的數(shù)據(jù)描述,那就可以立刻模擬這個人出來,然后給他賦予一個真實的身體。
在L3階段,語音交互及其載體會是社會生活,甚至家庭的一部分。本質(zhì)上從L1到L3體現(xiàn)的是數(shù)字化程度的不斷加深,智能程度不斷加深,同時數(shù)字和智能又按照自己的理想形態(tài)進行物化的過程。
現(xiàn)在與語音交互相關(guān)的公司核心在做的就是L1階段的事。這個時候雖然在人工智能的大趨勢里面,但本質(zhì)上智能并沒那么關(guān)鍵,關(guān)鍵的是便利以及能輸出的內(nèi)容。這兩者會推動樹立語音交互這種習慣。
如果要在數(shù)量級上進行判斷的話,那3年后的目標是:每年有10億臺支持語音交互的設(shè)備售出。至少故事機、電視機、電視盒子、汽車前后裝、白色家電、燈、鬧鐘等會加入這種特性。手機、Pad、電腦這些大品類上語音交互的能力則會變成標配,但使用頻次估計需要更長的時間進行提升,在最初交互頻次會很差,語音交互本身并非一種獨立的交互方式,而是同其背后的內(nèi)容深度綁定的,我們很多的應(yīng)用實際上是針對手機和鍵盤鼠標操作優(yōu)化過的)。
凡是電子設(shè)備都可以用語音來進行交互。語音交互不會挑設(shè)備,同之前的交互相比,它可以更加低廉,理論上只要麥克風并且能聯(lián)網(wǎng)就足夠了。這和為設(shè)備加入鍵盤鼠標或者屏幕相比,代價要低很多。這點上做出表率的仍然是亞馬遜,亞馬遜不停地推出新的設(shè)備如微波爐、車載設(shè)備等。當然不同設(shè)備上語音交互的層次是不同的,有些設(shè)備比如白色家電上面語音交互會限制在一到三輪以內(nèi)。
在更高一級的視角下面,所有當前的努力其實本質(zhì)作用就一個:通過便利性樹立語音交互的習慣。習慣背后跟隨的是用戶時間。這兩者會為下面的進一步發(fā)展提供試驗田。只有達成了這一目標,從技術(shù)到產(chǎn)品再到用戶這一循環(huán)才算真正完成了第一次迭代。
語音交互看著太簡單了,不過是說話而已,所以很容易被誤解為像說話一樣的交互就是現(xiàn)在語音交互設(shè)備所應(yīng)該干的事。其實不是的,語音交互從L1到L3有可能比自動駕駛從L1—L5還要漫長。