李雨蒙
2017年美國消費(fèi)性電子展(CES)落下帷幕,而此次展會的最大贏家非亞馬遜(Amazon)莫屬。其推出的智能語音系統(tǒng)Alexa幾乎能夠聯(lián)通所有與物聯(lián)網(wǎng)相關(guān)的一切產(chǎn)品,為我們展示了智能生活的全新生態(tài)景象。未來消費(fèi)者只需開口發(fā)出指令,無論您在哪里,都可以通過語音交互系統(tǒng)輕松控制每一臺關(guān)聯(lián)的電子物件,開啟萬物互聯(lián)的智能化生活。
2016年,科技界最為顛覆性的熱門事件,一定是谷歌Alphago戰(zhàn)勝韓國圍棋九段棋手李世石。人工智能(AI)通過深度學(xué)習(xí)(DeepLearning)技術(shù)破解了最古老而神秘的圍棋,人們在震驚于AI學(xué)習(xí)能力的同時,也開始擔(dān)憂AI逐漸具備人類所獨(dú)有的能力。據(jù)統(tǒng)計(jì),在主流平臺上,AI深度學(xué)習(xí)的能力使得語音交互正確率超過90%;而目前美國移動語音助手使用比例已達(dá)到,谷歌語音搜索量較2008年相比增長35倍。
Alexa生態(tài)系統(tǒng)
不同于蘋果Siri有限的語音輔助作用,亞馬遜Alexa是一個具備強(qiáng)大語音技術(shù)的機(jī)器人,對于語音識別、語義分析等方面的技術(shù)要求非常嚴(yán)格。Alexa中集成了增強(qiáng)機(jī)器學(xué)習(xí)等人工智能技術(shù)基于語音的應(yīng)用。作為Alexa的載體,Echo智能音箱從最初播放Prime音樂、設(shè)置鬧鈴等基礎(chǔ)任務(wù),升級到開始對家中的燈、空調(diào)、攝像頭等電器設(shè)備的控制。
自2015年下半年開始,第三方硬件廠商意識到Alexa在智能家居領(lǐng)域的重大發(fā)展?jié)摿?,陸續(xù)有家電廠商開始與亞馬遜合作,試圖在自家產(chǎn)品中內(nèi)置Alexa。在2017年CES上,Alexa出現(xiàn)在各大廠商的產(chǎn)品發(fā)布會上,涵蓋的產(chǎn)品類型包括冰箱、吸塵器、DVR、手勢遙控器、燈泡、車載系統(tǒng)等,它們都內(nèi)置了Alexa語音助手以及可與Alexa賴以交互的音頻I/O模塊。也就是說,Alexa開始成為多種智能家居產(chǎn)品的內(nèi)置智能助手。
比如,LG公司推出最新智能冰箱,內(nèi)置Alexa語音識別系統(tǒng),在聯(lián)網(wǎng)和設(shè)置之后,用戶可以通過LG智能冰箱內(nèi)置的Alexa來查看菜譜、查看冰箱內(nèi)食物的過期時間,自動選擇缺少的食物,并直接完成在線購物。
除此之外,福特在今年的CES展會上推出了一個以Alexa為技術(shù)支撐的車載信息娛樂系統(tǒng)SYNC 3 in fotainment;通過這個系統(tǒng),Alexa把汽車和房子緊密地結(jié)合在一起。以具體的使用場景為例:通過這一系統(tǒng),用戶在家里可以用語音在指定的時間點(diǎn)發(fā)動汽車;而當(dāng)用戶在開車過程中,可以通過車載的音響系統(tǒng)繼續(xù)用語音指令來喚醒Alexa,比如說查詢路線和目的地、詢問天氣、購買東西、播放音樂
和有聲書等;用戶甚至可以在車?yán)锿ㄟ^Alexa來控制家中的燈、車庫門等等。這樣一來,Alexa的語音交互方式就在駕駛過程中發(fā)揮出最大的優(yōu)勢;而且,汽車與家庭之間也實(shí)現(xiàn)了有效的聯(lián)動。
深度學(xué)習(xí)加快語音識別
著名“互聯(lián)網(wǎng)女皇”瑪麗·米克爾在《2016年互聯(lián)網(wǎng)趨勢報告》中,特別提出語音交互科技的時代已經(jīng)到來。她認(rèn)為,語音正在被重塑,成為人機(jī)交互的新范式,不僅語音搜索正在成為搜索的重要分支,在各種垂直領(lǐng)域的應(yīng)用也在日益增多。中外各大科技巨頭早已紛紛布局語音互聯(lián),不惜重金挖掘各路人才,搶先占領(lǐng)最大市場優(yōu)勢。
百度2016年世界大會上,李彥宏推出“百度大腦”,他認(rèn)為人工智能是移動互聯(lián)網(wǎng)的下一幕,而百度大腦正是百度的核心人工智能。目前,百度大腦主要包含三個方面,即算法、計(jì)算能力以及大數(shù)據(jù)等,并從四個能力展開應(yīng)用,包括:自然語言的處理、語音識別、圖像識別處理以及用戶畫像等能力。2014年,百度公司宣布國際著名人工智能科學(xué)家吳恩達(dá)的加入,成為百度首席科學(xué)家,主要負(fù)責(zé)的正是百度大腦項(xiàng)目的領(lǐng)導(dǎo)工作,吳恩達(dá)加入百度引起了國際人工智能界的巨大震動。2016年《MIT科技評論》雜志,把百度的語音識別引擎第二代Deep Speech 2評為“2016改變世界十大突破技術(shù)”,這個引擎大概可以做到97%的準(zhǔn)確率,這樣的準(zhǔn)確率有時甚至超過了人。
大會上,李彥宏演示了語音識別的其中一個應(yīng)用場景:電話銷售。銷售人員需要長時間培訓(xùn)才能上崗。但是通過百度語音識別能力,一個新的銷售上崗的第一天,就可能掌握他所獲得的那些最優(yōu)秀的銷售的能力:新銷售打電話給潛在客戶的時候,百度大腦都實(shí)時地識別了客戶的問題,并且顯示在銷售的電腦的屏幕上,同時實(shí)時地統(tǒng)計(jì)出最優(yōu)秀的銷售記錄。
搜狗“知音”
不久前,搜狗語音發(fā)布了不僅“能聽會說”,還具有“能理解會思考”的智能語音交互引擎技術(shù)“知音”?!爸簟苯鉀Q了用戶在說話過程中因語速過快而導(dǎo)致的吞音問題,語音識別錯誤率相對下降30%以上。2016年8月搜狗知音引擎基于已有的深度學(xué)習(xí)平臺和技術(shù)搭建了自身的語音實(shí)時翻譯技術(shù)。整個技術(shù)框架包括了語音識別、機(jī)器翻譯兩個大的方向,整個系統(tǒng)并不是簡單的技術(shù)堆砌,而需要做非常多的細(xì)節(jié)優(yōu)化以及系統(tǒng)調(diào)優(yōu),主要包括了語音斷句、語音識別、文本斷句以及機(jī)器翻譯。
對于和谷歌不久前發(fā)布的神經(jīng)機(jī)器翻譯技術(shù),搜狗和谷歌使用的模型區(qū)別不大,但谷歌的神經(jīng)網(wǎng)絡(luò)比較深,做到了8層,而搜狗最多做到5層。谷歌神經(jīng)機(jī)器翻譯推出后,宣布將投入到非常困難的漢語-英語語言對的翻譯生產(chǎn)中。微軟也發(fā)布了萬能翻譯器,支持語音識別、拍照識別、直接輸入翻譯功能。
2015年11月,圖靈機(jī)器人針對服務(wù)機(jī)器人市場,推出了全球首個人工智能級的操作系統(tǒng)——Turing OS。Turing OS是一款可模擬人類情感和思維模式的智能機(jī)器人操作系統(tǒng),具備最接近人類的多模態(tài)人機(jī)交互能力,包括情感計(jì)算、思維強(qiáng)化和自學(xué)習(xí)三大引擎。TuringOS內(nèi)置兒童對話功能,提供強(qiáng)力內(nèi)容過濾機(jī)制,語言“純凈度”達(dá)99.87%。
在即將進(jìn)入的物聯(lián)網(wǎng)時代中,語音交互被視作為人機(jī)交互的入口。當(dāng)各種惡意機(jī)器人消滅人類的理論出現(xiàn)時,人類不妨培養(yǎng)如AI一般的深度學(xué)習(xí)(DeepLearning)能力,考慮在職業(yè)被AI取代后,我們該如何學(xué)習(xí)尋找新型職業(yè),而不是考慮如何拔掉AI的插頭。正如百度首席科學(xué)家吳恩達(dá)說的那樣:“技術(shù)的變革越來越快,更加需要重新訓(xùn)練人。我非常顧慮,沒辦法及時訓(xùn)練需要的人”。
編譯自《商業(yè)內(nèi)幕》《MIT科技評論》雜志