鄭茂典
很多人出國都用過手機(jī)版谷歌離線翻譯,大家不知道的是,當(dāng)年獨(dú)立做出這個(gè)系統(tǒng)的工程師,后來從硅谷回國創(chuàng)立了一家人工智能科技公司,而這家公司還被稱為“美國名校收集器”,哈佛、斯坦福、MIT的畢業(yè)生紛紛回國投奔。這家公司就是“出門問問”品牌的擁有企業(yè)——上海羽扇智信息科技有限公司。
你可以說它出道即巔峰,也可以說它沒有存在感??稍絹碓蕉嗳说纳钜蛩?。在中國,新車占比四分之一的大眾汽車集團(tuán),搭載著它的車載語音交互系統(tǒng);在新浪新聞App中,AI虛擬主播每天為用戶語音播報(bào)當(dāng)日時(shí)訊,背后的技術(shù)也是來自于它;疫情期間,你接到的防控登記電話可能是它的語音機(jī)器人打來的……
作為科技獨(dú)角獸企業(yè)的“出門問問”做的不是一種簡單的工具,而是通過技術(shù)與應(yīng)用去構(gòu)建全新一代人機(jī)交互。
2011年iPhone4s搭載Siri語音助手剛剛推向市場,引發(fā)了全球移動(dòng)互聯(lián)網(wǎng)尤其是智能語音的創(chuàng)業(yè)浪潮。2012年,“出門問問”品牌推出,那時(shí)起,“出門問問”就堅(jiān)信從PC時(shí)代到移動(dòng)互聯(lián)網(wǎng)時(shí)代,會(huì)帶來人機(jī)交互方式巨大變化的理念,并致力于開發(fā)基于自然語言處理的下一代移動(dòng)搜索引擎,也就是語音搜索。
在“出門問問”創(chuàng)始人李志飛的理想中,他希望運(yùn)用前沿技術(shù),能在中國創(chuàng)造一家像谷歌一樣的公司,用技術(shù)改變?nèi)藗兊纳罘绞健?/p>
2013年,中文移動(dòng)語音搜索引擎出門問問App問世,打造出了中國版的GoogleNow。2015年,“出門問問”第一款軟硬結(jié)合的中國智能手表TicWatch發(fā)布。2016年,問問魔鏡Ticmirror和問問魔眼Ticeye發(fā)布。2017年,“出門問問”發(fā)布Tichome問問音箱,進(jìn)軍智能音箱領(lǐng)域。2018年,“出門問問”發(fā)布TicPodsFree小問智能耳機(jī)。至此,“出門問問”作為一家以語音交互和智能硬件為核心的人工智能公司的產(chǎn)品,在“可穿戴、車載、智能家居”三大領(lǐng)域全面布局。一時(shí)間,這家公司成為創(chuàng)投圈競相追捧的閃耀明星。
用前沿科技推動(dòng)新時(shí)代的到來,往往潤物細(xì)無聲。對于“出門問問”而言,它在消費(fèi)端保有一定的知名度,卻被誤以為是智能可穿戴公司。實(shí)際上,大眾鮮少看到的企業(yè)端市場,才是這家技術(shù)型公司“技術(shù)實(shí)力”的真面貌。
“硬技術(shù)”為汽車行業(yè)賦能
備受巨頭青睞
智能車載被公認(rèn)為是語音交互重要的落地場景之一。“我們認(rèn)為汽車朝智能化的方向發(fā)展,語音交互肯定是構(gòu)建車輛智能閉環(huán)的重要一部分。‘出門問問一直是把技術(shù)置于場景之中,因?yàn)橹挥性诖髨鼍跋峦苿?dòng)新交互從初生走向成熟,我們才能在其中成為下一代交互的主要推動(dòng)者?!薄俺鲩T問問”首席技術(shù)官雷欣說。
車載是“出門問問”在企業(yè)端領(lǐng)域開辟的第一個(gè)落地場景??吹搅酥腔鄢鲂械内厔莺螅俺鲩T問問”在2016年開始探索的新業(yè)務(wù)線,起始于一款帶有語音交互功能的智能車載后視鏡——問問魔鏡。彼時(shí),大眾汽車集團(tuán)正好也在謀求從傳統(tǒng)的車輛制造商,向車聯(lián)網(wǎng)和自動(dòng)駕駛方面轉(zhuǎn)型。當(dāng)他們看到問問魔鏡背后的語音交互技術(shù),最終向“出門問問”出資1.8億美元,并促成了更深度的戰(zhàn)略合作——車載語音合資企業(yè)大眾問問的成立。至此,“出門問問”估值超過了10億美金,躋身中國的科技獨(dú)角獸企業(yè)。
車載交互,冷啟動(dòng)是最難的。車載系統(tǒng)不能按照消費(fèi)端思路去做,因?yàn)橄M(fèi)端產(chǎn)品很容易做到標(biāo)準(zhǔn)化,但車載系統(tǒng)需要跟車企緊密合作,具體的車型對應(yīng)到技術(shù)參數(shù)都有不同的要求,所以這給“出門問問”的技術(shù)和落地的復(fù)雜性帶來了巨大考驗(yàn)?!俺鲩T問問”團(tuán)隊(duì)投入100多人花了近三年的時(shí)間,打磨出一套車載語音解決方案,通過離線+在線的結(jié)合保證了最佳交互體驗(yàn)。離線方案包括全棧式語音交互模塊,特點(diǎn)為CPU及內(nèi)存占用低,整體小于500MB,并支持可定制喚醒詞、多命令詞監(jiān)聽、全場景打斷和免熱詞(Always On)等新的交互方式,能夠讓車載語音交互更加自由高效。達(dá)到了車規(guī)級的語音交互標(biāo)準(zhǔn)和安全要求。
目前,“出門問問”的車載語音交互系統(tǒng)在大眾體系的滲透率達(dá)20%,包括奧迪A4L、探岳X、ID系列等20多款車型。預(yù)計(jì)到2023年,前裝量將達(dá)到1500萬輛。
如今,“出門問問”在智慧出行的趨勢下,在嵌入式語音交互領(lǐng)域,已經(jīng)建立了行業(yè)領(lǐng)先的技術(shù)優(yōu)勢和壁壘。
“造釘子”讓研發(fā)依附實(shí)體
推動(dòng)技術(shù)迭代
科技公司最容易出現(xiàn)的問題是拿著錘子找釘子,在做技術(shù)創(chuàng)新時(shí),不能純粹只是造錘子,釘子在哪都不管,需要的是“以終為始”的思考。
在消費(fèi)端用戶眼中,“出門問問”跟智能可穿戴可以畫等號。因?yàn)樗鲞^手表、音箱、耳機(jī)在內(nèi)的一系列消費(fèi)級產(chǎn)品。但實(shí)際上,AI語音技術(shù)才是其核心命脈。當(dāng)然,技術(shù)必須要依附于實(shí)體產(chǎn)品,才能推動(dòng)下一代人機(jī)交互的到來。
這也就很好解釋,“出門問問”在語音APP后,為何把自研的操作系統(tǒng)TicWear刷到Moto360智能手表里面,又為何會(huì)一口氣推出多款產(chǎn)品,因?yàn)榧夹g(shù)是離不開產(chǎn)品的。“出門問問”做手表及其它硬件,都是為了更好更快地通向下一代人機(jī)交互這個(gè)終極目標(biāo)。
同時(shí),“出門問問”也在越來越聚焦。如果把技術(shù)看作錘子,落地場景當(dāng)成釘子,“出門問問”需要聚焦幾個(gè)關(guān)鍵賽道,強(qiáng)有力地把“釘子”錘進(jìn)去。例如在智能可穿戴的場景中,“出門問問”圍繞語音交互推出了幫用戶代接電話的小問秘書,讓語音機(jī)器人對所有未接電話進(jìn)行智能接聽并分析來電意圖,解決大量騷擾、重復(fù)性電話的問題。
升級后的小問秘書,上線了個(gè)性化聲音制作功能,根據(jù)“出門問問”的個(gè)性化TTS,支持多層級的定制,用戶最少錄入15句人聲音頻內(nèi)容,即可生成頗像真人的專屬合成效果。這樣一來,用戶就可以用自己的聲音代接來電,避免因AI助理產(chǎn)生的熟人社交隔閡。
在改變?nèi)藱C(jī)交互的體驗(yàn)上,“出門問問”還基于第四代語音合成系統(tǒng)MeetVoice技術(shù),上線了專業(yè)AI音頻內(nèi)容生產(chǎn)一站式解決方案——魔音工坊。用戶能夠高效便捷地以AI語音技術(shù)模擬具有清晰性格特征的真人語音,進(jìn)行AI音頻內(nèi)容創(chuàng)作,讓文字隨聲音躍出紙面。
目前,用戶可通過點(diǎn)擊新浪新聞App頻道內(nèi)的音頻圖標(biāo),就能收聽海內(nèi)外各領(lǐng)域的新聞。為了解決配音的專業(yè)性問題,“出門問問”對多音字模型進(jìn)行了升級,多音字整體準(zhǔn)確率達(dá)到99.52%以上。針對新聞、官方文件、法律條文等,對準(zhǔn)確率有著更高要求的文章類型,魔音工坊設(shè)計(jì)了創(chuàng)新的交互形態(tài),成為AI音頻時(shí)代的word編輯器。同時(shí)“出門問問”在AI配音、公眾號音頻化、歌唱合成、情感合成等方面也在引領(lǐng)著業(yè)界步伐。
“軟實(shí)力”支撐技術(shù)創(chuàng)新
引領(lǐng)業(yè)界步伐
“軟硬結(jié)合”是支撐“出門問問”讓創(chuàng)新成果落地的根本。企業(yè)創(chuàng)新是需要企業(yè)擁有完整的軟件算法團(tuán)隊(duì)和技術(shù)積累,同時(shí)還要擁有出色的硬件設(shè)計(jì)、研發(fā)團(tuán)隊(duì),并對供應(yīng)鏈具備穩(wěn)定的把控能力?!俺鲩T問問”的技術(shù)研發(fā)團(tuán)隊(duì)現(xiàn)有近300人,以3人為一個(gè)開發(fā)單位,保持敏捷的開發(fā)流程。工程技術(shù)方面,也以谷歌規(guī)范為標(biāo)準(zhǔn),保持自由的硅谷工程師氛圍。
基于技術(shù)硬實(shí)力和人才軟實(shí)力,“出門問問”多年來在已有的成果上堅(jiān)持迭代優(yōu)化AI語音技術(shù),不斷地提升核心技術(shù)壁壘。在不同硬件及不同的場景里參與進(jìn)去,其實(shí)反而讓成果在面對企業(yè)端的需求的時(shí)候,具備了多方面的能力,能夠快速地去解決問題,提升生產(chǎn)力。
在雷欣看來,技術(shù)人員應(yīng)該把手插進(jìn)土里去,推動(dòng)和促進(jìn)產(chǎn)業(yè)向人機(jī)交互的方向發(fā)展,所以“敢干、愿意干”是“出門問問”培養(yǎng)人才的重要的條件。
“雖然過去10年道阻且長,但我們收獲很多成果。我覺得做技術(shù)公司最幸福的,不是拿一個(gè)技術(shù)直接變現(xiàn),而是看著我們的技術(shù)越來越強(qiáng),越來越普世化,技術(shù)在更多場景和領(lǐng)域得到應(yīng)用,這是一個(gè)滿足感不斷提升的過程?!崩仔勒f。