李文瑤
2007年11月,科技部召開了新一代人工智能發(fā)展規(guī)劃暨重大科技項目啟動會,公布了首批國家新一代人工智能開放創(chuàng)新平臺名單,并宣布分別依托百度、阿里云、騰訊、科大訊飛這四家公司,在自動駕駛、城市大腦、醫(yī)療影像、智能語音等四個領(lǐng)域建設(shè)國家新一代人工智能開放創(chuàng)新平臺,其中科大訊飛作為BAT外的第四極以“智能語音”項目入選,因此格外引人注目,而語音識別和無人駕駛、城市大腦等項目并列,也看得出其在應(yīng)用層面的重要性。
有研究機構(gòu)指出,2015年全球語音識別市場規(guī)模約為61.9億美元,預(yù)計到2020年可以接近200億美元(約等于1200億人民幣)。但也有業(yè)內(nèi)人士認(rèn)為,語音識別市場已告別過熱,進入理性期。
22種方言一樣能識別
不久前,在上海舉行的中國國際工業(yè)博覽會(簡稱工博會)上,科大訊飛在工博會首次設(shè)立的人工智能專區(qū)中展示了曉譯翻譯機以及訊飛聽見系統(tǒng)。
展臺上,一臺裝有訊飛聽見智能會議系統(tǒng)的筆記本正在不斷記錄著講解員的話,從現(xiàn)場演示效果看,不僅可同步記錄,準(zhǔn)確率較高,簡單的英文也能翻譯出來。據(jù)講解員表示,這套系統(tǒng)的語音識別準(zhǔn)確率在95%以上??拼笥嶏w相關(guān)人士表示,以訊飛輸入法為例,其通用語音識別準(zhǔn)確率達(dá)到98%,并能夠識別22種方言。針對少部分口音不標(biāo)準(zhǔn)的用戶或者講方言的用戶,還可以進行個性化識別。
北京捷通華聲科技公司也是一家從事智能語音、智能圖像、語義理解等人工智能技術(shù)的公司,在總經(jīng)理武衛(wèi)東看來,語音識別在通用領(lǐng)域平均準(zhǔn)確率達(dá)到95%以上,在一些特定行業(yè)應(yīng)用領(lǐng)域,準(zhǔn)確率可以高達(dá)97%。“大多數(shù)做語音識別的公司,基礎(chǔ)都是建立在深度神經(jīng)網(wǎng)絡(luò)上的,運用機器學(xué)習(xí)、建立基礎(chǔ)模型,沒有很大差異。彼此之間的區(qū)別在于解碼器技術(shù)、大數(shù)據(jù)基礎(chǔ)、并行網(wǎng)絡(luò)等,這些差異會構(gòu)成行業(yè)內(nèi)的差異化競爭?!?武衛(wèi)東表示。
在這些差異化因素中,最重要的是大數(shù)據(jù)基礎(chǔ),用武衛(wèi)東的話說就是“深度神經(jīng)網(wǎng)絡(luò)的方法,是通過大量的語音數(shù)據(jù),訓(xùn)練出高精度的聲學(xué)模型和語言模型,從而提升識別率。數(shù)據(jù)量決定了語音識別的準(zhǔn)確率,也能提升領(lǐng)域覆蓋度?!币话銇碚f,數(shù)據(jù)來源主要是在云端App產(chǎn)生的數(shù)據(jù)以及行業(yè)應(yīng)用中真實場景的數(shù)據(jù)。
訓(xùn)練計算機學(xué)會自我分辨
讓語音秒變文字,在極短的時間內(nèi),機器內(nèi)的語音識別系統(tǒng)已經(jīng)經(jīng)歷了一個極為復(fù)雜的分析過程。
“當(dāng)你對著手機說話時,目標(biāo)語音首先被數(shù)字化并送入系統(tǒng)的前端模塊,前端模塊主要包含語音信號處理和語音特征處理兩部分。信號處理部分是為了改善識別效果受環(huán)境噪聲、信道畸變等因素的影響,而特征處理則是將輸入的語音進行某種符合語音識別需求的‘轉(zhuǎn)換,即讓手機聽懂‘人話。”科大訊飛相關(guān)人士解釋,在確定了上述語音特征處理等規(guī)則之后,接下來就是進行模型訓(xùn)練,又分為聲學(xué)模型訓(xùn)練和語言模型訓(xùn)練,教會機器學(xué)會“哪個字詞發(fā)什么音”“該怎么連在一起讀”以及“什么樣的命令或文字組合是合理的”。此外,解碼引擎的運算效率至關(guān)重要,直接影響用戶體驗。目前,科大訊飛的解碼引擎可以在用戶說完話40毫秒之內(nèi)給出結(jié)果。
目前在語音識別方面,大多數(shù)公司正在做的是無監(jiān)督/半監(jiān)督訓(xùn)練?!巴ㄋc講,就是讓機器在沒有人工干預(yù)的情況下,進行模型訓(xùn)練。比如在用戶使用機器時,機器會結(jié)合用戶個性化的發(fā)音特點,優(yōu)化模型,提升識別率?!蔽湫l(wèi)東解釋說。
在業(yè)內(nèi)人士看來,每提升一個百分比的準(zhǔn)確率,都是質(zhì)的飛躍。滿足這樣的準(zhǔn)確率不僅要相當(dāng)完善的數(shù)據(jù)庫,還得有效率較高的識別提取算法和自學(xué)習(xí)系統(tǒng)。
可落地商業(yè)生態(tài)還不多
如今,語音識別在應(yīng)用落地方面也在發(fā)力,比如,在消費娛樂領(lǐng)域,VR游戲引入語音識別技術(shù)后,玩家可拋棄游戲手柄,真正做到沉浸式體驗。在對AI需求旺盛的智能家居領(lǐng)域,更是如此,越來越多的家居加入了對話功能,達(dá)到提升生活智能化的目的,甚至在解鎖、支付等方面,能確認(rèn)說話人身份的聲紋識別也在流行。
金融、醫(yī)療、客服等B端領(lǐng)域,智能手機、PC、移動應(yīng)用等C端領(lǐng)域,公共服務(wù)、智慧城市項目等G端領(lǐng)域都是語音識別的聚焦行業(yè)。在易觀國際分析師王京京看來,目前語音識別技術(shù)的落地也存在一定困難,“比如,B端市場的應(yīng)用核心在于降本增效或者解決痛點,如果語音識別/語音交互不能明顯地為企業(yè)降低成本、提升效率或者解決某些痛點,企業(yè)就缺乏應(yīng)用的動力;C端市場的落地在于交互體驗、使用習(xí)慣和商業(yè)生態(tài),現(xiàn)在的語音識別效果和效率還不能達(dá)到十分完美,在一定程度上影響了用戶體驗。而且大多數(shù)場景下,用戶原本的交互習(xí)慣已經(jīng)形成,除非像車載這樣對語音交互有剛需的環(huán)境才能達(dá)到比較高的滲透率?!?/p>
BAT和初創(chuàng)公司都有機會
從技術(shù)層面上說,目前市場上已有的語音識別公司的差異并不大,王京京表示。要形成差異化競爭,需要在某些細(xì)分應(yīng)用領(lǐng)域中深扎下去,通過提供完整的行業(yè)解決方案來增加獲客、完善生態(tài),從而形成行業(yè)壁壘。
AI熱潮之下,只要是屬于AI領(lǐng)域的細(xì)分市場都受到創(chuàng)業(yè)企業(yè)的追捧,BAT也不會錯過。以語音助理為例,最大的布局者是阿里巴巴,其次是百度的度秘,最后是2017年5月騰訊發(fā)布的叮當(dāng)。百度近幾年在人工智能方面投入巨大,試圖尋找下一個機會點,其語音技術(shù)也已集成語音識別、語義理解、深度問答、多輪對話、情感分析、語音合成等能力,語音交互能力在搜索、地圖等產(chǎn)品中均有體現(xiàn)。
BAT等互聯(lián)網(wǎng)巨頭的入局是否會對其他企業(yè)造成影響?在不少業(yè)內(nèi)人士看來,目前還不明顯?!叭斯ぶ悄墚a(chǎn)業(yè)不是一家公司就可以包打天下,必須要建立產(chǎn)業(yè)生態(tài),不會形成寡頭。”武衛(wèi)東這樣認(rèn)為。
在王京京看來,雖然BAT也在語音識別方面發(fā)力,但語音識別創(chuàng)業(yè)公司更有條件深耕細(xì)分應(yīng)用領(lǐng)域,提供一體化解決方案,BAT的重心更多是在偏通用型的語音技術(shù)以及服務(wù)自身業(yè)務(wù)布局上。
有市場,就會引來投資者,語音識別領(lǐng)域也不例外。事實上,語音識別領(lǐng)域的投資很早就開始了,近幾年的投資熱度并不亞于計算機視覺/人臉識別。從整體來看,語音基礎(chǔ)設(shè)施層的投資布局已經(jīng)基本建立,接下來資本會更多關(guān)注細(xì)分和差異化的語音應(yīng)用領(lǐng)域?!澳壳?,資本方對技術(shù)并不看重,主要看重變現(xiàn)能力和商業(yè)模式?!蔽湫l(wèi)東表示。
(本文轉(zhuǎn)自《IT時報》)endprint