智能語音入選國家級“AI四大項目”22種方言一樣能識別

2018-01-24 18:08:55李文瑤

創(chuàng)新時代 2018年1期

李文瑤

2007年11月，科技部召開了新一代人工智能發(fā)展規(guī)劃暨重大科技項目啟動會，公布了首批國家新一代人工智能開放創(chuàng)新平臺名單，并宣布分別依托百度、阿里云、騰訊、科大訊飛這四家公司，在自動駕駛、城市大腦、醫(yī)療影像、智能語音等四個領(lǐng)域建設(shè)國家新一代人工智能開放創(chuàng)新平臺，其中科大訊飛作為BAT外的第四極以“智能語音”項目入選，因此格外引人注目，而語音識別和無人駕駛、城市大腦等項目并列，也看得出其在應(yīng)用層面的重要性。

有研究機構(gòu)指出，2015年全球語音識別市場規(guī)模約為61.9億美元，預(yù)計到2020年可以接近200億美元（約等于1200億人民幣）。但也有業(yè)內(nèi)人士認(rèn)為，語音識別市場已告別過熱，進入理性期。

22種方言一樣能識別

不久前，在上海舉行的中國國際工業(yè)博覽會（簡稱工博會）上，科大訊飛在工博會首次設(shè)立的人工智能專區(qū)中展示了曉譯翻譯機以及訊飛聽見系統(tǒng)。

展臺上，一臺裝有訊飛聽見智能會議系統(tǒng)的筆記本正在不斷記錄著講解員的話，從現(xiàn)場演示效果看，不僅可同步記錄，準(zhǔn)確率較高，簡單的英文也能翻譯出來。據(jù)講解員表示，這套系統(tǒng)的語音識別準(zhǔn)確率在95%以上?？拼笥嶏w相關(guān)人士表示，以訊飛輸入法為例，其通用語音識別準(zhǔn)確率達(dá)到98%，并能夠識別22種方言。針對少部分口音不標(biāo)準(zhǔn)的用戶或者講方言的用戶，還可以進行個性化識別。

北京捷通華聲科技公司也是一家從事智能語音、智能圖像、語義理解等人工智能技術(shù)的公司，在總經(jīng)理武衛(wèi)東看來，語音識別在通用領(lǐng)域平均準(zhǔn)確率達(dá)到95%以上，在一些特定行業(yè)應(yīng)用領(lǐng)域，準(zhǔn)確率可以高達(dá)97%。“大多數(shù)做語音識別的公司，基礎(chǔ)都是建立在深度神經(jīng)網(wǎng)絡(luò)上的，運用機器學(xué)習(xí)、建立基礎(chǔ)模型，沒有很大差異。彼此之間的區(qū)別在于解碼器技術(shù)、大數(shù)據(jù)基礎(chǔ)、并行網(wǎng)絡(luò)等，這些差異會構(gòu)成行業(yè)內(nèi)的差異化競爭?！?武衛(wèi)東表示。

在這些差異化因素中，最重要的是大數(shù)據(jù)基礎(chǔ)，用武衛(wèi)東的話說就是“深度神經(jīng)網(wǎng)絡(luò)的方法，是通過大量的語音數(shù)據(jù)，訓(xùn)練出高精度的聲學(xué)模型和語言模型，從而提升識別率。數(shù)據(jù)量決定了語音識別的準(zhǔn)確率，也能提升領(lǐng)域覆蓋度?！币话銇碚f，數(shù)據(jù)來源主要是在云端App產(chǎn)生的數(shù)據(jù)以及行業(yè)應(yīng)用中真實場景的數(shù)據(jù)。

訓(xùn)練計算機學(xué)會自我分辨

讓語音秒變文字，在極短的時間內(nèi)，機器內(nèi)的語音識別系統(tǒng)已經(jīng)經(jīng)歷了一個極為復(fù)雜的分析過程。

“當(dāng)你對著手機說話時，目標(biāo)語音首先被數(shù)字化并送入系統(tǒng)的前端模塊，前端模塊主要包含語音信號處理和語音特征處理兩部分。信號處理部分是為了改善識別效果受環(huán)境噪聲、信道畸變等因素的影響，而特征處理則是將輸入的語音進行某種符合語音識別需求的‘轉(zhuǎn)換，即讓手機聽懂‘人話。”科大訊飛相關(guān)人士解釋，在確定了上述語音特征處理等規(guī)則之后，接下來就是進行模型訓(xùn)練，又分為聲學(xué)模型訓(xùn)練和語言模型訓(xùn)練，教會機器學(xué)會“哪個字詞發(fā)什么音”“該怎么連在一起讀”以及“什么樣的命令或文字組合是合理的”。此外，解碼引擎的運算效率至關(guān)重要，直接影響用戶體驗。目前，科大訊飛的解碼引擎可以在用戶說完話40毫秒之內(nèi)給出結(jié)果。

目前在語音識別方面，大多數(shù)公司正在做的是無監(jiān)督/半監(jiān)督訓(xùn)練?！巴ㄋc講，就是讓機器在沒有人工干預(yù)的情況下，進行模型訓(xùn)練。比如在用戶使用機器時，機器會結(jié)合用戶個性化的發(fā)音特點，優(yōu)化模型，提升識別率?！蔽湫l(wèi)東解釋說。

在業(yè)內(nèi)人士看來，每提升一個百分比的準(zhǔn)確率，都是質(zhì)的飛躍。滿足這樣的準(zhǔn)確率不僅要相當(dāng)完善的數(shù)據(jù)庫，還得有效率較高的識別提取算法和自學(xué)習(xí)系統(tǒng)。

可落地商業(yè)生態(tài)還不多

如今，語音識別在應(yīng)用落地方面也在發(fā)力，比如，在消費娛樂領(lǐng)域，VR游戲引入語音識別技術(shù)后，玩家可拋棄游戲手柄，真正做到沉浸式體驗。在對AI需求旺盛的智能家居領(lǐng)域，更是如此，越來越多的家居加入了對話功能，達(dá)到提升生活智能化的目的，甚至在解鎖、支付等方面，能確認(rèn)說話人身份的聲紋識別也在流行。

金融、醫(yī)療、客服等B端領(lǐng)域，智能手機、PC、移動應(yīng)用等C端領(lǐng)域，公共服務(wù)、智慧城市項目等G端領(lǐng)域都是語音識別的聚焦行業(yè)。在易觀國際分析師王京京看來，目前語音識別技術(shù)的落地也存在一定困難，“比如，B端市場的應(yīng)用核心在于降本增效或者解決痛點，如果語音識別/語音交互不能明顯地為企業(yè)降低成本、提升效率或者解決某些痛點，企業(yè)就缺乏應(yīng)用的動力；C端市場的落地在于交互體驗、使用習(xí)慣和商業(yè)生態(tài)，現(xiàn)在的語音識別效果和效率還不能達(dá)到十分完美，在一定程度上影響了用戶體驗。而且大多數(shù)場景下，用戶原本的交互習(xí)慣已經(jīng)形成，除非像車載這樣對語音交互有剛需的環(huán)境才能達(dá)到比較高的滲透率?！?/p>

BAT和初創(chuàng)公司都有機會

從技術(shù)層面上說，目前市場上已有的語音識別公司的差異并不大，王京京表示。要形成差異化競爭，需要在某些細(xì)分應(yīng)用領(lǐng)域中深扎下去，通過提供完整的行業(yè)解決方案來增加獲客、完善生態(tài)，從而形成行業(yè)壁壘。

AI熱潮之下，只要是屬于AI領(lǐng)域的細(xì)分市場都受到創(chuàng)業(yè)企業(yè)的追捧，BAT也不會錯過。以語音助理為例，最大的布局者是阿里巴巴，其次是百度的度秘，最后是2017年5月騰訊發(fā)布的叮當(dāng)。百度近幾年在人工智能方面投入巨大，試圖尋找下一個機會點，其語音技術(shù)也已集成語音識別、語義理解、深度問答、多輪對話、情感分析、語音合成等能力，語音交互能力在搜索、地圖等產(chǎn)品中均有體現(xiàn)。

BAT等互聯(lián)網(wǎng)巨頭的入局是否會對其他企業(yè)造成影響？在不少業(yè)內(nèi)人士看來，目前還不明顯?！叭斯ぶ悄墚a(chǎn)業(yè)不是一家公司就可以包打天下，必須要建立產(chǎn)業(yè)生態(tài)，不會形成寡頭。”武衛(wèi)東這樣認(rèn)為。

在王京京看來，雖然BAT也在語音識別方面發(fā)力，但語音識別創(chuàng)業(yè)公司更有條件深耕細(xì)分應(yīng)用領(lǐng)域，提供一體化解決方案，BAT的重心更多是在偏通用型的語音技術(shù)以及服務(wù)自身業(yè)務(wù)布局上。

有市場，就會引來投資者，語音識別領(lǐng)域也不例外。事實上，語音識別領(lǐng)域的投資很早就開始了，近幾年的投資熱度并不亞于計算機視覺/人臉識別。從整體來看，語音基礎(chǔ)設(shè)施層的投資布局已經(jīng)基本建立，接下來資本會更多關(guān)注細(xì)分和差異化的語音應(yīng)用領(lǐng)域?！澳壳?，資本方對技術(shù)并不看重，主要看重變現(xiàn)能力和商業(yè)模式?！蔽湫l(wèi)東表示。

（本文轉(zhuǎn)自《IT時報》）endprint