彭洪松,李洪斌,李 莉,稅國梅
(四川九州電子科技股份有限公司,綿陽 621000)
“機器能聽懂我們說話嗎?機器能知道我們想做什么?”,答案是人工智能機器能。那人工智能是如何聽懂人的語言,這就是遠場語音識別技術。遠場語音識別技術顧名思義即在較遠或者較寬敞的空間內,進行語音采集和識別的技術。依靠遠場語音識別技術,人工智能機器可以聽見人說話,提取有用信息,獲取人的意圖。
顧名思義是指遠場(5-8m 范圍)語音的采集技術。5-8m 的遠場拾音距離基本滿足常見空間場景中的語音交流。主要采用麥克風陣列形式,通過2-7顆麥克風按照一定位置排布形成陳列,通過軟件算法的支撐,將多路麥克風采集的語音信號進行復用,實現(xiàn)降噪,方向定位,波束成型等,持續(xù)提升語音體驗。
與近場語音采集相比,遠場拾音技術中增加了多路信號和軟件算法。因為近場情況下音源單一,信噪比(SNR)比較高,信號清晰。遠場識別情況下聲源位置不定,噪聲源比較多,噪聲大,信噪比(SNR)下降劇烈,這種情況下傳統(tǒng)的方法效果不理想。近幾年來,隨著遠場拾音技術的發(fā)展,麥克風陣列排布和軟件算法越來越豐富,遠場拾音能力提升明顯。但即便是這樣,仍然有很大的挑戰(zhàn),尤其是背景噪聲很大的環(huán)境里,如家里開空調、開電扇,或者是在汽車里面等,效果仍然還有很大的提升空間。
語音交互是全雙工的過程,即在播放的同時可以拾音。近場拾音環(huán)境下,播放音樂或是語音播報的時候可以通過按鍵停止,但這限制了人工智能的智慧化程度;前面我們介紹了遠場拾音技術,遠場拾音技術的目的盡可能多的采集有用的信息,那無用信息包括哪些呢?包括環(huán)境噪音,這個主要通過算法解決;但更嚴重的是人工智能設備自身發(fā)出聲音,這個聲音離麥克風距離近、音量大,干擾非常嚴重;要想實現(xiàn)不受限制的語音控制,必須得實現(xiàn)回聲消除?;芈曄某R姺桨甘菑娜斯ぶ悄茉O備喇叭側拉一組參考信號給主控,直接告訴主控這個聲音是我自己的,不是有用信息。這種方案會有一定的效果。回聲消除的難點在于功放、喇叭的非線性失真,即參考信號與實際聲音會存在一定的差異。例如音響設備重低音比較好,結構等就容易形成共振,這樣參考信號的真實性就會大打折扣,此時就需要軟件回聲消除算法做一定的補償。
喚醒引擎可以理解為喊名字,可以想象成課堂點名。比如蘋果的“嗨Siri”、百度的“小度小度”、Google 的“OK Google”等。喚醒引擎的目的是告訴人工智能機器,接下來的話是對你講的哦,認真聽好了。喚醒引擎通常工作于本地,通常是遠場語音采集后,他要判斷人說的話是不是喚醒詞(喚醒詞就是上面的“嗨Siri”、“小度小度”、“OK Google”等),如果是喚醒詞,那么后續(xù)的語音就進行上傳識別,否則后續(xù)的語音不進行處理。
喚醒引擎技術難點體現(xiàn)在以下幾個方面:
語音采集和喚醒引擎都屬于長時間的監(jiān)聽過程,需要設備保持常態(tài)化運行。iphone4s 出現(xiàn)“嗨Siri”,但直到iphone6s 之后才允許不接電源的情況下直接喊“嗨Siri”進行語音喚醒,在此之前都需要接入電源的情況下進行語音喚醒。這是因為iphone6s 上有一顆專門進行語音激活的低功耗芯片,在未被喚醒前,除低功耗芯片外,主設備可以進入休眠模式,既實現(xiàn)了設備超長待機,又保證了設備的可靠性。當然,不是所有人工智能設備都必須外掛低功耗芯片,部分多核處理器,可以將喚醒引擎運行在協(xié)處理器中,實現(xiàn)其他核的待機,以實現(xiàn)低功耗的目的。
計算量小一方面是低功耗芯片或者協(xié)處理器運算能力的限制,另一方面是實時率的要求。即1s 的語音至少要在1s 之內計算完畢,這樣才能保障可實用。
理想狀況下的喚醒引擎應該是一呼即應,不喊它的時候它乖乖的不要插話。古人云:動若脫兔,靜若寒蟬。但事與愿違,喊它的時候它不答應這叫做漏喚醒,沒喊它的時候它跳出來講話叫做誤喚醒。漏喚醒和誤喚醒這倆老兄是此消彼長的關系:比如喚醒詞很長有10個字,那么誤喚醒肯定很低,但同時漏喚醒也就多了,喊了好幾次都不理你是不是很氣人!再比如喚醒詞很短只有一個字,這個時候漏報是少了,每次喊都很快回應你,但是誤報也多了呀,大半夜突然誤喚醒應答也是相當驚悚的。因此喚醒引擎需經(jīng)過上百萬次訓練,匹配各類聲音信息,保證喚醒和誤喚醒率。
語意解析,不論是遠場還是近場,基本都是在云端完成的。云平臺依靠大數(shù)據(jù),多模型和高速率運算,將采集到的語音信息進行語義檢查和處理,提取關鍵字,獲取用戶意圖,實現(xiàn)了語義識別。你可以把云平臺理解為人的大腦,大腦聰明程度決定了人工智能的智慧程度。云平臺的語義解析能力涉及到大數(shù)據(jù)、模型和運算速率等各個方面,這里單獨介紹下語音分離模型。單個人說話,云端解析不會存在干擾;但如果多個人說話,尤其是幾個說話人距離較近時,波束成型技術也無能為力,這就需要云平臺的語音分離技術。語音分離是指多人同時說話,語音有重疊,這種情況下云平臺根據(jù)每個個體聲音的響度、音調和音色將語音拆分重組,將混合音還原為每個人的單通道聲音信息。從目前各家云平臺的實測結果來看,性能還有提升的空間。
智能音箱的普及,家庭語音助手作為一個切入點,讓我們體驗到了人工智能帶來的優(yōu)質生活。語音作為最常用和最便利的交流方式,遠場語音識別技術仍然會是人工智能中的重要組成部分。