李敘瑾
隨著計算機每秒幾億次的高速運算,總有一天,冰冷的技術(shù)會更加善解人意,并讓聽障人士以不同方式接觸到無限接近真實的所有聲音。
正常人耳中擁有1.5萬個聽覺細胞,它們直接與大腦相連,由此人類能從幾十種環(huán)境聲音中自覺捕捉到需要放大的那一項。聽障者耳中卻僅存幾百個聽覺細胞,為了讓大腦獲得聽覺刺激,它們會拼命放大包括噪聲在內(nèi)的一切聲音。
如今普遍使用的輔聽設(shè)備——無論是放大聲音的助聽器,還是將外界聲音轉(zhuǎn)換成電信號的人工耳蝸,在面對復(fù)雜的聲學(xué)場景時,都不太能從嘈雜的環(huán)境中直接還原出自然的聲音。即使戴上動輒十幾萬元的人工耳蝸,聽障者也無法感受到千奇百怪的蟲鳴鳥叫。
世界衛(wèi)生組織發(fā)布的《世界聽力報告》顯示,目前全球有15億人受到聽力損失影響;到2050年,預(yù)計至少7億人需要聽力康復(fù)服務(wù)。
讓聽障人士“聽”到聲音
騰訊天籟實驗室研發(fā)出一款人工智能(AI)降噪算法,它會吸收環(huán)境里的眾多聲音,篩選出環(huán)境噪聲和與會者的話語,然后消除前者,針對性地增強后者。這款降噪算法目前主要搭載在騰訊會議上,與會者即使置身于各種場景——高鐵、超市、咖啡廳乃至自家廚房中,終端另一側(cè)的人也基本不會感知到他們所處的嘈雜環(huán)境。
天籟實驗室有一個專門的被吸音棉包裹的消音室,這里充斥著研究員用錄音筆和聲卡捕捉到的各種噪聲——鍵盤聲、關(guān)門聲、紙巾的摩擦、杯子碰撞桌面的聲音……研究員會將這些聲音交由AI算法。通過學(xué)習(xí),AI能像人耳一樣分辨它們。
天籟實驗室的研究員一直在思考如何將這種AI降噪與場景識別技術(shù)運用到其他領(lǐng)域。該實驗室的技術(shù)曾搭載在騰訊一款針對聽障用戶居家問診需求的線上測聽調(diào)音小程序上,這讓研究員產(chǎn)生了將其放到人工耳蝸上的想法。他們找到耳蝸廠商諾爾康合作,進一步幫助聽障人士克服噪聲給他們帶來的困擾。
然而在具體執(zhí)行時,天籟實驗室發(fā)現(xiàn),人工耳蝸給AI算法帶來的挑戰(zhàn)遠大于AI算法應(yīng)用在諸如騰訊會議這樣的在線會議軟件中的困難。
由于佩戴者在實際生活中面臨的環(huán)境比開會時復(fù)雜得多,人工耳蝸不能只是做到“減少噪聲、增強人聲”?!安皇侨寺曉酱蟆h(huán)境聲音越小越好,比如日常出行,在地鐵上就要聽到報站以及適當(dāng)?shù)倪^往車笛聲?!碧旎[實驗室研究員肖瑋說:“我們所做的事情并不是為了抑制噪聲,而是為了增強我們想聽的聲音。”肖瑋在音頻技術(shù)行業(yè)擁有15年經(jīng)驗,專注于語音增強、心理聽覺建模等研究。
肖瑋所在團隊的解決方法是:先找到算法的普適能力,即盡可能還原人耳所能覆蓋的各種場景,再讓AI通過深度學(xué)習(xí)學(xué)會區(qū)分場景,并根據(jù)不同環(huán)境給出相匹配的反應(yīng)——日常單人對話、安靜場合聆聽音樂、純噪聲場景的馬路和市場,以及帶有噪聲的語音場景。
最終,諾爾康的試驗檢測數(shù)據(jù)顯示,天籟技術(shù)與人工耳蝸結(jié)合后,語音平均識別率達到96.28%,其中帶噪語音識別率為93.38%,環(huán)境噪聲中聲音識別率達到94.24%。
在提高識別率之外,更重要的是植入帶有AI技術(shù)的人工耳蝸,這能讓聽障者“聽”到此前無法感受到的豐富聲音。比如佩戴普通人工耳蝸的聽障者是無法欣賞音樂的,因為從聲學(xué)角度看,相比人聲,音樂的振動與噪聲更加接近,所以常被人工耳蝸視為需要“去除”的部分。
經(jīng)過學(xué)習(xí)的AI算法解決了這個問題:純音樂的場景中,它能完整保留音樂旋律;在比較敏感的頻段,它還會增強音樂旋律和音色。
讓聽障人士“看”到聲音
除了讓聽障人士能更清楚地“聽”到聲音,AI技術(shù)其實還可以幫助他們通過“看”到聲音,與外界更好地溝通。成立8年的增強現(xiàn)實(AR)眼鏡公司亮亮視野,正嘗試在產(chǎn)品上搭載AI字幕翻譯系統(tǒng)。
2020年年初,在與相關(guān)公益組織的一次交流中,亮亮視野的產(chǎn)品設(shè)計總監(jiān)劉天一了解到,很多先天失聰?shù)暮⒆右驗闊o法有效接觸外界信息,甚至連肢體發(fā)展都出現(xiàn)了障礙,這讓他很受觸動。
來自外界的被動信息有時會比聽障人士自主接收的信息提供更多的內(nèi)容,比如走在街上路人隨口一句“天快下雨了”,對于聽障人士來說,這個重要內(nèi)容就很可能被遺漏。
所以,劉天一決定改造團隊于2020年年底發(fā)布的一款面向企業(yè)端的AR眼鏡。這款眼鏡鏡片采用亮亮視野自主研發(fā)的雙目光波導(dǎo)AR技術(shù),即便在陽光下,呈現(xiàn)在佩戴者眼前的內(nèi)容也可以清楚地被顯示;鏡腿略寬,下接一根可以連接手機的電線,手機提供電池供應(yīng),并與一款名為“可譯”的翻譯APP自動連接。
這款專門服務(wù)于聽障群體的助聽眼鏡,搭載了字節(jié)跳動旗下的火山引擎,而火山翻譯是火山引擎的核心AI能力之一。它通過神經(jīng)網(wǎng)絡(luò)機器翻譯技術(shù)開展模型訓(xùn)練,可以讓語音識別、自動斷句和機器翻譯等功能表現(xiàn)得更加優(yōu)異。
對于助聽翻譯眼鏡來說,很重要的一點是實時性。為此,亮亮視野的這款產(chǎn)品配備了AI處理芯片,以盡可能接近“音字同步”的效果?!白帜伙@示至多半句話延遲?!眲⑻煲徽f。
不過這枚算力強大的芯片也給劉天一團隊帶來了一些困擾。安裝到AR眼鏡上時,它出現(xiàn)了散熱、耗電不匹配的問題,這讓團隊不得不從各方面盡可能降低延時與耗電?!熬拖褡黾訙p法,減掉我們原先面向B端時成熟但不合適的地方,再針對聽障人群的需求做一次加法?!眲⑻煲徽f。比如,為了更方便聽障人士使用,團隊通過調(diào)研,在保障語音翻譯足夠準(zhǔn)確、字體觀看效果足夠清晰的前提下,對文字選擇、字體大小、顯示位置都做了調(diào)整。
此外,這款A(yù)R助聽眼鏡還有環(huán)境音智能識別、人名喚醒等功能?!奥牎钡脚宕髡叩拿趾?,它能自動給出提示,這讓聽障人士在醫(yī)院、民政窗口等公共場所可以更方便地辦事。
道阻且長
目前,天籟實驗室的AI音頻技術(shù)免費開放給公益開發(fā)者、設(shè)備廠商及相關(guān)行業(yè)。這意味著,這一技術(shù)不僅可以應(yīng)用于人工耳蝸,未來還有可能植入手機、耳機中,服務(wù)對象也可從聽障人士擴展至聽力逐漸衰退的老年人群體。
亮亮視野的第一代AI助聽眼鏡原本是專為研究而開發(fā)的,因為測試時不少聽障人士表示它的確在生活中幫了大忙,亮亮視野決定將其推向市場。聽障人士拿著國家認證的聽力障礙殘疾證明,就能以3999元的價格購買——產(chǎn)品的成本大約是1.2萬元。
當(dāng)然,無論是騰訊和諾爾康的AI人工耳蝸,還是亮亮視野的AI助聽眼鏡,目前都遠非完美產(chǎn)品。
肖瑋和他的團隊如今每一至兩周就要迭代出一份新版本的程序,但仍有一些當(dāng)前技術(shù)還無法解決的難題。
比如這款人工耳蝸可以讓聽障人士欣賞純音樂,但面對一首由人聲演唱的歌曲時,它依舊無法展現(xiàn)歌曲的原貌——器樂和人聲混雜在一起,超出了當(dāng)下算法的處理能力。
另外,聽障人士的病因和病情各不相同,對人工耳蝸的適應(yīng)性也存在著差異。有的用戶佩戴人工耳蝸時可能突然就聽不到了,降低人工耳蝸的電刺激強度后聲音才“回來”——人的神經(jīng)系統(tǒng)藏著各種醫(yī)學(xué)專業(yè)人士至今都未徹底揭開的奧秘。
對于劉天一團隊來說,如今稍顯笨重的助聽眼鏡怎樣做到和普通眼鏡沒有區(qū)別,是他們下一步要解決的問題。目前,它還只能連接安卓設(shè)備,蘋果手機因為接口標(biāo)準(zhǔn)不同暫時不支持?!按蟾沤衲赀€會推出新一代的助聽眼鏡,它會是無線的一體機,能支持的機型更多,而且佩戴感受也會提升不少?!眲⑻煲徽f。
在AI算法上,助聽眼鏡也仍有許多提高的空間。更好地適應(yīng)復(fù)雜環(huán)境背景,進一步拓展語料庫,引入手語識別、助聽技術(shù),并提供除交流以外的更多使用場景等,劉天一都列入計劃表了。
肖瑋和劉天一都相信,隨著計算機每秒幾億次的高速運算,總有一天,冰冷的技術(shù)會更加善解人意,并讓聽障人士以不同方式接觸到無限接近真實的所有聲音。
(編輯 宦菁 huanjing0511@sohu.com)