馬姝穎 王平 陳妮 文榮 李思源
關(guān)鍵詞:深度學(xué)習(xí);聲紋識(shí)別;技術(shù)
一、基于深度學(xué)習(xí)的聲紋識(shí)別技術(shù)
聲紋是指帶有語(yǔ)音信息的聲波頻譜,是每個(gè)人說(shuō)話過(guò)程中的語(yǔ)音特征和發(fā)音習(xí)慣的抽象特征,具有唯一性和穩(wěn)定性。聲紋識(shí)別技術(shù)(又稱(chēng)說(shuō)話人識(shí)別技術(shù))是指從說(shuō)話人發(fā)出的語(yǔ)音信號(hào)中提取聲紋信息,并據(jù)此對(duì)說(shuō)話人進(jìn)行身份驗(yàn)證的生物識(shí)別技術(shù)。近年來(lái),隨著深度學(xué)習(xí)廣泛應(yīng)用到目標(biāo)檢測(cè)、圖像處理、自動(dòng)駕駛等各個(gè)領(lǐng)域,深度學(xué)習(xí)的方法也逐步應(yīng)用到聲紋識(shí)別技術(shù)中,并取得了不俗的成效[1]。
聲紋識(shí)別技術(shù)經(jīng)常會(huì)與語(yǔ)音識(shí)別技術(shù)混淆,二者其實(shí)是兩個(gè)不同概念。語(yǔ)音識(shí)別技術(shù)的任務(wù)是準(zhǔn)確地識(shí)別出說(shuō)話的內(nèi)容(說(shuō)的是什么),聲紋識(shí)別技術(shù)的任務(wù)是確認(rèn)說(shuō)話人身份或者從某個(gè)已知的人群集合中辨認(rèn)出那個(gè)說(shuō)話人(是誰(shuí)說(shuō)的)。聲紋識(shí)別技術(shù)的主要處理流程如圖1所示,包括預(yù)處理、特征提取、聲紋建模和相似度匹配。①預(yù)處理主要包括防混疊濾波、消除噪聲、端點(diǎn)檢測(cè)等。②提取聲學(xué)特征參數(shù)是聲紋識(shí)別的關(guān)鍵,通常將時(shí)域語(yǔ)音數(shù)據(jù)經(jīng)過(guò)預(yù)加重、分幀、加窗、FFT等步驟轉(zhuǎn)換為線性預(yù)測(cè)系數(shù)、LPC倒譜或梅爾倒譜等特征參數(shù)。③聲紋建模包括聲紋注冊(cè)和聲紋驗(yàn)證兩個(gè)階段:聲紋注冊(cè)階段提取所有注冊(cè)說(shuō)話人語(yǔ)音中的聲紋特征,為每個(gè)注冊(cè)說(shuō)話人建立說(shuō)話人模型,將所有的說(shuō)話人模型集合在一起組成說(shuō)話人模型庫(kù);聲紋驗(yàn)證階段提取待驗(yàn)證說(shuō)話人語(yǔ)音中的聲紋特征,與說(shuō)話人模型庫(kù)進(jìn)行相似度匹配,得分最高的作為最終的識(shí)別結(jié)果。
深度學(xué)習(xí)通過(guò)層級(jí)結(jié)構(gòu)組合低層特征,可以學(xué)習(xí)到高度抽象的特征表征,能夠挖據(jù)數(shù)據(jù)的本質(zhì)信息,因此深度學(xué)習(xí)方法代替GMM-UBM被引入到聲紋識(shí)別框架中,貫穿于聲紋注冊(cè)和聲紋驗(yàn)證兩個(gè)階段。將深度學(xué)習(xí)引入聲紋識(shí)別中,一般是對(duì)聲學(xué)特征進(jìn)行二次提取,再通過(guò)有監(jiān)督分類(lèi)器進(jìn)行分類(lèi)?;贒NN的聲紋建模可以分為三個(gè)階段[2]:第一個(gè)階段是深度學(xué)習(xí)方法的引入。2011年,在第十一屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議上,鄧力分享了他在微軟DNN-based speech recognition的研究結(jié)果,識(shí)別率提升了30%,這將聲紋識(shí)別的準(zhǔn)確率提升了一個(gè)層次。DNN能從大量樣本中學(xué)習(xí)到高度抽象的說(shuō)話人特征,并對(duì)噪聲有很強(qiáng)的免疫力,至此深度學(xué)習(xí)被引入業(yè)界,國(guó)內(nèi)對(duì)聲紋識(shí)別技術(shù)的關(guān)注點(diǎn)也放到了深度學(xué)習(xí)上。第二個(gè)階段是2014年谷歌提出說(shuō)話人深度特征向量(d-vector)。采用多層DNN或多層LSTM的網(wǎng)絡(luò)模型結(jié)構(gòu),其中DNN結(jié)構(gòu)包含1層local connected層和多層full connected層外加一層線性層;LSTM結(jié)構(gòu)為多層LSTM結(jié)構(gòu)加1層線性層。通過(guò)提取深度神經(jīng)網(wǎng)絡(luò)最后一個(gè)隱藏層的輸出,進(jìn)行L2正則化,再累加起來(lái)取平均獲得就可以獲得d-vector。d-vector可以在不改變模型大小的情況使用更多的說(shuō)話人數(shù)據(jù)來(lái)做訓(xùn)練。第三個(gè)階段是2017年Snyder D和Daniel Povey等人提出x-vector。采用時(shí)延神經(jīng)網(wǎng)絡(luò)(TDNN)、池化層、全連接層和softmax層組成網(wǎng)絡(luò)框架,聲學(xué)特征參數(shù)MFCC作為輸入,提取最后一個(gè)隱藏層或者倒數(shù)第二個(gè)隱藏層的輸出作為x-vector。x-vector可以認(rèn)為是d-vector的升級(jí)版,通過(guò)DNN將可變長(zhǎng)度語(yǔ)音信號(hào)映射到固定維度的空間中,可以利用較短的語(yǔ)音捕捉用戶(hù)的聲紋信息,在短語(yǔ)音上擁有更強(qiáng)的魯棒性,已經(jīng)成為當(dāng)前聲紋識(shí)別領(lǐng)域主流的baseline模型框架。
目前,雖然聲紋識(shí)別技術(shù)還存在實(shí)際應(yīng)用中魯棒性不足、復(fù)雜場(chǎng)景中識(shí)別率降低等問(wèn)題,但是隨著人工智能技術(shù)的不斷發(fā)展,基于深度學(xué)習(xí)的聲紋識(shí)別技術(shù)性能不斷提升,尤其在指紋識(shí)別和人臉識(shí)別頻繁出現(xiàn)漏洞的情況下,越來(lái)越多的機(jī)構(gòu)已采用聲紋識(shí)別技術(shù)作為身份驗(yàn)證。
二、總結(jié)與展望
繼指紋、面部、虹膜之后,無(wú)接觸、無(wú)感知的聲紋作為象征我們個(gè)人ID的一部分,已經(jīng)陸續(xù)開(kāi)啟了商用大潮。盡管現(xiàn)階段聲紋識(shí)別的應(yīng)用仍具有一定的局限性,但是聲紋主導(dǎo)的生物識(shí)別模式已經(jīng)進(jìn)入公眾視野,并被時(shí)代所接受。未來(lái)隨著5G、大數(shù)據(jù)、云計(jì)算等新技術(shù)發(fā)展愈發(fā)成熟、語(yǔ)音的入口更普及,基于深度神經(jīng)網(wǎng)絡(luò)的聲紋識(shí)別技術(shù)一定很快就會(huì)迎來(lái)屬于他的風(fēng)口。
參考文獻(xiàn):
[1]鄭方, 李藍(lán)天, 張慧, 等. 聲紋識(shí)別技術(shù)及其應(yīng)用現(xiàn)狀[J].信息安全研究,2016,2(1):44-57.
[2]蔡國(guó)都. 基于x-vector的說(shuō)話人識(shí)別研究[D]. 北京交通大學(xué), 2019.
項(xiàng)目支持:成都工業(yè)學(xué)院校級(jí)項(xiàng)目:基于機(jī)器學(xué)習(xí)的聲紋識(shí)別關(guān)鍵技術(shù)研究(編號(hào):2021ZR026).