王煜
摘要:說話人識別技術(shù)在我們?nèi)粘I钪幸呀?jīng)得到了廣泛的應(yīng)用,說話人識別作為當(dāng)前最熱門的生物特征識別技術(shù)之一,在遠(yuǎn)程認(rèn)證等領(lǐng)域有著獨特的優(yōu)勢,受到了越來越多的關(guān)注。本文從說話人識別的特征提取和說話人建模兩部分展開,對說話人識別的研究現(xiàn)狀和技術(shù)進展進行了闡述。
關(guān)鍵詞:說話人識別;特征提??;說話人建模
中圖分類號:TP391.41 文獻標(biāo)識碼:A 文章編號:1007-9416(2017)06-0059-03
1 概述
說話人識別技術(shù)是一種探索人類身份的一種生物識別技術(shù),每個人說話時使用的發(fā)音器官例如口腔、舌頭、牙齒、聲帶、喉嚨和鼻腔等不管在形態(tài)還是在尺寸上或多或少都會有所差異,因而導(dǎo)致了每個說話人的發(fā)音也各不相同[1]。
按照不同的分類角度分類,說話人識別大致分為以下幾類。
從實際應(yīng)用的范圍角度分,可以分為說話人辨認(rèn)和說話人確認(rèn)。前者是指判定待測試語音屬于目標(biāo)說話人模型集合中的哪一個人,是一個多元判別的問題;而說話人確認(rèn)是確定待測試語音是否來自其所聲稱的說話人,是一個二元判決的問題。對于說話人辨認(rèn)來說,由測試來自不同說話人的范圍,說話人的辨認(rèn)又可以開集識別和閉集識別[2]。
從待識別語音對應(yīng)的文本角度分類,說話人識別可以分為文本無關(guān)、文本相關(guān)和文本提示三類。文本無關(guān)是指說話人識別系統(tǒng)對說話對應(yīng)的文本是開放的,即不做內(nèi)容要求,在訓(xùn)練和識別時說話人可以隨意錄制語音內(nèi)容只需達到一定的長度即可;文本相關(guān)是指說話人識別系統(tǒng)會要求說話人必須按照指定的文本進行發(fā)音錄制;而對于文本提示型說話人識別系統(tǒng),是結(jié)合之前兩者的優(yōu)點,系統(tǒng)需要從說話人訓(xùn)練文本庫隨機提取一些字或詞匯組合后提示說話人按照該文本進行發(fā)音錄制,由于其實現(xiàn)簡單、安全性高,成為目前說話人識別技術(shù)的一大熱點。
2 說話人識別的研究現(xiàn)狀
從說話人識別的發(fā)展來看,二十世紀(jì)七十年代DTW和VQ技術(shù)的出現(xiàn)對當(dāng)時識別性能有了較大提升,而八十年代應(yīng)用到說話人識別中去的人工神經(jīng)網(wǎng)絡(luò)、隱馬爾可夫模型和MFCC一直沿用至今并且一直被優(yōu)化改進。到九十年代GMM以及GMM-UBM以其簡單靈活、魯棒性強的特點,在說話人識別中被廣為使用,到現(xiàn)在也是這個領(lǐng)域最重要的建模技術(shù)之一,與此同時,SVM的建模技術(shù)也被引入說話人識別中。進入二十一世紀(jì)后,聯(lián)合因子分析技術(shù)(JFA)和擾動屬性干擾算法(NAP)的提出使得說話人識別在復(fù)雜背景條件下也能取得較好的效果。另外,得分規(guī)整技術(shù)ZNORM、TNORM等的運用也使得說話人識別系統(tǒng)性能有了較大程度的提高。由JFA建模思想得到啟示,Najim Dehak等人提出了基于總體變化因子向量(identity vector,i-vector)的說話人建模方法,這是該研究領(lǐng)域的前沿主流技術(shù)。
說話人識別是一個模式識別問題,其框架主要包括兩個階段,訓(xùn)練階段和識別階段。訓(xùn)練階段是系統(tǒng)對說話人收集足夠的語音數(shù)據(jù),基于數(shù)據(jù)對不同說話人的語音特征進行提取,再根據(jù)這些提取的特征訓(xùn)練得到對應(yīng)的說話人模型,最后將所有的模型整合成系統(tǒng)所需的模型庫。識別階段是系統(tǒng)對說話人傳入的語音數(shù)據(jù)進行識別時,系統(tǒng)對傳入數(shù)據(jù)進行與訓(xùn)練階段相同的特征提取,并對提取到的特征與模型庫中的特征進行對比,進行相似性計算得出模型相似性分?jǐn)?shù),最終根據(jù)得分來判斷說話人屬于哪個模型得出說話人是誰的結(jié)論。
關(guān)于說話人識別的技術(shù)的現(xiàn)狀主要可以從以下兩部分進行討論:特征提取和說話人建模。
2.1 特征提取
特征提取是減小語音數(shù)據(jù)量和排除冗余信息的一個過程,常用的說話人特征有線性預(yù)測倒譜系數(shù)(LPCC)和梅爾倒譜系數(shù)(MFCC)。
2.1.1 線性預(yù)測倒譜系數(shù)
LPCC是模擬聲道的效應(yīng),把聲道沖擊和聲門激勵分離開來,并利用線性預(yù)測原理,將一個語音信號用過去若干個采樣的線性組合來表示。LPCC一般與其他特征參數(shù)進行組合研究,很少單獨出現(xiàn)。
2.1.2 梅爾倒譜系數(shù)
MFCC是基于聽覺系統(tǒng)的臨界帶效應(yīng),在Mel標(biāo)度頻率域提取的一種倒譜參數(shù),其充分利用了人耳的感知特性使得該特征具有較好的魯棒性。
近年來,學(xué)者們在MFCC的基礎(chǔ)上又提出了一些改進的參數(shù)來提高識別率,例如:△MFCC、DMFCC、MFSC和FMFCC等。其中一階差分系數(shù)△MFCC以其能夠擬合人發(fā)聲和人耳聽覺的動態(tài)特性的優(yōu)點,和MFCC結(jié)合后能得到很好的應(yīng)用和識別效果[3]。另外,還有學(xué)者提出了將MFCC與LPC特征得分歸一化后融合計算的方法,這種方法對于患有感冒的說話人辨認(rèn)性能有較好的提升[4]。
對于MFCC參數(shù)的改進,還可以一方面在傳統(tǒng)算法上加入端點檢測,去除與說話人語音特征無關(guān)的靜音段[5]。另一方面用高斯濾波器組代替三角濾波器組進行頻率到Mel頻率的轉(zhuǎn)換,從而提高識別準(zhǔn)確率。
此外還有一種方法,對傳統(tǒng)的提取MFCC過程中計算FFT這一步驟進行頻譜重構(gòu),對頻譜進行噪聲補償重建,使之具有很好的抗噪性,逼近純凈語音的頻譜,這種方法在低信噪比的環(huán)境下取得了很好的效果[6]。
另外,研究者們?yōu)樘岣哒f話人識別系統(tǒng)的性能,提出了許多以降低特征維數(shù)和計算復(fù)雜度為目的的對特征進行變換的方法,其中主要的有:獨立量分析法(ICA)、主成分分析法(PCA)和線性判別分析法(LDA)。其中,ICA能更好的去除噪聲,ICA在提取MFCC時將代替DCT對信號求取頻譜,得到的特征參數(shù)對非高斯噪聲信號的識別效果更好;而PCA的降維效果更好同時也能保證說話人識別性能,是降低計算復(fù)雜度的方法;最后LDA計算得到的特征是比PCA得到的更具有噪聲魯棒性而得到應(yīng)用的[7]。
2.2 說話人建模
目前較為普遍使用的是非參數(shù)模型、參數(shù)模型、人工神經(jīng)網(wǎng)絡(luò)模型和支持向量機。endprint
2.2.1 非參數(shù)模型
非參數(shù)模型是指說話人模型是由說話人的語音特征經(jīng)過某種運算直接得到的,典型的非參數(shù)模型包括動態(tài)時間規(guī)整法(DTW)、矢量量化法(VQ)和模板匹配方法。
(1)動態(tài)時間規(guī)整法:考慮到說話人信息具有時變因素,可以把識別模板與參考模板進行時間對比,依據(jù)某種距離的測度求出兩個模板之間的相似度,現(xiàn)在對DTW的使用已經(jīng)不多。
(2)矢量量化法:從說話人的語音信號中提取到的特征,通常是多維矢量的時間序列。矢量量化模型就是從這些矢量中篩選出少數(shù)代表性的矢量而構(gòu)建的模型。尋找代表矢量是一個矢量聚類問題,能通過聚類等算法進行實現(xiàn)。常用的矢量量化法有k-means群分法和學(xué)習(xí)向量量化法。
2.2.2 參數(shù)模型
說話人識別中常用的參數(shù)模型有:隱馬爾可夫模型、高斯模型和高斯混合模型等。
(1)隱馬爾可夫模型:最早被CMU和IBM在語音識別中進行運用,是使用描述狀態(tài)間的轉(zhuǎn)移來描述特征變化過程的一種模型。當(dāng)利用隱馬爾可夫模型進行識別時,需要為每個說話人都建立語音發(fā)聲模型,一般在與文本無關(guān)的說話人識別中會使用各態(tài)歷經(jīng)型隱馬爾可夫模型,而與文本相關(guān)的會使用從左到右型。
對于說話人識別關(guān)于HMM的研究,有學(xué)者將其與MFCC結(jié)合起來,結(jié)合新的時頻分析工具分?jǐn)?shù)傅立葉變換(FRFT),表征語音信號的特征,并利用可分性測度驗證了特征參數(shù)的有效性進行仿真識別得到了良好的效果[8]。
還有就是對HMM算法進行了優(yōu)化,采用遺傳算法與LBG算法相結(jié)合的方法生成碼本,這種優(yōu)化在文本相關(guān)說話人身份認(rèn)證方面的效率有所提高[9]。
雖然HMM一般不需要進行時間規(guī)整,優(yōu)點是可以節(jié)約對判決的時間和空間開銷,缺點是在訓(xùn)練時的計算量比較大。所以近5年來對隱馬爾可夫模型在說話人識別領(lǐng)域的研究熱度有所下降,這也能可能是HMM退出前沿歷史舞臺的征兆。
(2)高斯混合模型:高斯混合模型是一種統(tǒng)計模型,它能夠較好的描述參數(shù)空間中訓(xùn)練數(shù)據(jù)的特性及其空間分布,它也可以表示成多個高斯概率密度函數(shù)加權(quán)和的形式。
在近年的研究中,有學(xué)者運用多個核函數(shù)的線性組合構(gòu)造多核空間,在多核空間上設(shè)計了基于支持向量機的說話人分類器,實現(xiàn)短語音說話人識別。算法中結(jié)合了GMM,并以GMM超向量作為說話人的最終特征參數(shù)進行仿真實驗[10]。在短語音和兩種噪聲環(huán)境中,這種基于多核SVM-GMM的短語音說話人識別算法較SVM-GMM算法能得到更好的識別性能和魯棒性。
還有學(xué)者從對傳統(tǒng)GMM模型的參數(shù)初始化方法進行改進,提出分裂法與K均值聚類相結(jié)合的新方法,這種方法對系統(tǒng)的平均識別率也有一定的提高[11]。
高斯混合模型目前仍然在說話人識別系統(tǒng)中較為常用,不過目前相比之下更為常用的是一種通用背景模型UBM,其本質(zhì)也是一個GMM其目的是為了避免由于實驗室環(huán)境下訓(xùn)練數(shù)據(jù)不足導(dǎo)致的過擬合。目前對GMM-UBM的改進也是層出不窮,例如有學(xué)者將其與SVM結(jié)合,在突出說話人特征的同時降低了受信道的影響,結(jié)合后的方法互補其不足,在NIST評測中比兩種方法各自形成的系統(tǒng)的識別率有明顯提升。又如還有學(xué)者在說話人自適應(yīng)技術(shù)的基礎(chǔ)上,提出了GMM-UBM模型的連續(xù)自適應(yīng)算法,解決了因說話人自身聲學(xué)特征的變化導(dǎo)致識別率下降的問題[12]。
(3)i-vector模型:以JFA為基礎(chǔ),Dehak和Kenny提出了一種更為簡化的基于因子分析(FA)的說話人識別方法,稱為i-vector模型。在近幾年中,i-vector模型以其良好的性能成為說話人識別領(lǐng)域的熱門,盡管是目前最前沿的說話人建模方法,但是它仍有著不足之處,目前最新的研究有:
有學(xué)者提出了基于i-vector局部加權(quán)線性判別分析的說話人識別方法(LWLDA),用來解決i-vector不能保證樣本在待識別語音近鄰區(qū)域內(nèi)具有最佳的分離度導(dǎo)致的識別率下降的問題。還有學(xué)者為了進一步提高識別率,提出了一種鑒別性i-vector局部距離保持映射(DIVLDPP)的流形學(xué)習(xí)算法,該算法以i-vector間的Euclid距離作為度量準(zhǔn)則可以明顯提高目前i-vector說話人識別系統(tǒng)的性能。也有學(xué)者對i-vector說話人識別系統(tǒng)提出一種采用語音增強模塊進行前端預(yù)處理的方法,以提高系統(tǒng)對于環(huán)境噪聲的魯棒性。此外還有專家專門研究探討了基于i-vector的說話人識別系統(tǒng)中訓(xùn)練時長、男女比例和高斯混合度對系統(tǒng)識別性能的影響,得出i-vector說話人識別算法的最佳參數(shù),為以后的基于i-vector說話人識別算法研究提供數(shù)據(jù)依據(jù)。另外也有專家將i-vector后接SVM并對比了該系統(tǒng)在十種不同核函數(shù)下的識別性能,在NIST組織的2010年電話信道-電話信道說話人識別核心評測數(shù)據(jù)庫上的測試取得了非常好的識別效果。
從以上可以我們可以看到,近年對i-vector方法進行優(yōu)化增強的研究非常多,并且也取得了非常好的研究成果。但有一點值得提出的是,在眾多研究當(dāng)中很少有提及與i-vector實際說話人識別系統(tǒng)開發(fā)的相關(guān)研究,從開發(fā)應(yīng)用的角度來講,這方面確實還可能存在空白或是進一步研究探討的空間。
2.3 人工神經(jīng)網(wǎng)絡(luò)模型
人工神經(jīng)網(wǎng)絡(luò)模型(ANN)的方法,可以在某種程度上模擬人腦神經(jīng)元的功能,是一種分布式并行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型,就有很強的自我組織和自我學(xué)習(xí)能力。人工神經(jīng)網(wǎng)絡(luò)模型在文本無關(guān)的說話人識別中的使用通常有兩種形式:一種是前向神經(jīng)網(wǎng)絡(luò),另一種是多層前向神經(jīng)網(wǎng)絡(luò)。
近年來學(xué)者們對神經(jīng)網(wǎng)絡(luò)的研究不斷深入,使得在說話人識別領(lǐng)域的神經(jīng)網(wǎng)絡(luò)方法開始革新,目前已經(jīng)有不少學(xué)者進行了對深度神經(jīng)網(wǎng)絡(luò)在說話人識別中的應(yīng)用進行了研究,例如有專家在說話人確認(rèn)系統(tǒng)中提出一種基于深度神經(jīng)網(wǎng)絡(luò)的信道自適應(yīng)方法,來解決復(fù)雜信道環(huán)境下的干擾問題。同時,目前神經(jīng)網(wǎng)絡(luò)方法中最熱門的卷積神經(jīng)網(wǎng)絡(luò)(CNN)在其他領(lǐng)域諸如圖像處理、語音識別等都取得了極好的效果,然而在說話人識別中使用CNN進行研究的幾乎還是一片空白,因此CNN在說話人識別今后的研究中還有很大空間。endprint
2.4 支持向量機
支持向量機(SVM)的方法是Vapnik提出的,目的是改善傳統(tǒng)神經(jīng)網(wǎng)絡(luò)理論學(xué)習(xí)較弱的情況,SVM是一種泛化能力比較好的分類器,不管在國內(nèi)還是在國外的識別領(lǐng)域一直到受到廣泛的關(guān)注。在近年的研究中,SVM通常與其他識別方法相結(jié)合使用,比較常見的是SVM與GMM-UBM結(jié)合使用,還有SVM與矢量量化模型結(jié)合使用,采用多種識別模式相結(jié)合是為了改善單一模式的缺點、克服單一識別模式的不足之處,同時還可以提高識別率。
3 結(jié)語
如今,說話人識別的研究問題主要集中在語音中的信息與說話人的個人特征的區(qū)分、怎樣能更好的表示說話人個性的特征參數(shù)、怎樣更有效的利用特征參數(shù)之間和識別模型之間的互補性,以及如何加強對信道畸變產(chǎn)生的噪聲進行處理等等??梢哉f說話人識別領(lǐng)域還依然存在著很大的發(fā)展空間,相關(guān)算法模型依然還可以進一步改進,說話人識別也將會在未來實際問題的應(yīng)用中有更廣闊的前景。
參考文獻
[1]鄭方,李藍(lán)天,張慧,等.聲紋識別技術(shù)及其應(yīng)用現(xiàn)狀[J].信息安全研究,2016, 2(1):44-57.
[2]Campbell J P. Speaker recognition: a tutorial. Proceedings of the IEEE,1997,85(9):1437-1462.
[3]郭春霞.說話人識別算法的研究[J].西安郵電大學(xué)學(xué)報,2010,15(5):104-106.
[4]單燕燕.基于LPC和MFCC得分融合的說話人辨認(rèn)[J].計算機技術(shù)與發(fā)展,2016(1):39-42, 47.
[5]王萌,王福龍.基于端點檢測和高斯濾波器組的MFCC說話人識別[J].計算機系統(tǒng)應(yīng)用,2016(10):218-224.
[6]胡政權(quán),曾毓敏,宗原,等.說話人識別中MFCC參數(shù)提取的改進[J].計算機工程與應(yīng)用,2014,v.50;No.806(7):221-224.
[7]楊迪,戚銀城,劉明軍,等.說話人識別綜述[J].電子科技,2012,v.25;No.273(6):166-169.
[8]張永亮,張先庭,魯宇明.基于FMFCC和HMM的說話人識別[J].計算機仿真,2010,27(5):352-354.
[9]徐惠紅.優(yōu)化的HMM算法在文本相關(guān)的說話人識別中的研究[J].微型機與應(yīng)用,2010,29(2):69-70.
[10]林琳,陳虹,陳建,等.基于多核SVM-GMM的短語音說話人識別[J].吉林大學(xué)學(xué)報(工學(xué)版),2013,v.43;No.166(2): 237-242.
[11]蔣曄,唐振民.GMM文本無關(guān)的說話人識別系統(tǒng)研究[J].計算機工程與應(yīng)用,2010,46(11):179-182.
[12]張正平,張麗娜,賀松.基于GMM-UBM說話人模型的連續(xù)自適應(yīng)算法研究[J].通信電源技術(shù),2016,33(2):81-83.endprint