楊 迪,戚銀城,劉明軍,張華芳子,武軍娜
(華北電力大學電子與通信工程系,河北保定 071003)
說話人識別綜述
楊 迪,戚銀城,劉明軍,張華芳子,武軍娜
(華北電力大學電子與通信工程系,河北保定 071003)
在分析說話人識別原理和方法的基礎上,對近年來說話人識別技術(shù)的發(fā)展進行了綜述。分析了當前說話人識別技術(shù)中使用的多種特征和模式識別方法,并對其今后的研究前景和發(fā)展方向進行了展望。
說話人識別;特征提取;模式識別
說話人識別(Speaker Recognition,SR)又稱話者識別[1],是指通過對說話人語音信號的分析處理,自動確認說話人的技術(shù)。其綜合了生理學、語音學、數(shù)字信號處理、模式識別、人工智能等學科知識的一個研究課題,以獨特的方便性、經(jīng)濟性和準確性等優(yōu)勢,在相關領域內(nèi)發(fā)揮著重要作用,并有著廣闊的市場應用前景。
說話人識別的基本原理,是利用說話人的語音為每個說話人建立一個能夠描述此說話人特點的模型,作為此說話人語音特征參數(shù)的標準模板,然后針對測試的語音信號進行比對,實現(xiàn)判別說話人身份的目的。說話人識別的原理框圖,如圖1所示。
圖1 說話人識別原理框圖
人的發(fā)聲器官由3部分組成:(1)肺和氣管產(chǎn)生氣源。(2)喉和聲帶組成聲門。(3)由咽腔、口腔、鼻腔組成聲道。空氣由肺部排入喉部,經(jīng)聲帶進入聲道,最后由嘴輻射出聲波,這就形成了語音。當發(fā)不同性質(zhì)的語音時,激勵和聲道的情況不同,其對應的模型也不同。根據(jù)提取的算法不同,將語音信號特征可分為聲門特征、聲道特征。語音信號是一維時域信號,具有簡單易懂、清晰直觀、便于計算等優(yōu)點,基于聲門特征的分析是最早應用于說話人識別的方法之一,而基于聲道特征的分析是目前說話人識別中識別效果較好的方法。
由于聲帶振動的不同,對應于聲帶之間切口形狀時變區(qū)域的變化,即為聲門。研究顯示[2],通過聲門聲帶流的差異反映了聲帶張開閉合的速率、聲帶在通常情況下的形狀以及聲帶振動時刻的寬度和速調(diào)范圍;與基于聲道性質(zhì)的倒譜特征一樣,說話人生理上這些固有的特征也具有個體差異,因而可以在說話人識別系統(tǒng)中用于區(qū)分說話人。基于聲門特性的基本說話人識別特征主要包括:
(1)基頻[3]:濁音信號是一種準周期性信號,其周期稱為基音周期。語音上的基音高低決定于聲帶的長短、松緊、厚薄。長、松、厚的,基音就低;短、緊、薄的,基音就高。鑒于對人生理特性的良好表現(xiàn)力,以及較傳統(tǒng)倒譜特征優(yōu)良的環(huán)境魯棒性,基音周期被廣泛應用于說話人識別中。目前基音周期的估計算法主要有自相關法、平均幅度差函數(shù)法、并行處理法、倒譜法、簡化逆濾波法、小波變換法等。
(2)能量:語音的能量通常指的是語音的短時能量,它反映了語音信號的強度;同時,語音能量的變化反映了語音信號停頓以及重音所在。
(3)語音速率:語音速率指單位時間內(nèi)發(fā)出音節(jié)的個數(shù),它反映了說話人發(fā)音的快慢。由于音素的知識與語音識別緊密相關,因而在文本無關的說話人識別中,語音速率特征使用的并不多。
人在說話的時候,聲門處氣流沖擊聲帶產(chǎn)生振動,然后通過聲道響應變成語音。數(shù)字化的語音信號是聲道頻率特性和激勵信號源二者的共同結(jié)果,后者對于某幀而言常帶有一定的隨機性,而說話人的個性特征一定程度上體現(xiàn)在說話人的發(fā)音聲道變化上,即聲道特征可以更好地對說話人進行識別?;诼暤赖奶卣髦饕?
(1)美爾倒譜系數(shù)(Mel-frequency Cepstral Coefficients,MFCC),是基于聽覺系統(tǒng)的臨界帶效應、在Mel標度頻率域提取出來的一種倒譜參數(shù),它能夠比較充分利用人耳這種特殊的感知特性,這種特征具有比較強的魯棒性,得到了廣泛應用。近年來,學者們?yōu)樘岣咦R別率,在MFCC特征的基礎上,提出了一些改進參數(shù),如:△MFCC、DMFCC、MFSC、FMFCC 等。其中一階差分系數(shù)△MFCC[4]以其能夠擬合人發(fā)聲和人耳聽覺的動態(tài)特性的優(yōu)點,和MFCC結(jié)合后能得到很好的應用和識別效果。
(2)線性預測倒譜系數(shù)(Linear Prediction Cepstrum Coefficient,LPCC),1947年維納首次提出了線性預測這一術(shù)語,而板倉等人在1967年首先將線性預測技術(shù)應用到了語音分析和合成中。LPCC是最早被應用到語音識別中的一種倒譜參數(shù),其主要優(yōu)點是比較徹底地去掉了語音產(chǎn)生過程中的激勵信息,主要反映聲道響應,計算量小,并且對元音有較好地描述能力,而且往往只需要十幾個倒譜系數(shù)就能較好地描述語音的共振峰特性,因此在說話人識別中得到了良好的應用。
考慮到單獨使用某種特征所存在的問題,越來越多的說話人識別系統(tǒng)開始將聲門特征與基于聲道特征的倒譜特征相結(jié)合,以進一步提高說話人系統(tǒng)性能,而如何將這兩種特征有效地結(jié)合起來成為目前的一個熱門話題。通常融合的方法是將聲門信息特征線性疊加到同一幀的倒譜特征,以形成維度更高的語音特征[5];或者分別在倒譜特征系統(tǒng)和聲門特征系統(tǒng)中進行識別,然后將它們的得分進行加權(quán)組合[6],利用聲門信息特征和倒譜特征在區(qū)分說話人上的互補性,有利于提高系統(tǒng)性能,對說話人識別技術(shù)是一個重大突破。
此外,研究者為提高說話人識別系統(tǒng)的性能,提出對特征進行變換的方法,以降低特征的維數(shù)和計算的復雜度。主要的特征變換方法有:主成份分析法(PCA)[7]、線性判別分析法(LDA)[8]、獨立分量分析法(ICA)[9]。主成份分析法利用其最優(yōu)的降維性質(zhì),在保證說話人識別性能的前提下減少說話人識別特征的維數(shù),進而降低計算復雜度。相比主成份分析法,經(jīng)過線性判別分析法得到的特征有更好的噪聲魯棒性。獨立分量分析是解決盲源分離問題的一個有效的方法,它能夠更好地去除噪聲,在提取MFCC特征時,將ICA代替DCT對信號求取頻譜,得到的特征參數(shù)對非高斯噪聲信號有更好的識別率。
采用不同說話人模型結(jié)構(gòu)對應于說話人識別的不同方法。隨著計算機和數(shù)字信號處理、人工智能等的不斷發(fā)展,說話人識別已從單一的模板模型向非參數(shù)模型、參數(shù)模型、人工神經(jīng)網(wǎng)絡模型以及支持向量機模型方向發(fā)展,并且混合模型應用于說話人識別也成為熱點。
典型的非參數(shù)模型包括動態(tài)時間規(guī)整法(Dynamic Time Warping,DTW)和矢量量化法(Vector Quantization,VQ)。
(1)動態(tài)時間規(guī)整法:說話人信息不僅有穩(wěn)定因素,而且有時變因素。將識別模板與參考模板進行時間對比,按照某種距離測度得出兩模板間的相似程度。常用的方法是基于最近鄰原則的動態(tài)時間規(guī)整(DTW)。
(2)矢量量化法:最早用于聚類分析的數(shù)據(jù)壓縮編碼技術(shù)。Helms首次將其用于說話人識別,它把每個人的特定文本訓練成碼本,識別時將測試文本按此碼本進行編碼,以量化產(chǎn)生的失真度作為判決標準。Bell實驗室的Rosenberg和Soong用矢量量化進行了孤立數(shù)字文本的說話人識別研究,得到了較好的識別結(jié)果。利用矢量量化的說話人識別方法的判斷速度快,而且識別精度較高。
參數(shù)模型是指采用某種概率密度函數(shù)來描述說話人的語音特征空間的分布情況,并以該概率密度函數(shù)的一組參數(shù)作為說話人模型。這些參數(shù)可以用從訓練語音中提取的特征參量來估計,說話人識別系統(tǒng)中經(jīng)常采用的參數(shù)模型有:隱馬爾可夫模型(Hidden Markov Model,HMM)、高斯模型、高斯混合模型(Gaussian Mixture Model,GMM)等。
(1)隱馬爾可夫模型法:是一種基于轉(zhuǎn)移概率和輸出概率的隨機模型,最早CMU和IBM被用于語音識別。它把語音看成由可觀察到的符號序列組成的隨機過程,符號序列則是發(fā)聲系統(tǒng)狀態(tài)序列的輸出。在使用隱馬爾可夫模型識別時,為每個說話人建立發(fā)聲模型,通過訓練得到狀態(tài)轉(zhuǎn)移概率矩陣和符號輸出概率矩陣。識別時計算未知語音在狀態(tài)轉(zhuǎn)移過程中的最大概率,根據(jù)最大概率對應的模型進行判決。對于與文本無關的說話人識別一般采用各態(tài)歷經(jīng)型HMM;對于與文本有關的說話人識別一般采用從左到右型HMM。HMM不需要時間規(guī)整,可節(jié)約判決時的計算時間和存儲量,在目前被廣泛應用。缺點是訓練時計算量較大。
(2)高斯混合模型法:GMM是一種統(tǒng)計模型,它能很好地刻畫參數(shù)空間中訓練數(shù)據(jù)的空間分布及其特性,可以表示成為多個高斯概率密度函數(shù)的加權(quán)和的形式。GMM模型實際上是連續(xù)HMM模型的一種特例,即單個狀態(tài)的HMM。也就是說GMM模型只有一個狀態(tài),它并不去刻畫語音的時序過程,因為在與文本無關的話者識別中,用于訓練的語音和用于測試的語音的語義完全可以不同,即時序過程在訓練和測試時是不同的。所以,GMM模型只刻畫語音特征參數(shù)的靜態(tài)分布,也即通過高斯分布來描述不同的因素類,而不考慮時序信息。不同說話人之間語音特征的靜態(tài)分布也是不同的。因此通過比較不同話者的GMM模型,就可以區(qū)分不同的說話人。
人工神經(jīng)網(wǎng)絡(Artificial Neural Network,ANN):在某種程度上模擬了生物的感知特性,是一種分布式并行處理結(jié)構(gòu)的網(wǎng)絡模型,具有自組織和自學習能力、很強的復雜分類邊界區(qū)分能力以及對不完全信息的魯棒性,其性能近似理想的分類器。其缺點是訓練時間長,動態(tài)時間規(guī)整能力弱,網(wǎng)絡規(guī)模隨說話人數(shù)的增加,可能大到難以訓練的程度。ANN由神經(jīng)元、網(wǎng)絡拓樸、學習算法3個基本要素構(gòu)成,訓練過程中是將已知語音信號的特征參數(shù)作為學習樣本,并將其代入到神經(jīng)網(wǎng)絡中進行多次循環(huán)網(wǎng)絡學習,網(wǎng)絡通過對這些特征參數(shù)的學習將最終得到一組能代表說話人特征的網(wǎng)絡連接權(quán)和偏置,說話人識別測試過程就是將待測說話人的語音特征參數(shù)代入到網(wǎng)絡中,通過網(wǎng)絡的相似計算準測得出判決結(jié)果。
支持向量機(Support Vector Machine,SVM):是Vapnik提出的旨在改善傳統(tǒng)神經(jīng)網(wǎng)絡學習理論弱點的一種重要的學習方法,它是在統(tǒng)計學習理論(Statistical Learning Theory,SLT)基礎上發(fā)展起來的。SVM的基本思想是將輸入空間的向量映射到高維SVM擴展空間,然后在高維的擴展空間中采用分類方法構(gòu)造最優(yōu)超平面分界面,以解決說話人識別問題。SVM致力于尋找一個既滿足分類要求,并且使它距離最近的樣本分隔區(qū)域最大的超平面,這樣就能從最優(yōu)分類超平面中得到?jīng)Q策函數(shù),也就是支持向量機。它是一種泛化能力很強的分類器,在國際模式識別領域受到廣泛的關注。
近幾年,說話人的識別方法已經(jīng)由單一的模式識別轉(zhuǎn)向為多模式的識別,每種識別都有各自的優(yōu)缺點,采用多種識別模式的組合不僅可以克服單一模式的缺點、彌補單一模式識別的不足,最主要的是可以提高說話人的識別效率。鮑煥軍,鄭方[10]將GMM-UBM與SVM結(jié)合,利用GMM-UBM能突出說話人個性特征,而SVM對信道的魯棒性較好,彌補了GMM-UBM受信道影響較大的缺點,該融合方法提高了系統(tǒng)的性能,接著,郭武等人[11]也證實了相應的結(jié)果;鄭建煒等人[12]利用GMM與RVM融合的方法,既有效地提取話者特征信息,解決大樣本數(shù)據(jù)下的RVM訓練問題,又結(jié)合統(tǒng)計模型魯棒性高和分辨模型辨別效果好的優(yōu)點,比GMM/SVM系統(tǒng)具有更高的稀疏性。
從當今的趨勢看來,說話人識別技術(shù)主要集中于如何將語音信息與說話人個人特征信息有效地區(qū)分開、如何提取出能很好地表征說話人個性的特征參數(shù)、如何有效利用不同特征參數(shù)之間的互補性等方面,并在基于人耳聽覺的基礎上也提出了一些有效參數(shù)。在識別模型上,人工神經(jīng)網(wǎng)絡模型、支持向量機模型、多模式組合的方法將逐漸深入到說話人識別過程中。隨著各相關學科的迅速發(fā)展,說話人識別技術(shù)將會有更多的理想算法出現(xiàn),也將會有更廣闊的前景。
[1]QUATIERI F T.離散時間語音信號處理—原理與應用[M].趙勝輝,劉家康,謝湘,等,譯.北京:電子工業(yè)出版社,2004.
[2]PLUMPE M D,QUATIERI T F,REYNOLDS D A.Modeling of the glottal flow derivative waveform with application to speaker identification[J].IEEE Transactions on Speech and Audio Processing,1999,7(5):569 -586.
[3]GURUPRASAD S,YEGNANARAYANA B.Performance of an event-based instan-taneous fundamental frequency estimator for distant speech signals[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(7):1853-1864.
[4]郭春霞.說話人識別算法的研究[J].西安郵電學院學報,2010,15(5):104 -106.
[5]ZHENG Rong,ZHANG Shuwu,XU Bo.Improvement of speaker identification by combining prosodic features with acoustic features[C].Guangzhou:5th Chinese Conference on Biometric Recognition(SINOBIOMETRICS 2004),2004,3338:569-576.
[6]葉寒生,陶進緒,張東文,等.噪聲環(huán)境下基于特征信息融合的說話人識別[J].計算機仿真,2009,26(3):325 -328.
[7]GAN Zhigang.An improved feature extraction method in speaker identification[C].Hangzhou:2011 Third International Conference on Intelligent Human-Machine Systems and Cybernetics,2011:218 -222.
[8]MITCHELL M L,DAVID V L.Source- normalised - and -weighted LDA for robust speaker recognition using i-vectors[C].Prague Congress Ctr:2011 IEEE International Conference on Acoustics,Speech and Signal Processing,2011:5456-5459.
[9]DU Jun,ZOU Xin,HAO Jie,et al.The efficiency of ICA -based representation analysis:application to speech feature extraction[J].Chinese Journal of Electronics,2011,20(2):287-292.
[10]鮑煥軍,鄭方.GMM-UBM和SVM說話人辨認系統(tǒng)及融合的分析[J].清華大學學報:自然科學版,2008(S1):100-105.
[11]郭武,戴禮榮,王仁華.采用高斯概率分布和支持向量機的說話人確認[J].模式識別與人工智能,2008,21(6):794-798.
[12]鄭建煒,王萬良,鄭澤萍.GMM與RVM融合的話者辨識方法[J].計算機工程,2010,36(15):168-170.
Overview on Speaker Recognition
YANG Di,QI Yincheng,LIU Mingjun,ZHANG Huafangzi,WU Junna
(Department of Electronic and Communication Engineering,North China Electric Power University,Baoding 071003,China)
Based on the analysis of the principles and methods of speaker recognition,the development of speaker recognition in recent years is reviewed.Several features and pattern recognition methods in the mainstream speaker recognition technologies are summarized and analyzed.Finally,the research prospects and development trends in the future are given.
speaker recognition;feature extraction;pattern recognition
TP391.9
A
1007-7820(2012)06-162-04
2012-01-03
楊迪(1988—),女,碩士研究生。研究方向:說話人識別。戚銀城(1968—),男,博士,教授。研究方向:信息系統(tǒng)與信息安全。劉明軍(1987—),男,碩士研究生。研究方向:視頻監(jiān)控。張華芳子(1988—),女,碩士研究生。研究方向:電力系統(tǒng)通信。武軍娜(1986—),女,碩士研究生。研究方向:智能信息處理。