駱啟帆,章堅武,吳震東
(杭州電子科技大學通信工程學院,浙江杭州310018)
說話人確認系統(tǒng)目前的主流系統(tǒng)為基于通用背景模型(Universal Background Model,UBM)與高斯混合模型(Gaussain Mixture Models,GMM)的系統(tǒng),其中UBM通過期望最大化算法得到,而高斯混合模型則是在UBM的基礎上自適應的選擇最大概率的幾個混合數并進一步計算得到[1,2]。常用特征參數中,從人耳角度描述短時聲道信息的梅爾倒譜系數(Mel Frequency Cepstral Coefficient,MFCC)相對于基于線性預測理論的線性預測倒譜系數(Linear Prediction Cepstrum Coefficient,LPCC)有著更好的識別性能。然而后續(xù)研究者在對MFCC進行了不斷研究與優(yōu)化后[3,4],MFCC的性能進入了一個瓶頸。研究人員開始開發(fā)其他特征,如基頻,能量等。但這些特征往往有著注冊語音長,性能不如MFCC等缺點。由于這些韻律特征表征的是聲門信息,它們與表征聲道的MFCC有著良好的互補性。此外,特征之間的融合也進入了研究者的視線。人們提出將不同的特征加以融合,如將MFCC與能量信息等其它特征直接線性拼接為一個特征,并在拼接的基礎上進行降維[5]。本文研究了韻律特征參數與MFCC的原理及其提取方法,并在此基礎上提出采用二次判決的方法融合MFCC與韻律特征參數。通過實驗,驗證了該方法的有效性。
MFCC作為最常用的特征參數,從人耳對頻率的非線性感知角度描述了聲道變化特性,作為一種短時特征,比其他類似的短時特征有著明顯的優(yōu)勢。
簡單的來說,MFCC就是在頻率域采用一組基于Mel頻率的三角帶通濾波器來模擬人耳對聲音的感知。其提取流程圖如圖1所示。Mel頻率與線性頻率的轉化關系為:
圖1 MFCC提取流程圖
MFCC提取的主要步驟如下:
(1)語音信號的預處理,包括預加重,分幀,加窗;
(2)對上一步得到的每幀信號進行FFT,獲得頻域幅度譜;
(3)對每幀信號的頻域幅度譜取平方獲得功率譜;
(4)將功率譜通過基于Mel頻率的三角帶通濾波器組,該組三角帶通濾波器的中心頻率在Mel頻率域呈均勻分布。三角帶通濾波器組的傳遞函數為:
式中,f(m)為帶通濾波器組中第 m個濾波器的中心頻率,其公式為其中,fmel(fh),fmel(fl)分別為最高頻率,最低頻率在Mel頻率上的對應值,N為FFT長度,M為Mel三角濾波器組中濾波器個數。其中
(5)對每個帶通濾波器的結果取對數,得到對數功率譜參數;
(6)對上一步得到的對數功率譜參數進行DCT變換,即得到MFCC特征參數。
濁音信號是一個準周期信號,即時域波形如圖2所示,呈準周期性,該周期的倒數即為基音頻率。研究表明,人的基音頻率處在50 450Hz之間。
基音周期的獲取方法有許多,包括短時自相關函數法,平均幅度差法等,各有其優(yōu)點與缺陷。在這里,采用短時自相關函數法計算。短時自相關函數的公式如下:
圖2 濁音信號時域波形圖
式中,s(n)為語音幀,N為該幀的長度。
基音周期獲取具體算法如下:
(1)首先進行預加重,分幀,并計算每一幀的短時能量E與整段語音的平均能量,將小于平均能量百分之一的幀作為靜音幀去除;
(2)采用中心削波法對語音信號進行削波。削波函數為:
式中,T為削波電平,一般取本幀語音幅度最大值的60% 70%,本實驗中取60%。削波后的時域波形如圖3所示;
(3)計算削波后的信號短時自相關函數,計算得到的自相關如圖4所示。對自相關函數結果取峰值并記為R0,并將峰值附近賦值為0。若R0過小則記R0為0;
(4)再次取峰值,記為R1,同時對R1進行判斷,若R1過小或過大均置為0;
(5)將|R1-R0|作為基音周期,采用5點平滑算法對得到的基音周期進行平滑,并將周期不在基音范圍內的語音幀作為清音幀刪除;
(6)參考采樣頻率計算基音周期,并取其倒數作為基音頻率;
(7)取剩余幀中基音頻率的對數與能量E的對數,將這兩者拼接起來作為韻律特征。
圖3 中心削波后的信號
圖4 削波后的自相關函數
說話人確認是一個閉集問題,即判斷給定的測試語音是:H1是由申明說話人發(fā)出;H2不是由申明說話人發(fā)出。其大致流程圖為:
圖5 普通判決流程圖
在說話人確認中通常采用對數似然比得分來代替概率,判決式為:
式中,x為特征矢量,λUBM為UBM參數,λGMM為申明說話人的參數;當S(x)小于給定門限γ時,判決語音由申明說話人發(fā)出,否則語音不是由該說話人發(fā)出。
為將MFCC與韻律特征結合的更好,本文提出,可以采用先對語音信號進行MFCC特征的判決。當差值在某個門限內時,記錄下該段語音,并跳過MFCC對該段語音的判決。其后對在前一個階段被記錄下的語音采用對數基頻及對數能量進行二次判決。
在對MFCC實驗的過程中,發(fā)現等錯誤率的門限一般在2 3003500這個區(qū)間內,換句話說,對于得分在這段區(qū)間附近的語音而言,MFCC已不能很好地分辨是否由說話人發(fā)出的。基于以上考慮,將參考門限設定為3 000 4 000,即得分在該區(qū)間內的語音被判為MFCC無法正確判決的語音,采用基于韻律特征的方法對其進一步判決。
圖6 線性判決流程圖
本實驗采用語音庫:語音庫1為源于網絡的23人語音庫,在本次實驗中用于通用背景模型的訓練;語音庫2為實驗室采集的36人語音庫,每人采集10句中文語音,說話內容從朗讀到隨意講述不限,平均每句語音長約10s,在本次實驗中用于訓練個人的GMM與測試實驗結果。語音庫1、2采樣頻率同為16k。
實驗對比了只采用MFCC與采用二次判決兩種方法時的系統(tǒng)性能。在本次測試中,語音幀幀長設置為0.02s,幀移為0.01s,實驗中加窗采用漢明窗。UBM的訓練采用語音庫1中語音,總長約20min,混合數為64;個人GMM訓練時,每人采用3段語音進行訓練,混合數為5;測試時每人均采用剩余7段語音用于測試。韻律特征部分中語音幀幀長,幀移,加窗和UBM混合數等參數與MFCC部分一致。判決時,先對MFCC部分得分進行計算,當得分在2 000-4 000內時,記錄下該段語音的標號,否則給出判決結果;MFCC部分判決結束后,啟動韻律特征部分對被記錄下標號的語音進行二次判決,該判決結果即為最終判決結果。
實驗判決結果如表1所示。從表1中可以看出,使用本文提出的二次判決融合特征方法使系統(tǒng)的等錯誤率明顯下降,充分表明了本文提出的融合方法的有效性。另外,經實驗發(fā)現,采用MFCC模型時,得分在二次判決得分空間范圍內的語音數不足7.5%,這從側面證明了MFCC的良好性能。在最后一次實驗中,進入二次判決空間的語音為676條,但是在等錯誤門限處判斷錯誤數(包括虛警與漏報)為413條,這表明韻律特征雖然在本系統(tǒng)中作為輔助性特征,使話者識別性能有較大提高,但其單獨作為一個特征參數仍顯不足。
表1 實驗判決結果(%)
本文介紹了一種融合了MFCC與韻律特征的說話人確認方法。該方法充分利用了兩種不同角度特征的互補性。實驗結果表明,該新方法提高了話者識別系統(tǒng)的性能。
[1]Reynolds D A,Quatieri T F,Dunn R B.Speaker verification using adapted Gaussian mixture models[J].Digital signal processing,2000,10(1):19 -41.
[2]Reynolds D A,Rose R C.Robust text-independent speaker identification using Gaussian mixture speaker models[J].IEEE Trans on Speech Audio Process,1995,3(1):72 -83.
[3]甄斌,吳璽宏,劉志敏,等.語音識別和說話人識別中各倒譜分量的相對重要性[J].北京大學學報(自然科學版),2001,37(3):371 -378.
[4]陸偉,戴蓓蓓,李輝,等.MFCC中的基音頻率信息對說話人識別系統(tǒng)性能的影響[J].中國科學技術大學學報,2009,39(8):859 -860.
[5]汪崢,連翰,王建軍.說話人識別中特征參數提取的一種新方法[J].復旦學報(自然科學版),2005,44(1):197-200.