林 秀,范茂志
同濟大學軟件學院,上海 201804
基于噪聲環(huán)境下的說話人識別系統(tǒng)的研究
林 秀,范茂志
同濟大學軟件學院,上海 201804
對帶噪聲的語音信號采用消噪算法處理,并提取特征參數(shù)Mel倒譜系數(shù)來建立說話人的特征參數(shù)的混合高斯模型,構(gòu)建了一個基于噪聲環(huán)境的文本無關(guān)的說話人識別系統(tǒng)。本文詳細闡述了梅爾倒譜系數(shù)這一主流語音特征及高斯混合通用背景模型來建立說話人識別系統(tǒng)。實驗表明,增加混合高斯模型的維數(shù)可以增加系統(tǒng)的識別率。
說話人識別;梅爾倒譜系數(shù);高斯混合-通用背景模型
說話人識別指在提取代表個人身份的特征信息,最終識別出說話人。作為身份鑒定的一種方法,說話人識別具有使用簡單、獲取方便、使用者的接受程度高等優(yōu)點,但也存在許多值得研究的問題,如訓練條件與測試條件不匹配。
說話人識別系統(tǒng)在訓練條件與測試條件匹配的情況下,識別系統(tǒng)具有很好的性能。由于人體聲道特征,語音信道及通話環(huán)境等因素的干擾,使得說話人識別系統(tǒng)的準確性顯著降低。在說話人識別系統(tǒng)中,有兩方面重要的影響因素:一方面,所選取的語音特征參數(shù)應盡量突出說話人的個性特征,使得不同說話人可以在特征空間上盡量分離。另一方面,降低環(huán)境噪聲對說話人識別系統(tǒng)的干擾,是使訓練條件與測試條件匹配的最好辦法。通常提高系統(tǒng)抗噪性能的方法有3種:1)前端處理,如自適應噪聲抵消技術(shù)等[1];2)提取具有魯棒性的特征參數(shù)[2];3)后端處理,如歸一化補償變換[3]。
本系統(tǒng)的基本思路如下:首先,采用消噪算法對帶噪聲的語音信號進行消噪。其次,提取說話人特征信息。提取梅爾倒譜系數(shù)作為說話人的特征信息,由這些特征信息來刻畫說話人特征矢量的超空間。最后,建立高斯混合-通用背景模型。通用背景模型的訓練,自適應算法生成說話人模型,計算似然度進行得分測試及得分規(guī)整,完成辨認說話人。
說話人識別系統(tǒng)以待測說話人的語音波形作為輸入,通過對波形的頻譜及特征參數(shù)的計算和提取,可以得到說話人區(qū)別于其他說話人人的生理和行為特征的聲學特征參數(shù),來識別待測說話人身份。圖1為說話人識別系統(tǒng)的整體框架。
根據(jù)系統(tǒng)的整體框架,可以把系統(tǒng)分成由兩個主要組成模塊:基于Mel倒譜系數(shù)[5](Mel-Frequency Cepstrum Coefficients, MFCC)說話人特征參數(shù)的提取模塊和基于背景模型[6](Gaussian Mixture Model-Universal Background Model,GMM-UBM)的目標說話人的判決模塊。
圖1 說話人識別系統(tǒng)
本模塊的基本思路:首先,采用消噪算法對帶噪聲的語音信號進行處理,得到較為純凈的語音。采用消噪算法的目的在于提高語音質(zhì)量,在消除背景噪音的同時使得語音信號更清晰準確,提高語音信號的可懂度。其次,對消除噪聲之后的語音進行特征提取,得到可以代表說話人特征信息的梅爾到普系數(shù),即說話人的特征參數(shù)。
1.1.1 消噪算法
采用譜相減法對語音信號消除噪聲影響,圖2為譜相減法的結(jié)構(gòu)圖。
圖2 譜相減法
譜相減法的具體步驟如下所示:
1)確定語音信號的每幀的幀長,將語音信號進行分幀;
2)計算各幀的能量值,確定噪音能量閾值。在能量小于閾值且能量等于閾值的時刻之前的時間段內(nèi)的能量認為是該能量為噪音能量,該時間段的信號為噪音信號。從能量大于閾值的時刻起后面所有時間的信號認為是帶噪聲語音信號;
3)對各幀語音信號進行傅立葉變換,得到語音信號的頻譜信息;
4)根據(jù)所確定的噪聲信號信息,對帶噪聲語音信號進行相位和頻譜能量的變換,得到增強后的語音頻譜圖;
5)根據(jù)傅立葉逆變換,得到增強后到語音信號。
1.1.2 MFCC特征參數(shù)提取
MFCC在人耳聽覺結(jié)構(gòu)和人類發(fā)聲和接受聲音等機理特性方面具有很好的魯棒性,并且在頻率域上可以較好的表達說話人的個性特征,具有較好的識別性能和抗噪聲能力。因為標準的MFCC僅僅表現(xiàn)了語音算數(shù)的靜態(tài)特征,而語音的動態(tài)特性更能滿足人耳對聲音敏感的特性,故本文采用的特征提取算法是在MFCC的基礎(chǔ)上再作一階差分(MFCC),二階差分(MFCC)這三部分構(gòu)成了特征矢量。它對消除語音信號的幀之間的相關(guān)性具有很好的效果,并且可以很好的逼近語音的動態(tài)特性,對提高系統(tǒng)的識別率有很大的作用。MFCC特征參數(shù)的提取過程如圖3所示:
圖3 特征提取
特征提取具體步驟如下:
1)預加重,減少尖銳噪聲的影響,提升高頻信號,x(n)為原信號,y(n)為預加重后信號;
2)加漢明窗,減少吉伯斯效應。W(n)是窗函數(shù),Sw(n)是加窗后信號:
3)對信號Sw(n)進行DFT
4)把頻譜系數(shù)用三角濾波器進行濾波處理,得到一組系數(shù)m1, m2,...,mM,M 為濾波器組個數(shù)。濾波器組中每一個三角濾波器的跨度在Mel標度上是相等的。
5)計算每個濾波器組輸出的對數(shù)能量:
6)經(jīng)離散余弦變換(DCT)得到MFCC:
7)對MFCC再作一階差分、二階差分作為最終的特征矢量。
1)注冊說話人階段:注冊語音在UBM模型上計算高斯狀態(tài)占有率,得到統(tǒng)計量,在UBM的均值和方差中做一個類似插值的操作得到說話人模型參數(shù)。
具體步驟如下:
(1)語音特征矢量X = { x t,t = 1, 2, …,T },設置最大迭代次數(shù)L以及每次迭代的改進閾值作為迭代過程的終止條件;
(4)計算總畸變Dm:
(5)計算畸變的相對改變值:
(7)如果當前誤差值小于門限值則跳轉(zhuǎn)到第(9)步,否則,跳到第(8)步;
(8)若m > L,跳到第(9)步,否則,m = m +1,跳轉(zhuǎn)到第(3)步;
(9)迭代終止并計算:
其中,Nj是屬于第的點的個數(shù);
2)測試階段:測試語音在UBM模型上計算高斯的似然度,并計算在待測說話人模型上對應的高斯似然度,將兩個似然度相減則為最后的得分。具體步驟如下:
(1)首先對通用背景模型(UBM)中每個高斯計算似然度得分,并對每一幀選出得分最高的C個高斯模型。
(2)計算說話人模型得分,每一幀只需要計算對應于UBM的C個高斯模型的得分即可。
(3)計算最終的測試得分為說話人模型和通用背景模型兩者之差。
3)得分規(guī)整[7]階段:由于同一說話人在不同的說話狀態(tài)、語義信息、環(huán)境噪音等因素的影響,說話人在不同狀態(tài)下的語音信息和特征信息會有所不同,導致同一說話人在兩次說話中出現(xiàn)差異,在系統(tǒng)上表現(xiàn)為得分不同。不同說話人在某些相同的環(huán)境下會有一定的相似性。
通過得分規(guī)整技術(shù)對說話人識別的高斯似然度進行歸一化運算,使在不同說話人模型下的輸出得分規(guī)整到同一分布范圍。得分規(guī)則可以有效地減小同一說話人的不一致性,擴大不同說話人的不一致性。本文主要討論對最后得分ZNORM[7-8]、TNORM[9]及ZTNORM這三種方式規(guī)整技術(shù)。ZNORM(Zero Normalization)的原理是利用大量冒認者語句對目標說話人模型進行測試,再利用輸出得分統(tǒng)計出目標說話人模型的輔助參數(shù)。TNORM(Test Normalization)的原理是計算大量冒認者模型對待測語句的得分,從而得到待測語句在冒認者模型上的相關(guān)參數(shù),TNORM是一種在線處理的規(guī)則方法。其缺點是當冒認者模型較多時,計算量較大,比較耗費時間。
本實驗采用的語音數(shù)據(jù)的格式是16kHz,8位精度,wav 文件格式,語音時長為5min。設置12個實驗,對不同的高斯維數(shù)(256、512、1024、2048)及得分規(guī)則(ZNORM、TNORM、TZNORM),得到不同的等錯誤率。
表 1
由表1中的12個實驗數(shù)據(jù)可以看出,2048個高斯模型,TNORM和ZNORM的混合得分規(guī)整這個實驗參數(shù)是等錯誤率(EER)最小,在12個實驗中識別效果最好。對不同的高斯維數(shù)及得分規(guī)則,說話人識別系統(tǒng)的等錯誤率(EER)有不同,整體趨勢是高斯維數(shù)越大,等錯誤率EER越小,識別效果越好?;旌系梅忠?guī)整具有較好的效果,EER較低。
增高通用背景高斯混合模型的維數(shù)可以較為準確地對說話人的特征信息即MFCC進行建模,很好的描述說話人的特征信息,并使得系統(tǒng)獲得較好的系統(tǒng)識別率。
[1]TADJ C, GABREA M, GARGOUR C, et al.Towards robustness speaker verification: enhancement and adaptation[C]//Proceeding of the 45th Midwest Symposium on Circuit and System.New York: IEEE, 2002:320-323.
[2]ZHEN Y X, ZHENG T F, WU W H.Weighting observation[C]//Proceedings of International Conference on Spoken Language Processing.Jeju Island, Korean: ISCA,2004: 819-822.
[3]包永強,趙力,鄒采榮.采用歸一化補償變換的與文本無關(guān)的說話人識別[J].聲學學報,2006,31(1):55-60.
[4]D.A.Reynolds and R.C.Rose.”Robust textindependent speaker identification using Gaussian mixture speaker models”IEEE Trans.on Speech and Audio Processing,1995,3.
[5]Steve Young,The HTK Book.Ver 3.0, July 2000.http://svr-www.eng.cam.ac.uk.
[6]D.A.Reynolds.”Speaker identification and verification using Gaussian mixture speaker models”Speech Communication, 1995,17:91-108.
[7]Frederic Bimbot, Jean-Francois Bonastre, A Tutorial on Text-Independent Speaker Verification[J].EURASIP Journal on Applied Signal Processing,2004,4:430-451.
A Study on the Textindependent Speaker Recognition System under Noisy Condition
LIN Xiu,F(xiàn)AN Mao-zhi
School of Software Engineering, Tongji University,Shanghai 201804
TP391.42
A
1674-6708(2011)53-0182-03
林秀,碩士研究生,研究方向:說話人識別
范茂志,碩士,研究方向:人工智能、人臉識別、嵌入式Linux