周玥媛,孔 欽
(南京大學(xué)金陵學(xué)院,江蘇 南京 210089)
聲紋識(shí)別(voiceprint recognition),又稱說(shuō)話人識(shí)別(speaker recognition),是生物身份認(rèn)證技術(shù)的重要分支之一。聲紋識(shí)別是由計(jì)算機(jī)自動(dòng)識(shí)別說(shuō)話人身份的技術(shù),實(shí)現(xiàn)的關(guān)鍵點(diǎn)在于從語(yǔ)音信號(hào)中提取語(yǔ)音特征參數(shù),此參數(shù)具備表征特定的說(shuō)話人生理層面特征與行為層面特征的能力。
從實(shí)際應(yīng)用的角度分類,聲紋識(shí)別分為說(shuō)話人辨認(rèn)(speaker identification)和說(shuō)話人確認(rèn)(speaker verification)[1]。前者判斷某段語(yǔ)音信號(hào)來(lái)自于若干參考說(shuō)話人中的哪一位,是“多對(duì)一”的問(wèn)題。后者確定某段語(yǔ)音信號(hào)是否符合其所聲稱的說(shuō)話人身份,是“一對(duì)一”的判別問(wèn)題。兩者的性能評(píng)價(jià)指標(biāo)計(jì)算方法并不相同。
高斯混合模型(Gaussian mixture model,GMM)是單一高斯密度函數(shù)的延伸,高斯混合模型能夠平滑地近似任意形狀的密度分布,所以被廣泛應(yīng)用在模式識(shí)別、數(shù)據(jù)分析等領(lǐng)域[2]。GMM規(guī)模愈大表征能力愈強(qiáng),但參數(shù)規(guī)模也等比例膨脹。具備泛化性的模型必須通過(guò)更龐大的訓(xùn)練數(shù)據(jù)加以驅(qū)動(dòng)。
實(shí)際應(yīng)用中,每位說(shuō)話人的語(yǔ)音數(shù)據(jù)普遍有限,以致無(wú)法訓(xùn)練出高效的GMM,大幅降低聲紋識(shí)別系統(tǒng)的性能。此背景下,DA Reynolds提出了通用背景模型(universal background model, UBM)的概念。基于語(yǔ)音特征觀察向量,依據(jù)最大后驗(yàn)準(zhǔn)則(maximum a posteriori,MAP),通過(guò)UBM自適應(yīng)目標(biāo)模型的方法[3],得到目標(biāo)說(shuō)話人的GMM。
文中討論了GMM模型訓(xùn)練算法和識(shí)別算法,并與自適應(yīng)算法相結(jié)合。在此基礎(chǔ)上,針對(duì)說(shuō)話人確認(rèn)與說(shuō)話人辨認(rèn)兩種應(yīng)用角度,分別設(shè)計(jì)并實(shí)現(xiàn)了基于Matlab的特征參數(shù)性能測(cè)試系統(tǒng)與聲紋識(shí)別交互系統(tǒng),探討與驗(yàn)證不同的參數(shù)選擇會(huì)對(duì)識(shí)別算法性能產(chǎn)生的影響。
聲紋識(shí)別算法首先對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理,然后提取語(yǔ)音特征參數(shù)。特征參數(shù)在提取完成后,需用數(shù)據(jù)模型表示出來(lái),故建立模型并進(jìn)行模型訓(xùn)練,最后進(jìn)行識(shí)別。
語(yǔ)音信號(hào)預(yù)處理[4]步驟如下:
(1)能量歸一化處理(normalization)。排除發(fā)音聲音大小對(duì)語(yǔ)音幀能量值的影響。
(2)預(yù)加重(pre-emphasis)。原始信號(hào)采樣變換得到數(shù)字語(yǔ)音信號(hào)。為凸顯高頻分量,依次通過(guò)一個(gè)一階高通濾波器H(z):
H(z)=1-az-1
(1)
其中,a=0.9~1,文中a取0.937 5。
(3)語(yǔ)音分幀。文中取幀長(zhǎng)N為512點(diǎn)(51.2 ms),幀移為160點(diǎn)(16.0 ms)。
(4)加窗處理。加漢明窗(Hamming window)削減幀兩端的不連續(xù)性,然后通過(guò)低通濾波器去除異常高起的噪聲。
(2)
其中,h(n)為窗函數(shù),N為幀長(zhǎng)。
(5)計(jì)算短時(shí)能量(short-time energy)。短時(shí)能量表征聲音的大小,文中設(shè)置短時(shí)能量門限值為10,以過(guò)濾掉語(yǔ)音信號(hào)中的微弱噪聲。短時(shí)能量計(jì)算公式如下:
(3)
經(jīng)語(yǔ)音信號(hào)預(yù)處理后,處理對(duì)象轉(zhuǎn)變成若干個(gè)離散的語(yǔ)音幀。
文中主要對(duì)線性預(yù)測(cè)系數(shù)(LPC)、線性預(yù)測(cè)倒譜系數(shù)(LPCC)、梅爾頻域倒譜系數(shù)(MFCC)以及結(jié)合差分參數(shù)的MFCC進(jìn)行比較研究。
1.2.1 線性預(yù)測(cè)系數(shù)(LPC)
線性預(yù)測(cè)系數(shù)[5](linear predictive coefficient,LPC)是線性預(yù)測(cè)方程的一組解。設(shè)語(yǔ)音樣點(diǎn)之間相互關(guān)聯(lián),則一個(gè)語(yǔ)音信號(hào)可由過(guò)去p個(gè)取樣值的線性組合預(yù)測(cè)。
實(shí)際應(yīng)用中,常用一個(gè)只有極點(diǎn)沒(méi)有零點(diǎn)的自回歸模型(AR)表示聲道模型[6]:
(4)
其中,ak是維數(shù)為p的LPC,G是激勵(lì)增益。
(5)
基于一個(gè)語(yǔ)音幀中的所有取樣值,可決定唯一的一組LPC,使得實(shí)際抽樣和預(yù)測(cè)抽樣的誤差e(n)平方和達(dá)到最小值。對(duì)LPC的計(jì)算方法有自相關(guān)法、協(xié)方差法、格型法等等。計(jì)算上的快速有效保證了這一聲學(xué)特征的廣泛使用[7]。文中采用自相關(guān)法求解。
1.2.2 線性預(yù)測(cè)倒譜系數(shù)(LPCC)
線性預(yù)測(cè)倒譜系數(shù)(LPC-cepstrum,LPCC)是使用LPC分析方法計(jì)算倒譜特性。
c1=a1
(6)
(7)
其中,cn為倒譜系數(shù),其中的ai為多項(xiàng)式A(z)的系數(shù)。
1.2.3 梅爾倒譜系數(shù)(MFCC)
梅爾頻率倒譜系數(shù)(Mel-frequency ceptral coefficients,MFCC)[8]是在梅爾刻度頻率域提取出來(lái)的倒譜系數(shù),其對(duì)人體聽覺(jué)系統(tǒng)感知頻率的非線性特征進(jìn)行了刻畫。
MFCC的提取過(guò)程如下:
(1)語(yǔ)音信號(hào)預(yù)處理;
(2)乘上漢明窗函數(shù),然后進(jìn)行快速傅里葉變換(FFT),將信號(hào)從時(shí)域轉(zhuǎn)換到頻域;
(3)計(jì)算頻譜幅度的平方,獲取能量譜;
(4)將能量譜通過(guò)M個(gè)按照梅爾頻率分布的三角濾波器:
i=1,2,…,M
(8)
其中,Xk是第k個(gè)頻譜點(diǎn)的能量,Yi是第i個(gè)濾波器的輸出值,fi是第i個(gè)濾波器的中心頻率。文中M取24。
(5)將每個(gè)濾波器的輸出取對(duì)數(shù);
(6)經(jīng)離散余弦變換(discrete cosine transformation,DCT)過(guò)渡到倒譜域。
(9)
其中,p是MFCC階數(shù),{Ck},k=1,2,…,p即為MFCC特征參數(shù)。
1.2.4 MFCC的差分譜
MFCC良好刻畫了人耳聽覺(jué)特征,但其僅為語(yǔ)音的靜態(tài)特征。語(yǔ)音的動(dòng)態(tài)特性可由靜態(tài)特征的差分譜反映。動(dòng)靜特征結(jié)合,具備對(duì)語(yǔ)音更全面的描述。
設(shè)X(k)為離散函數(shù),則其一階差分可表征相鄰兩項(xiàng)之間的動(dòng)態(tài)關(guān)系,定義為:
Y(k)=X(k+1)-X(k)
(10)
同理,函數(shù)X(k)的二階差分可表征相鄰三幀之間的動(dòng)態(tài)關(guān)系,定義為:
Z(k)=Y(k+1)-Y(k)=
X(k+2)-2×X(k+1)+X(k)
(11)
GMM表示為M個(gè)單一高斯函數(shù)的加權(quán)平均和:
(12)
其中,x是維度為D的特征向量,αi,i=1,2,…,M是混合權(quán)重,且必須滿足所有混合權(quán)重的和為1,gi(x),i=1,2,…,M是D維單一高斯密度函數(shù):
(13)
其中,μi是平均值向量,Σi是協(xié)方差矩陣。GMM的模型參數(shù)記為λ={αi,μi,Σi},i=1,2,…,M。
1.3.1 GMM的訓(xùn)練
說(shuō)話人模型訓(xùn)練結(jié)束后,每一位說(shuō)話人使用一個(gè)λ來(lái)唯一表示[9]。常用的參數(shù)估計(jì)方法是最大似然(maximum likelihood,ML)估計(jì),GMM的似然函數(shù)[10]如下:
(14)
EM算法的每次迭代都由E-step和M-step組成。反復(fù)重估參數(shù)λ,直到模型收斂。定義函數(shù)Q(λ,λ'):
(15)
其中,i為高斯分量序號(hào),或稱隱狀態(tài)號(hào)。
(16)
其中
(17)
E-Step:求訓(xùn)練數(shù)據(jù)落在假定的隱狀態(tài)i的概率。
(18)
M-Step:分別求Q函數(shù)中三個(gè)參數(shù)αi,μi,Σi,i=1,2,…,M的偏導(dǎo)為0時(shí)的參數(shù)值。
1.3.2 GMM的識(shí)別
根據(jù)一段測(cè)試語(yǔ)音的特征向量序列,在已訓(xùn)練出的N個(gè)GMM中找對(duì)數(shù)似然函數(shù)最大者[11],即對(duì)應(yīng)識(shí)別出的說(shuō)話人i*。
(19)
1.4.1 模型描述
將結(jié)合UBM的GMM稱作GMM-UBM模型,本質(zhì)是GMM的一種改進(jìn)算法。
所謂通用背景模型(UBM),就是采用許多人的語(yǔ)音,包括男聲和女聲(也就是男女共用一個(gè)通用模型)一起訓(xùn)練而成的一個(gè)高階GMM[10],可視作某特定說(shuō)話人GMM的先驗(yàn)?zāi)P汀BM同樣采用EM算法訓(xùn)練,且僅需訓(xùn)練一次,之后反復(fù)使用。
此改進(jìn)算法不僅避免了過(guò)擬合現(xiàn)象的出現(xiàn),且在抑制通道及背景噪聲影響的同時(shí),使得待估參數(shù)的數(shù)目減少超過(guò)半數(shù)[12]。
1.4.2 最大后驗(yàn)準(zhǔn)則(MAP)算法
自適應(yīng)的過(guò)程即將UBM的每個(gè)高斯分布向目標(biāo)說(shuō)話人數(shù)據(jù)偏移。最大后驗(yàn)準(zhǔn)則(maximum a posteriori,MAP)算法是最為常用的自適應(yīng)算法,計(jì)算過(guò)程如下:
(1)與EM算法中的E-Step相同。對(duì)矢量特征序列X={x1,x2,…,xT}計(jì)算每個(gè)向量與UBM中每個(gè)單一密度高斯函數(shù)的后驗(yàn)概率分布:
(20)
ni=P(i|xt,λ)
(21)
其中,T是訓(xùn)練語(yǔ)音幀數(shù),ni是落在第i個(gè)高斯分量上的矢量特征個(gè)數(shù)。
(2)據(jù)特征矢量xt及概率分布統(tǒng)計(jì)出最優(yōu)的訓(xùn)練模型參數(shù):
(22)
(23)
(24)
由ni得到修正因子以更新UBM參數(shù)λ:
(25)
(26)
(27)
其中,βi是高斯分量參數(shù)的修正因子。
(28)
βi越大,表明重估參數(shù)可靠度越高。式(28)中,γ是關(guān)系因子,用于約束修正因子βi的變化尺度,保證所有混合權(quán)重的和為1。γ通常取8~20,文中γ取10。
文獻(xiàn)[13]已證明更新的權(quán)重及協(xié)方差矩陣不會(huì)對(duì)系統(tǒng)產(chǎn)生很大影響,只更新均值向量時(shí)系統(tǒng)性能最佳。故文中在說(shuō)話人模型訓(xùn)練時(shí)采用僅更新均值向量的方式。
文中使用Matlab語(yǔ)言,對(duì)基于GMM-UBM的聲紋識(shí)別算法進(jìn)行具體實(shí)現(xiàn)。針對(duì)說(shuō)話人確認(rèn)與說(shuō)話人辨認(rèn)兩種應(yīng)用角度,分別設(shè)計(jì)兩類系統(tǒng)進(jìn)行探究。
對(duì)說(shuō)話人辨認(rèn)而言,系統(tǒng)識(shí)別率計(jì)算公式如下:
(29)
對(duì)說(shuō)話人確認(rèn)而言,系統(tǒng)性能常使用等錯(cuò)誤率(equal-error rate,EER)來(lái)評(píng)價(jià)[14]:
(30)
(31)
識(shí)別率=1-等錯(cuò)誤率
(32)
等錯(cuò)誤率表征在門限值(Threshold)處算法的誤識(shí)率和拒識(shí)率之間的平衡關(guān)系。等錯(cuò)誤率越低,則系統(tǒng)性能越高。
特征參數(shù)性能測(cè)試系統(tǒng)采用說(shuō)話人確認(rèn)的性能計(jì)算方式,針對(duì)文中探究的不同語(yǔ)音特征參數(shù),又分為與特征參數(shù)一一對(duì)應(yīng)且相互之間無(wú)干涉的多個(gè)測(cè)試子系統(tǒng)。各子系統(tǒng)運(yùn)行流程相同,如圖1所示。輸出結(jié)果為該種特征參數(shù)下,系統(tǒng)的等錯(cuò)誤率與門限值[15]。
圖1 性能測(cè)試子系統(tǒng)的系統(tǒng)流程
聲紋識(shí)別交互系統(tǒng)采用說(shuō)話人辨認(rèn)的性能計(jì)算方式,系統(tǒng)實(shí)現(xiàn)和輸出結(jié)果均類似于開集的說(shuō)話人辨認(rèn),如圖2所示。聲紋識(shí)別交互系統(tǒng)與性能測(cè)試系統(tǒng)在代碼邏輯上并無(wú)關(guān)聯(lián),但后者的運(yùn)算結(jié)果為前者提供數(shù)據(jù)支撐,如UBM模型參數(shù)、門限值等。
模塊實(shí)現(xiàn)方面,劃分為5個(gè)處理模塊:數(shù)據(jù)集劃分模塊、語(yǔ)音預(yù)處理模塊、LPC與LPCC提取模塊、MFCC提取模塊、系統(tǒng)性能計(jì)算模塊。其中,(1)數(shù)據(jù)集劃分模塊的功能如下:①劃分?jǐn)?shù)據(jù)集。②建立trails與labels文件。將一個(gè)參考模型與一條測(cè)試語(yǔ)音的一次匹配定義為一個(gè)trail,trails記錄每條測(cè)試語(yǔ)音與每個(gè)參考模型的一一匹配,labels標(biāo)識(shí)每個(gè)trail是否為正確的匹配。(2)系統(tǒng)性能計(jì)算模塊的功能如下:①對(duì)每一個(gè)trail進(jìn)行評(píng)分。文中用UBM的對(duì)數(shù)似然值對(duì)GMM下的對(duì)數(shù)似然值進(jìn)行規(guī)整,即采用對(duì)數(shù)似然比的評(píng)分方式[14]。②將trails依據(jù)得分升序排序,基于labels計(jì)算系統(tǒng)的等錯(cuò)誤率與門限值。
算法實(shí)現(xiàn)方面,(1)采用二元分裂(binary split)的EM算法[16]:①EM算法初始參數(shù)值的選取至關(guān)重要[9]。文中使用T個(gè)語(yǔ)音特征向量的總體均值與方差初始化GMM。②對(duì)迭代次數(shù)規(guī)定固定數(shù)值。GMM二元分裂時(shí)E-Step與M-Step的迭代次數(shù)與高斯混合度一一對(duì)應(yīng)。③對(duì)完成迭代的高斯分量做二元分裂,故文中系統(tǒng)的高斯混合度只能取2的冪次方。此方式極大節(jié)省了模型訓(xùn)練時(shí)間。(2)采用僅對(duì)UBM參數(shù)中的均值向量進(jìn)行更新的MAP算法。
圖2 聲紋識(shí)別交互系統(tǒng)軟件流程
文中實(shí)驗(yàn)基于VoxCeleb開源數(shù)據(jù)集,其特征如下:(1)與文本無(wú)關(guān);(2)音頻從Youtube視頻節(jié)目中截取。采樣率16 kHz,16 bit,單聲道;(3)每人平均持有句子116句。每句平均時(shí)長(zhǎng)8.2 s,多為短語(yǔ)音。
數(shù)據(jù)集劃分如下:(1)開發(fā)集:首字母A-D,共269人。每位說(shuō)話人的每段視頻的第一條音頻用于UBM的訓(xùn)練,總計(jì)4 797條。(2)訓(xùn)練集:首字母E,共40人。每段視頻(除最后一段)的第一條音頻用于訓(xùn)練GMM。(3)測(cè)試集:首字母E,共40人。每位說(shuō)話人的最后一段視頻的第一條音頻作于測(cè)試。
測(cè)試計(jì)劃:目標(biāo)說(shuō)話人模型—訓(xùn)練集40位說(shuō)話人的GMM模型;測(cè)試語(yǔ)音—每位說(shuō)話人1段測(cè)試語(yǔ)音,共計(jì)40×40=1 600 trials;參數(shù)設(shè)置—高斯混合度128;測(cè)試階數(shù)—取12階~24階語(yǔ)音特征參數(shù)。
測(cè)試基于性能測(cè)試系統(tǒng)進(jìn)行,測(cè)試結(jié)果如表1所示。
表1 三種不同階數(shù)的特征參數(shù)下的系統(tǒng)等錯(cuò)誤率
分析:(1)在模式識(shí)別方法不變的條件下,系統(tǒng)的識(shí)別率與語(yǔ)音特征參數(shù)的階數(shù)之間并不存在單調(diào)上升的對(duì)應(yīng)關(guān)系,而是趨于不確定的波動(dòng)。
(2)目前,特征參數(shù)的選擇主要有兩種方法[17]。第一種,根據(jù)實(shí)驗(yàn)語(yǔ)音學(xué)和聽覺(jué)方面的知識(shí)將特征參數(shù)分為若干類,然后通過(guò)對(duì)比實(shí)驗(yàn)從各類特征參數(shù)中選出一類。第二種,通過(guò)實(shí)驗(yàn),對(duì)一類特征參數(shù)確定其語(yǔ)音特征向量的階數(shù),包括動(dòng)態(tài)參數(shù)的階數(shù)。此處即使用了第一種方法。
(3)當(dāng)三種特征參數(shù)的階數(shù)相同時(shí),絕大多數(shù)情況下,MFCC使文中系統(tǒng)具有最佳識(shí)別效果,LPCC其次,LPC最次。
將測(cè)試系統(tǒng)運(yùn)行時(shí)長(zhǎng)進(jìn)行劃分。三種特征參數(shù)下的測(cè)試系統(tǒng),各項(xiàng)主要操作的耗時(shí)與階數(shù)的關(guān)系如圖3所示。
圖3 三種不同階數(shù)的特征參數(shù)下各項(xiàng)主要操作所用時(shí)長(zhǎng)
分析:(1)對(duì)三種特征參數(shù)下的測(cè)試系統(tǒng)而言,絕大多數(shù)時(shí)間都消耗在獲取UBM模型上??蓪⒂?jì)算trails對(duì)數(shù)似然得分近似視為說(shuō)話人識(shí)別的步驟,其耗時(shí)遠(yuǎn)小于獲取訓(xùn)練集說(shuō)話人的GMM。
(2)當(dāng)三種特征參數(shù)的階數(shù)相同時(shí),使用LPCC和LPC的測(cè)試系統(tǒng),各項(xiàng)操作耗時(shí)基本持平。使用MFCC的系統(tǒng)訓(xùn)練UBM的耗時(shí)遠(yuǎn)高于前者,是前者所用時(shí)長(zhǎng)的兩倍及其以上,其余項(xiàng)操作耗時(shí)差異不大。
(3)系統(tǒng)的運(yùn)行時(shí)長(zhǎng)均隨各特征參數(shù)階數(shù)的增加而呈上升趨勢(shì)。對(duì)于某一特定的特征參數(shù)而言,系統(tǒng)識(shí)別時(shí)長(zhǎng)與識(shí)別率之間并無(wú)必然聯(lián)系。在選擇特征參數(shù)及確定其階數(shù)時(shí),應(yīng)綜合考慮系統(tǒng)識(shí)別效果和實(shí)時(shí)處理性能。
測(cè)試計(jì)劃:目標(biāo)說(shuō)話人模型—訓(xùn)練集40位說(shuō)話人的GMM模型;測(cè)試語(yǔ)音—每位說(shuō)話人1段測(cè)試語(yǔ)音,共計(jì)40×40=1 600 trials ;參數(shù)設(shè)置—特征參數(shù)階數(shù)均取19。
測(cè)試基于性能測(cè)試系統(tǒng)進(jìn)行。因文中系統(tǒng)實(shí)現(xiàn)采用二元分裂的EM算法,故高斯混合度只能取2的冪次方。測(cè)試結(jié)果如表2所示。
表2 不同高斯混合度下的系統(tǒng)等錯(cuò)誤率
分析:(1)在文中系統(tǒng)中,高斯混合度取128及其以下時(shí),三種特征參數(shù)所對(duì)應(yīng)的系統(tǒng)等錯(cuò)誤率的變化趨勢(shì)與理論相一致,即高斯混合度越高,擬合越精確,識(shí)別率就越高。當(dāng)高斯混合度取到256及以上時(shí),識(shí)別效果不升反降。
(2)在實(shí)際應(yīng)用中,受訓(xùn)練數(shù)據(jù)集大小約束,系統(tǒng)識(shí)別率并不會(huì)隨高斯混合度的增大而呈穩(wěn)定上升趨勢(shì)。語(yǔ)音數(shù)據(jù)有限的情況下,能夠可靠估計(jì)的模型參數(shù)是有限的[18]。GMM中單一高斯密度函數(shù)的數(shù)目增加時(shí)到一定值時(shí),GMM的參數(shù)過(guò)多,而良好估計(jì)的參數(shù)占比小,反而可靠性差,導(dǎo)致系統(tǒng)識(shí)別率下降。
將測(cè)試系統(tǒng)運(yùn)行時(shí)長(zhǎng)進(jìn)行與3.2同樣的劃分,各項(xiàng)主要操作的耗時(shí)與高斯混合度的關(guān)系如圖4所示。
分析:(1)高斯混合度與系統(tǒng)運(yùn)行耗時(shí)之間呈單調(diào)上升關(guān)系。聲紋識(shí)別時(shí)間過(guò)長(zhǎng)會(huì)對(duì)實(shí)時(shí)處理造成負(fù)面影響。為達(dá)到最佳識(shí)別性能,應(yīng)權(quán)衡高斯混合度對(duì)結(jié)果準(zhǔn)確性和識(shí)別時(shí)長(zhǎng)的利弊,以決定高斯分量的個(gè)數(shù)。文中系統(tǒng)的高斯混合度較佳取值為128。
(2)隨高斯混合度增大,系統(tǒng)中與高斯分量相關(guān)的操作耗時(shí)均延長(zhǎng),即高斯混合度越高,擬合就越精確,所需時(shí)間也就越長(zhǎng)。
圖4 不同高斯混合度下各項(xiàng)主要操作所用時(shí)長(zhǎng)
(3)MFCC下的測(cè)試系統(tǒng)運(yùn)行耗時(shí)最長(zhǎng),LPCC與LPC基本持平。隨高斯混合度的增大,使用MFCC的系統(tǒng)在運(yùn)行耗時(shí)上較LPCC與LPC的差距逐漸拉大,且差距絕大部分源于訓(xùn)練UBM的操作,其次是計(jì)算trail得分的操作,提取特征參數(shù)和UBM自適應(yīng)并無(wú)明顯時(shí)長(zhǎng)差異。
測(cè)試計(jì)劃:目標(biāo)說(shuō)話人模型—訓(xùn)練集40位說(shuō)話人的GMM模型;測(cè)試語(yǔ)音—每位說(shuō)話人1段測(cè)試語(yǔ)音,共計(jì)40×40=1 600 trials;參數(shù)設(shè)置—高斯混合度128;測(cè)試階數(shù)—取12階~18階MFCC進(jìn)行測(cè)試。
測(cè)試基于性能測(cè)試系統(tǒng)進(jìn)行。識(shí)別結(jié)果如表3所示。
表3 不同階數(shù)的特征參數(shù)下的系統(tǒng)等錯(cuò)誤率
分析:(1)文中系統(tǒng)中,結(jié)合一階差分參數(shù)的MFCC較MFCC基本上有效地提升了系統(tǒng)識(shí)別效果。使用結(jié)合二階差分參數(shù)的MFCC的系統(tǒng)識(shí)別率常低于結(jié)合一階差分參數(shù)的MFCC,有時(shí)甚至低于MFCC。
(2)對(duì)特定的模式識(shí)別方法而言,動(dòng)態(tài)參數(shù)階數(shù)的增加與提升系統(tǒng)識(shí)別效果之間沒(méi)有必然聯(lián)系。為提高系統(tǒng)識(shí)別效果而盲目堆疊靜態(tài)特征差分譜的方法并不可取,在選擇特征參數(shù)時(shí),應(yīng)通過(guò)實(shí)驗(yàn),對(duì)一類特征參數(shù)確定其語(yǔ)音特征向量的階數(shù),包括動(dòng)態(tài)參數(shù)的階數(shù),即3.1中特征參數(shù)的選擇方法第二種。
(3)動(dòng)態(tài)參數(shù)的階數(shù)越高,則組合參數(shù)的規(guī)模等比例膨脹,導(dǎo)致系統(tǒng)識(shí)別所需時(shí)間越長(zhǎng)。在選擇靜態(tài)特征參數(shù)及確定其階數(shù)和動(dòng)態(tài)參數(shù)階數(shù)時(shí),應(yīng)綜合考慮系統(tǒng)識(shí)別效果和實(shí)時(shí)處理性能。
測(cè)試計(jì)劃:目標(biāo)說(shuō)話人模型—訓(xùn)練集40位說(shuō)話人的GMM模型;訓(xùn)練語(yǔ)音—選取訓(xùn)練集每位說(shuō)話人語(yǔ)音中的一部分,累積時(shí)長(zhǎng)分別為15 s、30 s、45 s、60 s、90 s;測(cè)試語(yǔ)音—每位說(shuō)話人1段測(cè)試語(yǔ)音,長(zhǎng)度3 s;參數(shù)設(shè)置—特征參數(shù)階數(shù)均為19,高斯混合度128。
測(cè)試基于聲紋識(shí)別交互系統(tǒng)進(jìn)行。識(shí)別效果如表4所示。
表4 不同訓(xùn)練語(yǔ)音時(shí)長(zhǎng)下的系統(tǒng)識(shí)別效果
分析:高斯混合度一定的情況下,訓(xùn)練語(yǔ)音的時(shí)長(zhǎng)越長(zhǎng),系統(tǒng)的識(shí)別效果越好。GMM表征特征向量真實(shí)分布的能力與模型訓(xùn)練程度密切相關(guān)。觀察矢量越多,則訓(xùn)練越充分。其中,特征參數(shù)的階數(shù)相同時(shí),MFCC下的系統(tǒng)識(shí)別效果最好,LPCC其次,LPC最次。
測(cè)試計(jì)劃:目標(biāo)說(shuō)話人模型—訓(xùn)練集40位說(shuō)話人的GMM模型;訓(xùn)練語(yǔ)音—選取每位訓(xùn)練集說(shuō)話人語(yǔ)音中的一部分,累積時(shí)長(zhǎng)為60 s;測(cè)試語(yǔ)音—每位說(shuō)話人4段測(cè)試語(yǔ)音,長(zhǎng)度分別為3 s、5 s、7 s、9 s;參數(shù)設(shè)置—特征參數(shù)階數(shù)均為19,高斯混合度128。
測(cè)試基于聲紋識(shí)別交互系統(tǒng)進(jìn)行。識(shí)別效果如表5所示。
表5 不同測(cè)試語(yǔ)音長(zhǎng)度下的系統(tǒng)識(shí)別效果
分析:高斯混合度和訓(xùn)練集數(shù)據(jù)不變的情況下,測(cè)試語(yǔ)音的時(shí)長(zhǎng)越長(zhǎng),系統(tǒng)的識(shí)別效果越好。用于識(shí)別的觀察矢量少,則不能良好體現(xiàn)說(shuō)話人的語(yǔ)音特征,匹配精度低。其中,特征參數(shù)的階數(shù)相同時(shí),MFCC下的系統(tǒng)識(shí)別效果最好,LPCC其次,LPC最次。
基于GMM-UBM算法完成了兩類不同應(yīng)用角度的文本無(wú)關(guān)的聲紋識(shí)別系統(tǒng)構(gòu)建,并針對(duì)不同的研究?jī)?nèi)容,分別設(shè)計(jì)適合的測(cè)試計(jì)劃,選擇恰當(dāng)?shù)男阅茉u(píng)價(jià)指標(biāo),對(duì)不同的靜態(tài)特征參數(shù)、同一靜態(tài)特征與結(jié)合不同階的動(dòng)態(tài)特征參數(shù)進(jìn)行研究分析,并探討與驗(yàn)證了不同的參數(shù)選擇會(huì)對(duì)算法識(shí)別性能產(chǎn)生的影響。
進(jìn)一步的研究工作可從語(yǔ)音特征參數(shù)F比和D比的性能評(píng)價(jià)方法,或是從不同的模式識(shí)別方式著手,探討特征參數(shù)與模式識(shí)別方式結(jié)合度的概念。此外,如何選擇多種靜態(tài)特征與動(dòng)態(tài)特征的組合以及確定其階數(shù)仍是一大難題。求出組合特征參數(shù)與模式識(shí)別方式的較優(yōu)解是進(jìn)行研究工作的長(zhǎng)遠(yuǎn)目標(biāo)。