胡群威,吳明輝,李 輝
(中國科學(xué)技術(shù)大學(xué) 電子科學(xué)與技術(shù)系,安徽 合肥 230027)
?
利用時長信息提高說話人確認(rèn)系統(tǒng)的魯棒性
胡群威,吳明輝,李輝
(中國科學(xué)技術(shù)大學(xué) 電子科學(xué)與技術(shù)系,安徽 合肥 230027)
在文本無關(guān)說話人確認(rèn)領(lǐng)域,基于總差異空間的說話人確認(rèn)方法已成為主流方法,其中概率線性判別分析(Probabilistic Linear Discriminant Analysis, PLDA)因其優(yōu)異的性能受到廣泛關(guān)注。然而傳統(tǒng)PLDA模型沒有考慮注冊語音與測試語音時長失配情況下的差異信息,不能很好地解決因時長失配帶來的說話人確認(rèn)系統(tǒng)性能下降的問題。該文提出一種估計時長差異信息方法,并將此差異信息融入PLDA模型,從而提高PLDA模型對時長差異的魯棒性。在NIST數(shù)據(jù)庫上的實驗表明,所提出的方法可以較好地補償時長差異,性能上也優(yōu)于PLDA方法。
說話人確認(rèn);I-Vector系統(tǒng);概率線性判別分析;時長失配;時長差異信息
引用格式:胡群威,吳明輝,李輝. 利用時長信息提高說話人確認(rèn)系統(tǒng)的魯棒性[J].微型機(jī)與應(yīng)用,2016,35(11):51-55.
說話人確認(rèn)技術(shù)作為生物特征識別領(lǐng)域重要的研究熱點,在身份識別、人機(jī)交互和移動支付等領(lǐng)域具有廣闊的應(yīng)用前景。近年來,在高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)[1]基礎(chǔ)上,基于因子分析的方法因其優(yōu)異的性能得到研究者的廣泛關(guān)注。
在GMM-UBM框架下,說話人信息主要包含在GMM的均值超矢量[2]中。由于均值超矢量也包含信道等擾動信息,KENNY P等人提出聯(lián)合因子分析(Joint Factor Analysis,JFA)[3]方法,將均值超矢量分解為說話人與信道兩部分之和,進(jìn)而可以削弱信道的干擾。然而,均值超矢量維度過高,計算代價較高,不僅如此,JFA在進(jìn)行信道補償時也損失了一部分說話人信息[4]。鑒于JFA的缺點,DEHAK N等人提出基于總差異空間的I-Vector[5]系統(tǒng),此系統(tǒng)直接將均值超矢量壓縮成一個更加緊致的低維的矢量,同時盡可能地保留說話人信息。由于I-Vector中依然存在信道等擾動信息,參考文獻(xiàn)[6]提出概率線性判別分析(PLDA)應(yīng)用于總差異空間,可以較好地削弱信道擾動的影響,取得優(yōu)異的性能。
目前基于I-Vector的說話人確認(rèn)多集中在長時語音(一般為幾分鐘),即使用長時語音注冊,長時語音測試。但實際應(yīng)用中考慮到使用的便捷性,注冊語音往往使用長時語音,當(dāng)進(jìn)行測試時,測試語音只有幾十秒或者幾秒鐘。然而I-Vector作為極大后驗(MAP)的點估計[7],其提取依賴于充足的統(tǒng)計量,時長越短,統(tǒng)計樣本相對越少,估計得越不準(zhǔn)確。參考文獻(xiàn)[8]指出,當(dāng)語音時長足夠長(通常大于2 min),I-Vector的區(qū)分性已接近飽和,此時估計的I-Vector可認(rèn)為是準(zhǔn)確的。但是當(dāng)語音時長較短(幾秒鐘),估計得相對不可靠,其區(qū)分性能會嚴(yán)重下降。I-Vector估計不準(zhǔn)確將直接導(dǎo)致基于I-Vector的PLDA系統(tǒng)的性能下降。針對時長帶來的性能問題,國內(nèi)外學(xué)者展開了一系列的研究。參考文獻(xiàn)[9]研究了時長失配情況下時長對系統(tǒng)性能的影響。參考文獻(xiàn)[10]研究了不同語音時長的I-Vector的分布,指出時長帶來的I-Vector的估計偏差,等價于加性噪聲。參考文獻(xiàn)[11]提出短時差異規(guī)整算法(Short Utterance Variance Normalization,SUVN),對短時語音的I-Vector進(jìn)行補償,取得了一定的性能提升。
受到上述文獻(xiàn)啟發(fā),本文針對實際應(yīng)用中訓(xùn)練測試時長失配的情況,同時考慮傳統(tǒng)的PLDA系統(tǒng)沒有考慮注冊語音與測試語音時長失配情況下的差異信息,提出估計短時語音I-Vector的時長差異信息的方法,并將此信息融入到PLDA系統(tǒng)進(jìn)行補償。本文方法較好地利用時長信息,增加系統(tǒng)對時長差異的魯棒性,進(jìn)而提高系統(tǒng)的整體性能。
1.1I-Vector基線系統(tǒng)
在傳統(tǒng)GMM-UBM中,說話人的區(qū)分信息主要集中在目標(biāo)說話人GMM模型的均值超矢量中。GMM均值超矢量中既包含了說話人的信息,同時也包含了信道等干擾信息。JFA技術(shù)被用于對說話人與信道建模,然而研究表明[4],JFA中的信道因子中也包含了說話人信息。鑒于上述存在的缺點,參考文獻(xiàn)[5]提出總差異空間,將說話人與信道作為整體建模。給定目標(biāo)說話人的一段語音,則基于總差異空間的目標(biāo)說話人的GMM均值超矢量可以用式(1)表示:
M=m+Tω
(1)
其中,M為說話人的GMM均值超矢量;m為UBM均值超矢量;T為總差異空間矩陣,低秩的、矩陣的列組成總差異空間的基底;ω為總差異因子,先驗服從標(biāo)準(zhǔn)正態(tài)分布,對于每個說話人的語音段,對應(yīng)的I-Vector的提取過程即為計算總差異因子ω的極大后驗點估計。總差異空間矩陣的訓(xùn)練以及I-Vector計算參見參考文獻(xiàn)[12]。
通常,提取完I-Vector后,采用余弦評分,也就是將測試語音的I-Vector與事先注冊的說話人模型I-Vector進(jìn)行余弦值計算,如式(2)所示。
(2)
其中,ωtar表示為說話人模型的I-Vector,ωtest表示測試語音的I-Vector。
1.2高斯概率線性判別分析
忽略I-Vector的提取機(jī)制,PLDA可看作是由生成型模型產(chǎn)生的聲學(xué)特征,其生成過程可以用說話人因子與信道因子描述,不同的因子先驗假設(shè)構(gòu)成了不同的PLDA模型[6],若假設(shè)說話人因子以及信道因子均服從高斯分布,相應(yīng)的模型稱為高斯線性判別分析(GaussianPLDA,GPLDA)[6,12]。
假定第i個說話人的第j個I-Vector表示為wij,標(biāo)準(zhǔn)的GPLDA模型假設(shè)如式(3)所示:
wij=μ+Φyi+Uxij+εij
(3)
yi~N(0,I)
(4)
xij~N(0,I)
(5)
εij~N(0,Σ)
(6)
其中,μ為所有說話人的I-Vector均值,矩陣Φ表示說話人子空間,矩陣U表示信道子空間,矢量yi和xij為對應(yīng)的子空間因子,兩者統(tǒng)計獨立,并且均服從標(biāo)準(zhǔn)高斯分布,εij表示殘差,服從均值為零、協(xié)方差為對角陣Σ的高斯分布。
GPLDA模型最初用于人臉識別[12],由于其輸入特征維度較高,需要大數(shù)據(jù)樣本才能有效地估計出相應(yīng)的參數(shù),否則容易陷入過擬合。在說話人確認(rèn)中,輸入特征為I-Vector矢量,維度一般為100~600,維度相對較小,考慮模型的復(fù)雜度,簡化GPLDA模型如下:
wij=μ+Φyi+εij
(7)
這里,只是將信道部分合并到殘差中,此時εij服從均值為零、協(xié)方差為全角矩陣的高斯分布,這樣,殘差便可以包含更多的擾動信息,以此彌補合并信道因子所帶來的損失。
由于GPLDA為線性高斯模型[13],因此邊緣分布、條件分布均為高斯分布,其中邊緣分布為:
wij~N(μ,ΦΦT+Σ)
(8)
相應(yīng)的條件分布為:
wij|yi~N(μ+Φyi,Σ)
(9)
GPLDA模型參數(shù){μ,Φ,Σ}可由EM算法訓(xùn)練得到,詳細(xì)訓(xùn)練過程參見參考文獻(xiàn)[12]。
使用GPLDA建模的前提是假設(shè)I-Vector先驗服從高斯分布。然而,由于I-Vector的行為并不是服從高斯分布,而是服從長尾分布(heavy tail)[6],考慮到高斯分布經(jīng)過線性變化依然為高斯分布,所以必須對I-Vector進(jìn)行非線性變化,以削弱I-Vector的非高斯的影響。參考文獻(xiàn)[14]指出對I-Vector進(jìn)行長度規(guī)整與Whitening規(guī)整可以有效削弱其非高斯行為,從而提高GPLDA對I-Vector分布建模能力。
1.3GPLDA確認(rèn)得分計算
說話人確認(rèn)的問題可以看成一個二元假設(shè)檢驗問題,即給定兩個I-Vector:w1、w2,存在以下兩個假設(shè):
Hs:假設(shè)w1、w2是由同一個說話人生成的,則它們共享同一個說話人因子y,即:
(10)
此時的協(xié)方差為:
(11)
所以:
(12)
Hd:假設(shè)w1、w2是由不同的說話人產(chǎn)生的,則它們具有不同的說話人因子y1、y2,即:
(13)
此時的協(xié)方差為:
(14)
所以:
(15)
對于上述二元假設(shè)檢驗可以使用兩個高斯函數(shù)的對數(shù)似然比作為最后的得分:
(16)
使用GPLDA對說話人以及其他擾動進(jìn)行建模,其中殘差項刻畫了擾動因子的行為。由式(16)可以看出,得分函數(shù)是對稱的,即注冊語音與測試語音是可以交換位置的,不會影響得分,主要原因為注冊語音與測試語音是在相同的擾動假設(shè)下而得出的[15]。然而,對于注冊語音為長時語音,測試為短時語音的時長失配的情況,顯然直接使用GPLDA評分是不夠精確的??紤]到I-Vector只是總差異因子的極大后驗點估計,估計的準(zhǔn)確度取決于后驗分布的協(xié)方差。對于同一個說話人,其長時語音段的I-Vector估計得相對準(zhǔn)確,也就是說,由時長引起的擾動較小,而短時語音段的I-Vector估計得相對不可靠,由時長引起的擾動較大,總之,對于同一個說話人,語音時長越短,對應(yīng)I-Vector的GPLDA模型將趨向于產(chǎn)生越大的殘差協(xié)方差。
2.1融入時長差異信息的GPLDA
由于注冊語音為長時語音,其對應(yīng)的I-Vector估計相對準(zhǔn)確,而當(dāng)測試語音為短時語音時,其估計的I-Vector存在相對較大的不確定度,假設(shè)服從如下分布:
(17)
=∫N(w,Σ′)N(w;μ+Φy,Σ)dw
=N(w;μ+Φy,Σ+Σ′)
(18)
假設(shè)長時注冊語音與短時測試語音對應(yīng)的I-Vector分別為w1、w2,當(dāng)它們是由同一個說話人生成的,則由式(11)和式(18)可得此時的協(xié)方差為:
(19)
當(dāng)它們是由不同說話人生成的,則由式(13)和式(18)可得此時的協(xié)方差:
(20)
由式(19)和式(20)重寫對數(shù)似然比得分公式:
(21)
此時的得分公式(21)針對短時語音的I-Vector融入了時長差異信息,更加精確地刻畫了短時語音的行為,而且從式(21)可以看出,注冊語音與測試語音的I-Vector是不可交換的,這是因為刻畫兩者擾動行為的殘差項不再是同一假設(shè)。
2.2時長差異信息的估計
為了捕捉短時語音的時長差異信息,本文使用了大量開發(fā)集數(shù)據(jù)以及從中截短得到短時語音,將長時語音對應(yīng)的I-Vector與短時語音對應(yīng)的I-Vector的差異作為時長差異信息的度量,即式(22)所示:
(22)
其中,wfull為長時語音的I-Vector,wshort為從長時語音截短的短時語音的I-Vector,使用式(22)可以近似估計短時語音的時長差異信息,并將此信息融入GPLDA模型。
本文分別構(gòu)建了I-Vector余弦評分的基線系統(tǒng)、GPLDA系統(tǒng)以及改進(jìn)的GPLDA系統(tǒng)。實驗所用到的語料均來自NIST[16]數(shù)據(jù)庫的電話信道語音。
3.1訓(xùn)練數(shù)據(jù)及參數(shù)配置
實驗采用39維美爾倒譜系數(shù)(MFCC)作為特征參數(shù)。訓(xùn)練UBM的數(shù)據(jù)取自NIST05和NIST06男性電話信道數(shù)據(jù)集,共5 200條5min時長的訓(xùn)練語音,切過靜音后大約2min,UBM采用512個高斯混合,每個高斯的協(xié)方差矩陣為對角陣。使用相同的數(shù)據(jù)訓(xùn)練總差異矩陣T,采用隨機(jī)初始化矩陣,迭代8次,最終得到19 968×200維的矩陣T。訓(xùn)練PLDA的數(shù)據(jù)取自NIST08中共300個說話人,每人10段語音,訓(xùn)練PLDA前,要對I-Vector進(jìn)行Whiten規(guī)整以及長度規(guī)整,說話人因子數(shù)為100。使用NIST08中的300個說話人,并從中截短至30s、10s和5s三種情況以及全時長(full),用于估計對應(yīng)的時長差異信息。
3.2系統(tǒng)性能評估標(biāo)準(zhǔn)
實驗的評測標(biāo)準(zhǔn)采用等誤識率(EqualErrorRate,EER)和NIST評測中檢測代價函數(shù)(DetectionCostFunction,DCF)。EER是錯誤拒絕率(FalseRejectionrate,FR)和錯誤接受率(FalseAcceptancerate,FA)相等的值。檢測代價函數(shù)定義為FA和FR的加權(quán)和:
DCF=Cfr×FR×Ptar+Cfa×FA×(1-Ptar)
(23)
其中Cfr和Cfa分別是錯誤拒絕和錯誤接受的代價,Ptar為真實說話人出現(xiàn)的先驗概率,在NIST的評測任務(wù)中的定義為Cfa=1,Cfr=10,Ptar=0.01,以最小檢測代價函數(shù)(minDCF)作為系統(tǒng)性能的評測標(biāo)準(zhǔn)。
3.3實驗結(jié)果
表1給出了基線系統(tǒng)在不同測試時長下的EER和MinDCF。從表1的數(shù)據(jù)可以發(fā)現(xiàn),基線系統(tǒng)在測試時長為全時長時,性能最佳,隨著測試時長變短,性能會大幅下降。
表2給出了GPLDA在不同測試時長的EER和MinDCF。從表2的數(shù)據(jù)同樣可以看出,GPLDA系統(tǒng)性能隨著時長變短而下降,與表1的數(shù)據(jù)作對比,當(dāng)測試時長為全時長時,GPLDA系統(tǒng)性能相對提高了57%,當(dāng)測試時長變短,GPLDA系統(tǒng)的性能平均相對提升了40%,特別是當(dāng)測試時長為5 s時,性能相對提升只有32%,遠(yuǎn)小于全時長的性能提升。這表明GPLDA并不能很好地對時長信息進(jìn)行建模。
表1 基線系統(tǒng)的EER和MinDCF時長/sEER/%MinDCF55.210.0159103.650.0115302.780.0089full2.240.0082表2 GPLDA系統(tǒng)[9]的EER和MinDCF時長/sEER/%MinDCF53.510.0141102.250.0093301.380.0055full0.960.0047
表3 改進(jìn)系統(tǒng)的EER和MinDCF
表3給出了本文改進(jìn)系統(tǒng)在不同測試時長下的EER和MinDCF。表3與表2作對比可以發(fā)現(xiàn),當(dāng)測試時長為全時長時,改進(jìn)系統(tǒng)與傳統(tǒng)GPLDA系統(tǒng)的性能幾乎沒有發(fā)生變化,當(dāng)測試語音時長變短,改進(jìn)系統(tǒng)相對于傳統(tǒng)GPLDA系統(tǒng),性能平均提升7.2%,這表明改進(jìn)系統(tǒng)利用時長信息可以有效地對時長失配進(jìn)行補償。
本文考慮到注冊語音與測試語音時長失配情況下的差異信息,提出估計時長差異信息的方法,并將此差異信息融入PLDA模型,從而提高PLDA模型對時長差異的魯棒性。在NIST數(shù)據(jù)集上的實驗證實,本文的方法相對于基線系統(tǒng)性能平均提升47.5%,相對于PLDA模型系統(tǒng)也有平均7.2%的提升。
[1] REYNOLDS D A, QUATIERI T F, DUNN R B. Speaker verification using adapted Gaussian mixture models [J]. Digital Signal Processing, 2000, 10(1): 19-41.
[2] CAMPBELL W M, STURIM D E, REYNOLDS D A. Sup port vector machines using GMM supervectors for speaker verification[J]. Signal Processing Letters, IEEE, 2006, 13(5): 308-311.
[3] KENNY P, BOULIANNE G, OUELLET P, et al. Joint factor analysis versus eigenchannels in speaker recognition[J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2007, 15(4): 1435-1447.
[4] DEHAK N. Discriminative and generative ap proaches for long-and short-term speaker characteristics modeling: application to speaker verification[D]. Canada: Ecole de Technologie Superieure, 2009.
[5] DEHAK N, KENNY P, DEHAK R, et al. Front-end factor analysis for speaker verification[J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2011, 19(4): 788-798.
[6] KENNY P. Bayesian speaker verification with heavy-tailed priors[C].Odyssey Speaker and Language Recogntion Workshop, 2010: 14.
[7] CUMANI S, PLCHOT O, LAFACE P. On the use of i-vector posterior distributions in Probabilistic Linear Discriminant Analysis[J]. Audio, Speech, and Language Processing, IEEE/ACM Transactions on, 2014, 22(4): 846-857.
[8] RAO W, MAK M W. Boosting the performance of i-vector based speaker verification via utterance partitioning [J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2013, 21(5): 1012-1022.
[9] SARKAR A K, MATROUF D, BOUSQUET P M, et al. Study of the effect of i-vector modeling on short and mismatch utterance duration for speaker verification[C].Interspeech, 2012: 2662-2665.
[10] HASAN T, SAEIDI R, HANSEN J H L, et al. Duration mismatch compensation for i-vector based speaker recognition systems[C].Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013: 7663-7667.
[11] KANAGASUNDARAM A, DEAN D, SRIDHARAN S, et al. Improving short utterance i-vector speaker verification using utterance variance modelling and compensation techniques[J]. Speech Communication, 2014, 59: 69-82.
[12] PRINCE S J D, ELDER J H. Probabilistic linear dis criminant analysis for inferences about identity[C].Computer Vision, 2007. ICCV 2007. IEEE 11th International Conference on. IEEE, 2007: 1-8.
[13] BISHOP C M. Pattern recognition and machine learning [M]. springer, 2006.
[14] GARCIA-ROMERO D, ESPY-WILSON C Y. Analysis of i-vector length normalization in speaker recognition systems[C].Interspeech, 2011: 249-252.
[15] CHEN L, LEE K A, MA B, et al. Channel adaptation of plda for text-independent speaker verification[C].Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on. IEEE, 2015: 5251-5255.
[16] NIST. The NIST 2006 speaker recognition evaluation [EB/OL].(2006-xx-xx)[2016-01-04]http://www.itl.nist.gov/iad/mig/test/sre/2006/index.html,2006.
Utilizing duration information to improve the robustness of speaker verification system
Hu Qunwei,Wu Minghui,Li Hui
(Department of Electronic Science and Technology, University of Science and Technology of China, Hefei 230027, China)
The approaches based on total variability space have become popular in text-independent speaker verification, and the probabilistic linear discriminant analysis (PLDA) has attracted much attention because of its promising performance. However the traditional PLDA model don’t consider duration information between enrollment utterance and test utterance under the duration mismatch, thus it can’t solve the problem of system performance degradation incurred by duration mismatch. In this paper, a method is proposed to estimate duration variance information, where the duration variance information is integrated into the PLDA model, resulting in improving robustness to duration variability. Experiments on NIST database show that the proposed method is more effective to improve the performance of speaker verification system compared to the PLDA method.
speaker verification; I-Vector system; Probabilistic Linear Discriminant Analysis(PLDA); duration mismatch; duration variance information
TP391
A
10.19358/j.issn.1674- 7720.2016.11.017
2016-01-14)
胡群威(1989-),通信作者,男,碩士研究生,主要研究方向:說話人識別。E-mail:hqw2607@mail.ustc.edu.cn。
吳明輝(1990-),男,碩士研究生,主要研究方向:說話人識別。
李輝(1959-),男,博士,副教授,主要研究方向:語音信號處理,電子系統(tǒng)設(shè)計。