尹主峰,徐志京
(上海海事大學(xué) 信息工程學(xué)院,上海 201306)
基于DAE-RBM-PLDA的說話人確認(rèn)信道補(bǔ)償技術(shù)*
尹主峰,徐志京
(上海海事大學(xué) 信息工程學(xué)院,上海 201306)
在說話人識別系統(tǒng)中,一種結(jié)合深度神經(jīng)網(wǎng)路(DNN)、身份認(rèn)證矢量(i-vector)和概率線性鑒別分析(PLDA)的模型被證明十分有效。為進(jìn)一步提升PLDA模型信道補(bǔ)償?shù)男阅?,將降噪自動編碼器(DAE)和受限玻爾茲曼機(jī)(RBM)以及它們的組合(DAE-RBM)分別應(yīng)用到信道補(bǔ)償PLDA模型端,降低說話人i-vector空間信道信息的影響。實(shí)驗(yàn)表明相比標(biāo)準(zhǔn)PLDA系統(tǒng),基于DAE-PLDA和RBM-PLDA的識別系統(tǒng)的等錯(cuò)誤率(EER)和檢測代價(jià)函數(shù)(DCF)都顯著降低,結(jié)合兩者優(yōu)勢的DAE-RBM-PLDA使系統(tǒng)識別性能得到了進(jìn)一步提升。
說話人識別;i-vector;降噪自動編碼器;受限玻爾茲曼機(jī)
說話人識別屬于生物特征識別技術(shù)的一種,是一項(xiàng)從說話人語音中提取有效特征信息進(jìn)行說話人識別的技術(shù)。比較流行的說話人識別模型是建立在以混合高斯模型-通用背景模型(GMM-UBM)[1]的基礎(chǔ)上。隨后Patrick等人提出聯(lián)合因子分析(JFA)[2],Najim 等提出全局差異空間因子( i-vector)[3]等建模方法。當(dāng)前i-vector已成為文本無關(guān)的說話人識別最有效的技術(shù),這個(gè)框架可以被分為3個(gè)步驟:(1)利用GMM-UBM把語音聲學(xué)特征序列表示成充分統(tǒng)計(jì)量;(2)轉(zhuǎn)換成低維的特征向量i-vector,提取i-vector;(3)使用PLDA模型進(jìn)行信道補(bǔ)償并通過比較不同語音段的i-vector產(chǎn)生驗(yàn)證分?jǐn)?shù)得出判決結(jié)果。
近年來,深度神經(jīng)網(wǎng)路DNN被成功應(yīng)用于語音識別領(lǐng)域[4]。在說話人識別領(lǐng)域,Lei等[5]利用DNN對語音特征根據(jù)音素分類到不同音素空間中,然后在每個(gè)空間中對特征降維提取出不同發(fā)音的聲學(xué)特征,提出基于DNN的i-vector。該模型把UBM中計(jì)算各類后驗(yàn)概率的方法利用DNN輸出層Softmax的輸出來表示,為說話人確認(rèn)帶來顯著的性能提升。
降噪自動編碼器(DAE)可通過訓(xùn)練從損壞的數(shù)據(jù)重構(gòu)出原始數(shù)據(jù)。把說話人的特征表示i-vector受說話人信道信息的影響看成是受損的數(shù)據(jù)。因此通過DAE重構(gòu)的方法進(jìn)行信道補(bǔ)償可以獲得更加魯棒的效果,產(chǎn)生抗噪能力,從而降低說話人的信道差異性。在文獻(xiàn)[6]中,基于RBM-PLDA的信道補(bǔ)償技術(shù)被證明性能優(yōu)于傳統(tǒng)PLDA。RBM通過分離出說話人信息和信道信息重構(gòu)i-vector,然后把包含說話人信息的因子應(yīng)用于PLDA端進(jìn)行比較。本文結(jié)合DAE和RBM各自的優(yōu)點(diǎn)提出基于DAE-RBM-PLDA的信道補(bǔ)償方法,從而進(jìn)一步降低說話人信道多樣性的影響。
1.1 GMM i-vector技術(shù)
i-vector因子分析模型將說話人差異空間與信道差異空間作為一個(gè)整體進(jìn)行建模。模型建立在GMM-UBM所表示的均值超矢量之上。說話人的一段語音相對應(yīng)的均值超矢量可以分解為下式:
M=m+Tω
(1)
其中,m為UBM的均值超矢量,T為低秩的全局差異空間矩陣,ω為全局差異空間因子,它的后驗(yàn)均值即為i-vector矢量。
在i-vector的提取過程中需要使用EM算法估計(jì)全局差異空間矩陣T,提取Baum—Welch統(tǒng)計(jì)量,說話人s的語音段h在第j個(gè)GMM混合成分的零階統(tǒng)計(jì)量和一階統(tǒng)計(jì)量分別為:
(2)
(3)
(4)
然后進(jìn)行如下計(jì)算即可得到對應(yīng)的i-vector:
ωh=E[Wh]=I-1TT∑-1Fh
(5)
1.2 DNN i-vector技術(shù)
GMM具有強(qiáng)大的擬合能力,但它不能有效地對非線性或近似非線性的數(shù)據(jù)進(jìn)行建模是它的不足之處。因此DNN被應(yīng)用于聲學(xué)建模中,DNN的多層非線性結(jié)構(gòu)使其具有強(qiáng)大的表征能力,它使用無監(jiān)督生成式算法進(jìn)行預(yù)訓(xùn)練,然后使用反向傳播算法進(jìn)行參數(shù)微調(diào)。
DNN由輸入層、多隱藏層和Softmax輸出層構(gòu)成。Softmax層給出的是綁定三因素狀態(tài)類在語音幀上的后驗(yàn)概率P(j|xt) ,它被用作對應(yīng)高斯上的占有率,代入式(2)和式(3)可以估計(jì)出DNN i-vector的零階統(tǒng)計(jì)量和一階統(tǒng)計(jì)量,然后根據(jù)式(5)提取i-vcetor。基于DNN的i-vector提取過程及判別過程如圖1所示。
圖1 基于DNN的說話人識別系統(tǒng)流程圖
2.1 PLDA模型
PLDA是一種基于i-vector的信道補(bǔ)償算法,i-vector特征包含說話人信息和信道信息。要提取說話人信息,所以需要進(jìn)行信道補(bǔ)償,去除信道的干擾。經(jīng)過簡化的PLDA被證明是信道補(bǔ)償?shù)挠行Х椒╗7]。簡化的PLDA模型如下式所示:
ωsh=μ+Vys+zsh
(6)
其中,ωsh表示第s個(gè)人第h段語音的i-vector,μ為所有訓(xùn)練數(shù)據(jù)的均值,矩陣V描述說話人的子空間,表征說話人類間差異,ys為隱藏說話人因子,zsh為殘差噪聲。以上參數(shù)滿足如下分布:
ys~N(0,1)
(7)
zsh~N(0,D)
(8)
PLDA訓(xùn)練階段的目的是根據(jù)一定樣本的說話人語音數(shù)據(jù)集用EM算法估計(jì)出模型需要的參數(shù)θ={μ,V,D}。模型訓(xùn)練好之后進(jìn)行識別打分,給定相同說話人注冊和測試的i-vector分別為ωe和ωs,采用下式計(jì)算似然比分?jǐn)?shù):
(9)
其中H0表示ωe和ωs來自同一說話人,H1表示來自不同說話人。計(jì)算兩個(gè)高斯函數(shù)的似然比作為得分進(jìn)行最終判決。
2.2 基于DAE和RBM的PLDA
降噪自編碼器(DAE)是一種通過特殊訓(xùn)練得到的自編碼器。在輸入中接受受損數(shù)據(jù)作為輸入,并訓(xùn)練來預(yù)測原始未損壞數(shù)據(jù)作為輸出的自動編碼器,使其產(chǎn)生抗噪能力,從而得到更加魯棒的數(shù)據(jù)重構(gòu)效果。DAE的訓(xùn)練過程如圖2所示。引入一個(gè)損壞過程C(y|x),這個(gè)條件代表給定數(shù)據(jù)x產(chǎn)生損壞樣本y的概率。自動編碼器假設(shè)x是原始輸入,降噪自動編碼器利用C(y|x)引入損壞樣本y。然后把y當(dāng)作帶噪聲的損壞輸入,把x當(dāng)作輸出,對自編碼進(jìn)行學(xué)習(xí)訓(xùn)練。把DAE應(yīng)用到說話人識別系統(tǒng)后端模型最早在文獻(xiàn)[8]中被提出,本文將在此基礎(chǔ)上繼續(xù)探討進(jìn)一步提升系統(tǒng)性能。在本系統(tǒng)中把說話人的i-vector受說話人信道信息的影響看成受損的數(shù)據(jù),其訓(xùn)練可簡化為如下過程。
圖2 DAE結(jié)構(gòu)原理圖
圖3 RBM預(yù)訓(xùn)練
實(shí)驗(yàn)中DAE的訓(xùn)練過程是先按圖3進(jìn)行RBM預(yù)訓(xùn)練。隱含層神經(jīng)元取二進(jìn)制值并服從伯努利分布,可見層神經(jīng)元連接兩個(gè)服從高斯分布的實(shí)數(shù)值向量i(s)和i(s,h)作為輸入。其中向量i(s)表示說話人s的所有語音段的平均i-vector,向量i(s,h)表示從說話人s的第h段語音提取的i-vector。RBM的訓(xùn)練用CD算法[9],權(quán)重矩陣參數(shù)V、W用來初始化DAE模型。
預(yù)訓(xùn)練之后把模型展開成如圖4所示,此模型可以看作標(biāo)準(zhǔn)DAE模型來重建i-vector。輸出端采用說話人平均i-vector降低說話人信道信息的差異性。之后采用反向傳播算法對網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)優(yōu)。DAE的輸出經(jīng)白化和長度規(guī)整處理后可直接作為標(biāo)準(zhǔn)PLDA模型的輸入(DAE-PLDA)進(jìn)行得分驗(yàn)證并根據(jù)事先設(shè)定的閾值進(jìn)行判決。
RBM是一種由隨機(jī)性的一層可見層神經(jīng)元和一層隱藏神經(jīng)元所構(gòu)成的無向圖模型。它可以作用于PLDA信道補(bǔ)償端,隱藏層被分解為說話人信息因子和信道信息因子,如圖5所示。采用文獻(xiàn)[6]類似的算法進(jìn)行訓(xùn)練,不同之處是為保持與前文DAE預(yù)訓(xùn)練時(shí)隱藏層數(shù)值類型一致,這里隱藏層采用二進(jìn)制數(shù)值并服從高斯伯努利分布。進(jìn)入識別階段,可見層輸入說話人的i-vector,輸出端包含說話人信息的說話人因子作為PLDA模型(RBM-PLDA)的輸入來進(jìn)行得分比較。
圖4 DAE
圖5 RBM-PLDA
由以上分析可知,基于DAE是無損轉(zhuǎn)換和RBM的有效特征提取原理??紤]使用DAE和RBM混合的方法,第一層為DAE,經(jīng)白化和長度規(guī)整技術(shù)處理后輸出作為RBM的輸入,RBM與標(biāo)準(zhǔn)PLDA結(jié)合后組成判別模型,記為DAE-RBM-PLDA。系統(tǒng)框圖如圖6所示。
圖6 PLDA、DAE-PLDA、RBM-PLDA、DAE-RBM-PLDA流程
本文采用TIMIT語料庫作為實(shí)驗(yàn)語音數(shù)據(jù)庫,采用等錯(cuò)誤率(EER)和檢測代價(jià)函數(shù)(DCF)作為性能評價(jià)指標(biāo)。
在UBM i-vector系統(tǒng)中使用MFCC加一維能量及其一、二階差分共39維MFCC特征。語音幀長25 ms,幀移10 ms。DNN i-vector系統(tǒng)中DNN說話人特征為40維Filter Bank特征以及一、二階差分共120維。DNN共5個(gè)隱藏層,每層2 048個(gè)結(jié)點(diǎn)。首先比較了標(biāo)準(zhǔn)PLDA模型在UBM i-vector和DNN i-vector系統(tǒng)下的性能,實(shí)驗(yàn)證明DNN系統(tǒng)的識別性能比GMM-UBM系統(tǒng)顯著提高。之后以DNN i-vector的PLDA為基線系統(tǒng),性能對比如圖7和表1所示。
由表1實(shí)驗(yàn)結(jié)果可以看到,相對于標(biāo)準(zhǔn)PLDA模型系統(tǒng),應(yīng)用深度學(xué)習(xí)模型的DAE-PLDA和RBM-PLDA后端信道補(bǔ)償模型等錯(cuò)誤率和檢測代價(jià)函數(shù)都顯著降低。將兩者結(jié)合后的DAE-RBM-PLDA模型,性能提升更加明顯,相對于基線系統(tǒng)性能提升了14.5%,體現(xiàn)了該信道補(bǔ)償方法的有效性。
圖7 模型性能柱狀圖
表1 PLDA、DAE-PLDA、RBM-PLDA、DAE-RBM-PLDA性能比較
本文結(jié)合DAE和RBM的優(yōu)點(diǎn)提出了基于DAE-RBM-PLDA的說話人確認(rèn)信道補(bǔ)償方法。該方法先把經(jīng)過白化和長度規(guī)整技術(shù)處理的i-vector進(jìn)行RBM預(yù)訓(xùn)練并初始化DAE模型,DAE的輸出為說話人所有語音段的平均i-vector,從而降低了說話人信道信息的影響。然后與RBM相結(jié)合,把DAE的輸出i-vector作為RBM的輸入,隱含層重構(gòu)分離出說話人信息和說話人信道信息,選擇實(shí)驗(yàn)需要的說話人信息進(jìn)行后端PLDA最終的似然比分?jǐn)?shù),進(jìn)一步降低了說話人的信道差異性。在TIMIT數(shù)據(jù)集上的說話人確認(rèn)實(shí)驗(yàn)表明結(jié)合了DAE和RBM兩者優(yōu)勢的DAE-RBM-PLDA模型,可有效提高識別率。
[1] REYNOLDS D A, QUATIERI T F, DUNN R B. Speaker verification using adapted Gaussian mixture models[J]. Digital Signal Processing, 2000, 10(1-3): 19-41.
[2] KENNY P,OUELLET P,DEHAK N,et al. A study of interspeakervariability in speaker verification[J]. IEEE Transaction on Audio,Speech, and Language Processing, 2008,16(5): 980-988.
[3] DEHAK N,KENNY P,DEHAK R,et al. Front-end factor analysis for speaker verification[J]. IEEE Transactions on Audio,Speech,and Language Processing,2011,19(4): 788-798.
[4] HINTON G, DENG L, YU D, et al. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups[J]. IEEE Signal Processing Magazine, 2012, 29(6): 82-97.
[5] VARIANI E, LEI X, MCDERMOTT E, et al. Deep neural networks for small footprint text-dependent speaker verification[C]. 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2014: 4052-4056.
[6] STAFYLAKIS T, KENNY P, SENOUSSAOUI M, et al. PLDA using gaussian restricted boltzmann machines with application to speaker verification[C].Interspeech, 2012: 1692-1695.
[7] GARCIA-ROMERO D, ESPY-WILSON C Y. Analysis of i-vector length normalization in speaker recognition systems[C].Interspeech, 2011: 249-252.
[8] NOVOSELOV S, PEKHOVSKY T, KUDASHEV O, et al. Non-linear PLDA for i-vector speaker verification[C].Interspeech, 2015: 214-218.
[9] HINTON G E. A practical guide to training restricted boltzmann machines[M].Neural Networks: Tricks of the Trade. Springer Berlin Heidelberg, 2012: 599-619.
Technology of speaker verification channel compensation based on DAE-RBM-PLDA
Yin Zhufeng, Xu Zhijing
(College of Information Engineering, Shanghai Maritime University, Shanghai 201306, China)
A hybrid model combining the deep neural network (DNN), i-vector and probabilistic linear discriminant analysis (PLDA) has been shown effective in the system of speaker recognition. In order to improve the performance of PLDA recognition model, the denoising autoencoder (DAE) and restricted boltzmann machine(RBM) and the combination of them(DAE-RBM) are used to channel compensation on PLDA model to minimize the effect of the speaker i-vector space channel information. The experiment showed that the recognition system based on DAE-PLDA and RBM-PLDA is significantly decreased than the standard PLDA for the equal error rate(EER) and detection function(DCF). The DAE-RBM-PLDA which combined with the advantages of them makes the performance of the recognition system has been further improved.
speaker recognition; i-vector; denoising autoencoders; restricted boltzmann machine
國家自然科學(xué)基金項(xiàng)目(61404083)
TP391
A
10.19358/j.issn.1674- 7720.2017.15.018
尹主峰,徐志京.基于DAE-RBM-PLDA的說話人確認(rèn)信道補(bǔ)償技術(shù)[J].微型機(jī)與應(yīng)用,2017,36(15):62-64,72.
2017-03-02)
尹主峰(1986-),男,碩士研究生,主要研究方向:智能信息處理。
徐志京(1972-),男,工學(xué)博士,副教授,主要研究方向:無線通信和導(dǎo)航技術(shù)、人工智能、深度學(xué)習(xí)。