梁玉龍,屈 丹,邱澤宇
(解放軍信息工程大學(xué) 信息系統(tǒng)工程學(xué)院,鄭州 450002)
近年來,在連續(xù)語音識別應(yīng)用中存在一個難以忽視的問題,即由訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)間的說話人不匹配導(dǎo)致的系統(tǒng)性能下降。雖然基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)[1-5]的語音識別系統(tǒng)極大地提升了語音識別的性能,但在該類系統(tǒng)中仍然存在一個隱含假設(shè):訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)服從相同的概率分布,該假設(shè)在實(shí)際中很難滿足,主要原因是訓(xùn)練階段難以獲得與測試環(huán)境相匹配的數(shù)據(jù),或匹配數(shù)據(jù)較少,通常不能對應(yīng)用場景進(jìn)行全覆蓋,使得訓(xùn)練和測試的條件仍存在不匹配的問題。
可以使用說話人自適應(yīng)技術(shù)解決模型和測試間說話人不匹配的問題,對此,許多研究機(jī)構(gòu)已經(jīng)做了大量關(guān)于DNN自適應(yīng)方面的研究。這些方法中,文獻(xiàn)[6-12]中基于辨識向量(i-vector)的說話人感知訓(xùn)練方法備受青睞,其基本思想是將i-vector和原始輸入特征拼接后對DNN模型進(jìn)行訓(xùn)練,該方法操作簡單且容易與其他自適應(yīng)方法兼容。上述文獻(xiàn)主要關(guān)注純凈語音條件下的基于i-vector的說話人感知訓(xùn)練方法,文獻(xiàn)[13-15]則研究噪聲條件下基于i-vector的自適應(yīng)方法,研究結(jié)果顯示基于i-vector的說話人感知訓(xùn)練方法同樣適用于噪聲條件。
雖然學(xué)者們針對基于i-vector的說話人感知訓(xùn)練做了大量研究,但由于在獲取i-vector的過程中常使用MFCC作為特征,MFCC雖然具有較好的表征能力和一定的魯棒性,但其低層特征表征能力有限,且在惡劣環(huán)境中的魯棒性欠佳,導(dǎo)致用其提取的i-vector表征能力受到影響。一些研究機(jī)構(gòu)試圖應(yīng)用其他魯棒性更強(qiáng)的特征代替MFCC特征來獲取性能更優(yōu)的i-vector,其中優(yōu)先考慮的是瓶頸(bottleneck)特征[16],該特征的表征能力和魯棒性均優(yōu)于MFCC,因此,其受到各研究機(jī)構(gòu)的普遍青睞,但由于在提取bottleneck特征時,在DNN結(jié)構(gòu)中引入了bottleneck層,該策略降低了DNN的幀分類準(zhǔn)確率,使得系統(tǒng)的識別性能受到一定的影響。
針對上述問題,本文提出一種基于改進(jìn)i-vector的說話人感知訓(xùn)練方法,其主要特點(diǎn)是在獲取i-vector的過程中替換掉傳統(tǒng)特征MFCC。首先,訓(xùn)練一個與說話人無關(guān)的DNN模型;然后,應(yīng)用奇異值矩陣分解(Singular Value Matrix Decomposition,SVMD)算法對DNN某一隱層的權(quán)值矩陣進(jìn)行分解,用分解后的矩陣代替原始權(quán)值矩陣,并應(yīng)用該網(wǎng)絡(luò)提取低維特征;最后,應(yīng)用該特征完成i-vector提取器的訓(xùn)練與i-vector的提取,進(jìn)行說話人感知訓(xùn)練。
將說話人信息輸入到DNN后,DNN能自動利用說話人信息對網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整,該方法稱為說話人感知訓(xùn)練[17]。
說話人感知訓(xùn)練方法即從句子中估計說話人信息,然后將這些信息輸入到網(wǎng)絡(luò)中,通過DNN訓(xùn)練算法自動理解如何利用這些說話人信息完成模型參數(shù)的調(diào)整。圖1所示為說話人感知訓(xùn)練過程示意圖,DNN的輸入包括聲學(xué)特征和說話人信息2個部分,其余部分與DNN模型相同。
圖1 基于i-vector的說話人感知訓(xùn)練過程
當(dāng)輸入特征不包含說話人信息時,第一個隱層的激勵為:
v1=f(z1)=f(W1v0+b1)
(1)
其中,v0表示輸入聲學(xué)特征向量,W1表示權(quán)值矩陣,b1表示偏置向量,z1表示輸入聲學(xué)特征向量的線性變換。當(dāng)加入說話人信息后,式(1)變?yōu)?
(2)
說話人感知訓(xùn)練的優(yōu)點(diǎn)是其暗含、高效的自適應(yīng)過程。由式(2)可以看出,說話人感知訓(xùn)練算法無需單獨(dú)的自適應(yīng)步驟,其自適應(yīng)過程可以理解為對偏置項(xiàng)做的變換,該過程使得模型對不同的說話人都適用。如果能夠可靠地將說話人信息估計出來,則說話人感知訓(xùn)練將在DNN自適應(yīng)框架中具有優(yōu)勢。
i-vector技術(shù)在說話人識別及說話人確認(rèn)中作為說話人信息矢量被廣泛應(yīng)用,該技術(shù)之所以有如此廣泛的應(yīng)用,原因主要有以下2點(diǎn):1) i-vector表示了說話人特征中最重要的信息,且其值是低維的;2) i-vector不僅可以用于GMM模型的自適應(yīng),也可以用于DNN模型的自適應(yīng)。因此,i-vector可以作為說話人自適應(yīng)的一個理想工具。下文介紹i-vector的計算推導(dǎo)過程[17]。
i-vector提取首先需要訓(xùn)練一個通用背景模型(Universal Background Model,UBM),UBM是一個由K個對角協(xié)方差高斯組成的高斯混合模型,用來描述整個數(shù)據(jù)空間的分布,該模型可以表示為:
(3)
(4)
其中,μk(s)表示第s個說話人從UBM自適應(yīng)得到的屬于第k個高斯分布的均值。進(jìn)一步假設(shè)自適應(yīng)后的說話人均值s與均值μk存在如下關(guān)系:
μk(s)=μk+Tkw(s),1≤k≤K
(5)
其中,Tk表示全變換空間矩陣,其包含M個基矢量,這些基矢量組成了高斯均值向量空間的一個子空間,該子空間包含整個均值向量空間最核心的部分,w(s)表示第s個說話人的i-vector。
i-vector是一個隱含變量,如果假設(shè)i-vector滿足均值為0、方差為單位方差的高斯分布,且每一幀都屬于某一固定的高斯分量,同時全變換空間矩陣T是已知的,則可以估計后驗(yàn)概率分布如下:
(6)
(7)
零階與一階統(tǒng)計量分別為:
(8)
(9)
其中,γtk(s)是第s個說話人的第t幀特征序列屬于第k個高斯分量的后驗(yàn)概率。i-vector可以看作是變量W在最大后驗(yàn)概率(MAP)下的點(diǎn)估計:
(10)
由式(10)可以看出,i-vector就是后驗(yàn)分布的均值。
由于{Tk|1≤k≤K}是未知的,因此需要使用期望最大化(Expectation Maximization,EM)算法從特定說話人的聲學(xué)特征{xt(s)}中,根據(jù)最大似然(Maximum Likelihood,ML)準(zhǔn)則來進(jìn)行估計。其中,EM算法的E(Expectation)步驟的輔助函數(shù)為:
(11)
式(11)等價于:
(12)
將式(12)對Tk求導(dǎo)后可以得到EM算法的M(Maximization)步驟:
(13)
其中,式(14)與式(15)通過E步驟得到。
(14)
(15)
傳統(tǒng)的i-vector提取方法用MFCC作為輸入特征,為使i-vector的魯棒性更強(qiáng),一些研究機(jī)構(gòu)利用bottleneck特征代替MFCC特征,實(shí)現(xiàn)i-vector提取器的訓(xùn)練與i-vector的提取。但在提取bottleneck特征時,設(shè)置的DNN網(wǎng)絡(luò)bottleneck層節(jié)點(diǎn)數(shù)遠(yuǎn)小于其他隱層節(jié)點(diǎn)數(shù),導(dǎo)致系統(tǒng)的幀分類準(zhǔn)確率受到影響,為此,本文提出應(yīng)用基于SVD的低維特征提取方法得到低維特征,用其代替MFCC特征完成i-vector提取器的訓(xùn)練與i-vector的提取。
目前研究DNN模型的矩陣分解方法主要關(guān)注神經(jīng)網(wǎng)絡(luò)的參數(shù)減少,如文獻(xiàn)[18]提出的思想。這些方法分解DNN模型的權(quán)值,利用低秩分解或SVD減少神經(jīng)網(wǎng)絡(luò)無用參數(shù)的數(shù)量,但其重構(gòu)的神經(jīng)網(wǎng)絡(luò)在識別精度上沒有太大變化。基于SVD的低維特征提取方案如圖2所示,該方法使用SVD對某一隱層的權(quán)值矩陣進(jìn)行分解(該權(quán)值矩陣不包括偏移向量),將分解后得到的基矩陣代替原始矩陣,然后應(yīng)用新的網(wǎng)絡(luò)提取低維特征。
圖2 基于SVD的低維特征提取方法示意圖
采用基于SVD的低維特征提取方法的原因有2點(diǎn):
1)因?yàn)闊o法直接對隱層的線性輸出進(jìn)行變換,所以需要使用間接方法,在計算DNN隱層的線性輸出時,層與層間的權(quán)值矩陣作用于每一幀特征,因此,可以將權(quán)值矩陣看作是一種具有一定的整體分布特性的廣義映射函數(shù)。
2)同一層的權(quán)值矩陣與偏置向量沒有整體性聯(lián)系,很難對偏移向量和權(quán)值矩陣同時進(jìn)行操作,因此,在該特征層不設(shè)置偏移向量。
用SVD算法對權(quán)值矩陣進(jìn)行分解的過程表示為:
(16)
其中,A為帶分解矩陣,U為一個m×m的U矩陣,矩陣U為一個m×n的對角矩陣且其對角線上的元素非負(fù),VT為V的轉(zhuǎn)置,S的對角線元素是矩陣A的奇異值,奇異值按降序排列,在這種情況下,對角矩陣S由A唯一確定。此時可以保存k個奇異值和A的近似矩陣Um×kNk×n。
獲取改進(jìn)的i-vector后,將得到的改進(jìn)i-vector與原始輸入特征進(jìn)行拼接,得到新的包含說話人信息的輸入特征后,利用該特征對模型進(jìn)行訓(xùn)練與識別?;诟倪M(jìn)i-vector的說話人感知訓(xùn)練方法過程如圖3所示。
圖3 基于改進(jìn)i-vector的說話人感知訓(xùn)練示意圖
該訓(xùn)練方法的主要步驟如下:
1)訓(xùn)練數(shù)據(jù)模型SI-DNN;
2)應(yīng)用SVD對最后一層隱層權(quán)值矩陣進(jìn)行分解,并用該結(jié)果代替原始權(quán)值矩陣;
3)應(yīng)用網(wǎng)絡(luò)提取新的低維特征;
4)應(yīng)用低維特征進(jìn)行i-vector的提取;
5)應(yīng)用改進(jìn)的i-vector進(jìn)行說話人感知訓(xùn)練。
為驗(yàn)證本文所提特征的識別性能,采用如下2種語料庫進(jìn)行測試:
1)WSJ語料庫,國際通用的英文語料庫,數(shù)據(jù)由麥克風(fēng)在安靜環(huán)境下錄制得來。訓(xùn)練集包含WSJ 0和WSJ 1兩部分,共81.3 h。其中,WSJ 0包含84個說話人,共7 138句,總時長為15.1 h,WSJ 1包含200個說話人,共30 278句,總時長為66.2 h。測試集包括Eval 92和Dev 93兩部分。本文使用Dev 93作為測試集,該部分包含10個說話人,共503句,總時長為65 min。
2)Vystadial 2013 Czech data(Vystadial_cz),開源的捷克語語料庫,總時長約15 h,主要由3類數(shù)據(jù)組成:Call Friend電話服務(wù)語音數(shù)據(jù)、Repeat After Me語音數(shù)據(jù)和Public Transport Info口語對話系統(tǒng)語音數(shù)據(jù)。其中,訓(xùn)練數(shù)據(jù)集共22 567句,126 333個詞語,總時長為15.25 h;測試集共2 000句,11 204個詞語,總時長為1.22 h。
3.2.1 實(shí)驗(yàn)工具
實(shí)驗(yàn)使用的工具包括2個:開源工具包Kaldi和PDNN+Kaldi。Kaldi工具包主要實(shí)現(xiàn)數(shù)據(jù)準(zhǔn)備、特征提取、語言模型和聲學(xué)模型的訓(xùn)練與解碼。PDNN工具包主要實(shí)現(xiàn)DNN的搭建與訓(xùn)練。
3.2.2 評價指標(biāo)
連續(xù)語音識別的結(jié)果一般為詞序列,采用動態(tài)規(guī)劃算法將識別結(jié)果與正確的標(biāo)注序列對齊后進(jìn)行比較,其中產(chǎn)生的錯誤類型分為3類:插入錯誤,刪除錯誤,替代錯誤。插入錯誤是由于在2個相鄰的標(biāo)注間插入其他詞所引起,刪除錯誤是由于在識別結(jié)果中找不到與某個標(biāo)注對應(yīng)的詞所引起,替代錯誤是由于識別得到的詞與對應(yīng)的標(biāo)注不相符所引起。
假設(shè)某個測試集中標(biāo)注的總個數(shù)為N,插入錯誤個數(shù)為I,刪除錯誤個數(shù)為D,代替錯誤個數(shù)為R,則詞錯誤率(WER)的定義如下:
(17)
該評測指標(biāo)越低,表明系統(tǒng)的識別性能越好。
本文采用的基線系統(tǒng)為基于i-vector的說話人感知訓(xùn)練模型,將其命名為DNN+i-vector模型,由于實(shí)驗(yàn)中需要比較基于SVD提取的低維特征與bottleneck特征的性能,且這2個模型的訓(xùn)練都基于GMM-HMM模型,因此本節(jié)將給出這3個模型的具體參數(shù)設(shè)置。
1)GMM-HMM+LDA+MLLT+SAT模型。輸入特征為13維的MFCC特征,訓(xùn)練三音子GMM聲學(xué)模型。首先,經(jīng)過線性區(qū)分性分析(Linear Discriminant Analysis,LDA)將9幀拼接的特征降到40維;然后,采用特征空間最大似然線性回歸(feature-space Maximum Likelihood Leaner Regression,fMLLR)進(jìn)行特征歸一化;最后,進(jìn)行說話人自適應(yīng)訓(xùn)練(Speaker Adaption Training,SAT)。對于WSJ語料庫和Vystadial_cz語料庫,采用的高斯混元數(shù)均為9 000。
2)DNN-HMM/DNN-HMM+i-vector模型。采用DNN對聚類后的三音子狀態(tài)的似然度進(jìn)行建模。以WSJ語料庫的DNN模型為例,該模型包括6個隱層,每個隱層包含1 024個節(jié)點(diǎn),激活函數(shù)為Sigmoid函數(shù)。輸入層包含11幀40維fbank特征,DNN的輸入節(jié)點(diǎn)為440個,輸出層節(jié)點(diǎn)數(shù)為GMM-HMM+LDA+MLLT+SAT模型中綁定后的三音子狀態(tài)數(shù),有3 415個節(jié)點(diǎn)。用后向傳播(Back Propogation,BP)算法對DNN進(jìn)行訓(xùn)練,以DNN計算得到的預(yù)估計概率分布與實(shí)際概率分布間的交叉熵作為目標(biāo)函數(shù)。在BP算法中,隨機(jī)梯度下降法的mini-batch大小為256。BP過程所用的綁定狀態(tài)標(biāo)注由GMM-HMM+LDA+MLLT+SAT模型對訓(xùn)練集進(jìn)行強(qiáng)制對齊得到。使用受限玻爾茲曼機(jī)(Restricted Boltzmann Machines,RBMs)對DNN參數(shù)初始化。最終的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置為“440-1024-1024-1024-1024-1024-1024-3415”。與WSJ語料庫參數(shù)設(shè)置相似,Vystadial_cz語料庫的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置為:“440-1024-1024-1024-1024-2125”。對于DNN+i-vector模型,只有輸入需要拼接100維的i-vector,因此,其輸入變?yōu)?40,其余設(shè)置相同。
3)BNF+GMM-HMM+LDA+MLLT模型。首先,采用DNN模型進(jìn)行BNF提取,然后將BNF輸入到GMM-HMM+LDA+MLLT模型中,該模型由上述第一個模型GMM-HMM+LDA+MLLT+SAT中省略最后SAT訓(xùn)練所得。對于BNF提取網(wǎng)絡(luò)而言,輸入特征與DNN模型的輸入特征相同。經(jīng)過多次實(shí)驗(yàn)表明,對于WSJ語料庫,相應(yīng)的bottleneck DNN的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置為“440-1024-1024-1024-1024-40-1024-3415”時性能最佳,對于Vystadial_cz語料庫,bottleneck DNN設(shè)置為“440-1024-1024-40-1024-2125”時bottleneck特征的性能最佳。2個語料庫使用的聲學(xué)模型均為GMM-HMM+LDA+MLLT。
DNN訓(xùn)練的學(xué)習(xí)速率初始值為0.08,當(dāng)相鄰2輪訓(xùn)練的誤差小于0.2%時,學(xué)習(xí)速率減半,當(dāng)減半后相鄰2輪的誤差再次小于0.2%時訓(xùn)練停止(如果一直大于0.2%,則最多進(jìn)行8次學(xué)習(xí))。沖量值設(shè)為0.5,mini-batch尺寸設(shè)為256。基線系統(tǒng)詞錯誤率如表1所示。
表1 基線系統(tǒng)詞錯誤率 %
基于SVD的低維特征提取步驟為:首先,初始化一個與說話人無關(guān)的DNN模型(SI-DNN);然后,對DNN基線系統(tǒng)某一層的權(quán)值矩陣應(yīng)用SVD算法做矩陣分解;最后,用分解后的基矩陣替換原始權(quán)值矩陣。
應(yīng)用該特征重新訓(xùn)練GMM-HMM+LDA+MLLT聲學(xué)模型并解碼。其中,影響識別性能的因素主要有2個:1)對DNN的哪一層權(quán)值矩陣進(jìn)行分解;2)對權(quán)值矩陣分解多少維效果更優(yōu)。根據(jù)這2個因素,本文分別做實(shí)驗(yàn)進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果如表2和表3所示。
表2 WSJ語料庫DNN-SVD 詞錯誤率結(jié)果
表3 Vystadial_cz語料庫DNN-SVD詞錯誤率結(jié)果
表2中“SVD-1”表示最后一層隱層的權(quán)值矩陣,“SVD-2”表示倒數(shù)第2層隱層的權(quán)值矩陣,詞錯誤率表示由DNN+矩陣分解+GMM-HMM+LDA+MLLT組成的語音識別系統(tǒng)的詞錯誤率。從表2的結(jié)果中可以看出,對于WSJ語料庫,當(dāng)使用SVD對最后一個隱層的權(quán)值矩陣做分解并取分解維數(shù)為40時,效果最好。由表3的結(jié)果可以看出,對于Vystadial_cz語料庫,當(dāng)使用SVD對最后一層隱層的權(quán)值矩陣做分解并取分解維數(shù)為30時,效果最好。
由上述結(jié)果可知,基于矩陣分解的方法克服了幀分類準(zhǔn)確率下降的問題,與基線系統(tǒng)BNF+GMM-HMM+LDA+MLLT相比,其WSJ語料庫的識別性能提升了1.52%,Vystadial_cz語料庫的識別性能提升了9.11%。由于矩陣分解的算法解決了低資源情況下的數(shù)據(jù)不充分訓(xùn)練問題,因此其在數(shù)據(jù)量較小的Vystadial_cz語料庫上的識別性能提升得更高,在數(shù)據(jù)量相對充足的WSJ語料庫上性能提升不明顯。
DNN通過每層的非線性變換將輸入特征變得越來越抽象,魯棒性也越來越強(qiáng),因此,理論上由最后一層得到的特征表征能力會優(yōu)于由倒數(shù)第2層得到的特征,在WSJ與Vystadial_cz語料庫中的實(shí)驗(yàn)結(jié)果也證明了這一點(diǎn)。本文分析認(rèn)為,分解尺寸的大小應(yīng)該與數(shù)據(jù)量的多少有關(guān),超出或少于某個范圍,會導(dǎo)致特征表征稀疏或特征表示不充分,進(jìn)而導(dǎo)致系統(tǒng)的識別性能下降。
基于改進(jìn)i-vector的說話人自適應(yīng)方法步驟為:首先,將SVD-BN特征代替原MFCC特征進(jìn)行i-vector提取器的訓(xùn)練與i-vector的提取,得到改進(jìn)后的i-vector;然后,將改進(jìn)的i-vector代替原始i-vector,與DNN的輸入特征進(jìn)行拼接后送入DNN進(jìn)行訓(xùn)練與識別。該方法所用模型的其余參數(shù)設(shè)置與基線DNN+i-vector模型相同。實(shí)驗(yàn)結(jié)果如表4所示。
表4 基于改進(jìn)i-vector的說話人感知訓(xùn)練識別結(jié)果 %
由表1、表4可以看出,在Vystadial_cz語料庫中,相對DNN-HMM語音識別系統(tǒng),本文方法識別性能提升了1.62%,相對原始基于i-vector的方法,本文方法識別性能提升了1.52%。在WSJ語料庫的實(shí)驗(yàn)中,上述性能分別提升了3.9%和1.48%。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的i-vector在提取時應(yīng)用了基于SVD分解得到的低維特征,該特征克服了幀分類準(zhǔn)確率下降的問題,因此,其魯棒性與表征能力更優(yōu),使得到的i-vector包含更有用的說話人信息,最終使得整個識別系統(tǒng)的性能得到提升。
傳統(tǒng)的i-vector提取方法主要應(yīng)用MFCC作為輸入特征。由于MFCC的魯棒性與表征能力均較差,因此本文提出一種基于改進(jìn)i-vector的說話人自適應(yīng)方法,該方法在一定程度上克服了幀分類準(zhǔn)確率下降的問題,由其提取的特征表現(xiàn)出了較好的魯棒性。實(shí)驗(yàn)結(jié)果表明,相比原有基于i-vector的方法,該方法的系統(tǒng)識別性能較高。下一步將考慮應(yīng)用更優(yōu)的算法以獲取更有效的特征表征,使系統(tǒng)更魯棒、識別率更高。
[1] HINTON G,DENG L,YU D,et al.Deep neural networks for acoustic modeling in speech recognition:the shared views of four research groups[J].IEEE Signal Processing Magazine,2012,29(6):82-97.
[2] DAHL G E,YU D,DENG L,et al.Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J].IEEE Transactions on Audio Speech and Language Processing,2012,20(1):30-42.
[3] 李傳朋,秦品樂,張晉京.基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像去噪研究[J].計算機(jī)工程,2017,43(3):253-260.
[4] 梁玉龍,屈 丹,李 真,等.基于卷積神經(jīng)網(wǎng)絡(luò)的維吾爾語語音識別[J].信息工程大學(xué)學(xué)報,2017,18(1):44-50.
[5] 秦楚雄,張連海.低資源語音識別中融合多流特征的卷積神經(jīng)網(wǎng)絡(luò)聲學(xué)建模方法[J].計算機(jī)應(yīng)用,2016,36(9):2609-2615.
[6] LIAO H.Speaker adaptation of context dependent deep neural networks[C]//Proceedings of 2013 IEEE International Conference on Acoustics,Speech and Signal Processing.Washington D.C.,USA:IEEE Press,2013:7947-7951.
[7] SEIDE F,LI G,CHEN X,et al.Feature engineering in context-dependent deep neural networks for conversational speech transcription[C]//Proceedings of IEEE Workshop on Automatic Speech Recognition and Understanding.Washington D.C.,USA:IEEE Press,2011:24-29.
[8] YAO K,YU D,SEIDE F,et al.Adaptation of context-dependent deep neural networks for automatic speech recognition[C]//Proceedings of 2012 IEEE Workshop on Spoken Language Technology.Washington D.C.,USA:IEEE Press,2012:366-369.
[9] HAMID O A,JIANG H.Rapid and effective speaker adaptation of convolutional neural network based models for speech recognition[EB/OL].[2017-04-25].http://www.isca-speech.org/archive/archive_papers/interspeech_2013/i13_1248.pdf.
[10] SELTZER M,YU D,WANG Y.An investigation of deep neural networks for noise robust speech recognition[C]//Proceedings of 2013 IEEE International Conference on Acoustics,Speech and Signal Processing.Washington D.C.,USA:IEEE Press,2013:7398-7402.
[11] YOSHIOKA T,RAGNI A,GALES M J.Investigation of unsupervised adaptation of DNN acoustic models with filterbank input[C]//Proceedings of 2014 IEEE International Conference on Acoustics,Speech and Signal Processing.Washington D.C.,USA:IEEE Press,2014:6344-6348.
[12] DELCROIX M,KINOSHITA K,HORI T,et al.Context adaptive deep neural networks for fast acoustic model adaptation[C]//Proceedings of 2015 IEEE International Conference on Acoustics,Speech and Signal Processing.Washington D.C.,USA:IEEE Press,2015:5270-5274.
[13] KARANASOU P,WANG Y,GALES M J F,et al.Adaptation of deep neural network acoustic models using factorized i-vectors[EB/OL].[2017-04-20].http://www.isca-speech.org/archive/archive_papers/interspeech_2014/i14_2180.pdf.
[14] SENIOR A,MORENO I L.Improving DNN speaker independence with i-vector inputs[C]//Proceedings of 2014 IEEE International Conference on Acoustics,Speech and Signal Processing.Washington D.C.,USA:IEEE Press,2014:225-229.
[15] ROUVIER M,FAVRE B.Speaker adaptation of DNN-based ASR with i-vectors:does it actually adapt models to speakers?[EB/OL].[2017-04-20].http://pageperso.lif.univ-mrs.fr/~benoit.favre/papers/favre_interspeech 2014a.pdf.
[16] YU C,OGAWA A,DELCROIX M,et al.Robust i-vector extraction for neural network adaptation in noisy environment[EB/OL].[2017-04-15].http://www.isca-speech.org/archive/interspeech_2015/papers/i15_2854.pdf.
[17] SAON G,SOLTAU H,NAHAMOO D,et al.Speaker adaptation of neural network acoustic models using i-vectors[C]//Proceedings of 2013 IEEE Workshop on Automatic Speech Recognition and Understanding.Washington D.C.,USA:IEEE Press,2013:55-59.
[18] XUE S F,HAMID O A,JIANG H,et al.Fast adaptation of deep neural network based on discriminant codes for speech recognition[J].IEEE/ACM Transactions on Audio,Speech and Language Processing,2014,22(12):1713-1725.