劉建航 楊喜鵬 李世寶 陳海華 黃庭培
(中國(guó)石油大學(xué)(華東)計(jì)算機(jī)與通信工程學(xué)院 山東 青島 266580)
干擾空間投影在本征音說(shuō)話人自適應(yīng)中的應(yīng)用
劉建航 楊喜鵬 李世寶 陳海華 黃庭培
(中國(guó)石油大學(xué)(華東)計(jì)算機(jī)與通信工程學(xué)院 山東 青島 266580)
本征音自適應(yīng)是一種快速高效的自適應(yīng)算法,它被廣泛應(yīng)用到說(shuō)話人識(shí)別中,但由于同一個(gè)說(shuō)話人的本征音自適應(yīng)的說(shuō)話人因子之間的信道特征和噪聲存在差異,導(dǎo)致了算法的識(shí)別精度降低。針對(duì)這一問(wèn)題,提出基于干擾空間投影的本征音說(shuō)話人識(shí)別(EV-NSP)算法。將訓(xùn)練語(yǔ)音通過(guò)主成分分析(PCA)方法計(jì)算得到干擾投影矩陣;將投影矩陣應(yīng)用到生成本征音矢量算法中;利用最大似然估計(jì)算法自適應(yīng)地得到說(shuō)話人因子的估計(jì)值。實(shí)驗(yàn)結(jié)果表明,EV-NSP算法相對(duì)于傳統(tǒng)的本征音自適應(yīng)算法識(shí)別性能有了較大的提高。
本征音自適應(yīng) 干擾空間投影 主成分分析 信道失配
近年來(lái),說(shuō)話人識(shí)別算法被廣泛地應(yīng)用到各個(gè)領(lǐng)域當(dāng)中,在語(yǔ)音識(shí)別領(lǐng)域承擔(dān)著關(guān)鍵角色。其中自適應(yīng)算法是說(shuō)話人識(shí)別算法中的重要組成部分,它通過(guò)消除訓(xùn)練說(shuō)話人特征參數(shù)之間的不匹配,提高算法的識(shí)別性能。利用子空間的說(shuō)話人自適應(yīng)的算法[1-2]能夠在適應(yīng)數(shù)據(jù)較少時(shí)仍能取得較好的性能,是目前連續(xù)語(yǔ)音的研究熱點(diǎn)。在自適應(yīng)模型參數(shù)中的消除語(yǔ)義和信道的信息,是目前說(shuō)話人識(shí)別算法中的關(guān)鍵問(wèn)題。由于訓(xùn)練集合測(cè)試集中均包含語(yǔ)義信息,且說(shuō)話人特征是不受文本約束的,所以語(yǔ)義信息的差異性會(huì)導(dǎo)致說(shuō)話人特征分布存在差異,影響說(shuō)話人識(shí)別的精確度。本征音自適應(yīng)[3-4]能夠有效地將說(shuō)話人相關(guān)SI(speaker independent)調(diào)整為說(shuō)話人無(wú)關(guān)SD(speaker dependent),有效地減少說(shuō)話人語(yǔ)義干擾。
本征音自適應(yīng)技術(shù)的目的是在訓(xùn)練說(shuō)話人因子時(shí),利用最大似然準(zhǔn)則或最大后驗(yàn)概率,將SI調(diào)整至SD,消除語(yǔ)義對(duì)說(shuō)話人算法的影響。文獻(xiàn)[5]提出的基于2D-PCA的本征音自適應(yīng)算法有較好的識(shí)別效果,但其在語(yǔ)料較少時(shí)的效果反而不如傳統(tǒng)的本征音,同時(shí)復(fù)雜度較高。文獻(xiàn)[6]應(yīng)用L1約束的Lasso稀疏解、L2約束的穩(wěn)定解以及L1和L2約束彈性網(wǎng)絡(luò)的正則化方法,優(yōu)化了本征音的訓(xùn)練參數(shù)過(guò)擬合問(wèn)題。文獻(xiàn)[7]在本征音自適應(yīng)前利用特征補(bǔ)償算法獲得無(wú)信道干擾語(yǔ)音特征矢量,在信道的信噪比較低時(shí)的語(yǔ)音環(huán)境中取得較好的識(shí)別效果。文獻(xiàn)[8]將本征音和聯(lián)合因子分析算法JFA(Joint factor analysis)結(jié)合,利用聯(lián)合因子中的特征映射將干擾信息和話者信息在低維空間進(jìn)行分離。
目前信道失配已經(jīng)成為影響本征音自適應(yīng)說(shuō)話人識(shí)別算法的識(shí)別精度的主要問(wèn)題。在解決本征音自適應(yīng)算法的信道失配問(wèn)題上,模型域算法相對(duì)于特征域算法具有更好的補(bǔ)償效果。目前模型域去除信道干擾的方法主要有模型合成、聯(lián)合因子分析[9]、干擾特征投影NAP(nuance attribute projection)[10-11]以及線性判決分析等,其中NAP具有信道補(bǔ)償效果好的優(yōu)點(diǎn)被廣泛用于說(shuō)話人信道補(bǔ)償中,文獻(xiàn)[12]將NAP作為一種解決i-vector中的信道失配的算法。文獻(xiàn)[13]將NAP算法和SVM算法分開(kāi)應(yīng)用,將NAP作為一種前端的特征補(bǔ)償算法,結(jié)合高斯混合模型建立說(shuō)話人確認(rèn)算法。
本文借鑒文獻(xiàn)[13]中的方法,結(jié)合高斯混合模型,利用NAP算法中的干擾空間投影方法來(lái)解決本征音中的信道失配問(wèn)題。將特定訓(xùn)練集的信道信息矩陣結(jié)合主成分分析法生成干擾投影空間矩陣,并利用該空間矩陣對(duì)語(yǔ)音均值矢量進(jìn)行逐條干擾投影,生成無(wú)信道干擾的語(yǔ)音特征矢量,最后結(jié)合最大似然估計(jì)算法,估計(jì)出本征音的說(shuō)話人因子。該方法能夠準(zhǔn)確估計(jì)說(shuō)話人的特征參數(shù),有效地提高了本征音算法的抗干擾能力。圖1為本文算法(EV-NSP)的流程圖。在離線操作中首先訓(xùn)練SD模型和一個(gè)SI模型,將生成的模型語(yǔ)音進(jìn)行干擾空間處理,將處理過(guò)的特征模型使用PCA算法找到特征值最大的K個(gè)本征音,在線階段利用語(yǔ)音數(shù)據(jù)和語(yǔ)音的SI模型自適應(yīng)得到與本征音所對(duì)應(yīng)的說(shuō)話人因子,即圖中的權(quán)重W。
圖1 算法流程圖
(1)
式(1)的維數(shù)為D×C,S個(gè)說(shuō)話人的矢量可以定義為M={μ(s),s=1,2,…,S},μS處于一個(gè)說(shuō)話人空間中,該空間包含一個(gè)說(shuō)話人的所有信息,對(duì)M矢量利用主成分分析PCA的方法將找到S個(gè)基矢量,記為e(1…k…S),其中e(k)就是第k個(gè)本征音。
假設(shè)所有的高斯矢量都落入一個(gè)K維的干擾空間(0 (2) 圖2 本征音干擾空間投影 利用訓(xùn)練數(shù)據(jù)中標(biāo)注信息的建立信道關(guān)聯(lián)矩陣W,其表示每一條語(yǔ)音之間的信道關(guān)聯(lián)性,W的形式如式子: (3) Z=diag(W·I)-W (4) 式中:I為全是1的列矢量。計(jì)算 KZKV=KVΛ (5) 按照PCA的方法求解式(5)中的廣義特征值Λ和廣義特征向量V,通常選取的特征值個(gè)數(shù)為幾個(gè)到十幾個(gè),并將這些特征值所對(duì)的特征矢量V作為包含信道信息的矩陣,規(guī)整V:X=A·V,并由于信道投影矩陣與噪聲投影矩陣的和是單位矩陣I,則計(jì)算投影空間矩陣如下: P=I-XXT (6) 得到說(shuō)話人干擾空間投影矩陣P。假設(shè)得到訓(xùn)練數(shù)據(jù)μ={μ1,μ2,…,μN(yùn)},則投影數(shù)據(jù)為μ′如下: (7) 式中:N為語(yǔ)音的幀數(shù),P為投影矩陣。 自適應(yīng)的目的是找到一組權(quán)值因子坐標(biāo)w(1),w(2),…,w(k),使式(1)成立。采用最大似然準(zhǔn)則和最大期望EM(Expectation Maximization)算法,自適應(yīng)的過(guò)程等同于求解一個(gè)最優(yōu)化問(wèn)題。假設(shè)自適應(yīng)的數(shù)據(jù)為O={o1,o2,…,oT},則無(wú)信道失配數(shù)據(jù)O′為: (8) 求解系數(shù)說(shuō)話人因子x(s′)公式如下: (9) 式中:λn(t)是屬于說(shuō)話人無(wú)關(guān)模型的第n個(gè)高斯分量的后驗(yàn)概率,P為干擾空間投影矩陣。 將式(9)對(duì)x求導(dǎo),令導(dǎo)數(shù)為0,能夠計(jì)算出說(shuō)話人矢量的最大似然估計(jì)值: (10) 式(10)即為無(wú)信道失配的說(shuō)話人因子最大似然本征估計(jì)。 本文語(yǔ)音數(shù)據(jù)集采用NIST08部分語(yǔ)音以及實(shí)測(cè)語(yǔ)音共100條,每條語(yǔ)音時(shí)長(zhǎng)約2 min,模型混合度為256。訓(xùn)練高維空間映射矩陣P時(shí),選取NIST08中的帶有標(biāo)注的測(cè)試語(yǔ)音和訓(xùn)練語(yǔ)音以及部分實(shí)測(cè)語(yǔ)音,訓(xùn)練P矩陣的實(shí)測(cè)語(yǔ)音中的信道干擾來(lái)自不同強(qiáng)度的高斯白噪聲和設(shè)備差異,并將所加的高斯白噪聲和錄制設(shè)備進(jìn)行標(biāo)注,用于計(jì)算P矩陣。對(duì)于所有的訓(xùn)練和測(cè)試語(yǔ)音,使用短時(shí)過(guò)零率及短時(shí)能量作為獲取語(yǔ)音端點(diǎn)的方法,并提取13維MFCC及其一階差分和二階差分共39維參數(shù)作為特征向量。 一般衡量說(shuō)話人確認(rèn)算法有效性時(shí)一般采用等錯(cuò)誤率EER(Equal error rate)、檢測(cè)代價(jià)函數(shù)DCF(Detection cost function)、DET圖(Detection error trade-off)等評(píng)價(jià)手段,本文采用了等錯(cuò)誤率、DET圖以及最小檢測(cè)代價(jià)函數(shù)(MinDCF)作為算法的評(píng)價(jià)指標(biāo)。DCF可以用以下式子表示: Cfv·FR·Ptar+Cfa·FA·Pimp (11) 式中:Cfv為錯(cuò)誤拒絕的代價(jià);Cfa為錯(cuò)誤接受的代價(jià);Ptar為真實(shí)說(shuō)話人出現(xiàn)的先驗(yàn)概率;Pimp為冒充的說(shuō)話人出現(xiàn)的先驗(yàn)概率。一般的NIST數(shù)據(jù)集中在評(píng)測(cè)任務(wù)時(shí)定義Cfv=10,Cfa=1,Ptar=0.01,Pimp=0.99。 圖3為算法DET曲線,刻畫了識(shí)別算法在兩個(gè)數(shù)據(jù)集中分別采用EV和NSP-EV的性能四條曲線從上到下分別為Reality data EV、Reality data EV-NVP、NIST08 EV以及NIST08 NSP-EV。NIST08 EV表示輸入語(yǔ)音數(shù)據(jù)集為NIST08,識(shí)別算法為傳統(tǒng)本征音自適應(yīng)算法;NIST08 NSP-EV表示語(yǔ)音數(shù)據(jù)集使用NIST08,識(shí)別算法為基于擾動(dòng)空間投影的本征音算法;Reality data EV表示語(yǔ)音數(shù)據(jù)集使用實(shí)測(cè)數(shù)據(jù),識(shí)別算法為傳統(tǒng)本征音自適應(yīng)算法;Reality data EV-NVP表示語(yǔ)音數(shù)據(jù)集使用實(shí)測(cè)數(shù)據(jù),識(shí)別算法為基于擾動(dòng)空間投影的本征音算法。圖3中的曲線離原點(diǎn)越近,表示識(shí)別性能越好,圖中的錯(cuò)誤接受率FR(False Rejection rate)和錯(cuò)誤拒絕率FA(False Acceptance rate)相等點(diǎn)為算法等錯(cuò)誤率。由圖知,同樣的數(shù)據(jù)集中使用EV-NVP方法能夠有效地提高算法性能,并且使用NIST08語(yǔ)音數(shù)據(jù)集的算法性能要由于使用實(shí)測(cè)數(shù)據(jù)。 圖3 算法DET曲線 表1為針對(duì)兩種數(shù)據(jù)集本征音矢量選取不同數(shù)量時(shí)的等錯(cuò)誤率比較。NIST08 ERR表示使用NIST08數(shù)據(jù)集在不同矢量數(shù)量時(shí)的等錯(cuò)誤率。RD EER表示使用實(shí)測(cè)數(shù)據(jù)在不同矢量數(shù)量時(shí)的等錯(cuò)誤率。從表中能看出,算法的本征音矢量數(shù)量為16時(shí)算法識(shí)別性能達(dá)到最優(yōu)。過(guò)高的本征音矢量個(gè)數(shù)會(huì)引起過(guò)擬合問(wèn)題,過(guò)低的本征音矢量個(gè)數(shù)會(huì)引起欠擬合問(wèn)題。 表1 兩種數(shù)據(jù)集本征音個(gè)數(shù) 表2為GMM、EV以及NSP-EV三種算法在兩種數(shù)據(jù)集中的EER和MinDCF比較,其中EV和NSP-EV兩個(gè)本征音矢量個(gè)數(shù)為16。其中N-MinDCF表示使用NIST08數(shù)據(jù)集的算法MinDCF ,R-MinDCF表示使用實(shí)測(cè)數(shù)據(jù)的算法MinDCF。實(shí)驗(yàn)結(jié)果表明基于NSP-EV的說(shuō)話人確認(rèn)算法性能要明顯優(yōu)于其他兩個(gè)算法,在兩個(gè)數(shù)據(jù)集中均取得了較好的識(shí)別效果。相對(duì)于傳統(tǒng)的本征音自適應(yīng)算法,本文的NSP-EV算法在實(shí)測(cè)數(shù)據(jù)中相比于傳統(tǒng)的GMM系統(tǒng)算法的EER降低了7%左右,在NIST08數(shù)據(jù)集中相比于傳統(tǒng)的GMM系統(tǒng)算法的EER降低了5%左右。在實(shí)測(cè)數(shù)據(jù)和NIST08兩個(gè)數(shù)據(jù)集中與傳統(tǒng)的GMM算法相比,MinDCF分別降低了12.46%和30.54%。 表2 3種算法的EER和MinDCF 本文提出一種基于本征音的干擾空間投影方法,為解決本征音自適應(yīng)說(shuō)話人識(shí)別中的信道失配問(wèn)題,本文干擾空間投影方法引入本征音自適應(yīng)算法中,在生成本征音之前對(duì)語(yǔ)音數(shù)據(jù)逐條的進(jìn)行干擾投影,消除了信道失配的影響。同時(shí)因?yàn)楸菊饕魧?duì)說(shuō)話人語(yǔ)音特征矢量進(jìn)行特征分解,消除了說(shuō)話人語(yǔ)義干擾,在實(shí)測(cè)語(yǔ)音和NIST08中均取得較好的識(shí)別效果。 [1] Li H S, Liu J, Liu R S. Technology of speaker adaptation in speech recognition and its development trend[J]. Acta Electronica Sinica, 2003, 31(1):33-36. [2] 齊耀輝, 潘復(fù)平, 葛鳳培,等. 鑒別性最大后驗(yàn)概率線性回歸說(shuō)話人自適應(yīng)研究[J]. 北京理工大學(xué)學(xué)報(bào), 2015(9):946-950. [3] Kuhn R, Junqua J C, Nguyen P, et al. Rapid speaker adaptation in eigenvoice space[J]. Speech & Audio Processing IEEE Transactions on, 2000, 8(6):695-707. [4] 屈丹, 楊緒魁, 張文林. 特征空間本征音說(shuō)話人自適應(yīng)[J]. 自動(dòng)化學(xué)報(bào), 2015, 41(7):1244-1252. [5] Jeong Y, Kim H S. New speaker adaptation method using 2-D PCA[J]. Signal Processing Letters IEEE, 2010,17(2):193-196. [6] 張文林, 張連海, 牛銅,等. 基于正則化的本征音說(shuō)話人自適應(yīng)方法[J]. 自動(dòng)化學(xué)報(bào), 2012, 38(12):1950-1957. [7] Lü Gang, Zhao Heming. Joint factor analysis of channel mismatch in whispering speaker verification[J]. Archives of Acoustics, 2012, 37(4):555-559. [8] 潘鐳, 郭武, 李軼杰,等. 基于本征音因子分析的短時(shí)說(shuō)話人識(shí)別[J]. 數(shù)據(jù)采集與處理, 2009, 24(4):449-452. [9] 張慶芳, 趙鶴鳴, 龔呈卉. 基于因子分析和特征映射的耳語(yǔ)說(shuō)話人識(shí)別[J]. 數(shù)據(jù)采集與處理, 2016, 31(2):362-369. [10] Campbell W M, Sturim D E, Reynolds D A, et al. SVM Based Speaker Verification using a GMM Supervector Kernel and NAP Variability Compensation[C]//IEEE International Conference on Acoustics, Speech and Signal Processing, 2006. ICASSP 2006 Proceedings. IEEE Xplore, 2012. [11] Yifrach A, Novoselsky E, Solewicz Y A, et al. Improved nuisance attribute projection for face recognition[J]. Pattern Analysis and Applications, 2016,19(1):69-78. [12] Dehak N, Kenny P J, Dehak R, et al. Front-End Factor Analysis for Speaker Verification[J].IEEE Transactions on Audio Speech & Language Processing, 2011,19(4):788-798. [13] 郭武, 戴禮榮, 王仁華. 采用主成分分析的特征映射[J]. 自動(dòng)化學(xué)報(bào), 2008,34(8):876-879. APPLICATIONOFNUISANCESPACEPROJECTIONINEIGENVOICESPEAKERADAPTATION Liu Jianhang Yang Xipeng Li Shibao Chen Haihua Huang Tingpei (CollegeofComputerandCommunicationEngineering,ChinaUniversityofPetroleum,Qingdao266580,Shandong,China) Eigenvoice adaption is a fast and efficient adaptive algorithm which is widely used in speaker recognition. However, the speaker factor of eigenvoice adaption from the same speaker has different channel characteristics and noise feature, thus reduced the recognition accuracy. To solve this problem, we propose an eigenvoice speaker recognition algorithm based on nuisance space projection (EV-NSP). We calculated the nuisance space projection matrix by principal component analyzing training data, and then run the eigenvoice vector algorithm by using projection matrix. The maximum likelihood estimation algorithm was used to adaptively estimate the speaker factor. Experimental results indicate that EV-NSP algorithm have better performance compared with traditional adaptive eigenvoice algorithm. Eigenvoice adaption Nuance space projection PCA Channel mismatch 2017-02-28。國(guó)家自然科學(xué)基金青年基金項(xiàng)目(61601519,61402433);山東省自然科學(xué)基金項(xiàng)目(ZR2014FM017);青島市科技創(chuàng)新計(jì)劃項(xiàng)目(15-9-80-jch)。劉建航,副教授,主研領(lǐng)域:車聯(lián)網(wǎng),模式識(shí)別。楊喜鵬,碩士生。李世寶,副教授。陳海華,博士。黃庭培,博士。 TP3 A 10.3969/j.issn.1000-386x.2017.11.0352 本征音的干擾空間投影
3 基于干擾空間投影的本征音自適應(yīng)
4 實(shí)驗(yàn)性能分析
5 結(jié) 語(yǔ)