陳晨 韓紀(jì)慶 陳德運(yùn) 何勇軍
說話人識別 (Speaker recognition)又稱為話者識別或聲紋識別,其能通過對說話人語音信號的分析處理,來自動(dòng)識別出說話人的身份[1].相比于其他身份認(rèn)證技術(shù),說話人識別具有不需要與個(gè)體直接接觸、識別使用的設(shè)備成本較低,以及便于與現(xiàn)有的通信系統(tǒng)相結(jié)合等優(yōu)勢[2].而這些語音本身所具有的眾多優(yōu)點(diǎn),則使得說話人識別技術(shù)倍受企業(yè)與研究者們的關(guān)注并得以快速發(fā)展[3].
根據(jù)識別對象的差異,可以將說話人識別分為兩類,即文本相關(guān) (Text-dependent)型與文本無關(guān)(Text-independent)型[4].前者要求說話人提供特定發(fā)音的關(guān)鍵詞或關(guān)鍵句作為訓(xùn)練數(shù)據(jù),識別時(shí)也必須按照相同的內(nèi)容發(fā)音;而后者則不需要強(qiáng)制規(guī)定語音內(nèi)容.二者相較而言,與文本無關(guān)的說話人識別研究對語音內(nèi)容的要求更自由,因此其擁有更廣泛的應(yīng)用領(lǐng)域[5].
與文本無關(guān)的說話人識別研究雖然已經(jīng)取得了巨大的進(jìn)展,但其面對的主要困難與挑戰(zhàn)卻依然存在,即語音信號中存在大量的變化信息 (Variable)[6].具體而言,由于每段語音的表述內(nèi)容不同,因此必須在自由的語音信號中尋找能夠表征說話人身份的個(gè)性信息;同時(shí),受到不同錄音裝置與傳輸方式的影響,語音信號中也會(huì)引入更多的變化信息.因此,提取出能夠有效包含說話人個(gè)性信息的特征具有很大的挑戰(zhàn)性.然而,上述問題的解決將有效推動(dòng)說話人識別的研究進(jìn)展.
由于語音信號具有短時(shí)平穩(wěn)的特性,因此在進(jìn)行前端特征提取時(shí),通??梢圆捎枚虝r(shí)的幀級(Frame-level)特征來刻畫語音信號.然而,語音信號具有時(shí)變性與上下文相關(guān)性,這些與時(shí)間相關(guān)的動(dòng)態(tài)特性中往往蘊(yùn)含著豐富的說話人個(gè)性信息,從而使得此信息具有長時(shí)統(tǒng)計(jì)特性[7],而只對幀級特征序列進(jìn)行簡單的取均值操作無法有效獲取語音段的統(tǒng)計(jì)特性[8-9].因此,如何合理利用一段語音的幀級特征序列,從中提取出包含說話人個(gè)性信息的句級 (Utterance-level)特征則顯得尤為重要.同時(shí),句級特征提取能夠?qū)Σ煌瑫r(shí)長的語音信號進(jìn)行整合,從而使不定長語音信號能用固定維度的特征表示.因此,其可與大多數(shù)常用的模式識別算法相結(jié)合,具有更強(qiáng)的可操作性.目前的方法在進(jìn)行句級特征提取時(shí),一般會(huì)具有階段性目標(biāo)或只具有一個(gè)統(tǒng)一目標(biāo),本文將根據(jù)此分類依據(jù)對句級特征提取方法進(jìn)行分類.其中,第1 類方法由于具有多個(gè)階段,且各階段均具有獨(dú)立的優(yōu)化目標(biāo) (任務(wù)),本文稱其為基于任務(wù)分段式學(xué)習(xí)策略的特征提取方法;而第2 類方法由于只具有統(tǒng)一的優(yōu)化目標(biāo),因此本文稱其為基于任務(wù)驅(qū)動(dòng)式學(xué)習(xí)策略的特征提取方法.
基于上述分析,本文總結(jié)并介紹與文本無關(guān)說話人識別中具有代表性的句級特征提取方法,試圖為進(jìn)一步深入研究特征提取方法奠定理論基礎(chǔ).第1 節(jié)簡要概述進(jìn)行句級特征提取之前的前端處理過程;第2 節(jié)和第3 節(jié)分別介紹基于任務(wù)分段式與驅(qū)動(dòng)式策略的句級特征提取方法;第4 節(jié)對后端處理的相關(guān)內(nèi)容進(jìn)行介紹;第5 節(jié)對未來研究趨勢進(jìn)行分析;第6 節(jié)對全文進(jìn)行總結(jié).
在介紹句級特征提取方法之前,這里先簡要介紹語音信號的前端處理過程,包括語音活動(dòng)檢測 (Voice activity detection,VAD)、幀級特征提取以及特征規(guī)整 (Feature normalization)三部分.
語音活動(dòng)檢測能夠區(qū)分出語音信號中的語音部分與非語音部分,從而為后續(xù)的特征提取部分提供有效的語音段.語音活動(dòng)檢測的功能示意圖如圖1(a)所示,其所對應(yīng)的語譜圖如圖1(b)所示,從圖中可以看出,語音部分與非語音部分所對應(yīng)的語譜圖具有明顯差異,如直接對未進(jìn)行語音活動(dòng)檢測的語音信號進(jìn)行特征提取,將引入大量的無效內(nèi)容.因此,進(jìn)行語音活動(dòng)檢測對于有效特征的提取具有十分重要的作用.過去常采用基于能量與過零率的雙門限方法,其雖然簡單易行,能夠快速確定出語音部分的起始點(diǎn)與結(jié)束點(diǎn),但在尋找結(jié)束幀時(shí)并不穩(wěn)定.目前的方法大多采用窗能量或帶上下文的幀能量檢測方法.
圖1 語音活動(dòng)檢測的功能示意圖Fig.1 Schematic diagram of voice activity detection
當(dāng)語音信號的信噪比較低時(shí),噪聲會(huì)增加語音部分檢出的難度,純噪聲部分更會(huì)引入大量的無效內(nèi)容,此時(shí)檢測出有效語音片段則顯得更為重要.針對以上問題,目前的語音活動(dòng)檢測方法可以劃分為兩類.一類主要利用特征的頻譜-時(shí)間特性(Spectro-temporal property)來檢測含噪語音信號中的語音片段,這類特征主要包括能量特征[10]、周期性特征[11]、高階統(tǒng)計(jì)特征[12]及融合特征[13]等.另一類則主要通過學(xué)習(xí)統(tǒng)計(jì)模型來進(jìn)行語音活動(dòng)檢測,例如:決策指導(dǎo)參數(shù)估計(jì)方法[14]、統(tǒng)計(jì)似然比檢驗(yàn)方法[15]、平滑似然比檢測方法[16]等.近年來隨著神經(jīng)網(wǎng)絡(luò)方法的發(fā)展,一系列以其為基礎(chǔ)的方法相繼出現(xiàn),文獻(xiàn)[17]對這類方法進(jìn)行了系統(tǒng)對比.
進(jìn)行語音活動(dòng)檢測后,即可對語音片段進(jìn)行幀級特征提取.幀級特征所對應(yīng)的語音幀時(shí)長一般在20~40 ms 之間,常用的特征有梅爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)[18]、線性預(yù)測倒譜系數(shù) (Linear predictive cepstral coefficients,LPCC)[19]、感知線性預(yù)測系數(shù) (Perceptual linear predictive coefficients,PLPC)[20]等.本節(jié)將以最為常用的MFCC 特征為例,介紹其提取過程.
圖2 為25 ms 語音幀所對應(yīng)的MFCC 特征提取過程的示意圖,其中圖2(a)為語音幀的原始波形.在進(jìn)行MFCC 特征提取前,首先需要對語音信號進(jìn)行分幀、預(yù)加重、加窗等預(yù)處理.當(dāng)采樣頻率已知時(shí),可以將N個(gè)采樣點(diǎn)當(dāng)作一個(gè)觀測單位,幀移一般取N的1/3~1/2,圖中取10 ms,圖2 中語音信號的采樣頻率為8 000 Hz,因此一幀語音 (25 ms)對應(yīng)的采樣點(diǎn)數(shù)為200.預(yù)加重的目的則在于消除口唇輻射的影響,對語音信號中受到發(fā)音系統(tǒng)壓制的高頻部分進(jìn)行補(bǔ)償,預(yù)加重系數(shù)一般設(shè)置為0.9~1.而加窗操作則可以使信號兩端趨于平滑,從而防止信號發(fā)生畸變,常用的窗函數(shù)有漢明窗、漢寧窗或矩形窗等.圖2(b)為經(jīng)過預(yù)加重與加漢明窗操作后的語音波形,可以明顯觀察到語音信號的兩端變得更加平滑.然后,對加窗后的各幀信號進(jìn)行快速傅里葉變換 (Fast Fourier transform,FFT)即可得到各幀的頻譜,對頻譜取模便可得到功率譜,其取對數(shù)后的結(jié)果如圖2(c)所示.由于聲音在內(nèi)耳的基底膜上以縱波的形式進(jìn)行傳播,而三角濾波器組可以有效模擬基底膜對聲音的頻響特性,因此可以采用三角濾波器組對語音信號進(jìn)行濾波.同時(shí),三角濾波器組在實(shí)際物理頻率上呈不均勻分布、在梅爾頻率上服從均勻分布,因此可以將物理頻率轉(zhuǎn)換到梅爾頻率上進(jìn)行計(jì)算.基于此,三角濾波器組也可以稱作梅爾頻率濾波器組.圖2(d)為具有24 個(gè)通道的梅爾頻率濾波器組,圖2(e)為在其上進(jìn)行濾波并取對數(shù)的輸出結(jié)果.濾波器組的設(shè)計(jì)使其對圖2(c)中對數(shù)功率譜下端的頻率變化更加敏感,對數(shù)運(yùn)算則能夠進(jìn)一步擴(kuò)展系數(shù)的取值范圍.最后,對濾波器組對數(shù)能量進(jìn)行離散余弦變換 (Discrete cosine transform,DCT)并保留前F個(gè)系數(shù)作為MFCC特征,F一般取13~21,圖2(f)中展示了保留20 個(gè)系數(shù)的MFCC 特征.值得注意的是,標(biāo)準(zhǔn)的MFCC參數(shù)只反映了語音的靜態(tài)特性,語音的動(dòng)態(tài)特性可以用這些靜態(tài)特征的差分譜來描述:通過計(jì)算靜態(tài)MFCC 特征的一階差分 (Delta)與二階差分 (Deltadelta),并與靜態(tài)MFCC 特征拼接即可組成具有動(dòng)態(tài)特性的聲學(xué)特征.
圖2 MFCC 特征提取過程示意圖Fig.2 Schematic diagram of MFCC extraction
在MFCC 特征的提取過程中,也可以獲得一些其他特征,例如:語譜圖特征[21]、對數(shù)濾波器組(Filter banks,FBank)特征[18]等.其中,語譜圖特征是由對數(shù)功率譜按幀拼接而成的特征.其所對應(yīng)的語音段時(shí)長更長,因此其中包含的信息更多;隨著卷積神經(jīng)網(wǎng)絡(luò) (Convolutional neural network,CNN)[22-23]在說話人識別領(lǐng)域的應(yīng)用,作為二維特征的語譜圖特征也逐漸成為能夠利用的說話人特征.對數(shù)FBank 特征則為濾波器組輸出的對數(shù)能量,與MFCC 特征相比,對數(shù)FBank 特征并未進(jìn)行離散余弦變換,其中包含的信息更多,也可以作為說話人特征進(jìn)行使用;隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,對數(shù)FBank 特征的應(yīng)用也正在逐漸增多.
受語音信號的時(shí)變性影響,無法保證幀級特征在不同語音信號上的一致性.因此,需要采用特征規(guī)整技術(shù)以最小化上述問題所產(chǎn)生的影響.在眾多特征規(guī)整技術(shù)中,最常用的方法為倒譜均值規(guī)整(Cepstral mean normalization,CMN)[24]與特征彎折 (Feature warping)[25],它們均能夠在一定程度上消減幀級特征序列中的不一致性信息.其中,CMN方法具有很多擴(kuò)展形式,例如:倒譜均值與方差規(guī)整 (Cepstral mean and variance normalization,CMVN)[26]、加窗倒譜均值與方差規(guī)整 (Windowed cepstral mean and variance normalization,WCMVN)[26]等.圖3 展示了原始聲學(xué)特征與分別經(jīng)過CMVN、WCMVN 以及特征彎折方法進(jìn)行特征規(guī)整后所得到特征的直方圖,從圖中可以看出:經(jīng)CMVN 方法規(guī)整后,聲學(xué)特征整體分布的形狀沒有發(fā)生改變,改變的只有特征參數(shù)的動(dòng)態(tài)數(shù)值范圍;經(jīng)WCMVN 方法規(guī)整后,聲學(xué)特征的整體分布則近似映射到高斯分布上;經(jīng)特征彎折方法規(guī)整后,聲學(xué)特征也被近似映射到高斯分布上,但彎折后的特征在數(shù)值上更加集中.
圖3 幀級特征序列經(jīng)特征規(guī)整后的直方圖對比Fig.3 Histogram comparison of frame-level feature sequences after feature normalization
前端處理能夠去除語音信號中的部分無效內(nèi)容,并提取出具有一定區(qū)分性的幀級特征,但幀級特征所攜帶的信息量有限,且需要考慮不同時(shí)長語音如何轉(zhuǎn)化為統(tǒng)一維度特征的問題,因此需要對幀級特征序列進(jìn)行進(jìn)一步的特征提取,以獲取信息量更全面且維度統(tǒng)一的句級特征.其中,構(gòu)建均值超矢量(Mean supervector)[27]是句級特征提取方法中最基礎(chǔ)的方法之一,因此本節(jié)將以均值超矢量的構(gòu)建為起點(diǎn),并以任務(wù)分段式策略為線索,根據(jù)不同階段的任務(wù),展開介紹從均值超矢量發(fā)展而來的一系列方法.
在說話人識別研究中,如何表示具有不定時(shí)長的語音信號一直是主要研究問題之一.在早期的研究中,主要通過對幀級特征取均值的方式來獲取不同時(shí)長語音信號的固定維度特征表示[8].該方法雖然計(jì)算速度很快,但識別性能較差.自1980 年以來,研究的主要趨勢則轉(zhuǎn)為通過構(gòu)建從數(shù)據(jù)到模型的訓(xùn)練方式,來對幀級特征進(jìn)行整合.例如:高斯混合模型 (Gaussian mixture model,GMM)[28]、高斯混合模型-通用背景模型 (Gaussian mixture model—universal background model,GMM-UBM)[29]、高斯混合模型-支持向量機(jī) (Gaussian mixture model—support vector machine,GMM-SVM)[27]、基于字典學(xué)習(xí)的方法[30-33]等.以上方法大多通過統(tǒng)計(jì)學(xué)習(xí)的方式來獲取說話人特征的統(tǒng)計(jì)特性,且為首個(gè)句級特征 ——GMM 均值超矢量的出現(xiàn)奠定了理論基礎(chǔ).
GMM 均值超矢量是通過合并GMM 各高斯分量中的均值矢量而獲得的超高維特征矢量,其具有維度固定、攜帶信息量充足、易與眾多模式識別算法結(jié)合等優(yōu)點(diǎn).GMM 均值超矢量的提取方法一經(jīng)提出,迅速吸引了研究者們的注意,均值超矢量也成為了不可替代的句級特征.本文以具有2 個(gè)高斯分量的GMM-UBM 系統(tǒng)為例,在圖4 中展示GMM均值超矢量的提取過程.首先,如圖4(a)所示,利用大量背景說話人語音數(shù)據(jù) (也稱為開發(fā)集數(shù)據(jù))來訓(xùn)練UBM.本質(zhì)上,UBM 是一個(gè)能夠近似描述全部說話人語音共性的大型GMM,它由若干個(gè)高斯概率密度函數(shù)的加權(quán)和構(gòu)成,具有以下形式:
圖4 GMM 均值超矢量提取過程示意圖Fig.4 Schematic diagram of GMM mean supervector extraction
其中,xs,h,t∈RF表示開發(fā)集數(shù)據(jù)中第s位說話人的第h段語音中的第t幀聲學(xué)特征,一般可以采用MFCC 特征,F為聲學(xué)特征的維度;λ={πc,μc,Σc}(c=1,2,···,C)為UBM 的參數(shù)集,3 個(gè)參數(shù)分別為權(quán)重、均值矢量與協(xié)方差矩陣,C為高斯分量總數(shù);Pc(xs,h,t;μc,Σc)表示高斯函數(shù).通過利用開發(fā)集數(shù)據(jù),經(jīng)過期望最大化(Expectation maximization,EM)算法[34]的反復(fù)迭代,便可得到UBM的參數(shù)集λ.
然后,如圖4(b)所示,將UBM 作為初始化模型,通過利用最大后驗(yàn)概率 (Maximum a posteriori,MAP)估計(jì)[35],對每段語音進(jìn)行自適應(yīng)以求出其對應(yīng)的GMM.具體而言,對于說話人s第h段語音的全部特征序列Xs,h={xs,h,t;t=1,2,···,Ts,h},每幀特征xs,h,t由UBM 中第c個(gè)高斯分量產(chǎn)生的概率為
然后利用上述統(tǒng)計(jì)參數(shù)即可得到說話人s第h段語音所對應(yīng)GMM 參數(shù)的更新公式,即
其中,β為縮放因子,用于確保全部的和為1;αc則具有以下形式:
其中,r為相關(guān)因子,用于調(diào)控GMM 參數(shù)受Xs,h的影響程度.在實(shí)際應(yīng)用中,更新均值矢量對整體性能的提升具有更大的價(jià)值,因此UBM 的權(quán)值與協(xié)方差矩陣往往可以在全部說話人之間共享,從而使得不同語音段所對應(yīng)的GMM 之間的差異僅體現(xiàn)在均值矢量上.基于此,可以將GMM 中的全部均值矢量拼接為GMM 均值超矢量,并以此作為GMM 的唯一表示.
這種將說話人模型與背景模型相結(jié)合的形式,提供了比獨(dú)立訓(xùn)練GMM 更好的性能,并為后續(xù)方法的提出奠定了理論基礎(chǔ).然而,GMM 均值超矢量中仍然包含很多與說話人個(gè)性信息無關(guān)的信息,需要考慮對這些冗余信息進(jìn)行補(bǔ)償.同時(shí),均值超矢量的超高維度也會(huì)產(chǎn)生計(jì)算量龐大的問題.例如,對于維度為60 維的聲學(xué)特征與具有1 024 個(gè)高斯分量的GMM,其均值超矢量的維度將達(dá)到61 440維 (CF=60×1 024).因此,需要考慮如何獲取維度適中且能夠繼承GMM 均值超矢量大多數(shù)優(yōu)點(diǎn)的特征矢量.基于以上分析,下文將介紹能夠?qū)MM均值超矢量進(jìn)行有效補(bǔ)償與降維的一系列方法.
由于GMM 均值超矢量中包含與說話人相關(guān)和與說話人無關(guān)的信息,因此可以對GMM 均值超矢量的成分進(jìn)行分解,假設(shè)其可以表示為4 個(gè)分量線性組合的形式
表1 不同特征空間學(xué)習(xí)方法匯總信息Table 1 Information of different feature space learning methods
2.2.1 經(jīng)典MAP 方法
由于GMM-UBM 系統(tǒng)中的MAP 自適應(yīng)技術(shù)[29]與式 (6)具有一定的關(guān)聯(lián)性,因此本節(jié)將首先對其進(jìn)行討論.根據(jù)式 (4)可以發(fā)現(xiàn),的更新公式由兩個(gè)分量組成,分別為與說話人相關(guān)的項(xiàng)及與說話人無關(guān)的 (1-αc)μc項(xiàng).可以用更通用的形式將其表示為
其中,D∈RCF×CF為對角矩陣,用于描述不同語音段變化信息;zs,h∈RCF為說話人因子,是服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)隱變量.結(jié)合式 (6)可知,Dzs,h對應(yīng)于ms+mh+mr項(xiàng).由此可見,與第2.1 節(jié)的討論一致,經(jīng)典MAP 方法的Ms,h中含有與說話人信息無關(guān)的冗余信息.
2.2.2 本征音模型
本征音 (Eigenvoice)模型[37]最初是語音識別中的說話人自適應(yīng)方法[36].本質(zhì)上其屬于MAP 的擴(kuò)展方法,與經(jīng)典MAP 方法中采用對角矩陣的方式不同,其將參數(shù)限制在由本征音矩陣的列所定義的較低維子空間中,因此能夠獲得更低維的特征表示.其具有以下形式:
其中,V∈RCF×R(R ?CF)為低秩本征音矩陣,它的列能夠張成說話人子空間;ys,h∈RR為具有標(biāo)準(zhǔn)正態(tài)分布的說話人因子;Vys,h與ys,h均可以作為句級特征進(jìn)行使用.
值得注意的是,此方法中不存在噪聲殘差假設(shè),因此其在本質(zhì)上與主成分分析 (Principal component analysis,PCA)[41]等效,模型中GMM 均值超矢量的協(xié)方差矩陣為VVT.然而,均值超矢量具有較高的維度,難以在有限的數(shù)據(jù)量下估計(jì)出滿秩的協(xié)方差矩陣.因此,無法直接通過最大似然估計(jì)(Maximum likelihood estimation)得到參數(shù),需要采用EM 算法來進(jìn)行參數(shù)估計(jì).同時(shí),從式 (8)中也可以看出,GMM 均值超矢量Ms,h經(jīng)由UBM均值超矢量m加上一定的位移Vys,h而獲得.因此,在進(jìn)行GMM 自適應(yīng)時(shí),GMM 會(huì)受到潛在本征音矩陣V的限制.此外,此方法的缺點(diǎn)也顯而易見,與經(jīng)典MAP 方法類似,其無法進(jìn)行信道補(bǔ)償.
2.2.3 本征信道模型
從同一說話人不同語音數(shù)據(jù)中所提取的GMM均值超矢量無法保證完全相同,尤其當(dāng)這些數(shù)據(jù)來自不同的錄音設(shè)備時(shí),信道變化信息必然會(huì)增加均值超矢量之間的差異.因此,必須進(jìn)行信道補(bǔ)償以確保能夠?qū)碜圆煌诺赖恼Z音數(shù)據(jù)進(jìn)行正確評分.類似于本征音模型,本征信道模型[37]假設(shè)信道信息存在于信道子空間中,其通過對信道信息進(jìn)行建模,將注冊集語音自適應(yīng)到測試集語音所在的信道上.當(dāng)本征信道模型與經(jīng)典MAP 方法結(jié)合時(shí),其具有以下形式:
其中,D∈RCF×CF為對角矩陣;zs∈RCF為說話人因子;U∈RCF×K(K ?CF)為低秩本征信道矩陣,它的列能夠張成信道子空間;xh∈RK~N(0,I)為信道因子.由于需要對信道信息進(jìn)行建模,因此訓(xùn)練數(shù)據(jù)中需要包含同一說話人不同信道下的語音數(shù)據(jù),可見該方法在數(shù)據(jù)獲取上具有一定的難度.同時(shí),結(jié)合式 (6)可知,Dzs對應(yīng)于ms+mr項(xiàng).由此可見,Dzs中仍然包含一定的殘差信息,該信息會(huì)對模型的有效性產(chǎn)生影響.
2.2.4 聯(lián)合因子分析模型
聯(lián)合因子分析 (Joint factor analysis,JFA)模型[38]是本征音模型與本征信道模型的結(jié)合方法,該方法假設(shè)說話人信息與信道信息均能夠在GMM均值超矢量所在空間的低維子空間中得到表示,且這些低維子空間分別是由本征音矩陣V與本征信道矩陣U的列所張成的空間.基于此,GMM 均值超矢量便能夠表示為說話人信息、信道信息與殘差信息的線性組合形式.對于說話人s第h段語音所對應(yīng)的GMM 均值超矢量Ms,h,其具有以下形式:
其中,V∈RCF×R為低秩本征音矩陣,ys∈RR為說話人因子,U∈RCF×K為低秩本征信道矩陣,xh∈RK為信道因子,D∈RCF×CF為對角的殘差負(fù)荷矩陣,zs,h∈RCF為殘差因子.
在式 (10)中,V,U與D均為JFA 模型的超參數(shù),目前存在兩種超參數(shù)的估計(jì)方法,分別為聯(lián)合估計(jì)方法與獨(dú)立估計(jì)方法.利用它們估計(jì)出的結(jié)果相差不大,但后者的計(jì)算復(fù)雜度更小.在參數(shù)學(xué)習(xí)過程中,獨(dú)立估計(jì)方法需要先估計(jì)V,再估計(jì)U與D,然后即可估計(jì)出因子ys,xh與zs,h,最后通過保留說話人相關(guān)部分Vys,并丟棄信道相關(guān)部分Uxh與殘差相關(guān)部分Dzs,h,來達(dá)到信道補(bǔ)償?shù)哪康?由于JFA 模型需要學(xué)習(xí)信道信息,因此也需要提供每位說話人在不同信道下的語音數(shù)據(jù).與上述4 種方法相比,只有JFA 模型同時(shí)考慮了式 (6)中的全部4 個(gè)分量,這也使得JFA 模型能夠獲得比上述方法更優(yōu)的性能.然而,由于JFA 模型需要對不同成分進(jìn)行建模,因此其計(jì)算復(fù)雜度較高.
2.2.5 總變化空間模型
聯(lián)合因子分析模型雖然是一種有效的句級特征提取方法,但其模型假設(shè)中仍然存在一些問題:說話人信息與信道信息并非完全相互獨(dú)立,因此獨(dú)立地學(xué)習(xí)說話人本征音空間與本征信道空間會(huì)造成說話人信息損失.此外,信道種類多、難以預(yù)測,無法通過窮舉的方法來學(xué)習(xí)全部的信道信息,且信道標(biāo)簽信息的采集也具有一定的難度.針對以上問題,可以通過學(xué)習(xí)一個(gè)包含均值超矢量中主要信息的總變化空間 (Total variability space,TVS)[39-40],來代替獨(dú)立學(xué)習(xí)的本征音空間與本征信道空間.該方法稱為身份-向量 (Identity-vector,I-vector)方法[40],它通過學(xué)習(xí)高維GMM 均值超矢量與低維特征之間的映射關(guān)系,來獲取前者的低維特征表示 ——I-vector 特征.而對于I-vector 特征中包括信道信息在內(nèi)的與說話人身份無關(guān)的會(huì)話變化(冗余)信息,則可以采用會(huì)話補(bǔ)償?shù)姆绞綄ζ溥M(jìn)行削減.
與JFA 方法不同,I-vector 方法不需要區(qū)分說話人與信道.它直接通過學(xué)習(xí)總變化空間來對GMM均值超矢量進(jìn)行降維,且提取的I-vector 特征能夠繼承GMM 均值超矢量的大多數(shù)優(yōu)點(diǎn).同時(shí),由于I-vector 特征的維度較低,使得一些在高維數(shù)據(jù)上不適用的傳統(tǒng)補(bǔ)償策略得以適用,具有更高的可操作性.擁有以上優(yōu)點(diǎn)的I-vector 方法更是由于其優(yōu)良的識別性能,而受到了廣泛關(guān)注,并成為說話人識別領(lǐng)域中的主流方法之一,總變化空間學(xué)習(xí)更是作為I-vector 方法中的關(guān)鍵研究內(nèi)容之一而備受關(guān)注.根據(jù)類別信息的利用情況,目前的總變化空間學(xué)習(xí)方法可以分為兩類:無監(jiān)督方法與有監(jiān)督方法,下面將從這兩方面展開介紹.
2.2.5.1 無監(jiān)督方法
在無監(jiān)督的總變化空間學(xué)習(xí)方面,根據(jù)總變化空間模型中假設(shè)側(cè)重點(diǎn)的不同,其可以劃分為兩類:一類將側(cè)重點(diǎn)放在從GMM 均值超矢量映射到I-vector 特征后所剩的殘差上,通過對殘差引入不同的先驗(yàn)假設(shè),來進(jìn)行總變化空間的學(xué)習(xí);另一類則對從GMM 均值超矢量到I-vector 特征的映射關(guān)系進(jìn)行改進(jìn).
1)殘差假設(shè)
首先介紹基于不同殘差假設(shè)的無監(jiān)督I-vector 特征提取方法,最早出現(xiàn)的方法為前端因子分析 (Front-end factor analysis,FEFA)方法[40].在此之后,一系列通過直接或間接對GMM 均值超矢量進(jìn)行降維處理來學(xué)習(xí)總變化空間的方法相繼出現(xiàn).它們大多均屬于前端因子分析方法的變形方法,例如:基于EM 算法的PCA 方法[42]、概率主成分分析 (Probabilistic principal component analysis,PPCA)[43-44]以及因子分析 (Factor analysis,FA)[44-45]等.這類方法認(rèn)為:GMM 均值超矢量之間的差異不僅來自于其對應(yīng)的隱變量I-vector 特征,還來自于進(jìn)行映射之后所剩的殘差.此類方法通過對殘差中所剩成分的分析,來幫助總變化空間的學(xué)習(xí).
a)前端因子分析 (FEFA).作為I-vector 方法的基礎(chǔ),其沒有直接對GMM 均值超矢量進(jìn)行處理,而是通過建立Baum-Welch 統(tǒng)計(jì)量與隱變量I-vector 特征之間的映射關(guān)系來學(xué)習(xí)總變化空間.由于無法顯式地展示Baum-Welch 統(tǒng)計(jì)量與I-vector 特征之間的關(guān)系,且Baum-Welch 統(tǒng)計(jì)量與GMM 均值超矢量具有等效性[44],因此這里仍然以GMM 均值超矢量的形式給出FEFA 方法的表達(dá)式
其中,T=(T1T,···,TcT,···,TCT)T∈RCF×R(R ?CF)為低秩的總變化矩陣 (Total variability matrix),Tc∈RF×R為總變化矩陣的子塊,ws,h∈RR~N(0,I)為待求的I-vector 特征,Baum-Welch 統(tǒng)計(jì)量的計(jì)算過程可以參見式 (3).由式 (11)可以看出,FEFA 方法的模型假設(shè)中不包含殘差項(xiàng),因此該模型的I-vector 特征中包含了全部變化信息.與前文所述的特征空間學(xué)習(xí)方法類似,FEFA方法也需要利用EM 算法來進(jìn)行參數(shù)與隱變量估計(jì),在E 步需要估計(jì)出ws,h在條件下的后驗(yàn)協(xié)方差矩陣L、后驗(yàn)均值E以及后驗(yàn)相關(guān)矩陣Υ
其中,μc與Σc分別為UBM第c個(gè)高斯分量的均值矢量與協(xié)方差矩陣.
在M 步,首先需要計(jì)算Baum-Welch 統(tǒng)計(jì)量與I-vector 的聯(lián)合似然函數(shù),然后求取其對參數(shù)T的偏導(dǎo)數(shù)并令其為0,便可得到參數(shù)T的更新公式
經(jīng)E 步與M 步的反復(fù)迭代后,模型最終會(huì)趨于收斂.然后,將T代入式 (12)中,即可得到I-vector特征的后驗(yàn)均值E,將其用作待求的I-vector 特征即可.基于EM 算法的PCA 方法[42]與FEFA 方法類似,也不具有殘差假設(shè).
b)概率主成分分析 (PPCA).與FEFA 方法不同,PPCA 方法[43-44]具有殘差假設(shè),其可以表示為以下形式:
其中,εs,h∈RCF~N(0,σ2I)為殘差矢量,且它的協(xié)方差矩陣各向同性 (Isotropic),因此εs,h各維之間的離散程度相同.也正是由于εs,h的協(xié)方差矩陣各向同性,因此在進(jìn)行最大似然估計(jì)時(shí)各參數(shù)具有閉式解[43,46].但采用EM 算法進(jìn)行求解時(shí)的模型計(jì)算復(fù)雜度更低,且經(jīng)過若干次迭代后參數(shù)一定會(huì)收斂于全局最優(yōu)解,因此大多數(shù)情況下仍然采用EM算法進(jìn)行PPCA 方法的參數(shù)估計(jì).
c)因子分析 (FA).因子分析方法[44-45]具有與式 (14)相同的表達(dá)式,但它對殘差協(xié)方差矩陣的定義更加自由:其定義εs,h~N(0,Φ),其中 Φ 為各向異性的對角協(xié)方差矩陣.其參數(shù)估計(jì)方法與PPCA 類似,也需要利用EM 算法來完成參數(shù)更新.
以上即為3 種基于不同殘差假設(shè)的總變化空間學(xué)習(xí)方法,它們在性能方面的差異不大[44],但計(jì)算復(fù)雜度具有一定差異.考慮到在說話人識別領(lǐng)域中,模型訓(xùn)練過程一般采取離線模式,可以訓(xùn)練好模型后再利用其進(jìn)行相應(yīng)的特征提取操作,因此訓(xùn)練階段一般對效率的要求不高,特征提取過程的時(shí)間復(fù)雜度則受到更多的關(guān)注.基于此,本節(jié)將總結(jié)與上述3 種方法相應(yīng)的特征提取過程的時(shí)間復(fù)雜度,并給出其他匯總信息,如表2 所示.其中,tr(·)表示跡運(yùn)算,⊙表示哈達(dá)瑪 (Hadamard)乘積.
表2 基于不同殘差假設(shè)的無監(jiān)督總變化空間模型Table 2 Unsupervised TVS model based on different residual assumptions
2)映射關(guān)系假設(shè)
這類總變化空間學(xué)習(xí)方法大多針對總變化空間學(xué)習(xí)過程中GMM 均值超矢量 (或Baum-Welch 統(tǒng)計(jì)量)與I-vector 特征的映射關(guān)系來進(jìn)行方法改進(jìn),并根據(jù)其存在的具體問題給出解決方法.這類方法一般從以下三個(gè)角度出發(fā):對映射關(guān)系的改進(jìn)、對不理想數(shù)據(jù)庫的改善,以及對學(xué)習(xí)速度的提升
a)對于映射關(guān)系改進(jìn)問題,局部變化模型 (Local variability modeling)[47]通過利用GMM 均值超矢量中各高斯分量與I-vector 特征之間的局部可變性,來學(xué)習(xí)高斯分量與I-vector 特征間的映射關(guān)系;基于稀疏編碼 (Sparse coding,SC)的方法[48]則利用字典學(xué)習(xí)來壓縮總變化矩陣,從而減少數(shù)據(jù)所占用的存儲空間;廣義變化模型 (Generalized variability model)[49]則針對GMM 均值超矢量與I-vector 特征映射關(guān)系中高斯分布假設(shè)較簡單的問題,通過將該分布擴(kuò)展到高斯混合分布,來更魯棒地?cái)M合二者之間的映射關(guān)系.
b)對于不理想數(shù)據(jù)庫改善問題,針對不同數(shù)據(jù)庫中存在源變化信息 (Source variable),從而導(dǎo)致開發(fā)集數(shù)據(jù)與評估集數(shù)據(jù)映射關(guān)系不一致的問題,基于最小散度標(biāo)準(zhǔn) (Minimum divergence criterion)的先驗(yàn)補(bǔ)償方法[50]通過對不同數(shù)據(jù)庫中的先驗(yàn)信息進(jìn)行建模,來學(xué)習(xí)能夠?qū)ζ溥M(jìn)行補(bǔ)償?shù)挠成潢P(guān)系;針對語音數(shù)據(jù)中存在噪聲與混響的問題,基于不確定性傳播 (Uncertainty propagation)的方法[51]則對Baum-Welch 統(tǒng)計(jì)量與I-vector 特征的映射關(guān)系中不確定性因素所產(chǎn)生的影響進(jìn)行建模,從而降低環(huán)境失真對I-vector 特征表示的影響.
c)對于學(xué)習(xí)速度提升問題,廣義 I-vector 估計(jì)(Generalizing I-vector estimation)方法[52]利用子空間正交先驗(yàn) (Subspace orthogonalizing prior)來替換經(jīng)典I-vector 方法中的標(biāo)準(zhǔn)高斯先驗(yàn),從而通過正交屬性來提高計(jì)算速度;而基于隨機(jī)奇異值分解 (Randomized singular value decomposition)的方法[53]則通過近似估計(jì)的方式來提升計(jì)算速度.上述方法的匯總信息如表3 所示.
表3 基于不同映射關(guān)系假設(shè)的無監(jiān)督總變化空間模型Table 3 Unsupervised TVS model based on different mapping relations
2.2.5.2 有監(jiān)督方法
無監(jiān)督方法雖然能夠獲取有效的I-vector 特征,但在學(xué)習(xí)過程中未利用類別信息.這里將介紹基于有監(jiān)督學(xué)習(xí)策略的總變化空間學(xué)習(xí)方法,它們均能夠有效利用類別信息來指導(dǎo)總變化空間學(xué)習(xí),主要包括偏最小二乘 (Partial least squares,PLS)方法[54]、概率偏最小二乘 (Probabilistic partial least squares,PPLS)方法[55]、有監(jiān)督主成分分析(Supervised probabilistic principal component analysis,SPPCA)[56]、基于最小最大策略 (Minimax strategy)的方法[57-58]等,下面將展開介紹上述4 種方法.
a)偏最小二乘 (PLS).PLS 方法能有效利用類別信息進(jìn)行總變化空間學(xué)習(xí),它主要通過構(gòu)建GMM 均值超矢量與類別標(biāo)簽的公共子空間來獲取它們之間的關(guān)聯(lián)信息,并以此來增加模型對不同數(shù)據(jù)的區(qū)分能力,而此公共子空間正是總變化空間.定義開發(fā)集數(shù)據(jù)中的全部GMM 均值超矢量可以表示為數(shù)據(jù)矩陣M=(M1,···,Mn,···,MN)T∈RN×CF,其中Mn為第n段語音所對應(yīng)的GMM 均值超矢量,n=1,2,···,N,N為開發(fā)集數(shù)據(jù)的樣本總數(shù).同時(shí),PLS 方法對類別標(biāo)簽采用one-hot編碼的形式,即yn=(0,···,0,1,0,···,0)T∈RK,其中,K為開發(fā)集數(shù)據(jù)的總類別數(shù).定義開發(fā)集中全部數(shù)據(jù)的類別標(biāo)簽可以表示為矩陣Y=(y1,···,yn,···,yN)T∈RN×K.基于以上符號定義,經(jīng)過標(biāo)準(zhǔn)化后的GMM 均值超矢量矩陣M(1)與類別標(biāo)簽矩陣Y(1)的關(guān)系可以表示為以下形式:
其中,R(R ≤K)為模型求解時(shí)的迭代次數(shù),也是總變化空間的維度;在每次迭代過程中,均可求得一組wr,tr,ur與qr;T=(t1,···,tr,···,tR)∈RCF×R為總變化矩陣;W=(w1,···,wr,···,wR)∈RN×R為I-vector 特征組成的矩陣,每行對應(yīng)一個(gè)I-vector 特征,在每次迭代中,均可以求得一個(gè)得分矢量wr,對應(yīng)于當(dāng)前數(shù)據(jù)矩陣M(r)在總變化空間當(dāng)前所求基上的投影;Q=(q1,···,qr,···,qR)∈RK×R為負(fù)荷矩陣;U=(u1,···,ur,···,uR)∈RN×R為得分矩陣,與W類似,每次迭代均可以求得一個(gè)得分矢量ur;E,F為殘差矩陣.
在上述總變化空間學(xué)習(xí)過程中,需要保證GMM均值超矢量與類別標(biāo)簽在公共子空間中投影包含的有效信息最多,從而減少投影過程中的信息損失;同時(shí),還需要保證它們投影的相關(guān)性最大,從而建立起均值超矢量與標(biāo)簽之間的強(qiáng)聯(lián)系.以上需求可以表示為以下優(yōu)化問題:
式(16)為第r次迭代時(shí)的目標(biāo)函數(shù),對其進(jìn)行求解即可得到當(dāng)前迭代下的tr與qr.然后,需要對數(shù)據(jù)矩陣M(r)與類別信息矩陣Y(r)進(jìn)行縮減,并從縮減后的M(r+1)與Y(r+1)中繼續(xù)尋找下一組滿足目標(biāo)函數(shù)Jr+1的參數(shù)tr+1與qr+1.當(dāng)進(jìn)行R次迭代后,即可得到總變化矩陣T,而GMM 均值超矢量在總變化空間上的投影即為I-vector 特征,可由未縮減的數(shù)據(jù)特征矩陣M(1)進(jìn)行表示.
b)概率偏最小二乘 (PPLS).概率偏最小二乘方法[55]是偏最小二乘 (PLS)方法的概率擴(kuò)展形式,它的模型規(guī)模、計(jì)算復(fù)雜度、識別性能均優(yōu)于PLS方法.PPLS 方法假設(shè)GMM 均值超矢量Ms,h與類別標(biāo)簽Ys,h均由公共隱變量ws,h經(jīng)過一定的線性變換而獲得,此過程通過Ys,h來指導(dǎo)Ms,h的產(chǎn)生過程,從而增強(qiáng)Ms,h與Ys,h之間的聯(lián)系.通過公共隱變量ws,h的聯(lián)系,Ms,h與Ys,h的關(guān)系可以表示為
其中,m∈RCF為GMM 均值超矢量產(chǎn)生過程中的偏置;μY∈RK為類別標(biāo)簽產(chǎn)生過程中的偏置;T∈RCF×R為總變化矩陣,亦為由ws,h向Ms,h轉(zhuǎn)換的變換矩陣,T的列張成了數(shù)據(jù)空間的一個(gè)線性子空間,對應(yīng)于總變化空間;Q∈RK×R為負(fù)荷矩陣;ws,h∈RR~N(0,I)為公共隱變量,亦為待求的I-vector 特征;εs,h∈RCF~N(0,ΦM|w)與ζs,h∈RK~N(0,ΦY|w)為殘差矢量,ΦM|w與ΦY|w為誤差擾動(dòng)εs,h與ζs,h的協(xié)方差矩陣;且εs,h,ζs,h與ws,h兩兩之間相互獨(dú)立.在進(jìn)行參數(shù)求解時(shí),式 (17)可以整合為一個(gè)等式
c)有監(jiān)督主成分分析 (SPPCA).有監(jiān)督主成分分析方法[56]與概率偏最小二乘 (PPLS)方法類似,但它們對類別標(biāo)簽的處理方式不同.SPPCA 方法并未直接采用GMM 均值超矢量作為輸入,而是采用與前端因子分析 (FEFA)類似的方法,將Baum-Welch 統(tǒng)計(jì)量作為輸入來學(xué)習(xí)總變化空間.SPPCA 方法具有以下形式:
其中,Ss為長時(shí)GMM 均值超矢量,是同一說話人s的全部語音所對應(yīng)的GMM 均值超矢量.與PPLS方法相比,SPPCA 方法并未顯式地使用類別標(biāo)簽,而是隱式地將同類數(shù)據(jù)聚集在一起,并用于GMM均值超矢量的提取.在參數(shù)估計(jì)過程中,SPPCA 方法也采用EM 算法進(jìn)行參數(shù)更新.
d)最小最大策略.針對開發(fā)集數(shù)據(jù)與評估集數(shù)據(jù)的映射關(guān)系不一致問題,將最小最大策略 (Minimax strategy)[57]引入到總變化空間的學(xué)習(xí)過程中,該方法[57]通過這一準(zhǔn)則來最小化最大風(fēng)險(xiǎn),從而獲得潛在風(fēng)險(xiǎn)最小的映射關(guān)系.這里給出上述不同方法的匯總信息,如表4 所示.
表4 不同有監(jiān)督總變化空間模型匯總信息Table 4 Information of different supervised TVS models
GMM 均值超矢量向I-vector 特征映射后,所獲得的原始I-vector 特征中仍然存在與說話人身份無關(guān)的信息,如語音內(nèi)容差異性信息、語音時(shí)長差異性信息、信道差異性信息、環(huán)境噪聲等,這些與說話人身份無關(guān)的信息被統(tǒng)稱為會(huì)話變化信息 (Session variable)[59].對于上述信息,需要采用會(huì)話補(bǔ)償方法來對其進(jìn)行削減.本節(jié)將對基于任務(wù)分段式策略的會(huì)話補(bǔ)償方法進(jìn)行總結(jié),將其劃分為兩類:一類方法通過尋找最佳的投影子空間來進(jìn)行會(huì)話補(bǔ)償特征空間學(xué)習(xí),而另一類方法則通過特征重構(gòu)的方式進(jìn)行會(huì)話補(bǔ)償.這里給出上述兩類會(huì)話補(bǔ)償方法的匯總信息,如表5 所示.
表5 不同會(huì)話補(bǔ)償方法匯總信息Table 5 Information of different session compensation methods
2.3.1 子空間投影
這類方法大多通過子空間學(xué)習(xí)的方式,來尋找更能夠表征說話人個(gè)性信息的投影方向,從而將原始I-vector 特征投影到更具有區(qū)分性的子空間中.在眾多方法中,最為常用的方法為線性判別分析(Linear discriminant analysis,LDA)[60],其能夠?qū)W習(xí)具有類內(nèi)散度最小且類間散度最大的子空間,從而有效增強(qiáng)同類數(shù)據(jù)之間的共性、異類數(shù)據(jù)之間的區(qū)分性.此外,很多其他基于子空間投影思想的會(huì)話補(bǔ)償方法也能獲得較為理想的結(jié)果.例如:類內(nèi)協(xié)方差規(guī)整 (Within-class covariance normalization,WCCN)[61]將降低預(yù)期錯(cuò)誤率作為子空間學(xué)習(xí)的優(yōu)化目標(biāo);擾動(dòng)屬性投影 (Nuisance attribute projection,NAP)[62]則以消除擾動(dòng)方向?yàn)閮?yōu)化目標(biāo);非參數(shù)判別分析 (Nonparametric discriminant analysis,NDA)[63]通過使用最近鄰規(guī)則,來學(xué)習(xí)原始I-vector 特征在子空間中的局部類間區(qū)分性信息與類內(nèi)共性信息,進(jìn)而使得其能夠處理非高斯分布的原始I-vector 特征;而局部權(quán)重線性判別分析(Locally weighted linear discriminant analysis,LWLDA)[64-65]則以成對的方式來獲取說話人類內(nèi)散度,并通過關(guān)聯(lián)矩陣對其進(jìn)行縮放,從而既能夠解決非高斯分布對會(huì)話補(bǔ)償?shù)南拗茊栴},又能夠保留原始I-vector 特征內(nèi)的局部結(jié)構(gòu).
上述方法在學(xué)習(xí)到原始I-vector 特征的投影子空間后,需要將原始I-vector 特征進(jìn)行投影表示.定義原始I-vector 特征為w,則投影后的I-vector 特征可以表示為
其中,A為投影矩陣,w? 為會(huì)話補(bǔ)償 (投影)后的I-vector 特征.
2.3.2 特征重構(gòu)
第二類方法則需要學(xué)習(xí)原始I-vector 特征中能夠表示說話人個(gè)性信息的本質(zhì)內(nèi)容,并利用其對原始I-vector 特征進(jìn)行重構(gòu),進(jìn)而在重構(gòu)過程中通過引入更多的約束條件來消除與本質(zhì)內(nèi)容無關(guān)的會(huì)話變化信息.這類方法大多以字典學(xué)習(xí)的方式來進(jìn)行本質(zhì)內(nèi)容學(xué)習(xí),它們的目標(biāo)函數(shù)通常能夠表示為
其中,‖·‖表示求模運(yùn)算 (L2 范數(shù)),D為待求字典,g(α)為約束項(xiàng),可以具有多種形式,也可以為多個(gè)約束項(xiàng)的累加形式;λ為約束項(xiàng)系數(shù).
在這類方法中,基于稀疏編碼 (Sparse coding,SC)的會(huì)話補(bǔ)償方法[66]在重構(gòu)原始I-vector 特征時(shí)加入稀疏約束,從而將會(huì)話變化信息以殘差的方去除掉;基于塊稀疏貝葉斯學(xué)習(xí) (Block sparse Bayesian learning,BSBL)的方法[67]通過利用塊內(nèi)相關(guān)性對I-vector 特征進(jìn)行稀疏重構(gòu);基于Fisher 判別字典學(xué)習(xí) (Fisher discrimination dictionary learning,FDDL)的方法[68]則通過引入Fisher 正則項(xiàng)來增加字典對不同類別的區(qū)分性.
在獲得字典D后,即可利用其進(jìn)行原始I-vector 特征的重構(gòu),而重構(gòu)后的特征Dα與稀疏表示α均可以作為說話人的句級特征進(jìn)行使用.
說話人句級特征的另一類提取方法為基于任務(wù)驅(qū)動(dòng)式策略的方法,這類方法通常具有統(tǒng)一的優(yōu)化目標(biāo),能夠在統(tǒng)一任務(wù)的驅(qū)動(dòng)下進(jìn)行特征表示學(xué)習(xí).這類方法的輸入特征可以是幀級特征,例如:MFCC特征、對數(shù)FBank 特征等;也可以是對應(yīng)語音段時(shí)長更長的段級特征,例如:對當(dāng)前MFCC 或?qū)?shù)FBank 特征前后若干幀進(jìn)行拼接的段級特征、語譜圖特征等.在輸入原始特征后,即可在任務(wù)驅(qū)動(dòng)式策略的指導(dǎo)下進(jìn)行句級特征提取.這類方法主要從兩個(gè)角度開展研究:一是基于神經(jīng)網(wǎng)絡(luò)方法進(jìn)行特征映射,并將網(wǎng)絡(luò)的上層輸出作為句級特征進(jìn)行使用;二是基于聯(lián)合優(yōu)化思想,對分段式策略的各階段進(jìn)行聯(lián)合優(yōu)化,從而提取出面向任務(wù)的句級特征.下面將分別從以上兩個(gè)角度展開介紹不同的句級特征提取方法.
自21 世紀(jì)初期以來,神經(jīng)網(wǎng)絡(luò)方法在自然語言處理、圖像處理、語音識別等領(lǐng)域的研究均取得了巨大進(jìn)展,但其在說話人識別領(lǐng)域一直無法取得理想的性能,且性能一直遠(yuǎn)遠(yuǎn)低于I-vector 方法,因此神經(jīng)網(wǎng)絡(luò)方法并不像在其他領(lǐng)域一樣廣受研究者們的重視.直到2014 年隨著深度-向量 (Deepvector,D-vector)方法[69]的出現(xiàn),神經(jīng)網(wǎng)絡(luò)方法在說話人識別領(lǐng)域才暫露頭角.然而,D-vector 方法為幀級特征提取方法,需要對幀級特征序列求取均值來獲取句級的特征表示 ——D-vector 特征,且其識別性能仍然明顯低于I-vector 方法.慶幸的是,其與I-vector 特征的融合特征能夠取得相對理想的識別性能,這一突破性進(jìn)展終于將神經(jīng)網(wǎng)絡(luò)方法帶入到研究者的視線中,而這類從網(wǎng)絡(luò)架構(gòu)中所提取出的說話人特征則稱作嵌入 (Embedding)特征.在此之后,一系列基于神經(jīng)網(wǎng)絡(luò)方法的說話人句級特征提取方法相繼出現(xiàn),這類方法主要通過學(xué)習(xí)原始數(shù)據(jù)與類別標(biāo)簽的映射關(guān)系,進(jìn)行特征的表示學(xué)習(xí).它們主要從兩方面開展研究:一是網(wǎng)絡(luò)結(jié)構(gòu),二是目標(biāo)函數(shù),本節(jié)也將從這兩個(gè)角度展開介紹.
3.1.1 網(wǎng)絡(luò)結(jié)構(gòu)
本節(jié)將以說話人句級特征的發(fā)展順序?yàn)榫€索,介紹5 種具有代表性的網(wǎng)絡(luò)結(jié)構(gòu),分別為D-vector 方法[69]、X-vector 方法[70-71]、視覺幾何組-中等(Visual geometry group-medium,VGG-M)網(wǎng)絡(luò)[72-73]、深度殘差網(wǎng)絡(luò) (Residual network,ResNet)[74-75]以及對生成抗網(wǎng)絡(luò) (Generative adversarial network,GAN)[76].
1)D-vector 方法.最初D-vector 方法用于與文本相關(guān)的說話人幀級特征提取,其將上下文相關(guān)的若干幀對數(shù)FBank 特征進(jìn)行拼接并用作網(wǎng)絡(luò)的輸入,然后通過構(gòu)建全連接 (Full-connected)深度神經(jīng)網(wǎng)絡(luò) (Deep neural network,DNN)來進(jìn)行幀級特征映射,激活函數(shù)采用maxout 函數(shù),目標(biāo)函數(shù)則采用softmax 損失,并從網(wǎng)絡(luò)最后一個(gè)隱藏層中提取出幀級特征,最后對整段語音的幀級特征求取均值以獲取句級特征,其網(wǎng)絡(luò)結(jié)構(gòu)如圖5(a)所示.值得注意的是,D-vector 方法中幀級特征的上下文相關(guān)性僅體現(xiàn)在人工選擇當(dāng)前幀的前后若干幀,即通過增加輸入層節(jié)點(diǎn)的數(shù)目來覆蓋相關(guān)的上下文信息,并未引入需要額外標(biāo)注的音素 (Phone)或三音素 (Triphone)信息,因此將其擴(kuò)展為與文本無關(guān)的特征提取方法并不困難.
以D-vector 方法為基礎(chǔ),一系列基于神經(jīng)網(wǎng)絡(luò)的特征提取方法相繼出現(xiàn),這些方法主要從兩方面開展研究.一方面,部分方法延續(xù)D-vector 方法的幀級特征提取架構(gòu),并設(shè)計(jì)描述能力更強(qiáng)的神經(jīng)網(wǎng)絡(luò)架構(gòu)來進(jìn)行幀級特征提取,然后以求取幀級特征均值的方式來獲取句級特征.例如:瓶頸 (Bottleneck feature,BNF)特征[77-78]、基于CNN 的幀級特征表示網(wǎng)絡(luò)[79-80]等.另一方面,其余方法則更關(guān)注幀級特征與句級特征之間的關(guān)系,它們將句級特征的提取過程嵌入于整個(gè)網(wǎng)絡(luò)中,通過引入統(tǒng)計(jì)池化(Statistical pooling)、平均池化(Average pooling)等編碼機(jī)制,將幀級特征序列轉(zhuǎn)化為句級特征.這類方法包括X-vector 方法、具有平均池化層的VGG-M 網(wǎng)絡(luò)與ResNet 等,且上述3 種方法均由于優(yōu)良的識別性能而廣受研究者們的關(guān)注.
2)X-vector 方法.從語音信號的動(dòng)態(tài)特性可知,語音信號具有時(shí)序相關(guān)性,因此上下文語音內(nèi)容的不同會(huì)導(dǎo)致同一發(fā)音模式的改變,而在原始聲學(xué)特征中加入一些時(shí)序同態(tài)特征 (例如:一階、二階差分)能夠有效提升說話人識別系統(tǒng)的性能.Xvector 方法正是繼承了這一思想,為了捕捉到說話人個(gè)性信息的長時(shí)統(tǒng)計(jì)特性,其將能夠有效描述語音信號動(dòng)態(tài)特性的時(shí)延神經(jīng)網(wǎng)絡(luò) (Time-delay neural network,TDNN)[22]引入到網(wǎng)絡(luò)架構(gòu)中.具體而言,X-vector 方法將前端提取的對數(shù)FBank特征送入時(shí)延神經(jīng)網(wǎng)絡(luò)中,然后通過統(tǒng)計(jì)池化層來計(jì)算幀級特征的統(tǒng)計(jì)量,再將這些統(tǒng)計(jì)量傳至全連接層,激活函數(shù)采用修正線性單元 (Rectified linear unit,ReLU)函數(shù),目標(biāo)函數(shù)則采用softmax 損失.一般統(tǒng)計(jì)池化層后需要連接兩個(gè)全連接層,遠(yuǎn)離輸出層的Embedding 特征用于概率線性判別分析 (Probabilistic linear discriminative analysis,PLDA)[81]建模,靠近輸出層的Embedding 特征則用于余弦距離打分 (Cosine distance scoring,CDS)方法[39],整個(gè)過程的網(wǎng)絡(luò)結(jié)構(gòu)如圖5(b)所示.
圖5 兩種網(wǎng)絡(luò)結(jié)構(gòu)對比Fig.5 Comparison of two different network structures
與D-vector 方法相比,X-vector 方法在處理上下文關(guān)系時(shí)具有更加簡單有效的結(jié)構(gòu).具體而言,Dvector 方法中全連接的DNN 在處理具有上下文關(guān)系的長時(shí)語音段時(shí),輸入層需要覆蓋全部的上下文信息.而X-vector 方法中的TDNN 則能夠?qū)⒕哂袝r(shí)序關(guān)系的上下文信息放置于不同的隱藏層,從而更高效地利用時(shí)序關(guān)系與網(wǎng)絡(luò)參數(shù),因此其比DNN 具有更好的長時(shí)描述能力[82].此外,TDNN 也能夠很好地繼承深度神經(jīng)網(wǎng)絡(luò)的前向反饋結(jié)構(gòu),并且可以通過在時(shí)域上的權(quán)值共享機(jī)制 (相當(dāng)于在時(shí)域上的一維CNN)來實(shí)現(xiàn)網(wǎng)絡(luò)的并行訓(xùn)練.
X-vector 方法由于其優(yōu)良的性能,一經(jīng)提出后迅速發(fā)展為說話人識別領(lǐng)域的主流方法之一.一系列基于它的神經(jīng)網(wǎng)絡(luò)方法也隨之出現(xiàn),其中應(yīng)用最為廣泛的是基于分解TDNN (Factorized TDNN,F-TDNN)[83-84]與擴(kuò)展TDNN (Extended TDNN,E-TDNN)[85]的X-vector 特征提取方法.前者通過將每個(gè)TDNN 層的權(quán)重矩陣分解為兩個(gè)低秩矩陣的乘積來減少參數(shù)量,同時(shí)還限制其中一個(gè)矩陣為半正交矩陣來確保信息的完整性.后者則對卷積層的時(shí)域上下文結(jié)構(gòu)進(jìn)行拓寬,并在卷積層之間交織放射層來增加網(wǎng)絡(luò)的寬度.此外,還有一些其他X-vector 的擴(kuò)展方法,例如:基于X-vector 方法的短語音特征提取方法[86]、長時(shí)語音特征提取方法[87]、加強(qiáng)上下文關(guān)系的特征提取方法[88]等.與此同時(shí),隨著全球最大規(guī)模說話人識別數(shù)據(jù)庫VoxCeleb[73,75,89]的發(fā)布,兩個(gè)作為此數(shù)據(jù)庫基線系統(tǒng)的神經(jīng)網(wǎng)絡(luò)方法,也相繼成為研究者們的關(guān)注熱點(diǎn),它們分別為VGG-M 網(wǎng)絡(luò)與ResNet.
3)VGG-M 網(wǎng)絡(luò).VGG-M 網(wǎng)絡(luò)最初由文獻(xiàn)[72]提出,后被文獻(xiàn)[73]加以修改并引入到說話人的特征提取應(yīng)用中.VGG-M 網(wǎng)絡(luò)主要通過多個(gè)卷積層、池化層與全連接DNN 層的組合疊加來增加網(wǎng)絡(luò)的深度與寬度,并以此來提升網(wǎng)絡(luò)的學(xué)習(xí)能力.其中,卷積層能夠?qū)矸e核覆蓋范圍內(nèi)的數(shù)據(jù)進(jìn)行加權(quán)疊加,因此可以學(xué)習(xí)到局部的上下文相關(guān)內(nèi)容;而池化層能夠?qū)?shù)據(jù)進(jìn)行壓縮,從而對輸入池化層的數(shù)據(jù)進(jìn)行降采樣.同時(shí),也正是由于VGG-M 網(wǎng)絡(luò)龐大的參數(shù)量,使得其必須依賴大量的開發(fā)集數(shù)據(jù)來完成網(wǎng)絡(luò)的訓(xùn)練.
VGG-M 網(wǎng)絡(luò)以語譜圖特征作為輸入,然后經(jīng)過多個(gè)卷積層與池化層的組合來進(jìn)行特征表示,池化層采用最大池化(Maximum pooling),激活函數(shù)采用ReLU 函數(shù).經(jīng)過多組卷積層與池化層的組合特征表示后,數(shù)據(jù)傳向平均池化層 (Average pooling),并最終傳向全連接層進(jìn)行特征表示學(xué)習(xí),目標(biāo)函數(shù)則采用softmax 函數(shù),最終全連接層的輸出可以作為說話人特征進(jìn)行使用.值得注意的是,雖然輸入網(wǎng)絡(luò)的前端特征采用的是具有固定長度的語譜圖特征,但平均池化層能夠?qū)θ我鈺r(shí)長的數(shù)據(jù)進(jìn)行均值求取,因此VGG-M 網(wǎng)絡(luò)最終可以獲得句級特征.
4)深度殘差網(wǎng)絡(luò) (ResNet).當(dāng)網(wǎng)絡(luò)的層數(shù)增加時(shí),模型的表示能力會(huì)隨之增強(qiáng),但同時(shí)梯度的優(yōu)化也會(huì)變得更加困難,由此會(huì)導(dǎo)致層數(shù)多的網(wǎng)絡(luò)性能卻低于層數(shù)少的網(wǎng)絡(luò)這一退化(Degradation)問題.針對這一問題,ResNet 通過殘差學(xué)習(xí)單元(Residual unit)將當(dāng)前層的殘差直接傳遞給后面的層,使得淺層數(shù)據(jù)在傳輸過程中可以跳過一部分網(wǎng)絡(luò)層,直接傳遞給更深的網(wǎng)絡(luò)層,從而解決梯度優(yōu)化難題.這種方式能夠有效避免信號失真,極大地加快了網(wǎng)絡(luò)的訓(xùn)練效率.
文獻(xiàn)[75]給出了兩種ResNet 結(jié)構(gòu),分別為Res-Net-34 與ResNet-50,它們分別具有34 層與50 層的權(quán)重層.在此基礎(chǔ)上,一系列基于ResNet 結(jié)構(gòu)的說話人特征提取方法相繼出現(xiàn),例如:ResNet-20[90]、Thin-ResNet[91]等.更有一系列方法[92-94]在Res-Net 網(wǎng)絡(luò)架構(gòu)的基礎(chǔ)上,探究不同目標(biāo)函數(shù)對網(wǎng)絡(luò)表示能力的影響.
5)生成對抗網(wǎng)絡(luò)(GAN).隨著GAN[76]在圖像處理領(lǐng)域的取得巨大成功,其在說話人識別領(lǐng)域中的研究也逐漸成為熱點(diǎn)之一.GAN 具有一種對抗博弈的學(xué)習(xí)方式,由生成器 (Generator)與判別器(Discriminator)構(gòu)成.其中,生成器用于生成盡可能服從真實(shí)數(shù)據(jù)分布的樣本,而判別器則用于對數(shù)據(jù)來源進(jìn)行分類判別.基于這種博弈思想,一系列用于句級特征提取的方法相繼出現(xiàn).例如:多任務(wù)三元組生成對抗網(wǎng)絡(luò) (Multitasking triplet generative adversarial network,MTGAN)[95]通過聯(lián)合利用生成對抗機(jī)制與多任務(wù)優(yōu)化來改進(jìn)Embedding 特征的編碼過程;另一個(gè)基于多任務(wù)生成對抗網(wǎng)絡(luò)[96]的方法則通過構(gòu)建Embedding 編碼器、分類器與判別器3 個(gè)部分來進(jìn)行句級Embedding 特征的提取.此外,由于GAN 具有生成數(shù)據(jù)的功能,其也可用于數(shù)據(jù)增強(qiáng)[97].
3.1.2 目標(biāo)函數(shù)
目標(biāo)函數(shù)代表了整個(gè)網(wǎng)絡(luò)的統(tǒng)一優(yōu)化目標(biāo),其對網(wǎng)絡(luò)描述能力的提升起著重要的指導(dǎo)作用.因此,設(shè)計(jì)出有的放矢的目標(biāo)函數(shù),能夠使所提取的特征更適用于當(dāng)前任務(wù).目前的目標(biāo)函數(shù)的相關(guān)設(shè)計(jì)與研究主要從兩方面開展:一是以多分類為目標(biāo),二是以度量特征之間的相似度為目標(biāo).
1)以多分類為目標(biāo)
這一類目標(biāo)函數(shù)主要以最小化分類錯(cuò)誤損失為目標(biāo),常用的目標(biāo)函數(shù)有softmax 損失、交叉熵(Cross entropy)損失等.其中,softmax 損失的應(yīng)用最為廣泛,且擁有一系列對其進(jìn)行擴(kuò)展的改進(jìn)方法.例如:中心 (Center)損失[98]、大間隔softmax(Large margin softmax,L-softmax)損失[99]、角softmax (Angular softmax,A-softmax)損失[100],以及加性間隔softmax (Additive margin softmax,AM-softmax)損失[101]等,下面分別展開介紹.
a)Softmax 損失.傳統(tǒng)的softmax 損失具有各個(gè)節(jié)點(diǎn)輸出的概率密度累加和的形式
其中,N為樣本總數(shù),K為類別數(shù),xn為網(wǎng)絡(luò)輸入層的第n個(gè)輸入特征,yn為xn的類別標(biāo)簽,f(xn)為softmax 層前一層的輸入數(shù)據(jù),θk為前一層的權(quán)重.
b)中心損失.針對softmax 損失中類間距離較小、類內(nèi)距離較大的問題,中心損失[98]對每類數(shù)據(jù)定義一個(gè)質(zhì)心,并使每類數(shù)據(jù)盡量貼近其所屬類的質(zhì)心,從而最小化類內(nèi)距離.其具有以下形式:
其中,cyn為數(shù)據(jù)f(xn)所屬類的質(zhì)心.值得注意的是,由于Lc只對類內(nèi)距離進(jìn)行約束,因此當(dāng)將傳統(tǒng)softmax 損失與中心損失相結(jié)合時(shí),會(huì)得到同時(shí)對類內(nèi)距離與類間距離進(jìn)行約束的目標(biāo)函數(shù)
c)L-softmax 損失.L-softmax 損失[99]首次將角的概念引入到softmax 損失中,對于softmax 損失中的f(xn),可以表示為
其中,αyn,n為f(xn)與θyn的夾角,只有當(dāng)αyn,n小于f(xn)與其他任意權(quán)重θk(k≠yn)的夾角時(shí),f(xn)才屬于第yn類.由于余弦函數(shù)為遞減函數(shù),因此需要保證 cos(αyn,n)>cos(αk,n)(k≠yn).此時(shí),如果將αyn,n改為mαyn,n,則能夠使f(xn)與其所在類別權(quán)重θyn的夾角比其他夾角小m倍以上,從而使得不同類別決策面之間的距離更遠(yuǎn),進(jìn)而增加特征間的區(qū)分性.其中,m≥2且為整數(shù),m取整數(shù)的目的是為了更方便地利用倍角公式對其進(jìn)行展開求解.基于此,L-softmax 損失可以表示為
在L-softmax 損失的基礎(chǔ)上,A-softmax 損失[100]添加了對權(quán)重θk的標(biāo)準(zhǔn)化;而AM-softmax 損失[101]則在A-softmax 損失的基礎(chǔ)上添加了對數(shù)據(jù)的標(biāo)準(zhǔn)化,并將角度上的倍數(shù)關(guān)系 (mαyn,n)直接改為相減的關(guān)系 (αyn,n-m).
2)以度量相似度為目標(biāo)
這一類目標(biāo)函數(shù)主要以度量學(xué)習(xí) (Metric learning)為基礎(chǔ),通過計(jì)算特征間的相似度來控制它們的關(guān)系.常用的目標(biāo)函數(shù)有對比損失 (Contrastive loss)[102]、三元組損失 (Triplet loss)[103]等.
a)對比損失.對比損失主要用于訓(xùn)練孿生(Siamese)網(wǎng)絡(luò),網(wǎng)絡(luò)輸入為成對的數(shù)據(jù),其網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖6(a)所示.當(dāng)成對的數(shù)據(jù)屬于同一類別時(shí),類別標(biāo)簽y=1,反之則y=0.對比損失主要通過歐氏距離來度量樣本之間的相似度,用其他距離進(jìn)行度量,例如:內(nèi)積距離、余弦距離等.基于此,對比損失具有以下形式:
圖6 兩種目標(biāo)函數(shù)對應(yīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖對比Fig.6 Comparison of the structure of the networks corresponding to the two different objective functions
其中,d[f(x1),f(x2)]表示f(x1)與f(x2)的距離,m為間隔.在對比損失這一目標(biāo)的指導(dǎo)下,當(dāng)輸入的數(shù)據(jù)對屬于同一類別時(shí),距離d[f(x1),f(x2)]會(huì)逐漸減小,同類數(shù)據(jù)會(huì)持續(xù)在特征空間中形成聚類;當(dāng)輸入的數(shù)據(jù)對屬于異類時(shí),距離則會(huì)逐漸變大,直到超過設(shè)定的間隔m.
c)三元組損失.用三元組損失訓(xùn)練的網(wǎng)絡(luò)則稱作三元組網(wǎng)絡(luò) (Triplet network),其結(jié)構(gòu)示意圖如圖6(b)所示.三元組損失從對比損失發(fā)展而來,但網(wǎng)絡(luò)的輸入為三元組,分別為固定 (Anchor)樣本xa、正例 (Positive)樣本xp與負(fù)例 (Negative)樣本xn,因此它們可以組成一對正樣本與一對負(fù)樣本.基于上述符號定義,三元組損失可以表示為
三元組損失的目標(biāo)是使得同類樣本在數(shù)據(jù)空間中盡可能靠近,異類數(shù)據(jù)盡可能遠(yuǎn)離;同時(shí),為了避免樣本在數(shù)據(jù)空間中聚合到一個(gè)非常小的空間中,要求負(fù)例樣本對的距離d[f(xa),f(xn)]應(yīng)該比正例樣本對的距離d[f(xa),f(xp)]至少大m.
本小節(jié)介紹了神經(jīng)網(wǎng)絡(luò)方法中若干常用的目標(biāo)函數(shù),表6 展示了上述目標(biāo)函數(shù)的匯總情況.
表6 不同目標(biāo)函數(shù)匯總信息Table 6 Information of different objective functions
另一類基于任務(wù)驅(qū)動(dòng)策略的方法為聯(lián)合優(yōu)化方法,它們通過將原本獨(dú)立優(yōu)化的若干個(gè)階段進(jìn)行聯(lián)合優(yōu)化,從而實(shí)現(xiàn)在統(tǒng)一任務(wù)驅(qū)動(dòng)下進(jìn)行各個(gè)階段子目標(biāo)優(yōu)化的目的.與神經(jīng)網(wǎng)絡(luò)方法相比,聯(lián)合優(yōu)化方法也具有統(tǒng)一的優(yōu)化目標(biāo) (任務(wù));且這類方法由于在各階段具有自身的優(yōu)化目標(biāo),因此對各階段的解釋性更強(qiáng).
這類方法大多以I-vector 方法為基礎(chǔ),并將I-vector 方法中的各階段與后端分類器進(jìn)行聯(lián)合優(yōu)化.典型的方法有:將會(huì)話補(bǔ)償階段與后端分類器進(jìn)行聯(lián)合優(yōu)化的深度神經(jīng)網(wǎng)絡(luò)-概率線性判別分析(Deep neural network-probabilistic linear discriminative analysis,DNN-PLDA)方法[104]、基于雙層(bilevel)結(jié)構(gòu)的方法[105],將總變化空間 (TVS)學(xué)習(xí)階段與后端分類器進(jìn)行聯(lián)合優(yōu)化的任務(wù)驅(qū)動(dòng)變化模型 (Task-driven variability model,TDVM)[106],以及將I-vector 方法的全部階段進(jìn)行聯(lián)合優(yōu)化的特征-統(tǒng)計(jì)量-身份-向量 (Feature-to-statistics-to-Ivector,F2S2I)方法[107]、任務(wù)驅(qū)動(dòng)多層框架 (Taskdriven multilevel framework,TDMF)[108]等.聯(lián)合優(yōu)化方法由于能夠在分類器的指導(dǎo)下進(jìn)行不同階段的聯(lián)合學(xué)習(xí),因此在得到說話人句級特征之后,可以直接采用聯(lián)合學(xué)習(xí)的分類器進(jìn)行識別任務(wù).上述方法的匯總信息如表7 所示,下面將以bilevel 優(yōu)化方法與TDMF 方法為例,分別展開介紹.
表7 聯(lián)合優(yōu)化方法匯總信息Table 7 Information of different joint optimization methods
1)雙層 (Bilevel)優(yōu)化方法.基于雙層結(jié)構(gòu)的方法[105]能夠有效地聯(lián)合優(yōu)化會(huì)話補(bǔ)償階段與分類器學(xué)習(xí)階段,其中會(huì)話補(bǔ)償階段對應(yīng)于雙層結(jié)構(gòu)的下層,而分類器學(xué)習(xí)階段則對應(yīng)于上層.該方法能夠?qū)⒎诸惼鞲鶕?jù)輸入數(shù)據(jù)及其類別標(biāo)簽學(xué)習(xí)到的區(qū)分性信息反饋回會(huì)話補(bǔ)償?shù)膬?yōu)化過程中,從而進(jìn)行更有利于識別任務(wù)的會(huì)話補(bǔ)償.在這一結(jié)構(gòu)中,下層以字典學(xué)習(xí)的形式進(jìn)行會(huì)話補(bǔ)償;而上層分類器在考慮自身識別目標(biāo)的同時(shí),也會(huì)兼顧下層字典學(xué)習(xí)的目標(biāo),將其作為約束條件.定義原始I-vector 特征用w∈W ?RR表示,其對應(yīng)的說話人類別標(biāo)簽為y∈Y ?R1.其中,W為原始I-vector 特征所在集合,Y為標(biāo)簽所在集合.用于會(huì)話補(bǔ)償?shù)淖值銬∈RR×P與分類器參數(shù) Θ 可以通過求解以下聯(lián)合優(yōu)化問題獲得:
其中,fU(α*,y;D,Θ)為上層分類器的目標(biāo)函數(shù);fL(w;D)為下層字典學(xué)習(xí)的目標(biāo)函數(shù),具有式 (21)的形式;D為滿足凸約束的字典所在集合;Θ 為分類器參數(shù)所在凸集;α*(w;D)為原始I-vector 特征w在字典D上的最優(yōu)表示.通過下層目標(biāo)函數(shù)與上層目標(biāo)函數(shù)的反復(fù)迭代優(yōu)化,最終即可求得參數(shù)D與Θ.
2)TDMF 方法.TDMF 方法[108]采用任務(wù)驅(qū)動(dòng)多層聯(lián)合優(yōu)化的方式,對I-vector 方法中的各階段進(jìn)行聯(lián)合學(xué)習(xí),并將分類器學(xué)到的區(qū)分性信息反饋回各階段,從而使得各階段的學(xué)習(xí)更具有目的性.這些階段包括UBM 學(xué)習(xí)、GMM 自適應(yīng)、總變化空間學(xué)習(xí)以及分類器學(xué)習(xí),TDMF 方法具有多層(Multilevel)結(jié)構(gòu)[109],能夠?qū)⒁陨? 個(gè)階段分別置于不同層中,其示意圖如圖7 所示.
圖7 TDMF 方法示意圖Fig.7 Schematic diagram of TDMF method
定義開發(fā)集數(shù)據(jù)中的聲學(xué)特征可以表示為集合X={xs,h,t∈RF;s=1,2,···,S;h=1,2,···,Hs;t=1,2,···,Ts,h},則TDMF 方法可以表示為以下優(yōu)化問題:
在獲取說話人句級特征后,需要對特征進(jìn)行識別.本節(jié)將分別介紹說話人識別所常用的后端分類器與性能評估指標(biāo).
在識別階段,需要計(jì)算測試語音與目標(biāo)說話人語音的相似度,并以此相似度作為識別得分.目前主要有兩種常用的識別方法:一種是直接利用余弦距離打分 (CDS)方法[40]計(jì)算兩個(gè)特征之間的余弦相似度,其優(yōu)點(diǎn)是能夠快速獲得識別結(jié)果;另一種是利用概率線性判別分析 (PLDA)模型[81]進(jìn)行識別,其優(yōu)點(diǎn)在于能夠進(jìn)一步提升句級特征的區(qū)分性.下面將對以上兩種方法展開介紹.
1)余弦距離打分 (CDS).在識別階段,CDS 方法將測試與目標(biāo)說話人語音所對應(yīng)的句級特征的余弦距離作為得分.設(shè)目標(biāo)說話人與測試說話人的特征分別為we與wt,則余弦距離得分的形式為
其中,〈·〉表示內(nèi)積運(yùn)算.
2)概率線性判別分析 (PLDA).在實(shí)際應(yīng)用中,受信道畸變等因素的影響,句級特征無法嚴(yán)格服從高斯分布.因此,最初的PLDA 模型對I-vector 特征采用重尾先驗(yàn) (Heavy-tailed priors)假設(shè)[110],來避免非高斯分布對于PLDA 模型的影響.不久之后,經(jīng)長度規(guī)整 (Length normalization,LN)[111]后的I-vector 特征被證明可以近似服從高斯分布,而基于高斯先驗(yàn)假設(shè)的PLDA 模型 (長度規(guī)整后)的性能也與基于重尾先驗(yàn)假設(shè)的 PLDA 模型 (未進(jìn)行長度規(guī)整)的性能相仿.對說話人s第h段語音段的句級特征ws,h∈RR進(jìn)行長度規(guī)整,可以表示為
其中,RR為長度規(guī)整后的句級特征;μ為開發(fā)集ws,h的均值矢量.除了采用長度規(guī)整方法外,也可以采用Kullback-Leibler (KL)散度對特征進(jìn)行規(guī)整[112],其也能起到明顯的規(guī)整效果.
經(jīng)規(guī)整后的句級特征即可用于訓(xùn)練PLDA 分類器,其假設(shè)每位說話人s的不同語音段h所對應(yīng)的特征s,h均能夠由同一個(gè)說話人隱變量zs∈RZ表示為
在進(jìn)行說話人識別時(shí),定義目標(biāo)說話人與測試說話人經(jīng)過長度規(guī)整后的特征分別為則PLDA 分類器下的說話人匹配得分可以表示為
其中,Q與P為中間變量,可以由變量 Σtot與Σac表示,以上4 個(gè)變量可以表示為
上述方法為基于產(chǎn)生式訓(xùn)練方式的PLDA 分類器.由式 (35)可以看出,PLDA 分類器能夠計(jì)算兩個(gè)句級特征在不同度量下的相似度,這種處理方式類似于SVM 中核函數(shù)的學(xué)習(xí)過程,故也可采用判別式的訓(xùn)練方式來進(jìn)行PLDA 分類器學(xué)習(xí)[113].
在上述研究的基礎(chǔ)上,一系列PLDA 模型的改進(jìn)方法也相繼出現(xiàn),這些方法大多針對會(huì)話差異性問題.對于語音內(nèi)容差異性問題,非線性PLDA (Nonlinear PLDA)模型[114]與非線性束縛PLDA (Nonlinear tied-PLDA)模型[115]先將原始I-vector 特征進(jìn)行非線性映射,映射到服從高斯分布的空間中,然后聯(lián)合學(xué)習(xí)這種非線性映射關(guān)系以及PLDA 模型的參數(shù),從而使得經(jīng)過非線性映射后的I-vector 特征更加服從高斯分布,以消除語音中的差異性內(nèi)容.對于語音時(shí)長差異性問題,基于不確定性傳播 (Uncertainty propagation)的方法[116]主要通過對與原始I-vector 特征中不確定性相關(guān)的部分進(jìn)行建模,來學(xué)習(xí)不同時(shí)長語音中的不確定性信息,從而對其進(jìn)行削減;而孿生PLDA (Twin model PLDA)模型[117-118]則通過建立兩個(gè)聯(lián)立的 PLDA模型,來分別學(xué)習(xí)短語音與長語音中的說話人信息.對于信道與領(lǐng)域差異性問題,多信道簡化PLDA(Multi-channel simplified PLDA)模型[119]通過計(jì)算每個(gè)信道的類內(nèi)協(xié)方差矩陣來學(xué)習(xí)信道信息并對其進(jìn)行削減,從而得到只與說話人相關(guān)的部分;基于最大后驗(yàn)概率 (MAP)的PLDA 模型[120-121]則通過領(lǐng)域自適應(yīng)的方法消除不同領(lǐng)域中的差異;而基于貝葉斯聯(lián)合概率 (Bayesian joint probability)的PLDA 模型[122]則將源域與目標(biāo)域之間的KL 散度作為正則項(xiàng)約束,從而幫助尋找針對目標(biāo)域的最佳PLDA 參數(shù).對于噪聲問題,基于信噪比 (Signalto-noise ratio,SNR)不變的PLDA 模型[123]將原始I-vector 特征劃分為說話人相關(guān)、信噪比相關(guān)以及信道相關(guān)三部分,并對后兩部分進(jìn)行消減,從而得到只與說話人相關(guān)的部分;而混合PLDA (mixture of PLDA)模型[124]則以多個(gè)PLDA 模型加權(quán)和的形式,同時(shí)學(xué)習(xí)原始 I-vector 特征中的說話人相關(guān)信息;基于貝葉斯網(wǎng)絡(luò) (Bayesian network)的PLDA 模型[125]則從有向圖模型的角度出發(fā),研究如何從不利環(huán)境中分離出理想環(huán)境中PLDA 分?jǐn)?shù)的分布情況.
在得到了特征的匹配得分之后,即可對特征的所屬類別進(jìn)行判決.不同的說話人識別任務(wù),其所對應(yīng)的判決方法與評估指標(biāo)也不相同.說話人識別按照識別任務(wù)分類,可以分為說話人確認(rèn) (Speaker verification)與說話人辨認(rèn) (Speaker identification)[4].其中,前者的識別任務(wù)為確定某兩段語音是否來自同一位說話人,為 “一對一”的判別問題;后者為判斷某段語音來自于哪位說話人,為 “一對多”的分類問題.
在介紹評估指標(biāo)之前,本節(jié)先對說話人識別中不同數(shù)據(jù)集劃分的命名與作用進(jìn)行簡要介紹.數(shù)據(jù)庫中全部數(shù)據(jù)可以劃分為開發(fā)集數(shù)據(jù)與評估集數(shù)據(jù),有的數(shù)據(jù)庫還會(huì)劃分出驗(yàn)證集數(shù)據(jù).其中,開發(fā)集數(shù)據(jù)用于模型訓(xùn)練,驗(yàn)證集數(shù)據(jù)用于模型參數(shù)有效性驗(yàn)證與參數(shù)調(diào)節(jié),評估集數(shù)據(jù)用于性能測試.針對說話人確認(rèn)任務(wù),評估集數(shù)據(jù)又可以繼續(xù)劃分為注冊集與測試集兩部分:注冊集數(shù)據(jù)來自于目標(biāo)說話人,其對應(yīng)于待確認(rèn)的兩段語音中的前一段語音,測試集數(shù)據(jù)則對應(yīng)于后一段語音.這兩段語音共同作為測試語音,用于確認(rèn)它們是否來自同一位說話人.當(dāng)兩段語音屬于同一說話人時(shí),測試語音所對應(yīng)的說話人被認(rèn)定為目標(biāo)說話人,此次測試稱作目標(biāo)測試 (Target trial);當(dāng)不屬于同一說話人時(shí),測試語音所對應(yīng)的說話人被認(rèn)定為冒認(rèn)說話人,此次測試稱作非目標(biāo)測試 (Nontarget trial).針對說話人辨認(rèn)任務(wù),某些數(shù)據(jù)庫中開發(fā)集與評估集數(shù)據(jù)的類別沒有交叉,因此在評估集中也需要?jiǎng)澐殖鲎约c測試集;而另一些數(shù)據(jù)庫則直接將開發(fā)集數(shù)據(jù)中的說話人當(dāng)作目標(biāo)說話人,全部評估集數(shù)據(jù)則直接當(dāng)作測試集進(jìn)行使用.考慮到數(shù)據(jù)庫的選擇與使用對于說話人識別系統(tǒng)性能的評估具有很大參考價(jià)值,本文將對說話人識別領(lǐng)域中常用的數(shù)據(jù)庫及其相關(guān)信息進(jìn)行總結(jié),詳情如表8 所示.
表8 常用數(shù)據(jù)庫信息Table 8 Information of common databases
1)說話人確認(rèn)
在說話人確認(rèn)系統(tǒng)中,需要對待識別語音的輸出得分進(jìn)行判定,以獲得最終的識別結(jié)果.一般將得分與一定的閾值進(jìn)行比較,若大于此閾值,則接受其為目標(biāo)說話人,否則判定其為冒認(rèn)說話人 (拒絕).對應(yīng)于以上兩類判定,即接受與拒絕,存在兩種錯(cuò)誤率,分別為錯(cuò)誤接受率 (False acceptance rate,FAR)與錯(cuò)誤拒絕率 (False rejection rate,FRR).當(dāng)設(shè)置不同閾值時(shí),會(huì)存在不同的FAR 與FRR,對于二者之間的關(guān)系,可以通過檢測錯(cuò)誤權(quán)衡 (Detection error trade-off,DET)曲線[5]來進(jìn)行直觀的展示.DET 曲線上的每一個(gè)點(diǎn)對應(yīng)一個(gè)判定閾值,越接近原點(diǎn)的DET 曲線識別性能越好.對于閾值的選取,比較常用的方法為等錯(cuò)誤率 (Equal error rate,EER)與最小檢測代價(jià)函數(shù) (Minimum detection cost function,MinDCF)[5].其中,評估指標(biāo)EER 為FAR 與FRR 相等時(shí)的錯(cuò)誤率,EER 越小說明說話人識別系統(tǒng)的性能越好.而評估指標(biāo)MinDCF 則綜合考慮以上兩類錯(cuò)誤發(fā)生的不同代價(jià),以及目標(biāo)說話人與冒認(rèn)說話人出現(xiàn)的先驗(yàn)概率,每個(gè)閾值對應(yīng)的DCF 可以表示為
其中,Cmiss為錯(cuò)誤拒絕代價(jià),Cfa為錯(cuò)誤接受代價(jià),PFRR為錯(cuò)誤拒絕率,PFAR為錯(cuò)誤接受率,Ptarget為目標(biāo)說話人出現(xiàn)的先驗(yàn)概率,1-Ptarget為冒認(rèn)說話人出現(xiàn)的先驗(yàn)概率.取式 (37)中的最小DCF即為MinDCF,其越小說明說話人識別系統(tǒng)的性能越好.在不同的說話人評測中,式 (37)中代價(jià)與先驗(yàn)概率往往需要設(shè)置不同的數(shù)值.
2)說話人辨認(rèn)
在說話人辨認(rèn)系統(tǒng)中,通常采用正確率 (Accuracy,ACC)進(jìn)行評估
其中,PACC為正確率,Ntest為測試集樣本總數(shù),Ncorrect為測試集中測試正確的樣本數(shù).
前文總結(jié)了說話人句級特征提取研究從任務(wù)分段式策略到任務(wù)驅(qū)動(dòng)式策略的演進(jìn)歷程.隨著技術(shù)的進(jìn)步,說話人識別系統(tǒng)的性能不斷提升,與實(shí)際應(yīng)用的要求也越來越接近.然而,該領(lǐng)域的研究仍未結(jié)束,目前仍有一些關(guān)鍵性的難題亟待解決.如何有效解決這些問題,將是未來發(fā)展的主要方向,本節(jié)將對一些挑戰(zhàn)性問題進(jìn)行介紹,并總結(jié)未來研究發(fā)展趨勢.
近年來,說話人識別的研究趨勢正朝著端到端模型的方向快速發(fā)展,其中最典型的趨勢就是,如何通過一體化的形式將時(shí)長不等的語音信號轉(zhuǎn)化為具有固定長度且區(qū)分性強(qiáng)的句級特征.在這類研究中,大多數(shù)方法主要通過不同結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)的疊加,來實(shí)現(xiàn)數(shù)據(jù)從幀級特征到句級特征的轉(zhuǎn)換.這些方法雖然能夠取得較為理想的性能,但其解釋性并不強(qiáng),而如何打開深度學(xué)習(xí)的黑箱問題,將是未來研究的一個(gè)重要發(fā)展趨勢.考慮到先驗(yàn)信息中包含了人類對于相關(guān)領(lǐng)域的認(rèn)知,因此可以通過引入更多的先驗(yàn)信息來對模型進(jìn)行設(shè)計(jì),從而增強(qiáng)它們的解釋性.這類研究可以從3 個(gè)角度開展:前端幀級特征表示、幀級特征向句級特征轉(zhuǎn)換的編碼機(jī)制,以及后端句級特征表示,它們分別對應(yīng)了數(shù)據(jù)從信號級輸入到幀級特征、幀級特征到句級特征,以及句級特征提取3 個(gè)數(shù)據(jù)轉(zhuǎn)換過程.
1)前端幀級特征表示
在前端特征提取時(shí),目前的方法大多直接采用傳統(tǒng)的聲學(xué)特征,例如:MFCC 特征、FBank 特征與語譜圖特征等,它們的前端幀級特征提取階段與模型學(xué)習(xí)階段仍然屬于分段式的學(xué)習(xí)策略,前端特征提取與后端模型學(xué)習(xí)的目標(biāo)不一致,這將導(dǎo)致前端所提取的幀級特征不具有任務(wù)針對性.因此,需要將前端特征提取階段與模型學(xué)習(xí)階段進(jìn)行有效關(guān)聯(lián),這將需要對傳統(tǒng)的前端提取過程進(jìn)行改造,將其設(shè)計(jì)為能夠與后面的模型學(xué)習(xí)階段進(jìn)行有效連接的模型結(jié)構(gòu).面對這樣的需求,需要引入更多的先驗(yàn)信息來設(shè)計(jì)前端幀級特征提取階段的模型結(jié)構(gòu),從而依據(jù)語音信號的特性來設(shè)計(jì)出具有足夠表達(dá)能力的模型.
2)編碼機(jī)制
在編碼機(jī)制方面,能否將幀級特征序列有效轉(zhuǎn)化為句級特征,將嚴(yán)重影響到整個(gè)說話人識別系統(tǒng)的性能,因此編碼機(jī)制的設(shè)計(jì)不應(yīng)止步于簡單的統(tǒng)計(jì)池化或均值池化[133].針對這一問題,可以從幀級特征的時(shí)序保持、注意力機(jī)制、字典學(xué)習(xí)等角度,來對幀級特征之間的關(guān)系進(jìn)行編碼,從而有效改進(jìn)幀級特征序列與句級特征之間的映射關(guān)系.在未來的研究工作中,對于編碼機(jī)制的改進(jìn)仍然存在很多值得研究的問題,可以通過引入更多先驗(yàn)信息來對幀級特征之間的關(guān)系進(jìn)行約束,從而設(shè)計(jì)出更具有解釋性的編碼機(jī)制,進(jìn)而提升模型在長時(shí)識別場景下的學(xué)習(xí)能力.
3)后端句級特征表示
在后端句級特征表示方面,目前的方法大多只采用簡單的全連接DNN 來進(jìn)行句級特征的映射表示,這使得句級特征表示缺乏解釋性.因此,如何利用先驗(yàn)信息來對句級特征進(jìn)行進(jìn)一步表示,也具有一定的研究意義.
在實(shí)際應(yīng)用中,復(fù)雜環(huán)境迫使說話人識別系統(tǒng)不得不對模型的魯棒性提出很高的需求.具體而言,復(fù)雜環(huán)境包括環(huán)境噪聲與信道失配等問題,能夠?qū)@些干擾性信息進(jìn)行有效補(bǔ)償一直是說話人特征提取研究領(lǐng)域面臨的巨大困難與挑戰(zhàn).
在環(huán)境噪聲方面,錄音環(huán)境中總是無法避免地包含各類噪聲,例如:白噪聲、音樂播放、車輛行駛的聲音等.這些噪聲均會(huì)在一定程度上淹沒語音信號中所蘊(yùn)含的說話人個(gè)性信息,從而使得系統(tǒng)無法準(zhǔn)確獲取說話人特征.同時(shí),環(huán)境噪聲通常無法提前預(yù)知,這往往使得系統(tǒng)性能具有極大的不確定性.為了解決這一問題,可以從提高特征對噪聲的魯棒性、建立抗噪模型兩個(gè)角度開展研究.在信道失配方面,語音信號可以通過各種不同的錄音設(shè)備獲得,如手機(jī)、麥克風(fēng)、固定電話、錄音筆等.不同的錄音設(shè)備會(huì)直接導(dǎo)致語音信號傳輸信道的變化,從而使得語音信號發(fā)生頻譜畸變,進(jìn)而嚴(yán)重影響到特征對說話人特性的表示能力,造成測試語音特征與說話人模型在聲學(xué)空間分布上的失配.目前的方法主要從分段式學(xué)習(xí)策略的角度對信道失配問題進(jìn)行補(bǔ)償.
隨著神經(jīng)網(wǎng)絡(luò)方法的興起,信道失配問題往往不再需要單獨(dú)解決,而可以與環(huán)境噪聲問題合二為一,這些問題均可以通過學(xué)習(xí)具有強(qiáng)魯棒性的神經(jīng)網(wǎng)絡(luò)模型來得到補(bǔ)償.因此,如何設(shè)計(jì)出具有高抗干擾能力的網(wǎng)絡(luò)模型,則成為未來研究的重點(diǎn)內(nèi)容之一.同時(shí),也可以通過數(shù)據(jù)增強(qiáng)的方式為模型提供更多數(shù)據(jù),從而增強(qiáng)模型對不同數(shù)據(jù)的魯棒性.
隨著說話人識別研究的發(fā)展,一些相關(guān)領(lǐng)域也取得了相應(yīng)的發(fā)展.其中,說話人電子欺詐 (Speaker spoofing)與說話人分割聚類 (Speaker diarization)是說話人識別研究中聯(lián)系最密切的擴(kuò)展應(yīng)用.
1)說話人電子欺詐
隨著人們對電子設(shè)備依賴程度的增加,不同的說話人電子欺詐手段陸續(xù)出現(xiàn),例如:聲音模仿、語音合成、聲音轉(zhuǎn)換與錄音重放等.這些隨著科技進(jìn)步而產(chǎn)生的詐騙手段迫使研究者們不得不加強(qiáng)對會(huì)話變化信息的重視[134],以往那些需要被削弱的信息(背景噪聲、信道、錄音距離等)卻成為了檢測出電子欺詐語音的重要依據(jù).
2)說話人分割聚類
在進(jìn)行語音錄制時(shí),往往會(huì)摻雜多位說話人的語音,如果不將多位說話人的語音信號進(jìn)行分離,將會(huì)直接影響到系統(tǒng)的識別性能.這時(shí)便需要通過獲取語音信號中各時(shí)間點(diǎn)所對應(yīng)的說話人信息,來對多說話人的混合語音進(jìn)行分割與聚類處理[135-136].根據(jù)分割聚類過程的不同,可以分為同步語音分割與異步語音分割.前者指在分割語音片段的同時(shí)判斷語音片段所對應(yīng)的說話人類別;后者是將多說話人的混合語音分割成若干個(gè)獨(dú)立的說話人語音片段,然后再將同一說話人的語音片段聚集在一起進(jìn)行每個(gè)說話人身份認(rèn)證.
隨著人工智能相關(guān)領(lǐng)域的快速發(fā)展,越來越多的類腦架構(gòu)相繼出現(xiàn).此類架構(gòu)受大腦多尺度信息處理機(jī)制啟發(fā),能夠使系統(tǒng)實(shí)現(xiàn)多種認(rèn)知能力并高度協(xié)同.對于說話人識別領(lǐng)域,也可以借鑒類腦架構(gòu)進(jìn)行相應(yīng)的推廣,使其能夠適應(yīng)于不同的說話人識別任務(wù),對不同的語音環(huán)境 (噪聲、信道、語種、身體狀態(tài)、語音時(shí)長等)也具有適應(yīng)能力,并逐漸逼近于具有學(xué)習(xí)能力與進(jìn)化能力,且能與其他模式識別應(yīng)用相結(jié)合的通用智能.
句級特征提取是從語音信號中捕獲說話人信息的重要過程,其能夠有效、全面地表示一段語音信號,因此其對說話人身份的鑒別起著至關(guān)重要的作用.鑒于此,本文對具有代表性的說話人句級特征提取方法進(jìn)行了整理與綜述,分別從前端處理、基于任務(wù)分段式與驅(qū)動(dòng)式策略的特征提取方法,以及后端處理等幾方面進(jìn)行論述,并探索了各類方法之間、同類方法之間的差別與聯(lián)系,還橫向統(tǒng)計(jì)了各類方法的實(shí)施細(xì)節(jié).最后還對未來的研究趨勢展開了探討與分析.在當(dāng)前研究的主要發(fā)展趨勢方面,本文拋磚引玉,希望能夠幫助相關(guān)科研人員了解說話人特征提取問題,并為相關(guān)工作開展起到推動(dòng)的作用.