閆宏宸,肖 熙
(清華大學 電子工程系,北京 100084)
計算機技術的發(fā)展為人類生活帶來了極大便利,基于語音的人機交互已經以命令詞識別系統(tǒng)的形式在智能家居、可穿戴設備等平臺得到了應用.命令詞識別系統(tǒng)是一種“N選1”的識別系統(tǒng),將輸入語音識別為預先設定的命令詞之一,系統(tǒng)的錯誤主要來自對集內命令詞的錯識和對集外語音或噪聲的誤識.有鑒于此類系統(tǒng)使用環(huán)境的多樣性,通過某種手段拒絕錯誤的識別結果,特別是拒絕環(huán)境噪聲和集外語音引發(fā)的錯誤識別結果,對提高命令詞系統(tǒng)的可靠性極為重要.
對語音識別結果的置信程度加以檢驗和判決是一種比較理想的做法.在數理統(tǒng)計中,置信度分析是分析一個隨機變量落在某個區(qū)間的概率,而在語音識別中,置信度分析通常用于衡量模型與數據之間匹配的可信程度.置信度分析方法大致可以分為基于預測特征的組合、基于后驗概率和基于似然值比值(似然比)等3 大類方法[1].其中基于似然比的置信度分析方法將置信度問題轉化為統(tǒng)計假設檢驗問題,設定數據由某一模型產生(零假設)和數據非由該模型產生(對立假設)兩種假設,通過兩種假設上的似然比檢驗以及閾值判斷是否接受零假設.已有的置信度分析方法包括基于詞網格生成后驗概率的置信度[2]、基于逆模型建模對立假設計算似然比的置信度[3]等.
本文提出了一種無需聲學模型、語言模型支撐的命令詞置信度分析方法.調研發(fā)現,身份矢量(identity vector,i-vector)特征[4]和概率線性判別分析(Probabilistic Linear Discriminant Analysis,PLDA)方法[5]已經在說話人識別中得到了廣泛應用,但是將i-vector 特征與PLDA應用于命令詞語音識別的置信度分析中尚未有文獻報導.i-vector 的原理是通過對所有語音數據訓練,建立通用背景模型(Universal Background Model,UBM)[6],將語音表示為高維的均值超矢量(supervector),然后通過因子分析將其投影為低維、定長的矢量表示,其特點在于它能在較大的粒度范圍內提取語音特征,可以作為一段語音信號的整體描述,這使得i-vector 作為無需語言模型支持的置信度判決的輸入特征成為了可能.另一方面,PLDA 方法最早發(fā)源于圖像領域的人臉識別應用,通過增大類間差異,達到補償識別過程中無關因素的作用.由于在判決階段,PLDA 通過計算假設檢驗的比值(也即似然比)打分,因此其可以自然地作為一種置信度分析手段.
本文首先對漢語的1254 個全音節(jié)孤立字以及連接詞進行了置信度實驗,考察了基于i-vector 和PLDA方法在置信度判決中的有效性.在連接詞實驗中分析發(fā)現,i-vector 特征對語音在全局層面上的刻畫能力較強,但是對于語音中的時序特征的辨識,例如音節(jié)發(fā)音順序辨識,其存在一定的模糊性,而時序信息是語音語義的重要成分,這在命令詞識別中是不可回避的問題.針對此缺陷,本文在實驗驗證的基礎上,嘗試提出了改進方法,較好地解決了此問題.
語音識別系統(tǒng)的性能在過去幾十年中取得了長足的進步,但環(huán)境噪聲、非對話內容等干擾因素依然是語音控制這類系統(tǒng)在實際應用中面臨的一大挑戰(zhàn).引入置信度模型,通過后處理排除識別結果中的無關內容,是提高系統(tǒng)可靠性的一個有效思路.
在語音識別中,置信度代表某一語音X來自模型W的可信程度.文獻[1]中對置信度予以綜述,其中將置信度估計方法大致分為3 類:1)基于預測特征的組合,即收集解碼過程中各環(huán)節(jié)的相關特征并融合為判據;2)基于后驗概率,即使用識別過程中的后驗概率;3)基于似然值比值(似然比):將置信度轉換為一個假設檢驗問題處理,零假設 H0表示語音X來自模型W,對立假設 H1反之.根據Neyman-Pearson 準則,對上述假設的最優(yōu)檢驗為似然比檢驗:
其中,τ為與虛警概率相關的閾值.
在置信度估計中一般會遇到兩類錯誤:第1 類錯誤(漏報),即實際情況符合零假設 H0時,檢驗結果拒絕H0;第2 類錯誤(虛警),即實際情況不符合零假設H0時,檢驗結果接受 H0.兩類錯誤以及它們衍生出的接收者操作特征(Receiver Operating Characteristic,ROC)曲線、檢測錯誤權衡(Detection Error Tradeoff,DET)曲線、等錯誤率(Equal Error Rate,EER)等均為評價置信度的統(tǒng)計手段.根據置信度在語音識別中的應用場景,可以在幀搜索階段就融入置信度得分信息,達到實時剪枝提高識別率的作用,也可以作為后處理方法,對識別結果的正確性進行檢驗.對于后者,在實際應用中更關注根據置信度進行拒識后對系統(tǒng)性能的影響,可以采用拒絕率(Rejection Rate,RR)和拒絕后的識別準確率(Accuracy after Rejection,AR)來考察置信度在語音命令識別中的作用:
在基于GMM-HMM 的語音識別系統(tǒng)的識別過程中,語音識別器對每次輸出能給出N-best 候選的似然值得分.在基線系統(tǒng)中我們采用首選輸出的似然值得分與次優(yōu)候選的似然值得分之比來作為置信度判斷的依據,對識別結果進行后處理,簡單易行且應用廣泛.
其中,p(X|w1) 為首選似然值,p(X|w2)為次優(yōu)候選的似然值,二者均已根據幀長度做歸一化.似然比LR≥τ則接受w1作為首選識別結果.
傳統(tǒng)的語音識別系統(tǒng)常常是通過訓練一個高斯混合模型(Gaussian Mixture Model,GMM),對其語音特征的分布進行建模,通過求取并比較測試語音在不同GMM 上的似然值確認其相似程度,完成識別.但是實際應用中,用于訓練特定GMM 的語音往往長度較短或語料較少,導致訓練數據不足,無法訓練出高質量的GMM 模型;另一方面也存在大量未標注的語料,其中的信息無法被利用.Reynolds 等人提出的通用背景模型(Universal Background Model,UBM)[6]利用所有數據訓練得到一個混合分量數較高的GMM 模型,其代表了全局語音特征的分布情況.訓練得到UBM 模型之后,通過自適應算法適應特定語句的數據,可以得到各語句的GMM 模型,其特征分布隨語句內容而不同,可用于識別確認.
UBM 的訓練采用傳統(tǒng)的EM 算法,反復迭代更新UBM 各分量的權重wi、均值μi、方差 Σi.在自適應階段,對于給定語音數據x=x1,x2,···,xt,···,xT,實際應用中一般采用最大后驗概率(Maximum A Posteriori,MAP)算法,且只更新UBM 的均值.首先計算數據xt與UBM中第i個分量的相似度:
然后計算充分統(tǒng)計量:
最后計算新均值Ei(x),并與原均值μi加權融合:
其中,αi稱作自適應系數,用于控制新舊參數對UBM的影響.在特征空間中,xt的分布只能覆蓋到UBM 的部分分量,這些分量的Ni較 高,相應地 αi也較高,更新的均值傾向于在數據x上 訓練得到的Ei(x);類似地,未被覆蓋到(數據量不足)的分量,其傾向于UBM 中經充分背景數據訓練得到的μi.通過根據數據分布情況有選擇地調整UBM 參數,能夠獲得與數據相匹配且高質量的GMM 模型.
前述GMM-UBM 方法得到的特定GMM 模型可以用于常規(guī)的GMM 似然值得分確認,但考慮到各GMM 的均值足以代表特征的分布情況,因此可以將均值拼接起來,稱為均值超矢量,作為反映變長語音特性的一種定長特征,其同樣包含了說話內容等信息.常見的利用此超矢量的方式包括將其送入支持向量機(Support Vector Machine,SVM)等分類器中訓練判別[7],或通過聯合因子分析(Joint Factor Analysis,JFA)[8]對超矢量建模并進行分解:
其中,M為語音的超矢量,m一般取UBM 的均值超矢量;V為本征語音(eigenvoice)矩陣,y為語音因子;U為本征信道矩陣,x為信道因子;D為殘差矩陣(對角陣),z為殘差因子.y、x、z均服從標準高斯分布.通過訓練V、U、D矩陣,對語音和信道空間分別建模并求解,理論上可以得到僅包含有用信息的因子y作為新的語音特征.
然而在文獻[9]中,Dehak 等人通過實驗發(fā)現上述分離方法較為理想化,在信道因子中同樣存在語音信息,并在文獻[4]中提出了i-vector 模型:
其中,T表示的全局差異空間(total variability space)包含了說話內容、信道等各方面的信息,w為全局因子,服從標準高斯分布,又稱為身份矢量(identity vector,ivector).i-vector 模型可以看做JFA 的簡化,不再試圖完全分離無關信息,而是使用全局差異空間同時予以刻畫.i-vector 主要起對均值超矢量的降維作用,與均值超矢量同樣包含說話內容相關的信息,文獻[10]等已有研究中通過實驗證明其確實對內容具有一定的鑒別能力;另一方面,由于均值超矢量代表語句整體的特征分布,未包含語句中音節(jié)內容的時間順序信息,因此基于UBM 均值超矢量產生的i-vector 特征類似地具備對語音片段的全局刻畫能力,而對內容的時序信息缺乏更精確的描述.
使用EM 算法訓練T矩陣[11].對于給定語音數據x=x1,x2,···,xt,···,xT,由式(5)中的充分統(tǒng)計量Ni、Fi得到中心化一階統(tǒng)計量:
將x在各分量i上 的統(tǒng)計量拼接為N(x)、(x).
令UBM 的均值超矢量、方差為m、Σ,并隨機初始化矩陣T.E 步驟中,更新隱變量w的后驗分布:
M 步驟中,更新矩陣T:
反復迭代更新得到矩陣T后,語音x的i-vector 為:
概率線性判別分析(Probabilistic Linear Discriminant Analysis,PLDA)最早由Prince 等在文獻[5]中提出,應用于圖像識別中的人臉識別任務.PLDA 的原始形式如下:
其中,wij為第i個人的第j次采樣特征,μ為全局均值,V表示類間差異空間,U表示類內差異空間,zij為殘差.μ+Vyi是wij的信號分量(只與i相關),Uxij+zij是噪聲分量.
與此前常用的線性判別分析(Linear Discriminant Analysis,LDA)[12]相比,PLDA 同樣試圖尋找數據的某種低維投影,使得投影后類間差異最大,但PLDA 是一種生成式(generative)模型,考慮了圖像由信號與噪聲兩部分組成并予以顯式建模,噪聲模型更為完備,因而取得了更好的效果.
在原始PLDA 模型的基礎上,由于在語音相關任務中無需求解類內差異,文獻[13]中引入了簡化的PLDA模型:
其中,隱變量yi服從標準高斯分布,類內差異被合并為zr,其協(xié)方差為Σ.
使用EM 算法訓練PLDA 模型,迭代優(yōu)化完全數據的對數似然函數的期望Q得到最合理的參數θ={μ,V,Σ}:
隨機初始化矩陣V、Σ.E 步驟中,更新隱變量y的后驗分布只需估計其均值和方差:
M 步驟中,更新矩陣V、Σ:
其中,N為訓練i-vector 總數,n為yi所屬的語句對應的i-vector 總數.
測試階段,給定兩條待比對的i-vectorw1、w2,假設 Hs表示二者由相同的因子y生成,Hd表示二者由不同的因子y生成,PLDA 模型通過計算兩種假設的似然值得分給出w1、w2之間的相似度:
其中,Σtot=VVT+Σ,Σac=VVT.
與1.1 節(jié)中基于似然比的置信度對比可以發(fā)現,PLDA 可以比較自然地作為一種置信度計算方法,以語音整體的i-vector 作為輸入,不依賴聲學模型和語言模型即可完成似然比檢驗.
音節(jié)是漢語發(fā)音的基本單元,因此考察i-vector 特征對音節(jié)的置信度的檢測能力,是該方法能否成功應用于連接詞識別置信度檢驗的基礎.本實驗采用IsoWord孤立字數據集,其包含了50 名男性、50 名女性、每人1254 個有調音節(jié),覆蓋了漢語的全部具有實義的音節(jié),采樣率16 kHz.隨機選取1 名男性的語音樣本作為測試集,其余作為訓練集.使用1.1 節(jié)中的拒絕率和拒絕后的識別準確率評價系統(tǒng)的性能.
本文采用45 維MFCC 特征,對輸入的單幀語音信號,去除直流,預加重(系數取0.98),加漢明窗(幀長20 ms、幀移10 ms)后,提取14 維Mel 倒譜系數,對相鄰幀計算一階、二階差分系數,并加入三者的歸一化能量系數.
為了確定理想的模型參數,本文首先在識別率有代表性的數據樣本上進行了調參實驗,調整的參數包括UBM 混合分量數和i-vector 維度.可以觀察到不同參數的組合對性能有微小的影響.以第25 號孤立字男聲樣本為例,實驗結果見表1和表2.
表1 UBM 混合分量數對性能的影響
表2 i-vector 維度對性能的影響
根據調參實驗結果,本文在孤立字的置信度判決實驗中,UBM 模型混合數取128,i-vector 維數取100.
在確定了模型參數后,在訓練階段,首先訓練UBM模型,對每條語音計算所需的充分統(tǒng)計量,然后訓練ivector 模型的T矩陣.參照文獻[14]中的建議,使用已知的語音對應的說話內容作為訓練標簽,對i-vector 預先做LDA 降維,從而初步補償類間差異.由于文獻[13]中發(fā)現i-vector 具有較強的非高斯性,為使其符合前述基于高斯假設的PLDA 模型,參照文中建議對i-vector做白化與長度規(guī)整后,再訓練PLDA 模型,PLDA 因子維度與LDA 維度相同(不再做進一步降維).每條語音的代表i-vector 取該語音所有說話人語音樣本對應的i-vector 的均值.測試階段,將測試語音通過訓練集上訓練好的UBM 模型、T矩陣、LDA 矩陣,得到測試ivector,在PLDA 模型上與每條語音的代表i-vector 逐對計算似然值得分.部分實驗流程使用MSR Identity Toolbox[15]完成.
圖1、圖2為采用基線系統(tǒng)和i-vector+PLDA 對隨機兩組男聲孤立字各1254 個發(fā)音樣本置信度檢測的RR-AR 曲線.可以看出,不論是對于原本識別率較低還是較高的男性語音樣本,i-vector+PLDA 都能通過拒識提高其性能,且效果較基線系統(tǒng)有一定的提升.
圖1 第17 號孤立字男性語音樣本上的RR-AR 曲線
圖2 第50 號孤立字男性語音樣本上的RR-AR 曲線
表3為將RR固定為5%時,各系統(tǒng)在所有男聲樣本上輪流訓練測試的平均性能,其中原始無置信度輔助的GMM-HMM 孤立字識別系統(tǒng)的平均識別率是89.81%.可以看出置信度的拒識使系統(tǒng)輸出的正確率絕對提高約2%,且i-vector+PLDA 相比基線系統(tǒng)再絕對提高約0.3%.
表3 置信度輔助的系統(tǒng)在IsoWord 數據集上的性能
連接詞實驗采用的SbPhrase 短語語料數據庫包含了699 條四字短語,較為均衡地覆蓋了所有的漢語音節(jié)及音節(jié)間的連接關系,可以較為客觀地評測命令詞系統(tǒng)的一般性能.該數據庫包含了50 名男性、50 名女性的錄音樣本,采樣率16 kHz,每條短語時長約1 s.
置信度檢驗實驗中,以前25 名男性的所有短語語音作為訓練集,訓練GMM-HMM 系統(tǒng),其余男性語音作為測試集,并使用置信度對識別結果做后處理.MFCC特征提取與2.4 節(jié)相同,根據實驗調整i-vector 提取參數為512 分量UBM、200 維i-vector.
圖3、圖4為隨機兩個男聲連接詞短語樣本置信度檢測的RR-AR 曲線.
圖3 第30 號男性連接詞語音樣本上的RR-AR 曲線
圖4 第41 男性連接詞語音樣本上的RR-AR 曲線
表4為將RR 固定為5%時,各系統(tǒng)在所有樣本上的平均性能,其中原始GMM-HMM 連接詞識別系統(tǒng)的平均識別率是95.97%.與孤立字類似地,置信度的引入提高了系統(tǒng)的識別性能,而i-vector+PLDA 的效果更佳.
表4 置信度輔助的系統(tǒng)在SbPhrase 數據集上的性能
在命令詞識別系統(tǒng)中,對集外詞或噪聲的有效拒識至關重要,我們通過實驗單獨測試了系統(tǒng)的拒識性能.仍然使用SbPhrase 數據庫的男聲部分,取數據庫中的前300 條短語作為集內詞訓練PLDA 模型并確定其閾值,其余作為集外詞進行實驗.除此之外,采用從CMU NoiseX-92 數據集[16]中截取的噪聲片段考察系統(tǒng)對噪聲的抵抗能力,該數據集包含了白噪聲、工廠噪聲、背景說話聲等常見噪聲類型.使用虛警率評價系統(tǒng)的性能.
表5中的結果表明,i-vector+PLDA 系統(tǒng)性能良好,不論對語音類的集外詞還是非語音類的干擾噪聲都具有較高抗性,保證了系統(tǒng)的穩(wěn)健性.
表5 i-vector+PLDA 系統(tǒng)的集外詞、噪聲拒識性能
在2.1 節(jié)中已經指出,GMM-UBM 模型通過自適應得到每條語音對應的GMM 模型,這種建模方式的一個缺陷是不包含時序信息:對于僅字序、詞序不同的語音,由于使用了相同或相近的音素,全局上看,各自的特征集內其特征分布彼此相似,因而在這類系統(tǒng)上會體現為相似度較高.換言之,雖然i-vector 的全局描述能力較好,但缺乏對其中時序信息的描述,理論上,若單獨使用i-vector 特征,對于較長的命令詞導致鑒別力下降的可能性會增大.在實際應用中,這會導致部分與命令詞在字序、詞序上相似的集外詞無法被系統(tǒng)有效拒識,引發(fā)不必要的虛警.
有鑒于i-vector 的上述特點,一種解決方法是利用命令詞識別系統(tǒng)在識別時給出的最佳音節(jié)分割點,對組成命令詞的每個音節(jié)或是單詞分別進行確認,如在漢語系統(tǒng)中可以檢驗組成命令詞的單字,此時系統(tǒng)對這些單元的分辨能力則至關重要,這點在2.4 節(jié)中已經予以驗證.然而,此種實現依賴于上游的分割結果,為系統(tǒng)帶來了新的困難.除此之外,另一種思路則是嘗試增強系統(tǒng)本身的時序鑒別能力.
例如,在i-vector 框架下,一般通過隱馬爾科夫模型(Hidden Markov Model,HMM)、長短期記憶網絡(Long Short-term Memory,LSTM)等時序相關的模型建模時序特征,產生新的i-vector 或作為已有i-vector的補充.文獻[10]對比了i-vector、d-vector、s-vector三種特征對不同語音特性(如說話人身份、說話速度等)的刻畫能力.其中對于詞序特性,該文通過在兩段拼接順序不同的語音上的分類任務予以驗證,在此實驗中i-vector 的鑒別效果較差,接近隨機猜測,說明其幾乎沒有時序鑒別能力,而基于LSTM 的s-vector 效果突出,因此該文通過拼接二者得到所謂i-s-vector,在包括詞序區(qū)分的大部分任務上均取得了最優(yōu)結果.Hossein 等[17]則提出使用HMM 代替GMM 作為UBM模型的基礎,通過對每個音素訓練HMM 并拼接,得到特定語句的HMM模型,由此模型產生的i-vector 與語句的相關性更強.
上述方法通過引入其它時序相關的模型增強ivector 的時序鑒別性能,其共同局限性在于需要與語句相關的信息,如每段語句的音素標簽,用于訓練對應的HMM 或神經網絡模型,而實際應用中我們希望在僅具備錄入語音,沒有關于語音內容知識的情況下,完成系統(tǒng)的訓練.動態(tài)時間規(guī)整(Dynamic Time Warping,DTW)算法[18]是語音領域的經典方法之一,其通過對語音序列進行非線性扭曲實現序列間對齊,從而求取相似度,算法直觀且易于實現,其約束條件決定其適于衡量時序差異,且不依賴語音以外的信息.因此,本文提出將DTW 與原有i-vector+PLDA 系統(tǒng)融合,期望二者融合而成的系統(tǒng)可以兼顧i-vector+PLDA 的低錯誤率和DTW 的時序鑒別能力.
DTW 算法產生兩段序列之間的相似度得分,而在很多命令詞系統(tǒng)中,單個詞語對應存在多個模板(訓練語音片段).本文中將目標語音在某詞語下所有模板上的DTW 得分的平均值作為該語音與此詞語的相似度.
盡管上述得分與對數似然比同為相似度的體現,但由于計算方式、統(tǒng)計特性上的差異,數學上二者并不相容.本文采用文獻[19]中的邏輯回歸校準方法,通過在同源、不同源得分上訓練二元邏輯回歸模型得到模型系數,并校準原始得分s,使其等價于對數似然比:
系統(tǒng)融合采用兩系統(tǒng)似然比的連乘,即對數似然比的簡單相加:
第2.5 節(jié)實驗中使用的SbPhrase 數據集不含有實驗所需的音素相近但字序不同的短語對,因此為SbPhrase 中前50 條短語重新采集語音,構建小型子數據集SbPhrase-T.對于每條短語,除其正序(如“曼徹斯特”)外,另行采集部分逆序(如“斯特曼徹”) 和完全逆序(如“特斯徹曼”)兩份語音.將SbPhrase 中前50 條短語作為集內詞訓練i-vector+PLDA 系統(tǒng),將兩種逆序語音作為集外詞進行拒識實驗.
圖5為短語的3 種字序在原系統(tǒng)上對數似然比得分的混淆矩陣(confusion matrix),展示了所有語音在所有正序短語的PLDA 模型上的相似度情況.其中,為方便橫向比較,橫軸每3 列對應一條短語,其下三列依次對應正序、部分逆序、完全逆序語音的得分.觀察對角線可以發(fā)現,兩種逆序語音在其對應序號正序模型上的得分總體較高,說明系統(tǒng)不能將其有效拒識,再次確認了前述i-vector 在時序鑒別能力方面的弱點.
圖5 原系統(tǒng)的混淆矩陣(部分)
圖6為DTW 與i-vector+PLDA 系統(tǒng)融合后,新系統(tǒng)上得分的混淆矩陣,經DTW 修正后,混淆矩陣的對角線更加清晰,兩種逆序語音的得分明顯降低,接近背景(短語不匹配情況)水平.
表6為兩種系統(tǒng)對逆序語音拒識的量化實驗結果.數據表明,相比單i-vector+PLDA 系統(tǒng),融合系統(tǒng)有效降低了系統(tǒng)在逆序語音上的虛警,說明DTW 得分的引入提高了系統(tǒng)的時序鑒別能力.
圖6 新系統(tǒng)的混淆矩陣(部分)
表6 不同系統(tǒng)在SbPhrase-T 數據集上的拒識性能
相比傳統(tǒng)的置信度估計方法,上文提出的基于ivector 和PLDA 以及融合DTW 的方法具有兩點優(yōu)勢:
其一,無需訓練聲學模型及語言模型.傳統(tǒng)方法,特別是基于后驗概率的置信度判決方法,依賴基本語音識別單元(如音素或音節(jié))聲學模型的似然值得分和相應的聲學模型.這些信息常常與特定系統(tǒng)及其使用的聲學模型、語言模型相關,遷移至傳統(tǒng)語音識別系統(tǒng)的諸多變種以及未來更新穎的語音識別框架中存在困難.本文方法訓練過程則僅需語音及對應的類別標簽,外部系統(tǒng)不額外提供其他先驗的聲學和語言模型信息,一方面使得系統(tǒng)結構直觀、易于實現,另一方面因為無需考慮前端系統(tǒng)的實現細節(jié),可以獨立測試與部署,達成一定程度的模塊化,使用更加靈活廣泛.
其二,無需提供語句內容相關信息.實際應用中,很多命令詞系統(tǒng)通過非確定性的命令詞加強安全性或保證用戶體驗.例如,用戶可以根據個人喜好為智能音箱、手環(huán)等智能設備錄入自選的喚醒詞,后續(xù)通過該詞喚醒設備進入工作狀態(tài).此類場景中,設備在錄入階段無法獲知命令詞的內容,因此文獻[10,17]中的方法缺乏訓練所需的標簽.本文方法通過DTW 完成時序信息的補充,避免了對此類“標簽”的依賴,可以應對較為復雜多變的命令詞.在電話銀行、智能家居等應用中,通過本文方法對語音識別系統(tǒng)的結果進行驗證,既有助于降低錯誤,提升用戶體驗,同時仍不失原系統(tǒng)交互過程中的靈活性,對命令詞系統(tǒng)的改進具有實際價值.
此外,第2 節(jié)的置信度檢驗實驗結果中,本文方法輔助語音識別系統(tǒng)對連接詞識別率的提升相比孤立字更為顯著.越長的語音片段,其中包含的語音內容信息越豐富,通過相應增加UBM 混合數和i-vector 維度,得到的i-vector 能夠充分包含此信息,而特征信息量的增加也有益于PLDA 對有用信息的分離與鑒別.因此,相比孤立字,本文方法更適合用于詞語、短句等較長的語音.
本文提出將i-vector 以及PLDA 模型用于置信度判決.i-vector 語音特征包含了包括說話內容在內的各種差異信息,利用PLDA 可以中和其他信息的影響,有效鑒別說話內容,且其形式上符合基于似然比的置信度分析,在孤立字、連接詞實驗中體現出了良好潛力.通過與DTW 融合,補充缺失的時序信息,得到不依賴聲學、語言模型以及語句標簽的置信度分析方法,在應用中較傳統(tǒng)的置信度分析方法有其獨特優(yōu)勢.