金 浩,朱文博,段志奎,陳建文,李艾園
(佛山科學(xué)技術(shù)學(xué)院,廣東佛山 528000)
在近十幾年中,深度學(xué)習(xí)技術(shù)一直保持著飛速發(fā)展的狀態(tài),極大地推動(dòng)了語(yǔ)音識(shí)別技術(shù)的不斷發(fā)展。在大數(shù)據(jù)條件下,無(wú)論是傳統(tǒng)語(yǔ)音識(shí)別技術(shù)、基于深度學(xué)習(xí)的語(yǔ)音識(shí)別技術(shù),還是端到端語(yǔ)音識(shí)別技術(shù)、都已經(jīng)相當(dāng)成熟,各種商業(yè)化產(chǎn)品也相應(yīng)落地實(shí)現(xiàn)。但在小樣本數(shù)據(jù)下,由于系統(tǒng)對(duì)時(shí)序數(shù)據(jù)的上下文建模能力不足,導(dǎo)致語(yǔ)音識(shí)別效果仍不理想。為解決此問(wèn)題,研究者們主要從豐富數(shù)據(jù)特征及優(yōu)化建模方法等方向做了相應(yīng)的研究。
在豐富數(shù)據(jù)特征方面,Saon等[1]引入了身份認(rèn)證矢量(Identity Authentication Vector, IVA) i-vector,它能夠有效表征說(shuō)話人和信道信息,并能提高低資源條件下語(yǔ)音識(shí)別的準(zhǔn)確率[2];Ghahremani等[3]提出一種結(jié)合i-vector特征的音調(diào)提取算法,被證明能夠豐富語(yǔ)音數(shù)據(jù)特征,提高模型上下文建模能力;Gupta等將基于i-vector矢量的說(shuō)話人自適應(yīng)算法成功應(yīng)用在廣播音頻轉(zhuǎn)錄上[4],得到了良好的識(shí)別率。
在優(yōu)化建模方法方面,有研究者提出了不同于傳統(tǒng)高斯混合建模(Gaussian Mixture Model, GMM)的深度神經(jīng)網(wǎng)絡(luò)建模方法,如時(shí)延神經(jīng)網(wǎng)絡(luò)[5](Time Delay Nerual Network, TDNN)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)[6](Long Short Term Memory, LSTM)以及端到端[7]等基于深度學(xué)習(xí)的建模方法。但由于訓(xùn)練數(shù)據(jù)匱乏,時(shí)序特征重要程度的差異性在模型上難以體現(xiàn),導(dǎo)致模型對(duì)時(shí)序數(shù)據(jù)的上下文建模能力仍不足。例如時(shí)延神經(jīng)網(wǎng)絡(luò)在對(duì)幀級(jí)特征信息進(jìn)行時(shí)序拼接時(shí),如果不能區(qū)分重要信息和非重要信息,則容易出現(xiàn)無(wú)效信息被重復(fù)計(jì)算和有效信息丟失的問(wèn)題[8]。并且對(duì)LSTM來(lái)說(shuō),雖然其對(duì)長(zhǎng)距離時(shí)序數(shù)據(jù)有一定的信息挖掘能力,但是當(dāng)輸入的時(shí)序數(shù)據(jù)包含的無(wú)效信息過(guò)長(zhǎng),訓(xùn)練模型時(shí)則會(huì)出現(xiàn)不穩(wěn)定性和梯度消失的問(wèn)題,導(dǎo)致模型捕捉時(shí)序依賴(lài)能力降低[9]。
由于注意力模型[10]具有使模型能夠在有限資源下關(guān)注最有效的信息的優(yōu)點(diǎn),所以被廣泛應(yīng)用于機(jī)器翻譯、圖像識(shí)別等各種不同類(lèi)型的深度學(xué)習(xí)任務(wù)中,具有較大的研發(fā)潛力。近年來(lái),注意力機(jī)制開(kāi)始被用于語(yǔ)音識(shí)別領(lǐng)域,Povey等[11]和Carrasco等[12]提出一種受限的自我注意力機(jī)制層并應(yīng)用于語(yǔ)音識(shí)別領(lǐng)域,有效提高了英語(yǔ)的語(yǔ)音識(shí)別率。有研究者提出了一種含有注意力模塊的卷積神經(jīng)網(wǎng)絡(luò),成功用在語(yǔ)音情感識(shí)別上,并取得了不錯(cuò)的效果[13]。Yang等結(jié)合注意力機(jī)制能夠關(guān)注有效信息的優(yōu)點(diǎn),提出了一種應(yīng)用在情感分類(lèi)上的注意力特征增強(qiáng)網(wǎng)絡(luò)[14]。
因此,本文通過(guò)聯(lián)合TDNN和LSTM聲學(xué)模型并嵌入注意力機(jī)制,借助速度擾亂技術(shù)擴(kuò)增數(shù)據(jù)同時(shí)引入說(shuō)話人聲道信息特征,并結(jié)合基于區(qū)分性訓(xùn)練的無(wú)詞格的最大互信息訓(xùn)練準(zhǔn)則來(lái)訓(xùn)練模型。針對(duì)小樣本馬來(lái)西亞方言數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),深入分析不同輸入特征、隱藏節(jié)點(diǎn)個(gè)數(shù)以及注意力結(jié)構(gòu)對(duì)模型效果的影響。實(shí)驗(yàn)表明,本文提出的基于注意力機(jī)制的TDNN-LSTM混合模型整體表現(xiàn)良好,相比于基線模型詞錯(cuò)率降低了3.37個(gè)百分點(diǎn)。
本文提出了一種基于注意力機(jī)制的TDNNLSTM混合聲學(xué)模型,即TLSTM-Attention模型,如圖1所示。利用注意力機(jī)制處理特征重要度的差異,有效結(jié)合粗細(xì)粒度特征,充分提高LSTM捕捉時(shí)序特征依賴(lài)的能力,并結(jié)合無(wú)詞格最大互信息訓(xùn)練準(zhǔn)則[15](Lattice Free Maximum Mutual Information,LFMMI)對(duì)模型進(jìn)行訓(xùn)練,以增強(qiáng)模型上下文的建模能力。
TLSTM-Attention模型共有8層結(jié)構(gòu)組成,主要由時(shí)延神經(jīng)網(wǎng)絡(luò)模塊、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模塊以及注意力模塊三個(gè)部分組成。采用時(shí)延神經(jīng)網(wǎng)絡(luò)模塊和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模塊以及注意力模塊的交叉連接。該模型整體架構(gòu)如圖1所示,TDNN模塊對(duì)原始輸入數(shù)據(jù)進(jìn)行時(shí)序拼接,以多尺度方式提取更豐富的局部短序列特征。注意力層對(duì)多尺度特征進(jìn)行差異性篩選,既能增強(qiáng)有效信息的利用率,又能減少計(jì)算參數(shù)、精簡(jiǎn)模型。LSTM以注意力層抽取出帶有重要程度差異性的粗粒度特征作為輸入,再度抽取具有長(zhǎng)依賴(lài)關(guān)系的細(xì)粒度特征,實(shí)現(xiàn)粗細(xì)粒度特征有效融合,能夠在一定程度上避免因LSTM層步長(zhǎng)過(guò)長(zhǎng),造成記憶丟失和梯度彌散的問(wèn)題。最后結(jié)合注意力機(jī)制能夠關(guān)注有效信息的優(yōu)點(diǎn),用于對(duì)輸出結(jié)果進(jìn)行分類(lèi)以及預(yù)測(cè)。
圖1 TLSTM-Attention模型架構(gòu)Fig.1 Structural diagram of TLSTM-Attention model
1.2.1 時(shí)延神經(jīng)網(wǎng)絡(luò)原理
時(shí)延神經(jīng)網(wǎng)絡(luò)是一種多層的前饋神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。與傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)采用全連接的層連方式不同,TDNN將每層的輸出都與前后若干時(shí)刻的輸出拼接起來(lái),相較于傳統(tǒng)只能處理幀窗口中固定長(zhǎng)度信息的前饋神經(jīng)網(wǎng)絡(luò),TDNN的輸出不僅與當(dāng)前時(shí)刻有關(guān),還與前后若干時(shí)刻有關(guān),因此能夠有效描述上下層節(jié)點(diǎn)之間的時(shí)序關(guān)系,并且表現(xiàn)出更強(qiáng)的數(shù)據(jù)上下文信息建模能力和能夠適應(yīng)動(dòng)態(tài)時(shí)域特征變化的優(yōu)勢(shì)。每層隱藏層都可以和任意時(shí)刻輸出進(jìn)行拼接,體現(xiàn)了TDNN可以對(duì)更長(zhǎng)的歷史信息進(jìn)行建模的能力。但是這也意味著TDNN在每一個(gè)時(shí)間步長(zhǎng),隱藏層的激活函數(shù)都會(huì)被計(jì)算一次,并且TDNN相鄰節(jié)點(diǎn)之間的變化很小,可能包含了大量的無(wú)效信息,在訓(xùn)練的過(guò)程中容易出現(xiàn)反復(fù)計(jì)算且保留無(wú)效信息的問(wèn)題。
圖2 時(shí)延神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 The structure of time delay neural network
1.2.2 時(shí)延神經(jīng)網(wǎng)絡(luò)模塊設(shè)計(jì)
TLSTM-Attention模型共包含4個(gè)TDNN層,分別命名為T(mén)DNN 1,2,3,4。TDNN中通過(guò)設(shè)置每層參數(shù)來(lái)表示每一層輸出拼接的時(shí)間步長(zhǎng)以及依賴(lài)關(guān)系。使用{-m,n}表示將當(dāng)前幀的歷史第m幀、當(dāng)前幀的未來(lái)第n幀和當(dāng)前幀拼接在一起作為下一個(gè)網(wǎng)絡(luò)層的輸入,0表示最后一層沒(méi)有拼接的輸入。假設(shè)t表示當(dāng)前幀,在TDNN 1層,模型將原始數(shù)據(jù)的時(shí)序信號(hào)轉(zhuǎn)換成特定的幀級(jí)特征向量作為輸入,將幀進(jìn)行{t-2,t-1, 0,t+1,t+2}時(shí)序拼接,處理后作為下一個(gè)隱藏層的輸入。在TDNN2層,將上一層拼接后的幀進(jìn)行{t-3,t-2,t-1,0,t+1,t+2,t+3}拼接,并將學(xué)習(xí)到的過(guò)去5幀及未來(lái)5幀的信息分類(lèi)后作為注意力層的輸入。在TDNN 3處,將對(duì)處理后賦予了注意力特性的幀級(jí)特征信息進(jìn)行{t-3,t-2,t-1, 0,t+1,t+2,t+3}拼接,作為下一層的輸入,在TDNN 4處,將幀進(jìn)行{t-1, 0,t+1}拼接,拼接后的時(shí)序特征包含了過(guò)去及未來(lái)的9幀信息,作為下一個(gè)隱藏層的輸入。
1.3.1 注意力機(jī)制原理
注意力機(jī)制(Attention Mechanism)被認(rèn)為是一種資源分配的機(jī)制,在深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)中,注意力機(jī)制所關(guān)注的資源就是權(quán)重參數(shù)。注意力機(jī)制總體可分為硬注意力機(jī)制與軟注意力機(jī)制。硬注意力機(jī)制的核心是通過(guò)直接限制輸入來(lái)達(dá)到聚焦有效信息的能力,但是對(duì)于時(shí)序數(shù)據(jù)的特性,直接限制輸入則意味著數(shù)據(jù)完整性的缺失,將直接導(dǎo)致模型的上下文建模能力不足。與硬注意力機(jī)制不同,軟注意力機(jī)制通過(guò)對(duì)特征信息進(jìn)行注意力打分,并將其作為特征信息的權(quán)重參數(shù),從而實(shí)現(xiàn)對(duì)特征信息差異性的關(guān)注。對(duì)于具有時(shí)序信息的語(yǔ)音數(shù)據(jù),其中的特征信息包含的重要程度存在差異,重要的顯著特征往往會(huì)包含更多的關(guān)聯(lián)信息,對(duì)建模的影響程度更大。基于上述原理,本文將軟注意力機(jī)制引入TDNN-LSTM模型中,為所有輸入特征逐個(gè)加權(quán)進(jìn)行打分,將歸一化的平均打分作為特征的權(quán)重參數(shù),有效地實(shí)現(xiàn)了粗細(xì)粒度特征的結(jié)合。
1.3.2 注意力層模塊設(shè)計(jì)
TLSTM-Attention模型嵌入了兩層注意力層,分別設(shè)在整體結(jié)構(gòu)的第三層和第八層。第一層注意力層,由前端TDNN 2網(wǎng)絡(luò)進(jìn)行時(shí)序拼接后的輸出,作為注意力層的輸入。首先計(jì)算每個(gè)幀級(jí)特征的標(biāo)量分?jǐn)?shù)et,其表達(dá)式為
其中:ht為前端TDNN網(wǎng)絡(luò)的輸出,vT為轉(zhuǎn)移概率參數(shù)矩陣,W為幀級(jí)特征的權(quán)重,b為特征輸出偏置項(xiàng),k為特征標(biāo)量分?jǐn)?shù)偏置項(xiàng),F(xiàn)(·)為ReLU激活函數(shù)。為減少異常數(shù)據(jù)影響,將得到的標(biāo)量分?jǐn)?shù)et進(jìn)行歸一化處理得到αt,其表達(dá)式為
計(jì)算得到的平均權(quán)重向量系數(shù)與幀級(jí)特征信息結(jié)合,賦予模型關(guān)注重要度更高的特征,更好地實(shí)現(xiàn)時(shí)間序列的粗粒度特征的提取以及對(duì)LSTM輸入信息的優(yōu)化。在模型輸出前的注意力層,將包含18幀的幀級(jí)特征信息,簡(jiǎn)化分類(lèi)及預(yù)測(cè),有效地精簡(jiǎn)模型并提高模型訓(xùn)練速度。
1.4.1 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)原理
長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)是由循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)衍生而來(lái)的時(shí)序卷積神經(jīng)網(wǎng)絡(luò),并在隱藏層的內(nèi)部作了改進(jìn),增加了三個(gè)特殊的門(mén)控結(jié)構(gòu),通過(guò)權(quán)重參數(shù)的更新來(lái)選擇有效的歷史信息進(jìn)行傳遞,實(shí)現(xiàn)對(duì)重要信息的保留和非重要信息的過(guò)濾,內(nèi)部結(jié)構(gòu)如圖3所示。相較于RNN能更好地從輸入數(shù)據(jù)學(xué)習(xí),獲得更好的上下文建模能力并能夠挖掘時(shí)間序列中的時(shí)序變化規(guī)律。
圖3 長(zhǎng)短時(shí)記憶遞歸網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)圖Fig.3 Internal structure of LSTM recurrent network
其中xt為t時(shí)刻的輸入,lt為t時(shí)刻的輸出,c為長(zhǎng)短時(shí)記憶單元信息的狀態(tài),維持信息的傳遞,i代表輸入門(mén),決定當(dāng)前信息xt保留多少信息給ct;f代表遺忘門(mén),遺忘門(mén)結(jié)構(gòu)根據(jù)具有注意力特性的特征信息,決定保存多少前一時(shí)刻的單元狀態(tài)ct-1;o代表輸出門(mén),決定t-1時(shí)刻的隱層狀態(tài)有多少傳遞至當(dāng)前狀態(tài)的輸出lt。
1.4.2 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模塊設(shè)計(jì)
LSTM模塊設(shè)計(jì)如圖4所示,模型整體包含兩層LSTM,分別為L(zhǎng)STM 1、LSTM 2。經(jīng)過(guò)注意力層處理后的平均權(quán)重向量與特征信息結(jié)合得到xt,作為L(zhǎng)STM 1層的輸入。通過(guò)LSTM特有門(mén)控結(jié)構(gòu)處理,對(duì)賦有注意力特征的時(shí)序特征進(jìn)行長(zhǎng)序列依賴(lài)發(fā)掘,進(jìn)一步增強(qiáng)模型上下文信息的建模能力。設(shè)σ(·)表示門(mén)控sigmoid激活函數(shù),Wx·為與輸入層連接的權(quán)重參數(shù)矩陣,Wc·為與記憶單元連接的權(quán)重參數(shù)矩陣,上述流程對(duì)應(yīng)公式為L(zhǎng)STM 1通過(guò)學(xué)習(xí)前端TDNN網(wǎng)絡(luò)模塊的11幀賦予了注意力特性的特征,能夠充分利用有效信息的權(quán)重比,對(duì)特征信息進(jìn)行精準(zhǔn)分類(lèi)。并且通過(guò)TDNN 4層對(duì)特征數(shù)據(jù)進(jìn)行時(shí)序拼接后,LSTM 2層至少可以學(xué)習(xí)到上下文相關(guān)的9幀歷史信息及9幀未來(lái)信息,整體提高模型上下文建模能力以及預(yù)測(cè)分類(lèi)能力。
圖4 LSTM模塊設(shè)計(jì)結(jié)構(gòu)Fig.4 Structure of LSTM module
本實(shí)驗(yàn)采用基于區(qū)分性訓(xùn)練的改進(jìn)無(wú)詞格最大互信息準(zhǔn)則(Lattice Free Maximum Mutual Information, LFMMI),建模單元如圖5所示。改進(jìn)的LFMMI準(zhǔn)則由于降低神經(jīng)網(wǎng)絡(luò)對(duì)齊后的輸出幀率,幀移從10 ms增加為30 ms,因此音素狀態(tài)數(shù)從3降為1,用sp表示,另外加上了一個(gè)用于自旋可重復(fù)0次或多次的空白狀態(tài)sb。這樣對(duì)于1幀的聲學(xué)特征就要遍歷整個(gè)隱馬爾科夫模型(HiddenMarkov Model, HMM),相較于傳統(tǒng)的LFMMI[16]中HMM在音素狀態(tài)級(jí)別建模,改進(jìn)的LFMMI,在音素級(jí)別建模,直接計(jì)算出相應(yīng)的最大互信息(Maximum Mutual Information, MMI)和所有正確路徑和混淆路徑的后驗(yàn)概率。
圖5 改進(jìn)的Lattice-free MMI建模單元Fig.5 Improved lattice-free MMI modeling unit
相比于標(biāo)準(zhǔn)語(yǔ)音識(shí)別系統(tǒng),采用隱馬爾科夫狀態(tài)圖(Hidden Markov, H)、音素上下文(Phone Context, C)、發(fā)音詞典(Pronunciation Lexicon, L)、語(yǔ)言模型(Grammer Model, G)四部分有限狀態(tài)轉(zhuǎn)換器(Finite State Transducer, FST)組合成HCLG靜態(tài)解碼網(wǎng)絡(luò)。改進(jìn)的LFMMI針對(duì)小樣本數(shù)據(jù)在音素級(jí)別建模,用音素語(yǔ)言模型(Phone Grammer Model,PGM)來(lái)代替詞語(yǔ)言模型(Word Grammer Model,WGM)。由于小樣本條件下音素個(gè)數(shù)比詞個(gè)數(shù)少很多,因此PGM產(chǎn)生的FST圖很小,最后得到的HCP解碼網(wǎng)絡(luò)也會(huì)小很多,P代表PGM,真正做到純序列區(qū)分性訓(xùn)練,可以動(dòng)態(tài)更新MMI部分的統(tǒng)計(jì)量并且減少模型訓(xùn)練時(shí)間。
實(shí)驗(yàn)采用的是由Sarah Samson Juan 和 Laurent Besacier收集的開(kāi)源伊班語(yǔ)(IBAN)語(yǔ)料庫(kù)。伊班語(yǔ)是婆羅洲的一種語(yǔ)言,并且是馬來(lái)語(yǔ)和波利尼西亞語(yǔ)的一個(gè)分支,主要在馬來(lái)西亞、加里曼丹和文萊等地普及。該語(yǔ)料庫(kù)是由23個(gè)說(shuō)話人錄制完成的,采樣率設(shè)為16 kHz,每個(gè)采樣點(diǎn)進(jìn)行16 bit量化,聲道為單聲道。該語(yǔ)料庫(kù)總時(shí)長(zhǎng)大約有8 h,共包含3 132句伊班語(yǔ)語(yǔ)音數(shù)據(jù),每句話時(shí)長(zhǎng)約為9 s。實(shí)驗(yàn)中隨機(jī)選擇17個(gè)說(shuō)話人的語(yǔ)音數(shù)據(jù)作為訓(xùn)練集,6個(gè)說(shuō)話人的語(yǔ)音數(shù)據(jù)作為測(cè)試集。發(fā)音詞典包含大概3.7萬(wàn)個(gè)單詞。本文從網(wǎng)上的新聞演講收集了大約104萬(wàn)個(gè)單詞的文本進(jìn)行3元語(yǔ)言模型訓(xùn)練。
為避免語(yǔ)料庫(kù)不足而產(chǎn)生過(guò)擬合的問(wèn)題,本實(shí)驗(yàn)在訓(xùn)練集采用速度擾亂技術(shù)進(jìn)行數(shù)據(jù)擴(kuò)增[17]。為保證音頻質(zhì)量,語(yǔ)速調(diào)整應(yīng)保持在0.85倍和1.25倍之間,因此本實(shí)驗(yàn)將扭曲因子參數(shù)設(shè)置為0.9和1.1。每次訓(xùn)練期間會(huì)隨機(jī)根據(jù)扭曲因子的參數(shù),生成不同量的扭曲訓(xùn)練數(shù)據(jù)擴(kuò)充訓(xùn)練集。同時(shí)由于采用速度擾亂技術(shù)后信號(hào)長(zhǎng)度發(fā)生了變化,需要使用GMM-HMM系統(tǒng)對(duì)生成數(shù)據(jù)對(duì)齊,并將對(duì)齊后的低精度聲學(xué)特征額外加入音量擾動(dòng)以提取高精度聲學(xué)特征,以40維梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient, MFCC)作為基礎(chǔ)特征參數(shù),同時(shí)添加說(shuō)話人聲道信息特征用于聲學(xué)模型訓(xùn)練。將深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)模型作為基線模型,使用基于加權(quán)有限狀態(tài)轉(zhuǎn)換器(Weight Finite State Transducer, WFST)作為系統(tǒng)解碼器,以KALDI[18]為平臺(tái)搭建了一個(gè)馬來(lái)西亞方言語(yǔ)音識(shí)別系統(tǒng)。
每組實(shí)驗(yàn)在測(cè)試集上運(yùn)行3次,以3次實(shí)驗(yàn)的平均詞錯(cuò)誤率為最終實(shí)驗(yàn)結(jié)果。詞錯(cuò)誤率的計(jì)算方法為
式中:S代表替換錯(cuò)誤詞數(shù),D代表刪除錯(cuò)誤詞數(shù),I代表插入錯(cuò)誤詞數(shù),T為句子中的總詞數(shù)。RWE結(jié)果越小,表示識(shí)別性能越好。
本實(shí)驗(yàn)將TLSTM-Attention模型與4種模型進(jìn)行對(duì)比實(shí)驗(yàn):(1) DNN模型包含六個(gè)隱藏層,一個(gè)輸入層,一個(gè)輸出層,每層節(jié)點(diǎn)數(shù)為2 048個(gè),激活函數(shù)為tanh。固定15幀上下文窗口,每幀提取40維MFCC特征,共計(jì)600維特征向量作為網(wǎng)絡(luò)輸入。(2) TDNN聲學(xué)模型包含六個(gè)隱藏層,一個(gè)輸入層,一個(gè)輸出層。每個(gè)隱藏層包含256個(gè)節(jié)點(diǎn),激活函數(shù)為tanh,分別采用{0},{-1,1},{-1,1},{-3,3},{-3,3},{-3,3}配置進(jìn)行時(shí)序拼接,其中{0}表示不進(jìn)行時(shí)序拼接,{-1,1}表示對(duì)當(dāng)前時(shí)刻的前后各一幀拼接。固定5幀上下文窗口,每幀提取40維MFCC特征,共計(jì)200維特征向量作為網(wǎng)絡(luò)輸入。(3) LSTM聲學(xué)模型包含六個(gè)隱藏層,一個(gè)輸入層,一個(gè)輸出層。每個(gè)隱藏層包含256個(gè)節(jié)點(diǎn),包含5幀歷史信息和5幀未來(lái)信息,后三個(gè)隱藏層為常規(guī)隱藏層,激活函數(shù)為tanh。固定3幀上下文窗口,共計(jì)120維特征向量作為網(wǎng)絡(luò)輸入。(4) TDNN-LSTM包含六個(gè)隱藏層,一個(gè)輸入層,一個(gè)輸出層。第一個(gè)隱藏層為包含256個(gè)節(jié)點(diǎn)的TDNN,固定5幀上下文窗口,每幀提取40維MFCC特征,共計(jì)200維特征向量。第2、4和6隱藏層為包含256個(gè)節(jié)點(diǎn)的LSTM,模塊包含5幀歷史信息和5幀未來(lái)信息。第三層和第五層是TDNN隱層,配置信息為{-3,3}。
表1為馬來(lái)西亞方言在不同神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型的識(shí)別結(jié)果。從實(shí)驗(yàn)結(jié)果可以看出,TDNN-LSTM-Attention得到的識(shí)別性能明顯優(yōu)于基線DNN模型,RWE從18.20%下降到15.06%,實(shí)驗(yàn)表明,基于TDNN-LSTM-Attention的聲學(xué)模型能夠有效提高模型上下文建模能力。
表1 不同神經(jīng)網(wǎng)絡(luò)的詞錯(cuò)誤率對(duì)比結(jié)果Table 1 Comparison of word error rates between different neural networks
3.2.1 不同隱層個(gè)數(shù)和節(jié)點(diǎn)數(shù)的比較實(shí)驗(yàn)
在本實(shí)驗(yàn)中,分別對(duì)TDNN和LSTM神經(jīng)網(wǎng)絡(luò)不同隱藏層個(gè)數(shù)和節(jié)點(diǎn)數(shù)進(jìn)行對(duì)比試驗(yàn),其配置信息如表2所示。實(shí)驗(yàn)中分別設(shè)置隱藏層個(gè)數(shù)為3、4、5和6,每個(gè)隱藏層包含256個(gè)節(jié)點(diǎn)。當(dāng)隱藏層個(gè)數(shù)為3時(shí),第2層為L(zhǎng)STM隱藏層;當(dāng)隱藏層個(gè)數(shù)為4時(shí),第3為L(zhǎng)STM隱藏層;當(dāng)隱藏層個(gè)數(shù)為5時(shí),第3層和第5層為L(zhǎng)STM隱藏層。當(dāng)隱藏層個(gè)數(shù)為6時(shí),第3層、第6層為L(zhǎng)STM隱藏層,其余層均為T(mén)DNN隱藏層。例如,使用TDNN-LSTM-6-2表示TDNN-LSTM包含 6個(gè)隱藏層,對(duì)當(dāng)前時(shí)刻前后兩幀進(jìn)行降采樣。
表2 不同隱層個(gè)數(shù)和節(jié)點(diǎn)數(shù)的詞錯(cuò)誤率對(duì)比結(jié)果Table 2 Comparative of word error rates for different numbers of hidden layers and nodes
實(shí)驗(yàn)結(jié)果如表2所示,其中TDNN-LSTM隱層數(shù)為5時(shí),TDNN降采樣節(jié)點(diǎn)配置為{-2,2}的網(wǎng)絡(luò)結(jié)構(gòu)得到的實(shí)驗(yàn)結(jié)果最好,單詞錯(cuò)誤率為17.05%,與基線DNN模型相比降低1.15個(gè)百分點(diǎn)。實(shí)驗(yàn)表明,隨著隱藏層個(gè)數(shù)增加隱藏層節(jié)點(diǎn)數(shù)增加,單詞錯(cuò)誤率明顯降低。這是因?yàn)殡S著層數(shù)和節(jié)點(diǎn)數(shù)的增加,將使TDNN-LSTM在訓(xùn)練過(guò)程中可以獲得更多固定長(zhǎng)度的時(shí)間上下文關(guān)聯(lián)信息。
3.2.2 不同注意力層結(jié)構(gòu)的比較實(shí)驗(yàn)
本實(shí)驗(yàn)以上面實(shí)驗(yàn)中表現(xiàn)最好的 TDNNLSTM-5-2模型為基準(zhǔn),模型基礎(chǔ)結(jié)構(gòu)不變,對(duì)注意力層的個(gè)數(shù)以及位置結(jié)構(gòu)進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)中分別設(shè)置注意力層數(shù)為1、2及3。當(dāng)注意力層個(gè)數(shù)為1時(shí),注意力層有兩個(gè)位置結(jié)構(gòu),1-3表示模型有1個(gè)注意力層結(jié)構(gòu),且位于該模型第3層;1-6表示模型1個(gè)注意力層結(jié)構(gòu),且位于該模型第6層。當(dāng)注意力層個(gè)數(shù)為2時(shí),注意力層分別位于模型的第3、8層,用2-3-8表示。當(dāng)注意力層個(gè)數(shù)為3時(shí),注意力層分別位于模型的第3、6、8層,用3-3-6-8表示。
實(shí)驗(yàn)結(jié)果如表3所示,當(dāng)注意力層個(gè)數(shù)為2時(shí),即Attention2-3-8網(wǎng)絡(luò)結(jié)構(gòu)得到的實(shí)驗(yàn)結(jié)果最好,單詞錯(cuò)誤率為14.83%,與基線DNN模型相比相對(duì)降低3.37個(gè)百分點(diǎn)。實(shí)驗(yàn)表明,適當(dāng)嵌入注意層能夠有效提高識(shí)別效果。這是因?yàn)槟P椭械淖⒁饬幽軌蜿P(guān)注特征的差異性,有效結(jié)合粗細(xì)粒度特征,但當(dāng)注意層增加時(shí)模型將會(huì)過(guò)多的關(guān)注信息差異性,造成數(shù)據(jù)的原始性缺失進(jìn)而導(dǎo)致識(shí)別率不佳。
表3 注意力層的層數(shù)和位置不同的詞錯(cuò)誤率對(duì)比結(jié)果Table 3 Comparison of word error rates for different layer numbers and positions of attention layers
本實(shí)驗(yàn)以13維MFCC作為模型輸入的基礎(chǔ)特征,將基礎(chǔ)特征進(jìn)行二階差分處理得到26維差分特征和1維的音高特征組合得到40維MFCC,同時(shí)添加100維的i-vector特征作為附帶特征。提取特征后對(duì)特征計(jì)算倒譜均值并在模型訓(xùn)練時(shí)動(dòng)態(tài)進(jìn)行歸一化處理,減少異常特征信息數(shù)據(jù)對(duì)模型訓(xùn)練的影響。訓(xùn)練所用模型為T(mén)DNN-LSTM-5-2-Attention2-3-8模型,實(shí)驗(yàn)結(jié)果如表4所示。
表4 不同聲學(xué)特征的TLSTM-Attention模型詞錯(cuò)誤率對(duì)比結(jié)果Table 4 Comparison of word error rates for TLSTM-Attention model with different acoustic features
表4的實(shí)驗(yàn)結(jié)果顯示,對(duì)于基礎(chǔ)特征來(lái)說(shuō),高維的MFCC能夠更好地?cái)M合基于注意力機(jī)制的TDNN-LSTM模型,并且基于40維的MFCC特征和i-vector特征組合的多輸入特征,使得神經(jīng)網(wǎng)絡(luò)可以獲取不同說(shuō)話人特點(diǎn)和信道信息進(jìn)行訓(xùn)練,比單輸入特征在測(cè)試集上取得更好的識(shí)別率。能夠在更長(zhǎng)時(shí)序的語(yǔ)音序列建模,充分挖掘了上下文信息,從而提高模型的魯棒性。
本文針對(duì)小樣本資源下,模型上下文能力不足的問(wèn)題,以基于注意力機(jī)制的TDNN-LSTM的模型為核心構(gòu)建了一個(gè)馬來(lái)語(yǔ)方言的語(yǔ)音識(shí)別系統(tǒng),同時(shí)添加說(shuō)話人聲道信息特征,結(jié)合LFFMI訓(xùn)練準(zhǔn)則,讓模型在有限資源下充分對(duì)音素進(jìn)行建模。實(shí)驗(yàn)結(jié)果表明,相比于DNN基線模型,基于注意力機(jī)制的TDNN-LSTM模型可以有效提高上下文建模能力,并且由于添加了說(shuō)話人聲道信息特征,在特征層面克服了用說(shuō)話人無(wú)關(guān)的語(yǔ)音特征進(jìn)行聲學(xué)模型訓(xùn)練的不足。另外,本文的主要任務(wù)是從提高上下文建模能力角度來(lái)提高低資源下的語(yǔ)音識(shí)別效果,對(duì)于如何更有效提高小樣本資源下語(yǔ)音識(shí)別的效果仍需要繼續(xù)深入研究和探討。