邵 娜, 李曉坤, 劉 磊, 陳虹旭, 鄭永亮, 楊 磊
(1黑龍江恒訊科技有限公司國(guó)家博士后科研工作站,哈爾濱150090;2黑龍江省智慧媒體工程技術(shù)研究中心(黑龍江恒訊科技有限公司),哈爾濱150090)
從原始社會(huì)開始,語言就是人類之間溝通的橋梁,這是最直接、也是最清晰的表達(dá)方式。作為人類交流思想的媒介,語言對(duì)文明的進(jìn)步起著不可磨滅的作用。通過研究可知,語言對(duì)人類來說是一項(xiàng)標(biāo)志性的因素。語言在溝通過程中的一類重要屬性就是發(fā)出指令,通過指令可以調(diào)派某人完成某項(xiàng)任務(wù)。進(jìn)而人們開始思考能否通過語言對(duì)人工智能發(fā)出命令。從此,語音識(shí)別技術(shù)開始出現(xiàn)在學(xué)界的視野中。語音識(shí)別能夠?qū)⑷祟惖恼Z言與人工智能進(jìn)行融合,從而實(shí)現(xiàn)對(duì)計(jì)算機(jī)下達(dá)命令的目的。語音識(shí)別的目的是通過計(jì)算機(jī)接收人類語言,并將人類語言解讀為指令,從而實(shí)現(xiàn)人類與計(jì)算機(jī)的交互智能化。近些年來語音識(shí)別技術(shù)得到了飛躍性的發(fā)展,語音識(shí)別的研究也日漸受到學(xué)界的推崇與重視。語音識(shí)別技術(shù)已經(jīng)不再局限于僅是科研人員實(shí)驗(yàn)室中的產(chǎn)物,而是融入人類生活中,成為了一種商品?,F(xiàn)如今,在互聯(lián)網(wǎng)、以及市面上均陸續(xù)涌現(xiàn)出大量與語音識(shí)別相關(guān)的軟件。憑借著語音識(shí)別技術(shù)的實(shí)用性與準(zhǔn)確性,在通訊設(shè)備、汽車、智能家居等載體上,語音識(shí)別技術(shù)的實(shí)用性則已在廣泛的應(yīng)用中得到了完美的闡釋。相關(guān)研究人員將提高語音識(shí)別的準(zhǔn)確性作為目標(biāo),各類研發(fā)成果相繼問世,這些研究均旨在創(chuàng)造一個(gè)準(zhǔn)確率方面的新高。本文研究致力于將深度學(xué)習(xí)與語音識(shí)別相互融合,從而優(yōu)化語音識(shí)別的效率。
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,人們?cè)絹碓街匾暼伺c計(jì)算機(jī)之間的交互命令,因此用語音來實(shí)現(xiàn)這一目標(biāo),主要包括3項(xiàng)技術(shù),分別是:語音識(shí)別、語音編碼和語音合成[1]。突破技術(shù)層面的難題,自動(dòng)識(shí)別人類發(fā)出的自然信號(hào),對(duì)其進(jìn)行解碼轉(zhuǎn)換文本。近些年來,人類從未在語音識(shí)別的道路上停止過探索與前行。1952年,貝爾實(shí)驗(yàn)室的3名研究人員建立了一個(gè)單喇叭數(shù)字識(shí)別系統(tǒng)。該系統(tǒng)就是通過定位每個(gè)聲音功率譜中的共振峰來開展工作[2]。20世紀(jì)60年代末,蘇聯(lián)研究人員發(fā)明了動(dòng)態(tài)時(shí)間扭曲算法[3],雖然已被后來更高效的算法所取代,但是將信號(hào)分割成幀的技術(shù)將會(huì)繼續(xù)得以不斷的創(chuàng)新及演變。20世紀(jì)60年代末,Leonard Baum在國(guó)防分析研究所開發(fā)了馬爾可夫鏈的數(shù)學(xué)模型。Raj Reddy的學(xué)生James Baker和Janetm Bakerk開始考慮將隱馬爾可夫模型(HMM)與語音識(shí)別結(jié)合,從而研究出一種新型混合模型[4]。最早的語音識(shí)別產(chǎn)品是來自Kurzweil應(yīng)用的智能識(shí)別器,于1987年發(fā)布[5-6]。在21世紀(jì)初,語音識(shí)別仍然使用傳統(tǒng)的方法,如隱藏的馬爾可夫模型和前饋人工神經(jīng)網(wǎng)絡(luò)[7]。而回顧整個(gè)的語音識(shí)別歷史發(fā)現(xiàn),人們已經(jīng)持續(xù)多年地始終都在探究研發(fā)淺層表現(xiàn)形式和深層的人工神經(jīng)網(wǎng)絡(luò)。但這些方法在與高斯混合模型/隱馬爾可夫模型(GMM-HMM)技術(shù)的較量中從未占據(jù)過上風(fēng)[8]。直至2009年,學(xué)界才開啟深度學(xué)習(xí)的研究序幕,并逐漸掀起研究熱潮。
目前,語音識(shí)別已成為學(xué)界研究熱點(diǎn),其研究目的就是為了讓計(jì)算機(jī)能夠聽懂人類發(fā)出的指令。選擇隱馬爾可夫模型(Hidden Markov model,HMM)來建立語音識(shí)別系統(tǒng)堪稱是當(dāng)下的首要選擇。說話人所發(fā)出的語音信號(hào)具備短時(shí)平穩(wěn)性。HMM的狀態(tài)不能夠被研究者直接觀察到,故而HMM模型是屬于馬爾科夫鏈的一類。通過觀察某些密度分布產(chǎn)生的概率,從而計(jì)算求得其相應(yīng)的觀測(cè)向量。在20世紀(jì)80年代,有相關(guān)的研究人員嘗試將HMM與語音識(shí)別相結(jié)合,得到的結(jié)果比較符合預(yù)期。HMM在圖像識(shí)別、語音識(shí)別等領(lǐng)域正迅速成為設(shè)計(jì)者矚目的焦點(diǎn),越來越多的研究人員開始躋身于此項(xiàng)研究的行列當(dāng)中。
傳統(tǒng)的HMM是一種統(tǒng)計(jì)學(xué)習(xí)的模型,這個(gè)過程通常是不能被觀測(cè)的。這個(gè)過程可以看作為一種簡(jiǎn)單的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)。HMM模型通常會(huì)被劃歸于這類網(wǎng)絡(luò)。Baum及其同事開發(fā)了基于HMM的數(shù)學(xué)模型。通多觀察簡(jiǎn)單的馬爾可夫模型,研究人員可以準(zhǔn)確測(cè)定該模型的狀態(tài),故而狀態(tài)轉(zhuǎn)移概率作為模型僅有的參數(shù),而在隱馬爾可夫模型中,狀態(tài)卻非直接可見的,但是輸出則依賴于狀態(tài),是可見的。每個(gè)狀態(tài)在可能的輸出令牌上有一個(gè)概率分布。如果想要獲取相關(guān)狀態(tài)序列的數(shù)據(jù),需要由HMM生成令牌指令序列。形容詞的隱藏并不是指描述模型的參數(shù),而是模型之間互相傳遞的狀態(tài)序列。即使這些參數(shù)是精確、且已知的,該模型仍將被稱為隱馬爾可夫模型。HMM模型尤其適用于強(qiáng)化學(xué)習(xí)和模式識(shí)別??梢园央[馬爾可夫模型視作原有模型的變化形式,從中選取一個(gè)隱藏的變量支配混合模型確定一個(gè)觀察者。最近,隱馬爾可夫模型已經(jīng)推廣到Pairwise Markov模型和Triplet Markov模型中,而這些模型能夠支持更復(fù)雜的數(shù)據(jù)結(jié)構(gòu)和非平穩(wěn)數(shù)據(jù)的建模。
隱馬爾可夫模型(HMM)由5種元素組成,其中含有2個(gè)狀態(tài)集合以及3個(gè)概率矩陣,對(duì)此可寫作如下數(shù)學(xué)形式:
其中,S表示隱含狀態(tài)。這部分狀態(tài)是被隱馬爾可夫模型不可被觀察的一種狀態(tài),無法以觀察者的身份進(jìn)行觀測(cè);O表示可觀測(cè)狀態(tài),這部分狀態(tài)通常能被觀察者直接觀測(cè),并與S有一定聯(lián)系;π表示模型初始時(shí)期的概率分布,從而堆積而成的矩陣,設(shè)T=1,這個(gè)時(shí)期會(huì)得到一定概率,將其組成矩陣;A表示模型在隱藏情況下產(chǎn)生的概率組成的矩陣,展示出隱馬爾可夫模型互相之間信號(hào)傳輸?shù)母怕?。并且,Aij=P(Sj|Si),1≤i,j≤N;B表示觀測(cè)狀態(tài)下的轉(zhuǎn)移概率矩陣,假設(shè)X為隱含狀態(tài)數(shù),Y為可被觀測(cè)狀態(tài)數(shù),N為被模型隱藏狀態(tài)的數(shù)量,M為模型中能被觀測(cè)到的狀態(tài)的數(shù)量,則:Aij=P(Oj|Oi),1≤i≤X,j≥1。 其數(shù)學(xué)含義是: 在t時(shí)刻模型的基本狀態(tài)隱藏是Si的前提下,模型狀態(tài)的觀察為Oi的概率。
綜上論述可知,通常情況下,通過λ=(A,B,π)這個(gè)三元組可以相對(duì)簡(jiǎn)化地描述出一個(gè)隱馬爾可夫模型。隱馬爾可夫模型是由馬爾可夫模型經(jīng)過演繹完善得到的一種新型模型,馬爾科夫模型的狀態(tài)集合不能以觀察者的身份追蹤監(jiān)測(cè)與被隱藏的狀態(tài)之間的概率聯(lián)系,而隱馬爾可夫模型卻能做到這一點(diǎn)。當(dāng)將HMM用作聲學(xué)模型時(shí),其設(shè)計(jì)結(jié)構(gòu)如圖1所示,表現(xiàn)為某狀態(tài)轉(zhuǎn)變?yōu)榱硪粻顟B(tài)的轉(zhuǎn)移概率。
圖1 狀態(tài)轉(zhuǎn)移概率結(jié)構(gòu)圖Fig.1 State transition probability structure diagram
高斯混合模型(GMM)是一種參數(shù)概率密度函數(shù),表示高斯分量密度的加權(quán)和。高斯混合模型是由方程給出的M分量高斯密度的加權(quán)和,其數(shù)學(xué)公式可表示為:
其中,x是d維連續(xù)值數(shù)據(jù)向量(即測(cè)量或特征),ωi(i=1,…,M) 是混合權(quán)重=1,…,M)是組件高斯密度,每個(gè)分量密度是形式的d-變量,語音輸入信號(hào)的分布情況一般不能夠用單高斯概率密度函數(shù)做出描述,大多數(shù)情況下是采用混合高斯函數(shù)表示輸出概率。即:
其中,μi為均值向量,Σi為協(xié)方差矩陣,混合權(quán)值滿足約束條件
在20世紀(jì)初,Hinton等人發(fā)表了深度學(xué)習(xí)的構(gòu)想,并提出了非監(jiān)督逐層訓(xùn)練算法,這也是深層結(jié)構(gòu)學(xué)習(xí)研究上的一個(gè)重要突破。同時(shí)又提出一種用于深層結(jié)構(gòu)編碼的編碼器,能夠利用空間關(guān)系,減少參數(shù)數(shù)目,從而優(yōu)化訓(xùn)練性能[9]。深度學(xué)習(xí)是基于數(shù)據(jù)的一種更泛化的機(jī)器學(xué)習(xí)模式,而不是特定的某種算法。深度學(xué)習(xí)的架構(gòu)就是深度神經(jīng)網(wǎng)絡(luò),已經(jīng)被大范圍地應(yīng)用到圖像識(shí)別、語音識(shí)別、社交過濾、機(jī)器翻譯、藥物設(shè)計(jì)等領(lǐng)域中。在相當(dāng)一部分領(lǐng)域,深度學(xué)習(xí)的能力要強(qiáng)于在該領(lǐng)域的專家。深度學(xué)習(xí)可以看作一種深度挖掘數(shù)據(jù)的新興機(jī)器學(xué)習(xí)模式。通過采用級(jí)聯(lián)多個(gè)非線性處理單元的方式進(jìn)行特征的提取以及轉(zhuǎn)換。每個(gè)連續(xù)層使用前一層的輸出層作為輸入層。在有監(jiān)督的情況下學(xué)習(xí)(例如分類)或無監(jiān)督(例如模式分析)。深度學(xué)習(xí)是一種對(duì)應(yīng)多層的空間,同時(shí)與多個(gè)不同的隱藏層次進(jìn)行映射。各個(gè)層次有機(jī)結(jié)合,從而組成一種概念層次結(jié)構(gòu)。啟用了一項(xiàng)坡度下降的模式,從而執(zhí)行反向傳播訓(xùn)練。深層學(xué)習(xí)中使用的層包括人工神經(jīng)網(wǎng)絡(luò)的隱含層和一組命題公式。此外,也可能包括深層生成模型中有組織變量的潛變量,如深層信念網(wǎng)絡(luò)中的節(jié)點(diǎn)和深度玻爾茲曼機(jī)。
Kaldi語音識(shí)別系統(tǒng)是Daninel Povey等人使用C++開發(fā)的一種語音識(shí)別系統(tǒng)??稍?GNU、Linux、BSD、 OSX 10(8/9等)、 Windows(via Cygwin)等環(huán)境下運(yùn)行。Kaldi語音識(shí)別系統(tǒng)的開發(fā)能夠提供一種兼具靈活性和可擴(kuò)展性的語音識(shí)別系統(tǒng)開發(fā)平臺(tái)。該系統(tǒng)支持線性變換,增加了MMI和MCE等基于特征空間的區(qū)分性訓(xùn)練的深層神經(jīng)網(wǎng)絡(luò)。Kaldi語音識(shí)別系統(tǒng)在將深度學(xué)習(xí)與語音識(shí)別相結(jié)合的過程中表現(xiàn)出方便、且內(nèi)容豐富的特點(diǎn)。該軟件的成功開發(fā)是2009年約翰霍普金斯大學(xué)研討會(huì)上的重要組成部分[10]。
2.2.1 循環(huán)神經(jīng)網(wǎng)絡(luò)
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是一類人工神經(jīng)網(wǎng)絡(luò)在單位之間的連接形成一種循環(huán),這使其可以表現(xiàn)出一種動(dòng)態(tài)的時(shí)間行為。這個(gè)網(wǎng)絡(luò)內(nèi)部存在專屬的存儲(chǔ)器,可以用其輸入需要的序列。這就使得該網(wǎng)絡(luò)適用于多種任務(wù),諸如分類、文字識(shí)別[11]或語音識(shí)別[12-13]等。 卷積網(wǎng)絡(luò)的靈感來自于生物過程,其中神經(jīng)元之間的連接模式即是受到了動(dòng)物視覺皮層組織的啟發(fā)。
只有受約束的可觀測(cè)區(qū)域會(huì)刺激獨(dú)立的神經(jīng)單位,這被稱作感受野。多個(gè)獨(dú)立的神經(jīng)單位的感受野的局部會(huì)疊加,從而包含整片視野。與其它圖像分類算法相比,CNN進(jìn)行預(yù)處理相對(duì)較小。在特征設(shè)計(jì)中,這種與先前知識(shí)儲(chǔ)備無關(guān)的獨(dú)立性是一個(gè)主要優(yōu)點(diǎn)。循環(huán)神經(jīng)網(wǎng)絡(luò)有2種。一種是單向RNN,另一種是雙向RNN。本次研究中可能用到的原理公式可分述如下。
(1)單向RNN的前層。具體公式如下:
需要提及的是,在所有時(shí)間點(diǎn)中,隱層權(quán)重是共享的,所以需要將所有時(shí)間序列累加成和。研究中推得的隱層權(quán)重的偏導(dǎo)的計(jì)算公式為:
(2)雙向RNN。具體公式如下。
①激活前端網(wǎng)絡(luò)隱藏層,其公式為:
②激活后端網(wǎng)絡(luò)隱藏層,其公式為:
③網(wǎng)絡(luò)計(jì)算的輸出,其公式為:
需要提及的是,在所有時(shí)間點(diǎn)中,隱層權(quán)重是共享的,所以需要將所有時(shí)間序列累加成和。研究中推得的隱層權(quán)重的偏導(dǎo)的計(jì)算公式為:
其中,表示中間隱層為h的節(jié)點(diǎn)在t時(shí)刻的加權(quán)和,表示節(jié)點(diǎn)h在t-1時(shí)刻的輸出。
2.2.2 長(zhǎng)短期記憶網(wǎng)絡(luò)
長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM)是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一層構(gòu)建單元。RNN對(duì)應(yīng)單位常常叫做LSTM網(wǎng)絡(luò)。LSTM單元由cell組成。cell負(fù)責(zé)“記住”在任意時(shí)間間隔值;所以,LSTM中儲(chǔ)存了大量“記憶”。在一個(gè)多層(或前饋)神經(jīng)網(wǎng)絡(luò)中,包含3種門。這3種門分別是:輸入門(Input Gate)、遺忘門(Forget Gate)和輸出門(Output Gate)。其中,每一種門可以被認(rèn)為是一個(gè)“常規(guī)”人工神經(jīng)元。也就是說,均可將其用來計(jì)算一個(gè)加權(quán)和的激活。直觀地說,就是可以被認(rèn)為是價(jià)值的流量調(diào)節(jié)器,經(jīng)過嚴(yán)格的連接;因此,表示“門”。這些門和電池之間有聯(lián)系。表達(dá)的短期是指雖是一個(gè)短期記憶可以持續(xù)長(zhǎng)時(shí)間的模型。相對(duì)來說適合于分類和預(yù)測(cè)時(shí)間序列的時(shí)間滯后之間的重要事件,如未知的大小和持續(xù)時(shí)間。原始RNN存在一個(gè)不足,就是對(duì)深層節(jié)點(diǎn)的感知能力會(huì)逐漸下降,在深層網(wǎng)絡(luò)將無法進(jìn)行有效的訓(xùn)練。LSTM的提出有利于代替RNN這種相對(duì)不敏感的學(xué)習(xí)方法。與此研究相關(guān)的原理公式詳見如下。
(1)輸入門。具體公式為:
其中,為輸入;為上一時(shí)間的隱層的輸出;為上一時(shí)間cell的輸出。
(2)遺忘門。具體公式為:
(3)輸出門。具體公式為:
其中,wij表示一種從i到j(luò)的連接權(quán)重;表示時(shí)間t的網(wǎng)絡(luò)輸入;表示時(shí)間t的網(wǎng)絡(luò)輸出;l表示輸入門;?表示遺忘門;w表示輸出門。
2.2.3 卷積神經(jīng)網(wǎng)絡(luò)
在機(jī)器學(xué)習(xí)領(lǐng)域中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是一種屬于深度學(xué)習(xí)網(wǎng)絡(luò)范疇的前饋人工神經(jīng)網(wǎng)絡(luò),非常適合應(yīng)用于語音信號(hào)識(shí)別分析。CNN的設(shè)計(jì)使用變化多層感知器,要求最小化的預(yù)處理[14]。故而也被稱為平移穩(wěn)定或空間穩(wěn)定的人工神經(jīng)網(wǎng)絡(luò)(siann),且具有基于共同的權(quán)重結(jié)構(gòu)和平移穩(wěn)定性的特點(diǎn)[15-16]。這里,給出卷積神經(jīng)網(wǎng)絡(luò)的模型架構(gòu)如圖2所示。卷積網(wǎng)絡(luò)的靈感來自于生物過程[17],這種網(wǎng)絡(luò)不同神經(jīng)元之間的連接方式是受到動(dòng)物皮層組織之間的模式啟發(fā)而設(shè)計(jì)的。如前所述,只有受約束的可觀測(cè)區(qū)域會(huì)刺激獨(dú)立的神經(jīng)單位,將其稱作感受野。這意味著深度網(wǎng)絡(luò)引用了傳統(tǒng)算法中手工設(shè)計(jì)的過濾器。在特征設(shè)計(jì)中,這種與先前知識(shí)和人工學(xué)習(xí)相分離的獨(dú)立性是一個(gè)主要優(yōu)點(diǎn)?,F(xiàn)今,在圖像識(shí)別、語音識(shí)別、推薦系統(tǒng)[18]和語言識(shí)別分析中都可見到其應(yīng)用的實(shí)例[19]。
圖2 卷積神經(jīng)網(wǎng)絡(luò)模型Fig.2 Convolutional Neural Network Model
2.2.4 深度神經(jīng)網(wǎng)絡(luò)
傳統(tǒng)語音識(shí)別基本上均使用GMM-HMM作為聲學(xué)模型,而DNN-HMM的聲學(xué)模型最顯著的不同點(diǎn)就是使用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)將GMM-HMM中的高斯混合模型替換掉,對(duì)輸入信號(hào)進(jìn)行建模從而觀察概率。DNN模型輸入的頻譜特征與傳統(tǒng)的方法有很大的區(qū)別。MFCC比較常見。DNN形成的語音波均經(jīng)過加窗、分幀。如圖3所示,DNN與GMM的不同可表述為:DNN會(huì)進(jìn)行拼接幀的操作,而GMM只會(huì)采集單幀特征作為輸入。在本文會(huì)將相鄰多幀拼接,從而得到匯集更多數(shù)據(jù)的輸入量。采用拼接幀是優(yōu)化效率的一種重要手段。DNN是一個(gè)具有眾多隱含層的多層網(wǎng)絡(luò),信號(hào)接送至輸入層后分多條線路傳輸?shù)诫[含層,從采集的原始聲音特征映射到新特征空間中,這種新特征空間是通過隱含層各節(jié)點(diǎn)構(gòu)成的,從而得到一種新的特征表現(xiàn)形式。每一層隱含層都會(huì)對(duì)上一層的語音信號(hào)進(jìn)行分解,并且在本層加以重組。當(dāng)信號(hào)到達(dá)最后一個(gè)隱含層時(shí),會(huì)通過深度學(xué)習(xí)網(wǎng)絡(luò)映射到狀態(tài)空間;繪制出2個(gè)模型的結(jié)構(gòu),從中可以看出深度神經(jīng)網(wǎng)絡(luò)包含多個(gè)高斯混合模型,一個(gè)高斯混合模型可以被當(dāng)作僅含有一個(gè)隱含層的神經(jīng)網(wǎng)絡(luò),各個(gè)高斯混合分量作為隱含層節(jié)點(diǎn),由下層的各個(gè)混合分量經(jīng)由線性組合而成的輸出層可被當(dāng)作HMM模型的狀態(tài)。通過將采集的聲學(xué)特征映射到GMM混合分量空間,從而在HMM模型中實(shí)現(xiàn)映射,最后在得到的狀態(tài)中得到輸出后驗(yàn)概率。基于前述研究可以看出,DNN的建模能力要優(yōu)于GMM,因此DNN-HMM是一種更加高效的聲學(xué)模型。
圖3 單個(gè)高斯混合模型與深度神經(jīng)網(wǎng)絡(luò)模型Fig.3 Single Gaussian Mixture Model and Deep Neural Network Model
DNN將GMM-HMM模型中的GMM進(jìn)行置換,從而計(jì)算HMM狀態(tài)的后驗(yàn)概率。設(shè)給定時(shí)刻T的特征觀察矢量是Oπ,在DNN中采用Softmax函數(shù)計(jì)算HMM狀態(tài)出現(xiàn)的概率,狀態(tài)為:
其中,{avt(x)}為輸出層x的激活概率。在此基礎(chǔ)上,還將推得:
其中,P(x)表示訓(xùn)練數(shù)據(jù)中狀態(tài)x出現(xiàn)的先驗(yàn)概率。
在DNN-HMM模型中,DNN的原理是將采集的輸入信號(hào)的后驗(yàn)概率進(jìn)行計(jì)算建模。對(duì)觀察概率建模是傳統(tǒng)GMM模型的模式。因此研究中既需要獲取先驗(yàn)概率,又要獲取后驗(yàn)概率,將二者相結(jié)合從而得到觀察概率。設(shè)輸出樣本為a,輸出狀態(tài)為x,P(x|a)表示DNN后驗(yàn)概率,可采用式(23)進(jìn)行計(jì)算:
通過以上模型觀察,就可以得出概率并且利用HMM進(jìn)行解碼。
本文使用了863漢語語音庫。該語音庫分別由41名男性和41名女性說話人組成訓(xùn)練集,42名男性和42名女性說話人組成測(cè)試集。由上世紀(jì)90年代《人民日?qǐng)?bào)》中選取千余句作為朗讀文本。設(shè)置采樣頻率16 KHz,分3類,并且選擇其中一類進(jìn)行閱讀。
本節(jié)將深度學(xué)習(xí)技術(shù)建立聲學(xué)模型,與傳統(tǒng)聲學(xué)模型進(jìn)行對(duì)比,得到各模型的建模能力。實(shí)驗(yàn)中進(jìn)行了如下的準(zhǔn)備工作:本節(jié)在863語音庫中分別選取1 000單詞和句子作為樣本。隨機(jī)抽取500作為訓(xùn)練集合,500作為測(cè)試集,將Kaldi搭載于Linux系統(tǒng)下。
3.1.1 特征提取
首先,要對(duì)傳統(tǒng)GMM-HMM聲學(xué)模型進(jìn)行訓(xùn)練,從數(shù)據(jù)庫中提取對(duì)應(yīng)幀長(zhǎng)為20 ms、幀移為10 ms的語音數(shù)據(jù)對(duì)應(yīng)MFCC特征,該提取特征有40維。將離散余弦變換階數(shù)選取一個(gè)假定值,設(shè)為13,經(jīng)過一階和二階的差分后得到的是39維,在此基礎(chǔ)上疊加幀能量,共得到40維。其次,分別選擇長(zhǎng)短期記憶網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)以及深度神經(jīng)網(wǎng)絡(luò)聲學(xué)模型進(jìn)行訓(xùn)練,從數(shù)據(jù)庫中提取對(duì)應(yīng)幀長(zhǎng)為20 ms、幀移為10 ms的語音數(shù)據(jù)的特征。CNNHMM的語音數(shù)據(jù)對(duì)應(yīng)的是fBank特征,提取的特征有40維。DNN-HMM的語音數(shù)據(jù)對(duì)應(yīng)的是fBank特征,提取的特征有96維。提取的特征需要分組捆綁,這是為了提升相關(guān)性分析的效率。
3.1.2 生成標(biāo)簽
在實(shí)驗(yàn)的過程中需要生成標(biāo)簽,用于監(jiān)測(cè)LSTM網(wǎng)絡(luò)、CNN網(wǎng)絡(luò)以及DNN網(wǎng)絡(luò)的性能。搭建傳統(tǒng)GMM-HMM聲學(xué)模型,從中獲取標(biāo)簽信息。將這個(gè)成熟的聲學(xué)模型與有關(guān)信息相融合,再與初始文本標(biāo)簽進(jìn)行對(duì)接。使用對(duì)接后的三因素模型用作聲學(xué)模型訓(xùn)練的標(biāo)簽。
3.1.3 聲學(xué)建模
3.1.3.1 LSTM-HMM 網(wǎng)絡(luò)參數(shù)配置
該LSTM-HMM由1個(gè)輸入層、3個(gè)隱藏層、1個(gè)輸出層組成。輸入層對(duì)應(yīng)75維特征,擴(kuò)展3幀,從而得到的節(jié)點(diǎn)數(shù)為300。每個(gè)隱藏層對(duì)應(yīng)2 048個(gè)節(jié)點(diǎn),共計(jì)6 144個(gè)節(jié)點(diǎn)。輸出層對(duì)應(yīng)36 016個(gè)節(jié)點(diǎn)。使用Softmax函數(shù)用作輸出層的分類,使用Sigmoid函數(shù)對(duì)隱藏層進(jìn)行激活。
選取最小化交叉熵設(shè)定為目標(biāo)函數(shù),用來進(jìn)行參數(shù)調(diào)優(yōu)。設(shè)定起始學(xué)習(xí)率的值為0.1,開始訓(xùn)練直到第5代,將學(xué)習(xí)率降低二分之一。接下來,每當(dāng)?shù)淮危瑢W(xué)習(xí)率都將降低為上代的二分之一。一旦交叉驗(yàn)證值趨于平穩(wěn),結(jié)束實(shí)驗(yàn)。
3.1.3.2 CNN-HMM 網(wǎng)絡(luò)參數(shù)配置
該CNN-HMM由1個(gè)輸入層、2個(gè)卷積層、2個(gè)池化層和1個(gè)輸出層組成。輸入層對(duì)應(yīng)96維特征,擴(kuò)展5幀,從而得到節(jié)點(diǎn)數(shù)為1 056。該網(wǎng)絡(luò)的卷積層與池化層并不同時(shí)運(yùn)行,而是在不同時(shí)間段內(nèi)交替出現(xiàn)。C1是首次出現(xiàn)的卷積層,C3是第二次出現(xiàn)的卷積層。S2是首次出現(xiàn)的池化層,S4是第二次出現(xiàn)的池化層。使用Softmax函數(shù)用作層的分類。
參數(shù)調(diào)整與LSTM相同,選取最小化交叉熵設(shè)定為目標(biāo)函數(shù),用來進(jìn)行參數(shù)調(diào)優(yōu)。設(shè)定起始學(xué)習(xí)率的值為0.1,開始訓(xùn)練直到第5代,將學(xué)習(xí)率降低二分之一。后續(xù)每當(dāng)?shù)淮?,學(xué)習(xí)率都將降低為為上代的二分之一。一旦平均懲罰值維持在一定范圍內(nèi)趨于平穩(wěn),結(jié)束實(shí)驗(yàn)。
3.1.3.3 DNN-HMM 網(wǎng)絡(luò)參數(shù)配置
該DNN-HMM由1個(gè)輸入層、6個(gè)隱藏層、1個(gè)輸出層組成。輸入層對(duì)應(yīng)429個(gè)節(jié)點(diǎn),每個(gè)隱藏層對(duì)應(yīng)1 024個(gè)節(jié)點(diǎn),共計(jì)6 144個(gè)節(jié)點(diǎn),輸出層對(duì)應(yīng)1 366個(gè)節(jié)點(diǎn)。使用Softmax函數(shù)用作輸出層的分類,使用Sigmoid函數(shù)對(duì)隱藏層進(jìn)行激活。
參數(shù)調(diào)整也是與LSTM相同,選取最小化交叉熵設(shè)定為目標(biāo)函數(shù),用來進(jìn)行參數(shù)調(diào)優(yōu)。設(shè)定起始學(xué)習(xí)率的值為0.1,開始訓(xùn)練直到第5代,將學(xué)習(xí)率降低二分之一。后續(xù)每當(dāng)?shù)淮危瑢W(xué)習(xí)率都將降低為上代的二分之一。一旦交叉驗(yàn)證值逐漸平穩(wěn),結(jié)束實(shí)驗(yàn)。
依照實(shí)驗(yàn)步驟分別在Kaldi系統(tǒng)中搭建GMMHMM聲學(xué)模型、LSTM-HMM聲學(xué)模型、CNN-HMM聲學(xué)模型以及DNN-HMM聲學(xué)模型。最終得出結(jié)果見表1。進(jìn)而,研究中得到的各主要算法的實(shí)驗(yàn)仿真結(jié)果則如圖4~圖6所示。
表1 主要算法的單詞句子正確率的測(cè)試結(jié)果Tab.1 Test results of the sentence correct rate of the main algorithms
圖4 LSTM正確率迭代次數(shù)變化圖Fig.4 Iteration number change graph of LSTM correct rate
圖6 DNN正確率迭代次數(shù)變化圖Fig.6 Iteration number change graph of DNN correct rate
結(jié)合上述結(jié)果分析后可知,GMM用作聲學(xué)模型在網(wǎng)絡(luò)學(xué)習(xí)中趨于淺層,而LSTM、CNN、DNN等模型屬于深層學(xué)習(xí)范疇,雖然深度學(xué)習(xí)模型相較于傳統(tǒng)聲學(xué)模型更為復(fù)雜,但是能夠顯著提高語音識(shí)別正確率及效率??梢钥闯?,基于深度學(xué)習(xí)的聲學(xué)建模能力要普遍強(qiáng)于傳統(tǒng)GMM-HMM聲學(xué)模型。
研究前文表1可以看出,傳統(tǒng)基于混合高斯隱馬爾可夫混合模型的建模方法顯然要遜色于當(dāng)下基于深度學(xué)習(xí)進(jìn)行聲學(xué)建模的方法。從詞的正確率來看,LSTM-HMM 比 GMM-HMM 提升了7.4%、CNNHMM比 GMM-HMM提升了9.2%、DNN-HMM 比GMM-HMM提升了6.4%。從句子的正確率來看,LSTM-HMM比 GMM-HMM提升了13%、CNNHMM比GMM-HMM提升了12.2%、DNN-HMM比GMM-HMM提升了10.4%。分析如上數(shù)據(jù)可以得到,GMM是一種趨于傳統(tǒng)的淺層網(wǎng)絡(luò),雖然技術(shù)相對(duì)成熟,但是對(duì)海量數(shù)據(jù)的提取學(xué)習(xí)能力顯得有些薄弱。而LSTM、CNN、DNN等深層網(wǎng)絡(luò)適合于進(jìn)行深度學(xué)習(xí),而且非常適于在海量數(shù)據(jù)中進(jìn)行數(shù)據(jù)提取。LSTM模型能夠?qū)?shù)據(jù)進(jìn)行長(zhǎng)期記憶,不會(huì)形成記憶斷層,使其建模能力將會(huì)優(yōu)于DNN模型。CNN模型由于其獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu),根據(jù)得到的反饋來看,效果具有明顯提升。因此可以得出以下結(jié)論:DNN模型相對(duì)于GMM模型來說是一種建模能力更強(qiáng)的模型。使用LSTM-HMM模型建模得到的反饋略優(yōu)于DNN-HMM模型,而CNN-HMM的建模能力卻勝過其余3種模型。
隨著人類社會(huì)的進(jìn)步與現(xiàn)代化發(fā)展,語音識(shí)別能夠?qū)⑷藱C(jī)實(shí)現(xiàn)充分的有機(jī)結(jié)合。在海量數(shù)據(jù)的處理中以及提升準(zhǔn)確性的前提下去優(yōu)化其識(shí)別效率是每位相關(guān)研究人員的追求目標(biāo)。本文希望通過基于深度學(xué)習(xí)的語音識(shí)別方法的研究,能夠改善語音識(shí)別的聲學(xué)模型,提高語音識(shí)別的準(zhǔn)確性,優(yōu)化其效率,從而有效滿足多個(gè)領(lǐng)域?qū)θ斯ぶ悄苷Z音識(shí)別的各項(xiàng)豐富需求。