馬志強(qiáng) 李圖雅 閆 瑞 張 力
(內(nèi)蒙古工業(yè)大學(xué)信息工程學(xué)院 內(nèi)蒙古 呼和浩特 010080)
大詞匯量連續(xù)的蒙古語(yǔ)語(yǔ)音識(shí)別系統(tǒng)是基于GMM-HMM(Gauss Mixture Model-Hidden Markov Model)模型實(shí)現(xiàn)的,在聲學(xué)模型的建模過(guò)程中,由于:(1) 非詞首音節(jié)短元音的出現(xiàn)位置不確定,導(dǎo)致很多詞有幾種讀音,在語(yǔ)料庫(kù)中出現(xiàn)了一詞有多種讀音的現(xiàn)象;(2) 對(duì)于不同人,由于發(fā)音人受方言、個(gè)人習(xí)慣、以及錄音環(huán)境等的影響,所讀音與蒙古語(yǔ)標(biāo)準(zhǔn)發(fā)音有差別。以上現(xiàn)象都使蒙古語(yǔ)語(yǔ)音識(shí)別正確率出現(xiàn)下降。
本文在GMM-HMM聲學(xué)模型的基礎(chǔ)上,結(jié)合最大似然線性回歸MLLR與最大后驗(yàn)概率MAP自適應(yīng)方法的優(yōu)點(diǎn),給出了一種適合蒙古語(yǔ)語(yǔ)音識(shí)別進(jìn)行聲學(xué)模型自適應(yīng)建模的MLLR-MAP方法。核心思想是首先使用蒙古語(yǔ)小規(guī)模自適應(yīng)集對(duì)MLLR和MAP方法中的參數(shù)進(jìn)行估計(jì)計(jì)算;然后對(duì)已經(jīng)構(gòu)建的基線聲學(xué)模型順序按照MLLR和 MAP方法進(jìn)行重新建模,使得基線聲學(xué)模型更加逼近自適應(yīng)數(shù)據(jù)集;最后得到了一個(gè)具有自適應(yīng)集數(shù)據(jù)特征的蒙古語(yǔ)聲學(xué)模型。MLLR-MAP方法中的自適應(yīng)性的依賴(lài)程度由MLLR的轉(zhuǎn)移矩陣和MAP的依賴(lài)權(quán)重值決定,MLLR的轉(zhuǎn)移矩陣由自適應(yīng)數(shù)據(jù)集決定,而最優(yōu)值則需要通過(guò)實(shí)驗(yàn)進(jìn)行人工選擇得到。實(shí)驗(yàn)結(jié)果表明,在聲學(xué)模型總正確率、聲學(xué)模型錯(cuò)誤率、聲學(xué)模型準(zhǔn)確率和系統(tǒng)句識(shí)別錯(cuò)誤率、系統(tǒng)詞識(shí)別錯(cuò)誤率指標(biāo)上都明顯優(yōu)于其他方法。
研究者對(duì)聲學(xué)模型的自適應(yīng)問(wèn)題主要在自適應(yīng)方法上做了研究,包括向量量化法、層次化譜聚類(lèi)法、概率譜映射法和貝葉斯自適應(yīng)法等。其中,Woodland 等提出的MLLR方法和MAP方法[1]屬于貝葉斯自適應(yīng)法,適合連續(xù)密度GMM模型;MLLR方法可以使用少量的特定人的語(yǔ)音數(shù)據(jù)就可以快速地建立自適應(yīng)聲學(xué)模型;MAP方法則隨著特定人語(yǔ)音數(shù)據(jù)的增多, 原始的模型將被逐漸更新為適合特定人的聲學(xué)模型,但是會(huì)出現(xiàn)過(guò)擬合的現(xiàn)象。
(1)
式中:Ws是一個(gè)n×(n+1)矩陣[bTAT]T,A是一個(gè)n×n的矩陣,b是一個(gè)n維向量,ξs是擴(kuò)展的均值向量[1,uT]T(或[1,u1,…,ui,…,un]T),ui是原始的均值,1是偏移量,n是特征維數(shù)[2-3]。
(2)
MLLR只考慮高斯模型中轉(zhuǎn)移矩陣的再估計(jì),總概率可以通過(guò)各個(gè)狀態(tài)得到,所以,設(shè)S是所有狀態(tài)的集合,輔助函數(shù)擴(kuò)展為公式[4-5]:
(3)
因此,MLLR方法進(jìn)行聲學(xué)模型自適應(yīng)建模時(shí),不隨自適應(yīng)數(shù)據(jù)集的增加而使語(yǔ)音識(shí)別率提高,當(dāng)自適應(yīng)數(shù)據(jù)集達(dá)到一定時(shí),聲學(xué)模型的識(shí)別率不再提高。
MAP方法對(duì)高斯模型參數(shù)的調(diào)整是通過(guò)先驗(yàn)信息求解最大后驗(yàn)概率方法的一種自適應(yīng)方法[6-7]。對(duì)于高斯分布均值的MAP重估的一般公式為:
(4)
MAP方法對(duì)蒙古語(yǔ)高斯混合聲學(xué)模型進(jìn)行重估時(shí),聲學(xué)模型的自適應(yīng)性由MAP的依賴(lài)權(quán)重決定。依賴(lài)權(quán)重表示聲學(xué)模型的自適應(yīng)對(duì)先驗(yàn)信息的依賴(lài)程度,反映了先驗(yàn)信息與自適應(yīng)數(shù)據(jù)之間的相互平衡。然而,依賴(lài)權(quán)重是一個(gè)動(dòng)態(tài)變化的值,所以確定合適的依賴(lài)權(quán)重對(duì)提高基于GMM-HMM蒙古語(yǔ)聲學(xué)模型的自適應(yīng)性十分重要。
由于蒙古語(yǔ)中含有豐富的詞干、詞綴,組合得到的蒙古語(yǔ)詞的個(gè)數(shù)非常多。因此,語(yǔ)料庫(kù)很難全覆蓋蒙古語(yǔ)語(yǔ)言中的全部詞語(yǔ)。所以,通過(guò)結(jié)合MLLR和MAP方法的優(yōu)點(diǎn),給出了一種構(gòu)建自適應(yīng)蒙古語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型的MLLR-MAP方法。
蒙古語(yǔ)屬于阿爾泰語(yǔ)系,蒙古語(yǔ)的詞由詞干和詞綴構(gòu)成,一個(gè)詞干后面可以連接至少一個(gè)以上的詞綴。詞干和詞綴都有自己的發(fā)音,詞的發(fā)音是由詞干和詞綴結(jié)合發(fā)音的,一般情況下詞干和詞綴結(jié)合后發(fā)音不變。但是,在發(fā)音中也存在著以下特殊情況[8-9]。
(1) 詞綴與不同詞干結(jié)合后,讀音會(huì)出現(xiàn)音變現(xiàn)象,導(dǎo)致生成多種不同的讀音,因此,無(wú)法用一個(gè)固定的、靜態(tài)的詞典為所有的蒙古語(yǔ)詞進(jìn)行注音。
(2) 蒙古語(yǔ)中包含一定數(shù)量的多音節(jié)詞,因此,在詞干和詞綴之間,前一音節(jié)的元音同后面音節(jié)的元音存在著明顯的元音和諧現(xiàn)象。
(3) 蒙古語(yǔ)口語(yǔ)中發(fā)音時(shí)比較習(xí)慣使用重音,不合理的使用重音會(huì)使語(yǔ)流平淡,導(dǎo)致蒙古語(yǔ)的音節(jié)在口語(yǔ)語(yǔ)流中的變化較大,穩(wěn)定性差。
由于大多數(shù)詞干是與詞綴連接形成更長(zhǎng)的詞干,而詞干后接詞綴的規(guī)則無(wú)法直接應(yīng)用到蒙古語(yǔ)語(yǔ)音識(shí)別中。因此,針對(duì)上述提到的蒙古語(yǔ)構(gòu)詞音變問(wèn)題、元音和諧問(wèn)題和口語(yǔ)語(yǔ)流問(wèn)題,通過(guò)建立自適應(yīng)蒙古語(yǔ)聲學(xué)模型,提高蒙古語(yǔ)語(yǔ)音識(shí)別的正確率。
蒙古語(yǔ)聲學(xué)模型建模采用M元加權(quán)的混合高斯模型,模型表示為公式:
(5)
(6)
在MLLR轉(zhuǎn)換中,Wk是使用蒙古語(yǔ)小規(guī)模自適應(yīng)集數(shù)據(jù)求解式(3)得到的。因此,MLLR模型中的所有參數(shù)只與訓(xùn)練數(shù)據(jù)相關(guān)。
然后對(duì)蒙古語(yǔ)的MLLR聲學(xué)模型進(jìn)行MAP自適應(yīng)處理,MAP自適應(yīng)處理過(guò)程修改為公式:
(7)
因此,蒙古語(yǔ)聲學(xué)模型的MLLR-MAP自適應(yīng)方法的核心是人工選取最優(yōu)的模型參數(shù)τk。
蒙古語(yǔ)聲學(xué)模型的MLLR-MAP訓(xùn)練過(guò)程主要包括:(1) 構(gòu)建基線蒙古語(yǔ)聲學(xué)模型;(2) 對(duì)小規(guī)模蒙古語(yǔ)自適應(yīng)集數(shù)據(jù)進(jìn)行MLLR模型參數(shù)估算,使用式(6)對(duì)基線蒙古語(yǔ)聲學(xué)模型進(jìn)行快速逼近,得到蒙古語(yǔ)MLLR聲學(xué)模型;(3) 再對(duì)小規(guī)模蒙古語(yǔ)自適應(yīng)集數(shù)據(jù)進(jìn)行MAP模型參數(shù)估算,把蒙古語(yǔ)MLLR聲學(xué)模型作為MAP的先驗(yàn)信息,通過(guò)式(7)構(gòu)建蒙古語(yǔ)MLLR-MAP聲學(xué)模型。蒙古語(yǔ)MLLR-MAP聲學(xué)模型的訓(xùn)練過(guò)程如圖1所示。
圖1 蒙古語(yǔ)MLLR-MAP聲學(xué)模型訓(xùn)練過(guò)程
具體的蒙古語(yǔ)MLLR-MAP聲學(xué)模型的訓(xùn)練步驟如下:
訓(xùn)練過(guò)程:蒙古語(yǔ)基線聲學(xué)模型作為自適應(yīng)的先驗(yàn)值,通過(guò)對(duì)小規(guī)模蒙古語(yǔ)自適應(yīng)集的統(tǒng)計(jì)計(jì)算,分別得到MLLR和MAP模型的參數(shù),最后經(jīng)過(guò)MLLR、MAP轉(zhuǎn)換后得到了蒙古語(yǔ)MLLR-MAP聲學(xué)模型。
輸入:基線聲學(xué)模型,小規(guī)模蒙古語(yǔ)自適應(yīng)集
輸出:蒙古語(yǔ)MLLR-MAP聲學(xué)模型
步驟1:對(duì)自適應(yīng)訓(xùn)練集進(jìn)行MFCC特征提取,得到特征文件。
步驟2:累加觀察序列,得到自適應(yīng)集的統(tǒng)計(jì)信息。
步驟3:使用折半取值逐漸逼近的方法依次選取依賴(lài)權(quán)重τ值,對(duì)蒙古語(yǔ)基線聲學(xué)模型的均值、方差、混合權(quán)重、轉(zhuǎn)移矩陣做MAP自適應(yīng),得到對(duì)應(yīng)τ值MAP自適應(yīng)的聲學(xué)模型識(shí)別率。
步驟4:對(duì)比對(duì)應(yīng)τ值MAP自適應(yīng)后的聲學(xué)模型識(shí)別率,選取聲學(xué)模型識(shí)別率最大者對(duì)應(yīng)的τ值。其中τ值的選取采用折半取值辦法,因此,需多次試探判斷是否大于基線聲學(xué)模型的識(shí)別率。
步驟5:對(duì)基線聲學(xué)模型的均值和其他參數(shù)進(jìn)行MLLR自適應(yīng),得到MLLR自適應(yīng)轉(zhuǎn)移矩陣。
步驟6:通過(guò)轉(zhuǎn)移矩陣調(diào)整基線聲學(xué)模型的均值,得到MLLR自適應(yīng)后的均值,對(duì)應(yīng)的聲學(xué)模型為MLLR聲學(xué)模型。
步驟7:進(jìn)行最優(yōu)τ值MAP自適應(yīng),得到最優(yōu)的MLLR-MAP聲學(xué)模型。
為驗(yàn)證MLLR-MAP方法在蒙古語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型中的效果,搭建了基于Sphinx的蒙古語(yǔ)語(yǔ)音識(shí)別系統(tǒng),分別進(jìn)行了τ值的選取和蒙古語(yǔ)MLLR-MAP聲學(xué)模型自適應(yīng)實(shí)驗(yàn)。
蒙古語(yǔ)語(yǔ)料庫(kù)由訓(xùn)練集、自適應(yīng)集和測(cè)試集構(gòu)成,具體構(gòu)成見(jiàn)表1。
表1 語(yǔ)料庫(kù)構(gòu)成
訓(xùn)練集來(lái)源于蒙古語(yǔ)播音員的教學(xué)錄音,共310句,計(jì)39 MB,用于基線聲學(xué)模型的訓(xùn)練。自適應(yīng)集和測(cè)試集由普通的同一個(gè)蒙古族學(xué)生按照口語(yǔ)形式錄制,分別包含13和31個(gè)句子的錄音。
實(shí)驗(yàn)過(guò)程中使用聲學(xué)模型識(shí)別率對(duì)聲學(xué)模型進(jìn)行評(píng)價(jià)。聲學(xué)模型識(shí)別率評(píng)價(jià)指標(biāo)包括模型總正確率TPC、錯(cuò)誤率ERR和準(zhǔn)確率ACC。
總正確率指以句為單位,識(shí)別結(jié)果詞序列中正確的詞數(shù)所占的比例。不考慮插入錯(cuò)誤詞的情況,具體見(jiàn)公式:
TPC= (N-D-S)/N×100%
(8)
式中:N指參考詞序列(即每個(gè)句子正確的詞一級(jí)的序列)中詞的數(shù)目;D是識(shí)別結(jié)果詞序列中未識(shí)別的詞數(shù);S是識(shí)別詞序列中替換錯(cuò)誤的詞數(shù)。
錯(cuò)誤率指識(shí)別結(jié)果詞序列中錯(cuò)誤詞所占的比例,錯(cuò)誤詞包括:插入錯(cuò)誤詞、未識(shí)別詞和替換錯(cuò)誤的詞。計(jì)算具體見(jiàn)公式:
ERR= (I+D+S)/N×100%
(9)
式中:I是插入錯(cuò)誤的詞數(shù)。
準(zhǔn)確率指在考慮插入錯(cuò)誤詞的情況下,識(shí)別結(jié)果詞序列中正確的詞數(shù)所占的比例。具體見(jiàn)公式:
ACC= (N-I-D-S)/N×100% = (1-ERR)×100%
(10)
通常準(zhǔn)確率的值小于總正確率的值,因?yàn)闇?zhǔn)確率考慮了插入錯(cuò)誤而總正確率沒(méi)有考慮。
由于MLLR-MAP方法中τ值參數(shù)不能由自適應(yīng)訓(xùn)練數(shù)據(jù)唯一確定,需要人工選擇。因此,在基線聲學(xué)模型的基礎(chǔ)上,通過(guò)MAP自適應(yīng)選取識(shí)別率最高的τ值作為最終MAP時(shí)的τ值。當(dāng)τ的取值越大時(shí),自適應(yīng)收斂速度就越快。根據(jù)Nickolay V.Shmyrev的結(jié)論[13],τ值是一個(gè)在[1,100]區(qū)間的整型值。因此,在[1,100]范圍內(nèi)采用折半取值逐漸逼近的方法進(jìn)行蒙古語(yǔ)聲學(xué)模型建模實(shí)驗(yàn),選取使聲學(xué)模型的識(shí)別正確率最優(yōu)的τ值。
實(shí)驗(yàn)中,按照τ值與蒙古語(yǔ)聲學(xué)模型正確率變化的情況,τ值的取值依次按照:50->1->100->4->75->38->13->31->19->22->28->23->24。對(duì)應(yīng)的τ值與聲學(xué)模型識(shí)別正確率的實(shí)驗(yàn)結(jié)果如圖2所示。實(shí)驗(yàn)結(jié)果表明,在[1,100]區(qū)間內(nèi),隨著τ值的增加,聲學(xué)模型識(shí)別正確率的趨勢(shì)是先逐漸升高再逐漸降低,其中,在[22,31]區(qū)間識(shí)別正確率出現(xiàn)了小起伏的波動(dòng),在τ<22時(shí),識(shí)別正確率一直在上升,在τ>31時(shí),識(shí)別正確率一直在下降,當(dāng)τ=22時(shí),取得最高識(shí)別正確率70.76%。
圖2 聲學(xué)模型識(shí)別率
為了對(duì)比MAP、MLLR、MAP-MLLR、以及MLLR-MAP方法對(duì)蒙古語(yǔ)聲學(xué)模型自適應(yīng)性能的影響,我們?cè)O(shè)計(jì)了8個(gè)蒙古語(yǔ)聲學(xué)模型自適應(yīng)建模實(shí)驗(yàn)。為了區(qū)分不同實(shí)驗(yàn)名稱(chēng),實(shí)驗(yàn)中使用建模方法名稱(chēng)來(lái)定義實(shí)驗(yàn)名稱(chēng)和蒙古語(yǔ)聲學(xué)模型名稱(chēng),具體定義如表2所示。
表2 聲學(xué)模型定義
實(shí)驗(yàn)中,都采用表1中列出的相同蒙古語(yǔ)語(yǔ)料庫(kù)。蒙古語(yǔ)語(yǔ)音特征采用梅爾頻率倒譜系數(shù)MFCC(Mel Frequency Cepstral Coefficents),幀窗口長(zhǎng)度為25 ms,幀移10 ms。幀提取采用上下文結(jié)合的辦法,即在當(dāng)前幀前后各取5幀來(lái)表示當(dāng)前幀的上下文環(huán)境。聲學(xué)模型訓(xùn)練以三音素作為識(shí)別單元,采用Sphinxtrain-1.0.8工具中的Baum-Welch算法;解碼采用Pocketsphinx-1.0.8工具中的Viterbi算法。
實(shí)驗(yàn)中,自適應(yīng)集和測(cè)試集由不同比例的男女生發(fā)音的句子構(gòu)成,采用聲學(xué)模型評(píng)價(jià)指標(biāo)對(duì)8類(lèi)實(shí)驗(yàn)進(jìn)行評(píng)價(jià),具體實(shí)驗(yàn)結(jié)果數(shù)據(jù)統(tǒng)計(jì)如表3所示。
表3 聲學(xué)模型實(shí)驗(yàn)結(jié)果
相對(duì)于構(gòu)建的基線聲學(xué)模型,其他7種蒙古語(yǔ)聲學(xué)模型建模方法在不同男女比例的自適應(yīng)集和測(cè)試集上聲學(xué)模型的總正確率和錯(cuò)誤率上都有不同程度的提升,TPC提升率(TPC↑)=聲學(xué)模型的TPC-基線聲學(xué)模型的TPC,ERR下降率(ERR↓)=基線聲學(xué)模型的ERR-聲學(xué)模型的ERR。聲學(xué)模型的提升結(jié)果如表4所示。
表4 聲學(xué)模型提升對(duì)比
因此,7種構(gòu)建自適應(yīng)蒙古語(yǔ)聲學(xué)模型的建模方法在5種自適應(yīng)與測(cè)試數(shù)據(jù)集上的平均提升結(jié)果如圖3所示。
圖3 相對(duì)于基線聲學(xué)模型性能提升結(jié)果
實(shí)驗(yàn)結(jié)果表明,在使用相同的蒙古語(yǔ)語(yǔ)料庫(kù)和基線聲學(xué)模型的實(shí)驗(yàn)環(huán)境下,使用MLLR-MAP自適應(yīng)方法構(gòu)建的蒙古語(yǔ)聲學(xué)模型,無(wú)論是在τ=22最優(yōu)的情況下,還是在其他τ(例如τ=62)值的情況下,蒙古語(yǔ)聲學(xué)模型的識(shí)別率優(yōu)于其他自適應(yīng)的建模方法。并且在τ=22時(shí),MLLR-MAP構(gòu)建的蒙古語(yǔ)語(yǔ)音聲學(xué)模型是最優(yōu)的。在平衡語(yǔ)料庫(kù)下,總正確率提升了14.54%,錯(cuò)誤率下降了17.52%。在所有的實(shí)驗(yàn)情況下,平均總正確率提升了17.27%,平均錯(cuò)誤率下降了18.15%。
(1) 通過(guò)結(jié)合MLLR和MAP兩種自適應(yīng)模型的
建模方法,給出了一種構(gòu)建自適應(yīng)蒙古語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型的MLLR-MAP方法。
(2) 在τ值選取方面,為了選取合適的τ值,采取了折半取值逐漸逼近的方法,給出了蒙古語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型MAP自適應(yīng)的參數(shù)τ值。
(3) 在自適應(yīng)聲學(xué)模型建模方法方面,把MLLR自適應(yīng)后的均值作為聲學(xué)模型MAP自適應(yīng)均值的輸入,有效均值的重估使得聲學(xué)模型識(shí)別率得到了進(jìn)一步的提高。
(4) 設(shè)計(jì)了8個(gè)自適應(yīng)建模實(shí)驗(yàn),通過(guò)實(shí)驗(yàn)數(shù)據(jù),充分對(duì)比了各種自適應(yīng)聲學(xué)模型的建模方法。實(shí)驗(yàn)結(jié)果表明,MLLR-MAP聲學(xué)模型自適應(yīng)性能在聲學(xué)模型識(shí)別率上明顯優(yōu)于其他模型,確定了MLLR-MAP方法比MAP-MLLR等其他方法在蒙古語(yǔ)語(yǔ)音識(shí)別上的有效性。因此,可以為其他少數(shù)民族語(yǔ)言語(yǔ)音識(shí)別聲學(xué)模型的自適應(yīng)性建模提供借鑒。
未來(lái)的工作中,需要對(duì)非平衡訓(xùn)練集在蒙古語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型中的應(yīng)用展開(kāi)研究,以及對(duì)MLLR自適應(yīng)中重估方差問(wèn)題的研究。
[1] Leggetter C J, Woodland P C. Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models[J]. Computer Speech & Language, 1995, 9(2):171-185.
[2] Gales M J F. Maximum Likelihood Linear Transformations for HMM-based Speech Recognition[J]. Computer Speech & Language, 1998, 12(12):75-98.
[3] Borsky M, Pollak P. Knowledge-based and Automated Clustering in MLLR Adaptation of Acoustic Models for LVCSR[C]// International Conference on Applied Electronics. 2012:33-36.
[4] Ramya T, Christina S L, Vijayalakshmi P, et al. Analysis on MAP and MLLR based Speaker Adaptation Techniques in Speech Recognition[C]//Circuit, Power and Computing Technologies (ICCPCT), 2014 International Conference on. IEEE, 2014: 1753-1758.
[5] Povey D, Woodland P C, Gales M J F. Discriminative map for acoustic model adaptation[C]// IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings. IEEE, 2003:312-315.
[6] Mahiba S M, Christina S L, Vijayalakshmi P, et al. Analysis of Cross-Gender Adaptation Using MAP and MLLR in Speech Recognition Systems[C]//Recent Trends in Information Technology (ICRTIT), 2013 International Conference on. IEEE, 2013: 387-392.
[7] Lee C H, Gauvain J L. Speaker adaptation based on MAP estimation of HMM parameters[C]// IEEE International Conference on Acoustics, Speech, and Signal Processing: Speech Processing. IEEE Computer Society, 1993:558-561.
[8] 柯登峰, 徐波. 互聯(lián)網(wǎng)時(shí)代語(yǔ)音識(shí)別基本問(wèn)題[J]. 中國(guó)科學(xué), 2013, 43,(12):1578-1597.
[9] 豐洪才, 盧正鼎. 基于MAP和MLLR的綜合漸進(jìn)自適應(yīng)方法研究[J]. 計(jì)算機(jī)工程, 2005, 31(5):4-7.
[10] 飛龍, 高光來(lái), 閆學(xué)亮, 等. 基于分割識(shí)別的蒙古語(yǔ)語(yǔ)音關(guān)鍵詞檢測(cè)方法的研究[J]. 計(jì)算機(jī)科學(xué), 2013, 40(9): 208-211.
[11] CMU. Sphinx-4 Application Programmer’s Guide [EB]. http://cmusphinx.sourceforge.net/wiki/tutorialsphinx4/#source#source.
[12] CMU. Training Acoustic Model for CMU Sphinx [EB]. http://cmusphinx.sourceforge.net/wiki/tutorialam.
[13] CMU. Adaptation for Very Small Grammar [EB].https://sourceforge.net/p/cmusphinx/discussion/help/thread/fe169a87/?limit=25#6022.