張偉濤 米吉提·阿不里米提 鄭方 艾斯卡爾·艾木都拉
DOI:10.16644/j.cnki.cn33-1094/tp.2021.11.006
摘? 要: 語音識別中的一個重要的分支就是關鍵詞檢索。雖然在英語上的關鍵詞檢索已經(jīng)成熟,但是低資源的語音,比如維語的語音關鍵詞檢索研究緩慢,仍需要更深入的研究。文章在維吾爾語語數(shù)據(jù)集thuyg20上,先在GMM-HMM(Gaussian Mixture Model Hidden Markov Model)聲學模型,DNN-HMM(Hidden Markov Model Deep Neural Network)聲學模型,LSTM-HMM(Long Short-term Memory Hidden Markov Model)聲學模型解碼產(chǎn)生的網(wǎng)格lattice上捕捉關鍵詞,將DNN-HMM和LSTM-HMM解碼產(chǎn)生的網(wǎng)格進行融合,再在融合的網(wǎng)格lattice上進行關鍵詞檢索。實驗結果表明,融合后的結果在準確率和召回率方面要優(yōu)于DNN-HMM和LSTM-HMM模型的檢索性能。
關鍵詞: 維吾爾語; 低資源; 語音關鍵詞檢索; 深度神經(jīng)網(wǎng)絡
中圖分類號:TP391.1? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2021)11-21-04
Uyghur speech keyword retrieval based on deep neural network
Zhang Weitao, Mijit Ablimit, Zheng Fang, Askar Hamdulla
(College of Information Science and Engineering, Xinjiang University, Urumqi, Xinjiang 830046, China)
Abstract: An important branch of speech recognition is keyword retrieval. Although keyword retrieval in English has become mature, the research on low-resource speech,such as Uyghur speech keyword retrieval, is slow and still needs more in-depth research. On the Uyghur language data set thuyg20, the keywords are captured on the lattice generated by decoding with the acoustic models of GMM-HMM (Gaussian Mixture Model Hidden Markov Model) acoustic model, DNN-HMM (Hidden Markov Model Deep Neural Network) acoustic model and LSTM-HMM (Long Short-term Memory Hidden Markov Model), merge the lattices generated by the DNN-HMM and LSTM-HMM decoding, and then perform keyword search on the merged lattice. The experimental results show that the fusion result is better than the retrieval performance of the DNN-HMM and LSTM-HMM models in terms of accuracy and recall.
Key words: Uyghur; low resources; speech keyword retrieval; deep neural network
0 引言
雖然在維吾爾語的語音識別ASR系統(tǒng)有了許多研究成果[1],但是關于維吾爾語的語音關鍵詞檢索卻比較緩慢,缺乏深入的研究。在如今移動終端以及多媒體信息爆炸性增長的年代,多語言語音信息的檢索研究在社會發(fā)展、網(wǎng)絡安全、輿情分析等多個領域有很重要的現(xiàn)實意義,所以應進一步推進低資源語言語音檢索的研究。
首先對維吾爾語語音聲學單元建模,進行連續(xù)語音識別,再在此基礎上進行維吾爾語語音關鍵詞的檢索。由識別和索引兩部分組成[2],關鍵詞檢索的方法通常都是用關鍵詞的模板,在連續(xù)語音流中進行匹配查找,比如DTW(Dynamic Time Warping)方法和DTW的不同變體等[3]。表示關鍵詞模板的方法有GMM模型[4-5]、HMM模型[6]、DNN[7-8]等,他們對各種特征進行匹配,這些特征包括Speech spectrum、MFCC、PLP、LPC[9]等等。但是這種用關鍵詞模板匹配的方法適用于較小的數(shù)據(jù)量進行關鍵詞檢索,并且用不同的模板去表示關鍵詞有很大的不同。影響關鍵詞檢索準確的因素有標記錯誤,噪聲,信道不同等[10]。隨著大詞匯量連續(xù)語音識別準確率和效率的不斷提高,可以在連續(xù)語音識別的基礎上進行語音關鍵詞檢索,通常比DTW模板匹配的結果較好,所以連續(xù)語音關鍵詞檢索具有很好的應用價值[11]。
漢語、英語等大語言相關研究很多,如漢語語音關鍵詞檢索,在文獻[12]里檢索達到了80.76%的準確率。由于在實際環(huán)境中,噪聲、個性化、情緒等眾多因素的影響,檢測正確率還會大幅降低。
1 系統(tǒng)總體框架
維語音關鍵詞檢索的總體流程是,首先進行維語語音識別,解碼產(chǎn)生相應的lattice,再進行語音關鍵詞檢索。其實lattice只是在語音識別的過程中產(chǎn)生的中間結果,是一個由測試集生成的網(wǎng)格,網(wǎng)格里面包含測試集的每條句子的每個候選詞;由每條測試集句子解碼并聯(lián)起來的一個龐大的網(wǎng)格;網(wǎng)格是以加權有限狀態(tài)轉換器形式的存在,檢索的時候也需要將檢索的關鍵詞轉換成加權有限狀態(tài)轉換器的形式在網(wǎng)格上進行索引,進而在lattice進行語音關鍵詞檢索,通過置信度判斷是否是關鍵詞,關鍵詞檢索的流程如圖1所示。
本文建立GMM,DNN,LSTM,HMM等各種LVCSR系統(tǒng)模型。GMM-HMM模型如圖2所示,DNN-HMM模型如圖3所示,LSTM-HMM模型如圖4所示。GMM,DNN,LSTM都在擬合同一個觀測序列的概率分布,然后作為HMM的觀測狀態(tài)概率矩陣;從HMM指向GMM,DNN,LSTM的箭頭是指HMM的某個狀態(tài)的觀測概率由某一個GMM,DNN,LSTM的某一個輸出節(jié)點決定;最主要的的差別是利用DNN和LSTM代替了GMM實現(xiàn)了狀態(tài)概率的輸出;后驗概率可以看作是有監(jiān)督學習,根據(jù)觀測值去求狀態(tài)值,而DNN和LSTM是根據(jù)觀測值逆向傳播的過程,屬于有監(jiān)督學習;另外經(jīng)過softmax輸出,就能得到后驗概率了。
在圖2 GMM-HMM中,HMM的每一個狀態(tài)的概率分布由GMM擬合。一個狀態(tài)X由一個GMM表征,同時相鄰的GMM之間沒有很強的相關性;GMM模型輸出的似然概率就是HMM狀態(tài)的輸出的觀測概率P(Y|X)。
在圖3中,HMM的每一個狀態(tài)的概率分布由DNN擬合。DNN一個輸出節(jié)點對應一個狀態(tài),為了考慮上下文相關信息,通常送入DNN的是2n+1幀;DNN作為判別模型是直接對給定的觀測序列Y后狀態(tài)的分布進行建模,也是監(jiān)督學習,網(wǎng)絡的輸出P(X|Y)表示不同音素的后驗概率,根據(jù)貝葉斯公式需轉換為不同音素的似然概率P(Y|X)。
在圖4中,HMM的每一個狀態(tài)的概率分布由LSTM擬合。LSTM一個輸出節(jié)點對應一個狀態(tài),為了考慮上下文相關信息,通常送入LSTM的是2n+1幀;LSTM作為判別模型是直接對給定的觀測序列Y后狀態(tài)的分布進行建模,也是監(jiān)督學習,網(wǎng)絡的輸出P(X|Y)表示不同音素的后驗概率,根據(jù)貝葉斯公式需轉換為不同音素的似然概率P(Y|X)。
相同點,HMM的狀態(tài)初始概率和轉態(tài)轉移概率都不變,HMM仍然是對時序進行建模。
2 實驗數(shù)據(jù)準備
實驗中,維吾爾語語音關鍵詞檢索所使用的語音語料包括,訓練集有7600條音頻和文本句子,驗證集有400條音頻和文本句子,測試集有1468條音頻和文本句子[13]。語料庫的數(shù)據(jù)集如表1所示。
3 實驗結果及分析
維語語音識別詞錯誤率和維語的關鍵詞檢索結果,分別如表2和表3所示。維語語音在不同的聲學模型中識別詞錯率的情況和關鍵詞檢索性能。本文發(fā)現(xiàn),維吾爾語DNN-HMM比mono識別率提升了28.54%;LSTM-HMM比mono識別率提升了31.24%,與DNN-HMM識別率相比提升了2.7%;LSTM-HMM模型對于維語的語音關鍵詞檢索準確率達到了90.53%。
3.1 基于DNN-HMM聲學模型
使用DNN-HMM聲學模型做語音關鍵詞檢索;維吾爾語實際總的關鍵詞詞數(shù)1602,用F4DE獲得,檢出正確的關鍵詞數(shù)為1444,檢索到的關鍵詞數(shù)為1616,虛警數(shù)為172,由關鍵詞檢索的評價的公式可得,召回率為90.14%,準確率為89.36%,虛警率為10.74%。
3.2 基于LSTM-HMM聲學模型
使用LSTM-HMM聲學模型做語音關鍵詞檢索,維語實際總的關鍵詞數(shù)為1602,使用F4DE獲得,檢出正確的關鍵詞數(shù)為1463,檢索出總的關鍵詞數(shù)為1616,虛警的關鍵詞數(shù)為153,根據(jù)關鍵詞檢索出系統(tǒng)性能評價指標得,準確率為90.53%,召回率91.32%,虛警率為9.55%。
通過實驗對別發(fā)現(xiàn)在不同的聲學模型上,維語的關鍵詞檢出的查準率,虛警率,召回率都有所不同,但是在LSTM-HMM模型上的性能最佳,維吾爾語達到了90.53%,相比于單音素而言提升34.28%。 相比于高斯混合模型而言,LSTM網(wǎng)絡更能擬合數(shù)據(jù)的分布,進而提高關鍵詞檢出的準確率。
4 基于系統(tǒng)融合的維語語音關鍵詞檢出
據(jù)文獻[14]所得,語音識別系統(tǒng)性能相近的結果,可以進行系統(tǒng)融合從而提高系統(tǒng)的識別性能,本文的LSTM-HMM和DNN-HMM語音識別系統(tǒng)性能較近且較好,借鑒文獻[15]的網(wǎng)格合并的方法融合系統(tǒng)。
網(wǎng)格融合是將兩個網(wǎng)格的開始節(jié)點合并到一個新的開始節(jié)點,從而可以將兩個網(wǎng)格合并到一個拓撲結構中,合并后的網(wǎng)格增大了對正確內容的覆蓋率。詞圖合并的方法如圖5所示。
在圖5中,詞圖網(wǎng)格L1用A表示,詞圖網(wǎng)格L2用B表示,詞圖網(wǎng)格L1和詞圖網(wǎng)格L2的融合用用A U B表示,不同網(wǎng)格單元之間的轉移關系可以用(x:y/w)表示,x為輸入,y為輸出,w為權重,eps為空符號。在網(wǎng)格A中,網(wǎng)格單元0到網(wǎng)格單元1的轉移中,輸入為b,輸出為p,權重為3,詞圖網(wǎng)格L1和詞圖網(wǎng)格L2的融合,就是將詞圖網(wǎng)格L1的起始節(jié)點和詞圖網(wǎng)格L2的起始節(jié)點合并成一個共同的起始節(jié)點0。不同網(wǎng)格之間的轉移關系可以用(eps:eps/0),其他的網(wǎng)格單元之間的轉移關系不變;然后按順序改變每個詞圖單元網(wǎng)格的編號,合并后的詞圖網(wǎng)格上部分為詞圖L1,下部分為詞圖L2,通過對比發(fā)現(xiàn)只是原始詞圖網(wǎng)格的編號發(fā)生了變化,網(wǎng)格單元之間的轉移關系沒有發(fā)生變化,合并后的詞圖網(wǎng)格,可以提高正確識別的概率。
系統(tǒng)融合前后的維語語音關鍵詞檢索系統(tǒng)性能比較,如表4所示。將LSTM和DNN解碼產(chǎn)生的網(wǎng)格進行融合,融合后將會產(chǎn)生一個大的網(wǎng)格圖,可以增加對正確識別內容的覆蓋率,所以對于LSTM-HMM聲學模型的關鍵詞檢出系統(tǒng),維語的準確率提高了1.72%;對于DNN-HMM聲學模型的關鍵詞檢出系統(tǒng)維語的準確率提高了2.89%,可將融合后的系統(tǒng)用于關鍵詞檢出準確率要求較高的應用場景。
5 結束語
本文在kaldi中搭建了完整的語音關鍵詞檢索系統(tǒng),使用thuyg20數(shù)據(jù)集,使用了不同的聲學模型,在語音識別解碼產(chǎn)生的網(wǎng)格lattice上進行語音關鍵詞檢索。實驗結果表明,DNN-HMM和LSTM-HMM模型的檢索性能好于GMM-HMM檢索性能,與GMM相比DNN和LSTM更能準確的擬合語音數(shù)據(jù)的不同分布情況;為了增大對正確識別內容的覆蓋率,將DNN和LSTM的解碼網(wǎng)絡進行融合,產(chǎn)生更大的網(wǎng)格進行語音關鍵詞檢索,網(wǎng)格融合后的效果要好于DNN-HMM和LSTM-HMM模型的檢索性能。為了進一步驗證網(wǎng)格融合系統(tǒng)性能的有效性,可以將該方法用于哈薩克語,柯爾克孜語語音關鍵詞檢索。
參考文獻(References):
[1] 沙爾旦爾·帕爾哈提,米吉提·阿不里米提,艾斯卡爾·艾木都拉.基于詞干單元的維-哈語文本關鍵詞提取研究[J].計算機工程與科學,2020.42(1):131-137
[2] 李娜,葛萬成.語音關鍵詞識別系統(tǒng)的模型訓練及性能評價[J].信息通信,2020.3:8-10
[3] 侯靖勇,謝磊,楊鵬等.基于DTW的語音關鍵詞檢出[C].全國人機語音通訊學術會議,2015.
[4] Manish Gupta,Shambhu Shankar Bharti,Suneeta Agarwal.?Gender-based speaker recognition from speech signals using GMM model[J]. Modern Physics Letters B,2019.33(35).
[5] GMM Estimation of Non-Gaussian Structural Vector Autoregression[J]. Journal of Business & Economic Statistics,2021.39(1).
[6] 馮怡林.基于HMM和DNN混合模型研究的語音識別技術[D].河北科技大學,2020.
[7] Sun M, Snyder D, Gao Y, et al. Compressed Time Delay Neural Network for Small-Footprint Keyword Spotting[C].conference of the international speech communication association,2017:3607-3611
[8] Chen G, Parada C, Heigold G, et al. Small-footprint keyword spotting using deep neural networks[C].international conference on acoustics,speech,and signal processing,2014:4087-4091
[9] 羅元,吳承軍,張毅,黎小松,席兵.Mel頻率下于LPC的語音信號深度特征提取算法[J].重慶郵電大學學報(自然科學版),2016.28(2):174-179
[10] 張舸,張鵬遠,劉建,顏永紅.基于動態(tài)時間規(guī)整的語音關鍵詞檢索算法[J].網(wǎng)絡新媒體技術,2019.8(1):18-23
[11] 李寶祥.語音關鍵詞檢索若干問題的研究[D].北京郵電大學,2013.
[12] 侯云飛.中文語音關鍵詞檢出技術研究[D].南京理工大學,2017.
[13] 艾斯卡爾·肉孜,殷實,張之勇等.THUYG-20:免費的維吾爾語語音數(shù)據(jù)庫[J].清華大學學報:自然科學版,2017.57(2):182-187
[14] 李偉.基于內容的漢語語音檢索技術研究與系統(tǒng)實現(xiàn)[D].清華大學,2011.
[15] 李鵬,屈丹.基于得分歸一化和系統(tǒng)融合的語音關鍵詞檢測方法[J].數(shù)據(jù)采集與處理,2017.32(2):346-353