文/梁寧娜 鄧彥松
語音識(shí)別技術(shù)是機(jī)器通過識(shí)別把人類的語音轉(zhuǎn)換為與之對(duì)應(yīng)的命令或者文本的技術(shù)。自20世紀(jì)50年代以來,識(shí)別技術(shù)就取得不斷的進(jìn)步?;谡Z音識(shí)別的系統(tǒng)也逐漸出現(xiàn)在生活中。語音助手、語音轉(zhuǎn)換工具等都是建立在語音識(shí)別技術(shù)的基礎(chǔ)上。英語、漢語的識(shí)別得到了飛速的發(fā)展。而作為我國少數(shù)民族語言文字中歷史悠久的藏語,它的語音識(shí)別技術(shù)的研究才剛剛起步。由于語言本身的復(fù)雜性所限,藏語語音識(shí)別還比較落后。
藏語有三種方言分別是衛(wèi)藏方言、康方言、安多方言。藏語是一種拼音語言,根據(jù)藏語語音學(xué)特征可以分為元音和輔音,不同語種用于語音識(shí)別的基元不相同,詞基元的選擇會(huì)受到詞匯量的影響,在語音庫中,增加的詞匯數(shù)量提高了識(shí)別的難度,識(shí)別率也隨著降低。
語音識(shí)別是主要是采用的是以語音特征為核心的模式識(shí)別。
預(yù)處理是語音識(shí)別的準(zhǔn)備階段,通過預(yù)處理得到語音信號(hào)的有效起始點(diǎn)。再將語音信號(hào)通過數(shù)字濾波器,提升語音的高頻部分,便于頻譜分析。
經(jīng)過預(yù)加重處理后,一般假設(shè)語音信號(hào)在10-30ms的時(shí)間范圍內(nèi)是平穩(wěn)的。采用窗函數(shù)將信號(hào)分為幀。根據(jù)窗函數(shù)的特點(diǎn),采用哈明窗(Hamming),哈明窗的頻率分辨率較高。哈明窗(Hamming):
端點(diǎn)檢測(cè)影響著語音識(shí)別的性能,對(duì)端點(diǎn)檢測(cè)比較敏感的語音識(shí)別算法會(huì)受到較大的影響,直接影響語音識(shí)別的正確率。端點(diǎn)檢測(cè)大多采用的方法有短時(shí)能量、短時(shí)過零率,可以將兩種檢測(cè)方法結(jié)合起來用于判斷出語音信號(hào)的位置。
語音識(shí)別中,MFCC反映了人耳特征,其性能和魯棒性在所有參數(shù)中最好的。線性頻率與梅爾系數(shù)頻率的關(guān)系如下:
對(duì)語音信號(hào)進(jìn)行預(yù)處理,然后作離散傅里葉變換,對(duì)變換后的數(shù)據(jù)取模平方得到離散的功率譜,再用一組Mel帶通濾波器進(jìn)行帶通濾波。將得到的Mel頻譜通過對(duì)數(shù)處理得到藏語語音信號(hào)的對(duì)數(shù)頻譜,再進(jìn)行離散余弦變化得到MFCC參數(shù)。
動(dòng)態(tài)時(shí)間規(guī)整法(DTW)較多的用于孤立詞語音識(shí)別,屬于傳統(tǒng)的模板匹配法。DTW的目的就是尋找一條最佳路徑,此路徑開始于起始點(diǎn),結(jié)束于終點(diǎn),并經(jīng)過各個(gè)交叉點(diǎn),該路徑上所有交叉點(diǎn)的總失真達(dá)到最小。設(shè)藏語語音的模板信號(hào)特征矢量序列為:S={s1, s2,……, si}, 藏語語音的待測(cè)信號(hào)的特征矢量序列為;T={t1, t2,……,tj}, I≠J。利用動(dòng)態(tài)時(shí)間規(guī)整法找到最佳的時(shí)間規(guī)整函數(shù),使待測(cè)語音的時(shí)間軸j非線性地映射到參考模板的時(shí)間軸i上,使總失真達(dá)到最小。時(shí)間規(guī)整函數(shù)為:
且滿足:
式中,d[j, ω(j)] 是第j幀輸入特征矢量與第i幀參考模板矢量的距離,D為最優(yōu)的距離測(cè)度。
表1:識(shí)別率比較結(jié)果
DTW 算法對(duì)端點(diǎn)檢測(cè)比較敏感,要求參考模板與匹配模板起點(diǎn)對(duì)起點(diǎn),終點(diǎn)對(duì)終點(diǎn)。但是當(dāng)環(huán)境噪聲較大時(shí),端點(diǎn)檢測(cè)不易進(jìn)行,因此采用放松端點(diǎn)的方法,即語音信號(hào)的起始端點(diǎn)和結(jié)束端點(diǎn)可以適當(dāng)?shù)姆潘?-3幀。具體的做法就是,在動(dòng)態(tài)規(guī)劃做路徑選擇時(shí),起點(diǎn)不是(1,1)這個(gè)點(diǎn),而是過(1,1)的一個(gè)短線段上的點(diǎn);終點(diǎn)也不是(I,J),而是過(I,J)點(diǎn)上的一個(gè)短線段的點(diǎn)。
DTW算法和端點(diǎn)限制放寬的DTW算法進(jìn)行實(shí)驗(yàn)比較。實(shí)驗(yàn)樣本總數(shù)為360個(gè),9個(gè)藏語數(shù)字,每個(gè)發(fā)音40遍。前10遍發(fā)音通過訓(xùn)練得到語音特征,余下為待匹配語音。如表1所示。
DTW方法廣泛用于孤立詞識(shí)別系統(tǒng),算法簡(jiǎn)單、識(shí)別效果好。本文研究了語音識(shí)別的DTW算法,端點(diǎn)限制放寬的DTW算法的識(shí)別效率比傳統(tǒng)的DTW算法高。由于減少匹配的幀數(shù),從而也減少了識(shí)別時(shí)間,使系統(tǒng)具有更好的識(shí)別性能。