摘要: 針對在復(fù)雜噪聲環(huán)境下語音識別準(zhǔn)確率低和魯棒性差的問題, 提出一種基于增減殘差Mel倒譜融合特征的語音識別方法. 該方法首先利用增減分量法篩選關(guān)鍵語音特征, 然后將其映射到Mel域-殘差域空間坐標(biāo)系中生成增減殘差Mel倒譜系數(shù), 最后將這些融合特征用于訓(xùn)練端到端模型. 實(shí)驗(yàn)結(jié)果表明, 該方法在不同噪聲類型和信噪比條件下均顯著提高了語音識別準(zhǔn)確率及性能, 在-5 dB低信噪比條件下, 語音識別準(zhǔn)確率達(dá)73.13%, 而在其他噪聲條件下的平均語音識別準(zhǔn)確率達(dá)88.67%, 充分證明了該方法的有效性和魯棒性.
關(guān)鍵詞: 語音識別; 殘差Mel倒譜系數(shù); 特征篩選; 增減分量法
中圖分類號: TP391; TN912.3" 文獻(xiàn)標(biāo)志碼: A" 文章編號: 1671-5489(2024)04-0943-08
Speech Recognition Method Based on Fusion Feature ADRMFCC
DUO Lin, MA Jian, WEI Guixiang, TANG Jian
(Faculty of Information Engineering and Automation,Kunming University of Science and Technology, Kunming 650500, China)
Abstract: Aiming at the problem of low accuracy and poor robustness of speech recognition in complex noise environment, we proposed "a speech recognition method based on Mel cepstrum fusion feature of increasing and decreasing residuals." This method first used the increase and decrease component method to screen the key speech features, and then mapped them to the Mel domain-residual domain spatial coordinate system to generate the increase and decrease residual Mel cepstral coefficients.
Finally, these fusion features were used to train the end-to-end model. The experimental results show that the proposed method significantly improves the" accuracy and performance of speech recognition under different noise types and signal-to-noise ratio conditions. Under the low signal-to-noise ratio condition of -5 dB, the speech recognition accuracy reaches 73.13%, while the average speech recognition accuracy under other noise conditions reaches 88.67%, which fully proves the effectiveness and robustness of the proposed method.
Keywords: speech recognition; residual Mel cepstral coefficient; feature screening; increase and decrease" component method
隨著科技的發(fā)展和人工智能的興起, 語音識別技術(shù)已成為人們?nèi)粘I钪胁豢苫蛉钡囊徊糠? 但傳統(tǒng)的語音識別技術(shù)在噪聲干擾、 說話人變化等方面仍存在一定的局限性, 因此如何提高語音識別準(zhǔn)確率的研究備受關(guān)注. 特征提取是語音信號處理中的關(guān)鍵步驟, 直接影響后續(xù)任務(wù)的效果.
目前, 主流的語音特征主要包括基于聲學(xué)層特征和音素層特征, 例如, Mel頻率倒譜系數(shù)(Mel-scale frequency cepstral coefficients, MFCC)[1], Gammatone頻率倒譜系數(shù)(Gammatone frequency cepstral coefficients, GFCC)[2]和線性預(yù)測倒譜系數(shù)(linear predictive cepstral coefficients, LPCC)[3]等. 在嘈雜環(huán)境下, 這些特征很容易受干擾, 導(dǎo)致語音識別效果較差. 基于音素層的識別方法將語音信號分割成若干個音素單元, 并將每個音素單元映射到對應(yīng)音素庫中的音素單元, 得到一個表示整個語音信號的音素序列. 通過分析該音素序列的特征, 例如音素出現(xiàn)的概率和音素之間的轉(zhuǎn)移概率等, 對整個語音信號進(jìn)行識別. 相對于聲學(xué)層特征, 基于音素層特征的語音識別方法受噪聲環(huán)境的影響較小, 但由于音素的切分提取較困難, 因此識別性能可能會下降.
隨著深度學(xué)習(xí)被引入語音識別領(lǐng)域, Wang等[4]提出了將MFCC中Mel濾波器進(jìn)行翻轉(zhuǎn)得到翻轉(zhuǎn)Mel倒譜系數(shù)(inverted Mel-frequency cepstral coefficients, IMFCC)特征, 該特征可獲取語音高頻特征信息, 結(jié)合MFCC特征以表征更全面的語音信息. Zhao等[5]提出了Fbank特征提取時基于濾波器組對音頻進(jìn)行濾波, 可以捕獲音頻的重要信息, 但Fbank特征只考慮了音頻的頻率分布信息, 對其他音頻的特征信息如時域和能量信息等未涉及, 導(dǎo)致識別效果較差. 為克服MFCC和Fbank特征提取的缺點(diǎn), 本文提出在殘差Mel倒譜系數(shù)(residual Mel|frequency cepstral coefficients, RMFCC)中引入殘差信號[6]的概念, 提取語音信號中不能被MFCC描述的殘余信息, 可有效提高語音識別的準(zhǔn)確率. 此外, 各種深度學(xué)習(xí)框架也被應(yīng)用于語音識別任務(wù), 包括深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)[7]、 長短期記憶神經(jīng)網(wǎng)絡(luò)(long short-term memory, LSTM)[8]、 循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)[9]和雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(bidirectional recurrent neural network, BiRNN)[10]等神經(jīng)網(wǎng)絡(luò)模型.
近期, 基于注意力機(jī)制的Transformer模型在各種語音識別任務(wù)中逐漸取代了傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)模型. 這是因?yàn)門ransformer模型具有捕獲長距離語音特征信息和高度并行訓(xùn)練的能力, 而卷積神經(jīng)網(wǎng)絡(luò)(CNN)則擅長提取局部細(xì)粒度特征. 通過引入注意力機(jī)制, Transformer模型能同時處理整個輸入序列, 而不像RNN模型那樣需要按順序逐步計(jì)算. 這使得Transformer模型能高效地并行計(jì)算, 從而顯著加快了訓(xùn)練速度和推理速度. 在此基礎(chǔ)上文獻(xiàn)[11]提出了Conformer模型, 該模型既能捕獲長距離信息又能提取局部特征信息, 在端到端語音識別任務(wù)中展現(xiàn)了優(yōu)異的識別性能.
針對復(fù)雜噪聲環(huán)境下的語音識別準(zhǔn)確率低和魯棒性差的問題, 本文提出一種基于增減殘差Mel倒譜系數(shù)(addition-deletion residual Mel|frequency cepstral coefficients, ADRMFCC)的語音識別方法. 該方法首先利用基于增減分量法的語音貢獻(xiàn)度特征篩選方式對MFCC和RMFCC特征進(jìn)行篩選, 然后將特征映射在由Mel域-殘差域組成的空間坐標(biāo)系中以得到ADRMFCC, 并將處理后的融合特征ADRMFCC送入Conformer-CTC端到端模型中進(jìn)行識別訓(xùn)練. 實(shí)驗(yàn)結(jié)果表明, 在不同的噪聲種類和信噪比條件下, 本文方法顯著提高了語音識別性能.
1 特征提取
1.1 MFCC特征
MFCC是一種常用的語音信號處理特征提取方法. 在特征提取過程中, 首先, 將語音信號分幀, 并對每幀進(jìn)行加窗處理; 其次, 對每幀進(jìn)行快速Fourier變換(FFT), 得到該幀語音信號的頻譜; 再次, 使用一組Mel濾波器將頻譜轉(zhuǎn)換為Mel頻率譜, 并對Mel頻率譜取對數(shù)運(yùn)算, 得到以dB為單位的對數(shù)譜; 最后, 對對數(shù)譜進(jìn)行離散余弦變換, 得到MFCC特征. 一般使用20~40個濾波器, 得到20~40維度的特征向量. 在使用MFCC特征時需要對特征進(jìn)行歸一化處理, 以保證不同特征維度的重要性相同. 第i幀第j維的MFCC為MMFCC(i,j)=2M∑Mm=1lg[Si(m)]cosjπ(m-0.5)M,(1)
其中: i=1,2,…,I為語音參數(shù); j=1,2,…,Jm, Jm為MFCC維度; M為濾波器數(shù)量; m為濾波器. 將F×Jm維的MFCC特征矩陣表示為M.
1.2 RMFCC特征
殘差Mel倒譜系數(shù)(RMFCC)是對Mel頻率倒譜系數(shù)的一種改進(jìn). RMFCC的計(jì)算方式與MFCC類似, 但在計(jì)算Mel頻率譜時, 使用殘差信號, 即原始音頻信號與線性預(yù)測編碼(linear predictive coding, LPC)[12]預(yù)測信號的差. 計(jì)算步驟如下:
1) 對語音信號x(n)分幀加窗, 使用漢明窗, 分幀加窗后的第i幀信號為xi(n);
2) 對xi(n)進(jìn)行離散Fourier變換, 有
Si(k)=∑N-1n=0xi(n)e-j2πkn/N,(2)
其中N為離散Fourier變換的點(diǎn)數(shù);
3) Si(k)的功率譜密度為
Pi(k)=Si(k)2;(3)
4) 對每幀的功率譜進(jìn)行LPC分析, 得到LPC系數(shù), 使用LPC系數(shù)對每幀音頻信號進(jìn)行線性預(yù)測編碼, 得到LPC預(yù)測信號為
(k)=∑Pi=1aix(k-i),(4)
其中: p為LPC的階數(shù), 即LPC系數(shù)的數(shù)量; ai為估計(jì)得到的LPC系數(shù), i=1,2,…,p;
5) 將原始音頻信號與LPC預(yù)測信號做差, 得到殘差信號為r(k)=x(k)-(k);(5)
6) 使用Mel濾波器組將殘差信號轉(zhuǎn)換為Mel頻率譜Sm(k,m)=∑N-1i=0R(k,i)2Hm(i);(6)
7) 對Mel頻率譜進(jìn)行倒譜變換, 得到RMFCC為RMFCC(i,j)=2M∑Mm=0log(Sm(k,m))cosjπMm-12,(7)
其中M是Mel濾波器數(shù)量, Sm(k,m)是第k幀殘差信號經(jīng)過第m個Mel濾波器的響應(yīng), j為RMFCC系數(shù)階數(shù), 將F×Rr維的MFCC特征矩陣表示為R.
1.3 基于增減分量法的融合特征ADRMFCC
傳統(tǒng)的特征融合方式是將單一的底層聲學(xué)特征進(jìn)行維度拼接, 例如將MFCC和RMFCC拼接在一起, 得到一個維度為F×(Jm+Rr)的融合特征矩陣:X=((M1,M2,…,MJm),(R1,R2,…,RRr)),(8)
其中M1和R1分別為第一維MFCC和RMFCC. 雖然這種方式能表征兩種聲學(xué)特征所包含的不同信息, 但無法將它們之間的關(guān)聯(lián)關(guān)系考慮在內(nèi). 為解決該問題, 可將相同維度的MFCC和RMFCC以線性相加的方式進(jìn)行特征融合, 即得到一個維度為F×Jm的融合特征矩陣:
X=M+R.(9)
這種方式可以增強(qiáng)特征之間的關(guān)聯(lián), 但融合后的特征矩陣維度較高, 會增加模型訓(xùn)練和計(jì)算的復(fù)雜度, 同時也可能存在冗余信息, 并且在噪聲環(huán)境下, 隨著信噪比的降低, 語音的聲學(xué)特征會被破壞, 因此仍無法達(dá)到理想的語音識別效果. 為解決上述問題, 本文提出一種基于增減分量法語音貢獻(xiàn)度的特征篩選方式, 去除不必要的維度成分, 得到MFCC和RMFCC中含有對語音識別有貢獻(xiàn)度的特征維度. 增減分量法的平均貢獻(xiàn)度函數(shù)如下:
Gi=1K∑ilt;j(p(i,j)-p(i+1,j))+∑igt;j(p(i,j)-p(i-1,j)),(10)
其中Gi表示貢獻(xiàn)度, p(i,j)表示第i維到第j維特征作為語音特征參數(shù)時的識別準(zhǔn)確率. 本文實(shí)驗(yàn)首先檢測特征參數(shù)每個維數(shù)i~j組合的識別率, 然后由式(10)計(jì)算每個維度的貢獻(xiàn)度.
由于簡單的特征域維度疊加和線性相加并不能更好地發(fā)揮兩種特征的抗噪性能, 本文提出將Mel域和殘差域分別作為新的語音特征空間的橫軸和縱軸, 并在保證MFCC,GFCC特征在幀長、 幀移一致的情況下, 將兩種特征進(jìn)行矩陣乘運(yùn)算得到融合特征ADRMFCC, 簡化后的ADRMFCC為xij=∑Ft=1MitRtj=∑Ft=1Mit2M∑Mm=1lg[Si(m)]cosjπ(m-0.5)M,(11)
其中: Mit為第t幀第i維MFCC; Rtj為第t幀第j維RMFCC; xij為兩種特征中某一維度不同語音特征的加權(quán)和, 數(shù)值越大, 二者關(guān)系越大.
2 基于Conformer-CTC語音識別模型
為實(shí)現(xiàn)更好的語音識別模型, 本文采用鏈接時序分類(connectionist temporal classification, CTC)作為解碼器, 構(gòu)建Conformer-CTC編碼解碼模型.
Conformer模型是一種序列建模架構(gòu), 它融合了多個關(guān)鍵組件, 并通過殘差連接實(shí)現(xiàn)它們之間的連接. 這些組件包括多頭注意力模塊、 卷積網(wǎng)絡(luò)模塊和前饋網(wǎng)絡(luò)模塊.多頭注意力模塊使用類似于Transformer-XL的方法計(jì)算序列中的位置編碼信息, 可有效捕捉輸入語音特征序列中的重要語音特征信息. 卷積網(wǎng)絡(luò)模塊由逐點(diǎn)卷積網(wǎng)絡(luò)、 ReLU激活函數(shù)和一維深度卷積網(wǎng)絡(luò)組成, 它能有效捕捉輸入特征序列中的局部細(xì)節(jié)語音特征信息. 前饋網(wǎng)絡(luò)模塊在Conformer模型中扮演重要角色, 它由兩個線性變換層和Swish激活函數(shù)構(gòu)成, 該模塊引入了非線性變換, 可更好地捕捉輸入特征的復(fù)雜關(guān)系. Conformer模型借鑒了Macaron-Net網(wǎng)絡(luò)結(jié)構(gòu)的思想, 將前饋網(wǎng)絡(luò)模塊分別放置在多頭注意力模塊之前和卷積網(wǎng)絡(luò)模塊之后. 這種設(shè)計(jì)使模型可充分利用多頭注意力模塊對全局上下文的建模能力, 以及卷積網(wǎng)絡(luò)模塊對局部細(xì)節(jié)的建模能力. 同時, 通過在各模塊之間添加殘差連接, 有助于信息的傳遞并減輕梯度消失問題.
該過程首先對輸入的語音信號進(jìn)行特征提取, 并對其進(jìn)行降采樣處理, 使用多個構(gòu)象塊(conformer blocks, CB)建立編碼器部分. 每個CB包含自注意力層、 前饋神經(jīng)網(wǎng)絡(luò)層和卷積層, 用于捕捉輸入序列的上下文信息和特征表示. 在編碼器之后添加一個CTC層, 將編碼器的輸出映射到字符序列. CTC層使用CTC損失函數(shù)訓(xùn)練模型, 無需對齊標(biāo)簽, 可處理不定長輸入和輸出序列. 在訓(xùn)練過程中, 使用CTC解碼器對CTC層的輸出進(jìn)行解碼, 得到最終的識別結(jié)果.
3 實(shí)驗(yàn)及結(jié)果分析
3.1 實(shí)驗(yàn)設(shè)計(jì)
利用PyCharm進(jìn)行仿真實(shí)驗(yàn), 使用的軟件為TensorFlow1.15版, Window10操作系統(tǒng), 12 GB內(nèi)存, 處理器為Intel-i5-12400F. 本文使用的實(shí)驗(yàn)數(shù)據(jù)來自中文數(shù)據(jù)集THCS30. 數(shù)據(jù)集THCHS30總持續(xù)時間超過30 h, 采樣頻率為16 kHz, 采樣大小為16 bit. 訓(xùn)練集包含10 000條語音數(shù)據(jù). 表1列出了中文語音數(shù)據(jù)集THCHS30的信息.
針對復(fù)雜噪聲環(huán)境下的語音識別, 本文實(shí)驗(yàn)訓(xùn)練集采用公開噪聲數(shù)據(jù)庫NOISEX-92中的白噪聲作為背景噪聲, 每種語音包含的SNR等級為[5 dB,10 dB,15 dB,20 dB,25 dB]的語音各1 000條和500條未加噪語音. 測試集采用NOISEX-92中7種不同的噪聲源: buccaneer1,destroyerops,f16,hfchannel,pink,volvo,white, 模擬真實(shí)環(huán)境下不同的噪聲環(huán)境. 每種語料庫包含的SNR等級為[-5 dB,0,5 dB,10 dB,15 dB]的音頻, 從而構(gòu)成35個測試數(shù)據(jù)庫. 平均信噪比為
SNR=10lg∑Hn=1s2(n)∑Hn=1w2(n),(12)
其中∑Hn=1s2(n)表示語音信號能量總和, H表示語音的總采樣點(diǎn)數(shù), ∑Hn=1w2(n)表示噪聲信號能量總和. 語音識別性能評價指標(biāo)為
WER=S+D+IN×100%,(13)
其中S表示替換, D表示刪除, I表示插入, N表示詞數(shù)目, WER表示錯誤率.
3.2 實(shí)驗(yàn)參數(shù)選取
語音的幀長和幀移是對語音識別性能有重要影響的關(guān)鍵參數(shù). 本文選擇39維的MFCC特征和24維的RMFCC特征, 并在以10 dB的白噪聲為背景噪聲的數(shù)據(jù)集THCHS30中進(jìn)行實(shí)驗(yàn), 以驗(yàn)證不同幀長和幀移對語音識別性能的影響. 表2列出了不同幀長和幀移下的語音識別準(zhǔn)確率.
表2由13維的靜態(tài)MFCC特征及其1階、 2階動態(tài)差分參數(shù)組成, 語音幀數(shù)為976. 此外, 隨著幀長和幀移的增加, 特征的識別準(zhǔn)確率呈現(xiàn)先增加后降低的趨勢. 當(dāng)幀長和幀移分別為1 024和512時, 兩種特征的識別準(zhǔn)確率最高, 分別為57.98%和68.48%. 實(shí)驗(yàn)結(jié)果表明, 在噪聲環(huán)境下, RMFCC能更好地表征語音特征, 從而提高語音識別的準(zhǔn)確性. RMFCC通過引入殘差信息, 可捕捉到語音信號中的細(xì)微變化和動態(tài)特征, 對在噪聲環(huán)境下更穩(wěn)定地表示語音有益. 而傳統(tǒng)的MFCC只考慮靜態(tài)特征, 對噪聲環(huán)境下的語音識別可能會受到干擾.
本文語音識別模型選用CTC損失函數(shù)度量真實(shí)標(biāo)簽與預(yù)測標(biāo)簽的差值, CTC損失函數(shù)能處理輸入序列和輸出序列長度不一致的情況, 它通過對齊和計(jì)算兩個序列之間的差異訓(xùn)練模型. 選用Adam優(yōu)化函數(shù)加速模型收斂, 并在學(xué)習(xí)率設(shè)為0.001, 迭代次數(shù)為200時, 模型具有較好的收斂效果.
3.3 基于語音識別貢獻(xiàn)度ADRMFCC選取
本文采用多次實(shí)驗(yàn)取均值的形式, 將39維的MFCC特征和24維的RMFCC在以5 dB的白噪聲為背景噪聲的數(shù)據(jù)集THCHS30及不同模型中進(jìn)行實(shí)驗(yàn). 圖2為MFCC和RMFCC各維度貢獻(xiàn)度.
由圖2可見, 39維MFCC和24維RMFCC特征在不同維度下的貢獻(xiàn)度呈下降趨勢. 表明增加特征的維度并不一定會提升語音識別性能. 基于此, 本文提出兩種特征篩選方式.
方式1: 由圖2可見, 當(dāng)MFCC特征在第27維時, 貢獻(xiàn)度快速下降, 因此選取前26維特征作為待融合MFCC特征(eliminate dimensions-MFCC, ED-MFCC); 同理, 當(dāng)RMFCC特征在第16維時, 貢獻(xiàn)度快速下降, 因此選取前15維特征作為待融合RMFCC特征(eliminae dimensions-RMFCC, ED-RMFCC).
方式2: 以貢獻(xiàn)度大小依次排序選取特征, 將39維MFCC特征貢獻(xiàn)度從大到小排序后選?。?,3,9,16,15,7,10,1,12,8,14,5,11,13,2,17,19,20,22,18,4,21,23,4,24,25)共26維特征作為待融合特征; 將24維RMFCC特征貢獻(xiàn)度從大到小排序后選?。?,7,10,4,8,2,5,9,1,11,13,3,12,14,18)共15維作為待融合特征.
表3列出了不同模型下兩種方式的識別準(zhǔn)確率. 由表3可見, 在使用數(shù)據(jù)集THCHS30進(jìn)行實(shí)驗(yàn)時, 以5 dB的白噪聲作為背景噪聲, Conformer-CTC作為系統(tǒng)模型時, 方式1的語音識別準(zhǔn)確率為89.56%, 方式2的語音識別準(zhǔn)確率為91.23%. 實(shí)驗(yàn)結(jié)果表明, 方式2中按照貢獻(xiàn)度大小排序后的篩選方式能更好地獲取有意義的特征, 因此具有更高的語音識別準(zhǔn)確率.
3.4 測試不同噪聲下的語音識別性能
為測試7種不同復(fù)雜噪聲環(huán)境下本文方法的有效性和魯棒性, 并分析其優(yōu)劣原因, 設(shè)計(jì)下列6組實(shí)驗(yàn), 實(shí)驗(yàn)結(jié)果列于表4.
由表4可見: 在復(fù)雜噪聲環(huán)境中, 隨著噪聲信噪比的降低, 語音信號逐漸被淹沒, 導(dǎo)致語音識別準(zhǔn)確率逐漸下降; 對比ADRMFCC特征在7種不同復(fù)雜噪聲環(huán)境下的識別性能表明, VN噪聲環(huán)境下的語音識別準(zhǔn)確率均高于其他6種噪聲, 且在-5 dB信噪比下仍達(dá)到89.78%的識別準(zhǔn)確率. 這是因?yàn)閂N噪聲為車內(nèi)噪聲, 其頻率區(qū)間在300 Hz以下, 而人聲的主要頻率區(qū)間在300~3 400 Hz, 故當(dāng)VN噪聲疊加到語音信號上時, 對語音信號的破壞相對低于其他噪聲.
圖3為不同特征在白噪聲不同信噪比下的語音識別性能. 由圖3可見, ADRMFCC特征在各信噪比條件下的準(zhǔn)確率均高于其他特征.
對比實(shí)驗(yàn)1~3, 在-5 dB信噪比下, 39維的MFCC特征準(zhǔn)確率最低, 僅為30.67%, 這是由于MFCC特征對人類聽覺系統(tǒng)的感知特征進(jìn)行了模擬, 能很好地表示語音信號的重要頻率成分, 因此在較清晰的語音環(huán)境下性能較好; 而實(shí)驗(yàn)1中Fbank特征使用的濾波器數(shù)量較多, 因此能更好地表示高頻和低頻信息, 具有一定的噪聲魯棒性, 相比于MFCC特征在5種不同信噪比下分別提了5.72,5.99,12.90,13.97,1.96個百分點(diǎn); 由于實(shí)驗(yàn)3中RMFCC特征使用了LPC預(yù)測信號和殘差信號, 能更好地抑制噪聲, 因此在高噪聲環(huán)境下表現(xiàn)出很好的魯棒性, 在5種不同信噪比條件下相比于MFCC和Fbank特征分別提高了18.90,20.50,14.23,21.96,17.89個百分點(diǎn)和13.17,14.51,1.63,8.02,15.93個百分點(diǎn).
對比實(shí)驗(yàn)2和實(shí)驗(yàn)4可知, 39維的MFCC特征中可能包含一些對語音識別意義較小的特征, 因此采用增減分量法篩選具有語音貢獻(xiàn)度的特征, 并從大到小排序提取26維的ED-MFCC特征, 能較好地對特征進(jìn)行處理, 去除不必要的維度成分, 減少參數(shù)冗余. 在5種不同信噪比條件下相比于ED-MFCC和MFCC特征分別提高了10.76,11.50,18.37,19.01,13.42個百分點(diǎn). 同理, 由實(shí)驗(yàn)3和實(shí)驗(yàn)5可知, 在5種不同信噪比條件下相比于ED-RMFCC和RMFCC特征分別提高了13.78,6.37,13.65,4.04,6.15個百分點(diǎn). 實(shí)驗(yàn)6中的ADRMFCC特征在5種信噪比下的識別性能均高于其他5種特征性能, 相比于26維的ED-MFCC特征在WN噪聲下識別準(zhǔn)確率提高了19.10,24.63,27.00,37.99,30.50個百分點(diǎn); 相比于15維的ED-RMFCC特征識別準(zhǔn)確率提高了7.19,19.26,17.49,31.00,15.19個百分點(diǎn). 實(shí)驗(yàn)結(jié)果表明, 本文針對復(fù)雜噪聲環(huán)境下的語音識別方法具有較好的魯棒性和識別性能.
圖4為7種不同噪聲源下, 采用ADRMFCC特征和ED-MFCC,ED-RMFCC特征的平均識別準(zhǔn)確率.
由圖4可見, 在7種不同噪聲源下, 采用ADRMFCC特征相對于ED-MFCC,ED-RMFCC特征在平均識別準(zhǔn)確率上均有提升. 除車內(nèi)噪聲源VN外, 其他噪聲源下語音識別準(zhǔn)確率顯著提高. 這是因?yàn)閂N屬于低頻噪聲, 車內(nèi)噪聲能量主要由其低頻部分決定, 因此在VN源下語音識別準(zhǔn)確率提升并不明顯. 可見, 本文的ADRMFCC特征方法可極大提高在復(fù)雜噪聲環(huán)境下的語音識別準(zhǔn)確率, 并具有很高的魯棒性.
綜上, 針對復(fù)雜噪聲環(huán)境下語音識別準(zhǔn)確率低和魯棒性差的問題, 本文提出了一種ADRMFCC的語音識別方法. 該方法先利用基于增減分量法語音貢獻(xiàn)度的特征篩選方式對MFCC和RMFCC特征進(jìn)行篩選, 然后將篩選后的特征映射在由Mel域-殘差域組成的空間坐標(biāo)系中以得到增減殘差Mel倒譜系數(shù)(ADRMFCC), 最后將處理好的融合特征ADRMFCC送入Conformer-CTC端到端模型中進(jìn)行識別訓(xùn)練. 實(shí)驗(yàn)結(jié)果表明, 本文方法在7種不同噪聲源下的語音識別準(zhǔn)確率均有提升, 且魯棒性也有增強(qiáng), 因此該方法適用于復(fù)雜噪聲環(huán)境下的語音識別.
參考文獻(xiàn)
[1] BISWAS M, RAHAMAN S, AHMADIAN A, et al. Automatic Spoken Language Identification Using MFCC Based Time Series features [J]. Multimedia Tools and Applications, 2023, 82(7): 9565-9595.
[2] CHANDRASEKARAM B. New Feature Vector Based on GFCC for Language Recognition [J]. Journal of Algebraic Statistics, 2022, 13(2): 481-486.
[3] FAU'NDEZ-ZANUY M. Speaker Recognition by Means of a Combination of Linear and Nonlinear Predictive Models [EB/OL]. (2022-05-07)[2023-02-01]. https://arxiv.org/abs/2203.03190.
[4] WANG Z Q, YAN J H, WANG Y F, et al. Speech Emotion Feature Extraction Method Based on Improved MFCC and IMFCC Fusion Features [C]//2023 IEEE 2nd International Conference on Electrical Engineering, Big Data and Algorithms (EEBDA). Piscataway, NJ: IEEE, 2023: 1917-1924.
[5] ZHAO J K, ZHOU H P, LIU H L, et al. Feature Fusion Method for Speaker Recognition Based on Embedding Mechanism [C]//International Conference on Signal Processing and Communication Security (ICSPCS 2022). [S.l.]: SPIE, 2022: 108-113.
[6] SIDDHARTHA S, MISHRA J, PRASANNA S R M. Language Specific Information from LP Residual Signal Using Linear Sub-band Filters [C]//2020 National Conference on Communications (NCC). Piscataway, NJ: IEEE, 2020: 1-5.
[7] WANG D, WANG X D, L S H. An Overview of End-to-End Automatic Speech Recognition [J]. Symmetry, 2019, 11(8): 1018-1044.
[8] ZHAO J F, MAO X, CHEN L J. Speech Emotion Recognition Using Deep 1D amp; 2D CNN LSTM Networks [J]. Biomedical Signal Processing and Control, 2019, 47: 312-323.
[9] SHEWALKAR A, NYAVANANDI D, LUDWIG S A. Performance Evaluation of Deep Neural Networks Applied to Speech Recognition: RNN, LSTM and GRU [J]. Journal of Artificial Intelligence and Soft Computing Research, 2019, 9(4): 235-245.
[10] HE M H. Application of Bidirectional Recurrent Neural Network in Speech Recognition [J]. Computer and Modernization, 2019(10): 1-6.
[11] ZHANG Y, PUVVADA K C, LAVRUKHIN V, et al. Conformer-Based Target-Speaker Automatic Speech Recognition for Single-Channel Audio [C]//2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2023: 1-5.
[12] DAVE N. Feature Extraction Methods LPC, PLP and MFCC in Speech Recognition [J]. International Journal for Advance Research in Engineering and Technology, 2013, 1(6): 1-4.
[13] DO C T. End-to-End Speech Recognition with High-Frame-Rate Features Extraction [EB/OL]. (2019-06-03)[2023-01-15]. https://arxiv.org/abs/1907.01957.
[14] GARG U, AGARWAL S, GUPTA S, et al. Prediction of Emotions from the Audio Speech Signals Using MFCC, MEL and Chroma [C]//2020 12th International Conference on Computational Intelligence and Communication Networks (CICN). Piscataway, NJ: IEEE, 2020: 87-91.
[15] TZUDIR M, BAGHEL S, SARMAH P, et al. Analyzing RMFCC Feature for Dialect Identification in Ao, an Under-Resourced Language [C]//2022 National Conference on Communications (NCC). Piscataway, NJ: IEEE, 2022: 308-313.
(責(zé)任編輯: 韓 嘯)