• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種語(yǔ)音特征提取中Mel倒譜系數(shù)的后處理算法

      2016-05-24 12:05:18張毅謝延義羅元席兵
      智能系統(tǒng)學(xué)報(bào) 2016年2期
      關(guān)鍵詞:語(yǔ)音識(shí)別后處理魯棒性

      張毅,謝延義,羅元,席兵

      (1.重慶郵電大學(xué) 先進(jìn)制造工程學(xué)院,重慶 400065; 2. 重慶郵電大學(xué) 自動(dòng)化學(xué)院,重慶 400065; 3. 重慶郵電大學(xué) 光電工程學(xué)院,重慶 400065)

      ?

      一種語(yǔ)音特征提取中Mel倒譜系數(shù)的后處理算法

      張毅1,謝延義2,羅元3,席兵3

      (1.重慶郵電大學(xué) 先進(jìn)制造工程學(xué)院,重慶 400065; 2. 重慶郵電大學(xué) 自動(dòng)化學(xué)院,重慶 400065; 3. 重慶郵電大學(xué) 光電工程學(xué)院,重慶 400065)

      摘要:為提高語(yǔ)音識(shí)別系統(tǒng)的魯棒性,本文以Mel頻率倒譜系數(shù)(MFCC)為基礎(chǔ),結(jié)合均值消減法、方差歸一化、時(shí)間序列濾波法和加權(quán)自回歸移動(dòng)平均濾波法,提出了一種后處理算法,本文將該算法命名為MVDA后處理法,所得語(yǔ)音特征參數(shù)簡(jiǎn)稱MVDA。本文首先從理論上推導(dǎo)了MVDA后處理法可以去除加性噪聲和卷積噪聲的干擾,接著針對(duì)MVDA與MFCC做了對(duì)比試驗(yàn),并分析了含噪語(yǔ)音與語(yǔ)音信號(hào)的歐氏距離變化,證明MVDA后處理法的每一步均有效降低了噪聲的干擾,且得出了MVDA在不同噪聲環(huán)境中均更優(yōu)的結(jié)論。這種簡(jiǎn)潔的語(yǔ)音特征不僅可以達(dá)到許多復(fù)雜語(yǔ)音特征處理方法的效果,而且有效減少了自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的計(jì)算量。

      關(guān)鍵詞:后處理;語(yǔ)音特征;語(yǔ)音識(shí)別;噪聲;魯棒性

      中文引用格式:張毅,謝延義,羅元,等. 一種語(yǔ)音特征提取中Mel倒譜系數(shù)的后處理算法[J]. 智能系統(tǒng)學(xué)報(bào), 2016, 11(2): 208-215.

      英文引用格式:ZHANG Yi,XIE Yanyi,LUO Yuan, et al. Postprocessing method of MFCC in speech feature extraction[J]. CAAI transactions on intelligent systems, 2016, 11(2): 208-215.

      為了提高語(yǔ)音識(shí)別系統(tǒng)的魯棒性,譜減法、卡爾曼濾波[1-2]和麥克風(fēng)陣列[3]等語(yǔ)音增強(qiáng)技術(shù)得到應(yīng)用和推廣。語(yǔ)音特征的失真造成聲學(xué)空間的變形,對(duì)此聲學(xué)模型可以相應(yīng)地調(diào)整,以彌補(bǔ)訓(xùn)練和測(cè)試語(yǔ)音之間的差異,這種調(diào)整通常被稱為噪聲模型補(bǔ)償技術(shù)[4-5]。由于語(yǔ)音去噪的復(fù)雜性,甚至小詞匯的自動(dòng)語(yǔ)音識(shí)別系統(tǒng)都采用了相對(duì)復(fù)雜的處理方法[6]。這些復(fù)雜的處理方法往往會(huì)造成較大的計(jì)算量和不必要的時(shí)延,降低自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的靈活性[7]。

      因此本文綜合考慮自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的魯棒性和靈敏性,有針對(duì)性地提出了一種簡(jiǎn)潔的語(yǔ)音信號(hào)后處理方法——MVDA后處理法。同時(shí),也改善了傳統(tǒng)的MFCC特征提取方法中采用三角濾波器組帶來的相鄰頻帶之間的頻譜能量相互泄露,且不利于反映共振特性的問題,為整個(gè)語(yǔ)音識(shí)別系統(tǒng)的優(yōu)化提供了基礎(chǔ)。實(shí)驗(yàn)表明,MVDA后處理法在不同的噪聲環(huán)境中的魯棒性和靈敏性都要高于傳統(tǒng)的MFCC特征提取法。

      1噪聲分類和MFCC

      自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的魯棒性取決于噪聲、語(yǔ)音特征和語(yǔ)音信號(hào)處理方法。本節(jié)首先定義了日常聲學(xué)環(huán)境中常見的噪聲類型,對(duì)噪聲的分類有利于本文更加清晰地分析特征失真,并且有利于描述MVDA后處理法。

      1.1 噪聲的分類

      通常處理的噪聲分為加性噪聲和卷積噪聲。加性噪聲可以描述為

      (1)

      式中:{s(t)}是語(yǔ)音信號(hào),{n(t)}是加性噪聲,{x(t)}是含噪語(yǔ)音。卷積噪聲可以描述為

      (2)

      式中:*是卷積符號(hào),h(t)是環(huán)境導(dǎo)致的卷積噪聲。此處假設(shè)環(huán)境是穩(wěn)定的,在實(shí)際環(huán)境中,兩種類型的噪聲同時(shí)存在。因此加噪語(yǔ)音可以描述為

      (3)

      式(3)可以被看成是一般噪聲情況下,表明語(yǔ)音成分與噪聲成分的一種方法,可以簡(jiǎn)化為

      (4)

      式中:F指非線性時(shí)變環(huán)境下語(yǔ)音信號(hào)的映射。由于語(yǔ)音信號(hào)具有短時(shí)連續(xù)性,經(jīng)過分幀加窗之后,語(yǔ)音信號(hào)在短時(shí)內(nèi)接近線性時(shí)不變。

      另一種失真產(chǎn)生于噪聲環(huán)境下樣本采集過程中的Lombard效應(yīng)[8],如延長(zhǎng)元音的持續(xù)時(shí)間和頻譜向高頻率傾斜,從而改變了語(yǔ)音信號(hào)本身。因此,噪聲環(huán)境下的{s(t)}本身存在失真,這種失真可以看做是式(4)的一個(gè)特例。

      1.2基礎(chǔ)語(yǔ)音特征MFCC

      本文以Mel頻率倒譜系數(shù)為基礎(chǔ),提出了新的語(yǔ)音特征提取法。MFCC的分析基于人的聽覺機(jī)理,即根據(jù)人的聽覺實(shí)驗(yàn)結(jié)果來分析語(yǔ)音的頻譜,期望獲得更好的語(yǔ)音特性。MFCC分析依據(jù)的聽覺機(jī)理有兩個(gè):1)人的主觀感知頻域的劃定并不是線性的;2)人耳聽覺的臨界帶原理。

      一幀語(yǔ)音信號(hào)的MFCC參數(shù)可以表示為C?(C[1]…C[D])T,這里D表示倒譜系數(shù)的維數(shù)。MFCC的定義如下:

      (5)

      這里Q?(Q[1]…Q[J])T表示每幀的譜線能量經(jīng)過梅爾三角濾波器處理后的梅爾能量譜。G是代表離散余弦變換的I*J階矩陣,表示為

      (6)

      MFCC特征提取方法采用三角濾波器組處理,同時(shí)也帶來的相鄰頻帶之間頻譜能量的相互泄露。

      2MVDA后處理法步驟

      MVDA后處理法在MFCC特征提取法的基礎(chǔ)上,融合了均值消減、方差歸一化、時(shí)間序列濾波和加權(quán)自回歸移動(dòng)平均濾波法,圖1為MVDA后處理法基本步驟。

      圖1 MVDA后處理法Fig.1 Postprocessing of MVDA

      MVDA的提出是為了解決MFCC特征參數(shù)的加性和卷積噪聲的問題,均值消減和方差歸一化在語(yǔ)音處理中已經(jīng)得到了相對(duì)廣泛的應(yīng)用[9-12]。本文提出了結(jié)合時(shí)間序列濾波和加權(quán)自回歸移動(dòng)平均濾波法在頻域的應(yīng)用,可以獲得相較于單獨(dú)使用均值消減和方差歸一化更好的效果。

      本文用C(τ)表示第τ幀語(yǔ)音的特征,則均值消減表示為

      (7)

      式中:μ是根據(jù)樣本數(shù)據(jù)估計(jì)的均值項(xiàng)。方差歸一化法表示為

      (8)

      (9)

      (10)

      均值μ和方差σ2的估計(jì)可以采用多種方法。在方差估計(jì)法[13]中,均值和方差根據(jù)一整段對(duì)話語(yǔ)音估計(jì)。如果環(huán)境是靜態(tài)的,則這種估計(jì)是相對(duì)穩(wěn)定的。而根據(jù)在線估計(jì)法[14],均值和方差可以不依賴將來的特征觀察值,根據(jù)當(dāng)前樣本估計(jì),這種策略時(shí)延低,適用于靈敏度要求高的系統(tǒng)。介于這兩種策略之間的是語(yǔ)句估計(jì)法。本文中的所有結(jié)果都基于語(yǔ)句估計(jì),其定義為

      式中:T為給定語(yǔ)句中的幀數(shù)。注意在語(yǔ)句歸一化法中,結(jié)果可能被語(yǔ)音前后的空白和噪聲影響[15],本文的研究假設(shè)在計(jì)算均值和方差統(tǒng)計(jì)之前,已經(jīng)對(duì)語(yǔ)音進(jìn)行了合理的分割。

      3噪聲影響與MVDA濾波法分析

      關(guān)于頻域加性和卷積噪聲,本文均作了詳細(xì)的分析。本節(jié)從理論上推導(dǎo)MVDA濾波法,分析均值消減、方差歸一化、時(shí)間序列濾波和加權(quán)自回歸移動(dòng)平均濾波法的去噪效果,并分析在濾波前后噪聲對(duì)語(yǔ)音特征的影響。

      3.1均值消減

      本文首先分析卷積噪聲對(duì)語(yǔ)音特征造成的失真,并且得出均值消減可以有效去除卷積噪聲。分析表明,頻域均值消減導(dǎo)致參數(shù)在時(shí)不變卷積噪聲下是穩(wěn)定的。

      卷積噪聲在頻域內(nèi)表現(xiàn)為乘法運(yùn)算,因此{(lán)x(t)}、{s(t)}和{h(t)}的功率譜可以表示為

      式中:Fjk表示第j個(gè)Mel特征濾波器的第k條譜線。一般情況下,Cx和Cs并不是簡(jiǎn)單的通過h關(guān)聯(lián),因?yàn)閷?duì)數(shù)的參數(shù)求和不能被因式分解。如果假設(shè)Ph是相對(duì)平滑的,每一個(gè)Mel濾波器頻帶內(nèi)卷積噪聲的變化很小。

      式中:Ph[kj]為{h(t)}在第j維濾波器中的能量譜。

      上述假設(shè)不排除在Ph在Mel頻域?yàn)V波器的不同頻帶內(nèi)產(chǎn)生變化,而只要求其在每個(gè)頻帶內(nèi)的變化足夠小,該假設(shè)要求設(shè)計(jì)良好的傳輸設(shè)備通帶。然而在多噪聲環(huán)境中,從聲源到接收者的多路徑反射可能導(dǎo)致峰谷的頻率響應(yīng)[16],不滿足上述假設(shè)。因此第i維噪聲和語(yǔ)音信號(hào)MFCC的差別與{h(t)},而與{s(t)}無關(guān)。也就是說,卷積噪聲增加特征的偏置取決于瞬時(shí)的信道特性數(shù)值。如果進(jìn)一步假設(shè)噪聲是穩(wěn)態(tài)的,對(duì)于MFCC,有

      因此在穩(wěn)態(tài)噪聲和相對(duì)平滑的卷積噪聲環(huán)境下,均值消減特征不會(huì)改變。從而在語(yǔ)句結(jié)構(gòu)中,如果環(huán)境噪聲是卷積類型并且在語(yǔ)句內(nèi)是穩(wěn)態(tài)的、平滑的,均值消減法是有效的。對(duì)均值消減的上述特性均建立在卷積噪聲的基礎(chǔ)上。對(duì)于加性噪聲的分析將在后面三級(jí)濾波中進(jìn)行分析。

      3.2方差歸一化

      加性噪聲不同于卷積噪聲,在經(jīng)過頻域變換之后語(yǔ)音與加性噪聲更加難以區(qū)分,為了更加方便地分析加性噪聲環(huán)境下的語(yǔ)音信號(hào),我們將含噪語(yǔ)音定義為

      式中:加性噪聲n(t;γ)?γno(t)中的γ變量表示噪聲的強(qiáng)度。本文首先分析加性噪聲,然后分析語(yǔ)音信號(hào)。n(t;γ)和no(t)在Mel頻域的對(duì)數(shù)特征表示為

      式中:Qn(γ)和Qno分別是n(t;γ)和no(t)的Mel頻率譜表示,Mel倒譜系數(shù)可以表示為

      式中:Cn(γ)和Cno分別是n(t;γ)和no(t)的倒譜, MFCC并沒有衰減。含噪語(yǔ)音的功率譜為

      式中:Px(γ)、Ps和Pno分別表示x(t;γ)、s(t)和no(t)的功率譜。由于Mel分級(jí)是線性運(yùn)算,因此

      語(yǔ)音失真為

      因此失真與語(yǔ)音信號(hào)s(t)和噪聲n(t;γ)相關(guān)。一般強(qiáng)度的加性噪聲影響與語(yǔ)音信號(hào)、噪聲類型和噪聲強(qiáng)度有著復(fù)雜的關(guān)系,因此加性噪聲的濾波相對(duì)困難。當(dāng)存在噪聲語(yǔ)音數(shù)據(jù)樣本時(shí),可以考慮設(shè)計(jì)潛在的非線性變換來減小語(yǔ)音信號(hào)的失真。

      加性噪聲造成的語(yǔ)音信號(hào)失真不僅僅取決于噪聲的加性增益,而與語(yǔ)音信號(hào)和噪聲均相關(guān),因此很難去除加性噪聲。在低噪聲環(huán)境下這種關(guān)聯(lián)并不明顯。高噪聲環(huán)境下,在去除噪聲增益項(xiàng)之后,本文應(yīng)用了方差歸一化法以彌補(bǔ)語(yǔ)音信號(hào)特征的衰減。由于存在γ-1的增益,在使用方差歸一化法后,也無法得到零加性噪聲的語(yǔ)音信號(hào),因此處理后的語(yǔ)音特征很難滿足要求。

      3.3時(shí)間序列濾波和加權(quán)自回歸移動(dòng)平均濾波

      1)低加性噪聲

      2)高加性噪聲

      并且失真之后的MFCC特征近似為

      人耳對(duì)語(yǔ)音的動(dòng)態(tài)特征更為敏感,這種動(dòng)態(tài)特性可以通過時(shí)間序列濾波實(shí)現(xiàn)。時(shí)間序列濾波之后的語(yǔ)音信號(hào)更接近真實(shí)語(yǔ)音信號(hào)。時(shí)間序列濾波器在語(yǔ)音信號(hào)靜態(tài)特性的基礎(chǔ)上,又兼顧了語(yǔ)音信號(hào)的動(dòng)態(tài)特性,其使用達(dá)到了預(yù)期的目的。

      由于人類的聲音頻率的結(jié)構(gòu)性限制,發(fā)聲時(shí)聲道系統(tǒng)結(jié)構(gòu)的改變有限,人類語(yǔ)音的重要信息主要是在低頻段[17]。由于MFCC反映聲道系統(tǒng)的特性,本文假設(shè)語(yǔ)音低頻特征包含的信息更多。均值消減和方差歸一化方法可以彌補(bǔ)能譜的下降,但卻不能解決譜型平滑的問題。而加權(quán)自回歸移動(dòng)平均濾波由于強(qiáng)調(diào)了語(yǔ)音低頻段的作用,并弱化了高頻的影響。

      4實(shí)驗(yàn)設(shè)計(jì)及分析

      實(shí)驗(yàn)數(shù)據(jù)庫(kù)為用cooledit軟件建立語(yǔ)音樣本庫(kù)。數(shù)據(jù)庫(kù)規(guī)模為100人(50男50女),考慮時(shí)間的遍歷性,同一段指令要求在不同的時(shí)間錄制10遍。語(yǔ)音采樣率16 kHz,單聲道,Windows PCM編碼格式,采樣精度16位。噪聲添加使用Noise-92庫(kù)中的pink、volvo、destroyerengine(DE)、和white噪聲,根據(jù)隨機(jī)時(shí)間偏移與純凈語(yǔ)音信號(hào)混合,形成-5~20 dB范圍內(nèi)不同信噪比的數(shù)據(jù)庫(kù)。

      本文語(yǔ)音信號(hào)分幀采用交疊分段的法,每幀170個(gè)采樣點(diǎn),疊加步長(zhǎng)為15個(gè)采樣點(diǎn),對(duì)信號(hào)進(jìn)行特征提取得MFCC,設(shè)定特征維數(shù)為25。再以MFCC為基礎(chǔ),獲得MVDA語(yǔ)音特征。

      圖2~9是語(yǔ)音“12345”在噪聲環(huán)境下,MVDA特征向量的第一維和第D維特征。通過對(duì)比發(fā)現(xiàn)干凈語(yǔ)音和不同信噪比的含噪語(yǔ)音的差異。均值消減和方差歸化法使語(yǔ)音信號(hào)和含噪信號(hào)在同平均水平(均值消減)和總體規(guī)模(方差歸一化法)的差異減小,然而差別依然明顯。本文進(jìn)一步使用了時(shí)間序列濾波和加權(quán)自回歸移動(dòng)平均濾波,差異進(jìn)一步減小。

      圖2 語(yǔ)音特征C[1]噪聲為20 dB時(shí),MVDA后處理輸出Fig.2 The MVDA postprocessing output of voice features C[1]with noise of 20 dB

      圖3 語(yǔ)音特征C[1]噪聲為10 dB時(shí),MVDA后處理輸出Fig.3 The MVDA postprocessing output of voice features C[1] with noise of 10 dB

      圖4 語(yǔ)音特征C[1]噪聲為0 dB時(shí),MVDA后處理輸出Fig.4 he MVDA postprocessing output of voice features C[1] with noise of 0 dB

      圖5 語(yǔ)音特征C[1]噪聲為-5 dB時(shí),MVDA后處理輸出Fig.5 The MVDA postprocessing output of voice features C[1]with noise of -5 dB

      圖6 語(yǔ)音特征C[D]噪聲為20 dB時(shí),MVDA后處理輸出Fig.6 The MVDA postprocessing output of voice features C[D] with noise of 20 dB

      圖7 語(yǔ)音特征C[D]噪聲為10 dB時(shí),MVDA后處理輸出Fig.7 The MVDA postprocessing output of voice features C[D] with noise of 10 dB

      圖8 語(yǔ)音特征C[D]噪聲為0 dB時(shí),MVDA后處理輸出Fig.8 The MVDA postprocessing output of voice features C[D] with noise of 0 dB

      圖9 語(yǔ)音特征C[D]噪聲為-5 dB時(shí),MVDA后處理輸出Fig.9 The MVDA postprocessing output of voice features C[D] with noise of -5 dB

      然而使用視覺檢查推斷語(yǔ)音識(shí)別處理方法的不確定性總是存在的。為了便于比較,本文計(jì)算了語(yǔ)音信號(hào)特征和帶噪語(yǔ)音信號(hào)特征的歐式距離,具體數(shù)值見表1??梢苑治龅贸?,含噪語(yǔ)音特征和無噪語(yǔ)音信號(hào)特征的歐式距離均與噪聲強(qiáng)度正相關(guān)。均值消減和方差歸一化減小了含噪語(yǔ)音特征與無噪語(yǔ)音信號(hào)特征的歐式距離。最終,時(shí)間序列濾波和加權(quán)自回歸移動(dòng)平均濾波進(jìn)一步減小了歐式距離。根據(jù)表1,加權(quán)自回歸移動(dòng)平均濾波處理后的帶噪語(yǔ)音更加接近真實(shí)的語(yǔ)音信號(hào)。

      表1含噪語(yǔ)音MVDA參數(shù)與語(yǔ)音信號(hào)的歐氏距離

      Table 1The compasison of training beteeen MVDA and MFCC

      參數(shù)20/dB10/dB0/dB-10/dB均值消減939135618451956方差歸一化129196259346時(shí)間序列濾波78112136203加權(quán)自回歸移動(dòng)平均61697276

      將MVDA與MFCC特征在自動(dòng)語(yǔ)音識(shí)別系統(tǒng)下進(jìn)行語(yǔ)音識(shí)別實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果如圖4 ??梢缘贸?,信噪比較高時(shí),MFCC特征與MVDA特征的識(shí)別率基本相同,但隨著信噪比降低,MVDA語(yǔ)音特征的效果更加顯著。

      圖10 自動(dòng)語(yǔ)音識(shí)別結(jié)果對(duì)比圖Fig.10 Comparison of automatic speech recognition results

      5結(jié)束語(yǔ)

      本文的分析主要基于加性噪聲和卷積噪聲環(huán)境下MFCC特征參數(shù)的失真,針對(duì)這一問題提出了MVDA語(yǔ)音特征提取法。分析得出實(shí)驗(yàn)效果與語(yǔ)音基本特征、濾波器的類型均相關(guān)。在使用MVDA濾波法后,相較于MFCC語(yǔ)音特征,自動(dòng)語(yǔ)音識(shí)別系統(tǒng)在不同性噪比環(huán)境下的識(shí)別率提高了2.7%~15.0%。MVDA特征提取可以達(dá)到很多復(fù)雜去噪算法的效果,卻可以減少系統(tǒng)對(duì)計(jì)算能力的要求,減小系統(tǒng)的時(shí)延。因此,MVDA后處理法可以在更小的計(jì)算代價(jià)下提高系統(tǒng)的魯棒性,具有較高的實(shí)際應(yīng)用價(jià)值。

      參考文獻(xiàn):

      [1]PALIWAL K K, BASU A. A speech enhancement method based on Kalman fltering[C]//Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing. Dallas, USA, 1997: 177-180.

      [2]GIBSON J D, KOO B, GRAY S D. Filtering of Colored Noise for Speech Enhancement and Coding[J]. IEEE Transactions on Signal Processing, 1991, 39(8): 1732-1742.

      [3]ZELINSKI R. A microphone array with adaptive post-filtering for noise reduction in reverberant rooms[C]//Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing. New York, USA, 1998: 2578-2581.

      [4]MYLLYMAKI M, VIRTANEN T. Non-stationary noise model compensation in voice activity detection[C]//Proceedings of IEEE International Conference on Signal Processing Conference. Glasgow, Scotland, 2009: 2186-2190.

      [5]RAMFREZ J, SEGURA J C, BENFTEZ C, et al. Efficient voice activity detection algorithms using long-term speech information[J]. Speech communication, 2004, 42(3/4): 271-287.

      [6]CHOWDHURY M, SELOUANI S A, O'SHAUGHNESSY D. A soft computing approach to improve the robustness of on-line ASR in previously unseen highly non-stationary acoustic environments[C]//Proceedings of the 11th IEEE International Conference on Information Science, Signal Processing and their Applications. Montreal, Canada, 2012: 522-527.

      [7]GUPTA H A, RAJU A, ALWAN A. Non-linear dimension reduction of Gabor features for noise-robust ASR[C]//Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing. Florence, Italy, 2014: 1715-1719.

      [8]HANSEN J H L, VARADARAJAN V. Analysis and compensation of lombard speech across noise type and levels with application to in-set/out-of-set speaker recognition[J]. IEEE transactions on audio, speech, and language processing, 2009, 17(2): 366-378.

      [9]COOK G, ROBINSON T. Transcribing broadcast news with the 1997 abbot system[C]//Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing. Seattle, USA, 1998: 917-920.

      [10]KIM D S, LEE S Y, KIL R M. Auditory processing of speech signals for robust speech recognition in real-world noisy environments[J]. IEEE transactions on speech and audio processing, 1999, 7(1): 55-69.

      [11]HAIN T, WOODLAND P C, EVERMANN G, et al. New features in the CU-HTK system for transcription of conversational telephone speech[C]//Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing. Salt Lake City, UT, 2001(1): 57-60.

      [12]LIN S H, CHEN B, YEH Y M. Exploring the use of speech features and their corresponding distribution characteristics for robust speech recognition[J]. IEEE transactions on audio, speech, and language processing, 2009, 17(1): 84-94.

      [13]MORTIA S, UNOKI M, LU Xugang, et al. Robust voice activity detection based on concept of modulation transfer function in noisy reverberant environments[C]//Proceedings of International Symposium on Chinese Spoken Language Processing (ISCSLP). Singapore, 2014: 108-112.

      [14]CHANG J E, BAI J Y, ZENG Fangang. Unintelligible low frequency sound enhances simulated cochlear implant speech recognition in noise[J]. IEEe transactions on biomedical engineering, 2006, 53(12): 2598-2601.

      [15]BOLL S F. Suppression of acoustic noise in speech using spectral subtraction[J]. IEEE transactions on acoustics, speech, and signal processing, 1999, 27(2): 113-120.

      [16]MAMMONE R J, ZHANG Xiaoyu, RAMACHANDRAN R P. Robust speaker recognition: a feature-based approach[J]. IEEE signal processing magazine, 1996, 13(5): 58-71.

      [17]BOLL S F. Suppression of acoustic noise in speech using spectral subtraction[J]. IEEE transactions on acoustics, speech, and signal processing, 1999, 27(2): 113-120.

      張毅,男,1966年生,教授,博士生導(dǎo)師。主要研究方向機(jī)器人及應(yīng)用、數(shù)據(jù)融合、信息無障礙技術(shù)。任重慶郵電大學(xué)國(guó)家信息無障礙工程研發(fā)中心主任,智能系統(tǒng)及機(jī)器人實(shí)驗(yàn)室主任,發(fā)表學(xué)術(shù)論文多篇。

      謝延義,男,1989年生,碩士研究生,主要研究方向?yàn)檎Z(yǔ)音識(shí)別與智能機(jī)器人。

      羅元,女,1972年生,教授,博士,主要研究方向?yàn)樾盘?hào)與信息處理、數(shù)字圖像處理。

      Postprocessing method of MFCC in speech feature extraction

      ZHANG Yi1, XIE Yanyi2, LUO Yuan3, XI Bing3

      (1. Institute of Advanced Manufacturing Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065, China; 2. College of Automation, Chongqing University of Posts and Telecommunications, Chongqing 400065, China; 3. College of Opto Electronic Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065, China)

      Abstract:To improve the robustness of automatic speech recognition systems, a new speech feature postprocessing method based on the Mel-frequency Cepstral Coefficient (MFCC) is proposed, which is named the MVDA postprocessing method. The postprocessed feature parameters are named MVDAs. This technique combines mean subtraction, variance normalization, time sequence fltering, and autoregressive moving average flters. Experiments were conducted to compare MVDA and MFCC. Changes in the Euclidean distance of the speech with noise and the speech signal were analyzed, proving that every step of MVDA postprocessing could effectively reduce the noise interference. Thus, all MVDAs in different noise environments were superior. This simple feature does not only achieve the effect of many complex speech feature processing methods but also effectively reduces the computational complexity of automatic speech recognition systems.

      Keywords:postprocessing; phonetic feature; speech recognition; noise; robustness

      作者簡(jiǎn)介:

      中圖分類號(hào):TP391.4

      文獻(xiàn)標(biāo)志碼:A

      文章編號(hào):1673-4785(2016)02-0208-07

      通信作者:謝延義. E-mail:811719530@qq.com.

      基金項(xiàng)目:重慶市科委前沿技術(shù)專項(xiàng)重點(diǎn)項(xiàng)目(cstc2015jcyjBX0066).

      收稿日期:2015-11-06. 網(wǎng)絡(luò)出版日期:2016-03-15.

      DOI:10.11992/tis.201511008

      網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20160315.1248.018.html

      猜你喜歡
      語(yǔ)音識(shí)別后處理魯棒性
      果樹防凍措施及凍后處理
      荒漠綠洲區(qū)潛在生態(tài)網(wǎng)絡(luò)增邊優(yōu)化魯棒性分析
      基于確定性指標(biāo)的弦支結(jié)構(gòu)魯棒性評(píng)價(jià)
      乏燃料后處理的大廠夢(mèng)
      能源(2018年10期)2018-12-08 08:02:48
      通話中的語(yǔ)音識(shí)別技術(shù)
      基于非支配解集的多模式裝備項(xiàng)目群調(diào)度魯棒性優(yōu)化
      面向移動(dòng)終端的語(yǔ)音簽到系統(tǒng)
      西南交通大學(xué)學(xué)報(bào)(2016年6期)2016-05-04 04:13:11
      乏燃料后處理困局
      能源(2016年10期)2016-02-28 11:33:30
      農(nóng)業(yè)物聯(lián)網(wǎng)平臺(tái)手機(jī)秘書功能分析與實(shí)現(xiàn)
      东乡族自治县| 新蔡县| 台中县| 瓦房店市| 玉山县| 来凤县| 迁西县| 九龙城区| 丹阳市| 禄劝| 拜城县| 仪征市| 栾川县| 阿克苏市| 洪江市| 临武县| 汉中市| 东乌珠穆沁旗| 康定县| 永寿县| 平昌县| 花垣县| 香港 | 永吉县| 英超| 定陶县| 会宁县| 靖远县| 沽源县| 新龙县| 吉林省| 葫芦岛市| 新丰县| 壤塘县| 桃园县| 昆山市| 关岭| 辽宁省| 鹿邑县| 准格尔旗| 蓬安县|