• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    噪聲背景下語音識別特征參數(shù)選擇研究

    2011-03-26 03:32:42劉順蘭竇園園應(yīng)娜
    關(guān)鍵詞:階數(shù)特征參數(shù)識別率

    劉順蘭,竇園園,應(yīng)娜

    (杭州電子科技大學(xué)通信學(xué)院,浙江杭州310018)

    0 引言

    對于一個語音識別系統(tǒng),一方面希望其具有較高的識別率,能夠保證識別的準(zhǔn)確度,另外一方面希望其占用的資源盡可能的少,計算量盡可能的低,以提高系統(tǒng)的實用性與實時性。在資源受限的一些系統(tǒng)中,如何在保證一定識別率的情況下,盡可能的降低系統(tǒng)存儲及計算資源,這點顯得尤為重要[1]。而系統(tǒng)的性能與特征參數(shù)有關(guān),在目前常用的語音識別特征中美爾倒譜頻率系數(shù)(Mel Frequency Ceptral Coefficient,MFCC)+美爾倒譜頻率系數(shù)的一階差分(first-order differential MFCC,ΔMFCC)特征以其具備的高識別率和良好的抗噪聲能力,應(yīng)用最為廣泛[2]。本文研究了MFCC+ΔMFCC特征,圍繞白噪聲、粉紅噪聲、車載噪聲和工廠噪聲這4種典型噪聲不同信噪比下的語音進(jìn)行了仿真研究,分析了在不同噪聲影響下的語音信號的美爾頻率倒譜系數(shù)靜態(tài)特征及其動態(tài)特征各分量對識別率的影響,為在保證系統(tǒng)有較高識別率的情況下,減少系統(tǒng)的計算量,提高實時性提供了依據(jù)。

    1 MFCC特征提取

    (1)算法原理

    Mel頻率和線性頻率的轉(zhuǎn)換關(guān)系[3]如:

    MFCC特征提取的過程如圖1所示。圖1中,Mel頻率濾波的作用是把線性頻率變換到Mel頻率域,并對語音信號的幅度平方譜進(jìn)行平滑。log[·]操作一方面壓縮了語音譜的動態(tài)范圍,另一方面將頻域中的乘性成分變成了對數(shù)譜域中的加性成分,能有效濾除乘性噪聲。將不同頻段的頻譜成分解相關(guān)的處理主要由離散余弦變換實現(xiàn),DCT變換后,各維向量之間相互獨立。

    圖1 MFCC特征提取過程

    具體流程如下[4]。

    1)先對語音信號s(n)進(jìn)行一系列的預(yù)處理,包括分幀、加窗和預(yù)加重,得到處理后的信號si(n)所以由此可見MFCC特征也是基于短時幀的信號。

    2)對每幀信號進(jìn)行離散傅里葉變換:

    實際計算時,一般用FFT,N取512。

    3)求出每幀信號的功率譜,然后通過Mel濾波器組。假設(shè)Mel濾波器組是由M個濾波器組成,每個濾波器是中心頻率為f(m)的三角濾波器,中心頻率f(m)之間的間隔隨著m的增加而增加。三角濾波器的傳遞函數(shù)為:

    f(m)可以定義為:

    式中,fl、fh為濾波器的頻率應(yīng)用范圍的最低頻率和最高頻率,N為FFT長度,F(xiàn)s為采樣率是fmel(.)函數(shù)的逆函數(shù),由式1可知:

    對經(jīng)過Mel頻率濾波器的信號取對數(shù),得對數(shù)頻譜:

    4)對對數(shù)譜信號X(m)進(jìn)行DCT變換,即可得到MFCC特征參數(shù):

    (2)倒譜提升窗口

    為了提高倒譜特征的抗噪聲能力,也為了增加MFCC特征矢量中的低階分量的穩(wěn)定性,在MFCC矢量不同分量處添加不同的權(quán)值,而這些權(quán)值的取值主要是靠一個窗函數(shù)來實現(xiàn):

    式中,C(k)為MFCC系數(shù),W(k)為窗函數(shù):

    式中,K為MFCC階數(shù)。

    (3)Mel頻率倒譜差分參數(shù)

    MFCC刻畫了語音信息的靜態(tài)特性,而Mel頻率倒譜差分參數(shù)刻畫了語音信息的動態(tài)特性[5],ΔMFCC反映了人耳聽覺模型的動態(tài)特性。差分參數(shù)的計算為:

    式中,I為常數(shù),通常取2;ΔMFCC就是一階差分Mel頻率倒譜參數(shù),在實際應(yīng)用時,往往把MFCC和ΔMFCC混為一個整體認(rèn)為一幀語音信號的特征參數(shù)。用同樣公式對一階差分參數(shù)進(jìn)行計算,可得到二階差分參數(shù)(△△MFCC)。

    2 語音識別特征階數(shù)的選取

    系統(tǒng)識別率與特征參數(shù)的階數(shù)K有關(guān)[5],階數(shù)越高,特征的表現(xiàn)力越強,階數(shù)越低,特征表現(xiàn)力越弱。在對純凈語音處理的情況下,隨著特征階數(shù)的增加,識別率不斷增大,到達(dá)一定值后,識別率趨于穩(wěn)定,甚至有略微下降趨勢,此時可以確定一個最優(yōu)階數(shù)?,F(xiàn)在假設(shè)加入背景噪聲,在同一背景噪聲不同信噪比或是在不同噪聲相同信噪比下,確定系統(tǒng)在背景噪聲下的最優(yōu)階數(shù)。

    實驗條件(本文所有實驗均使用此條件):15個女性發(fā)音,40個男性發(fā)音,語音樣本為10個英文單詞,每個單詞發(fā)音55次,采樣率為16kHz;實驗中用到的白噪聲、粉紅噪聲、車載噪聲和工廠噪聲均采用Signal Processing Information Base錄制的噪聲庫。實驗?zāi)P瓦x擇:采用3階混合Gauss概率密度函數(shù)的CHMM模型,狀態(tài)數(shù)為4。實驗中加Hamming窗,幀長取320個采樣點,幀移為160個采樣點,信噪比為分別為15dB、10dB、5dB、0dB、-5dB。

    受不同噪聲影響下的語音如圖2所示,在各信噪比下平均識別率隨著階數(shù)變化的情況。其中橫坐標(biāo)為特征階數(shù),縱坐標(biāo)為各信噪比下的平均識別率。由圖2可知:在階數(shù)較低時,識別率隨著階數(shù)的增加而增加,到達(dá)階數(shù)18附近趨于最大,但繼續(xù)增加階數(shù),識別率變化的趨勢沒有繼續(xù)遞增,反而出現(xiàn)下降的情況,所以一般來說,階數(shù)不宜取得過高,也不宜過低。

    圖2 MFCC+ΔMFCC特征在不同噪聲不同階數(shù)下的平均識別率

    3 MFCC+ΔMFCC各特征分量對識別率的影響

    實驗:在MFCC+ΔMFCC(18+18)參量中去掉某一分量找到對誤識率影響較大的分量。為方便理解,用MelΔ(k)表示特征MFCC+ΔMFCC組合,即

    式中,K代表特征階數(shù),此處取36。DMelΔ(k)表示缺失某一特征分量時的特征參數(shù),可表示為

    在不同噪聲不同信噪比下誤識率上升平均值與缺失MFCC和△MFCC特征分量的關(guān)系如圖3所示,橫坐標(biāo)為信噪比,縱坐標(biāo)為誤識率的變化值。通過分析圖3可知:在白噪聲下可以考慮缺失MFCC低階分量,缺失后對高信噪比時的識別率影響不大,而低信噪比時識別率反而增加。對于△MFCC參數(shù)可以缺失第一個分量;對于受到粉紅噪聲影響的語音,MFCC+△MFCC特征不應(yīng)缺失任一分量,也就是每一個分量都包含有用信息;對于受到車載噪聲影響的語音,MFCC+△MFCC特征可以缺失部分高階MFCC分量和部分△MFCC分量,相比較其他噪聲而言,受到車載噪聲干擾的語音可以選用更少的特征參數(shù)分量;對于受到工廠噪聲影響的語音,由于噪聲環(huán)境相對復(fù)雜,MFCC+△MFCC特征不應(yīng)缺失任一分量,也就是每一個分量都包含有用信息。

    圖3 不同噪聲下不同信噪比MFCC特征和ΔMFCC特征與誤識率的關(guān)系

    4 結(jié)束語

    本文圍繞白噪聲、粉紅噪聲、車載噪聲和工廠噪聲這4種典型噪聲不同信噪比下的語音進(jìn)行仿真討論,首先確定了MFCC特征的最優(yōu)階數(shù)18,然后研究了在不同噪聲影響下美爾倒譜頻率靜態(tài)特征(MFCC)及其動態(tài)特征(ΔMFCC)各分量對識別率的影響,從上述分析可知,系統(tǒng)所處的壞境不一樣,所選取的MFCC+ΔMFCC特征分量應(yīng)該不同,而不是籠統(tǒng)的像很多文獻(xiàn)里不考慮噪聲特點問題,盲目的舍棄MFCC低階分量。為在保證系統(tǒng)有較高識別率的情況下,減少系統(tǒng)的計算量,提高實時性和魯棒性提供依據(jù)。

    [1]Rabiner L,Juang B H.Fundamentals of speech recognition[M].北京:清華大學(xué)出版社,1999:125-134.

    [2]Shannon B J,Paliwal K K.MFCC computation from magnitude spectrum of higher lag autocorrlation coefficients for robust speech recognition[C].New York:Spoken Language Processing,2004:986-987.

    [3]何強,何英.Matlab擴(kuò)展編程[M].北京:清華大學(xué)出版社,2002:105-109.

    [4]溫源,李明,侯震,等.一種新的語音識別特征——Mel倒譜差分平方和特征[C].深圳:第六屆全國人機語音通訊學(xué)術(shù)會議,2001:5-7.

    [5]王讓定,柴佩琪.語音倒譜特征的研究[J].計算機工程,2003,29(13):31-33.

    猜你喜歡
    階數(shù)特征參數(shù)識別率
    故障診斷中信號特征參數(shù)擇取方法
    關(guān)于無窮小階數(shù)的幾點注記
    基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
    確定有限級數(shù)解的階數(shù)上界的一種n階展開方法
    基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
    計算機工程(2020年3期)2020-03-19 12:24:50
    基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關(guān)系
    提升高速公路MTC二次抓拍車牌識別率方案研究
    基于PSO-VMD的齒輪特征參數(shù)提取方法研究
    高速公路機電日常維護(hù)中車牌識別率分析系統(tǒng)的應(yīng)用
    統(tǒng)計特征參數(shù)及多分類SVM的局部放電類型識別
    電測與儀表(2015年7期)2015-04-09 11:40:04
    西畴县| 平遥县| 广东省| 开江县| 莒南县| 宣威市| 哈巴河县| 定结县| 蕲春县| 新昌县| 开封县| 西乌珠穆沁旗| 天峻县| 理塘县| 白玉县| 隆子县| 留坝县| 司法| 平远县| 邢台县| 紫金县| 五大连池市| 进贤县| 延边| 沙坪坝区| 普格县| 德庆县| 澎湖县| 射阳县| 临沂市| 哈尔滨市| 攀枝花市| 鹤壁市| 四川省| 河南省| 绥芬河市| 富源县| 叶城县| 黄大仙区| 桓台县| 忻州市|