• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    Mel頻率下基于LPC的語音信號深度特征提取算法

    2016-07-04 10:24:12吳承軍黎小松
    關鍵詞:語音識別

    羅 元,吳承軍,張 毅,黎小松,席 兵

    (1.重慶郵電大學 光電信息感測與傳輸技術重點實驗室,重慶 400065;2.重慶郵電大學 信息無障礙工程研發(fā)中心,重慶 400065)

    ?

    Mel頻率下基于LPC的語音信號深度特征提取算法

    羅元1,吳承軍1,張毅2,黎小松2,席兵1

    (1.重慶郵電大學 光電信息感測與傳輸技術重點實驗室,重慶 400065;2.重慶郵電大學 信息無障礙工程研發(fā)中心,重慶 400065)

    摘要:針對傳統(tǒng)語音信號二次特征提取方法在保證識別率的前提下,實時性較差的問題,提出一種Mel頻率下基于線性預測系數(shù)(linear predictive coefficient,LPC)的改進的語音信號深度特征提取算法。該方法根據(jù)人耳的聽覺特性把LPC在Mel頻率下進行非線性變換,再進行微分、高階微分和按比例重組等步驟,得到一種既考慮聲道激勵又兼顧人耳聽覺的新特征參數(shù),從而大大減少傳統(tǒng)語音信號深度特征提取的計算量,在不影響識別效率的情況下,極大提高系統(tǒng)的實時性。最后,將該算法在智能輪椅平臺進行有效性驗證,大量實驗表明,語音控制系統(tǒng)實時性差的問題在使用該算法后能夠得到明顯改善,該算法既保證了特征提取識別率,也有效地改善了系統(tǒng)的實時性。在一定程度上使語音控制智能輪椅更具實用性。

    關鍵詞:語音識別;線性預測系數(shù);Mel頻率倒譜系數(shù);Mel-LPC算法;深度特征提取

    0引言

    隨著語音識別技術廣泛應用到各個領域,人們對語音識別系統(tǒng)在復雜環(huán)境下的實時性有了更高的要求。而由于目前孤立詞語音識別系統(tǒng)實時性差,人們無法在更多領域使用語音識別對一些設備進行控制。因此,需要對語音信號的特征提取方法進行改進,使語音識別系統(tǒng)具有更快的反應速度。

    目前,在語音信號的二次特征提取中,應用較多的是對頻譜包絡特征尤其是倒譜特征進行二次特征提取,主要有線性預測倒譜系數(shù)(linear prediction cepstrum coefficient, LPCC)和美爾倒譜系數(shù)(Mel-frequency cepstrum coefficients, MFCC)[1-4],以及微分后的LPCC與MFCC參數(shù)進行加權和重組的方法?;贚PCC參數(shù)的二次特征提取算法簡單,系統(tǒng)實時性較好,但其識別率較低,只有87%左右,而基于LPCC與MFCC參數(shù)結合的二次特征提取算法雖然識別率較高,但運算量巨大,處理單一語音幀特征時間高達47 ms,故實時性較差[5]。

    因此,我們提出了一種改進的深度特征提取算法。該算法首先在線性預測系數(shù)(linear predictive coefficient,LPC)的基礎上,對特征參數(shù)進行Mel頻率的尺度變換,然后再對特征參數(shù)進行進一步提取。與分別提取LPC和MFCC參數(shù)相比,該方法能大幅度減少運算量,解決實時性差的問題;而且,算法融入了MFCC提取過程中模擬人耳聽覺機理,既具有LPC聲道激勵的優(yōu)點,又具備MFCC的魯棒性,因此,能有效地提升系統(tǒng)的識別率。

    1傳統(tǒng)語音信號二次特征提取原理

    語音信號的特征提取,其本質(zhì)是對語音信號進行降維,用較少的維度表現(xiàn)了時域上的語音信號[1,6],二次特征提取則是對已經(jīng)提取出的常用特征向量序列進行再分析[7],常用的語音特征包括基音(pitch),共振峰(formant),MFCC,LPCC以及線譜對系數(shù)(linear specturm pairs,LSP)等[6]。圖1是將LPCC與MFCC融合的二次特征提取算法的語音識別基本流程。

    此算法分別對LPCC與MFCC運用加權、微分,并將二者按照一定比例進行重組,得到新的特征參數(shù),根據(jù)不同算法的需要,為了達到最優(yōu)的識別效果,各方法先后次序可以調(diào)換并且多次使用。此方法的優(yōu)點是可以進一步剝離隱藏在語音背后的潛在語音特征[8]。但由于其大量使用了LPCC,MFCC以及其一階、二階微分參數(shù),所以運算量其實是相當大的。經(jīng)過大量實驗證明,這種傳統(tǒng)的二次特征提取方法不具有較好的實時性,且識別率并不是很高。

    圖1 傳統(tǒng)語音二次特征提取流程圖Fig.1 Flow chart of traditional speech signal further features extraction

    Mel-LPC特征是將LPC參數(shù)通過具有人的耳蝸效應的Mel濾波器組[9-10]進行變換的一種特征參數(shù),進行改進的二次特征提取,能夠進一步提高本語音識別系統(tǒng)的實時性。

    2基于Mel-LPC的深度特征提取

    任何特定時間點的信號,通過LPC,可以用該時間點以前的若干個任意時間點信號的線性加權來預測,而MFCC與LPC不同,它是受人耳聽覺特性的啟發(fā)從而得到發(fā)展,它先將信號頻譜的頻率軸轉變?yōu)镸el刻度,再變換到倒譜域得到倒譜系數(shù)。將Mel頻率變換得到的Mel-LPC參數(shù)進一步特征提取,得到F_Mel-LPC特征參數(shù),圖2為改進的深度特征提取流程圖。

    圖2 改進的Mel-LPC深度特征提取流程圖Fig.2 Flow chart of improved Mel-LPC further features extraction

    2.1線性預測系數(shù)

    根據(jù)語音產(chǎn)生的模型,假設一個線性移不變穩(wěn)定因果系統(tǒng),它在受到信號激勵時產(chǎn)生輸出,這個輸出就是語音信號。而在時域中,將單位取樣響應和激勵信號進行卷積,即可得到該系統(tǒng)的語音信號。另外我們使用了全極點模型,即(1)式描述了語音信號產(chǎn)生的聲道模型。

    (1)

    根據(jù)最小均方誤差對該模型參數(shù)αp進行估計,就得到了LPC算法,求得的αp就是線性預測系數(shù),P是預測階數(shù)。

    2.2Mel頻率濾波器

    將語音頻譜的幅度或能量通過Mel濾波器組進行濾波,即可得到Mel頻率,通常Mel頻率用以模擬耳蝸的頻率響應。圖3為Mel濾波器組示意圖,為使圖像顯示的性能更直觀,圖3中縱坐標采用歸一化單位。所謂Mel濾波器組,就是將若干個三角濾波器組配置在Mel頻率軸上,由Mel尺度得到該濾波器組的帶寬以及中心頻率,決定濾波器個數(shù)的因素主要是信號截止頻率,我們等間隔分配了Mel頻率軸上三角濾波器的中心頻率。

    圖3 Mel頻率尺度濾波器組

    (2)

    (2)式中,L為濾波器的個數(shù)。

    根據(jù)語音信號的線性頻譜Xn(k)求得每個三角濾波器的輸出為

    (3)

    (4)

    (4)式中,o(l)可以用式(5)表示為

    (5)

    (5)式中:fl和fu分別為濾波器的頻率范圍的最低頻率和最高頻率;N為FFT變換窗寬,為采樣頻率;而B-l為B的逆函數(shù),表示為

    (6)

    2.3Mel-LPC特征參數(shù)

    一般來說,語音信號是一種非平穩(wěn)的時變信號,但由于發(fā)聲器官的狀態(tài)變化速度與聲音的振動速度相比,要緩慢得多,同時為了簡化系統(tǒng)模型,通常人們認為非平穩(wěn)的語音信號在較短的時間內(nèi)(5-50ms)可以看作一種平穩(wěn)信號。因此,人們用短時譜來描述語音特征,比如倒譜。通過倒譜的定義可直接求得倒譜系數(shù),然而為了減少不必要的計算,通常情況下也可由線性預測系數(shù)遞推得到。在求得了LPC參數(shù)之后,根據(jù)人的聽覺特性把上述參數(shù)進一步按Mel尺度進行非線性變換,從而求出Mel-LPC特征參數(shù)。

    (7)

    (7)式中:Ck表示倒譜系數(shù);MCk表示美爾倒譜系數(shù);n為迭代次數(shù),k為美爾倒譜階數(shù),取n=k。當抽樣頻率為8kHz時,α為頻率扭曲因子,通過調(diào)節(jié)α值可以找到近似于美爾尺度的方法。Mel-LPC算法簡單,因為且同時考慮了聲道激勵和人耳聽覺,在移動語音控制領域中具有相當大的優(yōu)勢。

    2.4改進的深度特征提取算法

    Mel-LPC雖然大大縮短了語音特征參數(shù)的提取時間,但其在特定環(huán)境下識別率較MFCC有所下降,針對此問題,我們需要對于提取出的Mel-LPC特征參數(shù)進行深度特征提取,從而提高識別率。

    語音信號x(n)經(jīng)過預加重、分幀、加窗等預處理工作后,計算每一幀的LPC系數(shù)α,α的長度與一幀語音信號的長度相等。每幀的LPC經(jīng)過快速傅立葉變換(fastFouriertransformation,FFT)得到離散頻譜xα(k)。然后取頻譜模的平方|xα(k)|2得到離散能量譜。通過Mel濾波器組對上述能量譜進行濾波,計算每個三角濾波器的輸出對數(shù)能量,再經(jīng)過余弦變換得到Mel-LPC系數(shù)。

    接下來是對Mel-LPC特征參數(shù)進行微分,首先需要采集語音特征向量的連續(xù)動態(tài)變化軌跡,這里我們使用特征微分來獲取。特征矢量的變化速度由一階微分獲得,特征矢量的變化加速度由二階微分獲得。

    D_Feature(j)i=Feature(j)i-Feature(j-1)i

    (8)

    (8)式中:Feature是原始特征的向量序列,即Mel-LPC:D_Feature是原始特征向量序列的一階微分;i=0,1,…,P,j=1,2,…,N,P為特征階數(shù),N為特征向量數(shù)。

    對于得到的Feature,D_Feature等一系列向量進行組合,因為不同的語音微分向量表現(xiàn)出了說話人語音的不同特征,將它們用特定的比例加權重組,可以進一步凸顯固化語音信號特征。將3種不同階數(shù)的特征向量按照不同的加權比率進行重組,見式(9),得到一組全新的二次特征參數(shù)F_Mel-LPC。

    F_Mel-LPC=

    (9)

    3實驗及分析

    3.1算法性能比較

    本算法在Inter Pentium 2.5 GHz、內(nèi)存2 GByte的計算機上,通過Cool Edit采集采樣率為44.1 kHz,16位數(shù)的采樣精度的語音信號,利用短時能量和平均過零率的兩級判決方法進行語音端點檢測,采用隱馬爾科夫模型(hidden markov model,HMM)作為語音識別模型[11-12]。從上萬次重復性語音控制指令中,選擇10名男性和10名女性的語音指令作為實驗樣本,在MATLAB上進行仿真實驗。我們主要對LPCC,MFCC,與Mel-LPC的二次特征提取時間以及識別率進行比較,分析了系統(tǒng)接收到語音信號后的反應時間,驗證了本算法是兼顧實時性與識別率的有效算法。圖4表現(xiàn)了頻率扭曲因子對F_LPCC,F(xiàn)_MFCC,Mel-LPC及F_Mel-LPC的識別率的影響。

    圖4中橫坐標表示α的值,縱坐標代表了識別率百分比,圖4上不同的線分別代表了F_LPCC,F(xiàn)_MFCC,Mel-LPC及F_Mel-LPC算法的識別率隨著扭曲因子α的變化曲線。可以看出,當α小于0.2時,F(xiàn)_Mel-LPC算法識別率沒有明顯高于Mel-LPC,且二者識別率均低于傳統(tǒng)F_LPCC。但隨著α值的增加,F(xiàn)_Mel-LPC算法由于對原始特征進行了深度提取,所以識別率較Mel-LPC有明顯提高,在α=0.3時已經(jīng)能夠達到傳統(tǒng)F_LPCC的識別效果,而當α=0.4時,F(xiàn)_Mel-LPC算法識別率要略高于其他幾種算法,對于孤立詞具有較好的識別效果。

    圖4 頻率扭曲因子對4種算法識別率的影響Fig.4 Influence of frequency twist factor on this four algorithms

    在MATLAB平臺上進行語音識別特征提取研究及仿真實驗,分別運用F_Mel-LPC,F(xiàn)_LPCC,F(xiàn)_MFCC及Mel-LPC對一些常用的孤立詞匯進行特征提取,對比其性能。并通過在實際環(huán)境下進行語音控制實驗,20人說出同一指令,計算其識別率,尋找出性能最佳的孤立詞語音特征提取算法。4種算法的識別結果如表1。

    表1 4種算法的識別結果

    表1統(tǒng)計了F_Mel-LPC算法和幾種主流算法的平均識別率,可以看出,經(jīng)過二次特征提取的F_Mel-LPC對比Mel-LPC識別率有明顯提高。下面測試幾種語音識別算法的反應時間,在MATLAB中,使用tic/toc重復測試5次,分別測得F_Mel-LPC,F(xiàn)_LPCC,Mel-LPC及F_MFCC 4種算法將一幀語音信號提取所消耗的時間如圖5所示。另外,為了減少F_MFCC特征的提取時間,此次測試將MFCC提取步驟中的DFT(discrete Fourier transform)變換調(diào)整為FFT(fast Fourier transform),從而使提取MFCC特征的時間減少到原來的十分之一。

    圖5 5次實驗中4種特征提取算法所耗時間對比Fig.5 Time four algorithms spent in five tests

    從圖5可以看出,由于F_Mel-LPC算法只是在線性預測分析的基礎上增加了Mel頻率濾波器,并對其進行二次特征提取,因此,對于F_Mel-LPC算法的特征提取時間僅比F_LPCC略高,遠小于F_MFCC。而即便是改進了的F_MFCC特征提取方法,它的耗時仍遠大于F_Mel-LPC算法。表2是幾種特征提取方法的平均提取一幀語音特征的時間。

    表2 4種算法提取一幀語音特征的平均時間

    由表1、圖5以及表2可知,在相同的環(huán)境下,F(xiàn)_Mel-LPC算法的識別率分別比F_LPCC和Mel-LPC高出了7.29%和2.48%,且與F_MFCC方法相比,識別率也高出了3.69%;在一幀語音特征提取所耗費的時間上,F(xiàn)_Mel-LPC算法比F_LPCC高8 ms,比Mel-LPC高3 ms,但遠低于F_MFCC的47 ms,所以具有更好的實時性。綜上所述,F(xiàn)_Mel-LPC算法改進了基于Mel頻率的LPC特征提取方法,提高了孤立詞的語音識別率,同時具有較短的特征提取時間,具有更好的實時性。

    3.2算法有效性驗證

    為了進一步驗證F_Mel-LPC算法的有效性,將“前進、后退、左轉、右轉、停止”5個語音詞匯作為智能輪椅的控制指令。通過讓4位受試者分別使用基于傳統(tǒng)二次特征提取算法和深度二次特征提取算法對智能輪椅進行重復性實驗,完成指定的路線(如圖6所示)。設定的輪椅控制方式為搭載2種算法的PC筆記本識別受試者的語音指令,通過串口將指令發(fā)送至智能輪椅控制系統(tǒng),最終實現(xiàn)語音對智能輪椅的基本控制。

    圖6 實驗路徑Fig.6 Path of experiments

    圖7為試者采用2種算法操作智能輪椅完成該路線時在不同時間段的軌跡。

    圖7 采用2種算法進行人機交互的輪椅軌跡Fig.7 Wheelchair trajectory of using two algorithms

    可以看出,由于傳統(tǒng)二次特征提取算法的實時性較差,導致智能輪椅反應時間明顯比改進算法要長,受試者很難完全掌控智能輪椅的路徑,產(chǎn)生了很多誤識別動作。而經(jīng)過優(yōu)化后的F_Mel-LPC特征提取算法的路徑則有明顯的改進,整體比較規(guī)整,可操控性較強。

    表3為采用2種算法的受試者完成指定路線所用的時間??梢钥闯?,受試者在采用傳統(tǒng)二次特征提取算法時,總體耗時較長,且穩(wěn)定性較差。而采用F_Mel-LPC算法進行測試時,平均耗時明顯降低,且穩(wěn)定性大大優(yōu)于前者。

    表3 4位受試者采用2種算法完成指定路線所用時間

    4結論

    我們提出了一種基于Mel頻率下LPC的語音信號深度特征提取方法,該算法既保留了傳統(tǒng)LPCC算法的實時性,運算量與傳統(tǒng)MFCC算法相比大幅減小,降低了系統(tǒng)的功耗,同時也提高了語音識別系統(tǒng)的識別率。所以,本算法將更適合應用于對系統(tǒng)實時性要求比較高的特定功能語音控制設備,比如對智能輪椅的控制,能夠使智能輪椅語音識別系統(tǒng)的時效性和識別準確率得到較大提高。

    參考文獻:

    [1]LAWRENCE R R,RONALD W S. Theory and applications of digital speech processing[M]. Beijing: Publishing House of Electronics Industry,2011.

    [2]GIACOBELLO D,CHRISTENSEN M G,MURTHI M N,et al. Sparse linear prediction and its applications to speech processing[J]. Audio, Speech, and Language Processing,2012,20(5):1644-1657.

    [3]張毅,何春江,羅元,等. 基于改進感知非均勻譜壓縮的魯棒語音識別算法[J]. 信息與控制,2013,42(5):565-569.

    ZHANG Yi,HE Chunjiang,LUO Yuan,et al. A robust speech recognition method based on improved perception Non-uniform spectral compression[J]. Information and Control,2013,42(5):565-569.

    [4]ISLAM M B,RAHMAN M M. Performance evaluation of blind equalization for Mel-LPC based speech recognition under different noisy conditions[J]. International Journal of Computer Applications,2013,65(4):4-8.

    [5]蔡敏. 基于多特征組合優(yōu)化的漢語數(shù)字語音識別研究[J]. 電子器件,2013,36(2):282-284.CAI Min. Study of Chinese digital speech recognition based on various features combinatorial optimization[J]. Chinese Journal of Electron Devices,2013,36(2):282-284.

    [6]KUO S M,LEE B H,TIAN W. Real-Time digital signal processing: fundamentals, implementations and applications[M]. New York:John Wiley & Sons,2013.

    [7]李戰(zhàn)明,林娟,陳若珠.組合特征和二級判斷模型相結合的說話人識別[J].計算機工程與應用,2011,47(10):180-182.

    LI Zhanming,LIN Juan,CHEN Ruozhu. Speaker recognition method using combined features extraction and Two-stage decision model[J]. Computer Engineering and Applications,2011,47(10):180-182.

    [8]項要杰,楊俊安,李晉徽,等.一種適用于說話人識別的改進Mel濾波器[J].計算機工程,2013,39(11):214-217.

    XIANG Yaojie,YANG Junan,LI Jinhui, et al. An improved Mel-frequency filter for speaker recognition[J]. Computer Engineering,2013,39(11):214-217.

    [9]鄒欣,李萬龍,劉琚. 基于二維 ICA 變換的語音特征提取[J]. 山東大學學報:工學版,2007,37(4):85-88.

    ZOU Xin,LI Wanlong,LIU Ju. Speech feature extraction based on 2-D independent component analysis[J]. Journal of Shandong University:Engineering Science,2007,37(4):85-88.

    [10] 姚敏鋒,李心廣,楊佳能.基于語音特征聚類的HMM語音識別系統(tǒng)研究[J].微計算機信息,2012,28(10):458-460.YAO Minfeng,LI Xinguang,YANG Jianeng. The study of speech recognition based on sound characteristic clustering and HMM[J]. Microcomputer Information,2012,28(10):458-460.

    [11] HSU D,KAKADE S M,ZHANG T. A spectral algorithm for learning hidden Markov models[J]. Journal of Computer and System Sciences,2012,78(5):1460-1480.

    A further speech signal features extraction algorithm based on LPC Mel frequency scale

    LUO Yuan1, WU Chengjun1, ZHANG Yi2, LI Xiaosong2

    (1. Key Lab of Optical Sensing Information and Transmission Technology, Chongqing University of Posts and Telecommunications,Chongqing 400065, P.R. China;2. Engineering Research & Development Center of Information Accessibility,Chongqing University of Posts and Telecommunications, Chongqing 400065, P.R. China)

    Abstract:According to the bad real-time performance of the traditional further speech signal features extraction algorithm in the premise of ensuring the recognition rate, a further speech signal features extraction algorithm based on linear predictive coefficient(LPC) Mel frequency scale is put forward in this paper. This method transforms LPC with Mel-frequency in a nonlinear way, calculates the derivative, high order differential and combines the feature according to a certain proportion to realize a new features parameter which takes both the channel incentives and the human auditory into account. So the calculation quantity of the traditional speech signal further features extraction is decreased sharply. The real-time performance of the system is improved in the premise of ensuring the recognition rate. Through the intelligent wheelchair platform to verify the validity of the algorithm, a lot of experiments show that the problem of real-time performance is not good of traditional algorithm can be improved effectively; this algorithm can improve the real-time performance and the practicability, on the basis of ensuring the recognition rate of the further features extraction.

    Keywords:speech recognition;linear prediction coefficient;Mel-frequency cepstrum coefficients;Mel-LPC algorithm;further features extraction

    DOI:10.3979/j.issn.1673-825X.2016.02.006

    收稿日期:2014-12-04

    修訂日期:2015-10-04通訊作者:吳承軍wucj.summer@foxmail.com

    基金項目:重慶市自然科學基金重點項目(CSTC2015jcyjB0241);重慶市教委科技項目(KJ13051)

    Foundation Items:The Key Science and Tchnology Project of CQ CSTC (CSTC2015jcyjB0241);The Scientific and Technology Research Project of Chongqing Municipal Education Commission(KJ13051)

    中圖分類號:TN912.3/TP311

    文獻標志碼:A

    文章編號:1673-825X(2016)02-0174-06

    作者簡介:

    羅元(1972-),女,貴州貴陽人,教授,博士,主要研究領域為信號與信息處理,數(shù)字圖像處理。E-mail:luoyuan@cqupt.edu.cn。

    吳承軍(1990-),男,江蘇徐州人,碩士研究生,主要研究領域為語音識別與智能機器人。E-mail:wucj.summer@foxmail.com。

    張毅(1966-),男,重慶人,教授,博士生導師,博士后,主要研究領域為智能機器人及應用、生物信號處理及應用、信息無障礙技術。E-mail:zhangyi99@263.net。

    黎小松(1988-),男,湖南邵陽人,碩士研究生,主要研究領域為語音識別。 E-mail: lxscqyddx@163.com。

    席兵(1972-),男,江蘇沛縣人,碩士,主要研究領域為信號處理、通信網(wǎng)測試儀器儀表。E-mail:xibing@cqupt.edu.cn。

    (編輯:張誠)

    猜你喜歡
    語音識別
    空管陸空通話英語發(fā)音模板設計與應用
    通話中的語音識別技術
    面向移動終端的語音簽到系統(tǒng)
    淺析智能語音技術及其應用
    智富時代(2015年9期)2016-01-14 06:26:40
    語音識別的SVM模型選擇分析
    農(nóng)業(yè)物聯(lián)網(wǎng)平臺手機秘書功能分析與實現(xiàn)
    基于LD3320的非特定人識別聲控燈系統(tǒng)設計
    航天三維可視化系統(tǒng)中語音控制技術的研究與應用
    基于語音識別的萬能遙控器的設計
    基于語音技術的商務英語移動學習平臺設計與實現(xiàn)
    邢台市| 黄浦区| 宁陕县| 阿城市| 昌平区| 东安县| 吉木乃县| 塔城市| 聂拉木县| 吴川市| 阳城县| 峨边| 博兴县| 麟游县| 塘沽区| 河北区| 扶沟县| 松溪县| 华坪县| 康定县| 奇台县| 环江| 韶关市| 彭水| 邹平县| 宁河县| 泰顺县| 仁化县| 县级市| 二连浩特市| 新龙县| 乌兰察布市| 海宁市| 镶黄旗| 绥化市| 呼玛县| 和平县| 古丈县| 建宁县| 农安县| 林口县|