謝爾曼,羅森林,潘麗敏
(北京理工大學(xué) 信息系統(tǒng)及安全對抗實驗中心,北京 100081)
?
2D-Haar聲學(xué)特征超向量快速生成方法
謝爾曼,羅森林,潘麗敏
(北京理工大學(xué) 信息系統(tǒng)及安全對抗實驗中心,北京 100081)
針對大數(shù)據(jù)量音頻的高速處理,提出一種快速的聲學(xué)特征超向量生成方法,有效提高音頻識別系統(tǒng)的識別速度和精度.所提方法首先將多個連續(xù)音頻幀的常用聲學(xué)特征構(gòu)成聲學(xué)特征圖,進而使用低復(fù)雜度的運算方法在其中快速提取維數(shù)達數(shù)十萬的Haar-like聲學(xué)特征;然后使用AdaBoost.MH算法,篩選出具有較高代表性的Haar-like聲學(xué)特征模式組合,用以構(gòu)成聲學(xué)特征超向量;進而提出Random AdaBoost特征篩選方法,進一步提高特征篩選速度.實驗結(jié)果表明,在音頻事件識別、說話人識別、說話人性別識別3種場合下,使用Haar-like聲學(xué)特征可以使SVM、C5.0、AdaBoost等識別算法獲得比MFCC、PLP、LPCC等常用聲學(xué)特征更高的識別準確率,同時可以獲得7~20倍的訓(xùn)練速度提升和5~10倍的識別速度提升.
音頻處理;音頻識別;2D-Haar聲學(xué)特征超向量;Haar-like聲學(xué)特征;AdaBoost.MH
近年來,隨著音頻識別(audio recognition)研究的不斷深入,如何對常用的聲學(xué)特征進行有效地篩選、統(tǒng)計,進而構(gòu)造出代表性更強、運算復(fù)雜度更小的聲學(xué)特征向量,對提升識別性能具有重要的研究價值,受到了越來越多的關(guān)注.在特定音頻識別領(lǐng)域,人們提出了多種聲學(xué)特征構(gòu)造方法,有效提升了機器學(xué)習(xí)算法的識別性能[1-2];在說話人識別研究中,研究者使用GMM算法生成超向量,大幅提升SVM算法的識別精度[3-4];也有研究者使用分數(shù)階傅里葉變換[5]、kernel k-means聚類[6]、設(shè)計新的窗函數(shù)[7]等方法提升聲學(xué)特征的代表性,以提高識別系統(tǒng)的識別速度和準確率.
隨著大數(shù)據(jù)時代的到來,在大數(shù)據(jù)量的音頻處理任務(wù)中,音頻識別系統(tǒng)的處理速度已成為衡量其性能的重要因素,如何在保證識別精度的前提下,盡可能地提高特征提取及特征超向量生成的速度,成為該領(lǐng)域研究的突出問題.
對此,本文提出一種快速高效的聲學(xué)特征超向量生成方法,該方法的核心是對2維的聲學(xué)特征圖進行Haar-like聲學(xué)特征的模式篩選,因而命名為2D-Haar,該方法不僅可以顯著提高識別、訓(xùn)練階段的速度,還可進一步提升識別精度.
本文所提方法如圖1所示,其基本原理是引入時頻聯(lián)合濾波和特征篩選的思想,首先借助Haar-like聲學(xué)特征,對一定時長的常用的聲學(xué)幀特征序列進行特征維度擴展,大幅增加了特征維數(shù),因此具有更高的音頻內(nèi)容表征潛力,但其動輒數(shù)十萬維的特征空間會顯著增加計算復(fù)雜度,難以用于訓(xùn)練和識別.
因此加入特征篩選模塊,篩選出最具代表性的特征維度,以提高運算速度.這些篩選出的特征模式組合就構(gòu)成了2D-Haar聲學(xué)特征超向量,可供后續(xù)的機器學(xué)習(xí)算法進行分類器訓(xùn)練與識別.
圖2展示了一個基于本文所提方法的音頻識別系統(tǒng)原理圖.
2.1 構(gòu)造聲學(xué)特征圖
Haar-like聲學(xué)特征借鑒了在圖像處理領(lǐng)域獲得成功應(yīng)用的Haar-like特征[8].為了能夠從音頻波形中提取Haar-like聲學(xué)特征,本文提出了聲學(xué)特征圖的概念.
聲學(xué)特征圖即一定數(shù)量的連續(xù)音頻幀的常用聲學(xué)特征向量(例如子帶能量或者MFCC、LPCC、PLPC等)的集合.除了上述聲學(xué)特征外,各種其它的聲學(xué)特征及其組合(僅使用子帶能量)都可以用來構(gòu)成聲學(xué)特征圖.其基本原理如圖3所示.
對于音頻庫S={s1,s2,…,sk}(k為音頻庫中音頻文件的總數(shù))中的某音頻文件sk,其聲學(xué)特征圖的計算方法如下.
步驟1 對音頻文件sk進行去靜音等預(yù)處理后,按照幀長fs、幀移Δfs進行分幀.
步驟2 提取各幀的基礎(chǔ)聲學(xué)特征,將各幀的基礎(chǔ)聲學(xué)特征組合,形成一個包含c幀、每幀p維特征量的基礎(chǔ)特征向量序列Vk.
Vk中每一幀的特征向量的內(nèi)容為:{[基礎(chǔ)特征1(p1維)],[基礎(chǔ)特征2(p2維)],…,[基礎(chǔ)特征n(pn維)]}.
假設(shè)音頻文件sk的持續(xù)時長為t,則
步驟3 對于基礎(chǔ)特征向量序列Vk,采用滑窗的方式,以a為窗長、s為步進,將所有的c幀聲學(xué)特征向量轉(zhuǎn)換成聲學(xué)特征圖序列Gk(參見圖2).
2.2 Haar-like聲學(xué)特征計算方法
Haar-like圖像特征被定義為圖4和圖4中黑色區(qū)域的聲學(xué)特征值之和減去白色區(qū)域的聲學(xué)特征值之和.
讓圖5中的5種Haar-like聲學(xué)特征模式在聲學(xué)特征圖上以不同的放大比例和不同位置進行計算,就可以產(chǎn)生維數(shù)龐大的特征新空間.Haar-like聲學(xué)特征可以有更多的模式,本文僅使用了圖5所列的5種模式.
假設(shè)聲學(xué)特征圖的尺寸為a×p,某一放大比例的Haar-like聲學(xué)特征模式可以由一個4元組表示:f=(x,y,w,h),其中,(x,y)為Haar-like聲學(xué)特征模式的左上角頂點;w,h為該特征模式的的長和寬.上述參數(shù)滿足:x+w≤a,y+h≤p,x,y≥0,w,h≥0.
令X=?a/wmin」,Y=?p/hmin」.則X,Y分別為該聲學(xué)特征圖中所有Haar-like聲學(xué)特征模式的最大放大因數(shù),則該模式可以派生出的Haar-like聲學(xué)特征總數(shù)為
一幅32×32的聲學(xué)特征圖,本文使用的5種Haar-like特征模式的總維數(shù)超過了51萬,這遠遠超過了音頻FFT能量譜的維數(shù),也遠遠超過了音頻FFT能量譜的維數(shù).
Haar-like聲學(xué)特征的另一個特點是提取計算速度快.配合積分圖,任何尺寸Haar-like聲學(xué)特征的提取只需執(zhí)行固定次數(shù)的數(shù)據(jù)讀取和加減運算.積分圖與原始聲學(xué)特征圖的尺寸相同,其上任意一點(x,y)的值被定義為原始聲學(xué)特征圖對應(yīng)點左上方所有的特征元素值之和(包括該點).定義為
(1)
式中:ii(x,y)表示積分圖上點(x,y)的取值;i(x′,y′)表示原始聲學(xué)特征圖的特征元素值.
利用積分圖,包含2個矩形的Haar-like聲學(xué)特征只需從積分圖中讀取6個點進行加/減運算,3個矩形的特征只需讀取8個點,4個矩形的特征只需讀取9個點.
3.1 基于AdaBoost.MH算法的特征篩選
使用訓(xùn)練數(shù)據(jù)集進行迭代運算,從十萬計的Haar-like特征空間中篩選出對于識別任務(wù)更具代表性的Haar-like特征模式.首先定義兩個函數(shù).
定義1 對給定的樣本空間X和類別標簽集Y,一個多類別、多標簽問題中的樣本可表示為:(x,Y),x∈X,Y?Y.定義K[l]:
式中l(wèi)表示類別標簽.
定義2 對給定的輸入單維特征fj(x)與閾值θj,l,定義弱分類器Decision Stump:
式中:pj,l指示不等號方向.
對包含m個樣本的H維訓(xùn)練數(shù)據(jù)集S={(x1,Y1),(x2,Y2),…,(xm,Ym)},特征篩選過程為:
① 初始化樣本權(quán)重D1(i,l)=1/(mk),i=1,2,…,m,l={“l(fā)k”,“其他”}
② Forf=1,2,…,F(xiàn)
ⅰ) 在Df下,進行H輪迭代,從H個弱分類器中選擇一個hj(x,l),使
(2)
ⅱ) 按照下式計算弱分類器權(quán)重αf,
ⅲ) 按照下式更新Df+1,
式中Zf為歸一化因子.
③ End For
④ 最終生成的2D-Haar聲學(xué)特征為
(3)
W可直接用于后續(xù)的分類器訓(xùn)練,同時將Haar-like聲學(xué)特征的模式組合Q存儲下來,供后續(xù)的機器學(xué)習(xí)方法在識別階段生成2D-Haar聲學(xué)特征
(4)
式中:qn為一個3元向量{Patten,Location,Size}.Patten為指被選中特征fn(x)對應(yīng)的Haar-like聲學(xué)特征的模式類別(即圖 4中的Ⅰ~Ⅴ型);Location為指被選中的Haar-like聲學(xué)特征模式在聲學(xué)特征圖中的位置,用Haar-like聲學(xué)特征模式左上角的在聲學(xué)特征圖中的坐票來表示;Size為指被選中的Haar-like聲學(xué)特征模式的大小,以原始模式尺寸的倍數(shù)來表示.
3.2 基于Random AdaBoost的特征篩選
對3.1節(jié)中所描述的流程加以分析,不難看出其中最耗時的運算在于:每篩選出一維Haar-like聲學(xué)特征,就要對所有的H維特征都進行式(2)的rf,j求解和排序,而為了得到F維篩選出的特征,就需要進行F×H次rf,j的求解和F輪排序.由于H的值往往高達數(shù)十萬,就會造成大量的運算耗時.
本文對AdaBoost.MH算法加以改進,提出Random AdaBoost特征篩選方法,即:在每維Haar-like聲學(xué)特征的篩選過程中,并不是對整個H維的特征都進行rf,j求解,而只是對隨機選出的E維特征進行rf,j求解,最終得到的Haar-like聲學(xué)特征的模式組合用Q′=[q1q2… qF]表示.
對于每幅聲學(xué)特征圖guk,其2D-Haar聲學(xué)特征超向量的提取步驟為:
① 按照式(1)計算guk對應(yīng)的特征積分圖;
②Forf=1,2,…,F(xiàn)
ⅰ) 從Q或者Q′中讀取第f個Haar-like聲學(xué)特征模式qf;
ⅱ) 依照Haar-like聲學(xué)特征模式qf,在積分圖上進行固定次數(shù)的讀取和加減運算,將運算結(jié)果wf記載到超向量W中.
③ End For
④ 得到guk的2D-Haar聲學(xué)特征超向量W:
可見,2D-Haar聲學(xué)特征超向量的提取過程僅僅涉及加減運算,且任何尺寸的Haar-like聲學(xué)特征模式都可以通過固定次數(shù)的加減運算完成提取.
本文設(shè)計了以下實驗,所有實驗的平臺配置均為:Intel雙核CPU(3.0GHz),2GB內(nèi)存,WindowsXPSP3操作系統(tǒng).
5.1 2D-Haar特征超向量提取速度實驗
5.1.1 實驗數(shù)據(jù)和評價指標
本實驗中,Haar-like聲學(xué)特征篩選、2D-Haar聲學(xué)特征超向量提取均使用相同的數(shù)據(jù)集——總長為1h的連續(xù)音頻文件,采集自《新聞聯(lián)播》,包含音樂、語音、環(huán)境音等內(nèi)容.
采用維度處理倍速xRTd作為處理速度的評價指標.對于一段時長為ts的音頻段S,某特征提取算法消耗了Tps得到p維的特征向量,則維度處理倍速xRTd為
5.1.2 實驗過程和參數(shù)說明
驗證2組2D-Haar聲學(xué)特征超向量,這兩組超向量從2種不同的聲學(xué)特征圖中提取:
A組:{12維MFCC,12維LPCC,8維PLPC};
B組:{[1~18kHz]64維子帶能量}.
作為對比的聲學(xué)特征包括4組常用聲學(xué)幀特征:
C組:{12維MFCC,12維一階差分};
D組:{12維LPCC,12維一階差分};
E組:{8維PLPC,8維一階差分};
F組:{12維MFCC,12維一階差分,12維LPCC,12維一階差分,8維PLPC,8維一階差分}.
對實驗數(shù)據(jù)源進行聲學(xué)特征提取實驗,記錄提取耗時(即從輸入音頻文件開始,經(jīng)過Haar-like聲學(xué)特征篩選訓(xùn)練、2D-Haar聲學(xué)特征超向量提取,最終得到特征向量的耗時),并由此計算xRTd.
預(yù)處理過程中,對音頻分幀加窗的參數(shù)為:漢明窗幀長fs=30ms,幀移Δfs=15ms.
聲學(xué)特征圖的構(gòu)造過程中,Haar-like特征包含的幀數(shù)a采用網(wǎng)格法,從10開始,以5為步進增加到100,RandomAdaBoost處理方法的每輪迭代次數(shù)E采用一個足夠大的整數(shù),本組實驗中確定為1 000;Haar-like特征篩選過程中,分別使用基于AdaBoost.MH與RandomAdaBoost兩種篩選方法,2D-Haar聲學(xué)特征超向量包含的維數(shù)F設(shè)定為100,a設(shè)定為50.
5.1.3 實驗結(jié)果及分析
圖6顯示了每幅聲學(xué)特征圖包含的音頻幀數(shù)a對2D-Haar超向量提取速度的影響,其中采用RandomAdaBoost篩選方法的維度處理倍速在各種a的取值下保持不變,這是由于RandomAdaBoost篩選的處理速度僅僅取決于每輪迭代中隨機選取的Haar-like聲學(xué)特征模式個數(shù)E.
從圖6中還可以看出,本文所提的Random AdaBoost算法可以有效提升2D-Haar聲學(xué)特征超向量的生成速度;同時,由于B組的聲學(xué)特征圖由子帶能量生成,其運算速度更快.
5.2 2D-Haar聲學(xué)特征超向量的應(yīng)用實驗
5.2.1 實驗數(shù)據(jù)和評價指標
本實驗的數(shù)據(jù)資源如表1所示.
表1 實驗3所用的數(shù)據(jù)資源
音頻事件識別采用與文獻[9,11]相同的評價指標;說話人識別的評價指標采用該領(lǐng)域通用的方法,即
準確率=1-等錯率.
說話人性別識別使用由混淆矩陣統(tǒng)計出的整體準確率來評價算法性能.整體準確率由基于10折交叉法測試得到的混淆矩陣計算獲得,對于給定的N維混淆矩陣C,總體準確率P的定義為
5.2.2 實驗過程和參數(shù)說明
針對連續(xù)的音頻流文件,分別使用2D-Haar聲學(xué)特征超向量和常用聲學(xué)幀特征,進行音頻事件識別和說話人識別,均采用“子帶能量構(gòu)成聲學(xué)特征圖+Random AdaBoost篩選方法+AdaBoost訓(xùn)練/識別”的框架搭建識別系統(tǒng).
音頻事件識別的具體步驟為:針對50段音頻流,使用本文所提特征超向量,結(jié)合AdaBoost.MH算法,與文獻[9,11]進行比較.
說話人識別的具體步驟為:每個待識說話人進行50次目標測試和冒認測試,記錄錯誤接受率(FAR)和錯誤拒絕率(FRR),繪制DET曲線,計算等錯率和準確率.對比方法采用以高識別精度為特色的GMM-SVM算法,采用文獻[12]中的識別框架結(jié)合KL核實現(xiàn),使用與本文所提算法相同的聲學(xué)特征.
說話人性別識別的具體步驟為:使用10折交叉法的思路,在300人的3 000段語音中進行10輪測試,每輪測試中,以男性、女性做子類區(qū)分,依次各選擇150段語音(男、女合計300段)作為測試,其余語音作為訓(xùn)練數(shù)據(jù).10輪測試結(jié)束后,合并混淆矩陣,計算總體準確率,并與常用聲學(xué)幀特征進行比較,所采用常用聲學(xué)幀特征與2D-Haar聲學(xué)特征超向量的類型及參數(shù)配置與實驗1相同.
5.2.3 實驗結(jié)果及分析
① 音頻事件識別實驗.
進而通過實驗比較融合GMM和SVM的混合算法與AdaBoost算法[9]、動態(tài)規(guī)劃-貝葉斯神經(jīng)網(wǎng)絡(luò)[11](dynamic programming and bayesian network)算法的識別性能.文獻[9]中使用AdaBoost.MH算給出了最優(yōu)迭代次數(shù)T=860,本文所提算法的參數(shù)為:E=1 000,p=64,d=105,實驗比較結(jié)果如表2所示.
表2 不同算法的識別性能
可見,本文所提2D-Haar聲學(xué)特征超向量結(jié)合AdaBoost分類器,可以獲得較對比算法更好的識別性能.
表3記錄了在音頻事件識別任務(wù)下,使用單純音頻片段作為訓(xùn)練測試集,總體準確率達到85%時,運用AdaBoost、SVM、C5.0 3種算法,使用常用聲學(xué)幀特征(4種常用幀特征構(gòu)成方式中,達到85%準確率的訓(xùn)練速度最快的是F組,即64維組合向量)與2D-Haar聲學(xué)特征超向量的訓(xùn)練與識別耗時.訓(xùn)練耗時為4 h音頻數(shù)據(jù)訓(xùn)練總的時間開銷,識別耗時為識別1 s原始音頻的時間.
表3 訓(xùn)練與識別耗時
可見,由于2D-Haar聲學(xué)特征使用較少的維度表示了更多的聲學(xué)特征信息,使得訓(xùn)練和識別時間都有所減少,訓(xùn)練速度提升可達7~20倍,識別速度提升可達5~10倍.
② 說話人識別實驗.
說話人規(guī)模由100增加到600時,兩種方法的表現(xiàn)如表 4所示.當說話人規(guī)模不斷增加時,本文所提方法下降趨勢較緩,6種說話人規(guī)模下的平均識別準確率可達91.3%.
表4 不同說話人規(guī)模下兩種方法的準確率
為了評價本文所提算法的時間效率,統(tǒng)計不同2D-Haar聲學(xué)特征維數(shù)F下每秒鐘音頻數(shù)據(jù)的平均識別耗時t.由表5可知,本文所提方法具有較高的識別速度.
表5 不同F(xiàn)值下本文所提方法的平均識別耗時
Tab.5 Proposed method’s average recognition time-cost under differentFvalues
F值100200300400500平均耗時/ms275366385476587
可見,在說話人識別的應(yīng)用場景中,2D-Haar聲學(xué)特征超向量也獲得了比GMM-SVM方法更好的識別精度和速度.
③ 說話人性別識別實驗.
說話人性別實驗中,測試不同2D-Haar特征超向量維數(shù)F下,SVM、AdaBoost、C5.0 3種方法的表現(xiàn),圖中Max.FF是使用4組常用聲學(xué)幀特征所能達到的最大值.
可見,2D-Haar聲學(xué)特征超向量在說話人性別識別這一場景中,獲得了比常用聲學(xué)幀特征更好的總體識別率,同時,SVM和AdaBoost算法的表現(xiàn)好于C5.0,C5.0在Haar-like聲學(xué)特征維數(shù)較多時會出現(xiàn)識別精度下降.
由本文結(jié)果可知,使用Random AdaBoost篩選方法的2D-Haar聲學(xué)特征超向量的維度處理倍速約為常用音頻幀特征的2倍;在使用常用音頻幀特征構(gòu)成聲學(xué)特征圖和Random AdaBoost篩選方法的情況下,可以獲得約5%的識別精度提升、7~20倍的訓(xùn)練速度提升和5~10倍的識別速度提升.
2D-Haar聲學(xué)特征超向量的作用為:① 當構(gòu)成聲學(xué)特征圖的基礎(chǔ)聲學(xué)特征是子帶能量時,不同模式及尺寸的Haar-like聲學(xué)特征起到了簡化的時頻域聯(lián)合濾波的作用,比常用的幀/段特征具有更強的特征描述能力;② 當構(gòu)成聲學(xué)特征圖的基礎(chǔ)聲學(xué)特征是諸如MFCC、LPCC等頻域特征時,不同模式及尺寸的Haar-like聲學(xué)特征起到了增強的差分或者特征統(tǒng)計功能,比常見的逐維統(tǒng)計方法具有更豐富的代表性;③ 任何尺寸的Haar-like特征只需讀取6~9個積分圖數(shù)值,再配合進行加減運算即可求得,因此可以迅速完成計算;④ 在龐大的Haar-like聲學(xué)特征空間中,Random AdaBoost可以有效減少運算量.
2D-Haar聲學(xué)特征超向量仍存在著以下問題,有待進一步的研究:① 本方法的引入了a、E、F3個參數(shù),在不同的應(yīng)用場景研究中,需要進行針對性的參數(shù)優(yōu)化,這一局限需要使用參數(shù)自適應(yīng)優(yōu)化方法加以補償;② 對2D-Haar聲學(xué)特征超向量的提取方法進行的數(shù)理推導(dǎo)和分析,在數(shù)理層面加以印證研究也是一個有意義的研究方向;③ 本文僅僅使用了3類常用聲學(xué)特征,更多的基本聲學(xué)特征的采用,是否會進一步提升識別性能,也是有待探索的問題;④ 從理論上分析,2D-Haar聲學(xué)特征超向量具有處理多種時序數(shù)據(jù)的能力,因此在非音頻處理領(lǐng)域的應(yīng)用也具有一定的研究價值.
[1] Dennis J, Tran H D, Chng E S.Image feature representation of the subband power distribution for robust sound event classification[J].IEEE Transactions on Audio Speech and Language Processing, 2013,21(2):367-377.
[2] Nishimura J, Kuroda T.Versatile recognition using Haar-like feature and cascaded classifier[J].IEEE Sensors Journal, 2010,10(5):942-951.
[3] Asbai N, Amrouche A, Debyeche M.Performances evaluation of GMM-UBM and GMM-SVM for speaker recognition in realistic world[J].Neural Information Processing, 2011,7063(II): 284-291.
[4] Liu M, Huang Z.Multi-feature fusion using multi-gmm supervector for svm speaker verification[C]∥Proceedings of CISP’09.2nd International Congress on Image and Signal Proceeding.[S.l.]: IEEE, 2009:1-4.
[5] Ajmera P K, Holambe R S.Fractional Fourier transform based features for speaker recognition using support vector machine[J].Computers &Electrical Engineering, 2013,39(2):550-557.
[6] Zou M C.A novel feature extraction methods for speaker recognition[J].Communications And Information Processing, 2012,288:713-722.
[7] Sahidullah M, Saha G.A novel windowing technique for efficient computation of MFCC for speaker recognition[J].IEEE Signal Processing Letters, 2013,20(2):149-152.
[8] Viola P, Jones M.Rapid object detection using a boosted cascade of simple features[C]∥2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.[S.l.]: IEEE, 2001:511-518.
[9] 羅森林,李金玉,潘麗敏.特定類型音頻流泛化識別方法[J].北京理工大學(xué)學(xué)報,2011,31(10):1231-1235.
Luo Senlin, Li Jinyu, Pan Limeng.A generic method of recognizing specific type audio stream[J].Transactions of Beijing Institute of Technology, 2011,31(10):1231-1235.(in Chinese)
[10] Zue V, Seneff S, Glass J.Speech database development at MIT: TIMIT and beyond[J].Speech Communication, 1990,9(4):351-356.
[11] Pikrakis A, Giannakopoulos T, Theodoridis S.Gunshot detection in audio streams from movies by means of dynamic programming and Bayesian networks[C]∥Proceedings of IEEE ICASSP 2008.the 33rd International Conference on Acoustics, Speech, and Signal Processing.[S.l.]: IEEE, 2008:21-24.
[12] Chang H Y, Kong A L, Haizhou L.An SVM Kernel with GMM-supervector based on the bhattacharyya distance for speaker recognition[J].IEEE Signal Processing Letters, 2009,16(1):49-52.
(責(zé)任編輯:劉芳)
2D-Haar Acoustic Super Feature Vector Fast Generation Method
XIE Er-man,LUO Sen-lin,PAN Li-min
(Information System and Security and Countermeasures Experimental Center, Beijing Institute of Technology,Beijing 100081,China)
A fast and efficient acoustic feature super vector generation method was proposed to effectively improve the recognition accuracy and speed yielded by traditional frame based acoustic features.This paper makes 3 contributions: firstly, certain number of acoustic feature vectors extracted from continuous audio frames was combined to be an acoustic feature image;secondly, AdaBoost.MH algorithm was used to select higher representative 2D-Haar pattern combinations to construct super feature vectors;thirdly, random feature selection method was proposed to further improve the processing speed.Experimental results show that under 3 kinds of audio recognition occasions such as audio events recognition, speaker recognition, speaker gender recognition, the use of 2D-Haar acoustic feature super vector can make SVM, C5.0, AdaBoost algorithms obtain higher recognition accuracy than ones that MFCC, PLP, LPCC and other traditional acoustic features yielded, and can make the training processing 7~20 times faster and the recognition processing 5~10 times faster.
audio processing;audio recognition;2D-Haar feature super vector;2D-Haar acoustic feature;AdaBoost.MH
2013-12-11
國家“二四二”計劃項目(2005C48);北京理工大學(xué)科技創(chuàng)新計劃項目(2011CX01015)
謝爾曼(1981—),男,博士生,E-mail:erman@icce.org;羅森林(1968—),男,教授,博士生導(dǎo)師,E-mail:luoshenlin@bit.edu.cn.
潘麗敏(1968—),女,工程師,E-mail:panlimin@bit.edu.cn.
TP 391
A
1001-0645(2016)03-0295-07
10.15918/j.tbit1001-0645.2016.03.014