孫志鋒
(陜西師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,陜西 西安 710062)
基于ABC優(yōu)化MVDR的語音情感識別研究
孫志鋒
(陜西師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,陜西 西安710062)
語音情感特征的提取和選擇是語音情感識別的關(guān)鍵問題,針對線性預(yù)測(LP)模型在語音情感譜包絡(luò)方面存在的不足。本論文提出了最小方差無失真響應(yīng)(MVDR)譜方法來進(jìn)行語音情感特征的提取;并通過人工蜂群(ABC)算法找到最優(yōu)語音情感特征子集,消除特征冗余信息;利用徑向基函數(shù)(RBF)神經(jīng)網(wǎng)絡(luò)對CASIA漢語情感語料庫中的4種情感語音即生氣、平靜、高興、害怕進(jìn)行實(shí)驗(yàn)識別。實(shí)驗(yàn)結(jié)果表明,該方法比線性預(yù)測法有更高的識別率和更好的魯棒性。
最小方差無失真響應(yīng);人工蜂群算法;語言情感識別;線性預(yù)測
人類說話除了表達(dá)基本的文字信息以外,還表達(dá)了說話人的情感和情緒等信息。所以,我們可以依據(jù)語音來識別人類的情感。語音情感識別主要包括情感特征參數(shù)的提取、選擇和識別,其中情感特征的好壞直接影響著情感識別的識別率,所以好的情感特征提取與選擇算法能夠?qū)崟r地、高效地反映情感狀態(tài)特征。
在特征參數(shù)提取技術(shù)方面,最常用的是用于計(jì)算全極點(diǎn)參數(shù)的線性預(yù)測(LP)譜,該譜能較好地表征頻譜的峰值信息,然而對其它信息忽略過多,導(dǎo)致不能很好地表征語音情感譜包絡(luò),最終使得語音情感識別率較低。最小方差無失真響應(yīng)(MVDR)譜最早由Capon提出[1],并被Lacoss證明它提供了對一個信號譜成分的最小方差無失真估計(jì)[2],當(dāng)前該方法在陣列信號處理方面得到了廣泛的應(yīng)用。Cox等人針對導(dǎo)向向量失配問題,提出了對角加載穩(wěn)健性的MVDR方法,但加載量大小的選擇對算法的穩(wěn)健性影響較重,加載量大小的選擇比較困難[3]。Murthi和Rao等人最早將MVDR方法作為一種譜包絡(luò)估計(jì)技術(shù)引入到語音識別中[4],Yapanel等人提出MVDR感知倒譜系數(shù)(PMCCs)用于語音特征提取,先將語音頻譜通過mel濾波器組,計(jì)算得到感知自相關(guān)系數(shù),再依據(jù)這些參數(shù)估計(jì)MVDR系數(shù)[5]。Md提出了一種正規(guī)化最小方差無失真相應(yīng)(RMVDR)方法代替基于離散傅立葉變換直接譜估計(jì)來提取魯棒性語音特征[6]。相比LP方法,MVDR方法可以計(jì)算語音情感的全極點(diǎn)譜,解決了LP譜對基音周期較高的濁音信號的頻譜估計(jì)不準(zhǔn)的問題。
在特征參數(shù)選擇技術(shù)方面,當(dāng)前特征選擇算法主要有:窮舉法,主成分分析法(PCA),線性判別法(LDA),啟發(fā)式算法包括順序向前選擇(SFS)、順序向后選擇(SBS)、優(yōu)先選擇(PFS)、順序浮動前進(jìn)選擇(SFFS)等,隨機(jī)算法有蟻群算法(ACO)和神經(jīng)網(wǎng)絡(luò)分析法等,熵值法等,取得了一定的效果,但也存在不足。針對當(dāng)前選擇算法中存在的部分不足,本文提出了人工蜂群的特征選擇語音情感識別算法。
本文首先采用最小方差無失真響應(yīng)(MVDR)方法提取語音情感特征,提取出來的特征為語音情感信號功率譜特征,由16維的MVDR譜系數(shù)及一階、二階差分組成48維特征參數(shù)。然后運(yùn)用人工蜂群算法對提取出來的情感特征進(jìn)行分析,算法得到10維的最優(yōu)特征子集,最后用徑向基函數(shù)(RBF)神經(jīng)網(wǎng)絡(luò)進(jìn)行模式匹配和情感識別。
MVDR譜估計(jì)實(shí)際上是設(shè)計(jì)出滿足下列條件下的濾波器組,M階的FIR濾波器h(n)要求滿足約束條件[7]:
1)無失真條件:
也可以寫成矩陣形式
其中 ET(wt)=[1,ejwt,ej2wt,…,ejMwt],a=[a0,a1,…,aM]T,H 為矩陣的厄密共軛。也就是說,在感興趣wt的頻率的頻率響應(yīng)具有單位增益,使wt無失真地通過濾波器。
2)最小化h(n)的輸出能量:
其中RM+1是輸入信號的(M+1)行(M+1)列的自相關(guān)矩陣。
這個條件的最優(yōu)問題的解是:
3)對a輸出信號進(jìn)行能量估計(jì):
其中PMV(wt)為信號的MVDR功率譜,suu(ejw)表示信號的能量譜,H(ejwt)為濾波器在wt處的沖擊響應(yīng)。
無失真條件確保由頻率wt組成的輸入信號能夠無失真地通過濾波器,使輸出能量最小化達(dá)到抑制除感興趣以外的其它頻率信號和噪聲的目的。所以MVDR方法能夠解決LP方法對諧波頻率處包絡(luò)能量估計(jì)不足的問題。
按照上面的情況,MVDR方法好像必須為wt單獨(dú)設(shè)計(jì)一個h(n),但在實(shí)際中進(jìn)行信號頻率估計(jì)時,可以直接由下式計(jì)算[8]:
ABC算法是一種模擬蜜蜂覓食行為的群智能優(yōu)化方法。為解決多變量函數(shù)優(yōu)化問題,Karboga于2005年提出的[9]。
在基本的ABC算法中,蜂群包括引領(lǐng)蜂、跟隨蜂和偵察蜂3種個體。引領(lǐng)蜂對應(yīng)一個確定的食物源(解向量)并在循環(huán)迭代中對該食物源的鄰域進(jìn)行搜索;跟隨蜂根據(jù)食物源的收益度(適應(yīng)值大?。┎捎幂啽P賭方式搜索新的食物源;偵察蜂隨機(jī)搜索新的食物源,使算法跳出局部最優(yōu)解,即如果食物源多次更新沒有改良,則舍棄該食物源。
文中所設(shè)計(jì)的識別系統(tǒng)框圖如圖1所示,先對輸入的語音情感信號進(jìn)行預(yù)處理(預(yù)加重、端點(diǎn)檢測、分幀、加窗等),再運(yùn)用MVDR譜估計(jì)方法對情感信號進(jìn)行特征參數(shù)提取,并對參數(shù)歸一化處理,然后采用ABC方法對語音情感特征向量降維,最后在得到的情感特征子集向量上建立RBF分類識別模型并得到最終的識別結(jié)果和識別率。
文中算法的具體步驟如下:
1)逐一對語音情感信號樣本進(jìn)行預(yù)加重、端點(diǎn)檢測、分幀、加窗等預(yù)處理,其中窗函數(shù)采用漢明窗,幀長為256,幀移為128。
2)按順序根據(jù)公式6提取每一幀語音情感信號的MVDR譜系數(shù),其中自相關(guān)矩陣的階數(shù)M=16(階數(shù)越高,譜分辨率越高)。
3)對MVDR譜系數(shù)按如下公式進(jìn)行歸一化處理。
4)運(yùn)用ABC算法對歸一化后的MVDR譜系數(shù)進(jìn)行特征選擇,選擇出最優(yōu)語音情感特征子集。
①ABC算法參數(shù)初始化。主要參數(shù)有人工蜂群大小Nc,引領(lǐng)蜂數(shù)量Ne,跟隨蜂數(shù)量No,舍棄食物源參數(shù)limit,最大循環(huán)次數(shù)MCN,種群中解的個數(shù)Ns,每個解向量Xi=(Xi1,Xi2,…,XiD)(i=1,2,…,SN)都為D維向量(D為優(yōu)化參數(shù)個數(shù),SN為食物源數(shù)目)。
其中Nc,Ne,No,Ns滿足Nc=2Ne=2No=2Ns,在初始階段根據(jù)以下公式隨機(jī)產(chǎn)生初始解Xi(i=1,2,…,SN),
其中j∈{1,2,…,D},Xmin,j與Xmax,j分別表示Xij中的下限與上限。
在本文識別模型中初始值設(shè)定分別為:Nc=20,Ne=No=Ns= 10,Limit=100,MCN=30。
②根據(jù)下列式子計(jì)算每個解Xi的適應(yīng)度值:,i=0,1,2,
③引領(lǐng)蜂記錄自己目前為止的最優(yōu)食物源,并根據(jù)記憶在當(dāng)前食物源鄰域內(nèi)展開搜索產(chǎn)生一個新的食物源,然后采用貪婪準(zhǔn)則在記錄中的最優(yōu)食物源與新的食物源之間進(jìn)行抉擇,即當(dāng)新的食物源優(yōu)于記錄中的食物源時,則用新的食物源替換舊的,否則,保留舊的食物源。
第i只引領(lǐng)蜂搜索鄰域產(chǎn)生新的食物源Vj的公式為:
其中,j∈{1,2,…,D},k為[1,SN]之間產(chǎn)生的隨機(jī)整數(shù),并且k≠i;φij∈[-1,1]之間的隨機(jī)數(shù),代表鄰域的搜索范圍。
④當(dāng)所有的引領(lǐng)蜂完成搜索過程后,將食物源的信息通過舞蹈區(qū)與跟隨蜂分享。跟隨蜂根據(jù)輪盤賭方式以一定概率選擇食物源。跟隨蜂選擇食物源的概率公式為:
其中,fit(Xi)表示第i解的適應(yīng)值對應(yīng)食物源的收益度。收益度越高的食物源被跟隨蜂選擇的概率越大。
同樣,跟隨蜂也要根據(jù)公式(8)進(jìn)行一次鄰域搜索,并與引領(lǐng)蜂一樣,選擇較好的食物源。
⑤當(dāng)某食物源保持迭代limit次沒有改進(jìn)時,則表示該食物源陷入局部最優(yōu),則應(yīng)當(dāng)舍棄該食物源,同時將該食物源對應(yīng)的引領(lǐng)蜂轉(zhuǎn)變?yōu)閭刹旆洌储耸诫S機(jī)產(chǎn)生一個新的食物源代替舊的。
⑥判斷是否達(dá)到最大迭代次數(shù)(MCN),若達(dá)到,則循環(huán)結(jié)束,輸出最優(yōu)食物源;否則返回繼續(xù)執(zhí)行C,D,E。
(5)將上述得到的每個語音情感信號樣本的最優(yōu)特征子集作為RBF分類器的輸入?yún)?shù),經(jīng)RBF識別后,得到每類情感的識別結(jié)果并統(tǒng)計(jì)出每類情感的平均識別率。
圖1 基于ABC優(yōu)化MVDR的語音情感識別流程圖Fig.1 Process of based on ABC optimization MVDR speech emotion recognition
本文所采用的語音庫為CASIA漢語情感語料庫,由中國科學(xué)院自動化研究所錄制,共包括4個專業(yè)發(fā)音人(2男2女),6種情感,我從中選擇angry,fear,happy,neutral 4類基本情感進(jìn)行研究,并將每人每類情感語句中的前30個作為訓(xùn)練樣本,后20個作為測試樣本。語音資料以wav格式存儲,采樣率為16 000 Hz,采樣精度為16 bit,信噪比約為35 db。實(shí)驗(yàn)平臺為CPU 2.40 GHz/2 GB,MATLABR2013a。分別用MVDR譜方法與LP譜方法對四種情感語音庫進(jìn)行特征參數(shù)提取,特征維數(shù)都為48維,包括16維的一階差分與16的二階差分。識別模型采用RBF。實(shí)驗(yàn)得到結(jié)果如表1所示。
表1 MVD與LP參數(shù)提取方法的識別率和識別時間Tab.1 Recognition rate and recognition time of MVD and LP parameter extraction method
從表1第3行的實(shí)驗(yàn)結(jié)果,我們不難看出,基于MVDR的語音情感新特征對實(shí)驗(yàn)的4種情感具有較高的區(qū)分能力,4種基本情感的識別率都達(dá)到了 60%以上,其中 fear和neutral的識別率較高,而angry與happy的識別率就相對較低。happy容易被錯誤的歸類fear中去,而angry主要與neutral存在一定的混淆,這主要是因?yàn)榍楦袕?qiáng)度類似的語音在發(fā)音時的許多生理特性存在一定的類似,容易混淆。從整個表1我們可以知道,用MVDR譜方法比用LP譜方法提取特征參數(shù),4種基本情感的識別率都有所提高,其中angry,fear,happy,neutral的識別分別提高了 6.45%,5.6%,6.4%,11.1%,以至平均識別率提高了7.44%,從而進(jìn)一步證明了MVDR提取情感特征的有效性,但是MVDR譜方法會使得識別系統(tǒng)的平均識別時間提高,所以文中提出了用ABC算法找到最優(yōu)特征子集,消除特征冗余。實(shí)驗(yàn)得到的結(jié)果如表2所示。
表2 MVDR與MVDR+ABC方法的識別率與識別時間Tab.2 Recognition rate and recognition time of MVDR and MVDR+ABC methods
從表2中的實(shí)驗(yàn)結(jié)果,我們可以看出經(jīng)ABC算法特征選擇的平均識別時間比單獨(dú)MVDR方法縮短了很多,并且在識別率方面也有一定的提高,angry,fear,happy,neutral的識別率分別提高了8.5%,2.3%,6%,0.85%,致使平均識別率提高了4.55%,所以相對于單獨(dú)的MVDR方法,ABC算法在情感識別率與系統(tǒng)性能上都有較大的提高。
針對傳統(tǒng)的LP方法過于強(qiáng)調(diào)諧波頻率上的能量,使得語音情感譜包絡(luò)形狀尖銳,本文提出了MVDR譜方法用于提取特征參數(shù),并用RBF進(jìn)行識別。實(shí)驗(yàn)結(jié)果顯示,該方法比傳統(tǒng)LP譜方法明顯提高了識別率,但增加了平均識別時間,所以提出了ABC算法用于特征選擇,消除特征冗余。結(jié)果表明,ABC算法不僅減少了平均識別時間,而且提高平均識別率,使得語音情感識別系統(tǒng)魯棒性增強(qiáng)。所以證明了本文算法的有效性。
[1]Capon J.High-resolution frequency-wavenumber spectral analysis[C]//Proceedings of the IEEE.USA:IEEE,1969,57:1408-1418.
[2]Lacoss R T.Data adaptive spectral analysis methods[J]. Geophysics,1971,36:661-675.
[3]Cox H.Robust adaptive beamforming[J].IEEE Transactions on Acoustic Speech and Signal Processing,1987,35(10):1365-1375.
[4]Dharanipragada S.Feature extraction for robust speech recognition[C]//IEEE International Sympo-sium on Circuits and Systems.USA:IEEE,2002:855-858.
[5]Yapanel U H,Dharanipragada S.Perceptual MVDR-based cepstral cosfficients(PMCCs)for noise robust recognition[M]. In:IEEE ICASSPO3,2003.
[6]Md.Jahangir Alam,Patrick Kenny,Douglas O'Shaughnessy,RegularizedMVDR Spectrum Estimation-based Robust Feature Extractors for Speech Recognition[J].Proc.INTERSPEECH,Lyon,F(xiàn)rance,2013.
[7]Ntalampiras S,F(xiàn)akotakis N.Modeling the temporal evolution of acoustic parameters for speech emotion recognition[J]. IEEE Transactions on Affective Computing,2012,3(1):116-125.
[8]Haykin S.Adaptive Filter Theory[M].Englewood Cliffs,NJ:Prentice Hall,1991.
[9]KARABOGA D.An idea based on honey bee swarm for numerical optimization[R].Erciyes:Erciyes University,Engi-
Speech emotion recognition based on ABC optimization MVDR
SUN Zhi-feng
(School of Computer Science Shaanxi Normal University,Xi’an 710062,China)
It is a crucial problem to extract and choose the features of speech emotion.To solve the problem of Linear Prediction in speech emotion spectrum envelope,this paper puts forward to extract the features of speech emotion with Minimum Variance Distortionless Response(MVDR)spectrum method.In order to eliminate redundant information,it uses Artificial Bee Colony(ABC)algorithm to obtain the optimal subset of the features.Then the experiment recognise four speech emotions namely:angry,neutral,happy,fear,in the Casia Chinese Emotion Corpus through Radial Basis Function(RBF)Neural Network method.The results show that the approach in this paper has higher rate of recognition and is more robust.
minimum variance distortionless response;artificial bee colony algorithm;speech emotion recognition;linear prediction
TN710.9
A
1674-6236(2016)03-0011-03
2015-03-15稿件編號:201503196
孫志鋒(1989—),男,江西上饒人,碩士研究生。研究方向:信號處理,模式識別。