張昕然 查 誠 徐新洲 宋 鵬 趙 力
(1東南大學(xué)水聲信號處理教育部重點(diǎn)實(shí)驗(yàn)室,南京210096)(2東南大學(xué)信息科學(xué)與工程學(xué)院,南京210096)(3東南大學(xué)兒童發(fā)展與學(xué)習(xí)科學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,南京210096)
基于LDA+kernel-KNNFLC的語音情感識別方法
張昕然1,2查 誠1徐新洲1宋 鵬3趙 力1,2
(1東南大學(xué)水聲信號處理教育部重點(diǎn)實(shí)驗(yàn)室,南京210096)(2東南大學(xué)信息科學(xué)與工程學(xué)院,南京210096)(3東南大學(xué)兒童發(fā)展與學(xué)習(xí)科學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,南京210096)
結(jié)合K近鄰、核學(xué)習(xí)方法、特征線重心法和LDA算法,提出了用于情感識別的LDA+kernel-KNNFLC方法.首先針對先驗(yàn)樣本特征造成的計(jì)算量龐大問題,采用重心準(zhǔn)則學(xué)習(xí)樣本距離,改進(jìn)了核學(xué)習(xí)的K近鄰方法;然后加入LDA對情感特征向量進(jìn)行優(yōu)化,在避免維度冗余的情況下,更好地保證了情感信息識別的穩(wěn)定性.最后,通過對特征空間再學(xué)習(xí),結(jié)合LDA的kernel-KNNFLC方法優(yōu)化了情感特征向量的類間區(qū)分度,適合于語音情感識別.對包含120維全局統(tǒng)計(jì)特征的語音情感數(shù)據(jù)庫進(jìn)行仿真實(shí)驗(yàn),對降維方案、情感分類器和維度參數(shù)進(jìn)行了多組對比分析.結(jié)果表明,LDA+kernel-KNNFLC方法在同等條件下性能提升效果最顯著.
語音情感識別;K近鄰;核學(xué)習(xí);特征重心線;線性判別分析
由于語音情感識別(speech emotion recognition,SER)融合模式識別、機(jī)器學(xué)習(xí)以及語音信號等領(lǐng)域,因而得到了廣泛的研究.相比情感特征提取和語音數(shù)據(jù)庫分析領(lǐng)域的大量研究,對語音情感識別性能方面的關(guān)注度偏少.
近年來在情感計(jì)算領(lǐng)域,包括重回歸分析和主元素分析等多變量解析方法神經(jīng)網(wǎng)絡(luò)技術(shù),都取得了一定的進(jìn)展[1],但由于情感特征學(xué)習(xí)收斂性問題,還存在一定的局限性.另外,采用主元分析法、最大似然貝葉斯分類器和K最近鄰分類器、人工神經(jīng)元網(wǎng)絡(luò)、隱馬爾科夫模型[2-3]等技術(shù)的情感計(jì)算方法,也取得了一定的成果.
語音情感識別中的K近鄰分類法(K-nearest neighbor,KNN)因其易于實(shí)現(xiàn)而被作為常用的分類器.但是其識別性能在很大程度上依賴于語音情感特征數(shù)據(jù)庫的表征能力.因此,文獻(xiàn)[4-5]提出最近特征線(nearest neighbor feature line centroid,NNFLC)的識別方法來擴(kuò)展樣本的表征能力.先提取出樣本的低維特征,然后用同一個(gè)類中的2個(gè)樣本特征點(diǎn)得到一條直線,用此直線來描述2個(gè)樣本點(diǎn)間的特征變化,從而擴(kuò)展樣本的表征能力,取得了較好的識別結(jié)果.文獻(xiàn)[6-7]提出的核學(xué)習(xí)方法,可將原空間的待分類樣本映射到一個(gè)高維的特征空間(核空間).該方法利用核學(xué)習(xí)思想和結(jié)合K近鄰分類方法,通過非線性映射來突出不同類別的樣本特征差異,使得原來線性不可分的樣本點(diǎn)在核空間變得更加線性可分(或近似線性可分),從而提高了分類效果.
NNFLC和核學(xué)習(xí)分類方法雖然在一定程度上提升了語音情感特征的識別性能,然而這些方法存在如下問題:① 這2種分類方法用于語音情感識別,需要先抽取情感數(shù)據(jù)庫的特征作為樣本,如果數(shù)據(jù)量較大則運(yùn)算效率會(huì)大幅降低,難以保證訓(xùn)練樣本的有效性.② NNFLC是針對線性變換得到的方法,但在實(shí)際語音情感數(shù)據(jù)中,單用線性變換難以全面地表征人類復(fù)雜的情感信息;核學(xué)習(xí)方法雖然利用高維空間映射保留了情感信息的非線性因子,但同時(shí)也加大了數(shù)據(jù)的冗余量,可能會(huì)導(dǎo)致計(jì)算量過大甚至“維度災(zāi)難”.
針對上述問題,本文提出了將核K近鄰與線性判別分析(linear discriminant analysis, LDA)方法相結(jié)合,并采用重心準(zhǔn)則學(xué)習(xí)樣本距離,從而得到LDA+核K近鄰重心(LDA+kernel-KNNFLC)方法.這種方法保留了非線性空間部分的語音情感信息,并同時(shí)避免了維度過高造成的計(jì)算量問題.其中,LDA保證了更好的情感信息識別穩(wěn)定性;而核學(xué)習(xí)通過再生核希爾伯特空間(RKHS)思想[8],盡可能地保留了數(shù)據(jù)信息;同時(shí),重心準(zhǔn)則降低了距離計(jì)算的復(fù)雜度并解決了特征線失效問題.
1.1 基于核學(xué)習(xí)K近鄰語音情感識別方法
KNN算法是最近鄰算法的推廣,其優(yōu)點(diǎn)是分類速度快、簡單易行且屬于非參數(shù)分類算法,現(xiàn)已廣泛應(yīng)用于模式識別和數(shù)據(jù)挖掘等各個(gè)領(lǐng)域.然而其性能較大依賴于訓(xùn)練樣本特征的表征能力.傳統(tǒng)K近鄰法簡單地說就是取未知樣本X的K個(gè)近鄰,按照近鄰數(shù)目所屬類別把x歸類[9].即:從N個(gè)已知樣本中找出的X的K個(gè)近鄰,若K1,K2,…,Kc分別是K個(gè)近鄰中屬于ω1,ω2,…,ωc類的樣本數(shù),則可定義判別函數(shù)為
gj(X)=Kii=1,2,…,c
(1)
若
(2)
則得到?jīng)Q策X∈ωj.
但語音情感數(shù)據(jù)保留高自然度和復(fù)雜語義屬性,其樣本邊界往往存在線性不可分或分布為非高斯分布等情況,K近鄰法表現(xiàn)出的分類效果較差[10].為了提高分類的效果,克服K近鄰法這一缺點(diǎn),將統(tǒng)計(jì)學(xué)習(xí)理論中的核學(xué)習(xí)方法(kernel learning)與K近鄰法相結(jié)合[11],得到基于語音情感識別的kernel-KNN法.
kernel-KNN分類算法的基本思想是:首先利用一個(gè)隱式的非線性映射Φ(x),將樣本x從輸入空間R映射到一個(gè)高維的特征空間F中,如
Φ:Rn→F,x→Φ(x)
(3)
映射的目的是突出不同類別樣本之間的特征差異,使得樣本在特征空間中變得線性可分(或近似線性可分),然后再在這個(gè)高維的特征空間中進(jìn)行傳統(tǒng)的K近鄰分類.
核學(xué)習(xí)方法的一個(gè)重要特點(diǎn)就是利用核函數(shù)取代特征空間的內(nèi)積運(yùn)算,因此在計(jì)算時(shí)無需知道非線性映射函數(shù)Φ(x)的形式.樣本x,x′映射至特征空間F中的點(diǎn)Φ(x),Φ(x′)的內(nèi)積為
k(x,x′)≤Φ(x),Φ(x′)≥ΦT(x)Φ(x′)
(4)
式中,k(x,x′)為核函數(shù).
這些函數(shù)中應(yīng)用最廣的是RBF核,無論是小樣本還是大樣本,高維還是低維等,RBF核函數(shù)均適用.針對語音情感數(shù)據(jù)特征,RBF函數(shù)相比其他的函數(shù)有以下優(yōu)點(diǎn):
① RBF核函數(shù)可以將一個(gè)樣本映射到一個(gè)更高維的空間,而且線性核函數(shù)是RBF的一個(gè)特例,而語音情感樣本集就包含多種語義信息和特征性質(zhì),因此相比線性核函數(shù),RBF更適用于語音情感識別.
② 與多項(xiàng)式核函數(shù)相比,RBF需要確定的參數(shù)要少,核函數(shù)參數(shù)的多少直接影響函數(shù)的復(fù)雜程度.另外,當(dāng)多項(xiàng)式的階數(shù)比較高時(shí),語音情感樣本核矩陣的元素值將趨于無窮大或無窮小,而RBF則具有相對固定的參數(shù),會(huì)減少計(jì)算情感數(shù)據(jù)樣本數(shù)值的困難.
③ 對于需要保留自然度和多種語義的樣本參數(shù),RBF比sigmoid具有更好的性能.其映射能力和非線性逼近能力均較強(qiáng),更加適合大數(shù)據(jù)量的語音情感識別樣本集.
1.2 基于核學(xué)習(xí)K近鄰特征線重心法
圖1 特征線示意圖
圖2 特征線的失效和特征線重心方法示意圖
(5)
(6)
1.3 基于LDA的kernel-KNNFLC語音情感識別方法
LDA的基本思想是將高維的模式樣本投影到最佳判別矢量空間,以達(dá)到抽取分類信息和壓縮特征空間維數(shù)的效果,投影后保證模式樣本在新的子空間有最大的類間距離和最小的類內(nèi)距離.利用LDA在該空間中有最佳的可分離性,將語音情感數(shù)據(jù)樣本類間離散度矩陣定義為
(7)
式中,μi為Ci類情感的均值;μ為所有情感樣本的均值;Pi為先驗(yàn)概率.
情感樣本類內(nèi)離散度矩陣定義為
(8)
(9)
情感樣本類間離散度越大越好,而情感樣本類內(nèi)離散度越小越好.因此如果Sw是非奇異矩陣,最優(yōu)的投影Wopt就是使得情感樣本類間離散度矩陣和情感樣本類內(nèi)離散度矩陣的行列式比值最大的正交特征向量[12].因此,Fisher準(zhǔn)則函數(shù)定義為
(10)
據(jù)此,可以將該問題轉(zhuǎn)化為求Wopt滿足如下等式的最優(yōu)解問題:
SbWi=λiSwWi
(11)
y=WTx
(12)
在使用核函數(shù)將情感樣本映射到高維的特征空間時(shí),其優(yōu)點(diǎn)是能夠使得在原空間中不易線性可分的數(shù)據(jù)在高維的特征空間變得線性可分(或近似線性可分).但是由于情感樣本被核函數(shù)映射到高維空間,使得特征的維數(shù)增加,影響識別計(jì)算的速度,甚至造成“維數(shù)災(zāi)難”.同時(shí),本文在仿真實(shí)驗(yàn)中提取了120維語音情感特征,這些特征不一定都是最有效的,所以需要進(jìn)行特征選擇.而線性判別分析(LDA)可以有效地進(jìn)行特征提取,在降低特征維數(shù)的同時(shí)提高不同類別情感特征之間的區(qū)分度.
為驗(yàn)證結(jié)合LDA識別方案的區(qū)分效果,對語音情感庫中的憤怒、煩躁、高興3種情感特征進(jìn)行LDA線性判別分析.樣本特征降維至2維,經(jīng)LDA變化后各樣本特征在新特征空間的分布如圖3所示.由圖可見,經(jīng)過LDA變換后情感特征之間區(qū)分度增大,聚類效果明顯,進(jìn)而可以針對5類情感數(shù)據(jù)進(jìn)行進(jìn)一步的實(shí)驗(yàn)設(shè)計(jì).
圖3 LDA變換后樣本在特征空間分布圖
本文提出將LDA與核KNNFLC結(jié)合用于語音情感識別,在識別時(shí)先對C類語音情感特征進(jìn)行LDA線性判別分析,將情感特征降維至C-1維,再使用核學(xué)習(xí)的KNNFLC方法進(jìn)行分類識別.LDA+kernel-KNNFLC訓(xùn)練識別步驟如下:
① 對C類訓(xùn)練樣本提取出n維情感特征,進(jìn)行LDA線性判別分析,使用式(11)計(jì)算出變換矩陣W,利用式(12)將n維情感特征降維至C-1維,構(gòu)成樣本庫.
② 從待識別樣本中提取n維情感特征x,由式(12)將n維特征降維至C-1維特征y.
③ 利用式(6)在高維空間中計(jì)算出特征y與樣本庫中每個(gè)特征線重心的距離d.
④ 依據(jù)K近鄰法則將待識別樣本歸類.
本文提出的LDA+kernel-KNNFLC語音情感識別流程如圖4所示.
實(shí)驗(yàn)在實(shí)驗(yàn)室錄制的語音情感庫上進(jìn)行[13].使用了120個(gè)全局統(tǒng)計(jì)特征,構(gòu)成用于識別的情感特征向量.
1) 特征1~4.短時(shí)能量最大值、最小值、均值、方差.
圖4 語音情感識別流程圖
2) 特征5~8.基音最大值、最小值、均值、方差.
3) 特征9~12.基音一階差分最大值、最小值、均值、方差.
4) 特征13~16.第一、第二、第三共振峰最大值、最小值、均值、方差.
5) 特征17~68.梅爾倒譜系數(shù)MFCC1~MFCC13最大值、最小值、均值、方差.
6) 特征69~120.梅爾倒譜系數(shù)MFCC1~MFCC13一階差分最大值、最小值、均值、方差.
用于實(shí)驗(yàn)的樣本集包括了憤怒、煩躁、高興、悲傷和平靜5種情感的語句各800條.其中每種情感選600條作為訓(xùn)練樣本,另外200條作為待識別樣本,而且訓(xùn)練樣本和待識別樣本中,男女聲音樣本比例基本為1∶1.提取出語音情感的120維特征,采用全局統(tǒng)計(jì)特征原理構(gòu)成語音情感特征的向量.仿真實(shí)驗(yàn)環(huán)境為Inter Core i5-2300 2.8 GHz,4 GB內(nèi)存,Windows 7操作系統(tǒng),編程環(huán)境為Matlab R2011b.
本文分別對KNN,LDA+KNN和LDA+kernel-KNNFLC算法進(jìn)行了語音情感識別仿真實(shí)驗(yàn),并同時(shí)分別使用主成分分析(principal component analysis, PCA)和樸素貝葉斯分類(naive Bayesian classification)對降維部分和情感識別分類部分進(jìn)行對比實(shí)驗(yàn),測試本文提出的語音情感識別方案的性能.
2.1 3種KNN分類方案情感識別實(shí)驗(yàn)分析
針對KNN算法所構(gòu)建的仿真實(shí)驗(yàn)中基于核的非線性分類器均是直接對120維的語音情感矢量進(jìn)行識別的,而線性分類器均先用LDA抽取主分量特征,所選最優(yōu)投影Wopt使LDA的重構(gòu)誤差為4%.為消除單次選擇樣本的隨機(jī)性,每類隨機(jī)選取200個(gè)樣本共1 000個(gè)訓(xùn)練樣本,剩下的3 000個(gè)作為測試樣本,重復(fù)10次取平均識別率.表1為K近鄰、LDA+K近鄰以及LDA+kernel-KNNFLC三種方案針對5類情感類別的識別率和平均識別率.
表1 3種語音情感識別方案的識別率
從表1中可以看出,KNN方法對5種情感的識別率普遍較低,平均識別率不到60%,2類情感識別率只有36%左右,效果很不理想.LDA+KNN方法通過對原始特征進(jìn)行LDA變換,提高了樣本特征之間的區(qū)分度,識別效果相對于KNN方法有了較大的提高,平均識別率超過70%.LDA+kernel-KNNFLC方法在LDA變換的基礎(chǔ)上,利用核學(xué)習(xí)思想改進(jìn)了傳統(tǒng)的KNN方法,通過引入特征線重心提高了樣本特征的表征能力,平均識別率達(dá)到了82.1%.
2.2 2種kernel-KNNFLC降維方案情感識別實(shí)驗(yàn)分析
采用PCA方法替換LDA對語音情感數(shù)據(jù)樣本進(jìn)行降維,實(shí)驗(yàn)?zāi)P筒捎门c上述實(shí)驗(yàn)相同的結(jié)構(gòu),并設(shè)置降維后特征空間維數(shù)為5,K近鄰中臨近加權(quán)參數(shù)設(shè)K=3(維度及加權(quán)參數(shù)的實(shí)驗(yàn)分析在LDA+kernel-KNNFLC參數(shù)對比實(shí)驗(yàn)中進(jìn)行).對比實(shí)驗(yàn)結(jié)果如圖5所示.
圖5 2種方案對5類情感降維識別對比圖
由圖5中對比實(shí)驗(yàn)可以觀察到,2種降維方法均采用核學(xué)習(xí)的K近鄰特征線重心分類方法,與KNN和LDA+KNN方法相比,正確識別率有了明顯的提升.“煩躁”、“悲傷”和“平靜”3種情緒的識別率在70%以上,其中“煩躁”達(dá)到了95%以上.對比2種降維方案,在“憤怒”、“高興”、“悲傷”和“平靜”4個(gè)情緒類別中,LDA+kernel-KNNFLC方案相比其對照組,語音情感識別率分別提高了4.5%,6.5%,25%和13%.這是由于PCA特征空間的降維優(yōu)化是以區(qū)分5類情感為準(zhǔn)則的,因此在同一個(gè)特征空間中,就很難兼顧到所有5類語音情感的最佳情感特征.特別地,從圖5中可以看出,PCA對“悲傷”的情感特征的優(yōu)化并不理想.而本文提出的LDA+kernel-KNNFLC方案,利用特征向量間的離散度加權(quán),使得情感特征類間區(qū)分度極大化,增加了對語音情感樣本集的識別能力.
2.3 kernel-KNNFLC與NB和GMM分類器對比實(shí)驗(yàn)分析
本組實(shí)驗(yàn)對樸素貝葉斯(naive Bayes, NB)和高斯混合模型(GMM)2種常用的分類器進(jìn)行實(shí)驗(yàn)仿真,識別測試中將LDA降維后與NB,GMM相結(jié)合,分析3種不同分類方案的情感識別性能.
表2 3種語音情感識別分類器的識別率
從表2可以看出,引入LDA降維后,LDA+NB和LDA+GMM分類器比KNN獨(dú)立識別語音情感,識別率有了一定的提高,但與LDA+kernel-KNNFLC方案相比,還有較大差距.這是由于NB算法有一定的局限性,其假定了特征向量之間是獨(dú)立分布的,而在語音情感特征空間中的幾個(gè)特征向量顯然不是獨(dú)立分布的,因而得到的LDA+NB分類器性能就比較有限.而GMM 是一種單狀態(tài)的混合連續(xù)分布隱馬爾可夫模型,能夠融合含有不同情感的語音在發(fā)音時(shí)的聲學(xué)特性和時(shí)間上的變動(dòng)[14].然而在選用GMM 模型進(jìn)行建模時(shí)一般需要比較多的訓(xùn)練數(shù)據(jù),當(dāng)訓(xùn)練數(shù)據(jù)較少時(shí)會(huì)影響GMM 模型的學(xué)習(xí)性能[15].因此相比kernel-KNNFLC方法,其語音情感識別穩(wěn)定性較差.
2.4 LDA+kernel-KNNFLC方案中參數(shù)對比實(shí)驗(yàn)分析
由圖6(a)可看出,結(jié)合LDA降維算法改進(jìn)后,基于核的KNNFLC分類器對語音情感識別性能比較穩(wěn)定,并在維度為4和5時(shí)達(dá)到最佳效果.這是由于求解廣義特征值原理中,求解最小特征數(shù)目能達(dá)到最優(yōu)化的目的[16].本文實(shí)驗(yàn)采用5類語音情感來進(jìn)行,因此維度降至4和5,即可達(dá)到最佳的識別效果.從圖6(b)可以看出,用最近特征線重心方法改進(jìn)的RBF核函數(shù),在近鄰參數(shù)K=3時(shí)效果達(dá)到最佳.
(a) 目標(biāo)維度
(b) 徑向基核函數(shù)
本文在LDA+KNNFLC方法核學(xué)習(xí)的基礎(chǔ)上,結(jié)合LDA降維方法,同時(shí)引入了特征線重心對KNN算法進(jìn)行改進(jìn),擴(kuò)展了樣本特征的表征能力,進(jìn)而提高了分類識別能力.LDA的引入解決了由于核空間維數(shù)較高,易造成“維數(shù)災(zāi)難”影響識別計(jì)算速度的問題,提高了不同類別特征之間的區(qū)分度.
由對比實(shí)驗(yàn)可以看出,結(jié)合LDA的核學(xué)習(xí)K近鄰特征線重心的語音情感識別方法,相比其他分類方案具有更好的識別效果;同時(shí),針對5種情感樣本集,相較于其他降維方法也具有更穩(wěn)定的工作性能.分別針對語音情感識別中,預(yù)先抽取樣本造成的訓(xùn)練數(shù)據(jù)量過大問題,以及非線性映射和數(shù)據(jù)冗余的平衡問題進(jìn)行的方案改進(jìn),相比原有幾種識別方案改進(jìn)后的方案體現(xiàn)出明顯的優(yōu)勢.
另外根據(jù)本文進(jìn)行的多組仿真對比實(shí)驗(yàn),可以觀察出這5種情感中,“煩躁”情感識別率在各個(gè)識別方案中都是最高的,而“憤怒”和“高興”較差,原因主要是后2類情感在發(fā)音時(shí),許多生理特征相似,較易混淆,同時(shí)本文提取的情感特征對于“煩躁”情感表征更準(zhǔn)確.這也說明了在后續(xù)的研究工作中,情感特征的優(yōu)化還有一段提升的空間.
References)
[1]Scherer K R. Vocal communication of emotion: a review of research paradigms[J].SpeechCommunication, 2003, 40(1/2): 227-256.
[2]Scherer K R, Mortillaro M, Mehu M. Understanding the mechanisms underlying the production of facial expression of emotion: a componential perspective[J].EmotionReview, 2013, 5(1): 47-53.
[3]Lin J C, Wu C H, Wei W L. Error weighted semi-coupled hidden Markov model for audio-visual emotion recognition[J].IEEETransactionsonMultimedia, 2012, 14(1):142-156.
[4]Li S Z, Lu J. Face recognition using the nearest feature line method[J].IEEETransactionsonNeuralNetworks, 1999, 10(2): 439-443.
[5]Li S Z. Content-based audio classification and retrieval using the nearest feature line method[J].IEEETransactionsonSpeechandAudioProcessing, 2000, 8(5): 619-625.
[6]Scholkopf B, Smola A, Muller K. Non-linear component analysis as a kernel eigenvalue problem [J].NeuralNetwork, 1999, 9(4): 1299-1319.
[7]Muller K, Mika S, Ratsch G, et al. An introduction to kernel-based learning algorithms[J].IEEETransactionsonNeuralNetworks, 2001, 12(2): 181-201.
[8]Jung A, Schmutzhard S, Hlawatsch F. The RKHS approach to minimum variance estimation revisited: variance bounds, sufficient statistics, and exponential families[J].IEEETransactionsonInformationTheory, 2014, 60(7): 4050-4065.
[10]Wu Chung-Hsien, Liang Wei-Bin. Emotion recognition of affective speech based on multiple classifiers using acoustic-prosodic information and semantic labels[J].IEEETransactionsonAffectiveComputing, 2011, 2(1):10-21.
[11]Zeng Hong, Cheung Yiu-ming. Feature selection and kernel learning for local learning-based clustering[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2011, 33(8):1532-1547.
[12]Yan Shuicheng, Xu Dong, Zhang Benyu, et al. Graph embedding and extensions: a general framework for dimensionality reduction[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2007, 29(1):40-51.
[13]黃程韋,趙艷,金赟,等. 實(shí)用語音情感的特征分析與識別的研究[J]. 電子與信息學(xué)報(bào), 2011, 33(1): 112-116. Huang Chengwei,Zhao Yan,Jin Yun, et al. A study on feature analysis and recognition of practical speech emotion[J].JournalofElectronics&InformationTechnology, 2011, 33(1): 112-116.(in Chinese)
[14]Dileep A D, Sekhar C C. GMM-based intermediate matching kernel for classification of varying length patterns of long duration speech using support vector machines[J].IEEETransactionsonNeuralNetworksandLearningSystems, 2014, 25(8): 1421-1432.
[15]Wu Chung-Hsien, Wei Wen-Li, Lin Jen-Chun, et al. Speaking effect removal on emotion recognition from facial expressions based on eigenface conversion[J].IEEETransactionsonMultimedia, 2013, 15(8):1732-1744.
[16]Satapathy S C, Udgata S K, Biswal B N, et al.Speechemotionrecognitionusingregularizeddiscriminantanalysis[M]. Bhubaneswar, Switzerland: Springer International Publishing, 2014: 363-369.
Speech emotion recognition based on LDA+kernel-KNNFLC
Zhang Xinran1,2Zha Cheng1Xu Xinzhou1Song Peng3Zhao Li1,2
(1Key Laboratory of Underwater Acoustic Signal Processing of Ministry of Education, Southeast University, Nanjing 210096, China) (2School of Information Science and Engineering, Southeast University, Nanjing 210096, China) (3Key Laboratory of Child Development and Learning Science of Ministry of Education, Southeast University, Nanjing 210096, China)
Based on KNN (K-nearest neighbor), kernel learning, FLC (feature line centroid) and LDA (linear discriminant analysis) algorithm, the LDA+kernel-KNNFLC method is put forward for emotion recognition according to the characteristics of the speech emotion features. First, in view of the large amount of calculation caused by the prior sample characteristics, the KNN of kernel learning method is improved by learning sample distances with the FLC. Secondly, by adding LDA to emotional feature vectors, the stability of emotional information recognition is ensured and dimensional redundancy is avoided. Finally, by the relearning of feature spaces, LDA+kernel-KNNFLC can optimize the degree of differentiation between emotional feature vectors, which is suitable for speech emotion recognition (SER). An emotional database is used for simulation tests, which contains 120 dimensional global statistical characteristics. Multiple comparison analysis is conducted through the dimension reduction scheme, emotion classifiers and dimension parameters. The results show that the improvement effect for SER by using LDA+kernel-KNNFLC is remarkable under the same conditions.
speech emotion recognition; K-nearest neighbor; kernel learning method; feature line centroid; linear discriminant analysis
2014-09-17. 作者簡介: 張昕然(1987—),男,博士生;趙力(聯(lián)系人),男,博士,教授,博士生導(dǎo)師,zhaoli@seu.edu.cn.
國家自然科學(xué)基金資助項(xiàng)目(61273266, 61231002, 61375028)、教育部博士點(diǎn)專項(xiàng)基金資助項(xiàng)目(20110092130004).
張昕然,查誠,徐新洲,等.基于LDA+kernel-KNNFLC的語音情感識別方法[J].東南大學(xué)學(xué)報(bào):自然科學(xué)版,2015,45(1):5-11.
10.3969/j.issn.1001-0505.2015.01.002
TP391.42
A
1001-0505(2015)01-0005-07