摘" 要: 針對情緒發(fā)生過程中電極通道間的空間依賴關系會隨著時間推移而發(fā)生變化的問題,提出了一種基于動態(tài)圖卷積神經(jīng)網(wǎng)絡-雙向長短時記憶網(wǎng)絡(DGCNN-BiLSTM)的模型用于情緒識別。首先,利用DGCNN通過訓練神經(jīng)網(wǎng)絡動態(tài)學習不同電極通道之間的聯(lián)系,從而動態(tài)更新優(yōu)化鄰接矩陣;其次,BiLSTM可以學習特征序列的前后時間相關性,從而提高網(wǎng)絡情緒識別能力。在SEED和DEAP數(shù)據(jù)集上進行了實驗,前者取得92.03%的最高平均準確率,后者在喚醒維度和效價維度實驗中分別取得96.56%和95.22%的最高平均準確率。結果表明,模型有利于提升情緒識別準確率,與其他方法相比,情緒分類精度也有不同程度的提升。
關鍵詞: 圖卷積神經(jīng)網(wǎng)絡;動態(tài)圖卷積神經(jīng)網(wǎng)絡;雙向長短時記憶網(wǎng)絡;情緒識別;鄰接矩陣
中圖分類號: TP391
文獻標識碼: A" 文章編號: 2096-3998(2024)05-0067-07
收稿日期:2023-12-21" 修回日期:2024-04-01
基金項目:云南省基礎研究項目(202301AV070003)
*通信作者:楊俊(1984—),男,云南昆明人,博士,講師,主要研究方向為腦電信號解碼。
引用格式:鄭進港,楊俊.基于動態(tài)圖卷積神經(jīng)網(wǎng)絡和BiLSTM的情緒識別.陜西理工大學學報(自然科學版),2024,40(5):67-73.
在日常生活中,情緒會影響我們與他人的互動,甚至影響我們對一件事情的決策。有關情緒狀態(tài)的信息對人機交互至關重要,為了減少人機交互之間的差距,情緒識別系統(tǒng)的設計成為研究的熱門領域。日常生活中,我們大多通過面部表情和說話語氣來判斷別人的情緒狀態(tài),但是,這兩種方式很容易隱藏,極易導致判斷錯誤。腦電圖(Electroencephalography,EEG)作為一種非侵入式設備采集的生理信號,可用于直接收集情緒狀態(tài)下的EEG信號活動,有利于更客觀地反應一個人的情緒狀態(tài)。
目前主要有兩個模型用來描述EEG數(shù)據(jù)中的情緒,即離散模型和維度模型。離散模型主要包括8種情緒,有喜悅、悲傷、驚訝、恐懼、憤怒、厭惡、好奇和贊成。維度模型則將情感表示到二維或三維空間上,兩個維度(喚醒維度和效價維度)的模型被廣泛使用,其中,喚醒反映了個體感受到情緒的生理激活強度,效價反映了情緒狀態(tài)由負到正的變化。
從EEG信號中準確識別出情緒狀態(tài)依賴于具有區(qū)別性的EEG信號特征。EEG信號是離散的時間序列,從中可以提取空間、頻率和時間特征。在時域中,最常用的是統(tǒng)計信息,如熵、分形維數(shù)和高階交叉。在頻域中,通常先將EEG信號分解成若干頻帶,如δ帶(1~3 Hz)、θ帶(4~7 Hz)、α帶(8~13 Hz)、β帶(14~30 Hz)和γ帶(大于30 Hz),每個頻帶都在某個大腦活動中占主導地位。然后在每個頻帶中提取頻域特征,最常用的有微分熵(Differential Entropy,DE)特征、功率譜密度(Power Spectral Density,PSD)特征、不對稱性(Asymmetry,ASM)等,與時域特征相比,頻域特征更適合用于情緒識別。一些研究已經(jīng)證明,與情緒相關的主要神經(jīng)信息主要分布在較高的頻帶中。
卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)是情緒識別領域應用最廣泛的分類方法,它主要關注局部特征的學習。LI Xueqing等提出了一種CNN和雙向長短期記憶網(wǎng)絡以及自注意力機制(CNN+BiLSTM+自注意力)的模型,在DEAP數(shù)據(jù)集上的實驗結果表明該方法具有優(yōu)秀的識別性能和泛化能力。當前,基于EEG的情緒識別主要集中在利用時間、空間和時空等多維度的EEG數(shù)據(jù)進行分析。一些利用EEG時空特性進行情緒識別的方法雖然考慮了EEG的時間和空間特征,但直接從EEG數(shù)據(jù)中提取這些信息,不能有效地重建EEG數(shù)據(jù)的時空特性。因此,為了解決這些問題,SUN Jie等提出了一種新的多通道EEG情緒識別模型,采用了并行Transformer和三維卷積神經(jīng)網(wǎng)絡(3D-CNN)組合的情緒識別模型。在DEAP、SEED等數(shù)據(jù)集上進行實驗,證明了所提出的方法是有效的。對于腦網(wǎng)絡特征的學習,信號在空間域上是離散和不連續(xù)的,傳統(tǒng)的CNN可能不太適用,這時,基于圖的描述方法會更適合一些。圖卷積神經(jīng)網(wǎng)絡(Graph Convolutional Neural Network,GCNN)是傳統(tǒng)CNN的擴展,它將譜理論和CNN相結合,在處理離散空間域信號的特征提取方面更具優(yōu)勢,還可以描述圖中不同節(jié)點之間的內(nèi)在關系,正適合應用在探索多個EEG通道之間的關系問題上。雖然GCNN可以根據(jù)不同節(jié)點的空間位置來描述它們之間的連接,但是它在處理圖數(shù)據(jù)時需要明確的鄰接矩陣來指導其對圖結構進行學習,所以在應用于模型之前要預先確定每個EEG通道之間的連接。
情緒發(fā)生過程中,電極通道之間的空間依賴關系會隨時間變化,而傳統(tǒng)的GCNN無法更新電極通道之間的鄰接矩陣,因此,本文提出一種基于動態(tài)圖卷積神經(jīng)網(wǎng)絡(Dynamical Graph Convolutional Neural Networks,DGCNN)和雙向長短時記憶網(wǎng)絡(Bidirectional Long Short-Term Memory,BiLSTM)的情緒識別模型。具體來說,DGCNN-BiLSTM可以動態(tài)的方式學習鄰接矩陣,即在訓練過程中,鄰接矩陣的元素隨著圖模型參數(shù)的變化而自適應的更新,從而提高網(wǎng)絡的判別能力。BiLSTM可以學習特征序列的前后時間相關性,從而更準確地預測當前的情緒狀態(tài)。
1" 方法
1.1" 模型總體框架
DGCNN-BiLSTM模型主要由動態(tài)圖卷積層、1×1的卷積層、BiLSTM和全連接層組成,如圖1所示。具體地,模型的輸入是從4個頻帶(θ帶、α帶、β帶和γ帶)提取的微分熵(DE)特征和功率譜密度(PSD)特征,每個電極通道代表圖中的一個節(jié)點。在圖濾波操作之后引入一個卷積核為1×1的卷積層,用來學習各個頻域之間的差異特征。同時,采用激活函數(shù)ReLU確保圖濾波層的輸出保持非負。然后,將激活函數(shù)的輸出送入BiLSTM學習時間序列的前后相關性,隨后的輸出送入一個全連接層。最終使用Softmax分類器對情緒進行分類。
1.2" 特征提取
本研究選擇提取腦電信號的DE特征和PSD特征用于實驗研究。對于服從高斯分布N(μ,σ2)的EEG信號,其DE特征可由下式計算求得:
DE=-∫+∞-∞12πσ2e-(x-μ)22σ2log212πσ2e-(x-μ)22σ2dx=12log2(2πeσ2),(1)
其中e和σ分別為時間序列的歐拉常數(shù)和標準差。
一個長度為M的EEG信號x(t),t∈,其PSD特征可由下式計算求得:
P(wk)=M-1t=-1(M-1)γ(t)e-jwkt,(2)
其中,γ(t)是EEG信號的自相關函數(shù),k∈。
1.3" 動態(tài)圖卷積神經(jīng)網(wǎng)絡
網(wǎng)絡數(shù)據(jù)可以很容易的建模為圖信號,數(shù)據(jù)值被分配給圖節(jié)點,可以用圖來表示基本的網(wǎng)絡拓撲結構。一個無向圖G=(V,D,W),它的節(jié)點集V={1,…,M},邊集DV×V和W∈RM×M定義了一個加權鄰接矩陣來解釋V中任意兩個節(jié)點之間的連接。wij表示W(wǎng)在第i行第j列的項。與節(jié)點i共用一條邊的節(jié)點集合稱為節(jié)點i∈V的鄰域,定義為Ci={j∈V:(j,i)D}。
圖卷積和頻譜圖濾波是常見用于圖數(shù)據(jù)操作的信號處理方法,其中最常用的是圖傅里葉變換(GFT)。圖G的拉普拉斯矩陣定義為L,可以表示為
L=S-W∈RM×M,(3)
其中,S∈RM×M是對角矩陣,它的第i個對角元素可以通過Sii=jwij計算。給定信號x∈RM×M的GFT表示為
x^=UTx,(4)
其中,x^表示頻域中變換的信號。圖拉普拉斯矩陣L的奇異值分解(SVD)是一個標準的正交矩陣U,定義如下:
L=UΛUT,(5)
根據(jù)式(4),逆GFT可以表示為
x=UUTx=Ux^。(6)
對于兩個信號x和z,在圖上的卷積用x*gz表示,可以表示為
x*gz=U((UTx)⊙(UTz)),(7)
其中,⊙表示阿達瑪乘積。
最優(yōu)鄰接矩陣W*是可以進行優(yōu)化學習的。空間濾波g(L*)定義了x信號和向量U*g(Λ*)的圖卷積,可以如下表示:
z=g(L*)x=U*g(Λ*)U*Tx,(8)
g(Λ)可以表示為
g(Λ)=
g(λ0)…0
0…g(λN-1)
〗。(9)
公式(8)中,L*可以根據(jù)公式(3)使用W*計算,另外Λ*=diag()是對角矩陣。直接計算g(Λ*)非常困難,我們使用K階切比雪夫多項式來計算g(Λ*),g(Λ*)多項式展開表示如下:
g(Λ*)=K-1k=0θkTk(Λ~*),(10)
其中,θk是切比雪夫多項式的系數(shù),可以使用下式的遞歸表達式來遞歸計算Tk(x):
T0(x)=1,T1(x)=x,
Tk(x)=2xTk-1(x)-Tk-2(x),k≥2。(11)
因此,式(8)的卷積圖運算可以根據(jù)式(10)重寫為
z=K-1k=0θkTk(L~*)x,(12)
其中,L~*=2L*λ*max-IM。
為了優(yōu)化網(wǎng)絡參數(shù),我們使用反向傳播(BP)迭代更新網(wǎng)絡參數(shù),直到獲得最優(yōu)或次優(yōu)解。因此,使用交叉熵成本函數(shù)作為損失函數(shù)。為了在BP方法中動態(tài)學習模型的最佳鄰接矩陣W*,必須要計算損失函數(shù)相對于W*的偏導數(shù)。之后,最優(yōu)鄰接矩陣W*的更新公式可以表示為
W*=(1-ρ)W*+ρLossW*,(13)
其中,ρ表示網(wǎng)絡的學習速率。
1.4" 雙向長短時記憶網(wǎng)絡
情緒的變化可能和之前的狀態(tài)有關,也可能和未來狀態(tài)有關,傳統(tǒng)的單向循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)無法從后向前捕捉腦電信號特征序列的上下文信息,因此本研究采用BiLSTM來學習序列的時間相關性,其由一個前向LSTM和一個后向LSTM組成,使輸入在兩個方向上流動,可以充分地捕獲時間序列中的長期依賴關系,流程如圖2所示。其原理如下:
ht=LSTM(xt,ht-1),
ht=LSTM(xt,ht-1),
yt=σ(Wy·ht,ht+by),
(14)
其中,ht表示時刻前向隱藏層狀態(tài),ht表示后向隱藏層狀態(tài),Wy表示權重矩陣,by表示偏置項。
2" 實驗
2.1" 實驗環(huán)境
本文實驗基于Windows11操作系統(tǒng),使用Python 3.8、Pytorch 1.11.0編寫深度學習框架模型,處理器為Intel i9-12900H,并使用NVIDIA RTX 3060 GPU加速模型訓練過程。
2.2" 數(shù)據(jù)集介紹
SEED是基于視頻誘發(fā)的多通道情緒EEG信號數(shù)據(jù)集,共包括15名受試者的EEG數(shù)據(jù)。數(shù)據(jù)采集在3個不同的時間段,分別對應3個會話,每個會話包括觀看15個不同的電影片段采集的數(shù)據(jù),每個電影片段大約4 min,因此每個受試者有45次實驗的數(shù)據(jù),每次采集后受試者需要進行主觀的自我評估,以保證所收集的EEG數(shù)據(jù)與呈現(xiàn)給受試者的電影片段是相同的情緒狀態(tài)。數(shù)據(jù)集分為消極、中立和積極三種情緒。信號是62個電極以1 000 Hz采樣率采集,數(shù)據(jù)集已經(jīng)做過預處理,將信號下采樣到200 Hz。信號經(jīng)過濾波器處理后,分別在θ帶(4~7 Hz)、α帶(8~13 Hz)、β帶(14~30 Hz)和γ帶(31~45 Hz)4個頻帶上以1 s的窗口分別提取DE特征和PSD特征。
DEAP是基于音樂視頻誘發(fā)的多通道情緒EEG信號數(shù)據(jù)集,共收集了32名受試者的EEG數(shù)據(jù)和其他生物電信號數(shù)據(jù)。每個受試者觀看40個1 min的視頻,使用32個電極以512 Hz的采樣率進行數(shù)據(jù)采集。在每次采集結束后要求受試者對喚醒、效價、喜歡和優(yōu)勢4個維度進行及時的自我評估,以1~9表示自己的情緒狀態(tài)。通常以5為閾值,將喚醒維度分為兩類,即高喚醒(高于5)和低喚醒(低于5),并分別賦予標簽1和0,其他維度進行一樣的操作。數(shù)據(jù)集已將EEG數(shù)據(jù)下采樣至128 Hz,并去除EOG偽影。對每個被試的實驗信號,以1 s的窗口分別在4個頻帶上提取DE特征和PSD特征。
2.3" SEED數(shù)據(jù)集實驗
我們在SEED數(shù)據(jù)集上進行受試者相關和受試者獨立兩種實驗來評估所提出方法的EEG情緒識別性能。
2.3.1" 受試者相關實驗
在受試者相關實驗中,我們將每個受試者的前30次實驗數(shù)據(jù)用作訓練集,剩余部分用作測試集,最后計算15名受試者的平均分類準確率作為評估標準。在4個頻帶(θ帶、α帶、β帶和γ帶)中分別提取了DE和PSD兩種特征,用來評估所提出來的EEG情緒識別方法。
表1總結了在4個頻帶和兩種不同特征下DGCNN-BiLSTM方法的平均情緒識別準確率,所有頻帶表示4個頻帶的特征組合在一起使用。為了評估情緒識別任務中機器學習方法和深度學習方法的表現(xiàn)差異,我們首先選擇了典型的機器學習方法支持向量機(Support Vector Machine,SVM)進行實驗。其次為了評估所提出DGCNN-BiLSTM模型動態(tài)更新電極通道鄰接矩陣和添加BiLSTM模塊對情緒識別任務是否有效,分別使用GCNN和DGCNN方法進行實驗。以上幾種方法的實驗條件完全相同,這里GCNN方法使用的鄰接矩陣是預先確定好的。
從表1可以看出,在受試者相關的實驗條件下,DE特征的平均識別準確率總體優(yōu)于PSD特征,而且當4個頻帶的特征組合使用時平均識別準確率最高,其中DE特征平均識別準確率最高達到92.03%,PSD特征平均識別準確率最高達到88.36%。在4種方法比較中,DGCNN-BiLSTM的平均識別準確率均優(yōu)于其他3種方法(SVM、GCNN和DGCNN)。從表中還可以看出,β帶和γ帶的平均識別準確率始終比θ帶和α帶更高,這說明頻帶越高可能與情緒活動的關系更密切,頻帶越低與情緒活動的關系越小。在相同情況下,GCNN在分類方面沒有DGCNN和DGCNN-BiLSTM表現(xiàn)好,這可能是由于后兩者對鄰接矩陣進行了動態(tài)的優(yōu)化更新,使其能更準確地表達電極通道之間的關系。添加了BiLSTM之后,在使用所有頻帶組合特征的情況下,DE特征的平均識別準確率提升了1.83%,PSD特征的平均識別準確率提升了1.27%,這可能由于BiLSTM可以很好的處理特征序列長期依賴關系,從而更準確地推斷出當前的情緒狀態(tài)。
2.3.2" 受試者獨立實驗
在受試者獨立實驗中,我們采用留一主題交叉驗證來評估所提出方法的識別性能。具體來說,14名受試者的EEG數(shù)據(jù)用于訓練模型,剩余1名受試者的EEG數(shù)據(jù)被用作測試數(shù)據(jù),實驗中要保證每個受試者的EEG數(shù)據(jù)都被用作測試數(shù)據(jù)一次。最后,計算15名受試者對應的兩種特征平均識別準確率作為評估標準。
表2總結了在兩種不同特征和4個頻帶下DGCNN-BiLSTM方法的平均情緒識別準確率。從表中可以看出,對于DE特征和PSD特征,較高頻帶的識別精度高于較低頻帶的識別精度,所有頻帶的特征組合使用時,DE特征的平均識別準確率最高達到82.77%,PSD特征的平均識別準確率最高達到68.19%。所有頻帶的特征組合使用時識別精度均高于單個頻帶上的特征識別精度。
2.4" DEAP數(shù)據(jù)集實驗
在DEAP數(shù)據(jù)集的實驗中,我們在喚醒維度和效價維度上進行實驗,采用5倍交叉驗證的方法評估所提出方法的識別性能。將單個受試者的數(shù)據(jù)分成5個相等的子集且不重疊,隨機選取4個子集用作訓練集,剩余1個子集用作驗證集,進行5次實驗,求取平均值作為單個受試者的識別準確率。最終的識別準確率是32名受試者識別準確率的平均值。在DEAP數(shù)據(jù)集上只使用4個頻帶組合的特征進行實驗。
表3總結了關于喚醒維度和效價維度的實驗結果。為了達到比較目的,同樣對比了分別使用SVM、GCNN和DGCNN的方法效果。從表中可以看出,使用DE特征實驗時,喚醒維度的平均分類準確率最高達到94.23%,效價維度的平均分類準確率最高達到93.52%,使用PSD特征實驗時,喚醒維度的平均分類準確率最高達到96.56%,效價維度的平均分類準確率最高達到95.22%。DGCNN-BiLSTM比其他方法有更好的識別性能。
2.5" 方法對比
表4總結了DGCNN-BiLSTM實驗結果與其他研究結果的對比,表中預測的結果取實驗中最高的精度,空白處表示該文獻沒使用該數(shù)據(jù)集。從表中數(shù)據(jù)可知,與其他模型相比,DGCNN-BiLSTM表現(xiàn)出了較好的識別效果,在SEED數(shù)據(jù)集上進行的實驗,獲得了92.03%的最高平均識別準確率,在DEAP數(shù)據(jù)集的喚醒維度和效價維度上,分別獲得了96.56%和95.22%的最高平均識別準確率,結果優(yōu)于其他方法。實驗證明了DGCNN-BiLSTM模型對情緒識別是有效的。
3" 結論
針對GCNN需要預先確定每個EEG通道之間的連接,不能動態(tài)更新鄰接矩陣的問題,本文提出了一種情緒識別模型DGCNN-BiLSTM,模型可以自適應的更新優(yōu)化電極通道鄰接矩陣。分別在SEED數(shù)據(jù)集和DEAP數(shù)據(jù)集進行實驗,以評估所提出模型的有效性。在SEED數(shù)據(jù)集上進行了受試者相關實驗和受試者獨立實驗,結果表明,DGCNN-BiLSTM方法的識別性能優(yōu)于其他方法,特別是將4個頻帶的DE特征組合一起使用時,在受試者無關的實驗中取得了92.03%的平均識別準確率,在受試者獨立的實驗中取得了82.77%的平均識別準確率。在DEAP數(shù)據(jù)集上的實驗,喚醒維度和效價維度的平均識別準確率分別為96.56%和95.22%,均高于其他方法。在與其他文獻方法的比較中,也保持了較高的識別準確率。實驗結果證明了本文方法的科學性與可行性。
[" 參" 考" 文" 獻" ]
MARG E.DESCARTES’ERROR:Emotion,reason,and the human brain.Optometry and Vision Science,1995,72:847-848.
YAN Jingjie,ZHENG Wenming,XU Qinyu,et al.Sparse kernel reduced-rank regression for bimodal emotion recognition from facial expression and speech.IEEE Transactions on Multimedia,2016,18(7):1319-1329.
ZHANG Zixing,WU Bingwen,SCHULLER B.Attention-augmented end-to-end multi-task learning for emotion prediction from speech//New York:IEEE international conference on acoustics,speech and signal processing,2019:6705-6709.
QING Chunmei,QIAO Rui,XU Xiangmin,et al.Interpretable Emotion Recognition Using EEG Signals.IEEE Access,2019,7:94160-94170.
KAMBLE K,SENGUPTA J.A Comprehensive Survey on Emotion Recognition Based on Electroencephalograph (EEG) Signals.Multimedia Tools and Applications,2023,82(18):27269-27304.
PLUTCHIK R.The nature of emotions.American Scientist,2001,89:344.
SHEN Fangyao,DAI Guojun,LIN Guang,et al.EEG-based emotion recognition using 4D convolutional recurrent neural network.Cognitive Neurodynamics,2020,14:815-828.
BULLMORE E T,BRAMMER M J,BOURLON P,et al.Fractal analysis of electroencephalographic signals intracerebrally recorded during 35 epileptic seizures:Evaluation of a newmethod for synoptic visualisation of ictal events.Electroencephalogr Clin Neurophysiol,1994,91:337-345.
ZHENG Weilong,ZHU Jiayi,PENG Yong,et al.EEG-based emotion classification using deep belief networks//IEEE International Conference on Multimedia and Expo Workshops,2014:1-6.
FRANTZIDIS C A,BRATSAS C,PAPADELIS C L,et al.Toward emotion aware computing:An integrated approach using multichannel neurophysiological recordings and affective visual stimuli.IEEE Transactions on Information Technology in Biomedicine,2010,14:589-597.
ZHENG Weilong,LU Baoliang.Investigating critical frequency bands and channels for EEG-based emotion recognition with deep neural networks.IEEE Transactions on Autonomous Mental Development,2015,7(3):162-175.
LI Xiang,SONG Dawei,ZHANG Peng,et al.Exploring EEG features in cross-subject emotion recognition.Frontiers in Molecular Neuroscience,2018,12:162.
LI Xueqing,LI Penghai,F(xiàn)ANG Zhendong,et al.Research on EEG emotion recognition based on CNN+BiLSTM+self-attention model.Optoelectronics Letters,2023,19(8):506-512.
SUN Jie,WANG Xuan,ZHAO Kun,et al.Multi-channel EEG emotion recognition based on parallel transformer and 3D-convolutional neural network.Mathematics,2022,10(17):3131.
CHUNG F R.Spectral Graph Theory.Providence:American Mathematical Society,1997.
SHUMAN D I,NARANG S K,F(xiàn)ROSSARD P,et al.The emerging field of signal processing on graphs:Extending high-dimensional data analysis to networks and other irregular domains.IEEE Signal Process,2013,30:83-98.
DEFFERRARD M,BRESSON X,VANDERGHEYNST P.Convolutional neural networks on graphs with fast localized spectral filtering//30th Conference on Neural Information Processing Systems,2016,29:3844-3852.
DUAN Ruonan,ZHU Jiayi,LU Baoliang.Differential Entropy Feature for EEG-Based Emotion Classification//Proceeding of the 6th International IEEE EMBS Conference on Neural Engineering,2013:81-84.
KOELSTRA S,MUHL C,SOLEYMANI M,et al.DEAP:A Database for Emotion Analysis Using Physiological Signals.IEEE Transactions on Affective Computing,2012,3:18-31.
ABGEENA G S.A Novel Convolution Bi-Directional Gated Recurrent Unit Neural Network for Emotion Recognition in Multichannel Electroencephalogram Signals.Technology and Health Care,2022,3:1-20.
YUVARAJ R,BARANWAL A,PRINCE A A,et al.Emotion Recognition from Spatio-Temporal Representation of EEG Signals via 3D-CNN with Ensemble Learning Techniques.Brain Sciences,2023,13:685.
HATIPOGLU Y B,KOSE C.A novel signal to image transformation and feature level fusion for multimodal emotion recognition.Biomedical Engineering,2021,66(4):353-362.
XEFTERIS V R,TSANOUSA A,GEORGAKOPOULOU N,et al.Graph theoretical analysis of EEG functional connectivity patterns and fusion with physiological signals for emotion recognition.Sensors,2022,22(21):8198.
[責任編輯:謝 平]
Emotion recognition based on dynamical graph convolutional neural networks and BiLSTM
ZHENG Jingang," YANG Jun
Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650504, China
Abstract:" Due to the spatial dependencies among electrode channels evolving over time during the entire process of emotion occurrence, this paper proposes a model for emotion recognition based on dynamic graph convolutional neural network-bidirectional long short-term memory (DGCNN-BiLSTM). Firstly, DGCNN dynamically learns the connections between different electrode channels by training the neural network, thereby dynamically updating and optimizing the adjacency matrix. Secondly, BiLSTM can learn the temporal correlations of feature sequences, thereby enhancing the network’s ability for emotion recognition. Experimental results on the SEED dataset and DEAP dataset show that the model achieves the highest average accuracy of 92.03% and the highest accuracy of 96.56% for arousal dimension and 95.22% for valence dimension, respectively. The results indicate that the model is beneficial for improving emotion recognition accuracy, and compared with other methods, there is also an improvement in emotion classification accuracy to varying degrees.
Key words:" graph convolutional neural networks; dynamical graph convolutional neural networks; bidirectional long short-term memory network; emotion recognition; adjacency matrix