李文書 王浩
摘 要: 作為人類大腦神經(jīng)活動的重要指標,腦電(EEG)信號能更深層次地反映人的情緒狀況,但當前大多數(shù)深度學習模型通過EEG識別情緒不夠精確。本文提出基于連續(xù)卷積神經(jīng)網(wǎng)絡的3D腦電圖情緒識別模型,采用提取DE和PSD特征時得到的等價矩陣所構(gòu)造的三維腦電圖立方體作為輸入,舍棄卷積神經(jīng)網(wǎng)絡中的池化層。在DEAP數(shù)據(jù)集上進行實驗,Arousal準確率為95.77%,Valence準確率為93.52%,表明該方法非常適用于情緒識別,能給后續(xù)相關(guān)研究提供參考。
關(guān)鍵詞: 腦電情緒識別; 連續(xù)卷積神經(jīng)網(wǎng)絡; 深度學習; DEAP數(shù)據(jù)集; 3D腦電圖
中圖分類號:TP183? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2023)09-96-05
Emotion recognition in 3D EEG based on continuous convolutional neural network
Li Wenshu, Wang Hao
(Laboratory of Intelligent Identification and Systems, School of Computer Science, Zhejiang Sci-Tech University, Hangzhou, Zhejiang 310018, China)
Abstract: As an important indicator of human brain neural activity, the electroencephalography (EEG) signal can reflect human emotional condition at a deeper level, but most current deep learning models are not accurate enough to identify emotions by EEG. A 3D EEG emotion recognition model based on continuous convolutional neural network is proposed, which uses the 3D EEG cube constructed from the equivalence matrix obtained when extracting DE and PSD features as input and discards the pooling layer in the convolutional neural network. Experiments are conducted on the DEAP dataset with an accuracy of 95.77% for Arousal and 93.52% for Valence, which shows that the method is suitable for emotion recognition tasks and can provide references for subsequent related research.
Key words: EEG emotion recognition; continuous convolutional neural network; deep learning; DEAP dataset; 3D-electroencephalogram
0 引言
“棄我去者,昨日之日不可留;亂我心者,今日之日多煩憂”。此句出自詩人李白,其揭示的是情緒對日常生活的影響。如今,人工智能技術(shù)對于精確獲得人類的情緒狀態(tài)起到至關(guān)重要的作用[1]。
人類情緒可以通過面部表情、言語、眼動信號和生理信號來檢測。前三種都容易受到被試者的主觀影響,而腦電圖(EEG)[2]、眼電圖(EOG)等生理信號是由人體自發(fā)產(chǎn)生的。腦電信號來自人腦,其變化可以直觀準確地反映人類情緒狀態(tài)。因此,許多研究者開始使用腦電圖信號來研究情緒識別。
鄭偉龍研究腦電圖的情緒識別臨界頻帶,并得出beta和gamma頻帶更適合于任務[3]。一項關(guān)于腦電信號分布的研究也證實了高頻波段更能區(qū)分情緒狀態(tài)[4]。唐昊等人使用雙峰深度去噪自動編碼器和雙峰-LSTM對情緒狀態(tài)進行分類,平均準確率為83.25%[5]。還有一種將多通道腦電圖數(shù)據(jù)轉(zhuǎn)換為二維幀表示的預處理方法,結(jié)合了CNN和RNN來識別情緒[6]。李友軍從不同的腦電圖通道中提取功率譜密度(PSD),構(gòu)建多維特征圖像(MFI),并結(jié)合CNN和LSTM來處理腦電圖MFI序列,識別人類情緒[7]。楊儀龍從EEG信號中分頻提取微分熵(DE),對高頻波段分類訓練,集成CNN來識別情緒,平均準確率為89.84%[8]。
大多數(shù)研究忽略了基礎信號(無刺激下記錄的腦電圖信號)的重要性。據(jù)此分析,我們提出一種腦電圖片段的三維輸入形式(融合了微分熵DE和功率譜密度PSD),通過等價二維矩陣的方式將其輸入至連續(xù)卷積神經(jīng)網(wǎng)絡,舍棄原卷積神經(jīng)網(wǎng)絡中的池化層,有效地提升了準確率。
1 情緒維度理論及DEAP數(shù)據(jù)集介紹
1.1 情緒維度理論
情緒維度理論由美國心理學家威廉·詹姆士和丹麥生理學家卡爾蘭格提出,目前已成為情緒分類標準的主流方案[9],如圖1所示。
情緒維度模型由兩個維度組成,橫軸表示效價度(Valence),縱軸表示喚醒度(Arousal)。人類基本情感包括放松、沮喪、愉快、悲傷、恐懼等,均可映射到二維平面點上,四個象限依次為高喚醒高效價,高喚醒低效價,低喚醒高效價,低喚醒低效價。
1.2 DEAP數(shù)據(jù)集
DEAP數(shù)據(jù)集是一個公開可用的數(shù)據(jù)集[10],在情感計算和情緒識別研究中廣泛使用,其包含多種信號(EEG、周圍生理信號和音視頻記錄)。數(shù)據(jù)集包含32名參與者觀看40個時長約一分鐘的音樂視頻,每段視頻數(shù)據(jù)由32導腦電信號和8導其他生理信號組成,然后要求其填寫對效價和喚醒程度的自我評估。效價和喚醒等級從1到9(1代表悲傷/平靜,9代表快樂/興奮)。
2 方法
2.1 頻率分解和特征提取
數(shù)據(jù)集中的數(shù)據(jù)進行了降采樣處理,采樣頻率從512Hz降到128Hz。預處理階段,我們對腦電信號使用了帶通濾波器來進行頻段分割工作。根據(jù)張等人的總結(jié)[11],腦電圖頻率模式及其對應特征見表1所示,情感的興奮程度和頻段的頻率成正比,因此我們對原始腦電信號進行頻段分解,分解后得到對情緒識別效果較好的后四個頻段。
2.2 三維輸入結(jié)構(gòu)
國際10-20系統(tǒng)是一種國際公認的描述和應用頭皮電極位置和大腦皮層底層區(qū)域的方法,如圖2所示,每個電極物理上相鄰多個電極,這些電極記錄大腦特定區(qū)域的EEG信號。為了保留多個相鄰通道之間的空間信息,根據(jù)電極分布圖,將一維的DE和PSD特征變換為二維平面,0代表未使用該通道。
因此,我們得到每個腦電圖段的八個二維平面。下一步是將這些平面堆疊成三維腦電圖立方體作為CNN的輸入進行訓練。在計算機視覺領域中,圖像的分類任務采用RGB彩色通道來組織圖像,0~255用于表示每個顏色通道中的顏色的強度,使用彩色圖像的表示法作為類比[8],如圖3所示。
我們對不同波段的腦電信號提取微分熵(DE)和功率譜密度(PSD)來描述這些不同的波。PSD描述了信號中存在的功率,它是頻域中用于實現(xiàn)情感識別的最常用的特征之一[12],DE度量了信號的復雜度[13]。這兩種方式非常適用于提取腦電特征映射。PSD的提取公式為:
[h(X)=Xf(X)log(f(x))dx]? ? ⑴
其中,x是一個隨機變量,[f(x)]是x的概率密度函數(shù)。對于服從高斯分布的級數(shù)[X,N(μ,δ2)],DE的提取公式為:
[h(X)=-∞∞12πδ2ex-μ22δ2log12πδ2e-x-μ22δ2dx] ⑵
施[14]等人已經(jīng)證明了對于一個特定的頻帶i,微分熵可以定義為:
[hi(X)=12log2πeδ2i] ? ? ⑶
其中,[hi]和[δ2i]分別表示對應的腦電圖信號在頻帶i上的差分熵和信號方差。因此,一段特定頻帶i的特征可以用一維向量來表示[Vi∈R32]。從原始腦電圖信號中提取每個波段的PSD和DE向量,然后根據(jù)32通道的等價二維矩陣將其轉(zhuǎn)換為二維平面,對于每個0.5秒的窗口,所有波段和特征的二維平面都被創(chuàng)建,而且深度堆疊。每個腦電圖立方體都是模型的輸入,高度為8,寬度為9,深度為9,如圖3的step3-4所示。
2.3 基礎信號處理
情緒是一種復雜的心理狀態(tài),外部因素的細微差別對人們的情緒有一定的影響。在DEAP數(shù)據(jù)集中,收集了參與者在無刺激下產(chǎn)生的三秒基礎信號。為了研究基礎信號的特征對最終分類結(jié)果的影響,我們將三秒的基礎信號切割為三個一秒的片段,并用上述提取特征的方法將每個信號轉(zhuǎn)換為四對DE和PSD特征向量,然后計算這三個腦電圖立方體的DE和PSD特征值的和的平均值來表示基礎信號的DE和PSD特征。最后,計算實驗腦電圖(刺激下)和基礎腦電圖(無刺激下)之間的DE和PSD的偏差來代表該部分的情緒狀態(tài)特征。其中,DE和PSD的權(quán)重相等,單步驟可以表示為:
[final_vij=exper_vij-k=13base_vik3] ⑷
其中,[exper_vij]表示頻段i在段落j上的特征向量,[base_vik]表示頻段i在基礎信號段落j上的特征向量,[final_vij]表示頻段i在j段落上的最終情緒狀態(tài)特征向量。
2.4 連續(xù)卷積神經(jīng)網(wǎng)絡
如圖3中構(gòu)建的三維腦電立方體可以被視為彩色圖像,這使得我們可以充分利用CNN從輸入中提取代表性的特征。在本文中,如圖4所示,我們使用了一個具有四個卷積層的連續(xù)卷積神經(jīng)網(wǎng)絡來從輸入立方體中提取特征,添加了一個具有退出操作的全連接層用于特征融合,傳入最終分類?!斑B續(xù)”表示在兩個相鄰的卷積層之間沒有池化層。雖然在計算機視覺領域中,卷積層后面通常是池化層,其主要功能是以一些信息丟失為代價降低數(shù)據(jù)維數(shù),但由于三維腦電立方體的大小遠小于計算機視覺場的大小,所以在本模型中池化層被丟棄。此外,在每個卷積層中,采用零填充來防止立方體邊緣信息丟失。在前三個卷積層中,內(nèi)核設置大小為4*4,步幅為1。在卷積運算后,加入RELU激活函數(shù),使模型具有非線性特征變換能力。使用64個特征映射開始第一個卷積層,并在接下來的兩個卷積層中將特征映射加倍,因此,在第二接層,層和第三層中有128個和256個特征映射。為了融合特征映射并降低計算成本,增加了一個包含64個特征映射的1*1卷積層。在這四個連續(xù)的卷積層之后,添加了一個全連以將64個9*9特征映射到最終的特征向量(1024),最終的分類器接收[f∈R1024]以預測人類的情緒狀態(tài)。
3 實驗
3.1 實驗環(huán)境及參數(shù)設置
實驗中腦電圖數(shù)據(jù)為40*8064*8*32(視頻*樣本*波段*通道),將被試者在刺激下的腦電圖數(shù)據(jù)切成(40*N)段,每個段的長度為L。將這些片段分類到相應的標簽中,分割后,腦電圖數(shù)據(jù)轉(zhuǎn)換為40*N*L*8*32(視頻*段*長度*波段*通道)。
在我們的實驗中,長度L設置為128,即每個參與者身上有2400個片段,我們應用所提出的方法從DEAP數(shù)據(jù)集中識別效價和喚醒。其中,我們選擇5作為閾值,根據(jù)喚醒和效價的評分水平(1-9)將標簽分為兩個二元分類問題,即高/低效價、高/低喚醒。
本實驗基于tensorflow2.3.0平臺,采用Ubuntu 18.04LTS 64位操作系統(tǒng),搭載Intel E5-2620 CPU,NVIDIA GTX2080Ti GPU,顯存11G。采用截斷的正態(tài)分布函數(shù)初始化核的權(quán)值,為了避免過擬合和提高泛化能力,加入L2正則化,CNN和MLP對L2的懲罰強度分別為0.5和0.05。相關(guān)參數(shù)如表2。
為了檢驗基礎信號及分頻段對最終分類結(jié)果的影響,我們設計了三種分類,對三種不同的分類進行了實驗,并比較了他們的結(jié)果。
分類1表示丟棄基礎信號的特征的情況,分類2表示只使用基礎信號的DE特征的情況,分類3表示使用基礎信號的DE和PSD特征的情況,結(jié)果如表3、表4所示。可以看出,使用雙基礎信號的特征能顯著提高情緒識別的準確性。另外,頻帶越高,對情緒的識別度越精確,而且所有波段的組合可以相互補充,有助于取得更好的結(jié)果。
3.2 相關(guān)方法之間的結(jié)果比較
我們還將本實驗結(jié)果與其他五種方法進行了比較,如表5所示,所提出的使用三維腦電圖立方體作為輸入的連續(xù)卷積神經(jīng)網(wǎng)絡在喚醒和效價分類任務上都優(yōu)于這五種方法。
4 結(jié)束語
本研究表明,基于腦電信號的DE和PSD雙特征可以比單特征提取顯著提高情緒識別的準確性。實驗信號的DE和PSD特征向量與基礎信號之間的偏差可以更好地表征情緒狀態(tài)。本文三維腦電圖的表示方法結(jié)合了來自不同頻段的信號特征,同時保持了各通道間的空間信息。我們發(fā)現(xiàn),可以顯著提高情緒識別性能的改進是使用多模態(tài)方法,例如,與使用EEG信號提取特征相比,同時提取個體面部的相關(guān)特征[17]等可以組合成不同的模型,為我們提供一種有效的多模態(tài)情感識別方法。
參考文獻(References):
[1] 喬建中.情緒研究:理論與方法[M].南京:南京師范大學出版社,2003:16-17.
[2] 聶聃,王曉韡,段若男,等.基于腦電的情緒識別研究綜述[J].中國生物醫(yī)學工程學報,2012,31(4):12.
[3] Zheng W L,? Lu B L. Investigating Critical Frequency Bandsand Channels for EEG-Based Emotion Recognition with Deep Neural Networks[J]. IEEE Transactions on Autonomous Mental Development,2015,7(3):1-1.
[4] Li J,? Zhang Z,? He H. Hierarchical Convolutional NeuralNetworks for EEG-Based Emotion Recognition[J]. Cognitive Computation,2017,10:368-380.
[5] Tang H,? Liu W,? Zheng W L, et al. Multimodal EmotionRecognition Using Deep Neural Networks[A] International Conference on Neural Information Processing[C].Springer, Cham,2017:812-818.
[6] Li X,? Song D,? Zhang P, et al. Emotion recognition frommulti-channel EEG data through Convolutional Recurrent Neural Network[A].IEEE International Conference on Bioinformatics & Biomedicine[C].IEEE,2016:352-359.
[7] Li Y, Huang J, Zhou H, et al. Human Emotion Recognitionwith Electroencephalographic Multidimensional Features by Hybrid Deep Neural Networks[J]. Applied Sciences,2017,7(10):1060.
[8] Yang Y,? Wu Q,? Fu Y, et al. Continuous Convolutional
Neural Network with 3D Input for EEG-Based Emotion Recognition[A].25th International Conference[C].Siem Reap: ICONIP 2018:433-443.
[9] MILAD M, HADI D.Synchronization of fractional order
hyper-chaotic systems based on a new adaptive sliding mode control[J].International Journal of Dynamics Control,2015,10(7):435-446.
[10] Koelstra, S. DEAP: A Database for Emotion Analysis;
Using Physiological Signals[J]. IEEE transactions on affective computing,2012.3(1):18-31.
[11] Zhang X,? Yao L,? Kanhere S S, et al. MindID: Person
Identification from Brain Waves through Attention-based Recurrent Neural Network[J],2017,2(3):1-23.
[12] Sarma P,? Barma S. Emotion recognition by
distinguishing appropriate EEG segments based on random matrix theory[J].Biomedical Signal Processing and Control,2022.70(9):1-13.
[13] Topic A,? Russo M. Emotion recognition based on EEG
feature maps through deep learning network[J]. Engineering Science and Technology an International Journal,2021,24(6):1442-1454.
[14] Shi L C,? Jiao Y Y,? Lu B L. Differential entropy feature
for EEG-based vigilance estimation[A]. 35th International Conference of the IEEE Engineering in Medicine & Biology Society[C].Osaka,EMBC,2013:6627-6630.
[15] Yin Z,? Zhao M,? Wang Y, et al. Recognition of emotions?using multimodal physiological signals and an ensemble deep learning model[J]. Computer Methods & Programs in Biomedicine,2017,140(Complete):93-110.
[16] Xie Y, Wang L P.EEG-Based Emotion RecognitionUsing Autoencoder and LSTM[D].Bachelor Degree,Singapore:NTU,2021.
[17] 李文書,何芳芳,錢沄濤,等.基于Adaboost-高斯過程分類的人臉表情識別[J].浙江大學學報(工學版),2012,46(1):79-83.