周如雙 趙慧琳 林瑋玥 胡婉柔 張 力 黃 淦 李琳玲 張治國 梁 臻*
1(深圳大學醫(yī)學部生物醫(yī)學工程學院,廣東深圳 518071)
2(醫(yī)學超聲關鍵技術國家地方聯(lián)合工程實驗室,廣東深圳 518071)
3(廣東省醫(yī)學信息檢測與超聲成像重點實驗室,廣東深圳 518071)
情緒與人們生活有著不可忽略的密切關系,對人們的認知、判斷、記憶、行動、社會交往甚至是身體健康都有直接的影響[1-3],因此情緒識別具有極為重要的研究意義。實時、客觀地追蹤和評估人類情緒狀態(tài)的智能技術的提出,將極大地幫助情緒評估系統(tǒng)的提升和情感智能技術的推進。目前,情緒狀態(tài)的表示方法主要分為兩種:一種是離散的基礎情緒表示法,如Ekman 等[4]提出人的基本情緒分為6 類,有憤怒、厭惡、恐懼、悲傷、喜悅和驚訝;另一種情緒狀態(tài)表示方法為連續(xù)的維度情緒表示法。1980年,Rusell 等[5]提出情緒二維模型,從效價和喚醒度兩個維度來量化情緒,進行情緒表征。相較于離散情緒表示法,維度情緒表示法通過不同的情緒維度,有效地量化和表征情緒類別、強度等信息,實現(xiàn)復雜情緒的精準表達,為情緒識別模型的建立提供了更客觀、精準的情緒標簽信息。近年來,大多數(shù)情緒識別研究都是基于維度情緒表示法來開展的[6]。
另外,腦電(electroencephalography,EEG)作為一種非侵入性的大腦電生理活動監(jiān)測技術,通過將電極放在頭皮表面處記錄由大腦神經(jīng)元離子電流流動而產(chǎn)生的電壓[7],從神經(jīng)生理學的角度,更客觀、直接地解讀大腦情緒響應,為實現(xiàn)實時情緒識別系統(tǒng)提供有力的技術支持。相較于其他大腦活動測量方法,如功能性磁共振、正電子發(fā)射斷層掃描、腦磁圖等,腦電具有時間分辨率高、數(shù)據(jù)采集和傳輸快速、無創(chuàng)、采集成本低等特點,因此成為近年來進行情緒識別研究的首選方法[8]。隨著無線腦電設備的發(fā)展,其便攜性和可用性使基于腦電的情緒識別可以應用在許多場合。例如,在情緒調(diào)控領域中,智能系統(tǒng)可根據(jù)用戶的腦電反饋,自動選擇合適的音樂,以緩解用戶的疼痛或抑郁情緒[9];在游戲中,通過智能情緒識別系統(tǒng),獲得用戶的情緒反饋,以調(diào)節(jié)適合的游戲場景和難度;通過學生的情緒狀態(tài)反饋,調(diào)節(jié)在線學習系統(tǒng)的教學方式和場景等[10]。
根據(jù)腦電所反映的大腦連續(xù)、動態(tài)變化的活動特性,傳統(tǒng)的腦電特征提取方法通常會從空間、時間和時-空融合3 個方面進行:一是腦電信號的空間信息。由于不同腦區(qū)之間存在動態(tài)聯(lián)系性,在研究某個腦區(qū)的腦電信號時,研究人員通常需要綜合全腦的信息來進行分析,常用的方法有腦連接[11]、微狀態(tài)[12]和其他大腦拓撲圖分析等[13-14]。二是腦電信號的時間信息。針對特定腦區(qū)的腦電信號,研究人員通常將信號分割為多個短時段的信號進行時序特征分析。例如,短時傅里葉變換[15]和小波變換[16]等可以解析隨時間變化的頻域信息。三是腦電時-空融合信息。為了提取更有效的腦電特征,研究者不僅關注不同腦區(qū)間的相互作用,而且關注在連續(xù)反應中腦區(qū)間的動態(tài)變化過程。盡管時間和空間特征可以分開提取,再將兩者結合,但這樣并不能很好地提取和融合有效、潛在的信息[17]。
隨著近年來深度學習的快速發(fā)展,許多研究開始引進深度學習技術來分析腦電信號、提取腦電特征,以提高情緒解碼的識別準確率[18-23],這提供了一種解決上述時-空特征融合難題的方法。其中,深度神經(jīng)網(wǎng)絡(deep learning network,DLN)具有從數(shù)據(jù)中自動學習復雜特征的能力,能實現(xiàn)端到端的學習,幫助提高情緒分類的準確度[24]。Jirayucharoensak 等[18]利用DLN 建立腦電-情緒識別模型,發(fā)現(xiàn)通過DLN 可以學習得到情緒誘發(fā)任務中輸入信號間的相關性;實驗表明,DLN 對效價和喚醒度的三分類準確率分別為53.42%和52.03%,相比傳統(tǒng)分類模型,如支持向量機(support vector machine,SVM)和樸素貝葉斯分類器,準確率都有了明顯的提升。Zheng 等[19]利用深度信念網(wǎng)絡(deep belief network,DBN),建立積極、中性和消極3 類情緒的分類模型,通過與SVM、邏輯回歸、k鄰近等3 種傳統(tǒng)淺層模型比較,發(fā)現(xiàn)DLN 在情緒分類中的準確性和穩(wěn)定性會高于傳統(tǒng)的非深度模型。卷積神經(jīng)網(wǎng)絡(convolution neural network,CNN)是常用的深度神經(jīng)網(wǎng)絡,由于其具有較好的表征學習能力,因此在情緒識別研究中被廣泛應用[20-21]。Zeng 等[20]提出了基于改良的可解釋卷積濾波器的深度學習模型,該模型由3 層卷積層以及3 層深度神經(jīng)網(wǎng)絡構成,并在SEED 數(shù)據(jù)集[25]上對3 種情緒狀態(tài)(積極、中性、消極)分類,獲得了90%以上的準確率。Song 等[21]提出了一種基于多通道的動態(tài)圖卷積神經(jīng)網(wǎng)絡,用于提取通道間的隱性空間特征;該方法在SEED 數(shù)據(jù)集上進行驗證,在被試間和跨被試的情緒解碼準確率分別達到90.40% 和79.95%。為了更好地處理長時序的腦電信息,有研究開始使用長短時記憶網(wǎng)絡(long short-term memory,LSTM)進行情緒識別[22-23]。Badicu 等[22]基于分層雙向LSTM 構建了跨被試情緒分類模型,在SEED 數(shù)據(jù)集上實現(xiàn)情緒三分類,得到了80.00%的準確率。Zhong 等[23]在LSTM 的基礎上進行了改良,利用移動平均法對腦電信號的短時波動進行平滑,并突出了信號的長時趨勢。該方法分別在DEAP 數(shù)據(jù)集[26]和MAHNOB-HCI 數(shù)據(jù)集[27]上進行驗證:在DEAP 上,效價和喚醒度維度上跨被試二分類的識別準確率分別為66.23%和68.50%;在MAHNOB-HCI 上,基于Gamma 波段信號所提取特征在效價和喚醒度維度上分別得到70.25%和73.27%的準確率。盡管上述相關工作均取得了一定的成效,表明深度神經(jīng)網(wǎng)絡具有強大的情緒解碼能力,但是對腦電信號中時-空信息的提取和融合仍然十分有限。
本研究提出一種新型的基于深淺特征融合的深度卷積殘差網(wǎng)絡模型,設計不同卷積核的CNN 進行初步的淺層時-空腦電特征提取,并在此基礎上,采用雙向門控循環(huán)單元(gated recurrent unit,GRU)網(wǎng)絡結構和注意力機制結合的方式,探究淺層特征中的時序關聯(lián)性和時段重要性,提取深層時-空腦電特征。該方法可以有效地提取和融合腦電的時-空特征,實現(xiàn)更有效的情緒識別。
借助DEAP 數(shù)據(jù)集的腦電信號,建立情緒識別模型,評估模型性能。該數(shù)據(jù)集是由Koelstra 等[26]建立的,是一個公開的情緒-腦電數(shù)據(jù)集,為腦電-情緒解碼研究提供了重要的數(shù)據(jù)支持,自發(fā)布以來被廣泛應用于情緒識別的相關研究中。另外,為了進一步驗證所提出模型的泛化性,使用MAHNOBHCI 數(shù)據(jù)集和SEED 數(shù)據(jù)集進行簡單的驗證。
1.1.1 DEAP 數(shù)據(jù)集
該數(shù)據(jù)采集采用了視頻-情緒誘發(fā)實驗,通過播放包含特定情緒類型的音樂視頻片段來誘發(fā)被試情緒狀態(tài)的變化。在實驗過程中,被試觀看40 個隨機播放時長為60 s 的音樂視頻片段,以誘發(fā)被試對應的情緒響應,同步記錄他們的腦電數(shù)據(jù)和部分電生理數(shù)據(jù)(研究中只用到腦電數(shù)據(jù))。每觀看完1 個視頻片段,被試需要完成SAM 量表[28]對誘發(fā)情緒狀態(tài)進行自我評分(實驗范式見圖1)。
圖1 DEAP 實驗范式Fig.1 The experiment paradigm of DEAP dataset
DEAP 數(shù)據(jù)集包含了32 名被試情緒誘發(fā)實驗中采集的32 通道腦電信號和被試對自身情緒狀態(tài)的自評結果。其中,所有被試都有良好的身體狀況及精神狀態(tài),沒有任何的精神疾病或腦部損傷,且都為右利手;腦電數(shù)據(jù)的采樣頻率為512 Hz,采集所用到的32 導聯(lián)電極按國際標準的10/20 分布進行放置;自我評分中的效價、喚醒度和支配度分別從3 個維度來量化情緒狀態(tài),其中效價用于衡量情緒的積極和消極程度,喚醒度表示人的狀態(tài)的興奮程度,支配度用于度量人的意志的強大程度[29-30]。
實驗所用的音樂視頻片段帶有不同的情緒標簽,但并非明確的單一情緒類型,每個視頻具體激發(fā)的情緒狀態(tài)標簽是根據(jù)預打分實驗中的被試在自我評估中對效價、喚醒度、支配度的程度選擇來實現(xiàn)劃分的,3 個維度的打分數(shù)值范圍為1 ~9。在效價和喚醒度的情緒維度上分別進行二分類,評分高于5 的腦電信號被劃分為高水平組(正向或高激發(fā)度情緒),反之則為低水平組(負向或低激發(fā)度情緒)。
所使用數(shù)據(jù)為DEAP 數(shù)據(jù)集中提供的、已進行基線校正的32 通道預處理腦電數(shù)據(jù)。DEAP 的腦電數(shù)據(jù)預處理的操作流程如下:1)降采樣到128 Hz;2)眼動偽跡去除;3)使用4~45 Hz 帶通濾波,去除干擾信號;4)進行共同平均重參考;5)使用1 s 的無重疊滑窗,對預處理數(shù)據(jù)中60 s 視頻的腦電信號進行分割,最后獲得76 800 個時長為1 s 的干凈腦電信號(32×128)。
1.1.2 MAHNOB-HCI 和SEED 數(shù)據(jù)集
MAHNOB-HCI 數(shù)據(jù)集是由Soleymani 等提出的情感誘發(fā)多模態(tài)數(shù)據(jù)集[27],模型所用到的數(shù)據(jù)僅為腦電數(shù)據(jù)。其中,將被試實驗過程中自我評估的效價和喚醒度的高低作為腦電數(shù)據(jù)標簽,這與使用DEAP 數(shù)據(jù)集的標簽的方法一致;使用完整的24 名被試的腦電數(shù)據(jù)進行訓練和測試;對MAHNOB-HCI腦電數(shù)據(jù)進行與DEAP 數(shù)據(jù)集同樣的預處理。SEED 數(shù)據(jù)集[25]是呂寶糧教授研究組創(chuàng)建的一系列情緒腦電數(shù)據(jù)集。該數(shù)據(jù)集的情緒標簽為積極、中性、消極,對應于情緒誘發(fā)片段的激發(fā)目標情緒;被試共有15 人。為了適應模型的輸入尺寸,將SEED腦電數(shù)據(jù)降采樣至128 Hz,并對照DEAP 腦電數(shù)據(jù)的32 通道分布,通過通道平均法將SEED 腦電數(shù)據(jù)的62 通道合并為32 通道(見圖2)。為了更方便地比較與驗證情緒識別模型的二分類結果,僅取積極與消極兩類標簽數(shù)據(jù)進行訓練。
圖2 62 通道合并為32 通道(虛線圈起的通道信號通過求平均,得到紅色標記的單通道,對應于32 通道電極分布;FP1、AF3、FP2、AF4 通道保持不變)Fig.2 Distribution of 32 electrodes merged from 62 electrodes of EEG cap(According to the layout of 32 electrodes, signal of single electrode marked in red is obtained by averaging signals of multiple electrodes circled by dotted line in black.Signals in FP1, AF3,F(xiàn)P2, AF4 are constant)
腦電信號是一種持續(xù)反映全腦活動的生理信號,通過分析腦電信號中的時-空動態(tài)變化信息,可以幫助實現(xiàn)情緒識別。為有效地提取與情緒表征相關的腦電特征,提出一種基于深淺特征融合的深度卷積殘差網(wǎng)絡情緒識別模型,其結構如圖3所示。
圖3 基于深淺特征融合的深度卷積殘差網(wǎng)絡情緒識別模型結構Fig.3 The architecture of feature fusion based deep residual networks using deep and shallow learning for EEGbased emotion recognition
首先,在“淺層特征提取”模塊(見圖4),設計多層不同卷積核的卷積層,以提取腦電特征中與情緒相關的時間動態(tài)變化特征和空間動態(tài)變化特征;通過不同的卷積核,深度網(wǎng)絡可以對腦電信號進行時域與空間域濾波,將與情緒語義無關的時間和腦區(qū)信息排除,實現(xiàn)淺層時-空特征的提取。其次,在“深層特征提取”模塊(見圖5),采用雙向GRU 網(wǎng)絡,進一步探究淺層特征中腦電信號序列的時間關聯(lián)性,再輸入到注意力機制網(wǎng)絡中,得到更深層的與情緒相關的語義信息特征;同時,在模型中加入殘差塊來緩解梯度消失問題,提高模型的收斂速度和訓練精度[31]。最后,把所提取的淺層-深層融合特征,輸入到“分類”模塊,輸出情緒分類結果。接下來,將仔細介紹模型中每一個模塊的設計細節(jié)和技術參數(shù)。
圖4 模型“淺層特征提取”模塊結構圖(FC:全連接層;ELU:ELU 激活函數(shù))Fig.4 The “shallow feature extraction” module(FC:fully connected layer;ELU:ELU activation function)
圖5 模型“深層特征提取”模塊結構(FC:全連接層;tanh:tanh 激活函數(shù))Fig.5 The “deep feature extraction” module(FC:fully connected layer;ELU:ELU activation function)
1.2.1 “淺層特征提取”模塊
將預處理后的腦電信號(32×128)作為“淺層特征提取”模塊的輸入。首先,將腦電信號輸入到帶殘差塊的卷積層,用于提取腦電信號的時域特征。由于所輸入腦電信號的列屬性為時間,所以這里的卷積核被設計為行向量(1×65),通道數(shù)為16,使該卷積層能通過卷積對腦電時序信息進行整合,有效地保留腦電特征中的時間動態(tài)變化性。同時,添加了一個殘差塊與主路上的卷積輸出相加。這里,殘差塊的卷積核尺寸為1×1,通道數(shù)為16。主路與殘差支路相加后,得到尺寸為32×128×16 的特征圖。為了保證數(shù)據(jù)分布一致和進一步加快收斂速度,利用實例正則化(instance normalization,IN)方法對特征數(shù)據(jù)進行歸一化。相較于傳統(tǒng)的批量正則化(注重對每一個批量的樣本進行歸一化[32],容易導致所訓練分類模型的跨被試泛化性不佳),IN 對單個樣本進行歸一化,能保持每個樣本間的獨立性,盡可能地保留樣本的特異性,提高模型跨被試的泛化性[33]。
腦電信號是多通道信號,除了具有時間動態(tài)變化性,信號的通道之間也包含了豐富的空間信息,能有效地反映不同情緒在腦區(qū)間特異的信號表達。為了有效地保留腦電特征中與情緒相關的空間動態(tài)變化性,將主路中第2 層卷積層的卷積核尺寸設計為32×1,通道數(shù)為32。不同于第1 層卷積層中的卷積核,該層卷積核被設計為列向量,可以整合腦電信號電極通道之間的信息,幫助有效地提取出與情緒狀態(tài)相關的腦電空間特征。該卷積層的輸出結果可依次輸入到IN 層、ELU 激活函數(shù)層、最大池化層和Dropout 層,進行數(shù)據(jù)處理和特征提取。其中,池化核尺寸為1×4,Dropout 率為0.25。最終所輸出的特征圖尺寸為1×32×32。
通過前兩個卷積層,可提取到與情緒相關的腦電時-空變化信息,基于輸出的特征圖,進一步采用深度可分離卷積層來對數(shù)據(jù)特征進行變換、提取和降維。研究指出,深度可分離卷積具有與標準卷積相同的效果,但其參數(shù)的數(shù)量少,運算成本低于標準卷積的值,所以選用深度可分離卷積層可大大減輕模型的運算負擔,節(jié)約時間開支[34]。具體來說,深度可分離卷積層的第1 層為逐通道卷積層,卷積核尺寸設計為1×17,通道數(shù)為32;第2 層為逐點卷積層,卷積核尺寸設計為1×1,通道數(shù)為16。該深度可分離卷積層可以進一步對腦電的時-空域信息進行整合與特征提取。同時,增加卷積核尺寸為1×1、通道數(shù)為16 的殘差網(wǎng)絡,其輸出與經(jīng)過兩層深度可分離卷積層的輸出結果相加,得到尺寸為
1×32×16 的特征圖。然后,將輸出特征圖輸入到IN 層、ELU 激活函數(shù)層,得到三維特征圖(1×32×16),再將其16 個1×32 向量拼接為16×32 的二維特征圖,以適配GRU 層的輸入格式。此時,二維特征圖中的列屬性為時間,行屬性與腦電信號中的電極通道有所區(qū)別,代表了以不同的濾波方式整合電極通道空間信息的16 個卷積核通道。接著,將二維特征圖中的每一列向量(16×1)經(jīng)過一次輸出神經(jīng)元為16 的全連接層,得到尺寸為16×32 的特征圖。最后經(jīng)過ELU 激活函數(shù)層和Dropout 層(Dropout 率為0.25),輸出為16×32 的特征圖,即淺層特征。
1.2.2 “深層特征提取”模塊
LSTM 是一種循環(huán)神經(jīng)網(wǎng)絡,具有長時記憶性,能夠保留長時序列信號中的重要時序信息[35-36]。GRU 是LSTM 的一種變體,相較于LSTM,GRU 的結構更簡單且運算更快,尤其對于較大的數(shù)據(jù)來說,GRU 能節(jié)省更多的運算資源,且訓練結果與LSTM基本無異。GRU 能通過“門”結構來保留長時序列中的重要信息,并且確保這些長程時序信息的有效傳遞[37]。但是,傳統(tǒng)的GRU 網(wǎng)絡是單向循環(huán)神經(jīng)網(wǎng)絡,只能按照單向時間順序去處理信息,所以容易忽略未來時刻的語義信息。雙向GRU 網(wǎng)絡通過引入第2 層反向輸入的GRU 來擴展原本單向的GRU 網(wǎng)絡,幫助模型能夠同時兼顧過去與未來時刻的信息傳遞,提高模型的預測能力。在所提出的模型中,將“淺層特征提取”模塊所提取出的淺層特征,作為“深層特征提取”模塊的輸入,并采用雙向GRU 網(wǎng)絡結構,從時序前后關聯(lián)性的角度,對不同時刻的多通道數(shù)據(jù)進行更深入的特征提取。
具體來說,首先將淺層特征按時間順序依次輸入到雙向GRU 網(wǎng)絡中,得到正向和反向的結果hf和hb(尺寸均為32×16)。對hf和hb加權求和得到h,有
h =Wfhf+ Wbhb
式中,Wf和Wb分別為hf和hb的權重,初始化時均為1,在模型不斷訓練迭代過程中學習到最優(yōu)解。這里,h的尺寸與hf和hb一致,即為32×16。隨后,取其32 個行向量hj(j∈[1,32]),經(jīng)過全連接層,每個hj都得到與其對應的特征向量gj(j∈[1,32])。
由于情緒隨時間是動態(tài)變化的,所以在情緒識別中,每個時間段的腦電信息并不具有同等的重要性。為了尋找與情緒表征更相關的時間段,在特征提取過程中,將采用注意力機制來進一步提取這些關鍵時間段的腦電特征[38]。具體來說,基于所獲得的特征向量gj,將gj仿射變換后輸入到tanh 函數(shù)中,得到uj(j∈[1,32]),并計算出每個uj的權重wj(j∈[1,32]),然后進行加權求和得到v,有
式中,默認系數(shù)為We,偏差be和查詢向量q為隨機初始化值,并在訓練過程中得到最優(yōu)解。同時,增加一個殘差塊,將hj求平均與v相加,輸出結果尺寸為1×16,即深層特征。
1.2.3 分類模塊
將從淺層特征提取模塊和深層特征提取模塊得到的淺層-深層融合特征(1×16)輸入到一個輸出神經(jīng)元為2 的全連接層,再經(jīng)過Softmax 函數(shù)將輸出映射到和值為1 的分類概率值上,最終輸出兩個值,分別代表在情緒二分類任務中該樣本分類為高、低類別的概率值,該樣本的預測類別為概率大者,有
式中,xi為i類別對應的全連接層輸出數(shù)值,c為類別數(shù)。
模型在DEAP 數(shù)據(jù)集上分別對效價和喚醒度維度進行情緒的二分類識別。在模型訓練過程中,采用基于被試獨立的留一交叉驗證法,并同時借鑒遷移學習的概念來對模型進行微調(diào)。具體來說,首先選取31 個被試的數(shù)據(jù)作為訓練集,對模型進行預訓練;隨后將剩余1 個被試的數(shù)據(jù)作為測試數(shù)據(jù),對模型進行微調(diào)與測試。在微調(diào)與測試過程中,將測試數(shù)據(jù)分為90%和10%兩部分:在90%的數(shù)據(jù)中,隨機選取10%的數(shù)據(jù)作為微調(diào)過程中的驗證集,剩余的數(shù)據(jù)將放入預訓練好的模型中進行模型參數(shù)微調(diào);剩下10%的數(shù)據(jù)用于模型測試。每個被試進行10 次微調(diào)與測試,每次用作測試的數(shù)據(jù)不重復,直至1 個被試的所有數(shù)據(jù)均用于測試。在32 個被試上重復上述操作,直到每個被試的所有數(shù)據(jù)都被用作測試集。在模型訓練過程中,使用交叉熵作為損失函數(shù),對模型參數(shù)進行學習和優(yōu)化,有
式中,x為模型輸入,p為期望輸出的概率分布,q為實際輸出的概率分布,N為模型輸入的數(shù)量。
在預訓練過程中,對卷積層中的權值參數(shù)進行均勻分布初始化[39]。訓練30 輪,并選擇最后一輪的模型作為預訓練模型。同時,選擇Adam 優(yōu)化器[40]來更新模型參數(shù),預訓練過程的學習率是0.001。在微調(diào)過程中,所有的權值參數(shù)均用預訓練模型的參數(shù)進行初始化。訓練70 輪,并選擇在驗證集上表現(xiàn)最佳的模型進行測試。這里,選擇Adam優(yōu)化器進行微調(diào),學習率為0.0001。在整個預訓練和微調(diào)過程中,批量大小均為128,所有訓練與測試均基于Pytorch 和CUDA 10.0,在NVIDIA GeForce RTX 2080 GPU 上進行。
為了全面評估模型性能,使用準確率、精準率、召回率、F1 Score 指標作為模型結果。其中,準確率表示模型對于所有樣本的預測正確率;精確率又稱為查準率,表示預測為高維度情緒的樣本中真實標簽也為高的樣本占比;召回率又稱為查全率,表示真實標簽為高維度情緒的樣本中預測也為高的樣本占比;F1 Score 為精確率和召回率的調(diào)和平均,同時兼顧了精確率與召回率,是一種綜合指標。上述這些指標計算如下:
式中,TP 表示真實標簽和預測標簽均為高的樣本數(shù);TN 表示真實標簽和預測標簽均為低的樣本數(shù);FP 表示真實標簽為低、預測標簽為高的樣本數(shù);FN表示真實標簽為高,預測標簽為低的樣本數(shù)。
為了更清晰地展現(xiàn)模型結果,計算真實標簽與預測標簽的混淆矩陣,以展示效價與喚醒度的二分類結果。其中,混淆矩陣中左上角值為真實標簽為低的正確識別率,右上角值為真實標簽為低的錯誤識別率,左下角值為真實標簽為高的錯誤識別率,右下角值為真實標簽為高的正確識別率。
本研究從總體和個體兩個角度評估模型性能,使用DEAP 數(shù)據(jù)集上的總體結果作為模型的主要結果,并與現(xiàn)有同類模型的結果進行比較。同時,展示在MAHNOB-HCI 和SEED 數(shù)據(jù)集上的驗證結果。
基于模型測試中所有預測的結果,將計算準確率、精準率、召回率、F1 Score 指標作為模型結果,如表1所示。在效價與喚醒度上,真實標簽與預測標簽的混淆矩陣如圖6所示。從表1 可見,模型在效價上的準確率和綜合指標F1 Score 分別達到了96.95%和96.44%,在喚醒度上的準確率和綜合指標F1 Score 分別達到了97.22%和96.56%??傮w來說,模型在喚醒度上的各項指標結果要略優(yōu)于效價,所有的結果均高于94%,在情緒的精準率和召回率兩方面均表現(xiàn)優(yōu)異。從圖6 中可以發(fā)現(xiàn),在效價和喚醒度上對真實標簽為低,即消極情緒和低興奮程度的樣本的識別率更高,分別達到了98.54%和98.67%,而對真實標簽為高的樣本識別率分別達到了94.88%和95.13%。
圖6 模型測試結果的混淆矩陣。(a)效價混淆矩陣;(b)喚醒度混淆矩陣Fig.6 The confusion matrixes of results of our model.(a)Confusion matrix for valence;(b)Confusion matrix for arousal
表1 模型測試結果Tab.1 The results of our model
為了更好地驗證模型在不同被試上的分類性能,在基于被試獨立的留一交叉驗證法過程中,進一步核查基每一位被試所對應的情緒識別結果,并計算模型指標(準確率、精確率、召回率、F1 Score)。結果顯示,不同被試的測試結果存在一定差異性,而同一被試在效價和喚醒度兩個維度上的識別效果也存在差異(見圖7)。另外,同一被試在不同指標上的維度表現(xiàn)也存在不同。例如,被試2 的精確率結果中,在喚醒度維度上的表現(xiàn)比效價的表現(xiàn)好,而在召回率中則相反。這些識別性能上的差異表現(xiàn),反映出個體內(nèi)與個體間的差異性(不同被試對于同一視頻的情緒激發(fā)水平不同),并受到主觀打分的影響(被試對于效價和喚醒度的理解與打分習慣不同等)。但是,大部分被試的結果指標均在90%以上。經(jīng)統(tǒng)計,在效價維度上,32 名被試的準確率、精確率、召回率、F1 Score 的平均值±標準差分別為96.95%±2.37%、98.04%±2.00%、94.81%±3.93%、96.38%±2.90%;在喚醒度維度上,32 名被試的準確率、精確率、召回率、F1 Score 的平均值±標準差分別為97.22% ± 2.18%、98.19% ± 1.93%、94.67%±3.50%、96.38%±2.56%。
圖7 每位被試的情緒識別結果Fig.7 The results of every subject
同時,計算32 名被試所對應的混淆矩陣,如圖8所示。經(jīng)統(tǒng)計,在效價維度上,32 名被試的混淆矩陣的左上角值、右上角值、左下角值、右下角值的平均值±標準差分別為98.45% ±1.55%、1.55% ±1.55%、5.19%±3.93%、94.81%±3.93%;在喚醒度維度上,32 名被試的混淆矩陣的左上角值、右上角值、左下角值、右下角值的平均值±標準差分別為98.33%±2.26%、1.67%±2.26%、5.33%±3.50%、94.67%±3.50%。結果顯示,所提出網(wǎng)絡模型在不同被試數(shù)據(jù)上的情緒識別表現(xiàn)較穩(wěn)定,并不存在顯著差異。
圖8 每位被試的混淆矩陣,每個子圖中含32 個混淆矩陣,矩陣上方的數(shù)字代表被試編號,矩陣第1 行代表真實標簽為低,第2 行代表真實標簽為高(從上到下);第1 列代表預測標簽為低,第2 列代表預測標簽為高(從左到右)。(a)效價混淆矩陣;(b)喚醒度混淆矩陣Fig.8 The confusion matrices of every subject.There are 32 confusion matrices and the numbers over them represent the subjects.The first and second row of every matrix represent the low and high of true label respectively(From top to bottom).The first and second column of every matrix represent the low and high of predict label respectively(From left to right).(a)Confusion matrix for valence;(b)Confusion matrix for arousal
模型在DEAP 數(shù)據(jù)集上進行驗證,識別準確率達到了96.95%(效價)和97.22%(喚醒度)。與CNN+LSTM 模型[41]相比,在效價和喚醒度兩個維度上,腦電-情緒識別模型的準確度分別從原有的93.64%和93.26%提高到96.95%和97.22%,提高了3.53%和4.25%。同時,與近年來在同樣數(shù)據(jù)集上訓練與測試的其他深度模型的結果做比較,識別準確率都有了明顯的提升,比較結果如表2所示。
表2 與其他模型分別在效價和喚醒度上的準確率比較結果Tab.2 The comparison of accuracy on valence and arousal respectively with other models
使用與處理DEAP 數(shù)據(jù)同樣的訓練和驗證方法(具體見本文第1.3 節(jié)的模型訓練與驗證),在MAHNOB-HCI 與SEED 數(shù)據(jù)集上進行訓練與測試,基于所有被試的預測結果,進行準確率、精準率、召回率、F1 Score 指標的計算,結果如表3所示??梢钥闯?在MAHNOB-HCI 數(shù)據(jù)集上,模型在效價維度上的準確率達到98.51%,在喚醒度維度上達到98.47%,模型對于該數(shù)據(jù)集在效價和喚醒度兩個維度上的表現(xiàn)相當,且在精準率和召回率上均表現(xiàn)優(yōu)異。在SEED 數(shù)據(jù)集上,模型準確率達到91.18%。
表3 MAHNOB-HCI 與SEED 數(shù)據(jù)集模型驗證結果Tab.3 The results of our model validated in MAHNOBHCI and SEED database
在SEED 數(shù)據(jù)集上的準確率稍低于DEAP 與MAHNOB-HCI 的準確率,導致該結果的原因較多,例如:在SEED 數(shù)據(jù)集中,用以驗證模型的被試量較少,僅有15 名(DEAP 32 名,MAHNOB-HCI 24 名),腦電信號的代表性不夠強,可能導致在跨被試驗證時預訓練模型泛化性較低;SEED 數(shù)據(jù)集的腦電數(shù)據(jù)標簽為對應情緒誘發(fā)片段的情緒標簽,而非被試的自我評估結果,可能存在視頻片段并不能很好地誘發(fā)被試產(chǎn)生標簽情緒的情況,導致該腦電信號的標簽情緒特異性不強;在處理數(shù)據(jù)的過程中,為了適配模型的輸入尺寸,將62 通道平均合并為32 通道,損失了部分通道信息等等。
針對現(xiàn)情緒識別領域上的腦電信號時-空特征融合難題,本研究提出了新型的網(wǎng)絡結構情緒識別模型來加以解決。
從表1 和圖6 的模型結果可見,該模型對情緒識別具有明顯的優(yōu)勢,在DEAP 數(shù)據(jù)集上對效價和喚醒度的情緒識別準確率均較高,分別達到了96.95%和97.22%,證明了模型提取的深淺融合特征的有效性。對于不同被試,大腦對不同情緒的表達和對被試的評估習慣等存在差異,所以跨被試的情緒識別十分困難。本研究借鑒遷移學習的方法,對預訓練模型進行了單個被試的模型微調(diào),獲得更優(yōu)異、理想的情緒識別結果。從個體的角度進行結果分析,由圖7、8 的結果可見,模型對于不同被試的數(shù)據(jù)的情緒識別率也較穩(wěn)定,在效價和喚醒度上的識別率較一致,且被試的平均識別率均較高,泛化性能較好,既能學習所有訓練樣本的同一特征,又能包容不同個體間的差異性。相較于同類模型[41],所提出的模型在效價和喚醒度維度上情緒識別性能都有明顯的提升。另外,在MAHNOB-HCI 和SEED 數(shù)據(jù)集上的驗證結果同樣可觀,進一步驗證了模型在不同數(shù)據(jù)集上的泛化性和魯棒性。
情緒-腦電研究發(fā)現(xiàn),腦電在額葉呈現(xiàn)的不對稱性與情緒具有高度相關性[45],不同情緒的腦電表征在不同腦區(qū)的顯著性和連接性也不同[46-47],表明了大腦空間信息在情緒識別領域的重要性。研究發(fā)現(xiàn),腦電信號能反映情緒在時間上的動態(tài)變化過程[48];情緒-腦電的時頻域研究發(fā)現(xiàn),腦電波在不同頻段的時域變化特性與不同情緒相關聯(lián)[49]。由于腦電具有高時間分辨率的特性,所以在情緒識別領域,充分利用腦電的時序信息,能有效幫助準確地識別特定情緒。
目前,許多研究開始結合CNN 與LSTM,以獲取良好的時-空特征融合效果。例如,在同類模型[41]中,Chen 等將2D-CNN 和LSTM 結合,構建了被試內(nèi)情緒二分類模型,利用CNN 網(wǎng)絡學習腦電信號的空間相關性,利用LSTM 學習腦電信號的時間依賴性。另外,Chen 等[38]建立了基于雙向GRU 的跨被試情緒二分類模型,在DEAP 數(shù)據(jù)集上驗證得到了效價和喚醒度準確率,分別為65.8%和64.3%;在此基礎上加入注意力機制后,效價和喚醒度準確率都提升了2%以上,分別達到67.9%和66.5%。這表明,加入CNN、雙向GRU、注意力機制,能更有效地提取與情緒相關的腦電特征,提高情緒識別準確率。本研究基于上述3 種網(wǎng)絡結構,建立新型的淺層-深層特征提取模塊,以解決腦電時-空特征融合難題。
腦電的淺層特征主要包括時間動態(tài)變化性和空間動態(tài)變化性兩部分?!皽\層特征提取”模塊實現(xiàn)了初步的腦電時-空特征融合:一方面,按時間順序?qū)γ總€通道的腦電信號使用多通道卷積核進行濾波,可以提取多種腦電序列變化特征,同時濾除與情緒識別無關的雜波;另一方面,由于情緒-腦電的腦區(qū)表現(xiàn)具有特異性和關聯(lián)性,按電極通道方向進行卷積操作,可以提取與情緒識別相關的腦電信號在空間尺度上的動態(tài)變化特征。研究發(fā)現(xiàn),腦電能夠反映和表征大腦的高級認知活動,如情緒、記憶、注意力等[50-51]。為了提取更深層次的、能夠表征大腦情緒語義信息的腦電特征,使用“深層特征提取”模塊,在淺層時-空特征的基礎上,對腦電信號在時序上的關聯(lián)性進行分析,并對重要時段進行特征提取,從而獲取淺層-深層融合特征。
使用 t 分布隨機近鄰嵌入(t-distributed stochastic neighbor embedding,t-SNE),對淺層特征和淺層-深層融合特征進行降維可視化。具體來說,使用被試1 的數(shù)據(jù)對預訓練模型進行微調(diào)并測試,得到對應的2 400 個淺層特征(512 維)和淺層-深層融合特征(16 維),并使用t-SNE 將特征降維至二維,以觀察它們的可分性差別,結果如圖9所示??梢钥闯?淺層特征的可分性顯然比淺層-深層融合特征要差,且類內(nèi)的分布也較分散,相對而言,淺層-深層融合特征的類內(nèi)分布更密集,類間的分界線也比較顯著。在可視化結果中,淺層-深層融合特征的可分性顯著增強,這說明“深層特征提取”模塊在淺層特征的基礎上提取到更能表征情緒語義的腦電特征。
圖9 被試1 淺層特征和深層-深層融合特征的t-SNE 可視化。(a)效價淺層特征;(b)效價淺層-深層融合特征;(c)喚醒度淺層特征;(d)喚醒度淺層-深層融合特征Fig.9 t-SNE visualization of shallow and shallow-deep fusion feature maps of subject 1.(a)Shallow feature map of valence;(b)Shallow-deep fusion feature map of valence;(c)Shallow feature map of arousal;(d)Shallow-deep fusion feature map of arousal
雖然提出的基于深淺特征融合的深度卷積殘差網(wǎng)絡模型獲得了較好的準確率,但距離實際應用于情感腦機接口平臺還有一段距離:一是情緒識別模型的泛化性和普適性仍有待提高,因為模型會受數(shù)據(jù)樣本數(shù)目的影響,無法在特異性特征和普遍性特征中被很好地區(qū)分。本研究使用遷移學習的方法來提高模型對特異性樣本的識別能力,但這是一個折衷的方法,仍然存在局限性,例如,該方法使情緒識別系統(tǒng)缺乏實時性,對腦機接口的硬件系統(tǒng)要求更高等;二是腦機接口實際應用的技術支持還不完善,目前仍缺乏能夠普遍應用的情緒識別模型,其所需滿足的可操作性和可重復性還缺乏系統(tǒng)的解釋。所以,對于貼近實際應用的情緒解碼技術的研究任務仍然任重而道遠。值得關注的是,眼動信號和其他電生理信號等也具有表征情緒的能力。未來,會嘗試跨中心、跨模態(tài)、跨被試的智能情感研究,希望進一步提高智能情感研究的準確度和穩(wěn)定性,推進智能情感研究在實際生活應用中的實現(xiàn)和發(fā)展。
本研究提出了一個基于深淺特征融合的深度卷積殘差網(wǎng)絡模型,成功解決了基于腦電信號的情緒分類問題,為情緒識別提供了解決腦電信號時-空特征融合難題的方法。該模型通過“淺層-深層特征提取”模塊,有效地獲得腦電信號中與情緒識別相關的潛在特征,并通過全連接層實現(xiàn)情緒分類的任務。模型驗證應用在3 個著名的情緒-腦電數(shù)據(jù)集上,結果顯示,所提出模型能有效地提取與情緒語義相關的腦電特征,并獲得了較好的情緒識別準確率。