郭國棟,高亞罕,曹宇杰
(1.上海理工大學(xué) 醫(yī)療器械與食品學(xué)院,上海 200093;2.上海健康醫(yī)學(xué)院 醫(yī)療器械學(xué)院,上海 200237)
情緒是以個體的需要、愿望等傾向為中介的一種心理現(xiàn)象,是人對客觀事物的態(tài)度體驗以及相應(yīng)的行為反應(yīng)[1]。早在1884 年,情緒的概念第一次被提出。隨著研究的深入,Ekman等[2]將情緒劃分為6種基本形式,包括悲傷(Sad)、高興(Happy)、恐懼(Fear)、厭惡(Dis-gust)、驚訝(Surprise)和憤怒(Angry)。在進行情緒識別時微表情信息、語言語態(tài)、姿態(tài)表情、生理信號等都是重要的數(shù)據(jù)來源[3]。其中,生理信號具有難以偽裝、信息量更加豐富等特點。腦電信號就是一種典型的生物電信號,是大腦皮層神經(jīng)細(xì)胞或頭皮表層電活動的總體反應(yīng),其中包含了大量的生理和病理信息[4]。同時,情緒的波動會對肌體生理信號產(chǎn)生影響,不可避免會對腦波產(chǎn)生相應(yīng)的影響[5]。因此,通過對腦電信號進行采集和分析可以直觀準(zhǔn)確地判斷人體的生理及心理狀態(tài)。
腦電信號的情緒識別主要包括了5 個基本步驟[6],如圖1 所示。本文主要對腦波情緒特征提取、情緒分類方法以及基于深度學(xué)習(xí)的腦電信號情緒識別方法進行歸納與總結(jié)。并且,腦電信號數(shù)據(jù)集是情緒識別研究中的重要部分,主要對常用的腦電信號數(shù)據(jù)集進行介紹與分析。最后,闡述了目前腦電情緒研究中存在的問題,并對其未來發(fā)展作出了展望。
Fig.1 Main steps of emotion recognition of EEG signals圖1 腦電信號情緒識別主要步驟
腦電信號是一種極其微弱的生理信號(幅值在微伏級別),在采集過程中不僅會受到腦電數(shù)據(jù)采集設(shè)備和外部環(huán)境的干擾,人體自身的一些生理因素如眼電、肌電等也會對腦電信號產(chǎn)生影響[7]。同時,測試者自身當(dāng)下的生理及心理狀態(tài)也會對腦電信號的采集產(chǎn)生影響。大量的偽跡信號會增加腦電信號分析難度,難以從中直觀分析出與情緒的內(nèi)在聯(lián)系。為了便于后續(xù)研究,對采集到的信號作一定預(yù)處理,通過這種初步處理,可以得到具有一定規(guī)律的信號[8]。
腦電信號的情感識別是情感計算領(lǐng)域的一個重要研究方向,腦電信號的特征提取與分類是進行情緒識別的基礎(chǔ)。傳統(tǒng)腦電信號的特征提取,主要從時域特征、頻域特征、時頻域以及非線性動力學(xué)分析4 種特征入手,如圖2 所示。研究表明,右腦區(qū)在情緒方面有更多信息[9]。傳統(tǒng)的特征提取方法從每個通道提取腦電特征,卻忽略了通道的空間特征和全局同步信息。這些特征也包含了與情緒狀態(tài)相關(guān)的信息,因此在進行腦電情緒識別時有必要對空間域特征進行分析。
Fig.2 Feature extraction of EEG signals圖2 腦電信號的特征提取
(1)時域特征。時域特征也稱信號的統(tǒng)計特征,Kwon等[10]將腦電信號采集時對稱電極間產(chǎn)生的幅值差作為特征信號進行采集,并取得了較好的分類效果;Zhuang 等[11]利用經(jīng)驗?zāi)J椒纸猓‥MD)的特征提取和情感識別方法,適用于非線性非平穩(wěn)信號的分析處理,可提高情感識別性能。因為腦電信號的特殊性,難以通過某一確定的時域特征進行分析,在實際運用過程中想要達到預(yù)期處理效果,需根據(jù)特定需求對實驗數(shù)據(jù)進行有針對性的處理。
(2)頻域特征。在腦電情感識別中,最常見的特征是來自不同頻帶的功率特征,可通過傅里葉變換(Fourier Transfer,F(xiàn)T)將時域信號轉(zhuǎn)換為頻域信號。Xing 等[12]利用腦電信號和視聽特征視頻情感識別的融合方法將功率譜密度與視頻視聽特征相結(jié)合,取得了較好的分類效果。通過頻域特征進行提取,可從分離不同頻帶相應(yīng)的特征信號加以分析,但在腦電信號采集中會產(chǎn)生干擾導(dǎo)致頻帶出現(xiàn)重疊,此時提取的特征值會產(chǎn)生偏差。
(3)時頻域特征。腦電信號是一種非平穩(wěn)隨機信號,僅從時域或頻域進行特征提取具有局限性,最常用的還是時頻結(jié)合的分析方法。在運用小波變換處理信號時只對信號的低頻部分進行分解,而拋棄對信號高頻部分的處理。因此,需依據(jù)小波包變化對小波空間作進一步分解,能同時對信號的低、高頻部分進行多層次劃分,可以對腦電信號的任意頻段信號進行特征提?。?3]。希爾伯特黃變換與傳統(tǒng)方法相比,其在處理非線性非平穩(wěn)信號方面更具優(yōu)勢。Mutlu[14]提出一種基于Hilbert 振動分解(HVD)的腦電信號識別框架,其計算復(fù)雜度較低,更適合于實時生理信號處理應(yīng)用??傮w而言,時頻域法能夠更加細(xì)節(jié)地表現(xiàn)出腦電信號的瞬時特征。
(4)非線性動力學(xué)分析。腦電信號具有非線性和混沌性的特點[15],傳統(tǒng)的腦電信號分析大多基于傅立葉變換技術(shù),該技術(shù)假定被分析信號的線性和平穩(wěn)性,由于腦電活動的復(fù)雜性和動態(tài)性,非線性方法更適合于評估腦電的內(nèi)在動力學(xué),探索情緒發(fā)生時大腦活動的生理機制。Zheng等[16]通過具有微分熵特征的判別圖正則化極值學(xué)習(xí)機實現(xiàn)情緒有效識別;Thammasan 等[17]采用分形維數(shù)(FD)從原始腦電信號中提取信息特征,對情緒進行分類。實驗結(jié)果表明,F(xiàn)D 在喚醒和價態(tài)分類方面略優(yōu)于PSD 方法,并且FD與情緒的相關(guān)性高于PSD。
(5)空間域特征。腦電信號采集時在大腦頭皮層上放置不同位置的電極,這些電極在大腦頭皮上有固定的空間分布模式。同時,不同腦區(qū)對不同情緒的反應(yīng)也不盡相同。因此,在對腦電信號的空間域特征進行提取時主要從空頻域特征和電極空間組合上加以分析。Hao 等[18]在進行腦電信號情緒識別時融入對空間特性的分析,構(gòu)造了多通道腦電信號的多帶特征矩陣(MFM)。隨著研究的深入,Chao 等[19]提出一種借助通道的空間特征和全局同步信息,將多通道腦電信號封裝成灰度圖像的全局特征提取方法。結(jié)果表明,對腦電信號全局同步特征和空間特征的分析有利于情緒識別。
在對腦電信號進行特征提取后,依據(jù)提取出的特征對腦電信號進行情緒分類處理。隨著人工智能的不斷發(fā)展,情緒識別計算技術(shù)已經(jīng)成功地將情緒變化與腦電信號聯(lián)系起來,因此只要施加適當(dāng)?shù)拇碳?,就可以從腦電信號中識別情緒變化并對其加以分類。
目前,傳統(tǒng)機器學(xué)習(xí)研究方向主要包括決策樹、隨機森林、人工神經(jīng)網(wǎng)絡(luò)、貝葉斯學(xué)習(xí)等。每一個預(yù)測模型都獨有一個特定的算法結(jié)構(gòu),通過參數(shù)微調(diào)完成不同的識別任務(wù)。在進行預(yù)測時首先根據(jù)數(shù)據(jù)特點選定一個模型結(jié)構(gòu),然后將訓(xùn)練數(shù)據(jù)輸入模型,最后輸出一個使輸出錯誤最小化的基于特定參數(shù)的學(xué)習(xí)模型。Zhang 等[20]采用EMD策略提取特征向量,通過支持向量機分類器進行訓(xùn)練和識別情緒。隨后Mohammadi 等[21]將支持向量機和K-近鄰分類器相結(jié)合對所提取的特征進行情感狀態(tài)檢測。針對多通道的信號特征,Zheng[22]提出一種新的群稀疏典型相關(guān)分析(GSCCA)方法,非常適合同時處理EEG 情感識別和自動通道選擇問題。與利用SVM 法不同的是,Tripathi 等[23]探索了兩種不同的神經(jīng)網(wǎng)絡(luò)模型,一種簡單的深層神經(jīng)網(wǎng)絡(luò)和一種用于分類的卷積神經(jīng)網(wǎng)絡(luò)。同時,證明了神經(jīng)網(wǎng)絡(luò)可以作為大腦信號的魯棒分類器,甚至優(yōu)于傳統(tǒng)的學(xué)習(xí)技術(shù)。每種模式都有自己的特點,在一些任務(wù)中表現(xiàn)不錯,但在其他方面表現(xiàn)不佳。因此,Mehmood 等[24]將SVM、K-近鄰、線性判別分析、樸素貝葉斯、隨機森林、深度學(xué)習(xí)和4 種集成方法(Bagging、Boosting、Stacking 和Voting)相結(jié)合對最優(yōu)特征作了進一步處理。實驗結(jié)果表明,與常用的譜功率帶方法相比,該方法極大提高了情感識別率。
傳統(tǒng)的機器學(xué)習(xí)分類器存在著缺乏確定模型結(jié)構(gòu)的專業(yè)知識和多模態(tài)特征提取過于簡單的不足[25]。利用深度學(xué)習(xí),學(xué)習(xí)腦電信號樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,能夠讓機器具有分析學(xué)習(xí)能力,在處理復(fù)雜的樣本數(shù)據(jù)和進行分類處理時更具優(yōu)勢。
(1)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)。CNN 是一類基于卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),在圖像領(lǐng)域取得了巨大成功。近年來,它們被引入到腦電、肌電圖、心電圖等生理信號的處理中。Xiang等[26]進一步設(shè)計了一個結(jié)合CNN 和RNN 的混合深度學(xué)習(xí)模型,在提取任務(wù)相關(guān)特征、挖掘信道間相關(guān)性以及從這些幀中合并上下文信息方面具有更好的效果;Li 等[27]利用層次卷積神經(jīng)網(wǎng)絡(luò)(HCNN)對情緒的積極、中性和消極狀態(tài)進行分類。研究表明,HCNN 在二維空間中具有很強的表征學(xué)習(xí)能力,它在情緒識別尤其是在β 波和伽瑪波上具有很高的識別效率。
(2)深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)。深度神經(jīng)網(wǎng)絡(luò)是一個復(fù)雜的模型,由一組簡單的RBM 模型組成??梢灾鸩教崛≥斎霐?shù)據(jù)的深層特征,通過預(yù)訓(xùn)練學(xué)習(xí)深度輸入特性。Zheng 等[28]介紹了一種新的基于差分熵特征的深度信念網(wǎng)絡(luò)(DBN),將兩種情緒類別(正和負(fù))從EEG 數(shù)據(jù)中進行分類,結(jié)合隱馬爾可夫模型(HMM)準(zhǔn)確捕捉更可靠的情緒階段轉(zhuǎn)換,DBN-HMM 的平均準(zhǔn)確率達87.62%。Kawde 等[29]將原始的EEG、EMG、EOG 和GSR 信號直接輸入到DBN 中,根據(jù)數(shù)據(jù)分布提取高級特征,在DEAP 數(shù)據(jù)庫上,對價態(tài)和喚醒的識別準(zhǔn)確率分別為78.28%和70.33%。
(3)概率神經(jīng)網(wǎng)絡(luò)(Probabilistic Neural Network,PNN)。PNN 是一種基于貝葉斯策略的前饋神經(jīng)網(wǎng)絡(luò)。PNN 學(xué)習(xí)過程簡單、訓(xùn)練速度快、分類更準(zhǔn)確、容錯性好等,使得分類更加準(zhǔn)確,對誤差和噪聲有較高的容忍度。Siao 等[30]利用PNN 和KNN 研究左腦損傷和右腦損傷對情緒識別的影響,發(fā)現(xiàn)RBD 在情緒識別方面存在更大的障礙。
(4)長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)。LSTM 可以處理RNN 的消失梯度問題,并且可以利用長期依賴序列和上下文信息。Salma 等[31]提出一種從原始腦電信號中識別情緒的深度學(xué)習(xí)方法,通過LSTM 從腦電信號中學(xué)習(xí)特征,然后由稠密層將這些特征分為低/高喚醒、價態(tài)和喜歡。在DEAP 數(shù)據(jù)集上對該方法進行了驗證,結(jié)果表明,喚醒類、價態(tài)類和喜歡類的平均準(zhǔn)確率分別為85.65%、85.45%和87.99%。
人工神經(jīng)網(wǎng)絡(luò)(ANN)是當(dāng)前備受青睞的計算智能技術(shù)之一。然而,傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)在人類情感分析等應(yīng)用中的性能并不理想。這就需要對神經(jīng)網(wǎng)絡(luò)進行改進,使其具有比傳統(tǒng)系統(tǒng)更好的性能。為了克服傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在計算復(fù)雜度和準(zhǔn)確性方面的不足,Zhong 等[32]利用深度學(xué)習(xí)方法提出一種基于多層融合層的層疊式自動編碼器(MESAE)集成分類器用于情緒識別,基于生理數(shù)據(jù)驅(qū)動的方法識別深層結(jié)構(gòu)。與現(xiàn)有最好的情感分類器相比,分類率和F 評分的平均值提高5.26%。Hemanth 等[33]提出循環(huán)反向傳播神經(jīng)網(wǎng)絡(luò)(CBPN)和深Kohonen 神經(jīng)網(wǎng)絡(luò)(DKNN)?;谝陨涎芯浚接懯褂媚X電圖(EEG)信號對人類不同情緒進行分類時的表現(xiàn)。
腦電信號情緒識別中各數(shù)據(jù)集比較如下:
(1)DEAP。2012 年,Koelstra 等[34]創(chuàng)建了一個多模態(tài)數(shù)據(jù)集用來分析人類的情感狀態(tài)。該數(shù)據(jù)集是目前公開的情緒腦電信號數(shù)據(jù)集中較為完善的數(shù)據(jù)集,共采集了32名受試者,每位受試者進行40 次長度為1 分鐘的音樂視頻刺激,采集相應(yīng)的腦電圖(EEG)和外周生理信號,同時還記錄了其中22 人的正面面部視頻。受試者從視頻的熟悉程度、不喜歡程度、興趣程度進行評分。
(2)NeuroMarketing[35]。該數(shù)據(jù)集是一個通過腦電信號分析神經(jīng)營銷的數(shù)據(jù)集,共采集了25 名受試者,受試者觀看14 種商業(yè)電子商務(wù)產(chǎn)品后作出喜歡與否的判斷。
(3)SEED[36-37]。該數(shù)據(jù)集擁有最多的腦電信號采集通道,對15 名受試者的62 個通道的腦電信號進行采集。通過令受試者觀看每段約4 分鐘的蘊含正/負(fù)/中性情緒的視頻,記錄相應(yīng)的腦電信號。該數(shù)據(jù)集用于情緒刺激的視頻時間長度較長,更有利于受試者的情緒表達。
(4)SEED-IV[38]。該數(shù)據(jù)集在腦電信號的基礎(chǔ)上,添加了眼球運動。該數(shù)據(jù)集對每位受試者進行了更多的實驗次數(shù),在不同的時間段對受試者進行3 個階段采集,每個階段包含24 個試驗共觀看72 個電影片段,并記錄相應(yīng)的腦電信號。使用62 通道ESI 神經(jīng)掃描系統(tǒng)和SMI 眼睛跟蹤眼鏡收集他(她)的EEG 信號和眼球運動。
(5)HCI-Tagging。該數(shù)據(jù)集建立在對多媒體標(biāo)簽這一新領(lǐng)域的研究上,在腦電信號的基礎(chǔ)上,記錄音頻、視頻、凝視數(shù)據(jù)和生理數(shù)據(jù),建立了一個在多媒體信息檢索中用戶對媒體內(nèi)容的情感反饋數(shù)據(jù)集,是目前腦電信號采集中數(shù)據(jù)類型最豐富的數(shù)據(jù)集。
(6)DREAMER[39]。建立了一個多模式數(shù)據(jù)集,該數(shù)據(jù)集由23 名參與者通過視聽刺激在情感激發(fā)過程中記錄的腦電圖(EEG)和心電圖(ECG)信號組成。同時,參與者在每次刺激后對他們的情感狀態(tài)進行自我評估,包括配價、喚醒和支配力。
(7)MPED[40]。建立了一個多模態(tài)生理情感數(shù)據(jù)庫,該數(shù)據(jù)集中的情緒類型最豐富,通過28 個視頻作為誘導(dǎo)樣本刺激6 種不同情緒和中性情緒,收集了腦電圖(EEG)、皮膚電反應(yīng)、呼吸和心電圖(ECG)4 種生理信號。
這些數(shù)據(jù)集在樣本個數(shù)、數(shù)據(jù)類型等方面略有不同,具體如表1 所示。
Table 1 Comparison of emotional EEG data sets表1 情緒腦電信號各數(shù)據(jù)集比較
數(shù)據(jù)擴充是通過轉(zhuǎn)換訓(xùn)練生成新樣本的過程數(shù)據(jù),目的是提高分類器的準(zhǔn)確性和魯棒性[41]。隨著深度學(xué)習(xí)在情緒識別領(lǐng)域的發(fā)展,訓(xùn)練神經(jīng)網(wǎng)絡(luò)需要更豐富、均衡的數(shù)據(jù)集。但現(xiàn)有數(shù)據(jù)集仍面臨著采集規(guī)模較小、數(shù)據(jù)量不足以及樣本不均衡的問題。因此,提出通過從少量原始訓(xùn)練數(shù)據(jù)中生成大量人工訓(xùn)練數(shù)據(jù),并利用這些數(shù)據(jù)擴充訓(xùn)練集以解決該問題。在語音識別、圖像處理等領(lǐng)域,這已被證明可以提高分類精度。Lotte 等[42]針對BCI 領(lǐng)域提出在時域、時頻域進行信號分割和重組,使用類比方法生成大量人工訓(xùn)練數(shù)據(jù),并利用這些數(shù)據(jù)擴充訓(xùn)練集以解決該問題。在處理腦電信號時,Palazzo 等[43]在腦電圖儀(EEG)記錄的大腦信號基礎(chǔ)上利用生成對抗網(wǎng)絡(luò)(GAN)生成匹配特定對象類別或短文本描述的圖像。同時,由于生成對抗網(wǎng)絡(luò)產(chǎn)生的人工腦電圖數(shù)據(jù)是由單通道產(chǎn)生的,缺乏通道相關(guān)性。Wang 等[44]提出通過幾何變換和加噪(高斯,Poisson,Salt,Pepper 等)同時隨機加入一些局部噪聲(泊松噪聲、Salt 噪聲,或胡椒噪聲)的方法進行數(shù)據(jù)擴充,并在HCI 數(shù)據(jù)集上進行了實驗驗證。結(jié)果表明,數(shù)據(jù)擴充是解決該問題的有效方法。
隨著人工智能的發(fā)展,腦機接口技術(shù)不斷進步,通過腦電信號進行情緒識別的需求日益凸顯,腦電情緒信號研究具有廣闊前景。情緒識別可從技術(shù)創(chuàng)新與應(yīng)用開發(fā)兩方面進行探討。
在技術(shù)層面注重與情緒相關(guān)的特征識別,考慮更多的邊緣信息,也與其他生理信號相結(jié)合進行情緒識別。同時,改進深度學(xué)習(xí)模型,雖然當(dāng)前學(xué)習(xí)模型可以得到較高的識別結(jié)果,但在數(shù)據(jù)預(yù)訓(xùn)練過程中會產(chǎn)生大量參數(shù),導(dǎo)致成本增加,且距離實時識別還有一定距離,應(yīng)在降低成本的同時進一步提高準(zhǔn)確率。在數(shù)據(jù)增強方面,通過合理的技術(shù)手段對原始數(shù)據(jù)進行人工合成以提高數(shù)據(jù)規(guī)模,從而達到更好的訓(xùn)練效果。
在應(yīng)用開發(fā)方面,與腦機接口技術(shù)進一步結(jié)合,使設(shè)備輕便化,增加情緒識別的實用性,做到實時的情緒識別、情緒反饋。在心理學(xué)領(lǐng)域,將進一步探索在傳統(tǒng)的微表情等情緒識別中加入生理信號的相互佐證。隨著腦科學(xué)的不斷發(fā)展和腦機融合技術(shù)的逐步完善,通過腦電信號對人們的情緒以及各項生理指標(biāo)進行智能分析和判斷將成為現(xiàn)實。