王春晨,文治洪,王 航,余 明,楊鵬程,楊 琳,代 靜,曹新生
(1.空軍軍醫(yī)大學(xué)航空航天醫(yī)學(xué)系,西安710032;2.軍事科學(xué)院系統(tǒng)工程研究院衛(wèi)勤保障技術(shù)研究所,天津300161;3.陸軍第947 醫(yī)院質(zhì)控信息科,新疆喀什844200)
情緒是人類與外界交流的重要媒介,是人類心理生理狀態(tài)發(fā)生變化后的綜合效應(yīng)體現(xiàn),不同情緒狀態(tài)直接影響人類的認(rèn)知狀態(tài)和行為能力。研究發(fā)現(xiàn),平靜和壓力狀態(tài)下的情緒差異對(duì)認(rèn)知功能和作業(yè)效率影響極為顯著,因此準(zhǔn)確識(shí)別情緒狀態(tài)在諸如航空航天飛行安全、遠(yuǎn)途車輛駕駛疲勞等研究方面均具有重要意義[1-4]。但是情緒發(fā)生機(jī)制非常復(fù)雜,難以依靠單一的實(shí)驗(yàn)室檢測指標(biāo)進(jìn)行準(zhǔn)確識(shí)別。目前腦神經(jīng)科學(xué)和腦認(rèn)知科學(xué)研究表明,情緒狀態(tài)是大腦意識(shí)形態(tài)方面的體現(xiàn),情緒的變化與大腦皮層的活動(dòng)機(jī)制關(guān)系密切,因此根據(jù)腦部電信號(hào)變化情況能夠?qū)崿F(xiàn)對(duì)情緒狀態(tài)的準(zhǔn)確識(shí)別[5-7]。腦電圖(electroencephalogram,EEG)是記錄大腦皮層神經(jīng)活動(dòng)的一種電生理信號(hào),是顯示腦部電信號(hào)變化的重要途徑[8]。隨著生理檢測傳感技術(shù)的快速發(fā)展,EEG檢測技術(shù)逐漸成熟,基于EEG 的情緒狀態(tài)識(shí)別成為腦神經(jīng)科學(xué)領(lǐng)域的重要研究方向。
目前,基于腦電信號(hào)的情緒狀態(tài)識(shí)別工作大多是通過有監(jiān)督的分類機(jī)器學(xué)習(xí)算法完成[9-11]。但是腦電信號(hào)非常復(fù)雜,研究過程能夠提取到大量特征參數(shù),在機(jī)器學(xué)習(xí)算法構(gòu)建過程中容易出現(xiàn)特征冗余,易引發(fā)算法識(shí)別結(jié)果發(fā)生過擬合現(xiàn)象,因此,識(shí)別算法的構(gòu)建過程中,除了常規(guī)的訓(xùn)練學(xué)習(xí),還需要進(jìn)行可靠的特征選擇,篩選與情緒狀態(tài)切實(shí)相關(guān)的腦電信號(hào)特征參數(shù)。
本研究擬采用機(jī)器學(xué)習(xí)算法設(shè)計(jì)一種情緒狀態(tài)識(shí)別算法,實(shí)現(xiàn)對(duì)不同情緒狀態(tài)的準(zhǔn)確、可靠識(shí)別。選用32 通道EEG 頻域信號(hào)作為算法構(gòu)建的特征參數(shù),通過特征選擇操作得到算法構(gòu)建的最佳特征子集(特征選擇可以有效避免機(jī)器學(xué)習(xí)出現(xiàn)過擬合現(xiàn)象),并且選用準(zhǔn)確率(accuracy,ACC)、F1 分?jǐn)?shù)(F1 score,F(xiàn)1_score)等多項(xiàng)指標(biāo)評(píng)價(jià)對(duì)算法的情緒狀態(tài)識(shí)別性能進(jìn)行評(píng)價(jià)。
本文使用的受試對(duì)象及實(shí)驗(yàn)數(shù)據(jù)均來自公開的生理信號(hào)情緒分析數(shù)據(jù)庫(Database for Emotion Analysis using Physiological Signals,DEAP)。DEAP[12]是一個(gè)用來分析受試者情緒狀態(tài)的多模態(tài)數(shù)據(jù)庫,記錄了32 名健康受試者參與情緒實(shí)驗(yàn)過程的全部32 通道腦電信號(hào)和眼電、肌電及皮電等8 項(xiàng)生理信號(hào),并記錄了受試對(duì)象情緒狀態(tài)的量化評(píng)分。實(shí)驗(yàn)過程如下:每名受試者分別觀看40 段時(shí)長1 min 的音樂視頻,觀看完每段視頻后進(jìn)行情緒狀態(tài)量化評(píng)分。情緒狀態(tài)評(píng)價(jià)指標(biāo)由4 個(gè)部分組成,分別是喚醒度(arousal)、愉悅度(valence)、喜好度(liking)和受支配度(dominance),打分范圍均為1~9 分。
首先對(duì)實(shí)驗(yàn)采集的原始數(shù)據(jù)進(jìn)行預(yù)處理操作,操作內(nèi)容主要包括:(1)降低采樣頻率:將原始信號(hào)的采樣頻率從512 Hz 降為128 Hz;(2)濾波處理:進(jìn)行0.5~45.0 Hz 的帶通濾波操作,并進(jìn)行數(shù)字濾波去除肌電、工頻等噪聲;(3)分割采集的各項(xiàng)數(shù)據(jù):根據(jù)實(shí)驗(yàn)狀態(tài)不同,將采集信號(hào)分割成3 s 基線信號(hào)和60 s 任務(wù)態(tài)信號(hào);(4)偽跡處理:去除眼電偽跡;(5)基線校正:將任務(wù)態(tài)信號(hào)的幅值減去基線信號(hào)幅度的均值。
本文根據(jù)記錄的valence 和arousal 值將受試者情緒狀態(tài)劃分為平靜狀態(tài)(label=0)和壓力狀態(tài)(label=1)兩類,劃分標(biāo)準(zhǔn)為:(1)如果valence 在4~6 之間且arousal<4,則判定該受試者處于放松平靜狀態(tài);(2)如果valence<3 且arousal>5,則判定該受試者處于壓力狀態(tài)。根據(jù)設(shè)定的劃分標(biāo)準(zhǔn)從32 名受試者(DEAP)進(jìn)行的1 280(40×32)次實(shí)驗(yàn)樣本中提取用于本文研究的實(shí)驗(yàn)樣本(共270 個(gè)),其中141 個(gè)為平靜狀態(tài)樣本,129 個(gè)為壓力狀態(tài)樣本。
本文算法構(gòu)建的特征參數(shù)來源于實(shí)驗(yàn)過程采集的32 通道EEG。根據(jù)頻段不同,EEG 可以分為delta、theta、alpha、beta 和gamma 5 個(gè)頻段,腦功能信息差異能夠引發(fā)上述5 個(gè)頻段能量的變化。因此,對(duì)EEG進(jìn)行頻域操作處理,采用上述5 個(gè)頻段的功率值作為情緒狀態(tài)識(shí)別的特征參數(shù)。EEG 5 個(gè)頻段平均功率值是基于快速傅里葉變換(fast Fourier transform,F(xiàn)FT)展開獲得的,具體流程如下:
(1)基線校正:求取前3 s EEG 的平均幅值作為基線幅值,將后60 s 任務(wù)態(tài)EEG 幅值逐一減去基線幅值,得到校正后的EEG。
(2)信號(hào)分段:將60 s 任務(wù)態(tài)EEG 每3 s 分割成一段新的EEG,一次任務(wù)態(tài)EEG 可分成20 段新的任務(wù)態(tài)EEG。
(3)對(duì)長度為3 s 的EEG 進(jìn)行FFT,將變換后EEG 頻域信號(hào)帶入公式(1),最終求得m頻段EEG平均功率值Pm:
其中,Xm是m頻段EEG 信號(hào)的FFT 結(jié)果,m頻段表示delta、theta、alpha、beta 和gamma 5 個(gè)頻段;N為對(duì)應(yīng)所求頻段EEG 頻域信號(hào)長度。
通過對(duì)全部實(shí)驗(yàn)樣本EEG 進(jìn)行頻域操作,最終得到的特征參數(shù)為160(32×5)個(gè),用于算法訓(xùn)練測試的樣本總數(shù)為5 400(270×20)個(gè)。
本文對(duì)DEAP 中的EEG 數(shù)據(jù)進(jìn)行了特征提取操作,共提取160 個(gè)特征參數(shù)。分類算法設(shè)計(jì)中特征參數(shù)數(shù)量過多容易出現(xiàn)較多的冗余參數(shù),導(dǎo)致算法存在兩方面缺陷[13]:(1)基于數(shù)量過多的特征參數(shù)集訓(xùn)練學(xué)習(xí)建立的算法易發(fā)生過擬合現(xiàn)象,使得算法實(shí)際使用過程中可靠性不足;(2)使用數(shù)量過多的特征參數(shù)集使得算法訓(xùn)練和測試過程運(yùn)算量過大,對(duì)設(shè)備性能要求較高,導(dǎo)致算法工作效率低下。因此需要對(duì)特征參數(shù)進(jìn)行選擇操作。本文根據(jù)特征參數(shù)的重要性排序和特征參數(shù)實(shí)際應(yīng)用效果,去除冗余特征參數(shù),尋找最佳的特征子集,完成對(duì)特征參數(shù)的選擇操作。本文選用隨機(jī)森林算法對(duì)全部特征參數(shù)與情緒狀態(tài)的相關(guān)程度進(jìn)行分析,并基于特征參數(shù)重要性排序結(jié)果進(jìn)行最小特征子集尋優(yōu)工作,工作流程如圖1 所示。根據(jù)特征參數(shù)重要性排序結(jié)果,按照特征子集個(gè)數(shù)由少到多逐次進(jìn)行算法測試實(shí)驗(yàn),測試過程采用十折交叉驗(yàn)證方法,并根據(jù)多項(xiàng)評(píng)價(jià)指標(biāo)對(duì)每個(gè)特征子集的測試結(jié)果進(jìn)行可靠評(píng)價(jià),最終獲得最佳特征子集,完成算法的特征參數(shù)選擇操作。
圖1 特征子集尋優(yōu)工作流程示意圖
1.5.1 算法設(shè)計(jì)
本文選用支持向量機(jī)(support vector machine,SVM)算法對(duì)受試者腦電特征信號(hào)進(jìn)行訓(xùn)練學(xué)習(xí),以進(jìn)行情緒狀態(tài)識(shí)別工作。SVM 算法的主要原理是根據(jù)訓(xùn)練數(shù)據(jù)集的特點(diǎn),在三維空間內(nèi)擬合實(shí)現(xiàn)一種最優(yōu)的分類超平面,以實(shí)現(xiàn)對(duì)測試數(shù)據(jù)集的分類任務(wù)。該算法簡單高效,穩(wěn)定性和魯棒性強(qiáng),廣泛應(yīng)用于二分類機(jī)器學(xué)習(xí)領(lǐng)域[14-15]。
根據(jù)前文進(jìn)行的特征參數(shù)重要性排序和特征選擇的結(jié)果,本文最終選擇重要性評(píng)分排序前67 個(gè)特征參數(shù)作為最佳特征子集。將最佳特征子集和全部160 個(gè)特征參數(shù)分別作為SVM 分類算法的輸入?yún)?shù),進(jìn)行情緒狀態(tài)識(shí)別算法性能的對(duì)比評(píng)價(jià)實(shí)驗(yàn)。實(shí)驗(yàn)選擇DEAP 中全部實(shí)驗(yàn)樣本作為數(shù)據(jù)樣本。根據(jù)實(shí)驗(yàn)結(jié)果,分析評(píng)價(jià)最佳特征子集作為輸入?yún)?shù)建立的情緒狀態(tài)識(shí)別算法的識(shí)別效果。
1.5.2 評(píng)價(jià)指標(biāo)
本文將情緒的壓力和平靜狀態(tài)作為標(biāo)簽變量,進(jìn)行情緒狀態(tài)的二分類算法設(shè)計(jì)工作。算法性能評(píng)價(jià)指標(biāo)主要包括ACC、F1_score、ROC 曲線和AUC 4 類參數(shù)。綜合上述多種指標(biāo)對(duì)情緒識(shí)別算法性能效果進(jìn)行評(píng)價(jià)。根據(jù)性能評(píng)價(jià)指標(biāo)計(jì)算的需要,將平靜和壓力情緒狀態(tài)分別定義為正面和負(fù)面情緒狀態(tài)。其中ACC 和F1_score 指標(biāo)計(jì)算公式如下:
其中,TP、FP、TN、FN 分別表示正確識(shí)別的正面情緒樣本數(shù)、錯(cuò)誤識(shí)別的正面情緒樣本數(shù)、正確識(shí)別的負(fù)面情緒樣本數(shù)、錯(cuò)誤識(shí)別的負(fù)面情緒樣本數(shù)。
采用隨機(jī)森林算法對(duì)提取的全部特征參數(shù)進(jìn)行重要性排序,得到的結(jié)果如圖2 所示,其中與情緒狀態(tài)相關(guān)性較強(qiáng)的前10 項(xiàng)特征參數(shù)分別是FC6_delta、CP2_beta、Fp2_delta、O1_alpha、FC1_beta、FC2_gamma、CP5_theta、F8_delta、FC5_beta、F3_gamma。結(jié)合特征參數(shù)重要性排序結(jié)果,將特征參數(shù)逐次遞增作為輸入?yún)?shù)建立情緒狀態(tài)識(shí)別算法,根據(jù)算法的3 種性能指標(biāo)比較分析每個(gè)特征子集對(duì)情緒狀態(tài)的識(shí)別效果,得到的結(jié)果如圖3 所示。綜合ACC、F1_score 和AUC 值3 項(xiàng)評(píng)價(jià)指標(biāo)分析發(fā)現(xiàn)重要性排序前67 個(gè)參數(shù)作為特征子集輸入至識(shí)別算法能夠得到最佳ACC 和F1_score,此時(shí)AUC值趨于穩(wěn)定。本文選用重要性排序前67個(gè)參數(shù)和全部160 個(gè)特征參數(shù)分別作為輸入?yún)?shù)建立的情緒狀態(tài)識(shí)別算法的性能評(píng)價(jià)對(duì)比實(shí)驗(yàn)結(jié)果如表1 和圖4所示。從表1 中可以看出,基于最佳特征子集的情緒狀態(tài)識(shí)別的ACC 為89.17%,F(xiàn)1_score 為0.878 7,AUC 值為0.977 8;基于全部特征參數(shù)的情緒狀態(tài)識(shí)別的ACC 為93.80%,F(xiàn)1_score 為0.9362,AUC值為0.986 8。
圖2 特征參數(shù)重要性排序
基于最佳特征子集和全部特征參數(shù)進(jìn)行情緒狀態(tài)識(shí)別算法性能評(píng)價(jià)的實(shí)驗(yàn)結(jié)果顯示,本文基于特征選擇方法得到的最佳特征子集建立的算法在情緒狀態(tài)識(shí)別的ACC、F1_score 和AUC 值方面與基于全部特征參數(shù)建立的算法識(shí)別性能相近,但是本研究基于特征參數(shù)選擇方法建立的識(shí)別算法能夠利用更少的EEG 頻域信號(hào)進(jìn)行情緒狀態(tài)識(shí)別,同時(shí)能夠有效地防止算法出現(xiàn)過擬合現(xiàn)象。表2 為本文設(shè)計(jì)的算法在情緒識(shí)別準(zhǔn)確率方面與其他2 種同類型情緒狀態(tài)識(shí)別研究成果的對(duì)比結(jié)果。通過對(duì)比可以發(fā)現(xiàn),本文設(shè)計(jì)的情緒狀態(tài)算法識(shí)別的ACC 達(dá)到89.17%,而Zhang 等[9]基于單個(gè)頻段求平均的情緒識(shí)別算法識(shí)別的ACC 僅為81.69%,Ali 等[10]采用4 通道腦電信號(hào)設(shè)計(jì)的情緒識(shí)別算法識(shí)別的ACC 為86.12%,均低于本文設(shè)計(jì)的情緒狀態(tài)算法的識(shí)別效果。分析原因發(fā)現(xiàn):(1)Zhang 等[9]在進(jìn)行情緒狀態(tài)識(shí)別建模過程中,將腦電信號(hào)5 個(gè)頻段分別作為特征參數(shù)進(jìn)行建模,再對(duì)建立的多個(gè)識(shí)別算法結(jié)果進(jìn)行平均處理,這樣忽視了腦電信號(hào)不同頻段之間的關(guān)聯(lián)作用。(2)Ali 等[10]采用4 通道的腦電信號(hào)作為情緒識(shí)別算法的輸入?yún)?shù),已有研究表明情緒狀態(tài)與多個(gè)腦功能相關(guān),僅采用4 通道腦電信號(hào)作為情緒識(shí)別的參考信號(hào)難以表示整個(gè)腦功能區(qū)的狀態(tài),導(dǎo)致情緒狀態(tài)識(shí)別性能不完善。(3)本文一方面選用32 通道的腦電信號(hào)作為算法學(xué)習(xí)訓(xùn)練的輸入?yún)?shù),特征參數(shù)的提取更加全面,能夠表示與情緒相關(guān)的多個(gè)腦功能區(qū)的狀態(tài);另一方面在算法設(shè)計(jì)過程中加入特征參數(shù)選擇操作,選擇最佳的特征子集作為建立情緒狀態(tài)識(shí)別算法的基礎(chǔ),特征選擇操作過程較其他研究更加全面,這樣能夠去除與情緒無關(guān)的腦電信號(hào),提高了算法識(shí)別效率,避免了算法出現(xiàn)過擬合現(xiàn)象。因此,本文基于DEAP 情緒實(shí)驗(yàn)數(shù)據(jù)庫中腦電信號(hào)數(shù)據(jù)對(duì)腦電信號(hào)進(jìn)行頻域分析,將腦電信號(hào)5 個(gè)頻段功率譜值作為SVM 分類算法的輸入?yún)?shù),進(jìn)行可靠的特征選擇操作,篩選最佳的特征子集進(jìn)行算法訓(xùn)練測試工作,最終得到的識(shí)別情緒狀態(tài)算法的ACC 值高達(dá)89.17%,F(xiàn)1_score 為0.878 7,AUC 值為0.977 8。算法測試結(jié)果表明本文設(shè)計(jì)的分類算法能夠高效準(zhǔn)確地識(shí)別情緒狀態(tài)。
圖3 不同特征子集情緒識(shí)別的3 種性能指標(biāo)結(jié)果
表1 情緒狀態(tài)識(shí)別算法性能評(píng)價(jià)實(shí)驗(yàn)結(jié)果
圖4 情緒狀態(tài)識(shí)別算法性能評(píng)價(jià)實(shí)驗(yàn)的ROC 曲線
表2 基于DEAP 的多項(xiàng)研究與本文研究結(jié)果對(duì)比
本文選用多通道EEG 的頻域參數(shù)作為情緒識(shí)別的特征向量,利用機(jī)器學(xué)習(xí)算法在特征參數(shù)選擇和分類算法設(shè)計(jì)方面高效可靠的特點(diǎn),設(shè)計(jì)了一種新型情緒狀態(tài)識(shí)別算法,實(shí)現(xiàn)對(duì)情緒狀態(tài)準(zhǔn)確有效的識(shí)別。該算法未來在航空航天飛行安全和遠(yuǎn)途車輛駕駛疲勞監(jiān)測等方面均能夠發(fā)揮重要作用。本文設(shè)計(jì)的情緒識(shí)別算法雖然在性能上優(yōu)于其他同類型研究結(jié)果,但是仍然存在不足和局限:本文提出算法訓(xùn)練的實(shí)驗(yàn)數(shù)據(jù)集來自公開數(shù)據(jù)庫,致使受試對(duì)象類型較單一,沒有進(jìn)行其他受試對(duì)象的測試驗(yàn)證實(shí)驗(yàn),因此無法驗(yàn)證本文的情緒識(shí)別算法在跨個(gè)體類型上的識(shí)別效果和可靠性。因此,下一步主要研究方向包括兩方面:一方面開展不同人群的情緒誘導(dǎo)實(shí)驗(yàn),根據(jù)實(shí)驗(yàn)采集的數(shù)據(jù),開展本文設(shè)計(jì)算法的識(shí)別效果和性能可靠性測試實(shí)驗(yàn),實(shí)現(xiàn)對(duì)算法可靠性和實(shí)際應(yīng)用效果的綜合評(píng)價(jià)和驗(yàn)證分析;另一方面,將神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)等算法應(yīng)用到情緒識(shí)別算法中,對(duì)算法進(jìn)行優(yōu)化調(diào)整,使得算法能夠更好地應(yīng)用于情緒狀態(tài)識(shí)別。