楊子賢 羅濤 李劍峰 范藝晶
抑郁癥作為一種常見(jiàn)的精神疾病,已成為人類第二大殺手。但是抑郁癥并非不可治愈,大部分患者通過(guò)及時(shí)干預(yù)可有效控制病情。因此,準(zhǔn)確、及時(shí)地診斷對(duì)抑郁癥患者康復(fù)具有重要意義。然而,精神科醫(yī)生通過(guò)各種量表進(jìn)行評(píng)估費(fèi)時(shí)費(fèi)力,同時(shí)存在很大比例的漏診及誤診,且輕度抑郁癥患者的癥狀較輕,不易察覺(jué),很有可能錯(cuò)過(guò)最佳治療時(shí)期。腦電信號(hào)作為一種記錄神經(jīng)細(xì)胞電活動(dòng)的生理信號(hào),可以反映不同情緒和心態(tài)的變化,已有研究人員利用腦電信號(hào)進(jìn)行精神疾病如癲癇、阿爾茨海默病的輔助診斷[1-4]。利用腦電信號(hào)準(zhǔn)確識(shí)別出輕度抑郁癥患者是很有研究?jī)r(jià)值的。因此,基于腦電信號(hào)對(duì)健康人、輕度抑郁癥患者、重度抑郁癥患者的三分類必不可少。
目前通過(guò)機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)三分類的手段主要分為3種,直接進(jìn)行三分類、通過(guò)集成學(xué)習(xí)訓(xùn)練多個(gè)弱分類器實(shí)現(xiàn)三分類和利用3個(gè)二分類器進(jìn)行投票實(shí)現(xiàn)三分類。由于數(shù)據(jù)量較小、任務(wù)較為復(fù)雜,直接進(jìn)行三分類方法的準(zhǔn)確率往往較低。而集成學(xué)習(xí)[5]能夠通過(guò)對(duì)訓(xùn)練樣本隨機(jī)選擇或者分配權(quán)重的方式合理利用數(shù)據(jù),通過(guò)訓(xùn)練多個(gè)弱分類器提升強(qiáng)分類器的性能,使得三分類的準(zhǔn)確率有一定提升。然而,這種算法存在弱分類器的數(shù)目不好確定以及性能不易提升的缺點(diǎn)。還有一些傳統(tǒng)機(jī)器學(xué)習(xí)模型如支持向量機(jī)(support vector machine,SVM )使用多個(gè)二分類器投票的策略實(shí)現(xiàn)多分類[6]。此類方法能夠快速確定子分類器的數(shù)量,且通過(guò)提升二分類器的性能就能達(dá)到較高的多分類準(zhǔn)確率。常用的投票策略有“一對(duì)一”、“一對(duì)多”和“層次分類”。由于“一對(duì)一”策略的高準(zhǔn)確率,且對(duì)于三分類問(wèn)題,3種策略所需的分類器數(shù)量差異不大,本文使用“一對(duì)一”投票策略實(shí)現(xiàn)多分類,并通過(guò)提升二分類器的性能來(lái)提高三分類的準(zhǔn)確率。
基于腦電信號(hào)對(duì)抑郁癥患者和健康對(duì)照進(jìn)行二分類已有一定的研究基礎(chǔ)。Mohammad等[7]利用53名重度抑郁癥患者和43名健康對(duì)照的腦電數(shù)據(jù),提取4個(gè)頻段的特征,在線性判別分析模型上達(dá)到了90%的準(zhǔn)確率。Cai等[8]利用92名抑郁癥患者和121名健康對(duì)照的腦電數(shù)據(jù),提取兩個(gè)波段的絕對(duì)功率,在KNN模型上達(dá)到了79.27%的準(zhǔn)確率。Bachman等[9]利用13名抑郁癥患者及13名健康對(duì)照的腦電數(shù)據(jù),提取線性及非線性特征,利用邏輯回歸模型,達(dá)到88%的準(zhǔn)確率。喇蓉[10]利用24名輕度抑郁癥患者的數(shù)據(jù),在卷積神經(jīng)網(wǎng)絡(luò)模型上達(dá)到了85.62%的準(zhǔn)確率。然而,當(dāng)前研究只考慮到腦電信號(hào)的時(shí)域和頻域特征,準(zhǔn)確率不高,且文獻(xiàn)[11-12]表明健康人與抑郁癥患者在不同腦區(qū)可能有不同的腦電特征,因此將空域特征引入模型能夠進(jìn)一步提高二分類的準(zhǔn)確率。
在運(yùn)動(dòng)想象的腦機(jī)接口領(lǐng)域,共空間模式算法(common spatial pattern,CSP)[13]可以綜合考慮時(shí)域、頻域和空域特征,采用同時(shí)對(duì)角化兩類信號(hào)協(xié)方差矩陣的方式使其方差差異達(dá)到最大,在二分類問(wèn)題的特征提取中表現(xiàn)出了優(yōu)良性能。然而與SVM相同,CSP也不能直接應(yīng)用于多分類。因此,本文利用CSP進(jìn)行特征提取,以提升二分類器的性能,并結(jié)合SVM的擴(kuò)展策略,解決CSP在多分類問(wèn)題上的局限性。
為此,本文將應(yīng)用當(dāng)前二分類學(xué)習(xí)器解決多分類問(wèn)題的“一對(duì)一”擴(kuò)展框架,提出了一種基于CSP的腦電信號(hào)二分類器投票算法,實(shí)現(xiàn)基于腦電信號(hào)的健康對(duì)照、輕度抑郁癥患者、重度抑郁癥患者三分類。
該算法針對(duì)當(dāng)前基于腦電信號(hào)的抑郁癥患者及健康對(duì)照的二分類研究中未考慮到空域特征的問(wèn)題,引入CSP算法進(jìn)行特征提取以提升模型的性能,實(shí)現(xiàn)健康對(duì)照和重度患者、健康對(duì)照和輕度患者、輕度患者和重度患者的二分類。
將原始訓(xùn)練集根據(jù)數(shù)據(jù)類別劃分為3個(gè)子數(shù)據(jù)集,其中健康對(duì)照和重度患者數(shù)據(jù)組成子數(shù)據(jù)集1,健康對(duì)照和輕度患者數(shù)據(jù)組成子數(shù)據(jù)集2,輕度患者和重度患者數(shù)據(jù)組成子數(shù)據(jù)集3,如表1所示,分別訓(xùn)練3個(gè)二分類器。二分類器模型流程如圖1所示(i=1,2,3),包括數(shù)據(jù)預(yù)處理、特征提取及二分類器訓(xùn)練3個(gè)步驟。
表1 二分類器訓(xùn)練數(shù)據(jù)說(shuō)明Table 1 Description of two-classifier training data
腦電研究中常用的頻帶為1~44 Hz,如表2所示,醫(yī)學(xué)中根據(jù)腦電成分的波動(dòng)特征將腦電信號(hào)分為5種節(jié)律波。
表2 醫(yī)學(xué)常用腦電節(jié)律波Table 2 EEG rhythm wave commonly used in medicine
為了消除工頻干擾等偽跡對(duì)腦電信號(hào)的影響,保留有效的腦電成分,首先,對(duì)數(shù)據(jù)段進(jìn)行1~44 Hz的濾波提取。為擴(kuò)充數(shù)據(jù)集,通常要對(duì)原始的腦電信號(hào)進(jìn)行分段處理。然而時(shí)長(zhǎng)過(guò)短可能會(huì)破壞腦電頻譜的穩(wěn)定性,時(shí)長(zhǎng)過(guò)長(zhǎng)又不能充分利用數(shù)據(jù)。方差分析[14]作為一種差異性分析方法,通過(guò)計(jì)算組間及組內(nèi)方差的比值來(lái)評(píng)估各組數(shù)據(jù)間的差異程度,能夠在一定程度上反映不同分段方式間的差異,保證在最大程度擴(kuò)充數(shù)據(jù)的同時(shí)不破壞腦電頻譜的穩(wěn)定性,因此本文將方差分析用于腦電分段研究??紤]到不同腦電采集儀器的信號(hào)放大倍數(shù)不同,本文對(duì)信號(hào)進(jìn)行了標(biāo)準(zhǔn)化,使所有數(shù)據(jù)在[-1,1]范圍內(nèi)。由于腦電信號(hào)包含不同的腦電成分,為了后續(xù)特征提取階段能提取到更多有效的特征,本文又通過(guò)帶通濾波方法對(duì)各個(gè)子數(shù)據(jù)集進(jìn)行5種節(jié)律波的提取。
方差分析操作的具體流程如圖2所示:選取一些健康受試者,采取不同分段規(guī)則截取數(shù)據(jù),分為不同截取時(shí)長(zhǎng)的數(shù)據(jù)組,然后計(jì)算每段數(shù)據(jù)的功率譜最大值。將不同數(shù)據(jù)組看作定類變量,每段腦電信號(hào)功率譜的最大值看作定量變量,進(jìn)行功率譜方差分析,確定各頻段最佳分段時(shí)長(zhǎng)。
圖1 二分類器模型流程圖Figure 1 Flowchart of two-classifier model
圖2 方差分析操作流程Figure 2 Flowchart of analysis of variance
本文的特征提取步驟應(yīng)用CSP算法,包括空域?yàn)V波器的設(shè)計(jì)及信號(hào)能量提取。為了在每個(gè)頻段都能提取到不同類別間的區(qū)分性特征,本文針對(duì)5種節(jié)律波分別展開CSP算法。首先基于5種節(jié)律波對(duì)兩類信號(hào)創(chuàng)建最優(yōu)公共空間濾波器,如圖3所示。兩類數(shù)據(jù)經(jīng)對(duì)應(yīng)濾波器處理后方差達(dá)最大差異化,然后提取信號(hào)能量作為特征輸入到后續(xù)的分類器中進(jìn)行訓(xùn)練,如圖1中的特征提取步驟所示,其中需要在頻段提取后進(jìn)行濾波器Wi(i= 1,2,3,4,5)的求解,具體步驟如下。
圖3 三個(gè)濾波器求解Figure 3 Solution of three filters
(1)
式中:X為數(shù)據(jù)的協(xié)方差矩陣;φc為其中一類數(shù)據(jù)的數(shù)據(jù)集;|φc|為數(shù)據(jù)集φc中元素的數(shù)量。
(2)
R=UΛUT
(3)
式中:U為R的特征向量;Λ為R的特征值。
(3) 計(jì)算白化矩陣P:
(4)
(5)
(6)
式中:B1為S1的特征向量;Λ1為S1的特征值。
(5) 計(jì)算空域?yàn)V波矩陣W:
(7)
(6) 計(jì)算優(yōu)化空域?yàn)V波矩陣W*:
B*=(b1,…,bn,bN-n+1,…,bN)
(8)
W*=B*TP
(9)
式中:B*為B1中前后各n(n∈[1,N/2])個(gè)特征向量組成的特征矩陣;bi為B1中的第i列;N為W的行數(shù)。
將特征提取步驟得到的特征輸入到隨機(jī)森林分類模型中進(jìn)行訓(xùn)練,得到3個(gè)二分類器,分別為健康對(duì)照和重度患者二分類器、健康對(duì)照和輕度患者二分類器、輕度患者和重度患者二分類器。
CSP在處理多分類問(wèn)題時(shí),由于無(wú)法同時(shí)對(duì)角化多類信號(hào),不能直接應(yīng)用,常用的擴(kuò)展策略有“一對(duì)一”和“一對(duì)多”策略[15]。這兩種策略通過(guò)拼接多個(gè)空域?yàn)V波器提取到的特征來(lái)實(shí)現(xiàn)特征提取,如圖4所示。由于拼接后的特征緯度較高,算法復(fù)雜度高,且對(duì)二分類特征進(jìn)行簡(jiǎn)單拼接仍不能很好地區(qū)分出多類信號(hào)。本文將基于“一對(duì)一”框架的多個(gè)二分類器投票的方法結(jié)合CSP應(yīng)用到抑郁癥腦電信號(hào)識(shí)別中,解決CSP僅適用于二分類的局限性,模型流程圖如圖5所示,包括數(shù)據(jù)預(yù)處理、特征提取和子分類器投票。將未知類別樣本的特征分別輸入到3個(gè)二分類器中,得到3個(gè)識(shí)別結(jié)果并對(duì)最終識(shí)別結(jié)果進(jìn)行投票決策。
圖4 CSP傳統(tǒng)擴(kuò)展策略Figure 4 CSP traditional expansion strategy
圖5 三分類器模型流程圖Figure 5 Flowchart of three-classifier model
為驗(yàn)證上述算法的效果,本文應(yīng)用Gansu Provincial Key Laboratory of Wearable Computing,Lanzhou University,China的抑郁癥研究數(shù)據(jù)集MODMA[16],該數(shù)據(jù)集包含53名受試者的腦電數(shù)據(jù),采用128導(dǎo)聯(lián)進(jìn)行靜息態(tài)腦電采集,采樣頻率為250 Hz,每段數(shù)據(jù)時(shí)長(zhǎng)為5 min左右。
首先本文根據(jù)數(shù)據(jù)集中每位受試者的PHQ-9抑郁癥篩查量表得分以及量表評(píng)判標(biāo)準(zhǔn),將數(shù)據(jù)集劃分為3類:0~4分(健康受試者,共24名),5~14分(輕度抑郁癥患者,共8名),15~27分(重度抑郁癥患者,共21名)。根據(jù)1節(jié)中的劃分規(guī)則,將原始數(shù)據(jù)集劃分為3個(gè)子數(shù)據(jù)集,子數(shù)據(jù)集詳情如表3所示。子頻段提取采用四階巴特沃斯帶通濾波器,各頻段的參數(shù)設(shè)置如表4所示。其中Wn為截止頻率,表示為奈奎斯特頻率的一部分,是采樣頻率的一半。btype為頻帶類型。原始數(shù)據(jù)經(jīng)截取后每段時(shí)長(zhǎng)為280 s,本文隨機(jī)選取10名健康對(duì)照者進(jìn)行方差分析,在每種分段規(guī)則下分別截取前7段,之后特征提取階段的空域?yàn)V波器采用最大和最小的10個(gè)特征值來(lái)構(gòu)造,最后通過(guò)五折交叉驗(yàn)證測(cè)試算法性能。
表3 子數(shù)據(jù)集詳情Table 3 Details of the sub dataset
表4 帶通濾波器參數(shù)Table 4 Parameters of bandpass filter
方差分析的結(jié)果如表5所示,當(dāng)P值大于0.05時(shí),可以認(rèn)為該分段方式與時(shí)長(zhǎng)間隔更大的分段方式在頻譜含量上無(wú)顯著性差異。由表5可知,1~44 Hz頻段的最短分段時(shí)長(zhǎng)間隔為24 s。
表5 1~44 Hz頻段不同間隔時(shí)間切片方差分析P值Table 5 P value of slice variance analysis at different intervals in 1-44 Hz frequency band
因此,在數(shù)據(jù)預(yù)處理階段,對(duì)提取到的1~44 Hz的數(shù)據(jù)進(jìn)行時(shí)間窗口為24 s的數(shù)據(jù)分段,表3中的子數(shù)據(jù)集經(jīng)方差分析分段后,數(shù)據(jù)量擴(kuò)增到10倍。
改進(jìn)模型訓(xùn)練過(guò)程中3個(gè)二分類器最佳模型參數(shù)及識(shí)別準(zhǔn)確率,如表6所示。其中模型參數(shù)n_estimators為隨機(jī)森林中決策樹的棵數(shù)。
從結(jié)果可以看出:CSP算法在處理二分類問(wèn)題時(shí),以較少的樹的棵數(shù)就能達(dá)到優(yōu)良性能。健康受試者和重度患者的二分類準(zhǔn)確率為94.44%,健康受試者和輕度患者的二分類準(zhǔn)確率為93.75%,輕度患者和重度患者的二分類準(zhǔn)確率為93.10%。該算法在二分類中的高準(zhǔn)確率,保證了“一對(duì)一”框架應(yīng)用的可行性。
本文共設(shè)計(jì)了3個(gè)實(shí)驗(yàn),用于驗(yàn)證方差分析分段的合理性、CSP算法的優(yōu)越性及本文策略的有效性,并用識(shí)別準(zhǔn)確率及輕度患者召回率對(duì)模型進(jìn)行評(píng)估。
實(shí)驗(yàn)一:方差分析分段與10 s/段兩種分段方式的對(duì)比實(shí)驗(yàn),用于驗(yàn)證方差分析分段的合理性。如表7所示,模型①使用方差分析的結(jié)果24 s/段的分段方式,模型為adaboost;模型②使用傳統(tǒng)的10 s/段的分段方式,模型為adaboost。
實(shí)驗(yàn)二:集成學(xué)習(xí)與本文策略的對(duì)比實(shí)驗(yàn),用于驗(yàn)證CSP算法的優(yōu)越性。由于本文的擴(kuò)展策略為多個(gè)子分類器決策投票策略,集成學(xué)習(xí)方法為多個(gè)弱分類器的聯(lián)合決策,有一定的相似性,因此本文通過(guò)與集成學(xué)習(xí)對(duì)比實(shí)驗(yàn)驗(yàn)證CSP算法的優(yōu)越性。如表7所示,模型②使用集成學(xué)習(xí)中的Boosting方法,選取了adaboost模型;模型⑤為CSP與擴(kuò)展策略結(jié)合的多分類模型。
實(shí)驗(yàn)三:傳統(tǒng)擴(kuò)展策略與本文策略的對(duì)比實(shí)驗(yàn),用于驗(yàn)證本文策略的有效性。傳統(tǒng)策略通過(guò)特征拼接的方式對(duì)CSP進(jìn)行擴(kuò)展。如表7所示,模型③應(yīng)用“一對(duì)一”傳統(tǒng)策略;模型④應(yīng)用“一對(duì)多”傳統(tǒng)策略;模型⑤為本文擴(kuò)展策略。
各個(gè)模型的模型參數(shù)及性能如表7所示。
表7 改進(jìn)投票策略與傳統(tǒng)模型性能比較Table 7 Performance comparison between improved voting strategy and traditional strategy
從結(jié)果可以看出:
(1) 由模型①與②對(duì)比結(jié)果可知,方差分析確定分段規(guī)則,能提高腦電信號(hào)的識(shí)別準(zhǔn)確率及輕度抑郁癥患者的召回率。究其原因,方差分析能確保分段方式不破壞腦電頻譜的連續(xù)性,保留腦電信號(hào)完整的特征。
(2) 由模型②與⑤對(duì)比結(jié)果可知,CSP算法在處理抑郁癥腦電信號(hào)分類問(wèn)題時(shí),能極大提高腦電信號(hào)的識(shí)別準(zhǔn)確率及輕度抑郁癥患者的召回率。究其原因,CSP算法能將多類信號(hào)在空間上最大差異化,提取到除時(shí)域、頻域外的空域特征,更好地區(qū)分多類信號(hào)。
(3) 由模型⑤與③④的準(zhǔn)確率對(duì)比結(jié)果可知,“一對(duì)一”框架擴(kuò)展策略相較傳統(tǒng)的“一對(duì)一”及“一對(duì)多”擴(kuò)展策略,能達(dá)到更高的三分類識(shí)別準(zhǔn)確率,從而為抑郁癥患者的腦電識(shí)別提供可能。究其原因,傳統(tǒng)策略提取到的特征維度大且在多分類中不一定有效,而改進(jìn)模型提取到的特征能很好地區(qū)分二分類,當(dāng)二分類的準(zhǔn)確率足夠高時(shí),投票決策也表現(xiàn)出優(yōu)勢(shì)。
(4) 由模型⑤與③④的輕度抑郁癥患者召回率對(duì)比結(jié)果可知,傳統(tǒng)的“一對(duì)一”及“一對(duì)多”策略模型輕度抑郁癥患者的召回率都不高,由于改進(jìn)模型的識(shí)別準(zhǔn)確率足夠高,其輕度抑郁癥患者的召回率也能大幅度提高,從而為抑郁癥的早發(fā)現(xiàn)和及時(shí)治療提供可能。
針對(duì)抑郁癥及健康人靜息態(tài)腦電信號(hào)的分類問(wèn)題,本文首先通過(guò)方差分析對(duì)分段方式進(jìn)行確定,之后采用CSP算法在抑郁癥腦電信號(hào)識(shí)別中進(jìn)行應(yīng)用。為促進(jìn)抑郁癥的早發(fā)現(xiàn)和及時(shí)治療,提高輕度抑郁癥患者腦電信號(hào)的識(shí)別準(zhǔn)確率,本文將二分類學(xué)習(xí)器解決多分類問(wèn)題的擴(kuò)展框架應(yīng)用到CSP算法上,設(shè)計(jì)了一種二分類器投票機(jī)制,之后在MODMA數(shù)據(jù)集上與傳統(tǒng)的“一對(duì)一”及“一對(duì)多”多分類CSP策略進(jìn)行對(duì)比,改進(jìn)模型在識(shí)別準(zhǔn)確率及輕度抑郁癥患者召回率性能方面都有所提升。本文算法對(duì)傳統(tǒng)流程的每個(gè)步驟都進(jìn)行了細(xì)微調(diào)整,不僅提高了模型性能,還考慮到算法落地的一些問(wèn)題。在數(shù)據(jù)處理階段,考慮到腦電的連通性及儀器放大倍數(shù)問(wèn)題,加入方差分析分段及數(shù)據(jù)標(biāo)準(zhǔn)化處理。在特征提取階段,考慮到腦電的空間特征,采用CSP算法進(jìn)行特征提取。在模型訓(xùn)練階段,為了解決CSP傳統(tǒng)擴(kuò)展策略特征維度過(guò)長(zhǎng)的缺點(diǎn),引入投票機(jī)制,提高模型性能。最后基于抑郁癥現(xiàn)狀,選取準(zhǔn)確率及輕度抑郁癥患者召回率為評(píng)估指標(biāo),具有現(xiàn)實(shí)意義。
然而改進(jìn)模型的復(fù)雜度較高,每個(gè)未知數(shù)據(jù)都要經(jīng)過(guò)3個(gè)分類模型,未來(lái)的工作重點(diǎn)將放在模型復(fù)雜度的降低上。另外,訓(xùn)練及測(cè)試數(shù)據(jù)集都為公開數(shù)據(jù)集,為了驗(yàn)證算法的通用性,課題組在自行采集數(shù)據(jù)集上進(jìn)行測(cè)試,由于儀器的不同、腦電通道數(shù)量的不同以及采集手法差異,模型測(cè)試性能不夠理想,因此考慮到算法落地問(wèn)題,采集手法及數(shù)據(jù)的標(biāo)準(zhǔn)化也需要考慮,未來(lái)的研究?jī)?nèi)容可以放在通道的優(yōu)化上。
本文通過(guò)提高輕度抑郁癥患者的識(shí)別準(zhǔn)確率和召回率,促進(jìn)抑郁癥的及時(shí)發(fā)現(xiàn)和早治療。由方差分析結(jié)果可知,腦電數(shù)據(jù)截取時(shí)長(zhǎng)過(guò)短,段間的頻譜差異過(guò)大,破壞了腦電信號(hào)的特征,因此截取方式不能過(guò)于隨意,需適當(dāng)增大截取長(zhǎng)度以保證腦電的特征不被破壞。通過(guò)CSP算法與傳統(tǒng)特征提取方式的對(duì)比結(jié)果可知,CSP能有效提取到不同人群腦電區(qū)分性特征,在腦電特征提取中有一定的優(yōu)勢(shì)。另外,改進(jìn)擴(kuò)展策略在識(shí)別準(zhǔn)確率及輕度抑郁癥患者召回率上同傳統(tǒng)策略相比都有了明顯提升,驗(yàn)證了子分類器投票策略的適用性,可為抑郁癥的早發(fā)現(xiàn)早治療提供算法支持。