杜義浩, 常超群, 杜 正, 張延夫, 曹添福, 范 強(qiáng), 謝 平
(燕山大學(xué) 電氣工程學(xué)院,河北 秦皇島 066004)
腦機(jī)接口(brain-computer interface, BCI)技術(shù)通過(guò)分析人的運(yùn)動(dòng)意圖,從而實(shí)現(xiàn)對(duì)外部設(shè)備的直接控制[1,2]。近些年來(lái),腦機(jī)接口技術(shù)發(fā)展迅速,在無(wú)人機(jī)控制、智能交通、智能家居和醫(yī)療康復(fù)領(lǐng)域有著廣泛應(yīng)用。其中,運(yùn)動(dòng)想象腦機(jī)接口技術(shù)已嘗試運(yùn)用于因腦卒中或脊髓損傷導(dǎo)致的語(yǔ)言交流和運(yùn)動(dòng)障礙患者中[3],如患者語(yǔ)音解碼、觸覺(jué)感知、運(yùn)動(dòng)輔助等方面[4]。
運(yùn)動(dòng)想象腦機(jī)接口應(yīng)用中最為核心的問(wèn)題是分類(lèi)識(shí)別準(zhǔn)確率,其直接影響因素是分類(lèi)識(shí)別算法性能,而廣泛應(yīng)用的機(jī)器學(xué)習(xí)方法可以分為傳統(tǒng)機(jī)器學(xué)習(xí)和遷移學(xué)習(xí)。傳統(tǒng)的機(jī)器學(xué)習(xí)方法有支持向量機(jī)(SVM)、BP神經(jīng)網(wǎng)絡(luò)等[5],存在要求數(shù)據(jù)量大、訓(xùn)練時(shí)間久、耗費(fèi)資源高以及分類(lèi)準(zhǔn)確率低等問(wèn)題,導(dǎo)致運(yùn)動(dòng)想象腦機(jī)接口實(shí)用性較差。
遷移學(xué)習(xí)是近年來(lái)機(jī)器學(xué)習(xí)研究中最為熱門(mén)的一個(gè)分支[6~10],可在訓(xùn)練樣本較少情況下,利用已有數(shù)據(jù)樣本快速擴(kuò)充數(shù)據(jù)集,提高了分類(lèi)識(shí)別的準(zhǔn)確率,顯著提升了運(yùn)動(dòng)想象腦機(jī)接口的實(shí)用性。遷移學(xué)習(xí)方法可以分為4大類(lèi):基于樣本(instance)的遷移、基于特征(feature)的遷移、基于模型(model)的遷移、基于關(guān)系(relation)的遷移,其中樣本遷移和特征遷移在運(yùn)動(dòng)想象腦機(jī)接口中應(yīng)用較多?;跇颖镜倪w移學(xué)習(xí)研究方面,如:基于KL散度度量共空間模式(CSP)特征空間之間的相似性,并進(jìn)行特征數(shù)據(jù)加權(quán),提高了運(yùn)動(dòng)想象分類(lèi)準(zhǔn)確率[11];基于DTW進(jìn)行源域數(shù)據(jù)對(duì)齊,計(jì)算與目標(biāo)域數(shù)據(jù)的KL散度,并通過(guò)源域數(shù)據(jù)加權(quán)處理,提高了目標(biāo)域數(shù)據(jù)的分類(lèi)識(shí)別準(zhǔn)確率[12];利用歐式對(duì)齊(EA)源域數(shù)據(jù),以提升BCI遷移學(xué)習(xí)效率,相較于黎曼空間對(duì)齊(RA)方法速度更快[13]。
上述研究通過(guò)在樣本維度上進(jìn)行度量和加權(quán)以提高分類(lèi)識(shí)別準(zhǔn)確率,更適用于樣本數(shù)據(jù)量較大的情況,但在樣本量小的情況下,遷移效果并不理想?;谔卣鞯倪w移學(xué)習(xí)研究方面,如:基于實(shí)驗(yàn)前腦電信號(hào)低維表征的遷移學(xué)習(xí)腦電信號(hào)解碼框架,并用于提取受試者腦電低維特征,提高BCI的預(yù)測(cè)精度;將最大均值差異距離度量準(zhǔn)則應(yīng)用于運(yùn)動(dòng)想象腦電信號(hào)處理中,減少源域樣本和目標(biāo)域樣本間的分布距離,以提高分類(lèi)識(shí)別準(zhǔn)確率[14];利用領(lǐng)域自適應(yīng)方法(CMMS)捕捉目標(biāo)樣本固有的局部連通性,以減少遷移學(xué)習(xí)兩域之間的分布差異[15]。上述研究通過(guò)在特征維度上進(jìn)行度量以提高分類(lèi)識(shí)別準(zhǔn)確率,但忽略了樣本本身。若源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)存在較大的差異,特征遷移可能產(chǎn)生負(fù)遷移[16]。綜上所述,基于樣本的遷移和基于特征的遷移均存在不可避免的缺陷,尤其是樣本量較少或源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)差異較大的情況。因此,研究如何有效提升運(yùn)動(dòng)想象腦肌接口中遷移學(xué)習(xí)分類(lèi)識(shí)別的準(zhǔn)確率,避免樣本遷移和特征遷移存在問(wèn)題,是當(dāng)前和未來(lái)運(yùn)動(dòng)想象腦機(jī)接口研究的核心問(wèn)題。
本文基于EA和最小化最大均值差異思想改進(jìn)CMMS方法構(gòu)建遷移學(xué)習(xí)模型,將樣本遷移和特征遷移的優(yōu)勢(shì)有機(jī)結(jié)合,以進(jìn)一步提高運(yùn)動(dòng)想象腦機(jī)接口中遷移學(xué)習(xí)的分類(lèi)識(shí)別準(zhǔn)確率。通過(guò)EA減少源域樣本和目標(biāo)域樣本的數(shù)據(jù)分布差異,以及利用最小化最大均值差異思想改進(jìn)CMMS,并用于篩選源域樣本以構(gòu)建新的源域,進(jìn)一步縮小源域和目標(biāo)的分布差異。
本文構(gòu)建的基于EA和改進(jìn)CMMS遷移學(xué)習(xí)的運(yùn)動(dòng)想象分類(lèi)算法模型原理圖如圖1所示。分別采集受試者的腦電信號(hào)(源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)),經(jīng)過(guò)預(yù)處理后進(jìn)行歐式空間數(shù)據(jù)對(duì)齊處理,利用CSP算法分別提取源域和目標(biāo)域的特征值,并將特征重映射到新的投影空間中,進(jìn)一步基于最小化最大均值差異思想篩選源域樣本以構(gòu)建新的源域樣本,采用新的源域進(jìn)行目標(biāo)樣本分類(lèi)識(shí)別。
圖1 基于EA和改進(jìn)CMMS遷移學(xué)習(xí)的運(yùn)動(dòng)想象分類(lèi)識(shí)別算法原理圖Fig.1 Schematic diagram of the classification and recognition algorithm of motor imagination based on EA and improved CMMS migration learning
由于腦電信號(hào)存在非平穩(wěn)、能量微弱和隨機(jī)性等特點(diǎn),需要對(duì)腦電信號(hào)進(jìn)行預(yù)處理,以提高腦電信號(hào)的信噪比[17]。預(yù)處理分為:去除基線漂移、去除工頻干擾、帶通濾波、獨(dú)立成分分析(ICA)去偽跡,原始腦電信號(hào)和預(yù)處理后結(jié)果如圖2和圖3所示。如圖所示,經(jīng)預(yù)處理后的腦電信號(hào)質(zhì)量顯著改善。
圖2 原始腦電信號(hào)Fig.2 Original EEG
圖3 預(yù)處理后的腦電信號(hào)Fig.3 EEG after preprocessing
(1)
(2)
由式(1)和式(2)可得,n個(gè)試次對(duì)齊后的均值協(xié)方差矩陣為:
(3)
由式(3)可得,經(jīng)過(guò)EA處理后,源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)實(shí)現(xiàn)了對(duì)齊和白化,而且每個(gè)受試者的均值協(xié)方差矩陣等于單位矩陣,使得其數(shù)據(jù)分布變得更加一致,減少了源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)的分布差異,進(jìn)而有利于提高后續(xù)遷移學(xué)習(xí)的分類(lèi)識(shí)別準(zhǔn)確率。
基于EA對(duì)齊處理后的源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù),利用CSP進(jìn)行特征提取。CSP算法的原理是利用矩陣的對(duì)角化,尋找一組最優(yōu)空間濾波器進(jìn)行投影,使得二分類(lèi)信號(hào)的方差值差異最大化,從而得到具有較高區(qū)分度的特征向量。
假設(shè)X、Y分別為二分類(lèi)運(yùn)動(dòng)想象任務(wù)下多通道誘發(fā)的時(shí)空矩陣信號(hào),其維數(shù)均為N×M。其中,N代表通道個(gè)數(shù),M代表采樣點(diǎn)數(shù)。CSP算法步驟如下:
1) 計(jì)算混合空間協(xié)方差矩陣:
X和Y經(jīng)歸一化處理后分別求取其協(xié)方差矩陣:
(4)
(5)
式中:XT表示X的轉(zhuǎn)置;trae(XXT)表示求矩陣的跡,即對(duì)角線元素之和。
根據(jù)式(4)計(jì)算X、Y的混合協(xié)方差矩陣:
(6)
2) 計(jì)算白化特征矩陣
對(duì)式(6)進(jìn)行特征值分解可得:
R=UλUT
(7)
式中:U是特征向量矩陣;λ是特征值矩陣。
由式(7)構(gòu)建白化矩陣:
(8)
3) 構(gòu)造空間濾波器
對(duì)RX,RY進(jìn)行如下變換:
SX=PRXPT,SY=PRYPT
(9)
對(duì)SX,SY進(jìn)行成分向量分解可得:
(10)
由式(8)、式(9)可得:
BX=BY=B
(11)
λX+λY=I
(12)
所求空間濾波器為:
W=BTP
(13)
4) 腦電信號(hào)特征提取
對(duì)X或Y進(jìn)行空間濾波得到投影矩陣:
Z=W·X
(14)
對(duì)Z進(jìn)行平方運(yùn)算,得到var(Z2)最后進(jìn)行對(duì)數(shù)運(yùn)算,得到空域特征:
(15)
利用CSP空域特征向量描述運(yùn)動(dòng)想象腦電信號(hào)的源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)特征,以用于后續(xù)運(yùn)動(dòng)想象腦電信號(hào)的分類(lèi)識(shí)別。
CMMS是基于領(lǐng)域自適應(yīng)的遷移學(xué)習(xí)方法[19],能夠?qū)⒅R(shí)從源域自適應(yīng)遷移到目標(biāo)域,并通過(guò)目標(biāo)域局部流形自學(xué)習(xí)的方式,減少與源域數(shù)據(jù)的分布差異。CMMS方法步驟如下:
1) 目標(biāo)數(shù)據(jù)k-means聚類(lèi)
由于無(wú)監(jiān)督遷移學(xué)習(xí)中目標(biāo)域樣本不帶標(biāo)簽,CMMS采用經(jīng)典的k-means算法獲得聚類(lèi)原型[20],并將其視為偽類(lèi)心,得到目標(biāo)域樣本的分布結(jié)構(gòu)信息。
(16)
式中:P代表投影矩陣;F代表目標(biāo)數(shù)據(jù)聚類(lèi)質(zhì)心;Gt代表目標(biāo)偽標(biāo)簽矩陣。
2) 目標(biāo)數(shù)據(jù)局部流形自學(xué)習(xí)
由于目標(biāo)域數(shù)據(jù)的聚類(lèi)原型實(shí)際上是其對(duì)應(yīng)類(lèi)質(zhì)心的近似值,直接影響數(shù)據(jù)遷移的效果。因此,CMMS中引入局部流形自學(xué)習(xí)策略,根據(jù)目標(biāo)數(shù)據(jù)投影低維空間中的局部連通性自適應(yīng)學(xué)習(xí)數(shù)據(jù)的相似度:
(17)
式中:S代表目標(biāo)鄰接矩陣;δ表示超參數(shù)。
3) 源域數(shù)據(jù)類(lèi)質(zhì)心計(jì)算
基于目標(biāo)域數(shù)據(jù)的聚類(lèi)原型,將領(lǐng)域自適應(yīng)中的分布差異最小化問(wèn)題重新表達(dá)為類(lèi)質(zhì)心匹配問(wèn)題。而源域數(shù)據(jù)的類(lèi)質(zhì)心可以通過(guò)計(jì)算同一類(lèi)樣本特征的均值得到。
4) 源域數(shù)據(jù)判別結(jié)構(gòu)保留
源域數(shù)據(jù)中同類(lèi)型樣本在投影空間中盡可能接近,不同類(lèi)樣本盡可能遠(yuǎn)離,且保留源域的判別結(jié)構(gòu)信息:
(18)
5) 兩域類(lèi)質(zhì)心匹配
CMMS采用最近鄰搜索法求解類(lèi)質(zhì)心問(wèn)題,為每個(gè)目標(biāo)域聚類(lèi)質(zhì)心尋找最近的源域聚類(lèi)質(zhì)心,并使其距離之和最小。兩域的類(lèi)質(zhì)心匹配表述為:
(19)
式中:ES代表常數(shù)矩陣,用于計(jì)算源域數(shù)據(jù)在投影空間中類(lèi)質(zhì)心;XS代表源域數(shù)據(jù)。
最后,通過(guò)迭代更新得到目標(biāo)域偽標(biāo)簽,實(shí)現(xiàn)目標(biāo)域數(shù)據(jù)的分類(lèi)。
然而,若遷移學(xué)習(xí)中源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)的分布差異較大,則可能會(huì)出現(xiàn)負(fù)遷移現(xiàn)象。CMMS更多是對(duì)目標(biāo)域數(shù)據(jù)進(jìn)行處理,并未對(duì)源域數(shù)據(jù)做篩選,導(dǎo)致可能會(huì)出現(xiàn)由于源域和目標(biāo)域數(shù)據(jù)差異較大而造成的負(fù)遷移。若能夠有效剔除源域中不良數(shù)據(jù),則可以避免負(fù)遷移或遷移效果差的情況。因此,本文基于最小化最大均值差異(maximum mean discrepancy, MMD)思想,通過(guò)最小化源域和目標(biāo)域數(shù)據(jù)的MMD距離,減小兩域之間的分布差異,重新構(gòu)建新的源域,改進(jìn)的CMMS方法原理如圖4所示。
MMD是一種非參數(shù)計(jì)算方法,可以度量?jī)蓚€(gè)不同域在再生希爾伯特空間中的距離,屬于核學(xué)習(xí)的一種[21]。
腦電信號(hào)的源域和目標(biāo)域數(shù)據(jù)特征,腦電信號(hào)的源域和目標(biāo)域數(shù)據(jù)特征,Ds={xs1,xs2,xs3…xsn}、Dt={xt1,xt2,xt3…xtn},最小化兩域的輸入樣本特征,在無(wú)限維再生核希爾伯特空間中,有:
(20)
兩域之間的MMD距離可表示為:
(21)
式中:Φ(·)是將原數(shù)據(jù)映射到再生希爾伯特空間的函數(shù);xsi代表源域數(shù)據(jù);xtj代表目標(biāo)域數(shù)據(jù);MMD值大小表征源域和目標(biāo)域數(shù)據(jù)的分布差異情況。借
助核計(jì)算,式(21)改寫(xiě)為:
(22)
式中:K代表核矩陣。
(23)
將核矩陣K分解為(KK-1/2)(K-1/2K),并利用轉(zhuǎn)移矩陣A將其降到m維空間。
MMD=tr(ATKMKTA)
(24)
目標(biāo)函數(shù)式(20)可以改寫(xiě)成:
(25)
Lg=tr(AT(KMKT+μI)A)+tr((I-ATKHKA)Φ)
(26)
為了驗(yàn)證本文方法的有效性,基于BCI2008競(jìng)賽數(shù)據(jù)集進(jìn)行離線仿真驗(yàn)證。競(jìng)賽數(shù)據(jù)為BCI-Ⅳ競(jìng)賽數(shù)據(jù)集中的Dataset-1,采樣通道為64,采樣頻率為1 000 Hz,實(shí)驗(yàn)任務(wù)是左右手運(yùn)動(dòng)想象實(shí)驗(yàn),分為7個(gè)試次。隨機(jī)選取其中5名受試者的數(shù)據(jù),采樣通道為C3、C4,每位受試者樣本總量為160,分別作為訓(xùn)練樣本集和測(cè)試樣本集,數(shù)據(jù)集信息如表1所示。
表1 數(shù)據(jù)集信息Tab.1 Datast properties
首先進(jìn)行原始腦電數(shù)據(jù)預(yù)處理,利用EA進(jìn)行源域和目標(biāo)域數(shù)據(jù)對(duì)齊,運(yùn)用CSP算法提取其空域特征,基于最小化最大均值差異進(jìn)行源域數(shù)據(jù)篩選,進(jìn)一步利用改進(jìn)的CMMS方法得到目標(biāo)域數(shù)據(jù)的分類(lèi)識(shí)別結(jié)果,并與SVM、JDA、BDA、GFK、EasyTL、CMMS等6種算法進(jìn)行對(duì)比,以驗(yàn)證本文方法的有效性,分類(lèi)識(shí)別結(jié)果如表2所示。
表2 5名受試者數(shù)據(jù)測(cè)試結(jié)果對(duì)比Tab.2 comparison of 5 subjects
其中,tac表示本文方法的識(shí)別準(zhǔn)確率,oac表示其它方法的識(shí)別準(zhǔn)確率,(tac-oac )提升均值表示本文方法相對(duì)于其它方法提高的識(shí)別準(zhǔn)確率。
由表2可見(jiàn),源域和目標(biāo)域來(lái)自同一個(gè)樣本時(shí)(同一受試者的數(shù)據(jù),以S1為例),SVM的分類(lèi)準(zhǔn)確率達(dá)到80%,但是當(dāng)源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)為不同的受試者時(shí)(S1做為源域數(shù)據(jù),S2、S3、S4、S5為目標(biāo)域數(shù)據(jù)),則SVM的分類(lèi)識(shí)別準(zhǔn)確率明顯下降,最高為72.5%,最低為55.3%;經(jīng)過(guò)EA數(shù)據(jù)對(duì)齊和MMD篩選源域數(shù)據(jù)之后,本文方法分類(lèi)識(shí)別準(zhǔn)確率最高為78.7%,最低也達(dá)到了72.8%。從平均分類(lèi)識(shí)別準(zhǔn)確率角度來(lái)看,SVM、JDA、BDA、EasyTL、GFK、CMMS分別為66.29%、71.34%、73.35%、68.01%、67.01%、72.67%,而本文方法為78.24%,識(shí)別準(zhǔn)確率提升均值超過(guò)其它方法4.71%~11.95%,驗(yàn)證了本文方法的有效性。
為了進(jìn)一步驗(yàn)證本文方法的有效性和實(shí)用性,選取15名受試者(10名男性,5名女性,年齡平均為25歲)進(jìn)行在線運(yùn)動(dòng)想象實(shí)驗(yàn),所有受試者身體均健康,無(wú)神經(jīng)性疾病,并簽訂了知情同意書(shū)以及通過(guò)了燕山大學(xué)倫理委員會(huì)的審查。要求受試者實(shí)驗(yàn)前24 h內(nèi)未飲用任何含有酒精或者咖啡因的飲品,休息時(shí)間充足且精力充沛。實(shí)驗(yàn)選用64通道腦電帽(電極分布符合國(guó)際聯(lián)合會(huì)10-20電極分布標(biāo)準(zhǔn),阻抗小于5 kΩ)和Neuroscan系統(tǒng)采集C3、C4、Cz三個(gè)通道的腦電信號(hào),采樣頻率為1 000 Hz。
每位受試者進(jìn)行4組運(yùn)動(dòng)想象實(shí)驗(yàn),每組實(shí)驗(yàn)后休息1 min,以避免受試者連續(xù)實(shí)驗(yàn)出現(xiàn)疲勞,每組實(shí)驗(yàn)分為20個(gè)試次,每個(gè)試次的時(shí)長(zhǎng)為15 s(5 s準(zhǔn)備時(shí)間和7 s運(yùn)動(dòng)想象)。實(shí)驗(yàn)環(huán)境要求安靜、無(wú)干擾,實(shí)驗(yàn)過(guò)程中受試者身體姿勢(shì)保持靜止不動(dòng),盡量做到不眨眼,具體實(shí)驗(yàn)范式如圖5所示。
圖5 單次運(yùn)動(dòng)想象實(shí)驗(yàn)范式Fig.5 Single motion imagination experiment paradigm
實(shí)驗(yàn)開(kāi)始時(shí),屏幕正中間出現(xiàn)黃色實(shí)心圓并不斷閃爍,提示受試者集中精神即將開(kāi)始實(shí)驗(yàn),持續(xù)5 s;第5 s后實(shí)心圓消失,隨機(jī)出現(xiàn)向右或向左移動(dòng)的藍(lán)色實(shí)心箭頭,受試者需要根據(jù)箭頭的移動(dòng)方向進(jìn)行右手或左手抓握運(yùn)動(dòng)想象;第12 s藍(lán)色實(shí)心箭頭消失,運(yùn)動(dòng)想象過(guò)程結(jié)束,之后被試者休息5 s,開(kāi)始下一次運(yùn)動(dòng)想象過(guò)程。隨機(jī)選取5名受試者(S6-S10),利用本文方法進(jìn)行運(yùn)動(dòng)想象在線分類(lèi)識(shí)別,結(jié)果如表3所示。
表3 5名受試者數(shù)據(jù)測(cè)試結(jié)果對(duì)比Tab.3 comparison of 5 subjects
由表3可見(jiàn),5名受試者在線實(shí)驗(yàn)測(cè)試結(jié)果與BCI數(shù)據(jù)集離線實(shí)驗(yàn)測(cè)試結(jié)果表現(xiàn)相似。
源域和目標(biāo)域來(lái)自同一受試者時(shí),SVM的分類(lèi)識(shí)別準(zhǔn)確率最高達(dá)到76.43%,最低為70.5%;而源域和目標(biāo)域來(lái)自不同的受試者時(shí),SVM的分類(lèi)識(shí)別準(zhǔn)確率最高僅為63.7%,最低為52.4%;遷移學(xué)習(xí)方法JDA、BDA、EasyTL、GFK、CMMS的分類(lèi)識(shí)別準(zhǔn)曲率均有所提升,但效果不明顯,其平均分類(lèi)識(shí)別準(zhǔn)確率分別為64.7%、67.4%、62.8%、61.4%、67.5%,而SVM僅為58.82%;本文方法平均分類(lèi)識(shí)別準(zhǔn)確達(dá)到了73.2%,相較于其它方法分類(lèi)識(shí)別準(zhǔn)確率提升均值5.7%~14.38%,充分驗(yàn)證了本文方法的有效性和運(yùn)動(dòng)想象腦機(jī)接口應(yīng)用中的實(shí)用性。
本文提出了基于EA和改進(jìn)CMMS遷移學(xué)習(xí)的運(yùn)動(dòng)想象分類(lèi)識(shí)別方法,通過(guò)將預(yù)處理后的腦電信號(hào)進(jìn)行歐式空間下的數(shù)據(jù)對(duì)齊,減少源域和目標(biāo)域的數(shù)據(jù)分布差異,并基于最小化最大均值差異思想構(gòu)建新的源域,以進(jìn)一步減少兩域數(shù)據(jù)的分布差異。分別利用BCI競(jìng)賽Dataset數(shù)據(jù)集離線測(cè)試和在線實(shí)驗(yàn)測(cè)試進(jìn)行驗(yàn)證,并與SVM、JDA、BDA、EasyTL、GFK、CMMS等方法進(jìn)行對(duì)比分析,結(jié)果充分說(shuō)明了本文方法的有效性和運(yùn)動(dòng)想象腦機(jī)接口應(yīng)用中的實(shí)用性。