謝朋洋,郭亮暉,李 陽
(1.北京航空航天大學 計算機科學與技術,北京 100191;2.北京航空航天大學 自動化科學與電氣工程學院,北京 100191)
腦電圖(Electroencephalography,EEG)是一種測量大腦產生電信號的非侵入式技術[1,2],它通過置于頭皮的電極記錄神經元周圍電流產生的電位。EEG具有卓越的時間分辨率,能捕捉毫秒時間尺度上發(fā)生的事件;而另一方面,介于傳感器與信號源之間的人體組織覆蓋,污染了EEG信號,使得其空間分辨率低,通道之間往往具有很高的空間相關性。
EEG被廣泛用于研究睡眠模式[3]、癲癇[4]和各類與大腦電場變化相關的情景中(例如多動癥[5]、意識障礙[6]等)。同時,在神經科學與心理學相關的研究中,EEG也大放異彩,作為研究大腦功能的得力工具。因其對個體情緒、心情[7]、疲勞、精神負擔[8]等客觀的檢測能力,EEG在認知和情感檢測方向也有廣闊的發(fā)展前景。腦機接口(brain-computer interface, BCI)作為獲取、分析大腦信號的重要途徑,可以將EEG信號解碼為外圍設備的控制指令[9],從而實現(xiàn)腦機交互。
近年來,隨著深度學習技術的蓬勃發(fā)展,基于深度學習的EEG信號處理技術逐漸成為領域內的熱門。人工智能與神經科學的融合發(fā)展也為EEG信號的應用開拓了新的研究潛力。
盡管EEG在許多領域具有關鍵作用,目前想要分析處理它仍面臨幾個重大挑戰(zhàn)。
(1)EEG具有較低的信噪比(signal-to-noise ratio,SNR)[10]。記錄大腦活動時總是會有諸如環(huán)境、生理和活動特定的噪聲源產生的“偽跡”。想要從記錄的信號中提取出真正的腦部活動信息,必須使用不同的濾波器和降噪技術來減小噪聲的影響。
(2)EEG是一種非平穩(wěn)信號[11],時變率高。因此,在時間跨度有限的用戶數(shù)據(jù)上訓練出的分類器可能在同一個體、不同時間記錄的數(shù)據(jù)上表現(xiàn)出貧乏的泛化能力。
(3)個體化差異較大也限制了EEG的應用。這種現(xiàn)象是由受試者之間的生理差異產生的,這些差異會嚴重影響理模型泛化能力[12]。
另一方面,對于BCI而言,如何有效地解碼EEG是獲取大腦意圖的關鍵。一個完整的BCI系統(tǒng)由五個部分組成:用戶、EEG信號采集、信號處理、控制系統(tǒng)和受控設備[9, 13]。傳統(tǒng)(2007年以前)的EEG分類算法包括線性分類器、神經網絡、非線性貝葉斯分類器、最近鄰分類器和多種分類器的組合[14]。然而,這些方法在很大程度上受限于上述困難,因此近年來,越來越多的研究開始關注于解決這些難題[15]。
例如遷移學習,一種旨在將源域上學習到的知識應用到不同但相關的領域或問題中的機器學習方法[16]。遷移學習通過在源域數(shù)據(jù)上的訓練,使模型能夠應用到小樣本數(shù)的目標域上,避免因EEG數(shù)據(jù)的不足導致模型性能下降的問題。
同時,為了彌補EEG信噪比低、非平穩(wěn)等問題,黎曼幾何分類器、張量方法和深度學習等方法也被用于一些能將特征提取、特征選擇和分類一步完成的新方法[15]。
本文將在下一節(jié)詳細討論深度學習在EEG信號處理上的應用,并分析其對分類效果的提升。
深度學習是一種具有多層結構,能夠從原始輸入提取出更高層次特征的機器學習算法,它能通過自適應特征提取和分類模塊實現(xiàn)端到端學習,使得模型不再依賴復雜的手動特征提取。目前,深度學習已在文字、圖像和語音等復雜數(shù)據(jù)的處理上產生了豐碩的研究成果。
深度學習同樣能夠多維度地提升、拓展現(xiàn)有的EEG處理方法。其主要體現(xiàn)在:
(1)深度學習不依賴手動特征提取,減少了對領域專用處理方法的需求。深度學習使得其能從未經處理或經過最小程度處理的數(shù)據(jù)上提取特征[17]。
(2)深度學習拓寬了EEG數(shù)據(jù)使用的領域,將其引入了生成模型[18]等方向。利用深度學習的方法能合成高維度的結構化數(shù)據(jù),例如圖像、語音等。近年來,一些研究[19-23]將基于視覺刺激產生的EEG信號與生成對抗網絡(Generative Adversarial Nets,GAN[18])結合,利用EEG特征輔助生成圖像。
(3)深度學習有望為EEG的分析處理提升性能,獲得更有效的特征信息與更高的分類準確率[24]。
1.2.1 數(shù)據(jù)預處理
EEG信號的預處理一般包含下采樣(downsampling)、帶通濾波(band-pass filtering)、加窗(windowing)和消除偽跡(如獨立主成分分析、剔除壞段)等。大部分利用深度學習處理EEG的項目都使用了至少一種預處理方法,例如下采樣或是重參考(re-referencing)[17];然而有相當一部分的項目沒有使用消除偽跡的方法[17],這表明深度學習的應用需要一定程度的預處理,但能有效避免傳統(tǒng)EEG處理中復雜的、需要領域專業(yè)知識的偽跡消除手段。然而,最近另一項研究[25]則顯示,未經合理預處理的EEG數(shù)據(jù)可能會導致結果出現(xiàn)嚴重錯誤,影響研究人員的判斷。因此,對于采用深度學習的EEG分析方法,必要的預處理過程十分重要。
深度學習可以應用于特征提取與分類等各個環(huán)節(jié)中(如圖1),下面將詳細討論深度學習在這些方面的應用。
圖1 EEG信號的處理、分析與應用
1.2.2 特征提取與分類器
近來,許多深度學習模型都被用于處理EEG信號,例如:卷積神經網絡(Convolutional Neural Network,CNN)、循環(huán)神經網絡(Recurrent Neural Network,RNN)、自動編碼器(Auto Encoder,AE)、受限玻爾茲曼機(Restricted Boltzmann machine,RBM)、深度信念網絡(Deep Belief Network,DBN)、生成對抗網絡(GAN)和全連接網絡(Fully Connected Network,F(xiàn)CN)等。其中,CNN、RNN和DBN在腦電圖分類任務上較之其他模型擁有更高的準確率[26]。近年來,CNN逐漸成為應用的主流,將CNN與RNN結合的模式也受到越來越多研究的青睞[17](圖2)。
圖2 基于深度學習的EEG處理模型的幾種常見類型
CNN能實現(xiàn)端到端學習并有效利用數(shù)據(jù)的層次結構,實現(xiàn)有監(jiān)督的特征學習。RNN則擅長處理序列數(shù)據(jù),廣泛應用于文字、音頻和視頻的處理,長短期記憶人工神經網絡(Long Short-Term Memory,LSTM)在RNN的基礎上引入了細胞狀態(tài)與門機制,有效控制特征的流通與損失,解決了RNN長期依賴的問題[27]。由于EEG內在的時序結構,RNN也適用于處理EEG信號。
Bashivan等[28]將EEG信號轉化為一系列多頻譜的圖像,保留其拓撲結構,并將其用于訓練深層循環(huán)卷積網絡,此舉旨在保留EEG的時空、頻譜特征以降低其對變化與失真的敏感度。該方法在認知負荷分類任務上展現(xiàn)了超前的性能。
Zheng等[23]利用LSTM提取序列特征與CNN獲得局部特征的能力,將二者結合,在EEG數(shù)據(jù)上抽取具有視覺刺激類別信息的向量表示,用于EEG信號分類并為后續(xù)應用提供高維度的信息。
Yang等[29]將CNN與RNN結合,有效學習原始EEG數(shù)據(jù)流的時空成分表示以對情感狀態(tài)進行分類。其中CNN模塊通過將鏈狀的EEG信號序列轉換為二維的幀序列,挖掘物理層面上相鄰信道的相關性,而LSTM模塊則被用于挖掘時序特征??梢钥吹?,RCNN(Recurrent-Convolutional Neural Networks)能有效處理并準確解碼EEG信號。
視覺是人類感知系統(tǒng)的重要組成部分[30],計算機視覺則是一門旨在讓機器學會“看”的科學,是利用計算機及其他設備對人類視覺的模擬[32]。當人眼接受到刺激時,大腦的神經元就會釋放鋒電位[31]。視覺刺激誘發(fā)大腦產生的神經電位的研究是探索人類處理視覺信息的機理與發(fā)展計算機視覺的關鍵[33]。
作為獲知大腦活動的重要途經,EEG因成本低、安全性好而備受關注。越來越多的研究著手于利用深度學習對EEG信號進行解碼并將EEG特征融入圖像生成或分類模型中[19-23,30,34-42]。這一技術被視為可視化大腦活動的雛形,“讀心術”可能近在咫尺。
2.1.1 目標分割
Mohedano E[38]等將圖像分割為若干小窗,以快速連續(xù)視覺呈現(xiàn)[43](Rapid Serial Visual Presentation,RSVP)的方式展示給被試,采集其EEG信號,并將該信號轉化為一張由每一小窗包含目標物體的概率組成的圖,最后將此圖作為GrabCut[44]分割算法的輸入對目標進行分割(圖3)。實驗表明,BCI和簡單的EEG信號分析能有效地應用到圖像分割領域中。
圖3 基于EEG特征的目標分割技術
2.1.2 圖像分類
PeRCeiVe Lab的研究人員將神經科學與計算機視覺的融合推向了一個新的階段(http://www.perceivelab.com)。Spampinato等[35]表示,他們首創(chuàng)了人腦信號驅動的視覺目標分類器以實現(xiàn)閱讀人類思維并向計算機遷移人類視覺能力的目標。他們將模型分為兩個階段(圖4)。
圖4 利用EEG特征的圖像分類技術
第一個階段是“讀心”,其旨在找出二維(通道和時間)EEG空間中的低維流形,該流形的表征能區(qū)分不同的類別。具體來講,將被試觀察圖片產生的EEG數(shù)據(jù)輸入由RNN組成的編碼器中,借此從原始數(shù)據(jù)中獲取EEG特征。訓練過程由EEG輸入序列所對應的圖像類別進行監(jiān)督,并在此過程中共同訓練EEG特征分類器。
第二個階段是“向機器遷移人類的視覺能力”,旨在直接從圖像中提取EEG特征。該階段讓一個CNN模型學習從視覺特征描述符到EEG特征的映射,這樣將新的圖片輸入該回歸模型就能得到該圖像的EEG特征,再將該特征輸入第一階段的分類器中就能預測相應的圖像類別。
Fares和Zhong等[42]則更進一步地考慮了大腦功能的偏側化以及來自過去和未來的電激活與當前的自發(fā)反應和主體狀態(tài)之間的動態(tài)相關性,提出了大腦區(qū)域級堆疊雙向深度學習(BiLSTMs)方法用于優(yōu)化基于EEG的圖像分類。
2.1.3 圖像生成
為了更具象地展現(xiàn)“讀心”的過程,Palazzo[19]、Kavasidis[20]、Tirupattur[21]、Jiao[30]、Zheng[23]和Kangassalo[41]等提出了EEG信息驅動的GAN模型,用以生成圖像。
此類模型主要包含兩個部分(圖5):EEG特征學習和綜合EEG特征的圖像生成。第一部分中,在真實圖像刺激下,被試產生原始的EEG信號,該信號通過基于深度學習的編碼器得到向量形式的EEG特征,此特征包含視覺相關的具有判別力的信息。第二部分中,EEG特征被加入生成對抗模型中用以產生綜合EEG特征的圖像使得該圖像的類別與EEG特征向量吻合。實驗表明,綜合EEG信息生成的圖像與原始圖像高度相似,該技術為“讀心”提供了一種可行的思路。
BCI是一種記錄、解碼并將可測量的神經生理信號轉換為計算機可讀指令,用以控制單個或系列輸出設備的基于計算機的系統(tǒng)[45]。
BCI系統(tǒng)(圖6)可分為侵入式和非侵入式。侵入式的BCI系統(tǒng)又可分為直接放置在大腦表面進行皮質腦電圖(electrocorticography,ECoG)成像的電極陣列與植入大腦皮層的微電極陣列。在實驗中,大腦表面電極又分為硬腦膜表面電極[46]和硬腦膜下電極[47-49]。然而,侵入式BCI系統(tǒng)在獲取信號的長期魯棒性方面存在問題[50],體內情況成功率有限[51],因而常用于體外實驗。另一方面,非侵入式系統(tǒng)便攜、舒適、成本低,更適合采集相關大腦信號(比如EEG)[45]。非侵入式系統(tǒng)將多個電極置于頭皮上以獲取EEG信號,從獲取的信號中提取出運動意圖相關特征并用其控制指定的致動設備[52-54]。近年來,無線EEG系統(tǒng)以其用戶友好、能減少線材移動造成的噪聲而備受青睞[55]。非侵入式系統(tǒng)可分為干電極、凝膠電極、半干電極。相較半干和干電極,凝膠電極能最有效減少獲取信號的時間。
圖6 BCI的分類
BCI通過EEG采集系統(tǒng)記錄大腦的活動。根據(jù)腦信號的采集方式可以將基于EEG的BCI系統(tǒng)分為四種范式[56-60](圖7)。
圖7 基于EEG的BCI系統(tǒng)的四種范式
由圖7可知,對于腦卒中患者而言,運動想象(motor imagery, MI)更便于研究運動相關的大腦活動并幫助病人進行神經康復治療。基于運動想象EEG解碼的BCI已被用于設計腦卒中患者的神經康復系統(tǒng)(圖8)。相較于傳統(tǒng)的康復療法,這些策略能夠準確測定患者的MI模式,并能相應給予患者反饋,這種技術叫做“配對聯(lián)想刺激”(PAS),它能有效改善康復效果。
圖8 基于EEG-BCI的康復系統(tǒng)的研究方法
目前BCI系統(tǒng)的控制/反饋單元主要有三種:功能性電刺激(Functional Electric Stimulation,F(xiàn)ES)[61]、機器人輔助系統(tǒng)[62]和基于虛擬現(xiàn)實的混合方法[63]?;贐CI的康復系統(tǒng)從系統(tǒng)設計到實現(xiàn)的總體方法主要包括三個階段:康復前階段、康復訓練階段和康復后階段(圖9)。
圖9 基于EEG-BCI的腦卒中患者神經康復系統(tǒng)的整體設計與實施示意圖
2.2.1 BCI-FES康復系統(tǒng)
FES通過刺激神經來重建運動通路中的連接,從而誘發(fā)患肢的肌肉運動,是一種非侵入式的解決方案。該系統(tǒng)結構如10圖所示。
2.2.2 BCI-機器人康復系統(tǒng)
機器人康復系統(tǒng)可以分為主動的、被動的和輔助性的[64],主要取決于患者的受損情況。使用機器人系統(tǒng)進行腦卒中康復的主要目的是,通過提供感覺運動反饋來恢復受損肢體的運動。此系統(tǒng)結構與BCI-FES相似,僅需替換圖10中的FES單元為機器人控制單元(包含機器人、BCI-機器人接口)。
圖10 BCI-FES神經康復系統(tǒng)示意圖
2.2.3 BCI-VR混合康復系統(tǒng)
鏡像療法是一種用以增強康復治療環(huán)境真實性、刺激性并激勵患者參與治療的方法。在治療過程中,患者移動其健康的肢體,期間產生的鏡像反射使得大腦相信患肢也在移動[65]。實驗表明,這種方法增加了大腦同側初級運動皮層區(qū)域的興奮性。然而,隨著時間的推移,患者會逐漸失去注意力和參與實驗的興趣與動力[66],VR技術的加入可以有效提供觸發(fā)鏡像神經元所需的刺激的視覺反饋,給患者帶來身臨其境的體驗[67]。3D環(huán)境可以根據(jù)病人病情的改善和治療的進展進行調整,以保證用戶在整個康復過程中的參與度。同時,VR系統(tǒng)能模擬出現(xiàn)實世界的活動[68],這在常規(guī)治療中是無法實現(xiàn)的。
2.2.4 對比討論
FES對患肢完全喪失運動能力的病人無效并且缺乏有效控制刺激參數(shù)的方法,同時使用表面電極的FES在選擇性刺激更深的肌肉群時也表現(xiàn)地差強人意。而機器人輔助系統(tǒng)則能幫助運動功能損壞的患者根據(jù)其意圖移動他們的患側肢體。由于需要處理大量的腦電數(shù)據(jù),要設計能在實時場景中精確控制機器人運動的BCI系統(tǒng)是極富挑戰(zhàn)性的,并且BCI-機器人的低便攜性與高復雜性使得其應用受限[69]。目前,結合VR的BCI康復系統(tǒng)的腦卒中研究較少,數(shù)據(jù)量相對缺乏。同時,VR圖形化質量不高,成熟使用的VR康復系統(tǒng)也很少結合到BCI中。
綜上,基于BCI的康復系統(tǒng)仍具備很大的提升空間,并且難以在非臨床環(huán)境下實現(xiàn),設計一款“智能康復系統(tǒng)”的必要性顯而易見,其每一個部件都能做到無線、便攜易用且智能,如圖11所示[45]。
圖11 EEG-BCI智能康復系統(tǒng)示意圖
另一方面,柔性電子(Flexible Electronics,F(xiàn)E)[70,71]也可能成為該體系的新成員,作為放大信號、實現(xiàn)閉環(huán)交互及精確傳感的柔性硬件平臺,為腦卒中患者提供更為靈活的康復系統(tǒng)(圖12)。
圖12 FE在神經科學中的應用
隨著人機協(xié)作、人機交互和先進機器學習模型的出現(xiàn),基于深度學習的大腦解碼方法越來越受到人們的關注。EEG作為廣泛使用神經生理學工具,正處于研究的前沿?;谏疃葘W習對EEG信號進行處理并將EEG特征用于計算機視覺、基于BCI的腦卒中康復等領域體現(xiàn)了深度學習、計算機視覺、神經科學的高度融合,是目前跨學科跨領域研究的熱點與趨勢。