宋玉龍,趙冕,鄭威
(江蘇科技大學(xué)電子信息學(xué)院,鎮(zhèn)江 212003)
癲癇是由大腦神經(jīng)元突發(fā)性異常放電而導(dǎo)致的短暫的大腦功能障礙的一種慢性疾病[1-2]。臨床診斷癲癇疑似病例常用方法是腦電圖,它是通過電極記錄腦電活動(dòng)的一種無創(chuàng)而有效的方式[3]。癲癇發(fā)作的間期和發(fā)作期,癲癇患者的EEG信號復(fù)雜度會(huì)降低,由雜亂無序變成有規(guī)律的陣發(fā)信號。因此,癲癇EEG的研究,對癲癇腦電信號的提取識別和分類有重要的意義。
腦電信號是一種具有較強(qiáng)非線性特征的信號,傳統(tǒng)的腦電分析方法主要是時(shí)域、頻域分析和時(shí)頻分析,常用的非線性方法有Lyapunov、近似熵、相似度指數(shù)、Kolmogorov熵等[4-5]。但是,單一的傳統(tǒng)提取方法無法全面的反應(yīng)腦電的信息特征,非線性方法也較為復(fù)雜,對EEG數(shù)據(jù)的要求也更高。在癲癇EEG提取的特征輸入分類器過程中,通常采用特征提取和分類器結(jié)合的方式,目前常用分類器有BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(support vector machine,SVM)和極限學(xué)習(xí)機(jī)(ELM)等[6-7]。在分類過程中,不同的特征提取方法適合不同的分類方法,神經(jīng)網(wǎng)絡(luò)算法簡單方便,但實(shí)用性較差;支持向量機(jī)對小樣本的分類訓(xùn)練精度高,對大規(guī)模數(shù)據(jù)樣本不敏感。
經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)可將癲癇EEG分解成不同尺度的本征模態(tài)函數(shù)(IMF),分解得到的主要IMF分量包含了信號波動(dòng)特點(diǎn)和特征趨勢信息[8]。本研究采用EMD算法對發(fā)作間期和發(fā)作期的癲癇EEG進(jìn)行分解,得到不同尺度的IMF分量,然后對主要的IMF分量求取均值和波動(dòng)指數(shù),樣本熵,并將三者作為一組混合特征向量輸入到ELM中,實(shí)現(xiàn)癲癇EEG的提取和分類。
EMD算法是一種適用于處理非平穩(wěn)信號的時(shí)頻分析新方法,它是由黃愕等提出的希爾伯特黃變換演變而來[9]。EMD分解信號時(shí),不需要設(shè)置基參數(shù)即可對信號進(jìn)行不同尺度的自適應(yīng)分解,得到多個(gè)IMF分量。在不同頻率的各個(gè)IMF上,包含有原始信號的局部細(xì)節(jié)特征[10]。為得到各階分量,EMD算法步驟具體如下:
(1)計(jì)算原始序信號x(t)=0時(shí)的所有極大值和極小值點(diǎn)。
(2)將計(jì)算的所有極大值點(diǎn)構(gòu)成一個(gè)時(shí)間序列的上包絡(luò),記為m+(t),極小值構(gòu)成序列的下包絡(luò),記為m-(t),兩條包絡(luò)線的均值記為m(t):
(1)
(2)
(3)
(5)計(jì)算減掉c1(t)的殘余函數(shù),記為r1(t):
r1(t)=x(t)-c1(t)
(4)
(6)將求得的r1(t)作為輸入,重復(fù)上述步驟,直至得到所有階數(shù)的IMF分量c2(t)……cn(t) ,即原始信號的EMD分解:
(5)
EMD分解過程中,各階的IMF分量的頻率按由高到低的順序排列,信號的主要特征信息均集中在前幾個(gè)分量之中。本研究分解得到前四階的IMF,舍去含有信息量少的分量,有利于提高癲癇EEG分類的效率。
信號系統(tǒng)復(fù)雜性分析中,熵是對系統(tǒng)不確定性的度量,系統(tǒng)的熵值越高,系統(tǒng)越復(fù)雜,隨機(jī)性越強(qiáng)[11]。利用樣本熵計(jì)算腦電信號復(fù)雜度時(shí),樣本熵的值越大,腦電數(shù)據(jù)的復(fù)雜度越高,反之,EEG信號趨于一定的規(guī)律性和穩(wěn)定性[12]。
定義一個(gè)長度為N,數(shù)據(jù)為x1,x2,x3.....,xN序列,其樣本熵計(jì)算原理:
(1)從序列中選取出m個(gè)點(diǎn)作為一組向量x1,x2,...,xN-m+1,其中:
xi=(xi,xi+1...,xi+m-1),1≤i≤N-m+1
(6)
(2)設(shè)向量xi,xj之間的距離最大值為dm:
dm=max|xi+k-xj+k|,0≤k≤m-1
(7)
(8)
將向量維數(shù)增加1,變?yōu)閙+1維向量,重復(fù)步驟(1)、(2)、(3)可得:
(9)
(10)
(11)
(5)參數(shù)N,r,m是有固定的取值,樣本熵的大小和m,r的選取相關(guān),通常取m=2,r=(0.1~0.3)×std(std表示數(shù)據(jù)的標(biāo)準(zhǔn)差)。則信號的樣本熵記為SampEn:
SampEn(m,r,N)=-ln「Bm(r)/Bm+1(r)?
(12)
極限學(xué)習(xí)機(jī)是一種應(yīng)用廣泛的單隱藏層的前饋神經(jīng)網(wǎng)絡(luò)的算法。相較于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)算法,具有學(xué)習(xí)速度快,參數(shù)少,模型簡化等優(yōu)勢。ELM的算法原理實(shí)現(xiàn):
選取N個(gè)數(shù)據(jù)的樣本{(xi,yi)},i=1,2,…,N,其中xi=(xi1,xi2,…xin)T∈Rn,xi是學(xué)習(xí)機(jī)的輸入向量 ,yi=(yi1,yi2,…yim)T∈Rm,yi是輸出向量。若ELM的隱藏層節(jié)點(diǎn)數(shù)取為L,則:
(13)
其中ai,bi分別是第i個(gè)隱藏節(jié)點(diǎn)和輸入的權(quán)值向量和偏置量,輸出權(quán)值為βi=(βi1,βi2,…,βim)T,將式(13)化為矩陣形式為:
Y=Hβ
(14)
(15)
ELM的具體算法實(shí)現(xiàn)步驟:
(1)初始化ELM后,對ai,bi參數(shù)進(jìn)行隨機(jī)取值;
(2)根據(jù)輸入變量求出狀態(tài)矩陣H;
(3)求輸出權(quán)值,β=H+Y,其中H+是H的逆矩陣(H+=HT(HHT)-1)。
本研究采用的癲癇EEG信號來自德國born大學(xué)的五組數(shù)據(jù)中的C和E兩組數(shù)據(jù)集。數(shù)據(jù)是經(jīng)過預(yù)處理后的片段,而且公開應(yīng)用比較廣泛,實(shí)驗(yàn)結(jié)果具有較高的可信度和對比度。數(shù)據(jù)集C中N001數(shù)據(jù)(癲癇發(fā)作間期)和數(shù)據(jù)集E中S001數(shù)據(jù)(癲癇發(fā)作期)的EEG波形見圖1(a)、圖1(b)。
圖1 數(shù)據(jù)集C(N001)、E(S001)的原始信號波形(a).癲癇發(fā)作間期;(b).癲癇發(fā)作期Fig.1 The original signal waveform of data set C(N001)and E(S001)
首先,將C和E兩組數(shù)據(jù)片段分別進(jìn)行EMD分解,得到前四階IMF分量。經(jīng)過EMD分解后的IMF分量見圖2,兩組數(shù)據(jù)中第一個(gè)IMF分量有明顯的區(qū)別,包含了信號的主要特征信息,為接下來的求取IMF分量的均值、波動(dòng)指數(shù)與樣本熵提供了不錯(cuò)的數(shù)據(jù)依據(jù)。
由圖2可知,C、E兩組數(shù)據(jù)分量IMF1的區(qū)別較為明顯,將IMF1提取出來作為接下來的實(shí)驗(yàn)數(shù)據(jù)。將C和E數(shù)據(jù)集的所有數(shù)據(jù)分為200組,每組長度為2 000點(diǎn)的片段,將每一組片段按照圖2進(jìn)行EMD分解,然后提取出分解后的IMF1分量,分別求IMF1的均值、波動(dòng)指數(shù)和樣本熵值。均值反映了IMF分量的集中趨勢,波動(dòng)指數(shù)是用信號相鄰之間的差值總和的平均數(shù)來表示信號的波動(dòng)強(qiáng)度,反映IMF分量的變化強(qiáng)度。樣本熵反應(yīng)了IMF分量的復(fù)雜程度。C、E兩組數(shù)據(jù)集的IMF1分量的均值、波動(dòng)指數(shù)和樣本熵的對比結(jié)果見圖3(a)、圖3(b)、圖3(c)。
由圖3(a)可知,癲癇發(fā)作間期的C組數(shù)據(jù)IMF1分量的均值基本在零的上下波動(dòng),而發(fā)作期的E組數(shù)據(jù)均值波動(dòng)范圍非常大。由圖3(b)可知,兩組數(shù)據(jù)的IMF1波動(dòng)指數(shù)區(qū)別也是非常明顯。由圖3(c)可知,兩組數(shù)據(jù)IMF1的樣本熵值具有一定的區(qū)分度,癲癇發(fā)作時(shí),EEG信號復(fù)雜性降低,熵值則低于發(fā)作間期。
圖2 癲癇發(fā)作間期、發(fā)作期的EMD分解(a).癲癇發(fā)作間期;(b).癲癇發(fā)作期Fig.2 EMD decomposition of interictal seizures and epileptic seizures
圖3 IMF1的均值、波動(dòng)指數(shù)和樣本熵(a).IMF1均值;(b).IMF1波動(dòng)指數(shù);(c).IMF1樣本熵Fig.3 The mean value, fluctuation index and sample entropy of IMF1
混合特征提取的基本思路是先將C、E兩組數(shù)據(jù)進(jìn)行EMD分解,將分解后的IMF1提取出來,構(gòu)成一個(gè)新的信號序列,然后對IMF1進(jìn)行特征提取,線性特征提取是求均值和波動(dòng)指數(shù),非線性特征提取是求樣本熵,最后將提取的所有特征合為一組特征向量?;旌咸卣魈崛∽R別流程見圖4。
混合特征提取的步驟如下:
(1)將C和E數(shù)據(jù)集分段分別得到一共200組,每組2 000點(diǎn)數(shù)據(jù)片段,設(shè)原始EEG信號序列為X,樣本個(gè)數(shù)為200,則X=(x1,x2,……x200);
(2)將X的200組樣本分別進(jìn)行經(jīng)驗(yàn)?zāi)B(tài)分解,提取出的每一個(gè)樣本的IMF1分量,得到新的信號序列Y,樣本個(gè)數(shù)仍為200;
圖4 混合特征提取識別流程圖Fig.4 Flow chart of mixed feature extraction and recognition
(4)混合線性特征和非線性特征,記為Features(Y):
(16)
信號序列Y的混合特征見式(16),將其輸入到ELM中進(jìn)行識別分類。
將數(shù)據(jù)集C、E分段得到的200組數(shù)據(jù),其中100組作為ELM輸入的測試樣本,另100組作為訓(xùn)練樣本,將200組數(shù)據(jù)直接求均值、波動(dòng)指數(shù)和樣本熵,并將三種特征向量輸入到ELM中進(jìn)行分類。結(jié)果見表1。
表1 數(shù)據(jù)集C、E原始信號的特征向量的ELM分類實(shí)驗(yàn)結(jié)果Table 1 The feature vectors ELM classification experimentalresults of data set C and E
由表1可知,原始信號直接求取特征向量輸入到ELM中,由于C、E兩組數(shù)據(jù)集除了包含有癲癇特征信息,還存在噪聲和趨勢干擾,導(dǎo)致測試準(zhǔn)確率、訓(xùn)練準(zhǔn)確率明顯偏低。因此,為了更好的提高分類準(zhǔn)確率,將數(shù)據(jù)進(jìn)行EMD分解非常有必要。
研究C、E兩組數(shù)據(jù)集200組數(shù)據(jù)EMD分解后提取出的主要IMF分量IMF1,將求得的IMF1的均值、波動(dòng)指數(shù)和樣本熵組成的特征向量輸入到ELM中,結(jié)果見表2。
表2 IMF1的特征向量的ELM分類實(shí)驗(yàn)結(jié)果Table 2 The eigenvectors ELM classification experimental results of IMF1
由表2可知,將兩組數(shù)據(jù)進(jìn)行EMD分解后,輸入到ELM中的均值、波動(dòng)指數(shù)、樣本熵的三種特征向量訓(xùn)練的準(zhǔn)確率明顯從88.63%提高到97.81%,混合特征的訓(xùn)練準(zhǔn)確率比單個(gè)特征向量的高,而且ELM具有訓(xùn)練速度快,用時(shí)短的優(yōu)點(diǎn)。實(shí)驗(yàn)結(jié)果驗(yàn)證了將癲癇EEG信號進(jìn)行EMD分解的必要性,以及混合特征提取的有效性。
癲癇發(fā)作時(shí)的EEG會(huì)發(fā)生較大的波形變化,研究癲癇特征的變化是癲癇提取分類的基礎(chǔ)。本研究采用EMD分解和混合特征輸入ELM分類的方法,運(yùn)用EMD分解,得到更有效表示癲癇特征信息的IMF分量,分解后降低了噪聲和信號趨勢的干擾,IMF1的均值,波動(dòng)指數(shù)和樣本熵均可表示癲癇發(fā)作間期和發(fā)作期的信號差異,將三者作為混合特征輸入到ELM分類,提高了分類精度。結(jié)果表明,本研究對癲癇特征信息進(jìn)行了有效的識別分類,為臨床治療提供了一定的診斷信息,也為癲癇疾病的預(yù)防和發(fā)現(xiàn)增加了相應(yīng)的輔助手段,有進(jìn)一步研究的價(jià)值。