馮 維, 曹荻秋, 呂 耿, 何美霖, 應 娜
(杭州電子科技大學通信工程學院,杭州 310018)
睡眠質量不僅與個人身體健康息息相關,同時還與多種疾病及其發(fā)病征兆密切相關[1]。人處在不同睡眠狀態(tài)時,腦電波的成分有著顯著差異。由此進行的睡眠時期分期,使得人們可以從科學的角度對人體的睡眠狀況進行分析,這對臨床醫(yī)學診斷有著極大的參考價值。同時也為人腦相關疾病的深入研究提供了基礎。
腦電圖(Electroencephalogram,EEG)是通過探針等儀器記錄人體頭皮各個方位的生物電位綜合得來的圖像,可以反映人體大腦的當前狀態(tài)[2]。Rechtschaffen和Kales 提出,觀察和分析腦電圖,眼電圖和肌電圖,可以將非快速眼動期劃分為4 個時期,簡稱睡眠1 ~4 期。結合Nathaniel Kleitmanti提出的分期標準,將此標準稱為R&K分期標準[3],讓定量分析睡眠狀況成為一種可能。由于人工進行手動分類效率低下且錯誤率高,人們開始尋找自動實現(xiàn)睡眠分期的方法[4]。
早期使用的腦電信號分析方法一般直接從時域提取信號波形特征。Kayikcioglu 等[5]使用自回歸(Autorgressive,AR)模型來提取腦電信號的4 種節(jié)律波的AR系數(shù),根據(jù)節(jié)律波的組成來區(qū)分不同睡眠時期。同時考慮EEG信號的時域和頻域特征,設計出時頻分析法,例如小波變換。Azim等[6]用離散小波變換提取了EEG信號在不同睡眠期的時域、頻域特征,結果表明其在特征提取方面有較好的性能。本次實驗選取了AR系數(shù),能量特征,樣本熵和信源熵4 個特征參數(shù)進行復合,與單一AR 系數(shù)相比能更好地實現(xiàn)腦電信號的自動睡眠分期。
本次實驗數(shù)據(jù)來自于MIT-BIH 公開數(shù)據(jù)庫中的人體睡眠數(shù)據(jù)。這些數(shù)據(jù)從年齡在25 ~101 歲的健康受試者身上采集,且受試者在采集期間沒有服用任何藥物,其中包含腦電圖,眼電圖(EOG)和肌電圖(EMG)信號,且所有實驗數(shù)據(jù)均已通過倫理檢測。如圖1 所示,所有的EEG數(shù)據(jù)都是通過國際10-20 電極分布系統(tǒng)采集[7]。本次實驗采用的是圖1 所示的Fpz-Cz(Fpz:額極中線點;Cz:中央中線點)通道腦電信號。該數(shù)據(jù)庫中EEG信號的采樣頻率為100 Hz,所有的數(shù)據(jù)都已經(jīng)由專業(yè)人員根據(jù)R&K 分期標準進行了睡眠期標注。
圖1 國際10-20電極分布系統(tǒng)
圖2為Fpz-Cz 通道原始腦電信號波形圖。研究表明,F(xiàn)pz-Cz通道腦電信號,在睡眠分期中有著較好效果[8]。因此本次實驗從多個通道數(shù)據(jù)中選取Fpz-Cz導聯(lián)的單通道腦電信號進行后續(xù)研究。由于EEG信號采集過程中,會受到設備、肌肉活動和眼球活動等因素的影響,產(chǎn)生噪聲和偽跡。在本實驗中,使用0.5~30 Hz的帶通濾波器濾除干擾噪聲和偽跡。本實驗選取數(shù)據(jù)庫中16 個樣本,共計時長100 h 的睡眠數(shù)據(jù)。為更好地提取不同時期睡眠特征,將連續(xù)的EEG信號分為若干片段,長度30 s,無重疊,并對每個EEG片段進行分析處理。
圖2 Fpz-Cz通道原始腦電信號
本實驗算法主要包括數(shù)據(jù)預處理、特征提取、支持向量機分類3 部分。算法步驟說明如圖3 所示。在數(shù)據(jù)預處理階段將原始腦電數(shù)據(jù)分片,并提取每個片段的4 種節(jié)律波。在特征提取階段利用不同的特征提取算法提取特征參數(shù),并將特征參數(shù)復合作為特征向量。使用支持向量機實現(xiàn)睡眠自動分期。
圖3 睡眠分期識別算法步驟說明
數(shù)據(jù)預處理階段,對所獲取的腦電信號數(shù)據(jù)進行分片處理,將長時間的腦電信號分成小周期。在R&K分期標準的基礎上,實驗將睡眠周期劃分為4 個時期:清醒期(W),非快速眼動1 期(NREM12),非快速眼動2 期(NREM34),快速眼動期(REM)。不同時期的腦電信號最大區(qū)別在于所含的節(jié)律波成分和比例不同。國內外研究學者普遍認為EEG 信號主要由4 種節(jié)律波組成,即:δ 波(0.5 ~4 Hz)、θ 波(4 ~8 Hz)、α 波(8 ~13 Hz)和β波(14 ~30 Hz)[9]。根據(jù)4 種節(jié)律波所處的頻段不同,選擇帶通濾波器,將一個小周期的4種節(jié)律波提取出來。
本實驗采用時頻域分析方法提取腦電信號中的AR系數(shù)和能量特征,采用非線性動力學分析方法提取樣本熵和信源熵,并將4 個特征參數(shù)復合作為特征向量來區(qū)分不同睡眠階段。
2.2.1 AR系數(shù)
AR模型即自回歸模型,在時域可以表述為線性預測問題。在AR 模型中,給定信號的每個樣本x(1),x(2),…,x(n)可以用該信號的前p個樣本的線性加權和來預測:
式中:ai為AR 模型系數(shù);p為AR 模型階數(shù);ep(n)為前向預測誤差,即預測值與實際值的差值。與之相對應的反向預測誤差
用Levinson-Durbin遞推算法[10]可得:
式中:app為遞推過程中階次為p時AR 模型的第p個系數(shù);Ep為p階前向預測誤差和反向預測功率之和;kp=app為反射系數(shù);api為遞推過程中階次為p時AR 模型的第i個系數(shù)。
式(4)中Ep也可通過直接計算前向預測誤差和反向預測誤差功率和得到
式中,N為腦電信號長度。
進一步將式(3)中的ep(n)和bp(n)代入式(6),并,可得:
本實驗使用Burg法[11]對AR系數(shù)進行估計,主要步驟如下。
步驟1初始化,設AR 模型階數(shù)為p。p=0 時,前后向預測誤差e0(n)、b0(n)及前后向預測誤差之和E0可根據(jù)式求得:
步驟2當階數(shù)為1 即p=1 時,由于kp=app,所以可以根據(jù)式(7)計算反射系數(shù)k1。將k1和步驟1 中求得的E0帶入式(4)可求得E1。
步驟3將步驟2 中求得的k1,結合步驟1 中所得初始值e0(n)和b0(n)代入式(3)可求出e1(n)和b1(n)。
步驟4當階數(shù)為2 即p=2 時,與步驟2 一樣,可繼續(xù)利用式(7)和(4)計算出a22和E2,進一步代入式(5)計算出AR系數(shù)a21。
對p=2,3,…,重復步驟2 ~4,直至求出所有階次的AR系數(shù)。
AR模型的階數(shù)是AR模型構建中一個重要參數(shù)。選擇的階數(shù)過低,會導致擬合效果不好;階數(shù)過高,會增加計算量和計算復雜度。根據(jù)多次實驗,本次課題最終選取AR模型階數(shù)為27。
2.2.2 能量特征
腦電信號節(jié)律性明顯,各睡眠階段所含能量不同。因此選擇各節(jié)律波的能量Ei與總能量Etotal比值作為特征,用于區(qū)分不同睡眠階段。對于δ、θ、α 和β 這4種節(jié)律波,其能量特征
式中:p(ω)為腦電信號頻譜;bi和ai分別為第i類節(jié)律波頻域上下界。
總能量特征Etotal為4 種節(jié)律波能量特征之和
2.2.3 樣本熵
樣本熵算法[12]主要步驟如下:
步驟1腦電信號為時間長度為N的序列:u(1),u(2),…,u(N)。
步驟2將序列組成一個m維矢量Xm(i),Xm(2),…,Xm(N-m):
式中,i=1,2,…,N-m。
步驟3定義矢量間距離d[Xm(i),Xm(j)]為兩者相應元素的最大差值:
式中:k=0 ~m-1;i,j=1 ~N-m,i≠j。
步驟4給定閾值r(r>0),對于每一個i(i≤Nm),統(tǒng)計距離d[Xm(i),Xm(j)]小于閾值r的數(shù)目Nm(i)和此數(shù)目與距離總數(shù)N-m-1 的比值為
步驟5計算所有i的平均值,記為
步驟6增加維數(shù)為m+1,構造m+1 維矢量,重復步驟2 ~5,得到Bm+1(r)。由此可知,該段腦電信號的樣本熵為
在參數(shù)選取中,根據(jù)文獻[13]中相關研究,取N=3 000,m=2,r=0.2SD(SD 為實驗數(shù)據(jù)X(i)的標準差)。
2.2.4 信源熵
信源熵用于描述信號的不確定度,在概念上易于理解,且計算公式簡單,目前廣泛應用于生物醫(yī)學工程。
若腦電信號X的可能取值范圍R={x1,…,xn},xi的出現(xiàn)概率為p(xi),則信源熵
2.2.5 特征參數(shù)歸一化
對上述計算得出的4 種特征參數(shù)進行Z-score 歸一化處理,可以在一定程度上消除特征間尺度和單位差異影響,以改善支持向量機(Support Vector
Machine,SVM)的預測效果[14]。對參數(shù)進行歸一化處理:
所以,2019年的走向,如果看完市場所有的主流策略,投資者一定會覺得不知所措。為了更加精準的判斷市場拐點,經(jīng)過近二十年的經(jīng)驗教訓的總結,我們建立了“技道分析”的研究框架,即將賠率和勝率、趨勢與價值等維度相結合進行多因素分析,試圖找到符合A股市場運行規(guī)律的一套分析方法。下面僅以技道分析框架下的幾個維度來探討一下A股策略。
式中:μ為原始數(shù)據(jù)均值;δ 為原始數(shù)據(jù)標準差。經(jīng)過歸一化處理的數(shù)據(jù),均值為0,標準差為1。
特征參數(shù)提取完畢后,需要進行支持向量機分類。
SVM是一種常用的分類算法。支持向量機既可以處理線性分類問題,也可以處理非線性分類問題。當數(shù)據(jù)在原空間非線性可分時,SVM 通過核函數(shù)將數(shù)據(jù)映射到高維空間,在高維空間中構造出進行分類的超平面,將原空間上的非線性數(shù)據(jù)分開[15-16]。
本實驗選取徑向基核函數(shù)[17]作為核函數(shù)進行分類:
本實驗選取MIT-BIH 數(shù)據(jù)庫中16 個樣本,隨機提取相同數(shù)量的各階段睡眠時期片段。將數(shù)據(jù)中的8 000 個片段作為訓練集輸入SVM 分類器進行訓練,再將剩余4 000 個作為測試集(分10 組,每組100 個)對分類器進行測試,再將測試結果與人工專家分期結果進行對比。
表1、2 分別為基于AR系數(shù)和基于復合特征參數(shù)的訓練集測試結果,每行為該時期的識別結果。表中:AC為正確率;R為召回率(Recall);P為精度;F1分數(shù)(F1-score)為精度和召回率的調和平均數(shù);Kappa為檢驗一致性的Kappa 系數(shù)。由仿真結果可見,基于復合特征參數(shù)的方法無論是在W期,NREM12 期,NREM34期,還是REM 期,其識別正確率、召回率、精度和F1-score都要優(yōu)于基于AR 系數(shù)的方法?;趶秃咸卣鲄?shù)的方法總體正確率提高了4.69%,Kappa 系數(shù)提高了6.25%。
表3、4 分別為基于AR系數(shù)和基于復合特征參數(shù)的測試集分期結果,每行為該時期的識別結果。每個睡眠階段選用10 份100 個樣本進行測試,最終得出平均結果。復合特征參數(shù)的測試結果都要優(yōu)于基于AR系數(shù)的方法,其總體正確率提高了5.63%,Kappa系數(shù)提高了7.50%。
表1 基于AR系數(shù)的訓練集分期結果
表2 基于復合特征參數(shù)的訓練集分期結果
表3 基于AR系數(shù)的測試集分期結果
圖4為一個8 h樣本的自動分期結果與人工專家分期結果的對比圖。圖中橫坐標為睡眠片段數(shù)目,縱坐標為睡眠階段。由圖中可見,本文方法的分期結果,與人工專家分期結果吻合度較高。
表4 基于復合特征參數(shù)的測試集分期結果
圖4 人工分析與自動分析分期結果的對比
本文提出了一種結合能量特征,AR 系數(shù),樣本熵和信源熵的復合特征值睡眠分期算法,并通過Matlab軟件對所提出算法進行了仿真分析。仿真結果表明,與傳統(tǒng)方法相比,提出的方法具有更好的分類性能。通過該實驗,學生可以將信號處理、機器學習,Matlab編程等理論知識應用到解決實際生物醫(yī)療方面的問題,極大地培養(yǎng)了學生的動手能力和解決問題的能力。