摘 要:對(duì)ECG信號(hào)建議了基于ARMA-APARCH模型的特征提取新方法。經(jīng)過(guò)對(duì)ECG信號(hào)進(jìn)行預(yù)處理后,采用神經(jīng)網(wǎng)絡(luò)分類(lèi)對(duì)MIT-BIH數(shù)據(jù)集的三種ECG信號(hào)進(jìn)行數(shù)據(jù)挖掘,統(tǒng)計(jì)表明基于ARMA-APARCH模型和神經(jīng)網(wǎng)絡(luò)分類(lèi)的心電識(shí)別精度較高。
關(guān)鍵詞:ARMA-APARCH模型;神經(jīng)網(wǎng)絡(luò)分類(lèi);特征提取;心電數(shù)據(jù)挖掘
中圖分類(lèi)號(hào):O212;TP18文獻(xiàn)標(biāo)識(shí)碼:A
ECG Mining based on ARMA-APARCH Model
and Neural Networks Classification
Li Qiong
Department of Electronic Information,Huishang Vocational College,P.R.China AnhuiHefei 231201
Abstract:The new method of feature extraction of ECG signal is proposed based on ARMA-APARCH model.The new feature extraction method is used to cluster analysis of three kinds of ECG signals of MIT-BIH after preprocessing the ECG signal.Statistics show that the accuracy of clustering after feature extraction based on ARMA-APARCH model.
Key words:ARMA-APARCH model;Neural Network classification;Feature extraction;ECG Mining
一、緒論
ECG信號(hào)蘊(yùn)含著富有價(jià)值的心臟和心室系統(tǒng)功能方面的信息,它是一種重要的醫(yī)學(xué)輔助診斷技術(shù)。ECG信號(hào)的重構(gòu)是診斷的主要過(guò)程,也是增強(qiáng)冠狀動(dòng)脈的主要任務(wù)。近些年來(lái),關(guān)于ECG信號(hào)的分類(lèi)涌現(xiàn)出許多方法。對(duì)于同一個(gè)病人來(lái)說(shuō),在一定程度上ECG波形可能會(huì)呈現(xiàn)出不同的圖形,但是不同類(lèi)型的心跳卻是相似的,由于數(shù)據(jù)量過(guò)大,評(píng)價(jià)冗長(zhǎng)且耗時(shí),一般完成一次ECG模式和心跳變化信號(hào)的診斷,要花費(fèi)幾個(gè)小時(shí)。因此,在臨床應(yīng)用中需借助計(jì)算機(jī)輔助系統(tǒng)設(shè)計(jì)完成診斷,其中,最常用的是采用人工神經(jīng)網(wǎng)絡(luò)技術(shù)。
MIT-BIH數(shù)據(jù)庫(kù)資料表明心血管疾病都伴隨著心室性早期收縮(PVC)。醫(yī)生需要從心電信號(hào)中找出心律失常的信號(hào),而如何從心電信號(hào)診斷出心率失常具有十分重要的意義。MIT-BIH標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)中主要有以下幾類(lèi)ECG信號(hào)分類(lèi)[2],具體為:正常竇性心律(NSR)、心室早期收縮(PVC)、室上性心動(dòng)過(guò)速(SVT)、心室性心動(dòng)過(guò)速(VT)、心房早期收縮(APC)和心室纖維性顫動(dòng)(VF)。
本文建議采用ARMA-APARCH模型先對(duì)ECG信號(hào)序列進(jìn)行了特征提取,為進(jìn)一步ECG信號(hào)聚類(lèi)和分類(lèi)做好準(zhǔn)備工作,利用提取的心電特征,再運(yùn)用神經(jīng)網(wǎng)絡(luò)方法進(jìn)行分類(lèi)。
二、ARMA-APARCH模型
Fernández,Osiewalski和Steel(1995)提出了一種分布的推廣方法,即在原有單峰分布中引入一個(gè)偏度參數(shù),使得對(duì)稱(chēng)分布轉(zhuǎn)變?yōu)橛衅植?,若單峰分布f·關(guān)于0對(duì)稱(chēng),且只含有一個(gè)變量,我們可以通過(guò)引入一個(gè)偏度參數(shù)λ∈0,SymboleB@,得到如下有偏分布族:
px|ξ=2ξ+1ξfxξI0,SymboleB@x+fξxI-SymboleB@,0x(1)
如果單峰分布取為標(biāo)準(zhǔn)化廣義誤差分布(或稱(chēng)為GED分布),其密度函數(shù)為:
f(x)=1λ·2-2/νΓ(1/ν)νexp-12xλν,-SymboleB@ 式中,λ=2-2/νΓ(1/ν)Γ(3/ν)1/2為分布的尾部參數(shù)和Γ(·)是伽瑪函數(shù)。ν可以反映分布尾部的厚薄程度。所謂分布的輕尾和重尾是相對(duì)于正態(tài)分布而言的,當(dāng)ν=2時(shí),GED分布退化為標(biāo)準(zhǔn)正態(tài)分布;當(dāng)ν>2時(shí),GED分布的尾部比正態(tài)分布要輕薄;當(dāng)ν<2時(shí),GED分布的尾部較厚重,由此可見(jiàn),GED分布是更具靈活性、概括性的一類(lèi)廣義分布,能較好地捕獲偏離正態(tài)分布的時(shí)間序列特征[5]。由公式(1)和(2)可得到廣義有偏GED分布(或稱(chēng)為SGED分布)的密度函數(shù)。 定義 稱(chēng)ECG信號(hào)序列Xt,t=0,±1,…服從基于SGED分布的ARMA-APARCH模型,如果Xt如果可表示為: Xt=μ+(1-θ1B-…-θqBq)εt1-φ1B-…-φpBp(3) εt=σtzt,zt~i.i.d.SGED(ν,ξ)(4) σ2t=ω+∑Qi=1αi|εt-i|-γiE|εt-i|2+∑Pj=1βjσ2t-j(5) 式中,φj(1SymbolcB@jSymbolcB@p)和θj(1SymbolcB@jSymbolcB@q)為實(shí)數(shù),B表示滯后算子,有BiXt=Xt-i,0<α0<1,αi0,-1<γi<1,i=1,2,…,P,βj>0,j=1,2,…,Q,且1<αSymbolcB@2。(3)式為ARMA模型,(4)式稱(chēng)為APARCH(P,Q)模型[3]。關(guān)于APARCH模型的應(yīng)用,武東和李瓊(2017)利用APARCH模型研究了高頻金融時(shí)間序列的風(fēng)險(xiǎn)度量[5]。 毛雪岷等(2012)和葛丁飛和李時(shí)輝(2004)利用ARMA(4,2)模型的系數(shù)作為ECG信號(hào)的特征指標(biāo),獲得了較好的聚類(lèi)效果,但聚類(lèi)和分類(lèi)精度不是太高[1-3]。鑒于此,為了更好地提取ECG信號(hào)的特征指標(biāo),將基于SGED分布的ARMA-APARCH模型得到的參數(shù)向量作為ECG信號(hào)的特征向量,令N=p+q+P+Q+3,則所有參數(shù)構(gòu)成的向量記為: πX=(φ1,…,φp,θ1,…θq,μ,α1,…,αP,β1,…,βQ,ν,ξ)T =(πX1,πX2,…,πXN)T。 三、心電信號(hào)的特征分析 現(xiàn)從MIT-BIH數(shù)據(jù)庫(kù)選取ECG信號(hào)數(shù)據(jù)作為研究對(duì)象,NSR信號(hào)取自“MIT-BIH Normal Sinus Rhythm Database”,PVC信號(hào)取自“MIT-BIH arrhythmia Database”,ST信號(hào)來(lái)自“MIT-BIH ST Change Database”,采樣頻率均為360Hz。NSR信號(hào)數(shù)據(jù)庫(kù)包括18個(gè)樣本,PVC信號(hào)數(shù)據(jù)庫(kù)包括47個(gè)樣本,ST信號(hào)數(shù)據(jù)包括28個(gè)樣本,我們僅選取病患者的XLII信號(hào)的作為研究對(duì)象,總共93個(gè)觀測(cè)樣本。 不同種類(lèi)的ECG信號(hào)有著不同的心跳率和RR周期。通常情況下NSR信號(hào),其心跳率為60~100次/分。而PVC的RR間期比NSR的RR間期短,本文采用3000個(gè)采樣點(diǎn)的數(shù)據(jù),已經(jīng)包括了幾個(gè)周期的ECG信號(hào)信息。 在MIT-BIH數(shù)據(jù)庫(kù)信號(hào)數(shù)據(jù)中,最高信號(hào)量是MLII,其由電極放入胸部獲得的。正常的QRS信號(hào)在最高信號(hào)通常有峰態(tài)。因此正常的振動(dòng)很難在最低信號(hào)中發(fā)現(xiàn),而異常振動(dòng)將經(jīng)常變的有峰態(tài)。在診所診斷時(shí),心律失常探測(cè)器應(yīng)該處理這些情況。 本文采用了ARMA(4,2)模型對(duì)ECG信號(hào)序列進(jìn)行了擬合,再利用修正殘差CUSUM檢驗(yàn)(Modified residual CUSUM test)對(duì)擬合后殘差序列進(jìn)行異方差檢驗(yàn)P[6]P。對(duì)ECG信號(hào)擬合ARMA模型后的殘差序列進(jìn)行拉格朗日乘子檢驗(yàn)的結(jié)果表明,正常竇性心律(NSR)和心室性早期收縮(PVC)的MLII信號(hào)的擬合ARMA模型后的殘差序列均具有ARCH效應(yīng)。說(shuō)明ECG信號(hào)可采用ARMA-APARCH模型對(duì)ECG擬合并進(jìn)行特征提取。 四、心電信號(hào)的特征提取與分類(lèi)研究 ECG信號(hào)的特征提取方法較多,主要有小波分析、ARMA模型等,本文提出了基于SGED分布的ARMA-APARCH模型的ECG信號(hào)特征提取的新方法。選取93個(gè)測(cè)試樣本的MLII信號(hào)序列作為研究對(duì)象。為了計(jì)算方便,模型的階數(shù)取為p=4,q=2,P=Q=1,即基于SGED分布的ARMA(4,2)-APARCH(1,1)模型,將ECG的XLII信號(hào)序列擬合后模型參數(shù)作為各自樣本的特征指標(biāo),這樣每個(gè)樣品共含有12個(gè)指標(biāo)。將模型的參數(shù)作為特征指標(biāo),結(jié)合神經(jīng)網(wǎng)絡(luò)方法對(duì)93個(gè)樣品進(jìn)行回判,所有樣品的回判都是正確的。為了進(jìn)一步研究ARMA-APARCH模型和神經(jīng)網(wǎng)絡(luò)組合方法的優(yōu)越性,下面將神經(jīng)網(wǎng)絡(luò)分類(lèi)方法與支持向量機(jī)分類(lèi)、隨機(jī)森林分類(lèi)和Bagging分類(lèi)進(jìn)行比較。主要采用交叉驗(yàn)證法[7]對(duì)三種類(lèi)型ECG信號(hào)進(jìn)行交叉驗(yàn)證,利用ARMA-APARCH模型進(jìn)行ECG信號(hào)的特征提取,再分別運(yùn)用神經(jīng)網(wǎng)絡(luò)分類(lèi)、支持向量機(jī)分類(lèi)、隨機(jī)森林分類(lèi)和Bagging分類(lèi)判別歸類(lèi),神經(jīng)網(wǎng)絡(luò)分類(lèi)法相對(duì)較優(yōu),表明利用ARMA-APARCH模型和神經(jīng)網(wǎng)絡(luò)組合方法在對(duì)ECG信號(hào)的特征提取和分類(lèi)更為準(zhǔn)確。 參考文獻(xiàn): [1]毛雪岷,張婷婷,蔡傳晰,李瓊.基于ARMA模型的心電聚類(lèi)算法[J].中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào),2012,31(6):816-821. [2]葛丁飛,李時(shí)輝.基于ARMA模型的ECG分類(lèi)和壓縮[J].浙江科技學(xué)院學(xué)報(bào),2004,16(1):7-13. [3]章潔,武東.基于機(jī)器學(xué)習(xí)方法的心電信號(hào)分類(lèi)研究[J].科技風(fēng),2019(19):100-102. [4]Ding Zhuanxin,Granger,C.W.J.,Engle,R.E.,A long memory property of stock market returns and a new model,Jornal of Empirical Finance[J].1993,1:83-106. [5]武東,李瓊.利率調(diào)整下調(diào)頻金融時(shí)間序列的風(fēng)險(xiǎn)度量[J].商學(xué)研究,2017,4(3):102-104. [6]Haejune Oh,Sangyeol Lee,Modified residual CUSUM test for location-scale time series models with heteroscedasticity[J].Annals of the Institute of Statistical Mathematics[J].2019,71(5):1059-109. [7]吳喜之.應(yīng)用回歸及分類(lèi)[M].北京:中國(guó)人民大學(xué)出版社,2016. 基金項(xiàng)目:安徽省高校優(yōu)秀青年人才支持計(jì)劃(gxyq 2019254);安徽省質(zhì)量工程項(xiàng)目(2019xqsxzx84);校質(zhì)量工程項(xiàng)目(yj2019jx10);安徽省自然科學(xué)重點(diǎn)項(xiàng)目(KJ2017A892) 作者簡(jiǎn)介:李瓊(1983— ),女,漢族,安徽宣城人,碩士研究生,講師,副教授,研究方向:數(shù)據(jù)挖掘。