韋 哲 呂克難 王能才
基于K-means聚類分析算法的2型糖尿病動態(tài)血糖監(jiān)測數(shù)據(jù)分析
韋 哲①②呂克難①②王能才①
目的:探討分析基于K-means聚類分析算法的2型糖尿病動態(tài)血糖監(jiān)測數(shù)據(jù),以解決動態(tài)血糖測量儀所測數(shù)據(jù)中的噪聲和干擾信號問題,得到適用于灰色關(guān)聯(lián)度分析法的實驗數(shù)據(jù)。方法:引入K-means聚類分析算法處理和分析由動態(tài)血糖儀測得的糖尿病患者60 min血糖值的數(shù)據(jù),去除誤差較大的數(shù)據(jù)點,使平均數(shù)值更加可靠。結(jié)果:K-means聚類分析算法對生成所需的、無干擾地對患者60 min內(nèi)間隔5 min的血糖值實驗數(shù)據(jù)進(jìn)行處理,并與采用K-means分析算法處理之前的數(shù)據(jù)進(jìn)行對比。結(jié)論:K-means聚類分析法能夠有效去除干擾和噪聲信號,獲得高質(zhì)量的實驗數(shù)據(jù),有利于對動態(tài)血糖監(jiān)測數(shù)據(jù)進(jìn)行處理和分析。
血糖監(jiān)測;數(shù)據(jù)處理;K-means聚類分析;灰色關(guān)聯(lián)度分析法
[First-author’s address] 1.Department of Information, Lanzhou General Hospital, Lanzhou Military Area Command, Lanzhou 730050, China. 2.School of Electrical Engineering and Information Engineering, Lanzhou University of Technology, Lanzhou 730050, China.
糖尿病是由胰島素分泌缺陷和(或)胰島素作用缺陷所引起的,并以慢性高血糖伴碳水化合物、脂肪和蛋白質(zhì)的代謝障礙為特征的慢性疾病[1-2]。2型糖尿病(Type 2 diabetes mellitus,T2DM)又稱為非胰島素依賴型糖尿病,而非胰島素依賴型糖尿病的發(fā)病機(jī)制主要是由于人體的胰島素抵抗及胰島素分泌不足所導(dǎo)致,且T2DM患者自身的β細(xì)胞并無自身免疫性缺陷,其發(fā)病特點是成年發(fā)病,起病比較緩慢,病情也較輕,比例占到全部糖尿病人數(shù)的多數(shù)[3]。目前,控制糖尿病病情最為有效和常見的治療方案之一是注射胰島素,但不論是健康人還是糖尿病患者血糖數(shù)據(jù)均具有不穩(wěn)定性和波動性,如果患者對注射胰島素的時間和注射量把握不準(zhǔn)確,則會導(dǎo)致低血糖或高血糖,并可對糖尿病患者的身體造成極大的傷害,因此對糖尿病患者血糖的準(zhǔn)確預(yù)測具有重要的研究意義[4]。
目前,測量血糖的方法多數(shù)采用化學(xué)方法,而該測量方法易受溫度的影響,且測量者的運(yùn)動會對測量結(jié)果產(chǎn)生影響,但目前還尚無一種能夠?qū)ρ菧y量數(shù)據(jù)進(jìn)行準(zhǔn)確聚類分析的方法?;诖?,本研究提出基于K-means平均聚類分析方法,可以對血糖測量數(shù)據(jù)進(jìn)行聚類,從而剔除掉有明顯誤差的數(shù)據(jù)點,使得計算的數(shù)據(jù)結(jié)果更加準(zhǔn)確,為后續(xù)的灰色關(guān)聯(lián)度分析算法打下良好的基礎(chǔ)[5]。
1.1K-means算法概述
K-means算法是采用距離作為相似性評介指標(biāo)的聚類算法,如果兩個對象的距離越近,其相似度就越大[6-7]。K-means聚類算法認(rèn)為簇是由距離靠近的對象所構(gòu)成,因此將得到緊湊且獨立的簇作為最終目標(biāo)[8]。K-means聚類算法具有計算快速、簡單且其時間復(fù)雜度近于線性等諸多優(yōu)點,適合大規(guī)模數(shù)據(jù)集的挖掘[9]。
1.2K-means聚類算法
(1)隨機(jī)選取k個聚類質(zhì)心點為μ1,μ2,…,μκ,E Rn。
(2)重復(fù)下述過程直到收斂,對于每個樣例,計算其應(yīng)該屬于的類為公式1:
對于每一類j,重新計算該類的質(zhì)心為公式2:
式中k為事先給定的聚類數(shù);C(i)為樣例i與k個類中距離最近的一類;C(i)為該值1到k中的一個;μj為質(zhì)心,代表對屬于同一類其他樣本中心點的估測[10-15]。
動態(tài)血糖儀Minimed皮下埋入式動態(tài)血糖檢測系統(tǒng)是一種基于化學(xué)試劑葡萄糖分子化學(xué)反應(yīng)的有創(chuàng)型人體血糖動態(tài)檢測系統(tǒng),該系統(tǒng)價格昂貴,通常為大型醫(yī)院所配備。而對于患有T2DM的患者,注射胰島素降低血糖是最有效的治療糖尿病的方法,但這種方法必須在醫(yī)生的指導(dǎo)下,先對血糖進(jìn)行檢測才能進(jìn)行,否則會引發(fā)嚴(yán)重的不良反應(yīng)[16-19]。因此,本研究采用SPSS Clemenine專業(yè)數(shù)據(jù)挖掘應(yīng)用工具(美國,SPSS公司)對動態(tài)血糖儀數(shù)據(jù)聚類分析。
2.1聚類分析數(shù)據(jù)資料
本研究選用原蘭州軍區(qū)蘭州總醫(yī)院T2DM患者的皮下組織葡萄糖檢測數(shù)據(jù)資料。數(shù)據(jù)以每日96個檢測點,其中包括早餐前(A)、早餐后(B)、中餐前(C)、中餐后(D)、晚餐前(E)、晚餐后(F)、睡前(G)及夜間(H)60 min內(nèi)每間隔5 min所檢測得到的血糖值,見表1。
表1顯示,患者早餐前(A行)有3個明顯的測量錯誤數(shù)據(jù)點,如數(shù)據(jù)7.8、3.7和8.4,而采用聚類的方法可以將正確數(shù)據(jù)分為聚類1,并且將錯誤的數(shù)據(jù)點分別歸為聚類2和聚類3。
2.2K簇平均算法建模
Clemenine能夠直接進(jìn)行K平均簇算法進(jìn)行建模,并通過數(shù)據(jù)流導(dǎo)入進(jìn)行數(shù)據(jù)分析。
(1)設(shè)置數(shù)據(jù)庫來源。在工作區(qū)中加入“數(shù)據(jù)源”選項中的“表格”類型的節(jié)點,在節(jié)點中導(dǎo)入輸入數(shù)據(jù),即動態(tài)血糖儀采集到的原始數(shù)據(jù)表格,并對數(shù)據(jù)類型進(jìn)行設(shè)置,選擇“范圍”,讀取數(shù)值并確定,如圖1所示。
圖1 K平均算法數(shù)據(jù)流和設(shè)置類型節(jié)點界面圖
(2)設(shè)置建模節(jié)點。在“建模”選項欄中選擇K-mean節(jié)點,添加到工作區(qū)中,并將“類型”節(jié)點和“K-means”節(jié)點連接,再對“K-means”節(jié)點進(jìn)行參數(shù)設(shè)置。預(yù)設(shè)置“聚類數(shù)”為3,并選擇是否輸出其他結(jié)果,如圖2所示。
表1 患者96個血糖值數(shù)據(jù)點(mmol/L)
表2 K平均算法處理后患者某日血糖值的部分?jǐn)?shù)據(jù)(mmol/L)
圖2 數(shù)據(jù)流和設(shè)置建模節(jié)點界面圖
在輸出結(jié)果中顯示出Clementine工具對動態(tài)血糖儀原始數(shù)據(jù)進(jìn)行了有效聚類分析,按照3個聚類數(shù)的要求進(jìn)行分類處理,見表2。
表2顯示,利用K-means算法對表1的數(shù)據(jù)進(jìn)行聚類處理后,將每個時間段的數(shù)據(jù)分成3類,有助于去除誤差較大的數(shù)據(jù)點,得到更加精確的均值結(jié)果。
血糖測量數(shù)據(jù)會由于客觀或主觀的原因產(chǎn)生誤差,如果不對這些誤差進(jìn)行處理,會增大均值的誤差,采用瞬時值則不準(zhǔn)確,導(dǎo)致對患者的健康及治療產(chǎn)生很大的影響。而本研究使用K-means算法對糖尿病患者一日的測量節(jié)點數(shù)據(jù)進(jìn)行了聚類處理,將每個時間段的數(shù)據(jù)分成三類,并且去除了誤差較大的數(shù)據(jù)點,使平均值數(shù)據(jù)更加準(zhǔn)確可靠。同時,為提高灰色關(guān)聯(lián)度分析算法的精度打下堅實的基礎(chǔ)。
[1]李武成,王官權(quán),金科.2型糖尿病并發(fā)高血壓的危險因素分析[J].實用醫(yī)學(xué)雜志,2010,26(17):3180-3181.
[2]Güler I,übeyli ED.Diabetes diagnosis by multilayer perceptron neural networks[J].Journal of the Faculty of Engineering and Architecture of Gazi University,2006,21(2):319-326.
[3]嵇加佳,劉林,樓青青,等.2型糖尿病患者自我管理行為及血糖控制現(xiàn)狀的研究[J].中華護(hù)理雜志,2014,49(5):617-620.
[4]Garcia-Compean D,Jaquez-Quintana JO,Gonzalez-Gonzalez JA,et al.Liver cirrhosis and diabetes:risk factors,pathophysiology,clinical implications and management[J].World Gastroen terol,2009,15(3):280-288.
[5]Jothi R,Mohanty SK,Ojha A.On Careful Selection of Initial Centers for K-means Algorithm[M]. Proceedings of 3rd International Conference on Advanced Computing,Networking and Informatics,2011.
[6]Wild S,Roglic G,Green A,et al.Global prevalence of diabetes-Estimates for the year 2000 and projections for 2030[J].Diabetes Care,2004,27(5):1047-1053.
[7]Qin J,F(xiàn)u W,Gao H,et al.Distributed k-Means Algorithm and Fuzzy c-Means Algorithm for Sensor Networks Based on Multiagent Consensus Theory[C].IEEE International Conference on Industrial Technology,2016,5(3):1-12.
[8]Zhao D,Liu X.A Genetic K-means Membrane Algorithm for Multi-relational Data Clustering[M].Human Centered Computing Springer International Publishing,2013.
[9]García MLL,García-Ródenas R,Gómez AG.K -means algorithms for functional data[J].Neuro computing,2015,15(1):231-245.
[10]Capó,Marco.An efficient approximation to the K-means clustering for massive data[J]. Knowledge-Based Systems,2016,5(3):122-123.
[11]Bandyapadhyay S,Varadarajan K.On Variantsof k-means Clustering[J].Computer Science,2015,9(1):1-14.
[12]Abdallah L,Shimshoni I.K-Means over Incomplete Datasets Using Mean Euclidean Distance[J].Machine Learning and Data Mining in Pattern Recognition.Springer International Publishing,2016,3(11):113-127.
[13]Li JT,Liu YH,Hao Y.The improvement and application of a K-means clustering algorithm[C].IEEE International Conference on Cloud Computing and Big Data Analysis.IEEE,2016,3(10):93-96.
[14]Peura RA.Blood glucose sensors:an overview[J]. IEEE,2014,5(2):63-68.
[15]Qi L,Yuan J.Development of the Portable Blood Glucose Meter for Self-monitoring of Blood Glucose[C].Engineering in Medicine and Biology Society,2005.Ieee-Embs 2005.International Conference of the.IEEE,2006,3(5):45-47.
[16]張建輝.K-means聚類算法研究及應(yīng)用[J].武漢理工大學(xué)學(xué)報,2014,3(4):17-22.
[17]周世兵,徐振源.K-means算法最佳聚類數(shù)確定方法[J].計算機(jī)應(yīng)用,2010,7(8):10-11.
[18]吳夙慧,成穎.K-means算法研究綜述[J].現(xiàn)代圖書情報技術(shù),2011,6(5):23-25.
[19]王千,王成.K-means聚類算法研究綜述[J].電子設(shè)計工程,2012,4(7):19-22.
Analysis for monitoring data of type 2 diabetes mellitus based on K-means algorithm
WEI Zhe, LV Ke-nan, WANG Neng-cai// China Medical Equipment,2016,13(11):13-16.
Objective: To analyze the monitoring data of type 2 diabetes mellitus based on K-means algorithm to avoid noise and interference signals in glycemic measurement and get experimental data applicable to Gray Relational Method. Methods: We use the data of a patient who named Mr. Li from the information department of one tertiary referral hospital in Lanzhou which includes course note of disease and his health record. And we use K-means algorithm to process and analyze his glycemic data in 60 minutes to remove error data point. Results: We can get Mr. Li’s necessary and undisturbed experimental data in 60 minutes. Conclusion: K-means algorithm holds a higher efficiency in removing noise and interference signals to obtain highquality experimental data, in order to process and analyze.
Blood glucose monitoring; Data processing; K-means analysis; Gray relational method
韋哲,男,(1963- ),博士,高級工程師。蘭州軍區(qū)蘭州總醫(yī)院信息科,從事醫(yī)療儀器及醫(yī)療信息系統(tǒng)的研究及教學(xué)工作。
1672-8270(2016)11-0013-04
R587.1
A
10.3969/J.ISSN.1672-8270.2016.11.005
①蘭州軍區(qū)蘭州總醫(yī)院信息科 甘肅 蘭州 730050
②蘭州理工大學(xué)電信學(xué)院 甘肅 蘭州 730050
2016-05-18