蔡曉亞 張曉群
摘 ? 要:疾病的影響因素有很多,找到關(guān)鍵的影響因子對于前期疾病預(yù)測至關(guān)重要。文章數(shù)據(jù)來源是克利夫蘭基金診療所關(guān)于心臟病診斷的數(shù)據(jù),將樣本數(shù)據(jù)與知識經(jīng)驗的方法相結(jié)合,利用改進的PCA對診斷數(shù)據(jù)進行屬性約簡并計算主成分權(quán)重,最終提取出關(guān)鍵的影響因子。
關(guān)鍵詞:主成分權(quán)重;PCA法;影響因子
據(jù)2015年的中國疾病報告顯示,城鄉(xiāng)居民因心臟病疾病死亡人數(shù)居各種疾病死亡人數(shù)的首位[1],嚴重威脅著人們的生活。針對疾病的研究,國內(nèi)外的專家學(xué)者提出了確定疾病影響因子的概念。所以對疾病早發(fā)現(xiàn)、早診斷,將成為未來心臟病治療新方向[2]。
疾病的診斷中需要參考的指標項目目前已十分明朗,但是在運用計算機技術(shù)以及數(shù)學(xué)方法進行診斷時,屬性特征個數(shù)越多診斷越復(fù)雜。在研究疾病影響因子時,提高準確率是研究的首要問題,然而個體之間存在差異性[3],疾病誘發(fā)因子不盡相同,包括年齡、性別、吸煙情況等,這些疾病影響因子之間是相互聯(lián)系又相互制約的,所以篩選出最少的包含最多信息的因子至關(guān)重要。心臟病屬性約簡就是通過一定的方法從原始采集的多項生理特征集合中選擇最具代表性的部分屬性特征,由于屬性特征個數(shù)越多,越會影響最后結(jié)果的準確性,因此屬性約簡在保證數(shù)據(jù)不失真的前提下篩選掉部分冗余的特征信息來提高目標結(jié)果的準確性。文章利用主成分分析(Principal Component Analysis,PCA)[4]對特征集進行屬性約簡,并對主成分分析進行了改進,通過結(jié)合專家意見計算主成分權(quán)重,最終獲得約簡后的主要因子。
1 ? ?一次主成分分析
主成分分析方法是一種統(tǒng)計分析方法,該方法通過對數(shù)據(jù)進行簡化,使簡化的信息能夠以最少的信息量反應(yīng)未簡化之前的大部分信息。簡言之,PCA將分量相關(guān)的原始數(shù)據(jù)轉(zhuǎn)化成分量不相關(guān)的數(shù)據(jù),是以較少的綜合指標來代替原來具有一定相關(guān)性或相制約的較多的指標。使用PCA方法能使問題變得簡單,更易處理。
按照傳統(tǒng)PCA算法進行一次主成分分析,其主要步驟如下。
(1)構(gòu)造原始特征值矩陣。訓(xùn)練樣本集中共包含n個樣本數(shù)據(jù),其中,每個樣本數(shù)據(jù)中含有P個特征,構(gòu)成n×p的樣本矩陣X。
(2)對原始特征值做歸一化處理。本文將原始特征值進行Z-score標準化,即將樣本矩陣X經(jīng)過處理得到歸一化特征矩陣。
3 ? ?實驗結(jié)果與分析
本文實驗數(shù)據(jù)來自克利夫蘭基金診療所關(guān)于心臟病診斷的數(shù)據(jù)集,所下載的數(shù)據(jù)集中共包含303例樣例,每個樣例中包含年齡、性別、是否抽煙、血壓值、運動等75個生理特征指標。303例樣例中,患有心臟病為139例,另外164例為正常數(shù)據(jù)。按照特征數(shù)據(jù)信息的累積貢獻率≥85%原則,經(jīng)主成分第一次分析處理后,保留了9項生理特征。
這9項生理特征數(shù)據(jù)信息包括年齡C1,性別C2,胸部疼痛類型C3,靜息血壓C4,血清類固醇C5,空腹血糖是否超標C6,靜息心電圖結(jié)果C7,最大心率C8,鍛煉時是否引起心絞痛C9。
在經(jīng)過第一次的傳統(tǒng)主成分分析后,結(jié)合專家打分對9項生理特征進行二次主成分分析。咨詢5位專家分別對以上9個生理特征進行打分,分值從1到5,重要程度依次上升。專家打分情況如下所示:
5位專家對C1打分為:1,2,3,4,5;C2打分為:3,2,3,4,3;C3打分為:2,2,3,4,2;C4打分為:4,5,4,4,4;C5打分為:4,4,5,4,4;C6打分為:4,4,5,4,4;C7打分為:5,5,5,5,5;C8打分為:3,5,4,5,5;C9打分為:5,5,5,5,5。
對5位專家打分情況經(jīng)過二次分析即可得指標集{age,sex,cpt,rbs,chol,fbs,restecg,thalach,exang};對應(yīng)的權(quán)重集為{0.058 59,0.050 78,0.089 84,0.082 03,0.082 03,0.082 03,0.097 66,0.085 94,0.097 66}。
根據(jù)以上計算,取權(quán)重大于0.08以上指標作為最終約簡集。所以,最終對心臟病的影響因子包括:胸部疼痛類型、靜息血壓、血清類固醇、空腹血糖是否超標、靜息心電圖結(jié)果、最大心率、鍛煉時是否引起心絞痛。
4 ? ?結(jié)語
本文旨在利用醫(yī)療多類型數(shù)據(jù)分析心血管疾病的診斷因素,結(jié)合專家臨床經(jīng)驗改進的主成分分析方法,確定主成分,并利用專家打分計算了各個主成分所占的權(quán)重,最終確定影響心臟病的主要因子,對今后研究心臟病提供理論支持。
[參考文獻]
[1]陳偉偉,高潤霖,劉力生,等.《中國心血管病報告2015》概要[J].中國循環(huán)雜志,2016(6):521-528.
[2]ZHENG Y L,DING X R,POON C C Y,et al.Unobtrusive sensing and wearable devices for health informatics[J].IEEE Trans Bio-Med Eng,2014(5):1538-1554.
[3]周興虎.遼寧省農(nóng)村人群心血管疾病發(fā)病風(fēng)險預(yù)測和驗證研究[D].沈陽:中國醫(yī)科大學(xué),2014.
[4]童星慧.面向冠心病血檢數(shù)據(jù)的函數(shù)型主成分方法研究[D].安慶:安慶師范大學(xué),2016.