摘? 要:通過利用加州大學(xué)歐文分校數(shù)據(jù)庫的心臟病數(shù)據(jù)集,通過建立logistic模型和決策樹模型分析確診心臟病的危險因素。采用ROC曲線和AUC面積作為標(biāo)準(zhǔn)來評價模型預(yù)測效果,結(jié)果顯示兩種模型對于數(shù)據(jù)的擬合都表現(xiàn)不錯。與此同時兩種模型顯示胸痛類型、靜息血壓、熒光染色法測定的主要血管數(shù)和是否患地中海貧血癥對于最終是否確診心臟病有顯著影響。
關(guān)鍵詞:邏輯回歸;決策樹;logistic模型
中圖分類號:TP391;O212.1? ? 文獻標(biāo)識碼:A? 文章編號:2096-4706(2023)07-0117-04
Abstract: By using the heart disease data set of the University of California Irvine database, the risk factors of diagnostic heart disease are analyzed by establishing the Logistic Regression model and Decision Tree model. The ROC curve and AUC area are used as criteria to evaluate the prediction effect of the model. The results show that the two models perform well in fitting the data. At the same time, the two models show that the type of chest pain, resting blood pressure, the number of main blood vessels measured by fluorescent staining and whether or not suffering from thalassemia has a significant impact on whether the final diagnosis of heart disease occurs.
Keywords: Logistic Regression; Decision Tree; logistic model
0? 引? 言
心臟病是由于心臟發(fā)生病變的而引起的心臟功能受損或異常的一種疾病,心臟病輕則影響各器官功能異?;蛏眢w的相關(guān)疾病,重則出現(xiàn)心臟性猝死危及生命,因此對心臟病的診斷則顯得至關(guān)重要[1]。傳統(tǒng)的對于心臟病的診斷主要是心電圖和彩超兩種方式,王敏紅和尹巧綿[2]追蹤了2006年—2009年首都醫(yī)科大學(xué)附屬兒童醫(yī)院2016孕婦的彩色多普勒超聲心動圖和新生兒先天性心臟病的情況,發(fā)現(xiàn)彩色多普勒超聲心動圖對于先天性兒童心臟病能起到早期診斷的效果。陳井英[3]采用同樣的技術(shù)彩色多普勒超聲心動圖與心電圖檢查進行比較,對比得到彩色多普勒超聲心動圖對于診斷心臟病比心電圖更有效。相比于傳統(tǒng)法式,謝金華和陳冠民[4]用Logistic回歸模型對糖尿病并發(fā)心臟病的危險因素進行分析,結(jié)果顯示體重指數(shù)大、心理評分較高、舒張壓高及血脂高,其發(fā)生心臟病的風(fēng)險增加。程穎等[5]利用PCA的決策樹算法對心臟病診斷進行了研究。在此基礎(chǔ)上,文章利用常規(guī)的身體檢查例如血清膽汁和空腹血糖等建立Logistic回歸模型與決策樹模型,分析確診心臟病的危險因素。
1? 資料與方法
1.1? 資料來源
心臟作為人體最重要的器官之一,對于心臟的檢查必須慎之又慎,醫(yī)生的工作便是根據(jù)
檢查的結(jié)果作出正確的醫(yī)學(xué)判斷并給出相應(yīng)的治療方案。文章是引用加州大學(xué)歐文分校數(shù)據(jù)庫的心臟病數(shù)據(jù)集,通過對數(shù)據(jù)清洗與整理后得到了303個樣本,每個樣本包括13個相對應(yīng)的變量。
1.2? 資料處理
在獲得的303個疑似心臟病患者的檢測樣本中,由于有6個樣本中存在缺失數(shù)據(jù)[6],可以先進行刪除,確診心臟病的有137例,占總?cè)藬?shù)的46.13%;未患病的有160例,占總?cè)藬?shù)的53.87%。在每個樣本中已經(jīng)對每個疑似心臟病患者進行了13項統(tǒng)計和檢測,其中包括:年齡、性別、胸痛類型、靜息血壓、血清膽汁、空腹血糖、靜息心電圖結(jié)果、達到的最大心率、是否有運動心絞痛、運動引起的ST下降、峰值運動ST段的斜率、熒光染色法測定的主血管數(shù)以及是否患有地中海貧血癥。
1.3? 研究方法
事實上預(yù)測是否患心臟病的方法有很多,但預(yù)測的結(jié)果有時與真實情況卻是大相徑庭,這事關(guān)患者能否得到及時的醫(yī)治甚至事關(guān)患者生命,故作出正確的預(yù)測或者判斷對于患者至關(guān)重要。本研究通過采用Logistic回歸和決策樹[7-9]兩種方法對上述取得的資料中的樣本進行對應(yīng)的處理,通過兩種模型擬合得到的結(jié)果進行比對分析,比較兩種模型的擬合效果等,進而得到確診心臟病的主要影響因素。其次對于Logistic模型和決策樹模型的擬合分析選用的輔助軟件為R軟件。
2? 邏輯回歸(Logistic Regression)
2.1? 模型概述
邏輯回歸屬于概率型回歸模型,屬于廣義線性模型的一種,被廣泛的用于概率預(yù)測與分類[10,11],主要用于二分類問題或多分類問題與一組解釋變量之間的關(guān)系,在解釋變量中,解釋變量可以是二分類變量或者多分類變量,也可以是連續(xù)變量或者離散變量。在本模型當(dāng)中就是通過13項體檢結(jié)果對病人是否患有心臟病這一二分類問題進行估計。
式中的Y表示被解釋變量,具體在Logistic回歸模型中表示是否確診心臟病,X表示解釋變量,在模型中具體表現(xiàn)為對是否患有心臟病的影響因素,例如是否患地中海貧血癥或者靜息血糖等,β為待估計的參數(shù),它的大小和符號表征影響因素對于被解釋變量的貢獻程度以及作用方向。
2.2? 變量賦值
在所選取的變量中,既包括年齡和心率等連續(xù)型的變量,也包括是否罹患地中海貧血癥和峰值運動ST段的斜率等離散型變量,因此需針對模型中所涉及的相關(guān)變量進行賦值,具體賦值情況如表1所示。
2.3? 重要變量解釋
血清膽汁:血清膽汁為人體膽汁中的重要組成部分,是膽固醇經(jīng)肝組織代謝的最終產(chǎn)物,測定血清膽汁對于肝臟疾病的診斷有重要作用。
峰值運動ST段的斜率:指心電圖結(jié)果中的一段特殊階段的變化情況,一般心電圖ST段變化都預(yù)示著心臟部位存在一定的問題,常見的有ST段斜率為上坡、平緩和下坡三種情況,而上坡常見于急性心肌梗死和心肌缺血的患者,下坡常見于穩(wěn)定心絞痛患者。
地中海貧血:地中海貧血又稱珠蛋白生成障礙性貧血,是一種遺傳性的血液疾病,大體上可以分為正常、可逆缺陷與固定缺陷三種類型?;嫉刂泻X氀獣绊懷t蛋白的正常合成,并發(fā)后會伴隨著典型的一些貧血癥狀,例如頭暈、乏力、胸悶、氣短和氣促等,患者由于溶血會間接引起膽紅素升高,就會出現(xiàn)黃疸等一些臨床表現(xiàn)。
2.4? 因變量統(tǒng)計
對因變量即數(shù)據(jù)中心心臟病確診的相關(guān)情況進行了簡單的描述性統(tǒng)計分析,具體分析情況如表2所示。
2.5? Logistics回歸結(jié)果
通過將13個影響心臟病判定的因素納入自變量,然后進行二項Logistics回歸,回歸結(jié)果整理后如表3所示,表3給出了參數(shù)β的估計值,以及β對應(yīng)自變量的均方誤差,除此之外還給出了p值和OR值,其中當(dāng)p<0.05時我們認為該影響是顯著的(注:由于篇幅原因僅將顯著的變量歸納于表3中),OR值為某一事件發(fā)生的概率與不發(fā)生概率的比值,在本文中表現(xiàn)為在某一自變量下確診心臟病與未確診心臟病的比值,最后在給出OR值的同時還給出了OR值在置信度為95%下的置信區(qū)間。
2.6? Logistics回歸結(jié)果解讀
由表3的回歸結(jié)果可知:性別、胸痛類型、是否患有地中海貧血癥、熒光染色法測定的主血管數(shù)、峰值運動ST段的斜率和靜息血壓對于最終確診心臟病有統(tǒng)計學(xué)意義(p<0.05),是最終確診心臟病的危險因素。相反年齡、血清膽汁、空腹血糖是否>120 mg/dl、靜息心電圖結(jié)果、達到的最大心率、運動誘發(fā)心絞疼和運動引起的ST下降對于最終是否確診心臟病無顯著影響(p<0.05),不是最終確診心臟病的危險因素。
根據(jù)Logistic回歸的結(jié)果顯示性別對于最終確診心臟病有顯著影響,即男性確診心臟病相較于女性更容易確診心臟病,這可能與男性和女性不同的生活方式有關(guān),例如男性抽煙酗酒的比例遠大于女性等;根據(jù)回歸系數(shù)的正負可得到,胸痛類型為1(典型心絞痛)、2(非典型心絞痛)和3(非心絞痛)時,對于確診心臟病作用方向為負,即有上述癥狀反而不易確診心臟??;此外靜息血壓、峰值運動ST段的斜率為平緩、熒光染色法測定的主血管數(shù)和有可逆性的地中海貧血癥對于確診心臟病有正向的作用,即有上述癥狀會在不同程度的影響最終心臟病的確診。
以Logistic回歸模型的預(yù)測值為狀態(tài)變量作出的ROC曲線如圖1所示,曲線顯示在截斷值為0.296時,Logistic回歸的特異度達到了0.863,靈敏度為0.825,決策樹模型的ROC曲線下面積為0.866,說明在Logistic回歸模型對于本文中所用的心臟病數(shù)據(jù)具有非常不錯的預(yù)測效果,對于后續(xù)用于相關(guān)病例數(shù)據(jù)的預(yù)測具有指導(dǎo)意義。
3? 決策樹模型
3.1? 決策樹模型介紹
決策樹模型最早由Hunt等人于1966年提出的一種既可用于分類又可用于回歸的一種監(jiān)督機器學(xué)習(xí)方法,決策樹模型相對于其他模型的原理更容易理解且建模時容易實現(xiàn),并且能夠在短時間內(nèi)對大數(shù)據(jù)進行很準(zhǔn)確的分析與預(yù)測。
3.2? 建立決策樹模型
利用相關(guān)數(shù)據(jù)和建模規(guī)則構(gòu)建的確診心臟病風(fēng)險預(yù)測圖如圖2所示。
該樹形圖總計有4層,共13個節(jié)點,7個終端節(jié)點。根據(jù)決策樹模型可知地中海貧血癥、胸痛類型、熒光染色法測定的主血管數(shù)、靜息血壓和運動引起的ST下降是影響最終是否確診心臟病的重要影響因素。
3.3? 決策樹模型解讀
1)當(dāng)胸痛類型<1(即為無癥狀),熒光染色法測定的主血管數(shù)≥1時確診心臟病的概率達到了95%。
2)當(dāng)胸痛類型<1(即為無癥狀),熒光染色法測定的主血管數(shù)<1,運動引起的ST下降≥1.6時,確診心臟病的概率達到了88%。
3)當(dāng)胸痛類型<1(即為無癥狀),熒光染色法測定的主血管數(shù)<1,運動引起的ST下降<1.6,靜息血壓≥141時,確診心臟病的概率為71%。
4)當(dāng)胸痛類型≥1(即為典型心絞痛、非典型心絞痛和非心絞痛),地中海貧血癥檢查顯示為可逆缺陷,峰值運動ST段的斜率為2和3(即為平或下坡)時,確診心臟病概率達到63%。
決策樹模型的ROC曲線如圖3所示,曲線顯示在以0.562為截斷值時,決策樹模型的特異度為0.925,靈敏度為0.759,決策樹模型的ROC曲線下面積為0.883,具有很好的預(yù)測效果,能夠很好的對于后續(xù)心臟病診斷提供有別于Logistic回歸的另外一種估計方法,也可兩種方法同時使用,提高預(yù)測結(jié)果的可信度。
4? 結(jié)? 論
文章利用Logistic回歸和決策樹兩種不同的模型對影響心臟病的13個變量進行建模分析,兩種模型都顯示是否患地中海貧血癥、胸痛的類型、熒光染色法測定的主血管數(shù)和靜息血壓是心臟病確診的危險因素。根據(jù)兩種模型的ROC曲線下面積可知,兩種模型對于心臟病的預(yù)測都有不錯的表現(xiàn),這對于臨床上患者心臟病的診斷有十分重要的指導(dǎo)意義。最后在基于兩種模型預(yù)測的基礎(chǔ)上若能結(jié)合心電圖和彩色多普勒超聲心動圖對病情進行進一步分析,相信能為醫(yī)生和患者爭取到寶貴的時間挽救病人的生命。
參考文獻:
[1] BARKHUIZEN M,ABELLA R,VLES J S H,et al. Antenatal and Perioperative Mechanisms of Global Neurological Injury in Congenital Heart Disease [J].Pediatr Cardiol,2021,42(1):1-18.
[2] 王敏紅,尹巧綿,孫艷麗,等.胎兒及新生兒先天性心臟病的篩查經(jīng)隨訪后的確診和結(jié)局 [J].中國醫(yī)刊,2012,47(12):72-74.
[3] 陳井英.心臟彩色多普勒超聲在高血壓心臟病診斷工作中的應(yīng)用分析 [J].中國實用醫(yī)藥,2022,17(16):103-105.
[4] 謝金華,陳冠民,陳華.Ⅱ型糖尿病并發(fā)心臟病危險因素的logistic回歸分析 [J].醫(yī)學(xué)新知雜志,1999(3):124-125+148.
[5] 程穎,崔運濤.基于PCA的決策樹算法在心臟病診斷中的應(yīng)用 [J].計算機與數(shù)字工程,2009,37(10):171-174.
[6] 曹雨,王峰,黃沃,等. 應(yīng)用統(tǒng)計學(xué) [M]. 北京:人民郵電出版社,2013:246.
[7] 任海燕,梁雨,左彭湘.基于logistic回歸與決策樹模型的母乳喂養(yǎng)影響因素分析 [J].中國衛(wèi)生統(tǒng)計,2019,36(4):532-534.
[8] 劉兵,李蘋,朱玫燁,等.決策樹模型與logistic回歸模型在胃癌高危人群干預(yù)效果影響因素分析中的應(yīng)用 [J].中國衛(wèi)生統(tǒng)計,2018,35(1):70-73.
[9] AMINI P,AHMADINIA H,POOROLAJAL J,et al. Evaluating the high risk groups for suicide:a comparison of logistic regression,support vector machine,decision tree and artificial neural network [J].Iran J Public Health,2016,45(9):1179-1187.
[10] 張宇瑤,葛榕榕,孫剛.基于二元logistics回歸的患者過度醫(yī)療檢查認知及影響因素研究 [J].中國衛(wèi)生事業(yè)管理,2020,37(12):893-895+899.
[11] 嚴(yán)進錦,鄔海,韓斌德.結(jié)核性膿胸術(shù)后殘腔形成的危險因素多因素Logistics回歸分析 [J].中國醫(yī)學(xué)創(chuàng)新,2020,17(18):128-131.
作者簡介:張小胡(1995—),男,漢族,四川宜賓人,碩士研究生,研究方向:數(shù)理統(tǒng)計。