龔軍,杜超,鐘小鋼,向天雨,王惠來*
1重慶醫(yī)科大學(xué)醫(yī)學(xué)數(shù)據(jù)研究院,重慶 400016;2重慶市涪陵區(qū)中心醫(yī)院輸血科,重慶 408000;3重慶醫(yī)科大學(xué)附屬康復(fù)醫(yī)院醫(yī)護(hù)科,重慶 400050;4重慶醫(yī)科大學(xué)附屬大學(xué)城醫(yī)院信息中心,重慶 401331
原發(fā)性高血壓患者發(fā)生冠心病的概率是血壓正常者的2~4倍,冠心病是高血壓患者的重要死因之一[1-2]。原發(fā)性高血壓并發(fā)冠心病的病程較長(zhǎng),早期無冠心病臨床癥狀或者癥狀不明顯[3]。因此臨床上存在漏診、誤診及診斷不及時(shí)的風(fēng)險(xiǎn),如診斷、治療不及時(shí),將無法及時(shí)控制疾病進(jìn)程,嚴(yán)重影響預(yù)后[4-5]。近年來,許多專家學(xué)者開始基于醫(yī)療大數(shù)據(jù)及機(jī)器學(xué)習(xí)算法探索疾病診斷的新模式,在疾病的預(yù)測(cè)、診斷方面取得了良好的效果[6-9]。針對(duì)原發(fā)性高血壓并發(fā)冠心病在臨床診療中存在的上述問題,本研究利用機(jī)器學(xué)習(xí)算法建立原發(fā)性高血壓并發(fā)冠心病的個(gè)體風(fēng)險(xiǎn)分類模型,以期從醫(yī)學(xué)、數(shù)據(jù)科學(xué)及計(jì)算機(jī)科學(xué)交叉角度為原發(fā)性高血壓并發(fā)冠心病提供一種輔助診斷方法。
1.1 資料來源 選取2014年1月1日-2019年5月31日重慶醫(yī)科大學(xué)醫(yī)療大數(shù)據(jù)平臺(tái)中的原發(fā)性高血壓患者4926例,其中原發(fā)性高血壓并發(fā)冠心病2791例作為研究組,單純?cè)l(fā)性高血壓2135例作為對(duì)照組。
1.2 納入及排除標(biāo)準(zhǔn) 研究組納入標(biāo)準(zhǔn):①首次診斷為冠心病,既往史中無冠心病病史;②手術(shù)操作項(xiàng)目含有冠狀動(dòng)脈造影,至少一支主支血管狹窄>50%,且出院診斷為冠心病者;③既往史或現(xiàn)病史中有確定的高血壓發(fā)病年數(shù),病案首頁中有明確的原發(fā)性高血壓診斷。排除標(biāo)準(zhǔn):①其他疾病如糖尿病等引起的冠心??;②感染性病因如巨細(xì)胞病毒、肺炎衣原體感染等引起的冠心??;③合并其他急慢性感染性炎癥、腦腎血管病變及腫瘤等。
對(duì)照組納入標(biāo)準(zhǔn):①電子病歷病案首頁中明確診斷為原發(fā)性高血壓;②既往史中有明確的原發(fā)性高血壓病史及患病年數(shù);③電子病歷中未發(fā)現(xiàn)心、腦、腎血管病變。排除標(biāo)準(zhǔn):合并有急慢性感染性炎癥、骨折、腫瘤及繼發(fā)性高血壓等。
1.3 指標(biāo)選取 基于高血壓及冠心病相關(guān)文獻(xiàn)報(bào)道和臨床診療指南[10-16]選取患者的一般信息指標(biāo)及實(shí)驗(yàn)室檢查指標(biāo),包括性別、年齡、血壓、吸煙史、飲酒史、既往史、生化指標(biāo)、血常規(guī)指標(biāo)、凝血指標(biāo)、血脂指標(biāo)、炎癥指標(biāo)等。共獲得103項(xiàng)臨床資料,刪除缺失率>30%的指標(biāo),缺失率≤30%的指標(biāo)采用missForest非參數(shù)填補(bǔ)算法填補(bǔ)[17-18],最終共納入70項(xiàng)指標(biāo)進(jìn)行研究。
1.4 統(tǒng)計(jì)學(xué)處理 采用Excel 2016預(yù)處理數(shù)據(jù),SPSS 25.0及R3.6.1進(jìn)行統(tǒng)計(jì)學(xué)分析。單因素分析采用t檢驗(yàn)及χ2檢驗(yàn),單因素分析有差異的指標(biāo)進(jìn)行逐步向前l(fā)ogistic回歸分析(α入=0.05,α出=0.1)。采用AMORE包、random Forest包、xgboost包分別建立3種機(jī)器學(xué)習(xí)模型:BP神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)模型、隨機(jī)森林(random forest,RF)模型、極限梯度上升(eXtreme gradient boosting,XGBoost)模型。采用靈敏度、特異度、精度、受試者工作特征曲線下面積(AUC)評(píng)價(jià)模型。P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
2.1 兩組70項(xiàng)臨床指標(biāo)比較 兩組患者的吸煙、飲酒、年齡、高血壓患病年數(shù)、C反應(yīng)蛋白、D-二聚體、γ-谷氨?;D(zhuǎn)移酶、丙氨酸氨基轉(zhuǎn)移酶、中性粒細(xì)胞百分比、乳酸、乳酸脫氫酶、低密度脂蛋白膽固醇、凝血酶原時(shí)間、前白蛋白、大型血小板比率、天門冬氨酸氨基轉(zhuǎn)移酶、尿素、尿酸、平均紅細(xì)胞體積、平均紅細(xì)胞血紅蛋白濃度、總膽固醇、總蛋白、活化部分凝血活酶時(shí)間、淋巴細(xì)胞計(jì)數(shù)、淋巴細(xì)胞百分比、白蛋白、直接膽紅素、紅細(xì)胞計(jì)數(shù)、紅細(xì)胞分布寬度變異系數(shù)、紅細(xì)胞分布寬度標(biāo)準(zhǔn)差、肌酐、膽堿酯酶、脂蛋白a、葡萄糖、血小板分布寬度、血小板計(jì)數(shù)、血紅蛋白、超敏C反應(yīng)蛋白、載脂蛋白A1、載脂蛋白B、載脂蛋白E、鈣、鈉、高密度脂蛋白膽固醇水平差異有統(tǒng)計(jì)學(xué)意義(P<0.05,表1-3)。
2.2 Logistic回歸分析結(jié)果 以表1-3中兩組比較有差異的44項(xiàng)指標(biāo)為自變量,以原發(fā)性高血壓是否并發(fā)冠心病為應(yīng)變量(是=1,否=0),進(jìn)行l(wèi)ogistic回歸分析,結(jié)果顯示,有32項(xiàng)指標(biāo)為原發(fā)性高血壓并發(fā)冠心病的影響因素(表4)。
2.3 機(jī)器學(xué)習(xí)模型 將表1-3中兩組比較有差異的44項(xiàng)指標(biāo)納入3種機(jī)器學(xué)習(xí)模型,通過5折交叉驗(yàn)證法對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,測(cè)試集評(píng)估樣本分類能力。Logistic、BPNN、RF、XGBoost模型在測(cè)試集中的性能評(píng)價(jià)指標(biāo)見表5。從4種模型的性能參數(shù)來看,XGBoost模型的靈敏度、精度、AUC高于其他幾種算法,表現(xiàn)最為優(yōu)異。從44項(xiàng)指標(biāo)在3種機(jī)器學(xué)習(xí)算法的相對(duì)重要順序來看,BPNN模型指標(biāo)的相對(duì)重要性較為均衡,而XGBoost模型則是少數(shù)幾個(gè)指標(biāo)就占有很高的相對(duì)重要性,前12項(xiàng)指標(biāo)占據(jù)相對(duì)重要性的90%(圖1)。
2.4 臨床應(yīng)用 以2019年8月1日-12月20日就診于重慶醫(yī)科大學(xué)附屬大學(xué)城醫(yī)院心內(nèi)科的190例原發(fā)性高血壓患者為研究對(duì)象,從醫(yī)院HIS系統(tǒng)內(nèi)采集患者的以上44項(xiàng)指標(biāo),利用訓(xùn)練好的XGBoost模型判斷其是否發(fā)生冠心病,將判斷結(jié)果與醫(yī)師臨床診斷進(jìn)行比較,結(jié)果顯示,XGBoost模型的靈敏度、特異度、精度、AUC分別為1.000、0.912、0.926、0.956,具有很好的實(shí)際表現(xiàn),說明XGBoost模型在判斷原發(fā)性高血壓患者是否發(fā)生冠心病方面具有可行性。
表1 研究組與對(duì)照組的一般資料比較Tab.1 Comparison of general data between research group group and control group
表2 研究組與對(duì)照組的血常規(guī)指標(biāo)比較 (±s)Tab.2 Comparison of blood routine indexes between research group and control group (±s)
表2 研究組與對(duì)照組的血常規(guī)指標(biāo)比較 (±s)Tab.2 Comparison of blood routine indexes between research group and control group (±s)
項(xiàng)目 研究組(n=2791) 對(duì)照組(n=2135) t P中性粒細(xì)胞計(jì)數(shù)(×109/L) 4.45±2.07 4.35±1.89 -1.90 0.057中性粒細(xì)胞百分比(%) 67.64±10.11 66.88±8.51 -2.88 0.004單核細(xì)胞計(jì)數(shù)(×109/L) 0.37±0.16 0.36±0.13 -1.12 0.265單核細(xì)胞百分比(%) 5.81±2.11 5.72±1.68 -1.59 0.113嗜堿性粒細(xì)胞計(jì)數(shù)(×109/L) 0.02±0.02 0.02±0.01 1.89 0.059嗜堿性粒細(xì)胞百分比(%) 0.29±0.24 0.31±0.19 1.89 0.059嗜酸性粒細(xì)胞計(jì)數(shù)(×109/L) 0.14±0.11 0.14±0.13 1.70 0.088嗜酸性粒細(xì)胞百分比(%) 2.29±1.37 2.38±1.12 1.47 0.141大型血小板比率(%) 33.15±9.83 35.24±7.82 8.33 <0.001平均紅細(xì)胞體積(fl) 91.20±6.41 89.89±5.63 -7.59 <0.001平均紅細(xì)胞血紅蛋白含量(pg) 30.28±2.46 30.15±1.89 -1.96 0.05平均紅細(xì)胞血紅蛋白濃度(g/L) 331.87±12.14 334.44±11.24 7.69 <0.001淋巴細(xì)胞計(jì)數(shù)(×109/L) 1.46±0.58 1.59±0.52 8.27 <0.001淋巴細(xì)胞百分比(%) 23.95±8.96 25.59±8.24 6.67 <0.001白細(xì)胞計(jì)數(shù)(×109/L) 6.45±2.19 6.49±1.92 0.82 0.414紅細(xì)胞計(jì)數(shù)(×1012/L) 4.33±0.58 4.49±0.43 10.94 <0.001紅細(xì)胞分布寬度變異系數(shù)(%) 13.71±1.26 13.49±0.99 -7.02 <0.001紅細(xì)胞分布寬度標(biāo)準(zhǔn)差(fl) 44.94±3.91 43.84±3.40 -10.54 <0.001血小板分布寬度(%) 14.83±2.54 14.32±2.43 -7.15 <0.001平均血小板體積(fl) 11.35±0.94 11.31±0.87 -1.35 0.179血小板計(jì)數(shù)(×109/L) 186.52±59.34 192.21±42.12 6.00 <0.001
表3 研究組與對(duì)照組的生化指標(biāo)比較 (±s)Tab.3 Comparison of biochemical indexes between research group and control group (±s)
表3 研究組與對(duì)照組的生化指標(biāo)比較 (±s)Tab.3 Comparison of biochemical indexes between research group and control group (±s)
臨床特征 研究組(n=2791) 對(duì)照組(n=2135) t P γ-谷氨?;D(zhuǎn)移酶(U/L) 39.97±39.48 30.48±25.24 -10.25 <0.001丙氨酸氨基轉(zhuǎn)移酶(U/L) 22.40±13.59 21.63±13.63 -1.98 0.048天門冬氨酸氨基轉(zhuǎn)移酶(U/L) 26.96±20.77 22.13±8.49 -11.12 <0.001乳酸(mmol/L) 2.32±0.68 2.16±0.51 -9.26 <0.001乳酸脫氫酶(U/L) 205.61±66.8 185.04±25.98 -14.87 <0.001二氧化碳(mmol/L) 25.51±2.71 25.48±2.24 -0.58 0.562
(續(xù) 表)
表4 原發(fā)性高血壓并發(fā)冠心病影響因素的logistic回歸分析Tab.4 Logistic regression analysis of the effects influencing essential hypertension complicated with coronary heart disease
(續(xù) 表)
表5 4種模型的性能評(píng)價(jià)指標(biāo)Tab.5 Performance evaluation table of four models
圖1 3種機(jī)器學(xué)習(xí)模型指標(biāo)的相對(duì)重要性排序Fig.1 Ranking of the relative importance of three machine learning model indicators
原發(fā)性高血壓并發(fā)冠心病是一種常見且危害性極大的慢性疾病,冠狀動(dòng)脈造影能夠很好地對(duì)本病進(jìn)行診斷,但冠狀動(dòng)脈造影具有操作復(fù)雜、易產(chǎn)生不良反應(yīng)等缺點(diǎn)[19-20],且患者在患病早期易拒絕該檢查,因此臨床上一般只用于出現(xiàn)明顯冠心病癥狀后確診冠心病,無法對(duì)原發(fā)性高血壓并發(fā)冠心病進(jìn)行早期篩查和診斷,導(dǎo)致了患者治療不及時(shí)、病情控制不佳等諸多問題。
本研究選取了原發(fā)性高血壓并發(fā)冠心病與單純?cè)l(fā)性高血壓共4926例患者的70項(xiàng)臨床指標(biāo),用于探索原發(fā)性高血壓及原發(fā)性高血壓并發(fā)冠心病患者臨床指標(biāo)與診斷結(jié)果之間的非線性關(guān)系,建立了3種機(jī)器學(xué)習(xí)模型,并以傳統(tǒng)logistic回歸模型作為對(duì)比,最終發(fā)現(xiàn)XGBoost模型表現(xiàn)最為優(yōu)異,對(duì)原發(fā)性高血壓并發(fā)冠心病有很好的判別效果(訓(xùn)練集精度=0.976)。XGBoost算法由陳天奇開發(fā),基于梯度下降樹算法改進(jìn)而來,相較于其他機(jī)器學(xué)習(xí)算法,具有訓(xùn)練速度快、高效、泛化能力強(qiáng)等特點(diǎn),在回歸及分類領(lǐng)域被廣泛應(yīng)用[21]。在指標(biāo)相對(duì)重要性分析中,XGBoost模型中前12個(gè)指標(biāo)占據(jù)90%的相對(duì)重要性,相較于其他兩種機(jī)器學(xué)習(xí)算法,可利用較少指標(biāo)即達(dá)到很高的精度,在臨床實(shí)踐中指標(biāo)收集不全或者缺失的情況下更具實(shí)用性。因此,通過對(duì)模型的各項(xiàng)性能評(píng)估,認(rèn)為XGBoost算法構(gòu)建的原發(fā)性高血壓并發(fā)冠心病個(gè)體風(fēng)險(xiǎn)分類模型最佳。
如何利用機(jī)器學(xué)習(xí)算法進(jìn)行冠心病的疾病診斷,專家學(xué)者已經(jīng)開始了一些探索。尹春燕[22]收集山東地區(qū)患者的臨床癥狀、人口學(xué)信息、生活習(xí)慣等數(shù)據(jù),利用支持向量機(jī)算法建立冠心病疾病篩查模型,模型精度為0.894。逄凱[23]收集吉林省慢性病調(diào)查數(shù)據(jù),選用支持向量機(jī)、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)3種機(jī)器學(xué)習(xí)算法建立冠心病識(shí)別模型,最優(yōu)精度為0.669。劉毅[24]采集濟(jì)南千佛山醫(yī)院受試患者的基本信息、臨床癥狀、實(shí)驗(yàn)室檢查數(shù)據(jù),利用異質(zhì)集成學(xué)習(xí)方法建立冠心病篩查模型,精度為0.963。目前國內(nèi)尚未見從機(jī)器學(xué)習(xí)的角度對(duì)原發(fā)性高血壓及其導(dǎo)致的冠心病進(jìn)行綜合研究。
回歸到實(shí)際醫(yī)療環(huán)境,本研究基于XGBoost算法建立的個(gè)體風(fēng)險(xiǎn)模型進(jìn)一步開發(fā)成輔助診斷系統(tǒng)后可以運(yùn)用到以下兩種場(chǎng)景:①在原發(fā)性高血壓人群體檢中,通過此系統(tǒng)對(duì)原發(fā)性高血壓并發(fā)冠心病患者進(jìn)行篩查;②在原發(fā)性高血壓患者就診過程中,輔助醫(yī)師對(duì)原發(fā)性高血壓并發(fā)冠心病進(jìn)行診斷,最終達(dá)到早發(fā)現(xiàn)、早控制的目的,具有很強(qiáng)的實(shí)用性及可行性。