王 瑩 李莉芳 何航幟 楊青青 張垚燁 張巖波,3,4△ 趙 卉△
【提 要】 目的 應(yīng)用隨機(jī)森林模型探討慢阻肺患者報(bào)告結(jié)局(COPD-PRO)中各維度與modified Medical Research Council(mMRC)呼吸困難評分一致性評價(jià)的效果,以評估COPD-PRO對患者癥狀判斷的準(zhǔn)確性。方法 于山西13所醫(yī)院收集300例慢阻肺患者,以mMRC評分生成的二分類變量為結(jié)局變量,COPD-PRO13個(gè)維度為預(yù)測變量,并納入人口學(xué)特征變量,構(gòu)建隨機(jī)森林模型,并與決策樹模型進(jìn)行比較。結(jié)果 IND(獨(dú)立性)、ANX(焦慮)、COG(疾病認(rèn)知)、DEP(抑郁)等維度對于慢阻肺患者報(bào)告結(jié)局量表的癥狀評估的貢獻(xiàn)較大。兩種模型性能比較結(jié)果顯示,隨機(jī)森林的特異度、精準(zhǔn)度和AUC和F1值都高于決策樹模型。結(jié)論 隨機(jī)森林模型在慢阻肺患者報(bào)告結(jié)局的癥狀評估中具有較好的預(yù)測效果,并識(shí)別影響患者癥狀的相關(guān)因素,為臨床治療與管理提供理論依據(jù)。
慢性阻塞性肺疾病(chronic obstructive pulmonary disease,COPD)是一種因氣道和/或肺泡異常引起的,常見的、可預(yù)防和可治療的疾病[1]。2017年全球疾病負(fù)擔(dān)研究報(bào)告顯示,估計(jì)2017年全球COPD的時(shí)點(diǎn)患病率為3.92%[95%CI(3.52%,4.32%)],COPD導(dǎo)致的病死率估計(jì)為42/10萬(占所有原因死亡的4.72%),估計(jì)傷殘調(diào)整壽命年(DALYs)率為1068.02/10萬[2]。COPD最常見的呼吸癥狀包括呼吸困難、咳嗽和/或咳痰,患者對這些癥狀的報(bào)告可能不足[1]。
2011年,GOLD指南在對于COPD患者評估分組提出的新方法中[3],增加了患者急性加重的風(fēng)險(xiǎn)和相關(guān)臨床表現(xiàn),關(guān)于患者臨床癥狀的評估,采用的是modified Medical Research Council(mMRC)呼吸困難等級評分和COPD評估測試(CAT)[4]。在疾病管理的背景下,急性加重是COPD的重要臨床事件,在很大程度上導(dǎo)致患者生活質(zhì)量下降[5],而慢病管理的核心就是提高患者的生命質(zhì)量?;颊邎?bào)告結(jié)局是直接來自患者對自身健康狀況和治療感受的報(bào)告。研究表明,關(guān)注患者報(bào)告結(jié)局有助于全面了解患者的情況,并且相關(guān)內(nèi)容已被納入2020年COPD全球倡議(global initiative for chronic obstructive lung disease,GOLD)中[6]。但此量表無法直觀反映出COPD患者的癥狀嚴(yán)重程度。
因此本研究利用慢阻肺患者報(bào)告結(jié)局(COPD-PRO)評分結(jié)果,采用隨機(jī)森林模型實(shí)現(xiàn)對COPD患者癥狀嚴(yán)重程度的預(yù)測,并與決策樹模型的預(yù)測性能進(jìn)行比較,探索出影響患者癥狀的相關(guān)因素,并為患者改善癥狀提供理論依據(jù),并為患者提供針對性的治療、干預(yù)與管理措施提供科學(xué)指導(dǎo)。
本研究分別在山西省山西醫(yī)科大學(xué)附屬第一醫(yī)院、山西醫(yī)科大學(xué)附屬第二醫(yī)院、山西省人民醫(yī)院、山西中醫(yī)藥大學(xué)附屬醫(yī)院等13所醫(yī)院進(jìn)行現(xiàn)場調(diào)查。每家醫(yī)院內(nèi)均有呼吸科醫(yī)生或護(hù)士擔(dān)任負(fù)責(zé)人,對其進(jìn)行簡要培訓(xùn)之后,負(fù)責(zé)患者調(diào)查。本研究要求參與者能夠獨(dú)立完成量表填寫(老年者詢問家屬,負(fù)責(zé)人代理填寫)。
納入標(biāo)準(zhǔn):(1)確診為慢性阻塞性肺病的患者;(2)年齡>18歲;(3)同意接受調(diào)查者。排除標(biāo)準(zhǔn):(1)并發(fā)精神疾病的患者;(2)由于智力障礙或其他原因?qū)е虏荒芡瓿蓡柧碚摺?傆?jì)發(fā)放340份問卷,最后回收316份,回收率為93.24%,其中有效問卷為300份,有效率為94.94%。
(1)問卷內(nèi)容
調(diào)查問卷由3部分組成,分別為COPD患者人口學(xué)特征、COPD-PRO[7]和mMRC量表。
COPD-PRO由四個(gè)領(lǐng)域組成,共13個(gè)維度57個(gè)條目。研究表明,該量表具有較優(yōu)的信效度[8],量表采用likert式五級記分法。各維度信度系數(shù)具體見表1。mMRC是一種呼吸困難量表,較易使用。有研究表明,與客觀功能參數(shù)相比,呼吸困難與慢阻肺患者生活質(zhì)量的相關(guān)性更好[9-10]。根據(jù)呼吸困難程度分為5個(gè)等級(0~4級)。0級:劇烈活動(dòng)時(shí)出現(xiàn)呼吸困難;1級:在平地快走或爬緩坡時(shí)出現(xiàn)氣短或呼吸困難;2級:由于氣短或呼吸困難,在平地行走的速度要比同齡人慢或中途需要停下休息;3級:在平地上步行100米左右或數(shù)分鐘后就需要停下休息;4級:因嚴(yán)重呼吸困難而不能出門或自己穿脫衣服。0~1視為癥狀少,≥2視為癥狀多,并將此作為本研究的因變量,自變量包括年齡、性別、收入、吸煙、飲酒、家族史、環(huán)境影響(粉塵、油煙)、并發(fā)癥、醫(yī)保情況等基本情況和COPD-PRO中的13個(gè)維度。
表1 慢阻肺患者報(bào)告結(jié)局量表及各維度信度系數(shù)
(2)統(tǒng)計(jì)方法
本研究采用SPSS 22.0對基本情況進(jìn)行描述性分析,采用R語言“rpart”包構(gòu)建決策樹模型,通過調(diào)節(jié)maxdepth、minsplit、minbucket、最小代價(jià)復(fù)雜度參數(shù)CP值等參數(shù)對決策樹進(jìn)行剪枝;用“randomForest”包構(gòu)建隨機(jī)森林模型,通過選擇合適的顆數(shù)參數(shù)(ntree)和隨機(jī)選擇特征數(shù)目參數(shù)(mtry)構(gòu)建最優(yōu)模型。將mMRC評分癥狀少記為“1”,癥狀多記為“2”。采用隨機(jī)抽樣的方法,從中抽取70%的數(shù)據(jù)作為訓(xùn)練集,剩余數(shù)據(jù)用于測試集,利用特異度、靈敏度、精準(zhǔn)度、AUC值來評價(jià)兩種模型的預(yù)測效果。
① 決策樹模型
決策樹模型是由根節(jié)點(diǎn)、分支節(jié)點(diǎn)和葉節(jié)點(diǎn)構(gòu)成的樹狀樣結(jié)構(gòu),反映特征與標(biāo)簽之間的映射關(guān)系[11]。與隨機(jī)森林的“黑箱式”模式相比,決策樹模型的原理更加簡單易懂[12],它的核心就是通過對數(shù)據(jù)的學(xué)習(xí),選定判斷節(jié)點(diǎn),構(gòu)造一棵合適的樹,還可以利用建好的決策樹對分類樣本集進(jìn)行分類[13]。這一特點(diǎn)使決策樹更加適用于復(fù)雜的臨床研究環(huán)境。
② 隨機(jī)森林模型
2001年Breiman提出了一種統(tǒng)計(jì)模型—隨機(jī)森林模型[14],它是以CART決策樹為基礎(chǔ)的Bagging集成算法[15]。隨機(jī)森林同時(shí)訓(xùn)練多個(gè)決策樹,綜合考慮多個(gè)結(jié)果,同時(shí)引入隨機(jī)特征值的選擇與樹的完全分裂,使模型更加多樣化[16],這也是優(yōu)于決策樹算法的一個(gè)特點(diǎn)。它的優(yōu)勢是不易產(chǎn)生過擬合現(xiàn)象,抗噪能力好。
本研究共納入300例COPD患者,平均年齡為(70.82±10.99)歲,最小年齡為32歲,最大年齡為91歲。mMRC評分為癥狀少的有113人,癥狀多的人有187人。其余變量的基本信息及變量賦值見表2。
表2 300例慢阻肺患者人口學(xué)特征資料的統(tǒng)計(jì)描述及變量賦值
對決策樹進(jìn)行前剪枝發(fā)現(xiàn),限制樹生長的最大深度、最小分支節(jié)點(diǎn)數(shù)及葉節(jié)點(diǎn)的最小樣本數(shù)對決策樹準(zhǔn)確度的影響并不大。因此,通過選擇合適的CP值對決策樹進(jìn)行后剪枝,來確定最終模型。通常是通過模型的預(yù)測誤差及其標(biāo)準(zhǔn)誤來選擇合適的CP值[12]。不同CP值對應(yīng)的誤差結(jié)果見表3。當(dāng)分裂次數(shù)為2時(shí),決策樹模型的驗(yàn)證誤差最小,對應(yīng)的CP值為0.0203;當(dāng)分裂次數(shù)為6時(shí),訓(xùn)練集對應(yīng)誤差最小。因此利用兩個(gè)CP值分別建立對應(yīng)的決策樹,并在測試集上比較模型的預(yù)測性能,發(fā)現(xiàn)當(dāng)CP值為0.01時(shí),決策樹的特異度和靈敏度之和最大,精準(zhǔn)度最高。決策樹可視化如圖1,圖中數(shù)字表示正確分類的數(shù)量和節(jié)點(diǎn)中的觀測值數(shù)量,如141/210表示為,節(jié)點(diǎn)中觀測值數(shù)量為210(訓(xùn)練集樣本量),正確分類的數(shù)量為140。由圖可見,最終納入模型的變量為人口學(xué)特征中的飲酒和焦慮、抑郁、滿意度等維度。
圖1 決策樹可視化
表3 不同分裂次數(shù)對應(yīng)的CP值
(1)顆數(shù)參數(shù)的選擇
本研究將ntree分別設(shè)置為100、200、300和400,通過比較各個(gè)模型的特異度、靈敏度、精準(zhǔn)度和AUC值來確定最優(yōu)顆數(shù)。具體結(jié)果見表4。由表4中的結(jié)果可以看出,當(dāng)ntree=100時(shí),模型的特異度、精準(zhǔn)度和AUC值處于最優(yōu)水平,因此本研究采用ntree=100的隨機(jī)森林模型作為最終模型。
表4 不同顆數(shù)的隨機(jī)森林模型性能比較
(2)隨機(jī)選擇特征數(shù)目參數(shù)的選擇
本研究納入的自變量共有22個(gè),根據(jù)隨機(jī)特征計(jì)算公式[log2(p)+1](P為特征變量數(shù))得出本研究的參數(shù)應(yīng)設(shè)置為5。將mtry分別設(shè)置為3、4、5、6,比較不同特征選擇數(shù)的模型性能,具體結(jié)果如表5所示。當(dāng)mtry=6時(shí),隨機(jī)森林模型的特異度、靈敏度和精準(zhǔn)度都處于最優(yōu)水平,因此本研究將mtry設(shè)置為6建立最終模型。
表5 不同特征選擇數(shù)的隨機(jī)森林模型性能比較
(3)各變量重要性評分
在建立隨機(jī)森林模型時(shí),隨機(jī)森林方法計(jì)算出了模型中各個(gè)變量的重要性評分,具體結(jié)果如圖2所示。除人口學(xué)特征中的飲酒等因素對患者癥狀有較大影響外,焦慮、獨(dú)立性、疾病認(rèn)知、抑郁等維度對隨機(jī)森林模型準(zhǔn)確度和Gini系數(shù)的影響較大,說明這些指標(biāo)對慢阻肺癥狀等級分類具有較大的貢獻(xiàn)。
注:左圖橫軸表示變量替換后模型準(zhǔn)確率的下降,右圖橫軸表示變量替換后Gini系數(shù)的下降,縱軸表示模型中的各個(gè)變量。坐標(biāo)軸從上往下排列的各個(gè)變量評分逐漸減小,數(shù)值越大表示變量越重要,對模型的影響越大。
將最終的決策樹模型和隨機(jī)森林模型在測試集上進(jìn)行測試,各個(gè)評價(jià)指標(biāo)結(jié)果如表6所示。從表中結(jié)果可以看出,隨機(jī)森林模型的特異度、精準(zhǔn)度、AUC值和F1值都高于決策樹模型。因此,綜合來看,隨機(jī)森林模型在患者報(bào)告結(jié)局評分對于癥狀嚴(yán)重程度的預(yù)測有較好的表現(xiàn)。
表6 隨機(jī)森林和決策樹模型在測試集中的模型性能比較
本研究在構(gòu)建決策樹和隨機(jī)森林模型時(shí)發(fā)現(xiàn),飲酒對于慢阻肺患者癥狀影響較大。Ryan Ng等人[17]的研究發(fā)現(xiàn),與輕度飲酒者相比,不飲酒者與六種慢性疾病[充血性心力衰竭(CHF)、COPD、糖尿病、肺癌、心肌梗塞(MI)和中風(fēng)]任何一種的風(fēng)險(xiǎn)增加都有關(guān)。在三個(gè)歐洲國家進(jìn)行的一項(xiàng)為期20年的研究發(fā)現(xiàn),在患有COPD的中年男性中,與輕度至中度飲酒者相比,重度飲酒者的死亡風(fēng)險(xiǎn)增加了一倍以上[18]。在我國,飲酒與COPD的相關(guān)性研究較少,未來本研究會(huì)將飲酒劃分為更詳細(xì)的標(biāo)準(zhǔn)再次評估。除人口學(xué)特征變量外,患者報(bào)告結(jié)局中包含的部分維度如焦慮、獨(dú)立性、疾病認(rèn)知、抑郁等對患者癥狀嚴(yán)重程度的預(yù)測也有較大的影響。
本研究發(fā)現(xiàn),獨(dú)立性對慢阻肺患者癥狀的多與少會(huì)有較大影響。獨(dú)立性所對應(yīng)的問題是(1)您在彎腰、屈膝或下蹲時(shí)會(huì)出現(xiàn)呼吸困難嗎?(2)您在外出活動(dòng)時(shí),需要經(jīng)常停下來休息嗎?(3)您能打掃衛(wèi)生、提重物爬樓梯或走有坡度的路嗎?(4)早晨穿衣梳洗會(huì)花費(fèi)您很長時(shí)間嗎?可見獨(dú)立性與患者日常活動(dòng)有較大關(guān)系。Warz H等人[19]研究發(fā)現(xiàn),與同齡患者相比,COPD患者通常表現(xiàn)為運(yùn)動(dòng)減少和久坐的生活方式,這與多種不利的健康結(jié)果有關(guān)。運(yùn)動(dòng)減少是日常生活的一個(gè)重要特征。它可以在日常生活中直接和不顯眼地測量,是一個(gè)相關(guān)的以患者為中心的結(jié)果[20]。有研究指出,改變COPD患者的身體活動(dòng)行為需要一種跨學(xué)科的方法,將呼吸醫(yī)學(xué)、康復(fù)醫(yī)學(xué)、社會(huì)科學(xué)和行為科學(xué)結(jié)合起來[21]。因此,臨床工作人員應(yīng)對患者及其家屬做好相關(guān)健康教育,讓患者和家屬都能知曉獨(dú)立性活動(dòng)的重要性,讓患者出院后也能保持有效的活動(dòng),從而提升患者的生命質(zhì)量。
本研究發(fā)現(xiàn),焦慮和抑郁會(huì)影響COPD患者癥狀的嚴(yán)重程度。精神健康相關(guān)疾病是全球老年人殘疾增多和生活質(zhì)量降低的主要原因[22]。而COPD患者常見的精神疾病有心境障礙、輕度抑郁和焦慮障礙[23-24]。有證據(jù)表明,與常規(guī)護(hù)理相比,綜合肺康復(fù)(肺康復(fù)、運(yùn)動(dòng)加教育)能降低患者短期內(nèi)的焦慮和抑郁癥狀水平[25];以及包括認(rèn)知行為治療和咨詢在內(nèi)的心理治療可以改善COPD患者的焦慮和抑郁癥狀[22-23]。因此,臨床工作者在對患者進(jìn)行臨床治療的同時(shí),也應(yīng)關(guān)注患者的心理健康,幫助患者保持健康的心態(tài),樹立戰(zhàn)勝疾病的信心。
本研究發(fā)現(xiàn),患者對疾病的認(rèn)知以及治療效果、醫(yī)院服務(wù)滿意度均會(huì)影響到患者癥狀的數(shù)量。這與J W Dodd和Marco Contoli等人[26-27]的研究結(jié)果相似。大多數(shù)研究表明,COPD患者在整體感知、記憶和運(yùn)動(dòng)功能等領(lǐng)域都有明顯的認(rèn)知障礙[28-30]。有研究指出,幾乎一半的COPD患者不堅(jiān)持服藥[31]?;颊邔ζ渌幬锏臐M意度會(huì)影響與治療相關(guān)的因素,例如他們繼續(xù)使用藥物的可能性、正確使用藥物以及對藥物治療方案的依從性[32-33]。因此,醫(yī)院應(yīng)建立完善、合理的健康教育體系,加強(qiáng)對COPD患者的健康教育;并提高服務(wù)質(zhì)量,加強(qiáng)醫(yī)患溝通,建立友好的醫(yī)患關(guān)系,有助于提高患者的疾病認(rèn)知水平。
PRO對于評估癥狀、癥狀對日常生活活動(dòng)的影響和治療反應(yīng)至關(guān)重要[34]。但對于測量患者報(bào)告結(jié)局癥狀的研究,有研究將圣喬治呼吸問卷(St. George′s Respiratory Questionnaire)納入分析[35],對于mMRC等級的研究較少,且大多使用多元線性回歸,但該方法在處理變量共線性、變量間潛在的交互作用等方面具有一定的局限性[36]。因此本研究采用決策樹和隨機(jī)森林模型,利用COPD-PRO各維度作為自變量進(jìn)行患者癥狀多少的預(yù)測,評價(jià)其預(yù)測結(jié)果與mMRC呼吸困難評分的一致性,以評估COPD-PRO對患者癥狀判斷的準(zhǔn)確性,并探索影響患者癥狀多少的相關(guān)因素,為臨床治療與管理提供理論依據(jù)。
本研究還存在一些局限。在修訂的GOLD 2011指南中指出,在對COPD患者進(jìn)行分類時(shí),不僅要考慮患者的功能嚴(yán)重程度,還要考慮患者癥狀和病情惡化的風(fēng)險(xiǎn)[37],但本研究只考慮到了患者癥狀的嚴(yán)重程度。另外,本研究的總樣本量不夠大,所得到的健康狀態(tài)相對較少。因此,本研究在未來將從以下幾個(gè)方面進(jìn)行完善:(1)將電子病歷中的功能指標(biāo)納入研究,改善模型的預(yù)測性能;(2)采用深度機(jī)器學(xué)習(xí)算法,提高模型的靈敏度,提升模型評估效果;(3)對患者追加隨訪,將數(shù)據(jù)實(shí)時(shí)更新,將模型應(yīng)用于縱向數(shù)據(jù)。