葉 媛 孫 濤 沈 思
過敏性紫癜(Henoch-Sch?nlein purpura,HSP)是兒童期最常見的全身性血管炎之一[1]。臨床以皮膚紫癜、腹痛、關(guān)節(jié)痛和腎炎為特征,半數(shù)患者累及腎臟發(fā)展為過敏性紫癜性腎炎(Henoch-Sch?nlein purpura nephritis,HSPN)[2]。HSPN是兒童最常見的繼發(fā)性腎小球疾病[3-4]。據(jù)報(bào)道,每10萬名兒童中有6~24人會(huì)發(fā)生HSP,其中約30%~50%的患者會(huì)發(fā)展為HSPN[5]。是否有腎損害是決定HSP患兒長期預(yù)后的關(guān)鍵因素。HSPN的早期準(zhǔn)確診斷對于患者預(yù)后和個(gè)體化治療至關(guān)重要。腎活檢是HSPN確診的金標(biāo)準(zhǔn),但由于其具有創(chuàng)性,家長及患兒多難接受,導(dǎo)致部分患者在確診時(shí)腎臟病變已極為嚴(yán)重[6]。
本文的研究目的是檢驗(yàn)是否可以用簡單的臨床數(shù)據(jù)預(yù)測HSP發(fā)生腎損害,有助于臨床醫(yī)生早期高效診斷HSPN,以期避免HSPN的發(fā)生或減輕其發(fā)生的嚴(yán)重程度。
研究對象選取2016年1月~2018年12月三年間在東部戰(zhàn)區(qū)總醫(yī)院兒科的533例HSP的患兒,其中337例患兒合并紫癜性腎炎。根據(jù)歐洲抗風(fēng)濕病聯(lián)盟(EULAR)[7]和《紫癜性腎炎診治循證指南(2016)》[8],HSP的診斷標(biāo)準(zhǔn)為:可觸性皮疹(必要條件)伴以下四項(xiàng)中至少一項(xiàng)臨床癥狀:腹痛、關(guān)節(jié)炎/關(guān)節(jié)痛、腎臟受累、組織病理學(xué)檢查結(jié)果提示IgA沉積。腎損害以臨床指標(biāo)為主:定義為在HSP病程6個(gè)月內(nèi),出現(xiàn)血尿、蛋白尿、腎功能的異常,如血清肌酐(SCr)升高和估算的腎小球?yàn)V過率(eGFR)下降。其中eGFR的計(jì)算公式為:≤16歲使用Schwartz公式[9],>16歲使用CKD-EPI公式[10]。eGFR<90 ml/(min·1.73 m2)即認(rèn)為腎功能不全。
納入標(biāo)準(zhǔn):符合上述診斷標(biāo)準(zhǔn),年齡≤18歲,患兒家長知情同意。排除標(biāo)準(zhǔn):有其他腎臟疾病的患兒(如腎病綜合征、腎臟腫瘤等);合并有嚴(yán)重心、肝、腦、免疫系統(tǒng)等疾病或消耗性疾病者。
研究因素收集包括人口學(xué)特征、臨床癥狀、實(shí)驗(yàn)室指標(biāo)在內(nèi)的共31個(gè)指標(biāo)作為候選預(yù)測因子。其中人口學(xué)特征包括性別、年齡、發(fā)病季節(jié);臨床癥狀包括是否有關(guān)節(jié)癥狀(關(guān)節(jié)腫痛),是否有腹部癥狀(包括腹痛和消化道出血),皮膚紫癜部位(紫癜分布是否蔓延到上半身),是否有紫癜復(fù)發(fā)。實(shí)驗(yàn)室指標(biāo)包括尿常規(guī)、血常規(guī)、體驗(yàn)免疫、生化檢驗(yàn)等檢驗(yàn)結(jié)果。
統(tǒng)計(jì)學(xué)方法采用《SPSS 24.0》進(jìn)行數(shù)據(jù)處理與分析。對于缺失值超過一半的指標(biāo),將其舍去,以免影響整體結(jié)果,對于缺失值較少的指標(biāo),使用多種填補(bǔ)方式進(jìn)行比較,采取期望最大化算法(expectation maximization,EM)進(jìn)行缺失值填充。計(jì)數(shù)資料采用χ2檢驗(yàn),計(jì)量資料采用均數(shù)±標(biāo)準(zhǔn)差表示,采用t檢驗(yàn)。P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
機(jī)器學(xué)習(xí)方法采用《Python 3.6》進(jìn)行Logistic回歸和XGBoost模型預(yù)測和分析。XGBoost是一個(gè)有監(jiān)督的機(jī)器學(xué)習(xí)模型,它由多個(gè)弱預(yù)測模型組合起來,使用的弱預(yù)測模型通常是CART(classification and regression trees)樹[11]。在訓(xùn)練過程中,以梯度增強(qiáng)的方式生成一系列決策樹,決策樹的葉子節(jié)點(diǎn)對應(yīng)的值是一個(gè)實(shí)際的分?jǐn)?shù),每棵決策樹的累計(jì)得分作為最終的預(yù)測值。我們使用五折交叉驗(yàn)證來測試算法的準(zhǔn)確性。將數(shù)據(jù)集分成5份,輪流將其中4份作為訓(xùn)練集,另外1份作為測試集,每次實(shí)驗(yàn)都會(huì)得到對應(yīng)的正確率,5次結(jié)果的平均正確率作為對算法精度的估計(jì)。
基本資料533例患兒中,女性264例,男性269例;發(fā)病年齡2~17歲,平均年齡9.02±2.87歲;伴關(guān)節(jié)癥狀233例(43.7%),伴腹部癥狀290例(54.4%),紫癜復(fù)發(fā)233例(43.7%),皮膚紫癜分布僅在下半身446例(83.7%),蔓延到上半身87例(16.3%);發(fā)病季節(jié)以冬季最多152例(28.5%)。HSP患者發(fā)生腎損害的有337個(gè)樣本,標(biāo)記為1,未發(fā)生腎損害的有196個(gè)樣本,標(biāo)記為0。
特征選擇對數(shù)據(jù)中的指標(biāo)進(jìn)行單因素分析,初步篩掉一些可能無意義的變量,由表1和表2可以看出性別,血小板計(jì)數(shù)、C反應(yīng)蛋白、總膽固醇、三酰甘油、IgM、血清補(bǔ)體C4這些變量在是否發(fā)生腎損害上認(rèn)為是不顯著的因素(P>0.05不具有統(tǒng)計(jì)學(xué)意義),因此舍去,留下24個(gè)變量。
表1 癥狀變量χ2檢驗(yàn)結(jié)果
表2 實(shí)驗(yàn)室指標(biāo)變量t檢驗(yàn)結(jié)果
XGBoost模型能夠自動(dòng)計(jì)算特征重要性,當(dāng)輸入變量數(shù)為12個(gè)、10個(gè)、8個(gè)、5個(gè)時(shí),模型的AUC分別為0.78、0.88、0.79、0.63。故當(dāng)使用XGBoost重要性得分衡量的10個(gè)最重要的變量作為輸入的時(shí)候,模型效果最好。根據(jù)XGBoost模型輸出的重要性特征排名(圖1),居于前十位的變量是:抗鏈球菌溶血素“O”(ASO),尿N-乙酰-β-D-氨基葡萄糖苷酶(NAG酶),尿視黃醇結(jié)合蛋白(RBP),IgA,年齡,紫癜復(fù)發(fā),皮膚紫癜部位,腹部癥狀,24h尿蛋白定量,中性粒細(xì)胞百分?jǐn)?shù)。
圖1 XGBoost模型的預(yù)測特征重要性圖
模型構(gòu)建實(shí)驗(yàn)過程中,通過不斷調(diào)整輸入和各項(xiàng)參數(shù),達(dá)到訓(xùn)練誤差最小。當(dāng)前XGBoost參數(shù)組合如表3所示。
確定參數(shù)后,每棵樹都對樣本是否發(fā)生腎損害進(jìn)行預(yù)測打分,加在一起得到最終的預(yù)測值,以0.5為判斷值,>0.5輸出“1”認(rèn)為是發(fā)生腎損害,<0.5輸出“0”認(rèn)為是不發(fā)生腎損害。
表3 XGBoost重要參數(shù)
模型預(yù)測性能評價(jià)24個(gè)變量組成的特征矩陣分別輸入Logistic回歸和XGBoost兩個(gè)模型進(jìn)行預(yù)測。圖2是Logistic回歸五折交叉驗(yàn)證的ROC曲線,平均曲線下面積為0.74±0.14;圖3是XGBoost的五折交叉驗(yàn)證的ROC曲線,平均曲線下面積為0.88±0.02。對比可知,XGBoost模型效果更好,并且穩(wěn)定性優(yōu)于Logistic回歸。圖4中,XGBoost的召回率高于精確率,即XGBoost預(yù)測模型的敏感度更好。將兩個(gè)模型相比較,可以發(fā)現(xiàn)XGBoost在各性能指標(biāo)上的表現(xiàn)都優(yōu)于Logistic回歸。故認(rèn)為XGBoost在HSP患兒是否發(fā)生腎損害的預(yù)測問題上的表現(xiàn)更優(yōu)。
圖2 Logistic ROC曲線
圖3 XGBoost ROC曲線
圖4 兩模型預(yù)測結(jié)果比較
表4 兩模型預(yù)測結(jié)果比較
本文基于臨床數(shù)據(jù)對患兒HSP是否發(fā)生腎損害進(jìn)行預(yù)測,XGBoost模型各項(xiàng)指標(biāo)都高于Logistic回歸。目前對HSPN的預(yù)測研究主要使用的是回歸方法。例如宋均亞等[12]采用單因素及多因素分析方法篩選腎損害高危因素,并建立了預(yù)測HSPN發(fā)生風(fēng)險(xiǎn)的列線圖模型。奚曉雋等[13]使用單因素分析和Logistic回歸分析初發(fā)HSP患兒的腎臟受累的獨(dú)立危險(xiǎn)因素。Logistic回歸模型是經(jīng)典的方法,由于它是一個(gè)線性回歸模型,用于分類預(yù)測時(shí),在處理非線性問題上存在不足,而且回歸模型由于對樣本的依賴會(huì)導(dǎo)致過擬合問題,對未知樣本的預(yù)測效果不好。而XGBoost的優(yōu)點(diǎn)在于:(1)引入正則化項(xiàng),有助于減少過擬合問題。(2)支持列抽樣,不僅能降低過擬合,還能減少計(jì)算。(3)可以自動(dòng)為缺失值指定分支的默認(rèn)方向,提高算法的效率。(4)在迭代之前,預(yù)先對節(jié)點(diǎn)的特征進(jìn)行排序,保存為數(shù)據(jù)庫結(jié)構(gòu),遍歷選擇最優(yōu)分割點(diǎn),每次迭代,重復(fù)使用該結(jié)構(gòu),降低了模型的計(jì)算。在進(jìn)行節(jié)點(diǎn)的分裂時(shí),計(jì)算每個(gè)特征的增益,選增益最大的特征進(jìn)行下一步分裂,那么各個(gè)特征的增益可以開多線程進(jìn)行。(5)允許用戶自定義優(yōu)化目標(biāo)以及評估的準(zhǔn)則,這就為模型的廣泛性應(yīng)用提供了更多的可能。
XGBoost模型可以自動(dòng)得到每個(gè)屬性的重要性得分,從而有效地進(jìn)行特征的篩選。重要性得分衡量了特征在模型構(gòu)建樹中的價(jià)值,一個(gè)特征越靠近根結(jié)點(diǎn),權(quán)重越大;一個(gè)特征被更多的樹選擇,就越重要。因此指標(biāo)重要性得分越高,表示這個(gè)指標(biāo)更多地被模型用來構(gòu)建樹,其重要性就越高。在本文中,重要性居于前十位的變量是:ASO,尿NAG,RBP,血清IgA,年齡,紫癜復(fù)發(fā),皮膚紫癜部位,腹部癥狀,24h尿蛋白定量,中性粒細(xì)胞百分?jǐn)?shù)。
鏈球菌溶血素是溶血性鏈球菌的代謝產(chǎn)物之一。人體在感染該型鏈球菌后,血清中可出現(xiàn)大量的ASO抗體。有報(bào)道部分患兒在發(fā)病前有上呼吸道感染史[14-15]。陳洪敏[16]對患兒進(jìn)行咽部分泌物A組β型溶血鏈球菌抗原和血ASO檢測,認(rèn)為A組β溶血鏈球菌感染可能是誘發(fā)兒童HSP并導(dǎo)致HSPN的重要因素之一。在本文的預(yù)測模型中ASO的重要性最高。其次是尿NAG和RBP。NAG是一種存在于泌尿系統(tǒng)的溶酶體酶,廣泛應(yīng)用于臨床,是非常經(jīng)典的腎小管損傷標(biāo)記物。正常的情況下,腎小管上皮細(xì)胞向尿液中分泌少量的NAG,尿液中的含量非常低。當(dāng)腎小管細(xì)胞受損時(shí),NAG就會(huì)大量從腎小管上皮細(xì)胞釋放進(jìn)入尿液,這時(shí)候通過尿液檢查NAG就會(huì)升高,即尿NAG升高反映腎小管的損傷。RBP反映腎臟近端小管重吸收功能受損,是一個(gè)評價(jià)腎臟疾病的良好標(biāo)本。楊曉青等[17]研究認(rèn)為尿α1微球蛋白、RBP和NAG聯(lián)合檢測有助于早期評價(jià)HSPN腎小管損傷的狀態(tài)和程度。血清IgA是機(jī)體黏膜防御系統(tǒng)的主要成分,廣泛分布于乳汁、唾液以及胃腸道、呼吸道、泌尿生殖道黏膜分泌液中。因此,其在抗感染防御第一線中起重要作用,尤其在呼吸道和腸道。這在本文的預(yù)測模型中也是一個(gè)重要指標(biāo)。丁艷等[18]的研究認(rèn)為IgA水平升高可能是HSPN的高危因素。HSP的病理特點(diǎn)是免疫復(fù)合物沉積于血管壁,形成微血栓及纖維素性壞死,出現(xiàn)動(dòng)脈炎,血管通透性增加,導(dǎo)致皮下出血。相似的改變也可出現(xiàn)于消化道黏膜,臨床上則表現(xiàn)為腹痛或便血。暢曉元等[19]認(rèn)為皮疹分布范圍廣(皮疹累及軀干及上肢)、出現(xiàn)消化道癥狀和血清IgA水平升高可能是HSPN的高危因素。本文的研究中皮膚紫癜部位表示的是紫癜分布是否蔓延到上半身,即臀部以下和臀部以上兩種情況,也是一個(gè)重要的危險(xiǎn)因素。Chan等[20]的Meta分析認(rèn)為年齡>10歲、嚴(yán)重的腹部癥狀、關(guān)節(jié)炎、紫癜持續(xù)或復(fù)發(fā)、ASO升高是HSPN的危險(xiǎn)因素。Bogdanovic[21]的研究認(rèn)為持續(xù)或復(fù)發(fā)紫癜,腹部癥狀,較大年齡是HSPN最重要的危險(xiǎn)因素。宋純東等[22]認(rèn)為兒童HSPN新月體含量與 24 h 尿蛋白水平等均有一定相關(guān)性,大量蛋白尿是影響腎功能及病程的重要因素。與本研究得出的過敏性紫癜發(fā)生腎損害重要預(yù)測特征結(jié)果一致。
本研究尚存在以下不足,首先,本研究為單中心回顧性研究,樣本量偏少且未經(jīng)外部驗(yàn)證;其次,受收集病例資料來源限制,本研究雖然納入了許多預(yù)測變量進(jìn)行篩選,但仍不夠全面,可能存在未納入的潛在預(yù)測變量;再次,模型的穩(wěn)定性尚有欠缺;最后,在臨床應(yīng)用方面,開發(fā)更多的輔助決策技術(shù),更好地服務(wù)于臨床,也是我們?nèi)孕枧Φ姆较颉?/p>
小結(jié):本文使用Logistic回歸和XGBoost兩種方法分別對患兒HSP是否發(fā)生腎損害進(jìn)行預(yù)測,對比發(fā)現(xiàn)XGBoost模型的表現(xiàn)更好。本研究意在用簡單的臨床數(shù)據(jù)進(jìn)行HSP發(fā)生腎損害的預(yù)測,可以減少對患者的有創(chuàng)性檢查帶來的傷害。在以后的工作中,我們將完善不足,以臨床需求為出發(fā)點(diǎn),更好地服務(wù)于臨床應(yīng)用。