羅 妍 王 樅 葉文玲
①(北京郵電大學(xué)計算機(jī)學(xué)院(國家示范性軟件學(xué)院) 北京 100876)
②(北京郵電大學(xué)可信分布式計算與服務(wù)教育部重點(diǎn)實(shí)驗室 北京 100876)
③(中國醫(yī)學(xué)科學(xué)院中國協(xié)和醫(yī)科大學(xué)北京協(xié)和醫(yī)院腎內(nèi)科 北京 100730)
急性腎損傷(Acute Kidney Injury, AKI)的特點(diǎn)是在48h內(nèi)腎功能迅速下降[1],患者主要表現(xiàn)為血清肌酐(Serum Creatinine, Scr)升高或尿量減少[2]。根據(jù)2012年改善全球腎臟病預(yù)后組織(Kidney Disease: Improving Global Outcomes,KDIGO)提出的診斷標(biāo)準(zhǔn),AKI被定義為48小時內(nèi)Scr增加至少26.5μmol·L—1(0.3 mg·dL—1)或達(dá)到基線值的1.5倍及以上,且明確或經(jīng)推斷上述情況發(fā)生在7d之內(nèi),尿量減少小于 0.5mL·(kg·h)—1,且時間持續(xù)6h以上[3]。AKI在各種臨床環(huán)境中都會經(jīng)常遇到,占重癥監(jiān)護(hù)病房(Intensive Care Unit, ICU)患者的20%~50%[4—6],住院患者的5%~7%[7,8]。此外,AKI還與高死亡風(fēng)險相關(guān),與無AKI的患者相比,患有AKI患者的死亡風(fēng)險增加了7倍[9]。有研究稱在ICU,AKI患者的死亡率高達(dá)10.3%~26.5%[10—14]。美國的住院數(shù)據(jù)顯示,AKI造成每年估計47~240億美元的費(fèi)用[15]。
有研究表明,AKI分期越高,需要腎臟替代治療的患者越多,病死率越高[16—18]。也有越來越多的證據(jù)表明,即使AKI在癥狀上治愈,其長期慢性腎病、心血管疾病和死亡的風(fēng)險也會增加[19—21]。因此,早期識別AKI風(fēng)險患者,并對AKI高風(fēng)險患者進(jìn)行早期干預(yù),對于減少AKI的發(fā)病率、有效縮短疾病進(jìn)展并降低死亡率上具有重大意義。
在AKI概念出現(xiàn)之前,常用的概念是急性腎功能衰竭(Acute Renal Failure, ARF),為了強(qiáng)調(diào)早期腎損害在診斷標(biāo)準(zhǔn)中的重要性才被AKI取代[22]。而早期診斷和干預(yù)可延緩AKI進(jìn)展為嚴(yán)重階段和出院后慢性腎病的發(fā)展[23]。考慮到AKI的高死亡率和早期發(fā)現(xiàn)的重要性,臨床醫(yī)生需要新的方法在顯著腎損害發(fā)生之前早期預(yù)測AKI。
近年來,機(jī)器學(xué)習(xí)(Machine Learning, ML)算法在疾病預(yù)測模型中應(yīng)用廣泛,有研究發(fā)現(xiàn)可以利用Scr水平和現(xiàn)有的臨床指標(biāo)來預(yù)測AKI的發(fā)生。Flechet等人[24]對252名危重患者進(jìn)行了前瞻性研究,并將醫(yī)生對AKI預(yù)測的結(jié)果與基于隨機(jī)森林算法的AKI預(yù)測模型進(jìn)行了比較,發(fā)現(xiàn)AKI預(yù)測模型能篩選出高危患者和減少假陽性率,并能比醫(yī)生更早提供預(yù)測。
但目前流行的AKI風(fēng)險預(yù)測模型主要關(guān)注提高模型的準(zhǔn)確性,而對模型解釋的關(guān)注較少,這阻礙了機(jī)器學(xué)習(xí)模型在臨床實(shí)踐中的應(yīng)用[25,26]。因此,為了支持臨床醫(yī)生的決策,有必要在保持準(zhǔn)確預(yù)測的同時理解和解釋這些關(guān)系。然而,同時實(shí)現(xiàn)良好的可預(yù)測性和可解釋性是具有挑戰(zhàn)性的,因為許多預(yù)測模型通常是“黑箱”的,而可解釋的模型通常具有較差的預(yù)測性能[27]。為此,本文的目標(biāo)是開發(fā)一個可進(jìn)行AKI早期預(yù)測的可解釋模型,重點(diǎn)是模型解釋,并期望該模型能廣泛應(yīng)用于臨床。
本文的結(jié)構(gòu)如下:第2節(jié)介紹本研究的相關(guān)工作。第3節(jié)將深入討論XGBoost(eXtreme Gradient Boosting)和SHAP(SHapley Additive exPlanation)。第4節(jié)和第5節(jié)對AKI風(fēng)險預(yù)測模型的結(jié)果和性能進(jìn)行分析和討論,并通過SHAP提供綜合特征解釋。最后,對研究結(jié)果、優(yōu)勢和局限性進(jìn)行詳細(xì)的討論。
疾病的早期預(yù)測可以在支持醫(yī)療衛(wèi)生專業(yè)人員方面發(fā)揮重要作用,據(jù)統(tǒng)計,11%的醫(yī)院死亡是由于未能及時識別和治療病情惡化所致[28]。近5年來,ML方法在準(zhǔn)確、及時預(yù)測AKI高?;颊叻矫姘l(fā)揮了重要作用。例如,F(xiàn)lechet等人[29]開發(fā)并驗證了隨機(jī)森林預(yù)測模型,成功預(yù)測了成年ICU患者的AKI,受試者工作特征曲線下面積(Area Under the receiver operating characteristics Curve,AUC)達(dá)到0.84。
Mohamadlou等人[30]使用梯度提升算法以生命體征和Scr為特征預(yù)測重癥AKI,AUC值在第48小時和72小時分別為0.76和0.73。次年,Lei等人[31]也使用同樣的機(jī)器學(xué)習(xí)模型來識別術(shù)后出現(xiàn)AKI的患者,最終模型的AUC為0.82。此外,Koyner等人[32,33]開發(fā)并在最近對其梯度提升算法模型進(jìn)行了外部驗證,該預(yù)測模型對48小時內(nèi)1期AKI的預(yù)測AUC值為0.67。
Simonov等人[34]利用來自同一衛(wèi)生保健系統(tǒng)中3家醫(yī)院的169859名成人住院患者的回顧性數(shù)據(jù)開發(fā)了一個簡單的邏輯回歸模型,并證明基于現(xiàn)有實(shí)驗室數(shù)據(jù)的簡單模型可以準(zhǔn)確預(yù)測AKI, AUC為0.74。
Xu等人[35]用ML模型(邏輯回歸、隨機(jī)森林和梯度提升算法) 對58976例重癥監(jiān)護(hù)病房AKI患者的死亡風(fēng)險進(jìn)行預(yù)測,發(fā)現(xiàn)梯度提升算法的AUC為0.75,在預(yù)測死亡率方面優(yōu)于其他模型。
Zimmerman等人[36]對23950例成年危重病患者進(jìn)行了研究,建立了邏輯回歸預(yù)測模型,用于入ICU 72 h后AKI的早期預(yù)測,AUC為0.78。
Rashidi等人[37]開發(fā)并內(nèi)部驗證了ML模型,比較了50名燒傷和51名創(chuàng)傷患者的AKI早期識別。他們的遞歸神經(jīng)網(wǎng)絡(luò)模型能夠提前62h準(zhǔn)確預(yù)測AKI,AUC為0.92。
如前所述,大多數(shù)模型的AUC表現(xiàn)一般[30,32—35],而一些研究集中于特定的患者群體,如心臟手術(shù)患者[31],或研究樣本量小[37],從而限制了這些模型的使用。此外,從表1可以看出,目前大多數(shù)研究中使用的特征向量非常繁瑣,收集和計算也很復(fù)雜。這些研究大多缺乏模型可解釋性,只有有限的解釋提供簡單的特征重要性結(jié)果。相比之下,本文在前期研究的基礎(chǔ)上,使用公開可訪問的包含超過46000名患者的去識別健康數(shù)據(jù)的重癥監(jiān)護(hù)醫(yī)學(xué)信息數(shù)據(jù)庫MIMIC(Medical Information Mart for Intensive Care)III進(jìn)行數(shù)據(jù)分析和模型開發(fā)[38],最后基于XGBoost算法構(gòu)建了重癥監(jiān)護(hù)病房患者的AKI早期預(yù)測模型,并比較了XGBoost與其他4種流行的機(jī)器學(xué)習(xí)技術(shù)的性能。模型中僅使用常見的生命體征和實(shí)驗室檢測指標(biāo),通過有效的數(shù)據(jù)預(yù)處理和XGBoost模型參數(shù)調(diào)整,取得了良好的AKI早期風(fēng)險預(yù)測性能。然后,利用SHAP 估計的Shapley值從全局和局部兩個角度對預(yù)測模型進(jìn)行解釋。解釋結(jié)果不依賴所使用的預(yù)測模型,這保證了結(jié)果的可靠性并為解決臨床問題提供更多的證據(jù)支撐。這些成為這項工作的主要貢獻(xiàn)。
表1 既往研究結(jié)果表明ML技術(shù)可以有效地用于AKI預(yù)測
本研究中屬于回顧性隊列研究,數(shù)據(jù)來源于一個公開的、大規(guī)模的重癥醫(yī)學(xué)數(shù)據(jù)庫——MIMICIII。該數(shù)據(jù)庫由麻省理工學(xué)院計算生理學(xué)實(shí)驗室開發(fā),整合了2001年至2012年貝斯以色列女執(zhí)事醫(yī)療中心46520例成年ICU患者所有連續(xù)的匿名綜合臨床數(shù)據(jù),為重癥醫(yī)學(xué)科醫(yī)生開展臨床研究提供了極大的便利[38]。
本研究的目的是預(yù)測ICU患者AKI的發(fā)生。我們使用KDIGO診斷標(biāo)準(zhǔn)對AKI進(jìn)行定義[3],在48 h內(nèi)Scr水平達(dá)到基線值的1.5倍及以上或增加0.3 mg/dL??紤]到AKI分期的特異性較差[39],以及我們的數(shù)據(jù)集中缺乏足夠符合要求的尿量數(shù)據(jù),因此本研究排除了尿量標(biāo)準(zhǔn)?;€值定義為入院后24 h內(nèi)首次Scr測量值。為明確早期、亞臨床的患者生理基線惡化是預(yù)測AKI的重要原因,使患者得到及時的治療,本研究主要使用第1天的生理變量檢測值來預(yù)測未來48 h內(nèi)ICU住院患者發(fā)生AKI的風(fēng)險。在19001例ICU記錄中,共提取出4532例滿足以上條件的AKI病例。
本研究的主要結(jié)果是入院后3 d內(nèi)AKI的發(fā)生率。其時間窗示意圖如圖1所示,Pt(Prediction time)表示預(yù)測時間,Et(Event time)表示AKI發(fā)生時間,即Pt發(fā)生后48 h。
圖1 數(shù)據(jù)提取時間間隔示意圖(AKI的確診時間窗為ICU入院24 h后)
其中Et的預(yù)測結(jié)果被編碼為一個二元分類的因變量,分為兩類:0(患者在Et期間未出現(xiàn)AKI)和1(患者在Et期間出現(xiàn)AKI)。為了預(yù)測AKI的發(fā)生,本文根據(jù)ICU常用的疾病風(fēng)險預(yù)測評分系統(tǒng)(如Apache, SAPS等)、專家意見和數(shù)據(jù)集可用變量情況,從MIMIC III數(shù)據(jù)庫中提取了患者的24 h臨床資料記錄,包括患者的年齡、性別、Scr、生命體征和實(shí)驗室化驗結(jié)果,以及每小時尿量、24 h尿量等。為了更好地理解數(shù)據(jù),表2列出了AKI疾病組和正常對照組兩組變量的分布情況(百分比)。該分析是在預(yù)處理任務(wù)之前進(jìn)行的。
由于AKI事件的發(fā)生與時間相關(guān),這給數(shù)據(jù)提取和使用帶來了障礙。在MIMIC-III數(shù)據(jù)庫中,一些與時間相關(guān)的特征測量結(jié)果缺失,缺失值的百分比高達(dá)60%以上。此外,表2的數(shù)據(jù)表明,AKI患者和非AKI患者的類別比例極不平衡。這兩個問題使得AKI早期預(yù)測模型的準(zhǔn)確預(yù)測和解釋變得更加困難。因此,處理缺失的值并解決類別的不平衡十分重要。
表2 各變量在基礎(chǔ)數(shù)據(jù)集中的分布情況(%)
與大多數(shù)臨床和實(shí)驗室數(shù)據(jù)集一樣,本文的基礎(chǔ)數(shù)據(jù)集包含缺失值,例如,與平均動脈壓、心率、體溫、肺泡-動脈氧梯度、紅細(xì)胞比容、白蛋白和膽紅素相關(guān)的時間序列有55%~90%的數(shù)據(jù)缺失。考慮到這些變量的重要性,我們?nèi)匀槐A糁鼈?。對于這些缺失值,我們首先分別用均值和中位數(shù)來填充,但兩者的效果都很差。在嚴(yán)重缺失的情況下,中位數(shù)甚至更不可靠。使用平均值填充的優(yōu)點(diǎn)是不會造成嚴(yán)重的數(shù)據(jù)失真,并且可以保證填充后的平均值不會發(fā)生太大的變化。但在嚴(yán)重缺失數(shù)據(jù)的情況下,這種填充會導(dǎo)致整個樣本信息量大幅減少,破壞數(shù)據(jù)的隨機(jī)性。因此,當(dāng)嚴(yán)重缺失的特征很重要時,將缺失的特征作為一個類別來處理是十分有效的,這樣可以既保留特征又保證數(shù)據(jù)的無偏估計。本文沒有對缺失的數(shù)值進(jìn)行任何插補(bǔ),因為缺失值的估算并不能都為以電子健康記錄為基礎(chǔ)的預(yù)測模型提供一致的改進(jìn)效果[40]。
如表2所示,正常組納入14469條病例,AKI病例入選僅4532條。非AKI比AKI的比率接近3:1,即該數(shù)據(jù)集的分布是高度不平衡的。目前一般采用過采樣和欠采樣技術(shù)來處理不平衡數(shù)據(jù)。并且由于欠采樣技術(shù)往往會導(dǎo)致大量數(shù)據(jù)的丟失,從而導(dǎo)致模型精度的下降[41]。所以,過采樣方法通常是首選。SMOTE(Synthetic Minority Oversampling Technique)是一種常用的過采樣方法,它通過線性插值的方法在兩個少數(shù)類樣本間合成新的樣本,從而有效緩解由隨機(jī)過采樣引起的過擬合問題。本研究使用了Chawla等人[42]提出的SMOTE方法來平衡數(shù)據(jù)。
最后,由于本文使用的數(shù)據(jù)集中原始數(shù)據(jù)的取值范圍已經(jīng)確定,為了保持原始數(shù)值之間的關(guān)系,我們選擇了Min-max歸一化方法將我們的數(shù)據(jù)特征值歸一化到[0,1]的范圍。
本研究使用XGBoost算法對ICU患者發(fā)生AKI的風(fēng)險進(jìn)行建模。XGBoost最初由Chen和Guestrin在2016年提出[43]。XGBoost是一個集成分類器,它通過將多個決策樹模型進(jìn)行集成來增強(qiáng)分類能力。也就是說,需要將多棵樹的得分相加得到最終的預(yù)測得分(每次迭代,都在現(xiàn)有的樹上添加一個新的函數(shù),擬合上一輪預(yù)測結(jié)果與真實(shí)值之間的殘差)。為了盡可能大地降低目標(biāo)函數(shù),XGBoost使用了2階泰勒展開來自定義損失函數(shù),可以在不選定損失函數(shù)具體形式的情況下,僅通過輸入數(shù)據(jù)值就能進(jìn)行葉子分裂優(yōu)化計算,即將損失函數(shù)的選取和模型算法優(yōu)化分開了。這種去耦合增加了XGBoost的適用性,可以使其更為精準(zhǔn)地逼近真實(shí)的損失函數(shù)。XGBoost在許多領(lǐng)域都有出色的表現(xiàn)[44,45],并顯示出更高的預(yù)測精度和更快的處理時間,同時計算成本更低,復(fù)雜性更低[43,46]。這些特性正好適合在預(yù)測AKI時應(yīng)對稀疏和高維臨床數(shù)據(jù)的需要。XGBoost在應(yīng)用機(jī)器學(xué)習(xí)方面的優(yōu)勢在于其極高的精度和速度。在本研究中,我們還將XGBoost與其他4種常用的ML算法,包括邏輯回歸(Logistic Regression, LR)、支持向量機(jī)(Support Vector Machine, SVM)、隨機(jī)森林分類器(Random Forest, RF)和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)的性能進(jìn)行了比較,以驗證XGBoost是否能夠提供最佳性能。
根據(jù)Chen等人[43]的研究,XGBoost模型的性能可以通過調(diào)整參數(shù)來最大化。參數(shù)調(diào)優(yōu)對于XGBoost防止過擬合很重要,由于本研究中使用的方法是監(jiān)督學(xué)習(xí),而網(wǎng)格搜索是監(jiān)督學(xué)習(xí)中調(diào)整參數(shù)和提高模型泛化性能的有效方法[47],所以我們選擇了網(wǎng)格搜索來調(diào)整參數(shù)以獲得最優(yōu)性能。
網(wǎng)格搜索是執(zhí)行超參數(shù)調(diào)優(yōu)以確定給定模型最優(yōu)值的過程。手動執(zhí)行此操作可能會花費(fèi)相當(dāng)多的時間和資源,因此我們使用GridSearchCV來自動化超參數(shù)的調(diào)優(yōu),其中“CV”代表“交叉驗證”。GridSearchCV 可對估計器的指定參數(shù)值窮舉搜索,使某些估計器更加有效。在本文中,交叉驗證后的最佳XGBoost超參數(shù)值是:learning_rate: 0.05,max_depth: 6, n_estimators: 700, min_child_weight: 1, gamma: 0.6, colsample_bytree: 0.7, subsample: 0.9, reg_alpha: 0.1,reg_lambda: 3。
本研究中所有的預(yù)測模型和相關(guān)分析都是使用Python3.7中的開源庫(scikit-learn, XGBoost和SHAP) 在Jupyter notebook平臺上進(jìn)行的。
本文將數(shù)據(jù)集隨機(jī)分為訓(xùn)練集(70%的隊列)和測試集(30%的隊列),預(yù)測AKI風(fēng)險的模型僅使用來自訓(xùn)練集的數(shù)據(jù)建立,針對訓(xùn)練集進(jìn)行不重復(fù)抽樣隨機(jī)分為5份。每次都用其中4份來訓(xùn)練模型,余下的1份用來驗證4份訓(xùn)練出來的模型的準(zhǔn)確率,重復(fù)該步驟5次,直到每個子集都有一次機(jī)會作為驗證集,其余機(jī)會作為訓(xùn)練集。計算5組測試結(jié)果的平均值作為模型精度的估計,并作為當(dāng)前5折交叉驗證下模型的性能指標(biāo)。交叉驗證可以在一定程度上減小過擬合,并從有限的數(shù)據(jù)中獲取盡可能多的有效信息。在模型開發(fā)過程中,為模型性能的測量提供了一種更加穩(wěn)定可靠的方法[48]。最后,我們利用剩余的30%測試集進(jìn)行內(nèi)部驗證,這有利于我們評估訓(xùn)練好的模型在新數(shù)據(jù)上的表現(xiàn)。
KDIGO定義的1期AKI預(yù)測結(jié)果是本文的主要結(jié)果,本文使用指標(biāo)受試者工作特征曲線(Receiver operating characteristic curves)下面積AUC評估模型性能。除此之外,我們還引入了以下4個常用指標(biāo):準(zhǔn)確性(ACC)、敏感度(Sen,真實(shí)陽性率,即召回率)、精確率(Pre,陽性預(yù)測值)和F1值[49]。其計算方法為
TP,F(xiàn)P,TN,F(xiàn)N分別表示真陽性、假陽性、真陰性、假陰性。AUC為受試者操作特征曲線下面積,而該曲線圖是反映敏感性與特異性之間關(guān)系的曲線。橫坐標(biāo)X軸為1-特異性,也稱為假陽性率(誤報率),X軸越接近零準(zhǔn)確率越高;縱坐標(biāo)Y軸稱為敏感度,也稱為真陽性率(敏感度),Y軸越大代表準(zhǔn)確率越好[50]。值得注意的是,考慮到模型的AUC值對預(yù)測建模和決策有顯著意義,主要表現(xiàn)為高特異性較少引起干預(yù),而高敏感性更容易觸發(fā)干預(yù)[51],因此我們在模型選擇和最終報告中使用的主要指標(biāo)是AUC。此外,為了了解模型性能的不確定性,我們計算了95%置信區(qū)間。
盡管機(jī)器學(xué)習(xí)在許多領(lǐng)域取得了巨大的成功,但因缺乏可解釋性嚴(yán)重限制了其在現(xiàn)實(shí)任務(wù)尤其是安全敏感任務(wù)中的應(yīng)用。可解釋性在醫(yī)學(xué)領(lǐng)域中是非常重要的。醫(yī)療輔助診斷系統(tǒng)必須是可理解的、可解釋的,理想情況下,它應(yīng)該能夠向所有相關(guān)方解釋提供對應(yīng)決策的完整邏輯,才能獲得醫(yī)生的信任。由于醫(yī)學(xué)數(shù)據(jù)自有的特點(diǎn),構(gòu)建用于醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)分析的可解釋深度學(xué)習(xí)模型與其他領(lǐng)域中的應(yīng)用是不同的。本文重點(diǎn)關(guān)注SHAP可解釋方法在AKI早期輔助診斷模型中的應(yīng)用。SHAP基于博弈論[52]和局部解釋[53],屬于經(jīng)典的事后解釋框架,可以提供Shapley值來估計每個特性的貢獻(xiàn)。Shapley值是一種描述模型在對特定數(shù)據(jù)點(diǎn)進(jìn)行預(yù)測時特定特征的“權(quán)重”或“重要性”的方法,是SHAP的核心所在。與傳統(tǒng)的特征重要性方法(如XGBoost的特征重要性)相比,SHAP具有更好的一致性,可以呈現(xiàn)各預(yù)測因子相對于目標(biāo)變量的正/負(fù)關(guān)系,用于局部和全局解釋[54,55]。對于局部可解釋性,每種特征都有自己的一組Shapley值。因此,它可以用來解釋每個樣本每個特征對預(yù)測的貢獻(xiàn),增加了透明度,便于臨床醫(yī)生分析預(yù)測模型的可靠性。將所有樣本中對應(yīng)該變量的Shapley值取平均值作為該特征的重要性值,即可得到全局解釋。在本文中,通過計算各ICU臨床指標(biāo)的Shapley值來分析各特征與AKI風(fēng)險的相關(guān)性,并結(jié)合相關(guān)臨床研究結(jié)果和臨床實(shí)際表現(xiàn)情況來進(jìn)行模型解釋。
因為Shapley值是解釋特征重要性的唯一方法,滿足局部準(zhǔn)確性和一致性的數(shù)學(xué)特性,而Tree Explainer 是專門解釋樹模型的解釋器,通過樹集成和加法方法激活Shapley值用于特征歸因。因此,本文采用mean|Tree SHAP|,一種基于個性化的啟發(fā)式SHAP平均的全局屬性方法,對特征進(jìn)行排序,以明確模型中的重要預(yù)測因素。
本研究使用MIMIC III進(jìn)行數(shù)據(jù)提取和模型驗證。表1為研究樣本的統(tǒng)計結(jié)果,需要注意的是,在MIMIC III數(shù)據(jù)集中,我們使用icustay ID作為唯一標(biāo)識。陰性樣本數(shù)量通常遠(yuǎn)遠(yuǎn)多于陽性樣本數(shù)量,這是臨床數(shù)據(jù)集普遍存在的問題。基礎(chǔ)數(shù)據(jù)集中包含19001例患者,其中發(fā)生AKI的患者4532例,約占23.85%。在這個數(shù)據(jù)集中,他們的平均年齡(標(biāo)準(zhǔn)差[SD])為64.15(15.96)歲,其中女性為8110例(42.68%)。與非AKI患者相比,AKI患者年齡平均大3歲,女性較少(40.73% vs 43.29%)(表1)。從表1中我們發(fā)現(xiàn)AKI患者基礎(chǔ)腎功能差,格拉斯哥昏迷評分(GCS)加重,更常伴發(fā)糖尿病、肝細(xì)胞功能障礙。
在本研究中,XGBoost是在13001例(70%)隨機(jī)選擇的數(shù)據(jù)上進(jìn)行訓(xùn)練的,其余的6000例(30%)用于模型測試。圖2為XGBoost模型五折交叉驗證的AUC結(jié)果。我們可以看到AUC在0.828和0.844之間變化??偟膩碚f,這些指標(biāo)明顯偏高,說明XGBoost可以用于AKI風(fēng)險檢測的建模。XGBoost最終在30%的測試集上測試,最終得到的性能指標(biāo)為:準(zhǔn)確性為0.816,AUC為0.839,再次表明該模型性能穩(wěn)定,表現(xiàn)顯著。XGBoost穩(wěn)定的高AUC(高靈敏度和高特異性)在其他研究中得到了進(jìn)一步的檢驗和驗證[56]:如Zimmerman等人[36]認(rèn)為大多數(shù)預(yù)測模型的AUC在0.75左右。此外,與Gong等人[27], Zimmerman等人[36]和Li等人[57]的工作相比,本文的模型獲得了更好的AUC結(jié)果(Gong等人:0.781;Zimmerman等人:0.783;Li等人:0.779)。并且其中兩項研究沒有進(jìn)一步研究各特征向量間的詳細(xì)關(guān)系并提供對應(yīng)的模型解釋。
圖2 XGBoost模型5折交叉驗證的AUC值結(jié)果
此外,本文還比較了XGBoost與其他4種流行的ML算法的性能,結(jié)果見表3(各模型五倍交叉驗證的平均值;括號中的值為95%置信區(qū)間)和圖3。從測試的5種算法中,XGBoost表現(xiàn)最好。實(shí)驗結(jié)果也表明,其余4種模型各有優(yōu)缺點(diǎn)??傮w而言,集成學(xué)習(xí)算法的性能優(yōu)于基分類器,特別是在靈敏度方面。這說明基礎(chǔ)算法不適合解決這類復(fù)雜的分類問題。
圖3 由測試集計算得到的各模型AUC結(jié)果
表3 5種AKI風(fēng)險預(yù)測模型的性能比較
除對AKI預(yù)測模型的預(yù)測能力進(jìn)行評估外,本文還進(jìn)一步分析了訓(xùn)練模型提供的關(guān)于特征重要性的信息。根據(jù)ICU常用的Apache, SAPS等風(fēng)險預(yù)測評分系統(tǒng),結(jié)合臨床專家的意見,從MIMIC III數(shù)據(jù)庫中提取了與AKI發(fā)生、發(fā)展高度相關(guān)的特征,并在每個患者入院后最初24小時內(nèi)取平均值。最終共篩選出21個變量組成基本數(shù)據(jù)集,包括年齡、性別、生命體征和臨床實(shí)驗室結(jié)果。
圖4顯示了可引起AKI的前20個結(jié)構(gòu)化臨床指標(biāo)。根據(jù)結(jié)果,入院當(dāng)天基線Scr在AKI風(fēng)險預(yù)測中發(fā)揮了關(guān)鍵作用。總尿量(Total Volume Urine in 24 hours, TVU)是影響腎功能最重要的變量之一,其次是動脈血氧分壓(partial Pressure of Oxygen,PO2)、體溫和血尿素氮(Blood Urea Nitrogen,BUN)。預(yù)測AKI的關(guān)鍵信息集中在權(quán)重排名前5位的預(yù)測因子中。這一結(jié)果符合AKI病理生理學(xué)發(fā)展[58],即Scr、尿量和BUN與AKI發(fā)生高度相關(guān)。PO2和體溫也是AKI的危險因素,表示這兩個指標(biāo)的異常可能增加ICU患者罹患AKI的概率。我們希望這些發(fā)現(xiàn)的關(guān)鍵變量能夠引起重視,進(jìn)而為協(xié)助臨床醫(yī)生更快地判斷ICU患者發(fā)生AKI的風(fēng)險,縮小臨床檢查和檢測的范圍。
圖4 預(yù)測模型中前20個變量的排名
為了進(jìn)一步明確各指標(biāo)相對于目標(biāo)變量的正/負(fù)關(guān)系,本文使用SHAP的特殊變體,TreeSHAP用于模型解釋。圖5為AKI風(fēng)險預(yù)測模型特征重要性排序的SHAP摘要圖。該摘要圖結(jié)合了特征重要度和特征的影響。摘要圖上的每個點(diǎn)都是一個特征和一個實(shí)例的Shapley值,y軸上的位置由特征決定,x軸上的位置由Shapley值決定,顏色代表特征值從小到大,重疊點(diǎn)在y軸方向上浮動,因此我們可以了解每個特征的Shapley值的分布。
我們可以看到入ICU 24h內(nèi)首次SCr測量值(Scr_baseline)對模型的影響最大。此外,該特征值越高,Shapley值越高,發(fā)生AKI的概率就越大??偰蛄渴堑?個最重要的特征,該特征值越低,發(fā)生AKI的概率就越高,與GCS相同。在生命體征特征方面,圖5也顯示較高的體溫和呼吸頻率的患者發(fā)生AKI的概率增高。此外,盡管膽紅素(Bilirubin, BIL)的重要性明顯低于上述特征,但它對部分患者而言影響最大,且對AKI的發(fā)生有積極的影響。此外,在實(shí)驗室檢查方面,紅細(xì)胞比容(Hematocrit, HCT)和白蛋白(Albumin, ALB)越高越容易發(fā)生AKI,但它們的重要性也明顯較低。上述實(shí)驗結(jié)果與臨床及相關(guān)研究結(jié)果一致[59],進(jìn)一步證實(shí)了GCS, BIL, HCT和相關(guān)生命體征對AKI風(fēng)險的影響。盡管圖5的摘要圖可以簡要說明特征對AKI風(fēng)險的正面或負(fù)面影響,但信息仍然有限。為了幫助醫(yī)生更好地了解各變量之間的交互效應(yīng),有待進(jìn)一步研究各預(yù)測指標(biāo)之間的關(guān)系。圖6給出了兩個SHAP特征依賴圖的例子。
圖5 平均排名前20的特征變量SHAP摘要圖
如圖6(a)所示,我們選擇TVU作為特征來確定Scr從0.5增加到3.5時的影響。紅色的點(diǎn)代表Scr的高值,藍(lán)色的點(diǎn)代表低值。當(dāng)TVU較低時,Scr的SHAP值會增加,說明增加TVU會降低AKI發(fā)生的可能性。即降低TVU,增加Scr會導(dǎo)致AKI的概率增加。而Scr較低時的SHAP值小于零,說明增加TVU而Scr較低時,AKI發(fā)生的概率較低。
圖6(b)顯示了BUN和Scr對預(yù)測AKI帶來的影響。忽略圖形的顏色,關(guān)注BUN變化對模型輸出的影響。盡管存在噪聲,但在BUN值為25之前,SHAP值大多為負(fù)值。在25~75范圍內(nèi),Shapley值逐漸增大并為正,當(dāng)BUN約為150時,SHAP值再次逐漸減小并為負(fù)。BUN的高度非線性影響證明了只看一個參數(shù)(例如,它是正的還是負(fù)的)往往是不夠的。從本質(zhì)上看,SHAP值表明BUN的主要影響為正;即當(dāng)BUN升高超過25時,AKI風(fēng)險增加。在BUN較高時,紅點(diǎn)出現(xiàn)越多;說明Scr和BUN呈正相關(guān)。從圖6可以看出,TVU降低,BUN升高,說明AKI風(fēng)險增加。一些研究報道BUN和尿量是AKI、終末期腎臟疾病和死亡率的重要指標(biāo)[60,61]。本研究給出的結(jié)果也驗證了這一結(jié)論。
圖6 重要指標(biāo)的SHAP特征依賴圖示例
值得注意的是,這些依賴圖說明的是相關(guān)性,而不是因果關(guān)系。基本上,它們提供了特定范圍下的信息,可以提醒特定環(huán)境下可能出現(xiàn)的結(jié)果變化趨勢。因此有必要將這些信息與醫(yī)生的經(jīng)驗和患者的病情相結(jié)合,以確定該特征是否可以作為干預(yù)的選擇。
最后,為了評估本文中的XGBoost模型,我們檢索了利用MIMIC III數(shù)據(jù)集進(jìn)行AKI預(yù)測的最新研究,并進(jìn)行了對比。如表4所示,本研究獲得了優(yōu)越的性能,這說明我們提出的模型非常有效。
表4 MIMIC-III數(shù)據(jù)集上的最新研究(僅用于AKI預(yù)測)不同模型性能的比較
在本研究中,使用從MIMIC III數(shù)據(jù)庫中提取的一組數(shù)據(jù),訓(xùn)練XGBoost模型對AKI的早期預(yù)測進(jìn)行建模。共納入13001個病例進(jìn)行模型訓(xùn)練,準(zhǔn)確率為0.816,AUC為0.839。此外,模型訓(xùn)練中AUC值(即五倍交叉驗證)也證實(shí)了該算法在預(yù)測AKI方面的高性能。該結(jié)果優(yōu)于文獻(xiàn)中報道的基線模型[36]。本研究還構(gòu)建了基于RF,ANN,SVM和LR算法的AKI風(fēng)險預(yù)測模型。將XGBoost模型與上述模型的性能進(jìn)行比較,結(jié)果表明,在所有評價指標(biāo)中,XGBoost模型的預(yù)測性能最好。相比之下,支持向量機(jī)在所有5種模型中表現(xiàn)出了最弱的性能。
由于支持向量機(jī)模型等基礎(chǔ)算法背后的數(shù)學(xué)邏輯對臨床醫(yī)生來說很難理解,除了預(yù)測結(jié)果之外,它不能給臨床醫(yī)生提供更多的信息。然而,作為一種基于決策樹的集成機(jī)器學(xué)習(xí)算法,XGBoost的另一個好處是它不受多重共線性的影響。因此,即使兩個變量在模型中的作用相同,我們也可以保留兩者,因為我們可以通過SHAP進(jìn)行特征重要性分析。因此,我們認(rèn)為XGBoost模型具有良好的模型性能和臨床可解釋性,在AKI風(fēng)險預(yù)測方面具有很大的潛力。
利用SHAP對最終的XGBoost模型進(jìn)行特征重要性分析,發(fā)現(xiàn)腎功能相關(guān)特征(尤其是Scr)對模型中AKI發(fā)生的概率有實(shí)質(zhì)性影響。相比之下,心率是除性別外最不重要的特征,我們注意到數(shù)據(jù)集中缺失了大量的心率數(shù)據(jù)(83.4%),這可能是導(dǎo)致該結(jié)果的原因之一。該模型的結(jié)果也可以為臨床決策提供信息。以溫度為例,溫度對AKI的發(fā)生概率有積極的影響,可能對高溫患者采取更多的降溫措施可以緩解AKI的發(fā)生。血鉀水平升高可能是腎臟損傷早期電解質(zhì)紊亂的表現(xiàn)[64]。而Glu的特征表明糖尿病共病和程序風(fēng)險可能導(dǎo)致AKI發(fā)病,與文獻(xiàn)一致[65]。特征變量重要性排序結(jié)果證實(shí),臨床記錄中有臨床意義的關(guān)鍵詞可以用于預(yù)測AKI,我們所建立的模型確實(shí)捕捉到了這些特征變量。進(jìn)一步進(jìn)行SHAP依賴分析,獲取并描述兩對特征對模型的影響(圖6),該方法不僅能夠評價特征對模型輸出影響的重要性和方向,還可以提取特征對模型輸出的復(fù)雜非線性影響[66]。值得注意的是,在這項工作中,TVU和BUN的交互影響提供了有意義的信息,這是大多數(shù)其他技術(shù)無法捕捉到的。
我們的研究還有以下幾個優(yōu)勢。首先,本研究使用的數(shù)據(jù)庫是一個公開的、大規(guī)模的ICU數(shù)據(jù)庫,樣本量充足。其次,我們采用XGBoost算法構(gòu)建預(yù)測模型,該模型能夠容納大量特征變量的數(shù)據(jù),并對影響AKI預(yù)測的變量進(jìn)行重要性排序。第三,本文采用了五倍交叉驗證,以獲得更性能更穩(wěn)定的模型。第四,我們所使用的預(yù)測變量可以在臨床實(shí)踐中得到,這就保證了該模型的臨床可用性。最后,本模型具有臨床可解釋性,預(yù)測模型的可靠性,且可以幫助醫(yī)生更好地了解各變量與目標(biāo)變量之間及兩變量相互之間的交互效應(yīng)。
這項回顧性研究仍有一些局限性。首先,本文使用的數(shù)據(jù)是從單中心數(shù)據(jù)庫中提取的。因此,本研究獲得的結(jié)論仍需進(jìn)一步的外部驗證,以進(jìn)行泛化和前瞻性試驗,評估其臨床效用。其次,有許多因素可導(dǎo)致或促成AKI,包括有效循環(huán)血量不足、腎毒性藥物和敗血癥[5,67]。 然而,本研究使用的數(shù)據(jù)集僅包含了部分在MIMIC III數(shù)據(jù)庫中定義的結(jié)構(gòu)化信息,而其他急性腎損傷危險因素,如膿毒癥、燒傷、創(chuàng)傷、心臟手術(shù)、腎毒性藥物等[3],也可能有助于提升我們模型的性能。第三,由于我們沒有獲得ICU入院前的SCr數(shù)據(jù),因此只能以ICU入院后第1次SCr檢測值作為基線。最后,本研究中發(fā)現(xiàn)的重要特征和拐點(diǎn)可作為AKI風(fēng)險的早期體征,但在其推薦范圍是否可作為對照的參考還需進(jìn)一步驗證。
由于AKI與不良臨床結(jié)果和額外的醫(yī)療資源消耗相關(guān),本文開發(fā)了一個高性能的XGBoost預(yù)測模型,通過使用入ICU后的前24 h數(shù)據(jù),早期預(yù)測所有危重成人患者患AKI的風(fēng)險。雖然基于XGBoost算法的AKI風(fēng)險預(yù)測模型的臨床適用性還需要在實(shí)際的臨床實(shí)踐中進(jìn)行檢驗,但我們認(rèn)為XGBoost模型由于其性能和臨床可解釋性,在未來ICU的臨床工作中具有很大應(yīng)用價值,有助于ICU臨床醫(yī)師避免延誤高危AKI患者的治療,這對改善AKI患者的預(yù)后至關(guān)重要。