齊巧娜,劉 艷,陳霽暉,劉昕竹,楊 銳,張津源,郝 昕,王則遠(yuǎn),于 澤,高 飛*,張 健*
隨著信息化技術(shù)的發(fā)展以及利好的政策導(dǎo)向[1-2],醫(yī)療數(shù)據(jù)呈爆炸式增長(zhǎng),對(duì)于數(shù)據(jù)分析,傳統(tǒng)統(tǒng)計(jì)學(xué)傾向于討論在小規(guī)模數(shù)據(jù)上得出的模型或結(jié)論是否真實(shí)可信,并逐漸形成了一整套研究方法。但傳統(tǒng)統(tǒng)計(jì)學(xué)有自身局限性,比如分析的數(shù)據(jù)規(guī)模較小,不能綜合考慮模型的預(yù)測(cè)效果等,不能滿足大規(guī)模、大樣本醫(yī)療數(shù)據(jù)的研究分析需求。人工智能是研究、開(kāi)發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù),是一種認(rèn)知、決策、反饋的過(guò)程。機(jī)器學(xué)習(xí)是人工智能的主要實(shí)現(xiàn)途徑,其不斷從數(shù)據(jù)中創(chuàng)造新的知識(shí),以預(yù)測(cè)患者疾病的個(gè)體進(jìn)程,識(shí)別表型或支持治療決定[3-4],可以彌補(bǔ)傳統(tǒng)統(tǒng)計(jì)學(xué)的缺點(diǎn),被廣泛應(yīng)用于臨床藥學(xué)領(lǐng)域。應(yīng)用機(jī)器學(xué)習(xí)對(duì)醫(yī)療數(shù)據(jù)進(jìn)行挖掘,以總結(jié)、獲取新的知識(shí),與傳統(tǒng)臨床數(shù)據(jù)分析相比,機(jī)器學(xué)習(xí)模型效率更高,性能更高,預(yù)計(jì)在不遠(yuǎn)的未來(lái),機(jī)器學(xué)習(xí)模型將成為臨床藥學(xué)領(lǐng)域的主流[5]。
XGBoost(Extreme Gradient Boosting)算法是機(jī)器學(xué)習(xí)技術(shù)中一項(xiàng)重要的技術(shù)手段,其關(guān)注度和應(yīng)用價(jià)值也越來(lái)越高[6]。在臨床藥學(xué)領(lǐng)域,XGBoost已實(shí)現(xiàn)包括個(gè)體化精準(zhǔn)用藥、藥物不良反應(yīng)預(yù)警以及藥物臨床綜合評(píng)價(jià)等多個(gè)方面的應(yīng)用,本研究對(duì)其進(jìn)行綜述,旨在為XGBoost算法用于臨床藥學(xué)領(lǐng)域提供更多的參考。
1.1 原理簡(jiǎn)介 機(jī)器學(xué)習(xí)XGBoost算法最早在2014年被提出[7],其類似于梯度上升框架,但是兼具線性模型求解器和樹(shù)學(xué)習(xí)算法[8]。因此,XGBoost比現(xiàn)有的梯度上升至少提升10倍[9]。XGBoost算法提供多種目標(biāo)函數(shù),包括回歸、分類和排序,將一系列回歸決策樹(shù)進(jìn)行加和來(lái)達(dá)到回歸目的(見(jiàn)圖1),后一棵樹(shù)取前一棵樹(shù)的殘差作為回歸目標(biāo)[10]。在XGBoost算法中采用梯度來(lái)近似代替殘差。
圖1 決策樹(shù)分類原理整體模型
1.2 在臨床藥學(xué)領(lǐng)域數(shù)據(jù)挖掘的優(yōu)勢(shì) 真實(shí)世界臨床用藥信息不全,數(shù)據(jù)不規(guī)范,例如疾病用藥信息描述不統(tǒng)一、非結(jié)構(gòu)化數(shù)據(jù)等[11-13]。在臨床藥學(xué)各種應(yīng)用場(chǎng)景(如藥物不良反應(yīng)預(yù)警、臨床合理用藥、藥物的療效評(píng)價(jià)及耐藥性機(jī)制研究)構(gòu)建模型的過(guò)程中,存在大量低質(zhì)量數(shù)據(jù),例如冗多高度相關(guān)的特征、極端的類別失衡以及大量的缺失值,給預(yù)測(cè)結(jié)果帶來(lái)很大的噪聲[14]。XGBoost 算法在此類問(wèn)題上具備獨(dú)特的優(yōu)勢(shì):可自動(dòng)優(yōu)化分裂節(jié)點(diǎn),擅長(zhǎng)處理異常值和缺失值較多的無(wú)規(guī)則數(shù)據(jù);可進(jìn)行自主學(xué)習(xí),模型具有可解釋性和靈活性。
2.1 藥物不良反應(yīng)預(yù)警 XGBoost不僅可以從真實(shí)世界數(shù)據(jù)中挖掘風(fēng)險(xiǎn)因素之間復(fù)雜且高度相關(guān)的關(guān)系,還可以提供適用于臨床工作者的數(shù)據(jù)結(jié)果。
他克莫司(Tacrolimus,TAC)誘導(dǎo)的腎毒性具有很大的個(gè)體變異,可能導(dǎo)致治療失敗甚至終末期腎病。然而,目前仍缺乏有效的模型來(lái)早期預(yù)測(cè)TAC誘導(dǎo)的腎毒性,特別是腎病綜合征(Nephrotic syndrome,NS)。MO等[15]基于綜合臨床特征和遺傳變量的機(jī)器學(xué)習(xí),開(kāi)發(fā)并驗(yàn)證了一種針對(duì)NS患兒的TAC誘導(dǎo)腎小管毒性預(yù)測(cè)模型。采集了218例NS患兒數(shù)據(jù),篩選了47個(gè)臨床特征和244個(gè)遺傳變量建立模型,并前瞻性地納入了11例患兒數(shù)據(jù)進(jìn)行外部驗(yàn)證。以給藥前后尿N-乙酰- β-D-氨基葡萄糖酶水平的變化作為腎小管毒性指標(biāo)。采用XGBoost、GBDT(梯度增強(qiáng)決策樹(shù))、ET(極隨機(jī)樹(shù))、RF(隨機(jī)森林)和LR(邏輯回歸)5種機(jī)器學(xué)習(xí)算法進(jìn)行模型生成和驗(yàn)證。XGBoost模型具有很高的預(yù)測(cè)精度,臨床藥師可以用其提前估計(jì)他克莫司誘導(dǎo)NS患者腎毒性的可能性,在給藥前優(yōu)化治療方案或給藥后及時(shí)干預(yù),避免腎損害。
Hatmal等[16]開(kāi)發(fā)了一種機(jī)器學(xué)習(xí)算法,來(lái)預(yù)測(cè)注射新冠疫苗不良反應(yīng)的嚴(yán)重程度。模型納入了2 213名接受國(guó)藥集團(tuán)、阿斯利康、輝瑞生物科技公司等疫苗接種的受試者信息,XGBoost模型顯示了很高的預(yù)測(cè)效果。在這項(xiàng)研究中,XGBoost可根據(jù)輸入數(shù)據(jù)預(yù)測(cè)不良反應(yīng)的嚴(yán)重程度,為可能出現(xiàn)嚴(yán)重不良反應(yīng)的患者提供更多的醫(yī)療支持。
2.2 臨床合理用藥 基于XGBoost算法建立合理用藥模型,可以提升臨床精準(zhǔn)用藥水平,提高患者用藥安全,節(jié)約患者經(jīng)濟(jì)成本,為精準(zhǔn)醫(yī)藥的發(fā)展提供了更多可能。
基于曲線下面積(Area under curve,AUC)監(jiān)測(cè)麥考酚酸(Mycophenolic acid,MPA)治療效果是一種成熟的方法,機(jī)器學(xué)習(xí)(Machine learning,ML)方法可以幫助估算AUC。Woillard等[17]利用XGBoost 的ML模型估算器官移植患者M(jìn)PA的AUC。研究收集了6 884例患者給藥后12 h內(nèi)MPA的AUC數(shù)據(jù)(12 877條),研究結(jié)果顯示,XGBoost ML模型可以精確預(yù)測(cè)MPA 的AUC,該方法用于常規(guī)暴露量估計(jì)和劑量調(diào)整,為臨床用藥提供一種參考方法。
局部枸櫞酸抗凝(Regional citrate anticoagulation,RCA)是持續(xù)腎臟替代治療中的重要抗凝方法。為了提高患者用藥安全,實(shí)現(xiàn)計(jì)算機(jī)輔助劑量監(jiān)測(cè)和控制,Chen等[18]將重癥監(jiān)護(hù)病房(Intensive care unit,ICU)患者納入隊(duì)列,開(kāi)發(fā)了一個(gè)數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)模型,用于預(yù)警枸櫞酸過(guò)量,并對(duì)枸櫞酸泵送率和10%葡萄糖酸鈣輸入率提供調(diào)整建議。研究采用了Adaboost、XGBoost、SVM和淺層神經(jīng)網(wǎng)絡(luò)4種機(jī)器學(xué)習(xí)算法進(jìn)行建模并比較預(yù)測(cè)性能,為機(jī)器學(xué)習(xí)方法監(jiān)測(cè)和調(diào)整局部枸櫞酸抗凝提供了一種可行性,可進(jìn)一步為臨床藥師的藥學(xué)監(jiān)護(hù)提供參考。
區(qū)分ICU念珠菌血癥患者有助于臨床準(zhǔn)確使用抗真菌藥,為個(gè)別患者設(shè)計(jì)合理的治療方案。以往的念珠菌血癥預(yù)測(cè)模型主要采用傳統(tǒng)的Logistic模型,存在一定的局限性。Yuan等[19]開(kāi)發(fā)了一種機(jī)器學(xué)習(xí)算法,用于預(yù)測(cè)新發(fā)全身炎癥反應(yīng)綜合征(Systemic inflammatory response syndrome,SIRS)患者的念珠菌血癥,該研究使用了5種機(jī)器學(xué)習(xí)算法—XGBoost、SVM、RF、ET和邏輯回歸(LR)模型來(lái)預(yù)測(cè)念珠菌血癥患者。在8 002例新發(fā)SIRS(7 932例患者)中,137例血培養(yǎng)念珠菌陽(yáng)性。真菌定殖、糖尿病、急性腎損傷、腸外營(yíng)養(yǎng)總天數(shù)和腎臟替代治療是念珠菌血癥的重要預(yù)測(cè)因素。XGBoost機(jī)器學(xué)習(xí)模型在區(qū)分念珠菌血癥患者方面優(yōu)于其他模型,預(yù)測(cè)模型可指導(dǎo)臨床藥學(xué)人員在ICU患者發(fā)生SIRS時(shí)的抗真菌治療。
兒童由于體重、腎功能等均處于不斷發(fā)育變化中,萬(wàn)古霉素藥動(dòng)學(xué)的個(gè)體間和個(gè)體內(nèi)差異較大。Huang等[20]基于高維數(shù)據(jù)、建議變量工程和機(jī)器學(xué)習(xí)方法,開(kāi)發(fā)了一種預(yù)測(cè)兒童患者萬(wàn)古霉素谷濃度的模型,萬(wàn)古霉素谷濃度被視為目標(biāo)變量,并使用8種不同的算法進(jìn)行預(yù)測(cè)性能比較。最終選擇了5種高R2的算法(XGBoost、GBRT、Bagging、Extra Tree、Decision Tree),并進(jìn)一步集成,建立最優(yōu)模型。與傳統(tǒng)藥代動(dòng)力學(xué)模型相比,機(jī)器學(xué)習(xí)模型的預(yù)測(cè)效果更好。通過(guò)構(gòu)建實(shí)用性更強(qiáng)的個(gè)體化用藥模型,可避免或減少因個(gè)體差異導(dǎo)致的臨床藥物治療風(fēng)險(xiǎn)事件的發(fā)生。
2.3 藥物的療效評(píng)價(jià)及耐藥性機(jī)制研究 通過(guò)機(jī)器學(xué)習(xí)技術(shù)預(yù)測(cè)藥物治療有效性并挖掘藥物耐藥性的機(jī)制,用以輔助臨床改進(jìn)治療策略,為患者提供最佳治療方案。
2.3.1 藥物療效評(píng)價(jià) Yao 等[21]為了準(zhǔn)確地預(yù)測(cè)新診斷癲癇患者抗癲癇藥物(Antiepileptic drug,AED)治療結(jié)果,幫助指導(dǎo)新診斷癲癇患者的用藥咨詢,改進(jìn)治療策略,構(gòu)建了基于監(jiān)督機(jī)器學(xué)習(xí)的分類器。該研究收集了287例新診斷癲癇患者的資料,對(duì)患者進(jìn)行至少3年的前瞻性隨訪。研究者選擇了人口統(tǒng)計(jì)學(xué)特征、病史和輔助檢查(腦電圖和磁共振成像)來(lái)區(qū)分患者癲癇是否發(fā)作。數(shù)據(jù)集選擇了5種經(jīng)典的機(jī)器學(xué)習(xí)算法,即決策樹(shù)、RF、SVM、XGBoost和LR,并通過(guò)訓(xùn)練得到分類模型。研究表明,XGBoost模型預(yù)測(cè)AED治療結(jié)果的能力優(yōu)于其他4個(gè)算法。
腫瘤壞死因子(Tumor necrosis factor,TNF)抑制劑是治療強(qiáng)直性脊柱炎(Ankylosing spondylitis,AS)的重要藥物,特別是那些不能使用非甾體抗炎藥的患者,但是TNF抑制劑不是AS的一線治療。如果能夠預(yù)測(cè)在早期需要TNF抑制劑的患者,可以在適當(dāng)?shù)臅r(shí)間提供治療,從而避免潛在損害。因此, Lee等[22]建立了一個(gè)人工神經(jīng)網(wǎng)絡(luò)(Artifcial neural network,ANN)模型來(lái)預(yù)測(cè)AS早期使用TNF抑制劑的患者,研究中使用了ANN、LR、SVM、RF和 XGBoost模型進(jìn)行預(yù)測(cè),結(jié)果表明,機(jī)器學(xué)習(xí)模型比傳統(tǒng)統(tǒng)計(jì)模型更準(zhǔn)確地預(yù)測(cè)早期需要TNF抑制劑的使用者。
Cui等[23]基于人口統(tǒng)計(jì)、社會(huì)因素、健康史等建立機(jī)器學(xué)習(xí)模型,評(píng)估大數(shù)據(jù)在預(yù)測(cè)阿片類藥物治療方案(Opioid treatment programs,OTP)結(jié)果方面的潛力,模型收集分析樣本超過(guò)3萬(wàn)人次,結(jié)果顯示,與LR、RF和XGBoost等方法比較,XGBoost構(gòu)建的模型結(jié)果最佳,能較準(zhǔn)確識(shí)別阿片類藥物治療方案有效的患者。
此外,Koo等[24]開(kāi)發(fā)了可以預(yù)測(cè)改善病情的生物抗風(fēng)濕藥(Biologic disease-modifying anti-rheumatic drugs,bDMARDs)治療患者有效性的機(jī)器學(xué)習(xí)模型,模型可識(shí)別出緩解病情相關(guān)的重要臨床特征。研究收集了1 204例接受bDMARDs(依那西普、阿達(dá)木單抗、戈利單抗、英夫利昔單抗、阿巴他西普和托西單抗)治療的患者的隨訪數(shù)據(jù),根據(jù)入組時(shí)獲得的基線臨床數(shù)據(jù)預(yù)測(cè)1年后的緩解情況。使用機(jī)器學(xué)習(xí)方法(如lasso、ridge、SVM、RF和XGBoost)進(jìn)行預(yù)測(cè)。研究顯示,通過(guò)機(jī)器學(xué)習(xí)模型可以預(yù)測(cè)藥物的有效性,并識(shí)別出bDMARD中預(yù)測(cè)緩解的臨床特征,將有助于緩解患者類風(fēng)濕性關(guān)節(jié)炎病情。
2.3.2 藥物的耐藥機(jī)制研究 臨床上,針對(duì)特定感染的抗菌藥物劑量是根據(jù)最小抑菌濃度(Minimal inhibitory concentration,MIC)來(lái)確定的。因此,可信的MIC評(píng)估將為臨床藥師選擇治療策略提供有價(jià)值的信息。Tan等[25]利用基于宏基因組數(shù)據(jù)的單核苷酸多態(tài)性信息和核苷酸聚合數(shù)來(lái)預(yù)測(cè)美羅培南的MIC。本研究篩選了40個(gè)與MIC值相關(guān)性最高的核苷酸聚合體和40個(gè)單核苷酸多態(tài)性信息作為特征,對(duì)XGBoost模型和DNN模型進(jìn)行訓(xùn)練,通過(guò)模型訓(xùn)練得到重要特征值,通過(guò)選擇重要特征值進(jìn)行基于深度學(xué)習(xí)的建模和預(yù)測(cè),相比于測(cè)量MIC值的實(shí)驗(yàn)方法,機(jī)器學(xué)習(xí)方法可以顯著提高檢測(cè)效率,提高抗菌藥物使用的有效性,使患者能夠及時(shí)獲得治療藥物。
鉑類耐藥是腫瘤高復(fù)發(fā)率的重要原因。Shannon等[26]利用癌癥藥物敏感性基因組學(xué)和癌癥基因組圖譜數(shù)據(jù)庫(kù)分析得到4個(gè)潛在的生物標(biāo)志物(CYTH3、GALNT3、S100A14和ERI1),用以預(yù)測(cè)鉑敏感性。此研究對(duì)50例接受手術(shù)切除后采用卡鉑治療的患者隊(duì)列進(jìn)行驗(yàn)證。最終模型選擇XGBoost算法模型,在獨(dú)立驗(yàn)證數(shù)據(jù)集(n=10)中驗(yàn)證精度。通過(guò)機(jī)器學(xué)習(xí)預(yù)測(cè)化療敏感性可提高腫瘤患者藥物使用的有效性。
此外,為了研究紫杉醇治療的耐藥性問(wèn)題,Bomane等[27]利用美國(guó)國(guó)家癌癥研究所基因組數(shù)據(jù)共享中心的數(shù)據(jù)進(jìn)行了大規(guī)模的腫瘤預(yù)測(cè)分析,預(yù)測(cè)乳腺癌患者對(duì)紫杉醇有無(wú)耐藥性,研究者評(píng)估了10種ML算法,并對(duì)同一乳腺癌患者的60個(gè)分類器進(jìn)行了評(píng)估。結(jié)果表明,DNA甲基化和miRNA圖譜信息最豐富。結(jié)合這2個(gè)圖譜,ML算法選擇最小的分子特征子集生成了最具預(yù)測(cè)性的分類器:XGBoost分類器。通過(guò)分類器發(fā)現(xiàn)的幾個(gè)分子標(biāo)記,能夠在一定程度上預(yù)測(cè)乳腺癌腫瘤對(duì)紫杉醇的反應(yīng)或無(wú)反應(yīng)。這些結(jié)果可能為臨床優(yōu)化紫杉醇治療提供參考。
2.4 其他 近年來(lái),基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)及代謝組學(xué)等生物學(xué)數(shù)據(jù)引領(lǐng)著生物醫(yī)學(xué)的變革,使新藥研發(fā)邁入新階段。這些數(shù)據(jù)具有“4V”特點(diǎn):數(shù)據(jù)量大(Volume)、數(shù)據(jù)多樣化(Variety)、有價(jià)值(Value)、高速(Velocity)[28]。機(jī)器學(xué)習(xí)技術(shù)能合理地收集這些藥物的研究數(shù)據(jù),挖掘潛在的藥物靶點(diǎn),以提高新藥研發(fā)的效率。目前已有基于XGBoost的藥物靶點(diǎn)識(shí)別方法,利用XGBoost算法對(duì)提取出的藥物靶點(diǎn)特征進(jìn)行識(shí)別[29]。該方法能夠高速、高效、低成本地發(fā)現(xiàn)潛在藥物靶點(diǎn)。
藥物的重定位,即舊藥新用,也將成為未來(lái)的研究趨勢(shì)。從臨床和實(shí)驗(yàn)角度鑒定藥物的新用途需要耗費(fèi)大量人力和物力,從計(jì)算角度可通過(guò)XGBoost挖掘藥物相關(guān)數(shù)據(jù)預(yù)測(cè)藥物的新用途。胡楊等[29]挖掘了藥物的化學(xué)結(jié)構(gòu)、藥理性質(zhì)、藥物靶蛋白功能、疾病表型等數(shù)據(jù)得到相應(yīng)特征,并將這些藥物及疾病特征進(jìn)行整合后輸入XGBoost模型進(jìn)行預(yù)測(cè)。結(jié)果表明,該預(yù)測(cè)方法較LR、RF模型具有更高的預(yù)測(cè)精度。
變構(gòu)作用是調(diào)節(jié)蛋白質(zhì)活性的重要因素。藥物開(kāi)發(fā)依賴于對(duì)變構(gòu)機(jī)制的理解,特別是對(duì)變構(gòu)位點(diǎn)的識(shí)別,這是藥物開(kāi)發(fā)和設(shè)計(jì)的先決條件。已有利用口袋特征和蛋白質(zhì)動(dòng)力學(xué)的計(jì)算方法來(lái)預(yù)測(cè)變構(gòu)位點(diǎn)。Tian等[30]提出了一種集成學(xué)習(xí)方法,包括XGBoost和圖卷積神經(jīng)網(wǎng)絡(luò),以預(yù)測(cè)變構(gòu)位點(diǎn)。該模型可以在不需要任何信息的情況下學(xué)習(xí)物理性質(zhì)和拓?fù)浣Y(jié)構(gòu),并在多個(gè)指標(biāo)下表現(xiàn)出良好的性能。
藥物靶間相互作用(Drug-target interactions,DTIs)的分析和預(yù)測(cè)對(duì)了解藥物作用機(jī)制、藥物重新定位和設(shè)計(jì)具有重要意義?;贛L的DTIs預(yù)測(cè)方法可以緩解耗時(shí)和勞動(dòng)密集型實(shí)驗(yàn)方法的缺點(diǎn),同時(shí)為藥物設(shè)計(jì)提供新的思路和見(jiàn)解。Chen等[31]利用 XGBoost確定重要的非冗余特征子集。在DNN算法的基礎(chǔ)上,研發(fā)了一種新的預(yù)測(cè)藥物靶標(biāo)相互作用的管道(DNN-DTIs)。預(yù)測(cè)模型研究結(jié)果表明,DNN-DTIs在酶、離子通道、核受體等數(shù)據(jù)集上具有較好的預(yù)測(cè)效果。
乳腺癌耐藥蛋白(Breast cancer resistance protein,BCRP/ABCG2)是一種三磷酸腺苷結(jié)合盒外排轉(zhuǎn)運(yùn)蛋白,在抗腫瘤藥物的多重耐藥和藥物-藥物相互作用中發(fā)揮重要作用。預(yù)測(cè)BCRP的抑制有助于在藥物研發(fā)的早期評(píng)估潛在的耐藥性和藥物間的相互作用。Jiang等[32]采用了7種機(jī)器模型區(qū)分BCRP抑制劑和非抑制劑,結(jié)果表明,SVM、DNN和XGBoost 3種方法的預(yù)測(cè)效果優(yōu)于其他方法,可作為藥物設(shè)計(jì)和研發(fā)過(guò)程中區(qū)分BCRP抑制劑和非抑制劑的一項(xiàng)工具。
隨著技術(shù)手段的不斷進(jìn)步,臨床藥師在處理某些臨床藥學(xué)問(wèn)題時(shí),可以嘗試結(jié)合一些機(jī)器算法的手段,快速準(zhǔn)確地解決這些醫(yī)學(xué)問(wèn)題。在使用XGBoost算法過(guò)程中,會(huì)遇到一些問(wèn)題。
例如模型訓(xùn)練精度高,但測(cè)試精度低,這可能是過(guò)擬合的問(wèn)題,可以直接控制模型的復(fù)雜度或者增加隨機(jī)性,使訓(xùn)練對(duì)噪聲強(qiáng)健。
參數(shù)選擇方面,由于真實(shí)世界數(shù)據(jù)中多數(shù)會(huì)存在不均衡標(biāo)簽和缺失值的問(wèn)題,XGBoost算法可以直接針對(duì)缺失值進(jìn)行假設(shè)并進(jìn)行邏輯判定,但通常決策樹(shù)的深度會(huì)顯著影響最終的模型效果,需要謹(jǐn)慎調(diào)參。而處理不均衡標(biāo)簽時(shí),需要把訓(xùn)練的考核目標(biāo)設(shè)定為auc或f1值,而不是常用的accuracy,這樣可以有效避免陽(yáng)性樣本的預(yù)測(cè)遺漏。
此外,XGBoost更適用于特征緯度較高和樣本量較大的數(shù)據(jù),適合捕捉高緯特征間的復(fù)雜關(guān)系,且具備較強(qiáng)的臨床可解釋性。
本文介紹了XGBoost算法在臨床藥學(xué)細(xì)分領(lǐng)域中的應(yīng)用,如臨床合理用藥、藥物不良反應(yīng)預(yù)警以及藥物的療效評(píng)價(jià)及耐藥性機(jī)制研究等。XGBoost算法展現(xiàn)了較強(qiáng)的性能:可為缺失值或者指定值指定分支的默認(rèn)方向,大大提升算法的效率;在處理大型數(shù)據(jù)集時(shí),XGBoost算法能夠模擬非線性效應(yīng),具有較高的效率和準(zhǔn)確性。但是XGBoost算法也存在一定的限制因素,如XGBoost算法更適合處理中低維、結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)樣本量較大時(shí),比較耗時(shí)。
XGBoost算法相較某些機(jī)器學(xué)習(xí)算法調(diào)參簡(jiǎn)單,但想要獲取更好的結(jié)果,還需要加強(qiáng)藥學(xué)與算法、信息化等多學(xué)科的結(jié)合,以進(jìn)一步提高臨床用藥的安全性、有效性、精準(zhǔn)性、經(jīng)濟(jì)性。