天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系(300700)宋德勝 張?zhí)鹛?陳 陽 姚婷婷 張洪璐 劉媛媛 李長平 崔 壯 馬 駿
【提 要】 目的 采用logistic、隨機森林和CatBoost結(jié)合過采樣技術(shù)(synthetic minority over-sampling technique,SMOTE)技術(shù)對天津市某浴池MSM人群數(shù)據(jù)構(gòu)建模型以預(yù)測HIV的感染風(fēng)險,并評價三個模型的分類效果。方法 利用10×10折交叉驗證對模型進行訓(xùn)練和預(yù)測,使用網(wǎng)格搜索確定各模型的超參數(shù)。然后使用AUC、accuracy、brier score和F1值對上述三種模型進行評價。結(jié)果 在原始數(shù)據(jù)上,三種模型的表現(xiàn)基本一致,但在對類別比例不敏感的AUC和Brier score上,CatBoost的表現(xiàn)略優(yōu)于其他兩個模型。CatBoost、logistic和隨機森林的AUC分別為0.798±0.026,0.792±0.037,0.934±0.040;Brier score分別為0.056±0.001、0.091±0.004和0.054±0.003。使用SMOTE后,CatBoost的性能明顯優(yōu)于其他兩個模型。在測試集上,其AUC、accuracy、brier score和F1值分別為0.984±0.003、0.950±0.007、0.040±0.004和0.950±0.007。結(jié)論 可使用Catboost模型預(yù)測MSM人群中的潛在HIV感染者。
男男同性性行為人群(men who have sex with men,MSM)是目前HIV感染的高發(fā)人群,更是被聯(lián)合國艾滋病規(guī)劃署(UNAIDS)列為關(guān)鍵人群之一。據(jù)2019年UNAIDS的數(shù)據(jù)顯示,MSM人群及其性伴的HIV感染風(fēng)險是其他成年男性的22倍。全球范圍內(nèi),每年HIV新發(fā)感染者中約17%是MSM。在我國,艾滋病傳播形式以性傳播為主。在2016年新發(fā)HIV感染者中,MSM人群的比例已超過26%[1]。多個省市的調(diào)查數(shù)據(jù)顯示[2-4],MSM人群的HIV感染形式不容樂觀,且部分?jǐn)?shù)據(jù)顯示,學(xué)生群體中HIV感染人數(shù)有上升趨勢[5]。當(dāng)前的研究已經(jīng)表明,文化程度、性病、高危性行為、商業(yè)性行為和多性伴是HIV感染的危險因素[6]。針對這些因素采取相應(yīng)的措施可以減少HIV在MSM人群中的傳播。出于MSM人群的特殊性,盡管目前已有可靠的檢測和治療措施,但每年MSM人群的新發(fā)HIV感染患者人數(shù)仍高居不下[7]。因此開發(fā)一種可靠的模型來識別MSM人群早期感染者以減少病毒在該人群中的傳播迫在眉睫,這可在一定程度上彌補HIV檢測覆蓋不全的缺陷。
機器學(xué)習(xí)是近幾年興起一門新技術(shù)。經(jīng)過近些年的發(fā)展,它已經(jīng)廣泛應(yīng)用于各個領(lǐng)域。它的主要任務(wù)是分類和回歸。在進行分類任務(wù)學(xué)習(xí)時,經(jīng)常遇到類別不平衡的問題,過采樣技術(shù)(synthetic minority over-sampling technique,SMOTE)是目前解決這類問題的常用方法。分類問題常用的模型包括logistic模型、決策樹模型以及后續(xù)伴隨著計算機的發(fā)展而興起的bagging算法和boosting算法。bagging算法的典型代表是隨機森林(random forest,RF);boosting算法的典型代表則是梯度提升決策樹(gradient boosting decision tree,GBDT)?;谀P偷脑?,本文主要選取了線性模型分類器logistic模型、基于bagging的隨機森林以及基于boosting算法的CatBoost模型來構(gòu)建分類器,并進行了分類效果的比較。
1.研究對象
本研究收集了2011-2018年天津市浴池浴客的調(diào)查數(shù)據(jù)。選擇每人第一次調(diào)查以及檢測數(shù)據(jù)。主要收集的數(shù)據(jù)包括浴客的人口學(xué)信息、性行為信息、檢測信息、藥物使用信息等。
2.研究方法
(1)基本原理
logistic基本原理:二元logistic模型是一種常見的機器學(xué)習(xí)分類模型[8],由條件概率分布P(Y|X)表示,它是如下的條件概率分布:
隨機森林基本原理:隨機森林是一類典型的bagging算法的實現(xiàn)。它由Breiman于2001年提出[9]。隨機森林以決策樹為基礎(chǔ),在訓(xùn)練過程中利用bootstrap抽樣,從訓(xùn)練集中有放回地抽取一部分樣本用于建立決策樹。對于決策樹的每個結(jié)點,可先從結(jié)點的特征集合中隨機選取若干特征的子集,然后再從該子集中選擇最優(yōu)的特征用于劃分結(jié)點。通過樣本的隨機和特征的隨機來減少模型的過擬合。在分類時,利用“投票”的方式?jīng)Q定觀測類別。
CatBoost基本原理:CatBoost是俄羅斯搜索巨頭Yandex于2007年提出的提升算法模型[10]。相較于GBDT[11]、XGBoost[12]和LightGBM[13],它在訓(xùn)練之前不需要提前對類別特征進行處理,比如one-hot編碼。在訓(xùn)練過程中,它使用獨特的技術(shù)來處理類別特征,即首先將所有樣本進行隨機排序,然后針對類別特征中的某個取值,每個樣本的該特征轉(zhuǎn)為數(shù)值型時都是基于排在該樣本之前的特別特征標(biāo)簽取均值,同時加入了優(yōu)先級和優(yōu)先級的權(quán)重系數(shù)以防止過擬合。計算公式如下:
在計算梯度時,與傳統(tǒng)的GBDT不同,CatBoost針對每個樣本,都單獨構(gòu)建一個利用該樣本之前的樣本點的梯度估計得到的模型,針對這些模型,估計該樣本的梯度,然后利用新樣本重新對樣本打分。由于上述算法依賴于樣本排序,因此利用多種樣本排序可訓(xùn)練得到多種模型,這樣可以減少過擬合。
SMOTE基本原理:Japkowicz等針對不平衡數(shù)據(jù)提出了一種少數(shù)類的過采樣技術(shù),然而這種技術(shù)并沒有提供給模型更多信息[14]。為了解決過采樣的局限性,Chawla等在2002提出一種合成少數(shù)類的過采樣技術(shù)[15]。SMOTE會隨機選擇一個少數(shù)類實例A,并找到它最近的k個少數(shù)類。然后隨機選擇k個最鄰近A的少數(shù)類B,連接A與B,從而在特征空間中形成一條線段,進而創(chuàng)建若干個合成的實例。在含有分類特征時,新合成的樣本實例來自于其周圍頻數(shù)最多的類別。
(2)模型訓(xùn)練
針對原始數(shù)據(jù),使用分層10×10折交叉驗證的方式分別訓(xùn)練三個模型。超參數(shù)則使用網(wǎng)格搜索的方法進行確定。logistic模型的超參數(shù)為正則化系數(shù)C;隨機森林的超參數(shù)為森林包含的決策樹數(shù)目n_estimators,樹的最大深度max_depth以及每次bootstrap時,用于訓(xùn)練基學(xué)習(xí)器的最大樣本比例max_samples;Catboost的超參數(shù)為L2正則化系數(shù)l2_leaf_reg,可構(gòu)建的最大決策樹數(shù)目iterations,樹的最大深度depth,貝葉斯bootstrap隨機權(quán)重bagging_temperature,每次樹劃分時使用的特征比例rsm,bagging的抽樣率subsample,使用one-hot編碼最大類別數(shù)one-hot-max。對原始數(shù)據(jù)進行SMOTE后,使用10×10折交叉驗證的方式分別訓(xùn)練三個模型。超參數(shù)與SMOTE之前保持一致。SMOTE前后各模型超參數(shù)設(shè)置搜索范圍如表1所示。
表1 各模型SMOTE前后超參數(shù)搜索范圍
(3)模型評價
本研究使用了準(zhǔn)確度(accuracy)、ROC曲線下面積(ROC),F(xiàn)1值和Brier score進行評價模型在測試集上的表現(xiàn)。各指標(biāo)的意義如表2所示。計算公式中,TP表示真陽性例數(shù),F(xiàn)P表示假陽性例數(shù),TN表示真陰性例數(shù),F(xiàn)N表示假陰性例數(shù),ft表示模型預(yù)測概率,ot表示觀測實際類別。
表2 模型評價指標(biāo)說明
以上模型的構(gòu)建使用的軟件為Python 3.7.4,圖形繪制使用的軟件為microsoft excel 2019。
1.變量說明
排除缺失值較多的觀測后,最終入選浴客5091名,其中新發(fā)HIV感染者346名。模型構(gòu)建過程中使用的變量如表3所示。
表3 研究中納入的變量
2.模型構(gòu)建
(1)原始數(shù)據(jù)模型構(gòu)建
經(jīng)過網(wǎng)格搜索后,各模型確定的超參數(shù)如下:
logistic模型:C=0.1;
random forest模型:max_depth=6,max_samples=0.5 ,n_estimators=180;
CatBoost模型:bagging_temperature=9,depth=7,one_hot_max_size=5,iterations=60,rsm=0.5,subsample=0.4,l2_leaf_reg=1
各模型經(jīng)過10×10折交叉驗證以后,模型的構(gòu)建結(jié)果如表4所示。
表4 原始數(shù)據(jù)各模型建模結(jié)果
(2)原始數(shù)據(jù)SMOTE后模型構(gòu)建結(jié)果
經(jīng)過網(wǎng)格搜索后,各模型確定的超參數(shù)如下:
logistic模型:C=0.7;
random forest模型:max_depth=9,max_samples=0.5 ,n_estimators=30;
CatBoost模型:bagging_temperature=1,depth=10,one_hot_max_size=5,iterations=1250,rsm=0.5,subsample=0.5,l2_leaf_reg=0.03。
各模型經(jīng)過10×10折交叉驗證以后,模型的構(gòu)建結(jié)果如表5所示。
表5 SMOTE后建模結(jié)果
上述各模型在測試集上的表現(xiàn)如圖1和圖2所示:
圖1 利用原始數(shù)據(jù)構(gòu)建的3個模型在測試集上的表現(xiàn)
圖2 SMOTE后三個模型在測試集上的表現(xiàn)
3.模型重要性
圖3列出了利用原始數(shù)據(jù)和利用SMOTE技術(shù)后,各模型的變量重要性前8位的變量。
圖3 各模型的變量重要性
艾滋病目前仍是危害全球公共衛(wèi)生健康的重要疾病。在目前,MSM是HIV感染風(fēng)險較高的幾類關(guān)鍵人群之一。他們常由于歧視、污名化等原因無法享受到應(yīng)有的健康服務(wù)[16]。因此,建立一種可靠的模型以識別MSM人群中HIV感染者十分必要。
此前,已有一些研究利用機器學(xué)習(xí)技術(shù)來預(yù)測在MSM人群中HIV感染的情況[17-18],但其應(yīng)用的算法在訓(xùn)練之前都需要將分類特征進行預(yù)處理,比如one-hot編碼等,這在一定程度上增加了訓(xùn)練所需時間并且損失了分類變量的一些信息。而MSM的問卷調(diào)查中分類變量較為常見。因此,為了彌補上述缺點,我們使用了Catboost來預(yù)測MSM人群中HIV的感染情況。它在訓(xùn)練之前不需要對分類變量進行預(yù)處理。在模型訓(xùn)練過程中,Catboost直接利用了target statistic的思想來對分類變量進行處理,以減少分類變量的信息損失。
由于HIV是一種患病率較低的疾病,因此在運用機器學(xué)習(xí)技術(shù)時會經(jīng)常遇到類不平衡的問題。本研究中,在5091名調(diào)查對象中,存在346名HIV陽性患者,陽性人數(shù)與陰性人數(shù)之比達到1∶13.7。在利用原始數(shù)據(jù)訓(xùn)練時,三個模型的準(zhǔn)確度都達到了90%以上,但F1值都小于0.2,這說明這種類不平衡的問題對于模型評價產(chǎn)生了嚴(yán)重的影響。因此,我們使用SMOTE方法來解決類不平衡問題對于模型評價的影響。在使用SMOTE以后,各個模型的F1值達到了80%以上,說明該方法有效地解決了類不平衡對于模型評價的影響。
本研究發(fā)現(xiàn),在原始數(shù)據(jù)集上,三個模型在測試集上的表現(xiàn)基本一致,但CatBoost在AUC、Brier score這兩個對不平衡數(shù)據(jù)不敏感的指標(biāo)上略優(yōu)于其他兩個模型;而在accuracy和F1值上,其他兩個模型的表現(xiàn)略優(yōu)于CatBoost模型;在使用SMOTE技術(shù)后,三個模型的在測試集上的表現(xiàn)如表5和圖2所示,可注意到,Catboost的表現(xiàn)都明顯優(yōu)于logistic和隨機森林,且隨機森林的表現(xiàn)在這三個模型中最差。這可能是因為Catboost充分利用了分類變量的信息,其他兩個模型都在訓(xùn)練過程中損失了信息,而logistic的表現(xiàn)優(yōu)于隨機森林,則可能是因為模型構(gòu)建所使用的特征與HIV感染存在較強的線性關(guān)系。
本研究中關(guān)于變量重要性的分析結(jié)果顯示,不論是否進行SMOTE的敏感性分析,戶籍、婚姻、年齡、文化程度等基本人口學(xué)信息,肛交性行為、異性性行為等性行為信息以及性病、男性性工作者等在模型中較為穩(wěn)定,說明上述特征是預(yù)測浴池MSM人群的HIV感染的重要預(yù)測因子。這與之前的研究結(jié)果基本一致[6]。因此,研究結(jié)果對于制定有針對性的干預(yù)措施,開展降低HIV感染風(fēng)險的健康促進,減少HIV在MSM人群中的傳播提供科學(xué)依據(jù)。
綜上所述,本研究利用三種理論依據(jù)不同的模型分別對浴池MSM人群的HIV感染進行預(yù)測建模,針對其中的類別不平衡問題進行SMOTE處理,CatBoost的預(yù)測性能均優(yōu)于其他兩個模型,通過實例數(shù)據(jù)初步論證了CatBoost等機器學(xué)習(xí)模型結(jié)合SMOTE技術(shù)對于預(yù)測和篩選MSM人群中的潛在感染者的適用性,最終促進MSM高危人群的早發(fā)現(xiàn)、早診斷、早治療。本研究的局限性在于單中心的抽樣,還需天津市以外的外部數(shù)據(jù)進一步驗證預(yù)測模型的泛化能力。