分類提升樹模型結(jié)合SMOTE技術(shù)在天津浴池MSM人群中的應(yīng)用*

2021-10-09 08:20:00天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系300700宋德勝張?zhí)鹛?/span>姚婷婷張洪璐劉媛媛李長平

中國衛(wèi)生統(tǒng)計 2021年4期

天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系(300700)宋德勝張?zhí)鹛?陳陽姚婷婷張洪璐劉媛媛李長平崔壯馬駿

【提要】目的采用logistic、隨機森林和CatBoost結(jié)合過采樣技術(shù)(synthetic minority over-sampling technique，SMOTE)技術(shù)對天津市某浴池MSM人群數(shù)據(jù)構(gòu)建模型以預(yù)測HIV的感染風(fēng)險，并評價三個模型的分類效果。方法利用10×10折交叉驗證對模型進行訓(xùn)練和預(yù)測，使用網(wǎng)格搜索確定各模型的超參數(shù)。然后使用AUC、accuracy、brier score和F1值對上述三種模型進行評價。結(jié)果在原始數(shù)據(jù)上，三種模型的表現(xiàn)基本一致，但在對類別比例不敏感的AUC和Brier score上，CatBoost的表現(xiàn)略優(yōu)于其他兩個模型。CatBoost、logistic和隨機森林的AUC分別為0.798±0.026，0.792±0.037，0.934±0.040；Brier score分別為0.056±0.001、0.091±0.004和0.054±0.003。使用SMOTE后，CatBoost的性能明顯優(yōu)于其他兩個模型。在測試集上，其AUC、accuracy、brier score和F1值分別為0.984±0.003、0.950±0.007、0.040±0.004和0.950±0.007。結(jié)論可使用Catboost模型預(yù)測MSM人群中的潛在HIV感染者。

男男同性性行為人群(men who have sex with men，MSM)是目前HIV感染的高發(fā)人群，更是被聯(lián)合國艾滋病規(guī)劃署(UNAIDS)列為關(guān)鍵人群之一。據(jù)2019年UNAIDS的數(shù)據(jù)顯示，MSM人群及其性伴的HIV感染風(fēng)險是其他成年男性的22倍。全球范圍內(nèi)，每年HIV新發(fā)感染者中約17%是MSM。在我國，艾滋病傳播形式以性傳播為主。在2016年新發(fā)HIV感染者中，MSM人群的比例已超過26%[1]。多個省市的調(diào)查數(shù)據(jù)顯示[2-4]，MSM人群的HIV感染形式不容樂觀，且部分?jǐn)?shù)據(jù)顯示，學(xué)生群體中HIV感染人數(shù)有上升趨勢[5]。當(dāng)前的研究已經(jīng)表明，文化程度、性病、高危性行為、商業(yè)性行為和多性伴是HIV感染的危險因素[6]。針對這些因素采取相應(yīng)的措施可以減少HIV在MSM人群中的傳播。出于MSM人群的特殊性，盡管目前已有可靠的檢測和治療措施，但每年MSM人群的新發(fā)HIV感染患者人數(shù)仍高居不下[7]。因此開發(fā)一種可靠的模型來識別MSM人群早期感染者以減少病毒在該人群中的傳播迫在眉睫，這可在一定程度上彌補HIV檢測覆蓋不全的缺陷。

機器學(xué)習(xí)是近幾年興起一門新技術(shù)。經(jīng)過近些年的發(fā)展，它已經(jīng)廣泛應(yīng)用于各個領(lǐng)域。它的主要任務(wù)是分類和回歸。在進行分類任務(wù)學(xué)習(xí)時，經(jīng)常遇到類別不平衡的問題，過采樣技術(shù)(synthetic minority over-sampling technique，SMOTE)是目前解決這類問題的常用方法。分類問題常用的模型包括logistic模型、決策樹模型以及后續(xù)伴隨著計算機的發(fā)展而興起的bagging算法和boosting算法。bagging算法的典型代表是隨機森林(random forest，RF)；boosting算法的典型代表則是梯度提升決策樹(gradient boosting decision tree，GBDT)?；谀Ｐ偷脑?，本文主要選取了線性模型分類器logistic模型、基于bagging的隨機森林以及基于boosting算法的CatBoost模型來構(gòu)建分類器，并進行了分類效果的比較。

資料和方法

1.研究對象

本研究收集了2011-2018年天津市浴池浴客的調(diào)查數(shù)據(jù)。選擇每人第一次調(diào)查以及檢測數(shù)據(jù)。主要收集的數(shù)據(jù)包括浴客的人口學(xué)信息、性行為信息、檢測信息、藥物使用信息等。

2.研究方法

(1)基本原理

logistic基本原理：二元logistic模型是一種常見的機器學(xué)習(xí)分類模型[8]，由條件概率分布P(Y|X)表示，它是如下的條件概率分布：

隨機森林基本原理：隨機森林是一類典型的bagging算法的實現(xiàn)。它由Breiman于2001年提出[9]。隨機森林以決策樹為基礎(chǔ)，在訓(xùn)練過程中利用bootstrap抽樣，從訓(xùn)練集中有放回地抽取一部分樣本用于建立決策樹。對于決策樹的每個結(jié)點，可先從結(jié)點的特征集合中隨機選取若干特征的子集，然后再從該子集中選擇最優(yōu)的特征用于劃分結(jié)點。通過樣本的隨機和特征的隨機來減少模型的過擬合。在分類時，利用“投票”的方式?jīng)Q定觀測類別。

CatBoost基本原理：CatBoost是俄羅斯搜索巨頭Yandex于2007年提出的提升算法模型[10]。相較于GBDT[11]、XGBoost[12]和LightGBM[13]，它在訓(xùn)練之前不需要提前對類別特征進行處理，比如one-hot編碼。在訓(xùn)練過程中，它使用獨特的技術(shù)來處理類別特征，即首先將所有樣本進行隨機排序，然后針對類別特征中的某個取值，每個樣本的該特征轉(zhuǎn)為數(shù)值型時都是基于排在該樣本之前的特別特征標(biāo)簽取均值，同時加入了優(yōu)先級和優(yōu)先級的權(quán)重系數(shù)以防止過擬合。計算公式如下：

在計算梯度時，與傳統(tǒng)的GBDT不同，CatBoost針對每個樣本，都單獨構(gòu)建一個利用該樣本之前的樣本點的梯度估計得到的模型，針對這些模型，估計該樣本的梯度，然后利用新樣本重新對樣本打分。由于上述算法依賴于樣本排序，因此利用多種樣本排序可訓(xùn)練得到多種模型，這樣可以減少過擬合。

SMOTE基本原理：Japkowicz等針對不平衡數(shù)據(jù)提出了一種少數(shù)類的過采樣技術(shù)，然而這種技術(shù)并沒有提供給模型更多信息[14]。為了解決過采樣的局限性，Chawla等在2002提出一種合成少數(shù)類的過采樣技術(shù)[15]。SMOTE會隨機選擇一個少數(shù)類實例A，并找到它最近的k個少數(shù)類。然后隨機選擇k個最鄰近A的少數(shù)類B，連接A與B，從而在特征空間中形成一條線段，進而創(chuàng)建若干個合成的實例。在含有分類特征時，新合成的樣本實例來自于其周圍頻數(shù)最多的類別。

(2)模型訓(xùn)練

針對原始數(shù)據(jù)，使用分層10×10折交叉驗證的方式分別訓(xùn)練三個模型。超參數(shù)則使用網(wǎng)格搜索的方法進行確定。logistic模型的超參數(shù)為正則化系數(shù)C；隨機森林的超參數(shù)為森林包含的決策樹數(shù)目n_estimators，樹的最大深度max_depth以及每次bootstrap時，用于訓(xùn)練基學(xué)習(xí)器的最大樣本比例max_samples；Catboost的超參數(shù)為L2正則化系數(shù)l2_leaf_reg，可構(gòu)建的最大決策樹數(shù)目iterations，樹的最大深度depth，貝葉斯bootstrap隨機權(quán)重bagging_temperature，每次樹劃分時使用的特征比例rsm，bagging的抽樣率subsample，使用one-hot編碼最大類別數(shù)one-hot-max。對原始數(shù)據(jù)進行SMOTE后，使用10×10折交叉驗證的方式分別訓(xùn)練三個模型。超參數(shù)與SMOTE之前保持一致。SMOTE前后各模型超參數(shù)設(shè)置搜索范圍如表1所示。

表1 各模型SMOTE前后超參數(shù)搜索范圍

(3)模型評價

本研究使用了準(zhǔn)確度(accuracy)、ROC曲線下面積(ROC)，F(xiàn)1值和Brier score進行評價模型在測試集上的表現(xiàn)。各指標(biāo)的意義如表2所示。計算公式中，TP表示真陽性例數(shù)，F(xiàn)P表示假陽性例數(shù)，TN表示真陰性例數(shù)，F(xiàn)N表示假陰性例數(shù)，ft表示模型預(yù)測概率，ot表示觀測實際類別。

表2 模型評價指標(biāo)說明

以上模型的構(gòu)建使用的軟件為Python 3.7.4，圖形繪制使用的軟件為microsoft excel 2019。

結(jié) 果

1.變量說明

排除缺失值較多的觀測后，最終入選浴客5091名，其中新發(fā)HIV感染者346名。模型構(gòu)建過程中使用的變量如表3所示。

表3 研究中納入的變量

2.模型構(gòu)建

(1)原始數(shù)據(jù)模型構(gòu)建

經(jīng)過網(wǎng)格搜索后，各模型確定的超參數(shù)如下：

logistic模型：C=0.1；

random forest模型：max_depth=6，max_samples=0.5 ，n_estimators=180；

CatBoost模型：bagging_temperature=9，depth=7，one_hot_max_size=5，iterations=60，rsm=0.5，subsample=0.4，l2_leaf_reg=1

各模型經(jīng)過10×10折交叉驗證以后，模型的構(gòu)建結(jié)果如表4所示。

表4 原始數(shù)據(jù)各模型建模結(jié)果

(2)原始數(shù)據(jù)SMOTE后模型構(gòu)建結(jié)果

經(jīng)過網(wǎng)格搜索后，各模型確定的超參數(shù)如下：

logistic模型：C=0.7；

random forest模型：max_depth=9，max_samples=0.5 ，n_estimators=30；

CatBoost模型：bagging_temperature=1，depth=10，one_hot_max_size=5，iterations=1250，rsm=0.5，subsample=0.5，l2_leaf_reg=0.03。

各模型經(jīng)過10×10折交叉驗證以后，模型的構(gòu)建結(jié)果如表5所示。

表5 SMOTE后建模結(jié)果

上述各模型在測試集上的表現(xiàn)如圖1和圖2所示：

圖1 利用原始數(shù)據(jù)構(gòu)建的3個模型在測試集上的表現(xiàn)

圖2 SMOTE后三個模型在測試集上的表現(xiàn)

3.模型重要性

圖3列出了利用原始數(shù)據(jù)和利用SMOTE技術(shù)后，各模型的變量重要性前8位的變量。

圖3 各模型的變量重要性

討論

艾滋病目前仍是危害全球公共衛(wèi)生健康的重要疾病。在目前，MSM是HIV感染風(fēng)險較高的幾類關(guān)鍵人群之一。他們常由于歧視、污名化等原因無法享受到應(yīng)有的健康服務(wù)[16]。因此，建立一種可靠的模型以識別MSM人群中HIV感染者十分必要。

此前，已有一些研究利用機器學(xué)習(xí)技術(shù)來預(yù)測在MSM人群中HIV感染的情況[17-18]，但其應(yīng)用的算法在訓(xùn)練之前都需要將分類特征進行預(yù)處理，比如one-hot編碼等，這在一定程度上增加了訓(xùn)練所需時間并且損失了分類變量的一些信息。而MSM的問卷調(diào)查中分類變量較為常見。因此，為了彌補上述缺點，我們使用了Catboost來預(yù)測MSM人群中HIV的感染情況。它在訓(xùn)練之前不需要對分類變量進行預(yù)處理。在模型訓(xùn)練過程中，Catboost直接利用了target statistic的思想來對分類變量進行處理，以減少分類變量的信息損失。

由于HIV是一種患病率較低的疾病，因此在運用機器學(xué)習(xí)技術(shù)時會經(jīng)常遇到類不平衡的問題。本研究中，在5091名調(diào)查對象中，存在346名HIV陽性患者，陽性人數(shù)與陰性人數(shù)之比達到1∶13.7。在利用原始數(shù)據(jù)訓(xùn)練時，三個模型的準(zhǔn)確度都達到了90%以上，但F1值都小于0.2，這說明這種類不平衡的問題對于模型評價產(chǎn)生了嚴(yán)重的影響。因此，我們使用SMOTE方法來解決類不平衡問題對于模型評價的影響。在使用SMOTE以后，各個模型的F1值達到了80%以上，說明該方法有效地解決了類不平衡對于模型評價的影響。

本研究發(fā)現(xiàn)，在原始數(shù)據(jù)集上，三個模型在測試集上的表現(xiàn)基本一致，但CatBoost在AUC、Brier score這兩個對不平衡數(shù)據(jù)不敏感的指標(biāo)上略優(yōu)于其他兩個模型；而在accuracy和F1值上，其他兩個模型的表現(xiàn)略優(yōu)于CatBoost模型；在使用SMOTE技術(shù)后，三個模型的在測試集上的表現(xiàn)如表5和圖2所示，可注意到，Catboost的表現(xiàn)都明顯優(yōu)于logistic和隨機森林，且隨機森林的表現(xiàn)在這三個模型中最差。這可能是因為Catboost充分利用了分類變量的信息，其他兩個模型都在訓(xùn)練過程中損失了信息，而logistic的表現(xiàn)優(yōu)于隨機森林，則可能是因為模型構(gòu)建所使用的特征與HIV感染存在較強的線性關(guān)系。

本研究中關(guān)于變量重要性的分析結(jié)果顯示，不論是否進行SMOTE的敏感性分析，戶籍、婚姻、年齡、文化程度等基本人口學(xué)信息，肛交性行為、異性性行為等性行為信息以及性病、男性性工作者等在模型中較為穩(wěn)定，說明上述特征是預(yù)測浴池MSM人群的HIV感染的重要預(yù)測因子。這與之前的研究結(jié)果基本一致[6]。因此，研究結(jié)果對于制定有針對性的干預(yù)措施，開展降低HIV感染風(fēng)險的健康促進，減少HIV在MSM人群中的傳播提供科學(xué)依據(jù)。

綜上所述，本研究利用三種理論依據(jù)不同的模型分別對浴池MSM人群的HIV感染進行預(yù)測建模，針對其中的類別不平衡問題進行SMOTE處理，CatBoost的預(yù)測性能均優(yōu)于其他兩個模型，通過實例數(shù)據(jù)初步論證了CatBoost等機器學(xué)習(xí)模型結(jié)合SMOTE技術(shù)對于預(yù)測和篩選MSM人群中的潛在感染者的適用性，最終促進MSM高危人群的早發(fā)現(xiàn)、早診斷、早治療。本研究的局限性在于單中心的抽樣，還需天津市以外的外部數(shù)據(jù)進一步驗證預(yù)測模型的泛化能力。

分類提升樹模型結(jié)合SMOTE技術(shù)在天津浴池MSM人群中的應(yīng)用*

資料和方法

結(jié) 果

討 論

討論