• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      分類提升樹模型結(jié)合SMOTE技術(shù)在天津浴池MSM人群中的應(yīng)用*

      2021-10-09 08:20:00天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系300700宋德勝張?zhí)鹛?/span>姚婷婷張洪璐劉媛媛李長平
      中國衛(wèi)生統(tǒng)計 2021年4期
      關(guān)鍵詞:原始數(shù)據(jù)集上決策樹

      天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系(300700)宋德勝 張?zhí)鹛?陳 陽 姚婷婷 張洪璐 劉媛媛 李長平 崔 壯 馬 駿

      【提 要】 目的 采用logistic、隨機森林和CatBoost結(jié)合過采樣技術(shù)(synthetic minority over-sampling technique,SMOTE)技術(shù)對天津市某浴池MSM人群數(shù)據(jù)構(gòu)建模型以預(yù)測HIV的感染風(fēng)險,并評價三個模型的分類效果。方法 利用10×10折交叉驗證對模型進行訓(xùn)練和預(yù)測,使用網(wǎng)格搜索確定各模型的超參數(shù)。然后使用AUC、accuracy、brier score和F1值對上述三種模型進行評價。結(jié)果 在原始數(shù)據(jù)上,三種模型的表現(xiàn)基本一致,但在對類別比例不敏感的AUC和Brier score上,CatBoost的表現(xiàn)略優(yōu)于其他兩個模型。CatBoost、logistic和隨機森林的AUC分別為0.798±0.026,0.792±0.037,0.934±0.040;Brier score分別為0.056±0.001、0.091±0.004和0.054±0.003。使用SMOTE后,CatBoost的性能明顯優(yōu)于其他兩個模型。在測試集上,其AUC、accuracy、brier score和F1值分別為0.984±0.003、0.950±0.007、0.040±0.004和0.950±0.007。結(jié)論 可使用Catboost模型預(yù)測MSM人群中的潛在HIV感染者。

      男男同性性行為人群(men who have sex with men,MSM)是目前HIV感染的高發(fā)人群,更是被聯(lián)合國艾滋病規(guī)劃署(UNAIDS)列為關(guān)鍵人群之一。據(jù)2019年UNAIDS的數(shù)據(jù)顯示,MSM人群及其性伴的HIV感染風(fēng)險是其他成年男性的22倍。全球范圍內(nèi),每年HIV新發(fā)感染者中約17%是MSM。在我國,艾滋病傳播形式以性傳播為主。在2016年新發(fā)HIV感染者中,MSM人群的比例已超過26%[1]。多個省市的調(diào)查數(shù)據(jù)顯示[2-4],MSM人群的HIV感染形式不容樂觀,且部分?jǐn)?shù)據(jù)顯示,學(xué)生群體中HIV感染人數(shù)有上升趨勢[5]。當(dāng)前的研究已經(jīng)表明,文化程度、性病、高危性行為、商業(yè)性行為和多性伴是HIV感染的危險因素[6]。針對這些因素采取相應(yīng)的措施可以減少HIV在MSM人群中的傳播。出于MSM人群的特殊性,盡管目前已有可靠的檢測和治療措施,但每年MSM人群的新發(fā)HIV感染患者人數(shù)仍高居不下[7]。因此開發(fā)一種可靠的模型來識別MSM人群早期感染者以減少病毒在該人群中的傳播迫在眉睫,這可在一定程度上彌補HIV檢測覆蓋不全的缺陷。

      機器學(xué)習(xí)是近幾年興起一門新技術(shù)。經(jīng)過近些年的發(fā)展,它已經(jīng)廣泛應(yīng)用于各個領(lǐng)域。它的主要任務(wù)是分類和回歸。在進行分類任務(wù)學(xué)習(xí)時,經(jīng)常遇到類別不平衡的問題,過采樣技術(shù)(synthetic minority over-sampling technique,SMOTE)是目前解決這類問題的常用方法。分類問題常用的模型包括logistic模型、決策樹模型以及后續(xù)伴隨著計算機的發(fā)展而興起的bagging算法和boosting算法。bagging算法的典型代表是隨機森林(random forest,RF);boosting算法的典型代表則是梯度提升決策樹(gradient boosting decision tree,GBDT)?;谀P偷脑?,本文主要選取了線性模型分類器logistic模型、基于bagging的隨機森林以及基于boosting算法的CatBoost模型來構(gòu)建分類器,并進行了分類效果的比較。

      資料和方法

      1.研究對象

      本研究收集了2011-2018年天津市浴池浴客的調(diào)查數(shù)據(jù)。選擇每人第一次調(diào)查以及檢測數(shù)據(jù)。主要收集的數(shù)據(jù)包括浴客的人口學(xué)信息、性行為信息、檢測信息、藥物使用信息等。

      2.研究方法

      (1)基本原理

      logistic基本原理:二元logistic模型是一種常見的機器學(xué)習(xí)分類模型[8],由條件概率分布P(Y|X)表示,它是如下的條件概率分布:

      隨機森林基本原理:隨機森林是一類典型的bagging算法的實現(xiàn)。它由Breiman于2001年提出[9]。隨機森林以決策樹為基礎(chǔ),在訓(xùn)練過程中利用bootstrap抽樣,從訓(xùn)練集中有放回地抽取一部分樣本用于建立決策樹。對于決策樹的每個結(jié)點,可先從結(jié)點的特征集合中隨機選取若干特征的子集,然后再從該子集中選擇最優(yōu)的特征用于劃分結(jié)點。通過樣本的隨機和特征的隨機來減少模型的過擬合。在分類時,利用“投票”的方式?jīng)Q定觀測類別。

      CatBoost基本原理:CatBoost是俄羅斯搜索巨頭Yandex于2007年提出的提升算法模型[10]。相較于GBDT[11]、XGBoost[12]和LightGBM[13],它在訓(xùn)練之前不需要提前對類別特征進行處理,比如one-hot編碼。在訓(xùn)練過程中,它使用獨特的技術(shù)來處理類別特征,即首先將所有樣本進行隨機排序,然后針對類別特征中的某個取值,每個樣本的該特征轉(zhuǎn)為數(shù)值型時都是基于排在該樣本之前的特別特征標(biāo)簽取均值,同時加入了優(yōu)先級和優(yōu)先級的權(quán)重系數(shù)以防止過擬合。計算公式如下:

      在計算梯度時,與傳統(tǒng)的GBDT不同,CatBoost針對每個樣本,都單獨構(gòu)建一個利用該樣本之前的樣本點的梯度估計得到的模型,針對這些模型,估計該樣本的梯度,然后利用新樣本重新對樣本打分。由于上述算法依賴于樣本排序,因此利用多種樣本排序可訓(xùn)練得到多種模型,這樣可以減少過擬合。

      SMOTE基本原理:Japkowicz等針對不平衡數(shù)據(jù)提出了一種少數(shù)類的過采樣技術(shù),然而這種技術(shù)并沒有提供給模型更多信息[14]。為了解決過采樣的局限性,Chawla等在2002提出一種合成少數(shù)類的過采樣技術(shù)[15]。SMOTE會隨機選擇一個少數(shù)類實例A,并找到它最近的k個少數(shù)類。然后隨機選擇k個最鄰近A的少數(shù)類B,連接A與B,從而在特征空間中形成一條線段,進而創(chuàng)建若干個合成的實例。在含有分類特征時,新合成的樣本實例來自于其周圍頻數(shù)最多的類別。

      (2)模型訓(xùn)練

      針對原始數(shù)據(jù),使用分層10×10折交叉驗證的方式分別訓(xùn)練三個模型。超參數(shù)則使用網(wǎng)格搜索的方法進行確定。logistic模型的超參數(shù)為正則化系數(shù)C;隨機森林的超參數(shù)為森林包含的決策樹數(shù)目n_estimators,樹的最大深度max_depth以及每次bootstrap時,用于訓(xùn)練基學(xué)習(xí)器的最大樣本比例max_samples;Catboost的超參數(shù)為L2正則化系數(shù)l2_leaf_reg,可構(gòu)建的最大決策樹數(shù)目iterations,樹的最大深度depth,貝葉斯bootstrap隨機權(quán)重bagging_temperature,每次樹劃分時使用的特征比例rsm,bagging的抽樣率subsample,使用one-hot編碼最大類別數(shù)one-hot-max。對原始數(shù)據(jù)進行SMOTE后,使用10×10折交叉驗證的方式分別訓(xùn)練三個模型。超參數(shù)與SMOTE之前保持一致。SMOTE前后各模型超參數(shù)設(shè)置搜索范圍如表1所示。

      表1 各模型SMOTE前后超參數(shù)搜索范圍

      (3)模型評價

      本研究使用了準(zhǔn)確度(accuracy)、ROC曲線下面積(ROC),F(xiàn)1值和Brier score進行評價模型在測試集上的表現(xiàn)。各指標(biāo)的意義如表2所示。計算公式中,TP表示真陽性例數(shù),F(xiàn)P表示假陽性例數(shù),TN表示真陰性例數(shù),F(xiàn)N表示假陰性例數(shù),ft表示模型預(yù)測概率,ot表示觀測實際類別。

      表2 模型評價指標(biāo)說明

      以上模型的構(gòu)建使用的軟件為Python 3.7.4,圖形繪制使用的軟件為microsoft excel 2019。

      結(jié) 果

      1.變量說明

      排除缺失值較多的觀測后,最終入選浴客5091名,其中新發(fā)HIV感染者346名。模型構(gòu)建過程中使用的變量如表3所示。

      表3 研究中納入的變量

      2.模型構(gòu)建

      (1)原始數(shù)據(jù)模型構(gòu)建

      經(jīng)過網(wǎng)格搜索后,各模型確定的超參數(shù)如下:

      logistic模型:C=0.1;

      random forest模型:max_depth=6,max_samples=0.5 ,n_estimators=180;

      CatBoost模型:bagging_temperature=9,depth=7,one_hot_max_size=5,iterations=60,rsm=0.5,subsample=0.4,l2_leaf_reg=1

      各模型經(jīng)過10×10折交叉驗證以后,模型的構(gòu)建結(jié)果如表4所示。

      表4 原始數(shù)據(jù)各模型建模結(jié)果

      (2)原始數(shù)據(jù)SMOTE后模型構(gòu)建結(jié)果

      經(jīng)過網(wǎng)格搜索后,各模型確定的超參數(shù)如下:

      logistic模型:C=0.7;

      random forest模型:max_depth=9,max_samples=0.5 ,n_estimators=30;

      CatBoost模型:bagging_temperature=1,depth=10,one_hot_max_size=5,iterations=1250,rsm=0.5,subsample=0.5,l2_leaf_reg=0.03。

      各模型經(jīng)過10×10折交叉驗證以后,模型的構(gòu)建結(jié)果如表5所示。

      表5 SMOTE后建模結(jié)果

      上述各模型在測試集上的表現(xiàn)如圖1和圖2所示:

      圖1 利用原始數(shù)據(jù)構(gòu)建的3個模型在測試集上的表現(xiàn)

      圖2 SMOTE后三個模型在測試集上的表現(xiàn)

      3.模型重要性

      圖3列出了利用原始數(shù)據(jù)和利用SMOTE技術(shù)后,各模型的變量重要性前8位的變量。

      圖3 各模型的變量重要性

      討 論

      艾滋病目前仍是危害全球公共衛(wèi)生健康的重要疾病。在目前,MSM是HIV感染風(fēng)險較高的幾類關(guān)鍵人群之一。他們常由于歧視、污名化等原因無法享受到應(yīng)有的健康服務(wù)[16]。因此,建立一種可靠的模型以識別MSM人群中HIV感染者十分必要。

      此前,已有一些研究利用機器學(xué)習(xí)技術(shù)來預(yù)測在MSM人群中HIV感染的情況[17-18],但其應(yīng)用的算法在訓(xùn)練之前都需要將分類特征進行預(yù)處理,比如one-hot編碼等,這在一定程度上增加了訓(xùn)練所需時間并且損失了分類變量的一些信息。而MSM的問卷調(diào)查中分類變量較為常見。因此,為了彌補上述缺點,我們使用了Catboost來預(yù)測MSM人群中HIV的感染情況。它在訓(xùn)練之前不需要對分類變量進行預(yù)處理。在模型訓(xùn)練過程中,Catboost直接利用了target statistic的思想來對分類變量進行處理,以減少分類變量的信息損失。

      由于HIV是一種患病率較低的疾病,因此在運用機器學(xué)習(xí)技術(shù)時會經(jīng)常遇到類不平衡的問題。本研究中,在5091名調(diào)查對象中,存在346名HIV陽性患者,陽性人數(shù)與陰性人數(shù)之比達到1∶13.7。在利用原始數(shù)據(jù)訓(xùn)練時,三個模型的準(zhǔn)確度都達到了90%以上,但F1值都小于0.2,這說明這種類不平衡的問題對于模型評價產(chǎn)生了嚴(yán)重的影響。因此,我們使用SMOTE方法來解決類不平衡問題對于模型評價的影響。在使用SMOTE以后,各個模型的F1值達到了80%以上,說明該方法有效地解決了類不平衡對于模型評價的影響。

      本研究發(fā)現(xiàn),在原始數(shù)據(jù)集上,三個模型在測試集上的表現(xiàn)基本一致,但CatBoost在AUC、Brier score這兩個對不平衡數(shù)據(jù)不敏感的指標(biāo)上略優(yōu)于其他兩個模型;而在accuracy和F1值上,其他兩個模型的表現(xiàn)略優(yōu)于CatBoost模型;在使用SMOTE技術(shù)后,三個模型的在測試集上的表現(xiàn)如表5和圖2所示,可注意到,Catboost的表現(xiàn)都明顯優(yōu)于logistic和隨機森林,且隨機森林的表現(xiàn)在這三個模型中最差。這可能是因為Catboost充分利用了分類變量的信息,其他兩個模型都在訓(xùn)練過程中損失了信息,而logistic的表現(xiàn)優(yōu)于隨機森林,則可能是因為模型構(gòu)建所使用的特征與HIV感染存在較強的線性關(guān)系。

      本研究中關(guān)于變量重要性的分析結(jié)果顯示,不論是否進行SMOTE的敏感性分析,戶籍、婚姻、年齡、文化程度等基本人口學(xué)信息,肛交性行為、異性性行為等性行為信息以及性病、男性性工作者等在模型中較為穩(wěn)定,說明上述特征是預(yù)測浴池MSM人群的HIV感染的重要預(yù)測因子。這與之前的研究結(jié)果基本一致[6]。因此,研究結(jié)果對于制定有針對性的干預(yù)措施,開展降低HIV感染風(fēng)險的健康促進,減少HIV在MSM人群中的傳播提供科學(xué)依據(jù)。

      綜上所述,本研究利用三種理論依據(jù)不同的模型分別對浴池MSM人群的HIV感染進行預(yù)測建模,針對其中的類別不平衡問題進行SMOTE處理,CatBoost的預(yù)測性能均優(yōu)于其他兩個模型,通過實例數(shù)據(jù)初步論證了CatBoost等機器學(xué)習(xí)模型結(jié)合SMOTE技術(shù)對于預(yù)測和篩選MSM人群中的潛在感染者的適用性,最終促進MSM高危人群的早發(fā)現(xiàn)、早診斷、早治療。本研究的局限性在于單中心的抽樣,還需天津市以外的外部數(shù)據(jù)進一步驗證預(yù)測模型的泛化能力。

      猜你喜歡
      原始數(shù)據(jù)集上決策樹
      GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
      受特定變化趨勢限制的傳感器數(shù)據(jù)處理方法研究
      Cookie-Cutter集上的Gibbs測度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      復(fù)扇形指標(biāo)集上的分布混沌
      全新Mentor DRS360 平臺借助集中式原始數(shù)據(jù)融合及直接實時傳感技術(shù)實現(xiàn)5 級自動駕駛
      汽車零部件(2017年4期)2017-07-12 17:05:53
      基于決策樹的出租車乘客出行目的識別
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      桂平市| 本溪市| 临江市| 西吉县| 建阳市| 苗栗市| 山丹县| 华容县| 永嘉县| 敖汉旗| 祁东县| 淄博市| 濮阳市| 德州市| 石家庄市| 峨眉山市| 任丘市| 含山县| 健康| 商城县| 永福县| 庆城县| 西乌珠穆沁旗| 杭锦旗| 凤阳县| 萨迦县| 喀喇沁旗| 屏边| 海安县| 漾濞| 建水县| 康平县| 射阳县| 缙云县| 师宗县| 迭部县| 仪征市| 玉环县| 清原| 清镇市| 吉木乃县|