• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      機(jī)器學(xué)習(xí)算法在預(yù)測男男性行為人群中HIV感染的應(yīng)用*

      2019-03-18 03:31:32天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系300070
      中國衛(wèi)生統(tǒng)計(jì) 2019年1期
      關(guān)鍵詞:向量人群神經(jīng)網(wǎng)絡(luò)

      天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系(300070)

      郭長滿 郭 敏 劉媛媛 李長平 崔 壯△ 馬 駿

      男男性行為人群(men who have sex with men,MSM)是感染HIV、性病風(fēng)險(xiǎn)最高的人群之一,也是感染人數(shù)增長較快的人群[1],在最新確認(rèn)的HIV感染者中,MSM所占比例穩(wěn)步增長,甚至一度達(dá)到了新確診的22.8%[2]。當(dāng)前的研究已經(jīng)表明高危性行為,如多性伴、群交、使用物質(zhì)(助性劑)以及無保護(hù)性交均為HIV感染的高危因素[3]。針對具有這些高危因素的人群采取必要的預(yù)防保護(hù)措施可以有效地減少HIV在該人群中的傳播,提高該人群的健康水平,盡管當(dāng)前已經(jīng)有大量的檢測措施可以早期發(fā)現(xiàn)和治療HIV感染者,但是每年仍然有大量未被發(fā)現(xiàn)的新增HIV感染者,并且有一部分人群仍在接受不必要的預(yù)防服務(wù),從而造成醫(yī)療資源的浪費(fèi),因此,開發(fā)一種準(zhǔn)確而有效的識別早期HIV感染者的方法,具有重要的現(xiàn)實(shí)意義。

      已有的模型如logistic回歸分析和Poisson回歸分析已經(jīng)在男男性行為人群中的HIV感染廣泛應(yīng)用,然而這些模型在男男性行為人群中的分類和預(yù)測性能卻少有研究,機(jī)器學(xué)習(xí)算法的發(fā)展為評估該高危人群的特征提供了一種新的思路。

      機(jī)器學(xué)習(xí)又稱為人工智能,即通過計(jì)算機(jī)網(wǎng)絡(luò)處理各個(gè)變量間的復(fù)雜和非線性關(guān)系并使誤差最小化的方法[4]。目前廣泛應(yīng)用的機(jī)器學(xué)習(xí)算法包括神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林和支持向量機(jī),這些算法已經(jīng)廣泛應(yīng)用于工程學(xué)、建筑學(xué)等領(lǐng)域,卻很少有研究將這些算法應(yīng)用于男男性行為人群,為了更好地評估這些算法是否能提高預(yù)測HIV感染的精確度,以及尋找具有最好分類效能的分類算法,本研究比較了四種算法的分類效能。

      原理與方法

      1.logistic回歸的原理

      logistic回歸分析在醫(yī)學(xué)研究中應(yīng)用廣泛。目前主要是用于流行病學(xué)研究中危險(xiǎn)因素的篩選,但它同時(shí)具有良好的判別和預(yù)測功能,尤其是在資料類型不能滿足Fisher判別和Bayes判別的條件時(shí),更顯示出logistic回歸判別的優(yōu)勢和效能[5]。

      2.BP神經(jīng)網(wǎng)絡(luò)的原理

      BP神經(jīng)網(wǎng)絡(luò)是一種有監(jiān)督的前饋運(yùn)行的神經(jīng)網(wǎng)絡(luò),它由輸入層、隱含層、輸出層以及各層之間的節(jié)點(diǎn)的連接權(quán)所組成,這個(gè)學(xué)習(xí)過程的算法由信息的正向傳播和誤差的反向傳播構(gòu)成,在正向傳播過程中,輸入信息從輸入層經(jīng)隱含層逐層處理,并傳向輸出層,每一層神經(jīng)元只影響下一層神經(jīng)元的輸出,信息完成正向的傳播后,如果在輸出層不能得到期望的輸出,那么誤差將進(jìn)入反向傳播,運(yùn)用鏈導(dǎo)數(shù)法則將連接權(quán)關(guān)于誤差函數(shù)的導(dǎo)數(shù)沿原來的連接通路返回,通過修改各層的權(quán)值使得誤差函數(shù)減小[6]。

      3.隨機(jī)森林的原理

      隨機(jī)森林由Leo Breiman(2001)提出,它通過自助法(bootstrap)重采樣技術(shù),從原始訓(xùn)練樣本集N中有放回地重復(fù)隨機(jī)抽取n個(gè)樣本生成新的訓(xùn)練自助樣本集合,然后根據(jù)自助樣本集生成n個(gè)分類樹組成隨機(jī)森林,新數(shù)據(jù)的分類結(jié)果按分類樹投票多少形成的分?jǐn)?shù)而定[7]。

      4.支持向量機(jī)的原理

      支持向量機(jī)通過結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理來提高泛化能力,它較好地解決了小樣本、非線性、高維數(shù)、局部極小點(diǎn)等實(shí)際問題。其主要思想:首先選擇一非線性映射把n維樣本從原空間映射到特征空間,在此高維特征空間中構(gòu)造最優(yōu)線性決策函數(shù)。在構(gòu)造最優(yōu)決策函數(shù)時(shí),利用了結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,同時(shí)引入了間隔的概念。并巧妙地利用原空間的核函數(shù)取代了高維特征空間的點(diǎn)積運(yùn)算,避免了復(fù)雜計(jì)算[8]。

      5.算法的比較

      本研究納入了四種常用的數(shù)據(jù)分類算法,即logistic回歸、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林和支持向量機(jī),比較這四種分類算法基于已有的變量信息對目標(biāo)人群是否感染HIV進(jìn)行分類。為了比較四種分類算法的分類效果,將數(shù)據(jù)集分為訓(xùn)練集和測試集,訓(xùn)練集用于對分類算法進(jìn)行訓(xùn)練,測試集用于對訓(xùn)練的結(jié)果進(jìn)行比較和總結(jié)。原數(shù)據(jù)集分別經(jīng)過10次、50次和100次有放回bootstrap重抽樣[9],從而產(chǎn)生10個(gè)、50個(gè)和100個(gè)與原數(shù)據(jù)集大小相同的子樣本集,基于bootstrap重抽樣的特性,每次抽樣時(shí)原數(shù)據(jù)集中總會(huì)有約37%的樣本不被抽到,用這部分不被抽到的樣本集來分別作為測試集,新產(chǎn)生的子樣本集來分別作為訓(xùn)練集,基于每種分類算法的分類結(jié)果進(jìn)行綜合評價(jià)。

      6.統(tǒng)計(jì)學(xué)方法

      分類器的分類性能采用測試集的分類結(jié)果來進(jìn)行評價(jià),分類效果的評價(jià)采用C統(tǒng)計(jì)量來進(jìn)行[10],即曲線下面積(AUC),及其95%置信區(qū)間,用實(shí)驗(yàn)室檢測得到的樣本人群HIV感染情況作為金標(biāo)準(zhǔn),而每個(gè)分類器每次采用驗(yàn)證集分類的結(jié)果和金標(biāo)準(zhǔn)進(jìn)行比較從而可以得到靈敏度、特異度、精確度和相應(yīng)的曲線下面積。關(guān)于神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和隨機(jī)森林最優(yōu)參數(shù)的選取基于3折交叉驗(yàn)證的方法,最優(yōu)模型的選取依據(jù)分類模型的曲線下面積,選擇具有最大曲線下面積時(shí)所對應(yīng)的參數(shù)。其中,神經(jīng)網(wǎng)絡(luò)的隱藏層神經(jīng)元個(gè)數(shù)范圍為(0,10),支持向量機(jī)選擇的核函數(shù)為徑向基核函數(shù),對于cost設(shè)置參數(shù)選擇范圍為(2-5,20,215),gamma的范圍為(2-15,20,23),隨機(jī)森林中節(jié)點(diǎn)數(shù)范圍為(3,4,5),決策樹的個(gè)數(shù)為范圍為(100,200,500),從中選擇最佳的參數(shù)來進(jìn)行建模和預(yù)測。Nnet包被用來實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)算法,randomForest包用來實(shí)現(xiàn)隨機(jī)森林算法,e1071包用來實(shí)現(xiàn)支持向量機(jī)算法,rminer包用于模型調(diào)參。所有的統(tǒng)計(jì)分析均運(yùn)用R語言實(shí)現(xiàn)的。

      結(jié) 果

      1.研究人群和研究變量

      本次研究的資料來源于天津市某男性同性戀志愿組織調(diào)查收集的關(guān)于男男性行為人群的資料和體檢信息,入選標(biāo)準(zhǔn):①年齡≥18周歲;②在天津市居住≥6個(gè)月;③在過去六個(gè)月曾發(fā)生過至少一次商業(yè)男男性行為。對數(shù)據(jù)進(jìn)行核查、清洗,排除不符合入選標(biāo)準(zhǔn),數(shù)據(jù)大量缺失以及有邏輯錯(cuò)誤的樣本。最終納入研究的目標(biāo)人群有3086人。對研究變量與HIV的關(guān)系進(jìn)行單因素分析,篩選出結(jié)果有意義的,以及文獻(xiàn)研究顯示可能有影響的變量。該目標(biāo)人群HIV感染率為8.39%。最終研究中用到的變量如表1所示。

      表1 研究中納入的變量

      2.分類算法在訓(xùn)練集上的表現(xiàn)

      表2顯示了經(jīng)過10次、50次和100次重抽樣后,計(jì)算四種分類算法在訓(xùn)練集里的指標(biāo)及其95%CI,結(jié)果支持向量機(jī)在靈敏度、特異度、準(zhǔn)確度(PRE)以及曲線下面積(AUC)上表現(xiàn)最好。

      表2 四種分類算法在訓(xùn)練集上的分類效能

      3.分類算法在測試集上的表現(xiàn)

      表3顯示了經(jīng)過10次、50次和100次重抽樣后四種分類算法在測試集上的效能指標(biāo)及其95%CI,結(jié)果顯示隨機(jī)森林的靈敏度最高(97.6%),支持向量機(jī)在特異度,準(zhǔn)確度(PRE)以及曲線下面積(AUC)上表現(xiàn)最好。

      表3 四種分類算法在測試集上的分類效能

      4.四種不同分類算法預(yù)測性能比較

      預(yù)測性能用曲線下面積(AUC)來表示,分別經(jīng)過10次、50次和100次bootstrap重抽樣后:logistic回歸分類結(jié)果對應(yīng)的AUC分別是為0.724、0.723和0.725;神經(jīng)網(wǎng)絡(luò)為0.916、0.908和0.909;隨機(jī)森林為0.924、0.921和0.922;支持向量機(jī)為0.949、0.949和0.948;經(jīng)過100次重抽樣后,相比于logistic回歸,神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林和支持向量機(jī)的預(yù)測性能分別提升了18.4%、19.7%和22.3%,具體可參見表4。

      5.變量重要性

      圖1列出了所有變量的重要性,并使用訓(xùn)練集進(jìn)行計(jì)算,通過設(shè)置各種算法的最優(yōu)參數(shù)得到每種算法訓(xùn)練100次后變量的平均重要性。HIV感染的預(yù)測算法的變量重要性列于圖1。

      表4 不同分類算法預(yù)測男性同性戀人群HIV的比較

      圖1 基于機(jī)器學(xué)習(xí)算法的變量重要性

      討 論

      男男性行為人群是HIV感染的高危人群[3],近年來的研究發(fā)現(xiàn)該人群HIV感染率在10%左右[11]。一方面由于其隱蔽性和不可及性,該人群的健康狀況資料較難獲得,因此研究該目標(biāo)人群時(shí)常常受到樣本量的限制。另一方面,由于HIV的高危性,一旦感染HIV卻未得到及時(shí)的抗病毒治療將會(huì)導(dǎo)致病情的發(fā)展并最終導(dǎo)致艾滋病的發(fā)生。因此為了實(shí)現(xiàn)基于有限的樣本數(shù)據(jù),提高分類模型(或分類器)的分類能力的目標(biāo),我們嘗試采用傳統(tǒng)模型和機(jī)器學(xué)習(xí)算法結(jié)合,探索適用于男男性行為人群研究的最佳分類器。

      本研究是第一次將機(jī)器學(xué)習(xí)算法應(yīng)用到男男性行為人群中進(jìn)行分類的研究,采用bootstrap抽樣方法用來對數(shù)據(jù)進(jìn)行抽樣,結(jié)果具有較好的穩(wěn)定性[9],經(jīng)過100次bootstrap重抽樣后,相比于logistic回歸,神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林和支持向量機(jī)表現(xiàn)出較好的分類效能,所對應(yīng)的曲線下面積(AUC)分別提高了18.4%、19.7%和22.3%,且支持向量機(jī)為最優(yōu)分類算法,有最高的分類準(zhǔn)確度(98.9%)和曲線下面積(94.8%)。

      在變量的重要性的計(jì)算中,不同的算法具有不同的理論基礎(chǔ)[12]。其中l(wèi)ogistic回歸的變量重要性用回歸系數(shù)和標(biāo)準(zhǔn)差的乘積來衡量。隨機(jī)森林是基于平均基尼系數(shù)或平均精確度減少量;神經(jīng)網(wǎng)絡(luò)使用模型內(nèi)變量的總體加權(quán);支持向量機(jī)則是基于信息值的變化來衡量。結(jié)果顯示各個(gè)變量在不同算法中的重要性大小不一,但是綜合上述算法最終結(jié)果顯示,高危性行為及性病史仍然是影響HIV感染的主要因素,這與之前的研究結(jié)果相一致[3],因此潔身自好,養(yǎng)成良好的生活方式仍然是預(yù)防HIV感染的關(guān)鍵措施。

      隨著潛在風(fēng)險(xiǎn)因素的數(shù)量增加,模型的復(fù)雜性可能導(dǎo)致過度擬合,產(chǎn)生不可信的結(jié)果。為了避免該問題,常用的方法包括適當(dāng)選擇預(yù)訓(xùn)練、調(diào)整超參數(shù)、交叉驗(yàn)證、bootstrap和正則化等[13]。本研究中,我們通過對原數(shù)據(jù)集進(jìn)行bootstrap重抽樣并對結(jié)果進(jìn)行10次、50次和100次的循環(huán)來驗(yàn)證用訓(xùn)練樣本訓(xùn)練的模型穩(wěn)定性,對比訓(xùn)練集和測試集的結(jié)果顯示,兩者差異不大,分類效能均比較理想,表明模型的泛化能力比較好;其次通過對機(jī)器學(xué)習(xí)算法中超參數(shù)的調(diào)整,選擇最優(yōu)的超參數(shù)使模型達(dá)到最優(yōu)的分類效能。

      作為經(jīng)典的統(tǒng)計(jì)學(xué)方法,logistic回歸仍然是一個(gè)可靠的分類方法,其可以計(jì)算出各個(gè)變量在模型中的系數(shù)以及優(yōu)勢比,各個(gè)變量在模型中的作用是清晰、明確的。但是對于非線性可分問題,或處理分類能力有限的變量時(shí)表現(xiàn)往往不佳。機(jī)器學(xué)習(xí)算法如神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和隨機(jī)森林已成為統(tǒng)計(jì)學(xué)研究的熱點(diǎn),因其具有較強(qiáng)自適應(yīng)、自學(xué)習(xí)、非線性映射、容錯(cuò)和泛化能力,正在越來越多地被應(yīng)用到實(shí)際問題中。應(yīng)用神經(jīng)網(wǎng)絡(luò)時(shí)如何選取合適的隱藏層是其中的關(guān)鍵[6],本研究中選取每次訓(xùn)練結(jié)果(AUC)最好時(shí)的參數(shù)作為每次測試集的最優(yōu)參數(shù)。支持向量機(jī)算法在處理高維小樣本數(shù)據(jù)時(shí)具有比較好的分類效能。其最優(yōu)模型參數(shù)的選取是基于每次訓(xùn)練過程中模型最優(yōu)性能時(shí)所對應(yīng)的參數(shù),參數(shù)的選取采用3折交叉驗(yàn)證法。隨機(jī)森林比較適合處理海量數(shù)據(jù)、高維問題、連續(xù)性變量,分類變量等。隨機(jī)森林在生成過程中采用了bootstrap方法進(jìn)行重抽樣,生成其內(nèi)部的訓(xùn)練集和袋外數(shù)據(jù),通過袋外數(shù)據(jù)來測試模型的分類性能,這種基于Bagging的思想提升了模型的性能和穩(wěn)定性[7],但也存在運(yùn)算量大的局限性。時(shí)至今日,機(jī)器學(xué)習(xí)算法的“黑箱”特性仍被詬病,它們不能像logistic回歸模型那樣描述風(fēng)險(xiǎn)因素變量如何相互作用的復(fù)雜性以及它們對結(jié)果的獨(dú)立影響,但數(shù)據(jù)可視化方法有助于對這些模型的理解[14]。

      本研究發(fā)現(xiàn)機(jī)器學(xué)習(xí)算法有助于識別未被發(fā)現(xiàn)的感染HIV的男男性行為人群,從而做到早發(fā)現(xiàn)、早診斷、早治療的目的,同時(shí)也為機(jī)器學(xué)習(xí)算法應(yīng)用于醫(yī)學(xué)數(shù)據(jù)開辟了思路。

      猜你喜歡
      向量人群神經(jīng)網(wǎng)絡(luò)
      在逃犯
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      糖尿病早預(yù)防、早控制
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      我走進(jìn)人群
      百花洲(2018年1期)2018-02-07 16:34:52
      財(cái)富焦慮人群
      向量垂直在解析幾何中的應(yīng)用
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      娱乐| 郴州市| 蓬溪县| 陈巴尔虎旗| 余庆县| 巴楚县| 广丰县| 肥乡县| 乐业县| 呼图壁县| 定襄县| 南安市| 荔波县| 湘西| 时尚| 张家港市| 荥阳市| 田东县| 清水县| 成安县| 济阳县| 宿州市| 德州市| 永城市| 洪江市| 翁源县| 荣昌县| 天等县| 南部县| 韶山市| 宿州市| 胶州市| 淮安市| 宝山区| 正蓝旗| 盘锦市| 静宁县| 大冶市| 昆山市| 延边| 津市市|