• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于機(jī)器學(xué)習(xí)的CatBoost模型在預(yù)測(cè)重癥手足口病中的應(yīng)用

      2019-03-14 08:01:26馮慧芬秦新華黨德建易佳音
      中國(guó)感染控制雜志 2019年1期
      關(guān)鍵詞:正確率機(jī)器重癥

      王 斌,馮慧芬,王 芳,秦新華,黃 平,黨德建,趙 敬,易佳音

      (1. 鄭州大學(xué)第五附屬醫(yī)院消化內(nèi)科,河南 鄭州 450052; 2. 鄭州大學(xué)附屬兒童醫(yī)院感染科,河南 鄭州 450051; 3. 鄭州大學(xué)第五附屬醫(yī)院感染控制科,河南 鄭州 450052)

      手足口病(hand-foot-mouth disease, HFMD)是由腸道病毒引起的一種常見的兒童傳染病[1],以腸道病毒71型(EV-A71)和柯薩奇A組16型(CV-A16)感染多見。近年報(bào)道的CV-A6 和CV-A10亞型也逐漸上升為重要病原體,與HFMD的散發(fā)和世界范圍大流行相關(guān),導(dǎo)致發(fā)生神經(jīng)系統(tǒng)并發(fā)癥和死亡的患兒數(shù)目增加[2]。CV-A6 HFMD于2008年首次在歐洲芬蘭暴發(fā),現(xiàn)大多數(shù)集中在亞太地區(qū),如中國(guó)、印度、新加坡、日本等[3-4]。該病具有自限性,大多數(shù)患兒僅表現(xiàn)出輕微的癥狀,如發(fā)熱及伴隨軀體相應(yīng)部位的出疹。但少數(shù)患兒病情容易進(jìn)展為重癥,出現(xiàn)嚴(yán)重的并發(fā)癥[5],如肺水腫、病毒性腦炎等[6],導(dǎo)致不良預(yù)后。2012年我國(guó)流行病學(xué)調(diào)查[7]數(shù)據(jù)顯示,月齡為12~23個(gè)月的患兒發(fā)病率和病死率最高,心肺或神經(jīng)系統(tǒng)的并發(fā)癥發(fā)生率為1.1%,病死率為3%,其中超過90%的死亡病例與EV-A71型有關(guān)。因此,及早識(shí)別患兒重癥化趨勢(shì),可及時(shí)進(jìn)行臨床治療與干預(yù)。

      機(jī)器學(xué)習(xí)是一門涉及多領(lǐng)域的交叉學(xué)科,如統(tǒng)計(jì)學(xué)、人工智能、概率論、數(shù)據(jù)挖掘等多種領(lǐng)域[8-9]。機(jī)器學(xué)習(xí)的算法種類繁多,按照學(xué)習(xí)方式可以分為非監(jiān)督、半監(jiān)督、監(jiān)督式及強(qiáng)化學(xué)習(xí);按照算法類似性又可以分為決策樹、回歸、聚類、人工神經(jīng)網(wǎng)絡(luò)及集成算法[10]。集成算法是一種非常強(qiáng)大的算法,包括Boosting技術(shù)(用于提升模型的正確率)、Bagging技術(shù)(提高模型的穩(wěn)定性)等。Boosting技術(shù)作為一種高級(jí)算法,屬于一種嵌套建模技術(shù),包括建模和投票兩個(gè)階段,在建模時(shí),通過多次迭代建立多個(gè)模型,通過投票階段篩選最佳模型,最終將一組預(yù)測(cè)正確率較低模型組合變成一個(gè)整體正確率較高的模型[11]。很多機(jī)器學(xué)習(xí)庫的代碼質(zhì)量比較差,需做大量的調(diào)優(yōu)工作,而CatBoost只需少量調(diào)試,就可以實(shí)現(xiàn)良好的性能。本研究擬借助于機(jī)器學(xué)習(xí)算法,通過回顧性分析臨床病例資料,探究CatBoost模型在預(yù)測(cè)重癥HMFD的應(yīng)用價(jià)值,同時(shí)通過與傳統(tǒng)算法比較,評(píng)估該模型的預(yù)測(cè)性能,為后續(xù)研究提供更多的參考依據(jù)。

      1 對(duì)象與方法

      1.1 研究對(duì)象 收集鄭州市某醫(yī)院2014年1月—2017年6月住院部診治的HFMD患兒病例。所有病例的確診均以《手足口病診療指南(2010年版)》[12]為參考標(biāo)準(zhǔn),將患兒分為輕癥組、重癥組,其中重癥組以3期(心肺功能衰竭前期)為結(jié)局指標(biāo)。

      1.2 納入及排除標(biāo)準(zhǔn) 納入標(biāo)準(zhǔn):(1)初次診斷的HFMD患兒;(2)患兒除HFMD疾病外,無其他基礎(chǔ)疾病,一般情況尚好;(3)患兒病例信息及檢驗(yàn)結(jié)果等資料完整。排除標(biāo)準(zhǔn):(1)HFMD恢復(fù)期的患兒;(2)HFMD發(fā)病之前,已經(jīng)合并心肺等其他并發(fā)癥的患兒;(3)存在免疫力缺陷等先天性疾病的患兒。

      1.3 資料收集 按照預(yù)先制定的表格,由專人負(fù)責(zé)對(duì)符合納入標(biāo)準(zhǔn)的患兒病例資料進(jìn)行記錄及整理,包括基本住院信息(性別、年齡、入院和出院日期、居住地)、發(fā)病及查體情況(主訴、發(fā)熱時(shí)間、最高體溫、皮疹、嘔吐、嗜睡、抽搐、肢體抖動(dòng)、入院和出院診斷)、血常規(guī)、生化、免疫(S100蛋白、白介素、免疫球蛋白、淋巴亞群)、病原學(xué)(抗體檢查與病毒鑒定)及其他指標(biāo)(降鈣素原、細(xì)菌毒血定量、真菌葡聚糖)等。用于納入模型的主要變量包括發(fā)病的年齡、發(fā)熱、病程,以及重要的神經(jīng)系統(tǒng)體征和血常規(guī)感染方面的指標(biāo)等。使用EpiData 3.1軟件,由兩位研究者獨(dú)立完成數(shù)據(jù)的錄入,最后進(jìn)行數(shù)據(jù)的一致性和可靠性檢驗(yàn)。對(duì)有異議的數(shù)據(jù),追溯原始資料進(jìn)行取舍分析,保證資料的完整及真實(shí)性。

      1.4 統(tǒng)計(jì)學(xué)分析 將EpiData 3.1軟件導(dǎo)出數(shù)據(jù)進(jìn)行后續(xù)分析,所有數(shù)據(jù)的處理使用R 3.4.3軟件完成,主要用到的R包有‘mlr’、‘nnet’、‘rpart’、‘e1071’、‘catboost’、‘stats’、‘pcalg’、‘ggplot2’、‘caret’等,其中‘catboost’的相關(guān)官方使用介紹詳見以下網(wǎng)址:https://tech.yandex.com/catboost/。使用R中相關(guān)函數(shù)進(jìn)行數(shù)據(jù)的整理和統(tǒng)計(jì)學(xué)分析,對(duì)數(shù)據(jù)的完整性及整體分布情況進(jìn)行分析,最后剔除缺失值、偏離值及其他異常值,經(jīng)過數(shù)據(jù)的預(yù)處理,最終保留高質(zhì)量的變量和數(shù)據(jù)。將數(shù)據(jù)劃分為70%的訓(xùn)練樣本和30%的測(cè)試樣本,其中訓(xùn)練樣本用于模型構(gòu)建,測(cè)試樣本用于模型評(píng)估。對(duì)模型進(jìn)行逐一構(gòu)建,最后評(píng)價(jià)模型的預(yù)測(cè)性能,輸出總體預(yù)測(cè)正確率等,利用ROC曲線結(jié)果判斷各模型的診斷價(jià)值。

      2 結(jié)果

      2.1 一般信息 對(duì)數(shù)據(jù)資料進(jìn)行嚴(yán)格的篩選,最終納入2 983例HFMD病例,其中輕癥組1 759例,重癥組1 224例。納入資料的一般信息,見表1。

      表1HFMD患兒納入資料的一般信息[例(%)]

      Table1General information of included data of children with HFMD(No. of cases[%])

      項(xiàng)目輕癥(n=1 759例)重癥(n=1 224例)χ2P性別1.0590.303 男1 119(63.6)756(61.8) 女640(36.4)468(38.2)年齡(歲)22.257<0.001 <1403(22.9)195(15.9) 1~746(42.4)578(47.2) 2~352(20.0)260(21.3) ≥3258(14.7)191(15.6)發(fā)病時(shí)間(d)13.279<0.001 <31 310(74.5)837(68.4) ≥3449(25.5)387(31.6)居住地30.307<0.001 城市1 053(59.9)621(50.7) 農(nóng)村664(37.7)584(47.7) 城鄉(xiāng)結(jié)合部42(2.4)19(1.6)病原學(xué)結(jié)果81.665<0.001 EV-A71282(16.0)333(27.2) CV-A16413(23.5)338(27.6) 其他陽性1 000(56.9)529(43.2) 陰性64(3.6)24(2.0)體溫(℃)26.023<0.001 37.5~690(39.2)387(31.6) 38.5~880(50.0)646(52.8) ≥39.5189(10.8)191(15.6)發(fā)熱時(shí)間(d)42.039<0.001 <3 1 247(70.9) 728(59.5) ≥3 512(29.1) 496(40.5)心率(次/分)11.0230.004 <1301 321(75.1)944(77.1) 130~432(24.6)265(21.7) ≥1506(0.3)15(1.2)白細(xì)胞(×109/L) 7.504 0.006 <10.8 1 168(66.4) 763(62.3) ≥10.8 591(33.6) 461(37.7)中性粒細(xì)胞百分比(%)9.2010.002 <751 638(93.1)1 102(90.0) ≥75121(6.9)122(10.0) 肢體抖動(dòng) 557.415 <0.001 是 6(0.3) 355(29.0) 否 1 753(99.7) 869(71.0)嘔吐297.731<0.001 是13(0.7)220(18.0) 否1 746(99.3)1 004(82.0) 嗜睡 74.148 <0.001 是 1(0.1) 53(4.3) 否 1 758(99.9) 1 171(95.7)抽搐4.5060.034 是97(5.5)91(7.4) 否1 662(94.5)1 133(92.6)降鈣素原(ng/mL) 19.492 <0.001 <0.1 1 001(56.9) 795(65.0) ≥0.1 758(43.1) 429(35.0)

      2.2 模型構(gòu)建 根據(jù)R包提供的相應(yīng)模型函數(shù)功能,對(duì)CatBoost和幾種普通常見模型分別建模,其中模型的參數(shù)配置按照函數(shù)提供的默認(rèn)設(shè)置。共構(gòu)建CatBoost模型、決策樹模型、人工神經(jīng)網(wǎng)絡(luò)模型、支持向量機(jī)模型、貝葉斯網(wǎng)絡(luò)模型及l(fā)ogistic回歸模型6類模型。

      2.3 模型預(yù)測(cè)性能評(píng)價(jià) 輸出每個(gè)模型的總體預(yù)測(cè)正確率,其中CatBoost模型的預(yù)測(cè)正確率最高(87.6%),人工神經(jīng)網(wǎng)絡(luò)模型位居第二(83.8%),見圖1。根CatBoost算法模型,輸出預(yù)測(cè)變量重要性圖,其中居前3位的變量依次為嘔吐、肢體抖動(dòng)和病原學(xué)結(jié)果。見圖2。

      圖1 6個(gè)模型診斷HFMD總體預(yù)測(cè)正確率的比較

      Figure1Comparison of the overall prediction accuracy of six models for diagnosing HFMD

      圖2 CatBoost模型的預(yù)測(cè)變量重要性圖

      為評(píng)估模型是否存在過度擬合,輸出分類器校準(zhǔn)圖,對(duì)于HFMD重癥組進(jìn)行校準(zhǔn),結(jié)果顯示,圖中校準(zhǔn)線距離理想?yún)⒖季€(圖中虛線)較接近,表明模型擬合性能穩(wěn)健,見圖3。輸出每個(gè)模型所對(duì)應(yīng)的診斷性能指標(biāo),結(jié)果顯示CatBoost算法模型ROC曲線下面積、靈敏度、特異度均高(分別為0.866、80.80%、92.33%)。見表2。

      圖3 CatBoost模型的分類器校準(zhǔn)圖(HFMD重癥組)

      Figure3Classifier calibration plot for CatBoost model(severe HFMD group)

      表2各模型ROC曲線分析相關(guān)診斷性能指標(biāo)

      Table2Diagnostic performance indicators related to ROC curve analysis for each model

      模型類別靈敏度(%)特異度(%)區(qū)域下面積95%可信區(qū)間下限上限CatBoost80.8092.330.866 0.851 0.880 人工神經(jīng)網(wǎng)絡(luò)75.4989.650.826 0.809 0.842 決策樹63.1588.800.749 0.730 0.768 支持向量機(jī)54.0892.330.732 0.713 0.751 貝葉斯網(wǎng)絡(luò)56.5489.880.732 0.713 0.751 logistic回歸53.1992.670.729 0.710 0.749

      3 討論

      CatBoost是由俄羅斯Yandex的研究人員和工程師開發(fā)的一種基于決策樹梯度提升的新型集成算法,于2017年7月正式對(duì)外宣布開源,此前,在Boosting家族中,兩大主流算法是XGBoost和lightGBM,而據(jù)官方測(cè)評(píng),該家族中新添的CatBoost成員模型性能超越上述兩大算法。本研究通過機(jī)器學(xué)習(xí)算法,對(duì)HFMD的臨床資料數(shù)據(jù)進(jìn)行建模,與其他普通分類預(yù)測(cè)模型比較,發(fā)現(xiàn)CatBoost算法模型在預(yù)測(cè)重癥HFMD中的總體正確率最高。目前,預(yù)測(cè)重癥HFMD較多的研究使用logistic回歸模型[13-16]。作為經(jīng)典模型方法,logistic回歸屬于一種廣義線性回歸模型,也可以用于分類預(yù)測(cè),但主要適用于簡(jiǎn)單線性的二分類問題,在處理非線性問題方面存在不足,同時(shí),由于其回歸方程的構(gòu)建過分依賴于訓(xùn)練樣本,也存在過度擬合問題,導(dǎo)致最終構(gòu)建的模型在檢驗(yàn)樣本的預(yù)測(cè)方面不理想。

      在眾多的機(jī)器學(xué)習(xí)模型中,處理分類(字符串)變量時(shí)經(jīng)常會(huì)面臨機(jī)器無法識(shí)別而報(bào)錯(cuò)的問題,因此需要將其用數(shù)字格式進(jìn)行轉(zhuǎn)換。常用的幾種預(yù)處理方法有標(biāo)簽編碼、獨(dú)熱編碼等。而CatBoost可以直接使用分類特征,并具有可擴(kuò)展性,可以輕松地與Google的TensorFlow和Apple的Core ML等深度學(xué)習(xí)框架相整合,以及處理各種數(shù)據(jù)類型,從而幫助解決當(dāng)今企業(yè)面臨的各種問題。最重要的是,CatBoost提供了同類算法中的最佳正確率。相比于其他模型,該模型具有以下優(yōu)勢(shì):(1)性能方面,能與任何領(lǐng)先的機(jī)器學(xué)習(xí)算法進(jìn)行競(jìng)爭(zhēng);(2)自動(dòng)處理分類特征,CatBoost使用有關(guān)分類特征及分類和數(shù)字特征組合的各種統(tǒng)計(jì)數(shù)據(jù),將分類值轉(zhuǎn)換為數(shù)字,無需任何明確的預(yù)處理就可以將類別轉(zhuǎn)換為數(shù)字;(3)穩(wěn)定性,減少了對(duì)廣泛的超參數(shù)調(diào)整的需求,降低了過擬合的機(jī)會(huì),從而導(dǎo)致更廣義的模型;(4)易于使用,提供了與scikit集成的Python界面,以及R和命令行界面。

      ROC曲線結(jié)果顯示,CatBoost算法具有較好的靈敏度和特異度,其曲線下面積也大于logistic回歸模型,診斷性能較高。Zhang等[17]在構(gòu)建重癥HFMD預(yù)測(cè)模型時(shí),通過R統(tǒng)計(jì)軟件使用了梯度提升樹(gradient boosting tree,GBT)模型構(gòu)建的決策樹。GBT是Boosting家族的一種算法,而XGBoost和lightGBM是在此基礎(chǔ)上的新一代升級(jí)算法,其構(gòu)建的GBT模型預(yù)測(cè)正確率可達(dá)到92.3%,ROC曲線下面積為0.985,充分說明了新的集成算法的優(yōu)勢(shì),支持本研究的結(jié)果。

      CatBoost模型篩選的預(yù)測(cè)變量居前3位的依次為嘔吐、肢體抖動(dòng)和病原學(xué)結(jié)果。Peng等[18]納入14項(xiàng)研究的薈萃分析結(jié)果顯示,肢體抖動(dòng)和嘔吐為重癥HFMD合并神經(jīng)源性肺水腫的獨(dú)立危險(xiǎn)因素。在病原學(xué)結(jié)果方面,目前研究認(rèn)為EV-A71型與重癥HFMD存在相關(guān)性,Nadel等[19]研究認(rèn)為,EV-A71型可以侵犯呼吸和神經(jīng)系統(tǒng),引起一系列并發(fā)癥,如肺水腫、腦炎等。Cox等[20]研究進(jìn)一步揭示了EV-A71型的感染涉及宿主-病毒相互作用的分子機(jī)制,EV-A71病毒利用自身病毒蛋白破壞宿主免疫,進(jìn)而發(fā)生免疫逃逸。Luo等[21]研究則通過大型流行病學(xué)調(diào)查發(fā)現(xiàn),EV-A71型的感染是HFMD進(jìn)展為重癥和危重癥的主要原因,其占比分別為65.75%和88.78%。譚艷芳等[22]研究亦強(qiáng)調(diào)了EV-A71陽性是重癥HFMD的危險(xiǎn)因素,與本研究得出的病原學(xué)結(jié)果為重要預(yù)測(cè)變量結(jié)果一致。

      近年來,利用機(jī)器學(xué)習(xí)算法預(yù)測(cè)疾病,以及輔助臨床醫(yī)生診斷等方面的研究逐漸成為熱點(diǎn)??梢灶A(yù)想,借助于機(jī)器學(xué)習(xí)及大數(shù)據(jù)分析平臺(tái),未來國(guó)家在傳染病的預(yù)測(cè)監(jiān)管方面可以實(shí)現(xiàn)相應(yīng)決策的動(dòng)態(tài)調(diào)整。

      本研究雖然納入了較多樣本,以及通過一系列數(shù)據(jù)處理流程提高數(shù)據(jù)的質(zhì)量,保證分析結(jié)果的穩(wěn)定性,但仍然存在一些局限性:(1)受收集病例資料來源限制,本研究雖然納入了許多預(yù)測(cè)變量進(jìn)行篩選,但仍不夠全面,可能存在未納入的潛在預(yù)測(cè)變量。(2)由于CatBoost目前僅在編程Python軟件中提供了完整的功能庫,而本研究?jī)H使用了R軟件,并未使用Python軟件。R比較局限于科研工作者進(jìn)行數(shù)據(jù)科學(xué)分析,而Python涵蓋了很大范圍的用戶群體,主要包括程序員和科研人員等,在計(jì)算機(jī)方面龐大的編程功能中,數(shù)據(jù)分析只是一個(gè)分支。由于目前該算法的R包中僅提供了基礎(chǔ)的模型構(gòu)建功能,而未完整地進(jìn)行相應(yīng)模塊的編譯和封裝,因此尚無法實(shí)現(xiàn)更多數(shù)據(jù)可視化的高級(jí)功能。

      綜上所述,本研究通過機(jī)器學(xué)習(xí)算法發(fā)現(xiàn),CatBoost模型可以用于預(yù)測(cè)重癥HFMD,相比于其他傳統(tǒng)算法,具有較高的預(yù)測(cè)正確率和診斷價(jià)值,后續(xù)更多功能的開發(fā)仍然需要借助于主流編程Python軟件以及更多研究的深入開展。

      猜你喜歡
      正確率機(jī)器重癥
      機(jī)器狗
      上海此輪疫情為何重癥少
      機(jī)器狗
      門診分診服務(wù)態(tài)度與正確率對(duì)護(hù)患關(guān)系的影響
      未來機(jī)器城
      電影(2018年8期)2018-09-21 08:00:06
      舌重癥多形性紅斑1例報(bào)道
      生意
      品管圈活動(dòng)在提高介入手術(shù)安全核查正確率中的應(yīng)用
      生意
      無敵機(jī)器蛛
      奎屯市| 库尔勒市| 离岛区| 武城县| 龙山县| 尼勒克县| 汤原县| 清流县| 亳州市| 石柱| 左云县| 武隆县| 瓮安县| 怀集县| 资兴市| 都匀市| 潼关县| 邵东县| 民县| 桐城市| 英超| 根河市| 余姚市| 罗平县| 南溪县| 威海市| 静乐县| 岱山县| 镇沅| 正阳县| 新乡市| 峨眉山市| 阿巴嘎旗| 翁牛特旗| 潜江市| 东城区| 屏山县| 司法| 平远县| 通渭县| 大埔县|