• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于支持向量機(jī)與XGboost 的成年人群腫瘤患病風(fēng)險(xiǎn)預(yù)測(cè)研究

      2020-04-11 10:45:02馬倩倩孫東旭石金銘何賢英翟運(yùn)開
      中國全科醫(yī)學(xué) 2020年12期
      關(guān)鍵詞:成年人正確率向量

      馬倩倩,孫東旭,石金銘,何賢英,翟運(yùn)開,3*

      本文價(jià)值及局限性:

      (1)腫瘤風(fēng)險(xiǎn)預(yù)測(cè)對(duì)于提高人群健康水平、降低患者經(jīng)濟(jì)負(fù)擔(dān)意義重大。隨著海量醫(yī)療健康大數(shù)據(jù)的產(chǎn)生,傳統(tǒng)的統(tǒng)計(jì)學(xué)方法已無法滿足數(shù)據(jù)分析需求,部分學(xué)者開始嘗試將支持向量機(jī)等機(jī)器學(xué)習(xí)算法進(jìn)行數(shù)據(jù)挖掘。但尚未見支持向量機(jī)、XGboost 等算法應(yīng)用于預(yù)測(cè)個(gè)體腫瘤發(fā)生風(fēng)險(xiǎn)。

      (2)本文創(chuàng)新性地將支持向量機(jī)、XGboost 等算法應(yīng)用在腫瘤風(fēng)險(xiǎn)預(yù)測(cè)領(lǐng)域,搭建的腫瘤患病風(fēng)險(xiǎn)預(yù)測(cè)模型表現(xiàn)出較高的預(yù)測(cè)正確率及穩(wěn)健性,可以提前給予腫瘤風(fēng)險(xiǎn)預(yù)警,從而可根據(jù)風(fēng)險(xiǎn)指標(biāo)開展精準(zhǔn)健康干預(yù),為腫瘤預(yù)防提供一定的臨床指導(dǎo)和幫助。

      (3)本研究有一定局限性,例如進(jìn)入模型的特征依然不夠全面,未包含生化指標(biāo)、環(huán)境指標(biāo)、飲食攝入情況等因素;支持向量機(jī)模型中核函數(shù)的選擇中,僅采用了常用的徑向基核函數(shù),未考慮多項(xiàng)式核函數(shù)等其他不同核函數(shù)向量分類器并進(jìn)行對(duì)比,可進(jìn)一步深入研究。

      腫瘤是危害人類健康的重要問題之一,2015 年中國惡性腫瘤發(fā)病率約285.83/10 萬,死亡率約為 170.05/10 萬,惡性腫瘤發(fā)病率、死亡率近十幾年來分別保持3.9%、2.5%的增幅[1],疾病負(fù)擔(dān)呈持續(xù)上升趨勢(shì)。腫瘤的防控對(duì)于節(jié)約醫(yī)療資源、降低醫(yī)療開支、提高人群健康水平意義重大。腫瘤受生活方式、環(huán)境、基因等多種因素的影響,對(duì)于其患病風(fēng)險(xiǎn)的精準(zhǔn)預(yù)測(cè)涉及龐大的數(shù)據(jù)量和數(shù)據(jù)特征,尤其隨著海量醫(yī)療健康大數(shù)據(jù)的產(chǎn)生,傳統(tǒng)的統(tǒng)計(jì)學(xué)方法已無法滿足數(shù)據(jù)分析需求,部分學(xué)者開始嘗試采用支持向量機(jī)等機(jī)器學(xué)習(xí)算法進(jìn)行數(shù)據(jù)挖掘[2-4]。目前尚未見支持向量機(jī)、XGboost 等算法應(yīng)用在腫瘤風(fēng)險(xiǎn)預(yù)測(cè)領(lǐng)域中的研究。因此,本文旨在探索支持向量機(jī)和XGboost 于腫瘤風(fēng)險(xiǎn)預(yù)測(cè)的應(yīng)用價(jià)值。

      1 資料與方法

      1.1 一般資料 本研究時(shí)間為2011—2015 年,數(shù)據(jù)來源于中國健康與營養(yǎng)調(diào)查(CHNS)[5],其是北卡羅來納大學(xué)教堂山分校(University of North Carolina at Chapel Hill)的卡羅來納州人口中心(Carolina Population Center)與中國疾病防控中心的國家營養(yǎng)與食品安全研究所共同開展的國際合作項(xiàng)目。該調(diào)查是一個(gè)持續(xù)開放的隊(duì)列,采用多階段分層整群隨機(jī)抽樣法,共得到約4 400 個(gè)家庭住戶、26 000 個(gè)個(gè)人樣本,覆蓋了在地理位置、經(jīng)濟(jì)發(fā)展、公共資源和衛(wèi)生指標(biāo)均存在巨大差異的黑龍江、遼寧、湖南、山東、貴州、江蘇、廣西、湖北、河南、北京、上海和重慶12 個(gè)地區(qū),是一個(gè)少見的、信息含量豐富的、具有全國代表性的數(shù)據(jù)。本文選用其中成年人調(diào)查表所得數(shù)據(jù),篩選出患腫瘤可能的影響因素(見表1)[5]。以我國12 個(gè)地區(qū)城鄉(xiāng)成年(≥18 歲)常住居民為對(duì)象,經(jīng)過數(shù)據(jù)清理,合并2011 年與2015 年數(shù)據(jù)[5],剔除重復(fù)記錄數(shù)據(jù),最終納入分析的對(duì)象有19 410 例,其中男9 371 例(48.28%),女10 039 例(51.72%)。

      1.2 數(shù)據(jù)處理 剔除是否患腫瘤(U24W:醫(yī)生給你下過腫瘤的診斷嗎?)等關(guān)鍵變量存在缺失記錄及重復(fù)的記錄,并采用隨機(jī)森林算法填補(bǔ)缺失數(shù)據(jù)。以是否患腫瘤為因變量,分別隨機(jī)抽取2/3 樣本作為訓(xùn)練集,剩余1/3 樣本作為測(cè)試集評(píng)估各模型表現(xiàn)。

      1.3 方法 基于逐步Logistic回歸分析的變量篩選策略,在訓(xùn)練集上分別建立逐步Logistic 回歸、支持向量機(jī)、XGboost 腫瘤患病風(fēng)險(xiǎn)預(yù)測(cè)模型,并在測(cè)試集上進(jìn)行 驗(yàn)證。

      1.3.1 逐步Logistic 回歸分析 在訓(xùn)練數(shù)據(jù)集中,以成年人群是否患腫瘤為因變量,以表1 中除因變量外所有變量為自變量進(jìn)行初始逐步Logistic 回歸分析,利用R軟件中step 函數(shù),基于赤池信息量準(zhǔn)則(AIC)越小模型更優(yōu)原則逐步進(jìn)行變量篩選。

      1.3.2 支持向量機(jī) 支持向量機(jī)是由VAPNIK[6]于1997 年提出的,是一種線性和非線性分類方法,其基本思想是利用適當(dāng)?shù)暮撕瘮?shù)將待分類數(shù)據(jù)映射到具有一定容錯(cuò)條件的更高維特征空間,通過在此空間構(gòu)建最優(yōu)的分類超平面將數(shù)據(jù)分類。支持變量為確定最佳分類超平面時(shí)附近距離最近的樣本點(diǎn)。支持向量機(jī)適用于小樣本、非線性、高維數(shù)據(jù)分類問題,具有預(yù)測(cè)可靠性高、穩(wěn)定性強(qiáng)、泛化能力強(qiáng)等特點(diǎn)。支持向量機(jī)主要的參數(shù)有用于控制錯(cuò)誤分類懲罰程度的正則化參數(shù)C 與控制樣本間距離尺度的徑向基核函數(shù)半徑的倒數(shù)γ,此處采用常用的徑向基核函數(shù)。

      1.3.3 XGboost 算法 XGboost 由陳天奇教授于2016 年提出,是一種基于迭代決策樹模型的集成學(xué)習(xí)算法[7]。作為Boosting 算法中的一種,其基本思想是集成眾多弱分類器形成強(qiáng)分類器。該算法最大的特點(diǎn)在于多線程計(jì)算,并利用正則化提升技術(shù)減少過度擬合,從而保證模型的魯棒性。同時(shí)可自定義損失函數(shù)、稀疏特征的處理、允許缺失值等,具有靈活、計(jì)算速度快、不易受異常值干擾、穩(wěn)健性好的優(yōu)勢(shì)。

      1.4 統(tǒng)計(jì)分析與軟件 采用RStudio1.1.456 建模與評(píng)價(jià),分別采用e1071 程序包、XGboost 程序包建立支持向量機(jī)和XGboost。訓(xùn)練集進(jìn)行逐步Logistic 回歸分析時(shí),采用stepwise 方法對(duì)模型特征進(jìn)行篩選;XGboost 與支持向量機(jī)利用網(wǎng)格搜索方法進(jìn)行調(diào)參,將訓(xùn)練集作為原始數(shù)據(jù),利用K 折交叉驗(yàn)證法(K-CV),本文K=10,找到交叉驗(yàn)證精度與正確率最高誤差最小的最優(yōu)參數(shù)組合。以逐步Logistic 回歸為對(duì)照,由受試者工作特征(ROC)曲線下面積(AUC)判斷各模型優(yōu)劣,使用pROC 程序包中roc.test 函數(shù),利用DeLong 檢驗(yàn)比較各模型AUC 的差異,以比較各模型的性能。雙側(cè)檢驗(yàn)水準(zhǔn)α=0.05。

      2 結(jié)果

      2.1 一般資料 19 410 例研究對(duì)象中,被診斷為腫瘤患者262 例(1.35%)。訓(xùn)練集(n=12 919)中含有174例腫瘤患者,測(cè)試集(n=6 491)含有88 例腫瘤患者。

      2.2 逐步Logistic 回歸分析 基于AIC 逐步進(jìn)行變量篩選,最終得到逐步Logistic 回歸分析結(jié)果(見表2)。逐步Logistic 回歸分析在訓(xùn)練集上的擬合值與真實(shí)值相比,其預(yù)測(cè)成年人群患腫瘤的正確率為73.28%〔95%CI(72.51%,74.04%)〕,靈敏度為68.97%,特異度為73.34%。

      表 1 變量賦值說明Table 1 The description of variables

      表2 成年人群是否患腫瘤的多因素逐步Logistic 回歸分析結(jié)果Table 2 Stepwise multivariate Logistic regression analysis of variables possibly associated with cancer in adult population

      2.3 支持向量機(jī) 以成年人群是否患腫瘤為因變量(賦值:0=否,1=是),以逐步Logistic 回歸分析篩選出的變量作為自變量(賦值同表1),在訓(xùn)練集上建立支持向量機(jī),利用tune.svm()函數(shù),通過網(wǎng)格搜索方法,循環(huán)遍歷,嘗試各種參數(shù)組合以尋找最優(yōu)的參數(shù),C與γ 初始取值范圍皆為[0.01,0.1,1,10,100]。10 折交叉驗(yàn)證錯(cuò)誤率最低時(shí)的最優(yōu)參數(shù)為C=100、γ=0.01,此時(shí)訓(xùn)練徑向支持向量機(jī)預(yù)測(cè)成年人群患腫瘤的正確率、靈敏度、特異度均為100.00%。

      2.4 XGboost 算 法 使 用Caret 包 中train() 函 數(shù)的網(wǎng)格搜索法進(jìn)行參數(shù)調(diào)優(yōu),選取模型預(yù)測(cè)正確率更高的參數(shù)組合,最終確定學(xué)習(xí)率η=0.3,樹深度max_depth=1,nrounds=150,gamma=0,colsample_bytree=0.6,min_child_weight=2,subsample=1,scale_pos_weight=1,此時(shí)在訓(xùn)練集上預(yù)測(cè)成年人群患腫瘤的正確率為69.78%〔95%CI(68.98%,70.57%)〕,靈敏度為78.16%,特異度為69.67%,變量重要性評(píng)分見圖1。

      圖1 基于XGboost 算法得出的變量重要性評(píng)價(jià)(前15 個(gè))Figure 1 Variable importance evaluation based on XGboost algorithm(top 15)

      2.5 模型對(duì)比 以上3 個(gè)模型其實(shí)是二值分類器,在測(cè)試集上驗(yàn)證其預(yù)測(cè)性能。由ROC 曲線可知,支持向量機(jī)預(yù)測(cè)成年人群患腫瘤的AUC 最大,為86.32%〔95%CI(81.64%,91.00%)〕,且正確率最高,為99.54%〔95%CI(99.34%,99.69%)〕。 經(jīng)DeLong 檢驗(yàn),支持向量機(jī)、XGboost 預(yù)測(cè)成年人群患腫瘤的AUC與Logistic 回歸模型比較,差異有統(tǒng)計(jì)學(xué)意義(Z 值分別為-2.519、-2.138,P 值分別為0.012、0.032);XGboost 預(yù)測(cè)成年人群患腫瘤的AUC 低于支持向量機(jī),差異有統(tǒng)計(jì)學(xué)意義(Z=2.081,P=0.037,見表3、圖2)。

      表3 支持向量機(jī)、XGboost、逐步Logistic 回歸分析預(yù)測(cè)成年人群患腫瘤的正確率、靈敏度、特異度、AUCTable 3 Accuracies,sensitivities,specificities,AUCs of SVM,XGboost and SLR for cancer of prediction in adult population

      3 討論

      圖2 支持向量機(jī)、XGboost、逐步Logistic 回歸分析預(yù)測(cè)成年人群患腫瘤的ROC 曲線Figure 2 ROC curves of SVM,XGboost and SLR for cancer of prediction in adult population

      隨著生活節(jié)奏的加速、生活方式的改變,我國罹患各類腫瘤的患者數(shù)量不斷增加[8]。通過特定的模型預(yù)測(cè)個(gè)體腫瘤發(fā)生風(fēng)險(xiǎn),可及早發(fā)現(xiàn)腫瘤患病高危人群,對(duì)高危人群實(shí)施干預(yù)措施,從而提高人群健康水平。本文分別采用逐步Logistic 回歸分析、XGboost 與支持向量機(jī)建立腫瘤風(fēng)險(xiǎn)預(yù)測(cè)模型,結(jié)果顯示,在測(cè)試集上,支持向量機(jī)模型在預(yù)測(cè)成年人群患腫瘤的正確率、靈敏度、AUC 等性能指標(biāo)上優(yōu)于其他兩者,雖然XGboost 預(yù)測(cè)成年人群患腫瘤的AUC 大于逐步Logistic 回歸分析,但未見其預(yù)測(cè)成年人群患腫瘤的正確率明顯提升。

      傳統(tǒng)Logistic 回歸分析適用范圍廣,應(yīng)用靈活。對(duì)于特定的問題,其性能等效甚至優(yōu)于某些相對(duì)復(fù)雜的機(jī)器學(xué)習(xí)算法,如在肝硬化患者上消化道出血預(yù)后評(píng)估的研究中,Logistic 回歸模型的正確率為81.5%,高于決策樹模型(75.1%)[9]。趙子龍等[4]在判別乳腺病變性質(zhì)領(lǐng)域發(fā)現(xiàn),傳統(tǒng)Logistic 回歸模型與隨機(jī)森林、支持向量機(jī)等機(jī)器學(xué)習(xí)算法建立的診斷模型相比較,預(yù)測(cè)效果不存在明顯差異。但有研究表明,Logistic 回歸分析在交互作用方面的處理效果不如決策樹和隨機(jī)森林模型[10]。

      機(jī)器學(xué)習(xí)在醫(yī)療行業(yè)領(lǐng)域的應(yīng)用發(fā)展迅速,支持向量機(jī)是機(jī)器學(xué)習(xí)中常用算法,由于其強(qiáng)大的學(xué)習(xí)功能,已在醫(yī)學(xué)領(lǐng)域得到廣泛應(yīng)用[2-3,11-12]。VIJAYARAJESWARI 等[3]利用Hough 變換提取乳腺鉬靶圖像特征,并利用支持向量機(jī)對(duì)其進(jìn)行分類,用于發(fā)現(xiàn)異常檢查結(jié)果,實(shí)現(xiàn)乳腺癌早期篩查。KAUR 等[12]分別利用支持向量機(jī)、K 近鄰法(KNN)、線性判別分析(LDA)和決策樹模型建立圖像識(shí)別乳腺癌的多分類診斷模型(正常、良性、惡性)。BATTINENI 等[11]通過建立支持向量機(jī)模型分析373 個(gè)MRI 數(shù)據(jù)預(yù)測(cè)癡呆,發(fā)現(xiàn)低γ 高正則項(xiàng)系數(shù)(γ=0.000 1,C=100)模型表現(xiàn)出更好的性能,正確率和精確度分別達(dá)68.75%、64.18%。

      近年部分學(xué)者將XGboost 算法應(yīng)用于健康預(yù)測(cè)領(lǐng)域。在預(yù)測(cè)ICU 膿毒癥患者住院死亡風(fēng)險(xiǎn)的研究中,XGboost 的AUC 為0.836〔95%CI(0.819,0.853)〕,優(yōu)于支持向量機(jī)模型和SAPS-Ⅱ模型,可以有效地輔助臨床醫(yī)生開展ICU 膿毒癥患者死亡風(fēng)險(xiǎn)預(yù)測(cè),進(jìn)而提前采取合理的臨床干預(yù)措施[13]。張洪俠等[14]基于XGboost 算法建立2 型糖尿病精準(zhǔn)預(yù)測(cè)模型,預(yù)測(cè)正確率達(dá)96.6%,并發(fā)現(xiàn)血糖、三酰甘油、SLC30A8 基因等是模型中重要性排序靠前的影響因素。XGboost 獨(dú)特的優(yōu)勢(shì)之一在于可以得到每個(gè)因素的重要性得分,對(duì)于腫瘤患病危險(xiǎn)因素的分析具有指導(dǎo)意義。XGboost 具有高度靈活性,但這也增加了模型調(diào)參的復(fù)雜度。

      另外,不少學(xué)者開始嘗試將其他機(jī)器學(xué)習(xí)算法應(yīng)用于健康風(fēng)險(xiǎn)預(yù)測(cè)、疾病診斷[9,15-16]。有學(xué)者發(fā)現(xiàn),隨機(jī)森林算法對(duì)體檢人群的糖尿病風(fēng)險(xiǎn)預(yù)測(cè)具有較高效能,但多因素Logistic 回歸分析具有更直觀的解釋性[16]。張英男等[17]通過隨機(jī)森林算法預(yù)測(cè)阿爾茨海默患病風(fēng)險(xiǎn),具有較高的精確度及穩(wěn)定性,并能輸出對(duì)患病影響程度較大的因素。王喜丹等[18]在糖尿病患病風(fēng)險(xiǎn)預(yù)測(cè)中發(fā)現(xiàn),采用深度信念網(wǎng)絡(luò)(DBN)的模型預(yù)測(cè)正確率比基于反向傳播神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)正確率更高、更準(zhǔn)確(93.10%與89.66%)。

      綜上所述,用于分類預(yù)測(cè)的機(jī)器學(xué)習(xí)方法很多,不同方法間的優(yōu)劣取決于具體問題與數(shù)據(jù)情況。模型的最終選擇需結(jié)合模型的預(yù)測(cè)能力、可解釋性、計(jì)算能力、運(yùn)行效率等多個(gè)方面綜合考慮[4]。支持向量機(jī)可以使用核函數(shù)對(duì)高度非線性數(shù)據(jù)進(jìn)行分類,但其可解釋性較差,無法有效地進(jìn)行自變量篩選,常與其他方法結(jié)合使用。本文XGboost 與逐步Logistic 回歸預(yù)測(cè)成年人群患腫瘤的效果近似,但考慮到Logistic 回歸分析具有操作便捷、適用性廣和可解釋性強(qiáng)的特點(diǎn),建議在腫瘤風(fēng)險(xiǎn)預(yù)測(cè)方面,采用支持向量機(jī)與Logistic 回歸分析相結(jié)合的模式,綜合得到預(yù)測(cè)能力更強(qiáng)的模型。

      本研究搭建的腫瘤患病風(fēng)險(xiǎn)預(yù)測(cè)模型表現(xiàn)出較高的預(yù)測(cè)正確率及穩(wěn)健性,可以提前給予腫瘤風(fēng)險(xiǎn)預(yù)警,從而可根據(jù)風(fēng)險(xiǎn)指標(biāo)開展精準(zhǔn)健康干預(yù),為腫瘤預(yù)防提供一定的臨床指導(dǎo)和幫助。但本研究也有一定局限性,例如進(jìn)入模型的特征未包含生化指標(biāo)、環(huán)境指標(biāo)、飲食攝入情況等因素;侯玉梅等[19]在2 型糖尿病非線性樣本預(yù)測(cè)時(shí)發(fā)現(xiàn),基于多項(xiàng)式核函數(shù)比基于徑向基核函數(shù)的支持向量機(jī)分類正確率更高,而本文采用了常用的徑向基核函數(shù),未進(jìn)一步深入考慮不同核函數(shù)向量分類器。在大數(shù)據(jù)的背景下,利用數(shù)據(jù)挖掘處理海量多源健康數(shù)據(jù),建立預(yù)測(cè)效能高、訓(xùn)練速度快的模型是醫(yī)療領(lǐng)域的重要方向。

      志謝:本研究采用中國健康與營養(yǎng)調(diào)查(CHNS)數(shù)據(jù),感謝國家營養(yǎng)與健康研究所、中國疾病預(yù)防控制中心、美國卡羅來納州人口中心和北卡羅來納大學(xué)教堂山分校等對(duì)CHNS 數(shù)據(jù)的收集和財(cái)務(wù)的支持。

      作者貢獻(xiàn):馬倩倩、翟運(yùn)開進(jìn)行文章的構(gòu)思與設(shè)計(jì),文章的可行性分析;馬倩倩、孫東旭進(jìn)行數(shù)據(jù)收集、整理、統(tǒng)計(jì)學(xué)分析與論文撰寫;石金銘、何賢英、翟運(yùn)開負(fù)責(zé)論文的修訂,以及文章的質(zhì)量控制及審校。

      本文無利益沖突。

      猜你喜歡
      成年人正確率向量
      成年人的告別
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      門診分診服務(wù)態(tài)度與正確率對(duì)護(hù)患關(guān)系的影響
      成年人爆笑日常
      意林(2020年16期)2020-08-28 11:11:24
      成年人的辛苦
      生意
      品管圈活動(dòng)在提高介入手術(shù)安全核查正確率中的應(yīng)用
      生意
      向量垂直在解析幾何中的應(yīng)用
      天峻县| 莫力| 卓资县| 梁河县| 上饶县| 汕头市| 郁南县| 盘山县| 四子王旗| 阿合奇县| 黄陵县| 明光市| 无锡市| 乐至县| 英德市| 客服| 盐城市| 贵定县| 麻江县| 桃园县| 韶关市| 宜兴市| 玛多县| 宣化县| 枝江市| 霍林郭勒市| 门源| 武夷山市| 石嘴山市| 陆川县| 牟定县| 靖宇县| 昌乐县| 开封县| 隆昌县| 马关县| 阳城县| 怀安县| 井冈山市| 札达县| 日土县|