• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多類支持向量機(jī)遞歸特征消除方法特征選擇的原發(fā)性肝癌患者預(yù)后預(yù)測*

      2019-04-20 07:02:00李琳楊日東王哲楊紅梅華赟鵬周毅張學(xué)良
      生物醫(yī)學(xué)工程研究 2019年1期
      關(guān)鍵詞:無瘤錯(cuò)誤率特征選擇

      李琳,楊日東,王哲,楊紅梅,華赟鵬,周毅,張學(xué)良△

      (1.新疆醫(yī)科大學(xué),烏魯木齊 830011;2.中山大學(xué)中山醫(yī)學(xué)院,廣州 510080;3.中山大學(xué)第一附屬醫(yī)院,廣州 510080)

      1 引 言

      原發(fā)性肝細(xì)胞癌(hepatocellular carcinoma,HCC)是全球最常見的惡性腫瘤之一,預(yù)計(jì)未來幾年這一疾病負(fù)擔(dān)會驟增[1]。

      使用臨床數(shù)據(jù)建立原發(fā)性肝癌預(yù)后預(yù)測模型,將對肝癌的預(yù)防和治療起到推動性的作用。然而由于臨床數(shù)據(jù)呈現(xiàn)高維度、多樣化的特點(diǎn),造成預(yù)后預(yù)測模型性能下降,即出現(xiàn)了模式分類維度災(zāi)難。特征選擇可以減少特征數(shù)量,刪除無關(guān)、冗余或有噪聲的數(shù)據(jù),加快數(shù)據(jù)挖掘算法的速度,提高預(yù)測精度[2],是數(shù)據(jù)預(yù)處理中重要且常用的技術(shù)之一[3]。

      支持向量機(jī)[4](support vector machine,SVM)是有監(jiān)督的分類算法,分類性能優(yōu)越,其參數(shù)如懲罰因子的值取決于樣本的數(shù)量而不是特征的數(shù)量,與樣本-特征的數(shù)量比率幾乎無關(guān),此模型在各種應(yīng)用上都有比較穩(wěn)定的分類性能,可以很好地適應(yīng)高維小樣本數(shù)據(jù)[5]。正因?yàn)檫@些良好的特性,SVM也被擴(kuò)展成了封裝(Wrapper)的特征選擇方法[6]。本研究使用Duan[7]提出的MSVM-RFE對影響患者3年無瘤生存時(shí)間(disease-free Survival,DFS)和總體生存時(shí)間(overall survival,OS)的影響因素進(jìn)行重要性排序。Duan在多個(gè)數(shù)據(jù)集上驗(yàn)證了該方法相較于SVM-RFE有更好的穩(wěn)定性,能選擇更好的特征子集,并提高癌癥分類的準(zhǔn)確性。該方法目前廣泛應(yīng)用于圖像處理[8]、文本分析[9]、生物信息處理[10]等應(yīng)用領(lǐng)域。與其他特征選擇方法相比,MSVM-RFE是一種可伸縮、高效的包裝方法。

      本研究將排序結(jié)果與臨床醫(yī)生溝通,將重要特征排序結(jié)果依次納入SVM模型來確定最優(yōu)特征子集。最后將最優(yōu)特征子集納入COX比例風(fēng)險(xiǎn)模型(proportional hazards model,COX),構(gòu)造能夠反映患者1年、3年無瘤生存和總生存風(fēng)險(xiǎn)的列線圖(Nomograms)。

      2 資料與方法

      2.1 病歷資料

      本研究收集了2005年至2009年在廣東省某三甲醫(yī)院收治的386例肝腫瘤患者的臨床資料,包括患者的人口學(xué)特征,家族史,體格檢查以及術(shù)前最近一次的實(shí)驗(yàn)室檢查?;颊叩娜丝趯W(xué)特征包括患者性別、年齡(≥60和<60)、家族史。在根治性肝切除術(shù)前獲得了患者的白細(xì)胞計(jì)數(shù)(WBC)、紅細(xì)胞計(jì)數(shù)(RBC)、血紅蛋白(Hb)、血小板計(jì)數(shù)(PLT)、尿素氮(BUN)、丙氨酸氨基轉(zhuǎn)移酶(ALT)、天冬氨酸氨基轉(zhuǎn)移酶(AST)、γ-谷氨酰轉(zhuǎn)肽酶(rGGT)、總膽紅素(TBIL)、白蛋白(ALB)、甲胎蛋白(ALP),并依據(jù)醫(yī)學(xué)參考值范圍分為正常值和異常值。此外還獲得患者的乙肝表面抗原(HBsAg)的信息,患者是否有門靜脈癌栓瘤栓(PVTT)、肝靜脈瘤栓(HVT)、膽管瘤栓(BDT)、下腔靜脈瘤栓(IVCT)、大血管侵犯、脈管侵犯、周圍器官侵犯、并發(fā)癥、淋巴結(jié)轉(zhuǎn)移的信息。腫瘤大小使用最大腫瘤直徑。本研究還將反應(yīng)機(jī)體炎癥特征的嗜中性粒細(xì)胞/淋巴細(xì)胞比例(neutrophil to lymphocyte ratio,NLR)作為分析變量。

      2.2 方法

      首先對數(shù)據(jù)進(jìn)行預(yù)處理,刪除無生存時(shí)間記錄的樣本之后共386名患者納入研究,樣本缺失率約為4.299%,為保證數(shù)據(jù)樣本量,采用最近鄰(KNN)插補(bǔ),獲得完整數(shù)據(jù)集。采用MSVM-RFE特征選擇的方法對34個(gè)臨床特征進(jìn)行特征排序,通過評估SVM的錯(cuò)誤率和受試者工作特征曲線(receiver operating characteristic curve,ROC)下面積(area under curve,AUC),選出最優(yōu)特征子集,最后構(gòu)造原發(fā)性肝癌患者的1年、3年無瘤生存和總體生存的Nomograms。所有統(tǒng)計(jì)分析均在R軟件中實(shí)現(xiàn),其中Nomograms采用rms包中的nomogram函數(shù)。

      2.2.1MSVM-RFE 2002年,由Guyon[11]等人共同提出了一種支持向量機(jī)遞歸特征消除方法(recursive feature elimination based on support vector machine,SVM-RFE),是一種SVM和后向刪除搜索策略結(jié)合的高性能Wrapper特征選擇方法。其中心思想就是尋找一個(gè)最優(yōu)分類面,使其分類面兩邊的分類間隔可以達(dá)到最大[12]。Duan[7]提出了一種與SVM-RFE相似的特征選擇算法,但是在每個(gè)步驟中,使用多個(gè)線性權(quán)重向量的統(tǒng)計(jì)分析來計(jì)算排序分?jǐn)?shù),在每次迭代中使用交叉驗(yàn)證以穩(wěn)定特征排名,該方法成為MSVM-RFE。

      2.2.2Nomograms Nomograms是一種綜合分析多個(gè)定量變量和定性變量以預(yù)測某特定事件發(fā)生的圖畫法預(yù)測模型[13]。模型可以基于Logistic模型和Cox模型,將其結(jié)果用直觀的圖對個(gè)體患者進(jìn)行風(fēng)險(xiǎn)評估。Nomograms根據(jù)模型回歸系數(shù)的大小來制定評分標(biāo)準(zhǔn),對每個(gè)自變量的每種取值進(jìn)行評分,對每個(gè)患者,就可計(jì)算得到一個(gè)總分,再通過得分與結(jié)局發(fā)生概率之間的轉(zhuǎn)換函數(shù),計(jì)算每個(gè)患者的結(jié)局時(shí)間發(fā)生的概率。目前該模型已經(jīng)受到廣大患者和臨床醫(yī)師的認(rèn)可,并應(yīng)用于預(yù)后風(fēng)險(xiǎn)評估工作。

      對于Nomograms的評價(jià)指標(biāo)采用一致性指數(shù) (concordance index, C-index),C-index在意義上與AUC相同,即出現(xiàn)結(jié)局事件的患者的預(yù)測值高于未出現(xiàn)結(jié)局事件的患者的比例[14]。

      3 結(jié)果

      3.1 SVM-RFE特征排序

      通過10折交叉驗(yàn)證的MSVM-RFE特征選擇對386名患者的34個(gè)臨床特征進(jìn)行排序,影響3年無瘤生存時(shí)間和3年總體生存時(shí)間的重要特征排序結(jié)果見表1、表2,平均排序的分?jǐn)?shù)越低,說明該變量越重要。

      表2 影響3年總體生存時(shí)間的特征

      3.2 SVM預(yù)測模型

      MSVM-RFE的遞歸過程產(chǎn)生了嵌套的特征子集,但并不產(chǎn)生最優(yōu)子集數(shù)量。為了選取最佳特征子集數(shù)量,本研究按照特征排序的結(jié)果,依次將特征帶入SVM模型來預(yù)測患者的存活時(shí)間。通過5折交叉驗(yàn)證得到SVM的錯(cuò)誤率和ROC曲線下面積,繪制特征數(shù)目與癌癥生存預(yù)測準(zhǔn)確度的關(guān)系圖(見圖1、圖2),橫坐標(biāo)為特征數(shù),縱坐標(biāo)代表錯(cuò)誤率。從圖上可以看出,其生存預(yù)測的錯(cuò)誤率會隨著特征數(shù)目的增加,先降低后增加,見圖1,當(dāng)選取的特征數(shù)≥6 之后,錯(cuò)誤率開始上升,AUC逐漸下降。當(dāng)納入前6個(gè)特征時(shí),SVM模型的錯(cuò)誤率最低為25.38%, ROC曲線下面積為0.7162。圖2則表示納入前16個(gè)變量時(shí),SVM的錯(cuò)誤率最低,ROC曲線下面積最高。因此,當(dāng)構(gòu)造3年無瘤生存時(shí)間和3年總體生存時(shí)間的COX比例風(fēng)險(xiǎn)模型時(shí),分別納入6個(gè)和16個(gè)特征。

      圖1 預(yù)測3年無瘤生存時(shí)間模型的錯(cuò)誤率和AUC

      Fig1TheerrorrateandAUCofpredictionmodelfor3-yearsDFS

      3.3 Nomograms

      根據(jù)SVM-RFE和SVM確定最優(yōu)子集,并納入COX比例風(fēng)險(xiǎn)模型,構(gòu)建患者1年、3年無瘤生存率的Nomograms。圖3為原發(fā)性肝癌患者手術(shù)后的1年、3年的無瘤生存的Nomograms。在構(gòu)造患者1年、3年總生存率的Nomograms時(shí),使用向前逐步回歸的COX的比例風(fēng)險(xiǎn)模型對16個(gè)臨床特征進(jìn)行建模,有6個(gè)特征為COX回歸的顯著性變量,結(jié)果見圖4。表3 為Nomograms中的各特征變量的含義。

      圖2 預(yù)測3年總體生存時(shí)間模型的錯(cuò)誤率和AUC

      Fig2TheerrorrateandAUCofpredictionmodelfor3-yearsOS

      圖3 1年、3年的無瘤生存的Nomograms

      特征類型含義腫瘤大小數(shù)值最大腫瘤直徑(cm)腫瘤個(gè)數(shù)離散1=多發(fā),0=單發(fā)淋巴結(jié)轉(zhuǎn)移離散1=有淋巴結(jié)轉(zhuǎn)移,0=無腹水離散1=有腹水,0=無脈管侵犯離散1=有脈管侵犯,0=無TBIL離散1=異常值,0=正常值A(chǔ)LB離散1=異常值,0=正常值rGGT離散1=異常值,0=正常值LDH離散1=異常值,0=正常值

      校準(zhǔn)驗(yàn)證到患者1年、3年無瘤生存風(fēng)險(xiǎn)和總生存風(fēng)險(xiǎn)的Nomograms,C-index分別為0.701和0.706。

      對于Nomograms,患者的每個(gè)特征都有對應(yīng)的變量軸,在變量軸向上繪制一條直線以確定每個(gè)變量值。這些數(shù)字的總和位于總點(diǎn)軸上,并且向下延伸到生存軸以確定3年或1年存活的可能性。如在圖3中,腫瘤單發(fā)(Points≈32),最大腫瘤直徑為15(Points≈50),沒有腹水(Points≈15)、沒有淋巴結(jié)轉(zhuǎn)移(Points≈40),TBIL和ALB為異常值(Points=0),Total Points=137;將此數(shù)值在Total points軸上向Risk概率軸投射,則可知風(fēng)險(xiǎn)大概在0.2~0.25左右。

      圖4 1年、3年總生存的Nomograms

      4 討論

      本研究基于MSVM-RFE的特征選擇的方法,對386名原發(fā)性肝癌患者的34個(gè)臨床變量進(jìn)行特征排序,該方法將原始特征集合中與分類器關(guān)聯(lián)性小、冗余的特征先去掉,然后再次循環(huán)進(jìn)行篩選,直至原始集合中沒有特征為止,得到一個(gè)按照相關(guān)性排序的特征列表。這種方法在處理非線性、樣本數(shù)目少、空間維度高的問題上尤為有效。

      本研究選擇10折交叉驗(yàn)證作為重采樣方法,使用MSVM-RFE對影響患者3年無瘤生存時(shí)間和總生存時(shí)間的因素進(jìn)行重要性排序,與臨床醫(yī)生溝通,確認(rèn)特征排序結(jié)果合理。使用5折交叉驗(yàn)證的SVM,確認(rèn)影響患者3年無瘤生存時(shí)間和總體生存時(shí)間的最優(yōu)特征子集。由圖1、圖2發(fā)現(xiàn),特征數(shù)量可以影響SVM模型預(yù)測的準(zhǔn)確性,即模型的錯(cuò)誤率會隨著特征數(shù)目的增加,先降低后增加,AUC先下降后上升。在構(gòu)造3年無瘤生存時(shí)間的COX比例風(fēng)險(xiǎn)模型時(shí),納入前6個(gè)變量時(shí)的SVM模型的錯(cuò)誤率(25.38%)最低,AUC(0.72)最高。分析3年總生存時(shí)間的COX模型時(shí),納入前16個(gè)特征的SVM模型的預(yù)測錯(cuò)誤率最低,為26.41%,AUC最高,為0.73。

      將最優(yōu)子集納入COX比例風(fēng)險(xiǎn)模型,得到無瘤生存預(yù)測模型和總生存預(yù)測模型的最小信息準(zhǔn)則值(akaike information criterion,AIC)為2529.49和2362.49,。為驗(yàn)證MSVM-RFE特征選擇方法是否能夠提高預(yù)測模型的準(zhǔn)確度,本研究將所有特征變量帶入COX比例風(fēng)險(xiǎn)模型,得到無瘤生存時(shí)間和總生存時(shí)間預(yù)測模型的AIC值分別為2368.58和2530.301。進(jìn)行過特征選擇之后,COX比例風(fēng)險(xiǎn)模型的AIC值有所下降,證明先對原發(fā)性肝癌患者進(jìn)行MSVM-RFE特征選擇,再進(jìn)行建模能夠提高模型的擬合優(yōu)度和準(zhǔn)確度。

      最后構(gòu)建了患者1年、3年無瘤生存風(fēng)險(xiǎn)和總生存風(fēng)險(xiǎn)的Nomograms,其C-index分別為0.701和0.706。該Nomograms在一定程度上可以為原發(fā)性肝癌患者提供術(shù)后生存風(fēng)險(xiǎn)信息。本研究仍有潛在的局限性需要考慮。HCC患者的隨訪時(shí)間較短,為了更全面的分析患者的術(shù)后生存狀況,需要進(jìn)行長期隨訪后再進(jìn)一步分析。本研究的數(shù)據(jù)集僅包括386名患者,且所有數(shù)據(jù)來源于同一家醫(yī)院,為了覆蓋更多人群,獲得更加個(gè)體化的預(yù)后分析,需收集其他地區(qū)醫(yī)院的HCC患者信息。本研究為保證樣本量,對個(gè)別缺失值進(jìn)行插值處理,其結(jié)果可能會影響結(jié)果。雖然MSVM-RFE現(xiàn)在成為了生物信息學(xué)等領(lǐng)域中的研究熱點(diǎn),這種方法屬于后向循環(huán)消去、包裝式算法,因此存在計(jì)算相對復(fù)雜、收斂速度較慢等問題。

      猜你喜歡
      無瘤錯(cuò)誤率特征選擇
      限制性隨機(jī)試驗(yàn)中選擇偏倚導(dǎo)致的一類錯(cuò)誤率膨脹*
      清單式無瘤技術(shù)在腹腔鏡輔助遠(yuǎn)端胃癌根治術(shù)中的應(yīng)用效果
      93例胰腺導(dǎo)管腺癌患者的臨床預(yù)后分析
      正視錯(cuò)誤,尋求策略
      教師·中(2017年3期)2017-04-20 21:49:49
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      解析小學(xué)高段學(xué)生英語單詞抄寫作業(yè)錯(cuò)誤原因
      腹腔鏡治療婦科惡性腫瘤手術(shù)中應(yīng)用無瘤技術(shù)的護(hù)理配合
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      手術(shù)室護(hù)士知—信—行模式在惡性腫瘤根治術(shù)無瘤技術(shù)培訓(xùn)中的應(yīng)用研究
      降低學(xué)生計(jì)算錯(cuò)誤率的有效策略
      达州市| 长武县| 钦州市| 定边县| 温州市| 增城市| 托克逊县| 乌鲁木齐市| 兴山县| 吴旗县| 肃南| 宜兴市| 岗巴县| 九江市| 洞头县| 五台县| 连山| 寿阳县| 乐平市| 龙南县| 建始县| 高青县| 连城县| 将乐县| 桑植县| 株洲市| 囊谦县| 杭锦后旗| 调兵山市| 扎鲁特旗| 尖扎县| 瓮安县| 江陵县| 兰溪市| 荃湾区| 营山县| 杭州市| 盐池县| 禹州市| 永济市| 耒阳市|