• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    應(yīng)用隨機(jī)森林和支持向量機(jī)對三陰性乳腺癌基因數(shù)據(jù)的降維和篩選

    2020-06-28 10:30:56郭志旺郭維恒劉學(xué)慧王立芹
    中國衛(wèi)生統(tǒng)計(jì) 2020年3期
    關(guān)鍵詞:降維排序陰性

    秦 璞 郭志旺 郭維恒 張 蕊 劉學(xué)慧 王立芹,△

    【提 要】 目的 應(yīng)用隨機(jī)森林和支持向量機(jī)算法處理乳腺癌基因數(shù)據(jù),篩選三陰性和非三陰性乳腺癌的差異基因,為臨床應(yīng)用提供更多的參考靶點(diǎn)。方法 使用TCGA乳腺癌基因數(shù)據(jù),通過t檢驗(yàn)和隨機(jī)森林進(jìn)行降維處理,然后使用支持向量機(jī)、支持向量機(jī)遞歸特征消除法、隨機(jī)森林進(jìn)行變量重要性排序,將隨機(jī)森林和支持向量機(jī)與向前變量選擇法結(jié)合進(jìn)行模型預(yù)測并完成最終變量篩選,通過Holdout驗(yàn)證評價(jià)模型效果。結(jié)果 數(shù)據(jù)經(jīng)t檢驗(yàn)的FDR降維后剩余18702個基因,經(jīng)隨機(jī)森林降維后剩余6326個基因;對降維后經(jīng)三種方法排序的數(shù)據(jù)建立預(yù)測模型,獲得各模型約登指數(shù)等評價(jià)指標(biāo);對排序結(jié)果中靠前的基因進(jìn)行文獻(xiàn)搜索,發(fā)現(xiàn)大部分基因和三陰性乳腺癌的轉(zhuǎn)移或者預(yù)后有關(guān)。結(jié)論 針對高維基因表達(dá)數(shù)據(jù)進(jìn)行變量選擇,使用t檢驗(yàn)的FDR進(jìn)行降維、隨機(jī)森林對變量進(jìn)行排序篩選、支持向量機(jī)進(jìn)行預(yù)測效果最佳;通過檢索重要性排序靠前基因發(fā)現(xiàn)大多數(shù)與三陰性乳腺癌有關(guān),但某些靠前基因與三陰性乳腺癌無文獻(xiàn)研究,建議研究這些基因與三陰性乳腺癌的相關(guān)性。

    隨著云計(jì)算、計(jì)算機(jī)智能存儲等技術(shù)的快速發(fā)展,海量高維數(shù)據(jù)已滲入到各個領(lǐng)域,在醫(yī)學(xué)研究中比較常見的高維數(shù)據(jù)就是基因表達(dá)數(shù)據(jù)。傳統(tǒng)統(tǒng)計(jì)方法難以對基因表達(dá)數(shù)據(jù)進(jìn)行有效的處理分析,機(jī)器學(xué)習(xí)[1]是目前處理高維數(shù)據(jù)的主要方法,這類方法具有強(qiáng)大的特征識別、分類和預(yù)測的能力。通過機(jī)器學(xué)習(xí)的方法從基因表達(dá)數(shù)據(jù)中篩選出與疾病密切相關(guān)的基因,可指導(dǎo)基礎(chǔ)研究和臨床實(shí)踐,降低基礎(chǔ)研究費(fèi)用,便于研究靶向治療藥物,減輕患者痛苦,因此疾病相關(guān)基因的篩選對疾病的診斷和治療具有重要的現(xiàn)實(shí)意義[2-3]。

    三陰性乳腺癌是指癌組織免疫組織化學(xué)檢查結(jié)果為雌激素受體、孕激素受體及人表皮生長因子受體2均為陰性的乳腺癌,約占乳腺癌的20%左右[4-5],具有惡性程度高、侵襲能力強(qiáng)和易遠(yuǎn)處轉(zhuǎn)移等特點(diǎn),與其他類型的乳腺癌相比5年生存率更低[6-9]。本研究應(yīng)用隨機(jī)森林(random forest,RF)和支持向量機(jī)(support vector machine,SVM)處理三陰性乳腺癌患者和非三陰性乳腺癌患者的基因表達(dá)數(shù)據(jù),篩選與三陰性乳腺癌有關(guān)的基因并通過一些指標(biāo)組合進(jìn)行模型評價(jià),為臨床診斷、治療和基礎(chǔ)研究提供參考。

    資料與方法

    1.數(shù)據(jù)

    使用癌癥基因組圖譜(the cancer genome atlas,TCGA)公共數(shù)據(jù)庫的乳腺癌RNA-seq數(shù)據(jù),應(yīng)用GDC Data Transfer Tool軟件下載數(shù)據(jù)樣本,對數(shù)據(jù)進(jìn)行合并處理后,通過臨床數(shù)據(jù)癌組織免疫組織化學(xué)檢查結(jié)果可明確診斷為三陰性乳腺癌病人169例,非三陰性乳腺癌病人820例,共989個樣本,每個樣本測得60483個基因。

    2.原理與方法

    (1)隨機(jī)森林

    (2)支持向量機(jī)

    支持向量機(jī)以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ),基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,在小樣本含量條件下具有較好的推廣能力和良好的泛化能力[12]。支持向量機(jī)可以通過核函數(shù)將原本線性不可分的數(shù)據(jù)轉(zhuǎn)化為線性可分?jǐn)?shù)據(jù),本研究使用運(yùn)算速度較快的線性核。使用R3.5.1軟件中的“e1071”包進(jìn)行分析。

    (3)遞歸特征消除算法(recursive feature elimination,RFE)

    遞歸特征消除法的主要思想是反復(fù)的構(gòu)建模型,該方法是一個循環(huán)過程,每個過程都包含以下3個步驟:①用當(dāng)前數(shù)據(jù)集訓(xùn)練分類器,獲得與分類器特征相關(guān)的信息即每個特征的權(quán)重;②根據(jù)事先制定的規(guī)則,計(jì)算所有特征的排序準(zhǔn)則分?jǐn)?shù)ci;③在當(dāng)前數(shù)據(jù)集中移除對應(yīng)于最小排序準(zhǔn)則分?jǐn)?shù)的特征。該循環(huán)過程一直執(zhí)行到特征集合中剩余最后一個變量時結(jié)束,執(zhí)行的結(jié)果為獲得一列按照特征重要性排序的特征序號列表,這個迭代循環(huán)過程實(shí)際上是一個序列后向選擇的過程,它在整個循環(huán)過程中先是去除了與判別不相關(guān)的特征,保留了對判別相對重要的優(yōu)化特征子集,因而可以達(dá)到優(yōu)化特征子集選擇,提高判別精度的目的。

    將支持向量機(jī)與RFE算法整合可有較好的變量篩選效果,即SVM-RFE,該算法是由Isabelle Guyon等人[13]于2002年提出的,即SVM-RFE。該算法利用SVM線性核模型對數(shù)據(jù)集進(jìn)行訓(xùn)練,得到每個特征的權(quán)向量,然后遞歸地刪除秩最小的特征,并將其存儲在堆棧數(shù)據(jù)結(jié)構(gòu)中,迭代過程一直持續(xù)到最后一個特征保留下來。使用R3.5.1軟件中“sigFeature”包進(jìn)行分析。

    (4)變量重要性

    變量重要性就是每個變量對分類結(jié)果的影響,變量的重要性評分是用來衡量預(yù)測變量對結(jié)局變量影響大小的評價(jià)指標(biāo)。本研究隨機(jī)森林變量重要性采用的是基尼系數(shù)下降值,支持向量機(jī)采用的是判別函數(shù)系數(shù)值w2。

    (5)假發(fā)現(xiàn)率(false discovery rate,F(xiàn)DR)

    FDR[14]是對一個多重假設(shè)檢驗(yàn)陽性結(jié)果中誤差比例的度量。通常直接經(jīng)t檢驗(yàn)得到的P值,若不經(jīng)過矯正發(fā)現(xiàn)的差異表達(dá)基因,則會存在大量的“假陽性”,而通過FDR矯正則會降低其中假陽性的比例。使用R3.5.1軟件中“qvalue”包進(jìn)行分析。

    (6)統(tǒng)計(jì)分析方法

    本研究基因表達(dá)數(shù)據(jù)有60483個基因,若使用全部基因建模,很多模型會出現(xiàn)高維失效,導(dǎo)致模型效果較差或者無法求解,因此對數(shù)據(jù)進(jìn)行降維處理。最常用的降維方法為t-FDR,即對t檢驗(yàn)得到的P值進(jìn)行FDR多重校正,刪除無統(tǒng)計(jì)學(xué)意義的基因。本研究還使用隨機(jī)森林進(jìn)行降維,計(jì)算每個變量基尼系數(shù)下降值和所有變量基尼系數(shù)下降值的均值,刪除基尼系數(shù)下降值位于均值以下的基因。

    使用隨機(jī)森林、支持向量機(jī)、SVM-RFE來計(jì)算變量重要性,使用向前變量選擇法按照變量重要性評分,從大到小逐個引入變量,每加入一個變量就重新構(gòu)建一次模型。通過Holdout驗(yàn)證法對模型進(jìn)行評價(jià),將數(shù)據(jù)隨機(jī)分割成兩部分,其中2/3的樣本為訓(xùn)練集,另外1/3的樣本為測試集,計(jì)算測試集訓(xùn)練結(jié)果的敏感度、特異度、陽性預(yù)測值(positive predictive value,PPV)、陰性預(yù)測值(negative predictive value,NPV)、準(zhǔn)確率、約登指數(shù)和F1統(tǒng)計(jì)量。本研究應(yīng)變量樣本不平衡,使用約登指數(shù)和F1統(tǒng)計(jì)量為主要評價(jià)指標(biāo),數(shù)據(jù)分析流程見圖1。

    圖1 統(tǒng)計(jì)分析流程圖

    (7)統(tǒng)計(jì)分析軟件及程序包

    本研究使用R3.5.1軟件進(jìn)行數(shù)據(jù)處理和分析,除上述程序包以外還使用了“caret”等基礎(chǔ)軟件包。

    結(jié) 果

    1.降維

    通過t-FDR降維,剩余18702個基因。通過隨機(jī)森林降維,剩余6326個基因。

    2.變量排序結(jié)果

    經(jīng)t-FDR和隨機(jī)森林降維后,分別使用隨機(jī)森林、支持向量機(jī)、SVM-RFE對基因變量的重要性進(jìn)行排序,前10位基因見表1。

    3.預(yù)測結(jié)果與模型評價(jià)

    使用隨機(jī)森林和支持向量機(jī)兩種分類器,對排序基因采用向前變量選擇法對是否為三陰性乳腺癌患者進(jìn)行分類,變量個數(shù)與評價(jià)指標(biāo)存在一定關(guān)系,結(jié)果見圖2~4。隨著納入模型的變量個數(shù)增多,指標(biāo)會有一定的上升趨勢,而繼續(xù)增多則會趨向于平穩(wěn),綜合考慮變量個數(shù)和評價(jià)指標(biāo),選取變量少而評價(jià)指標(biāo)高的模型作為最終模型,最終模型選出變量個數(shù)及評價(jià)指標(biāo)見表2~4。

    經(jīng)隨機(jī)森林降維結(jié)果各評價(jià)指標(biāo)不及經(jīng)t-FDR降維結(jié)果。使用SVM-RFE方法進(jìn)行重要性排序,建模后約登指數(shù)最高為0.8271;使用支持向量機(jī)進(jìn)行重要性排序,建模后約登指數(shù)最高為0.8392;兩種排序方法建模效果均不及隨機(jī)森林排序效果。

    經(jīng)t-FDR降維、使用隨機(jī)森林排序后,使用隨機(jī)森林建模,入選變量個數(shù)為8個時,模型各評價(jià)指標(biāo)均達(dá)到最優(yōu);若使用支持向量機(jī)建模,入選變量個數(shù)為8個時模型整體效果最好。經(jīng)隨機(jī)森林降維、使用隨機(jī)森林排序后,使用隨機(jī)森林建模,入選變量個數(shù)為8個時,模型各評價(jià)指標(biāo)均達(dá)到最優(yōu);若使用支持向量機(jī)建模,入選變量個數(shù)為5個時模型整體效果最好,結(jié)果詳見圖2。

    預(yù)測模型支持向量機(jī)的敏感度要遠(yuǎn)高于隨機(jī)森林,而隨機(jī)森林的陽性預(yù)測值要高于支持向量機(jī),但整體上用支持向量機(jī)分類要優(yōu)于隨機(jī)森林。

    圖2 基于RF重要性排序各模型評價(jià)指標(biāo)隨變量個數(shù)變化趨勢圖

    圖3 基于SVM重要性排序各模型評價(jià)指標(biāo)隨變量個數(shù)變化趨勢圖

    圖4 基于SVM-RFE重要性排序各模型評價(jià)指標(biāo)隨變量個數(shù)變化趨勢圖

    排序t-FDR降維RFSVMSVM-RFERF降維RFSVMSVM-RFE1ESR1RPSAP42KIRREL3-AS1ESR1RP4-583P15.14OR7E110P2MLPHTRNP1WWTR1AGR3PROSPTMSB15B3GATA3IGKV2-26SF3B6GATA3SRD5A2VSNL14AGR3TMEM178ARAD51AP2LINC00504OR4C1PZNF518B5TTC6FRMPD2TTC39CTBC1D9MIR6726NT5DC26FOXA1RFX2IGKV2-26CCDC170RP11-13E1.5SRD5A27TBC1D9TRBV6-7ELOVL7CT62IGLV1-36NCLP28CCDC170ADAMTS1PF4V1MLPHRP11-361M10.4FTH1P199CT62GAPDHP24AC007292.7FOXCUTRPL31P54VRTN10RP11-279F6.1RP1-261G23.4LINC01675FOXA1SLC25A39P2LINC01015

    表2 基于RF重要性排序各個模型評價(jià)指標(biāo)結(jié)果

    表3 基于SVM重要性排序各個模型評價(jià)指標(biāo)結(jié)果

    表4 基于SVM-RFE重要性排序各個模型評價(jià)指標(biāo)結(jié)果

    4.統(tǒng)計(jì)分析結(jié)果與基因文獻(xiàn)研究的關(guān)聯(lián)性結(jié)果

    對本研究的六種基因排序方法中排序前50的基因進(jìn)行文獻(xiàn)搜索,發(fā)現(xiàn)ESR1、AR、CCDC170、ERBB4、GATA3、FOXA1、THSD4、AGR2、AGR3、CXXC5、FAM171A1、FSIP1、CA12、FOXCUT、RHOB、SPDEF、TFF1、TFF3、MLPH、ADAMTS1等基因與三陰性乳腺癌相關(guān);ACADSB、BCAS1、DNALI1、SRD5A2等基因與乳腺癌相關(guān);AC007255.8、ANXA9、B3GNT5、CCDC125、DSC2、FZD9、MYB、SRARP、TTC6、LINC00504、LMX1B、ELOVL7、FRMPD2、RFX2、SF3B6等基因與其他癌癥有關(guān);因此排在前面的基因大部分和三陰性乳腺癌或者其他癌癥的轉(zhuǎn)移或者預(yù)后相關(guān),并且其中大部分基因是基于隨機(jī)森林重要性評分篩選出來的且多數(shù)是編碼基因,基于t_RF篩選出來的有31個,基于RF_RF篩選出來的有28個,基于t_SVM篩選出來的有3個,基于RF_SVM篩選出來的1個,基于t_RFE篩選出來的有2個,基于RF_RFE篩選出來的有2個。

    討 論

    本研究顯示:t-FDR降維處理結(jié)果好于隨機(jī)森林降維結(jié)果,使用隨機(jī)森林重要性評分排序結(jié)果最好,使用支持向量機(jī)建模預(yù)測效果優(yōu)于隨機(jī)森林。

    本研究數(shù)據(jù)有60483個基因,屬于超高維數(shù)據(jù),直接分析花費(fèi)時間長、模型效果差,因此本研究先對數(shù)據(jù)降維處理。應(yīng)用隨機(jī)森林降維時,以所有變量基尼系數(shù)下降值的均值為截?cái)帱c(diǎn)進(jìn)行變量刪除,降維后剩余基因數(shù)量遠(yuǎn)少于t-FDR降維,最終模型效果也不及t-FDR降維效果,可能是截?cái)帱c(diǎn)選取過大導(dǎo)致某些重要基因被刪除,使得結(jié)果差于t-FDR降維結(jié)果,所以在使用隨機(jī)森林降維時選用指標(biāo)及臨界值的設(shè)置有待深入研究。

    本研究比較了SVM、SVM-RFE、RF三種基因排序方法,結(jié)果顯示隨機(jī)森林算法最優(yōu)。由于硬件設(shè)施的限制,放棄了SVM非線性核算法,僅使用SVM線性核算法進(jìn)行重要性排序,但是變量間可能存在非線性關(guān)系,最終導(dǎo)致變量的重要性排序不夠穩(wěn)定。RF本身就可處理線性和非線性問題,所以RF的基因重要性排序較好,后期還可研究使用SVM非線性核算法進(jìn)行變量排序的效果如何。

    Isabelle Guyon等人[15]將遞歸特征消除的思想與SVM相結(jié)合,這種融合后的方法選擇的基因具有更好的分類性能和生物學(xué)性能。通過SVM和SVM-RFE兩種排序方法最終模型效果比較,可以看出SVM-RFE基因排序效果明顯好于僅用SVM排序效果,指標(biāo)波動有了很大收斂,見圖3~4??赡苡捎诒狙芯縎VM僅使用線性核的限制,導(dǎo)致SVM-RFE排序結(jié)果差于RF排序結(jié)果,后期還可將遞歸特征消除的思想與RF相結(jié)合做更深入的研究。

    本研究顯示支持向量機(jī)進(jìn)行建模分類時結(jié)果好于隨機(jī)森林,使用支持向量機(jī)預(yù)測能力更強(qiáng)。機(jī)器學(xué)習(xí)方法中經(jīng)驗(yàn)風(fēng)險(xiǎn)指的是訓(xùn)練集的平均損失,當(dāng)樣本容量足夠大時,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化能保證很好的學(xué)習(xí)效果,但樣本容量較小時會導(dǎo)致過擬合現(xiàn)象。支持向量機(jī)[16-20]以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為準(zhǔn)則,在經(jīng)驗(yàn)風(fēng)險(xiǎn)上加上表示模型復(fù)雜度的正則化項(xiàng),通過最大化不同類別之間的距離來尋找最優(yōu)分類超平面,提高了分類模型的泛化性,對維度過高和過擬合等問題有著較好的抗性。

    搜索文獻(xiàn)發(fā)現(xiàn)本研究中排序靠前的基因大部分已有基礎(chǔ)研究,并且與乳腺癌密切相關(guān)。其中有研究表明[21]ESR1啟動子的高甲基化導(dǎo)致雌激素受體表觀遺傳沉默;孫嘉慧等人[22]研究發(fā)現(xiàn)ESR1基因敲除能夠增強(qiáng)乳腺癌細(xì)胞的侵襲能力。多項(xiàng)研究[23-26]表明基因CCDC170與ESR1表達(dá)高度相關(guān),還與不同的乳腺癌病理分子分型相關(guān),而且影響乳腺癌患者的預(yù)后,因此CCDC170可能參與乳腺癌的發(fā)病與轉(zhuǎn)移進(jìn)展,并影響患者的治療和預(yù)后。雄激素受體基因AR在三陰性乳腺癌中研究廣泛,大量臨床前研究[5,27-33]證實(shí)了AR在癌組織細(xì)胞增殖過程中的作用,并通過一系列的臨床試驗(yàn)對AR拮抗劑在乳腺癌中的安全性和有效性進(jìn)行了進(jìn)一步評估,得到AR可能成為治療三陰性乳腺癌的潛在靶點(diǎn)。最近基因SRARP[34]被鑒定為雄激素受體AR的一種新型輔抑制因子,SRARP與生存的基因組和表觀基因組范圍的關(guān)聯(lián)強(qiáng)烈支持它們的腫瘤抑制功能,特別是DNA高甲基化、低表達(dá)、體細(xì)胞突變和低拷貝數(shù)的SRARP與不良的癌癥結(jié)局相關(guān)。對于基因ERBB4、TFF1、TFF3、GATA3、FOXCUT等,目前均有研究[35-42]表明這些位點(diǎn)與三陰性乳腺癌診斷或預(yù)后相關(guān)。

    猜你喜歡
    降維排序陰性
    Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
    排序不等式
    恐怖排序
    降維打擊
    海峽姐妹(2019年12期)2020-01-14 03:24:40
    節(jié)日排序
    鉬靶X線假陰性乳腺癌的MRI特征
    刻舟求劍
    兒童繪本(2018年5期)2018-04-12 16:45:32
    三陰性乳腺癌的臨床研究進(jìn)展
    hrHPV陽性TCT陰性的婦女2年后隨訪研究
    黃癸素對三陰性乳腺癌MDA-MB-231細(xì)胞的體內(nèi)外抑制作用
    清镇市| 吕梁市| 方城县| 阿拉尔市| 呈贡县| 慈溪市| 文昌市| 樟树市| 桐梓县| 锡林郭勒盟| 绥化市| 祥云县| 调兵山市| 上思县| 青海省| 黎城县| 大城县| 韶山市| 个旧市| 十堰市| 民乐县| 丰都县| 乐东| 宜宾县| 南宫市| 原阳县| 丹江口市| 广德县| 运城市| 汉源县| 西充县| 江都市| 科技| 新邵县| 乃东县| 华亭县| 万盛区| 唐海县| 武夷山市| 平邑县| 大邑县|