• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度森林和DNA甲基化的癌癥分類(lèi)研究

    2020-07-06 13:35:22鄭一超侯維巖
    關(guān)鍵詞:級(jí)聯(lián)決策樹(shù)甲基化

    劉 超,吳 申,鄭一超,侯維巖

    鄭州大學(xué) 信息工程學(xué)院,鄭州 450001

    1 引言

    近年來(lái),癌癥分類(lèi)預(yù)測(cè)模型與生物學(xué)和遺傳數(shù)據(jù)相結(jié)合,能夠更準(zhǔn)確地評(píng)估癌癥風(fēng)險(xiǎn)[1]。DNA甲基化已經(jīng)成為癌癥研究中最重要的表觀遺傳修飾之一,研究表明,與“正?!苯M織相比,“腫瘤”組織中的DNA甲基化模式[2]異常。利用機(jī)器學(xué)習(xí)的理論和方法對(duì)癌基因相關(guān)的DNA 甲基化調(diào)控位點(diǎn)的識(shí)別,實(shí)現(xiàn)解析癌癥的發(fā)生發(fā)展機(jī)制,識(shí)別新的癌癥標(biāo)記是一個(gè)生物信息領(lǐng)域的新研究方向[3]。

    癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)[4]是目前最全面的癌癥測(cè)序數(shù)據(jù)庫(kù)之一,其提供的豐富的癌癥樣本數(shù)據(jù)為開(kāi)發(fā)癌癥分類(lèi)模型提供了前景。像大多數(shù)數(shù)據(jù)一樣,TCGA中數(shù)據(jù)本質(zhì)上是不平衡的。這些高度不平衡數(shù)據(jù)的分類(lèi)受到多數(shù)類(lèi)的影響,導(dǎo)致假陰性率增加[5]。

    針對(duì)不平衡數(shù)據(jù)集癌癥分類(lèi)模型的上述問(wèn)題,本文提出了一種混合采樣的集成分類(lèi)模型,利用SMOTE 算法擴(kuò)充少數(shù)類(lèi)樣本集,通過(guò)Tomek Link 算法剔除邊界數(shù)據(jù)和噪聲數(shù)據(jù),得到相對(duì)平衡的訓(xùn)練數(shù)據(jù),將訓(xùn)練數(shù)據(jù)導(dǎo)入gcForest模型,在保證對(duì)于多數(shù)類(lèi)的分類(lèi)精度的前提下,有效地提高了對(duì)于癌癥少數(shù)類(lèi)樣本的分類(lèi)精度。

    2 方法

    本文所提出的基于混合采樣的集成分類(lèi)模型如圖1所示,主要分為3個(gè)階段:數(shù)據(jù)預(yù)處理、特征選擇以及模型訓(xùn)練和驗(yàn)證。在預(yù)處理階段使用SMOTE算法作為維持平衡類(lèi)分布的方法,Tomek Link 欠采樣算法用于數(shù)據(jù)清理,以消除噪音。為了減少數(shù)據(jù)的特征空間,僅考慮那些與癌癥有因果關(guān)系突變的基因。數(shù)據(jù)通過(guò)COSMIC[6]和CIViC[7]在線數(shù)據(jù)庫(kù)資源獲得。使用gcForest 算法構(gòu)建分類(lèi)模型。該模型應(yīng)用于6 種不同癌癥類(lèi)型。DNA甲基化數(shù)據(jù)來(lái)自https://portal.gdc.cancer.gov/repository。

    2.1 數(shù)據(jù)預(yù)處理

    2.1.1數(shù)據(jù)處理

    TCGA 項(xiàng)目公布了28 種癌癥類(lèi)型的DNA 甲基化數(shù)據(jù)。原始數(shù)據(jù)(0 ≤x≤1)可通過(guò)TCGA 官網(wǎng)在線獲取,并映射到特定的數(shù)據(jù)位置或范圍(例如,chr19:19033575 指示染色體19 上的位置19033575)。本文使用了由 Broad Institute 的 FireBrowse 對(duì) DNA 甲基化數(shù)據(jù)進(jìn)行預(yù)處理,F(xiàn)ireBrowse[8]將數(shù)值映射到基于HGNC命名法注釋的特定人類(lèi)基因[9]。每個(gè)樣本文件用TCGA標(biāo)識(shí)符值[10]注釋?zhuān)撝抵甘緲颖臼悄[瘤組織還是正常組織(例如,TCGA-2F-A9KW-01:腫瘤類(lèi)型:01~09(1類(lèi)),正常類(lèi)型:10~19(0類(lèi))。本文研究中選取TCGA數(shù)據(jù)庫(kù)中樣本數(shù)據(jù)相對(duì)較大的6種腫瘤類(lèi)型統(tǒng)計(jì)數(shù)據(jù)見(jiàn)表1。

    2.1.2采樣

    表1表明從TCGA中獲取的數(shù)據(jù)嚴(yán)重不平衡,這是由于目標(biāo)類(lèi)的分布不統(tǒng)一所致。目前使用的分類(lèi)方法對(duì)于癌癥樣本實(shí)現(xiàn)非常高的準(zhǔn)確性,但對(duì)正常樣本的敏感性較低[11]。因此,本文提出了一種混合采樣模型,最大限度地提高對(duì)正常樣本的敏感性,同時(shí)實(shí)現(xiàn)較高的準(zhǔn)確性。

    表1 本項(xiàng)目中使用的DNA甲基化數(shù)據(jù)

    (1)合成少數(shù)類(lèi)采樣技術(shù)(SMOTE)

    SMOTE(Synthetic Minority Oversampling Technique)由Chawla[12]提出,是基于隨機(jī)過(guò)采樣算法的一種改進(jìn)方案,主要思想是將新樣本插入少量相似樣本中以平衡數(shù)據(jù)集。 SMOTE 算法不是簡(jiǎn)單地復(fù)制樣本的隨機(jī)過(guò)采樣方法,而是添加了一個(gè)不存在的新樣本,因此在某種程度上可以避免過(guò)多的分類(lèi)過(guò)濾。SMOTE算法的基本原理如下所示:

    ①對(duì)少數(shù)類(lèi)中每一個(gè)樣本x,以歐氏距離為標(biāo)準(zhǔn)計(jì)算它到少數(shù)類(lèi)樣本集中所有樣本的距離,得到其k近鄰。

    ②根據(jù)樣本不平衡比例設(shè)置一個(gè)采樣比例以確定采樣倍率N,對(duì)于每一個(gè)少數(shù)類(lèi)樣本x,從其k近鄰中隨機(jī)選擇若干個(gè)樣本。

    ③對(duì)每一個(gè)隨機(jī)選出的近鄰,與原樣本按公式(1)構(gòu)建新的樣本。

    其中,x是樣本,rand(0,1)表示區(qū)間(0,1)內(nèi)的隨機(jī)數(shù),yi是k個(gè)最近鄰。

    (2)Tomek Link

    由于SMOTE方法在平衡類(lèi)別分布的同時(shí)也擴(kuò)張了少數(shù)類(lèi)的樣本空間,產(chǎn)生的問(wèn)題是可能原本屬于多數(shù)類(lèi)樣本的空間被少數(shù)類(lèi)“入侵”,容易造成模型過(guò)擬合。為解決此問(wèn)題,采用Tomek Link 算法[13]剔除噪聲點(diǎn)或者邊界點(diǎn),可以很好地解決“入侵”的問(wèn)題。Tomek Link算法的核心思想是:假設(shè)樣本點(diǎn)xi和xj屬于不同的類(lèi)別,d(xi,xj)表示兩個(gè)樣本點(diǎn)之間的距離。稱(chēng)(xi,xj)為一個(gè)Tomek Link對(duì),如果不存在第三個(gè)樣本點(diǎn)xl使得d(xl,xi)

    圖1 本文研究的技術(shù)流程圖

    此外,本文研究是通過(guò)插入樣本點(diǎn)與原樣本點(diǎn)和其近鄰之間的歐式距離來(lái)保證插入數(shù)據(jù)與原樣本具有較好的相似性,在通過(guò)SMOTE算法對(duì)少數(shù)類(lèi)樣本擴(kuò)充后,通過(guò)Tomek Link 算法對(duì)其歐式距離進(jìn)行判斷,剔除那些相似性低的樣本點(diǎn),即文中稱(chēng)為噪聲點(diǎn)或者邊界點(diǎn)。

    2.2 數(shù)據(jù)預(yù)處理

    TCGA中各種癌癥類(lèi)型包含的DNA甲基化數(shù)據(jù)有大于20 000 個(gè)蛋白質(zhì)編碼基因作為其特征變量。在這種情況下,特征選擇是非常重要的[14]。因此,該項(xiàng)目只針對(duì)那些已被生物學(xué)鑒定為具有癌癥突變意義的基因。這些基因是通過(guò)癌癥基因普查(The Cancer Gene Census,COSMIC)和癌癥變異的臨床解釋?zhuān)–linical Interpretation of Variants in Cancer,CIVic)獲得的。

    2.3 分類(lèi)模型

    gcForest算法是由南京大學(xué)周志華教授提出的一種由決策樹(shù)組成的集成算法[15]。gcForest的核心主要包括兩大塊:級(jí)聯(lián)森林(Cascade Forest)和多粒度掃描(Multi-Grained Scanning)。級(jí)聯(lián)森林的構(gòu)成:級(jí)聯(lián)森林的每一層都是由好多個(gè)森林(既有隨機(jī)森林,又有完全隨機(jī)森林)組成,而每一個(gè)森林又是由好多個(gè)決策樹(shù)組成。其中每一層的隨機(jī)森林和完全隨機(jī)森林保證了模型的多樣性,具體的級(jí)聯(lián)森林結(jié)構(gòu)如圖2所示。

    圖2 級(jí)聯(lián)森林結(jié)構(gòu)圖

    圖2 中的級(jí)聯(lián)森林每一層包括兩個(gè)完全隨機(jī)森林(黑色)和兩個(gè)隨機(jī)森林(藍(lán)色)。每個(gè)完全隨機(jī)森林包含30 個(gè)完全隨機(jī)的決策樹(shù),每個(gè)決策樹(shù)的每個(gè)節(jié)點(diǎn)都是隨機(jī)選擇一個(gè)特征做分裂,直至每一個(gè)葉節(jié)點(diǎn)包含的實(shí)例屬于同一個(gè)類(lèi);每個(gè)隨機(jī)森林也是30個(gè)決策樹(shù),每個(gè)決策樹(shù)的生成是隨機(jī)選擇sqrt(d)個(gè)特征(d輸入的總特征),每次選擇基值最佳的做分裂,級(jí)聯(lián)森林迭代到效果不能提升就停止。

    每個(gè)森林中都包括好多棵決策樹(shù),每個(gè)決策樹(shù)都會(huì)決策出一個(gè)類(lèi)向量結(jié)果(以三類(lèi)為例,下同),然后綜合所有的決策樹(shù)結(jié)果,再取均值,生成每個(gè)森林的最終決策結(jié)果是一個(gè)三維類(lèi)向量,每個(gè)森林的決策過(guò)程如圖3所示。這樣,每個(gè)森林都會(huì)決策出一個(gè)三維類(lèi)向量,回到圖2 中,級(jí)聯(lián)森林中的4 個(gè)森林就都可以決策出一個(gè)三維類(lèi)向量,然后對(duì)4 個(gè)三維類(lèi)向量取均值,最后取最大值對(duì)應(yīng)的類(lèi)別,作為最后的分類(lèi)結(jié)果。

    圖3 每個(gè)森林的決策過(guò)程

    2.4 評(píng)價(jià)指標(biāo)

    召回率/敏感性——Sen/Rec的值越大,說(shuō)明有病的被判為有病的越大,漏檢(FN)越小。

    精確率-查準(zhǔn)率,即正確預(yù)測(cè)為正的占全部預(yù)測(cè)為正的比例。

    F1為算術(shù)平均數(shù)與幾何平均數(shù)的比值,越大越好。

    ROC 曲線是反應(yīng)敏感性和特異性連續(xù)變量的綜合指標(biāo),提供不同實(shí)驗(yàn)之間在共同標(biāo)尺下的直觀比較,ROC曲線越凸、越接近左上角表明其診斷價(jià)值越大,利于不同指標(biāo)間的比較,曲線下面積可評(píng)價(jià)診斷準(zhǔn)確性。

    3 分析與討論

    從TCGA 獲取的DNA 甲基化數(shù)據(jù)按照訓(xùn)練集:測(cè)試集比例為7∶3。圖4 顯示了訓(xùn)練數(shù)據(jù)的PCA 二維圖,從圖中可以發(fā)現(xiàn)樣本數(shù)據(jù)分布嚴(yán)重不平衡。

    圖4 采樣前的分布

    表2為gcForest、Logistic Regression(LR)[16]、隨機(jī)森林(RF)[17]和深度置信網(wǎng)絡(luò)(DBN)[18]4種分類(lèi)方法的模型性能對(duì)比。由表2可以看出對(duì)于多數(shù)類(lèi)樣本4種分類(lèi)算法都具有較高的準(zhǔn)確性,但對(duì)少數(shù)類(lèi)的敏感性較差,這是由于數(shù)據(jù)內(nèi)部的不平衡造成的。

    表2 混合采樣前的4種模型性能指標(biāo)

    為解決上述問(wèn)題,本文提出的SMOTE 算法結(jié)合TomekLink 算法的混合采樣模型對(duì)DNA 甲基化數(shù)據(jù)進(jìn)行預(yù)處理,處理后DNA 甲基化數(shù)據(jù)的PCA 二維圖如圖5所示,數(shù)據(jù)分布相對(duì)平衡。

    圖5 采樣后的分布

    數(shù)據(jù)標(biāo)準(zhǔn)化后,再次對(duì)比4 種分類(lèi)模型,如表3 所示,使用本文提出的混合采樣模型后,4種分類(lèi)模型對(duì)于少數(shù)類(lèi)的評(píng)價(jià)指標(biāo)Sen/Rec、Pre和F1都得到較大程度的提升。

    表3 混合采樣后的4種模型的性能指標(biāo)

    對(duì)比表2和表3還可以發(fā)現(xiàn),4種分類(lèi)模型中,無(wú)論是采樣前還是采樣后,gcForest 算法的分類(lèi)效果最好,為了清晰直觀地對(duì)比4 種分類(lèi)模型的性能,如圖6 和圖7 所示,為4 種分類(lèi)模型的ROC 曲線,對(duì)比表明深度森林gcForest 算法的性能最佳。這是由于本文研究使用的DNA 甲基化測(cè)序數(shù)據(jù)維度高,gcForest 算法中的多粒度掃描結(jié)構(gòu)通過(guò)采用滑動(dòng)窗口對(duì)輸入數(shù)據(jù)特征進(jìn)行預(yù)處理,其表征學(xué)習(xí)能力得到進(jìn)一步的提升。其次,將得到的特征輸入到gcForest 算法的級(jí)聯(lián)森林中進(jìn)行訓(xùn)練,級(jí)聯(lián)森林將輸入特征與原始特征結(jié)合,通過(guò)兩層級(jí)聯(lián)森林中的隨機(jī)森林和完全隨機(jī)森林的學(xué)習(xí),相比于邏輯回歸、隨機(jī)森林和深度置信網(wǎng)絡(luò)而言,能夠更加充分地學(xué)習(xí)特征之間的相關(guān)性,因此獲得的性能最佳。此外,相比于深度置信網(wǎng)絡(luò),gcForest 算法的模型參數(shù)更少,容易訓(xùn)練,其在癌癥分類(lèi)研究中的小數(shù)據(jù)集方面更具優(yōu)勢(shì)。

    圖6 4種分類(lèi)模型的ROC曲線

    圖7 ROC曲線圖左上方詳細(xì)圖

    此外,本文研究中還針對(duì)不同近鄰k和采樣倍率N在gcFores 分類(lèi)模型中對(duì)綜合評(píng)價(jià)指標(biāo)F1的影響進(jìn)行了對(duì)比分析如表4所示,在9組參數(shù)設(shè)置組合中,N=200(%),k=5 時(shí)的性能最佳。

    表4 不同近鄰k 和采樣倍率N 對(duì)F1 的影響

    分析其原因主要有兩點(diǎn):(1)采樣倍率N=100 時(shí),平衡化后的正、負(fù)樣本數(shù)據(jù)依然具有較大的不平衡性,使得實(shí)驗(yàn)結(jié)果改善不明顯。當(dāng)采樣倍率N=300 時(shí),平衡化后擴(kuò)充的樣本數(shù)遠(yuǎn)大于原始樣本,由于SMOTE 算法等各種過(guò)采樣操作實(shí)質(zhì)上是“無(wú)中生有”,平衡化后對(duì)模型的性能反而不明顯。(2)關(guān)于最近鄰k的選擇,當(dāng)k=3 時(shí),模型復(fù)雜度高,容易產(chǎn)生過(guò)擬合現(xiàn)象,學(xué)習(xí)的估計(jì)誤差增大;當(dāng)k=7 時(shí),雖然降低了學(xué)習(xí)誤差,但由于樣本數(shù)據(jù)集小,k取7時(shí)與樣本較遠(yuǎn)的數(shù)據(jù)也會(huì)對(duì)模型的分類(lèi)結(jié)果產(chǎn)生作用,增大了模型學(xué)習(xí)的近似誤差。

    4 結(jié)論

    本文提出了一種基于混合采樣的不平衡數(shù)據(jù)集成分類(lèi)模型,該模型使用過(guò)采樣SMOTE算法和TomekLink算法混合采樣,并結(jié)合深度森林gcForest算法構(gòu)建了癌癥分類(lèi)模型。通過(guò)對(duì)比Logistic Regression、隨機(jī)森林和深度置信網(wǎng)絡(luò)DBN等模型,實(shí)驗(yàn)結(jié)果表明,本文提出的基于混合采樣的不平衡數(shù)據(jù)集成分類(lèi)模型在保證對(duì)于多數(shù)類(lèi)的分類(lèi)精度的前提下,有效地提高了對(duì)少數(shù)類(lèi)的敏感性。此外,gcForest 分類(lèi)模型在小規(guī)模不平衡數(shù)據(jù)集中的應(yīng)用較之深度置信網(wǎng)絡(luò)DBN等性能更佳。

    猜你喜歡
    級(jí)聯(lián)決策樹(shù)甲基化
    一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
    決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
    電子制作(2018年16期)2018-09-26 03:27:06
    級(jí)聯(lián)LDPC碼的STBC-OFDM系統(tǒng)
    電子制作(2016年15期)2017-01-15 13:39:09
    基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
    基于級(jí)聯(lián)MUSIC的面陣中的二維DOA估計(jì)算法
    基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
    鼻咽癌組織中SYK基因啟動(dòng)子區(qū)的甲基化分析
    胃癌DNA甲基化研究進(jìn)展
    LCL濾波器在6kV級(jí)聯(lián)STATCOM中的應(yīng)用
    H橋級(jí)聯(lián)型STATCOM的控制策略研究
    赤峰市| 四子王旗| 定西市| 福海县| 柳江县| 佛冈县| 江津市| 白山市| 清水县| 新津县| 咸丰县| 红安县| 调兵山市| 荃湾区| 图木舒克市| 荔浦县| 顺平县| 耒阳市| 潮安县| 东丽区| SHOW| 宣恩县| 阳春市| 贺州市| 达州市| 东乡| 城固县| 开平市| 深水埗区| 申扎县| 那曲县| 陈巴尔虎旗| 于田县| 岫岩| 达尔| 获嘉县| 雅安市| 湘西| 纳雍县| 开鲁县| 林西县|