• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      DNA微陣列數(shù)據(jù)判別的旋轉(zhuǎn)森林方法

      2012-03-11 14:01:34陳金甌
      中國衛(wèi)生統(tǒng)計 2012年4期
      關(guān)鍵詞:剪枝子集分類器

      陳金甌 柳 青

      DNA微陣列技術(shù)的出現(xiàn)使得我們可以同時檢測成千上萬個基因表達(dá)水平?;虮磉_(dá)數(shù)據(jù)分析的一個重要部分是通過表型(是否患疾病,疾病類型,疾病預(yù)后情況等)已知的樣本,運(yùn)用基因表達(dá)水平數(shù)據(jù)建立判別模型,以識別未知樣本的分類,并期望獲得良好的分類效果,這對疾病的分子分型、診斷、篩查和治療等研究都有很重要的意義。目前應(yīng)用于微陣列數(shù)據(jù)的基因分類方法主要有:(1)傳統(tǒng)統(tǒng)計學(xué)方法,如logistic回歸、Fisher線性判別;(2)機(jī)器學(xué)習(xí)方法,如分類與回歸樹(CART);(3)集成分類系統(tǒng)(ensemble classification system),如 Boosting,Bagging和隨機(jī)森林(random forest)〔1-2〕;(4)其他方法,如支持向量機(jī)(SVM)和神經(jīng)網(wǎng)絡(luò)(NN)等。集成分類系統(tǒng)由于其優(yōu)良的分類性能得到人們的重視。它通過多個子分類器的學(xué)習(xí),用投票(voting)的方法得到判別結(jié)果,使得分類結(jié)果更加準(zhǔn)確、穩(wěn)定,泛化誤差和推廣能力也較單個分類器強(qiáng)。近期出現(xiàn)的眾多算法中,旋轉(zhuǎn)森林(rotation forest)是一種建立在隨機(jī)森林基礎(chǔ)之上的數(shù)據(jù)判別分類方法。它具有隨機(jī)森林算法的優(yōu)點:可應(yīng)用于高維小樣本數(shù)據(jù),不容易過擬合等;且它的分類性能更加優(yōu)良。本研究首先介紹旋轉(zhuǎn)森林算法,并應(yīng)用旋轉(zhuǎn)森林算法對公開的基因表達(dá)譜數(shù)據(jù)進(jìn)行分類判別分析,調(diào)整算法參數(shù)以初步探究旋轉(zhuǎn)森林的分類性能。

      基本原理和算法過程

      旋轉(zhuǎn)森林是2006年提出的一種分類器集成系統(tǒng),其基本設(shè)計思想建立在隨機(jī)森林算法基礎(chǔ)之上〔3-4〕。旋轉(zhuǎn)森林把原特征空間分割成若干子集,之后對每個子集分別進(jìn)行某種線性變換,如主成分分析(principal components analysis,PCA),保留所有主成分的情況下,將得到的變換分量分別按照這些子集原來對應(yīng)的順序合并,這樣每次隨機(jī)分割后得到的數(shù)據(jù)都被投影到不同坐標(biāo)空間中,因而形成差別較大的分量子集,用這些分量自己訓(xùn)練分類器,能夠得到差異度很大且分類性能較高的基分類器,以提高集成系統(tǒng)的分類性能。

      算法如下:在包含了n個特征的x=[x1,…,xn]T數(shù)據(jù)集中,x是樣本量為N的N×n矩陣,它們構(gòu)成了特征集F,Y是與之對應(yīng)的分類變量y=[y1,…,yN]T,分類取值為{ω1,…,ωc}。在微陣列表達(dá)數(shù)據(jù)中,通常以基因表達(dá)量為特征集,表型為分類變量。算法中有兩個重要參數(shù)需要定義:即數(shù)據(jù)集分割數(shù)目K;以及集成分類系統(tǒng)的基分類器數(shù)目L。在集成分類系統(tǒng)中,一般包含L=D1,…,DL個子分類器。

      第一步,首先將特征集F隨機(jī)分割為K個子集,每個子集含有M=n/K個變量,為簡單起見,一般設(shè)定K為n的一個因數(shù)。由于是隨機(jī)分割,這些子集中的變量可以相同,也可以是不同的。

      第二步,F(xiàn)ij是用于訓(xùn)練子分類器Di的第j個特征子集。對應(yīng)于每一個特征子集Fij,Xij為X中包含特征Fij的樣本子集。對Xij'采用bootstrap重采樣技術(shù),隨機(jī)且有重復(fù)的抽取75%的個體,構(gòu)成新的bootstrap樣本集Xij'。隨后對Xij'進(jìn)行某種線性變換,一般采用主成分分析,并且記錄生成的系數(shù)矩陣 Cij,用 a1ij,…,表示其系數(shù),它們都是M×1的向量。值得注意的是,可能得到的特征值為0,導(dǎo)致Mj≤M。在特征子集而不是全數(shù)據(jù)集上進(jìn)行線性變換的目的是為了避免用相同的系數(shù)矩陣來構(gòu)建子分類器。

      第三步,用已經(jīng)獲得的系數(shù)矩陣Cij構(gòu)造一個稀疏的“旋轉(zhuǎn)”矩陣Ri

      由于bootstrap過程打亂了數(shù)據(jù)順序,為了計算子分類器Di的訓(xùn)練集,需對矩陣Ri中的每一列都按原始特征集重新排序,重新排序后得到的旋轉(zhuǎn)矩陣記為Ra

      i,它是一個N×n的矩陣。對于子分類器Di,旋轉(zhuǎn)變換后的訓(xùn)練集為X'=

      第四步,在分類階段,對新樣本x也需要進(jìn)行旋轉(zhuǎn)變換,變換后的新樣本x'=設(shè) dij()為子分類器Di判定樣本x屬于類別ωc的概率,則將該樣本分配為某個類別的可信度為:

      樣本x以最大可信度判斷其所屬的類別。

      實例分析

      本文采用Bioconductor平臺的四個經(jīng)典基因微陣列數(shù)據(jù)〔5〕。分析包含結(jié)腸癌(colon),白血病(golub),急性淋巴細(xì)胞白血病(ALL),彌漫大B細(xì)胞淋巴瘤(DLBCL)四個數(shù)據(jù)集。colon數(shù)據(jù)以腫瘤患者和正常人為分類變量。golub數(shù)據(jù)以白血病種類ALL/AML(急性淋巴細(xì)胞白血病/急性髓細(xì)胞樣白血病)為分類變量。ALL數(shù)據(jù)集協(xié)變量較多,這里分別取是否復(fù)發(fā)(ALL1),是否有多重耐藥性(ALL2),以及是否有連續(xù)癥狀緩解(ALL3)作為分類變量。DLBCL以生存和死亡作為分類變量。

      數(shù)據(jù)預(yù)處理用R軟件完成,用幾個數(shù)據(jù)集標(biāo)準(zhǔn)預(yù)處理方法進(jìn)行〔6〕。colon用loess法進(jìn)行歸一化,golub先使最小值100最大值16000,而后對數(shù)據(jù)進(jìn)行對數(shù)轉(zhuǎn)換和歸一化。Bioconductor平臺的ALL數(shù)據(jù)已進(jìn)行歸一化和預(yù)處理,DLBCL用KNN法填補(bǔ)缺失值。數(shù)據(jù)分析用新西蘭Waikato大學(xué)開發(fā)的數(shù)據(jù)挖掘軟件Weka進(jìn)行〔7〕。所有分類器都以10折交叉驗證(10-folod cross validation)評估分類性能。

      原始數(shù)據(jù)集基因數(shù)較多,會給分類器帶來較大的計算負(fù)擔(dān),直接利用原始基因表達(dá)譜數(shù)據(jù)建立模型并不現(xiàn)實,因此在建立分類模型之前需要提取對分類重要的特征。六個數(shù)據(jù)集以SAM(significant analysis of microarray)法獲得在兩組間差異表達(dá)的基因〔8〕。其中colon,golub數(shù)據(jù)集以FDR<0.001為準(zhǔn),得到相應(yīng)差異表達(dá)基因。由于SAM法控制假陽性率較為嚴(yán)格,ALL1,ALL2,ALL3,DLBCL 數(shù)據(jù)得到差異表達(dá)基因過少,采用調(diào)整后的P<0.001作為差異基因入選標(biāo)準(zhǔn)。得到六個用于分類和判別分析的數(shù)據(jù)集。對數(shù)據(jù)集的描述見表1。

      1.不同分類器分類效果的比較

      所有分類器在默認(rèn)參數(shù)設(shè)置下進(jìn)行分類情況的比較,比較十種分類器的分類準(zhǔn)確性,比較的分類方法為:旋轉(zhuǎn)森林(RoF)、AdaBoost、LogitBoost、隨機(jī)森林(RF)、Bagging、CART、J48、支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)(NN)和logistic回歸。旋轉(zhuǎn)森林的參數(shù)設(shè)置是K=3;集成規(guī)模L=10,即有10顆子樹;基分類器為剪枝的J48決策樹(J48是對C4.5的一種擴(kuò)展);線性變換方式為PCA。得到各分類器在各個數(shù)據(jù)集上的分類正確率見表2。

      表2 十種常用分類器分類結(jié)果比較

      按每個數(shù)據(jù)集上各個分類器分類準(zhǔn)確性排序編秩,若秩次相持則按平均秩次計算,各秩次相加得到分類器在六個數(shù)據(jù)集上的得分(score),對得分排序得到分類器分類性能的rank。

      從表2可以看出,在所有參數(shù)默認(rèn)的情況下,對六個數(shù)據(jù)集的分類效果旋轉(zhuǎn)森林(RoF)為最佳。其次的是LogitBoost和支持向量機(jī)。

      2.線性變換方式,基分類器是否剪枝對分類性能的影響

      線性變換方式是旋轉(zhuǎn)森林的重要參數(shù)之一。除主成分分析外,還有兩種隨機(jī)映射(random projection,RP)可以選擇〔9〕。同時,對于基分類器J48決策樹,可采取剪枝和不剪枝兩種策略。線性變換方式和剪枝(pruning)、未剪枝(unpruning)對分類性能的影響見表3。

      表3 旋轉(zhuǎn)森林不同線性變換方式和是否剪枝的分類結(jié)果比較

      對表3中同一線性變換方式下是否剪枝,以及不同線性變換方式下剪枝和不剪枝的分類準(zhǔn)確性分別作配對t檢驗,P>0.05,分類效果間差別無統(tǒng)計學(xué)意義。

      3.基分類器的選擇

      對旋轉(zhuǎn)森林的基分類器,Weka提供了多種選擇。除了算法內(nèi)嵌的J48,其他常用的決策樹有:(1)Decision Stump,一種只一次進(jìn)行分裂的最簡單的決策樹;(2)CART,分類與回歸樹;(3)Random Tree,在每個節(jié)點隨機(jī)抽取變量進(jìn)行分裂的決策樹;以及(4)Best First Tree,掃描數(shù)據(jù)庫,以熵不純度下降最快的變量作為分裂節(jié)點的決策樹。結(jié)果見表4。

      表4 旋轉(zhuǎn)森林不同基分類器的分類結(jié)果比較

      對表4中各不同分類器分類結(jié)果進(jìn)行配對t檢驗,P>0.05,分類效果間差別無統(tǒng)計學(xué)意義。

      4.參數(shù) K

      對旋轉(zhuǎn)森林的參數(shù)K的設(shè)置是否會影響分類性能,我們?nèi)?K=1,2,…,10,得到結(jié)果見圖 1。

      專業(yè)英語詞匯量大是商務(wù)英語的特點,盡管這些專業(yè)詞匯和普通英語詞匯不一樣,但是這些專業(yè)詞匯來源于具體使用的工作環(huán)境中,為了讓商務(wù)英語廣泛應(yīng)用在農(nóng)產(chǎn)品對外貿(mào)易中,與談判相關(guān)的工作人員應(yīng)該積累大量的商務(wù)英語專業(yè)詞匯,使用專業(yè)詞匯表達(dá)貿(mào)易雙方的意思,而且使用的專業(yè)詞匯也要符合世界通用的標(biāo)準(zhǔn),不然會造成誤差。

      圖1 旋轉(zhuǎn)森林參數(shù)K對分類性能影響的比較

      5.特征數(shù)(feature size)

      特征數(shù)是影響分類器分類性能的一個重要因素,而SAM法只能選取基因表達(dá)譜中特定數(shù)目的差異基因。為了比較不同特征數(shù)對旋轉(zhuǎn)森林分類性能的影響,在此我們按照P值對基因進(jìn)行排序,分別取幾個數(shù)據(jù)集的前 5,10,15,20,25,30,40,50,60,70,80,90,100個差異基因進(jìn)行分析,分類準(zhǔn)確性的結(jié)果見圖2。

      6.集成規(guī)模(ensemble size)

      集成分類系統(tǒng)的集成規(guī)模L是算法的重要參數(shù),在此我們設(shè)置起始為5個子分類器,間隔為5,直到集成規(guī)模為 100,L=5,10,15,…,100,同時分別測試三種線性變換方式PCA,RP1,RP2對旋轉(zhuǎn)森林分類性能的影響,結(jié)果見圖3。

      討 論

      本研究應(yīng)用旋轉(zhuǎn)森林算法對六個DNA微陣列數(shù)據(jù)集進(jìn)行判別分類的分析,除了對DLBCL數(shù)據(jù)分類結(jié)果不佳,分類準(zhǔn)確率為0.663,其余數(shù)據(jù)集分類準(zhǔn)確性均大于0.7。集成分類系統(tǒng)的分類準(zhǔn)確性優(yōu)于單個分類器。集成系統(tǒng)中旋轉(zhuǎn)森林和LogitBoost的分類表現(xiàn)強(qiáng)于單個分類器支持向量機(jī),而集成的Bagging也強(qiáng)于傳統(tǒng)的logistic回歸。有研究表明,集成分類系統(tǒng)分類性能是由基分類器的分類精度和各基分類器之間的差異決定的〔4〕。在旋轉(zhuǎn)森林算法中,采用PCA等線性變換會增大基分類器之間的差異,若變量之間相關(guān)性較強(qiáng),這種線性變換也可以旋轉(zhuǎn)坐標(biāo)軸以提高基分類器的分類精度,進(jìn)而提高整個集成系統(tǒng)的分類性能。其他研究顯示,對UCI的33個機(jī)器學(xué)習(xí)標(biāo)準(zhǔn)數(shù)據(jù)庫進(jìn)行測試,旋轉(zhuǎn)森林的分類性能優(yōu)于其他集成算法〔10〕。

      圖2 不同特征數(shù)對旋轉(zhuǎn)森林分類性能的影響

      圖3 旋轉(zhuǎn)森林不同集成規(guī)模以及三種不同線性變換方式的分類結(jié)果比較

      對不同分類器比較中發(fā)現(xiàn)一個現(xiàn)象,傳統(tǒng)的logistic回歸分類性能受n/p影響較大,在n/p很小時,即高維、樣本量較小時(對應(yīng)第1,2個數(shù)據(jù)庫),它的分類性能明顯較集成系統(tǒng)差。而在n/p較大時,以DLBCL數(shù)據(jù)為例,logistic回歸的分類性能較其他分類器好。

      在對旋轉(zhuǎn)森林參數(shù)設(shè)置的比較中,得到如下幾個方面的結(jié)論:基分類器是否剪枝以及不同的基分類器選擇對旋轉(zhuǎn)森林分類性能影響不大,旋轉(zhuǎn)森林在這兩個方面穩(wěn)定性較強(qiáng)。參數(shù)K對分類性能影響在p較大的數(shù)據(jù)集中算法表現(xiàn)穩(wěn)定,而在對p較小的ALL1數(shù)據(jù)分析時,不同的K值對旋轉(zhuǎn)森林分類效果影響較大。對于不同的特征數(shù)目,按照差異基因的顯著性,即p值排序,前5到10個差異基因似乎已經(jīng)能夠提供足夠多的分類信息,而增加差異基因數(shù)量并不能顯著地提升分類器的性能。對于數(shù)據(jù)集如ALL3,甚至出現(xiàn)分類效果隨特征數(shù)下降的現(xiàn)象,這說明在執(zhí)行分類任務(wù)時尋找差異基因的重要性,過多的基因也許提供了冗余信息,增加了分類器的計算負(fù)擔(dān)的同時降低了分類性能。集成規(guī)模L的初始值為5,開始時隨著集成規(guī)模的增加旋轉(zhuǎn)森林分類性能也在提高,但集成規(guī)模達(dá)到一定程度后,分類能力基本穩(wěn)定,不再隨集成規(guī)模的增加而變化。這也說明集成分類系統(tǒng)相對單個決策樹分類穩(wěn)定性更強(qiáng),分類準(zhǔn)確性更高,泛化誤差的推廣能力也更強(qiáng)。在不同的集成規(guī)模下使用不同的線性變換方式,在colon,golub和DLBCL三個數(shù)據(jù)集上,PCA和RP2分類性能優(yōu)于RP1;而在ALL1數(shù)據(jù)庫,PCA劣于RP1和RP2。這可能是不同數(shù)據(jù)集數(shù)據(jù)結(jié)構(gòu)不同造成的。某種線性變換是否能在某個數(shù)據(jù)集上提供更精確的基分類器,能否增加基分類器之間的變異是決定集成系統(tǒng)分類性能的關(guān)鍵。

      由于計算復(fù)雜性較高,本研究只采用分類準(zhǔn)確性這個指標(biāo)對分類效果進(jìn)行評價,將來的研究需要用更多指標(biāo),如敏感度和特異度對分類效果進(jìn)行更加全面的評價。未來應(yīng)采取數(shù)據(jù)模擬方式探索旋轉(zhuǎn)森林的分類性能,如在數(shù)據(jù)集中增加缺失值,以及對非平衡數(shù)據(jù)的研究。在算法參數(shù)設(shè)置方面,可以探索其他線性變換方式。

      1.武曉巖,閆曉光,李康.基因表達(dá)數(shù)據(jù)的隨機(jī)森林逐步判別分析方法.中國衛(wèi)生統(tǒng)計,2007,24(2):151-154.

      2.李康,武曉巖.隨機(jī)森林方法在基因表達(dá)數(shù)據(jù)分析中的應(yīng)用及研究進(jìn)展.中國衛(wèi)生統(tǒng)計,2009,26(4):437-440.

      3.Breiman L.Random forest.Machine Learning,2001,45:5-32.

      4.Guez JR,Kuncheva L.Rotation forest:a new classifier ensemble method.IEEE Transaction on Pattern Analysis and Machine Intelligence,2006,28(10):1619-1630.

      5.http://www.bioconductor.org.

      6.Jeffery IB,Higgins DG,Culhane AC.Comparison and evaluation of methods for generating differentially expressed gene lists from microarray data.BMC Bioinformatics,2006,7(1):359-375.

      7.http://www.cs.waikato.a(chǎn)c.nz/ml/weka.

      8.Tusher VG,Tibshirani R,Chu G.Significance analysis of microarrays applied to the ionizing radiation response.Proc Natl Acad Sci USA,2001,98(9):5116-5121.

      9.Fradkin D,Madigan D.Experiments with random projections for machine learning.New York,NY,USA,2003.

      10.Kuncheva LI,Rodrigue J.An experimental study on rotation forest ensembles.Lecture Notes in Computer Science,2007,4472:459-468.

      猜你喜歡
      剪枝子集分類器
      由一道有關(guān)集合的子集個數(shù)題引發(fā)的思考
      人到晚年宜“剪枝”
      拓?fù)淇臻g中緊致子集的性質(zhì)研究
      基于YOLOv4-Tiny模型剪枝算法
      關(guān)于奇數(shù)階二元子集的分離序列
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      剪枝
      天津詩人(2017年2期)2017-03-16 03:09:39
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      每一次愛情都只是愛情的子集
      都市麗人(2015年4期)2015-03-20 13:33:22
      古蔺县| 新竹县| 赤壁市| 环江| 娱乐| 祁阳县| 霸州市| 滕州市| 海淀区| 翁牛特旗| 唐山市| 若羌县| 章丘市| 麻栗坡县| 怀化市| 咸丰县| 高密市| 山阴县| 隆安县| 大埔区| 北宁市| 和龙市| 东至县| 武安市| 北安市| 梧州市| 磴口县| 万全县| 涿鹿县| 永新县| 张掖市| 兴城市| 易门县| 莆田市| 宝山区| 吕梁市| 合江县| 江油市| 汉川市| 开平市| 榆中县|