• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      條件推斷森林在高維組學(xué)數(shù)據(jù)分析中的應(yīng)用*

      2016-06-24 02:48:09哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)教研室150081
      關(guān)鍵詞:相關(guān)

      哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)教研室(150081) 楊 凱 侯 艷 李 康

      ?

      條件推斷森林在高維組學(xué)數(shù)據(jù)分析中的應(yīng)用*

      哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)教研室(150081) 楊 凱 侯 艷 李 康△

      【提 要】 目的 探討條件推斷森林(CIF)在自變量相關(guān)情況下變量篩選和分類(lèi)研究中的應(yīng)用。方法 通過(guò)模擬實(shí)驗(yàn)和實(shí)例比較RF和CIF的變量篩選和分類(lèi),并通過(guò)變量重要性評(píng)分和OOB錯(cuò)誤率進(jìn)行評(píng)價(jià)。結(jié)果 模擬實(shí)驗(yàn)表明,在自變量相關(guān)的情況下,CIF的變量篩選結(jié)果明顯優(yōu)于RF的變量篩選結(jié)果;實(shí)例數(shù)據(jù)分析結(jié)果表明,CIF篩選出變量的OOB錯(cuò)誤率低于RF。結(jié)論 CIF適用于變量相關(guān)的情況,具有實(shí)用價(jià)值。

      【關(guān)鍵詞】條件推斷森林 相關(guān) 變量篩選

      近年來(lái),基因組學(xué)、蛋白組學(xué)和代謝組學(xué)等高通量檢測(cè)技術(shù)得到迅速發(fā)展,產(chǎn)生了大量的高維組學(xué)數(shù)據(jù)。高維組學(xué)數(shù)據(jù)變量的數(shù)量遠(yuǎn)大于樣品例數(shù),不適合使用傳統(tǒng)的統(tǒng)計(jì)學(xué)方法,多變量分析容易出現(xiàn)“過(guò)擬合”和“維數(shù)災(zāi)難”問(wèn)題[1]。高維組學(xué)數(shù)據(jù)的分析主要包括特征標(biāo)志物的篩選和判別分析,使用最普遍的多變量分析方法是主成分分析和偏最小二乘判別分析。隨機(jī)森林(random forest,RF)是近年發(fā)展起來(lái)并廣泛使用的高維組學(xué)數(shù)據(jù)分析方法[2],這種方法在對(duì)數(shù)據(jù)進(jìn)行處理的同時(shí)能夠給出變量重要性評(píng)分(variable importance measures,VIM),據(jù)此可以進(jìn)行變量篩選。然而,當(dāng)自變量間存在共線(xiàn)性時(shí),根據(jù)VIM評(píng)分篩選變量會(huì)出現(xiàn)一定的問(wèn)題,即可能降低差異相關(guān)變量的VIM值,提高無(wú)差異變量的VIM值[3-4]。為此Strobl等(2008)提出條件推斷森林(conditional inference forest,CIF),對(duì)RF的隨機(jī)置換方法進(jìn)行改進(jìn),計(jì)算得到條件變量重要性評(píng)分(conditional variable importance measures,cVIM),能夠提高自變量存在共線(xiàn)性時(shí)VIM的準(zhǔn)確性。本文將CIF用于分類(lèi)研究,通過(guò)模擬實(shí)驗(yàn)證明其變量篩選效果優(yōu)于RF,并應(yīng)用于基因組學(xué)數(shù)據(jù)中。

      原理與方法

      1.RF中的變量重要性評(píng)分VIM

      設(shè)有m個(gè)變量,n個(gè)觀(guān)測(cè)對(duì)象,RF通過(guò)隨機(jī)置換計(jì)算VIM的基本原理為:使用所有自變量X和應(yīng)變量Y建模,并計(jì)算袋外數(shù)據(jù)(OOB)的預(yù)測(cè)錯(cuò)誤率,然后通過(guò)隨機(jī)置換自變量Xj打亂其與應(yīng)變量Y的關(guān)系,再次建模并計(jì)算OOB的預(yù)測(cè)錯(cuò)誤率,如果自變量Xj(j =1,2,…,m)對(duì)應(yīng)變量Y有預(yù)測(cè)作用,則自變量Xj隨機(jī)置換后模型對(duì)OOB的預(yù)測(cè)錯(cuò)誤率會(huì)顯著增加。Breiman提出使用自變量Xj置換前后模型對(duì)OOB的預(yù)測(cè)錯(cuò)誤率差值在所有樹(shù)中的平均值作為自變量Xj的VIM。Xj在第t棵樹(shù)中的VIM值定義為

      自變量Xj在ntree棵樹(shù)中的平均VIM值為

      2.自變量相關(guān)時(shí)VIM的問(wèn)題

      RF通過(guò)隨機(jī)置換計(jì)算的VIM值會(huì)高估相關(guān)變量的作用,其原因是在對(duì)變量Xj進(jìn)行隨機(jī)置換時(shí)不僅打亂其與應(yīng)變量Y的關(guān)系,同時(shí)也打亂了與其它自變量X-j=X1,…Xj-1,Xj +1,…,Xm的關(guān)系,使自變量X1,…,X12和應(yīng)變量Y的聯(lián)合分布改變,而自變量Xj的VIM指隨機(jī)置換Xj前后對(duì)OOB數(shù)據(jù)Y預(yù)測(cè)錯(cuò)誤率的影響。事實(shí)上,VIM是隨機(jī)置換Xj前后對(duì)X和Y聯(lián)合分布的影響,包含Xj置換前后對(duì)Y和X-j的影響。當(dāng)Xj和X-j、Y獨(dú)立時(shí),隨機(jī)置換Xj不會(huì)影響X和Y的聯(lián)合分布,即VIM(Xj)=0;當(dāng)Xj和X-j、Y不獨(dú)立時(shí),隨機(jī)置換變量Xj會(huì)改變X和Y的聯(lián)合分布,即VIM(Xj)>0。因此,當(dāng)自變量Xj與X-j、Y不獨(dú)立時(shí),自變量Xj的VIM值包含Xj對(duì)X-j的影響,此時(shí)Xj的VIM值被高估。

      3.條件推斷森林(CIF)的原理及cVIM的計(jì)算

      為了減小VIM中隨機(jī)置換Xj前后對(duì)X-j的影響,可以使用CIF方法,即分層隨機(jī)置換的方法(按照X-j進(jìn)行分層)保留Xj和X-j的部分相關(guān)結(jié)構(gòu)。具體算法如下:

      (1)建立隨機(jī)森林(RF)。

      (3)計(jì)算Xj與其它自變量的相關(guān)系數(shù),根據(jù)檢驗(yàn)P值給出相關(guān)變量子集Xs(Xs?X-j)。

      (4)根據(jù)森林中的每棵樹(shù)中變量在樹(shù)生長(zhǎng)過(guò)程中確定的閾值把樣本分到不同層。

      (6)計(jì)算Xj在第t棵樹(shù)中的cVIM值,即

      則自變量Xj在ntree棵樹(shù)的平均cVIM值為

      在計(jì)算自變量Xj的cVIM時(shí),分層變量Xs可以通過(guò)指定與變量Xj的相關(guān)系數(shù)或P值確定。

      上述計(jì)算過(guò)程可以使用R語(yǔ)言party包[5]實(shí)現(xiàn)。

      模擬實(shí)驗(yàn)

      1.條件設(shè)置

      (1)為了說(shuō)明cVIM在自變量獨(dú)立時(shí)評(píng)價(jià)的準(zhǔn)確性和在自變量相關(guān)時(shí)的優(yōu)勢(shì),分別設(shè)計(jì)兩個(gè)模擬實(shí)驗(yàn)進(jìn)行考察。模擬實(shí)驗(yàn)共設(shè)置12個(gè)自變量X =(X1,X2,…,X12)和1個(gè)應(yīng)變量Y,產(chǎn)生數(shù)據(jù)的模型為:

      其中,自變量X1,…,X12服從N(0,Σ)的多元正態(tài)分布,所有自變量的方差σj均為1,誤差e服從N(0,0.5)的正態(tài)分布,回歸系數(shù)βj的設(shè)定如下表1。當(dāng)自變量獨(dú)立時(shí),設(shè)變量間的協(xié)方差為0,即σjk=0(j≠k);當(dāng)部分自變量相關(guān)時(shí),設(shè)變量X1,…,X4的協(xié)方差為0.9,即σjk=0.9(j≠k≤4),其余變量的協(xié)方差設(shè)為0。由于變量的方差σj=1,變量間的協(xié)方差等于相關(guān)系數(shù)。分類(lèi)時(shí),應(yīng)變量Y大于均值-Y設(shè)為一組,小于均值-Y設(shè)為另一組。

      表1 模擬實(shí)驗(yàn)?zāi)P妥宰兞肯禂?shù)的設(shè)置

      (2)RF和CIF中樹(shù)的數(shù)量ntree=500,每棵樹(shù)每個(gè)節(jié)點(diǎn)的備選分枝變量mtry分別設(shè)置為1、5、8,把自變量間相關(guān)系數(shù)檢驗(yàn)結(jié)果P≤0.5的變量作為分層變量Xs進(jìn)行分層隨機(jī)置換。

      (3)為比較VIM和cVIM兩種統(tǒng)計(jì)量的排序,對(duì)VIM和cVIM進(jìn)行離差標(biāo)準(zhǔn)化,消除兩種變量重要性變異大小的影響,并使數(shù)值落在[0,1]內(nèi)。離差標(biāo)準(zhǔn)化的方法為

      2.模擬實(shí)驗(yàn)結(jié)果

      (1)圖1給出了自變量獨(dú)立時(shí)VIM和cVIM的結(jié)果(只給出mtry=5)。結(jié)果顯示,VIM和cVIM均正確得出不同自變量的重要性,X1、X2、X5和X6是差異大的變量,X3和X7是差異小的變量,其余變量是無(wú)差異變量。

      (2)圖2給出了部分自變量相關(guān)時(shí)VIM和cVIM的結(jié)果。結(jié)果顯示,當(dāng)mtry=1時(shí),對(duì)于隨機(jī)森林(RF),由于差異小的變量(X3)和無(wú)差異變量(X4)與差異變量X1、X2相關(guān),它們的VIM明顯高于差異大的獨(dú)立變量(X5和X6)(見(jiàn)圖2A);對(duì)于條件推斷森林(CIF),差異小的相關(guān)變量(X3)和無(wú)差異的相關(guān)變量(X4)的cVIM則明顯低于差異大的獨(dú)立變量(X5和X6),更真實(shí)反映出變量在分類(lèi)中的重要性(見(jiàn)圖2B)。

      圖1 自變量獨(dú)立時(shí)VIM和cVIM的評(píng)價(jià)結(jié)果

      圖2 部分自變量相關(guān)時(shí)兩種VIM的評(píng)價(jià)結(jié)果

      當(dāng)mtry增加,對(duì)于RF,差異大的變量(X1、X2、X5和X6)的VIM明顯高于其他變量,差異小的相關(guān)變量(X3)和無(wú)差異的相關(guān)變量(X4)的VIM值仍然被高估(見(jiàn)圖2C和圖2E);而CIF則能明顯降低無(wú)差異的相關(guān)變量(X4)的重要性評(píng)分,使其更加接近獨(dú)立無(wú)影響變量(X8~X12)(見(jiàn)圖2D和圖2F)。

      實(shí) 例

      本文實(shí)例數(shù)據(jù)選自40例結(jié)腸癌患者和22例正常對(duì)照結(jié)腸組織的2000個(gè)基因表達(dá)數(shù)據(jù)[6],分別使用RF和CIF對(duì)數(shù)據(jù)進(jìn)行變量篩選,樹(shù)的數(shù)量ntree=500,備選分枝變量現(xiàn)對(duì)VIM和cVIM的變量篩選結(jié)果進(jìn)行比較。

      圖3給出了VIM值前50基因的兩種VIM值,其中有6個(gè)基因,即G1671、G49、G399、G1946、G257和G1263,其cVIM值為0,表明這些基因很可能與其它基因存在共線(xiàn)性,而對(duì)結(jié)腸癌患者和正常對(duì)照的分類(lèi)和預(yù)測(cè)沒(méi)有作用。

      圖4給出了RF和CIF不同變量個(gè)數(shù)OOB的預(yù)測(cè)錯(cuò)誤率,使用兩種方法篩選出的不同個(gè)數(shù)基因建模并對(duì)OOB進(jìn)行預(yù)測(cè)。結(jié)果顯示,當(dāng)選擇的變量個(gè)數(shù)相同時(shí),CIF的OOB錯(cuò)誤率明顯低于RF的OOB錯(cuò)誤率,即CIF需要較少的變量個(gè)數(shù)使OOB錯(cuò)誤率達(dá)到穩(wěn)定。更重要的是,用CIF選入的變量相對(duì)更為穩(wěn)定和可靠。

      圖3 VIM值(A)前50的變量重要性評(píng)分及對(duì)應(yīng)的cVIM評(píng)分(B)

      圖4 RF和CIF不同變量個(gè)數(shù)的OOB預(yù)測(cè)錯(cuò)誤率

      討 論

      1.隨機(jī)森林(RF)是由決策樹(shù)組成的組合分類(lèi)器,對(duì)復(fù)雜數(shù)據(jù)具有良好的適應(yīng)性,能夠有效地分析非線(xiàn)性、共線(xiàn)性和具有交互作用的數(shù)據(jù)[7],在對(duì)數(shù)據(jù)進(jìn)行處理的同時(shí)能夠給出變量重要性的VIM值。

      2.在自變量相關(guān)的情況下,RF的VIM評(píng)價(jià)方法很可能不夠準(zhǔn)確。即無(wú)論變量是否對(duì)分類(lèi)有作用或者作用大小,其重要性很可能高估。本文給出的條件推斷森林(CIF)得到的cVIM值則能夠顯著地降低共線(xiàn)對(duì)VIM的影響,更真實(shí)地反映自變量X對(duì)應(yīng)變量Y的作用。

      3.節(jié)點(diǎn)備選分枝變量個(gè)數(shù)mtry的選擇會(huì)影響變量重要性評(píng)分的計(jì)算。當(dāng)mtry=1時(shí),兩種算法都會(huì)高估相關(guān)變量的重要性,但VIM會(huì)使得差異小的相關(guān)變量和無(wú)差異相關(guān)變量的重要性大于差異大的獨(dú)立變量,cVIM則不會(huì)出現(xiàn)這種情況。在應(yīng)用過(guò)程中,可以選擇作為備選分枝變量的個(gè)數(shù)。

      樹(shù)的數(shù)量ntree會(huì)影響變量重要性評(píng)分計(jì)算的穩(wěn)定性。在應(yīng)用過(guò)程中,選擇足夠大的ntree能夠保證種子數(shù)不同時(shí)RF和CIF對(duì)變量重要性評(píng)價(jià)的穩(wěn)定性。

      4.高維組學(xué)數(shù)據(jù)具有高維小樣本特性,很可能存在大量的相關(guān)變量。在變量相關(guān)時(shí),與RF篩選出的變量相比較,CIF篩選變量具有更好的靈敏度和特異度,通常其判別的OOB錯(cuò)誤率低于RF篩選出的變量。

      5.CIF使用分層隨機(jī)置換的方法計(jì)算變量的重要性,高維組學(xué)數(shù)據(jù)的變量數(shù)目巨大,分層隨機(jī)置換的速度比較慢。Schwarz等人[8]開(kāi)發(fā)出的隨機(jī)叢林(random jungle,RJ)軟件包(現(xiàn)為Ranger軟件包)可以實(shí)現(xiàn)CIF在多核計(jì)算機(jī)上的并行運(yùn)算,極大的提高CIF的運(yùn)行速度。

      參考文獻(xiàn)

      [1]柯朝甫,張濤,武曉巖,等.代謝組學(xué)數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)方法.中國(guó)衛(wèi)生統(tǒng)計(jì),2014,31(2):357-359.

      [2]Breiman L.Random Forests.Machine Learning,2001,45(1):5-32.

      [3]Strobl C,Boulesteix AL,Kneib T,et al.Conditional variable importance for random forests.BMC bioinformatics.2008,9(307).

      [4]Nicodemus KK,Malley JD,Strobl C,et al.The behaviour of random forest permutation-based variable importance measures under predictor correlation.BMC bioinformatics,2010,11(110).

      [5]Hothorn T,Hornik K,Strobl C,et al.party:A Laboratory for Recursive Partytioning,2010.

      [6]Alon U,Barkai N,Notterman DA,et al.Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays.Proceedings of the National A-cademy of Sciences,1999,96(12):6745-6750.

      [7]李貞子,張濤,武曉巖,等.隨機(jī)森林回歸分析及在代謝調(diào)控關(guān)系研究中的應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2012,29(2):158-160,163.

      [8]Schwarz DF,K?nig IR,Ziegler A.On safari to Random Jungle:a fast implementation of Random Forests for high-dimensional data.Bioinformatics,2010,26(14):1752-1758.

      (責(zé)任編輯:郭海強(qiáng))

      The Application of Conditional Inference Forest to the Analysis of High-dimensional Omics Data

      Yang Kai,Hou Yan,Li Kang(Department of Medical Statistics,Harbin Medical University(150081),Harbin)

      【Abstract】Objective To explore the application of conditional inference forest(CIF)in variable selection and classification in the case of independent variable correlation.Methods We use simulated experiment and actual data to compare the variable selection and classification of RF and CIF,and then variable importance measures and OOB estimate of error rate were used to evaluate these two methods.Results Simulation experiment suggested that variable selection of CIF was obviously better than the result of RF in the case of independent variable correlation.Analysis results of actual data suggested that OOB estimate of error rate of variables selected by CIF was lower than variables selected by RF.Conclusion CIF was applicable to independent variable correlation and possessed practical value.

      【Key words】Conditional inference forest;Correlation;Variable selection

      *基金資助:國(guó)家自然科學(xué)基金資助(81473072)

      通信作者:△李康,likang@ ems.hrbmu.edu.cn

      猜你喜歡
      相關(guān)
      戰(zhàn)略博弈主體利益及其相關(guān)類(lèi)型分析
      父母教養(yǎng)方式與大學(xué)生人格特質(zhì)的相關(guān)研究
      電子商務(wù)的發(fā)展分析研究
      不同酸提取對(duì)維生素C測(cè)定結(jié)果的影響
      自立人格對(duì)師范生教師職業(yè)成熟度影響的實(shí)證研究
      人間(2016年26期)2016-11-03 18:13:17
      空管自動(dòng)化系統(tǒng)標(biāo)牌相關(guān)錯(cuò)誤與自動(dòng)解相關(guān)的原因分析及預(yù)防
      科技視界(2016年14期)2016-06-08 13:07:29
      他主性視域下高職院校師生交往對(duì)學(xué)生學(xué)習(xí)投入影響的實(shí)證研究
      基于混沌信號(hào)的光時(shí)域反射儀
      天航易空管自動(dòng)化系統(tǒng)雷達(dá)航跡與計(jì)劃不相關(guān)原因分析
      科技視界(2014年18期)2014-08-15 20:54:06
      基于圖像處理的運(yùn)載火箭目標(biāo)識(shí)別和跟蹤的理論探討
      乌审旗| 措美县| 天台县| 武平县| 上蔡县| 南充市| 抚松县| 建湖县| 卫辉市| 宁晋县| 宽甸| 六枝特区| 维西| 巴南区| 临朐县| 罗田县| 阿拉善左旗| 博野县| 始兴县| 怀来县| 商丘市| 双桥区| 嘉禾县| 大安市| 革吉县| 内黄县| 紫金县| 德钦县| 昭通市| 壤塘县| 囊谦县| 会同县| 天柱县| 方正县| 兰考县| 屯门区| 曲阜市| 祁连县| 扎鲁特旗| 江阴市| 黎川县|