• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于AUC統(tǒng)計量的隨機森林變量重要性評分的研究*

      2016-12-26 05:38:44哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計教研室150081張曉鳳
      中國衛(wèi)生統(tǒng)計 2016年3期
      關(guān)鍵詞:錯誤率樣本量分類器

      哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計教研室(150081) 張曉鳳 侯 艷 李 康

      基于AUC統(tǒng)計量的隨機森林變量重要性評分的研究*

      哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計教研室(150081) 張曉鳳 侯 艷 李 康△

      隨機森林(random forest,RF)[1]是高維組學(xué)數(shù)據(jù)常用的分析方法,在進行判別分析時,同時能夠給出變量重要性評分(variable importance measure,VIM)。RF的變量重要性評分通常有兩種,一種方法是通過變量值的置換計算其重要性,第二種方法是通過基尼(Gini)指數(shù)計算其重要性,由于置換法比Gini指數(shù)法具有更好的非偏倚性能,因此多采用置換法進行變量篩選[2-5]。然而,當(dāng)數(shù)據(jù)類別(標(biāo)簽)比例不均衡時,即收集到的數(shù)據(jù)在兩類中的數(shù)目不相同,尤其比例相差較大時,基于錯誤率(error rate,ER)的置換法不能準(zhǔn)確反映變量的重要性。為此,Janitza等(2013)提出基于AUC統(tǒng)計量的評價方法,能夠克服類別間比例不平衡的影響[6]。本文在簡要介紹該方法的基礎(chǔ)上,通過模擬實驗和實例數(shù)據(jù)探索其適用性,并與傳統(tǒng)的置換法進行比較。

      原理與方法

      1.RF的基本思想

      RF采用組合方法(ensemble method)的思想,即對樣本數(shù)據(jù)進行多次隨機抽樣產(chǎn)生N(通常為Ntree)個訓(xùn)練樣本構(gòu)造N棵分類樹(稱基分類器),在每次基分類器構(gòu)建過程中,將訓(xùn)練樣本以外的數(shù)據(jù)作為測試數(shù)據(jù),稱為袋外數(shù)據(jù)(out of bag data sets,OOB),并通過錯誤率來評價基分類器性能,最后根據(jù)投票(vote)準(zhǔn)則將基分類器組合為一個RF分類器。RF在構(gòu)建分類器的過程中,通過對變量重要性排序進行變量重要性評分。

      2.基于錯誤率的置換方法

      基于錯誤率置換方法的變量重要性評分(VIM_ER),其基本原理是用同時隨機置換各變量值,通過計算置換前后的OOB錯誤率間的差異衡量該變量的重要性。具體地,欲獲得變量Xi的重要性評分,首先基于訓(xùn)練樣本構(gòu)建隨機森林,并估計所有OOB樣本的錯誤率,然后對所有OOB樣本中的變量Xi值進行打亂獲得新的袋外數(shù)據(jù)(OOB′),估算OOB′樣本的ER,最后計算兩次袋外數(shù)據(jù)的ER變化值。最后將所有OOB樣本ER變化均值作為Xi的VIM,Xi的VIM定義如下:

      其中,Ntree為RF中樹的個數(shù),ERit為變量Xi置換之前第t棵樹對應(yīng)的錯誤率,ER′it為變量Xi置換之后第t棵樹對應(yīng)的錯誤率。

      由VIM計算公式我們知道,如果變量Xi與標(biāo)簽(類別)無關(guān)聯(lián),隨機置換該變量后對應(yīng)的袋外數(shù)據(jù)錯誤率不會發(fā)生變化,理論上=0;相反地,如果>0,則說明變量Xi與分類是有關(guān)聯(lián)的。

      3.基于AUC統(tǒng)計量的置換方法

      基于AUC統(tǒng)計量置換法同樣能夠得到變量的重要性評分(VIM_AUC),與OOB錯誤率得到的VIM_ER原理相似,兩者區(qū)別在于后者基于錯誤率變化衡量變量重要性,前者則是基于AUC(ROC曲線下面積)值的變化評價變量重要性。這里,變量Xi重要性評分定義如下:

      其中,AUCit為變量Xi置換之前第t棵樹對應(yīng)的AUC值,AUC′it為變量 Xi置換之后第 t棵樹對應(yīng)的 AUC值。

      使用OOB錯誤率的變化作為評價變量重要性的指標(biāo)時,考慮的是整體錯誤率變化情況,但最大的問題是當(dāng)多數(shù)類樣本較大時,OOB錯誤率未充分考慮少數(shù)類的錯誤率,相當(dāng)于賦予了多數(shù)類更高的權(quán)重。基于AUC統(tǒng)計量的置換方法同時考慮靈敏度和特異度,相當(dāng)于對兩類各自的準(zhǔn)確率賦予了相同的權(quán)重,直觀上,對于類別間不平衡數(shù)據(jù)而言,基于AUC統(tǒng)計量得到的變量重要性評分更趨于合理。

      模擬實驗

      1.實驗?zāi)康?/h3>

      (1)探索處理不平衡數(shù)據(jù)時基于ER估計VIM的偏倚性,驗證基于AUC統(tǒng)計量獲得VIM的合理性。

      (2)比較VIM_ER和VIM_AUC對變量排序的差別,以及對差異變量和噪音變量的區(qū)分能力。

      2.實驗設(shè)置

      (1)模擬數(shù)據(jù)共設(shè)置65個自變量 X=(X1,…,X65)和一個應(yīng)變量Y∈{0,1},其中按自變量與應(yīng)變量之間的關(guān)聯(lián)程度設(shè)置強、中、弱、無四個等級,共15個變量,稱為差異變量;另外設(shè)置50個無關(guān)聯(lián)變量,稱為噪音變量,具體分布情況見表1?,F(xiàn)設(shè)置,分組1為樣本較少一組,分組2為樣本較多一組;兩組類別樣本量不平衡的比例(n1∶n2)為 1∶1,1∶3,1∶5,1∶10,1∶15,1∶20;第一組的樣本含量分別為10和30,實驗重復(fù)100次。

      (2)隨機森林構(gòu)建參數(shù)設(shè)置,分類樹Ntree=1000,mtry=5,基分類器構(gòu)建時抽取的訓(xùn)練數(shù)據(jù)為無放回抽樣。

      表1 自變量的分布參數(shù)設(shè)置

      3.模擬實驗結(jié)果

      (1)圖1和圖2分別給出兩組樣本量平衡和不平衡情況下,VIM_ER和VIM_AUC兩種方法的結(jié)果。圖1結(jié)果顯示,在兩組例數(shù)相同時,VIM_ER和VIM_AUC兩種方法均能真實反映變量重要性;圖2結(jié)果顯示,在兩組例數(shù)不相同、并且相差較大時(n1∶ n2=1∶20),VIM_ER方法幾乎看不到差異變量的作用,而VIM_AUC方法能更好地區(qū)分出差異變量,比VIM_ER方法更合理。

      圖1 兩組樣本量平衡(n1=30,兩組樣本量比例為1∶1)

      圖2 兩組樣本量不平衡(n1=30,兩組樣本量比例為1∶20)

      (2)圖3給出了兩組樣本量不相同情況下,VIM_ER和VIM_AUC兩種方法區(qū)分差異變量的能力。結(jié)果顯示,隨著兩組不平衡比例增加,VIM_ER法對差異變量區(qū)分的AUC值呈下降趨勢,表明兩組樣本比例不平衡時,VIM_ER方法獲得的變量VIM得分不能很好地識別差異變量;而VIM_AUC法得到的AUC值隨著總樣本量的增加而增加,最后趨于穩(wěn)定,表明VIM_AUC不受兩組樣本例數(shù)不平衡的影響。

      圖4給出了在不同差異情況下,VIM_ER和VIM_AUC兩種方法得到的結(jié)果。結(jié)果顯示,差異不大和樣本量較小時,兩組不平衡比例對VIM_ER的影響非常明顯,而VIM_AUC則能夠更好地區(qū)分差異變量與噪音變量。

      圖3 VIM_ER和VIM_AUC兩種方法區(qū)分15個差異變量的能力

      圖4 VIM_ER和VIM_AUC兩種方法區(qū)分5個不同差異變量的能力

      實際數(shù)據(jù)驗證

      本文選取RNA編輯數(shù)據(jù)作為實際數(shù)據(jù)對上述兩種方法進行比較。該數(shù)據(jù)共包含2613例樣本,分為兩組,其中1306例進行了 RNA編輯,1307例未進行RNA編輯,分析變量43個[7]。為評估 VIM_ER和VIM_AUC兩種方法在不平衡情況下篩選變量的結(jié)果,對數(shù)據(jù)做以下處理:①隨機打亂43個變量形成噪音變量,加入到實際數(shù)據(jù)中,從而共有43×2=86個變量;②在第一組中隨機抽100例,同時在第二組中抽取一定比例的樣本,設(shè)置兩組例數(shù)比值分別為1∶5和1∶10。以上過程重復(fù)100次,最后計算VIM得分的平均值。

      圖5分別給出了兩組樣本量平衡(1∶1)和不平衡(1∶5,1∶10)時,使用 VIM_ER和 VIM_AUC兩種方法得到的結(jié)果。結(jié)果顯示:兩組樣本量相同時,VIM_ER法與VIM_AUC法進行變量篩選后得到的VIM值排序基本相同;兩組樣本量不同時,隨著兩組不平衡程度的增加,使用VIM_ER方法得到的VIM值中很多逐漸趨于0,而VIM_AUC方法仍能給出相對準(zhǔn)確的變量重要性評分,保持“差異變量”的VIM值相對較高,從而不會因不平衡問題改變變量的重要性排序。

      討 論

      1.隨機森林(RF)是由多個決策樹(基分類器)組成的分類器,能夠有效地處理非線性、交互作用、共線性以及高維等問題,同時還能夠避免過擬合,可以進行預(yù)測和變量篩選[8]。在類別間例數(shù)不平衡時,實際經(jīng)常使用的方法是在計算變量重要性時使用錯誤率,相當(dāng)于對例數(shù)較多的類別賦予了更高的權(quán)重,從而導(dǎo)致這種方法估計VIM時出現(xiàn)明顯的偏倚,這在實際應(yīng)用中應(yīng)予注意。

      圖5 兩種方法的變量重要性評分(A圖1∶1,B圖1∶5,C圖1∶10)

      2.在構(gòu)建RF分類器時,使用AUC統(tǒng)計量計算VIM值,能夠在樣本例數(shù)不平衡時準(zhǔn)確地反映變量的作用。模擬實驗和實際數(shù)據(jù)驗證的結(jié)果顯示了這種方法可以有效地解決不平衡的問題。

      3.不平衡的問題主要出現(xiàn)在前瞻性研究中,比如癌癥患者遠遠少于健康人群。這種情況下,雖然可以使用巢式病例-對照的方法,但是如果數(shù)據(jù)完整,直接分析全部數(shù)據(jù)效果會更好,這時可以使用VIM_AUC方法進行變量篩選。

      4.VIM_AUC方法也有一定的局限性,即AUC這一指標(biāo)有時不夠敏感,因此今后也可以考慮使用部分ROC曲線下面積、信息量等其他統(tǒng)計量構(gòu)建RF分類器。

      [1]Breiman L.Random Forests.Machine Learning,2001.45(1):5-32.

      [2]Calle M L,Urrea V.Letter to the Editor:Stability of Random Forest importance measures.Briefings in bioinformatics,2011,12(1):86-89.

      [3]Strobl C,Boulesteix AL,Zeileis A,et al.Bias in random forest variable importance measures:Illustrations,sources and a solution.BMC bioinformatics,2007,8(1):25.

      [4]Boulesteix AL,Bender A,Bermejo JL,et al.Random forest Gini importance favours SNPs with large minor allele frequency:impact,sources and recommendations.Briefings in Bioinformatics,2012,13(3):292-304.

      [5]Nicodemus KK.Letter to the editor:on the stability and ranking of predictors from random forest variable importance measures.Briafings in Bioinformatrics,2011,12(4):369-373.

      [6]Janitza S,Strobl C,Boulesteix AL.An AUC-based permutation variable importance measure for random forests.BMC bioinformatics,2013,14(1):119.

      [7]Cumm ings MP,Myers DS.Simple statistical models predict C-to-U edited sites in plantmitochondrial RNA.BMC bioinformatics,2004,5(1):132.

      [8]李貞子,張濤,武曉巖,等.隨機森林回歸分析及在代謝調(diào)控關(guān)系研究中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2012(6):158-160,163.

      國家自然科學(xué)基金資助(81473072)

      △通信作者:李康,E-mail:likang@ems.hrbmu.edu.cn

      (責(zé)任編輯:郭海強)

      猜你喜歡
      錯誤率樣本量分類器
      限制性隨機試驗中選擇偏倚導(dǎo)致的一類錯誤率膨脹*
      醫(yī)學(xué)研究中樣本量的選擇
      航空裝備測試性試驗樣本量確定方法
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      Sample Size Calculations for Comparing Groups with Binary Outcomes
      正視錯誤,尋求策略
      教師·中(2017年3期)2017-04-20 21:49:49
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      解析小學(xué)高段學(xué)生英語單詞抄寫作業(yè)錯誤原因
      降低學(xué)生計算錯誤率的有效策略
      子长县| 昭通市| 博爱县| 荣成市| 永仁县| 浦江县| 井陉县| 绥中县| 庆元县| 松原市| 罗山县| 浦城县| 丰镇市| 平湖市| 炉霍县| 建宁县| 张家界市| 沙田区| 兴化市| 苍山县| 宜良县| 涡阳县| 仲巴县| 喜德县| 吉隆县| 扎鲁特旗| 措勤县| 丹寨县| 施秉县| 壶关县| 绥江县| 揭西县| 普宁市| 武清区| 屯门区| 赫章县| 宜兴市| 茶陵县| 双流县| 景德镇市| 洪洞县|