王奕森 夏樹濤
清華大學(xué)深圳研究生院/計算機(jī)科學(xué)與技術(shù)系深圳518055
分類和回歸問題幾乎涵蓋了現(xiàn)實(shí)生活中所有的數(shù)據(jù)分析的情況,兩者的區(qū)別主要在于我們關(guān)心的預(yù)測值是離散的還是連續(xù)的。比如,預(yù)測明天下雨不下雨的問題就是一個分類問題,因為預(yù)測結(jié)果只有兩個值:下雨和不下雨(離散的);預(yù)測中國未來的國民生產(chǎn)總值(GDP)就是一個回歸問題,因為預(yù)測結(jié)果是一個連續(xù)的數(shù)值。在一些情況下,通過把連續(xù)值進(jìn)行離散化,回歸問題可以轉(zhuǎn)化為分類問題,因此,我們在這篇文章中將主要研究分類問題。傳統(tǒng)的分類的機(jī)器學(xué)習(xí)算法有很多[1],比如決策樹算法(Decision Tree)[2-4]、支持向量機(jī)算法(Support Vector Machine)[5]等。這些算法都是單個分類器,他們有性能提升的瓶頸以及過擬合的問題;因此,集成多個分類器來提高預(yù)測性能的方法應(yīng)運(yùn)而生,這就是集成學(xué)習(xí)算法(Ensemble Learning)[6]。Bagging[7](并行)和Boosting[8](串行)是兩種常見的集成學(xué)習(xí)方法,這兩者的區(qū)別在于集成的方式是并行還是串行。隨機(jī)森林算法(Random Forests)[9]是Bagging集成方法里最具有代表性的一個算法,這也是本文重點(diǎn)總結(jié)的算法。
隨機(jī)森林是基于決策樹的一種集成學(xué)習(xí)算法。決策樹是廣泛應(yīng)用的一種樹狀分類器,在樹的每個節(jié)點(diǎn)通過選擇最優(yōu)的分裂特征不停地進(jìn)行分類,直到達(dá)到建樹的停止條件,比如葉節(jié)點(diǎn)里的數(shù)據(jù)都是同一個類別的。當(dāng)輸入待分類樣本時,決策樹確定一條由根節(jié)點(diǎn)到葉節(jié)點(diǎn)的唯一路徑,該路徑葉節(jié)點(diǎn)的類別就是待分類樣本的所屬類別。決策樹是一種簡單且快速的非參數(shù)分類方法,一般情況下,它有很好的準(zhǔn)確率,然而當(dāng)數(shù)據(jù)復(fù)雜時,決策樹有性能提升的瓶頸。隨機(jī)森林是2001年由Leo Breiman將Bagging集成學(xué)習(xí)理論[10]與隨機(jī)子空間方法[11]相結(jié)合,提出的一種機(jī)器學(xué)習(xí)算法。隨機(jī)森林是以決策樹為基分類器的一個集成學(xué)習(xí)模型,如圖1所示,它包含多個由Bagging集成學(xué)習(xí)技術(shù)訓(xùn)練得到的決策樹,當(dāng)輸入待分類的樣本時,最終的分類結(jié)果由單個決策樹的輸出結(jié)果投票決定。隨機(jī)森林解決了決策樹性能瓶頸的問題,對噪聲和異常值有較好的容忍性,對高維數(shù)據(jù)分類問題具有良好的可擴(kuò)展性和并行性。此外,隨機(jī)森林是由數(shù)據(jù)驅(qū)動的一種非參數(shù)分類方法,只需通過對給定樣本的學(xué)習(xí)訓(xùn)練分類規(guī)則,并不需要先驗知識。
圖1 隨機(jī)森林算法圖解(整體圖)
在Breiman提出隨機(jī)森林算法之后,由于其良好的性能表現(xiàn),該算法被廣泛應(yīng)用到諸如生物信息領(lǐng)域?qū)蛐蛄械姆诸惡突貧w[12-13]、經(jīng)濟(jì)金融領(lǐng)域?qū)蛻粜庞玫姆治黾胺雌墼p[14-15]、計算機(jī)視覺領(lǐng)域?qū)θ梭w的監(jiān)測與跟蹤、手勢識別、動作識別、人臉識別、性別識別和行為與事件識別[16-17],語音領(lǐng)域的語音識別與語音合成[18]、數(shù)據(jù)挖掘領(lǐng)域的異常檢測、度量學(xué)習(xí)[19-20]等實(shí)際領(lǐng)域。總結(jié)來看,在隨機(jī)森林研究領(lǐng)域,目前有三個方面的研究熱點(diǎn)。1)隨機(jī)森林算法在性能改進(jìn)方面的研究,特別是在高維數(shù)據(jù)情況下,隨機(jī)森林算法的性能還有待提高。2)隨機(jī)森林算法在理論性質(zhì)方面的研究,相比于隨機(jī)森林在應(yīng)用方面的大量研究,其理論研究明顯滯后。隨機(jī)森林算法的一致性等還沒有被完全證明。3)同樣作為分層算法,隨機(jī)森林和目前最熱的深度學(xué)習(xí)有怎樣的區(qū)別和聯(lián)系,以及如何結(jié)合才能產(chǎn)生更好的算法,也是目前研究的一個熱點(diǎn)。本文將從以上三個方面對隨機(jī)森林算法領(lǐng)域的研究進(jìn)行總結(jié),期望能對新入行的讀者起到引導(dǎo)作用,及已經(jīng)是該領(lǐng)域的學(xué)者產(chǎn)生啟發(fā)作用。
決策樹是一個無參有監(jiān)督的機(jī)器學(xué)習(xí)算法。Quinlan提出了ID3決策樹算法[2],Breiman等人提出了CART決策樹算法[4],1993年Quinlan又提出了C4.5決策樹算法[3],Wang和Xia又于2016年提出了Tsallis決策樹算法[21]。一般而言,決策樹的建樹最常見的是自下而上的方式。一個給定的數(shù)據(jù)集被分裂特征分成左和右子集,然后通過一個評價標(biāo)準(zhǔn)來選擇使平均不確定性降低最高的分裂方式,將數(shù)據(jù)集相應(yīng)地劃分為兩個子節(jié)點(diǎn),并通過使該節(jié)點(diǎn)成為兩個新創(chuàng)建的子節(jié)點(diǎn)的父節(jié)點(diǎn)來建樹。整個建樹過程是遞歸迭代進(jìn)行的,直到達(dá)到停止條件,例如達(dá)到最大樹深度或最小葉尺寸。
決策樹的一個關(guān)鍵問題是節(jié)點(diǎn)分裂特征的選擇。至于分裂標(biāo)準(zhǔn),一系列論文已經(jīng)分析了它的重要性[22-23]。他們證明了不同的分裂標(biāo)準(zhǔn)對決策樹的泛化誤差有很大的影響;因此,根據(jù)不同的劃分標(biāo)準(zhǔn),提出了大量的決策樹算法。例如,ID3算法基于香農(nóng)熵;C4.5算法基于增益比;而CART算法基于Gini不純度。然而,在這些算法中,沒有一個算法總能在各種數(shù)據(jù)集上得到最好的結(jié)果。實(shí)際上,這反映了這種分類標(biāo)準(zhǔn)缺乏對數(shù)據(jù)集適應(yīng)性的一個缺點(diǎn)。因此,已經(jīng)有學(xué)者提出自適應(yīng)熵估計的替代方法[24-25],但是它們的統(tǒng)計熵估計過于復(fù)雜,使決策樹的簡單性和可理解性喪失。最近,Tsallis熵分裂準(zhǔn)則被提出來統(tǒng)一通用分裂準(zhǔn)則[21],即統(tǒng)一了香農(nóng)熵、增益比和Gini不純度。
決策樹不需要先驗知識,相比神經(jīng)網(wǎng)絡(luò)等方法更容易解釋,但是由于決策樹在遞歸的過程中,可能會過度分割樣本空間,最終建立的決策樹過于復(fù)雜,導(dǎo)致過擬合的問題,使得分類精度降低。為避免過擬合問題,需要對決策樹進(jìn)行剪枝[26],根據(jù)剪枝順序不同,有事先剪枝方法和事后剪枝方法,但都會增加算法的復(fù)雜性。
決策樹是單個分類器,通過上述分析,可以看出其有性能提升的瓶頸。集成學(xué)習(xí)是將單個分類器聚集起來,通過對每個基本分類器的分類結(jié)果進(jìn)行組合,來決定待分類樣本的歸屬類別。集成學(xué)習(xí)比單個分類器有更好的分類性能,可以有效地提高學(xué)習(xí)系統(tǒng)的泛化能力。
假定給定的數(shù)據(jù)集為D={Xi,Yi},Xi∈RK,Yi∈{1,2,…,C},隨機(jī)森林是在此數(shù)據(jù)集上以M個決策樹{g(D,θm),m=1,2,…,M}為基分類器,進(jìn)行集成學(xué)習(xí)后得到的一個組合分類器。當(dāng)輸入待分類樣本時,隨機(jī)森林輸出的分類結(jié)果由每個決策樹的分類結(jié)果進(jìn)行多數(shù)投票決定。隨機(jī)森林里有兩個重要的隨機(jī)化,如圖2所示。
圖2 隨機(jī)森林算法流程圖(細(xì)節(jié)圖)
1)樣本Bagging:從原樣本集D中通過bootstrap有放回地隨機(jī)抽取M個與原樣本集同樣大小的訓(xùn)練樣本集Dm,然后據(jù)此構(gòu)建一個對應(yīng)的決策樹。
2)特征的隨機(jī)子空間:在對決策樹每個節(jié)點(diǎn)進(jìn)行分裂時,從全部K個特征中均勻隨機(jī)抽取一個特征子集(通常取log2K),然后從這個子集中選擇一個最優(yōu)分裂特征來建樹。
由于構(gòu)建每個決策樹時,隨機(jī)抽取訓(xùn)練樣本集和特征子集的過程都是獨(dú)立的,且總體都是一樣的,因此,{θm,m=1,2,…,M}是一個獨(dú)立同分布的隨機(jī)變量序列。由于各個決策樹的訓(xùn)練相互獨(dú)立,因此,隨機(jī)森林的訓(xùn)練可以通過并行處理來實(shí)現(xiàn),該性質(zhì)有效地保證了隨機(jī)森林算法的效率和可拓展性。
根據(jù)Breiman給出的隨機(jī)森林泛化誤差的上界[9]:
我們可以看出隨機(jī)森林的泛化誤差界與單個決策樹的分類強(qiáng)度s成負(fù)相關(guān),與決策樹之間的相關(guān)性成正相關(guān),即分類強(qiáng)度越大,相關(guān)性越小,則泛化誤差界越小,隨機(jī)森林分類準(zhǔn)確度越高。這也啟發(fā)我們,對隨機(jī)森林模型進(jìn)行改進(jìn)時,可以從兩方面著手:一是提高單棵決策樹的分類強(qiáng)度s,二是降低決策樹之間的相關(guān)性。隨機(jī)森林在高維數(shù)據(jù)上的表現(xiàn)并沒有它在中低維數(shù)據(jù)上的表現(xiàn)好,因此,有一系列的研究工作針對隨機(jī)森林在高維數(shù)據(jù)下的性能提升。
旋轉(zhuǎn)森林算法(Rotation Forests)[27]引入了主成分分析(Principal Component Analysis,PCA)[28]的特征變換,相當(dāng)于把數(shù)據(jù)集上的原始特征旋轉(zhuǎn)到了主成分所在的方向,進(jìn)而再進(jìn)行后續(xù)的基于特征子空間的隨機(jī)森林的構(gòu)建,這里的集成是建立在整個數(shù)據(jù)集的所有主成分之上的。此外,還有另外一些類似的方法應(yīng)用到隨機(jī)森林里,比如,使用前S個主成分構(gòu)建第一棵決策樹,接著用后續(xù)的S個主成分構(gòu)建第二棵決策樹,這樣依次下去[29]。但是,這種方法會導(dǎo)致比較靠后的決策樹是在包含比較少的信息的特征子空間上構(gòu)建的,會降低決策樹的性能,進(jìn)而傷害集成之后的隨機(jī)森林的性能。此外,還有一些文獻(xiàn)把PCA作為特征提取和降維的預(yù)處理方法,這些算法只保留了很少的一些較大值的主成分,這導(dǎo)致他們有一個缺點(diǎn)就是由于只有少數(shù)主成分被保留,那些對應(yīng)于小主成分值但是卻包含最相關(guān)的判別信息的特征可能被丟棄[30]。
此外,還有一些從特征子空間選擇的角度入手來提升隨機(jī)森林性能的。均勻隨機(jī)地選取部分特征構(gòu)成特征子空間在高維數(shù)據(jù)的情況下,會導(dǎo)致隨機(jī)森林的性能下降,這是因為隨機(jī)選擇的特征子空間可能包含很少或者沒有信息量的特征,這會導(dǎo)致依賴于此特征子空間的決策樹的性能下降,進(jìn)而影響集成的隨機(jī)森林的性能[31];因此,有一系列的文獻(xiàn)采取了分層采樣的方法來解決這個問題,他們主要關(guān)注于如何把特征根據(jù)包含信息的多少分開,然后對不同信息量的特征采取分層采樣的方式構(gòu)成特征子空間。分層隨機(jī)森林(Stratified Random Forests)[32]采用Fisher判別投影得到的權(quán)重把特征分為兩部分,即強(qiáng)信息特征和弱信息特征。子空間選擇隨機(jī)森林(Subspace Selection Random Forests)[33]應(yīng)用一個統(tǒng)計準(zhǔn)則把特征分為三部分。首先,應(yīng)用p-value來衡量特征的重要性,把特征分為信息特征和非信息特征。其次,應(yīng)用卡方統(tǒng)計量進(jìn)一步把信息特征分為高信息特征和信息特征兩部分?;谥鞒煞址治龅姆謱硬蓸与S機(jī)森林(Principal Component Analysis and Stratified Sampling based Random Forests)[34]提出了一種根據(jù)PCA輸出的結(jié)果把特征劃分為信息特征和非信息特征的準(zhǔn)則的一種方法。此外,還有一種對特征進(jìn)行加權(quán)的方式來取代分層采樣[35]。他們首先計算特征與類別之間的相關(guān)性,并把這種相關(guān)性認(rèn)為是該特征在特征子空間中被選到的概率,但是這種方式可能會引入更多強(qiáng)相關(guān)的決策樹,因為那些具有很大權(quán)重的特征很可能被重復(fù)多次地選到。
與隨機(jī)森林在許多實(shí)際應(yīng)用中展現(xiàn)出的非常有吸引力的實(shí)際性能相比,它們的理論性能還沒有完全建立,仍然是積極研究的課題。對于一個學(xué)習(xí)算法來說,一致性是最基本的理論性質(zhì),因為它確保了隨著數(shù)據(jù)增長到無限大而算法能收斂到最優(yōu)解。一致性的定義如下:對于分類問題,給定訓(xùn)練集D,對于一個(X,Y)的分布,我們說隨機(jī)森林分類器g具有一致性,如果
這里的L*代表貝葉斯風(fēng)險,也就是(X,Y)的分布所能達(dá)到的最小風(fēng)險。
隨機(jī)森林一致性的研究之所以難,原因在于隨機(jī)森林融合了隨機(jī)化的因素和確定性的建樹過程。具體來說,樣本bootstrap和特征子空間的機(jī)制是為了構(gòu)建不那么依賴數(shù)據(jù)的決策樹,但是CART建樹的過程是依賴于Gini不純度的,這是完全依賴于數(shù)據(jù)的;因此,隨機(jī)森林一致性的研究基本都是從如何簡化這個確定性的建樹過程著手。簡化必然就會帶來性能的損失,所以該領(lǐng)域的研究目標(biāo)是要做到一致性可以被證明但是性能也不能損失太多。
在一致性方面一個重要的理論突破是由Biau在2008年提出的[36],他證明了一種原始隨機(jī)森林的最直接的簡化版本,即關(guān)于選取分裂特征和分裂值的時候,它是從所有特征里面隨機(jī)選一個作為分裂特征,同時,從該被選的特征值里隨機(jī)選一個值當(dāng)作分裂值。這種簡化的隨機(jī)森林一致性是可以被證明的,但是實(shí)驗性能很差。緊接著到2012年,Biau把這個領(lǐng)域的研究又往前推進(jìn)了一步[37]。首先,分裂特征的選擇和原始隨機(jī)森林一樣,采用同樣的方式構(gòu)建特征子空間;其次,分裂值的選擇是各個特征所有值的中位數(shù);最后,也是通過不純度下降最多的準(zhǔn)則來選取最優(yōu)的分裂特征和分裂值的組合。Denil等人在2014年提出了另外一種非常接近于原始隨機(jī)森林的具有一致性的版本[38],區(qū)別點(diǎn)在于分裂值的選取,他們先隨機(jī)抽取一個所有該特征值的子集,然后在這個子集上尋找最優(yōu)的分裂。Wang等人在2016年提出了一種概率優(yōu)化的具有一致性的隨機(jī)森林,叫伯努利隨機(jī)森林(Bernoulli Random Forests)[39]。他們采取了兩個伯努利分布來控制分裂特征和分裂值的選擇,具體來說,以一個伯努利分布B1來控制隨機(jī)選一個特征或構(gòu)建特征子空間,以另外一個伯努利分布B2來控制隨機(jī)選一個分裂值,或是遍歷全部分裂值選擇不純度下降最多的。他們提出的伯努利隨機(jī)森林是目前性能最好的并且具有一致性的隨機(jī)森林算法。
隨機(jī)森林是基于一種樹狀的分層結(jié)構(gòu),而深度學(xué)習(xí)中深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks)也是一種基于稠密連接的分層的網(wǎng)絡(luò)結(jié)果。我們這章將主要分析隨機(jī)森林算法與深度神經(jīng)網(wǎng)絡(luò)之間的關(guān)系,以及把兩者相結(jié)合的一些研究。
首先,就深度神經(jīng)網(wǎng)絡(luò)而言,它有很多層,也有很多參數(shù),而且這些參數(shù)全部都會在測試的時候用到。深度神經(jīng)網(wǎng)絡(luò)在最后一層分類器之前,我們一般認(rèn)為它們是一個表示學(xué)習(xí)的過程,也就是說深度神經(jīng)網(wǎng)絡(luò)的分類是基于學(xué)習(xí)到的特征的。深度神經(jīng)網(wǎng)絡(luò)采用的是端到端的訓(xùn)練方式,即基于損失函數(shù)的梯度下降。然而,就隨機(jī)森林而言,它也有很多層,很多參數(shù),但是只有l(wèi)og2N個參數(shù)會被用于測試,因為測試樣本只會選擇唯一一條路徑。隨機(jī)森林的訓(xùn)練是逐層進(jìn)行的,沒有基于目標(biāo)函數(shù)的梯度下降。而且隨機(jī)森林的建樹過程是邊建樹邊分類的,因此,幾乎沒有或者說有很有限的特征學(xué)習(xí)的過程。
深度神經(jīng)網(wǎng)絡(luò)有很多超參數(shù),調(diào)參費(fèi)時費(fèi)力,而隨機(jī)森林幾乎沒有超參數(shù)。深度神經(jīng)網(wǎng)絡(luò)有一個很強(qiáng)大的表示學(xué)習(xí)過程,而隨機(jī)森林沒有。近年來,有一些工作嘗試把深度神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林結(jié)合在一起。Bulo和Kontschieder在2014年[40]提出了基于神經(jīng)網(wǎng)絡(luò)的分裂函數(shù)取代之前的Gini不純度。Kontschieder等人又在2015年[41]進(jìn)一步提出了深度神經(jīng)決策森林,他們把隨機(jī)森林接在了深度神經(jīng)網(wǎng)絡(luò)的表示學(xué)習(xí)過程的后面,把分裂函數(shù)變成了隨機(jī)決策的函數(shù),使其能夠通過反向傳播來更新整個網(wǎng)絡(luò)的參數(shù)。這大大降低了深度神經(jīng)網(wǎng)絡(luò)的參數(shù)復(fù)雜度,同時,也提升了隨機(jī)森林的性能。
此外,Zhi-Hua Zhou等人還提出了一種完全基于隨機(jī)森林的深度結(jié)構(gòu)[42],他們把隨機(jī)森林看作是深度神經(jīng)網(wǎng)絡(luò)中的一個節(jié)點(diǎn)。具體來說,他們采取了級聯(lián)森林和多粒度掃描來構(gòu)建深度森林。每個級是決策樹森林的一個集合,即集成的集成(ensemble of ensembles)。他們使用了兩個完全隨機(jī)的樹森林(complete-random tree forests)和兩個原始隨機(jī)森林。每個完全隨機(jī)的樹森林通過隨機(jī)選擇一個特征在樹的每個節(jié)點(diǎn)進(jìn)行分割實(shí)現(xiàn)生成。類似地,每個原始隨機(jī)森林通過隨機(jī)選擇特征子空間,然后選擇具有最佳Gini值的特征作為分割。此外,他們應(yīng)用了滑動窗口來掃描原始特征生成新的特征向量,這些特征向量用作深度森林的輸入,可以認(rèn)為這是對原始特征做了特征變換之后再建樹。
集成學(xué)習(xí)是一類非常重要而且實(shí)用的方法,它在稍微增加一點(diǎn)復(fù)雜度的情況下通??偰芴嵘鄠€已有分類器的性能,從而在各大競賽及實(shí)際問題中被廣泛應(yīng)用。隨機(jī)森林等Bagging算法是一種非常具有代表性的集成學(xué)習(xí)算法,它簡單高效、使用方便,在生物信息學(xué)、經(jīng)濟(jì)學(xué)、計算機(jī)視覺等眾多應(yīng)用領(lǐng)域取得了巨大的成功。本文從實(shí)驗性能和理論性質(zhì)兩方面出發(fā)對已有的隨機(jī)森林算法研究進(jìn)行了總結(jié),最后還闡述了隨機(jī)森林算法與目前最火熱的深度學(xué)習(xí)之間的關(guān)系以及兩者相結(jié)合的一些工作。作為學(xué)術(shù)界和工業(yè)界均廣為應(yīng)用的一個算法,隨機(jī)森林在理論性質(zhì)和應(yīng)用性能上都還有提升的空間,除了算法一致性仍未完全解決之外,還有以下研究方向,如:為應(yīng)對日益復(fù)雜的分類任務(wù),為充分利用已有的大數(shù)據(jù)和強(qiáng)大計算能力,如何有效提升模型復(fù)雜度、如何利用分層或迭代的方法給出性能更好的集成學(xué)習(xí)算法;隨機(jī)森林算法有算法復(fù)雜度低而且自帶并行化的優(yōu)勢,如何把隨機(jī)森林算法中的這些思想融入到深度學(xué)習(xí)的研究當(dāng)中,加快深度學(xué)習(xí)的訓(xùn)練并提高其可解釋性等,都是值得我們探討的問題。
[1]Wu X,Kumar V,Quinlan JR,et al.Top 10 algorithms in data mining[J].Knowledge and information systems,2008,14(1):1-37
[2]Quinlan JR.Induction of decision trees[J].Machine learning,1986,1(1):81-106
[3]Quinlan JR.C4.5: programs for machine learning[M].Elsevier,2014
[4]Breiman L,Friedman J,Stone C J,et al.Classification and Regression Trees[M].CRC press,1984
[5]Cortes C,Vapnik V.Support vector machine[J].Machine learning,1995,20(3):273-97
[6]Zhou ZH.Ensemble methods: foundations and algorithms[M].CRC press,2012
[7]Breiman L.Bagging predictors[J].Machine learning,1996,24(2):123-40
[8]Freund Y,Schapire RE.A desicion-theoretic generalization of on-line learning and an application to boosting[C]//In European conference on computational learning theory,1995:23-37
[9]Breiman L.Random forests[J].Machine learning,2001,45(1):5-32
[10]Kwok SW,Carter C.Multiple decision trees[EB/OL].[2018-01-31].https://arxiv.org/abs/1304.2363
[11]Ho TK.The random subspace method for constructing decision forests[J].IEEE transactions on pattern analysis and machine intelligence,1998,20(8):832-44
[12]Acharjee A,Kloosterman B,Visser RG,Maliepaard C.Integration of multi-omics data for prediction of phenotypic traits using random forest[J].BMC bioinformatics,2016,17(5):180
[13]Svetnik V,Liaw A,Tong C,et al.Random forest: a classification and regression tool for compound classification and QSAR modeling[J].Journal of chemical information and computer sciences,2003,43(6):1947-58
[14]Prasad AM,Iverson LR,Liaw A.Newer classification and regression tree techniques: bagging and random forests for ecological prediction[J].Ecosystems,2006,9(2):181-99
[15]Cutler DR,Edwards TC,Beard KH,et al.Random forests for classification in ecology[J].Ecology,2007,88(11):2783-92
[16]Shotton J,Sharp T,Kipman A,et al.Real-time human pose recognition in parts from single depth images[J].Communications of the ACM,2013,56(1):116-24
[17]Lindner C,Bromiley PA,Ionita MC,et al.Robust and accurate shape model matching using random forest regression-voting[J].IEEE transactions on pattern analysis and machine intelligence,2015,37(9):1862-74[18]Baumann T.Decision tree usage for incremental parametric speech synthesis[C]//IEEE International Conference in Acoustics,Speech and Signal Processing.Italy:IEEE,2014:3819-3823
[19]Xiong C,Johnson D,Xu R,et al.Random forests for metric learning with implicit pairwise position dependence[C]//In ACM SIGKDD international conference on Knowledge discovery and data mining,2012:958-966
[20]Verikas A,Gelzinis A,Bacauskiene M.Mining data with random forests: A survey and results of new tests[J].Pattern Recognition,2011,44(2):330-49
[21]Wang Y,Xia ST.Unifying attribute splitting criteria of decision trees by Tsallis entropy[C]//In Acoustics,Speech and Signal Processing,IEEE International Conference,2017:2507-2511
[22]Buntine W,Niblett T.A further comparison of splitting rules for decision-tree induction[J].Machine Learning,1992,8(1):75-85
[23]Liu WZ,White AP.The importance of attribute selection measures in decision tree induction[J].Machine Learning,1994,15(1):25-41
[24]Nowozin S.Improved information gain estimates for decision tree induction[EB/OL].[2018-01-31].https://arxiv.org/abs/1206.4620
[25]Serrurier M,Prade H.Entropy evaluation based on confidence intervals of frequency estimates: Application to the learning of decision trees[C]//In International Conference on Machine Learning,2015:1576-1584
[26]Esposito F,Malerba D,Semeraro G,et al.A comparative analysis of methods for pruning decision trees[J].IEEE transactions on pattern analysis and machine intelligence,1997,19(5):476-91
[27]Wold S,Esbensen K,Geladi P.Principal component analysis[J].Chemometrics and intelligent laboratory systems,1987,2(1-3):37-52
[28]Rodriguez JJ,Kuncheva LI,Alonso CJ.Rotation forest:A new classifier ensemble method[J].IEEE transactions on pattern analysis and machine intelligence,2006,28(10):1619-30
[29]Skurichina M,Duin RP.Combining Feature Subsets in Feature Selection[J].Multiple classifier systems,2005,3541:165-75
[30]Mart'?nez M,Kak A C.Pca versus lda[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2001,23(2):228–233
[31]Guyon I,Elisseeff A.An introduction to variable and feature selection[J].Journal of machine learning research,2003,3(3):1157-82
[32]Ye Y,Wu Q,Huang J Z,et al.Stratified sampling for feature subspace selection in random forests for high dimensional data[J].Pattern Recognition,2013,46(3):769–787
[33]Nguyen T T,Zhao H,Huang J Z,et al.A new feature sampling method in random forests for predicting high- dimensional data[C]//In Advances in Knowledge Discovery and Data Mining,2015:459–470
[34]Wang Y,Xia S T.A novel feature subspace selection method in random forests for high dimensional data[C]//In International joint conference on neural networks,2016:4383–4389
[35]Amaratunga D,Cabrera J,Lee Y S.Enriched random forests[J].Bioinformatics,2008,24(18):2010–2014
[36]Biau G,Devroye L,Lugosi G.Consistency of random forests and other averaging classifiers[J].Journal of Machine Learning Research,2008,9(9):2015-2033
[37]Biau G.Analysis of a random forests model[J].Journal of Machine Learning Research,2012,13(4):1063-1095[38]Denil M,Matheson D,De Freitas N.Narrowing the gap: Random forests in theory and in practice[C]//In International conference on machine learning,2014
[39]Wang Y,Tang Q,Xia ST,et al.Bernoulli Random Forests:Closing the Gap between Theoretical Consistency and Empirical Soundness[C]//In International joint conference on artificial intelligence,2016:2167-2173
[40]Rota Bulo S,Kontschieder P.Neural decision forests for semantic image labelling[C]//In IEEE Conference on Computer Vision and Pattern Recognition,2014:81-88
[41]Kontschieder P,Fiterau M,Criminisi A,et al.Deep neural decision forests[C]//In IEEE International Conference on Computer Vision,2015:1467-1475
[42]Zhou ZH,Feng J.Deep forest:Towards an alternative to deep neural networks[EB/OL].[2018-01-31].https://arxiv.org/abs/1702.08835