• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      改進(jìn)的隨機(jī)森林算法在乳腺腫瘤診斷中的應(yīng)用

      2016-05-09 07:17:56單文英
      關(guān)鍵詞:決策樹分類器乳腺

      王 平 單文英

      改進(jìn)的隨機(jī)森林算法在乳腺腫瘤診斷中的應(yīng)用

      王 平 單文英

      (南昌大學(xué)信息工程學(xué)院 江西 南昌 330031)

      為了解決乳腺腫瘤診斷中誤差代價(jià)敏感的不平衡分類問題,提出一種改進(jìn)的隨機(jī)森林算法的乳腺腫瘤診斷模型。首先,在隨機(jī)森林算法的基礎(chǔ)上,將良惡乳腺腫瘤樣本的診斷性能分開考慮,利用隨機(jī)森林的泛化誤差上界相關(guān)因素推導(dǎo)出ROC曲線的查全率(TPR)和誤警率(FPR)的上界值。給出針對(duì)特定類別優(yōu)化分類性能的基準(zhǔn),繪制出不同決策閾值下的TPR和FPR值的ROC曲線,調(diào)整平均關(guān)聯(lián)度,再次訓(xùn)練,依據(jù)ROC曲線性能,確定最優(yōu)平均關(guān)聯(lián)度的診斷模型。最后,將該改進(jìn)的隨機(jī)森林算法與傳統(tǒng)方法的診斷性能進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果證明,提出的方法模型在保證整體的診斷性能的前提下,對(duì)于提高惡性腫瘤的識(shí)別能力具有可行性和有效性。

      乳腺腫瘤 診斷 代價(jià)敏感 不平衡分類 隨機(jī)森林 ROC曲線

      0 引 言

      近30年來,我國乳腺癌的發(fā)病率每年以3%的速度增長,而且發(fā)病的群體呈年輕化,形勢(shì)不容樂觀[1]。其中,乳腺癌就是婦女常見的、發(fā)病率最高的、危害健康最大的一種乳腺腫瘤。然而,提高惡性乳腺腫瘤的治愈率關(guān)鍵在于早期診斷與治療。近年來,利用數(shù)據(jù)挖掘技術(shù)輔助醫(yī)療診斷的研究正在發(fā)展。因此,對(duì)于數(shù)據(jù)挖掘方法的乳腺腫瘤診斷研究也就應(yīng)運(yùn)而生[2]。

      目前,已經(jīng)有學(xué)者將決策樹[3]、神經(jīng)網(wǎng)絡(luò)[4]和支持向量機(jī)[5]等方法應(yīng)用于乳腺腫瘤的診斷研究中。這些方法主要集中在研究如何提高整體的診斷率,但是惡性腫瘤樣本總是相對(duì)少數(shù)的,提高整體的診斷率不一定是最好的方法模型,容易出現(xiàn)過擬合,分類不平衡現(xiàn)象。一旦建立好了模型,很難再調(diào)整分類器的性能,更無法考慮誤差代價(jià)敏感問題。針對(duì)代價(jià)敏感問題,阮曉宏等人[6]提出了一種基于異構(gòu)代價(jià)敏感決策樹分類算法,考慮了不同代價(jià)在屬性分裂中的作用,提出代價(jià)敏感的剪枝方法,解決信息特征值過小而忽視的屬性帶來的誤分類代價(jià)問題。但是,單一決策樹的本身缺陷,診斷率還是比較低,穩(wěn)定性差。Wang等人[7]提出了一種重采樣的方法改變?cè)?xùn)練樣本的分布,降低分類的不平衡性。ThaiNghe等人[8]以支持向量機(jī)作為基分類器,賦予稀有樣本更大的權(quán)重,引入代價(jià)敏感思想優(yōu)化分類器的性能,降低分類的不平衡性,但是泛化能力弱。

      很明顯上述的傳統(tǒng)方法及其改進(jìn)方法都是針對(duì)單一分類器,然而,集成分類器在很多情況下要比單一分類器的效果更好。隨機(jī)森林,作為一種由多個(gè)決策樹組成的集成分類器,它的每棵決策樹實(shí)質(zhì)上是通過引入了Bagging思想隨機(jī)化訓(xùn)練樣本構(gòu)建出的一個(gè)的弱分類器。但是,當(dāng)多個(gè)弱分類器組合在一起形成隨機(jī)“森林”時(shí)分類效果非常驚人。具體表現(xiàn)為:高效率,在短時(shí)間內(nèi)可以并行地處理大量的待測(cè)樣本;良好的魯棒性,無需特征選擇就可以得到較高的確診率,適合高維小樣本數(shù)據(jù);不容易出現(xiàn)過擬合;良好的推廣和泛化能力等優(yōu)勢(shì)[9,10]。近年來,隨機(jī)森林在網(wǎng)頁分類、故障診斷、入侵檢測(cè)等領(lǐng)域都得到了應(yīng)用,已經(jīng)成為數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的熱點(diǎn)[11]。但是,隨機(jī)森林算法也存在一些缺陷,沒有針對(duì)誤差代價(jià)不平衡問題進(jìn)行考慮,其簡(jiǎn)單的相對(duì)多數(shù)投票法有個(gè)致命的缺陷就是在兩類的投票結(jié)果非常相近時(shí),誤診的可能性比較大。對(duì)此,Chen等人[12]提出了平衡隨機(jī)森林和加權(quán)隨機(jī)森林兩種方法解決不平衡分類問題。平衡隨機(jī)森林采用上采樣法,增加稀有類的數(shù)據(jù),使得訓(xùn)練數(shù)據(jù)達(dá)到平衡,這種改變正負(fù)類樣本的分布方式必將影響到“森林”中樹的結(jié)構(gòu)。而加權(quán)隨機(jī)森林方法是在平衡隨機(jī)森林的基礎(chǔ)上得到的,為稀有類增加權(quán)重,該方法對(duì)噪聲數(shù)據(jù)較敏感。以上對(duì)隨機(jī)森林的改進(jìn)方法在一定程度上具有很好的分類效果,無疑也增加了算法的復(fù)雜度,有違隨機(jī)森林簡(jiǎn)化問題的初衷。如何評(píng)價(jià)某種分類模型的性能,簡(jiǎn)單地通過正確率和錯(cuò)誤率已經(jīng)不足夠評(píng)價(jià)不平衡分類問題,對(duì)于具體問題還要具體分析。由于ROC曲線評(píng)價(jià)法具有簡(jiǎn)單、直觀、對(duì)于分類的界限值不固定、可以完成不同實(shí)驗(yàn)在同一個(gè)坐標(biāo)下的比較等優(yōu)點(diǎn)。Joshi[13]等人指出針對(duì)不同類別的誤差代價(jià)不同,使用ROC曲線評(píng)價(jià)分類器的性能更適合。倪俊[14]等人提出了使用ROC曲線分析常用的乳腺癌診斷方法性能。所以,ROC曲線也叫受試者工作特性曲線,是醫(yī)學(xué)診斷性能評(píng)價(jià)的重要指標(biāo)。然而,ROC曲線是由查全率(TPR)和誤警率(FPR)構(gòu)成的曲線,故改進(jìn)隨機(jī)森林的乳腺腫瘤診斷模型的關(guān)鍵是在閾值點(diǎn),盡量增大TPR,減小FPR的值。

      有鑒于此,對(duì)于威斯康辛大學(xué)醫(yī)學(xué)院整理的乳腺腫瘤病灶組織的細(xì)胞核顯微圖像的量化特征數(shù)據(jù)集,其樣本數(shù)據(jù)相對(duì)不平衡,但是如果將惡性腫瘤樣本錯(cuò)誤分為良性腫瘤樣本造成的誤差代價(jià)遠(yuǎn)遠(yuǎn)高于將良性腫瘤樣本錯(cuò)誤分為惡性腫瘤樣本的誤差代價(jià)。故針對(duì)乳腺腫瘤誤差代價(jià)敏感問題,提出了一種改進(jìn)的隨機(jī)森林算法的乳腺腫瘤診斷模型。首先,在CART算法、Bagging算法的基礎(chǔ)上,產(chǎn)生了隨機(jī)森林算法,分析隨機(jī)森林的決策樹棵樹和隨機(jī)分裂屬性的個(gè)數(shù)對(duì)診斷性能的影響。其次,考慮單分類器的分類性能及他們之間的關(guān)聯(lián)度對(duì)特定類別的識(shí)別影響。對(duì)隨機(jī)森林的投票評(píng)價(jià)性能的指標(biāo)進(jìn)行了推導(dǎo)及改進(jìn),簡(jiǎn)化算法的復(fù)雜度,達(dá)到參數(shù)可調(diào),并給出優(yōu)化分類器性能的調(diào)整基準(zhǔn),提高對(duì)惡性腫瘤的識(shí)別能力。

      1 Bagging算法

      1.1 CART算法

      CART模型最早是由Breiman等人提出的,采用遞歸的方式將輸入空間分割成矩形,使用Gini指標(biāo)[15]最小的屬性作為分裂節(jié)點(diǎn),最終以二叉樹的形式展現(xiàn)。這種方法構(gòu)建的決策樹清晰、直觀、易于理解,而且大大減少了建模的時(shí)間。但是,由于CART樹在遞歸的過程中,需要對(duì)其進(jìn)行剪枝,無疑增加了算法的復(fù)雜度,由于過度分割輸入空間,易出現(xiàn)過擬合現(xiàn)象,導(dǎo)致分類器具有泛化能力弱,穩(wěn)定性差等缺陷。Breiman指出CART算法由于其不穩(wěn)定性,通過集成得到的集成分類器可以顯著提高分類器的性能。

      1.2 Bagging算法

      Bagging的算法流程如下:

      1) 采用Bootstrap方法進(jìn)行重采樣,隨機(jī)產(chǎn)生k個(gè)訓(xùn)練集S1,S2,…,Sk,這里構(gòu)造不同的訓(xùn)練集目的是為了增加分類模型間的差異,提高組合分類模型的外推預(yù)測(cè)能力。

      2) 利用每個(gè)訓(xùn)練集并行地生成對(duì)應(yīng)的CART算法的決策樹C1,C2,…,Ck。

      3) 利用測(cè)試集樣本X對(duì)每個(gè)決策樹進(jìn)行測(cè)試,得到對(duì)應(yīng)分類結(jié)果C1(X),C2(X),…,Ck(X)。

      4) 采用相對(duì)多數(shù)投票法,根據(jù)k個(gè)決策樹輸出的類別結(jié)果,由決策樹棵數(shù)多的類別作為測(cè)試集樣本X所屬的分類結(jié)果。

      Bagging算法基本思路如圖1所示。

      圖1 Bagging算法基本思路

      2 隨機(jī)森林算法(RFA)

      隨機(jī)森林算法是由Breiman提出的一種統(tǒng)計(jì)學(xué)習(xí)理論[17]。實(shí)質(zhì)上是一個(gè)包含多個(gè)決策樹{h(X,θk),k=1,2,…,K}的組合分類器,其中{θk}是隨機(jī)向量,服從獨(dú)立同分布的特性,決定了決策樹的形式;K表示隨機(jī)森林中決策樹棵樹。它主要利用Bagging方法產(chǎn)生Bootstrap訓(xùn)練數(shù)據(jù)集,利用CART算法產(chǎn)生無剪枝的決策樹。最終采用簡(jiǎn)單的相對(duì)多數(shù)的投票方式,根據(jù)決策票數(shù)H(x)多的類別作為最終樣本所屬類別。

      (1)

      2.1 隨機(jī)森林的算法流程

      在Bagging算法基礎(chǔ)上得到的隨機(jī)森林算法的具體流程如下:

      1) 原訓(xùn)練集中有n個(gè)樣本,采用Bootstrap方法進(jìn)行重采樣,隨機(jī)產(chǎn)生k個(gè)訓(xùn)練集S1,S2,…,Sk。

      2) 對(duì)于每個(gè)訓(xùn)練樣本集,通過如下過程生成不剪枝CART樹:

      (1) 假設(shè)訓(xùn)練樣本的屬性個(gè)數(shù)為M,mtry為大于零且小于M的整數(shù),從M個(gè)屬性中隨機(jī)抽取mtry個(gè)屬性作為當(dāng)前節(jié)點(diǎn)的分裂屬性集,在森林生成過程中,保持mtry不變。

      (2) 根據(jù)Gini指標(biāo)從mtry個(gè)屬性中選出最好的分裂方式對(duì)該節(jié)點(diǎn)進(jìn)行分裂。

      (3) 每棵樹都完全成長,無剪枝的過程。最后根據(jù)每個(gè)訓(xùn)練集生成的CART樹分別為C1,C2,…,Ck。

      3) 利用測(cè)試集樣本X對(duì)每個(gè)決策樹進(jìn)行測(cè)試,得到對(duì)應(yīng)分類結(jié)果C1(X),C2(X),…,Ck(X)。

      4) 采用相對(duì)多數(shù)投票法,根據(jù)k個(gè)決策樹輸出的類別結(jié)果,由決策樹棵數(shù)多的類別作為測(cè)試集樣本X所屬的分類結(jié)果。

      2.2 隨機(jī)森林的收斂性

      為構(gòu)造k棵決策樹,則由相互獨(dú)立且同分布的隨機(jī)向量C1,C2,…,Ck構(gòu)成的分類器為h(x,Ci),簡(jiǎn)記為hi(x)。假設(shè)輸入向量為x,輸出類別為y,定義樣本點(diǎn)為(x,y)的余量函數(shù)為:

      (2)

      式中I(·)為示性函數(shù),當(dāng)函數(shù)I(·)的括號(hào)中等式成立時(shí),其值為1,否則為0;avk表示取平均值。

      此余量函數(shù)用于評(píng)估平均正確分類數(shù)超過平均錯(cuò)誤分類的程度,該值越大,分類結(jié)果的可靠性越強(qiáng)。

      設(shè)隨機(jī)森林的泛化誤差為PE*[17]:

      PE*=Px,y(mg(x,y)<0)

      (3)

      在隨機(jī)森林中,如果決策樹的個(gè)數(shù)足夠多時(shí),式(2)遵循強(qiáng)大數(shù)定理。

      定義1 在隨機(jī)森林中,隨著決策樹的數(shù)目增加,所有序列為θ1,θ2,…,θk,PE*幾乎處處收斂于隨機(jī)森林的邊界函數(shù):

      (4)

      定義1表明隨著決策樹的增加,隨機(jī)森林不會(huì)產(chǎn)生過擬合現(xiàn)象。但是可能會(huì)產(chǎn)生適度范圍內(nèi)的泛化誤差。隨機(jī)森林中決策樹的數(shù)量是個(gè)可調(diào)的參數(shù),對(duì)于隨機(jī)森林分類器的性能具有一定的影響。如果建立的決策樹的個(gè)數(shù)不足,則模型得不到充分訓(xùn)練,分類器性能就會(huì)下降;如果建立的決策樹個(gè)數(shù)過多,不僅增加了計(jì)算量和訓(xùn)練時(shí)間,而且達(dá)不到提高分類性能的目的。

      定義2 基分類器的邊界函數(shù)為:

      (5)

      定義3 隨機(jī)森林的泛化誤差PE*范圍:

      (6)

      Eθvar(θ)≤Eθ(Ex,yrmg(θ,x,y))2-s2≤1-s2

      (7)

      由定義3可得降低泛化誤差的上界的關(guān)鍵是提高樹的分類性能和降低樹之間的相關(guān)度,進(jìn)而提高了隨機(jī)森林的分類性能。

      2.3 改進(jìn)的隨機(jī)森林算法(IRFA)

      Breiman提出的隨機(jī)森林算法的泛化誤差范圍是假設(shè)決策閾值固定,分類誤差代價(jià)相同的情況下得出的,并沒有對(duì)分類誤差代價(jià)不同的情況進(jìn)行分析。針對(duì)二分類問題,可以將正負(fù)樣本分開對(duì)待,在隨機(jī)森林算法的基礎(chǔ)上,優(yōu)化分類器性能,改進(jìn)隨機(jī)森林算法。討論不同決策閾值下,樹之間的平均相關(guān)度,樹的分類性能s對(duì)不同誤差代價(jià)區(qū)域的分類性能的影響,并給出改進(jìn)隨機(jī)森林算法的基準(zhǔn)。

      對(duì)于二分類問題的性能評(píng)價(jià)指標(biāo)有如表1的分類情況。

      表1 二分類情況表

      根據(jù)表1可定義如下式子評(píng)估分類器性能。

      (8)

      其中,Accuracy表示整體分類的準(zhǔn)確率;TPR表示所有1類樣本中正確分類率,簡(jiǎn)稱為查全率;FPR表示所有0類樣本中錯(cuò)誤分類率,簡(jiǎn)稱為誤警率。

      針對(duì)二分類的余量函數(shù)mg(x,y)可以表示為:

      (9)

      則在此改進(jìn)的隨機(jī)森林算法中,當(dāng)輸入樣本為x時(shí),不僅僅通過簡(jiǎn)單的相對(duì)多數(shù)票數(shù)的H(x)進(jìn)行投票,而且通過如下評(píng)分函數(shù)進(jìn)行控制評(píng)估多個(gè)投票結(jié)果:

      (10)

      其中,K為決策樹的總數(shù)目,為了防止評(píng)分結(jié)果相同,通常K取奇數(shù)。hk(x)為第k個(gè)決策樹所投票的類別。顯然,評(píng)分函數(shù)的值域?yàn)閇-1,1],且直接與上述隨機(jī)森林的余量函數(shù)有關(guān)。將正負(fù)樣本分開對(duì)待,當(dāng)樣本類屬于1類,即y=1時(shí),評(píng)分函數(shù)值和邊緣數(shù)值相等,即score(x)=mg(x,y);當(dāng)樣本類屬于0類,即y=0時(shí),評(píng)分函數(shù)值和邊緣數(shù)值相反,即score(x)=-mg(x,y)。評(píng)分函數(shù)是根據(jù)中心極限原理,在一定條件可以漸近服從正態(tài)分布。如圖2表示在不同類別下的評(píng)分函數(shù)圖。

      圖2 不同類別的評(píng)分函數(shù)

      如圖2所示,根據(jù)評(píng)分函數(shù)的分布,正負(fù)樣本分開考慮后的u0和u1將該評(píng)分曲線分為三個(gè)區(qū)域。設(shè)置一個(gè)閾值t,將評(píng)分曲線分成兩部分,最大化TPR的同時(shí)還要考慮相對(duì)FPR的最小化,找到合適的閾值點(diǎn)是實(shí)驗(yàn)的關(guān)鍵。隨著閾值的變化,通過掃描,將不同閾值t下分類器的TPR(縱坐標(biāo))和FPR(橫坐標(biāo))的值映射到隨機(jī)森林的ROC曲線上(如圖3所示)。

      圖3 ROC曲線的性能

      基于評(píng)分函數(shù)與邊界函數(shù)的關(guān)系,這里設(shè)不同類別的分類性能分別為s0和s1。

      (11)

      其中,ui為類i的評(píng)分函數(shù)的期望;ni為類i的樣本個(gè)數(shù)。由上式可知,這里將分類器的整體分類的性能s設(shè)為不同類別的分類性能的加權(quán)平均。

      (12)

      則針對(duì)正負(fù)樣本有:

      (13)

      (14)

      在構(gòu)建ROC曲線的過程中,在給定閾值t下,TPR表示所有1類樣本的正確率,即1類評(píng)分函數(shù)構(gòu)成的評(píng)分分布曲線中超過閾值t的區(qū)域;FPR表示所有0類樣本的錯(cuò)誤率,即0類評(píng)分函數(shù)構(gòu)成的評(píng)分分布曲線中超過閾值t的區(qū)域(如圖2所示的陰影部分)。分別可表示為:

      FPR=P(Z0≥t) TPR=P(Z1≥t)

      (15)

      其中,Z0和Z1分別表示0類和1類評(píng)分分布函數(shù)的變量。

      利用單邊切比雪夫不等式來設(shè)置式(15)中FPR和TPR的上界值。單邊切比雪夫不等式為:

      (16)

      其中,u、σ2分別為變量Z的均值和方差。假設(shè)t=k+u,則式(16)可表示為:

      (17)

      使用1同時(shí)減去式(17)的兩邊,得t

      (18)

      當(dāng)t∈[u0,1]由式(11)、式(12)、式(15)和式(17)可推得:

      (19)

      在評(píng)分函數(shù)中,u0和u1將區(qū)間[-1,1]分為三個(gè)區(qū)間[-1,u0]、[u0,u1]和[u1,1]這3個(gè)子區(qū)間,根據(jù)式(12)、式(15)和式(17)設(shè)定知閾值t所屬的區(qū)間是不同,則對(duì)應(yīng)區(qū)間[-1,-s0]、[-s0,s1]和[s1,1]中FPR和TPR的上界和下界。如表2所示。

      表2 ROC曲線的三個(gè)區(qū)域內(nèi)FPR和TPR界限

      3 構(gòu)建IRFA的乳腺腫瘤診斷模型

      乳腺腫瘤的診斷問題也就是一個(gè)二分類問題。本文的乳腺腫瘤診斷的數(shù)據(jù)集來源于威斯康辛大學(xué)醫(yī)學(xué)院整理的量化特征數(shù)據(jù)集,包含569個(gè)病例,其中,良性乳腺腫瘤357例,惡性乳腺腫瘤212例。數(shù)據(jù)集中包含乳腺腫瘤的細(xì)胞核圖像的10個(gè)屬性(細(xì)胞核半徑、質(zhì)地、周長、面積、光滑性、緊密度、凹陷度、凹陷點(diǎn)數(shù)、對(duì)稱度、斷裂度)。而且每個(gè)屬性包含3個(gè)屬性值(平均值、標(biāo)準(zhǔn)差和最壞值),共有30個(gè)字段。另外,還有1個(gè)字段為病例編號(hào),最后1個(gè)字段是確診分類結(jié)果,其中數(shù)字“0”為良性,數(shù)字“1”為惡性。該數(shù)據(jù)庫中各個(gè)量化特征與腫瘤性質(zhì)都具有密切的聯(lián)系,從而根據(jù)細(xì)胞核顯微圖像的量化特征利用數(shù)據(jù)挖掘的技術(shù)可以智能的診斷乳腺腫瘤是良性還是惡性的。

      該實(shí)驗(yàn)的硬件環(huán)境是Windows7系統(tǒng),i5-3230M CPU, 4 GB RAM,500 GB硬盤,算法運(yùn)行的軟件環(huán)境為MATLAB 2010版本。根據(jù)以上推導(dǎo)得分類決策的評(píng)分函數(shù)為:

      (20)

      由評(píng)分函數(shù)分布圖(見圖2)和上節(jié)推導(dǎo)過程可知,如果單分類器的分類性能一定時(shí),調(diào)整相應(yīng)類別的平均相關(guān)度時(shí),可以改變?cè)u(píng)分函數(shù)的分布,進(jìn)而改變FPR和TPR的上界值。這里給出不同區(qū)域的平均關(guān)聯(lián)度的調(diào)整基準(zhǔn)(如表3所示):

      表3 不同區(qū)域的平均關(guān)聯(lián)度的調(diào)整基準(zhǔn)

      基于改進(jìn)的隨機(jī)森林算法實(shí)現(xiàn)步驟:

      Step1 采集數(shù)據(jù)。采用Bootstrap方法隨機(jī)化乳腺腫瘤訓(xùn)練集S1,S2,…,Sk,將袋外數(shù)據(jù)(OOB)作為測(cè)試集T。

      Step2 模型訓(xùn)練。設(shè)置參數(shù):決策樹棵樹k,隨機(jī)選擇屬性的個(gè)數(shù)mtry。

      ① 訓(xùn)練集Sk含有M個(gè)屬性,隨機(jī)抽取mtry個(gè)屬性作為當(dāng)前節(jié)點(diǎn)的分裂屬性集,形成新的訓(xùn)練集Sn。② 利用CART算法訓(xùn)練數(shù)據(jù)集Sn構(gòu)建決策樹,完全成長不進(jìn)行剪枝。

      Step3 循環(huán)k次以上Step1和Step2步驟,構(gòu)建k棵決策樹,得到一個(gè)隨機(jī)森林模型。

      Step4 預(yù)測(cè)仿真。① 對(duì)測(cè)試集T每個(gè)樣本X進(jìn)行預(yù)測(cè)仿真,k棵決策樹得到k個(gè)決策類別結(jié)果。② 計(jì)算評(píng)分函數(shù)score,根據(jù)評(píng)分結(jié)果得到最后樣本X所屬類別。

      Step5 建立100個(gè)隨機(jī)森林模型,計(jì)算當(dāng)前設(shè)置參數(shù)的隨機(jī)森林模型的平均值A(chǔ)ccuracy、FPR和TPR的值,確定最佳k和mtry的值。

      Step6 通過調(diào)用[tpr, fpr, t]=ROC(score, target, Lp, Ln)函數(shù),分析不同閾值t的分類器的性能影響,繪制ROC曲線。根據(jù)仿真實(shí)驗(yàn)對(duì)比表3的參考基準(zhǔn),調(diào)整不同區(qū)域的平均關(guān)聯(lián)度,再次重復(fù)以上步驟。

      為了驗(yàn)證改進(jìn)算法的可行性,將實(shí)驗(yàn)分為兩組:第一組是UCI標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn);第二組是詳細(xì)分析IRFA在威斯康辛大學(xué)醫(yī)學(xué)院整理的乳腺癌數(shù)據(jù)集上的實(shí)驗(yàn)應(yīng)用。

      4 實(shí)驗(yàn)結(jié)果及分析

      4.1 UCI數(shù)據(jù)集的實(shí)驗(yàn)分析

      為了測(cè)試改進(jìn)的算法的性能,首先選擇UCI帶標(biāo)簽的二類數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),而且選擇樣本數(shù)分布嚴(yán)重不平衡和相對(duì)不平衡各兩組數(shù)據(jù)集。四組數(shù)據(jù)集分布如表4所示。

      表4 選擇的UCI數(shù)據(jù)集樣本分布

      將上述數(shù)據(jù)集運(yùn)用于RFA和IRFA的模型中進(jìn)行驗(yàn)證,最終得到的ROC曲線結(jié)果如圖4所示。

      由圖4的實(shí)驗(yàn)結(jié)果可得,IRFA相對(duì)RFA模型的分類性能明顯有所提高。樣本分布的不平衡性越高,可提高的幅度也就越大,雖然在負(fù)類樣本與正類樣本的不平衡比較低的情況下,TPR的值提高幅度較小,穩(wěn)定性強(qiáng),但是在靠近左上角的閾值點(diǎn)處,IRFA算法的TPR值都得到了很大提高,這也就為最大化正類樣本的識(shí)別率提供了突破點(diǎn)。

      圖4 UCI數(shù)據(jù)集在IRFA和RFA模型中的ROC曲線

      4.2 乳腺腫瘤數(shù)據(jù)集的應(yīng)用實(shí)驗(yàn)結(jié)果詳細(xì)分析

      通過在UCI數(shù)據(jù)集上的驗(yàn)證,對(duì)此詳細(xì)分析改進(jìn)的隨機(jī)森林算法IRFA在本文的乳腺腫瘤數(shù)據(jù)集上的實(shí)驗(yàn),首先,分析建立決策樹的數(shù)目。這里設(shè)置決策樹的數(shù)目分別為51、75、101、151、201、251、301,得到不同的隨機(jī)森林模型。為了減少隨機(jī)性對(duì)隨機(jī)森林的性能的影響,針對(duì)不同決策樹棵樹,建立100個(gè)隨機(jī)森林模型,然后取其平均值,作為當(dāng)前的分類結(jié)果。經(jīng)過多次訓(xùn)練,得到不同決策樹數(shù)目下的隨機(jī)森林模型的整體分類的準(zhǔn)確率(Accuracy)、查全率(TPR)和誤警率(FPR)。記錄的實(shí)驗(yàn)結(jié)果如表5所示。

      表5 決策樹數(shù)目對(duì)隨機(jī)森林分類的性能影響

      由表5可得,當(dāng)決策樹小于201時(shí),隨著決策樹棵樹的增加,Accuracy和TPR的值也在增大,而FPR的值在降低。當(dāng)決策樹大于201時(shí),隨著決策樹的數(shù)目增加,Accuracy的值保持不變,但是TPR和FPR的值一直在變化,當(dāng)決策樹等于201時(shí),Accuracy和TPR的值達(dá)到最大,而且FPR值也相對(duì)較小。很明顯,在隨機(jī)森林的訓(xùn)練中,這里選擇決策樹的數(shù)目為201棵。

      隨機(jī)選擇屬性數(shù)量的分析:對(duì)于“森林”中的CART樹,一個(gè)重要特點(diǎn)是通過在每個(gè)分裂節(jié)點(diǎn)隨機(jī)選擇屬性的方式引入了隨機(jī)性,從M個(gè)屬性中隨機(jī)抽取mtry個(gè)屬性作為當(dāng)前節(jié)點(diǎn)的分裂屬性集。為了評(píng)價(jià)分裂屬性集的屬性個(gè)數(shù)對(duì)分類性能的影響,在隨機(jī)森林中的決策樹數(shù)目為201時(shí),設(shè)置不同的mtry值分別為2、3、4、5、6進(jìn)行訓(xùn)練,構(gòu)建隨機(jī)森林模型。表6記錄了不同mtry所得到的Accuracy、TPR和FPR的值。

      表6 分裂屬性的個(gè)數(shù)mtry對(duì)分類性能影響

      由表6可得,mtry=5時(shí),Accuracy和TPR的值都達(dá)到最大,故這里選取mtry為5。

      ROC曲線的分析:根據(jù)以上得到的結(jié)果,選擇決策樹數(shù)目為201,mtry為5。針對(duì)本文的乳腺腫瘤的診斷要求,改進(jìn)隨機(jī)森林算法,由評(píng)分函數(shù)閾值的取值范圍為[-1,1],分別將決策閾值設(shè)置為1、0.8、0.7、0.5、0、-0.5、-0.8、-1。在不同閾值下,對(duì)隨機(jī)森林進(jìn)行訓(xùn)練,得出分類結(jié)果的Accuracy、TPR和FPR的值,并將得到的TPR和FPR的值繪制成ROC曲線(如圖5所示)。

      圖5 ROC曲線

      由圖5所得的八個(gè)點(diǎn)從左到右分別表示在決策閾值t為1、0.8、0.7、0.5、0、-0.5、-0.8、-1的情況下,所得的TPR和FPR的值。隨著決策閾值t的減小,TPR和FPR的值都在增大,當(dāng)t=0.5之后,TPR的值相差不大,幾乎可以認(rèn)為保持不變,但是FPR卻一直在增加。根據(jù)ROC曲線原理,越靠近左上角的點(diǎn),分類性能越好,此時(shí)也就是最好的閾值點(diǎn)。故根據(jù)實(shí)驗(yàn)結(jié)果應(yīng)選擇t=0.5。此時(shí),在滿足TPR最大時(shí),F(xiàn)PR相對(duì)也比較小。

      此時(shí),RFA選擇的決策樹數(shù)目為201,mtry為5,決策閾值t為0.5。根據(jù)表3的基準(zhǔn)調(diào)整RFA相應(yīng)的平均關(guān)聯(lián)度,得到的改進(jìn)隨機(jī)森林算法(IRFA)用于再次訓(xùn)練。在同樣條件下,利用單一分類器(CART決策樹)、Bagging算法和隨機(jī)森林(RFA)算法訓(xùn)練乳腺腫瘤數(shù)據(jù)集,得到的方法模型進(jìn)行比較分析,統(tǒng)計(jì)Accuracy、FPR和TPR的值(如表7所示)。

      表7 不同乳腺腫瘤的診斷方法的性能比較

      根據(jù)表7記錄的實(shí)驗(yàn)結(jié)果可得,隨機(jī)森林算法相對(duì)上述的單一分類器(CART決策樹)及Bagging算法的診斷效果明顯要更好。在RFA的基礎(chǔ)上,IRFA整體診斷精度也略有提高,雖然提高的幅度不大,但是相對(duì)RFA,IRFA得到了較高的TPR值,而且提高了2.853%。實(shí)驗(yàn)表明,在保證整體診斷精度的前提下,IRFA明顯提高了對(duì)惡性腫瘤的診斷精度。最后,為了更加直觀地說明IRFA在RFA的基礎(chǔ)上具有更好的診斷性能,將兩種方法的ROC曲線繪制在一個(gè)坐標(biāo)進(jìn)行比較(如圖6所示)。

      圖6 IRFA與RFA的ROC曲線

      5 結(jié) 語

      本文綜合考慮隨機(jī)森林的決策樹棵樹和隨機(jī)分裂屬性的個(gè)數(shù)對(duì)乳腺腫瘤的診斷性能的影響,在隨機(jī)森林的基礎(chǔ)上,將正負(fù)類樣本分開考慮,提出了改進(jìn)的隨機(jī)森林算法的乳腺腫瘤診斷模型。增加了決策閾值的參數(shù),根據(jù)隨機(jī)森林的泛化誤差推導(dǎo)出了FPR和TPR的上界調(diào)整基準(zhǔn),繪制ROC曲線,進(jìn)一步優(yōu)化隨機(jī)森林對(duì)惡性腫瘤的診斷性能。仿真結(jié)果證明了該方法模型相對(duì)隨機(jī)森林算法有所改進(jìn),最重要的是根據(jù)需要,參數(shù)可調(diào)。在保證整體的診斷性能的前提下,針對(duì)代價(jià)敏感問題,可以優(yōu)化特定類別樣本的識(shí)別性能,為細(xì)胞核顯微圖像診斷識(shí)別乳腺腫瘤提供重要參考價(jià)值。

      [1] Xu Guangwei,Hu Yongsheng,Kan Xiu.The preliminary report of breast cancer screening for 100000 women in China[J].China Cancer,2010,19(9):565-568.

      [2] Chaurasia V,Pal S.Data Mining Techniques:To Predict and Resolve Breast Cancer Survivability[J].International Journal of Computer Science and Mobile Computing,2014,3(1):10-22.

      [3] 毛利鋒,瞿海斌.一種基于決策樹的乳腺癌計(jì)算機(jī)輔助診斷新方法[J].江南大學(xué)學(xué)報(bào):自然科學(xué)版,2004,3(3):227-229.

      [4] 金強(qiáng),髙普中.人工神經(jīng)網(wǎng)絡(luò)在乳腺癌診斷中的應(yīng)用[J].計(jì)算機(jī)仿真,2011,28(6):235-238.

      [5] 章永來,史海波,尚文利,等.面向乳腺癌輔助診斷的改進(jìn)支持向量機(jī)方法[J].計(jì)算機(jī)應(yīng)用研究,2013,30(8):2373-2376.

      [6] 阮曉宏,黃小猛,袁鼎榮,等.基于異構(gòu)代價(jià)敏感決策樹的分類器算法[J].計(jì)算機(jī)科學(xué),2013,40(11A):140-142.

      [7] Wang T,Qin Z,Zhang S,et al.Cost-sensitive classifycation with inadequate labeled data[J].Information Systems,2012,37(5):508-516.

      [8] ThaiNghe N,Gantner Z,SchmidtThieme L.Cost-sensitive learning methods for imbalanced data[C]//Neural Networks (IJCNN),The 2010 International Joint Conference on.IEEE,2010:1-8.

      [9] 方匡南,吳見彬,朱建平,等.隨機(jī)森林方法研究綜述[J].統(tǒng)計(jì)與信息論壇,2012,26(3):32-38.

      [10] Kulkarni V Y,Sinha P K.Random Forest Classifiers:A Survey and Future Research Directions[J].Int Journal of Advanced Computing,2013,36(1):1144-1153.

      [11] Verikas A,Gelzinis A,Bacauskiene M.Mining data with random forests:A survey and results of new tests[J].Pattern Recognition,2011,44(2):330-349.

      [12] Chen C,Liaw A,Breiman L.Using random forest to learn imbalanced data[R].University of California,Berkeley,2004.

      [13] Joshi M V.On evaluating performance of classifiers for rare classes[C]//Data Mining,2002.ICDM 2003.Procedings.2002 IEEE International Conference on.IEEE,2002:641-644.

      [14] 倪俊,顧海峰,張杏梅,等.乳腺癌常用診斷方法的ROC曲線分析[J].中華腫瘤防治雜志,2012,19(13):1025-1028.

      [15] 宋麗.基于決策樹的組合分類器的研究[D].西安:西安電子科技大學(xué),2012.

      [16] Breiman L.Bagging predictors[J].Machine learning,1996,24(2):123-140.

      [17] Breiman L.Random forests[J].Machine learning,2001,45(1):5-32.

      APPLICATION OF IMPROVED RANDOM FOREST ALGORITHM IN BREAST TUMOUR DIAGNOSIS

      Wang Ping Shan Wenying

      (SchoolofInformationEngineering,NanchangUniversity,Nanchang330031,Jiangxi,China)

      To solve the problem of cost-sensitive imbalanced classification in breast tumour diagnosis, the paper proposes a breast tumour diagnosis model using the improved random forest algorithm. First, on the basis of random forest algorithm, we separately dealt with the diagnosis performances of benign and malignant breast tumour samples, made use of the corresponding factor of upper bound of random forests generalisation errors to deduce the upper bounds of recall rate (or TPR) and false alarm rate (or FPR) of ROC curve, then we gave the benchmark of optimising classification performance for specific categories, and drew the ROC curves with TPR and FPR values gained in different decision thresholds. After that we adjusted the average correlation and train the model again, and according to ROC curve performance we determined the diagnosis model with optimal average correlation. Finally, we compared the improved random forest algorithm with traditional methods in terms of diagnosis performance. Experimental results showed that the proposed model has the feasibility and effectiveness in improving the recognition ability of malignant tumour while keeping up with the overall diagnostic accuracy.

      Breast tumour Diagnosis Cost-sensitive Imbalanced classification Random forest ROC curve

      2014-09-14。江西省教育廳2014年度科學(xué)技術(shù)研究項(xiàng)目(GJJ14137)。王平,教授,主研領(lǐng)域:模式識(shí)別,圖像處理。單文英,碩士生。

      TP391

      A

      10.3969/j.issn.1000-386x.2016.04.059

      猜你喜歡
      決策樹分類器乳腺
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
      體檢查出乳腺增生或結(jié)節(jié),該怎么辦
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      得了乳腺增生,要怎么辦?
      媽媽寶寶(2017年2期)2017-02-21 01:21:22
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      基于決策樹的出租車乘客出行目的識(shí)別
      容易誤診的高回聲型乳腺病變
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      富蕴县| 正镶白旗| 中山市| 蓬莱市| 东台市| 天津市| 安陆市| 屏山县| 临清市| 沅江市| 宁津县| 中牟县| 湖北省| 巴青县| 左云县| 甘肃省| 铜川市| 阳春市| 天祝| 六枝特区| 民乐县| 叶城县| 荣昌县| 华容县| 新巴尔虎左旗| 玉树县| 临湘市| 丰原市| 育儿| 澄城县| 邹城市| 邢台市| 和田县| 筠连县| 玉山县| 忻城县| 南澳县| 台山市| 红安县| 南部县| 手游|