比例優(yōu)勢boosting算法在高維有序多分類數(shù)據(jù)分析中的應用*

2018-07-16 10:06:36哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計教研室150081

中國衛(wèi)生統(tǒng)計 2018年3期

哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計教研室(150081)　

張圓圓　趙薇薇　侯　艷　李　康△

【提　要】　目的　探討比例優(yōu)勢boosting算法在高維組學多分類有序數(shù)據(jù)中變量篩選和分類預測的應用。方法　通過模擬實驗和實例比較比例優(yōu)勢boosting算法和其他常用的多分類boosting算法在變量篩選和分類效果中的差異。結(jié)果　模擬實驗表明，比例優(yōu)勢boosting算法的變量篩選效果，尤其在小樣本情況下要明顯優(yōu)于其他方式，分類效果略優(yōu)于其他方式；實例數(shù)據(jù)分析結(jié)果表明，比例優(yōu)勢boosting變量篩選效果要優(yōu)于其他方式，在分類效果上略低于隨機梯度boosting，但優(yōu)于其他boosting方式。結(jié)論　比例優(yōu)勢boosting算法適用于高維有序多分類數(shù)據(jù)，具有實用價值。

臨床實際應用中，癌癥的分期對患者的治療和預后具有很大的影響，隨著檢測技術(shù)的不斷發(fā)展，高維組學數(shù)據(jù)(基因組學，蛋白質(zhì)組學，代謝組學數(shù)據(jù))大量涌現(xiàn)，利用組學數(shù)據(jù)尋找同癌癥分期相關(guān)的標志物，預測癌癥分期是臨床上一個重要研究內(nèi)容。由于癌癥分期一般為多個類別，各類別間具有順序性，屬于有序多分類問題，且高維組學數(shù)據(jù)變量維數(shù)過高，常規(guī)方法無法處理。對于高維有序多分類數(shù)據(jù)的處理常使用隨機森林(random forest，RF)[1]，多分類支持向量機(multi-class support vector machine，Multi-SVM)[2]等方法。近年來，人們開始重視boosting算法在多分類中的應用，這種算法通過加權(quán)組合多個基礎(chǔ)分類模型來提高預測效果。然而，boosting和RF、Multi-SVM兩種模型一樣，都忽略了數(shù)據(jù)標簽的有序信息。為此，針對高維有序數(shù)據(jù)有學者提出了比例優(yōu)勢boosting(P/O Boosting)模型[3]，該方法可以充分考慮數(shù)據(jù)標簽的有序信息，在預測分類和變量篩選上更為合理，如錯分相鄰兩類的損失與錯分相隔較遠兩類的結(jié)果顯然是不同的。本文將通過模擬實驗比較有序和無序兩種類型的boosting算法的分類預測和變量篩選的效果，并給出了應用實例。

方法和原理

1.常見多分類boosting

常見多分類boosting算法主要有Adaboost、SAMME、梯度boosting以及隨機梯度boosting等四種方法[4]。

(1)Adaboost：基本思想是在迭代過程中，通過改變錯分樣本的權(quán)重建立一系列弱分類器，然后進行加權(quán)集成，最終得到一個強分類器。這種方法主要用于二分類標簽數(shù)據(jù)，后將其擴展為多分類Adaboost.M1算法。

(2)SAMME算法：SAMME方法基于AdaBoost.M1算法，在損失函數(shù)誤差項的計算中添加了log(K-1)懲罰項，降低了弱分類器的精度要求，自提出之后被視為boosting算法在多分類問題中的主要算法。

(3)梯度boosting：同Adaboost算法不同，梯度boosting并不關(guān)注錯分樣本的權(quán)重，而是在上一模型殘差梯度減少的方向上建立新的模型，最終模型為多次迭代后的基礎(chǔ)模型加權(quán)加和。

(4)隨機梯度boosting：隨機梯度boosting則在梯度boosting基礎(chǔ)上增加了隨機化參數(shù)，即在每次迭代過程中隨機抽取一部分樣本擬合分類模型。

2. 比例優(yōu)勢boosting

假定Y為K個有序類別的標簽變量，預測變量表示為X=(X1，…，XP)，則比例優(yōu)勢模型為

(1)

其中，f(x)是基于預測變量X的可加函數(shù)模型，θk為模型的常數(shù)項，與各類的比例相關(guān)，限制 -∞<θ1<…<θk-1<θk=∞。對于給定模型，樣本屬于類別K的概率則為

(2)

比例優(yōu)勢Boosting模型則利用數(shù)據(jù)的有序信息，在損失函數(shù)的梯度方向上構(gòu)建模型，即通過不斷迭代時，計算基分類器的負向梯度，將其作為新的反應變量建立新的分類器。具體算法如下所示[3]：

(2)進入循環(huán)m=m+1；

?計算模型損失函數(shù)L的負向梯度向量

(3)

?更新當前函數(shù)估計值(v為預設(shè)步長)

(4)

?固定函數(shù)模型，通過最小化經(jīng)驗風險估計

(5)

直至M次后，循環(huán)結(jié)束；

(3)最終集成函數(shù)模型為

(6)

評價指標

1．分類效果評價

預測效果評價可以使用分類正確率和ROC曲線下面積(AUC)，泛化的多分類AUC計算如下[5]：

(7)

這兩種指標主要用于二分類預測模型評價，也可用于多分類預測模型，但對于有序多分類來說，樣本被錯分至相鄰類別所付出的代價要比錯分至較遠類別的代價小，為此，本文給出一種新的評價指標—校正評分。

校正評分通過對樣本錯分至不同的類別時，依據(jù)類別的遠近進行懲罰,對分類器的分類效果做出綜合評價，懲罰函數(shù)如下

S=e-λd，d≥0

(8)

其中d為預測類別和真實類別之間的距離，λ為衰減系數(shù)，可根據(jù)實際問題進行自定義，本文選取λ=1。

2．變量篩選評價

為考察不同方式篩選變量的效果，通過重抽樣技術(shù)選擇訓練樣本進行建模，每次建模過程中將各變量按照變量的重要性進行排序，獲得各變量的秩次，取重復r次各變量的平均秩次作為變量的最終排序。根據(jù)模擬的差異變量個數(shù)m選擇對應前m個變量作為“差異變量”，然后計算所篩選變量的正確率。

模擬實驗

模擬四分類有序數(shù)據(jù)：設(shè)定6個差異變量x～N(0，1)，指定中間變量z，且

(9)

根據(jù)z的取值范圍，以P25，P50，P75等百分位數(shù)為界限定義有序四分類，如下所示

為在不同的情況下分別比較AdaBoost.M1、SAMME、GBM、SGBT以及P/O boosting五種方法在測試集的變量篩選效果和分類效果。分別設(shè)定N={240，120，40}三種不同樣本量的模擬數(shù)據(jù)作為訓練集建模，并對1000例的外部測試集進行預測，重復次數(shù)r=50。在此基礎(chǔ)上，通過調(diào)整各類別百分位數(shù)界限，以N=40為例，各類別的界限范圍分別為z≤P10，P30≤z≤P40，P60≤z≤P70以及z≥P90，比較類別間差異增大時對五種方法的影響。評價分類效果使用正確率(accuracy)、ROC曲線下面積(AUC)和校正得分(score)統(tǒng)計量。

模擬結(jié)果顯示，在三種不同樣本量下，使用P/O Boosting方法篩選變量的正確率分別為100%、100%、66.67%，明顯優(yōu)于其他四種方法(表1)。固定樣本量，類間差異增大時，各方法變量篩選結(jié)果的差異減少，但P/O Boosting仍能獲得不弱于其他方法的篩選結(jié)果。由圖1可以看出，在分類效果上，P/O Boosting均略優(yōu)于其他方法。上述模擬實驗結(jié)果表明,P/O Boosting方法的主要優(yōu)勢在于篩選變量上有更好的結(jié)果，尤其是小樣本小差異情況下。

表1　不同情況下變量篩選結(jié)果比較

#單元格中分別為準確率(正確個數(shù))，N*為類間差異增大時的結(jié)果

圖1　不同情況下五種分類方法的比較

實例應用

為進一步在實際中驗證以上五種boosting算法的對比結(jié)果，選用TCGA中結(jié)直腸癌(COAD)的mRNA數(shù)據(jù)，篩選同結(jié)直腸癌分期相關(guān)的變量，預測患者的疾病分期。該數(shù)據(jù)總共包括358例樣本，20530個預測變量，經(jīng)過單變量分析(非參數(shù)秩和檢驗，閾值為0.01)初篩獲得1373個變量，對初篩后的數(shù)據(jù)進行分析。隨機抽取100例作為訓練集，其余作為測試集進行建模預測，每次對變量重要性評分進行排秩獲得變量在該次建模過程中的秩次，重復以上步驟r(r=50)次后，計算平均秩次并重新排列，選取前m個變量作為各方法的差異變量，然后與所有358例樣本建模篩選的前m個變量相比較，觀察兩者的重合率，最后通過查閱文獻，確定五種方法所篩選變量中當前已有文獻報道同癌癥相關(guān)的基因所占的比例。

分析結(jié)果顯示，五種方法中，當m=20時，P/O Boosting的重合率為50%，文獻報道率為80%；當m=50時，P/O Boosting的重合率為48%，文獻報道率為76%，均表示該方法可靠性較高(表2)。從生物學上看，多數(shù)基因能夠得到較好的解釋，例如，篩選出的SCEL基因通過激活β-連環(huán)蛋白及其下游的原癌基因增強wnt信號通路，并通過SCEL-β-連環(huán)蛋白-E-鈣粘蛋白軸激活間充質(zhì)—上皮細胞轉(zhuǎn)化(MET)過程，降低癌細胞的遷移和入侵[6]。再例如，篩選出的EFNB2可能是功能獲得性突變P53的靶基因，通過P53/ ephrin-B2軸參與結(jié)直腸癌中的上皮細胞-間充質(zhì)轉(zhuǎn)化(EMT)過程，降低患者的化療敏感性[7]。從分類效果上看，五種方法在各分類指標中結(jié)果相差不大，P/O Boosting的AUC值略優(yōu)于其他方法(圖2)。

表2　COAD數(shù)據(jù)不同樣本下各方式變量篩選效果比較

*重合率為100個樣本建模同全部樣本建模篩選出的變量重合比例

圖2　五種方法COAD數(shù)據(jù)分類結(jié)果

討　　論

P/O Boosting是專門針對高維有序分類數(shù)據(jù)分析的一種方法，同常規(guī)的無序多分類模型相比，這種模型能夠考慮并利用數(shù)據(jù)的有序信息，其主要特點是在小樣本條件下，依然能夠較好地篩選出差異變量，可以為后續(xù)的機制研究以及臨床實際應用提供有益的信息。

P/O Boosting模型有一個重要的假定，即任意兩個不同累積有序類別的比數(shù)比相同，如果實際數(shù)據(jù)不滿足這一假定，對變量篩選影響不大，但可能會影響分類的效果，因此這種方法更適合于變量篩選。

有序和無序分類的主要差別是可以將相鄰類進行不斷合并，從而使建立的模型更為穩(wěn)定；另一差別是錯分的損失與相隔距離有關(guān)，P/O Boosting模型在建模時并未對其加權(quán)，因此使用校正評分統(tǒng)計量進行評價時并未達到預期的效果，如何將該統(tǒng)計量應用于模型的建立過程中，需要進一步研究。

本研究給出的P/O Boosting算法的基礎(chǔ)分類器選擇的是樹模型，適合多種復雜的情況，實際中也可以選擇其他類型的分類器，如樣條函數(shù)等，不同基礎(chǔ)分類器得到的結(jié)果會略有差別。