楊日東,李琳,陳秋源,華赟鵬,周毅△
(1.中山大學(xué) 中山醫(yī)學(xué)院,廣州 510080;2.新疆醫(yī)科大學(xué) 公共衛(wèi)生學(xué)院,烏魯木齊 830011; 3.中山大學(xué)附屬第一醫(yī)院 肝膽外科,廣州 510080)
肝癌是死亡率最高的惡性腫瘤之一,中國每年約有38.3萬人死于肝癌,占全球肝癌死亡人數(shù)的51%。近年來,隨著原發(fā)性肝癌(hepatocellular carcinoma,HCC)的早期診斷和早期治療,患者的總體療效明顯提高。但據(jù)有關(guān)研究表明,即使對肝癌進行根治性切除,5年內(nèi)仍高達60%~70%的患者出現(xiàn)轉(zhuǎn)移復(fù)發(fā)[1]。因此,對肝癌轉(zhuǎn)移復(fù)發(fā)進行預(yù)測,從而尋找有效的抑制途徑,是進一步提高肝癌患者生存率的關(guān)鍵,具有重大的研究意義。
在HCC預(yù)后預(yù)測研究方面,Hua[2]等人通過多因素分析,表明腫瘤數(shù)量,數(shù)門脈癌栓、腫瘤大小和中性粒細胞/淋巴細胞比值(NLR)是無病生存(DFS)和總生存(OS)的獨立預(yù)測因素,并表明伴有肝硬化的肝癌患者,較大的NLR往往術(shù)后DFS和OS較差。Ji[3]等人通過單因素分析和多因素分析,發(fā)現(xiàn)NLR和谷草轉(zhuǎn)氨酶/血小板比值指數(shù)(APRI)可作為HCC患者預(yù)后的獨立預(yù)測因子,并且當(dāng)兩者結(jié)合起來預(yù)測時,可以得到更高的準(zhǔn)確率。趙利鋒[4]等人通過多因素Logistic回歸模型,顯示原發(fā)性肝癌患者術(shù)前血液中RBC數(shù)量低于標(biāo)準(zhǔn)是影響其累積生存時間的危險性因素之一。目前,基于機器學(xué)習(xí)的原發(fā)性肝癌患者無病生存期預(yù)測研究較少,結(jié)合多種影響因素構(gòu)建HCC的預(yù)后預(yù)測模型,是當(dāng)前一大研究熱點。
然而,大部分HCC患者的無病生存期小于5年,研究數(shù)據(jù)往往是類不平衡的。傳統(tǒng)機器學(xué)習(xí)算法以最小化分類器的錯誤率為目的,導(dǎo)致多數(shù)類樣本的識別率遠高于少數(shù)類樣本的識別率。鑒于此,本研究提出一種針對類不平衡改進的提升樹算法。為了提高分類器對難分類的少數(shù)類樣本的預(yù)測性能,我們修改提升算法的樣本權(quán)重更新方式,在每次迭代過程中,僅提高誤分類的少數(shù)類樣本權(quán)重,對于分類正確的少數(shù)類樣本和所有多數(shù)類樣本,保持其權(quán)重不變。并且,為了更好地評價基分類器,我們修改提升算法的權(quán)重更新方式,將F值納入到基分類器權(quán)重的計算中。
簡單起見,本研究將多數(shù)類稱為負類,將少數(shù)類稱為正類。
本實驗數(shù)據(jù)來自廣東省某三甲醫(yī)院于2006至2009年收治的321例進行肝切除術(shù)的肝癌患者,包括77例無病生存超過5年的患者和244例無病生存小于5年的患者。具體屬性說明見表1。
2.2.1代價提升樹 傳統(tǒng)的提升算法在每次迭代中增加當(dāng)前基分類器誤分類樣本的權(quán)重,并減少正確分類樣本的權(quán)重。考慮到這種權(quán)重更新策略并不能強調(diào)正類樣本的重要性,我們提出了一種改進的提升樹算法——代價提升樹(cost boosting tree,CBT)。在代價提升算法的每次迭代中,只增加誤分類的正類樣本權(quán)重。對于負類樣本和正確分類的正類樣本,則保持其權(quán)重不變。因此,代價提升樹的基分類器更關(guān)注難學(xué)習(xí)的正類樣本,最終提高整個集成分類器對正類樣本的預(yù)測性能。
表1 HCC臨床數(shù)據(jù)集屬性說明
另外,傳統(tǒng)提升算法在更新分類器權(quán)重時考慮的是整體錯誤率:
然而,錯誤率并不能很好地衡量不平衡學(xué)習(xí)任務(wù)。鑒于此,我們將F值(F-measure)作為衡量基分類器性能的指標(biāo)。
基分類器的權(quán)重更新如下:
在最終決策時,它將作為基分類器的權(quán)重系數(shù)。這里Max(F-measurem,0.5)是為了保證基分類器的F值大于0.5,若F值小于0.5,則am=0,表示舍棄該基分類器。具體的算法步驟如下:
輸入:訓(xùn)練數(shù)據(jù)集:
T={(x1,y1),(x2,y2),…(xn,yn)},基分類器CART
(2)對于m=1,2,…M。
(3)使用帶權(quán)重分布的樣本Dm訓(xùn)練數(shù)據(jù)集學(xué)習(xí),得到基分類器:
Gm(x):→{-1,+1}
(4)計算Gm(x)在訓(xùn)練數(shù)據(jù)集上的F值:
其中:
這里的I是指示函數(shù),當(dāng)條件成立時等于1,當(dāng)條件不成立時等于0。
(5)計算Gm(x)的權(quán)重系數(shù):
(6)更新訓(xùn)練集的權(quán)重分布:
Dm+1=(wm+1,1,…,wm+1,i,…,wm+1,N)
這里的Zm是歸一化因子,它使得樣本的權(quán)重分布成為概率分布:
(7)構(gòu)建基分類器的線性組合,最終得到分類器:
2.2.2采樣技術(shù) 采樣技術(shù)是解決類不平衡的方法之一,它通過對數(shù)據(jù)樣本的預(yù)處理,從而達到數(shù)據(jù)平衡的效果[5]。為了驗證改進提升樹的有效性,本研究將改進提升樹與結(jié)合了過采樣技術(shù)(SMOTE、BorderlineSMOTE和ADASYN)或欠采樣技術(shù)(One-Sided Selection)的決策樹進行對比。
1、合成少數(shù)抽樣技術(shù)
Chawla[6]等人提出了一種經(jīng)典的過采樣技術(shù),稱為合成少數(shù)抽樣技術(shù)(synthetic minority over-sampling technique,SMOTE)?;舅枷胧钦悩颖九c其在正類樣本集中的K近鄰的連線之間隨機產(chǎn)生一個樣本。
2、自適應(yīng)合成抽樣方法
He[7]等人提出了一種自適應(yīng)合成抽樣方法(adaptive synthetic sampling,ADASYN)。ADASYN根據(jù)正類樣本的K近鄰中正類樣本數(shù)判斷學(xué)習(xí)的難易程度,自適應(yīng)地調(diào)整合成樣本的數(shù)量。具體地,對于K近鄰中屬于正類的樣本越少,認為越難被正確預(yù)測,在其附近生成更多的正類樣本,反之更少。
3、邊界合成少數(shù)類過采樣技術(shù)(BorderlineSMOTE)
考慮到類邊界附近的樣本對分類器的影響較大,Han[8]等人提出了一種BorderlineSMOTE過采樣算法。他們根據(jù)正類樣本的K近鄰中的正類樣本數(shù)將其分為“安全樣本”,“噪聲樣本”和“危險樣本”(即在類邊界的樣本),并僅對“危險樣本”合成新樣本。
4、單邊選擇欠采樣技術(shù)(One-Sided Selection)
Kubar[9]等人提出一種欠采樣算法,稱為One-Sided Selection算法。One-Sided Selection將負樣本分為“安全樣本”,“冗余樣本”,“邊界樣本”和“噪聲樣本”。他們使用CNN算法去除“冗余樣本”,然后通過去除Tomek-link樣本的方式去除“邊界樣本”和“噪聲樣本”。這樣,數(shù)據(jù)集僅保留安全的負類樣本和所有正類樣本。
二分類算法的分類性能可用混淆矩陣表示[6],見表2。
表2 混淆矩陣
對于類不平衡問題,準(zhǔn)確率通常無法衡量分類算法的好壞[6]。例如,不平衡數(shù)據(jù)集的負類樣本數(shù)為990,正類樣本數(shù)為10,分類器將所有樣本預(yù)測為負類,其準(zhǔn)確率將達到99%,然而這是毫無意義的分類器。此時,應(yīng)考慮的評價指標(biāo)為:召回率、精度、F值(F-measure)、G均值(G-mean)、AUC(Area Under roc Curve)。具體計算方式如下:
G-mean=(ACC-×ACC+)1/2
其中,參數(shù)β用于調(diào)整召回率和精度之間的權(quán)重,一般令其為1。
在類不平衡問題中,F(xiàn)值用于權(quán)衡召回率與精度的重要性。G均值則與召回率和特異性相關(guān),一般召回率高的分類器,即使精度偏低,也可達到較好的G均值。因此,G均值可用于衡量重視召回率的類不平衡學(xué)習(xí)任務(wù)。
為了提高分類性能,可對條件屬性進行單變量統(tǒng)計檢驗,以P值為參考標(biāo)準(zhǔn),僅保留P<0.01的屬性構(gòu)建模型,見表3。
表3 各變量的統(tǒng)計檢驗結(jié)果
考慮到文獻[2-3]提出的NLR對HCC患者無病生存的影響較大,本次實驗也將其保留。
為了對比算法本身的改進,我們用BT表示傳統(tǒng)提升樹,用CBT(錯誤率)表示僅修改樣本權(quán)重更新方式的提升樹,用CBT(F值)表示修改樣本權(quán)重更新方式和基分類器權(quán)重計算方式的提升樹,進行對比。本次實驗用到的決策樹是調(diào)用python中的sklearn工具包[10],在保證準(zhǔn)確率的情況下,參數(shù)的設(shè)置以最大化AUC值為原則。采用20次10折交叉驗證的平均值作為最終結(jié)果,實驗結(jié)果見表4。
表4 各算法在HCC臨床數(shù)據(jù)集上的性能對比
從表4可以看出,由于傳統(tǒng)的提升樹BT以整體錯誤率為優(yōu)化目標(biāo),導(dǎo)致其在不平衡數(shù)據(jù)集上的F值、G均值和AUC指標(biāo)較差。經(jīng)修改,樣本權(quán)重更新方式的CBT(錯誤率)相比BT在各性能指標(biāo)上有很大提升??傻贸鼋Y(jié)論:在樣本權(quán)重更新過程中,只提高誤分類的正類樣本權(quán)重,有利于訓(xùn)練出更關(guān)注正類的基分類器,從而提升對正類樣本的預(yù)測性能。與CBT(錯誤率)相比,CBT(F值)以F值計算基分類器權(quán)重,而CBT(錯誤率)采用錯誤率。CBT(F值)相比CBT(錯誤率)有所提升,這說明以F值為指標(biāo)計算基分類器權(quán)重更有利于評價不平衡分類,從而提升整體集成決策的預(yù)測性能。同時,CBT在數(shù)據(jù)集上的F值、G均值和AUC優(yōu)于結(jié)合采樣技術(shù)的決策樹算法,說明CBT在不平衡分類任務(wù)中是有效且可行的。
傳統(tǒng)的HCC預(yù)后研究是基于統(tǒng)計學(xué)的方法找出影響因素,而利用機器學(xué)習(xí)算法,根據(jù)影響因素構(gòu)建分類器的研究較少。傳統(tǒng)機器學(xué)習(xí)算法在類不平衡數(shù)據(jù)集上的性能不佳,主要體現(xiàn)在正類的識別率遠低于負類,導(dǎo)致AUC指標(biāo)低。鑒于此,本研究針對傳統(tǒng)提升算法迭代過程中,樣本權(quán)重的更新方式無法體現(xiàn)出正類樣本的重要性和錯誤率,無法準(zhǔn)確衡量不平衡分類任務(wù)的問題,提出了一種改進的提升樹算法——代價提升樹。在每次迭代中,CBT提高誤分類的正類樣本權(quán)重。并且,CBT將F值納入基分類器權(quán)重的計算。通過在HCC患者的臨床數(shù)據(jù)集上進行實驗,我們發(fā)現(xiàn)CBT算法的F值、G均值和AUC比傳統(tǒng)提升樹有很大提升,并且優(yōu)于結(jié)合采樣技術(shù)的決策樹算法。
本次實驗還發(fā)現(xiàn),在CBT每次迭代過程中,由于提升了誤分類的正類樣本權(quán)重,因此,每次抽樣后正類樣本的比例呈遞增趨勢。我們意識到,若正類樣本的比例越大,其訓(xùn)練得到的基分類器對正類樣本的分類效果會越好。因此,在后續(xù)研究,我們將考慮以正類樣本的比例構(gòu)造基分類器的權(quán)重系數(shù),得到新的加權(quán)集成方式。