韓磊,黃瑞龍,范文靜,葉明全
皖南醫(yī)學(xué)院 醫(yī)學(xué)信息學(xué)院,安徽 蕪湖 241002
腫瘤是目前人類在疾病面前面臨的主要威脅之一。據(jù)2014年的《世界癌癥》報告[1]顯示,僅2012年一年就有超過1000萬的癌癥新發(fā)病例。腫瘤不是瞬間產(chǎn)生的[2],腫瘤細(xì)胞的分類增殖存在一個相對較長的演變時期。因此,這種在基因?qū)用鎸δ[瘤進(jìn)行早期識別的研究[3],對患者的治療具有重大意義[4-5]。
由于腫瘤基因表達(dá)數(shù)據(jù)是一種典型的不平衡數(shù)據(jù)[6-7],使之很難直接應(yīng)用于腫瘤的分類診斷[8-9]。因此本文提出了一種基于Weka平臺和代價敏感特征選擇的基因表達(dá)數(shù)據(jù)分類方法[10]用于解決這類基因表達(dá)數(shù)據(jù)分布不平衡的分類問題[11-12]。該方法彌補(bǔ)了分類器只注重分類精度的片面性,并且它的合理性在于通過引入代價敏感而尋求總體的最小代價,而不是僅僅擁有精度最高這個特性。通常在代價敏感學(xué)習(xí)中,對于一個N分類問題,用
本文實驗從Kent Ridge Biomedical Data Set數(shù)據(jù)庫中選取兩個類別,共計六個小組的腫瘤樣本數(shù)據(jù),分別為神經(jīng)系統(tǒng)疾病NervSys(central nervous system embryonal tumor)、結(jié)腸癌(colon cancer)、彌漫性大B細(xì)胞瘤(DLBCL)、卵巢癌(ovarian cancer)、前列腺癌(prostate cancer)和肺癌(lung cancer)。數(shù)據(jù)集的詳細(xì)描述見表1。
表1 實驗數(shù)據(jù)集描述
本文實驗基于Windows 平臺完成和實現(xiàn)。為了消除不同量綱對實驗結(jié)果的影響,實驗過程中,我們首先通過Weka平臺[13-14]對實驗數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化預(yù)處理,使數(shù)據(jù)分析更加準(zhǔn)確,然后選擇本文提出的代價敏感特征選擇方法(cost sensitive attribute eval),使用特征選擇的搜索函數(shù)Ranker來調(diào)整信息基因個數(shù),并且通過支持向量機(jī)(SVM)、K近鄰(IBK)、樸素貝葉斯(NB)和隨機(jī)森林(RF)這4種分類器對數(shù)據(jù)進(jìn)行分類得到的分類準(zhǔn)確率來評估該方法的有效性。在實驗過程中均使用Weka平臺中分類器的默認(rèn)參數(shù)。具體實驗流程見圖1。
圖1 實驗流程圖
表2為4種分類器在6組兩類別的腫瘤樣本數(shù)據(jù)的分類準(zhǔn)確率,表中Std表示在原始實驗數(shù)據(jù)[15]上只執(zhí)行標(biāo)準(zhǔn)化處理后就進(jìn)行4種分類器的分類建模,本文方法即通過代價敏感特征選擇[16]處理后再進(jìn)行4種分類器的分類建模。
表2 4 種分類器在6 個數(shù)據(jù)集上的分類準(zhǔn)確率對比
為了方便對比,本文實驗選擇的信息基因數(shù)分別為3、4、5、6,選擇4種分類器中最高分類準(zhǔn)確率作為最終評價值。具體實驗結(jié)果見表2。
從圖2可以看出,六組數(shù)據(jù)直接在只進(jìn)行標(biāo)準(zhǔn)化預(yù)處理后,在SVM、IBK、NB和RF分類器評估分類性能時,大部分分類準(zhǔn)確率較低。但是通過本文實驗方法得到的分類準(zhǔn)確率大部分高于只進(jìn)行標(biāo)準(zhǔn)化預(yù)處理的分類準(zhǔn)確率,這在一定程度上說明了本文提出的代價敏感特征選擇方法的有效性。
圖2 4 種分類器在6 個數(shù)據(jù)集上的分類準(zhǔn)確率對比
為了更直觀地表明本文方法在提高分類準(zhǔn)確率上的優(yōu)良性能,實驗還對比分析了其他兩種流行特征選擇方法的分類準(zhǔn)確率。包括SUAE(symmetrical uncert atrribute eval)根據(jù)屬性的對稱不確定性評估屬性和CA(correlation attribute)通過測量特征與類別之間的皮爾遜(Pearson's)相關(guān)性評估基因的價值。具體實驗結(jié)果見表3。
表3 3 種方法在6 個數(shù)據(jù)集上的最優(yōu)分類準(zhǔn)確率
從圖3可以看出,對比SUAE和CA的特征選擇方法在六組數(shù)據(jù)的最優(yōu)分類準(zhǔn)確率,本方法也獲得了相對更好的分類準(zhǔn)確率,進(jìn)一步有力地證明了該方法具有良好的特征選擇效果,能夠針對腫瘤基因表達(dá)數(shù)據(jù)獲取較高的分類性能。
圖3 3 種方法在6 個數(shù)據(jù)集上的最優(yōu)分類準(zhǔn)確率
本文提出的基于Weka平臺和代價敏感特征選擇的基因表達(dá)數(shù)據(jù)分類方法可以有效地解決腫瘤基因表達(dá)數(shù)據(jù)不平衡數(shù)據(jù)的分類問題,大幅度提高分類準(zhǔn)確率,但仍存在一些不足和缺陷[17],如分類過程中真實的誤分類代價很難通過人為經(jīng)驗進(jìn)行準(zhǔn)確估計。由于此方法本身的性能指標(biāo)與代價參數(shù)設(shè)置等方面存在一定空缺,可能會導(dǎo)致其最終的分類結(jié)果存在相對較強(qiáng)的主觀性而不夠客觀,因此代價敏感算法[18]仍有繼續(xù)完善優(yōu)化的空間。通過改變一些相關(guān)代價參數(shù)從而進(jìn)一步改進(jìn)本文方法等方式,都是今后的研究方向。