胡 洋 李 波
(武漢科技大學計算機科學與技術學院 湖北 武漢 430065) (智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室 湖北 武漢 430065)
?
基于Fisher準則和多類相關矩陣分析的腫瘤基因特征選擇方法
胡洋李波
(武漢科技大學計算機科學與技術學院湖北 武漢 430065) (智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室湖北 武漢 430065)
摘要腫瘤特征基因的選擇是腫瘤基因表達數(shù)據(jù)分類的研究熱點之一。針對傳統(tǒng)的腫瘤特征基因選擇方法無法很好地剔除冗余基因,提出一種混合型的特征選擇方法。在所提出的方法中,首先將標簽相同的樣本劃分到同一個矩陣,在所有矩陣中,當且僅當特征間的相關系數(shù)均大于特定閾值時,即判定這幾個特征是相關特征,并對這些相關的特征進行聚類。然后在每個聚類中選擇Fisher比最大的特征,對這些特征根據(jù)評價函數(shù)篩選得到最優(yōu)特征子集。最后采用SVM分類器對這些最優(yōu)特征子集進行類別預測。在四個標準的腫瘤DNA微陣列數(shù)據(jù)集的測試結果證明所提出的腫瘤基因特征選擇方法的穩(wěn)定性和高效性。
關鍵詞特征選擇Fisher準則多類相關矩陣分析SVM
0引言
隨著生物信息技術的飛速發(fā)展,生物數(shù)據(jù)——如DNA微陣列數(shù)據(jù)被廣泛地應用于腫瘤基因的鑒別,有效地分析和處理這些高維數(shù)據(jù)能為腫瘤疾病的診斷提供輔助。
對于DNA微陣列數(shù)據(jù)集,考慮到采集腫瘤樣本的成本很高,所以采集的樣本數(shù)量相對較少,因此樣本的基因數(shù)遠遠大于樣本的個數(shù),造成的高維小樣本問題對基于機器學習的方法來預測腫瘤亞型帶來了挑戰(zhàn)。常用的腫瘤基因表達數(shù)據(jù)的降維方法主要包括特征提取和特征選擇,特征提取與選擇方法的優(yōu)劣極大地影響著分類效果[1]。
為了提高分類效率,各種各樣的特征選擇方法被提出。按照特征子集的形成方式,特征選擇的方法分為窮舉法、啟發(fā)法和隨機法三類[2]。窮舉法指遍歷特征空間的所有特征組合,選取最優(yōu)特征組合的方法,其優(yōu)點是一定能尋找到最優(yōu)特征子集,但是計算復雜度巨大。啟發(fā)式方法為一種近似算法,具有很強的主觀傾向,方法簡單快速,應用廣泛,如向前(向后)選擇、 決策樹法[3]、Relief方法[4]及其變體[5,6]等,但是不一定能得到最優(yōu)解。隨機方法是一種很新的方法,有完全隨機和概率隨機兩種,這類方法的參數(shù)設置是一個值得研究的問題。但是,這些傳統(tǒng)的特征選擇方法在剔除冗余基因時,僅僅依據(jù)特征間的相關性,并沒有考慮到特征在不同類別間的差異性,造成有一些與腫瘤高度相關的基因被剔除掉,影響了最終腫瘤亞型的預測效果。
因此,本文提出一種混合型的特征選擇方法,綜合考慮多類相關矩陣。首先按照樣本所屬的類別對基因矩陣進行劃分,計算劃分矩陣的相關矩陣,然后對冗余基因聚類,從每個聚類中選擇類間方差和類內方差之比最大的特征,將得到的特征組合成新的基因矩陣,最后對剔除冗余基因后的矩陣篩選得到最優(yōu)特征子集。
1方法
本文目的是在高維的基因集合中選擇最有利于分類結果的基因子集,然后對選擇的基因子集用支持向量機(SVM)方法分類測試。對于腫瘤DNA微陣列數(shù)據(jù)矩陣,它的每一行代表一個樣本,每一列代表一個基因的表達數(shù)據(jù),受實驗環(huán)境和實驗成本等因素的限制,DNA微陣列數(shù)據(jù)普遍含有噪聲數(shù)據(jù)和冗余基因,而且具有高維、小樣本等特點,如神經(jīng)膠質瘤(Gliomas)[7]數(shù)據(jù)的DNA微陣列數(shù)據(jù)由50個樣本組成,每個樣本含有12 625個基因。
一般地,鑒別能力較強的特征的類間離差與類內離差的比值較大,本文采用Fisher比作為度量準則。
1.1Fisher準則
(1)
(2)
用式(1)計算基因矩陣每列的Fisher比,然后將基因矩陣的列按照Fisher比值從大到小重新排列,得到新的基因矩陣。
相關矩陣是統(tǒng)計學中用來度量向量間相關性的一種方法,下面用相關矩陣度量特征間的冗余度。
1.2相關矩陣
設A=(x1,x2,…,xn)是一個m×n的矩陣,xi與xj的相關系數(shù)為ρij,則以ρij為元素的n階方陣稱為矩陣A的相關矩陣[9],即:
(3)
其中:
(4)
1.3結合樣本標簽的相關性度量準則
本文方法主要用來處理腫瘤基因分類中的二分類問題,在剔除冗余特征這一步,假設特征間的相關系數(shù)越大,則冗余度越大。在度量特征間的冗余度時根據(jù)樣本的類別標簽,將原樣本矩陣劃分為兩個矩陣,依次求出得到的兩個矩陣的相關矩陣,同時分析這些相關矩陣,當且僅當特征間的相關系數(shù)在這兩個相關矩陣中均大于0.8時,才認為這些特征是相關的。通過對相關矩陣分析剔除數(shù)據(jù)集的冗余特征,對剔除冗余后的新樣本矩陣,根據(jù)設計的評價函數(shù)選擇最優(yōu)特征,最終得到最優(yōu)特征子集?,F(xiàn)將具體算法描述如下:
算法1最優(yōu)子集生成算法
輸入:基因矩陣G,規(guī)模為m×n,由m個樣本組成,每個樣本含n個基因;樣本的標簽L=[L1,L2,…,Lm],Li=±1(i=1,2,…,m)。
輸出: 特征子集F。
算法:
第1步:特征重排
1.1 根據(jù)公式(1)計算矩陣G的每一列的Fisher比值;
1.2 將矩陣G的列按照Fisher比值從大到小的順序重新排列;
第2步:樣本分割
2.1 根據(jù)樣本標簽L將矩陣G劃分為兩類,記為A和B,分別表示腫瘤樣本矩陣和正常樣本矩陣。
第3步:剔除冗余
3.1 根據(jù)公式(3)計算矩陣A,B的相關矩陣,記為R1,R2;
3.2 將R1,R2的下三角陣及對角線元素設為0,對其他元素取絕對值;
3.3 從矩陣R1,R2的第1行開始,依次找出該行中元素的值同時超過0.8的元素,并將R1,R2中與這些元素在同一列的所有元素更新為0;
3.4 將矩陣R1的對角線元素改為1,找出矩陣R1中列和為0的所有列的索引,在矩陣G中將這些列刪除;
第4步:特征選擇
4.1 將G的第1列加入F,用SVM分類器對F中的m個樣本留一法交叉驗證實驗m次取平均精度記為acc;
4.2 循環(huán)將G的下一列加入F,同樣用4.1的方法得到精度acc′,若acc′>acc,令acc=acc′,否則從F中刪除新加入的這一列,循環(huán)直到acc=1或遍歷至G的最后一列;
第5步:最優(yōu)子集
5.1 輸出最優(yōu)特征子集F。
2實驗結果與分析
在這一節(jié),我們將用原特征分類方法,啟發(fā)法(Wrapper方法)[2]和本文方法分別對四個公開發(fā)表的腫瘤DNA微陣列數(shù)據(jù)集做測試,實驗工具為matlab 2012a,分類器選用matlab自帶的SVM分類器,分類器的核函數(shù)選擇線性核。
這四個數(shù)據(jù)集分別是急性白血病(Leukemia)數(shù)據(jù)集[10],神經(jīng)膠質瘤數(shù)據(jù)集[7],彌漫性大B細胞淋巴瘤(DLBCL)數(shù)據(jù)集[11]和結腸癌(Colon)數(shù)據(jù)集[12]。這幾個數(shù)據(jù)集均具有高維和小樣本的特征,樣本均僅含兩類,具體介紹如表1所示。
表1 實驗數(shù)據(jù)集
表2給出了用這三種方法對這四個數(shù)據(jù)集進行留一法交叉驗證(LOO-CV)的實驗表現(xiàn)。
表2 不同數(shù)據(jù)留一交叉驗證(LOO-CV)結果(%)
將樣本按根據(jù)表3的方法劃分為訓練集和測試集,在所有樣本中選擇1/3做測試集,余下2/3做訓練集,保證訓練集和測試集中兩類樣本數(shù)量的比例大致相同。
表3 樣本訓練集和測試集劃分方法
將表1中的四個數(shù)據(jù)集的樣本按照表3的方法劃分訓練集和測試集,然后分別用這三種方法測試,實驗得到的準確率(Accuracy)和F指標(F1-Score)[13]見表4所示。
表4 樣本按表3劃分訓練集和測試集的實驗結果(%)
從表2可以看出,用三種方法分別對這四個數(shù)據(jù)集進行留一法交叉驗證,本文方法的表現(xiàn)優(yōu)于Wrapper方法和原始特征分類方法,并且該實驗結果不存在隨機性,證明了本文方法實驗表現(xiàn)效果較好。
從表4可以看出,對于數(shù)據(jù)集Leukemia,DLBCL和Colon,本文方法的分類準確率和F指標較高,對于數(shù)據(jù)集Gliomas,本文方法的分類準確率和F指標略低于Wrapper方法。因此,綜合考慮表2和表4的實驗結果可以看出,本文方法在不同的數(shù)據(jù)集上表現(xiàn)都同樣穩(wěn)定,而且分類的準確率也比較高,從而證明該方法的有效性。
3結語
DNA微陣列數(shù)據(jù)為腫瘤疾病的診斷開辟了新的思路,受實驗環(huán)境和實驗成本等因素的限制,DNA微陣列數(shù)據(jù)普遍含有噪聲數(shù)據(jù)和冗余基因,而且具有高維、小樣本等特點,這些特點使得傳統(tǒng)的機器學習算法無法在微陣列數(shù)據(jù)上發(fā)揮高效的作用。本文提出了一種混合型的特征選擇的方法,并將該方法應用于高維腫瘤DNA微陣列數(shù)據(jù)的分類,對于高維的腫瘤基因數(shù)據(jù),基因之間必然存在冗余性和不相關性,剔除冗余基因能大大降低矩陣的維數(shù)。本文方法在剔除冗余基因的時候獨創(chuàng)性地考慮了樣本的標簽,綜合分析多類相關矩陣以剔除冗余特征,最終通過評價函數(shù)篩選得到最優(yōu)特征子集。通過實驗結果可以看出,本文提出的方法是有價值的。
參考文獻
[1] 李波.基于流形學習的特征提取方法及其應用研究[D].安徽:中國科學技術大學,2008.
[2] 王娟,慈林林,姚康澤.特征選擇方法綜述[J].計算機工程與科學,2005,27(12):68-71.
[3] 張琳,陳燕,李桃迎.決策樹分類算法研究[J].計算機工程,2011,37(13):66-70.
[4] 張翔,鄧趙紅,王士同.極大熵Relief特征加權[J].計算機研究與發(fā)展,2011,48(6):1038-1048.
[5] Zhang F P,Qiu Z G,Feng X T.Non-complete Relief Method for Measuring Surface Stresses in Surrounding Rocks[J].J.Cent.South Univ,2014,21(9):3665-3673.
[6] 范文兵,王全全,雷天友.基于Q-relief的圖像特征選擇算法[J].計算機應用,2011,31(3):724-728.
[7] Nutt C L,Mani D R,Betensky R A.Gene Expression-Based Classification of Malignant Gliomas Correlates Better with Survival than Histological Classification[J].Cancer Res,2003,63(7):1602-1607.
[8] 鮮曉東,樊宇星.基于Fisher比的梅爾倒譜系數(shù)混合特征提取方法[J].計算機應用,2014,34(2):558-561.
[9] 章舜仲,王樹梅.相關系數(shù)矩陣與多元線性相關分析[J].大學數(shù)學,2011,27(2):195-198.
[10] Golub T R,Slonim D K,Tamayo P.Molecular Classification of Cancer:Class Discovery and Class Prediction by Gene Expression Monitoring[J].Science,1999,286(15):531-537.
[11] Alizadeh A A,Eisen M B,Davis R E.Distinct types of diffuse large B-cell lymphoma identified by gene expression pmrdillg[J].Nature,2000,403(6769):503-511.
[12] Alon U,Barkai N,Notterman D A.Broad Patterns of Gene Expression Revealed by Clustering Analysis of Tumor and Normal Colon Tissues Probed by Oligonucleotide Arrays[J].Proc Natl Acad Sci USA,1999,96(12):6745-6750.
[13] 劉誠.蛋白質相互作用界面中熱點殘基預測方法的研究[D].湖北:武漢科技大學計算機科學與技術學院,2012.
收稿日期:2014-11-25。國家自然科學基金項目(61273303,6127 3225,61373109);中國博士后科學基金項目(20100470613,201104173);湖北省自然科學基金項目(2010CDB03302);湖北省教育廳科研基金項目(Q20121115);模式識別國家重點實驗室開放課題(201104212)。胡洋,碩士生,主研領域:生物信息學,機器學習。李波,副教授。
中圖分類號TP181
文獻標識碼A
DOI:10.3969/j.issn.1000-386x.2016.07.018
A FEATURE SELECTION METHOD FOR TUMOUR GENE BASED ON FISHER CRITERION AND MULTICLASS CORRELATION MATRIX ANALYSIS
Hu YangLi Bo
(SchoolofComputerScienceandTechnology,WuhanUniversityofScienceandTechnology,Wuhan430065,Hubei,China) (HubeiKeyLaboratoryofIntelligentInformationProcessingandReal-timeIndustrialSystem,Wuhan430065,Hubei,China)
AbstractThe selection of tumour feature gene is one of the hot research topics in classification of gene expression data. In this paper, we propose a hybrid feature selection method aiming at that traditional tumour feature gene selection method cannot well remove the redundant genes. In the method, first we divide the samples with same labels into same matrix, and in all the matrixes, if and only if the correlation coefficients between the features are all greater than the specific threshold, then these features are regarded as the relevant features and will be clustered afterwards. Secondly, we select the features with maximum Fisher ratio from every cluster and sift these features according to evaluation function to obtain the optimal feature subsets. Finally, we use SVM classifier to do class prediction on these optimal feature subsets. The results of tests on four standard tumour DNA microarray datasets prove the stability and efficiency of the proposed method.
KeywordsFeature selectionFisher criterionMulticlass correlation matrix analysisSVM