宋紅勝,孔 薇
(上海海事大學(xué) 信息工程學(xué)院,上海 201306)
自Golub等于1999年開創(chuàng)了基于基因表達(dá)譜的腫瘤分類領(lǐng)域以來,研究者已經(jīng)提出許多基于基因表達(dá)譜的分類方法,這一領(lǐng)域也迅速成為生物信息學(xué)的主要研究方向之一,如,人 工 神 經(jīng) 網(wǎng) 絡(luò) (Artificial Neural Network,ANN)、 貝 葉 斯(Bayesian)、決策樹(Decision Tree)和支持向量機(jī)機(jī)(Supporting Vector Machine,SVM)等經(jīng)典的分類器。由于微陣列數(shù)據(jù)集高維、小樣本和高噪聲等特點(diǎn),對建立高精度的分類模型提出了挑戰(zhàn),而且基于實(shí)驗(yàn)表明不同的分類器對同一數(shù)據(jù)集分類效果不同,即使對同一數(shù)據(jù)集運(yùn)用同一種分類器分析,隨著提取特征基因的不同,實(shí)驗(yàn)結(jié)果會有很大差別。因此,為了提高分類模型的分類性能、穩(wěn)定性以及泛化能力,研究人員把很多分類器集成起來,并采用某種決策策略對多個分類器的分類結(jié)果進(jìn)行判定以決定最終的分類結(jié)果。
自從Sebestyen于1962年在其書中提出層疊多分類器集成系統(tǒng)的設(shè)計(jì)思路以來,集成分類系統(tǒng)的研究直到90年代才受到重視,許多學(xué)者也紛紛加入對其的研究,如Hansen和Salamon通過投票法將所有的神經(jīng)網(wǎng)絡(luò)結(jié)合起來解決問題,發(fā)現(xiàn)其性能比最好的個體神經(jīng)網(wǎng)絡(luò)的性能還好[1];Schapire也在自己的論文中證明了通過構(gòu)建多分類器集成系統(tǒng),弱分類器可以與強(qiáng)分類器等價[2];并且研究者也設(shè)計(jì)不少優(yōu)秀的集成系統(tǒng)算法,如 Bagging、Boosting、AdaBoost、Random Forest、Rotation Forest、Wagging和Arcing等,這些方法已經(jīng)被廣泛應(yīng)用于生物信息學(xué)等各個領(lǐng)域中。
從不同的角度可以得到不同的集成分類器方法,由于這些方法所選擇的分類特征不同,因此分類器本身就具有差異性,在獨(dú)立成分分析集成算法中獨(dú)立分量的選擇的標(biāo)準(zhǔn)有很多,在Liu提出基于獨(dú)立分量集成方法的論文中,是利用遺傳算法提取獨(dú)立分量[3],而本文中對獨(dú)立分量系數(shù)矩陣A的hinton圖進(jìn)行生物學(xué)分析比較,選取獨(dú)立分量。
為了得到差異性就大的分類器,文中選取不同方法進(jìn)行特征基因選擇,并對選取的特征基因集進(jìn)行ICA變換,以獲得一組獨(dú)立分量集,隨之根據(jù)矩陣A選擇出一組較優(yōu)的獨(dú)立分量集。為了比較算法,本文還構(gòu)建基于PCA和NMF的集成系統(tǒng),該算法框架與集成獨(dú)立分量選擇系統(tǒng)相同。
分類器集成比單個分類器更有效的充分必要條件不僅是集成中的分類器的精確性而且是其錯誤差異性,因此,對于初始數(shù)據(jù)的特征提取與選擇方法是一個重要環(huán)節(jié),它的優(yōu)劣將極大影響著分類器的設(shè)計(jì)和性能。
原始DNA微陣列數(shù)據(jù)不可避免包括大量的實(shí)驗(yàn)隨機(jī)誤差和系統(tǒng)誤差,所以為了反映生物本質(zhì)的分類結(jié)果,在進(jìn)行基因表達(dá)譜分類之前必須進(jìn)行去噪處理。文中分類系統(tǒng)中選用小波包對數(shù)據(jù)進(jìn)行去噪[4]。小波包變換(Wavelet Packet Transform,WPT)的概念是由Wickethauser M V和Cnifinan R R等人在小波變換的基礎(chǔ)上進(jìn)一步提出來的,小波包分析屬于線性時頻分析法,它具有良好的視頻定位特性以及對信號的自適應(yīng)能力,因而能夠?qū)Ω鞣N時變信號進(jìn)行有效的分解。
特征基因初選可以基于統(tǒng)計(jì)分析來選取相關(guān)基因,即對原始基因集合基于某種記分準(zhǔn)則對基因進(jìn)行排序,基因分值大小反映了基因的重要程度和分類能力,設(shè)定一定的閾值選取對基因表達(dá)譜分類具有較大貢獻(xiàn)的信息基因。常用的基因特征記分準(zhǔn)則有:
2)修訂的特征記分準(zhǔn)則(Revised Feature Score Criterion,RFSC):
3)Fisher判別(Fisher Discriminant Ratio,F(xiàn)DR):
在的初選基因集合后,需要對其進(jìn)一步特征提取和選擇,常用的特征提取方法主分量(Principal Component Analysis,PCA)、因子分析(Factor Analysis,F(xiàn)A)、獨(dú)立分量分析(Indepen-Dent Component Analysis,ICA)、非負(fù)矩陣分解(Non-gegative Matrix Factorization,NMF)和線性判別分析(Linear Discriminant analysis,LDA)等,筆者使用PCA、NMF和 ICA對初選基因集進(jìn)行變換,以獲得分量,接著運(yùn)用下面方法從該分量集選擇出一組較優(yōu)的分量子集,每個分量子集分別用于基分類器的訓(xùn)練,從而獲得一組基分類器。
1.3.1 基于PCA的分量選擇
PCA作為多元統(tǒng)計(jì)分析中應(yīng)用廣泛的數(shù)據(jù)降維方法,是一種基于目標(biāo)統(tǒng)計(jì)特性的最優(yōu)正交變換,其目的是尋找任意統(tǒng)計(jì)分別的數(shù)據(jù)集合中的主要分量的子集[6]。選擇主分量的方法如下:
1)對矩陣X中的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理(即使均值為0,方差為1),所得到的標(biāo)準(zhǔn)化后的矩陣為X1,計(jì)算矩陣X1的相關(guān)系數(shù)矩陣R;
3)根據(jù)特征值,選擇ω個主分量,從而達(dá)到特征提取的目的。
1.3.2 基于NMF的分量選擇
NMF是由Lee和Seung于1999年在《Nature》上提出的[7],NMF是在矩陣中所有元素均為非負(fù)數(shù)約束條件之下的矩陣分解方法,它的基本思想是將一個非負(fù)矩陣近似分解為兩個非負(fù)矩陣的乘積,來反映數(shù)據(jù)潛在的線性結(jié)構(gòu),數(shù)學(xué)描述為:對于非負(fù)矩陣 Vm×n,近似分解為非負(fù)矩陣 Wm×k與 Hk×n的乘積,即:V≈WH,其中k已知或未知,W為基矩陣,H為系數(shù)矩陣,且這兩個矩陣必須都是非負(fù)的。從生物意義上看,經(jīng)過非負(fù)分解所得W的每一列可以對應(yīng)著某一生物過程,矩陣V的每一項(xiàng)可以看成對應(yīng)的基因在各生物過程中表達(dá)模式的加權(quán)和,權(quán)向量即為H的對應(yīng)列,H矩陣之所以能區(qū)分樣本的不同屬性是由于集合基因在每一個樣本中表達(dá)值有差異。因此,可根據(jù)W矩陣提取分量,具體方法如下[8]:
1)確定k值,再運(yùn)用NMF算法對基因表達(dá)數(shù)據(jù)進(jìn)行分解,k值由最大的共表型相關(guān)系數(shù)對應(yīng)的k值來確定;
2)將W矩陣的各個列分別兩兩求商,并用一個矩陣S保存結(jié)果,將S矩陣各列的值按照從大到小的順序進(jìn)行排列,值越大的基因表明它在正常組織與疾病組織中差異表達(dá)越明顯;
3)設(shè)定合適的閾值,提取一定數(shù)量的顯著差異表達(dá)基因,組成子基因集。
1.3.3 基于ICA的分量選擇
ICA的概念是由法國學(xué)者Jutten和Herault J等人于1986年提出[9],最初是用來解決盲源信號分離(BSS)問題,其基本思想是在特種空間上尋找最能使的數(shù)據(jù)互相獨(dú)立的方向。對應(yīng)的混合與分離模型可用以下公式表示:
X=AS;U=S=A-1X=WX, 其中 Xn×p是基因表達(dá)譜矩陣,Sn×p稱為n個獨(dú)立成分 (Independent Component,IC), 表示源矩陣,即每一行變量即為相應(yīng)的獨(dú)立分量,而An×n為混合矩陣,可以描述為基因表達(dá)數(shù)據(jù)集X是一個獨(dú)立分量集S與一個未知的線性混合矩陣A的線性混合?;旌暇仃嘇中各列的值是一個值得研究的問題,而且可能揭示一些隱含的生物特征,文中將對混合矩陣A從生物意義上來分析,提出一種基于混合矩陣A的Hinton圖 (一種對矩陣權(quán)重進(jìn)行可視化的方法)選擇獨(dú)立分量子集的方法。從生物意義角度來看,經(jīng)ICA變換所得的S矩陣每一行為一個獨(dú)立成分,每一列表示一個樣本,X每列為一個樣本,也可看成是一組信息基因(獨(dú)立成分)的線性組合,而混合矩陣A的每列的值確定這種線性組合的系數(shù)。因此,A矩陣之所以能區(qū)分樣本的不同屬性是由于不同的獨(dú)立成分在每個樣本中表達(dá)值不同,即線性組合時系數(shù)的不同,因此,認(rèn)為由于基因?qū)€獨(dú)立成分的數(shù)值上貢獻(xiàn)的不同,導(dǎo)致了獨(dú)立成分在不同的樣本中表達(dá)值不同。對獨(dú)立成分貢獻(xiàn)有明顯差異的基因,被認(rèn)為是與疾病發(fā)生有密切關(guān)系的差異表達(dá)基因。提取獨(dú)立分量得具體方法如下:
從表7可以看出,錫石多金屬硫化礦主要礦石礦物的吸波能力存在顯著差異,其中,脆硫銻鉛礦的吸波能力最強(qiáng),其次是黃鐵礦,再次是錫石,閃鋅礦和脈石礦物的吸波能力最差。因此,錫石多金屬硫化礦主要礦石礦物的吸波能力差異奠定了錫石多金屬硫化礦的微波選擇性加熱的基礎(chǔ)。
1)對初選的基因表達(dá)譜數(shù)據(jù)進(jìn)行初始值不同的ICA變換;
2)根據(jù)混合矩陣A的Hinton圖選取獨(dú)立分量;
3)設(shè)定合適閾值,提取特征基因。
集成分類器比單個優(yōu)秀的分類器更加有效,主要原因是組成集成分類器之間的差異性,即它們產(chǎn)生的錯誤分布在不同的數(shù)據(jù)空間中,一個分類器產(chǎn)生的錯誤能夠被集成系統(tǒng)中其他分類器補(bǔ)償,集成才有效[10],因此,可以先生成大量基分類器,然后選擇其中部分基分類器集成。圖1為基于集成分量的分類系統(tǒng)流程圖,首先對訓(xùn)練集預(yù)處理后,按某種準(zhǔn)則對基因排序,進(jìn)行降維,隨后對初選集進(jìn)行PCA、NMF或ICA變換,使用上文的方法選取分量子集訓(xùn)練基分類器。為了增大基分類器之間的差異性,還構(gòu)建了混合集成分量分類系統(tǒng),此系統(tǒng)和集成分量系統(tǒng)主要差別是對同一訓(xùn)練集,采用不同的變換方法,將生成不同的初選集,然后對這些初選集進(jìn)行變換,這樣得到的基分類器會有很大的差異度,直接集成這些分類器可以構(gòu)造一個穩(wěn)定的集成分類系統(tǒng),具體流程如圖2所示。
文中實(shí)驗(yàn)使用GEO數(shù)據(jù)庫上兩個基因表達(dá)譜數(shù)據(jù):GDS 2519(早期帕金森癥數(shù)據(jù)集)和GDS2771(肺癌數(shù)據(jù)集),對于這些數(shù)據(jù)集中,所有樣本都預(yù)先被劃分為訓(xùn)練樣本和測試樣本,文中每次隨機(jī)將數(shù)據(jù)集劃分為2:1的比例,其中1/3樣本作為測試數(shù)據(jù),另外2/3樣本作為訓(xùn)練集合。
圖1 集成分類系統(tǒng)Fig.1 Ensemble classification system
圖2 混合集成分類系統(tǒng)Fig.2 Mix-ensemble classification system
1)對于單個分類器,集成分類的方法獲得的分類準(zhǔn)確率更高,對于不同的數(shù)據(jù)集,不同的集成分量方法得到的結(jié)果會有所差異,如在表中,數(shù)據(jù)集GDS2519的EICA方法比ENMF和EPCA效果更好,但在數(shù)據(jù)集GDS2771中情況有所不同,如在對GDS2771數(shù)據(jù)進(jìn)行FDR和RFSC特征提取后的集成結(jié)果顯示,ENMF比EICA準(zhǔn)確率更高。如果將EPCA與EICA的結(jié)果相比,顯然EICA在兩個數(shù)據(jù)集上都獲得了明顯優(yōu)于EPCA的結(jié)果,其原因是,相對于PCA,ICA更適合基因表達(dá)譜的分析。
2)對同一數(shù)據(jù),不同的特征提取方法得到的結(jié)果也有所不同,在單個分類系統(tǒng)中,SAM方法都獲得相對較高的結(jié)果,在同一種集成分量的方法中,SAM方法也獲得了相對較高的結(jié)果。
3)對于混合集成分類系統(tǒng),可能其分類的準(zhǔn)確率不一定高于集成分量系統(tǒng),但比較它們的標(biāo)準(zhǔn)差,我們可以發(fā)現(xiàn),單個分類器的準(zhǔn)確率的值浮動很大,集成分量系統(tǒng)的值浮動較小,混合集成系統(tǒng)的準(zhǔn)確率浮動最小,這是由于在集成分量系統(tǒng)中,訓(xùn)練基分類器的初選集是由同一種方法變換得到的,基分類器之間的差異性并不是很大,而混合集成分量系統(tǒng)中的訓(xùn)練基分類器的初選集是由不同準(zhǔn)則變換得到的,由此獲得的分量子集差別較大,因此,訓(xùn)練得到的基分類器差別也較大,這樣在準(zhǔn)確率方面,相互之間可以彌補(bǔ),從而構(gòu)造一個穩(wěn)健的集成系統(tǒng)。
表1 分類結(jié)果Tab.1 Results of classifiction
實(shí)驗(yàn)數(shù)據(jù)表明集成分量系統(tǒng)可以提高微陣列數(shù)據(jù)在分類問題中的準(zhǔn)確性,其分類準(zhǔn)確性優(yōu)于單個分類器。文中構(gòu)建的不同種類集成分量系統(tǒng)具備一定的可行性,對于篩選差異表達(dá)基因的方法還可以嘗試更多有效的方法,對于混合集成分量系統(tǒng),如何構(gòu)造一個準(zhǔn)確率高而且穩(wěn)健的集成系統(tǒng),則有待進(jìn)一步的深入探討。
[1]Hansen L K,Salamon P.Nenral network ensembles[J].IEEE Transactions on Pattern Analysis and Machine Inteligence.1990,12(10):993-1001.
[2]Schapire R E.The strength of weak learnability[J].Machine Learning.1990,5(2):197-227.
[3]LIU Kun-hong,LI Bo,ZHANG Jun,et al.Ensemble component selection for improving ICA based microarray data prediction model[J].Pattern Recognition,2009(42):1274-1283.
[4]YANG Yong-ming,LU Cheng-hong.The application of wavelet packet analysis in getting rid of noise in one-way and twoways signals[J].Xi’an Univ.of Arch.&Tech,2004(36):3.
[5]Tusher V G,Tibshirani R,Chu G.Significance analysis of microarrys applied to the ionizing radiation response[J].PNAS,2001,98(9):5116-5121.
[6]YOU Wen-jie,JI Guo-li,YUAN Ming-shun.Feature reduction on high-dimensional small-sample data[J].Computer Engineering and Applications,2009,45(36):165-169.
[7]Lee D D,Seung H S.Learning the parts of objects by nonnegative matrix factorization[J].Nature,1999(401):788.
[8]杜芳,饒妮妮.基于非負(fù)矩陣因子分解算法提取胃癌差異表達(dá)基因[EB/OL].(2009-04-08).http://www.paper edu.cn/index.php/default/releasepaper/comment_paper/200904-253.
[9]Herault J,Jutten C.Space or time adaptive signal processing by neural network models[C]//AIP Conference Proceedinys,1986(151):206-211.
[10]LIU K H,HUANG D S,ZHANG J.Microarraydata prediction by evolutionary classifier ensemble system[C]//IEEE Congress on Evolutionary Computation (CEC),Singapore,2007:3215-3220.