黃紫成,林增坦
(仰恩大學(xué)工程技術(shù)學(xué)院,福建泉州 362014)
微陣列技術(shù)是近年來(lái)生物信息領(lǐng)域出現(xiàn)的新興技術(shù),已被廣泛應(yīng)用于藥物研究、疾病診斷、基因測(cè)試等多個(gè)領(lǐng)域[1]。微陣列技術(shù)所呈現(xiàn)的數(shù)據(jù)以矩陣形式表示,也稱為基因表達(dá)數(shù)據(jù),當(dāng)前對(duì)微陣列的數(shù)據(jù)分析主要有差異表達(dá)分析、聚類分析、樣本分類、調(diào)控網(wǎng)絡(luò)、薈萃分析等。本文根據(jù)研究需要,重點(diǎn)進(jìn)行樣本分類分析,該分析是為了建立有效的疾病診斷,使用機(jī)器學(xué)習(xí)算法對(duì)微陣列數(shù)據(jù)進(jìn)行學(xué)習(xí),得出預(yù)測(cè)模型,進(jìn)而再對(duì)未知分類的表達(dá)數(shù)據(jù)進(jìn)行分類判別,為疾病的診斷及治療提供可靠的分類效果。由于微陣列數(shù)據(jù)存在著維數(shù)多而樣本少的問(wèn)題,如何有效地對(duì)基因數(shù)據(jù)進(jìn)行分析,選出具有特殊貢獻(xiàn)的特征基因,提高分類效率,是當(dāng)前基因數(shù)據(jù)樣本分類分析的研究熱點(diǎn)之一[2]。
目前,有越來(lái)越多的特征選擇算法應(yīng)用于微陣列數(shù)據(jù)的降維分析,并能得到好的分類效果,典型的算法有主成分分析(PCA)[3]、非負(fù)矩陣分解、獨(dú)立分量分析等,常用的分類算法有支持向量機(jī)(SVM)、貝葉斯分類等,把微陣列數(shù)據(jù)降維之后再采用支持向量機(jī)等分類器計(jì)算識(shí)別率,能得到較高準(zhǔn)確率。本文使用PCA與核PCA對(duì)微陣列數(shù)據(jù)進(jìn)行降維處理,再計(jì)算經(jīng)過(guò)這兩種算法處理過(guò)的識(shí)別率,對(duì)比分析運(yùn)用兩種算法處理微陣列數(shù)據(jù)效果的優(yōu)劣。
主成分分析是一種統(tǒng)計(jì)學(xué)方法,也是數(shù)據(jù)挖掘中常用的一種降維算法,它能在損失很少信息的前提下,把多個(gè)指標(biāo)轉(zhuǎn)化為幾個(gè)綜合指標(biāo),通常把轉(zhuǎn)化生成的綜合指標(biāo)稱之為主成分。
算法有如下幾個(gè)步驟[4]:
(3)求系數(shù)矩陣R的特征根與特征向量λ1≥λ2≥…≥λp>0,相應(yīng)正交特征向量為ai=[a1i,a2i,…,api]T,i=1,2,…,p.
(5)確定主成分個(gè)數(shù),目標(biāo)是用較少的主成分提取更多的原始信息,取決于k和α(k)之間的權(quán)衡。一方面,應(yīng)該使k盡可能?。涣硪环矫?,使累積貢獻(xiàn)率α(k)盡可能大。在實(shí)際使用中,通常取αk≥85%[4]。
核主成分分析是目前比較流行的一種新的特征提取方法,它是對(duì)PCA的非線性推廣,核函數(shù)的形式為k(xi,xj)=<φ(xi),φ(xj)>,其中,k函數(shù)為核函數(shù),<,>為內(nèi)積。算法簡(jiǎn)要步驟如下[5]。
(1)計(jì)算矩陣k(xi,xj);
(2)計(jì)算矩陣k(xi,xj)的m個(gè)特征值和特征向量;
(3)對(duì)m個(gè)特征向量進(jìn)行歸一化處理;
支持向量機(jī)(SVM)是以統(tǒng)計(jì)學(xué)理論為基礎(chǔ),根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則提出來(lái)的。支持向量機(jī)的分類實(shí)際是通過(guò)非線性的變換將輸入空間變換到一個(gè)高維的空間,接著在此新空間求最優(yōu)線性分類面,通過(guò)定義適當(dāng)內(nèi)積函數(shù)來(lái)實(shí)現(xiàn)這種非線性變換[6]。支持向量機(jī)主要有三種內(nèi)積函數(shù)。
(1)多項(xiàng)式形式的內(nèi)積函數(shù)K(x,xi)=[(x·xi)+1]q,經(jīng)計(jì)算得到的是一個(gè)以q階多項(xiàng)式為分離器的支持向量機(jī)。
(3)S形函數(shù)內(nèi)積K(x,xi)=tanh(v(x·xi)+c)。
本實(shí)驗(yàn)使用經(jīng)典的基因數(shù)據(jù)集Leukemia[7-8],該數(shù)據(jù)集包含了7129個(gè)基因,其中,訓(xùn)練集有38個(gè)樣本(27個(gè)ALL,11個(gè)AML),測(cè)試集有34個(gè)樣本(20個(gè)ALL,14個(gè)AML)。
在基因變量中,由于受條件限制,存在很多噪聲基因,這些基因會(huì)對(duì)分類結(jié)果產(chǎn)生干擾,在進(jìn)行特征選擇之前,需要先預(yù)處理,即基因篩選。本文選用的基因篩選方法是基因排序方法。計(jì)算各個(gè)基因的t值[9-11],具體公式如下:
實(shí)驗(yàn)環(huán)境為Win7 64bit 操作系統(tǒng),8GB內(nèi)存,Intel?Core i7,Matlab R2017a,SVM工具箱使用臺(tái)灣林智仁教授開(kāi)發(fā)的Libsvm[12]。支持向量機(jī)以徑向基BRF作為核函數(shù),利用數(shù)據(jù)集中訓(xùn)練集進(jìn)行訓(xùn)練,選取出一個(gè)最優(yōu)交叉驗(yàn)證準(zhǔn)確率,得到σ與懲罰參數(shù)C,構(gòu)造分類器模型。利用此模型對(duì)測(cè)試集進(jìn)行測(cè)試,計(jì)算識(shí)別率。在實(shí)驗(yàn)中利用PCA與核PCA將數(shù)據(jù)降維到低維,在進(jìn)行SVM分類識(shí)別,兩種特征選擇算法識(shí)別率如表1所示。經(jīng)過(guò)PCA降維之后,最優(yōu)識(shí)別率可以達(dá)到97.0588%,34個(gè)樣本中有33個(gè)被正確識(shí)別。
表1 PCA特征提取后識(shí)別率
表2 核PCA特征提取后識(shí)別率
圖1 PCA與KPCA在不同維數(shù)識(shí)別率比較
從表2可以看出,核PCA降維之后,效果不是很好,最優(yōu)的識(shí)別率只有52.9412%,34個(gè)測(cè)試樣本只有18個(gè)被正確識(shí)別。為了更直觀地對(duì)比兩種算法特征提取之后的識(shí)別率,畫出圖形如圖1所示。經(jīng)過(guò)PCA特征提取之后的識(shí)別率高于KPCA,這說(shuō)明PCA作為經(jīng)典降維算法應(yīng)用的廣泛性,對(duì)微陣列數(shù)據(jù)來(lái)說(shuō)亦是如此。微陣列數(shù)據(jù)經(jīng)過(guò)降維分析之后,提高了分類識(shí)別率,有利于醫(yī)學(xué)上對(duì)一些疾病的識(shí)別。
綜上所述,根據(jù)微陣列數(shù)據(jù)的特征,計(jì)算t值進(jìn)行篩選預(yù)處理,使用PCA與核PCA對(duì)數(shù)據(jù)進(jìn)行特征提取,利用基于徑向基BRF作為核函數(shù)的支持向量機(jī)進(jìn)行分類,計(jì)算分類識(shí)別率。實(shí)驗(yàn)結(jié)果表明,基于PCA降維處理之后其最優(yōu)識(shí)別率達(dá)到97.0588%,34個(gè)測(cè)試樣本有33個(gè)被正確識(shí)別,而核PCA效果不理想,最優(yōu)識(shí)別率只達(dá)到52.9412%。因此,針對(duì)微陣列數(shù)據(jù)高維小樣本的特點(diǎn),采用降維處理方法進(jìn)行分析可以提高分類的準(zhǔn)確性。
長(zhǎng)春師范大學(xué)學(xué)報(bào)2019年6期