基于信噪比與鄰域粗糙集的特征基因選擇方法

2015-05-04 05:34:01徐久成李玉惠

數(shù)據(jù)采集與處理 2015年5期

徐久成李濤孫林李玉惠

(1.河南師范大學(xué)計(jì)算機(jī)與信息工程學(xué)院,新鄉(xiāng),453007; 2.河南省高校計(jì)算智能與數(shù)據(jù)挖掘工程技術(shù)研究中心,新鄉(xiāng),453007)

徐久成1,2李濤1,2孫林1,2李玉惠1,2

鑒于傳統(tǒng)基因選擇方法會選出大量冗余基因從而導(dǎo)致樣本預(yù)測準(zhǔn)確率較低，提出了一種基于信噪比與鄰域粗糙集的特征基因選擇方法(Signal noise ration and the neighborhood rough set, SNRS)。首先采用信噪比指標(biāo)獲得分類能力較強(qiáng)的預(yù)選特征子集；然后利用鄰域粗糙集約簡算法對預(yù)選特征子集進(jìn)行尋優(yōu)；最后采用不同的分類器對特征基因子集進(jìn)行分類。通過實(shí)驗(yàn)表明，該方法能夠克服傳統(tǒng)分類算法精度不高的缺陷，并且能夠在較少的特征基因下取得較高的分類精度，驗(yàn)證了該方法的可行性和有效性。

腫瘤基因表達(dá)譜；信噪比；鄰域粗糙集；特征選擇

引言

隨著大規(guī)?；虮磉_(dá)譜技術(shù)的發(fā)展，基因芯片為研究疾病的發(fā)病原理和臨床疾病診斷提供了強(qiáng)有力的手段。腫瘤基因表達(dá)數(shù)據(jù)通常具有小樣本、超高維的特點(diǎn)，且原始數(shù)據(jù)存在大量冗余基因和噪聲，因此在利用特征基因選擇方法對新樣本進(jìn)行預(yù)測時，不僅花費(fèi)大量時間，而且降低了分類精度[1-3]。因此如何識別對疾病有鑒別意義的特征基因或疾病相關(guān)基因是生物信息學(xué)的研究熱點(diǎn)之一。

基因選擇是從基因表達(dá)譜數(shù)據(jù)的所有屬性中選擇基因子集，且獲得的基因具有較強(qiáng)的疾病識別能力[4-5]?；蚺判蚍ò凑沼?jì)分準(zhǔn)則對每個基因計(jì)分，把分值較大的基因作為預(yù)選基因，基因分值越大，表明分類能力越強(qiáng)[6]。目前常用的特征基因計(jì)分準(zhǔn)則主要包括信噪比指標(biāo)(Signal-noise ratio, SNR),Fisher判別(Fisher discriminant ratio,FDR)以及誤分類閾值(Threshold number of misclassification score,TNM)等，其中信噪比指標(biāo)應(yīng)用最為廣泛?；蚺判蚍ú灰蕾囉诰唧w的分類算法，并且得到的特征基因子集可有效避免“過擬合”現(xiàn)象，因此較適合用于基因表達(dá)數(shù)據(jù)[7-9]。目前常用的基因選擇方法是過濾法和纏繞法[5]。其中，基于排序的過濾法如信噪比、信息增益等具有簡單快速的特點(diǎn)，但是過濾法極有可能選擇高相關(guān)的基因作為特征基因。這不僅會降低分類能力，而且也會增加額外的計(jì)算負(fù)擔(dān)；而纏繞法將分類器預(yù)測的正確率評價(jià)基因子集，時間復(fù)雜度較高，且特征基因子集在其他分類器中的泛化能力較差。信噪比方法能有效地處理基因表達(dá)譜中的噪聲問題，它根據(jù)基因?qū)颖痉诸愗暙I(xiàn)大小的度量，過濾掉噪聲基因，從而更有效識別出腫瘤基因。鄰域粗糙集具有不需要對連續(xù)型數(shù)據(jù)離散化處理的特點(diǎn)，避免數(shù)據(jù)離散化所導(dǎo)致的信息損失。鄰域粗糙集憑借其獨(dú)特的優(yōu)勢，逐漸應(yīng)用到生物信息學(xué)領(lǐng)域，并在腫瘤特征基因選取方面取得了一些較好的結(jié)果[10]。為了充分利用過濾法和纏繞法的優(yōu)勢，有效地去除無關(guān)基因和冗余基因，國內(nèi)外專家提出了一些解決方法，文獻(xiàn)[11]將遺傳算法與支持向量機(jī)分類器相結(jié)合，把支持向量機(jī)的距離作為適應(yīng)度函數(shù)評估特征基因的分類能力；文獻(xiàn)[12]將隨機(jī)森林用于基因選擇和分類；文獻(xiàn)[13]提出一種優(yōu)化的鄰域粗糙集的混合基因選擇算法；文獻(xiàn)[14]結(jié)合K-means和Lasso方法對基因表達(dá)譜數(shù)據(jù)進(jìn)行特征選擇和預(yù)測模型構(gòu)建，取得較好的效果。雖然這些組合式特征選擇方法在一定程度上提高了分類精度，但依然存在算法穩(wěn)定性較差和特征子集規(guī)模較大的問題，如何在特征基因子集規(guī)模、分類能力和時間復(fù)雜度等多個目標(biāo)下求得折中解是腫瘤基因分類領(lǐng)域的關(guān)鍵問題[15]。

鑒于腫瘤基因表達(dá)數(shù)據(jù)本身的特點(diǎn)，為了保證采用盡可能少的信息基因獲得盡可能高的樣本分類率，同時降低算法的時間復(fù)雜度，本文提出一種基于信噪比與鄰域粗糙集的特征基因選擇方法。首先選取信噪比值較大的基因作為預(yù)選特征基因子集；然后利用鄰域粗糙集約簡算法對預(yù)選特征子集進(jìn)行尋優(yōu)；最后通過仿真實(shí)驗(yàn)驗(yàn)證該方法的有效性和可靠性。

1 基本概念

1.1 信噪比

信噪比是一種簡單高效的排序法[4]。在進(jìn)行基因選擇過程中，首先采用的信噪比指標(biāo)在原始特征空間過濾無關(guān)基因，得到與類別屬性相關(guān)性較高的基因，信噪比為

(1)

式中：μ+(gi)和μ-(gi)分別表示第i個基因gi在正類和負(fù)類的平均表達(dá)值；而δ+(gi)和δ-(gi)分別表示第i個基因gi在兩類中的標(biāo)準(zhǔn)差。式(1)用來衡量每個基因的重要性，信噪比值越大，說明該基因的重要性越強(qiáng)。

1.2 鄰域決策系統(tǒng)

在經(jīng)典粗糙集基礎(chǔ)上，文獻(xiàn)[16]提出了鄰域粗糙集模型，該模型能夠直接處理連續(xù)型數(shù)據(jù)，不需要對連續(xù)型數(shù)據(jù)進(jìn)行離散化處理，從而避免了離散化過程中的信息損失。下面給出鄰域粗糙集模型的相關(guān)概念和性質(zhì)[12,17,18]。

定義1 設(shè)U={u1,u2,…,un}為樣本集；C為條件屬性集；D為決策屬性集；N為由C產(chǎn)生的一簇鄰域關(guān)系，稱〈U,C∪D,N〉為鄰域決策系統(tǒng)。

定義2 在鄰域決策系統(tǒng)〈U,C∪D,N〉中，D將U劃分成N個等價(jià)類：X1, X2, X3,…,XN，?B?C生成U上的鄰域關(guān)系NB，則決策屬性D關(guān)于B的鄰域下近似、上近似分別定義為

(2)

(3)

定義4 在鄰域決策系統(tǒng)〈U,C∪D,N〉中，?a∈B?C，若γB(D) >γB-a(D)，稱a在B中相對決策屬性D是必要的，否則是不必要的。

定義5 在鄰域決策系統(tǒng)〈U,C(D,N〉中，若B?C滿足:(1) γB(D) =γc(D);(2) ?a∈B, γB-a(D) <γB(D)，則稱B是C的一個相對約簡。

定義6 在鄰域決策系統(tǒng)〈U, C∪D,N〉中，若B?C，a∈C-B，則a關(guān)于屬性子集B的重要度定義為SIG(a, D, B)=γB∪a(D)-γB(D)。

2 特征基因選擇方法

2.1 過濾無關(guān)基因

信噪比方法簡單高效且能有效處理基因表達(dá)譜中的噪聲問題，而Relief算法具有計(jì)算復(fù)雜度小和考慮屬性間相關(guān)性的特點(diǎn)。本文利用信噪比去除基因表達(dá)數(shù)據(jù)中的無關(guān)基因，按照信噪比值的大小對全部基因進(jìn)行降序排列，將排好的基因變量以0.2為單位劃分到不同的區(qū)間，分別為(0,0.2]，(0.2,0.4]，(0.4,0.6]，(0.6,0.8]，(0.8, 1]。因此，原始基因表達(dá)譜數(shù)據(jù)集被劃分為5個特征基因子集，每個區(qū)間的基因均可作為預(yù)選特征基因子集。在此基礎(chǔ)上，采用經(jīng)典的Relief算法給出基因的分類權(quán)重，過濾掉各區(qū)間權(quán)重較小的基因。

為了選取噪聲較少且與分類高相關(guān)的預(yù)選特征基因子集，本文只選取區(qū)間值最大的基因子集作為較優(yōu)的候選基因子集。由于通過式(1)計(jì)算本文的3個數(shù)據(jù)集信噪比值在區(qū)間(0.8, 1]的基因數(shù)目為零，為了保持算法的整體性能，不考慮Prostate數(shù)據(jù)集信噪比大于0.8的基因。若基因的信噪比越大，表明該基因?qū)Ψ诸惖挠绊懺酱?，因此選取各數(shù)據(jù)集在(0.6,0.8]區(qū)間內(nèi)的基因作為候選特征基因子集。但是，候選特征基因子集中往往存在冗余基因，這不僅增加額外計(jì)算負(fù)荷，而且導(dǎo)致錯誤的分類結(jié)果。因此本文采用鄰域粗糙集進(jìn)一步剔除冗余基因，從候選特征基因集合中獲取較優(yōu)的特征基因子集。

2.2 特征基因選擇方法

鄰域粗糙集能夠直接處理連續(xù)型數(shù)據(jù)，它可以直接應(yīng)用于特征基因的提取，避免了一定程度上的信息丟失，使得所選取的特征基因子集能最大限度地保持原數(shù)據(jù)集的分類能力。下面給出有關(guān)算法定義[16-17]。

定義7 在給定的N維實(shí)數(shù)空間Ω中，R為實(shí)數(shù)集，RN為N維實(shí)數(shù)向量空間，Δ：RN×RN→R，則稱Δ為RN上的一個度量，若Δ滿足以下條件：(1) 對?x1,x2∈RN，有Δ(x1,x2)≥0，其中當(dāng)且僅當(dāng)x1=x2時等號成立；(2) 對?x1,x2∈RN，有Δ(x1,x2)=Δ(x2,x1)；(3) 對?x1,x2,x3∈RN，有Δ(x1,x3)≤Δ(x1,x2)+Δ(x2,x3)，則稱(Ω,Δ)為度量空間，其中Δ(xi,xj)為距離函數(shù)，表示元素xi和元素xj之間的距離。

距離計(jì)算函數(shù)有曼哈頓距離函數(shù)、歐幾里德距離函數(shù)、P范式距離函數(shù)，本文算法從特征選擇方法模型泛化的角度考慮，采用歐幾里德距離函數(shù)，它能夠在一定程度上防止過擬合，提升模型的泛化能力。

假設(shè)一個含有K個樣本T個屬性的基因數(shù)據(jù)集，直接利用鄰域粗糙集的向前屬性約簡算法剔除冗余基因時，算法的計(jì)算代價(jià)較大，時間復(fù)雜度為O(T2×KlogK)[19]。當(dāng)屬性的鄰域半徑一定時，隨著屬性集B中屬性個數(shù)的增加，會增加樣本的誤判率，從而降低分類正確率。本文提出基于信噪比與鄰域粗糙集的特征基因選擇算法，該算法可以有效去除大量的無關(guān)基因，減少鄰域粗糙集約簡過程的時空消耗，同時也減少分類器的訓(xùn)練時間，具體算法如下。

輸入：基因數(shù)據(jù)集Set=(x1,x2,…,y)，鄰域決策系統(tǒng)NDS=〈U,C∪D,N〉，計(jì)算屬性鄰域半徑的參數(shù)r及屬性的重要度下限參數(shù)λ。

輸出：特征基因集合S。

(1) 對Set每個屬性列進(jìn)行標(biāo)準(zhǔn)化處理；

(2) 根據(jù)式(1)計(jì)算每個基因變量的信噪比值；

(3) 根據(jù)信噪比的大小對Glist進(jìn)行升序排序；//Glist表示通過信噪比排序后的基因列表

(4) 將信噪比值在區(qū)間[0.6, 0.8]的標(biāo)準(zhǔn)化基因數(shù)據(jù)生成新的矩陣Al×t；//l為樣本數(shù)，t為屬性數(shù)

(5) 利用Relief算法過濾掉各區(qū)間權(quán)重較小的基因；

(6) 將矩陣Al×t中所有屬性列組成特征基因集合SA；//SA為已過濾掉無關(guān)基因的集合；

(7) 初始化約簡集合red=?；

(8) 對SA中的ai∈SA-red；//ai表示特征基因集合SA的屬性列，i=1, 2, …, t;

(9) 獲取屬性ai的最大的正域posk(D)；//通過最大的正域posk(D)計(jì)算屬性的重要度；

(10) 判斷重要度SIG是否大于設(shè)定的下限λ；

(11) 若SIG≤λ，記錄k值，red=red+ak，S=S-posk，返回(8)；//通過k記錄對應(yīng)的屬性列號

(12) 若SIG>λ，輸出約簡結(jié)果red；

(13) 根據(jù)red對應(yīng)的屬性列，獲取較優(yōu)的特征基因集合S；

(14) 結(jié)束。

假設(shè)一個含有K個樣本T個屬性的基因數(shù)據(jù)集，經(jīng)過信噪比去除無關(guān)基因后獲得M個特征基因，平均選擇一個特征基因要向正域集合中添加K/M個樣本，則計(jì)算該數(shù)據(jù)集鄰域時間復(fù)雜度為O(KlogK)。由于第1個特征基因確定正域的時間復(fù)雜度為T×KlogK，第2個特征基因的時間復(fù)雜度為(T-1)×(K-K/M)log(K-K/M)，則第M個特征基因的時間復(fù)雜度為(T-M+1)×(K/M)log(K/M)，經(jīng)計(jì)算得到SNRS算法的時間復(fù)雜度為M×T×KlogK，因?yàn)镸?T，所以本文算法的時間復(fù)雜度小于O(T2×KlogK)。由以上分析可知，該算法通過約簡過濾掉信噪比值小的基因，從而減小了時間復(fù)雜度。

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)數(shù)據(jù)和實(shí)驗(yàn)環(huán)境

為了驗(yàn)證算法的有效性，本文在Leukemia,Colon,Lung和Prostate 4個公開的基因表達(dá)譜數(shù)據(jù)集上仿真實(shí)驗(yàn)。數(shù)據(jù)集從http://datam.i2r.a-star.edu.sg/datasets/krbd/下載，具體數(shù)據(jù)集描述見表1。實(shí)驗(yàn)中所用的計(jì)算機(jī)配置為酷睿i5-3470，3.20 GHz，2 GB內(nèi)存，所有仿真都在MatlabR2010a和Weka3.6.11中實(shí)現(xiàn)，并構(gòu)建樸素貝葉斯、Libsvm和決策樹C4.5三種分類模型，其中Libsvm的核函數(shù)設(shè)置為線性核函數(shù)，C4.5用于修剪的置信因子設(shè)置為0.25。所有實(shí)驗(yàn)都采用k折交叉驗(yàn)證方法，其中k均取值為10。

表1 實(shí)驗(yàn)數(shù)據(jù)集描述

3.2 實(shí)驗(yàn)結(jié)果分析

根據(jù)信噪比值的大小，將基因變量分布在4個區(qū)間，為了直觀表示，圖1～4分別給出了4個數(shù)據(jù)集信噪比值相應(yīng)的區(qū)間分布。由圖1～4可知，本文實(shí)驗(yàn)將全部基因信噪比值分為4個區(qū)間：(0,0.2]，(0.2,0.4]，(0.4,0.6]，(0.6,0.8]，4個數(shù)據(jù)集在相應(yīng)區(qū)間內(nèi)的基因個數(shù)分別為{4 973, 1 796, 334, 26},{1 481,509,10,0},{1 727,969,174,10},{6 976,5 156,411,49}?？芍蟛糠只虻男旁氡戎刀驾^小，如Lung數(shù)據(jù)集的基因數(shù)目為2 880，其中有1 727個基因的信噪比值小于或等于0.2；Prostate數(shù)據(jù)集的基因數(shù)目為12 600，其中有6 976個基因的信噪比值小于或等于0.2。表明這些基因難以區(qū)分類別，可做無關(guān)基因處理，只有為數(shù)不多的基因與樣本的分類有密切相關(guān)。為了有效獲取特征基因子集，本文只將信噪比值分布在區(qū)間(0.6, 0.8]內(nèi)基因變量作為預(yù)選的特征基因子集。由于Colon數(shù)據(jù)集在區(qū)間(0.6, 0.8]的基因變量為零，所以將它在區(qū)間(0.4, 0.6]內(nèi)的基因變量作為預(yù)選的特征基因子集。因此，以上4個數(shù)據(jù)集通過信噪比去除無關(guān)基因和Relief算法去除權(quán)重較小的基因，最終獲得預(yù)選的特征基因子集數(shù)目分別為21，8，9和46。

利用鄰域粗糙集剔除預(yù)選特征基因子集中的冗余基因，本文對計(jì)算鄰域半徑參數(shù)r和重要度下限進(jìn)行了優(yōu)化，經(jīng)過多次試驗(yàn)比較，r的取值[3.5, 4.5]較為合適，實(shí)驗(yàn)中將r取值為4，重要度下限取值越小越好，因此取值為0.001。學(xué)習(xí)分類算法中的樸素貝葉斯具有訓(xùn)練速度較快的特點(diǎn)，支持向量機(jī)能避免“維數(shù)災(zāi)難”，具有較好的魯棒性，而C4.5具有處理不完整數(shù)據(jù)及分類規(guī)則易理解的特點(diǎn)。為了證實(shí)本文算法在分類模型優(yōu)于其他的特征基因選擇方法，實(shí)驗(yàn)采用樸素貝葉斯、Libsvm、決策樹C4.5三種學(xué)習(xí)算法驗(yàn)證各自的分類性能，如圖5～7所示。

圖7 C4.5在數(shù)據(jù)集上的分類性能Fig.7 Classification performance of C4.5 on dataset

在圖5～7中，ODP(Originaldataprocessing)表示為直接對原數(shù)據(jù)集分類的方法；NRS(Neighborhoodroughset)表示為僅采用鄰域粗糙集方法；SNR表示為只采用信噪比方法；SNRS表示為本文算法即采用基于信噪比與鄰域粗糙集的方法。由圖5～7可知，針對某一特定的數(shù)據(jù)集，不同的特征基因選擇方法在3種分類器上表現(xiàn)出不同的分類性能。通過本文算法與其他方法相比較，基于信噪比與鄰域粗糙集的算法的分類正確率相對較高。例如在Prostate數(shù)據(jù)集中，本文方法在樸素貝葉斯分類器、Libsvm分類器、C4.5分類器得到分類正確率分別為91.176 5%，91.176 5%，90.196 1%，明顯高出其他方法的分類正確率。但是在Leukemia數(shù)據(jù)集中，本文算法在NaiveBayesian分類器的分類正確率為86.111 1%低于ODP方法在該分類器上94.736 8%的分類正確率，這表明在利用本文方法去除無關(guān)基因和冗余基因時，錯誤地去除了對分類影響較大的基因變量，最終影響了樣本分類的正確率。但是該算法在其余3個數(shù)據(jù)集上都表現(xiàn)出良好的性能。因此，本文算法在整體上能夠獲取高度相關(guān)、低度冗余的特征基因子集，并且有效提高了特征基因分類算法的正確率。

由表2可知，ODP算法雖然可獲得較高的分類精度，但是特征基因規(guī)模過于龐大；NRS算法可有效地去除無關(guān)基因，但是在去除冗余基因過程中也剔除了與分類相關(guān)的特征基因，從而導(dǎo)致分類精度較低；SNR算法可獲取較少的特征基因子集，并且分類性能也相對較好。而一個較為理想的特征基因選擇方法不僅能獲得較少的特征基因子集，同時也具有較高的分類精度。基于信噪比與鄰域粗糙集的算法的分類精度相對其他算法最高，特征基因個數(shù)也相對較少。例如在Leukemia數(shù)據(jù)集上，獲得4個特征基因相對其他方法最少，與此同時，分類性能也達(dá)到97.36%的正確率。從表2可知，雖然算法SNRS約簡后的特征基因個數(shù)不少于算法NRS約簡前的特征基因個數(shù)，但兩者僅差1～3個特征基因，同時SNRS方法在4個數(shù)據(jù)集上都獲得最高分類精度。例如在Prostate數(shù)據(jù)集上，SNRS算法獲得5個特征基因數(shù)目，雖然比NRS算法中獲得4個特征基因多1個特征基因，但是分類精度已高達(dá)91.18%。由表3可知，LASSO方法可獲得較優(yōu)的分類精度，但其時間復(fù)雜度高達(dá)O(PT3)；NRS方法可有效減少特征基因個數(shù)但其分類精度最低；MRMR方法的分類精度略高，但其特征基因個數(shù)較多，時間復(fù)雜度也較高。與其他3個經(jīng)典特征基因選擇方法相比，本文方法在特征基因子集規(guī)模與分類精度上均取得較好的結(jié)果，且時間復(fù)雜度也較低，綜合性能較強(qiáng)。例如在Leukemia數(shù)據(jù)集上，本文方法獲得4個特征基因均不多于其余3種方法，分類精度高達(dá)97.36%，略低于LASSO方法的98.61%。

表2 各種算法在不同數(shù)據(jù)集上的特征基因個數(shù)和最優(yōu)分類性能的實(shí)驗(yàn)對比

Table 2 Experimental contrast of all kinds of algorithms on different data sets feature gene number and optimal classification performance

表3 不同特征基因選擇方法優(yōu)分類性能和時間復(fù)雜度的實(shí)驗(yàn)對比

Table 3 Experimental comparison of classification and time complexity of different feature gene selection methods

數(shù)據(jù)集LASSO基因數(shù)分類性能/%NRS基因數(shù)分類性能/%MRMR基因數(shù)分類性能/%本文方法基因數(shù)分類性能/%Leukemia2398.61461.112889.06497.36Colon588.71564.525479.86682.26Lung899.45364.103684.61685.44Prostate6396.08464.717992.15591.18時間復(fù)雜度O(PT3)O(T2KlogK)O(T2)O(MTKlogK)

由實(shí)驗(yàn)結(jié)果可知，基于信噪比與鄰域粗糙集的算法能夠選擇出較少的特征基因，通過該方法獲取的基因數(shù)目均不高于6個特征基因，最少的只達(dá)到4個特征基因。在特征基因子集規(guī)模如此小的情況下，本文方法在整體性能上均高于其他3種基因選擇方法，從而證明基于信噪比與鄰域粗糙集的算法能選擇出高信息含量的基因，同時也能減少了選擇基因子集的冗余性?？傊疚乃惴苓x出基因數(shù)量較少且分類能力較強(qiáng)的特征基因子集，解決了基因表達(dá)譜數(shù)據(jù)高維數(shù)、高冗余問題，提高了分類模型的精度和泛化能力。

4 結(jié)束語

從DNA微陣列中選擇分類能力且數(shù)量較少的特征基因子集是生物信息學(xué)領(lǐng)域研究的一個重要問題。本文針對目前特征基因選擇算法分類精度較差和時間復(fù)雜度較高的問題，提出了一種基于信噪比與鄰域粗糙集的特征基因選擇方法。該方法分為兩個過程，利用信噪比指標(biāo)衡量基因的重要性，并劃分不同區(qū)間，以過濾無關(guān)基因；采用鄰域粗糙集進(jìn)行冗余基因的剔除。實(shí)驗(yàn)結(jié)果表明，該方法能夠選擇出具有高分辨率且特征基因數(shù)目較少的基因子集，并且提高了算法的分類精度并且降低了時間復(fù)雜度。本文提出的算法研究了單個特征基因類間區(qū)分度，在特征基因選擇過程中考慮多個特征基因?qū)Ψ诸惖穆?lián)合貢獻(xiàn)及如何提高算法時間效率將是下一步的研究工作。

[1] 李霞, 張?zhí)镂? 郭政.一種基于遞歸分類樹的集成特征基因選擇方法[J].計(jì)算機(jī)學(xué)報(bào), 2004, 27(5):675-682.

Li Xia, Zhang Tianwen, Guo Zheng.An integrated feature gene selection based on the recursive classification tree method[J].Chinese Journal of Computers,2004, 27(5): 675-682.

[2] 徐菲菲, 苗奪謙, 魏萊.基于模糊粗糙集的腫瘤分類特征基因選取[J].計(jì)算機(jī)科學(xué), 2009, 36(3):196-200.

Xu Feifei, Miao Duoqian, Wei Lai.Tumor classification feature gene selection based on fuzzy rough sets[J]. Computer Science, 2009, 36(3): 196-200.

[3] 汪荊琪, 徐林莉. 一種基于多視圖數(shù)據(jù)的半監(jiān)督特征選擇和聚類方法[J]. 數(shù)據(jù)采集與處理, 2015, 30(1): 106-116.

Wang Jingqi, Xu Linli. Semi-supervised feature selection and clustering for multi-view data[J]. Journal of Data Acquisition and Processing, 2015, 30(1): 106-116.

[4] Golub T R,Slonim D K, Tamayo P, et al. Class discovery and class prediction by gene expression monitoring[J]. Science, 1999, 286: 531-537.

[5] 周昉,何潔月.生物信息學(xué)中的基因芯片的特征選擇技術(shù)綜述[J].計(jì)算機(jī)科學(xué),2007, 34(12):143-150.

Zhou Fang, He Jieyue. Survey of the gene selection technologies based on microarray in bioinformatics[J].Computer Science,2007, 34(12):143-150.

[6] 黃德雙.基因表達(dá)譜數(shù)據(jù)挖掘方法研究[M].北京: 科學(xué)出版社, 2009.

Huang Deshuang.Gene expression profile data mining methods[M].Beijing:Science Press, 2009.

[7] Zhao Y H,Yu X J, Wang G R, et al. Maximal subspace coregulated gene clustering[J]. IEEE Transactions on Knowledge and Data Engineering, 2008, 20 (1): 83-98.

[8] 劉金勇, 鄭恩輝, 陸慧娟. 基于聚類與微粒子群優(yōu)化的基因選擇方法[J]. 數(shù)據(jù)采集與處理, 2014, 29(1): 84-89.

Liu Jinyong, Zheng Enhui, Lu Huijuan. Gene selection based on clustering method and particle swarm optimazition[J]. Journal of Data Acquisition and Processing, 2014, 29(1): 84-89.

[9] 李建更, 郭慶雷, 賀益恒. 時序基因表達(dá)缺失值的加權(quán)上相回歸估計(jì)算法[J]. 數(shù)據(jù)采集與處理, 2013, 28(2): 137-140.

Lin Jiangeng, Guo Qinglei, He Yiheng. Double weighted regression estimation for missing values in time series gene expression data[J]. Journal of Data Acquisition and Processing, 2013, 28(2): 137-140.

[10]徐久成,徐天賀,孫林,等. 基于鄰域粗糙集和粒子群優(yōu)化的腫瘤分類特征基因選取[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2014,35(11): 2529-2532.

Xu Jiucheng, Xu Tianhe, Sun Lin, et al. Feature selection for cancer classification based on neighborhood rough set and particle swarm optimization[J].Journal of Chinese Computer Systems, 2014,35(11):2529-2532.

[11]Chen X W. Margin-based wrapper methods for gene identification using microarray[J]. Neurocomputing,2006,69(18): 2236-2243.

[12]Ramón D U, Sara A A. Gene selection and classification of microarray data using random forest[J]. BMC Bioinformatics,2006(7):3-4.

[13]陳濤,洪增林, 鄧方安.基于優(yōu)化的鄰域粗糙集的混合基因選擇算法[J].計(jì)算機(jī)科學(xué),2014, 41(10):291-294.

Cheng Tao, Hong Zenglin, Deng Fangan. Hybrid gene selection algorithm based on optimized neighborhood rough set[J].Computer Science,2014, 41(10): 291-294.

[14]Ma Shuangge, Song Xiao, Huang Jian. Supervised group Lasso with applications to microarray data analysis[J].BMC Bioinformatics, 2007(8): 60.

[15]王楠,歐陽丹彤.基于模型診斷的抽象分層過程[J].計(jì)算機(jī)科學(xué), 2011, 34(2):384-394.

Wang Nan, Ouyang Dantong.Hierarchical abstraction process in model-based diagnosis[J].Computer Science,2011, 34(2): 384-394.

[16]胡清華,于達(dá)仁.基于鄰域粒化和粗糙逼近的屬性約簡[J].軟件學(xué)報(bào), 2008, 15(3):121-125.

Hu Qinghua, Yu Daren.Numerical attribute reduction based on neighborhood granulation and rough approximation[J].Journal of Software, 2008, 15(3): 121-125.

[17]張文修,仇國芳.粗糙集屬性約簡的一般理論[J].中國科學(xué):技術(shù)科學(xué), 2005,35(12):1304-1313.

Zhang Wenxiu, Qiu Guofang.The general theory of rough set attribute reduction[J]. Scientia Sinica Technologica, 2005,35(12):1304-1313.

[18]Chen T. Classification algorithm on gene expression profile of tumor using neighborhood rough set and support vector machine[J].Advanced Materials Research, 2014, 850:1238-1242.

[19]謝娟英,李楠,喬子芮. 基于鄰域粗糙集的不完整決系統(tǒng)特征選擇算法[J]. 南京大學(xué)學(xué)報(bào):自然科學(xué), 2011, 47(4): 384-390.

Xie Juanying, Li Nan, Qiao Zirui. Feature subset selection algorithms for incomplete decision systems based on neighborhood tough sets[J].Journal of Nanjing University:Natural Sciences, 2011, 47(4): 384-390.

Feature Gene Selection Based on SNR and Neighborhood Rough Set

Xu Jiucheng1,2， Li Tao1,2， Sun Lin1,2， Li Yuhui1,2

(1.College of Computer & Information Engineering, Henan Normal University, Xinxiang, 453007, China; 2.Engineering Technology Research Center for Computing Intelligence & Data Mining, Henan Province, Xinxiang, 453007, China)

In view of that the traditional genetic selection method selects a large number of redundant genes, which leads to a lower sample forecast accuracy, a feature gene selection method is put forward based on the signal noise ration and the neighborhood rough set(SNRS). Firstly, the signal-to-noise ratio(SNR) index is used to obtain the primary feature subset which have a greater impact on classification. Secondly, the rough neighborhood intensive algorithm is used to optimize the primary feature subset. Finally, feature gene subset is classified by different classifier. Experiment results show that the proposed method can get a higher classification accuracy using less feature gene than the traditional ones, which verifies the feasibility and validity of the method.

gene expression profiles；signal-to-noise ratio；neighborhood rough set；feature selection

國家自然科學(xué)基金(61370169,61402153, 60873104)資助項(xiàng)目；河南省科技攻關(guān)重點(diǎn)(142102210056)資助項(xiàng)目；新鄉(xiāng)市重點(diǎn)科技攻關(guān)計(jì)劃(ZG13004)資助項(xiàng)目。

2015-05-29；

2015-07-02

TP18

徐久成(1964-)，男，教授，博士生導(dǎo)師，研究方向：粒計(jì)算、粗糙集、數(shù)據(jù)挖掘和生物信息學(xué)等，E-mail:xjch3701@sina.com。

李玉惠(1988-)，女，碩士研究生，研究方向：粒計(jì)算和圖像檢索。

李濤(1990-)，男，碩士研究生，研究方向：數(shù)據(jù)挖掘、粗糙集和生物信息學(xué)。

孫林(1979-)，男，講師，研究方向：粒計(jì)算、粗糙集和數(shù)據(jù)挖掘。

基于信噪比與鄰域粗糙集的特征基因選擇方法

引 言

1 基本概念

2 特征基因選擇方法

3 實(shí)驗(yàn)分析

4 結(jié)束語

引言