基于鄰域熵與蟻群優(yōu)化的基因選擇算法

2018-01-16 03:25:25鄭鷺斌謝彥麒陳玉明

福州大學(xué)學(xué)報(bào)(自然科學(xué)版) 2017年6期

許明，鄭鷺斌，謝彥麒，陳玉明

(廈門理工學(xué)院計(jì)算機(jī)與信息工程學(xué)院，福建廈門 361024)

0 引言

隨著基因微陣列技術(shù)的提高，基因表達(dá)數(shù)據(jù)快速增長，基因數(shù)據(jù)分析與處理技術(shù)已引起學(xué)者的廣泛關(guān)注[1-3]. 然而，基因表達(dá)數(shù)據(jù)集呈現(xiàn)高維、小樣本和不確定性的特點(diǎn)，已經(jīng)成為基因分析與處理技術(shù)的發(fā)展瓶頸，如何從高維基因數(shù)據(jù)中選取有效且區(qū)分度高的少量基因，是基于基因表達(dá)數(shù)據(jù)進(jìn)行癌癥腫瘤分類的科學(xué)問題之一. 通過基因選擇，剔除與腫瘤分類無關(guān)的冗余基因，獲得精簡的基因子集，不僅降低分類器設(shè)計(jì)的計(jì)算復(fù)雜度，還可以提高分類器的分類精度.

基因選擇也稱特征基因子集選擇，是指從全部基因中選取一個(gè)特征基因子集，使構(gòu)造出來的分類模型更優(yōu)[4]. 依據(jù)評價(jià)函數(shù)的不同，常見的基因選擇算法主要包括Filter方法和Wrapper方法兩大類[5]. 其中Filter方法依據(jù)度量評價(jià)函數(shù)，篩選出高區(qū)分度的特征基因. 其算法運(yùn)行速度較快，在不同分類算法之間的推廣能力較強(qiáng)，但評估函數(shù)與學(xué)習(xí)算法的性能偏差較大. 篩選評估函數(shù)主要有相關(guān)系數(shù)[6]、距離度量[7]、信息熵度量[8]等. 而Wrapper方法的特點(diǎn)是采用具體的分類算法，選取分類精度最大的特征基因[9]. 該方法分類準(zhǔn)確率較高，選擇的基因子集規(guī)模較小，但計(jì)算復(fù)雜度高，不利于大數(shù)據(jù)集，而且存在過擬合的現(xiàn)象.

依據(jù)搜索策略的不同，基因選擇算法主要分為完全搜索、啟發(fā)式搜索和隨機(jī)搜索. 完全搜索策略不具備可行性，只適應(yīng)于非常小的數(shù)據(jù)集. 因此，大部分算法采用啟發(fā)式的搜索策略. 啟發(fā)式的方法搜索速度快，適用于高維大數(shù)據(jù)集，卻易陷入局部解. 隨機(jī)搜索方法主要包括模擬退火[10]、遺傳算法[1]、蟻群優(yōu)化算法[11]等. 蟻群算法[12]是在20世紀(jì)90年代初，由意大利學(xué)者Dorigo提出的一種群智能算法. 它具有分布性、正反饋、健壯性及全局尋優(yōu)等特點(diǎn)[13-15]. 波蘭數(shù)學(xué)家Pawlak[16]提出了粗糙集理論，能夠處理不一致、不精確、不確定數(shù)據(jù). 粗糙集理論已經(jīng)在基因選擇、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、圖形圖像、大數(shù)據(jù)、天氣預(yù)測等諸多領(lǐng)域得到廣泛應(yīng)用[17-18]. 粗糙集中的特征選擇涉及特征重要度的計(jì)算，主要的度量特征工具有信息熵[19]、粗糙熵[20]與知識粒度[21]. 然而，這些度量大都基于離散型的數(shù)據(jù)集，對于連續(xù)型的基因數(shù)據(jù)集并不適用.

為此，針對基因數(shù)據(jù)集的高維、連續(xù)及不確定性特點(diǎn)，提出融合Filter方法與Wrapper方法的混合基因選擇方法. 該方法采用鄰域粗糙集?；驍?shù)據(jù)，定義鄰域熵構(gòu)造Filter篩選函數(shù)，對基因進(jìn)行預(yù)選擇，然后采用鄰域粗糙集對預(yù)選擇的基因進(jìn)行特征選擇，同時(shí)引入蟻群優(yōu)化算法，獲取個(gè)數(shù)最小的特征基因子集. 最后，對選取的特征子集采用經(jīng)典分類算法測試其分類效果.

1 鄰域粗糙集模型與基因選擇

Pawlak粗糙集模型主要處理離散型的數(shù)據(jù)集，利用等價(jià)關(guān)系對對象集合進(jìn)行劃分，形成等價(jià)類知識. 針對連續(xù)型的基因表達(dá)數(shù)據(jù)集，需要預(yù)先進(jìn)行離散化，而離散化過程不可避免降低了分類精度. 為此，針對連續(xù)型的基因數(shù)據(jù)，采用鄰域粗糙集模型[22]進(jìn)行鄰域?；瑯?gòu)造參數(shù)化的鄰域類，用于基因子集選擇.

定義2給定基因信息系統(tǒng)S=(U,A,V,f,δ)，對于任一樣本x,y∈U, 基因子集B?A,B={a1,a2, …,an}，定義B上的距離度量函數(shù)DB(x,y)為：

其中: 當(dāng)p=1時(shí)，稱為曼哈頓距離；當(dāng)p=2時(shí)，稱為歐氏距離.

定義4設(shè)S=(U,A,V,f,δ)為一基因信息系統(tǒng)，δ為鄰域參數(shù)，在基因子集B?A上定義鄰域關(guān)系NRδ(B)：

U/NRδ(B)稱為論域U的一個(gè)鄰域覆蓋.

定義5定義T=(U,C∪D,V,f,δ)為一個(gè)基因分類表，其中U表示病人樣本集；C表示基因集，C值為連續(xù)型的基因表達(dá)數(shù)據(jù)；鄰域參數(shù)為δ∈[0, 1]，其鄰域覆蓋為U/NRδ(C)={X1,X2, …,Xm}；D是腫瘤分類特征，其為離散型的分類數(shù)據(jù)，腫瘤分類特征表示癌癥腫瘤的分類信息，其等價(jià)類劃分為U/D={Y1,Y2, …,Yn}.

定義6設(shè)T=(U,C∪D,V,f,δ)為一個(gè)基因分類表，?B?C，X?U，記U/NRδ(B)={B1,B2, …,Bi}. 則稱B*(X)δ=∪{Bi|Bi∈U/NRδ(B),Bi?X}為X關(guān)于B的鄰域下近似集；稱B*(X)δ=∪{Bi|Bi∈U/NRδ(B),Bi∩X≠?}為X關(guān)于B的鄰域上近似集.

鄰域上、下近似集組成的序?qū)Α碆*(X)δ,B*(X)δ〉用來逼近X確定集合，稱為X的鄰域粗糙集.

定義8設(shè)基因分類表T=(U,C∪D,V,f,δ)，?b∈B?C，γB(D)δ=γB-(D)δ，則b是B中冗余的基因；否則b為B中必要的基因. ?B?C，若?b∈B都是必要的基因，則稱B相對于D是獨(dú)立的.

定義9設(shè)基因分類表T=(U,C∪D,V,f,δ)，?B?C，γB(D)δ=γC(D)δ且B相對于D是獨(dú)立的，則稱B是C相對于D的特征基因組.

特征基因組是區(qū)分度較高的基因組成的集合，基因選擇的過程就是尋找特征基因組的過程. 在一個(gè)基因分類系統(tǒng)中，特征基因組存在多個(gè)，其中基因個(gè)數(shù)最小的特征基因組稱為最小特征基因組.

2 基于鄰域熵與蟻群優(yōu)化的屬性約簡

在鄰域?；蟮幕驍?shù)據(jù)集中引入鄰域熵的定義，度量基因數(shù)據(jù)的不確定性，并證明鄰域熵的單調(diào)性，用于基于鄰域粗糙集模型的基因選擇當(dāng)中. 以鄰域熵作為啟發(fā)式信息，引入蟻群優(yōu)化算法，進(jìn)一步設(shè)計(jì)了基于鄰域熵與蟻群優(yōu)化的基因選擇算法.

2.1 鄰域熵的定義及單調(diào)性原理

其中: |·|表示集合當(dāng)中元素的個(gè)數(shù).

定理2設(shè)S=(U,A,V,f,δ)為一個(gè)基因信息系統(tǒng)，若Q?P?A，則Hδ(Q)≥Hδ(P).

由

可知

由

可知

因此，Hδ(Q)≥Hδ(P)成立.

定理2表明鄰域熵具有單調(diào)性，隨著基因的增加單調(diào)遞減，因此可用來度量基因信息系統(tǒng)的不確定性.

2.2 基于鄰域熵的基因預(yù)選擇

通過基因陣列技術(shù)得到大量基因的表達(dá)值，基因個(gè)數(shù)成千上萬，其中多數(shù)基因與腫瘤分類相關(guān)性不大，對腫瘤的分類貢獻(xiàn)也小. 定理2證明了基因個(gè)數(shù)的增減與鄰域熵的大小存在著單調(diào)遞減的關(guān)系. 鄰域熵越小，其不確定增大，該基因則更重要. 由此，先采用基于鄰域熵的過濾法對基因進(jìn)行預(yù)選擇，該方法按照鄰域熵從小到大進(jìn)行排序，選擇前面n個(gè)鄰域熵最小的基因作為預(yù)選特征基因組. 然后，提出基于蟻群優(yōu)化的鄰域粗糙集基因選擇方法，對預(yù)選擇的n個(gè)基因進(jìn)行最小特征基因組的選取. 考慮到后續(xù)基因選擇的算法運(yùn)行時(shí)間，實(shí)驗(yàn)中n取值為100，即選擇前面100個(gè)鄰域熵最小的基因作為預(yù)選特征基因組.

2.3 基于蟻群優(yōu)化的基因選擇

科學(xué)家通過對螞蟻覓食行為的觀察與研究，發(fā)現(xiàn)螞蟻在覓食過程中會釋放信息素，當(dāng)螞蟻經(jīng)過一條路徑時(shí)，其信息素和螞蟻的數(shù)量成正比，后面尾隨的螞蟻選擇該路徑的概率就更大，最后收斂到最短路徑. Jensen[23]將蟻群優(yōu)化算法用于求解特征選擇問題. 為了加快搜索的速度，在蟻群的搜索過程中增加啟發(fā)式信息.

1) 基于鄰域熵的啟發(fā)式信息. 下面定義基于鄰域熵與分類精度加權(quán)的特征基因重要度概念，并在基于蟻群優(yōu)化的基因選擇過程中作為啟發(fā)式信息.

定義11設(shè)基因分類表T=(U,C∪D,V,f,δ)，?a∈C，R?C，設(shè)t時(shí)刻，某只螞蟻已選擇了基因組R(處于i基因位置)，接下去按照啟發(fā)信息選擇a基因(處于j基因位置)，定義啟發(fā)信息為a相對于基因組R的特征基因重要度，表示為：

ηij(t)=|MR∪{a}(D)δ|-|MR(D)δ|

其中:MR(D)δ=γR(D)δ·(1-Hδ(R))； |·|表示集合當(dāng)中元素的個(gè)數(shù).

2) 信息素的計(jì)算. 當(dāng)某只螞蟻經(jīng)過一條路徑時(shí)，其信息素隨著螞蟻的數(shù)量而增強(qiáng). 設(shè)t時(shí)刻(第t次迭代)，共有n只螞蟻經(jīng)過基因i到基因j上的路徑，則該路徑上的信息素計(jì)算如下：

其中:q為常數(shù)；R(t)表示t時(shí)刻已選取的基因組(暫時(shí)的全局最優(yōu)解).

3) 局部解的求解 . 在蟻群優(yōu)化算法中，每只螞蟻分別構(gòu)建一個(gè)局部解，然后根據(jù)蟻群的正反饋機(jī)制獲得全局最優(yōu)解. 最初螞蟻隨機(jī)初始化選擇某個(gè)基因，而后根據(jù)計(jì)算的概率選擇基因，其概率計(jì)算公式定義為：

其中:k表示某只螞蟻，t表示某次迭代；τij和ηij分別表示基因i到基因j路徑上的信息素和啟發(fā)信息，以特征基因重要度作為啟發(fā)信息；參數(shù)α>0和β>0分別表示信息素和啟發(fā)信息的重要性程度. 信息素體現(xiàn)全局搜索的信息，啟發(fā)式信息體現(xiàn)局部搜索的信息. 參數(shù)α和β取值范圍為0～1，其中α=1-β. 若α>β，則螞蟻選擇基因路徑時(shí)主要考慮全局因素，那么收斂的時(shí)間較長，更容易獲得全局解；反之，則主要考慮局部因素，收斂的速度快，但可能更容易陷入局部解； allowedk表示可供選擇的基因.

4) 信息素更新規(guī)則. 當(dāng)所有的螞蟻都分頭搜索到一個(gè)局部解后，則一次迭代完成，相鄰接基因邊的信息素需要更新，其更新規(guī)則為:

τij(t+1)=ρτij(t)+Δτij(t)

其中:t表示迭代次數(shù)，τij(t)表示t時(shí)刻基因i到基因j邊的信息素；ρ(0<ρ<1)為常量，代表信息素的揮發(fā)程度； Δτij(t)表示新增加的揮發(fā)信息素總量.

5) 搜索停止條件. 螞蟻搜索過程停止的條件為：

a) 當(dāng)γRk(D)δ=γC(D)δ，則找到了一個(gè)局部解，Rk為表示某個(gè)基因子集.

b) 若某只螞蟻找的局部集的基數(shù)大于全局最優(yōu)解基因子集的基數(shù)，則該螞蟻就停止搜索，否則，該基因子集作為暫時(shí)的全局最優(yōu)解.

c) 當(dāng)達(dá)到最大迭代次數(shù)或所有的螞蟻搜索都停止后，則算法終止，輸出全局最優(yōu)解；否則，更新信息素，開始下次迭代.

2.4 基于鄰域熵與蟻群優(yōu)化的基因選擇算法

以鄰域熵為啟發(fā)信息，根據(jù)蟻群優(yōu)化的原理，設(shè)計(jì)基于鄰域熵與蟻群優(yōu)化的基因選擇算法，其算法步驟描述如下：

算法1. NEACOGS(neighborhood entropy and ACO based gene selection).

輸入：經(jīng)過預(yù)選擇后的基因分類系統(tǒng)T′=(U,C∪D,V,f,δ)，最大迭代次數(shù)maxcycle，參數(shù)α.

輸出：最小特征基因組Gmin和其基數(shù)Lmin.

步驟1 系統(tǒng)初始化Gmin=C，Lmin=|C|.

步驟2 計(jì)算基因分類系統(tǒng)的分類精度γC(D)δ|POSC(D)δ|/|U|.

步驟3 若t

步驟3.1 構(gòu)造k只螞蟻，Gk=Φ；

步驟3.2 初始化k只螞蟻，讓其隨機(jī)選擇某個(gè)基因ak，Gk=Gk∪ak；

步驟3.3 每只螞蟻分布循環(huán)執(zhí)行步驟3.3.1-3.3.2：

步驟3.3.2 若γGk(D)δ=γC(D)δ或者|Gk|≥Lmin，則第k只螞蟻停止搜索；

步驟3.4 若γGk(D)δ=γC(D)δ并且|Gk|≥Lmin，則Gmin=Gk，Lmin=|Gk|；

步驟3.5 根據(jù)公式τij(t+1)=ρτij(t)+Δτij(t)更新信息素.

步驟4 輸出最優(yōu)基因子組Gmin和其基數(shù)Lmin.

蟻群優(yōu)化搜索策略具有很好的全局尋優(yōu)能力，該算法雖然不能保證找到最小特征基因組，但大部分情況下能夠找到最小特征基因組. 算法NEACOGS的時(shí)間復(fù)雜度主要涉及鄰域類的計(jì)算，文獻(xiàn)[24]采用桶裝排序?qū)⑧徲蝾惖挠?jì)算降為線性，有效降低了算法的時(shí)間復(fù)雜度. 除了鄰域類的計(jì)算之外，外層循環(huán)還有迭代次數(shù)和螞蟻個(gè)數(shù). 因此，算法NEACOGS的時(shí)間復(fù)雜度為O(k×t×m×n). 其中，k為螞蟻數(shù)；t為迭代次數(shù)；m為基因個(gè)數(shù)；n為樣本個(gè)數(shù).

3 實(shí)驗(yàn)分析

為驗(yàn)證該算法的有效性，實(shí)驗(yàn)中采用兩個(gè)基因數(shù)據(jù)集，分別為Lymphoma和Liver cancer. 數(shù)據(jù)集Lymphoma有96個(gè)樣本，4 026個(gè)基因. 其中, B-celllymphoma類別的樣本42個(gè)，Other type類別的樣本54個(gè). 數(shù)據(jù)集Liver cancer有156個(gè)樣本，1 648個(gè)基因. 其中, HCCs類別的樣本82個(gè)，Nontumor livers類別的樣本74個(gè). 基因數(shù)據(jù)集的具體信息描述如表1所示.

表1 基因數(shù)據(jù)集

3.1 數(shù)據(jù)預(yù)處理與預(yù)選擇

數(shù)據(jù)預(yù)處理主要是對缺失數(shù)據(jù)的補(bǔ)齊和對原始數(shù)據(jù)的標(biāo)準(zhǔn)化. 對于原始數(shù)據(jù)中存在缺失的情況，實(shí)驗(yàn)中采用均值補(bǔ)齊缺失的數(shù)據(jù)，并采用如下公式對原始基因數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化，將數(shù)據(jù)標(biāo)準(zhǔn)化為[0, 1]區(qū)間：

其中:gij表示編號為i的病人樣本在第j個(gè)基因上的基因表達(dá)值； max(gj)、min(gj)分別表示第j個(gè)基因上的最大、最小表達(dá)值. 基因數(shù)據(jù)經(jīng)過標(biāo)準(zhǔn)化后，為[0, 1]區(qū)間連續(xù)型的數(shù)據(jù). 基因個(gè)數(shù)龐大，往往成千上萬. 實(shí)驗(yàn)中先進(jìn)行預(yù)選擇，計(jì)算每個(gè)基因的鄰域熵值，并按照鄰域熵值從小到大排序，選取前面100個(gè)基因做為預(yù)選擇后的基因組.

3.2 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)過程采用文獻(xiàn)[25]中基于粗糙集的特征選擇算法TRS、文獻(xiàn)[26]中基于鄰域的特征選擇算法NRS以及本研究算法NEACOGS進(jìn)行比較. 對于經(jīng)典粗糙集特征選擇算法TRS的離散化過程采用文獻(xiàn)[27]中的方法，而基于鄰域的特征選擇算法NRS與算法NEACOGS，不需要離散化，但需給定鄰域參數(shù)，實(shí)驗(yàn)中設(shè)鄰域參數(shù)為δ=0.1. 本研究算法實(shí)驗(yàn)中螞蟻個(gè)數(shù)設(shè)定為預(yù)選擇基因組中基因個(gè)數(shù)的三分之一，為k=33，最大迭代次數(shù)maxcycle=100，權(quán)重參數(shù)α=0.3. 兩個(gè)基因數(shù)據(jù)集經(jīng)過預(yù)選擇后，都保留了100個(gè)基因，在此基礎(chǔ)上采用3種不同的特征選擇算法進(jìn)行基因選擇，實(shí)驗(yàn)結(jié)果如表2所示.

表2 基因選擇實(shí)驗(yàn)結(jié)果

由表2可知，TRS算法在Lymphoma數(shù)據(jù)集中選擇的基因子集含有7個(gè)基因，在Liver cancer數(shù)據(jù)集中選擇基因子集含有6個(gè)基因. NRS算法在Lymphoma數(shù)據(jù)集中選擇的基因子集包括了6個(gè)基因，在Liver cancer數(shù)據(jù)集中選擇的基因子集包括5個(gè)基因. 而本研究算法在Lymphoma數(shù)據(jù)集中選擇出5個(gè)特征基因，在Liver cancer數(shù)據(jù)集中也選擇出5個(gè)特征基因. 從時(shí)間上比較，可知NRS算法與TRS算法比較接近，TRS略好于NRS. 這兩個(gè)算法都是采用啟發(fā)式搜索一遍，找到次優(yōu)解. 而蟻群算法是多次迭代，因此NEACOGS算法的時(shí)間復(fù)雜度較高，但是更容易找到最優(yōu)解.

下面再比較被選基因子集的分類能力，分別采用KNN、C5.0分類器進(jìn)行分類實(shí)驗(yàn)，并用留一交叉法檢驗(yàn)分類正確率，實(shí)驗(yàn)結(jié)果如表3所示.

表3 基因分類精度

上述實(shí)驗(yàn)結(jié)果表明，基于經(jīng)典粗糙集的基因選擇方法(TRS)、基于鄰域關(guān)系的基因選擇方法(NRS)和基于鄰域熵與蟻群優(yōu)化的基因選擇方法(NEACOGS)都能正確提取有效的基因子集. 在NRS和NEACOGS算法中不需要離散化，由于避免了離散化過程造成的信息丟失，提取的特征基因個(gè)數(shù)較少. 而NEACOGS算法進(jìn)一步采用了蟻群優(yōu)化的搜索策略，得到了更小的基因子集. 通過在三種算法選取的基因子集上分別進(jìn)行分類實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果表明都取得了較好的分類精度，而且分類精度相差較小，主要是因?yàn)槿N算法都采用了基于鄰域熵篩選后的數(shù)據(jù)集.

4 結(jié)論

本研究重點(diǎn)分析了基因分類中的關(guān)鍵問題——基因選擇方法，提出了基于鄰域熵與蟻群優(yōu)化的基因選擇方法，并在2個(gè)基因表達(dá)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn). 首先，針對傳統(tǒng)粗糙集特征選擇方法難以處理連續(xù)型基因數(shù)據(jù)的缺點(diǎn)，引入鄰域粗糙集模型，定義鄰域熵度量數(shù)據(jù)的不確定性，對高維基因數(shù)據(jù)集進(jìn)行篩選，大量減少基因個(gè)數(shù). 然后，在鄰域粗糙集基因選擇理論的框架中引入蟻群優(yōu)化搜索策略，提出基于鄰域熵與蟻群優(yōu)化的基因選擇，并給出了適用于特征基因選擇的具體算法. 該算法充分利用鄰域熵度量不確定性數(shù)據(jù)方面的優(yōu)勢，定義基于鄰域熵的特征基因重要度作為啟發(fā)式信息，加速算法收斂過程，并發(fā)揮蟻群優(yōu)化算法的全局尋優(yōu)性能，獲取最優(yōu)基因子集. 目前，采用蟻群優(yōu)化與鄰域粗糙集融合的方法進(jìn)行特征基因選擇的研究還很少見，本研究拓展了粗糙集理論研究的應(yīng)用范圍，為基因選擇研究提供了一條新的途徑.

[1] LI S T, WU X X, HU X Y. Gene selection using genetic algorithm and support vectors machines[J]. Soft Computing, 2008, 12(7): 693-698.

[3] 張軍英, WANG Y J, KHAN J, 等. 基于類別空間的基因選擇[J]. 中國科學(xué)(E 輯), 2003, 33(12): 1 125-1 137.

[4] DASH M, LIU H. Feature selection forclassification[J]. Intelligent Data Analysis, 1997, 1 (1): 131-156.

[5] SAEYS Y, INZA I, LARRANAGA P. A review of feature selection techniques inbioinformatics[J]. Bioinformatics, 2007, 23(19): 2 507-2 517.

[6] GUYON I, ELISSEEFF A. An introduction to variable and featureselection[J]. Journal of Machine Learning Research, 2003, 3(6): 1 157-1 182.

[7] KIRA K, RENDELL L A. The feature selection problem: traditional methods and a new algorithm[C]//Proceedings of the Tenth National Conference on Artificial Intelligence. San Jose: AAAI, 1992: 129-134.

[8] MIAO D Q, HOU L. A comparison of rough set methods and representative inductive learningalgorithms[J]. Fundamenta Informaticae, 2004, 59 (2/3): 203-219.

[9] KOHAVI R. Feature subset selection using the wrapper method: overfitting and dynamic search space topology[C]//Proceedings of the First International Conference on Knowledge Discovery and Data Mining. Montreal: AAAI, 1994: 109-113.

[10] LIN S W, LEE Z J, CHEN S C,etal. Parameter determination of support vector machine and feature selection using simulated annealing approach[J]. Applied Soft Computing, 2008, 8(4): 1 505-1 512.

[11] CHEN Y M, MIAO D Q, WANG R Z. A rough set approach to feature selection based on ant colonyoptimization[J]. Pattern Recognition Letters, 2010, 31(3): 226-233.

[12] DORIGO M, MANIEZZO V, COLORNI A. Ant system: optimization by a colony of cooperatingagents[J]. IEEE Trans Syst Man Cybernetics-Part B, 1996, 26(1): 29-41.

[13] ZHANG X L, CHEN X F, HE Z J. An ACO-based algorithm for parameter optimization of support vectormachines[J]. Expert Systems with Applications, 2010, 37(9): 6 618-6 628.

[14] LIAO T J, THOMAS S, MARCO A,etal. A unified ant colony optimization algorithm for continuous optimization[J]. European Journal of Operational Research, 2014, 234(3): 597-609.

[15] JUNIOR L, NEDJAH N, MOURELLE L. Routing for applications inNoC using ACO-based algorithms[J]. Applied Soft Computing, 2013, 13(5): 2 224-2 231.

[16] PAWLAK Z. Roughsets[J]. International Journal of Computer and Information Science, 1982, 11(5): 341-356.

[17] JENSEN R, SHEN Q. Finding rough setreducts with ant colony optimization[C]//Proceedings of the UK Workshop on Computational Intelligence. Bristol: [s.n.], 2003: 15-22.

[18] TABAKHI S, MORADI P, AKHLAGHIAN F. An unsupervised feature selection algorithm based on ant colony optimization[J]. Engineering Applications of Artificial Intelligence, 2014, 32: 112-123.

[19] 苗奪謙, 王玨. 粗糙集理論中概念與運(yùn)算的信息表示[J]. 軟件學(xué)報(bào), 1999, 10 (2) : 113-116.

[20] PALSANKAR K, UMASHANKAR B, PABITRA M. Granular computing, rough tropy and objectextraction[J]. Pattern Recognition Letters, 2004, 26(16): 2 509-2 517.

[21] 苗奪謙, 范世棟. 知識的粒度計(jì)算及其應(yīng)用[J]. 系統(tǒng)工程理論與實(shí)踐, 2002, 22(1): 48-56.

[22] HU Q H, YU D R, XIE Z X. Neighborhood classifiers[J]. Expert Systems with Applications, 2008, 34(2): 866-876.

[23] JENSEN R. Combining rough and fuzzy sets for feature selection[D]. Edinburgh: The University of Edinburgh, 2005.

[24] LIU Y, HUANG W L, JIANG Y,etal. Quick attribute reduct algorithm for neighborhood rough set mode[J]. Information Sciences, 2014, 271(7): 65-81.

[25] 王國胤. Rough 集理論與知識獲取[M]. 西安: 西安交通大學(xué)出版社, 2001.

[26] HU Q H, YU D R, LIU J F,etal. Neighborhood rough set based heterogeneous feature subset selection[J]. Information Sciences, 2008, 178(18): 3 577-3 594.

[27] 苗奪謙. Rough Set理論中連續(xù)屬性的離散化方法[J]. 自動(dòng)化學(xué)報(bào), 2001, 27(3): 296-302.