• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于聚類和微粒群優(yōu)化的基因選擇方法

    2014-07-25 04:30:08劉金勇鄭恩輝陸慧娟
    數(shù)據(jù)采集與處理 2014年1期
    關(guān)鍵詞:子集分類器聚類

    劉金勇 鄭恩輝 陸慧娟

    (1.中國計(jì)量學(xué)院機(jī)電工程學(xué)院,杭州,310018;2.中國計(jì)量學(xué)院信息科學(xué)學(xué)院,杭州,310018)

    引 言

    基因表達(dá)譜數(shù)據(jù)又叫做微陣列數(shù)據(jù),它是利用基因芯片技術(shù)測得的高通量基因在不同生理階段的表達(dá)數(shù)據(jù)值。其中“基因表達(dá)”是指細(xì)胞在聲明過程中,把儲(chǔ)存在DNA中的遺傳信息經(jīng)過轉(zhuǎn)錄和翻譯,轉(zhuǎn)變成具有生物活性的蛋白質(zhì)分子?!盎虮磉_(dá)水平”是指某個(gè)基因在一定時(shí)間內(nèi)控制產(chǎn)生的蛋白質(zhì)的量,它表明了細(xì)胞當(dāng)前的生理狀態(tài)[1,2]。通過合理的方法對(duì)這種高通量的基因表達(dá)數(shù)據(jù)進(jìn)行分析,可以得到哪些基因之間存在調(diào)控關(guān)系、不同樣本之間哪些基因的表達(dá)水平發(fā)生了變化、不同的生理階段如何影響基因的活動(dòng)。

    基因選擇是采用某種優(yōu)化算法從基因表達(dá)譜數(shù)據(jù)的所有屬性中選擇出一個(gè)最具有疾病識(shí)別能力的基因子集的過程[3,4]。選擇出的基因子集在腫瘤識(shí)別過程中發(fā)揮著至關(guān)重要的作用?;诨蛐畔⑴判虻倪^濾法[5]和依賴具體分類器選取基因的纏繞法[6,7]是兩種主要的基因選擇方法?;谂判虻倪^濾法如、信噪比[8]、信息增益[9,10]等具有簡單快速的特點(diǎn),但它們都是按照單個(gè)基因蘊(yùn)含的分類信息多少為標(biāo)準(zhǔn)的,沒有考慮基因之間的相互聯(lián)系,而含有分類信息高的基因組合并不一定是最優(yōu)的組合[11]。纏繞法與具體分類器(如支持向量機(jī)(Support vector machine,SVM),ELM 等)結(jié)合,將分類器預(yù)測正確率作為評(píng)價(jià)基因組合好壞的標(biāo)準(zhǔn),這種方法可以找出最優(yōu)的基因組合,同時(shí)最小化基因子集,但算法每次評(píng)價(jià)一個(gè)基因組合都要進(jìn)行分類器訓(xùn)練,時(shí)間復(fù)雜度較高,而且選擇出的基因子集在其他類型的分類器中的泛化能力不高。

    粒子群優(yōu)化算法是一種新興的基于群體智能的啟發(fā)式全局搜索算法,通過粒子間的競爭和協(xié)作以實(shí)現(xiàn)在復(fù)雜搜索空間中尋找全局最優(yōu)點(diǎn)。本文中使用粒子群算法來進(jìn)行特征選擇,但是由于大多數(shù)PSO算法在應(yīng)用的過程中,其初始化都是隨機(jī)的,不能保證初始群體粒子的合理分布,在PSO搜索過程中,就容易出現(xiàn)大部分粒子均被相同的局部極值所限制時(shí),導(dǎo)致當(dāng)前的粒子群失去多樣性,陷入局部最好解,出現(xiàn)“早熟現(xiàn)象”,最終影響最優(yōu)解的搜索。為了解決這一缺陷,在PSO算法進(jìn)行搜索之前,先對(duì)基因進(jìn)行聚類,并對(duì)聚類結(jié)果進(jìn)行初步選擇,將被選中的簇的中心作為PSO的初始值,每個(gè)被選中的簇作為一個(gè)搜索空間,并利用ELM的分類精度作為特征選擇的適應(yīng)評(píng)價(jià)標(biāo)準(zhǔn)。

    這種將基因聚類提取基因先驗(yàn)信息并耦合進(jìn)PSO算法進(jìn)行特征選擇的思想,由于其初始化都是固定的,且符合數(shù)據(jù)本身特點(diǎn),在很大程度上代表了本來的數(shù)據(jù),這樣就保證了初始群體粒子的合理分布,在PSO搜索過程中,不容易出現(xiàn)大部分粒子均被相同的局部極值所限制的情況,避免出現(xiàn)局部最好解,最終得到的解便是最優(yōu)解,且限制搜索范圍能夠減少搜索的時(shí)間,減少時(shí)間復(fù)雜度。

    1 相關(guān)知識(shí)點(diǎn)

    1.1 熵與信息增益

    令X為隨機(jī)變量,X的不同取值xi,i=1,2,… 對(duì)應(yīng)著不同的概率P(xi),i=1,2,… ,那么X的信息熵定義為

    對(duì)于分類系統(tǒng)來說,類別C(c1,c2,…cl)是變量,因此分類系統(tǒng)的熵就可以定義為

    式(2)表示特征的變化越大,它所代表的信息也就越多。特別地,對(duì)于兩類分類問題,信息熵可以表示為

    基因表達(dá)譜數(shù)據(jù)的信息增益是對(duì)每一個(gè)基因而言的,對(duì)應(yīng)特定的含有n種情況的基因X,它所對(duì)應(yīng)的條件熵為

    其中P(ci|xj)代表基因xj屬于類別ci的條件概率。該基因X為整個(gè)分類系統(tǒng)所帶來的信息增益,可以用原系統(tǒng)的信息熵與基因X固定之后的條件熵之間的差值,用式(5)表示。

    IG(X)便代表了基因表達(dá)譜數(shù)據(jù)中每個(gè)基因的信息增益,信息增益值越大,則該基因代表的分類信息就越多。

    1.2 微粒群優(yōu)化算法

    PSO從這種模型中得到啟示并用于解決優(yōu)化問題。PSO中,每個(gè)優(yōu)化問題的潛在解都是搜索空間中的一只鳥,稱之為粒子。所有的粒子都有一個(gè)由被優(yōu)化的函數(shù)決定的適值,每個(gè)粒子還有一個(gè)速度決定它們飛翔的方向和距離,然后粒子們就追隨當(dāng)前的最優(yōu)粒子在解空間中搜索。

    PSO初始化為一群隨機(jī)粒子(隨機(jī)解),然后通過迭代找到最優(yōu)解。在每一次迭代中,粒子通過跟蹤兩個(gè)極值來更新自己;第一個(gè)就是粒子本身所找到的最優(yōu)解,這個(gè)解稱為個(gè)體極值;另一個(gè)極值是整個(gè)種群目前找到的最優(yōu)解,這個(gè)極值是全局極值。另外也可以不用整個(gè)種群而只是用其中一部分作為粒子的鄰居,那么在所有鄰居中的極值就是局部極值。

    假設(shè)在一個(gè)D維的目標(biāo)搜索空間中,有N個(gè)粒子組成一個(gè)群落,其中第i個(gè)粒子表示為一個(gè)D維的向量

    第i個(gè)粒子的“飛行 ”速度也是一個(gè)D維的向量

    第i個(gè)粒子迄今為止搜索到的最優(yōu)位置稱為個(gè)體極值,記為

    整個(gè)微粒群迄今止搜索到的最優(yōu)位置為全局極值,記為

    在找到這兩個(gè)最優(yōu)值時(shí),粒子根據(jù)式(10,11)來更新自己的速度和位置

    式中:c1和c2為學(xué)習(xí)因子,也稱加速常數(shù),r1和r2為[0,1]范圍內(nèi)的均勻隨機(jī)數(shù)。式(6)右邊由3部分組成,第1部分為“慣性”部分,反映了粒子的運(yùn)動(dòng)“習(xí)慣”,代表粒子有維持自己先前速度的趨勢(shì);第2部分為“認(rèn)知”部分,反映了粒子對(duì)自身歷史經(jīng)驗(yàn)的記憶,代表粒子有向自身歷史最佳位置逼近的趨勢(shì);第3部分為“社會(huì)”部分,反映了粒子間協(xié)同合作與知識(shí)共享的群體歷史經(jīng)驗(yàn),代表粒子有向群體或鄰域歷史最佳位置逼近的趨勢(shì),根據(jù)經(jīng)驗(yàn),通常c1=c2=2。vid是粒子的速度,vid∈[-vmax,vmax],vmax是常數(shù),由用戶設(shè)定用來限制粒子的速度。r1和r2是介于 [0,1]之間的隨機(jī)數(shù)。

    1.3 極限學(xué)習(xí)機(jī)

    式中:βi為連接第i個(gè)隱層節(jié)點(diǎn)與輸出神經(jīng)元的輸出權(quán)值,ai為連接輸入神經(jīng)元與第i個(gè)隱層節(jié)點(diǎn)的輸入權(quán)值,bi為第i個(gè)隱層節(jié)點(diǎn)的偏置,oj為第j個(gè)輸入樣本的輸出值,j=1,…,N。

    如果含有L個(gè)隱層節(jié)點(diǎn),且激活函數(shù)為g(x)的單隱層前饋神經(jīng)網(wǎng)絡(luò)可以零誤差逼近于N個(gè)訓(xùn)練樣本,即存在βi,ai和bi,使得

    成立,并且

    其中式(13)可以表示為

    其中H稱為ELM的隱層輸出矩陣

    如果隱層節(jié)點(diǎn)個(gè)數(shù)L和樣本數(shù)量N是相等的,那么可以很容易的知道式(13,14)是成立的,但是當(dāng)L<N時(shí),單隱層前饋神經(jīng)網(wǎng)絡(luò)并不能零逼近于N個(gè)訓(xùn)練樣本。這時(shí)式(15)可以表示為

    E= [e1,e2,…,eN]T被稱為是訓(xùn)練誤差。這里訓(xùn)練一個(gè)ELM也即計(jì)算訓(xùn)練誤差E的最小范數(shù)

    因此,通過式(18)并利用最小二乘的方法計(jì)算得到輸出權(quán)重

    其中H*為矩陣H的Moore-Penrose廣義逆。

    2 基于聚類與PSO的基因選擇

    在基因組學(xué)中,聚類算法是研究基因間相互關(guān)系的最基本手段。聚類算法能夠?qū)⒛切┚哂邢嗨乒δ芴攸c(diǎn)的基因聚在一起,根據(jù)聚類的結(jié)果,可以預(yù)測未知基因的功能,尋找基因之間的調(diào)控關(guān)系以及發(fā)現(xiàn)共同的模式。其中比較流行的啟發(fā)式方法是K-means方法。在對(duì)基因進(jìn)行聚類時(shí)聚類數(shù)目的選擇有兩種方法,一種是隨機(jī)選取,但是這種選取方法沒有任何的針對(duì)性,需要迭代的次數(shù)較多,計(jì)算量也比較大;另外一種是根據(jù)某種準(zhǔn)則選取,對(duì)基因表達(dá)譜數(shù)據(jù)的基因進(jìn)行聚類時(shí),需要結(jié)合數(shù)據(jù)本身的特點(diǎn),包括數(shù)據(jù)的類別信息和冗余度信息等,如針對(duì)包含兩種類別的樣本進(jìn)行聚類的時(shí)候,基因可以分為與樣本類別相關(guān)的2簇以及1簇對(duì)樣本分類無關(guān)的冗余基因,所以可以確定聚類數(shù)目為3。

    將基因表達(dá)譜數(shù)據(jù)分成訓(xùn)練集和測試集,通過信息增益的方法選擇前n個(gè)信息熵最大的基因。接下來便是利用聚類算法對(duì)初選的基因子集進(jìn)行聚類,聚類方法采用K-means方法,聚類數(shù)目按照上述方法給出,如對(duì)于兩類樣本,聚類數(shù)目選擇為3,k類樣本則對(duì)應(yīng)聚類數(shù)目為k+1。借助分類器對(duì)各簇的基因分類性能進(jìn)行分析,將具有高分類性能的簇選擇出來,排除對(duì)分類影響較小的簇,這些被選擇的簇所包含的基因構(gòu)成一個(gè)冗余度較低的特征基因子集。

    最后將被選中的簇的中心作為初始位置,每一簇作為一個(gè)搜索空間,利用PSO進(jìn)行Wrapper式的特征選擇,本文采用ELM來評(píng)價(jià)基因優(yōu)劣。根據(jù)ELM分類器返回的驗(yàn)證集上的準(zhǔn)確率評(píng)價(jià)每個(gè)粒子的適應(yīng)度值,通過不斷更新PSO中群體粒子的位置和速度來搜索全局最優(yōu)解。

    對(duì)選取的基因的評(píng)價(jià),利用ELM分類器計(jì)算PSO和聚類算法選擇出來的特征基因的適應(yīng)度,評(píng)價(jià)函數(shù)為

    在特征選擇過程中,應(yīng)該選擇樣本測試精度高、基因個(gè)數(shù)少的粒子,即要選擇適應(yīng)度值最大的那個(gè)粒子,所選擇的基因是依賴于ELM分類器的。在PSO中,一個(gè)粒子代表選擇的一組基因子集,粒子在搜索過程中通過基因子集在分類器中評(píng)價(jià),即PSO的適應(yīng)值函數(shù),更新個(gè)體最好位置和全局最好位置,直到達(dá)到最大迭代次數(shù)得到一組最優(yōu)基因子集,最后利用分類器得到測試準(zhǔn)確率,較好的即為提取到的關(guān)鍵基因。其中基因子集的評(píng)價(jià)函數(shù)的過程中,樣本測試精度通過ELM分類器來完成的。選擇出特征基因之后采用ELM建立分類模型,然后根據(jù)建立的模型測試分類正確率。

    算法步驟描述如下:

    (1)利用信息增益方法,對(duì)原始基因進(jìn)行過濾,形成精簡的基因子集FS;

    (2)利用K均值聚類方法對(duì)FS進(jìn)行聚類,將FS聚類為規(guī)定的簇?cái)?shù);

    (3)使用ELM判斷每一簇中基因的分類性能,并選擇具有較高分類性能的簇中的基因作為特征基因子集FSC;

    (4)將FSC的聚類中心作為PSO的初始化位置,每一個(gè)簇作為單獨(dú)的搜索空間進(jìn)行PSO搜索;

    (5)對(duì)選取的基因的評(píng)價(jià),如果滿足要求的指標(biāo),則基因的選擇過程結(jié)束,接下來進(jìn)行步驟6;如果不滿足要求,則采用式(10)和式(11)進(jìn)行最優(yōu)值和粒子位置和速度的更新,重新進(jìn)行特征選擇;

    (6)選擇出特征基因之后采用ELM建立分類模型,然后根據(jù)建立的模型測試分類正確率。

    3 實(shí)驗(yàn)結(jié)果分析

    為了驗(yàn)證算法的有效性,本文在3個(gè)基因表達(dá)數(shù)據(jù)集上進(jìn)行仿真實(shí)驗(yàn)。白血?。↙eukemia)、結(jié)腸癌(colon)、小圓藍(lán)細(xì)胞(SRBCTs)。試驗(yàn)中用到的所有仿真都是在Matlab 2010a中實(shí)現(xiàn)的,所用計(jì)算機(jī)的配置為酷睿雙核2.5GHz,2GB內(nèi)存。由于基因表達(dá)譜數(shù)據(jù)的樣本數(shù)非常少,所有的實(shí)驗(yàn)都采用K-折交叉驗(yàn)證的方法,其中k值均選擇為5。

    在開始特征選擇算法之前,把數(shù)據(jù)集進(jìn)行歸一化處理,使得樣本的每一維特征向量的均值為0,方差為1。接下來對(duì)基因表達(dá)譜數(shù)據(jù)使用信息增益的方法進(jìn)行初步的選擇,確定初選的基因子集,一般選擇前200個(gè)信息增益值最大的基因構(gòu)成候選基因子集。然后對(duì)這個(gè)子集進(jìn)行k均值聚類,最佳的k值根據(jù)樣本類別數(shù)而定,3個(gè)數(shù)據(jù)集分別為3,3和5。對(duì)基因表達(dá)譜數(shù)據(jù)的訓(xùn)練集的基因進(jìn)行聚類后,將ELM作用于每個(gè)簇,得到該簇中最優(yōu)基因子集的分類性能。圖1~3分別為白血病、結(jié)腸癌和小圓藍(lán)細(xì)胞數(shù)據(jù)集的每個(gè)聚類簇中不同數(shù)目的基因組合得到的最好分類精度。其中ELM分類器使用的激活函數(shù)為sigmoid函數(shù),最優(yōu)隱藏層節(jié)點(diǎn)數(shù)通過遞增的方式從1增加到與訓(xùn)練樣本數(shù)相等。

    從圖1~3中可以看出,隨著選擇基因數(shù)目的增多,分類正確率都基本呈現(xiàn)先增加后減少的趨勢(shì)。在白血病數(shù)據(jù)集中單獨(dú)使用簇1和簇3對(duì)樣本進(jìn)行分類獲得的分類精度較簇3高;結(jié)腸癌數(shù)據(jù)集中簇2和簇3獲得較簇1高的分類精度;小圓藍(lán)細(xì)胞中簇1相較其他簇獲得的分類精度比較低。所以根據(jù)2節(jié)中的描述,白血病數(shù)據(jù)集中簇2被視為冗余基因的集合,結(jié)腸癌數(shù)據(jù)集中簇1被視為冗余基因的集合,小圓藍(lán)細(xì)胞中簇1被視為冗余基因的集合。

    通過以上對(duì)基因聚類結(jié)果的分析,分別得到了3個(gè)數(shù)據(jù)集的備選特征基因子集。再用PSO結(jié)合ELM搜索最優(yōu)基因子集。在搜索過程中PSO算法的種群規(guī)模設(shè)置為10,最大迭代次數(shù)為100,初始學(xué)習(xí)因子c1=2,c2=2,慣性權(quán)重w=0.8;ELM分類器使用sigmoid激活函數(shù),最優(yōu)隱藏層節(jié)點(diǎn)數(shù)通過遞增的方式獲得(從1增加到與訓(xùn)練樣本數(shù)相等),適應(yīng)度調(diào)節(jié)參數(shù)α設(shè)置為0.8。

    圖1 白血病數(shù)據(jù)不同簇中不同基因子集的分類性能Fig.1 The Leukemia dataset′s classification accuracy when sub-genes come from different clusters

    圖2 結(jié)腸癌數(shù)據(jù)不同簇中不同基因子集的分類性能Fig.2 The colon dataset′s classification accuracy when sub-genes come from different clusters

    圖3 小圓藍(lán)細(xì)胞數(shù)據(jù)不同簇中不同基因子集分類性能Fig.3 The SRBCT dataset′s classification accuracy when sub-genes come from different clusters

    當(dāng)適應(yīng)度值達(dá)到一定的閾值或者不在變化的時(shí)候,或者迭代達(dá)到最大次數(shù)時(shí),搜索過程便結(jié)束。最大適應(yīng)度值時(shí)對(duì)應(yīng)的被搜索到的基因也就是該算法獲得的最優(yōu)關(guān)鍵基因。

    適應(yīng)度的設(shè)定是分類精度和被選擇基因個(gè)數(shù)的綜合指標(biāo),適應(yīng)度值越高,說明分類精度越高,被選擇的基因個(gè)數(shù)越少。分類精度越高則表明癌癥的診斷率越高,被選擇的基因個(gè)數(shù)越少表明獲得的靶向基因越精確。

    對(duì)使用本文方法選擇后的樣本進(jìn)行分類,最優(yōu)關(guān)鍵基因的個(gè)數(shù)和分類精度的結(jié)果在表1中給出。其中平均分類精度是30次結(jié)果的平均值。

    表1 關(guān)鍵基因個(gè)數(shù)與分類精度Table 1 Relationship between key genes′number and classification accuracy %

    從分類結(jié)果可以看出使用該方法獲得的關(guān)鍵基因子集能夠獲得非常高的分類精度,且能夠盡可能多的消除冗余基因。在白血病數(shù)據(jù)集上,只需要3個(gè)關(guān)鍵基因,就可以獲得100%的分類精度;在小圓藍(lán)細(xì)胞數(shù)據(jù)集上只需要9個(gè)關(guān)鍵基因即可以獲得100%的分類精度;在較難分類的結(jié)腸癌數(shù)據(jù)集上,只需要3個(gè)關(guān)鍵基因便可以獲得93.62%的平均分類精度,但是在分類效果較好的時(shí)候能夠獲得100%的分類精度。3個(gè)數(shù)據(jù)集上的關(guān)鍵基因可以用表2描述。

    表2 本文方法選擇的關(guān)鍵基因描述Table 2 Description of the genes selected by the proposed method

    經(jīng)查閱相關(guān)資料[2-3]可以發(fā)現(xiàn),使用此方法獲得的特征基因,確實(shí)是該基因表達(dá)譜數(shù)據(jù)對(duì)應(yīng)的癌癥的關(guān)鍵基因。因此該方法是具有很強(qiáng)的適用價(jià)值,不僅能夠提高癌癥的診斷率,而且能夠有效獲得靶向基因,為生物醫(yī)學(xué)提供診斷的依據(jù)。

    最后將本文所提方法與幾種經(jīng)典方法以及第3章中提出的PSO-Selection方法進(jìn)行比較,包括分類精度和選擇基因個(gè)數(shù)以及算法的耗時(shí)3個(gè)方面,比較結(jié)果見表3~5。

    表3 本文方法與其他方法在白血病數(shù)據(jù)集上的比較Table 3 Comparison of the proposed method with other method on Leukemia dataset

    表4 本文方法與其他方法在結(jié)腸癌數(shù)據(jù)集上的比較Table 4 Comparison of the proposed method with other method on SRBCT dataset

    表5 本文方法與其他方法在小圓藍(lán)細(xì)胞數(shù)據(jù)上的比較Table 5 Comparison of the proposed method with other method on colon dataset

    從表3~5中可以看出,本文方法與其他6種方法相比,使用最少的基因子集便可以獲得與經(jīng)典的Wrapper方法近似的分類精度,在3個(gè)數(shù)據(jù)集上,白血病和小圓藍(lán)細(xì)胞均獲得100%的分類精度,在比較難分類的結(jié)腸癌數(shù)據(jù)集上獲得的分類精度只比最優(yōu)秀的特征選擇方法低了0.03%。從算法的耗時(shí)上分析,可以看出本文方法雖然遠(yuǎn)高于T-statistic、信噪比和PSO-Selection方法,但是選擇的基因子集個(gè)數(shù)比這3種方法少很多,且分類精度普遍高于這3種方法;而與PSO-ELM,GASVM,PSO-SVM 方法相比[15,16],在 基本上 沒有降低分類精度的前提下,大大地降低了算法的耗時(shí)。雖然本文方法比PSO-ELM方法多了基因聚類以及聚類后簇的選擇過程,但是在進(jìn)行PSO搜索之前已經(jīng)將搜索范圍縮小,且使用聚類中心作為PSO的初始位置使得搜索過程更快趨于最優(yōu),這兩個(gè)因素都使得本文方法的耗時(shí)遠(yuǎn)低于PSOELM方法。

    4 結(jié)束語

    為了有效降低基因表達(dá)譜數(shù)據(jù)基因之間的冗余度,本文提出了一種基于聚類和粒子群算法的基因選擇方法。因?yàn)榫垲愃惴梢愿鶕?jù)基因的功能將具有相同功能的基因聚成一簇,不同功能的基因聚在不同的簇,通過合理的預(yù)處理,含有大量噪聲的信息簇被移除,而具有高貢獻(xiàn)度的基因簇的基因子集構(gòu)成候選特征基因作為PSO的搜索空間。從實(shí)驗(yàn)結(jié)果可以看出,本文方法能夠成功選擇較少數(shù)目但是有較高分類率的基因子集。

    [1]黃德雙.基因表達(dá)譜數(shù)據(jù)挖掘方法研究[M].北京:科學(xué)出版社,2009.

    Huang Deshuang.Research on data mining of gene expression[M].Beijing:Science Press,2009.

    [2]鄭繼平.基因表達(dá)調(diào)控[M].合肥:中國科學(xué)技術(shù)出版社,2012.

    Zheng Jiping.Regulation of gene expression[M].He fei:Chinese Science and Technology Press,2012.

    [3]楊華.基于粒子群算法的特征選擇方法研究[D].長沙:湖南大學(xué),2010.

    Yang Hua.Research on significant genes selection method based on PSO algorithm[D].Changshang:Hunan University,2010.

    [4]Golub T R,Slonim D K,Tamayo P,et al.Class discovery and class prediction by gene expression monitoring[J].Science,1999,286:531-537.

    [5]Liu H Q,Li J Y,Wong L.A comparative study on feature selection and classification methods using Gene expression profiles and proteomic patterns[J].Genome Informatics,2002,13:51-60.

    [6]Zhao Z,Wang L,Liu H.Efficient spectral feature selection with minimum redundancy[C]∥Proceedings of the National Conference on Artificial Intelligence.Atlanta,Georgia,USA:[s.n.],2010,1:673-678.

    [7]Chris D,PengH C.Minimum redundancy feature selection from microarray gene expression data [J]J Bioinform Comput Biol,2005,3(2):185-205.

    [8]Hu Y,Loizou P C.Speech enhancement based on wavelet thresholding the multitaper Spectrum [J].IEEE Trans on Speech and Audio Processing,2004,12(1):59-67.

    [9]劉慶和,梁正友.一種基于信息增益的特征優(yōu)化選擇方法[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(12):130-132.

    Liu Qinghe,Liang Zhengyou.Optimized approach of feature selection based on information gain[J].Computer Engineering and Application,2011,47(12):130-132.

    [10]任江濤,孫婧昊,黃煥宇.一種基于信息增益及遺傳算法的特征選擇算法[J].計(jì)算機(jī)科學(xué),2006,10(33):193-196.

    Ren Jiangtao,Sun Jinghao,Huang Huanyu.Feature selection based on information gain and GA [J].2006,10(33):193-196.

    [11]Leung Y K,Hung Y.A multiple filter multiple wrapper approach to gene selection and microarray data classification[J].IEEE/ACM Transactions on Computational Biology and Bioinformatics,2010,7(1):108-117.

    [12]Huang G B,Ding X J,Zhou H M.Optimization method based extreme learning machine for classification[J].Neurocomputing,2010,74:155-163.

    [13]Huang G B,Zhu Q Y,Siew C K.Extreme learning machine:theory and applications[J].Neurocomputing,2006(70):489-501.

    [14]Huang G B,Zhu Q Y,Siew C K.Extreme learning machine:a new learning scheme of feedforward neural networks[C]∥Proceedings of International Joint Conference on Neural Networks(DCNN2004).Budapest,Hungary:[s.n.],2004:25-29.

    [15]陸慧娟.基于極限學(xué)習(xí)機(jī)集成的腫瘤基因表達(dá)數(shù)據(jù)分類[D].徐州:中國礦業(yè)大學(xué),2013.

    Lu Huijuan.Research on tumor gene expression data classification[D].Xuzhou:China Mining University,2013.

    [16]鄭馨,王勇,汪國有.EM聚類和SVM自動(dòng)學(xué)習(xí)的白細(xì)胞圖像分割算法[J].數(shù)據(jù)采集與處理,2013,28(5):614-619

    Zheng Xin,Wang Yong,Wang Guoyou.White blood cell segmentation using expectation-maximization and automatic support vector machine learning[J].Journal of Data Acquisition and Processing,2013,5(28):614-619.

    猜你喜歡
    子集分類器聚類
    由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
    拓?fù)淇臻g中緊致子集的性質(zhì)研究
    關(guān)于奇數(shù)階二元子集的分離序列
    BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
    電子測試(2018年1期)2018-04-18 11:52:35
    基于DBSACN聚類算法的XML文檔聚類
    電子測試(2017年15期)2017-12-18 07:19:27
    加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
    結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
    基于改進(jìn)的遺傳算法的模糊聚類算法
    每一次愛情都只是愛情的子集
    都市麗人(2015年4期)2015-03-20 13:33:22
    一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
    乌鲁木齐县| 安泽县| 荃湾区| 岢岚县| 宁远县| 界首市| 分宜县| 孟州市| 资溪县| 利川市| 綦江县| 华阴市| 罗定市| 象山县| 衡东县| 宜君县| 通江县| 克什克腾旗| 宜黄县| 平安县| 彭州市| 泌阳县| 三河市| 德昌县| 鲁山县| 建湖县| 洮南市| 新平| 集安市| 永新县| 新巴尔虎右旗| 邵东县| 金山区| 中阳县| 和硕县| 和静县| 浦东新区| 鹤岗市| 都昌县| 拉萨市| 凤凰县|