• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于最小二乘支持向量機(jī)微陣列基因特征分類

      2019-08-14 11:41:20
      關(guān)鍵詞:分類器結(jié)腸癌白血病

      高 振 斌

      (西安財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院數(shù)學(xué)與應(yīng)用數(shù)學(xué)研究所 陜西 西安 710100)

      0 引 言

      隨著大規(guī)?;虮磉_(dá)譜技術(shù)的發(fā)展,人類各種組織的正?;虮磉_(dá)已經(jīng)獲得,各類病人的基因表達(dá)譜都有了參考的基準(zhǔn),因此基因表達(dá)數(shù)據(jù)的分析與建模已經(jīng)成為生物信息學(xué)研究領(lǐng)域中的重要課題。

      眾多的研究者在此方向上進(jìn)行了卓有成效的研究[1-4]。Chiaretti等[5]對(duì)T細(xì)胞急性白血病的基因表達(dá)譜的分類進(jìn)行了研究,并應(yīng)用到臨床治療和預(yù)測(cè)之中;Sun等[6]在肺癌臨床治療中通過對(duì)脫氧核糖核酸(DNA)微陣列數(shù)據(jù)特征分類從而作出預(yù)判;Devi等[7]基于互信息選擇信息基因,進(jìn)而使用支持向量機(jī)(SVM)分類器對(duì)微陣列數(shù)據(jù)集進(jìn)行分類評(píng)價(jià);Wang等[8]采用改進(jìn)的偏最小二乘遞歸式特征消除(PLS-RFE)算法對(duì)多個(gè)微陣列數(shù)據(jù)集進(jìn)行特征分類和選擇,計(jì)算效率得到提高;Sharbaf等[9]先采用Fisher指標(biāo)進(jìn)行濾波,降低數(shù)據(jù)集維數(shù),然后將元胞學(xué)習(xí)自動(dòng)機(jī)(CLA)與蟻群算法(ACO)相結(jié)合,提高了基因特征分類精度;Khan等[10]提出了一種新的自適應(yīng)徑向基核函數(shù),并在非線性系統(tǒng)辨識(shí)、微陣列數(shù)據(jù)分類以及函數(shù)近似計(jì)算中做了仿真研究;Xiao等[11]提出一種基于多模型集成的深度學(xué)習(xí)算法,并對(duì)三種癌癥數(shù)據(jù)集進(jìn)行驗(yàn)證;李穎新等[12]研究了急性白血病的分類信息基因選取,并以SVM作為分類器進(jìn)行亞型識(shí)別;馬煜等[13]將密度聚類與共享近鄰法相結(jié)合,對(duì)微陣列數(shù)據(jù)進(jìn)行聚類分析;韓利等[14]將粗糙集與SVM結(jié)合,通過粗糙集進(jìn)行基因特征約簡(jiǎn),然后用SVM進(jìn)行數(shù)據(jù)分類;朱欽平等[15]提出了一種微陣列基因差異表達(dá)的多重假設(shè)檢驗(yàn)方法,有效地減弱了數(shù)據(jù)噪聲帶來的假陽性結(jié)果;姚全珠等[16]研究了最小二乘支持向量機(jī)(LS-SVM)特征選擇時(shí)參數(shù)優(yōu)化算法;孫剛等[17]采用改進(jìn)的LASSO算法對(duì)信息基因進(jìn)行特征選擇,剔除冗余基因;楊勤等[18]提出一種核最小二乘特征基因選擇方法,對(duì)微陣列數(shù)據(jù)進(jìn)行降維,然后用極限學(xué)習(xí)機(jī)進(jìn)行訓(xùn)練和預(yù)測(cè)。

      本文采用兩種典型的腫瘤微陣列數(shù)據(jù)集(結(jié)腸癌數(shù)據(jù)集、白血病數(shù)據(jù)集),對(duì)數(shù)據(jù)進(jìn)行歸一化處理,計(jì)算其相關(guān)系數(shù)矩陣;使用主成分分析(PCA)法進(jìn)行降維;使用LS-SVM對(duì)降維后的特征信息基因進(jìn)行分類,并與其他幾種分類方法進(jìn)行了比較。

      1 問題描述

      假設(shè)微陣列特征分類問題可表示為集合O=(X,Y,F),其中,X={x1,x2,…,xN}為樣本集,共有N個(gè)樣本;Y={y1,y2,…,yN}為信息標(biāo)簽集;F={f1,f2,…,fN}為特征集;并且,xk∈X是一個(gè)包含m個(gè)元素(基因表達(dá)水平)的向量,可表示為xk=[x1k,x2k,…,xmk]T∈Rm;yk∈Y是與xk相對(duì)應(yīng)的標(biāo)量;假設(shè)為兩分類(ω1和ω2)問題,則有:

      目的是尋找一組特征信息基因向量fk=[f1k,f2k,…,fpk]T∈F(p≤m),使之能夠精確區(qū)分樣本的基因表達(dá)數(shù)據(jù)。假定所選的特征子集的數(shù)目p盡可能小。

      2 SVM和LS-SVM

      SVM是一種基于統(tǒng)計(jì)學(xué)習(xí)理論,采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的機(jī)器學(xué)習(xí)算法,可以有效地處理高維樣本的分類問題,計(jì)算復(fù)雜度受樣本維數(shù)的影響較小,適合處理小樣本、高維數(shù)的基因表達(dá)數(shù)據(jù)的樣本分類問題。

      SVM模型的目的是構(gòu)造一個(gè)如下形式的最優(yōu)分類函數(shù):

      f(x)=sgn[wTφ(x)+b]

      (2)

      式中:φ(x)為將輸入數(shù)據(jù)映射到高維特征空間的非線性映射;w為超平面權(quán)值系數(shù)向量;b為偏置項(xiàng)。標(biāo)準(zhǔn)支持向量機(jī)分類問題可描述為如下優(yōu)化問題:

      s.t.yk[wTφ(xk)+b]≥1-ek

      ek≥0,k=1,2,…,N

      式中:ek為誤差;w=[w1,w2,…,wN]T為權(quán)值系數(shù)向量;γ>0為懲罰系數(shù),它控制對(duì)超出誤差樣本的懲罰程度。

      LS-SVM算法是在SVM的基礎(chǔ)上通過最小二乘法利用誤差平方和選擇超平面,然后引進(jìn)平方損失函數(shù),將不等式約束轉(zhuǎn)換為線性等式條件,將二次規(guī)劃問題轉(zhuǎn)化為線性求解問題。LS-SVM分類問題可描述為求解下面的等式約束優(yōu)化問題:

      s.t.yk[wTφ(xk)+b]=1-ek

      k=1,2,…,N

      式中:e=[e1,e2,…,eN]T。

      構(gòu)造Lagrange函數(shù)如下:

      b]-1+ek}

      (5)

      式中:αk≥0(k=1,2…,N)為L(zhǎng)agrange乘子。對(duì)上式進(jìn)行優(yōu)化,即求L對(duì)w、b、ek、αk的偏導(dǎo)數(shù)為零,經(jīng)過化簡(jiǎn),可得到如下的線性方程組:

      式中:

      Z=[φ(x1)y1,φ(x2)y2,…,φ(xN)yN]T,

      y=[y1,y2,…,yN]T,1N=[1,1,…,1]T,

      α=[α1,α2,…,αN]T,I為單位矩陣。消除變量w、e,再利用Mercer條件:

      Ωsl=ysylφT(xs)φ(xl)=ysylK(xs,xl)

      s,l=1,2,…,N

      (7)

      可得矩陣方程:

      式中:Ω=[Ωsl]N×N。假設(shè)A=Ω+γ-1I,由于A為對(duì)稱半正定矩陣,因而A-1存在,上式有解。得到LS-SVM分類器為:

      f(x)=sgn[αkykK(x,xk)+b]k=1,2,…,N

      (9)

      式中:αk、b為式(8)的解。

      取徑向基核函數(shù)為:

      3 算法實(shí)現(xiàn)

      3.1 數(shù)據(jù)預(yù)處理

      通常,原始數(shù)據(jù)集在特征選擇之前應(yīng)該被標(biāo)準(zhǔn)化。對(duì)于微陣列數(shù)據(jù)上一個(gè)基因中每個(gè)樣本的表達(dá)值,減去該基因所有樣本的平均值,再除以該基因所有樣本的標(biāo)準(zhǔn)差。經(jīng)過標(biāo)準(zhǔn)化之后,一個(gè)基因在所有樣本上的表達(dá)值滿足均值為0,標(biāo)準(zhǔn)差為1的正態(tài)分布。

      針對(duì)微陣列樣本集X={x1,x2,…,xN},且xk=[x1k,x2k,…,xmk]T,數(shù)據(jù)歸一化計(jì)算如下:

      式中:μi和σi分別是為第i個(gè)基因表達(dá)值的均值和標(biāo)準(zhǔn)差。

      3.2 相關(guān)系數(shù)矩陣

      對(duì)歸一化數(shù)據(jù)求相關(guān)系數(shù)為:

      3.3 提取主成分分量

      主成分分析法的基本思想是在保留盡可能多的原始信息的前提下達(dá)到降維的目的。

      求解特征方程:|λI-R|=0,其中,R=[rij]∈Rm×m為相關(guān)系數(shù)矩陣;求出m個(gè)特征值λ1≥λ2≥…≥λm≥0。確定主成分?jǐn)?shù)量p(

      實(shí)現(xiàn)微陣列數(shù)據(jù)的降維和特征分類步驟如下:

      Step1數(shù)據(jù)預(yù)處理。對(duì)微陣列數(shù)據(jù)集進(jìn)行歸一化處理。

      Step2提取主成分分量。計(jì)算相關(guān)系數(shù)矩陣;采用PCA法,對(duì)所選擇的基因樣本數(shù)據(jù)進(jìn)行降維處理,得到樣本的特征信息基因集。

      Step3分類模型訓(xùn)練。對(duì)特征提取后的信息基因數(shù)據(jù)分別采用LS-SVM等分類器進(jìn)行訓(xùn)練,得到分類模型。

      Step4測(cè)試分類模型。將測(cè)試樣本代入分類模型中,分別采用留一檢測(cè)法和獨(dú)立測(cè)試法評(píng)估各種分類器的性能。

      4 仿真實(shí)驗(yàn)

      4.1 實(shí)驗(yàn)數(shù)據(jù)及開發(fā)環(huán)境

      實(shí)驗(yàn)采用兩個(gè)公開的微陣列數(shù)據(jù)集來評(píng)估本文算法的性能。數(shù)據(jù)集的詳細(xì)描述見表1。結(jié)腸癌數(shù)據(jù)集包括62個(gè)樣本,且分成兩類:正常樣本和結(jié)腸癌樣本。其中,正常樣本22個(gè),結(jié)腸癌樣本40個(gè)和2 000個(gè)基因[1];白血病數(shù)據(jù)集包括128個(gè)樣本,分屬于兩類不同類型的腫瘤:T細(xì)胞ALL(共33例)樣本和B細(xì)胞ALL(共95例)樣本和12 625個(gè)基因[5,19]。

      表1 實(shí)驗(yàn)數(shù)據(jù)及描述

      本文的實(shí)驗(yàn)環(huán)境:Intel CPU 2.53 GHz處理器,2 GB內(nèi)存的PC機(jī),Windows XP操作系統(tǒng),MATLAB 2014b開發(fā)環(huán)境。

      4.2 實(shí)驗(yàn)結(jié)果分析

      實(shí)驗(yàn)1結(jié)腸癌數(shù)據(jù)集分類

      針對(duì)結(jié)腸癌數(shù)據(jù)集,實(shí)驗(yàn)首先經(jīng)過數(shù)據(jù)預(yù)處理,然后,將正常樣本和腫瘤樣本按接近2∶1的比例隨機(jī)地分配到訓(xùn)練集和測(cè)試集中。訓(xùn)練集有40個(gè)樣本(其中正常樣本14,腫瘤樣本26),測(cè)試集有22個(gè)樣本(正常樣本8個(gè),腫瘤樣本14個(gè))。

      然后通過PCA降維方法,提取主成分前十的特征信息基因如表2所示。

      表2 結(jié)腸癌數(shù)據(jù)集中選取的特征基因

      分別采用LS-SVM等分類器對(duì)選取的特征基因進(jìn)行分類。各分類器分類準(zhǔn)確率結(jié)果見表3。圖1、圖2為L(zhǎng)S-SVM分類器訓(xùn)練模型準(zhǔn)確率(100%)以及獨(dú)立測(cè)試實(shí)驗(yàn)準(zhǔn)確率(68.18%)結(jié)果圖。

      表3 結(jié)腸癌數(shù)據(jù)集選取的特征基因集實(shí)驗(yàn)結(jié)果

      圖1 結(jié)腸癌數(shù)據(jù)LS-SVM訓(xùn)練模型準(zhǔn)確率

      圖2 結(jié)腸癌數(shù)據(jù)LS-SVM獨(dú)立測(cè)試準(zhǔn)確率

      實(shí)驗(yàn)2白血病數(shù)據(jù)集分類

      白血病數(shù)據(jù)集經(jīng)過數(shù)據(jù)預(yù)處理,由PCA法求得主成分前十的特征信息基因如表4所示。

      表4 白血病數(shù)據(jù)集中選取的特征基因

      將數(shù)據(jù)集中的兩類樣本分配到訓(xùn)練集和測(cè)試集中。訓(xùn)練集有65個(gè)樣本(T細(xì)胞樣本有48個(gè),B細(xì)胞樣本有17個(gè)),測(cè)試集有63個(gè)樣本(T細(xì)胞樣本有47個(gè),B細(xì)胞樣本有16個(gè))。

      對(duì)選取的特征基因進(jìn)行分類,分別采用留一交叉檢驗(yàn)和獨(dú)立測(cè)試實(shí)驗(yàn),結(jié)果見表5。圖3、圖4分別為L(zhǎng)SSVM分類器留一交叉檢驗(yàn)準(zhǔn)確率(100%)和獨(dú)立測(cè)試實(shí)驗(yàn)準(zhǔn)確率(93.65%)結(jié)果圖。

      表5 白血病數(shù)據(jù)集選取的特征基因集實(shí)驗(yàn)結(jié)果

      圖3 白血病數(shù)據(jù)LS-SVM留一交叉檢驗(yàn)測(cè)試準(zhǔn)確率

      圖4 白血病數(shù)據(jù)集LS-SVM獨(dú)立測(cè)試準(zhǔn)確率

      從表3、表5中看出,對(duì)于兩個(gè)數(shù)據(jù)集的留一交叉檢驗(yàn)結(jié)果,LS-SVM分類器的準(zhǔn)確率最高,分別為97.5%和100%,其次是PNN分類器和RBF分類器;獨(dú)立測(cè)試實(shí)驗(yàn)結(jié)果中,白血病特征基因集的LS-SVM分類器的準(zhǔn)確率最高,為93.65%,而結(jié)腸癌數(shù)據(jù)集LS-SVM分類結(jié)果與其他分類器的結(jié)果差別不大。

      5 結(jié) 語

      微陣列數(shù)據(jù)對(duì)疾病的診斷有很重要的參考價(jià)值,但是,微陣列數(shù)據(jù)的高維和高冗余給進(jìn)一步挖掘其中蘊(yùn)含的知識(shí)帶來極大困難,其中一個(gè)關(guān)鍵任務(wù)就是信息基因的選擇。LS-SVM分類器將SVM優(yōu)化問題的不等式約束轉(zhuǎn)換為線性等式條件,將二次規(guī)劃問題轉(zhuǎn)化為線性求解問題,避免了求解耗時(shí),提高了運(yùn)行效率。本文基于LS-SVM分類器對(duì)兩類癌癥微陣列數(shù)據(jù)集的基因分別進(jìn)行提取和分類。首先,對(duì)微陣列數(shù)據(jù)進(jìn)行歸一化預(yù)處理,計(jì)算其相關(guān)系數(shù)矩陣,并運(yùn)用PCA法進(jìn)行降維。提取特征信息基因集(各取10個(gè)基因),運(yùn)用不同的分類器(包括LS-SVM、PNN、RBF、BP及SVM)進(jìn)行分類。從留一交叉檢驗(yàn)和獨(dú)立測(cè)試兩種實(shí)驗(yàn)結(jié)果可以看出,運(yùn)用LS-SVM分類器,結(jié)腸癌集準(zhǔn)確率分別達(dá)到97.5%和68.2%;白血病集準(zhǔn)確率分別達(dá)到100%和93.7%,從而證明了本文提出的算法比運(yùn)用其他分類器計(jì)算準(zhǔn)確率相對(duì)較高,能夠?yàn)獒t(yī)學(xué)臨床實(shí)踐提供較為可靠的判斷依據(jù)。

      猜你喜歡
      分類器結(jié)腸癌白血病
      白血病男孩終于摘到了星星
      軍事文摘(2024年2期)2024-01-10 01:59:00
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      一例蛋雞白血病繼發(fā)細(xì)菌感染的診治
      MicroRNA-381的表達(dá)下降促進(jìn)結(jié)腸癌的增殖與侵襲
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      結(jié)腸癌切除術(shù)術(shù)后護(hù)理
      白血病外周血體外診斷技術(shù)及產(chǎn)品
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
      中西醫(yī)結(jié)合治療晚期結(jié)腸癌78例臨床觀察
      新民市| 巴里| 缙云县| 虹口区| 崇礼县| 确山县| 华蓥市| 满城县| 景泰县| 淮安市| 龙山县| 渝中区| 武义县| 台前县| 安丘市| 黄石市| 社旗县| 崇仁县| 阜康市| 彭阳县| 那曲县| 如皋市| 黄浦区| 南召县| 馆陶县| 靖江市| 兴隆县| 通州区| 惠安县| 五台县| 芒康县| 新蔡县| 晴隆县| 云南省| 枣阳市| 邮箱| 昌都县| 西城区| 桦甸市| 修文县| 阿拉善右旗|