• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于PCA與核PCA的微陣列數(shù)據(jù)分析

      2019-06-20 04:01:04黃紫成林增坦
      關(guān)鍵詞:降維識(shí)別率特征提取

      黃紫成,林增坦

      (仰恩大學(xué)工程技術(shù)學(xué)院,福建泉州 362014)

      微陣列技術(shù)是近年來(lái)生物信息領(lǐng)域出現(xiàn)的新興技術(shù),已被廣泛應(yīng)用于藥物研究、疾病診斷、基因測(cè)試等多個(gè)領(lǐng)域[1]。微陣列技術(shù)所呈現(xiàn)的數(shù)據(jù)以矩陣形式表示,也稱為基因表達(dá)數(shù)據(jù),當(dāng)前對(duì)微陣列的數(shù)據(jù)分析主要有差異表達(dá)分析、聚類分析、樣本分類、調(diào)控網(wǎng)絡(luò)、薈萃分析等。本文根據(jù)研究需要,重點(diǎn)進(jìn)行樣本分類分析,該分析是為了建立有效的疾病診斷,使用機(jī)器學(xué)習(xí)算法對(duì)微陣列數(shù)據(jù)進(jìn)行學(xué)習(xí),得出預(yù)測(cè)模型,進(jìn)而再對(duì)未知分類的表達(dá)數(shù)據(jù)進(jìn)行分類判別,為疾病的診斷及治療提供可靠的分類效果。由于微陣列數(shù)據(jù)存在著維數(shù)多而樣本少的問(wèn)題,如何有效地對(duì)基因數(shù)據(jù)進(jìn)行分析,選出具有特殊貢獻(xiàn)的特征基因,提高分類效率,是當(dāng)前基因數(shù)據(jù)樣本分類分析的研究熱點(diǎn)之一[2]。

      目前,有越來(lái)越多的特征選擇算法應(yīng)用于微陣列數(shù)據(jù)的降維分析,并能得到好的分類效果,典型的算法有主成分分析(PCA)[3]、非負(fù)矩陣分解、獨(dú)立分量分析等,常用的分類算法有支持向量機(jī)(SVM)、貝葉斯分類等,把微陣列數(shù)據(jù)降維之后再采用支持向量機(jī)等分類器計(jì)算識(shí)別率,能得到較高準(zhǔn)確率。本文使用PCA與核PCA對(duì)微陣列數(shù)據(jù)進(jìn)行降維處理,再計(jì)算經(jīng)過(guò)這兩種算法處理過(guò)的識(shí)別率,對(duì)比分析運(yùn)用兩種算法處理微陣列數(shù)據(jù)效果的優(yōu)劣。

      1 算法理論介紹

      1.1 主成分分析(PCA)

      主成分分析是一種統(tǒng)計(jì)學(xué)方法,也是數(shù)據(jù)挖掘中常用的一種降維算法,它能在損失很少信息的前提下,把多個(gè)指標(biāo)轉(zhuǎn)化為幾個(gè)綜合指標(biāo),通常把轉(zhuǎn)化生成的綜合指標(biāo)稱之為主成分。

      算法有如下幾個(gè)步驟[4]:

      (3)求系數(shù)矩陣R的特征根與特征向量λ1≥λ2≥…≥λp>0,相應(yīng)正交特征向量為ai=[a1i,a2i,…,api]T,i=1,2,…,p.

      (5)確定主成分個(gè)數(shù),目標(biāo)是用較少的主成分提取更多的原始信息,取決于k和α(k)之間的權(quán)衡。一方面,應(yīng)該使k盡可能?。涣硪环矫?,使累積貢獻(xiàn)率α(k)盡可能大。在實(shí)際使用中,通常取αk≥85%[4]。

      1.2 核主成分分析(KPCA)

      核主成分分析是目前比較流行的一種新的特征提取方法,它是對(duì)PCA的非線性推廣,核函數(shù)的形式為k(xi,xj)=<φ(xi),φ(xj)>,其中,k函數(shù)為核函數(shù),<,>為內(nèi)積。算法簡(jiǎn)要步驟如下[5]。

      (1)計(jì)算矩陣k(xi,xj);

      (2)計(jì)算矩陣k(xi,xj)的m個(gè)特征值和特征向量;

      (3)對(duì)m個(gè)特征向量進(jìn)行歸一化處理;

      1.3 支持向量機(jī)(SVM)

      支持向量機(jī)(SVM)是以統(tǒng)計(jì)學(xué)理論為基礎(chǔ),根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則提出來(lái)的。支持向量機(jī)的分類實(shí)際是通過(guò)非線性的變換將輸入空間變換到一個(gè)高維的空間,接著在此新空間求最優(yōu)線性分類面,通過(guò)定義適當(dāng)內(nèi)積函數(shù)來(lái)實(shí)現(xiàn)這種非線性變換[6]。支持向量機(jī)主要有三種內(nèi)積函數(shù)。

      (1)多項(xiàng)式形式的內(nèi)積函數(shù)K(x,xi)=[(x·xi)+1]q,經(jīng)計(jì)算得到的是一個(gè)以q階多項(xiàng)式為分離器的支持向量機(jī)。

      (3)S形函數(shù)內(nèi)積K(x,xi)=tanh(v(x·xi)+c)。

      2 實(shí)驗(yàn)結(jié)果與分析

      本實(shí)驗(yàn)使用經(jīng)典的基因數(shù)據(jù)集Leukemia[7-8],該數(shù)據(jù)集包含了7129個(gè)基因,其中,訓(xùn)練集有38個(gè)樣本(27個(gè)ALL,11個(gè)AML),測(cè)試集有34個(gè)樣本(20個(gè)ALL,14個(gè)AML)。

      2.1 數(shù)據(jù)預(yù)處理

      在基因變量中,由于受條件限制,存在很多噪聲基因,這些基因會(huì)對(duì)分類結(jié)果產(chǎn)生干擾,在進(jìn)行特征選擇之前,需要先預(yù)處理,即基因篩選。本文選用的基因篩選方法是基因排序方法。計(jì)算各個(gè)基因的t值[9-11],具體公式如下:

      2.2 實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)環(huán)境為Win7 64bit 操作系統(tǒng),8GB內(nèi)存,Intel?Core i7,Matlab R2017a,SVM工具箱使用臺(tái)灣林智仁教授開(kāi)發(fā)的Libsvm[12]。支持向量機(jī)以徑向基BRF作為核函數(shù),利用數(shù)據(jù)集中訓(xùn)練集進(jìn)行訓(xùn)練,選取出一個(gè)最優(yōu)交叉驗(yàn)證準(zhǔn)確率,得到σ與懲罰參數(shù)C,構(gòu)造分類器模型。利用此模型對(duì)測(cè)試集進(jìn)行測(cè)試,計(jì)算識(shí)別率。在實(shí)驗(yàn)中利用PCA與核PCA將數(shù)據(jù)降維到低維,在進(jìn)行SVM分類識(shí)別,兩種特征選擇算法識(shí)別率如表1所示。經(jīng)過(guò)PCA降維之后,最優(yōu)識(shí)別率可以達(dá)到97.0588%,34個(gè)樣本中有33個(gè)被正確識(shí)別。

      表1 PCA特征提取后識(shí)別率

      表2 核PCA特征提取后識(shí)別率

      圖1 PCA與KPCA在不同維數(shù)識(shí)別率比較

      從表2可以看出,核PCA降維之后,效果不是很好,最優(yōu)的識(shí)別率只有52.9412%,34個(gè)測(cè)試樣本只有18個(gè)被正確識(shí)別。為了更直觀地對(duì)比兩種算法特征提取之后的識(shí)別率,畫出圖形如圖1所示。經(jīng)過(guò)PCA特征提取之后的識(shí)別率高于KPCA,這說(shuō)明PCA作為經(jīng)典降維算法應(yīng)用的廣泛性,對(duì)微陣列數(shù)據(jù)來(lái)說(shuō)亦是如此。微陣列數(shù)據(jù)經(jīng)過(guò)降維分析之后,提高了分類識(shí)別率,有利于醫(yī)學(xué)上對(duì)一些疾病的識(shí)別。

      3 結(jié)語(yǔ)

      綜上所述,根據(jù)微陣列數(shù)據(jù)的特征,計(jì)算t值進(jìn)行篩選預(yù)處理,使用PCA與核PCA對(duì)數(shù)據(jù)進(jìn)行特征提取,利用基于徑向基BRF作為核函數(shù)的支持向量機(jī)進(jìn)行分類,計(jì)算分類識(shí)別率。實(shí)驗(yàn)結(jié)果表明,基于PCA降維處理之后其最優(yōu)識(shí)別率達(dá)到97.0588%,34個(gè)測(cè)試樣本有33個(gè)被正確識(shí)別,而核PCA效果不理想,最優(yōu)識(shí)別率只達(dá)到52.9412%。因此,針對(duì)微陣列數(shù)據(jù)高維小樣本的特點(diǎn),采用降維處理方法進(jìn)行分析可以提高分類的準(zhǔn)確性。

      猜你喜歡
      降維識(shí)別率特征提取
      Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
      降維打擊
      海峽姐妹(2019年12期)2020-01-14 03:24:40
      基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
      Bagging RCSP腦電特征提取算法
      高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
      基于MED和循環(huán)域解調(diào)的多故障特征提取
      拋物化Navier-Stokes方程的降維仿真模型
      黎川县| 聂荣县| 南川市| 临武县| 五莲县| 祁门县| 马山县| 高唐县| 日照市| 准格尔旗| 三原县| 平昌县| 会泽县| 禄丰县| 松原市| 左权县| 千阳县| 阜城县| 昭觉县| 吴堡县| 忻州市| 马关县| 胶州市| 仪征市| 手游| 赤壁市| 高要市| 逊克县| 个旧市| 石门县| 峡江县| 麻城市| 自治县| 怀来县| 古浪县| 锡林浩特市| 乌兰察布市| 边坝县| 朔州市| 苗栗县| 砚山县|