• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      PLS算法在多維數(shù)據(jù)挖掘判別分類中的研究及應(yīng)用

      2017-12-08 03:23:52吳順祥
      計算機(jī)應(yīng)用與軟件 2017年11期
      關(guān)鍵詞:高維數(shù)據(jù)挖掘分類

      黃 彪 魏 瀅 吳順祥

      1(廈門大學(xué)嘉庚學(xué)院信息科學(xué)與技術(shù)學(xué)院 福建 漳州 363105) 2(廈門大學(xué)航空航天學(xué)院 福建 廈門 361005)

      PLS算法在多維數(shù)據(jù)挖掘判別分類中的研究及應(yīng)用

      黃 彪1魏 瀅1吳順祥2

      1(廈門大學(xué)嘉庚學(xué)院信息科學(xué)與技術(shù)學(xué)院 福建 漳州 363105)2(廈門大學(xué)航空航天學(xué)院 福建 廈門 361005)

      針對高維少樣本問題,利用偏最小二乘PLS模型,構(gòu)造適合于小樣本問題的挖掘算法。即在PLS的統(tǒng)一框架下,實(shí)現(xiàn)維數(shù)約簡與分類學(xué)習(xí),并在基因表達(dá)譜(Colon)癌數(shù)據(jù)分類問題中,實(shí)現(xiàn)PLS對小樣本數(shù)據(jù)的挖掘與可視化。與經(jīng)典算法SVMs進(jìn)行比較分析,結(jié)果驗證了PLS算法對高維少樣本數(shù)據(jù)挖掘問題的有效性和可靠性。

      廣義小樣本 偏最小二乘 基因表達(dá)譜

      0 引 言

      大數(shù)據(jù)給數(shù)據(jù)挖掘帶來新挑戰(zhàn)。大數(shù)據(jù)時代中出現(xiàn)海量且超高維的數(shù)據(jù),這類高維數(shù)據(jù)通常可以提供更加詳細(xì)、豐富的信息。但是面對這類高維數(shù)據(jù),傳統(tǒng)數(shù)據(jù)挖掘算法和統(tǒng)計計算模型都面臨諸多挑戰(zhàn),許多算法會隨著維數(shù)升高,開銷顯著增長,甚至無法計算。當(dāng)前,對高維數(shù)據(jù)處理通常采用降維方法來降低數(shù)據(jù)處理的復(fù)雜性,其實(shí)質(zhì)是將把高維數(shù)據(jù)的幾何結(jié)構(gòu)映射在低維空間中,去除噪聲,挖掘出隱藏在高維空間中的低維本征表示,便于后續(xù)處理[1]。

      當(dāng)變量(特征)大于樣本容量,出現(xiàn)高維數(shù)少樣本情況,稱為廣義小樣本。如何運(yùn)用有效建模方法充分挖掘小樣本潛在信息,在保證最大化有用信息情況下去除冗余與噪聲,是面臨的重大問題。通常利用已知數(shù)學(xué)模型,分析總的樣本數(shù)據(jù),從而精確描述和推斷其內(nèi)部規(guī)律的信息是統(tǒng)計中常用的方法,其局限性是它需要大的樣本容量。例如用SVMs的有監(jiān)督分類是目前多種數(shù)據(jù)挖掘算法中常用的方法。但是SVMs算法中,每一數(shù)據(jù)集的最優(yōu)核函數(shù)和相應(yīng)的核參數(shù)都是不固定,對于新的數(shù)據(jù)集都必須重新確定相應(yīng)的核函數(shù)和參數(shù),使得SVMs的分類過程難以解釋,也即SVMs在給出結(jié)果時卻無法得知其找到最優(yōu)結(jié)果的真正原因[2]。

      偏最小二乘(PLS)法具有計算量小、算法穩(wěn)定、高預(yù)測度、易于定性理解、最大限度挖掘數(shù)據(jù)信息等特點(diǎn)。PLS回歸的目的是要從自變量系統(tǒng)中提取信息,也要提取對因變量的最大解釋性的成分,用來消除對因變量無法取到作用的信息。同時,也可以有效地處理及預(yù)測樣本容量較小的基因微陣列數(shù)據(jù)(廣義小樣本)[3-5]。

      本文用PLS法分析廣義小樣本和多重共線性數(shù)據(jù)方面具有良好的效果,結(jié)合相關(guān)文獻(xiàn),實(shí)現(xiàn)了基于PLS的廣義小樣本數(shù)據(jù)的判別分類[6]。針對高維少樣本問題,利用偏最小二乘回歸PLS模型構(gòu)造小樣本挖掘算法,在PLS的統(tǒng)一框架下實(shí)現(xiàn)特征壓縮與判別分類。最后以基因表達(dá)譜數(shù)據(jù)(Colon癌數(shù)據(jù))[7],實(shí)現(xiàn)PLS對廣義小樣本數(shù)據(jù)挖掘。實(shí)驗結(jié)果表明PLS算法對廣義小樣本數(shù)據(jù)挖掘是有效性,和經(jīng)典算法SVMs比較說明了結(jié)果的可靠性。

      1 PLS數(shù)學(xué)模型及算法實(shí)現(xiàn)

      1.1 PLS數(shù)學(xué)模型

      設(shè)q個因變量y1,y2,…,yq和p個自變量x1,x2,…,xp,觀測n個樣本點(diǎn),自變量與因變量的數(shù)據(jù)表X=[x1,x2,…,xq]n×q和Y=[y1,y2,…,yq]n×q。將X、Y標(biāo)準(zhǔn)化處理為E0=(E01,E02,…,E0p)n×p,F(xiàn)0=(F01,F02,…,F0q)n×q。記t1是E0的第一成分t1=E0w1,單位向量w1是E0的第一軸‖w1‖=1;記u1是F0的第一成分u1=F0c1,單位向量c1是F0的第一軸‖c1‖=1。

      根據(jù)PCA的原理,使t1、u1盡量攜帶多的X與Y中的變異信息,應(yīng)有:

      Var(t1)→max.and.Var(u1)→max

      回歸建模要求t1對u1有最大解釋能力,由CCA原理知t1與u1的相關(guān)系數(shù)達(dá)到最大,即:

      r(t1,u1)→max

      故PLS回歸要求t1與u1協(xié)方差最大化,即:

      t1與u1的絕對相關(guān)程度由協(xié)方差矩陣來度量,做標(biāo)準(zhǔn)化的預(yù)處理操作,然后協(xié)方差陣與相關(guān)系數(shù)陣相等,等價于t1與u1之間的夾角。因此,這個t1與u1的協(xié)方差用第一成分的內(nèi)積來計算,優(yōu)化上式后得到:

      求得軸w1和c1后,得第一成分t1=E0w1,u1=F0c1。進(jìn)而分別計算E0和F0對t1、u1的三個回歸方程:

      t2=E1w2,u2=F1c2

      其中:FAk是殘差FA的第k列, PLS回歸系數(shù)為αkp。根據(jù)標(biāo)準(zhǔn)化的逆運(yùn)算,最終可還原為Y對X的回歸方程。

      得出t1數(shù)據(jù)后,將X和Y對t1進(jìn)行線性回歸,當(dāng)回歸方程達(dá)到預(yù)期數(shù)值,算法結(jié)束,否則重復(fù)過程運(yùn)用X以及Y被t1解析后剩下的信息進(jìn)行t2的提取,直到達(dá)到預(yù)期數(shù)值后停止算法。假設(shè)對X共提取了m個成分t1,t2,…,tm(m

      1.2 PLS算法實(shí)現(xiàn)

      在PLS回歸中,從自變量和因變量中提取潛變量的方法有主成分法、迭代法、奇異值分解法等。其中,迭代法最為高效,其基本算法主要有兩大類:Wold的非線性迭代偏最小二乘法(NIPALS)[8]和de Jong的簡單偏最小二乘法(SIMPLS)[9]。在運(yùn)行速度上,特別當(dāng)變量X的維數(shù)增加時,SIMPLS算法遠(yuǎn)快于NIPALS算法。對多變量Y的SIMPLS算法運(yùn)行結(jié)果與NIPALS算法結(jié)果略有不同。以下給出經(jīng)典PLS算法。

      (1) 非線性迭代偏最小二乘法(NIPALS)

      奇異值分解法、迭代法和特征向量法是NIPALS中常用的方法,而針對效率性方面,特征向量法是最優(yōu)的[8]。通過協(xié)方差矩陣的主特征向量分解原理求解,算法描述如下:

      算法1NIPALS(X(n*p), Y (n*m), nfac)

      Input: X(n*p), Y (n*m), nfac

      Output: T,U,P,Q,W,VarX,VarY

      初始化:X,Y已標(biāo)準(zhǔn)化,A(1)←X′Y,M(1)←X′X,E(1)←I

      For k←1 to nfac

      c(k)←A′(k)*A(k)的主特征向量

      w(k)←E(k)*A(k)*c(k),w(k)←w(k)/‖w(k)‖

      p(k)←M(k)*w(k),D(k)←w(k)′Mw(k),p(k)←p(k)/D(k)

      q(k)←A′(k)*w(k)/D(k)

      A(k+1)←A(k)-D(k)*p(k)*q′(k)

      M(k+1)←M(k)-D(k)*p(k)p′(k)

      E(k+1)←E(k)-w(k)*p′(k)

      Endfor

      T←XW,B←WQ

      VarX←DIAG(P′*P)/(n-1)

      VarY←DIAG(Q′*Q)/(n-1)

      (2) 簡單偏最小二乘法(SIMPLS)

      SIMPLS是de Jong提出的PLS另一種算法,與NIPALS算法類似,所不同的其約束條件略有不同[9],即:

      max[cov(Xw,Yc)]2

      其中:W=(w1,w2,…,wk)p×k,C=(c1,c2,…,ck)q×k。算法如下:

      算法2SIMPLS(X(n*p), Y (n*m), nfac)

      Input: X(n*p), Y (n*m), nfac

      Output: T,U,P,Q,W,VarX,VarY

      初始化:X,Y已標(biāo)準(zhǔn)化,A(1)←X′Y,M(1)←X′X,E(1)←I

      For k←1 to nfac

      c(k)←A′A的主特征向量

      w(k)←A*c(k),D(k)←w(k)′Mw(k),w(k)←w(k)/sqrt(D(k))

      p(k)←M(k)*w(k)

      q(k)←M(k)*w(k)

      G(k)←E(k)*p(k),G(k)←G(k)/‖G(k)‖

      E(k+1)←E(k)-G(k)G(k)′

      M(k+1)←M(k)-p(k)p(k)′

      A(k+1)←E(k)A(k)

      Endfor

      T←XW,B←WQ

      VarX←DIAG(P′*P)/(n-1)

      VarY←DIAG(Q′*Q)/(n-1)

      2 基于PLS的基因表達(dá)微陣列數(shù)據(jù)判別分類

      為檢驗PLS算法的識別效果有效性,這里采用Affymetrix公司的結(jié)腸癌(Colon)基因表達(dá)譜實(shí)驗數(shù)據(jù),有65 000個寡聚核甘酸探針組的基因芯片。以下采用(Alon1999)篩選的2 000個基因表達(dá)譜數(shù)據(jù),有62個樣本(其中陽性22個,陰性40個)。這是一組公認(rèn)較難的數(shù)據(jù),實(shí)驗數(shù)據(jù)下載網(wǎng)址:http://adios.tau.ac.il/compact。

      這是一個樣本容量為62,變量維數(shù)高達(dá)2 000的廣義小樣本數(shù)據(jù)。依照Alon等[10]對Colon癌數(shù)據(jù)不區(qū)分訓(xùn)練樣本與測試樣本,將其隨機(jī)分為31個訓(xùn)練樣本和31測試樣本。以下采用PLS進(jìn)行分析研究,并與基于支持向量機(jī)(SVMs)的結(jié)果進(jìn)行比較,以說明該方法對于廣義小樣本挖掘是有效的。

      2.1 模型的計算與分析

      采用PLS回歸方法進(jìn)行訓(xùn)練、預(yù)測分類,評價分類結(jié)果及模型的可靠性。方法步驟如下:

      (1) 使用PLS回歸方法降低樣本的維度,設(shè)類別變量Y為因變量,2 000個基因表達(dá)水平為自變量;

      (2) 使用“舍一交叉”的驗證方法及各成分貢獻(xiàn)率來確定成分?jǐn)?shù);

      (3) 對類別變量Y進(jìn)行(1-2)分離,建立預(yù)測模型;

      (4) 進(jìn)行判別分類和可靠性評價。

      分析結(jié)果如表1和表2所示。

      表1中預(yù)測殘差平方和均方的最小值為0.481 434,對應(yīng)的成分?jǐn)?shù)為3,并且PRESS對應(yīng)Prob.>0.1的最小成分?jǐn)?shù)也為3。模型的穩(wěn)定性PRESS的增大而減弱,成分?jǐn)?shù)值量通過最小的原則和預(yù)測殘差平方分析得出。

      表1 各成分?jǐn)?shù)對應(yīng)的預(yù)測殘差平方和

      續(xù)表1

      具體問題中,PLS的成分?jǐn)?shù)已經(jīng)確定,但是沒有明確的規(guī)定,除常用的“舍一交叉驗證方法”外,還要考慮所提取各個成分對各個變量(自變量與因變量)的解釋能力以及累積解釋能力。

      表2中,前3個成分已經(jīng)解釋了自變量變異的28.33%的信息,同時解釋了因變量98.19%的信息,也就是只需用3個“潛變量”就可以解釋類別變量Y的98.19%的信息。盡管只解釋28.33%的自變量信息(事實(shí)上并非所有2 000個基因?qū)︻悇e信息都有鑒別作用)。

      表2 各成分對原變量變異的解釋

      PLS的計算結(jié)果如表3所示。31個訓(xùn)練樣本沒有產(chǎn)生誤判,全部正確識別。

      表3 PLS計算結(jié)果:潛變量、反應(yīng)變量估計值、分類結(jié)果比較

      2.2 模型結(jié)果的可視化

      在三維空間實(shí)現(xiàn)樣本點(diǎn)可視化,作第一成分t1、第二成分t2及第三成分t3的散點(diǎn)圖,如圖1所示。顯然,樣本在PLS降維后,A類與B類樣本各自聚集,并且在分離性方面:PLS明顯優(yōu)于PCA。原因是:在PLS建模過程中,樣本類別信息具有監(jiān)督學(xué)習(xí)的作用,為后續(xù)分類做好鋪墊,提高分類效果。同時,用PLS建模提取出的成分?jǐn)?shù)會比PCA少,數(shù)據(jù)可視化可以實(shí)現(xiàn),而且有可能再挖掘出一些數(shù)據(jù)內(nèi)在特性。而PCA降維可能丟失一些關(guān)鍵信息,不利于分類判別。

      圖1 取三成分時PLS與PCA的訓(xùn)練樣本的散點(diǎn)圖

      在考慮模型的預(yù)測能力時,綜合考慮模型的精度,取成分?jǐn)?shù)(nfac=3)進(jìn)行建模。在(1∶31)訓(xùn)練樣本中,它的擬合值和預(yù)測殘差如圖2所示。從圖可知,前面31個的訓(xùn)練樣本沒有產(chǎn)生誤判,整體正確識別率為100%;模型擬合值(預(yù)測值)pr與實(shí)際值y的Pearson相關(guān)系數(shù)PCC=0.990 91,模型擬合均方誤MSE=0.064 368。顯然擬合精度較高,模型能較好地用于預(yù)測,其預(yù)測值可信度高。并對另外31個測試樣本進(jìn)行判別分類,結(jié)果如圖2的條形圖,測試樣本A類:7,9;B類:21,24,27誤判,測試樣本識別率為:83.87%。

      圖2 實(shí)測值與預(yù)測值的誤差及分類預(yù)測結(jié)果

      2.3 比較分析

      眾所周知,針對這類廣義小樣本,目前常用的方法是SVMs,為比較分析,以下用支持向量機(jī)Matlab的OSU_SVM3.00 工具箱進(jìn)行分類,分別選擇:線性核、多項式核、徑向基核函數(shù),其中多項式核參數(shù)Degree=1,2,3,4。從表4知,基于SVMs的最好結(jié)果為:4個誤判,識別率為87.1%。結(jié)合表3和表4容易得出:PLS結(jié)果與SVMs結(jié)果相比較,沒有太大差異,說明PLS方法是有效的,且其結(jié)果與SVMs結(jié)果一致,說明PLS方法是穩(wěn)健的。

      表4 基于SVMs實(shí)驗結(jié)果

      3 結(jié) 語

      偏最小二乘回歸具有計算量小、算法穩(wěn)定、結(jié)果易于理解、能最大限度挖掘數(shù)據(jù)的潛在信息,可以廣泛運(yùn)用于小樣本數(shù)據(jù)挖掘。本文針對廣義小樣本數(shù)據(jù),利用偏最小二乘回歸(PLS)模型構(gòu)造小樣本挖掘算法:PLS統(tǒng)一框架下的特征壓縮與判別分類。我們以基因表達(dá)譜數(shù)據(jù)的判別分類問題實(shí)現(xiàn)PLS對小樣本數(shù)據(jù)挖掘。研究結(jié)果表明所提PLS算法對高維少樣本數(shù)據(jù)挖掘問題具備有效性和可靠性。

      [1] 蒲玲.自適應(yīng)局部線性降維方法[J].計算機(jī)應(yīng)用與軟件,2013,30(4):255-257.

      [2] 王萌,孫樹棟.基于相異度核空間的支持向量機(jī)算法[J].系統(tǒng)工程理論與實(shí)踐,2013,33(6):1596-1600.

      [3] Zeng X Q,Li G Z,Wu G F,et al.Irrelevant gene elimination for Partial Least Squares based Dimension Reduction by using feature probes[J].International Journal of Data Mining & Bioinformatics,2009,3(1):85-103.

      [4] Li G Z,Zeng X Q.Feature Selection for Partial Least Square Based Dimension Reduction[J].Studies in Computational Intelligence,2009,205:3-37.

      [5] Zeng X Q,Li G Z,Yang M Q,et al.Orthogonal projection weights in dimension reduction based on partial least squares[J].International Journal of Computational Intelligence in Bioinformatics & Systems Biology,2009,1(1):100-115.

      [6] 游文杰,吉國力,袁明順,等.一類小樣本的統(tǒng)計方法建模及其可視化[J].數(shù)學(xué)的實(shí)踐與認(rèn)識,2013,43(7):68-73.

      [7] 謝志偉,王志明,駱劍鋒.基于RD-SVM的腫瘤信息基因選擇算法[J].計算機(jī)應(yīng)用與軟件,2015,32(5):310-313.

      [8] 李志軍,梁樂樂,韓存武,等.基于PLS的多采樣率過程故障檢測及其仿真[J].計算機(jī)仿真,2016,33(10):445-449.

      [9] 胡慧琴,黃林,涂建,等.激光誘導(dǎo)擊穿光譜結(jié)合間隔偏最小二乘法檢測土壤中的Pb[J].激光技術(shù),2015,35(1):104-109.

      [10] Alon U,Barkai N,Notterman D A,et al.Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays[J].Proceedings of the National Academy of Sciences of the United States of America,1999,96(12):6745.

      RESEARCHANDAPPLICATIONOFPLSALGORITHMFORDISCRIMINANTCLASSIFICATIONINMULTIDIMENSIONALDATAMINING

      Huang Biao1Wei Ying1Wu Shunxiang2

      1(SchoolofInformationScienceandTechnology,XiamenUniversityTanKahKeeCollege,Zhangzhou363105,Fujian,China)2(SchoolofAerospaceEngineering,XiamenUniversity,Xiamen361005,Fujian,China)

      For high dimension small sample problem, in this paper, we use the partial least squares (PLS) model to construct a mining algorithm which is suitable for small sample problem. That is, in the unified framework of PLS, we realized the dimension reduction and classification learning, in the classification of Colon cancer using gene expression profile data, the data mining with small sample by PLS and the visualization of the result were implemented. Compared with the classical algorithm SVMs, the results show that our PLS algorithm is effective and reliable for data mining in high dimension and small sample.

      Generalized small-sample Partial least squares (PLS) Gene expression profiles

      2016-12-15。國家自然科學(xué)基金項目(61673327);福建省中青年教師教育科研項目(JA13355)。黃彪,工程師,主研領(lǐng)域:數(shù)據(jù)挖掘,計算機(jī)網(wǎng)絡(luò)。魏瀅,副教授。吳順祥,教授。

      TP391

      A

      10.3969/j.issn.1000-386x.2017.11.011

      猜你喜歡
      高維數(shù)據(jù)挖掘分類
      分類算一算
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      分類討論求坐標(biāo)
      一種改進(jìn)的GP-CLIQUE自適應(yīng)高維子空間聚類算法
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      基于加權(quán)自學(xué)習(xí)散列的高維數(shù)據(jù)最近鄰查詢算法
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      一般非齊次非線性擴(kuò)散方程的等價變換和高維不變子空間
      隆尧县| 贺州市| 双柏县| 辽中县| 邯郸市| 青冈县| 琼中| 广宗县| 孟连| 南岸区| 桦甸市| 鹰潭市| 和平区| 临潭县| 河曲县| 澎湖县| 丹巴县| 嘉荫县| 嵊州市| 雷波县| 六枝特区| 安阳县| 云和县| 景宁| 龙陵县| 米泉市| 琼海市| 海林市| 肃宁县| 原平市| 卓尼县| 永昌县| 蓬莱市| 安乡县| 开封市| 杭锦旗| 阜阳市| 华容县| 巩义市| 博罗县| 原平市|