• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      OPLS方法的原理及其在代謝組學(xué)數(shù)據(jù)判別分析中的應(yīng)用*

      2014-03-10 07:03:59哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室150086李俊南孫鳳宇
      關(guān)鍵詞:組學(xué)可視化變量

      哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(150086) 李俊南 侯 艷 孫鳳宇 李 康

      OPLS方法的原理及其在代謝組學(xué)數(shù)據(jù)判別分析中的應(yīng)用*

      哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(150086) 李俊南 侯 艷 孫鳳宇 李 康△

      目的探討orthogonal projection to latent structures(OPLS)方法的原理、特點(diǎn)及其在代謝組學(xué)高維數(shù)據(jù)分析中的應(yīng)用。方法通過(guò)R語(yǔ)言編程實(shí)現(xiàn)OPLS方法,利用模擬試驗(yàn)探索OPLS的特性及適用條件,并通過(guò)實(shí)際數(shù)據(jù)進(jìn)行驗(yàn)證。結(jié)果利用一個(gè)OPLS預(yù)測(cè)主成分的模型擬合效果與利用偏最小二乘(PLS)多個(gè)主成分的模型擬合效果相同,同時(shí)具有較好的判別能力,其得分圖的可視化效果優(yōu)于PLS。結(jié)論OPLS能夠有效去除自變量矩陣X中與因變量Y無(wú)關(guān)的信息,使模型變得簡(jiǎn)單、易于解釋,同時(shí)具有較好的可視化效果,可有效地用于代謝組學(xué)數(shù)據(jù)分析中。

      orthogonal projection to latent structures(OPLS) 模型擬合 可視化 代謝組學(xué)

      在代謝組學(xué)研究中,由色譜和質(zhì)譜產(chǎn)生的高維數(shù)據(jù)可以應(yīng)用偏最小二乘方法(partial least squares,PLS)進(jìn)行分析,解決降維、分類可視化和特征篩選等問(wèn)題[1-2]。然而,由于代謝組學(xué)數(shù)據(jù)中的很多代謝物質(zhì)(包括物質(zhì)的碎片)具有較高的相關(guān)性,且與分類無(wú)關(guān),利用PLS法無(wú)法將分類的信息集中在前2~3個(gè)主成分中,結(jié)果使分類及可視化效果不好。Orthogonal projections to latent structures(OPLS)是一種新型的多元統(tǒng)計(jì)數(shù)據(jù)分析方法,它由Johan Trygg等人于2002年首次提出[3]。近十年來(lái),這種方法在理論和應(yīng)用方面都得到了迅速的發(fā)展,并在計(jì)量化學(xué)中有了大量的應(yīng)用。OPLS是一種多因變量對(duì)多自變量的回歸建模方法,其最大特點(diǎn)是可以去除自變量X中與分類變量Y無(wú)關(guān)的數(shù)據(jù)變異,使分類信息主要集中在一個(gè)主成分中,模型變得簡(jiǎn)單和易于解釋,其判別效果及主成分得分圖的可視化效果更加明顯[4]。本文在簡(jiǎn)單介紹OPLS的基本思想和原理的基礎(chǔ)上,通過(guò)模擬實(shí)驗(yàn)探索OPLS方法的適用條件,并利用實(shí)際數(shù)據(jù)進(jìn)行驗(yàn)證。

      原理與方法

      1.基本原理

      OPLS從給定的數(shù)據(jù)集X中移除系統(tǒng)正交變量,并把這些正交變量和非正交變量區(qū)分開來(lái),可以對(duì)這些正交變量單獨(dú)進(jìn)行分析。OPLS方法利用響應(yīng)變量Y中的信息把X分成三部分[4-5],即

      其中,TP表示X的預(yù)測(cè)得分矩陣表示X的預(yù)測(cè)載荷矩陣表示預(yù)測(cè)部分,TO表示X與Y的正交成分(稱為OPLS成分)的得分矩陣表示對(duì)應(yīng)的載荷矩陣表示與Y正交的部分,E為殘差矩陣。

      OPLS方法的實(shí)現(xiàn)通過(guò)兩步完成:

      第一步,與Y正交的變量從X數(shù)據(jù)矩陣中剔除,即

      其中T0是與Y正交成分的得分矩陣是與其對(duì)應(yīng)的載荷矩陣。

      第二步,對(duì)XP進(jìn)行偏最小二乘分析。對(duì)于新的樣本,需要先通過(guò)正交成分進(jìn)行校正,再進(jìn)行預(yù)測(cè)。

      2.計(jì)算方法

      文中僅介紹具有一個(gè)Y變量的OPLS算法[3],將原始變量進(jìn)行中心化和標(biāo)準(zhǔn)化后,進(jìn)行下列算法:

      (1)wT=Y(jié)TX/(YTY),計(jì)算X矩陣的權(quán)重向量;

      (2)w=w/‖w‖,對(duì)權(quán)重向量進(jìn)行歸一化;

      (3)t=Xw/(wTw),估計(jì)X矩陣的得分向量t;

      (4)cT=tTY/(tTt),計(jì)算Y矩陣的載荷;

      (5)u=Y(jié)c/(cTc),產(chǎn)生Y矩陣的得分向量;

      (6)pT=tTX/(tTt),計(jì)算X矩陣的載荷;

      (7)w⊥=p-[wTp/(wTw)]w,計(jì)算正交權(quán)重向量,這里p向量可以是任意與w維數(shù)相同的向量;

      (8)w⊥=w⊥/‖w⊥‖,對(duì)正交權(quán)重向量進(jìn)行歸一化;

      (12)保存T⊥=[T⊥t⊥],P⊥=[P⊥,p⊥]以及W⊥=[W⊥w⊥],需要求下一個(gè)正交成分返回到步驟(3),令X=Eopls,否則繼續(xù)13步;

      (13)對(duì)于新的樣本(預(yù)測(cè)樣本)通過(guò)校正模型的W⊥和P⊥來(lái)進(jìn)行校正。

      3.正交成分個(gè)數(shù)的確定

      OPLS使用特征值判別方法和交叉驗(yàn)證方法[3],計(jì)算出正交成分和預(yù)測(cè)成分。特征值計(jì)算方法為

      如果在X中沒(méi)有正交變量,則λ接近0。λ值為正交成分個(gè)數(shù)的選取提供了重要的參考依據(jù)。

      第二種方法使用k折交叉驗(yàn)證的方法,即將樣本數(shù)據(jù)等分成k個(gè)部分選擇使判別精度Q2最大的正交成分個(gè)數(shù)[6],其計(jì)算公式為

      其中,Ym為每個(gè)樣品的真實(shí)標(biāo)簽為k折交叉驗(yàn)證時(shí)測(cè)試樣本中每個(gè)樣品的預(yù)測(cè)值為測(cè)試樣本中所有樣品的平均值,預(yù)測(cè)殘差平方和定量地衡量了樣品預(yù)測(cè)值偏離真實(shí)標(biāo)簽的程度。聯(lián)合使用特征值法和交叉驗(yàn)證方法是確定正交成分個(gè)數(shù)的最好的途徑。

      模擬實(shí)驗(yàn)

      實(shí)驗(yàn)?zāi)康模和ㄟ^(guò)模擬不同相關(guān)結(jié)構(gòu)的高維數(shù)據(jù),探索OPLS方法的特點(diǎn)及適用條件,并與目前在計(jì)量化學(xué)中經(jīng)常使用的PLS方法進(jìn)行比較。模型的擬合能力用相當(dāng)于傳統(tǒng)的多元線性回歸的決定系數(shù),計(jì)算使用的是全部樣本數(shù)據(jù)。判別能力通過(guò)交叉驗(yàn)證得到的Q2(也記為Q2)統(tǒng)計(jì)量衡量,可視化效果通過(guò)主成分得分的散點(diǎn)圖進(jìn)行判斷。OPLS的實(shí)現(xiàn)使用R語(yǔ)言編程[7]。

      模擬實(shí)驗(yàn)1:根據(jù)代謝組學(xué)數(shù)據(jù)特點(diǎn),通常呈偏態(tài)分布,并且包含有極端值,為此產(chǎn)生指數(shù)分布數(shù)據(jù)X。設(shè)有二分類的數(shù)據(jù),其中有20個(gè)差異變量,在兩個(gè)不同的分組中分別服從X~E(0.1)和X~E(0.3)的指數(shù)分布,加入1000個(gè)白噪聲,噪聲服從X~N(0,1)的正態(tài)分布,產(chǎn)生兩個(gè)模擬數(shù)據(jù)集,第一個(gè)數(shù)據(jù)集噪聲之間的相關(guān)性為0,第二個(gè)數(shù)據(jù)集中,將1000個(gè)噪聲分為20組,每組50個(gè)噪聲之間的相關(guān)系數(shù)設(shè)為0.1。重復(fù)試驗(yàn)1000次,結(jié)果顯示:當(dāng)噪聲變量相關(guān)系數(shù)為0,利用PLS進(jìn)行分析時(shí),第一個(gè)主成分的Q2最大(Q2利用OPLS進(jìn)行分析時(shí),去除2個(gè)正交成分后的當(dāng)噪聲變量相關(guān)系數(shù)為0.1時(shí),利用PLS進(jìn)行分析,第一個(gè)主成分的利用OPLS進(jìn)行分析時(shí),去除1個(gè)正交成分后的Q2最大當(dāng)噪聲之間的相關(guān)系數(shù)為0,比較兩種方法的得分圖可以看出PLS的可視化效果與OPLS的可視化效果幾乎相同(圖1)。當(dāng)噪聲之間的相關(guān)系數(shù)為0.1時(shí),得分圖與圖1相類似。說(shuō)明在噪聲變量間不相關(guān)或相關(guān)程度比較低的情況下,PLS利用一個(gè)主成分就能達(dá)到最大的Q2值,同時(shí)可視化效果較好,此時(shí)兩種方法都可使用。

      模擬實(shí)驗(yàn)2:模擬設(shè)定中有20個(gè)差異變量,在第一類中服從X~E(0.1)的指數(shù)分布;在第二類中20個(gè)變量服從X~E(0.19)的指數(shù)分布。加入1000個(gè)無(wú)差異變量作為干擾變量,噪聲變量服從X~N(0,1)正態(tài)分布,并分為20組,每組50個(gè)變量的相關(guān)系數(shù)分別設(shè)為0.95和0.85,并同時(shí)設(shè)定相關(guān)系數(shù)為0,0.1,0.85,0.95四種非等相關(guān)結(jié)構(gòu)構(gòu)成的噪聲,產(chǎn)生三個(gè)模擬數(shù)據(jù)。對(duì)上述模擬數(shù)據(jù)分別利用OPLS和PLS進(jìn)行分析,計(jì)算出三種算法的值,以及各主成分的得分,通過(guò)繪制得分圖的散點(diǎn)圖進(jìn)行可視化效果分析。上述方法重復(fù)試驗(yàn)1000次,得出平均和Q2值,結(jié)果見表1。

      由表1可知,當(dāng)相關(guān)系數(shù)ρ=0.95時(shí),利用PLS進(jìn)行分析,當(dāng)取第一個(gè)主成分時(shí),Q2值最大(Q2=-0.068),此時(shí)對(duì)于OPLS分析,去除5個(gè)正交成分后,Q2值最大通過(guò)比較兩種方法的結(jié)果,可以看出OPLS方法利用1個(gè)預(yù)測(cè)成分能得到較高的Q2值,并使模型變得更加簡(jiǎn)單和容易解釋。而PLS方法則完全失效,其Q2值均為負(fù)值。當(dāng)相關(guān)系數(shù)ρ=0.85時(shí),利用PLS進(jìn)行分析時(shí),其Q2值為負(fù),利用OPLS進(jìn)行分析時(shí),去除6個(gè)正交成分時(shí),Q2值最大,此時(shí)當(dāng)同時(shí)設(shè)定4種非等相關(guān)結(jié)構(gòu)時(shí),利用PLS進(jìn)行分析,當(dāng)選擇3個(gè)主成分時(shí),Q2值最大0.878,利用OPLS進(jìn)行分析時(shí),去除4個(gè)正交成分時(shí),Q2值最大,此時(shí)

      圖1 PLS方法前兩個(gè)主成分得分圖(A)和OPLS方法一個(gè)預(yù)測(cè)成分和第一個(gè)正交成分得分圖(B)

      表1 不同噪聲相關(guān)系數(shù)時(shí)OPLS與PLS兩種分析方法結(jié)果比較

      圖2 ρ=0.95時(shí)PLS方法前兩個(gè)主成分得分圖(A)和OPLS方法一個(gè)預(yù)測(cè)成分與第一個(gè)正交成分得分圖(B)

      進(jìn)而,通過(guò)計(jì)算各成分的得分,繪制了兩種方法的得分圖。圖2表示當(dāng)相關(guān)系數(shù)ρ=0.95時(shí),PLS中前兩個(gè)主成分的得分圖和前三個(gè)主成分的三維得分圖,從圖中我們可以看到PLS不能將兩類完全分開,而利用OPLS方法,其得分圖可以將兩類完全分開(見圖3),說(shuō)明在此模擬研究條件下OPLS方法得分圖的可視化效果明顯優(yōu)于PLS方法,可有效解決PLS的得分圖不能將兩類區(qū)分的問(wèn)題。當(dāng)相關(guān)系數(shù)ρ=0.85時(shí),得分圖與ρ=0.95時(shí)趨勢(shì)相同。當(dāng)同時(shí)設(shè)定4種非等相關(guān)結(jié)構(gòu)時(shí),得分圖見圖4,從圖4(A)中可以看到利用PLS的前兩個(gè)成分沒(méi)有將兩類完全區(qū)分開,利用OPLS的一個(gè)預(yù)測(cè)成分和4個(gè)正交成分中的第一個(gè)正交成分能夠?qū)深愅耆謥?lái)(圖4(B)),并且OPLS方法的判別能力高于PLS方法,證明在此種情況下,OPLS仍具有一定的優(yōu)勢(shì)。

      圖3 ρ=0.95時(shí)OPLS一個(gè)預(yù)測(cè)成分和第一個(gè)正交成分得分圖

      實(shí)例分析

      采用2009年9月至2010年5月期間在哈爾濱醫(yī)科大學(xué)附屬腫瘤醫(yī)院收集的76例卵巢癌患者血漿樣品和92例子宮肌瘤患者的血漿樣品,經(jīng)過(guò)UPLC-MS-Q-TOF儀器檢測(cè)分析和預(yù)處理后得到代謝組學(xué)數(shù)據(jù),共獲得1499個(gè)峰(變量),分類變量為Y,卵巢癌為1,子宮肌瘤為0。

      1.利用PLS對(duì)數(shù)據(jù)進(jìn)行分析

      利用PLS方法進(jìn)行分析,當(dāng)取7個(gè)主成分時(shí),Q2值最大,等于0.624,此時(shí)計(jì)算PLS主成分得分,得到前兩個(gè)成分的得分圖,見圖6,從圖中可見,PLS的前兩個(gè)成分在標(biāo)識(shí)的區(qū)域中兩種樣本混在一起,其可視化效果不夠理想。利用前三個(gè)成分繪制三維得分圖,其區(qū)分效果有一定提高,但不夠明顯。

      圖4 同時(shí)設(shè)定4種非等相關(guān)結(jié)構(gòu)時(shí)PLS前兩個(gè)主成分得分圖(A)與OPLS一個(gè)預(yù)測(cè)成分和第一個(gè)正交成分得分圖(B)

      圖5 PLS方法前兩個(gè)主成分得分圖(A)和前三個(gè)主成分三維得分圖(B)

      圖6 每個(gè)OPLS成分的λ的直方圖

      圖7 OPLS一個(gè)預(yù)測(cè)成分和第一個(gè)正交成分得分

      圖8 置換檢驗(yàn)圖(A)和Q2置換檢驗(yàn)圖(B)

      2.利用OPLS法對(duì)數(shù)據(jù)進(jìn)行分析

      從特征值方法看到取6~8個(gè)成分時(shí)λ值都比較?。▓D6),利用交叉驗(yàn)證方法得出,去除6個(gè)正交成分時(shí)的Q2值最大(Q2=0.622),因此本例選擇去除6個(gè)正交成分,此時(shí)結(jié)果表明,利用一個(gè)預(yù)測(cè)成分和6個(gè)正交成分中的第一個(gè)正交成分的得分圖可以明顯地區(qū)分對(duì)照組和病例組,可視化效果明顯(圖7)。為證明OPLS方法結(jié)果的真實(shí)性,我們進(jìn)行置換檢驗(yàn),隨機(jī)打亂Y變量標(biāo)簽1000次,得到每次值與Q2值,其頻數(shù)分布圖見圖8,圖8(A)中橫坐標(biāo)為0.72的點(diǎn)為正確標(biāo)簽下的值,圖8(B)橫坐標(biāo)為0.622的點(diǎn)為正確標(biāo)簽下的Q2值,從兩圖中可以看到打亂標(biāo)簽后的值和Q2值明顯小于正確標(biāo)簽下的和Q2值,說(shuō)明OPLS方法得出的結(jié)果是真實(shí)的。兩種方法的值與Q2值比較見表2。

      表2 卵巢癌代謝組學(xué)數(shù)據(jù)兩種分析方法的結(jié)果比較

      討 論

      1.代謝組學(xué)數(shù)據(jù)具有高維、小樣本的特性,其中既有對(duì)分類起作用的差異變量,同時(shí)包含大量相關(guān)的無(wú)差異變量,如果利用PLS進(jìn)行分析,則由于相關(guān)變量的影響,使差異變量分散在多個(gè)主成分上,當(dāng)主成分個(gè)數(shù)大于3時(shí),無(wú)法更好地進(jìn)行可視化(只能選擇三個(gè)貢獻(xiàn)大的主成分)。OPLS方法則能夠移除X變量中與Y變量不相關(guān)的變量,使有差異的變量集中在第一個(gè)主成分中,模型變得簡(jiǎn)單和易于解釋,更好地實(shí)現(xiàn)結(jié)果的可視化。

      2.通常情況下,當(dāng)無(wú)差異變量相關(guān)程度不高時(shí),PLS方法能得到較好的效果,此時(shí)應(yīng)用OPLS方法分析結(jié)果差別不大,我們可以任選PLS或者OPLS中的一種方法對(duì)數(shù)據(jù)進(jìn)行分析。理論上講,從判別角度看,由于PLS可以利用多個(gè)主成分,而OPLS僅使用了一個(gè)主成分,可能有些較弱的差異變量被當(dāng)作正交成分被剔除,使實(shí)際判別效果略為變差。實(shí)際中,由于代謝組學(xué)中很多物質(zhì)是同一種代謝物產(chǎn)生的碎片,這些碎片通常具有高度相關(guān)性,同時(shí)很多物質(zhì)間由于代謝通路的關(guān)系也具有較高的相關(guān)性,因此在模擬實(shí)驗(yàn)中設(shè)置了變量高相關(guān)的情況。當(dāng)無(wú)差異變量相關(guān)程度較高時(shí),利用OPLS方法的效果優(yōu)于PLS。

      3.本文用兩種方法對(duì)卵巢癌代謝組學(xué)數(shù)據(jù)進(jìn)行了分析,利用兩種分析方法對(duì)實(shí)際數(shù)據(jù)進(jìn)行分析,結(jié)果顯示OPLS方法可視化效果優(yōu)于PLS方法,同時(shí)具有較高的判別能力,與模擬試驗(yàn)的結(jié)果相一致。在實(shí)際應(yīng)用中,我們可以根據(jù)數(shù)據(jù)變量之間是否相關(guān),綜合考慮可視化效果和判別能力(Q2)進(jìn)行方法的選擇。

      4.PLS和OPLS方法都只適合線性相關(guān)結(jié)構(gòu)的數(shù)據(jù)分析,如果變量間存在非線性關(guān)系,使用這兩種方法分析的效果可能會(huì)明顯變差,這時(shí)可以考慮利用處理非線性數(shù)據(jù)的核方法[8]。

      1.Barker M,RayensW.Partial least squares for discrimination.Journal of Chemometrics,2003,17(3):166-173.

      2.蔣紅衛(wèi),夏結(jié)來(lái),李園,于莉莉.偏最小二乘判別分析在基因微陣列分型中的應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2007,24(4):372-374.

      3.Trygg J,Wold S.Orthogonal projections to latent structures(O-PLS). Journal of Chemometrics,2002,16:119-128.

      4.Bylesjo M,Rantalainen M,Cloarec O,etal.OPLS discriminant analysis:combining the strengths of PLS-DA and SIMCA classification.Journal of Chemometrics,2006,20:341-351.

      5.Tapp HS,Kemsley EK.Notes on the practical utility of OPLS.Trends in Analytical Chemistry,2009,28(11):1322-1327.

      6.Wold S.Cross-Validatory estimation of the Number of Components in Factor and Principal ComponentsModels.TEchnometrics,1978,20:397-405.

      7.The R project for Statistical Computing[http://www.rproject.org/].

      8.Czekaj T,Wu W,Walczak B.About Kernel latent variable approaches and SVM.Journal of Chemometrics,2005,19:341-354.

      (責(zé)任編輯:丁海龍)

      The Theoretical Properties of Orthogonal Projection to Latent Structures(OPLS)and its Application in M etabolom ics Data Analysis

      Li Junnan,HouYan,Sun Fengyu,et al.(DepartmentofMedicalStatistics,HarbinMedicalUniversity(150081),Harbin)

      ObjectiveTo explore the theoretical properties and characteristics of orthogonal projection to latent structures(OPLS)and the application inmetabolomics data aswell.MethodsWe independently program OPLS algorithms using R and explore the OPLSmethod to the real conditionsw ith simulation studies and validated the utility to the real example.ResultsThemodel fitting effect w ith single OPLS principal component is identical to that w ith multiple components obtained from PLSmethod.Meanwhile,OPLS has excellent external prediction ability as well as a better visualization effect compared w ith PLS.ConclusionOPLS can effectively remove information unrelated to the response,which improved,its explanatory ability and visualization effect.Thismethod can effectively be used in metabolom ics data.

      Orthogonal Projection to Latent Structures;Model Fitting;Metabonom ics;Visualization

      *:高等學(xué)校博士學(xué)科專項(xiàng)基金(項(xiàng)目編號(hào):20122307110004);國(guó)家自然科學(xué)基金資助(項(xiàng)目編號(hào):81172767)

      △通信作者:李康,likang@ems.hrbmu.edu.cn

      猜你喜歡
      組學(xué)可視化變量
      基于CiteSpace的足三里穴研究可視化分析
      基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
      云南化工(2021年8期)2021-12-21 06:37:54
      抓住不變量解題
      也談分離變量
      基于CGAL和OpenGL的海底地形三維可視化
      “融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
      口腔代謝組學(xué)研究
      基于UHPLC-Q-TOF/MS的歸身和歸尾補(bǔ)血機(jī)制的代謝組學(xué)初步研究
      SL(3,3n)和SU(3,3n)的第一Cartan不變量
      代謝組學(xué)在多囊卵巢綜合征中的應(yīng)用
      南阳市| 山阴县| 灵丘县| 鸡泽县| 东乌珠穆沁旗| 泰顺县| 马龙县| 微博| 万荣县| 阿克陶县| 巩留县| 木里| 织金县| 红原县| 乐至县| 广西| 邓州市| 福清市| 曲靖市| 金溪县| 南投市| 历史| 高邑县| 从化市| 广州市| 南宁市| 洞口县| 宜兰市| 藁城市| 无锡市| 双江| 梁山县| 遂川县| 东光县| 迁西县| 浦县| 兖州市| 棋牌| 隆德县| 万载县| 新乡市|