哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室(150081) 李俊南 侯 艷 李 康
核正交偏最小二乘在代謝組學(xué)數(shù)據(jù)分析中的應(yīng)用*
哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室(150081) 李俊南 侯 艷 李 康Δ
目的探索核正交偏最小二乘方法的特點(diǎn)及其在代謝組學(xué)數(shù)據(jù)分析中的應(yīng)用。方法通過模擬實(shí)驗(yàn)和真實(shí)代謝組學(xué)數(shù)據(jù),評價核正交偏最小二乘方法的模型預(yù)測能力及其可視化效果。結(jié)果模擬數(shù)據(jù)分析表明,當(dāng)數(shù)據(jù)間存在線性關(guān)系時,KOPLS與傳統(tǒng)的線性O(shè)PLS具有相同的效果;當(dāng)數(shù)據(jù)間存在非線性關(guān)系時,KOPLS具有相對更高的預(yù)測能力,得分圖的可視化效果更好。實(shí)際數(shù)據(jù)分析結(jié)果顯示,應(yīng)用KOPLS能夠提高模型預(yù)測能力和改善可視化效果。結(jié)論對于高維非線性關(guān)系的代謝組學(xué)數(shù)據(jù)更適合使用KOPLS方法。
核正交偏最小二乘 非線性 代謝組學(xué)
偏最小二乘(partial least squares,PLS)是當(dāng)前在計量化學(xué)和代謝組學(xué)領(lǐng)域中有監(jiān)督分析的常用方法。偏最小二乘利用潛變量的概念,描述自變量矩陣X和因變量矩陣Y之間的關(guān)系,可以用于處理高維數(shù)據(jù)[1]。正交偏最小二乘(orthogonal projections to latent structures,OPLS)是繼PLS回歸之后發(fā)展的一種處理高維數(shù)據(jù)的方法。該方法利用正交信號校正(orthogonal signal correction,OSC)的思想,把與Y無關(guān)的正交變量從預(yù)測結(jié)果中分離出來。從預(yù)測的角度看,當(dāng)只有一個因變量時,PLS和OPLS方法的預(yù)測效果相等,由于預(yù)測得分和載荷矩陣與正交變量沒有關(guān)系,所以O(shè)PLS方法增強(qiáng)了模型的解釋性[2]。
在計量化學(xué)和生物學(xué)系統(tǒng)中,X和Y之間有可能是非線性的關(guān)系,此時利用OPLS或者PLS分析數(shù)據(jù),會使結(jié)果變差。Rosipal和Trejo首次將核函數(shù)引入到偏最小二乘回歸中,用來處理非線性問題[3]。Mattias等人2008年提出了核正交偏最小二乘方法[4],這種方法繼承了OPLS方法的基本思想,進(jìn)一步在特征空間內(nèi)分離預(yù)測成分和正交成分,提高預(yù)測能力和分類可視化效果[5]。本文在簡單介紹KOPLS方法和原理的基礎(chǔ)上,通過模擬試驗(yàn)和實(shí)際數(shù)據(jù),說明KOPLS方法在高維數(shù)據(jù)及代謝組數(shù)據(jù)分析中的適用性。
1.基本原理
核正交偏最小二乘(KOPLS)將原始的X空間的數(shù)據(jù)映射到一個高維特征空間F{x∈X→Φ(x)∈F},并在特征空間里使用線性O(shè)PLS方法解決原始空間的非線性關(guān)系。核點(diǎn)積定義為k(x,y)=〈φ(x),φ(y)〉,需要計算全部的Ki,j=k(xi,xj)(其中xi,xj分別代表自變量矩陣的第i行和第j行),通過使用合適的核函數(shù),可以避免確定X映射到特征空間的映射函數(shù),同時不用在特征空間內(nèi)計算“點(diǎn)積”,其計算非常方便。KOPLS的建模過程見圖1。常見的核函數(shù)有線性核函數(shù)(式1)、多項(xiàng)式核函數(shù)(式2)和徑向基核函數(shù)(通常被稱為高斯核函數(shù))(式3)。
實(shí)際中最常用的方法是高斯核函數(shù)[5]。例如,給定xi和xj
那么核矩陣K的元素ki,j可以計算為
應(yīng)用高斯核函數(shù)的重點(diǎn)是參數(shù)σ的選擇,其影響模型的預(yù)測能力。在實(shí)際中,我們根據(jù)研究目的選擇核參數(shù)。
KOPLS模型包括一系列的預(yù)測成分Tp和一系列的正交成分To,去除正交成分后,把變異都集中在一個預(yù)測成分中,模型解釋簡單。KOPLS方法把Y預(yù)測成分和Y正交成分進(jìn)行分離并沒有影響預(yù)測能力,這種方法還可以識別數(shù)據(jù)中的異?,F(xiàn)象,如儀器零點(diǎn)漂移、批次的不同或者其他的生物變異等,而通過其他方法可能難以識別這些現(xiàn)象。例如,如果兩類數(shù)據(jù)可以通過KOPLS得分圖的正交成分分開,則說明其與有意義的差異變量無關(guān),可能是由于批次不同等非差異變量引起的。
圖1 KOPLS的建模過程示意圖
2.計算方法
(1)核矩陣中心化
對于數(shù)量級差別較大的數(shù)據(jù),在建模之前需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化和對核矩陣K進(jìn)行中心化,式(4)描述了核矩陣的中心化過程。
其中,In是n維單位矩陣,En代表一個(n×1)的向量,它的元素等于1。
(2)建立KOPLS模型
K表示核矩陣,Ao表示正交成分個數(shù),Ki表示被第i個正交成分抽取之后的核矩陣,Qi表示Ki被A個預(yù)測成分抽取之后的核矩陣。具體步驟如下:
①通過特征向量YTKY分解估計預(yù)測Y權(quán)重向量Cp;
②把Y映射到CP上,得到Y(jié)預(yù)測得分矩陣Up∶Up?YCp;
③計算X預(yù)測得分矩陣Tp∶Tp?KUp;
④循環(huán)迭代i從1到Ao;
計算Y正交得分向量toi∶toi?QiTpCo;
通過to,t抽取Ki,形成Ki+1;
更新預(yù)測得分矩陣:Tp?Ki+1Up;
循環(huán)結(jié)束;
實(shí)驗(yàn)?zāi)康模和ㄟ^模擬線性和非線性相關(guān)關(guān)系的數(shù)據(jù),探索KOPLS方法的特點(diǎn)及適用條件,并與常用的OPLS方法進(jìn)行比較。模型的預(yù)測能力通過7折交叉驗(yàn)證得到的Q2統(tǒng)計量衡量,Q2越大說明數(shù)據(jù)中含有生物標(biāo)志物的可能性越大,其診斷效果越好,同時存在過擬合的風(fēng)險較小,可視化效果通過繪制主成分得分圖進(jìn)行判斷。KOPLS方法通過R語言編程實(shí)現(xiàn)。
模擬實(shí)驗(yàn)1:設(shè)有兩組數(shù)據(jù),其中有20個差異變量,在兩個不同的分組中分別服從X1~N(0,1)和X2~N(1.0,1)的正態(tài)分布,產(chǎn)生線性相關(guān)關(guān)系的數(shù)據(jù),同時加入500個無差異變量作為干擾變量,干擾變量在兩類中均服從X~N(0,1)的正態(tài)分布,并分為25組,每組20個變量的相關(guān)系數(shù)均等于0.8,分別利用KOPLS和OPLS進(jìn)行分析,首先對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,KOPLS使用高斯函數(shù),得出每種方法的Q2值,以及繪制得分圖來觀察兩種方法的可視化效果,上述實(shí)驗(yàn)重復(fù)1000次,得出平均Q2值,見圖2。
圖2 KOPLS(a)和OPLS(b)方法的Q2值
從圖2中可以看到KOPLS去除4個正交成分時,Q2最大,Q2=0.905,OPLS去除4個正交成分時,Q2最大,Q2=0.892,通過繪制兩種方法的得分圖(圖3),我們可以看到兩種方法都能將兩類明顯的區(qū)分開。說明當(dāng)數(shù)據(jù)間存在線性相關(guān)關(guān)系時,KOPLS方法與OPLS方法的結(jié)果基本相同。
模擬試驗(yàn)2:產(chǎn)生非線性相關(guān)關(guān)系的數(shù)據(jù),為此先產(chǎn)生正態(tài)分布數(shù)據(jù),然后通過x=5(exp(-X)-4exp(-2X)+3exp(-3X))變換得到模擬數(shù)據(jù)。模擬設(shè)定在第一類中有20個差異變量,均獨(dú)立服從XK~N(1.8,1),在第二類中20個變量均服從XK~N(0,1)的正態(tài)分布,加入與模擬試驗(yàn)1設(shè)置相同的干擾變量。對上述模擬數(shù)據(jù)分別利用KOPLS方法和OPLS方法進(jìn)行分析,分別計算每種方法的Q2值,以及繪制得分圖來觀察兩種方法的分類能力和可視化效果,上述方法重復(fù)實(shí)驗(yàn)1000次,得出平均Q2值,KOPLS方法使用高斯核函數(shù),核參數(shù)σ=20,兩種方法的Q2結(jié)果見圖4。
從圖中可以看到,KOPLS去除1個正交成分時最大,Q2=0.612,當(dāng)進(jìn)行OPLS分析時,其Q2為負(fù)值,去除一個正交成分后,通過繪制兩種方法的得分圖(見圖5),我們可以看到KOPLS很明顯的將兩類區(qū)分開,而OPLS方法卻區(qū)分的不夠好,說明KOPLS在因變量與自變量成復(fù)雜的非線性關(guān)系時,具有較好的模型擬合和預(yù)測效果,而且可視化效果更佳。
圖3 KOPLS(a)和OPLS(b)的預(yù)測成分和第一個正交成分的得分圖
圖4 KOPLS(a)和OPLS(b)方法的Q2值
圖5 KOPLS(a)和OPLS(b)的預(yù)測成分和第一個正交成分的得分圖
選取課題組研究的卵巢癌代謝組數(shù)據(jù),共包含170例樣本,其中卵巢癌患者80例,卵巢囊腫患者90例,分析變量(物質(zhì)濃度峰)共665個。
對上述數(shù)據(jù),分別利用KOPLS和OPLS方法對數(shù)據(jù)進(jìn)行分析。進(jìn)行KOPLS分析時,由于變量的數(shù)量級變化較大,首先對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,然后建立KOPLS模型。KOPLS使用高斯核函數(shù)(σ=20),通過7折交叉驗(yàn)證選擇最大的Q2值,去除3個正交成分時,Q2最大,Q2=0.314。對數(shù)據(jù)進(jìn)行OPLS分析,當(dāng)去除3個正交成分時,Q2最大,Q2=0.206(見表1)。從預(yù)測成分和第一個正交成分的得分圖中(見圖6),可以看到OPLS沒有將兩類很好的分離,而KOPLS的分離效果相對較好??傊?,本例使用KOPLS的預(yù)測效果和可視化效果都優(yōu)于OPLS。
表1 KOPLS和OPLS兩種方法的Q2值比較
圖6 KOPLS方法(a)和OPLS方法(b)的預(yù)測成分和第一個正交成分得分圖
本研究模擬實(shí)驗(yàn)表明,當(dāng)數(shù)據(jù)間存在線性關(guān)系時,應(yīng)用KOPLS和OPLS兩種方法的Q2值和分類可視化效果基本相同,可以任選其中一種方法進(jìn)行分析。在因變量Y與自變量X之間存在復(fù)雜非線性關(guān)系情況下,與OPLS模型相比,KOPLS模型的預(yù)測能力(Q2)穩(wěn)健,同時能夠保持更合適的可視化效果。通過對實(shí)際卵巢癌代謝組學(xué)數(shù)據(jù)的分析,同樣顯示出KOPLS比OPLS得到的結(jié)果更好,說明KOPLS方法可以應(yīng)用在高維代謝組學(xué)數(shù)據(jù)的分析中。
1.Nguyen D,Rocke DM.Tumor classification by partial least squares using microarray gene expression data.Bioinformatics,2002,18:39-50.
2.Trygg J,Wold S.Orthogonal projections to latent structures(O-PLS). Journal of Chemometrics,2002,16:119-128.
3.Rosipal R,Trejo LJ.Kernel Partial Least Squares Regression in Reproducing Kernel Hilbert Space.Journal of Machine Learning Research,2001,2:97-123.
4.Rantalainen M,Bylesjo M.Kernel-based orthogonal projections to latent structures(K-OPLS).Journal of Chemometrics,2007,21:376-385.
5.Czekaj T,Wen W,Beata W.About kernel latent variable approachs and SVM.Journal of Chemometrics,2005,19:341-354.
6.Fonville M,Coen M.Non-linear modeling of 1HNMR metabonomic data using kernel-based orthogonal projections to latent structures optim ized by simulated annealing.AnalyticaChimica Acta,2011,705:72-80.
7.Bylesjo M,Rantalainen M.KOPLS package:Kernel-based orthogonal projections to latent structures for prediction and interpretation in feature space.Bioinformatics,2008,9:106-112.
8.Tao W,Ming Y.Application of Metabolomics in Traditional Chinese Medicine Differentiation of Deficiency and Excess Syndromes in Patients with Diabetes Mellitus.Evidence-Based Complementary and Alternative Medicine,2012.
(責(zé)任編輯:郭海強(qiáng))
The Application of Kernal Orthogonal Projection to Latent Structures(KOPLS)in Metabolomics Data Analysis
Li Junnan,Hou Yan,Li Kang(Department of Medical Statistics,Harbin Medical University(150081),Harbin)
ObjectiveTo explore the characteristics of kernel orthogonal projections to latent structures(KOPLS)method and its application in metabolomics data analysis.MethodsWe use simulated experiment and actual metabolism data to evaluate the prediction ability,classification ability and visualization effect of the KOPLS method.ResultsSimulation experiment and actual metabolomics data analysis proved that when there is a linear relationship between data,the KOPLS has the same effect with traditional linear OPLS methodS.The KOPLS method in dealing with nonlinear relations has higher predictive ability and better classification effect,at the same time,the score of the figure of visual effect is good.ConclusionIt can be applied to high-dimensional omics data analysis better.
Kernel orthogonal projections to latent structures;Non-linear;Metabonomics
*高等學(xué)校博士學(xué)科專項(xiàng)基金(20122307110004);國家自然科學(xué)基金資助(81172767)
△通信作者:李康,likang@ems.hrbmu.edu.cn