山東省濰坊醫(yī)學院預(yù)防醫(yī)學系衛(wèi)生統(tǒng)計教研室(261053) 王園園 陳景武
偏最小二乘法是由瑞典經(jīng)濟計量學家 Herman Wold于 1966年首次提出。1983年由伍德 (S.Wold)、阿巴諾(C.A lbano)等人提出了一種新型多元統(tǒng)計分析方法——偏最小二乘回歸 (partial least-squares regression,簡稱 PLS)〔1〕,密西根大學的弗耐爾 (Fornell)教授稱偏最小二乘回歸為第二代回歸分析方法。該方法最初應(yīng)用于計量化學領(lǐng)域并獲得成功,近年來被迅速推廣到其他領(lǐng)域,如生物信息學、社會科學等,并取得了較好效果,但在醫(yī)藥衛(wèi)生領(lǐng)域卻應(yīng)用甚少。本文主要就偏最小二乘回歸分析在醫(yī)學中的用途特點以及正確應(yīng)用的注意事項作簡要探討。
偏最小二乘回歸分析的用途及特點〔2,3〕
1.偏最小二乘回歸可以提供一種“多對多”線性回歸建模的方法。特別當兩組變量的個數(shù)很多,且都存在多重相關(guān)性,而觀測數(shù)據(jù)的數(shù)量又較少時,用偏最小二乘回歸建立的模型具有傳統(tǒng)的經(jīng)典回歸分析等方法所沒有的優(yōu)勢。
2.偏最小二乘回歸在最終模型中將包含原有的所有自變量,從而最大限度地利用了數(shù)據(jù)信息。偏最小二乘回歸采用對變量 X和 Y同時都進行分解的方法,從變量 X和 Y中同時提取成分 (通常稱為因子),再將因子按照它們之間的相關(guān)性從大到小排列,然后決定選擇幾個因子參與建模,最終轉(zhuǎn)換成包含所有原始變量的回歸方程,預(yù)測精度較高。
3.偏最小二乘回歸可以實現(xiàn)多種數(shù)據(jù)分析方法的綜合應(yīng)用。長期以來,模型式的方法和認識性的方法之間的界限分得十分清楚,而偏最小二乘法則把它們有機地結(jié)合起來,在一個算法下,可以同時實現(xiàn)回歸建模 (多元線性回歸)、數(shù)據(jù)結(jié)構(gòu)簡化 (主成分分析)以及兩組變量之間的相關(guān)性分析 (典型相關(guān)分析)。這是多元統(tǒng)計數(shù)據(jù)分析中的一個飛躍。
4.偏最小二乘回歸的建模策略就是建立在信息分解與提取的基礎(chǔ)之上的,在對自變量 X中逐次提取成分,這相當于對自變量中的信息進行重新組合與抽取,從而得到對因變量 Y的解釋能力最強,同時又最能概括自變量集合 X中信息的綜合變量,而與此同時,對 Y沒有解釋意義的信息被自然的排除。
5.在偏最小二乘回歸模型中,每一個自變量 Xi的回歸系數(shù)將更容易解釋。偏最小二乘回歸在對自變量進行信息綜合時,不但考慮了要最好地概括自變量系統(tǒng)中的信息,而且注重所提取成分對因變量信息也必須具有最強的解釋性,經(jīng)過這樣的篩選,對因變量無解釋作用的噪聲自然地被排除掉,因此,偏最小二乘回歸模型在實際系統(tǒng)中的可解釋性更強。
6.一般多元統(tǒng)計方法有兩個重要特點:對數(shù)據(jù)的約束性和預(yù)測方程的數(shù)量永遠不能多于變量 Y跟變量 X的數(shù)量。因為變量 X和變量 Y的因子都必須分別從 X′X和 Y′Y矩陣中提取,這些因子就無法同時表示變量 X和 Y的相關(guān)性。偏最小二乘回歸卻不需要這些對數(shù)據(jù)的約束,預(yù)測方程由從矩陣 Y′XX′Y中提取出來的因子來描述;為了更具有代表性,提取出來的預(yù)測方程的數(shù)量可能大于變量 X與 Y的最大數(shù)??傊?偏最小二乘回歸可能是所有多元統(tǒng)計方法里對變量約束最少的方法,這種靈活性讓它適用于傳統(tǒng)的多元統(tǒng)計方法所不適用的許多場合。
應(yīng)用偏最小二乘回歸分析存在的一些問題
當前發(fā)表的文章中,在應(yīng)用偏最小二乘回歸分析時主要存在以下幾個問題:
1.沒有對自變量和因變量之間線性關(guān)系做出明確的分析推斷,而直接應(yīng)用偏最小二乘回歸方法進行分析。
2.無法對因變量 (解釋變量)與反應(yīng)變量之間的關(guān)系作出精確的定量解釋。偏最小二乘回歸一般用于建立預(yù)測回歸方程,對于未知參數(shù)分布特性的確定無能為力,它所給出因變量與反應(yīng)變量之間結(jié)構(gòu)關(guān)系過于抽象,難以理解,只能作定性分析,無法確定它們之間準確的數(shù)量關(guān)系〔4〕。
3.偏最小二乘法在對動態(tài)多變量過程的模型建立等方面存在一定的局限性。
4.偏最小二乘回歸如何有效消除自變量系統(tǒng)中與因變量無關(guān)的數(shù)據(jù)信息,并在有限的成分中最大限度地提高成分解釋能力,也需進一步研究證明。
1.對自變量與因變量的線性關(guān)系的判斷。應(yīng)用SAS軟件中的 plot語句或者直接繪制自變量與因變量的散點圖即可實現(xiàn)。
2.在建模過程中循環(huán)次數(shù),即選取成分個數(shù)的確定是一個關(guān)鍵所在。為了提高模型的預(yù)測能力,必須選擇一個最優(yōu)的成分個數(shù)。比較常用的方法有兩種:交叉驗證法(cross-validation)和經(jīng)驗法。
交叉驗證法即每個觀測值既參與模型的建立,又參與模型的評價,以此來求得預(yù)測殘差平方和(PRESS),其體現(xiàn)了觀測點的變動所引起的擾動誤差,最后求得所有殘差平方和的合計值作為總的殘差平方和〔2〕。交叉驗證法可分為:①舍一交叉驗證法 (leaveone-out,LOO);②分批交叉驗證法;③分裂樣本 (splitsamp le)交叉驗證法;④隨機樣本交叉驗證法。PRESS值越大,所建模型越不穩(wěn)定,最后按照預(yù)測殘差平方和最小的原則確定提取成分的個數(shù)〔2〕。
經(jīng)驗法是根據(jù)成分累計貢獻率的大小來確定〔5〕,一般只需提取的成分解釋了大部分自變量和因變量的變異信息即可,如取 65%,75%,80%等。這種方法類似于主成分分析中主成分個數(shù)的確定。該方法簡單方便但不精確,回歸方程的精度也不高。
此外,Jacknife方法等也可用于成分個數(shù)的確定。
3.偏小二乘估計是一種有偏估計〔6〕。在回歸分析中,當設(shè)計矩陣呈病態(tài)時,有偏估計在均方誤差意義下改進了最小二乘估計。但實際應(yīng)用中,不能簡單地認為有偏估計總會對最小二乘估計有改進作用,一定要根據(jù)具體問題選擇合適的估計方法。
4.回歸模型的評價及效應(yīng)考核?;貧w模型確定后,需要對模型進行評價。除像普通多元線性回歸,評價從回歸方程的決定系數(shù) (R2),及對各個回歸系數(shù)的檢驗外,還應(yīng)考慮所提取的各個成分對各個變量 (自變量與因變量)的解釋能力以及累積解釋能力。采用主成分分析與典型相關(guān)分析的思想提取成分,不僅保證了提取的成分盡可能多地保留原始變量的信息且保持相互獨立,而且自變量與因變量的相關(guān)性最大;再采用普通最小二乘法建立回歸方程的穩(wěn)定性較好。
實際應(yīng)用中,原始數(shù)據(jù)經(jīng) PLS降維后,可采用傳統(tǒng)的判別方法進行判別分類。另外還需對判別效果進行考核衡量〔7〕。常用兩種方法:其一是對原樣本 (訓練樣本)進行判別,稱為組內(nèi)回代;其二是對原樣本以外的其他樣本 (考核樣本)進行判別,稱為組外考核,亦稱為獨立樣本考核。
偏最小二乘法作為一種降維技術(shù)在微陣列數(shù)據(jù)的判別分析和其他分析領(lǐng)域中都得到了廣泛應(yīng)用〔8〕。比如在生存分析領(lǐng)域,通過病人的基因表達水平來預(yù)測生存時間,傳統(tǒng)的生存分析模型 (如 Cox回歸模型)一般無法直接使用。而 Nguyen和 Rocke建議先運用偏最小二乘法對數(shù)據(jù)進行降維,然后再對提取的成分擬合傳統(tǒng)的生存分析模型。他們的方法在A lizadeh的淋巴瘤患者數(shù)據(jù)和 Softie的乳腺癌患者數(shù)據(jù)上都得到了成功應(yīng)用。
1.W old S,A lbano C,Dunll M.Pattern regression finding and using regularities in multivariate data.M artens J In Proc IUFOST Conf“Food Research and Data”.L ondon A nalysis App lied Science Publication,1983.
2.高惠璇.應(yīng)用多元統(tǒng)計分析.北京大學出版社,2005.
3.蔣紅衛(wèi),夏結(jié)來.偏最小二乘回歸及其應(yīng)用.第四軍醫(yī)大學學報,2003,24(3):280-283.
4.Randall D,Tobias RD.A n introduction to partial least squares regression,SAS Institute Inc.,Cary,NC.
5.蘇越,郭寅龍.偏最小二乘法中主成分數(shù)確定的新方法.計算機與應(yīng)用化,2001,18(3):237-240.
6.肖琳,何大衛(wèi).PLS回歸方法及其醫(yī)學應(yīng)用.中國衛(wèi)生統(tǒng)計,2002,19(2):76-79.
7.陳峰.醫(yī)用多元統(tǒng)計分析方法.中國衛(wèi)生統(tǒng)計出版社,2001.
8.錢國華,荀鵬程,陳峰,等.偏最小二乘法降維在微陣列數(shù)據(jù)判別分析中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2007,24(2):120-123.