伍立志 賈孝霞 沈其君
樣本量及抽樣過程對線性模型中自變量重要性估計方法的影響研究*
伍立志1賈孝霞2沈其君3△
目的 通過從同一總體中抽樣產(chǎn)生不同樣本量及相同樣本量的重復抽樣數(shù)據(jù)集,來觀察并評價樣本量對重要性估計方法的影響以及重復抽樣過程對各方法估計穩(wěn)定性的影響。方法 簡單介紹已有的幾種重要性評價方法,調(diào)用SAS中的PROC SURVEYSELECT 過程從同一總體中重復抽樣,觀察樣本量變化、重復抽樣過程對重要性估計結果的影響,評價各方法的穩(wěn)定性。結果 樣本量較小時,各方法的重要性估計值變異較大,隨著樣本量增大估計值也逐漸趨于穩(wěn)定。優(yōu)勢分析、相對權重、乘積尺度(βr)的重要性估計值之和與模型R2之差,小于標準回歸系數(shù)平方(β2)、簡單相關系數(shù)平方(R2),優(yōu)勢分析法的穩(wěn)定性最好。結論 在現(xiàn)有的幾種常見重要性估計方法中,優(yōu)勢分析法的重要性估計穩(wěn)定性最好,相對權重法雖然與優(yōu)勢分析法最為接近,但仍有不足之處。
線性模型 相對重要性 樣本量 抽樣過程 模擬研究
線性模型是在衛(wèi)生、環(huán)境調(diào)查等領域中常用的一種數(shù)據(jù)分析方法,如何分析和解釋線性模型中自變量對因變量變異的貢獻,估計各自變量的相對重要性一直是研究者關注并爭論的話題,先后有數(shù)量眾多的評價方法被提出并推廣應用[1-2]。當研究中自變量之間相互獨立時,可以應用標準回歸系數(shù)、Pearson相關系數(shù)以及偏相關和半偏相關系數(shù)等指標。如果自變量之間互相存在關聯(lián)時,自變量相對重要性估計變得較為復雜,以上幾種指標已不再適用[3]。目前多數(shù)學者推薦的估計方法為乘積尺度法、優(yōu)勢分析法和相對權重等方法。本次研究通過模擬隨機抽樣數(shù)據(jù)樣本,并調(diào)用SAS中的PROC SURVEYSELECT 過程從同一總體中重復抽樣,觀察樣本量變化、重復抽樣過程對重要性估計結果的影響,將學者推薦的這幾種方法與傳統(tǒng)的相關系數(shù)平方和標準回歸系數(shù)平方進行比較,評價各方法的穩(wěn)定性。
1.乘積尺度法
Hoffman于1960年指出模型中自變量(x)的標準回歸系數(shù)(βx)與相應的簡單相關系數(shù)(rxy),兩者之積和即為決定系數(shù)R2,對應的以其乘積βxrxy為每一自變量對因變量變異的貢獻,Hoffman的這一方法被Bring等人命名為“乘積尺度”(product measure)[4]。這一方法明顯的缺點就是存在自變量實際對因變量變異有貢獻時卻出現(xiàn)0值或負值等無法解釋的情況。
2.優(yōu)勢分析
1993年,Budescu首次提出了“優(yōu)勢分析”這一方法,對于任意兩個自變量xi和xj,相對于余下p-2個自變量的任意子集xh,xi均能取得比xj更大的半偏相關系數(shù)平方,則稱xi對xj具有“優(yōu)勢”[5],Azen和Budescu在2003年修訂了“優(yōu)勢”這一定義。將優(yōu)勢分析方法分為完全優(yōu)勢分析、條件優(yōu)勢分析和一般優(yōu)勢分析[6],本文采用了一般優(yōu)勢分析的方法和定義來估計各自變量的相對重要性[7]。
3.相對權重
Johnson提出了ε法即相對權重。它是將自變量Xj正交轉換得到的正交變量ZK,以因變量Y對Zk做回歸得到回歸系數(shù)βk,每個自變量Xj分別對Zk做回歸得到回歸系數(shù)λjk。要計算每個自變量的相對重要性,只需計算每個自變量對應兩組回歸系數(shù)的積和ε[8]。公式如下:
(1)
為考察樣本量變化時對各重要性方法的影響,使用同一相關陣通過前述過程生成不同樣本量的模擬樣本,分別使用不同方法進行自變量相對重要性估計,觀測不同方法的估計結果差異。而在考察抽樣過程的影響時,先模擬一個樣本量為10000的數(shù)據(jù)集作為抽樣所用的總體,抽樣過程調(diào)用SAS中的PROC SURVEYSELECT 過程,樣本量大小100。研究所用的總體相關結構如下表所示:
表1 總體相關陣
Kaiser等人在1962年[11]提出一個矩陣分解過程,證明了將一個特定的矩陣左乘一個完全獨立隨機正態(tài)矩陣時,等價于從這一特定矩陣所代表的總體中進行隨機抽樣的過程。其基本過程如下:
(2)
1.不同樣本量對各方法重要性指標的影響
為考察樣本量變化時對各重要性方法的影響,使用同一相關陣通過前述過程生成不同樣本量的模擬樣本,分別使用不同方法進行自變量相對重要性估計,觀測不同方法的估計結果差異。本文所用的總體相關陣如下表所示:
表2 總體相關陣
各自變量重要性估計值之和應該等于總模型的R2,這是在評價自變量重要性估計方法時的一條重要準則[13],因此本文計算了各模擬樣本中各方法重要性估計值之和,將變量重要性指標和與R2之差的絕對值作為評價各方法估計偏差的統(tǒng)計量,如下表所列:
表3 各方法的重要性指標之和與模型R2之偏差
樣本量設置為從100到10000逐級增加,從上表可以看出,重要性的直接效應指標簡單相關系數(shù)平方R2對應的差值為0.4584±0.0391,而總效應指標標準回歸系數(shù)平方β2對應的差值為0.2810±0.0127,均不能滿足估計值之和應該等于總模型的r2這一基本準則。而優(yōu)勢分析的偏差量為0.0000±0.0000,相對權重和乘積尺度法(βr)對應的差值分別為0.0019±0.0030和0.0079±0.0077,這三個方法的差值均比R2和β2小,且極接近0,尤以優(yōu)勢分析為甚。此外,可見樣本量較小時,相對權重和乘積尺度法的重要性估計值之和與模型R2總仍有差距,當樣本量增大時,估計值之和與模型R2間差值縮小,但相對權重仍好于乘積尺度。而優(yōu)勢分析則不受樣本量變化的影響。
由于各樣本均來自同一總體,因此各模擬數(shù)據(jù)集雖然樣本量不同,但自變量相對重要性估計值之間仍具有可比性。以各自變量估計方法對應的差值作圖如下,以觀察各方法隨樣本量增大而出現(xiàn)的變化趨勢:
圖1 不同樣本量的模擬樣本中自變量重要性估計值
從上圖可以看出,r2的估計值明顯偏大,β2的估計值明顯偏小,而優(yōu)勢分析、相對權重以及乘積尺度三種方法的估計值相差無幾。雖然各樣本均來自同一總體相關陣,但可以看出,樣本量較小時,各方法的重要性估計值變異較大,隨著樣本量增大估計值也逐漸趨于穩(wěn)定。
2.同一總體中重復抽樣對各方法重要性指標的影響
隨機抽樣是研究者為了研究目標人群總體參數(shù)的重要手段,眾所周知,隨機抽取的樣本并不能完全等價于總體。從上節(jié)的結果可以看出,當樣本量較小時,各重要性評價方法的估計結果并不穩(wěn)定,因此,有必要觀察和比較從同一總體中重復抽樣時,各方法的穩(wěn)定性。
本研究中,重復抽樣的總體仍沿用上節(jié)中的四各自變量相關陣,并模擬一個樣本量為10000的數(shù)據(jù)集作為抽樣所用的總體,抽樣過程調(diào)用SAS中的PROC SURVEYSELECT 過程,樣本量大小100。研究所用的總體相關結構和各自變量相對重要性見表4。
本次研究共完成1000次抽樣,使用以上五種方法對每一個抽樣樣本進行相對重要性評價,將樣本的估計值與總體參數(shù)相比較,并使用變異系數(shù)來評價各方法估計值的穩(wěn)定性。結果如下:
表4 總體相關結構與自變量相對重要性
表5 抽樣樣本中X1的重要性指標估計值
表6 抽樣樣本中X2的重要性指標估計值
表7 抽樣樣本中X3的重要性指標估計值
表8 抽樣樣本中X4的重要性指標估計值
可以看出,優(yōu)勢分析、相對權重、乘積尺度(βr)和標準回歸系數(shù)平方(β2)、簡單相關系數(shù)平方(R2)在評價各自變量的相對重要性時,前三種方法的變異系數(shù)均比后兩種方法小,表現(xiàn)出了更好的穩(wěn)定性。從樣本指標均值與總體估計值間的偏差量來看,相對權重法的偏差量為0.0009~0.0085,簡單相關系數(shù)平方(R2)為0.0002~0.0080,變化較大。優(yōu)勢分析的偏差量為0.0012~0.0048,乘積尺度和標準回歸系數(shù)平方的偏差量分別為0.0007~0.0028和0.0001~0.0032。
評價不同樣本量對重要性估計結果的影響時,研究結果顯示標準回歸系數(shù)平方的指標值之和明顯小于模型中R2,而簡單相關系數(shù)平方的指標值之和明顯大于模型R2,其原因在前文中已有討論,這也與其他研究者的結論一致。兩方法的指標值之和與模型R2的差值也未隨樣本量增大而表現(xiàn)出明顯的變化趨勢。乘積尺度、優(yōu)勢分析、相對權重法三種方法的指標和與R2之差,均十分接近于0,其中優(yōu)勢分析法的差值為0.0000±0.0000,且不隨樣本量大小變化而改變。而相對權重和乘積尺度法(βr)對應的差值分別為-0.0019±0.0030和0.0005±0.0111。此外,可見樣本量較小時,相對權重和乘積尺度法的重要性估計值之和與模型R2總仍有差距,當樣本量增大時,估計值之和與模型R2間差值縮小。
為了評估對同一總體的重復抽樣過程是否影響各方法的重要性估計結果,本研究使用了變異系數(shù)來作為評價指標,發(fā)現(xiàn)標準回歸系數(shù)平方的結果變異程度最大,簡單相關系數(shù)平方次之,而優(yōu)勢分析的結果變異最小,重要性估計結果最為穩(wěn)定。
在實際工作中,需估計自變量相對重要性時,如果自變量間存在共線性,不應使用標準回歸系數(shù)平方和簡單相關系數(shù)平方等傳統(tǒng)指標。相對權重法要好于乘積尺度法,但優(yōu)勢分析法對模擬R2的估計最為貼近。盡管優(yōu)勢分析法的計算較為復雜,但隨著計算機硬件的升級,這一問題不再突出。因此當研究數(shù)據(jù)樣本量較小時(<500)時,研究者應盡量使用優(yōu)勢分析法來進行自變量的相對重要性估計,樣本量較大(>600)或為計算簡便,可選用相對權重法。
[1]賈孝霞,伍立志,楊文.對策理論在線性回歸模型自變量重要性估計中的分析及應用.第二軍醫(yī)大學學報,2014,25(8):865-869.
[2]代魯燕,張波,黃啟風.相對權重法在線性模型自變量相對重要性中的估計及其應用.中國衛(wèi)生統(tǒng)計,2013,30(1):19-20.
[3]賈孝霞,伍立志,沈其君.線性回歸中自變量重要性估計的平均秩序方差分解法.中國衛(wèi)生統(tǒng)計,2014,31(3):535-537.
[4]Bring J.A geometric approach to compare variables in a regression model.Am Stat,1996,50(3):57-62.
[5]Budescu DV.Dominance analysis A new approach to the problem of relative importance of predictors in multiple regression.Psychol Bull,1993,114(3):542-551.
[6]Azen R,Budescu DV.The dominance analysis approach for comparing predictors in multiple regression.Psychol Methods,2003,8(2):129-148.
[7]Huo Y,Budescu DV.An Extension of Dominance Analysis to Canonical Correlation Analysis.Mult Behav Res,2009,44(5):688-709.
[8]Johnson JW.A Heuristic Method for Estimating the Relative Weight of Predictor Variables in Multiple Regression.Mult Behav Res,2000,35(1):1-19.
[9]Lebreton JM,Tonidandel S.Multivariate relative importance:Extending relative weight analysis to multivariate criterion spaces.J Appl Psychol,2008,93(2):329-345.
[10]張波,代魯燕,黃啟風.logistic回歸中自變量相對重要性的相對權重估計.中國衛(wèi)生統(tǒng)計,2012,29(2):191-192.
[11]Kaiser HF,Dickman K.Sample and population score matrices and sample correlation matrices from an arbitrary population correlation matrix.Psychometrika,1962,27(2):179-182.
[12]Fan X,Felsovaly A,Sivp SA.SAS for Monte Carlo Studies A Guide for Quantitative Researchers.SAS Publishing,2003.
[13]Cjap YCE,Zhao Y,Kupper LL.Quantifying the Relative Importance of Predictors in Multiple Linear Regression Analyses for Public Health Studies.J Occup Environ Hyg,2008,5(8):519-529.
(責任編輯:郭海強)
The Impact of Sample-size and Sample-process on Several Usual Importance Evaluate Methods
Wu Lizhi,Jia Xiaoxia,Shen Qijun
(SchoolofMedicine,NingboUniversity(315211),Ningbo)
Objective Implement random sample from a simulation population,to evaluate the The impact of sample-size and sample-process on several usual importance evaluate methods,observe the stability of those methods.Methods This study introduced existed importance methods,using PROC SURVEYSELECT procedure to sample a fixed population for 1000 times,generating 1000 same size sample,to evaluate the stability of relative importance methods.We sampled the population to generate datasets with different sample size to observe impact of sample-size on those methods.Results The sum of squared correlation coefficients′ estimator is bigger than model R-square,squared standardized regression coefficients′ sum is smaller.In contrary,sum of the Product Measure,Relative Weight and Dominance Analysis are extremely close to model R-square.When the sample size small than 1000,the estimator have obviously variation,but the variation decreased when the sample size rise up.Conclusion The dominance analysis has best stability,also has the best match of model R2in those methods.
Relative importance;Sample-size;Sample-process;Monte Carlo simulation
國家自然基金(81172771)浙江省醫(yī)藥衛(wèi)生科技項目(2016KYB062)
1.浙江省疾病預防控制中心(310051)
2.浙江醫(yī)藥高等??茖W校
3.寧波大學醫(yī)學院預防醫(yī)學系
△通信作者: