崔 壯,胡良平
(1.天津醫(yī)科大學公共衛(wèi)生學院衛(wèi)生統(tǒng)計學教研室,天津 300070;2.軍事醫(yī)學科學院生物醫(yī)學統(tǒng)計學咨詢中心,北京 100850;3.世界中醫(yī)藥學會聯(lián)合會臨床科研統(tǒng)計學專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu812@sina.com)
復雜調(diào)查資料的特點與統(tǒng)計分析方法概述
崔 壯1,胡良平2,3*
(1.天津醫(yī)科大學公共衛(wèi)生學院衛(wèi)生統(tǒng)計學教研室,天津 300070;2.軍事醫(yī)學科學院生物醫(yī)學統(tǒng)計學咨詢中心,北京 100850;3.世界中醫(yī)藥學會聯(lián)合會臨床科研統(tǒng)計學專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu812@sina.com)
復雜抽樣是在抽樣過程中采用除一階段單純隨機抽樣外,其他抽樣方法或其組合的抽樣方案。本文對復雜抽樣資料的特點、基于復雜調(diào)查資料進行差異性分析、多重回歸分析以及進行生存資料多重回歸分析的要點進行宏觀概述。為科研工作者進行復雜抽樣資料的分析提供參考和借鑒。
復雜調(diào)查;特點;抽樣權重;統(tǒng)計分析技術;多重回歸分析
1.1 何為復雜抽樣
復雜抽樣是指在抽樣過程中采用除一階段單純隨機抽樣外,其他抽樣方法或其組合的抽樣方案,通過復雜抽樣完成的調(diào)查稱為復雜調(diào)查[1]。復雜抽樣通常具有分層、整群、不等概率或多階段設計等方法,其產(chǎn)生的樣本稱為復雜樣本。復雜抽樣有以下優(yōu)點:節(jié)省人力物力,使大規(guī)模調(diào)查更具可行性;可靈活調(diào)整樣本量在各級抽樣單位中的分配;可通過改變抽樣比來提高子總體的代表性和估計的可靠性。因此,目前在社會科學領域以及衛(wèi)生領域調(diào)查研究中[2],尤其是大規(guī)模調(diào)查,一般涉及多地區(qū)或多中心的抽樣問題,由于單純隨機抽樣因調(diào)查對象過于分散、成本高且可行性較低[3],故選擇復雜抽樣設計。
1.2 分析復雜抽樣資料的困難
復雜隨機抽樣中每個階段的抽樣方法不一定相同,其抽樣誤差的計算隨著抽樣階段及抽樣方法的增多變得極為復雜。然而,研究者在統(tǒng)計分析時,常忽略之前采取的抽樣設計方法,將資料均視為來自單純隨機抽樣設計下獲得的資料來處理。實際上,在不同抽樣率下得到的等量樣本量的樣本數(shù)據(jù)所包含的信息是不同的,即“抽樣權重”不同[4]。有研究[5]顯示,對分層抽樣獲得的復雜調(diào)查數(shù)據(jù)進行列聯(lián)表的卡方檢驗、構建OR的95%置信區(qū)間時,若忽視分層,會導致過于保守的檢驗(P值偏大),OR的置信區(qū)間通常也會變寬;而對于整群抽樣,通常會產(chǎn)生相反的影響,若忽視整群效應,會獲得偏小的P值和更窄的置信區(qū)間,而事實上的置信區(qū)間并非如此精確。
1.3 需要引入權重
文獻[4]認為,在抽樣調(diào)查研究中將觀測對結果的貢獻程度考慮在內(nèi),在分析中應考慮抽樣權重和觀測權重,同時也提出了綜合權重的概念。研究顯示納入綜合權重的結果更加靈敏且準確、穩(wěn)健。
觀測權重是基于綜合評價中權重系數(shù)的思想,在回歸分析中引入反映每個個體或觀測對總體的重要性的度量,表示在其他觀測不變的情況下,該觀測的變化對結果的影響程度。常用的有經(jīng)驗權重法、試驗次數(shù)權重法和貢獻權重法等[4]。
抽樣權重是在抽樣研究中,為反映所抽取的樣本中各個觀測在總體中的重要程度,或樣本中各個觀測代表總體中個體的數(shù)目。抽樣權重的大小與抽樣方法有關,分為基礎抽樣權重、調(diào)整抽樣權重與總抽樣權重[4]。
綜合權重是在對隨機抽樣所得的數(shù)據(jù)進行統(tǒng)計分析時,不僅考慮抽樣權重,還將觀測權重考慮在內(nèi),計算各個觀測對結果總的重要程度。其計算方法是:綜合權重=觀測權重×抽樣權重[4]。
但是,隨著抽樣率的變化和樣本的不同,同一個觀測對模型擬合的貢獻是不同的。而對于不同的抽樣率和樣本中同一個觀測的觀測權重應當是不同的。同時,基于觀測權重得到的綜合權重也應當隨樣本的變化而變化。因此,如何動態(tài)地計算觀測權重與綜合權重仍需進一步研究[4]。
1.4 如何準確估計抽樣誤差
實際研究中,大多數(shù)大規(guī)模的樣本并非通過簡單隨機抽樣獲得的,或通過分層減小方差,對感興趣的領域進行估計,或通過分群來降低成本。在復雜調(diào)查中,采用復雜的抽樣方式獲得的數(shù)據(jù)通常不是獨立的,并且每個樣本被抽到的概率是不相等的。但標準統(tǒng)計軟件一般是按假定觀測單位是獨立等分布的條件下編寫的分析程序,可以給出均值等統(tǒng)計量的正確估計,但這時標準誤、置信區(qū)間和假設檢驗往往是不正確的,在計算時并未考慮抽樣設計[6],如直接采用SAS中的SUMMARY、FREQ、MEANS、REG等標準統(tǒng)計分析過程來分析復雜抽樣數(shù)據(jù)會導致統(tǒng)計推斷錯誤。目前,SAS 9.0或更高的版本可以通過SURVEYMEANS、SURVEYFREQ、SURVEYREG、SURVEYLOGISTIC和SURVEYPHREG等過程進行復雜調(diào)查資料的分析[7]。
1.5 復雜調(diào)查中方差的估計方法
在復雜抽樣中,抽樣權重包含了構造點估計所需的全部信息,但它不包含標準誤估計的任何信息,因此僅僅知道抽樣權重并不能進行統(tǒng)計推斷。統(tǒng)計量的方差取決于任何一個單元的入選概率,因此需要除抽樣權重以外更多關于抽樣設計的信息。對于復雜調(diào)查中方差的估計方法,主要包括線性化、隨機組、重抽樣以及廣義方差函數(shù)等[8]。
Taylor級數(shù)線性近似法(Taylor Series Linearization, TSL):復雜調(diào)查方差估計中的理論特性是被研究得最透徹、最常采用的方法,其基本思想是利用Taylor級數(shù)方法將非線性統(tǒng)計量線性化,然后計算方差的估計值[9-10]。但計算過于繁瑣,在包含權數(shù)的復雜函數(shù)中難以應用,對估計的每個非線性統(tǒng)計量都需一個單獨的方差計算公式,還需要進行專門的設計,每個統(tǒng)計量的計算方法都不同。準確度取決于樣本量,樣本量不夠大,方差的估計通常偏低。
重抽樣法:分層多階段抽樣中采用重抽樣方法,通過從完整樣本中抽取子樣本計算估計值,避免了求偏導數(shù)的過程。主要包括平衡重復復制法(Balanced Repeated Replication, BRR)、刀切法(Jackknife Repeated Replication, Jackknife)和Bootstrap法。
Jackknife法:基本思想是將總體分成k組,每次抽取時從中去掉一組,得到的多個二次抽樣樣本,每個二次樣本可得到一個均數(shù)或者率的估計值,根據(jù)估計值的差異估計方差[11],屬于較為全能的方法。每層多于兩個群組的分層多階段抽樣中,BRR法不再適用,Jackknife法則有較好的表現(xiàn)。對于某些統(tǒng)計量估計方差結果不佳,如簡單隨機抽樣中分位數(shù)的方差估計效果較差。
BRR法:基本思想是假設總體分成L層,從每層隨機抽取兩個樣本單位,共抽取2L次,產(chǎn)生2L個樣本,得到多個均數(shù)或率的估計值,利用多個估計值的差異估計方差[8,12]。BRR幾乎可應用于所有統(tǒng)計量,但通常只能用于每層只有兩個群組(PSU)或能轉化為每層有兩個PSU的設計。與Jackknife法和Bootstrap法相比,BRR法計算量相對較小。抽樣設計在每層中有兩個群組,估計的是有放回抽樣的方差,可能會高估方差。
Bootstrap法:適用于通常抽樣設計中的非光滑函數(shù)(如分位數(shù)),但計算量大于Jackknife和BRR。
2.1 SURVEYFREQ過程簡介
PROC SURVEYFREQ根據(jù)獲得的調(diào)查數(shù)據(jù)的抽樣設計計算誤差估計值,調(diào)查設計可以是一個復雜的抽樣調(diào)查,如分層抽樣、整群抽樣以及不平衡加權,PROC SURVEYFREQ提供了很多誤差估計的方法,包括TSL、BRR法和Jackknife法。
SURVEYFREQ過程利用樣本調(diào)查數(shù)據(jù)生成單向到多向頻率表和交叉表。這些表包括人口總數(shù)、人口比例(總體比例,行和列比例)以及相應的標準誤差的估計、置信限度、變異系數(shù)和模型的效果評價。
對于單向頻率表,PROC SURVEYFREQ提供了針對抽樣設計的調(diào)整Rao-Scott卡方擬合優(yōu)度檢驗;對于雙向頻率表,PROC SURVEYFREQ提供了基于行和列之間無關聯(lián)的檢驗。這些檢驗包括Rao-Scott卡方檢驗、Rao-Scott似然比檢驗、Wald卡方和Wald對數(shù)線性卡方檢驗。
以下語句說明了PROC SURVEYFREQ的用法:
PROC SURVEYFREQ < options > ;
BY variables ;
CLUSTER variables ;
REPWEIGHTS variables < / options > ;
STRATA variables < / option > ;
TABLES requests < / options > ;
WEIGHT variable ;
PROC SURVEYFREQ語句調(diào)用該過程,識別要分析的數(shù)據(jù)集,并指定方差估計方法。PROC SURVEYFREQ語句是必需的。TABLES語句指定頻率或交叉表,以及這些表的統(tǒng)計量和檢驗結果。STRATA語句列出了在分層設計中的分層變量。CLUSTER語句指定在整群設計中的群組變量。WEIGHT語句指定抽樣權重變量。REPWEIGHTS語句指定經(jīng)過BRR法或者Jackknife法估計誤差后的重新加權變量,BY語句對以BY變量分組的各個亞族分別進行完全獨立的分析。
SURVEYFREQ與FREQ過程的不同點主要體現(xiàn)在PROC SURVEYFREQ后可以根據(jù)需要選擇不同的誤差估計方法,比如VARMETHOD=TAYLOR,VARMETHOD=BRR,VARMETHOD=BRR (fay=c)(c是一個相關系數(shù)),VARMETHOD=JACKKNIFE,并且可以使用CLUSTER語句、REPWEIGHTS語句、STRATA語句。
2.2 SURVEYMEANS過程簡介
SURVEYMEANS過程通過計算調(diào)查資料的統(tǒng)計量來估計調(diào)查人群的特征。通過該過程可以估計均數(shù)、合計、百分位數(shù)、四分位數(shù)間距。PROC SURVEYMEANS也可以進行域分析,即對一個亞人群或者區(qū)域進行估計。該過程也可以估計誤差、置信區(qū)間以及進行t檢驗。PROC SURVEYMEANS運用基于復雜抽樣設計的TSL或者運用BRR來估計抽樣誤差,該過程適用于復雜抽樣過程如分層抽樣、整群抽樣和不平衡加權抽樣設計。
以下語句說明了PROC SURVEYMEANS的用法:
PROC SURVEYMEANS < options >< statistic-keywords > ;
BY variables ;
CLASS variables ;
CLUSTER variables ;
DOMAIN variables ;
RATIO < ’label’ > variables / variables ;
REPWEIGHTS variables < / options > ;
STRATA variables < / option > ;
VAR variables ;
WEIGHT variable ;
PROC SURVEYMEANS選擇輸入要分析的數(shù)據(jù)集,指定要計算的統(tǒng)計量以及誤差估計方法。VAR語句指定要分析的變量。CLASS語句指定要被分析數(shù)值變量轉換為分類變量。STRATA語句列出在分類設計中進行分類的變量。CLUSTER語句指定在整群設計中群組變量。DOMAIN語句列出域分析或者亞人群分析的變量,RATIO語句指定要進行率分析的均數(shù)或者百分位數(shù),WEIGHT語句指定抽樣權重變量,REPWEIGHTS語句指定經(jīng)過BRR或者Jackknife法估計誤差后的重新加權變量,BY語句對以BY變量分組的各個亞族分別進行完全獨立的分析。
SURVEYMEANS與MEANS過程的不同點主要體現(xiàn)在PROC SURVEYMEANS后可以根據(jù)需要選擇不同的誤差估計方法,比如VARMETHOD = TAYLOR,VARMETHOD=BRR,VARMETHOD=BRR (fay=c)(c是一個相關系數(shù)),并且可以使用CLUSTER語句、DOMAIN語、REPWEIGHTS語句和STRATA語句。
3.1 SURVEYREG過程簡介
PROC SURVEYREG過程可以對調(diào)查資料的數(shù)據(jù)進行回歸分析。該過程可以處理復雜的抽樣設計資料包括分層設計、整群設計和不平衡加權數(shù)據(jù)。該過程適用于符合線性模型的測量數(shù)據(jù),并計算回歸系數(shù)以及變量-協(xié)變量矩陣。該過程還為模型效應和模型參數(shù)的任何指定的可估線性函數(shù)提供了假設檢驗。利用回歸過程可以計算樣本調(diào)查數(shù)據(jù)的預測值。PROC SURVEYREG基于廣義最小二乘估計法采用逐步法估計回歸系數(shù),該過程假定回歸系數(shù)在不同層和基本抽樣單元上是不變的。為了估計回歸系數(shù)的方差-協(xié)方差矩陣,PROC SURVEYREG過程運用基于復雜抽樣設計的TSL或者運用BRR估計抽樣誤差。
以下語句說明了PROC SURVEYREG的用法:
PROC SURVEYREG < options > ;
BY variables ;
CLASS variables ;
CLUSTER variables ;
CONTRAST ’label’ effect values < ... effect values >< / options > ;
DOMAIN variables < variable_variable variable_variable_variable ... > ;
EFFECT name = effect-type ( variables < / options > ) ;
ESTIMATE < ‘label’ > estimate-specification < / options > ;
LSMEANS ;
LSMESTIMATE model-effect lsmestimate-specification < / options > ;
MODEL dependent = ;
OUTPUT < keyword < =variable-name > ... keyword < =variable-name >>< / option > ;
REPWEIGHTS variables < / options > ;
SLICE model-effect < / options > ;
STORE
STRATA variables < / options > ;
TEST ;
WEIGHT variable ;
語句PROC SURVEYREG和語句MODEL是必需的,如果模型包含分類效應,則必須采用CLASS語句來對變量進行分類,并且CLASS語句一定要位于MODEL語句之前,如果還要使用CONTRAST語句或者ESTIMATE語句,則MODEL語句一定要在CONTRAST語句或者ESTIMATE語句之前。語句CLASS、CLUSTER、CONTRAST、EFFECT、ESTIMATE、LSMEANS、LSMESTIMATE、REPWEIGHTS、SLICE、STRATA、TEST可以多次使用,而語句MODEL、WEIGHT、STORE、OUTPUT只能使用一次。CLASS語句指定分層變量,CLUSTER語句指定整群設計中群組變量,DOMAIN語句指定域分析的變量,MODEL語句指定響應變量和協(xié)變量,REPWEIGHTS語句指定經(jīng)過BRR法或者Jackknife法估計誤差后的重新加權變量。
SURVEYREG與REG過程的不同點主要體現(xiàn)在PROC SURVEYREG過程后可以根據(jù)需要選擇不同的誤差估計方法,比如VARMETHOD = TAYLOR, VARMETHOD=BRR, VARMETHOD=BRR (fay=c)(c是一個相關系數(shù)),并且可以使用CLUSTER語句、DOMAIN語句、STRATA語句。
3.2 SURVEYLOGISTIC過程簡介
SURVEYLOGISTIC過程基于最大似然法對離散響應測量數(shù)據(jù)的線性邏輯回歸模型進行擬合。對于統(tǒng)計推斷,SURVEYLOGISTIC適用于分層抽樣、整群抽樣和不平衡加權抽樣得到的數(shù)據(jù)進行統(tǒng)計分析。用Fisher評分算法或者Newton-Raphson算法來進行最大似然估計,并且可以為參數(shù)估計指定初始值,在ordinallogistic回歸中可以用probit函數(shù)或log-log函數(shù)來替換logit函數(shù),作為連接函數(shù)。優(yōu)勢比的估計值可以和參數(shù)估計一起顯示,并且可以根據(jù)需要自行指定所需的解釋變量?;貧w參數(shù)的誤差和優(yōu)勢比的計算一般采用基于復雜抽樣設計的TSL或BRR進行估計。
以下語句說明了PROC SURVEYLOGISTIC的用法:
PROCSURVEYLOGISTIC
語句CLASS、CLUSTER、CONTRAST、EFFECT、ESTIMATE、LSMEANS、 LSMESTIMATE,REPWEIGHTS、SLICE、STRATE、TEST可以在程序中出現(xiàn)多次,而語句MODEL、 WEIGHT、STORE、OUTPUT、UNITS只能用一次,并且CLASS語句必須在MODEL語句之前出現(xiàn)使用,CONTRAST語句必須位于MODEL語句之后。BY語句指定分組變量,CLASS語句指定分層變量,CLUSTER語句指定整群設計中群組變量,DOMAIN語句指定域分析的變量,MODEL語句指定響應變量和協(xié)變量,REPWEIGHTS語句指定經(jīng)過BRR法或Jackknife法估計誤差后的重新加權變量。
SURVEYLOGISTIC和LOGISTIC過程的不同點主要體現(xiàn)在SURVEYLOGISTIC后可以根據(jù)需要選擇不同的誤差估計方法,比如VARMETHOD = TAYLOR, VARMETHOD=BRR, VARMETHOD=BRR (fay=c)(c是一個相關系數(shù)),并且可以使用DOMAIN語句、REPWEIGHTS語句。
SURVEYPHREG過程執(zhí)行基于Cox比例風險模型的抽樣調(diào)查數(shù)據(jù)的回歸分析。當有合適的解釋變量可用時,Cox的半?yún)?shù)比例風險回歸模型被廣泛應用于分析生存數(shù)據(jù),并估計危險率,該過程提供基于復雜抽樣設計資料的誤差估計以及置信區(qū)間、有關參數(shù)和模型效應的假設檢驗。SURVEYPHREG提供了幾種優(yōu)化的技術以最大限度地提高對數(shù)似然值,風險比可以和參數(shù)估計一同計算得到,回歸參數(shù)的抽樣誤差和風險比可以通過基于復雜抽樣設計的TSL或者運用BRR估計得到。
以下語句說明了PROC SURVEYPHREG的用法:
PROC SURVEYPHREG < options > ;
BY variables ;
CLASS variable < (options) >< . . . variable < (options) >>< /options > ;
CLUSTER variables ;
DOMAIN variables < variable_variable variable_variable_variable ... > ;
ESTIMATE < ‘label’ > estimate-specification < / options > ;
FREQ variable ;
LSMEANS ;
LSMESTIMATE model-effect lsmestimate-specification < / options > ;
MODEL response < *censor(list) > = effects < /options > ;
NLOPTIONS < options > ;
OUTPUT < OUT=SAS-data-set > ;
REPWEIGHTS variables < / options > ;
SLICE model-effect < / options > ;
STRATA variables < /option > ;
STORE
TEST ;
WEIGHT variable ;
語句PROC SURVEYPHREG和MODEL是必需的,并且CLASS語句必須在MODEL語句之前出現(xiàn),MODEL語句指定要分析模型,CLASS語句指定進行分類的變量,STRATA語句指定分層變量,CLUSTER語句指定在整群設計中群組變量,WEIGHT語句指定抽樣權重變量,NLOPTIONS語句指定優(yōu)化算法,REPWEIGHTS語句指定經(jīng)過BRR法或者Jackknife法估計誤差后的重新加權變量,DOMAIN語句羅列出進行亞人群或者域分析的變量,BY語句指定變量分組后分別進行分析。
SURVEYPHREG和PHREG過程的不同點主要體現(xiàn)在PROC SURVEYPHREG后可以根據(jù)需要選擇不同的誤差估計方法,比如VARMETHOD=TAYLOR,VARMETHOD=BRR,VARMETHOD=BRR (fay=c)(c是一個相關系數(shù)),并且可以使用DOMAIN語句、REWEIGHTS語句、NLOPTIONS語句。
[1] 姜博,王麗敏,劉艷,等. 復雜抽樣數(shù)據(jù)統(tǒng)計分析方法回顧[J]. 中國衛(wèi)生統(tǒng)計,2015,32(4):721-723, 726.
[2] Osborne JW. Best practices in using large, complex samples: the importance of using appropriate weights and design effect compensation[J]. Practical Assessment, Research and Evaluation, 2011, 16(12):1-7.
[3] Anderson KM, Wilson PW, Odell PM, et al. An updated coronary risk profile. A statement for health professionals[J]. Circulation, 1991, 83(1): 356-418.
[4] 孫日揚,胡良平. 復雜隨機抽樣數(shù)據(jù)的多重線性回歸分析方法及其應用[J]. 軍事醫(yī)學, 2015, 39(5): 380-385.
[5] Sharon L. Sampling: Design and Analysis[M]. Boston: Thomson Brooks Cole, 2009: 291-355.
[6] SAS Institute Inc. SAS /STAT 9.3 User’s Guide[M]. Cary, NC: SAS Institute Inc, 2011: 7207-7547.
[7] 繆凡,童峰. 復雜抽樣數(shù)據(jù)的logistic回歸分析方法及其應用[J]. 中國衛(wèi)生統(tǒng)計, 2008, 25(6): 577-579.
[8] 王曉榮, 趙俊康, 王彤. 復雜抽樣下的截取回歸模型在醫(yī)學研究中的應用[J].中國衛(wèi)生統(tǒng)計, 2012, 29(5): 691-697.
[9] 劉建華, 金水高. 復雜抽樣調(diào)查總體特征量及其方差的估計[J]. 中國衛(wèi)生統(tǒng)計, 2008, 25(4): 377-379.
[10] West BT. Statistical and methodological issues in the analysis of complex sample survey data: practical guidance for trauma researchers[J]. J Trauma Stress, 2008, 21(5): 440-447.
[11] KrewskiD, Rao JNK.Inference from stratified samples: properties of the linearization, jackknife and balanced repeated replication methods[J].Ann Stat, 1981, 9(5): 1010-1019.
[12] 呂萍.重權數(shù)在復雜調(diào)查的方差估計中的應用[J].統(tǒng)計研究, 2011, 28(2): 93-99.
Overviewforthefeaturesofcomplexsurveydataanditsanalyticaltechniques
CuiZhuang1,HuLiangping2,3*
(1.DepartmentofHealthStatistics,SchoolofPublicHealth,TianjinMedicalUniversity,Tianjin300070,China;2.ConsultingCenterofBiomedicalStatistics,AcademyofMilitaryMedicalSciences,Beijing100850,China;3.SpecialtyCommitteeofClinicalScientificResearchStatisticsofWorldFederationofChineseMedicineSocieties,Beijing100029,China*Correspondingauthor:HuLiangping,E-mail:lphu812@sina.com)
Complex sampling is the sampling plan of other sampling methods or their combination, except a simple random sampling of one stage in the process of sampling. This paper presented a macro overview of the characteristics of complex sampling data, the main points of the difference analysis and multiple regression analysis based on the complex survey data, and the key points of multiple regression analysis of survey survival data. The paper could provide references for the researchers to better understand and implement the analysis of complex sampling data.
Complex survey; Feature; Sampling weight; Analytical techniques of statistics; Multiple regression analysis
R195.1
A
10.11886/j.issn.1007-3256.2017.05.004
2017-08-17)
(本文編輯:陳 霞)
國家高技術研究發(fā)展計劃課題資助(2015AA020102)