四川大學(xué)華西公共衛(wèi)生學(xué)院(610041)
張 黎 陳芍兵 楊薛玉 張菊英△
為了以較低的調(diào)查成本獲取具有代表性的樣本,大型入戶調(diào)查通常是多種基本抽樣技術(shù)的結(jié)合使用,稱為復(fù)雜抽樣,如國家衛(wèi)生服務(wù)調(diào)查、中國居民營養(yǎng)與健康狀況調(diào)查[1]等。復(fù)雜抽樣帶來的不等概率問題導(dǎo)致抽樣個體所代表的總體研究對象的個數(shù)并不相同[2]。同時,如果調(diào)查對象某些重要特征與總體的分布不一致,如年齡結(jié)構(gòu)等,也會影響某些指標(biāo)的估計。這時就需要對抽樣個體賦以適當(dāng)?shù)臋?quán)重,以期望得到一些重要指標(biāo)的無偏估計。但是,目前我國大型衛(wèi)生服務(wù)和健康調(diào)查采用的統(tǒng)計推斷方法通常是建立在等概率隨機(jī)抽樣這一假設(shè)基礎(chǔ)上,研究者普遍沒有意識到在處理復(fù)雜抽樣數(shù)據(jù)時忽略各抽樣單位的權(quán)重以及人口結(jié)構(gòu)時對分析結(jié)果的影響,對復(fù)雜抽樣數(shù)據(jù)的處理方法缺乏正確的認(rèn)識。
因此,本文將以2015年四川省分級診療需方調(diào)查數(shù)據(jù)為例,詳述抽樣權(quán)重的計算方法,并通過比較引入和不引入權(quán)重時的人口結(jié)構(gòu)、參數(shù)點(diǎn)估計值以及統(tǒng)計推斷結(jié)果的差異,說明權(quán)重的引入在處理大型入戶調(diào)查數(shù)據(jù)時的必要性。
資料來源于2015年四川省分級診療需方調(diào)查,權(quán)重的計算還利用了2015年四川省統(tǒng)計年鑒數(shù)據(jù)[3]和2010年四川省第六次人口普查數(shù)據(jù)[4]。
四川省分級診療需方調(diào)查采用多階段分層整群隨機(jī)抽樣。調(diào)查以四川省城市分類[5](成都市和攀枝花市為一類地區(qū),甘孜藏族自治州、阿壩藏族羌族自治州和涼山彝族自治州為三類地區(qū),其余城市為二類地區(qū))作為分層依據(jù),分層后各階段具體抽樣單位、數(shù)量和方法見表1。
共調(diào)查14個區(qū)縣,4141戶,共11522人,具體樣本分布見表2。
表1 各階段的抽樣單位、抽樣數(shù)量和抽樣方法
表2 調(diào)查樣本分布
本研究采用基礎(chǔ)抽樣權(quán)重、標(biāo)準(zhǔn)化權(quán)重以及比例校正權(quán)重的聯(lián)合權(quán)重,通過比較加權(quán)前后人口結(jié)構(gòu)、慢性病患病率以及兩水平logistic回歸模型結(jié)果,來探討權(quán)重引入對人口結(jié)構(gòu)、參數(shù)點(diǎn)估計值以及統(tǒng)計推斷的影響。
(1)抽樣權(quán)重的計算
①基礎(chǔ)抽樣權(quán)重
基礎(chǔ)抽樣權(quán)重即樣本個體被抽中概率的倒數(shù),若抽樣方法為多階段抽樣,則為各階段抽樣權(quán)重之積[6]。
假設(shè)多階段抽樣中第一階段到第四階段的抽樣權(quán)重分別為w1,w2,w3和w4,則基礎(chǔ)抽樣權(quán)重wbase=w1×w2×w3×w4。
②標(biāo)準(zhǔn)化權(quán)重
性別、年齡等人口學(xué)特征對指標(biāo)估計有影響,進(jìn)行標(biāo)準(zhǔn)化可以將樣本人口結(jié)構(gòu)有效地調(diào)整至總體的水平。標(biāo)準(zhǔn)化權(quán)重wstd具體計算方法見表3。
表3 標(biāo)準(zhǔn)化權(quán)重計算方法
wstd=PPrc/PSrc
其中,PPrc為總體中第r行第c列的人口數(shù)占總體人口總數(shù)的比例,PSrc為樣本經(jīng)過基礎(chǔ)抽樣權(quán)重加權(quán)后第r行第c列的加權(quán)人數(shù)占加權(quán)總?cè)藬?shù)的比例。
③比例校正權(quán)重
經(jīng)過基礎(chǔ)抽樣權(quán)重和標(biāo)準(zhǔn)化權(quán)重聯(lián)合加權(quán)之后權(quán)重之和與總體實(shí)際人口數(shù)有一定的偏差,需要比例校正權(quán)重再次加權(quán)。比例校正權(quán)重wadj即實(shí)際總體人數(shù)與樣本加權(quán)后估計的總體人數(shù)之比。
④個體最終權(quán)重
個體最終的權(quán)重為基礎(chǔ)抽樣權(quán)重、標(biāo)準(zhǔn)化權(quán)重和比例校正權(quán)重的乘積。
wfinal=wbase×wstd×wadj
(2)兩水平加權(quán)l(xiāng)ogistic回歸模型
多水平模型可將隨機(jī)誤差分解到相應(yīng)數(shù)據(jù)層次結(jié)構(gòu)上,很好地解決了各觀察值之間不相互獨(dú)立的問題[7]。
logit(Pij)=(β0+u0j)+β1xij
u0j=β0j-β0
加權(quán)多水平模型綜合了抽樣理論與多水平模型理論,利用抽樣權(quán)重減小不等概率抽樣在參數(shù)估計中產(chǎn)生的偏倚,同時可以分析多個水平單位的影響[8]。加權(quán)多水平模型結(jié)構(gòu)類似于一般多水平模型,但是其參數(shù)估計是構(gòu)造加權(quán)對數(shù)偽似然函數(shù)如下[9-10]:
式中wj和wi|j分別為水平2和水平1的權(quán)重。
采用牛頓-拉夫遜最大算法求出上述參數(shù)估計值。個體水平權(quán)重如不經(jīng)過縮放直接納入模型,在參數(shù)估計時可能會產(chǎn)生偏倚。常用的權(quán)重縮放方法有兩種[11-12]:
(3)統(tǒng)計分析軟件采用STATA 14.0進(jìn)行數(shù)據(jù)分析,檢驗(yàn)水準(zhǔn)為0.05。
經(jīng)事后分層,第一階段 14個縣區(qū)的抽樣權(quán)重見表4。
Seminar屬于開放性教學(xué)方式,充分利用工具書和大量的數(shù)據(jù)庫資源,將學(xué)生的閱讀范圍有效擴(kuò)大,使學(xué)生養(yǎng)成獨(dú)立思考和分析問題的習(xí)慣。學(xué)生通過對文獻(xiàn)資料進(jìn)行閱讀、分析、內(nèi)化,使閱讀的作用遠(yuǎn)遠(yuǎn)超過僅對某些概念和定義的了解,上升到對于學(xué)術(shù)觀點(diǎn)的思考、評析和研究,學(xué)生的閱讀占有資料能力得到了切實(shí)提高。
表4 第一階段抽樣權(quán)重結(jié)果
由于鄉(xiāng)鎮(zhèn)、街道等下級抽樣單位的抽樣信息不夠完整,本研究在權(quán)重計算時視為兩階段抽樣,第二階段的抽樣概率為樣本人數(shù)與縣區(qū)人數(shù)之比,具體結(jié)果見表5。
表5 第二階段抽樣權(quán)重結(jié)果
為了使人口結(jié)構(gòu)與總體盡量保持一致,進(jìn)一步以 2010 年人口普查的人口結(jié)構(gòu)為參照進(jìn)行分層-性別-年齡別標(biāo)準(zhǔn)化。以一類地區(qū)男性各年齡段為例,標(biāo)準(zhǔn)化權(quán)重結(jié)果見表6。
表6 一類地區(qū)男性標(biāo)準(zhǔn)化權(quán)重結(jié)果
經(jīng)基礎(chǔ)抽樣權(quán)重以及標(biāo)準(zhǔn)化權(quán)重聯(lián)合加權(quán)計算的各層人口總數(shù)與實(shí)際人口總數(shù)存在偏差,需要用比例校正權(quán)重作進(jìn)一步校正。比例校正權(quán)重見表7。
表7 比例校正權(quán)重結(jié)果
根據(jù)四川省分級診療需方調(diào)查各級抽樣框架及權(quán)重計算公式算得基礎(chǔ)權(quán)重,再根據(jù)各層年齡-性別結(jié)構(gòu)、人口比例校正之后,得出個體最終權(quán)重。
表8為四川省第六次人口普查總體、未納入權(quán)重時四川省分級診療需方調(diào)查樣本以及納入權(quán)重后的人口構(gòu)成。與加權(quán)前相比,加權(quán)后四川省分級診療需方調(diào)查樣本的年齡-性別構(gòu)成更加接近普查總體。
人口金字塔可以更直觀的反映人口分布特征。圖1和圖2分別是四川省分級診療需方調(diào)查(未加權(quán))和四川省第六次人口普查人口金字塔。顯然,相對于四川省第六次人口普查總體,四川省分級診療需方調(diào)查樣本人口結(jié)構(gòu)偏老齡化。圖3是引入權(quán)重校正后的四川省分級診療需方調(diào)查人口金字塔,可見權(quán)重引入后的人口結(jié)構(gòu)基本和四川省第六次人口普查數(shù)據(jù)保持一致。
表8 調(diào)查人口年齡-性別構(gòu)成(%)
圖1 四川省分級診療需方調(diào)查人口金字塔(未加權(quán))
圖2 四川省第六次人口普查人口金字塔
圖3 四川省分級診療需方調(diào)查人口金字塔(加權(quán))
以15歲及以上居民的慢性病患病率為例說明權(quán)重引入對點(diǎn)估計值的影響。
慢性病患病率是指調(diào)查前半年內(nèi)15歲及以上患病例數(shù)與15歲及以上調(diào)查總?cè)藬?shù)之比。加權(quán)前后四川省分級診療需方調(diào)查15歲及以上居民的慢性病患病率結(jié)果見表9。
表9 15歲及以上居民慢性病患病率(%)
2013年四川省衛(wèi)生服務(wù)調(diào)查結(jié)果[13]顯示,15歲及以上居民慢性病患病率為40.8%,城市地區(qū)(43.3%)高于農(nóng)村地區(qū)(38.2%);不論是城市地區(qū)還是農(nóng)村地區(qū),四川省分級診療需方調(diào)查15歲及以上居民慢性病患病率均高于2013年四川省衛(wèi)生服務(wù)調(diào)查結(jié)果。加權(quán)后,分級診療調(diào)查慢性病患病率明顯下降,總慢性病患病率由原來的43.3%下降至29.6%,農(nóng)村地區(qū)由41.5%下降至32.1%,城市地區(qū)下降更為明顯,由45.1%下降至27.6%。表10展示了加權(quán)后分級診療需方調(diào)查中關(guān)于衛(wèi)生服務(wù)需求和利用的一些其他的重要指標(biāo),如兩周患病率、住院率和分級診療知曉率均有不同程度的下降。
表10 分級診療需方調(diào)查重要指標(biāo)(%)
以四川省城市地區(qū)15歲及以上居民慢性病患病影響因素分析為例,說明權(quán)重的引入對統(tǒng)計推斷的影響。分別擬合未引入權(quán)重的兩水平logistic模型和加權(quán)兩水平logistic模型,兩種模型結(jié)果見表11。
表11 四川省城市地區(qū)15歲及以上居民慢性病患病影響因素分析兩種模型結(jié)果對比
本研究采用基礎(chǔ)抽樣權(quán)重、標(biāo)準(zhǔn)化權(quán)重以及比例校正權(quán)重的聯(lián)合權(quán)重加權(quán)以后,四川省15歲以上居民慢性病患病率由未加權(quán)時的43.3% 變?yōu)?9.6%,降幅明顯。其他指標(biāo)如兩周患病率、住院率和分級診療知曉率均有不同程度的下降。這就提示我們,加權(quán)對于點(diǎn)估計值的影響非常之大。忽略權(quán)重、年齡、性別等人口學(xué)特征對各指標(biāo)的影響,可能會帶來錯誤的估計。目前,我國大型衛(wèi)生服務(wù)和健康調(diào)查的分析報告通常只計算點(diǎn)估計值,如慢性病患病率、兩周就診率等指標(biāo),而年齡、性別等人口學(xué)特征會影響對這些重要指標(biāo)的估計,因此權(quán)重的引入就顯得十分必要。
相對于四川省第六次人口普查總體,四川省分級診療需方調(diào)查樣本人口結(jié)構(gòu)明顯偏老齡化,可能是由于調(diào)查時間為2015年8-9月份,而四川省作為勞務(wù)輸出大省[14],外出務(wù)工者一般在年底才會返鄉(xiāng),空巢現(xiàn)象嚴(yán)重;另外,由于本次調(diào)查是利用上班時間進(jìn)行入戶調(diào)查,城市地區(qū)抽中的年輕上班族家庭可能由于調(diào)查員多次入戶無人在家錯過本次調(diào)查而被其他家庭替代(樣本備用戶啟用原則)。而權(quán)重引入后其人口結(jié)構(gòu)基本和四川省第六次人口普查數(shù)據(jù)保持一致,說明權(quán)重的引入對全省人口結(jié)構(gòu)起到很好的校正作用。
研究還發(fā)現(xiàn),利用兩水平加權(quán)l(xiāng)ogistic模型分析慢性病患病率的影響因素時大部分影響因素回歸系數(shù)的P值增大,這與呂筠[2]等研究結(jié)果一致。部分系數(shù)的P值變化較大,例如加權(quán)后婚姻狀況(已婚)的P值由0.719下降到0.016,基本醫(yī)療保險P值由0.333下降到0.034,按照0.05的檢驗(yàn)水準(zhǔn),兩者由不拒絕無效假設(shè)變?yōu)榫芙^無效假設(shè)。而學(xué)歷(高中/技校/中專)的P值由加權(quán)前的0.016變?yōu)榧訖?quán)后的0.155,由拒絕無效假設(shè)變?yōu)椴痪芙^無效假設(shè)。可見,在利用具有層次結(jié)構(gòu)的大型入戶調(diào)查進(jìn)行統(tǒng)計推斷時,忽略權(quán)重可能會得到完全相反的結(jié)論,做出錯誤的統(tǒng)計推斷。
大型家庭入戶調(diào)查為了節(jié)省人力物力,通常采用復(fù)雜抽樣設(shè)計,但是由此造成的不等概率和數(shù)據(jù)的層次結(jié)構(gòu)也給后期的數(shù)據(jù)分析帶來一定的困難。如忽略不等概率某些重要指標(biāo)可能會得到有偏的點(diǎn)估計,忽略數(shù)據(jù)的層次結(jié)構(gòu)則可能會極大地降低標(biāo)準(zhǔn)誤[15],從而可能得出錯誤的統(tǒng)計推斷結(jié)論。因此針對大型家庭入戶調(diào)查數(shù)據(jù)的統(tǒng)計分析,為了最大可能地降低復(fù)雜抽樣所帶來的影響,我們需要在方案設(shè)計階段確定科學(xué)的抽樣方案,并且完整地保存所有關(guān)于抽樣過程的信息,嘗試通過各類權(quán)重的校正方法聯(lián)合計算最終權(quán)重,同時在數(shù)據(jù)分析階段根據(jù)所研究的資料類型選擇合適的統(tǒng)計分析模型和軟件。