第四軍醫(yī)大學衛(wèi)生統(tǒng)計學教研室(710032) 譚志軍 徐勇勇 曹文君
二重抽樣在居民衛(wèi)生支出調查中的應用*
第四軍醫(yī)大學衛(wèi)生統(tǒng)計學教研室(710032) 譚志軍 徐勇勇△曹文君
目的探索二重抽樣在居民衛(wèi)生支出調查中的應用。方法 利用二重抽樣π估計、比估計和回歸估計三種估計方法估計樣本均數(shù)與方差,并采用偏差、相對偏差、方差以及均方誤差四個指標評價抽樣效率。結果 同一估計方法的抽樣效率隨抽樣比例的增加而提高;同一抽樣比例下,π估計的抽樣效率最低,比估計和回歸估計的抽樣效率相近;隨著相關系數(shù)的減小,比估計和回歸估計的效率優(yōu)勢逐漸減弱。結論 可應用二重抽樣調查居民衛(wèi)生支出;具體應用中,應根據(jù)研究變量與輔助變量相關性以及估計精度的要求選擇合適的估計方法。
居民衛(wèi)生支出 二重抽樣π估計 比估計 回歸估計
*資助基金項目:2009ZX10002-027
△通訊作者:徐勇勇,E-mail:xuyongy@fmmu.edu.cn
由于我國衛(wèi)生保障體制不健全,加之醫(yī)療費用上漲過快,導致家庭疾病經(jīng)濟負擔不斷加重。實施新型農(nóng)村合作醫(yī)療制度和城鎮(zhèn)居民基本醫(yī)療保險以來,各級政府和衛(wèi)生部門急需有關居民疾病經(jīng)濟負擔的變化情況和制度運行效果的信息。居民衛(wèi)生支出是衡量居民家庭疾病經(jīng)濟負擔的一個重要指標。二重抽樣是一種高效率的抽樣調查方法。本文從抽樣設計和估計方法兩方面探討應用二重抽樣調查居民衛(wèi)生支出。
資料來源于第四次國家衛(wèi)生服務調查陜西省擴點樣本的《家庭一般情況調查表》調查數(shù)據(jù)。本研究納入的原始變量包括家庭人口數(shù)、家庭年收入、家庭年支出、家庭年消費性支出、食品支出、衣著及日用品支出、交通通訊支出、住房水電及燃料支出、教育支出、文化娛樂支出、醫(yī)藥支出、其他支出。數(shù)據(jù)表中變量名分別為h1、h12-h21。所有指標中h19的無回答率最高,為12.3%,其余均低于10%。
本文公式中的符號意義:N為有限總體大小,n為第一重樣本的樣本量,m為第二重樣本的樣本量,f=m/n為抽樣比例。
(1)π 估計量〔1〕
式中,πa,i為第一重樣本抽樣單元的入樣概率,πi|sa為第二重樣本的條件入樣概率,完全隨機抽樣機制下,
式中,r、syx分別為第二重樣本研究變量與輔助變量的樣本相關系數(shù)和協(xié)方差。
(3) 回歸估計量〔3〕
二重抽樣對總體均數(shù)的回歸估計:
式中,β為第二重樣本的回歸系數(shù)。
二重樣本回歸估計方差的樣本估計:
以4 161戶為第一重樣本,采用簡單隨機無放回抽樣從中抽取第二重樣本。根據(jù)以往衛(wèi)生服務調查的反饋,家庭收入數(shù)據(jù)不易調查,家庭支出數(shù)據(jù)相對容易獲取;在支出調查項目中,總支出比其他各項支出相對容易。因此,選擇家庭年支出作為輔助變量。通過比較二重抽樣估計結果與現(xiàn)有資料的實際計算結果,論證在此項調查中應用二重抽樣的可行性。
由于家庭規(guī)模影響數(shù)據(jù)可比性且各變量不服從正態(tài)分布,遂對原始數(shù)據(jù)做以下處理:第一步,各變量除以家庭人口數(shù),求得各指標人均值;第二步,以函數(shù)log(hi/h1+1)對人均指標作變換,其中h1為家庭人口數(shù),i=12,13,…,21。
設第一重樣本的計算結果為各研究變量的總體參數(shù)。為便于理解,用轉化后變量的均數(shù)估計作指數(shù),計算原始變量的均數(shù)(幾何均數(shù))。用以下四個指標評價抽樣效率〔4〕:(1)估計偏差(bias):二重抽樣均數(shù)估計與參數(shù)的差值;(2)相對偏差(relative bias):(估計值-參數(shù))/參數(shù)×100%;(3)方差(variance):二重抽樣均數(shù)估計的方差;(4)均方誤差(MSE):bias×bias+variance,即總誤差。通過以上四個效率指標,評價不同抽樣比例、估計方法以及變量相關性的抽樣效率。利用SAS9.1.3的抽樣過程proc surveyselect編寫宏程序TWOPHASE進行重復抽樣并描述抽樣結果〔5,6〕,重復抽樣次數(shù)均為100次。
表1 對數(shù)變換后各研究變量與輔助變量的相關和回歸分析結果
視“人均衛(wèi)生支出”的幾何均數(shù)為參數(shù),其值為239.3元。“人均衛(wèi)生支出”的重復抽樣結果見表2。
表2 人均衛(wèi)生支出幾何均數(shù)估計結果
表2表明,對于“人均衛(wèi)生支出”調查,不同估計方法的估計效率均隨著抽樣比例的增加而升高;同一抽樣比例下,π估計的效率低于比估計和回歸估計,后兩者的效率非常相近。其他研究變量的重復抽樣結果顯示,各變量均有此趨勢。
為研究輔助變量與研究變量的相關性大小與抽樣效率的關系,分別對10個研究變量進行重復抽樣。為便于比較,選擇相對偏差作圖,見圖1。
圖1表明,對于相關性大小不同的變量,三種估計方法之間的效率差異不同:相關性越大,π估計與比估計和回歸估計的效率差異越大,而后兩者之間的效率差異只有略微變化。其他三種效率指標的重復抽樣結果均有此趨勢。
以人均居民衛(wèi)生支出調查為例,如果控制相對偏差在2%以內,第二重樣本需要的最小抽樣比例約為0.4。據(jù)此保守估計,資料收集時間可縮短為原來的40%,估計偏差的平均值在4元左右。
圖1 不同相關性變量相對偏差圖
隨著我國信息化和工業(yè)化步伐的加快,由政府主導的抽樣調查面臨新的挑戰(zhàn)。居民衛(wèi)生支出調查也不例外,具體表現(xiàn)在:(1)城市與農(nóng)村地區(qū)的交通、通訊等基礎設施不斷升級,為政府實施衛(wèi)生服務調查提供了堅實的硬件基礎和良好的外部保障;(2)快速城鎮(zhèn)化導致人口流動性增大和行政建制變化頻繁,為抽樣框的制作和維護增加了困難〔7〕;(3)信息化建設刺激了信息利用者的需求,如更快的收集速度、更準的調查結果、更少的調查費用、更高的權威性、更廣的獲知渠道等。
正確地應用二重抽樣,不僅可以充分利用已有或易于調查的輔助信息,降低調查困難,減少調查費用,還可以在個體水平和樣本水平減少調查時間,降低被調查者的回答負擔,從而提高調查質量。當輔助信息已知時,二重抽樣的效率更高。
重復抽樣結果顯示,抽樣比例、相關性、估計方法是估計效率的影響因素。應用過程中應綜合考慮選擇合適的方法。比如,在同樣估計精度和抽樣比例要求下,變量相關性高,則選擇比估計或回歸估計,變量相關性低,可選擇π估計。當然,二重抽樣是有精度損失的,必須保證估計精度在可接受范圍內。本文僅討論了一個輔助變量的應用,二重抽樣多輔助變量回歸估計的效率比單變量的效率更高〔8〕。
二重抽樣在居民衛(wèi)生支出調查應用中的可行性得到論證。正確應用二重抽樣,可以達到節(jié)約時間、降低回答負擔、提高調查效率與質量的目的。在抽樣設計階段,應充分利用已有或易于獲得的輔助變量;在估計階段,應根據(jù)輔助變量與研究變量的相關性以及估計精度的需求,選擇合適的估計方法。
1.Brus DJ,Te Riele WJM.Design-based regression estimators for spatial mean of soil properties:the use of two-phase sampling when themeansof the auxiliary variables are unknown.Geoderma,2001(104):257-279.
2.金勇進,杜子芳,蔣妍編.抽樣技術.北京:中國人民大學出版社,2008,224-225.
3.施錫銓.抽樣調查的理論和方法.上海財經(jīng)大學出版社,1999,113-114.
4.Bennett S,Radalow icz A,Vella V,et al.Computer simulation of household sampling schemes for health surveys in developing country.International Journal of Epidemiology,1994,23(6):1282-1286.
5.SAS Institute Inc.SAS for Monte Carlo Studies:A Guide for Quantitative Researchers,2002.
6.王睿,賀佳.隨機抽樣方法的SAS實現(xiàn).中國衛(wèi)生統(tǒng)計,2007,24(1):85,93.
7.傅青葉.論社會經(jīng)濟調查抽樣框的構建.統(tǒng)計與決策,2003(5):51-52.
8.Pradahan BK.A chain regression estimator in two phase sampling using multi-auxiliary information.Bulletin of the Malaysian Mathematical sciences society,2005,28(1):81-86.
The App lication of Two-phase Sam p ling in the Household Health Expenditure Survey
Tan Zhijun,Xu Yongyong,CaoWenjun.Department of Health Statistics,F(xiàn)ourth Military Medical University(710032),Xi'an
Objective To study the feasibility for the application of two-phase sampling in the household health expenditure survey.MethodsThree types of estimator of two-phase sampling,the πest imator,the ratio estimator and regression estimator,were used to estimatemean and variance.Bias,relative bias,variance and MSE were considered as effect measures to summarize the performance of various sampling schemes.Results For the three estimators,the efficiency increases as the sampling rate became larger.For the same sampling rate,the efficiency of πest imatorwas much lower than the ratio estimator and regression estimator and there was no distinct difference between ratio estimator and regression estimator.As the correlation coefficient decreases,the advantage of the ratio estimator and regression estimator in the performance weakened.ConclusionIt is feasible to apply the two-phase sampling to survey the household health expenditure.And in practice,the choice of estimator should be made base on the correlation of study variable and auxiliary variable and the requirement of estimate accuracy
Household health expenditure;Two-phase sampling;πestimator;Ratio estimator;Regression estimator