呂萍
(北京大學(xué)中國(guó)社會(huì)科學(xué)調(diào)查中心,北京100871)
多目標(biāo)變量調(diào)查的小域的穩(wěn)健估計(jì)量研究
呂萍
(北京大學(xué)中國(guó)社會(huì)科學(xué)調(diào)查中心,北京100871)
大型的抽樣調(diào)查不僅是多目標(biāo)的復(fù)雜調(diào)查,而且在估計(jì)總體目標(biāo)變量的基礎(chǔ)上還需要對(duì)其中的一些域的目標(biāo)變量進(jìn)行估計(jì),所以小域估計(jì)和多目標(biāo)估計(jì)問(wèn)題一直是抽樣調(diào)查的熱點(diǎn)問(wèn)題。文章主要利用模型校準(zhǔn)權(quán)數(shù)的方法,解決小域中的多目標(biāo)估計(jì)問(wèn)題,并得到小域的多個(gè)目標(biāo)變量的穩(wěn)健估計(jì)量。
小域估計(jì);多目標(biāo)調(diào)查;模型校準(zhǔn)權(quán)數(shù);穩(wěn)健估計(jì)量
小域估計(jì)[1]是當(dāng)今抽樣調(diào)查的熱點(diǎn)的問(wèn)題之一,許多大型的調(diào)查都需要在估計(jì)總體的目標(biāo)變量的同時(shí),對(duì)相應(yīng)的域的目標(biāo)變量進(jìn)行有效的估計(jì)。小域指規(guī)模很小的域,包括地理上的小域,也包括總體中按照某種屬性劃分的一個(gè)很小的子總體,“小”是指樣本量很小,甚至為零,此時(shí)無(wú)法利用傳統(tǒng)的直接估計(jì)法對(duì)小域的目標(biāo)變量的進(jìn)行有效的估計(jì),稱為小域估計(jì)問(wèn)題。小域估計(jì)的主流發(fā)展方向是基于模型的間接估計(jì)方法,即基于相鄰或相似域的信息借助于輔助模型對(duì)小域的目標(biāo)變量進(jìn)行估計(jì)的方法。這種方法有明確的模型形式,不僅可以處理比較復(fù)雜的數(shù)據(jù)類型,還可以通過(guò)樣本數(shù)據(jù)對(duì)模型的合理性進(jìn)行驗(yàn)證。
多目標(biāo)問(wèn)題一直是抽樣調(diào)查的熱點(diǎn)問(wèn)題之一,人們總是希望用一套樣本數(shù)據(jù)滿足不同目標(biāo)變量的估計(jì)要求,也稱為多主題或多指標(biāo)抽樣,即用一套樣本數(shù)據(jù)同時(shí)估計(jì)兩個(gè)或是兩個(gè)以上的目標(biāo)變量的抽樣調(diào)查方法。由于在抽樣設(shè)計(jì)中各個(gè)調(diào)查變量的樣本分布是不同的,多個(gè)變量的聯(lián)合分布很難確定,這大大增加了抽樣設(shè)計(jì)的難度。解決多目標(biāo)問(wèn)題的方法主要有四種:
第一種方法體現(xiàn)在抽樣方式的選擇上,即如何選擇一種有效的抽樣方法得到樣本數(shù)據(jù),使各個(gè)目標(biāo)的抽樣誤差都能達(dá)到最小。
第二種方法體現(xiàn)在抽樣設(shè)計(jì)方法的選擇上。抽樣設(shè)計(jì)有多種方法,主要有隨機(jī)化抽樣方法,包含多目標(biāo)分層抽樣方法、多目標(biāo)平衡抽樣方法、多目標(biāo)比率與回歸估計(jì)方法、多目標(biāo)雙重抽樣方法、多目標(biāo)雙重事后分層抽樣方法、成本條件下的多目標(biāo)復(fù)合抽樣法以及多變量與規(guī)模成比例的抽樣方法(MPPS);模型抽樣方法;模型輔助抽樣方法。
第三種方法體現(xiàn)在樣本容量的確定上,樣本量的大小既涉及到抽樣估計(jì)的精度,又涉及到調(diào)查的費(fèi)用,在多目標(biāo)抽樣設(shè)計(jì)中各個(gè)目標(biāo)的抽樣誤差的大小可能不同,選擇合適的樣本量是十分重要的。
第四種方法是估計(jì)量的選擇。即在沒(méi)有比較好的抽樣方法并且經(jīng)費(fèi)有限的情況下,選擇合適的估計(jì)方法盡可能地提高估計(jì)量的精度。
多目標(biāo)問(wèn)題也是小域估計(jì)中普遍存在的問(wèn)題。本文擬從估計(jì)量選擇的角度對(duì)小域估計(jì)中的多目標(biāo)問(wèn)題進(jìn)行研究,并用基于模型校準(zhǔn)權(quán)數(shù)的小域估計(jì)方法得到小域的多個(gè)目標(biāo)變量的穩(wěn)健估計(jì)量。
傳統(tǒng)的小域估計(jì)方法是基于混合模型的模型依賴的估計(jì)方法,它的目標(biāo)估計(jì)量依賴于模型的假定,當(dāng)模型的假定不成立,估計(jì)是有偏的,甚至是無(wú)效的。在實(shí)際調(diào)查中,由于抽樣設(shè)計(jì)和實(shí)際調(diào)查過(guò)程的復(fù)雜性,總體模型和樣本模型往往是不一致的,用樣本數(shù)據(jù)得到的目標(biāo)變量的估計(jì)量是有偏的。針對(duì)這個(gè)問(wèn)題,Chambers提出了利用模型校準(zhǔn)權(quán)數(shù)[3][4]的方法,這種方法可以有效地防止模型假定錯(cuò)誤和樣本選擇過(guò)程產(chǎn)生的偏差,得到小域的目標(biāo)變量的穩(wěn)健估計(jì)量[5]。
設(shè)一個(gè)多目標(biāo)的抽樣調(diào)查,有k個(gè)目標(biāo)變量是Y=(Y1,Y2,…,Yk)T,調(diào)查總體中包含m個(gè)小域,設(shè)每個(gè)目標(biāo)變量Yk滿足線性混合模型[1]
Yk=Xβk+zTuk+ek
其中輔助變量是X=(X1T,x2T,…,xmT)T;設(shè)計(jì)變量是Z=diag(Zj,1≤j≤J);域隨機(jī)變量是uk=(uk1,uk2,…,ukm)T;ek=(ek1,ek2,…,ekm)T;Var(uki)=∑ki;Var(eki)=σki2INi;INi是Ni階的單位矩陣。則Yk的協(xié)方差矩陣為Var(Yk)=σki2INi+Zki∑kiZkiT。首先按照樣本單元和非樣本單元拆分為:
(1)對(duì)各個(gè)目標(biāo)變量Yk用小域估計(jì)的基本混合模型的方法得到各個(gè)目標(biāo)變量的經(jīng)驗(yàn)最佳線性無(wú)偏估計(jì)量,這種方法的計(jì)算量比較大,并且依賴于模型的假定條件,穩(wěn)健性比較差。
(2)對(duì)各個(gè)目標(biāo)變量利用基于模型校準(zhǔn)權(quán)數(shù)的小域的穩(wěn)健估計(jì)方法模型校準(zhǔn)權(quán)數(shù)得到小域的各個(gè)目標(biāo)變量的穩(wěn)健估計(jì)量,但是計(jì)算量比較大。
(3)在實(shí)際過(guò)程中,為了計(jì)算簡(jiǎn)便,可以用一個(gè)共同的模型校準(zhǔn)權(quán)數(shù)對(duì)小域的個(gè)目標(biāo)變量進(jìn)行估計(jì)。這個(gè)共同的權(quán)數(shù)可以通過(guò)對(duì)每個(gè)目標(biāo)變量的模型校準(zhǔn)權(quán)數(shù)的加權(quán)平均,即
利用這個(gè)共同的模型校準(zhǔn)權(quán)數(shù)w(1)得到小域的各個(gè)目標(biāo)變量的穩(wěn)健估計(jì)量,但是這個(gè)方法同樣需要對(duì)每一個(gè)目標(biāo)變量求解模型校準(zhǔn)權(quán)數(shù),計(jì)算量依然比較大。
用這個(gè)共同的模型權(quán)數(shù)wk(2)得到各個(gè)目標(biāo)變量的穩(wěn)健估計(jì)量,這個(gè)方法同樣需要求解k個(gè)目標(biāo)變量的方差元素的估計(jì)量贊ki,計(jì)算量也比較大。
上面四種方法都需要分別對(duì)k個(gè)目標(biāo)變量計(jì)算,計(jì)算量比較大。下面用模型校準(zhǔn)權(quán)數(shù)的方法,通過(guò)在滿足k個(gè)目標(biāo)變量都是無(wú)偏估計(jì)量的情況下使k個(gè)目標(biāo)變量的方差的加權(quán)平均和最小,得到k個(gè)目標(biāo)變量的共同的模型校準(zhǔn)權(quán)數(shù),進(jìn)而得到目標(biāo)變量的穩(wěn)健有效的估計(jì)量。調(diào)查總體的多個(gè)目標(biāo)變量之間可能相關(guān)也可能無(wú)關(guān)。
若個(gè)目標(biāo)變量是無(wú)關(guān)的,則k個(gè)目標(biāo)變量的模型校準(zhǔn)權(quán)數(shù)需要滿足在無(wú)偏的情況下使每個(gè)目標(biāo)變量的加權(quán)平均和最小,即滿足:
利用拉格朗日數(shù)乘法求解,拉格朗日函數(shù)為:
分別對(duì)wk和λ的求偏導(dǎo),并令其為零,即:
上式乘以XsT得到:
得到最優(yōu)的模型校準(zhǔn)權(quán)數(shù)為:
即k個(gè)目標(biāo)變量的共同的最優(yōu)的模型校準(zhǔn)權(quán)數(shù)為:
其中Vkss,Vksr的估計(jì)量由極大似然估計(jì)、矩估計(jì)等方法得到,所以k個(gè)目標(biāo)變量的共同的模型校準(zhǔn)權(quán)數(shù)為:
由上述模型校準(zhǔn)權(quán)數(shù)得到第i小域的第k個(gè)目標(biāo)變量Yk的均值的穩(wěn)健估計(jì)量為:
其均方誤差的穩(wěn)健估計(jì)量為:
當(dāng)k個(gè)目標(biāo)變量相關(guān)時(shí),得到k個(gè)目標(biāo)變量最優(yōu)的模型校準(zhǔn)權(quán)數(shù)同樣需要滿足下面兩個(gè)條件
其中第個(gè)目標(biāo)變量的協(xié)方差為:
同樣地,運(yùn)用拉格朗日數(shù)乘法,得到:
上式分別對(duì)wk和λ的求偏導(dǎo),令其為零,得到:
由于k個(gè)目標(biāo)變量是相關(guān)的,即Yk,Yl相關(guān),此時(shí):
第i個(gè)小域的第k個(gè)目標(biāo)變量Yk的均值估計(jì)量為:
均方誤差的估計(jì)量為:
通過(guò)上述方法,可以有效地處理小域中的多目標(biāo)估計(jì)問(wèn)題。模型校準(zhǔn)權(quán)數(shù)的估計(jì)方法是一種穩(wěn)健的小域估計(jì)方法。
小域估計(jì)和多目標(biāo)問(wèn)題都是抽樣調(diào)查的難點(diǎn)問(wèn)題,小域的多目標(biāo)問(wèn)題是一個(gè)備受關(guān)注的焦點(diǎn)問(wèn)題。模型校準(zhǔn)權(quán)數(shù)方法是一種穩(wěn)健的小域估計(jì)方法。本文用模型校準(zhǔn)權(quán)數(shù)的方法解決多目標(biāo)的小域估計(jì)問(wèn)題,并得到穩(wěn)健、有效的估計(jì)量。
[1]Rao,J.N.K.Small Area Estimation[M].New York:Wiley,2003.
[2]Longford N.T.Missing Data and Small-Area Estimation.Modern Analytical Equipment for the Survey Statistician[M].New York:Springer,2005.
[3]Chandra,H.,Chambers,R.L.Comparing EBLUP and CEBLUP for Small Area Estimation[J].Statistics in Transition,2005,(7).
[4]呂萍.基于最佳線性無(wú)偏估計(jì)的模型權(quán)數(shù)的小域估計(jì)[J].統(tǒng)計(jì)與決策,2009,(1).
[5]Devile,J.C.,Sarndal,C.E.Calibration Estimators in Survey Sampling[J].Journal of the American Statistical Association,1992,87.
O212
A
1002-6487(2011)07-0021-03
中國(guó)博士后基金資助項(xiàng)目(20100470129)
呂萍(1981-),女,山東泰安人,博士后,研究方向:統(tǒng)計(jì)調(diào)查和數(shù)據(jù)分析。
(責(zé)任編輯/亦民)