程 豪
(中國(guó)科協(xié)創(chuàng)新戰(zhàn)略研究院,北京 100863)
眾所周知,線性回歸理論廣泛應(yīng)用于統(tǒng)計(jì)學(xué)及其交叉領(lǐng)域。但是,該理論需要滿足較為嚴(yán)苛的高斯假設(shè)條件,且僅體現(xiàn)平均數(shù)水平,無(wú)法全面刻畫因變量在各分位點(diǎn)隨自變量的變化趨勢(shì)。相比之下,分位回歸可以處理研究對(duì)象異質(zhì)性問(wèn)題,展示數(shù)據(jù)全貌,有較好的穩(wěn)健性,不要求分布形式。而數(shù)據(jù)的缺失問(wèn)題普遍存在,如果處理不當(dāng),則會(huì)得出錯(cuò)誤的分析結(jié)果和研究結(jié)論,導(dǎo)致預(yù)測(cè)與決策的嚴(yán)重偏差。
通常,分位回歸中的缺失問(wèn)題包括因變量缺失和自變量缺失兩類。由于分位回歸不存在似然函數(shù),目前很多基于似然的處理方法無(wú)法直接使用。因此,國(guó)內(nèi)外以分位回歸為模型基礎(chǔ),探索自變量缺失問(wèn)題仍存在較大的研究空間。
綜上,本文以分位回歸中自變量缺失與因變量有關(guān)為選題,旨在通過(guò)逆概率加權(quán)(Inverse Probability Weighting, IPW)修正現(xiàn)有的多重插補(bǔ)法,提供追溯缺失數(shù)據(jù)、挖掘丟失信息的方法支持,探討中國(guó)居民收入影響因素的實(shí)際問(wèn)題。
分位回歸自1978年提出以來(lái),成為一種理論探討和方法應(yīng)用領(lǐng)域頗具前景的分析工具[1]。數(shù)據(jù)缺失現(xiàn)象普遍存在,一直是備受關(guān)注的研究課題。
Hendricks和Koenker利用分位回歸研究了家庭日常用電量與天氣特征之間的關(guān)系[2]。Konenker和Machado關(guān)注分位數(shù)曲線的數(shù)據(jù)擬合程度評(píng)價(jià)問(wèn)題[3]。Bassett和Chen討論了金融市場(chǎng)中多時(shí)期的收益問(wèn)題[4]。Wei等提出了半?yún)?shù)的分位數(shù)模型,并用它建立生長(zhǎng)曲線圖[5]。李育安對(duì)分位回歸及應(yīng)用進(jìn)行簡(jiǎn)單介紹[6]。Terry等用分位回歸研究肥胖問(wèn)題[7]。Wei首次提出了對(duì)多元條件分位數(shù)的估計(jì)[8]。陳建寶等利用分位回歸對(duì)中國(guó)居民收入和消費(fèi)進(jìn)行了實(shí)證分析,但未討論缺失數(shù)據(jù)問(wèn)題[9]。梅波和田茂再討論了貝葉斯時(shí)空分位回歸模型,并用其對(duì)北京市PM2.5濃度進(jìn)行研究[10]。
截止目前,缺失插補(bǔ)方法領(lǐng)域中大多數(shù)情況是完全隨機(jī)缺失機(jī)制下的完整資料分析法、條件均值插補(bǔ)和基于似然的插補(bǔ)方法[11]。完整資料分析法是一種最簡(jiǎn)單的缺失數(shù)據(jù)分析方法。但它功效較低,且導(dǎo)致有偏估計(jì)[12]。同樣地,條件均值插補(bǔ)也會(huì)帶來(lái)有偏估計(jì),因此這些方法不再適用[13]。此時(shí),考慮使用逆概率加權(quán)法,在滿足一定分布假定下,基于逆概率加權(quán)的估計(jì)方程的半?yún)?shù)估計(jì)量是有效的、穩(wěn)健的,因此廣受好評(píng)[14]。Yi和He對(duì)Robins等提出的逆概率加權(quán)廣義估計(jì)方程進(jìn)行了拓展,用逆概率加權(quán)來(lái)修正估計(jì)偏差[15-16]。Lipsitz等用逆概率加權(quán)方法處理了縱向數(shù)據(jù)缺失問(wèn)題[17]。但與完整資料分析法類似,逆概率加權(quán)法僅僅利用可觀測(cè)的完整數(shù)據(jù)信息,造成有效信息的損失。此外,它還會(huì)影響估計(jì)量的有效性,帶來(lái)較大的估計(jì)方差。
Wei等提出分位回歸中的多重插補(bǔ)方法,并在此基礎(chǔ)上通過(guò)構(gòu)造壓縮估計(jì)量調(diào)整估計(jì)偏差[18]。但是,分位回歸中的多重插補(bǔ)法適用于自變量隨機(jī)缺失與因變量無(wú)關(guān)的情況,當(dāng)自變量隨機(jī)缺失與因變量有關(guān)時(shí),估計(jì)偏差較大。因此,多重插補(bǔ)法有待進(jìn)一步討論和修正。
對(duì)于分位回歸,缺失插補(bǔ)方法需要解決兩個(gè)問(wèn)題:一是得到x的完整分布,即通過(guò)x的條件密度函數(shù)f(x|y,z)生成缺失數(shù)據(jù)的插補(bǔ)值;二是保證或改善估計(jì)量的統(tǒng)計(jì)性質(zhì),即在減少估計(jì)偏差的同時(shí),有效控制估計(jì)方差。
Wei(2012)提出的自變量隨機(jī)缺失機(jī)制下的多重插補(bǔ)方法,解決了分位回歸的缺失問(wèn)題,但該方法適用于自變量缺失與因變量無(wú)關(guān)的情形,當(dāng)自變量缺失與因變量有關(guān)時(shí),該多重插補(bǔ)方法與現(xiàn)有的完整資料分析法一樣,都會(huì)帶來(lái)較大的估計(jì)偏差。
為了解釋多重插補(bǔ)法在自變量缺失與因變量有關(guān)時(shí)產(chǎn)生估計(jì)偏差的原因,令δi是缺失數(shù)據(jù)的示性變量。對(duì)于完整資料分析法,需要求解如下估計(jì)方程:
∑S[yi,xi,zi,β]*δi=0
(1)
為了得到有效的估計(jì),估計(jì)方程的形式為:
E{S[yi,xi,zi,β0]*δi|xi,zi}=0
(2)
其中,β0是參數(shù)真值。
當(dāng)自變量缺失與因變量無(wú)關(guān)時(shí),即δi與yi無(wú)關(guān)時(shí),
E{S[yi,xi,zi,β]*δi}
=E{S[yi,xi,zi,β]|xi,zi}*E{δi}
(3)
因此,E{S[yi,xi,zi,β0]}=0。
但是當(dāng)自變量缺失與因變量有關(guān)時(shí),即δi與yi有關(guān)時(shí),
E{S[yi,xi,zi,β]*δi}
≠E{S[yi,xi,zi,β]|xi,zi}*E{δi}
(4)
因此,E{S[yi,xi,zi,β0]}≠0。此時(shí),自變量缺失與因變量有關(guān),多重插補(bǔ)法的參數(shù)估計(jì)結(jié)果不是無(wú)偏估計(jì)。
當(dāng)自變量缺失與因變量有關(guān)時(shí),缺失的數(shù)據(jù)部分與可完整觀測(cè)的數(shù)據(jù)部分之間會(huì)存在系統(tǒng)差異,如果直接利用可觀測(cè)的數(shù)據(jù)信息,依次推斷缺失數(shù)據(jù),一定會(huì)產(chǎn)生推斷結(jié)果與真實(shí)結(jié)果間的差異。換言之,現(xiàn)有的可完整觀測(cè)的數(shù)據(jù)點(diǎn)并不能代表總體的分布特征。如果執(zhí)意將現(xiàn)有的每條完整的數(shù)據(jù)記錄以相同的概率納入分析(通常默認(rèn)為1),那么可觀測(cè)的完整數(shù)據(jù)部分就是總體的一個(gè)有偏樣本,估計(jì)結(jié)果當(dāng)然也是有偏的。因此,需要對(duì)自變量缺失與因變量有關(guān)時(shí)的每一條可完整觀測(cè)的數(shù)據(jù)記錄賦予不同的概率,用以平衡現(xiàn)有可完整觀測(cè)數(shù)據(jù)代表總體數(shù)據(jù)分布的偏差。
作為一種減少偏差的修正方法,逆概率加權(quán)法最早由Horvitz和Thompson提出,即對(duì)每個(gè)可觀測(cè)的yi的概率取倒數(shù),作為被觀測(cè)的yi的權(quán)重,修正由缺失數(shù)據(jù)或有偏抽樣帶來(lái)的估計(jì)偏差。
(5)
=E{y}>=μ
(6)
可見,利用逆概率加權(quán),總體均值的估計(jì)方程一定為無(wú)偏估計(jì)方程。因此,當(dāng)自變量缺失與因變量有關(guān)時(shí),逆概率加權(quán)使得多重插補(bǔ)法的估計(jì)方程為無(wú)偏估計(jì)方程,從而估計(jì)出無(wú)偏差的估計(jì)結(jié)果。
作為現(xiàn)有多重插補(bǔ)法的核心內(nèi)容之一,求得x中缺失部分的插補(bǔ)值需要完成概率密度函數(shù)f(x|y,z)的估計(jì),即通過(guò)f{y|x,z;β0(τ)}和f{x|z;η(τ)}兩部分完成估計(jì),其中,β0(τ)和η(τ)是兩個(gè)真實(shí)的分位系數(shù)過(guò)程。這是因?yàn)椋?/p>
f(x│y,z)=(f(x,y│z))/(f(y│z))
=f(x|z)f(y|x,z)/f(y│z)
(7)
為了完成逆概率加權(quán)對(duì)樣本的修正,β0(τ)和η(τ)的估計(jì)值一定是逆概率加權(quán)以后的參數(shù)估計(jì)結(jié)果。此外,在完成缺失插補(bǔ)后,逆概率加權(quán)多重插補(bǔ)法的分位回歸估計(jì)量也是逆概率加權(quán)的結(jié)果。
(8)
假定生成模擬數(shù)據(jù)的基礎(chǔ)模型為:
yi=1+xi+zi+(0.5xi+0.5zi)ei
(9)
該模型服從如下假定:
1)自變量向量(xi,zi)服從均值為(4,4)T,方差為(1,1)T的聯(lián)合正態(tài)分布。
2)自變量缺失比例控制在20%左右,缺失概率定義為:P(xi缺失|yi)=1/(1+exp(a+bzi+cyi))。其中,a,b,c為參數(shù)。
3)自變量缺失與因變量有關(guān)。通過(guò)定義缺失相關(guān)參數(shù)(上式中的c),分別設(shè)定c=0.3,0.6,0.9三種情況,表示自變量缺失與因變量有關(guān)的不同程度。
4)殘差ei的分布包括兩種假定:標(biāo)準(zhǔn)正態(tài)分布和卡方分布。
此外,模擬過(guò)程中包括逆概率加權(quán)法(IPW),多重插補(bǔ)法(MI),基于觀測(cè)概率真值的多重插補(bǔ)法(MI0),逆概率加權(quán)多重插補(bǔ)方法(MI1)四種方法(令MI,MI1,MI0中的m=10)。模擬過(guò)程的Monte-Carlo次數(shù)為200,樣本量為1 000。
根據(jù)上述假定,設(shè)置如下模擬情形:
情形1:缺失相關(guān)參數(shù)為0.3。
情形1-1:缺失相關(guān)參數(shù)為0.3,殘差ei服從標(biāo)準(zhǔn)正態(tài)分布。
情形1-2:缺失相關(guān)參數(shù)為0.3,殘差ei服從卡方分布。
情形2:缺失相關(guān)參數(shù)為0.6。
情形2-1:缺失相關(guān)參數(shù)為0.6,殘差ei服從標(biāo)準(zhǔn)正態(tài)分布。
情形2-2:缺失相關(guān)參數(shù)為0.6,殘差ei服從卡方分布。
情形3:缺失相關(guān)參數(shù)為0.9。
情形3-1:缺失相關(guān)參數(shù)為0.9,殘差ei服從標(biāo)準(zhǔn)正態(tài)分布。
情形3-2:缺失相關(guān)參數(shù)為0.9,殘差ei服從卡方分布。
1.情形1:缺失相關(guān)參數(shù)為0.3
以逆概率加權(quán)法(IPW),多重插補(bǔ)法(MI),基于觀測(cè)概率真值的多重插補(bǔ)法(MI0)三種方法為參照,運(yùn)行200次Monte-Carlo模擬,實(shí)現(xiàn)對(duì)逆概率加權(quán)多重插補(bǔ)方法(MI1)估計(jì)結(jié)果的比較研究。表1為缺失相關(guān)參數(shù)為0.3時(shí)不同分位數(shù)下參數(shù)估計(jì)結(jié)果(截距相關(guān)估計(jì)結(jié)果已省略),即對(duì)200次Monte-Carlo模擬估計(jì)結(jié)果取均值、標(biāo)準(zhǔn)差和均方誤差。
表1 缺失相關(guān)參數(shù)為0.3時(shí)不同分位數(shù)下參數(shù)估計(jì)結(jié)果(N=1 000)
由表1中關(guān)于x和z的估計(jì)結(jié)果可知,當(dāng)殘差服從正態(tài)分布時(shí),有如下發(fā)現(xiàn):1)MI在各分位水平下的估計(jì)均值與真值間的差距均為最大,IPW在各分位水平下的估計(jì)均值與真值間的差距均為最小。盡管在中分位水平下,MI、MI0和MI1的估計(jì)均值與真值間的差距相同,但在低分位水平和高分位水平下,MI0和MI1的估計(jì)均值與真值間的差距均小于同等條件下的MI,略大于或等于同等條件下的IPW。2)與其他方法相比,IPW在無(wú)偏性上具有明顯的優(yōu)勢(shì)。但是,它在有效性和估計(jì)精度方面的表現(xiàn)最差。即無(wú)論在何種分位水平下,IPW的估計(jì)標(biāo)準(zhǔn)差和均方誤差均達(dá)到最大值。在高分位水平時(shí)表現(xiàn)的尤為明顯。3)MI0和MI1在無(wú)偏性、有效性和估計(jì)精度上的估計(jì)結(jié)果均頗為近似。
當(dāng)殘差服從卡方分布時(shí),關(guān)于x和z的估計(jì)結(jié)果所揭示的規(guī)律有所不同。1)四種方法在低分位水平下的估計(jì)均值與真值間的差距相同,IPW在中分位水平下的估計(jì)均值與真值間的差距均為最大,其余三種方法在中分位水平下的估計(jì)均值與真值間的差距均為相同。在高分位水平下,MI的估計(jì)均值與真值間的差距最大,x的系數(shù)估計(jì)結(jié)果中IPW的估計(jì)均值與真值間的差距最小,z的系數(shù)估計(jì)結(jié)果中MI1的估計(jì)均值與真值間的差距最小。2)與殘差服從正態(tài)分布時(shí)一致的是,無(wú)論在何種分位水平下,IPW的估計(jì)標(biāo)準(zhǔn)差和估計(jì)精度均達(dá)到最大值。在中分位水平和高分位水平時(shí)表現(xiàn)的尤為明顯。3)MI0和MI1在無(wú)偏性、有效性和估計(jì)精度上的估計(jì)結(jié)果均頗為近似。
2.情形2:缺失相關(guān)參數(shù)為0.6
除缺失相關(guān)參數(shù)外,其余模擬背景相同。表2是缺失相關(guān)參數(shù)為0.6時(shí)不同分位數(shù)下參數(shù)估計(jì)結(jié)果(截距相關(guān)估計(jì)結(jié)果省略),即對(duì)200次Monte-Carlo模擬估計(jì)結(jié)果取均值、標(biāo)準(zhǔn)差和均方誤差。由表2中關(guān)于x和z的估計(jì)結(jié)果可知,當(dāng)殘差服從正態(tài)分布時(shí),有如下發(fā)現(xiàn):1)MI在各分位水平下的估計(jì)均值與真值間的差距幾乎均為最大,IPW在各分位水平下的估計(jì)均值與真值間的差距均為最小。盡管在低分位水平下,MI,MI0和MI1的估計(jì)均值與真值間的差距相同,但在高分位水平下,MI0和MI1的估計(jì)均值與真值間的差距均小于同等條件下的MI,略大于或等于同等條件下的IPW。2)與其他方法相比,IPW在無(wú)偏性上具有明顯的優(yōu)勢(shì)。但是,它在有效性和估計(jì)精度方面的表現(xiàn)最差。即無(wú)論在何種分位水平下,IPW的估計(jì)標(biāo)準(zhǔn)差和均方誤差均達(dá)到最大值。3)MI0和MI1在無(wú)偏性、有效性和估計(jì)精度上的估計(jì)結(jié)果均頗為近似。
表2 缺失相關(guān)參數(shù)為0.6時(shí)不同分位數(shù)下參數(shù)估計(jì)結(jié)果(N=1 000)
當(dāng)殘差服從卡方分布時(shí),關(guān)于x和z的估計(jì)結(jié)果所揭示的規(guī)律有所不同。1)MI,MI0和MI1三種方法在低分位水平下的估計(jì)均值與真值間的差距相同,MI在中分位水平和中分位水平下的估計(jì)均值與真值間的差距均為最大。在高分位水平下,四種方法的估計(jì)均值與真值間均存在較明顯的差距,x的系數(shù)估計(jì)結(jié)果中IPW的估計(jì)均值與真值間的差距最小,z的系數(shù)估計(jì)結(jié)果中MI0的估計(jì)均值與真值間的差距最小。2)無(wú)論在何種分位水平下,IPW的估計(jì)標(biāo)準(zhǔn)差和估計(jì)精度幾乎均達(dá)到最大值(除高分位水平下x系數(shù)的均方誤差達(dá)到最大外)。3)MI0和MI1在無(wú)偏性、有效性和估計(jì)精度上的估計(jì)結(jié)果均頗為近似。
3.情形2:缺失相關(guān)參數(shù)為0.9
表3是缺失相關(guān)參數(shù)為0.9時(shí)不同分位數(shù)下參數(shù)估計(jì)結(jié)果(截距相關(guān)估計(jì)結(jié)果已省略),即對(duì)200次Monte-Carlo模擬估計(jì)結(jié)果取均值、標(biāo)準(zhǔn)差和均方誤差。
由表3中關(guān)于x和z的估計(jì)結(jié)果可知,當(dāng)殘差服從正態(tài)分布時(shí),有如下發(fā)現(xiàn):1)MI在各分位水平下的估計(jì)均值與真值間的差距幾乎均為最大,IPW在各分位水平下x系數(shù)的估計(jì)均值與真值間的差距均為最小。在低分位水平和高分位水平下,MI0和MI1在x系數(shù)的估計(jì)均值與真值間的差距均小于同等條件下的MI,略大于或等于同等條件下的IPW。而MI0和MI1在z系數(shù)的估計(jì)均值與真值間的差距均最小。2)與其他方法相比,IPW在有效性和估計(jì)精度方面的表現(xiàn)最差。除高分位水平下x系數(shù)中MI均方誤差達(dá)到最大值以外,IPW的估計(jì)標(biāo)準(zhǔn)差和均方誤差均達(dá)到最大值。3)MI0和MI1在無(wú)偏性、有效性和估計(jì)精度上的估計(jì)結(jié)果均頗為近似。
當(dāng)殘差服從卡方分布時(shí),關(guān)于x和z的估計(jì)結(jié)果所揭示的規(guī)律有所不同。1)MI、MI0、MI1三種方法在低分位水平下的估計(jì)均值與真值間的差距相同,MI在中分位水平下的估計(jì)均值與真值間的差距均為最大。在高分位水平下,IPW和MI的估計(jì)均值與真值間的差距最大,x的系數(shù)估計(jì)結(jié)果中IPW的估計(jì)均值與真值間的差距最小,z的系數(shù)估計(jì)結(jié)果中MI1的估計(jì)均值與真值間的差距最小。2)除高分位水平下x系數(shù)中MI均方誤差達(dá)到最大值以外,IPW的估計(jì)標(biāo)準(zhǔn)差和估計(jì)精度均達(dá)到最大值。3)MI0和MI1在無(wú)偏性、有效性和估計(jì)精度上的估計(jì)結(jié)果均頗為近似。
表3 缺失相關(guān)參數(shù)為0.9時(shí)不同分位數(shù)下參數(shù)估計(jì)結(jié)果(N=1 000)
為了進(jìn)一步直觀展示上述模擬結(jié)果,進(jìn)一步研究不同分位水平下四種方法在無(wú)偏性和有效性(尤其是無(wú)偏性)方面的表現(xiàn),本文選擇缺失相關(guān)系數(shù)為0.3的相關(guān)參數(shù)估計(jì)結(jié)果,繪制圖1。
圖1 參數(shù)估計(jì)均值和標(biāo)準(zhǔn)差圖
圖1中,(N,0.1,X)分別表示正態(tài)分布下分位水平為0.1的x系數(shù)估計(jì)結(jié)果;(N,0.1,Z)分別表示正態(tài)分布下分位水平為0.1的z系數(shù)估計(jì)結(jié)果;(C,0.1,X)分別表示卡方分布下分位水平為0.1的x系數(shù)估計(jì)結(jié)果;(C,0.1,Z)分別表示卡方分布下分位水平為0.1的z系數(shù)估計(jì)結(jié)果,其他同理。圖1突出了不同分位數(shù)下,四種方法無(wú)偏性差異的不同規(guī)律。從圖形上來(lái)看,隨著分位水平的提高,它們間的差異逐漸變大,高分位水平時(shí)最為明顯。為了進(jìn)一步研究高分位水平下,四種方法的無(wú)偏性及變化規(guī)律,本文計(jì)算絕對(duì)偏差(均值減去真值的絕對(duì)值),并繪制了以不同方法為橫軸、絕對(duì)偏差為縱軸的折線圖,見圖2。
圖2 參數(shù)估計(jì)偏差圖
圖2中,(N,0.9)分別表示正態(tài)分布下分位水平為0.1的絕對(duì)偏差;(C,0.9)分別表示卡方分布下分位水平為0.9的絕對(duì)偏差;X.IPW表示IPW對(duì)x系數(shù)的估計(jì),其他同理。由圖2可知,無(wú)論殘差服從正態(tài)分布還是卡方分布,四種方法按相同順序排列后的絕對(duì)偏差整體上呈現(xiàn)相似的變化規(guī)律。相同的是,最大絕對(duì)偏差均出現(xiàn)在MI方法處(X.MI和Z.MI)。唯一明顯的不同之處在于最小絕對(duì)偏差出現(xiàn)的位置。當(dāng)殘差服從正態(tài)分布時(shí),x和z的最小絕對(duì)偏差均在IPW方法下取得,且優(yōu)勢(shì)較為明顯;而當(dāng)殘差服從卡方分布時(shí),x在IPW、MI0和MI1方法下的最小絕對(duì)偏差幾乎處于同一水平,z的最小絕對(duì)偏差均在MI1方法下取得,且與MI0頗為接近。
本文的應(yīng)用研究基于2010年中國(guó)綜合社會(huì)調(diào)查(Chinese General Social Survey,CGSS)的部分?jǐn)?shù)據(jù),旨在研究年收入的影響因素。研究的對(duì)象為1 000名受訪者。本文以年收入(y)為結(jié)局變量,周工作時(shí)間(x1,含缺失數(shù)據(jù),缺失率為20%左右)、年齡(x2)、受教育年限(x3)為影響因素??紤]到這些變量的分布呈現(xiàn)偏態(tài)且均為連續(xù)數(shù)據(jù),因此可以考慮構(gòu)建分位回歸模型。模型表達(dá)式如下:
Qτ(y)=β0,τ+β1,τx1+β2,τx2+β3,τx3
(10)
不難理解,存在缺失數(shù)據(jù)的周工作時(shí)間,完整觀測(cè)的年齡以及完整觀測(cè)的受教育年限都與年收入存在一定的相關(guān)關(guān)系,即這些自變量在一定程度上會(huì)影響或決定了年收入狀況。因此,本文以完整資料分析法(CC)、逆概率加權(quán)法(IPW)和多重插補(bǔ)法(MI)為參照,比較逆概率加權(quán)多重插補(bǔ)法(MI1)在中國(guó)居民收入影響因素問(wèn)題中的估計(jì)結(jié)果。其中,多重插補(bǔ)法(MI)和逆概率加權(quán)多重插補(bǔ)法(MI1)中m取值為10。
與模擬研究相同,分位回歸中,分位數(shù)水平取值為從0到1、間距為0.02的50個(gè)分位數(shù)。整個(gè)參數(shù)估計(jì)過(guò)程包括200次Bootstrap,參數(shù)估計(jì)結(jié)果包括參數(shù)估計(jì)值、200次Bootstrap估計(jì)的標(biāo)準(zhǔn)差和參數(shù)顯著性的檢驗(yàn)P值。
在低分位水平(τ=0.10),中分位水平(τ=0.50)和高分位水平(τ=0.90)下,不同插補(bǔ)方法的參數(shù)估計(jì)結(jié)果如表4所示。
表4 不同分位數(shù)水平下的參數(shù)估計(jì)結(jié)果
由表4可得到一系列方程:
低分位水平:
CC:Qτ(y)=0.27+0.02x1-0.07x2+0.67x3
IPW:Qτ(y)=0.44+0.02x1-0.07x2+0.67x3
MI:Qτ(y)=-0.97+0.02x1-0.06x2+0.71x3
MI1:Qτ(y)=-0.89+0.02x1-0.06x2+0.71x3
中分位水平:
CC:Qτ(y)=4.30+0.01x1-0.06x2+1.14x3
IPW:Qτ(y)=4.11+0.01x1-0.06x2+1.15x3
MI:Qτ(y)=1.85+0.01x1-0.01x2+1.21x3
MI1:Qτ(y)=1.79+0.01x1-0.01x2+1.21x3
高分位水平:
CC:Qτ(y)=-1.68+0.06x1+0.15x2+2.71x3
IPW:Qτ(y)=-1.68+0.06x1+0.15x2+2.71x3
MI:Qτ(y)=-3.54+0.06x1+0.17x2+2.87x3
MI1:Qτ(y)=-4.00+0.07x1+0.17x2+2.87x3
研究表明:分位回歸模型全面展示出,不同年收入水平下,不同人群具有不同的特征和規(guī)律。1)無(wú)論在哪種分位水平下,周工作時(shí)間(x1)對(duì)年收入的貢獻(xiàn)最小、受教育年限(x3)對(duì)年收入的貢獻(xiàn)最大,且始終為正向。說(shuō)明當(dāng)周工作時(shí)間或受教育年限變長(zhǎng)時(shí),年度收入會(huì)相應(yīng)增加。其中,受教育年限的影響更為明顯。2)隨著分位水平的升高,受教育年限(x3)對(duì)年收入的絕對(duì)貢獻(xiàn)(系數(shù)值)有所增加。說(shuō)明年收入水平越高的人群,具有相對(duì)越高的受教育水平。3)年齡隨分位水平的升高,呈現(xiàn)由負(fù)變正、不斷增加的趨勢(shì)。表明隨著年齡的增加,年收入水平也會(huì)相應(yīng)提高,在一定程度上反映出工齡與收入間存在的關(guān)系規(guī)律。綜上所述,受教育年限(或文化程度)成為影響年收入水平的一個(gè)關(guān)鍵因素。
一直以來(lái),提高中國(guó)居民工資待遇水平,保障人民生活質(zhì)量都是我們必須面對(duì)的重要課題。本文通過(guò)模擬研究和應(yīng)用研究?jī)刹糠郑瑢⒛娓怕始訖?quán)修正后的多重插補(bǔ)法應(yīng)用于中國(guó)居民收入影響因素分析中,嘗試挖掘關(guān)鍵因素。
模擬研究表明,在本文涉及的自變量缺失與因變量的相關(guān)程度以及殘差服從的分布類型范圍內(nèi),可以得出如下結(jié)論:
第一、逆概率加權(quán)法(IPW)對(duì)現(xiàn)有多重插補(bǔ)法(MI)的估計(jì)偏差進(jìn)行一定程度的修正,即逆概率加權(quán)多重插補(bǔ)法(MI1)比現(xiàn)有多重插補(bǔ)法(MI)在估計(jì)偏差上有所改進(jìn)。
第二、逆概率加權(quán)多重插補(bǔ)法(MI1)與基于觀測(cè)概率真值的多重插補(bǔ)法(MI0)在無(wú)偏性、有效性和估計(jì)精度上的估計(jì)結(jié)果均頗為近似。即在所有分位水平下,逆概率加權(quán)多重插補(bǔ)法(MI1)和基于觀測(cè)概率真值的多重插補(bǔ)法(MI0)的估計(jì)量具有相對(duì)較好的無(wú)偏性和有效性。
第三、逆概率加權(quán)多重插補(bǔ)法(MI1)在不同分位水平下表現(xiàn)出較好的無(wú)偏性,有效性和估計(jì)精度,可以判定為統(tǒng)計(jì)性質(zhì)較佳的估計(jì)量。
在模擬中,真實(shí)觀測(cè)概率是已知的,基于觀測(cè)概率真值的多重插補(bǔ)法(MI0)可以使用并作為參照,用于對(duì)比研究逆概率加權(quán)多重插補(bǔ)法(MI1)。但在實(shí)際應(yīng)用中,真實(shí)觀測(cè)概率是未知的,基于觀測(cè)概率真值的多重插補(bǔ)法(MI0)的討論無(wú)法開展,因此,基于觀測(cè)概率真值的多重插補(bǔ)法(MI0)僅限于理論層面的探討,逆概率加權(quán)多重插補(bǔ)法(MI1)確實(shí)對(duì)現(xiàn)有多重插補(bǔ)法(MI)有一定程度的改進(jìn),但就其程度而言,仍存在著較大的改進(jìn)空間。將逆概率加權(quán)法(IPW)引入現(xiàn)有多重插補(bǔ)法(MI)的思想,有效緩解了當(dāng)自變量缺失與因變量有關(guān)帶來(lái)的估計(jì)偏差較大的問(wèn)題,而且并未增加計(jì)算復(fù)雜度(應(yīng)用研究中,MI和MI1的單次運(yùn)行時(shí)間分別為11.93秒和11.95秒)。
將逆概率加權(quán)多重插補(bǔ)法及其它缺失處理方法應(yīng)用于中國(guó)居民收入影響因素分析中,不難發(fā)現(xiàn),年度收入會(huì)隨著周工作時(shí)間、年齡和受教育年限的增長(zhǎng)而增加。其中,受教育年限的影響更為明顯。年收入水平較高的人群同時(shí)具有相對(duì)越高的受教育水平。因此,在中國(guó)居民收入的影響因素分析中,受教育程度成為影響收入水平的關(guān)鍵因素,相比之下,時(shí)間因素對(duì)收入水平的影響或貢獻(xiàn)較弱。
綜上所述,逆概率加權(quán)多重插補(bǔ)法(MI1)拓寬了現(xiàn)有多重插補(bǔ)法(MI)的適用范圍,確保了估計(jì)量具有較好的統(tǒng)計(jì)性質(zhì),而從均方誤差來(lái)看,該方法仍然具有可觀的研究前景,使得估計(jì)量的性質(zhì)得到更大程度的改善。此外,在中國(guó)居民收入影響因素分析中,我們發(fā)現(xiàn),隨著受教育水平的不斷提高,工作時(shí)間因素已不再是制約或影響提高工資待遇的最重要因素,提高學(xué)歷水平和文化程度成為改善工資待遇狀況的重要途徑。