張 巍, 楊宜平,2
(1. 重慶工商大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院, 重慶 400067;2. 重慶工商大學(xué) 經(jīng)濟社會應(yīng)用統(tǒng)計重慶市重點實驗室, 重慶 400067)
回歸分析是研究各種現(xiàn)象之間數(shù)量關(guān)系的一種常用方法,其中最常見的回歸模型是線性回歸模型:
其中,Yi∈R是獨立同分布的響應(yīng)變量,Xi∈Rp是p維協(xié)變量,β是未知的參數(shù)向量。線性回歸模型的估計方法層出不窮,最經(jīng)典的即為最小二乘法,但該方法對誤差分布要求較為嚴(yán)苛,如零均值、同方差假定等。在實際應(yīng)用場景中,最小二乘估計的效果并不理想。為了彌補最小二乘法的不足,Wang 等[1]提出了基于指數(shù)平方損失目標(biāo)函數(shù)的估計方法。該方法不需要對模型誤差分布作特定的限制,且估計的穩(wěn)健性由調(diào)節(jié)參數(shù)h控制。該方法一經(jīng)提出即受到了廣泛的關(guān)注。Yu等[2]討論了半函數(shù)線性模型的指數(shù)平方損失估計,并指出如果隨機誤差服從重尾分布,該方法比最小二乘法更加有效;Jiang[3]將該方法應(yīng)用于部分線性模型,并表示當(dāng)數(shù)據(jù)集中存在離群點時,該方法得到的參數(shù)估計量標(biāo)準(zhǔn)差和均方誤差皆優(yōu)于現(xiàn)有的其他方法。
當(dāng)前關(guān)于指數(shù)平方損失方法的研究,多數(shù)文獻都假定協(xié)變量是外生變量,然而在實際應(yīng)用中,協(xié)變量是內(nèi)生變量的情況不在少數(shù)。這種情況下,如果將協(xié)變量視為外生變量進行估計,則得到的參數(shù)估計量將不再是無偏估計。為了消除內(nèi)生性帶來的影響,Ashenfelter[4]提出了倍差法,Thistlethwaite等[5]提出了斷點回歸方法,Donald[6]研究了工具變量法。受到Y(jié)ang等[7]基于工具變量對含測量誤差的線性模型進行參數(shù)估計的啟發(fā),本文基于工具變量的指數(shù)平方損失方法對含內(nèi)生變量的線性模型進行參數(shù)估計。
首先給出了估計過程以及調(diào)節(jié)參數(shù)h的選取過程;進一步,在一些正則條件下,研究了估計的漸近性質(zhì),然后通過模擬研究,比較了不同誤差分布、不同樣本量下樸素M估計、樸素最小二乘估計、樸素指數(shù)平方損失估計以及基于工具變量的M估計、基于工具變量的最小二乘估計、基于工具變量的指數(shù)平方損失估計等6種方法的優(yōu)劣;最后,利用提出的方法對孿生雙胞胎“收入-教育程度”數(shù)據(jù)進行了實證分析。
考慮如下工具變量線性回歸模型:
其中,Xi是p維內(nèi)生變量,β是p維未知向量,Zi是q維工具變量,滿足cov(Zi,εi)=0,Γ是p×q維矩陣,εi,ei是隨機誤差。下面給出β的兩階段估計過程。
第一階段,由于E(Ziei)=0,得到Γ的最小二乘估計:
其中,X=(X1,X2,…,Xn)是p×n維矩陣,Z=(Z1,Z2,…,Zn)是q×n維矩陣。于是,得到Xi的估計量:
可以獲得β的指數(shù)平方損失估計,即
目標(biāo)函數(shù)L(β)中的h是調(diào)節(jié)參數(shù),控制著估計的穩(wěn)健性和有效性。對于較大的h,有
此時,該估計類似于極端情況的最小二乘估計。對于較小的h,|εi|值越大,對估計的影響越小,因此,較小的h將限制離群值對該估計的影響,提高估計的穩(wěn)健性。下面給出調(diào)節(jié)參數(shù)h的選擇過程:
(3) 得到本文所提出估計的漸進方差估計為
且G(x,h),F(xiàn)(x,h)關(guān)于x連續(xù),F(xiàn)(x,h)<0。
定理1 如果條件C(1), C(2), C(3)皆成立,β0是β的真實值,則
其中,
(1)
進而可以得到:
隨之推出:
(2)
于式(2),首先考慮式(2)右邊,將其在εi點泰勒展開,有
op(1)?I1+I2+op(1)
再考慮式(2)的左邊,有
則可以推出:
易知:
且有
再由中心極限定理,就完成了該定理的證明。
本節(jié)通過模擬研究評估所提出的IVESL估計量的有效性與準(zhǔn)確性,作為比較,還計算了樸素M 估計(nM)、樸素最小二乘估計(nLS)、樸素指數(shù)平方損失估計(nESL)、基于工具變量的M估計(IVM)、基于工具變量的最小二乘估計(IVLS)等5種方法的估計量。上面所指的樸素方法指不使用工具變量Zi,直接將Xi視為外生變量參與模型的估計方法。模擬數(shù)據(jù)來自下列模型:
其中,Xi1~N(0,1),(β1,β2)T=(5,2)T,Zi~N(1,1),γ=1,ei~N(0,0.42),εi=ei+σi。由此可見,Xi1是外生變量,Xi2是內(nèi)生變量。在本次模擬中,考慮σi的分布為正態(tài)分布、T分布和柯西分布,樣本容量n=100,150,200,重復(fù)運行1 000次,比較不同誤差分布情形下6種估計方法的均值、偏差和標(biāo)準(zhǔn)差,模擬結(jié)果見表1—表3。從表1—表3可以看出:
(1) 3種基于工具變量的估計方法優(yōu)于3種樸素估計方法。由此可見,忽略內(nèi)生變量直接采用X所獲得的估計量是有偏的。
(2) 當(dāng)σi服從正態(tài)分布時,3種基于工具變量的估計方法所得估計量的偏差、標(biāo)準(zhǔn)差相差不大;當(dāng)σi服從T分布或柯西分布時,IVLS方法失去了穩(wěn)健性,造成了過大的偏差和標(biāo)準(zhǔn)差,IVM和IVESL 方法依然穩(wěn)健。 大多數(shù)情況下,IVESL方法略優(yōu)于IVM方法,因此,本文提出的IVESL估計具有穩(wěn)健性。
(3)樣本容量n增大時,IVM和IVESL估計量的偏差、標(biāo)準(zhǔn)差逐漸下降。
進一步,為了研究本文提出模型在高杠桿點存在的情況下是否依然有效,模擬了在σi服從正態(tài)分布的情況下,考慮15%樣本點的值為高杠桿點Xi1=3的情況,模擬結(jié)果見表4。從表4可以看出:3種樸素方法以及IVLS方法的效果較差,不再適用,而IVM,IVESL方法效果較好,估計量仍然穩(wěn)健,且IVESL估計量略優(yōu)于IVM估計量。
因此,本文提出的IVESL方法不需要對模型誤差分布作特定的假設(shè),無論模型誤差的分布是何種形式,都具有較好的性質(zhì),并且,IVESL有效地處理了內(nèi)生性問題,使得估計量仍然具有無偏性。
表1 隨機誤差σi~N(0,0.42)的數(shù)值模擬結(jié)果
表2 隨機誤差σi~0.2T(2)的數(shù)值模擬結(jié)果
表3 隨機誤差σi~0.2Cauchy(2)的數(shù)值模擬結(jié)果
表4 隨機誤差σi~N(0,0.42)且15%樣本點為高杠桿點Xi1=3的數(shù)值模擬結(jié)果
本節(jié)用提出的方法對“收入-教育程度”數(shù)據(jù)進行實證分析。該數(shù)據(jù)來源于Ashehfelter和Krueger[9]關(guān)于同卵雙胞胎教育回報率的調(diào)查。在這項調(diào)查中,包含了149 對同卵雙胞胎的樣本。Ashehfelter和Krueger使用均值回歸模型調(diào)查基因遺傳對采訪到的雙胞胎收入與受教育程度的影響。如果用傳統(tǒng)方式來量化受教育程度,則該變量會存在內(nèi)生性,由此導(dǎo)致估計量產(chǎn)生偏差。因此,工具變量的引入可以較好地解決這個問題,構(gòu)造下列工具變量線性回歸模型:
其中,w1是孿生長子的報告收入,w2是孿生次子的報告收入,E1,1是孿生長子報告的所受學(xué)校教育年數(shù),E2,2是孿生次子報告的所受學(xué)校教育年數(shù)。文獻[9]分析該數(shù)據(jù)時,認為每對雙胞胎受教育程度之差,即E2,2-E1,1是內(nèi)生變量,為了消除內(nèi)生性,采用E2,1-E1,2作為雙胞胎受教育程度之差的工具變量,其中,E1,2是孿生長子報告的孿生次子所受學(xué)校教育年數(shù),E2,1是孿生次子報告的孿生長子所受的學(xué)校教育年數(shù)。圖1 呈現(xiàn)了響應(yīng)變量Y的直方圖與密度函數(shù)曲線,顯然,響應(yīng)變量在右端有顯著的重尾效應(yīng),根據(jù)Kolmogorov-Smirnov 檢驗得到的P值遠小于0.000 1,因此,與最小二乘法相比,采用IVESL方法分析該數(shù)據(jù)更加合理。為了對比,利用第3節(jié)模擬研究的其余5種方法也分析了該數(shù)據(jù),計算結(jié)果見表5。
圖1 收入-教育程度數(shù)據(jù)中響應(yīng)變量Y的柱形圖和密度曲線圖
表5 收入-教育程度數(shù)據(jù)擬合結(jié)果