何曉申
摘 要:分位數(shù)回歸(QR)是給定變量,估計響應(yīng)變量條件分位數(shù)的一種基本方法。它不僅可以度量回歸變量在分布中心的影響,還可以度量在分布上尾和下尾的影響,當(dāng)存在左偏或右偏時,分位回歸的系數(shù)估計會更穩(wěn)定,更能體現(xiàn)出分析的全面特征。因此,較之經(jīng)典的最小二乘回歸(OLS)具有獨特的優(yōu)勢。據(jù)此,對分位數(shù)回歸的理論、分位數(shù)回歸漸進性質(zhì)、似然比檢驗、分位數(shù)回歸置信區(qū)間及應(yīng)用進行深入研究。
關(guān)鍵詞:分位回歸;最小二乘法;漸進性質(zhì);似然比檢驗
中圖分類號:F224 文獻標志碼:A 文章編號:1673-291X(2016)16-0006-02
引言
傳統(tǒng)的線性回歸模型中最小二乘回歸應(yīng)用最為廣泛。它描述的是因變量條件均值分布受自變量X的影響過程。如當(dāng)模型的數(shù)據(jù)存在嚴重的異方差或厚尾時,最小二乘估計將不再具有優(yōu)良性質(zhì)。Laplace[1]第一次提出了中位數(shù)回歸估計。在此基礎(chǔ)上,Koenker[2]將中位數(shù)回歸推廣到分位數(shù)回歸。分位數(shù)回歸可以捕捉到分布的尾部特征,分位回歸能更加全面地刻畫分布的特征從而得到全面的分析[3],而且分位回歸系數(shù)比最小二乘回歸系數(shù)估計更穩(wěn)健。
一、分位回歸理論
定義:分位數(shù)回歸的線性模型為y=X'β+ε,其中y為隨機變量,x為解釋變量向量,ε為誤差項。定義樣本的τ分位數(shù)函數(shù)為Qy(τ|x)=X'β(τ),可以進一步寫作:
其中τ∈(0,1),β為系數(shù)向量,不同的τ會估計出不同的系數(shù)。當(dāng)τ=0.5時,上式意味著最小化絕對離差[4],也就是中位數(shù)回歸。分位回歸本質(zhì)就是通過不同的分位數(shù)τ來調(diào)節(jié)回歸平面,對數(shù)據(jù)進行完整的描述但是側(cè)重于極端數(shù)據(jù)。
二、分位數(shù)回歸的漸近性
假設(shè)一列獨立同分布的隨機變量Y1,Y2,…,Yn,其分布函數(shù)F在分位點的鄰域內(nèi)具有恒大于零的連續(xù)密度函數(shù)f,gn(ξ)為梯度函數(shù),τ分位數(shù)的目標函數(shù)ξτ。
三、分位回歸似然比檢驗
如果約束條件成立,則約束模型與非約束模型的極大似然函數(shù)值應(yīng)該近似相等。在條件分位數(shù)回歸模型y=X'β+ε中,ε獨立同分布,其密度函數(shù)為f,Basset[5]對中位數(shù)回歸進行了似然比檢驗。原假設(shè)為H0∶Rβ=r
原假設(shè)成立時Tn漸近服從χ2(q)分布,推廣到τ分位數(shù)回歸的檢驗統(tǒng)計量為:
四、置信區(qū)間
在隨機誤差項獨立同分布且分布已知的情況下,由似然比檢驗統(tǒng)計量的分布可以很容易求出回歸分位數(shù)的置信區(qū)間。但當(dāng)隨機誤差分布未知時,我們就不能通過直接估計法來求得置信區(qū)間。對于這種情況,Efon[6]提出了自助法,自助法是根據(jù)經(jīng)驗分布函數(shù)是總體分布函數(shù)的充分估計量來進行置信區(qū)間估計的。
五、實證研究
我們利用R軟件自帶Engel數(shù)據(jù)集來研究家庭收入與食物支出的關(guān)系。Engel數(shù)據(jù)集可在quantrey包中找到,其中數(shù)據(jù)集包含235個觀測值,共有兩個變量:income——家庭收入連續(xù)變量自變量;foodexp——家庭食物支出連續(xù)變量因變量。
(一)異方差情形下的QR與OLS
我們得到最小二乘法估計的線性模型:Y=150.37+0.48X,
t統(tǒng)計量值為33.74,R2=0.83,F(xiàn)=1 138.11,White檢驗,TR2=
176.11>χ2 0.05=6,存在異方差。
由表1可知,隨τ取值逐漸變大,自變量X的回歸系數(shù)β也逐漸增大,變化范圍在0.34~0.71之間,全距0.37。在0.05分位數(shù)上,每增加1個單位的X,Y增加0.34單位,而在0.95分位數(shù)上,每增加1個單位的X,Y增加0.71單位。因變量Y由低水平到高水平,自變量X所起的作用越來越大。
(二)同方差情形下的QR與OLS
克服異方差的方式有很多,本文利用取對數(shù)法,得到兩個新變量。普通最小二乘法估計的線性模型為:LnY=0.57+
0.85LnX,t統(tǒng)計量值為41.99,R2=0.88,F(xiàn)=1 763.58,τ值取不同值時,回歸方程和曲線(如表2所示)。隨著τ取值逐漸變大,自變量X的回歸系數(shù)β并沒有發(fā)生顯著的變化,無論因變量LnY處于哪一水平,增加一個單位自變量LnX,都會使LnY增加0.85單位左右的大小。
結(jié)論
通過以上實例可以看出,分位數(shù)回歸可視為普通最小二乘法的有益補充。當(dāng)普通最小二乘法的前提假設(shè)不能滿足時,分位數(shù)回歸則提供了一種新的統(tǒng)計方法和視野。通過對因變量分布的不同部分進行研究,挖掘出更多有用的信息,從而更真實、準確地反映自變量與因變量之間的相互關(guān)系。