李順勇,衛(wèi)夏利,張曉琴
(1.山西大學 數(shù)學科學學院,山西 太原 030006,2.山西財經(jīng)大學 統(tǒng)計學院,山西 太原 030006)
回歸是統(tǒng)計學中刻畫數(shù)據(jù)結(jié)構(gòu)常用的方法之一。在回歸建模過程中,隨著數(shù)據(jù)維度越來越高,變量選擇發(fā)揮的作用越來越重要,一旦選入與因變量無關(guān)的自變量,估計和預(yù)測精度就會下降,模型的泛化能力將會變差?,F(xiàn)階段變量選擇的方法已經(jīng)從傳統(tǒng)的離散最優(yōu)子集回歸發(fā)展到正則化框架,除已知的最小絕對收縮和選擇算子(Lasso)[1]外,隨著光滑削減絕對偏差(SCAD)[2]的提出,Oracle性質(zhì)成為變量選擇好壞的評價指標。2006年,ZOU H[3]提出自適應(yīng)Lasso改進Lasso不具有Oracle性質(zhì)的缺點。此外,還有常用的正則化懲罰函數(shù),如彈性網(wǎng)[4]和MCP[5-6],它們在最小二乘回歸中應(yīng)用已有大量成果。
在實際建模中,另一個總被忽略的重要特征是異方差性[7]。傳統(tǒng)的最小二乘回歸由于對誤差項的假設(shè),使得它在處理異方差時是失效的。分位數(shù)回歸[8]作為一種分析異方差的方法,在回歸過程中能夠探究給定自變量時因變量的整個條件分布[9]。WU Y等[10]研究了懲罰分位數(shù)回歸的變量選擇,并給出誤差項獨立同分布時估計量的漸近性質(zhì);WANG L等[11]通過超高維數(shù)據(jù)中的正則化稀疏分位數(shù)回歸分析了異方差性。但分位數(shù)回歸存在3個缺點,即不可微性、類高斯誤差分布的無效率性和絕對值損失函數(shù)帶來的計算壓力。另一種檢測異方差的方法是基于非對稱L2范數(shù)提出的非對稱最小二乘回歸,也稱為Expectile回歸,它表現(xiàn)出許多優(yōu)良的性質(zhì),使回歸方法有了進一步的拓展和延伸[12-14]?;貧w誤差服從高斯分布時,GU Y等[15]采用正則化的Expectile回歸分析高維數(shù)據(jù)中的異方差問題;趙軍[16]在研究正則化Expectile回歸時指出,回歸誤差服從高斯分布這一條件在實際中不易滿足,誤差項有時具有有限階矩甚至重尾的情況,故研究了當回歸誤差具有有限階矩條件下,帶SCAD正則化的Expectile回歸的變量選擇以及在檢測異方差上的有效性;LIAO L等[17]用SCAD和自適應(yīng)Lasso作為懲罰項,研究了正則化Expectile回歸在回歸誤差存在有限階矩時的變量選擇,同時給出了誤差項獨立但不同分布下的Oracle性質(zhì)。
MCP懲罰作為一種非凸懲罰函數(shù),已被證明在理論和實踐上對變量選擇和參數(shù)估計是有效的,這一方法解決了近似無偏估計和如何找到凹度最小懲罰計算困難的問題??紤]到MCP在變量選擇和參數(shù)估計上的優(yōu)良性,將MCP懲罰函數(shù)引入到Expectile回歸中,其誘導(dǎo)的估計量是否仍然具有良好的性質(zhì)是一個重點。因此,本文在研究回歸誤差項獨立同分布假設(shè)的基礎(chǔ)上,構(gòu)建了在有限階矩假設(shè)下獨立但不同分布的誤差項,具有MCP懲罰的正則化Expectile回歸估計量的漸近性質(zhì)。
分位數(shù)回歸和Expectile回歸分別是基于非對稱L1范數(shù)和非對稱L2范數(shù)而提出的。在給出相應(yīng)的優(yōu)化問題之前,首先給出一個隨機變量Z∈R的τ均值,
Eτ(Z)=arg mina∈REΨτ(Z-a),
式中:τ∈(0,1),為Expectile水平;Ψτ(.)為非對稱平方損失函數(shù),定義為
Ψτ(u)=|τ-I(u<0)|u2,
(1)
其中,I(.)為示性函數(shù)。
考慮線性模型
Y=Xβ+ε,
式中:Y=(y1,…,yn)′為一個n維因變量;X=(X1,…,Xp)為n×p維自變量矩陣,該矩陣也可寫作X=(x1,…,xn)′,其中xi=(xi1,…,xip)′,i=1,2,…,n;β為p維未知參數(shù)向量;ε為誤差項。
考慮到變量選擇,需對模型進行一定的稀疏性假設(shè),即只有一小部分自變量影響因變量的分布。不失一般性,假設(shè)自變量中前q個為重要變量,其余的為噪聲變量,即X=(X1,X2)′∈Rp,X1∈Rq,X2∈Rp-q分別對應(yīng)重要變量和噪聲變量,相應(yīng)的回歸系數(shù)真值為β0=(β10′,β20′)′,其中β10是非0的q維向量,β20是p-q維的0向量。此時β=(β1′,β2′)′,xi=(xi1′,xi2′)′。線性回歸模型變?yōu)橄∈枘J?/p>
對一些預(yù)先設(shè)定的τ∈(0,1),隨機誤差εi的τ均值為0。
基于上述模型,Expectile回歸定義為極小化函數(shù),即
τ∈(0,1),β∈Rp,即Expectile回歸系數(shù)估計量為
其中,Ψτ(.)為非對稱平方損失函數(shù),定義見式(1),τ=0.5時,Expectile回歸即為OLS回歸。
分位數(shù)回歸定義為極小化下式:
其中,β∈Rp,α∈(0,1),rα(.)定義為
rα(u)=|α-I(u≤0)|.|u|。
(2)
分位數(shù)回歸基于非對稱L1范數(shù),對回歸模型中正負殘差賦予不同的權(quán)重,使其在回歸過程中能夠探究給定自變量時因變量的整個條件分布。當考慮不同的條件分布片段時,相關(guān)自變量集合可能發(fā)生變化。導(dǎo)致異方差存在的其中一個原因是線性模型中殘差項受到自變量的影響。因此,通過不同分位數(shù)水平下線性模型中自變量集合的變化,識別出引起異方差的自變量,進而可以有效地檢測模型的異方差性。
由于分位數(shù)回歸中損失函數(shù)使用L1范數(shù),而Expectile回歸中采用L2范數(shù),故后者比前者對離群點更敏感,這為Expectile回歸在檢測異方差性方面比分位數(shù)回歸更顯著提供了理論基礎(chǔ)。
目前對非凸懲罰研究較為廣泛的有SCAD[2]和MCP[5],其中MCP懲罰函數(shù)為
(3)
它的導(dǎo)數(shù)為
(4)
式中:sgn(.)為符號函數(shù);λ和γ為正則化參數(shù),γ>1。
考慮懲罰Expectile回歸模型的目標函數(shù)
(5)
式中,pλ(|βj|)為相關(guān)懲罰函數(shù)。
本節(jié)給出回歸誤差項獨立但不同分布下帶有MCP的Expectile回歸理論性質(zhì)。先給出下列條件[10,16-17]:
條件2:X的行向量{xi,i=1,2,…,n}是確定性序列,假設(shè)存在正定陣∑,使得
條件4:假設(shè)存在正定陣∑gτ,∑hτ,使得
gτ(εi)=Ψτ′(εi-t)|t=0=-2τεiI(εi≥0)-
2(1-τ)εiI(εi<0),
hτ(εi)=Ψ″τ(εi-t)|t=0=2τI(εi≥0)+
2(1-τ)I(εi<0),i=1,2,…,n。
基于隨機誤差項獨立但不同分布的假設(shè),帶MCP的Expectile回歸系數(shù)估計量有如下定理。
(6)
(7)
在Rq的任意緊集上一致成立而且不依賴于θ1。
因此n→∞時,
代入式(7)可知,j=1,2,…,q時,
op(1)+o(1),
則
那么
由林德伯格中心極限定理知
由Slutsky定理得
則
為了與帶有MCP的正則化Expectile回歸方法進行比較,同時考慮帶有SCAD的Expectile回歸(E-SCAD)[16-17],帶有自適應(yīng)Lasso的Expectile回歸(E-AL)[17]和帶有SCAD的分位數(shù)回歸[10](Q-SCAD)。由于SCAD和MCP懲罰函數(shù)在優(yōu)化問題中存在非凸性,應(yīng)用CCCP算法[10-11,16-17]解決優(yōu)化問題,這是一種適用于優(yōu)化函數(shù)可分解為凸函數(shù)和凹函數(shù)之和的算法。先通過局部線性逼近算法(LLA)尋求目標函數(shù)的局部上緊凸函數(shù),接著通過連續(xù)極小化局部上緊凸函數(shù)尋求一個局部極小值,下面分別給出E-SCAD,E-AL,Q-SCAD的優(yōu)化問題:
(8)
(9)
(10)
其中,懲罰函數(shù)pλ(.)定義為
pλ(|βj|)=λ|βj|I(|βj|≤λ)-
為了研究模型具有異方差時提出方法在變量選擇和檢測異方差上的表現(xiàn),模擬數(shù)據(jù)從下述線性模型中產(chǎn)生:
Y=1+X1+X2+X3+(1+X3),
(11)
其中X2=X1+X3+Z,X1和Z均從獨立標準正態(tài)分布中產(chǎn)生,X3從[0,1]上的均勻分布中產(chǎn)生,X1,X3,Z和ε之間相互獨立。殘差項受到自變量X3的影響,所以該線性模型具有異方差性。
圖1 各變量與殘差平方的散點圖
為了考查誤差具有有限階矩的表現(xiàn),考慮隨機誤差項的2種分布,即標準正態(tài)分布和重尾分布t(10)。通過增加服從標準正態(tài)分布的獨立噪聲變量,考慮2種不同樣本量和自變量維度,分別為p=10,n=100和p=20,n=200。對于懲罰Expectile回歸,考慮不同的Expectile水平τ分別為0.1,0.25,0.5,0.75,0.9。當給定具體分布時,計算與τ值一一對應(yīng)的分位數(shù)水平。
表1列出了在式(11)的數(shù)據(jù)生成下,誤差項服從標準正態(tài)分布假設(shè)時,幾種方法在樣本量n=100自變量維度p=10的模擬結(jié)果。樣本量n=200自變量維度p=20的模擬結(jié)果在表2中列出。誤差項服從t(10)分布時的模擬結(jié)果分別列于表3和表4。
表1 標準正態(tài)分布假設(shè)時p=10,n=100模型(11)模擬結(jié)果
續(xù)表1
表2 標準正態(tài)分布假設(shè)時p=20,n=200模型(11)模擬結(jié)果
表3 t(10)分布假設(shè)時p=10,n=100模型(11)模擬結(jié)果
表4 t(10)分布假設(shè)時p=20,n=200模型(11)模擬結(jié)果
表1~4顯示本文提出的方法在模擬中產(chǎn)生更小的絕對誤差,其中括號內(nèi)為基于100次模擬結(jié)果所產(chǎn)生的方差。考慮到X3在式(11)中是一個既對均值又對方差有影響的自變量,所以先得到在100次模擬中X1,X2(僅對均值產(chǎn)生影響的自變量)的變量選擇結(jié)果。對比之下,4種方法均可以趨于1的概率選取到重要變量。就X3而言,從表1~4中的F1結(jié)果發(fā)現(xiàn),隨著Expectile水平τ增加,對X3的選取頻率呈明顯增長趨勢,τ=0.9時選取到這一自變量的頻率較高,此時X3可能是引起異方差現(xiàn)象的自變量。
基于上述結(jié)果,按照下述模型生成數(shù)據(jù),執(zhí)行新的模擬
Y=1+X1+X2+(1+X3)ε,
(12)
自變量X1,X2,X3的生成同式(11),在設(shè)定X3只是對方差有影響的自變量,表5給出在式(12)下誤差項為標準正態(tài)分布假設(shè)時X3的變量選擇的結(jié)果。
從表5可以看出,隨著τ變化,對X3的變量選擇結(jié)果并沒有直接增長。τ=0.5時,選擇X3的頻率很低,而隨著τ∈(0,1)向0和1的方向變化,選中X3的頻率逐漸增加。而X3正是只對方差項有影響而對均值項無影響的自變量,本文提出的方法在選擇X3上比其他方法均有較好表現(xiàn)。
表5 標準正態(tài)分布假設(shè)時p=10,n=100模型(12)模擬中X3的選擇結(jié)果
通過對比證明,在自變量只影響均值時,本方法可以趨于1的概率選取到重要變量,當隨著Expectile水平τ的變化,自變量的選取頻率呈增長趨勢時,該自變量既對均值有影響,又對方差產(chǎn)生影響。τ=0.5時選取概率極低,而在其他水平下增高,因此,該自變量只對方差有影響。綜上所述,模擬試驗結(jié)果表明,本文提出的方法在變量選擇中能產(chǎn)生更小的誤差,且比其他方法以更優(yōu)的概率選取到引起異方差的自變量,從而可有效地檢測出異方差。
本文基于Expectile回歸對回歸模型中正負殘差賦予不同的權(quán)重,通過不同的Expectile水平,在回歸過程中能夠探究給定自變量時因變量的整個條件分布,已有異方差文獻多基于誤差項服從獨立同分布假設(shè)或者隨機誤差項服從正態(tài)分布,本文將該假設(shè)弱化為隨機誤差項獨立但不同分布,且具有有限階矩,并建立了相應(yīng)的帶有MCP懲罰項的Expectile回歸估計量的漸近性質(zhì),得到在一定的條件下相應(yīng)估計量的Oracle性質(zhì)。數(shù)據(jù)模擬結(jié)果表明,本文提出的方法在變量選擇上表現(xiàn)優(yōu)良,并且能夠通過自變量集合的變化有效地檢測出異方差。