廣義線性模型Lasso懲罰回歸估計的局部二次逼近

2015-02-18 04:57:40顧光同

統(tǒng)計與決策 2015年11期

顧光同

（浙江農(nóng)林大學理學院統(tǒng)計系，浙江臨安 311300）

0 引言

廣義線性模型（Generalized Linear Model,簡稱GLM）首先由Nelder和Baker(1972)[1]提出，McCullagh和Neleder(1989)[2]系統(tǒng)地闡述了相關(guān)理論框架。此模型經(jīng)典線性模型的拓展，線性回歸模型（Linear Model,簡稱LM）僅僅是其的一個特例。GLM主要在LM上的拓展主要表現(xiàn)在兩個方面：（1）通過設(shè)定一個聯(lián)接函數(shù)將被解釋變量的期望與解釋變量的線性組合連接起來；（2）模型的誤差分布不再僅僅要求高斯分布，只需要被解釋變量Y的分布為經(jīng)典指數(shù)分布族即可。因此，GLM既適用于大量連續(xù)型的Y建模，也適用于大量離散型的Y，這也是GLM自被提出起學術(shù)界在理論研究和應用方面受到廣泛關(guān)注的原因。眾所周知，數(shù)據(jù)建模中模型的待估參數(shù)是否能得到有效地估計一直是核心問題，GLM的待估參數(shù)通常采用極大似然法（簡稱ML）來實現(xiàn)估計。本文從Park M Y,Hastie（2007）[3]等提出的GLM的Lasso懲罰即1-范數(shù)約束估計路徑的基礎(chǔ)上，采用Wang（2007）[4]提出的局部二次逼近方法推導得GLM似然函數(shù)Lasso懲罰的最小二乘類的參數(shù)估計——重復加權(quán)最小二乘(RWLS)估計路徑。

1 廣義線性模型簡介

記X是n×k的設(shè)計陣，Y是n×1的隨機被解釋向量，β是未知k×1的參數(shù)向量，f(·)表示某種函數(shù)形式，u是n×1的隨機誤差向量，則GLM形如：

模型（1）有下面3個特點（分別用a，b，c列出）：

a.隨機誤差 u滿足 E(u)=0n×1，Y的條件期望μY|X=E(Y|X=xn×k)=f(Xβ) 是系統(tǒng) 部分即線性預測ηn×1=Xn×kβk×1=β1+β2x1+...+βkxk的光滑可逆函數(shù)，存在連接函數(shù) g(μ)=f-1(Xβ)=η；

b.X和Y的樣本觀測值既可是連續(xù)數(shù)據(jù)，也可是離散數(shù)據(jù)；

c.模型的隨機部分即Y的分布只需滿足典型指數(shù)分布族即可，此分布族覆蓋了大部分常見分布，比如離散型的Poisson分布和二項分布，連續(xù)型的高斯分布、指數(shù)分布和Gamma分布等，該分布族的概率密度函數(shù)形如：

其中b(·)和c(·)為已知函數(shù)，ξ和φ分別為自然參數(shù)和刻度參數(shù)。

本文先從無懲罰的模型（1）參數(shù)向量β的ML估計開始，討論在Lasso懲罰下的ML估計，并進一步采用局部二次逼近的方式，將其轉(zhuǎn)化為最小二乘估計類。

2 GLM的極大似然估計

2.1 無懲罰極大似然估計

模型（1）的參數(shù)向量 β的估計，通常采用ML估計獲得，假設(shè)被解釋變量Y服從指數(shù)族分布形如（2），構(gòu)建形如（1）的GLM，且Y的抽樣樣本的觀測值為y=(y1，y2，...，yn)T，則Y 的對數(shù)似然函數(shù)為

2.2 LASSO懲罰下的極大似然估計

根據(jù)Rosset和Zhu（2007）[6]的研究可知，式（12）的估計路徑不是逐片線性的，而最小二乘估計類路徑滿足逐片線性。下面主要討論將式（12）逼近為最小二乘估計類的方法。

3 LASSO懲罰回歸估計的局部二次逼近

GLM的模型（1）如果采用式（12）直接求解，迭代復雜功效低，Efron和Hastie等（2004）[7]提出的最小角回歸（LARS）是求解式（12）的有效算法，要求路徑逐片線性。式（11）中的懲罰部分引入單位向量 ei=(0，…，0，1，0，…，0)T，寫成另外一種形式為

為了提高效率，盡量避開在Newton-Raphson迭代中去計算式（22），通過對（22）兩邊取數(shù)學期望且因損失函數(shù)與極大似然函數(shù)相差一個符號，故可用負的Fisher信息陣代替海賽矩陣D的期望。那么在無懲罰的極大似然估計的迭代式（10）中加入懲罰矩陣，再將式（8）-（9）代入可得極大似然的Lasso懲罰的參數(shù)向量β的迭代估計路徑為

另外，Lasso懲罰系數(shù)λ通常是基于Golub、Michael和Grace（1979）提出的廣義交叉驗證（GCV）方法構(gòu)造相應的準則實現(xiàn)其最優(yōu)選擇的[3-6]，其他的準則還有BIC準則等可見文獻[8]。

4 結(jié)束語

廣義線性模型的應用越來越廣，這是因為模型的隨機部分的分布可能滿足Gaussian分布、二項式、Poisson分布以及Gamma分布等的一大類指數(shù)族。而Lasso懲罰在模型中能有效地同時實現(xiàn)自變量的自動選擇和參數(shù)估計。本文從無懲罰的GLM的極大似然形式開始，逐步引入Lasso懲罰估計，并基于Lasso懲罰下?lián)p失函數(shù)的兩次泰勒展開實現(xiàn)二次近似，推導和討論了GLM的極大似然Lasso懲罰估計的最小二乘估計類的路徑。在實踐應用中，如果GLM的連接函數(shù)是典型連接即g(μ)=μ=η時，利用（23）式可得參數(shù)向量 β 的估計為 β^=(XTX+R~λ)-1XTY，顯然，此時若懲罰矩陣R~λ為0矩陣即相當于模型無懲罰（λ=0）情形下，β^就是普通最小二乘估計而已。由于篇幅有限本文估計方法的模擬和實證等研究筆者將另文闡述。

[1]Nelder J A,Baker R J.Generalized linear models[M].John Wiley&Sons,Inc.,1972．

[2]McCullagh P,Nelder J A.Generalized Linear Models[M].（2th ed）.London:Chapman and Hall,1989.

[3]Park M Y,Hastie T.L1-Regularization Path Algorithm for Generalized Linear Models[J].Journal of the Royal Statistical Society:Series B(Statistical Methodology),2007,69(4).

[4]Wang Y.Maximum Likelihood Computation Based on the Fisher Scoring and Gauss-Newton Quadratic Approximations[J].Computational Statistics and Data Analysis,2007,(8).

[5]Park M Y,Hastie T.L1-Regularization Path algorithm for Generalized Linear Models[J].Journal of the Royal Statistical Society:Series B(Statistical Methodology),2007,69(4).

[6]Rosset S,Zhu J.Piecewise Linear Regularized Solution paths[J].The Annals of Statistics,2007.

[7]Efron B,Hastie T,Johnstone I,et al.Least angle Regression[J].The Annals of statistics,2004,32(2).

[8]Wang H,Leng C.Unified LASSO Estimation by Least Squares Approximation[J].Journal of the American Statistical Association,2007,102(479).