賴學方,賀興時
(西安工程大學 理學院,陜西 西安 710048)
一種帶有自適應懲罰權重的懲罰最小一乘估計
賴學方,賀興時
(西安工程大學 理學院,陜西 西安 710048)
為有效解決誤差為重尾分布的高維線性回歸模型的參數(shù)估計問題,提出一種新的參數(shù)估計方法,將一種“對數(shù)-指數(shù)-和”型的懲罰項與最小一乘估計相結合,在參數(shù)估計過程中能夠自適應地調(diào)整各系數(shù)的懲罰權重,使參數(shù)估計結果更加準確穩(wěn)定.對該方法進行數(shù)值實驗測試,并選擇同類型的幾種參數(shù)估計方法進行對比,結果證明了該參數(shù)估計方法的有效性.
高維線性回歸; 參數(shù)估計; 最小一乘估計
隨著現(xiàn)代工程科技的不斷發(fā)展,越來越多的高維數(shù)據(jù)出現(xiàn)在生物醫(yī)學、基因工程、經(jīng)濟金融等研究領域,這為統(tǒng)計建模分析增加了難度[1-2].近幾十年來,統(tǒng)計學者提出和發(fā)展了一種利用懲罰進行系數(shù)收縮的變量選擇方法,如橋回歸[3],嶺回歸[4],lasso[5](least absolute shrinkage and selection operator), SCAD[6](smoothlyclipped absolute deviation)及自適應lasso[7](adaptive lasso)等對解決高維變量選擇問題具有較高的效率.文獻[1]對上述這些參數(shù)估計方法進行了分析和總結,統(tǒng)稱為罰最小二乘(PLS,penalized least squares)估計方法.
然而,最小二乘估計法穩(wěn)定性較低.當數(shù)據(jù)中存在異常值或模型誤差服從重尾分布時,罰最小二乘參數(shù)估計方法并不能得到一個理想的參數(shù)估計結果.在統(tǒng)計建模分析中,尤其是當選擇變量的維數(shù)較高時,尋找一個有效和穩(wěn)定的參數(shù)估計方法一直是統(tǒng)計學者不斷探索的問題[8-9].相比于普通最小二乘估計,最小一乘估計(LAD,least absolute deviation)有著較好的穩(wěn)定性[10].眾多研究通過對最小一乘估計添加懲罰項,以達到變量選擇和參數(shù)穩(wěn)定估計的效果.文獻[11]提出了LAD-lasso(least absolute deviation-least absolute shrinkage and selection operator),其在最小一乘估計的損失函數(shù)上增加了L1范數(shù)懲罰項,并證明了當變量的維數(shù)固定時,在滿足一定條件下,LAD-lasso的估計結果滿足oracle性質.文獻[12]研究了帶有懲罰項的分位數(shù)回歸的參數(shù)估計方法,分別討論了懲罰項為SCAD懲罰和自適應lasso懲罰的情況.文獻[13]對LAD-SCAD(Smoothly Clipped Absolute Deviation-Penalized Least Absolute Deviation) 進行了研究,證明了在滿足一定條件下,當變量的維數(shù)發(fā)散時LAD-SCAD的參數(shù)估計結果仍滿足相合性和漸進正態(tài)性.注意到雖然最小一乘估計比最小二乘估計穩(wěn)定,但最小一乘估計的損失函數(shù)同樣是無界的,數(shù)據(jù)中的異常值同樣會影響其參數(shù)估計結果.文獻[14-15]則分別對LAD-SCAD和LAD-lasso進行了改進,通過對最小一乘的損失函數(shù)增加權重,進一步減少數(shù)據(jù)中異常值對估計結果的影響.文獻[16]研究帶有L1范數(shù)懲罰項的分位數(shù)回歸方法,指出對懲罰項施加適當?shù)臋嘀?一方面能夠增強估計的穩(wěn)定性,對處理誤差為重尾分布的情形具有更好的效果,另一方面也能提高估計的準確性.
本文進一步研究高維線性回歸模型的參數(shù)穩(wěn)定性估計問題,提出一種帶有自適應懲罰權重的懲罰最小一乘估計方法LAD-alasso(least absolute deviation-adaptive lasso).對各系數(shù)所采用的懲罰權重不僅考慮了各系數(shù)自身的大小,同時也考慮了與其他系數(shù)之間的關系;另外,在參數(shù)估計的過程中,該方法能對各系數(shù)的懲罰權重自動調(diào)整,提高參數(shù)估計的準確性.數(shù)值實驗證明了LAD-alasso對解決誤差為重尾分布的高維線性回歸模型的參數(shù)估計問題有著較好的效果.
1.1 LAD-alasso
考慮如下的線性回歸模型
(1)
相比于普通最小二乘估計,最小一乘估計更為穩(wěn)定,其估計結果受異常值影響較小.將懲罰最小二乘估計方法中的最小二乘準則用最小一乘準則代替,就可以得到一個受異常值影響較小,所選擇的模型也具有稀疏性的參數(shù)估計方法.文獻[11]提出一種將最小一乘估計準則(LAD)與lasso懲罰項相結合的參數(shù)估計方法LAD-lasso,即
(2)
雖然LAD-lasso有著較好穩(wěn)定性和參數(shù)估計效果,各系數(shù)的最終估計結果受到第一步中基于最小一乘準則下各系數(shù)的估計結果影響.為了選擇到一個更加有效的懲罰函數(shù)或者懲罰權重,使其能夠更好地處理模型誤差為重尾分布的情形,結合文獻[18]的思想,本文提出了一種將對數(shù)-指數(shù)-和(LES,log-exp-sum)型的懲罰函數(shù)項與最小一乘估計準則相結合的參數(shù)估計方法,其準則函數(shù)為
(3)
其中λ>0為調(diào)整參數(shù),a為(0,1)之間的一個常數(shù).相比于LAD-lasso參數(shù)估計方法,式(3)在參數(shù)估計過程中能夠不斷自適應地調(diào)整懲罰權重,從而提高參數(shù)估計的穩(wěn)定性和準確性,將此方法簡稱為LAD-alasso.
1.2 LAD-alasso的求解算法
如果式(3)中的優(yōu)化函數(shù)為凸的可導函數(shù),利用凸優(yōu)化的相關理論方法,可以快速地對式(3)進行求解.可是絕對值函數(shù)在0點處并不可導,而且式(3)中的LES懲罰函數(shù)也不是一個凸函數(shù),考慮采用其他的優(yōu)化方法對式(3)進行求解.
(4)
將式(4)代入到式(3)中,得
(6)
直接對帶有懲罰項的最小一乘估計進行求解較為困難,通常考慮將其轉化為普通最小一乘估計的求解問題,然后利用最小一乘估計求解方法進行求解.根據(jù)文獻[11],對式(6)進行如下變換:
(7)
其中
(8)
其中ej為第j個值為1,其余值為0的p維單位向量.式(7)為普通最小一乘估計問題,利用現(xiàn)有的統(tǒng)計軟件(如R 語言中的quantreg軟件包)就可以對其進行快速的求解.求解LAD-alasso的算法具體步驟為:
1.3 參數(shù)選擇
算法的調(diào)整參數(shù)是影響算法求解結果的重要因素.在算法運行過程中,需要對調(diào)整參數(shù)λ和a進行選擇.為了使所選擇的模型能夠更好的收斂到真實的模型,利用最小BIC準則[11],構造參數(shù)選擇準則函數(shù)
(9)
由于λ,a都是需要調(diào)整的參數(shù),且兩者之間存在影響.選擇出最優(yōu)的λ,a相當于一個二維的組合優(yōu)化問題.因此,實驗中可以采用控制變量交替選擇辦法,選擇出最優(yōu)的參數(shù)組合.
2.1 實驗設計
對新提出的LAD-alasso參數(shù)估計的穩(wěn)定性和準確性進行數(shù)值實驗測試.選取lasso[5],LAD-lasso[11],以及LAD-SCAD[13]這3種參數(shù)估計方法作為對照.實驗測試均是在R語言軟件上進行的,其中l(wèi)asso估計方法使用glmnet軟件包,而LAD-lasso,LAD-SCAD,LAD-alasso使用quantreg軟件包.記模擬的線性回歸模型為
其中xi,β均為p維向量,p為模型回歸系數(shù),分別選取p=8和p=50兩種維數(shù)進行測試.當p=8時,βT=(3,4,0.5,2,0,0,0,0),即真實的模型中,只有前4個系數(shù)是有效的,而其他的系數(shù)均為0;同樣的,當p=50時,βT=(3,4,0.5,2,0),其中0表示一個46維的0向量.xi的生成方法與文獻[6]相同, 實驗樣本數(shù)n取100.
εi為模型的誤差項.實驗分別選擇標準正態(tài)分布,標準柯西分布和混合正態(tài)分布作為模型的誤差項.其中標準柯西分布是一個重尾分布,混合正態(tài)分布所采用的方式為0.8N(0,1)+0.2N(10,62).對于標準正態(tài)分布和標準柯西分布,分別考慮σ取值為1,2時的情況;而對于混合正態(tài)分布,σ只選擇為1的情況.
2.2 實驗結果及分析
測試結果如表1~3所示.表1為模型誤差為正態(tài)分布時的測試結果.從表1可知,lasso和LAD-SCAD在模型的復雜度方面都有著較好的表現(xiàn)效果.無論σ取值為1還是2,lasso及LAD-SCAD的correct指標值要大于LAD-lasso和LAD-alasso;而前兩者的incorrect指標值要小于后兩者.然而在模型精確性方面,lasso的表現(xiàn)效果要差于LAD-lasso及LAD-alasso.當σ變大,模型的維數(shù)增高時,lasso的模型預測準則性及參數(shù)估計準確性迅速降低,而LAD-lasso和LAD-alasso則表現(xiàn)相對較穩(wěn)定.由此可見,當模型的誤差較大、維數(shù)較高時,最小一乘相關參數(shù)估計方法比最小二乘相關參數(shù)估計方法更穩(wěn)定.另外,在模型精確性方面,LAD-alasso所選擇的模型要優(yōu)于LAD-lasso及LAD-SCAD.
表 1 誤差為正態(tài)分布時的測試結果
表2為模型誤差為標準柯西分布時的測試結果.由表2可知,在模型復雜度方面,lasso及LAD-SCAD表現(xiàn)要好于LAD-lasso及LAD-alasso.但在模型預測的準確性方面,隨著σ和p的增大,LAD-alasso的準確性明顯要高于LAD-lasso及LAD-SCAD;而在系數(shù)估計的準確性方面,LAD-alasso的Mbias值要小于lasso及LAD-lasso,而要略大于LAD-SCAD.因此,當誤差為重尾分布時,盡管LAD-alasso選擇的模型的復雜度要高于lasso及LAD-SCAD所選擇的模型,但所選擇的模型在精確度方面有著明顯的優(yōu)勢,因此,可見LAD-alasso有著較好的模型選擇效果.
表3是模型的誤差為混合正態(tài)分布時的情況.總的來說,LAD-SCAD和LAD-alasso表現(xiàn)較好.在多數(shù)情況,LAD-alasso的Average-MAPE,Median-MAPE,Mbias指標值都要小于lasso及LAD-lasso,因此,在模型準確性方面,LAD-alasso優(yōu)于LAD-lasso及l(fā)asso.在模型的復雜性方面,LAD-alasso也優(yōu)于后兩者的.LAD-alasso的模型預測誤差均值要低于LAD-SCAD,而在系數(shù)估計準確性及模型稀疏性方面,LAD-alasso要差于后者.
由上述分析可知,盡管在模型的稀疏性方面LAD-alasso的表現(xiàn)并不是最優(yōu)的,但考慮到其所選模型精確性,LAD-alasso的總體表現(xiàn)還是較為滿意的.利用具有自適應調(diào)整懲罰權重的LAD-alasso能夠更為有效的解決誤差重尾的高維線性回歸模型的參數(shù)估計問題.
表 2 誤差為標準柯西分布時的測試結果
表 3 誤差為混合正態(tài)分布時的測試結果
為解決誤差為重尾分布的高維線性回歸模型的參數(shù)估計問題,提出了一種帶有自適應懲罰權重的懲罰最小一乘參數(shù)估計方法.這種方法在參數(shù)的估計過程中,能夠通過循環(huán)迭代的方式,自適應調(diào)整各系數(shù)的懲罰權重,提高模型的準確性和穩(wěn)定性.選取3種不同分布的誤差,對此方法進行數(shù)值實驗測試,測試結果證明了該參數(shù)估計方法的有效性.盡管LAD-alasso是一種較為穩(wěn)定的參數(shù)估計方法,但在模型的稀疏性方面,其表現(xiàn)還不是十分理想.后續(xù)考慮對LAD-alasso進一步改進,減少模型的復雜度.
[1] FAN Jianqing,LI Runze.Statistical challenges with high dimensionality:Feature selection in knowledge discovery[C]//Proceedings of the International Congress of Mathematicians,Madrid,2006:595-622.
[2] FAN Jianqing,PENG Heng,HUANG Tao.Semilinear high-dimensional model for normalization of microarray data: A Theoretical analysis and partial consistency[J].Journal of the American Statistical Association,2005,100(9):781-796.
[3] FRANK I E,FRIEDMAN J H.A statistical view of some chemometrics regression tools[J].Technometrics,1993,35(35):109-135.
[4] HOERL Arthur E,KENNARD Robert W.Ridge regression:Biased estimation for nonorthogonal problems[J].Technometrics,2000,42(12):55-67.
[5] TIBSHIRANI R.Regression shrinkage and selection via the lasso[J].Journal of the Royal Statistical Society,1996,58(1):267-288.
[6] FAN Jianqing,LI Runze.Variable selection via nonconcave penalized likelihood and its oracle properties[J].Journal of the American Statistical Association,2001,96(10):1348-1360.
[7] ZOU H.The adaptive lasso and its oracle properties[J].Journal of the American Statistical Association,2006,101(476):1418-1429.
[8] 張成毅,羅雙華.缺失數(shù)據(jù)下的M估計[J].西安工程大學學報,2012,26(4):524-529.
ZHANG Chengyi,LUO Shuanghua.The local linear M-estimation under missing response data[J].Journal of Xi′an Polytechnic University,2012,26(4):524-529.
[9] WANG X,JIANG Y,HUANG M,et al.Robust variable selection with exponential squared loss[J].Journal of the American Statistical Association,2013,108(502):632-643.
[10] 謝開貴,宋乾坤,周家啟.最小一乘線性回歸模型研究[J].系統(tǒng)仿真學報,2002,14(2):189-192.
XIE Kaigui,SONG Qiankun,ZHOU Jiaqi.A linear regress model based on least absolute criteria[J].Journal of System Simulation,2012,14(2):189-192.
[11] WANG Hansheng,LI Guodong,JIANG Guohua.Robust regression shrinkage and consistent variable selection through the LAD-lasso[J].Journal of Business & Economic Statistics,2007,25(3):347-355.
[12] WU Y,LIU Y.Variable selection in quantile regression[J].Statistica Sinica,2009,19(2):801-817.
[13] WANG Mingqiu,SONG Lixin,TIAN Guoliang.SCAD-penalized least absolute deviation regression in high dimensional models[J].Communication in Statistics-Theory and Methods,2015,44(12):2452-2472.
[14] JUNG Kang M.Robust estimator with the SCAD function in penalized linear regression[J].The SIJ Transactions on Computer Science Engineering & its Applications (CSEA),2014,4(2):156-160.
[15] ARSLAN O.Weighted LAD-LASSO method for robust parameter estimation and variable selection in regression[J].Computational Statistics & Data Analysis,2012,56(6):1952-1965.
[16] FAN J,FAN Y,BARUT E.Adaptive robust variable selection[J].Annals of Statistics,2012,42(1):324-351.
[17] MALLICK H,YI N.Bayesian methods for high dimensional linear models[J].Journal of Biometrics & Biostatistics,2013,1:005.
[18] GENG Zhigeng.Variable selection via penalized likelihood[D].Madison:University of Wisonsin-Madison,2014:47-60.
編輯、校對:師 瑯
A method of least absolute deviation estimator with adaptive weighted penalty
LAIXuefang,HEXingshi
(School of Science, Xi′an Polytechnic University, Xi′an 710048,China)
To solve the problem of parameter estimation in high dimensional linear models with high-tailed errors, a novel parameter estimation method is proposed.It combines a log-exp-sum type penalty with the least absolute criteria. In the process of parametric estimation,this method can adjust the weights of the penalty for parameters adaptively so as to get a more robust and accurate result. Numerical simulation test was conducted by comparing this new method with other similar methods of parameter estimation.The results demonstrate the effectiveness of this new method.
high-dimensional linear regression; parameter estimation; least absolute deviation
1006-8341(2016)04-0471-07
10.13338/j.issn.1006-8341.2016.04.010
2016-05-14
陜西省自然軟科學研究計劃項目(2014KRM28-01);西安市2015基礎教育研究大招標項目(2015ZB-ZY04);西安工程大學研究生創(chuàng)新基金資助項目(CX201614)
賀興時(1960—),男,陜西省富平縣人,西安工程大學教授,研究方向為智能優(yōu)化算法、數(shù)理統(tǒng)計等.
E-mail:xingshi-he@163.com
賴學方,賀興時.一種帶有自適應懲罰權重的懲罰最小一乘估計[J].紡織高?;A科學學報,2016,29(4):471-477.
LAI Xuefang, HE Xingshi.A method of least absolute deviation estimator with adaptive weighted penalty[J].Basic Sciences Journal of Textile Universities,2016,29(4):471-477.
O 212
A