魏 雙 微
(重慶師范大學 數(shù)學科學學院,重慶 401331)
當前社會數(shù)據(jù)海量、信息紛繁,如何從廣大數(shù)據(jù)中尋找出有效信息已經(jīng)成為學者們正在探討的話題。因此,國內(nèi)外學者先后提出了赤池信息準則、貝葉斯信息準則、廣義交叉驗證等方法來解決這一難題。這些方法不但缺乏穩(wěn)定性,而且在自變量個數(shù)較多時還會耗費巨大的計算成本。尋找一種新的理論方法來解決高維數(shù)據(jù)的信息提取已然成為研究者們迫切需要解決的問題。Tibsniran[1]在懲罰函數(shù)的啟發(fā)下提出了LASSO(Least Absolute Shrinkage and Selection Operator)估計,該方法在懲罰參數(shù)的合理選擇范圍內(nèi)可以壓縮某些分量至零以實現(xiàn)變量選擇,并進行參數(shù)估計;Fan等[2]提出了懲罰似然函數(shù)的變量選擇方法。然而,已有的文獻大多是基于極大似然或最小平方進行研究和分析的,所得估計并不穩(wěn)健。此外,這些方法不僅對于異常值很敏感,而且當誤差為厚尾分布時估計效率會大大降低。因此,研究高維數(shù)據(jù)下估計方法更為穩(wěn)健和有效就顯得尤為重要。
Jaeckel[3]提出秩回歸(Rank Regression)估計,其具備良好的穩(wěn)健性和有效性;Wang等[4]結(jié)合加權(quán)SCAD(Smoothly Clipped Absolute Deviation)懲罰將秩估計推廣到了固定維數(shù)參數(shù)模型下,并已證明該方法具有Oracle性質(zhì)(即模型選擇的相合性、參數(shù)估計漸近正態(tài)性);Wang等[5]通過局部秩估計對β(·)的穩(wěn)健推斷問題進行了研究,結(jié)果表明:在誤差是非正態(tài)分布情形下,此方法能夠顯著地改善經(jīng)典局部最小二乘估計;Yang等[6]基于B樣條基近似非參函數(shù)并利用SCAD罰函數(shù)懲罰秩回歸,提出了一種新的穩(wěn)健估計,此方法能夠進行變量選擇以及識別變系數(shù)與常系數(shù);Kwessi[7]將秩估計引入半?yún)?shù)模型下,結(jié)合自適應LASSO懲罰表明在重尾分布下所得估計量是一致的,并給出了漸近正態(tài)性結(jié)果。
Zou等[8]提出了彈性網(wǎng)方法,該方法可以處理協(xié)變量中出現(xiàn)的復共線性問題,其預測精度遠遠優(yōu)于Lasso;盧[9]將Zou 等[8]的方法推廣到了Logistic模型和Poisson模型中,證明該方法可將具有強相關性的變量全部選入模型或者剔除;黃[10]將Zou 等[8]的方法推廣到部分線性模型中,同時提出并證明其具有Oracle性質(zhì);在超高維數(shù)據(jù)下,Xiao等[11]提出MSA-Enet(Multi-step Adaptive Elastic Net)方法進行降維,其目的是讓變量維數(shù)小于樣本容量;李[12]將Zou等[8]的方法應用到平衡縱向數(shù)據(jù)模型的變量選擇中,證明了該方法具有相合性和組效應性質(zhì);Li等[13]將非負自適應彈性網(wǎng)估計推廣到高維稀疏線性模型中,并在一些正則條件下證明了其Oracle性質(zhì)和在有效樣本下的有效性;王等[14]結(jié)合分位數(shù)回歸和彈性網(wǎng)估計研究了基金績效評價,且表明彈性網(wǎng)分位數(shù)回歸比均值回歸和Lasso分位數(shù)回歸的評價更加準確。已有的研究已證明了彈性網(wǎng)約束良好的組效應性質(zhì),秩回歸具有穩(wěn)健性和有效性,因此如何將兩者有效結(jié)合從而實現(xiàn)穩(wěn)健變量選擇是一個很有學術意義的問題。
Yang等[15]結(jié)合秩回歸與SCAD罰函數(shù)提出來一種穩(wěn)健的變量選擇方法,但當協(xié)變量中出現(xiàn)復共線性情形時,效果可能會受影響,因此如何在數(shù)據(jù)出現(xiàn)復共線性時,研究穩(wěn)健的變量選擇很有意義。在已有的研究成果中,彈性網(wǎng)估計方面的研究都是非穩(wěn)健估計,秩回歸方面的研究算法幾乎都是采用lars算法,且從未與彈性網(wǎng)估計結(jié)合進行研究。本文將秩回歸與彈性網(wǎng)相結(jié)合進行了研究,在響應變量含有異常值或重尾分布情況下,本文所提出的估計均具穩(wěn)健性和有效性,且對強相關性數(shù)據(jù)的估計效果優(yōu)于Lasso懲罰秩估計、懲罰分位數(shù)回歸以及最小二乘估計。在算法上對損失函數(shù)和懲罰函數(shù)采用局部二次近似,使得目標函數(shù)能求出數(shù)值解,優(yōu)化其迭代算法。
考慮線性回歸模型:
Y=αIn+Xβ+ε
其中,Y=(Y1,Y2,…,Yn)T是n×1維響應變量,α是截距,In是元素全是1的n×1維向量,X是n×p維協(xié)方差矩陣,且不喪失一般性,假設X中心化,β是p×1維未知參數(shù),ε是具有概率密度f(·)的獨立同分布n×1維隨機誤差向量。假設在真實模型中,β的部分元素是零,本文的研究目標是實現(xiàn)零系數(shù)的識別和非零系數(shù)的穩(wěn)健且有效估計。
令ei=yi-xiTβ,i=1,2,…,n,初始估計量:
(1)
如式 (1)所示,盡管可以得到參數(shù)估計的結(jié)果,但是不能把重要的協(xié)變量選擇出來。Zou等[8]提出了彈性網(wǎng)約束,能使部分參數(shù)壓縮為零,實現(xiàn)變量選擇。本文在式 (1)基礎上加入彈性網(wǎng)約束。
本文提出的自適應彈性約束秩回歸指用自適應彈性網(wǎng)懲罰秩回歸模型。Zou[16]對L1懲罰部分進行加權(quán),則懲罰函數(shù)的部分變?yōu)?/p>
(2)
式(2)稱為自適應彈性約束秩回歸(R-AEN)。
式(1)可以看作是Jaeckel[17]的Wilcoxon得分秩差分函數(shù),基于文獻[6],其中C(β)可有如下近似:
其中R(ei)是ei的秩,i=1,2,…,n。
由此,目標函數(shù)式(2)可以變成如下形式:
(3)
用局部二次近似逼近罰函數(shù)的第一部分,得
S=Y-ξIn×1
W=diag(ω1,ω2,…,ωn)
D=(S-Xβ)TW(S-Xβ) +nβTΔβ+nλ2βTβ
如式(3)所示,可以近似成如下形式:
(4)
如式(4)所示,對β求導后令其為0,得
-2XTW(S-Xβ)+2n(Δ+λ2Ip×p)β=0
則有
基于以上討論,可將EN-R估計的求解算法概括為以下幾個步驟:
步驟1 給定初始值βm(m=0),初始值可以由式(1)得到;
步驟2 在當前估計值β(m)下,利用β(m+1)=(XTWX+nΔ+λ2I)-1XTWS|β=β(m),得到新估計值β(m+1);
步驟3 迭代步驟2直至算法收斂。在實際操作過程中,當‖β(m+1)-β(m)‖<10-6時,停止迭代。
在Tibshirani[1]和Fan等[18]文獻中,數(shù)據(jù)來自于
yi=xiTβ+εi,i=1,2,…,n
表2 σ=0.7下各方法的模擬結(jié)果
由表1和表2可知,所提出的R-AEN估計相比其他3種方法表現(xiàn)更好,特別是對于厚尾(t3)或異常值(混合正態(tài))。從模型復雜度方面看,所提出的方法NC很大,隨著樣本量的增加很快地接近5,NIC接近0,NCF接近1,證實了所提方法能穩(wěn)健有效地識別零和非零系數(shù)。Oracle和R-AEN的MSE值很接近,并且隨著樣本量的增大越來越接近,說明所提方法的模型選擇結(jié)果幾乎接近于真實情況。隨著樣本量的增大,所有方法的MSE值越來越小,證明所有方法是相合估計。另外,R-AEN處理強相關變量具有更好的穩(wěn)健性和顯著性。綜上所述,新方法能同時實現(xiàn)高效、穩(wěn)健的模型選擇,并且處理強相關性數(shù)據(jù)的能力相對更好。
本節(jié)重點討論R-AEN在金融市場中的應用:追蹤中證100指數(shù)的表現(xiàn)。
指數(shù)追蹤是良好的資產(chǎn)配置方法,該方法利用部分成分股復制目標指數(shù)的表現(xiàn)。此外,由于成分股與目標指數(shù)之間存在復共線性,因此本文的指數(shù)追蹤用自適應彈性網(wǎng)秩回歸方法進行研究。
所用數(shù)據(jù)來自西南證券金點子財富管理終端,包含2020-09-28—2020-12-22的中證100指數(shù)以及所有成分股30 min線收盤價,共919個觀測值,100個協(xié)變量,能有效解決中證100指數(shù)的成分股半年更新導致變量發(fā)生改變以及樣本量n
分析過程中,令xij表示第j只成分股在第i次觀測時的收盤價,yi表示第i次觀測時的中證100指數(shù)。通??捎萌缦戮€性模型描述xij與yi之間的關系:
表3 各種方法的內(nèi)預測誤差(FISPE)
表4 各種方法的外預測誤差(FOSPE)
(a) LS-AEN方法
(b) QR-AEN方法
(c) R-L1方法
(d) R-AEN方法圖1 各種方法在測試集上得到的預測值
一種估計方法FISPE和FOSPE越小,說明此方法的預測精度越高。由表3和表4知, R-AEN方法的內(nèi)預測誤差為611.042,明顯小于其余3種方法;R-AEN方法的外預測誤差為180 693.3,明顯小于其余3種方法。說明R-AEN方法所選模型預測效果最佳。圖1可以直觀地看出: R-AEN方法值曲線與觀測值曲線更接近,說明預測效果最佳,同時也說明,R-AEN方法對重要協(xié)變量的選擇更加準確。
本文基于自適應彈性網(wǎng)和秩估計提出了穩(wěn)健且有效的變量選擇方法。通過數(shù)值模擬分析所得結(jié)論表明:當數(shù)據(jù)含有異常值或厚尾分布,或協(xié)變量具有強相關性時,所提R-AEN估計比現(xiàn)有方法更穩(wěn)健和有效。本文僅從彈性網(wǎng)約束秩回歸方面對變量選擇進行了研究,關于彈性網(wǎng)約束秩回歸中調(diào)節(jié)參數(shù)的選擇還可進行研究。