韓 情 汪子琦 耿文靜
(安徽大學(xué)經(jīng)濟(jì)學(xué)院 安徽 合肥 230601)
近年來股票投資逐漸成為熱門,如何有效提高投資收益成為了學(xué)界和業(yè)界需要持續(xù)探討和研究的問題。在研究股票價(jià)格的眾多模型中,時(shí)間序列模型最受大家青睞,因?yàn)闀r(shí)間序列預(yù)測法正迎合股票價(jià)格變化發(fā)展的隨機(jī)性及其時(shí)變性等特點(diǎn),可通過建立模型以預(yù)測股票未來發(fā)展的趨向[1]。自回歸模型是時(shí)間序列模型中最常用的一種模型,能較為直觀的描述股票價(jià)格的動(dòng)態(tài)變化[2]。由于AR(p)模型在擬合的過程中無法進(jìn)行變量剔除,Tibshirani(1996)[3]提出了Lasso回歸方法,通過構(gòu)造一個(gè)懲罰函數(shù)得到一個(gè)簡化模型,將一些回歸系數(shù)壓縮至零。Nardi Y(2011)[4]等對Lasso回歸方法進(jìn)行數(shù)據(jù)模擬和實(shí)證研究,發(fā)現(xiàn)Lasso回歸方法適用于AR(p)時(shí)間序列模型的參數(shù)估計(jì)和階數(shù)選擇。Zou(2006)[5]對Lasso方法進(jìn)行改進(jìn),在L1項(xiàng)的懲罰系數(shù)前加自適應(yīng)權(quán)值,提出了自適應(yīng)Lasso法。謝儀(2014)等[6]利用數(shù)據(jù)模擬發(fā)現(xiàn)自適應(yīng)Lasso方法在AR(p)模型估計(jì)中具有實(shí)用性。但Lasso系列方法仍存在一些不足,比如:當(dāng)數(shù)據(jù)具有很強(qiáng)的共線性時(shí),它的選擇效果會減弱。因此,Zou(2005)等[7]提出了Elastic Net回歸模型:將L1和L2懲罰項(xiàng)進(jìn)行凸線性組合。
縱觀上述已有研究結(jié)果,多數(shù)學(xué)者都論證了Lasso類方法在自回歸時(shí)間序列模型中的適用性,受此啟發(fā),本文將彈性網(wǎng)方法應(yīng)用于AR(p)模型中,并比較彈性網(wǎng)方法、Lasso方法以及ALasso方法對AR(p)模型預(yù)測效果的改進(jìn)性。
考慮自回歸模型AR(p):
yt=β0+β1yt-1+β2yt-2+…+βpyt-p+εt
(1)
針對模型(1),可通過最小二乘法構(gòu)造二次損失函數(shù),最小化期望損失可得模型的參數(shù)估計(jì)結(jié)果:
(2)
雖然上述模型通過簡單求偏導(dǎo)即可得到參數(shù)估計(jì)結(jié)果,但其結(jié)果易受自變量相關(guān)性強(qiáng)弱的影響,Tibesirani(1996)[3]提出了Lasso方法,在(2)中加入L1懲罰項(xiàng),使模型的一些參數(shù)收縮至零,同時(shí)實(shí)現(xiàn)變量選擇和參數(shù)估計(jì),其參數(shù)估計(jì)表示為:
(3)
(4)
Lasso類方法雖然具有良好的變量選擇性質(zhì),但會出現(xiàn)過度壓縮的情況,實(shí)際應(yīng)用中,人們更希望將所有與被解釋變量有關(guān)的影響變量包含在內(nèi)?;谏鲜隹紤],Zou(2005)等[7]提出了Elastic Net方法,該種方法將L1正則項(xiàng)和L2正則項(xiàng)均加進(jìn)懲罰項(xiàng)中,具體參數(shù)估計(jì)形式表現(xiàn)為:
(5)
觀察式(5)可以看出(3)和(4)均是其特例,因此Elastic Net方法也具有變量選擇的特點(diǎn)??紤]到彈性網(wǎng)方法的綜合性,本文就采用此方法對AR(p)模型進(jìn)行參數(shù)估計(jì)。
本文選取2017年1月1日至2019年11月31日的上證綜合指數(shù)的日收盤價(jià)作為建模數(shù)據(jù),將2019年12月前十個(gè)交易日的收盤價(jià)作為模型測試數(shù)據(jù)。本文數(shù)據(jù)來自于新浪財(cái)經(jīng)(https://finance.sina.com.cn)。根據(jù)所選區(qū)間內(nèi)的上證綜指日收盤價(jià)繪制出如圖1所示的樣本時(shí)間序列圖,從圖1可以看出,該樣本數(shù)據(jù)有明顯的波動(dòng)趨勢,總體呈現(xiàn)先下降后上升的態(tài)勢,由此初步判斷數(shù)據(jù)并不平穩(wěn)。
圖1 上證綜指日收盤價(jià)格時(shí)序圖
然后對數(shù)據(jù)進(jìn)行詳細(xì)的描述性統(tǒng)計(jì)分析以及正態(tài)性檢驗(yàn),結(jié)果見表1。由表1可看出,整體數(shù)據(jù)的偏度系數(shù)大于零,峰度系數(shù)不等于3,且J-B統(tǒng)計(jì)量的結(jié)果為15.924,表明該樣本序列不服從正態(tài)分布。進(jìn)一步對其進(jìn)行單位根檢驗(yàn),所得ADF檢驗(yàn)對應(yīng)p值為0.709,說明該序列確實(shí)不是平穩(wěn)的。
表1 上證綜指日收盤價(jià)的描述性統(tǒng)計(jì)
本文對上證綜合指數(shù)的日收盤價(jià)進(jìn)行一階差分處理,再對其做平穩(wěn)性檢驗(yàn),得到的p值是0.01,表明差分后的數(shù)據(jù)是平穩(wěn)的。因此,本文以上證綜指的日收盤價(jià)的一階差分值作為模型的被解釋變量,可記作yt,其滯后p階的一階差分值作為解釋變量,以此建立自回歸模型。
為了精準(zhǔn)地確定AR(P)模型的階數(shù),本文選用AIC定階準(zhǔn)則,利用R軟件繪制出各階模型的AIC取值圖。從圖2中也可以明顯地看出,當(dāng)P取7時(shí)模型的AIC值最小,因此本文最終選擇AR(7)模型。
圖2 AIC值點(diǎn)線圖
模型定階以后,本文依次運(yùn)用Lasso,ALasso,Elastic-net方法對AR(7)模型進(jìn)行變量選擇處理,得到具體的模型估計(jì)結(jié)果見表2。從表2的數(shù)據(jù)可以看出,自適應(yīng)Lasso方法下的變量個(gè)數(shù)更少,說明這種方法對變量進(jìn)行了過度選擇,會刪除某些對被解釋變量有影響的因素。
表2 三種方法下變量選擇以及參數(shù)估計(jì)結(jié)果
三種模型建立以后,我們對擬合模型進(jìn)行充分性檢驗(yàn)。其殘差序列白噪聲檢驗(yàn)的p-value以及檢驗(yàn)結(jié)果見表3。從3可知,三種方法下對應(yīng)的檢驗(yàn)p值都大于0.05,無法拒絕原假設(shè),說明這三個(gè)模型對數(shù)據(jù)的建模是充分的,我們可以選擇上述的三種模型對yt進(jìn)行樣本外預(yù)測。
表3 三種方法下的擬合模型的Ljung-Box檢驗(yàn)結(jié)果
接下來本文利用上述三個(gè)模型對2019年12月前十個(gè)交易日的日收盤價(jià)進(jìn)行估計(jì),并利用平均絕對誤差計(jì)算預(yù)算精度,具體結(jié)果見表4。根據(jù)表4可以發(fā)現(xiàn),應(yīng)用彈性網(wǎng)方法得到的估計(jì)值有5天更接近真實(shí)值,預(yù)測效果優(yōu)于其他兩種方法。尤其是第7天的股票預(yù)測值里,Elastic-net方法得到的絕對誤差僅為1.881。綜合比較三種模型的預(yù)測效果,彈性網(wǎng)方法的MAE值最小為12.995,明顯小于Lasso方法和ALasso方法,說明通過彈性網(wǎng)方法得到的AR(7)擬合模型的預(yù)測效果最佳,也表明在與自適應(yīng)時(shí)間序列模型的結(jié)合中,彈性網(wǎng)方法的參數(shù)估計(jì)能力優(yōu)于Lasso類方法。
表4 上證綜指19年12月前十天日收盤價(jià)估計(jì)結(jié)果
在對自回歸模型進(jìn)行變量選擇上,Lasso類方法可以有效實(shí)現(xiàn),但考慮到Lasso類方法系數(shù)收縮的極致性,本文提出了彈性網(wǎng)方法與自回歸模型的結(jié)合。通過對上證綜指2017年1月至2019年11月間日收盤價(jià)的一階差分值建立AR(7)模型,運(yùn)用Lasso方法、ALasso方法和彈性網(wǎng)方法進(jìn)行變量選擇以及參數(shù)估計(jì),進(jìn)而對2019年12月前十個(gè)工作日的日收盤價(jià)進(jìn)行預(yù)測,結(jié)果表明:綜合了L1和L2正則項(xiàng)的彈性網(wǎng)方法在模型預(yù)測效果上明顯優(yōu)于其他兩種方法,預(yù)測誤差最小。彈性網(wǎng)方法與AR(p)模型的結(jié)合是探究時(shí)序模型的新思路,一方面它的變量選擇性能可以簡化傳統(tǒng)時(shí)序模型,另一方面也能提高模型的預(yù)測能力,對以后的股票價(jià)格預(yù)測具有重要的現(xiàn)實(shí)意義。當(dāng)然,彈性網(wǎng)方法與自回歸模型的結(jié)合也可擴(kuò)散至對其他時(shí)間序列數(shù)據(jù)的研究,這對今后的時(shí)間序列模型的發(fā)展具有很好的借鑒意義。