萬(wàn) 學(xué)
(重慶師范大學(xué) 數(shù)學(xué)科學(xué)學(xué)院, 重慶 401331)
隨著我國(guó)經(jīng)濟(jì)的不斷發(fā)展,股票投資進(jìn)入大眾視野,成為最熱門的投資方式之一。如何選擇成分股對(duì)股票指數(shù)進(jìn)行跟蹤,越來(lái)越受到人們的關(guān)注。追蹤股票指數(shù)指以某一股票指數(shù)為目標(biāo),以該指數(shù)的成分股為投資對(duì)象,通過(guò)購(gòu)買該成分股所構(gòu)建的投資組合,用于追蹤目標(biāo)指數(shù)的表現(xiàn)。人們感興趣的是如何用更少的投資來(lái)獲得更大的回報(bào),這啟發(fā)了學(xué)者們探索如何選擇較少的成分股達(dá)到跟蹤股票指數(shù)的目的。
在統(tǒng)計(jì)學(xué)中,選擇較少的成分股追蹤股票指數(shù),稱為變量選擇問(wèn)題。對(duì)于變量選擇的方法,國(guó)內(nèi)外已有許多學(xué)者對(duì)此進(jìn)行了全面而深入的研究,其中Tibshirani[1]在1996年提出了一種基于壓縮系數(shù)的Lasso(Least Absolute Shrinkage and Selection Operator)方法,克服了傳統(tǒng)的逐步回歸法、最優(yōu)子集選擇法等方法的不足,為變量選擇領(lǐng)域的發(fā)展做出了十分重要的貢獻(xiàn)。但是,Lasso方法在很大程度上壓縮了變量的系數(shù),致使模型偏差較大,且不具有Oracle性質(zhì)。為了改善這些不足,F(xiàn)an等[2]提出了能同時(shí)選出顯著變量和得出相應(yīng)參數(shù)估計(jì)的SCAD(Smoothly Clipped Absolute Devation)方法,并在線性模型中證明了該方法的Oracle性質(zhì);Zou[3]對(duì)不同的系數(shù)施加不同的權(quán)重進(jìn)行壓縮,提出了Adaptive Lasso方法,在一定程度上克服了Lasso方法的不足。但是,Adaptive Lasso方法對(duì)于處理具有組效應(yīng)的數(shù)據(jù)仍然不理想。為了處理具有組效應(yīng)的數(shù)據(jù),Zou和 Hastie[4]提出了Elastic net方法,但是該方法不具有Oracle性質(zhì);為此,Zou和Zhang[5]受Adaptive Lasso方法的啟發(fā)提出了另一種具有Oracle性質(zhì)的方法,即Adaptive Elastic net方法。這些選擇重要變量的方法已經(jīng)被研究得相對(duì)成熟了,并且被學(xué)者們應(yīng)用于各個(gè)領(lǐng)域。
在統(tǒng)計(jì)分析中,經(jīng)常會(huì)遇到一些非負(fù)數(shù)據(jù),例如股票價(jià)格、患者的壽命、生存時(shí)間等。處理這類數(shù)據(jù),通常會(huì)考慮如下乘積模型:
(1)
其中,Xi是p維協(xié)變量,Yi是響應(yīng)變量,β是未知參數(shù)向量,εi是嚴(yán)格非負(fù)的隨機(jī)誤差。
對(duì)于模型式(1)的估計(jì)方法,Chen等[6]基于相對(duì)誤差思想,提出了最小絕對(duì)相對(duì)誤差(Least Absolute Relative Errors, LARE)準(zhǔn)則:
LARE(β)=
(2)
通過(guò)最小化目標(biāo)函數(shù)式(2)可獲得模型式(1)的參數(shù)估計(jì)。張丹[7]將LARE準(zhǔn)則和文獻(xiàn)[1-3]中提到的變量選擇方法結(jié)合起來(lái),討論了模型式(1)的變量選擇問(wèn)題,并對(duì)相應(yīng)的Oracle性質(zhì)進(jìn)行了證明。雖然Chen等[6]提出的LARE準(zhǔn)則在一定條件下能得到具有相合性和漸近正態(tài)性的參數(shù)估計(jì),但是LARE準(zhǔn)則的目標(biāo)函數(shù)式(2)并不光滑,且計(jì)算十分復(fù)雜,為了克服這些不足,Chen等[8]考慮將目標(biāo)函數(shù)式(2)中兩種相對(duì)誤差相乘提出了最小乘積相對(duì)誤差(Least Product Relative Error, LPRE)準(zhǔn)則,即最小化以下目標(biāo)函數(shù):
LPRE(β)=
(3)
從目標(biāo)函數(shù)式(3)可以看出,相比于LARE準(zhǔn)則,LPRE準(zhǔn)則的目標(biāo)函數(shù)具有無(wú)限可微且嚴(yán)格凸的優(yōu)點(diǎn),這使得該目標(biāo)函數(shù)具有唯一的最小值點(diǎn)。Chen等[8]也通過(guò)數(shù)值模擬和實(shí)例應(yīng)用證明了在一定條件下LPRE估計(jì)方法比LARE估計(jì)方法更有效;李翠平[9]基于LPRE準(zhǔn)則,通過(guò)Adaptive LASSO,Adaptive Elastic Net,以及SCAD方法研究了模型式(1)的變量選擇問(wèn)題,并對(duì)相應(yīng)的Oracle性質(zhì)進(jìn)行了證明;陳銀鈞等[10]將LPRE準(zhǔn)則和LASSO方法結(jié)合起來(lái)研究了模型式(1)的變量選擇問(wèn)題?;贚ARE和LPRE準(zhǔn)則,已有許多學(xué)者研究了線性乘積模型。但是,僅使用這個(gè)模型不能完全反應(yīng)實(shí)際應(yīng)用中變量之間復(fù)雜的潛在關(guān)系。胡大海[11]在LPRE準(zhǔn)則的基礎(chǔ)上,研究了變系數(shù)乘積模型的非參函數(shù)估計(jì)問(wèn)題。
近年來(lái),乘積模型變量選擇問(wèn)題得到了廣泛關(guān)注,但是對(duì)于變系數(shù)乘積模型的變量選擇問(wèn)題的研究還鮮少出現(xiàn)。因此,本文將在已有文獻(xiàn)的基礎(chǔ)上,將LPRE和SCAD方法應(yīng)用于變系數(shù)乘積模型,研究該模型的變量選擇問(wèn)題,并通過(guò)模擬仿真證明所提方法的有效性;最后,利用模擬中的方法追蹤深證紅利指數(shù),證明所提方法的實(shí)用性。
當(dāng)假定參數(shù)模型成立時(shí),模型式(1)具有較高的推斷精度,且具有容易解釋的優(yōu)點(diǎn),但是在實(shí)際應(yīng)用中,學(xué)者們并不能確定數(shù)據(jù)服從怎樣的模型,如果假定的參數(shù)模型與實(shí)際情況不相符,對(duì)于給定參數(shù)模型的估計(jì)和統(tǒng)計(jì)推斷就幾乎沒有意義。此外,模型式(1)通常是假定logY與X之間呈線性關(guān)系,但是有時(shí)候這個(gè)假定是不成立的。為此,本文考慮適應(yīng)性更強(qiáng)的變系數(shù)乘積模型:
(4)
其中,β(·)=(β1(·),…,βp(·))T是p×1維未知函數(shù)系數(shù)向量,指標(biāo)變量Ui∈[0,1],Xi是協(xié)變量,Yi是響應(yīng)變量,εi是嚴(yán)格非負(fù)隨機(jī)誤差。
對(duì)模型式(4)作對(duì)數(shù)變換,可將其轉(zhuǎn)換為一般的變系數(shù)模型:
(5)
對(duì)模型式(4)進(jìn)行估計(jì),最直接的方法就是將其轉(zhuǎn)換為模型式(5),再利用最小二乘法對(duì)其進(jìn)行估計(jì),但是最小二乘法具有不穩(wěn)健的缺點(diǎn)。同樣地,對(duì)模型式(4)中的響應(yīng)變量Y進(jìn)行預(yù)測(cè)時(shí),可以先對(duì)模型式(5)中的Y*進(jìn)行預(yù)測(cè),再通過(guò)指數(shù)變換得到Y(jié)的預(yù)測(cè)值,但是在這個(gè)估計(jì)和預(yù)測(cè)的過(guò)程中始終考慮的是絕對(duì)誤差,而在實(shí)際應(yīng)用中,對(duì)于正響應(yīng)變量,更多的是關(guān)注相對(duì)誤差而不是絕對(duì)誤差。因此,本文基于相對(duì)誤差思想,將Chen等[8]提出的LPRE準(zhǔn)則應(yīng)用于變系數(shù)乘積模型式(4)。
鑒于B樣條基函數(shù)具有良好的理論性質(zhì),類似呂晶[13],本文利用B樣條基函數(shù)去逼近模型式(4)中的未知函數(shù)系數(shù)β(·)。
令B(u)=(B1(u),…,BKn(u))T為B樣條基函數(shù),則函數(shù)系數(shù)βj(·)可逼近為如下形式:
(6)
其中,γj=(γj1,…,γjKn)T為B樣條系數(shù)向量,Kn=J+m+1為基函數(shù)的個(gè)數(shù),J為內(nèi)節(jié)點(diǎn)的個(gè)數(shù),m為樣條的階,{Bk(·),k=1,2,…,Kn}是線性空間Gj的一組基,其中Gj由[0,1]區(qū)間上(m+1)階的B樣條函數(shù)構(gòu)成?;诤瘮?shù)系數(shù)βj(·)的近似形式式(6),模型式(4)可表示為如下形式:
(7)
(8)
(9)
由此,求解模型式(4)中未知函數(shù)系數(shù)的估計(jì)就轉(zhuǎn)化為求解模型式(8)中參數(shù)向量γ的估計(jì)。
為了選出模型式(4)中的重要變量,需要將不重要變量的系數(shù)壓縮為0。由于Fan等[2]提出的SCAD懲罰函數(shù)具有將較小系數(shù)壓縮為0,對(duì)較大系數(shù)不進(jìn)行壓縮,能使模型偏差更小的優(yōu)點(diǎn),且該懲罰函數(shù)是一個(gè)凸函數(shù),能夠得到全局最優(yōu)解,在優(yōu)化時(shí)不會(huì)陷入局部最優(yōu)解,因此,本文將SCAD懲罰函數(shù)應(yīng)用于變系數(shù)乘積模型。
令pλn(·)為SCAD懲罰函數(shù),其一階導(dǎo)數(shù)定義為如下形式:
其中,a>2,θ>0,λn為調(diào)整參數(shù)。為此,本文考慮以下懲罰目標(biāo)函數(shù):
(10)
由目標(biāo)函數(shù)式(9),容易看出該目標(biāo)函數(shù)是可微的,所以最小化該目標(biāo)函數(shù)就等價(jià)于求解該目標(biāo)函數(shù)的一階偏導(dǎo)數(shù)等于0的根,即
(11)
當(dāng)‖γn+1-γn‖<δ時(shí),例如δ=10-8,稱迭代收斂,其中‖·‖表示向量的Euclidean范數(shù)。
(12)
進(jìn)一步,去除一些常數(shù)部分,則目標(biāo)函數(shù)式(10)可以被近似為以下形式:
(13)
當(dāng)‖γ(n+1)-γ(n)‖<δ時(shí),例如δ=10-8,稱迭代收斂。
實(shí)際應(yīng)用中,調(diào)整參數(shù)的選取會(huì)直接影響估計(jì)的結(jié)果,因此,選擇合適的調(diào)整參數(shù)對(duì)于接下來(lái)的模擬仿真和實(shí)證研究是十分重要的。
首先,本文采用三次B樣條(即m=3),為了計(jì)算更簡(jiǎn)便,采用等距節(jié)點(diǎn),并且類似明浩等[15]取內(nèi)節(jié)點(diǎn)的個(gè)數(shù)J=[n1/(2m+1)],其中[c]表示不超過(guò)c的最大整數(shù);其次,基于Fan等[2]的建議,取a=3.7;最后,鑒于貝葉斯信息準(zhǔn)則(Bayesian Information Criterion,即BIC)的良好理論性質(zhì),利用BIC準(zhǔn)則選取最優(yōu)的λn,即通過(guò)最小化以下目標(biāo)函數(shù)來(lái)選取λn:
考慮如下變系數(shù)乘積模型:
表1 模擬結(jié)果
從表1的模擬結(jié)果可以看出:對(duì)于給定的模型,兩種方法的結(jié)果受不同的誤差分布影響。首先,當(dāng)誤差的對(duì)數(shù)服從正態(tài)分布時(shí),關(guān)于NCF與RASE值方面,LPRE-S方法比LS-S方法表現(xiàn)得更好,這說(shuō)明了LPRE-S方法比LS-S方法更有效,且LPRE-S變量選擇的結(jié)果幾乎一致最好。其次,當(dāng)誤差的對(duì)數(shù)服從(-2,2)上的均勻分布時(shí),仍然是LPRE-S方法的結(jié)果更好,且相比于logε服從標(biāo)準(zhǔn)正態(tài)分布時(shí),LPRE-S方法和LS-S方法的結(jié)果都稍好一點(diǎn)。最后,當(dāng)樣本量增大時(shí),LPRE-S估計(jì)方法選出真實(shí)模型的比率隨之提高,幾乎接近1,且NPenalized與NOracle更加接近,這充分說(shuō)明了本文所提方法的有效性。
為了進(jìn)一步說(shuō)明所提方法的實(shí)用性,將所提LPRE-S方法應(yīng)用于股票指數(shù)的跟蹤,選取深證紅利指數(shù)及其成分股作為實(shí)證研究對(duì)象。深證紅利指數(shù)是指40只能夠?yàn)樯钲诠墒型顿Y者提供長(zhǎng)期穩(wěn)定回報(bào)的股票,是深圳巨潮紅利指數(shù)的縮影。本文數(shù)據(jù)來(lái)源于西南證券金點(diǎn)子財(cái)富管理終端,采用2019-01-02—2021-02-26期間,深證紅利指數(shù)及其40只成分股的522個(gè)日線收盤價(jià)數(shù)據(jù)進(jìn)行研究。
將深證紅利指數(shù)作為響應(yīng)變量Y,40只成分股作為協(xié)變量X,成分股中的鞍鋼股份作為指標(biāo)變量U,考慮隨機(jī)模擬中的LPRE-S和LS-S兩種方法,同時(shí)對(duì)所有協(xié)變量進(jìn)行標(biāo)準(zhǔn)化。由于影響股票指數(shù)的因素較多,且作用機(jī)制較復(fù)雜,這使得預(yù)測(cè)股票指數(shù)的長(zhǎng)期走勢(shì)非常困難,但是在短期預(yù)測(cè)中往往能夠取得較好的效果。因此,為了檢驗(yàn)?zāi)P偷念A(yù)測(cè)能力,令T=0,1,…,121,取第1天到第(400+T)天的數(shù)據(jù)作為訓(xùn)練集,利用訓(xùn)練集獲得參數(shù)和非參函數(shù)的估計(jì),然后通過(guò)訓(xùn)練集上獲得的預(yù)測(cè)模型來(lái)預(yù)測(cè)第(400+T+1)天的深證紅利指數(shù),從而得到第401天到第522天的122個(gè)預(yù)測(cè)值,其預(yù)測(cè)效果如圖1、圖2所示。
圖1 LPRE-S方法實(shí)際值與預(yù)測(cè)值走勢(shì)圖
圖2 LS-S方法實(shí)際值與預(yù)測(cè)值走勢(shì)圖
通過(guò)觀察圖1、圖2,發(fā)現(xiàn)在前60天的預(yù)測(cè)中,LPRE-S方法的實(shí)際走勢(shì)與預(yù)測(cè)走勢(shì)幾乎一致,易見其預(yù)測(cè)效果優(yōu)于LS-S方法,而后62天,LPRE-S方法預(yù)測(cè)效果沒有前60天預(yù)測(cè)效果好,且后60天兩種方法的預(yù)測(cè)效果差別不是很明顯。但是,通過(guò)計(jì)算得到,LPRE-S方法在第401天到第522天所得殘差平方和為2 219 764,LS-S方法在第401天到第522天所得殘差平方和為3 322 961,即LPRE-S方法的殘差平方和要小于LS-S方法的殘差平方和。
為了進(jìn)一步對(duì)以上兩種估計(jì)方法的預(yù)測(cè)效果進(jìn)行比較,類似Chen等[8]建立以下4種中位數(shù)指標(biāo)評(píng)價(jià)LPRE-S估計(jì)方法和LS-S估計(jì)方法:
表2 LPRE-S和LS-S兩種方法預(yù)測(cè)誤差的中位數(shù)比較結(jié)果
對(duì)于表2中的4種中位數(shù)指標(biāo),值越小的方法,其預(yù)測(cè)效果越有效。從表2的結(jié)果可以看出:LPRE-S方法在每種中位數(shù)指標(biāo)下的值都比LS-S方法的值小,即LPRE-S方法的結(jié)果優(yōu)于LS-S方法。由此,進(jìn)一步說(shuō)明了本文所提方法能更加有效追蹤股票指數(shù)。
本文基于B樣條函數(shù)逼近技術(shù),將LPRE準(zhǔn)則和組SCAD懲罰函數(shù)結(jié)合起來(lái),應(yīng)用于變系數(shù)乘積模型,利用牛頓迭代法和局部二次近似給出了所提方法的計(jì)算算法,并闡釋了如何選取調(diào)整參數(shù)。通過(guò)數(shù)值模擬對(duì)LPRE-S估計(jì)方法和LS-S估計(jì)方法進(jìn)行了比較,發(fā)現(xiàn)LPRE-S估計(jì)方法選出真實(shí)模型的比率幾乎接近1,且NPenalized與NOracle十分接近,這說(shuō)明了LPRE-S估計(jì)方法能更好地達(dá)到變量選擇的目的,證明了所提方法的有效性。為了進(jìn)一步說(shuō)明所提方法的實(shí)用性,用LPRE-S估計(jì)方法實(shí)現(xiàn)了對(duì)深證紅利指數(shù)的跟蹤預(yù)測(cè),并與LS-S估計(jì)方法的預(yù)測(cè)效果進(jìn)行了對(duì)比。通過(guò)比較122個(gè)預(yù)測(cè)值的殘差平方和與4種不同的預(yù)測(cè)誤差中位數(shù)指標(biāo),發(fā)現(xiàn)LPRE-S估計(jì)方法效果優(yōu)于LS-S估計(jì)方法,說(shuō)明了本文所提方法在股指跟蹤中具有較好的預(yù)測(cè)效果。