舒時(shí)克,李 路
上海工程技術(shù)大學(xué) 數(shù)理與統(tǒng)計(jì)學(xué)院,上海201620
隨著信息技術(shù)的發(fā)展,數(shù)據(jù)的規(guī)模越來越大,數(shù)據(jù)往往會(huì)出現(xiàn)維度較高而樣本量較小的情況。因此,從眾多的特征中選取出有效的特征就成為了一個(gè)難點(diǎn)。針對這種高維數(shù)據(jù),目前的處理的方式大體分成兩類:一類是從訓(xùn)練數(shù)據(jù)出發(fā),通過特征工程等手段篩選特征,再通過模型進(jìn)行預(yù)測;另一類是從模型本身出發(fā),在模型中加入具有稀疏性質(zhì)的懲罰項(xiàng)能夠有效的篩選特征。經(jīng)典的懲罰函數(shù)有L1 懲罰項(xiàng)、L2 懲罰項(xiàng)和Elastic Net懲罰項(xiàng)等。Jagnnathan[1]發(fā)現(xiàn)在線性回歸中加入L1懲罰項(xiàng)的Lasso模型,從而建立更好的投資組合模型。但L1懲罰項(xiàng)存在過度稀疏的問題。針對L1 懲罰函數(shù)的不足,Zou[2]在線性回歸中同時(shí)加入L1 和L2 懲罰項(xiàng),構(gòu)建了彈性網(wǎng)模型(Elastic Net),并將其運(yùn)用到高維數(shù)據(jù)上,該模型不僅能夠克服了高維數(shù)據(jù)多重共線的問題,也克服了Lasso模型將特征壓縮的過度稀疏的問題。文獻(xiàn)[3]在對比了最小二乘(OLS)、Lasso 和Elastic Net 之后,應(yīng)用于量化投資市場,發(fā)現(xiàn)Elastic Net 模型能夠比OLS 模型和Lasso 模型更有效的篩選因子,同時(shí)也能克服Lasso 模型將系數(shù)矩陣過度壓縮的缺點(diǎn),并能構(gòu)建出更加有效的投資組合。
文獻(xiàn)[4]指出Lasso 和Elastic Net 的解雖然滿足Oracle的稀疏性和連續(xù)性的假設(shè),但是不滿足無偏性的性質(zhì),因此Fan 等人提出了SCAD 的懲罰函數(shù),該懲罰項(xiàng)不僅滿足Oracle 的三個(gè)性質(zhì),并且也能對系數(shù)進(jìn)行壓縮。文獻(xiàn)[5]提出了MCP 懲罰函數(shù),該懲罰項(xiàng)也滿足Oracle的三個(gè)性質(zhì),而且能夠很好的處理特征之間存在很高的相關(guān)性的數(shù)據(jù)。文獻(xiàn)[6-7]表明Elastic Net、SCAD和MCP懲罰項(xiàng)在線性回歸模型中取得很好的效果。
在分類問題中,邏輯回歸作為一種統(tǒng)計(jì)分析方法,能夠?qū)Ψ诸悊栴}進(jìn)行有效的判別[8]。但是在高維數(shù)據(jù)中表現(xiàn)卻不盡如人意。因此,為提高邏輯回歸模型的分類性能,目前在邏輯回歸模型中主要使用的懲罰函數(shù)有L1懲罰項(xiàng)、L2懲罰項(xiàng)和Elastic Net懲罰項(xiàng)[9]等。其中Elastic Net 懲罰項(xiàng)結(jié)合了L1 和L2 懲罰項(xiàng)的優(yōu)點(diǎn),但不滿足無偏性,即真實(shí)未知參數(shù)較大時(shí),會(huì)產(chǎn)生較大的偏差。
因此,為處理特征之間復(fù)雜的關(guān)系,更好地篩選特征,本文在目前的邏輯回歸彈性網(wǎng)(LR-Elastic Net)的基礎(chǔ)上,將彈性網(wǎng)的L1 懲罰項(xiàng)替換為SCAD 和MCP 懲罰項(xiàng),分別構(gòu)建LR-SCAD模型和LR-MCP模型。
邏輯回歸作為一種統(tǒng)計(jì)分析方法,能夠?qū)Ψ诸惖膯栴}進(jìn)行判別。設(shè)X=(xij)n×p∈Rn×p,xij表示第i行數(shù)據(jù)的第j個(gè)特征的值,記xi=(xi1,xi2,…,xip)T,表示第i行數(shù)據(jù)的全部特征值,則特征矩陣X 為(x1,x2,…,xn)T,y為自變量,表示為(y1,y2,…,yn)T,代表xi的標(biāo)簽,yi=1或0,則后驗(yàn)概率估計(jì)P(yi=1|xi)和P(yi=0|xi)可以表示為:
其中,β=(β1,β2,…,βp)T是特征系數(shù)向量。則邏輯回歸的目標(biāo)函數(shù)可以表示為:
在邏輯回歸的交叉熵?fù)p失函數(shù)上加上彈性網(wǎng)懲罰項(xiàng),構(gòu)建為邏輯回歸彈性網(wǎng)模型(LR-Elastic Net),該參數(shù)估計(jì)可以表示為:
其中,α為懲罰項(xiàng)系數(shù),0 ≤λ≤1。加入彈性網(wǎng)懲罰項(xiàng)之后,既能夠篩選變量,將無關(guān)變量壓縮到0,同時(shí)又能夠避免特征系數(shù)向量過度稀疏。
Fan 和Li[4]提出了Oracle 性質(zhì)來評判模型的優(yōu)劣,主要包括三個(gè)性質(zhì):(1)稀疏性。模型中在估計(jì)參數(shù)時(shí)能將一些不重要的變量的系數(shù)壓縮到零。(2)無偏性。模型中對估計(jì)的參數(shù)應(yīng)該是無偏的或者是近似無偏的。(3)連續(xù)性。為了避免模型的不穩(wěn)定性,參數(shù)估計(jì)與對應(yīng)的系數(shù)應(yīng)該是連續(xù)的。
而LR-Elastic Net中的懲罰項(xiàng)L1范數(shù)雖然滿足Oracle的稀疏性和連續(xù)性,但是不滿足無偏性[4],即當(dāng)真實(shí)未知參數(shù)較大時(shí),會(huì)產(chǎn)生較大的偏差。
因此,F(xiàn)an 和Li[4]提出了SCAD 懲罰函數(shù)來選擇變量,并證明了該方法滿足Oracle的三個(gè)性質(zhì)。SCAD的懲罰函數(shù)為:
其中a>2,且Fan和Li[4]通過最小化貝葉斯風(fēng)險(xiǎn)值及蒙特卡洛模擬實(shí)驗(yàn)得出參數(shù)a的最優(yōu)值約為3.7。SCAD懲罰函數(shù)的圖像,如圖1所示。
圖1 SCAD懲罰函數(shù)
SCAD的懲罰函數(shù)導(dǎo)數(shù)為:
Zhang[6]提出了MCP 懲罰函數(shù),同樣滿足Oracle 的三個(gè)性質(zhì),并且能夠很好地處理特征之間存在很高的相關(guān)性的數(shù)據(jù)。
MCP懲罰函數(shù)為:
MCP懲罰函數(shù)的圖像,如圖2所示。
圖2 MCP懲罰函數(shù)
如圖2 可見,MCP 和SCAD 懲罰函數(shù)相似,隨著β的增加,懲罰力度逐漸減少,對回歸系數(shù)采取有差別的懲罰,從而得到更加精確的估計(jì)[10]。
由于LR-ElasticNet中的L1 懲罰項(xiàng)不滿足Oracle 無偏性的性質(zhì),為了能滿足Oracle 性質(zhì)的稀疏性、無偏性和連續(xù)性,因此本文將邏輯回歸彈性網(wǎng)模型中L1 懲罰項(xiàng)替換為SCAD懲罰項(xiàng),構(gòu)建SCAD-邏輯回歸模型(LRSCAD),其目標(biāo)函數(shù)可以表示為:
LR-SCAD 的求解使用了交替方向乘子法ADMM算法[5],ADMM算法結(jié)合了拉格朗日方法和對偶分解法的優(yōu)點(diǎn),通過增廣拉格朗日函數(shù)構(gòu)造,把原本復(fù)雜的高維問題分解成兩個(gè)或者多個(gè)低維的更容易得到的全局解的交替極小化問題進(jìn)行迭代求解,則LR-SCAD 目標(biāo)函數(shù)可以表示為:
其中,ρ >0 為懲罰項(xiàng)系數(shù),μ是對偶變量,通過引入θ和β-θ=0 的約束條件,簡化了原問題的求解。變量迭代的規(guī)則如下:
更新β :在第K+1 次的更新中,當(dāng)θk和μk固定,需要通過求解
更新θ:在第K+1 次的更新中,當(dāng)βk+1和μk固定,需要通過求解
對θ 求偏導(dǎo)并令其等于0,可以得到:
更新μ:在第K+1 次的更新中,當(dāng)βk+1和θk+1固定,可以計(jì)算μk+1:
具體算法如下:
(1)隨機(jī)初始化βold,假設(shè)最終優(yōu)化目標(biāo)為F( )β ;
(2)在βold處利用式(8)泰勒展開,得到fold( )β ;
(3)利用式(17)(20)(21)迭代求得fold( )β 的最優(yōu)結(jié)果βnew;
(4)在βnew處利用式(10)繼續(xù)泰勒展開,得到fnew( )β ;
(5)令βold=βnew,重復(fù)步驟(3)(4)直至收斂,最終得到解β。
同時(shí),由于LR-Elastic Net 中的L1 懲罰項(xiàng)不滿足Oracle 無偏性的性質(zhì),為了能滿足Oracle 性質(zhì)的稀疏性、無偏性和連續(xù)性,將邏輯回歸彈性網(wǎng)模型中L1 懲罰項(xiàng)替換為MCP 懲罰項(xiàng),構(gòu)建MCP-邏輯回歸模型(LR-MCP),其目標(biāo)函數(shù)可以表示為:
LR-MCP 的求解同樣使用ADMM 算法,則LRMCP模型的目標(biāo)函數(shù)可以表示為:
上式的增廣拉格朗日方程為:
參照LR-SCAD的求解方法,得出LR-MCP的迭代公式:
為了探究在不同的數(shù)據(jù)結(jié)構(gòu)下,不同懲罰函數(shù)的邏輯回歸模型在參數(shù)估計(jì)、變量選擇及模型準(zhǔn)確度上的表現(xiàn),因此設(shè)計(jì)了四組模擬實(shí)驗(yàn),研究LR-Elastic Net、LR-SCAD和LR-MCP模型的優(yōu)劣。
Benjamini 和Hochberg 在1995 年提出FDR(False Discovery Rate)和PSR(Positive Select Rate)指標(biāo),并廣泛運(yùn)用在高維數(shù)據(jù)的模型的評價(jià)中[11-15]。FDR指標(biāo)代表估計(jì)為非零的系數(shù)中假陽性占的比例,PSR指標(biāo)代表真實(shí)模型的非零系數(shù)中真陽性所占的比例。
其中,F(xiàn)P代表真實(shí)系數(shù)為零,但估計(jì)成非零的系數(shù)個(gè)數(shù);TP代表真實(shí)系數(shù)為非零,但估計(jì)為零的系數(shù)的個(gè)數(shù);p為真實(shí)系數(shù)非零系數(shù)的個(gè)數(shù)。一般的,F(xiàn)DR越接近于0,PSR越接近于1,則模型表現(xiàn)越好。
RMSE(Root Mean Squared Error)則是用來評價(jià)估計(jì)系數(shù)與真實(shí)系數(shù)之間的差異大小的指標(biāo)[16]。
其中,βi為真實(shí)系數(shù),為估計(jì)系數(shù)。一般的,RMSE越接近于0,則模型表現(xiàn)越好。
正確率指標(biāo)(Accuracy)則表示最終模型的預(yù)測正確樣本數(shù)量占總樣本的比例。
模擬實(shí)驗(yàn)1 隨機(jī)生成小樣本數(shù)據(jù)n=100,p=10的二分類數(shù)據(jù)集,并且設(shè)定p個(gè)特征之間相關(guān)性系數(shù)r最大不能超過0.2,結(jié)果如表1所示。
表1 模擬實(shí)驗(yàn)1結(jié)果
由表1 可知,在小樣本數(shù)據(jù)中,當(dāng)特征之間的相關(guān)性系數(shù)r最大為0.2時(shí),LR-Elastic Net模型對特征的壓縮效果比較明顯,其準(zhǔn)確率Acc也最高。
模擬實(shí)驗(yàn)2 隨機(jī)生成小樣本數(shù)據(jù)n=100,p=10的二分類數(shù)據(jù)集,并且設(shè)定p個(gè)特征之間相關(guān)性系數(shù)r最大不能超過0.8,結(jié)果如表2所示。
表2 模擬實(shí)驗(yàn)2結(jié)果
由表2 可知,在小樣本數(shù)據(jù)中,當(dāng)特征之間的相關(guān)性系數(shù)r最大為0.8 時(shí),LR-Elastic Net 模型在FDR、PSR 和Acc 三個(gè)指標(biāo)表現(xiàn)較好,模型分類效果最好,準(zhǔn)確率達(dá)到了97%,且誤選率FDR 高于LR-SCAD 和LR-MCP模型,同時(shí)系數(shù)估計(jì)準(zhǔn)確率較低。
模擬實(shí)驗(yàn)3 隨機(jī)生成大樣本數(shù)據(jù)n=1000,p=20的二分類數(shù)據(jù)集,并且設(shè)定p個(gè)特征之間相關(guān)性系數(shù)r最大不能超過0.2,結(jié)果如表3所示。
表3 模擬實(shí)驗(yàn)3結(jié)果
由表3 可知,在大樣本數(shù)據(jù)中,當(dāng)特征之間的相關(guān)性系數(shù)r最大為0.2 時(shí),LR-SCAD 和LR-MCP 模型在FDR、PSR 和Acc 三個(gè)指標(biāo)相同且優(yōu)于LR-Elastic Net模型,但LR-SCAD的系數(shù)估計(jì)準(zhǔn)確率略差于LR-MCP。
模擬實(shí)驗(yàn)4 隨機(jī)生成大樣本數(shù)據(jù)n=1 000,p=20的二分類數(shù)據(jù)集,并且設(shè)定p個(gè)特征之間相關(guān)性系數(shù)r最大不能超過0.8,結(jié)果如表4所示。
表4 模擬實(shí)驗(yàn)4結(jié)果
由表4 可知,在大樣本數(shù)據(jù)中,當(dāng)特征之間的相關(guān)性系數(shù)r最大為0.8 時(shí),LR-MCP 模型在FDR、PSR、RMSE 和Acc 四個(gè)方面表現(xiàn)最好,LR-SCAD 模型次之,LR-Elastic Net模型相對較差。
綜上所述,LR-Elastic Net 模型在小樣本數(shù)據(jù)中的表現(xiàn)優(yōu)于LR-SCAD 和LR-MCP 模型;而在大樣本數(shù)據(jù)集中,LR-SCAD和LR-MCP模型在特征相關(guān)性很強(qiáng)時(shí),能夠很好地保留重要的變量,從而取得較好的分類效果,而LR-Elastic Net具有較強(qiáng)的特征壓縮的能力。
優(yōu)礦(http://uqer.io/)是研究量化投資的一個(gè)重要平臺(tái),在該平臺(tái)上其因子數(shù)量超過400個(gè)。而不同的因子之間往往又互相存在著復(fù)雜的關(guān)系,故對因子的選擇就成為了一個(gè)研究的難點(diǎn)。而LR-Elastic Net、LR-SCAD和LR-MCP模型對特征選擇又有很好的表現(xiàn)。因此,本文考慮利用上述三種模型分別構(gòu)建三種量化策略,應(yīng)用于量化選股中。
對滬深300 指數(shù)成分股數(shù)據(jù),基于上述LR-Elastic Net、LR-SCAD 和LR-MCP 模型,建立LR-Elastic Net、LR-SCAD 和LR-MCP 策略。首先構(gòu)建LR-Elastic Net策略,過程如下。
5.1.1 數(shù)據(jù)處理
(1)滬深300 指數(shù)成分股數(shù)據(jù)起始時(shí)間為t0,終止時(shí)間為t3,并取中間時(shí)間t1和t2,滿足t0<t1<t2<t3。將[t0,t1] 作為訓(xùn)練集,記作T1;(t1,t2]作為測試集,記作T2;(t2,t3]作為回測區(qū)間,記作T3。
(2)選取股票因子,并確定股票因子矩陣X ,并計(jì)算股票月收益率,若收益率大于0,則標(biāo)簽yi為1;若收益率小于0,則標(biāo)簽yi為0。
(3)對因子矩陣X 進(jìn)行歸一化處理,得到X′:
根據(jù)上述的歸一化得到的因子矩陣X′及股票標(biāo)簽y,通過式(3)建立LR-Elastic Net模型。
5.1.2 LR-Elastic Net模型
(1)利用上述ADMM方法求解LR-Elastic Net模型的方法得到因子估計(jì)系數(shù)β。
(2)每月月末利用式(1)計(jì)算每只股票的后驗(yàn)概率估計(jì)P(yi=1|xi)和P(yi=0|xi),股票的得分用si表示,即si=P(yi=1|xi)。
5.1.3 回測分析
(1)將si從大到小進(jìn)行排序,取前10只股票,將這10只股票的得分記作S1,S2,…,S10,計(jì)算買入股票的權(quán)重qi:
其中,C為資金數(shù),pi為月末股票i的價(jià)格。
通過上述步驟,得到LR-Elastic Net 策略,將(2)中的LR-Elastic Net 替換為LR-SCAD 模型,可得到LR-SCAD 策略;將(2)中的LR-Elastic Net 替換為LR-MCP模型,可得到LR-MCP策略。
本文以滬深300 指數(shù)成分股月度數(shù)據(jù)進(jìn)行實(shí)證分析,取t0為2010 年1 月1 日,t3為2019 年5 月31 日,t1和t2分別為2014年1月1日和2015年12月31日,則T1為2010年1月1日至2013年12月31日,T2為2014年1月1 日至2015 年12 月31 日,T3為2016 年1 月1 日至2019年9月30日。
表5 策略因子表
圖3 因子系數(shù)結(jié)果
表6 月交易回測結(jié)果
利用量化平臺(tái)優(yōu)礦網(wǎng)站,在考慮了成長因子、營運(yùn)因子、交易因子、波動(dòng)因子、盈利因子、估值因子、均線因子和趨勢因子等因素后,共選取了50個(gè)因子[17-19],如表5所示。
按照上述時(shí)間區(qū)間確定股票因子矩陣X 和股票的月收益率y,同時(shí)去掉含有缺失值的股票,并將因子矩陣經(jīng)過歸一化處理。對上述處理完成的數(shù)據(jù),利用上述ADMM 算法分別求得LR-Elastic Net、LR-SCAD 和LR-MCP 模型的因子估計(jì)系數(shù)β 。因子估計(jì)系數(shù)β 結(jié)果如圖3所示??梢奓R-Elastic Net對因子的壓縮程度最大,能夠很好地實(shí)現(xiàn)在保留重要因子的同時(shí)剔除不重要的因子;而LR-SCAD 和LR-MCP 只有在因子估計(jì)系數(shù)較小時(shí),將估計(jì)系數(shù)壓縮至零,當(dāng)因子系數(shù)很大時(shí),由于這部分系數(shù)是無偏的,則不進(jìn)行壓縮,當(dāng)介于這二者之間時(shí),則進(jìn)行部分壓縮,結(jié)果如圖3所示。
由于高頻率的交易會(huì)帶來過高的手續(xù)費(fèi),因此,本文采取月末策略進(jìn)行調(diào)倉操作。此外,本文實(shí)驗(yàn)在優(yōu)礦(http://uqer.io/)量化平臺(tái)上進(jìn)行,實(shí)驗(yàn)所設(shè)的初始資金為10 000 萬元,采用買入0.1%的稅費(fèi),賣出0.2%的稅費(fèi),印花稅為0.1%,滑點(diǎn)為0。月交易回測結(jié)果,如表6及圖4所示。
回測結(jié)果表明,同期以滬深300指數(shù)收益率為基準(zhǔn)的年化收益率為0.61%,而LR-Elastic Net、LR-SCAD和LR-MCP策略均顯著高于該水平,超額收益阿爾法值均在20%在以上。而LR-MCP 策略不僅年化收益率高于LR-Elastic Net策略,而且其夏普比、最大回撤等主要評價(jià)指標(biāo)均優(yōu)于其他兩種策略,這說明在相關(guān)性很強(qiáng)的股票數(shù)據(jù)中,LR-MCP 模型比LR-SCAD 和LR-Elastic Net表現(xiàn)更好。
圖4 月交易回測結(jié)果
圖5 周交易回測結(jié)果
表7 周交易回測結(jié)果
多因子量化選股是采用數(shù)量化的方法進(jìn)行股票組合的選擇,將股票一系列的基本面因子作為選股標(biāo)準(zhǔn),從而進(jìn)行交易。
在現(xiàn)有的運(yùn)用機(jī)器學(xué)習(xí)進(jìn)行量化選股的研究中,普遍采用月度數(shù)據(jù)進(jìn)行交易[3,18-20],交易頻率較低,而為了驗(yàn)證本文提出的模型是否能夠在高頻交易中仍能取得較好的效果,因此使用周股票數(shù)據(jù)重復(fù)上述實(shí)驗(yàn)。實(shí)驗(yàn)過程與月交易策略相同,將月度股票數(shù)據(jù)替換為周股票數(shù)據(jù),實(shí)驗(yàn)結(jié)果如圖5及表7所示。
由回測結(jié)果可知,LR-SCAD 和LR-MCP 策略同樣優(yōu)于LR-Elastic Net 策略,但實(shí)行周交易的回測收益的卻低于月交易策略??紤]到提高交易頻率后,稅費(fèi)、傭金等交易費(fèi)用也會(huì)顯著上升,為排除交易費(fèi)用的影響,將月交易和周交易策略去除交易費(fèi)用重新計(jì)算平均年化收益率,結(jié)果如表8所示。由表8可知,從月交易轉(zhuǎn)變?yōu)橹芙灰撞呗詴r(shí),交易費(fèi)用也會(huì)顯著增長,并且交易費(fèi)用的高低在一定程度上會(huì)對年化收益率造成較大影響,因此在確定交易頻率時(shí)控制交易費(fèi)用也是不可忽視的。而將所有的交易策略在去除交易費(fèi)用后重新計(jì)算年化收益率,發(fā)現(xiàn)月交易策略仍然優(yōu)于周交易策略,可見模型在捕捉股票數(shù)據(jù)的短期波動(dòng)規(guī)律存在一定不足之處,后續(xù)可以針對模型這方面的不足繼續(xù)展開研究,或選擇反應(yīng)股價(jià)短期波動(dòng)的因子進(jìn)行進(jìn)一步的研究。
表8 交易費(fèi)用
同時(shí)為驗(yàn)證模型在日交易策略上的效果,使用日股票數(shù)據(jù)繼續(xù)重復(fù)上述實(shí)驗(yàn)。實(shí)驗(yàn)過程與月交易和周交易策略相同,使用日股票數(shù)據(jù)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖6及表9所示。
圖6 日交易回測結(jié)果
表9 日交易回測結(jié)果
由回測結(jié)果可知,LR-SCAD 和LR-MCP 策略優(yōu)于LR-Elastic Net策略,但相較于月和周交易策略,日交易策略各項(xiàng)主要評價(jià)指標(biāo)顯著降低,LR-Elastic Net 策略甚至低于基準(zhǔn)年化收益。而去除交易費(fèi)用后重新計(jì)算平均年化收益率,結(jié)果如表10所示。
表10 交易費(fèi)用
由表10 可知,日交易策略的交易費(fèi)用較月交易策略增長率數(shù)10倍之多,極大程度地拉低了年化收益率,而在去除交易費(fèi)用后,卻能夠取得較好的收益。因此,提高交易頻率后,交易費(fèi)用的存在很大程度上影響了策略的收益率。
針對高維度數(shù)據(jù)集特征之間的復(fù)雜性,本文將邏輯回歸彈性網(wǎng)(LR-Elastic Net)中的L1 懲罰項(xiàng)替換為SCAD 和MCP 懲罰,分別構(gòu)建LR-SCAD 和LR-MCP 模型,并利用ADMM算法進(jìn)行求解。
在模擬實(shí)驗(yàn)中發(fā)現(xiàn)LR-Elastic Net、LR-SCAD 和LR-MCP 模型在小樣本低相關(guān)性數(shù)據(jù)集中均能取得很好的效果,分類準(zhǔn)確率都在90%以上;而在小樣本高相關(guān)性數(shù)據(jù)集中,LR-Elastic Net 模型明顯優(yōu)于其他兩種模型。在大樣本數(shù)據(jù)集中,LR-SCAD 和LR-MCP 模型表現(xiàn)更好。
最后,將這三種模型運(yùn)用到股票市場滬深300指數(shù)成分股數(shù)據(jù)中,構(gòu)建相對應(yīng)的月交易量化投資策略,發(fā)現(xiàn)LR-Elastic Net、LR-SCAD 和LR-MCP 策略均能顯著優(yōu)于大盤指數(shù),其較高的超額收益均在20%以上,并且LR-SCAD 和LR-MCP 策略優(yōu)于LR-Elastic Net 策略。在此基礎(chǔ)上,進(jìn)行周交易和月交易策略,發(fā)現(xiàn)策略在實(shí)際執(zhí)行時(shí)交易費(fèi)用將是不可忽視的一項(xiàng)。下一步,在本文基礎(chǔ)上,針對股票回測中的最大回撤等指標(biāo),研究在量化投資中如何利用懲罰函數(shù)有效控制風(fēng)險(xiǎn);繼續(xù)改進(jìn)模型或選取有效的高頻因子,以提高模型在高頻交易上的效果。