吳員福
(中國(guó)人民大學(xué)數(shù)學(xué)學(xué)院,北京 100872)
構(gòu)建量化投資組合的關(guān)鍵在于尋找到有效的風(fēng)格因子,并據(jù)此建立穩(wěn)定、靈活的多因子模型。這種多因子模型多為靜態(tài)模型。所謂“靜態(tài)”,是指多因子模型不能及時(shí)追蹤和把握市場(chǎng)環(huán)境的變化和宏觀經(jīng)濟(jì)的變化[1]。若要獲取長(zhǎng)期穩(wěn)定的Alpha 收益,及時(shí)追蹤、把握市場(chǎng)環(huán)境的變化并調(diào)整風(fēng)格因子的構(gòu)成及相應(yīng)的權(quán)重是關(guān)鍵[2]。
本文旨在研究資本市場(chǎng)中資產(chǎn)價(jià)格數(shù)據(jù)的風(fēng)格因子“擇時(shí)”,在多因子模型的構(gòu)建過(guò)程中引入機(jī)器學(xué)習(xí)方法,以標(biāo)的資產(chǎn)歷史價(jià)格數(shù)據(jù)的分析為基礎(chǔ),尋找共性風(fēng)格特征的分化輪動(dòng)規(guī)律,對(duì)因子的未來(lái)表現(xiàn)進(jìn)行估計(jì),并據(jù)此調(diào)整綜合因子中風(fēng)格因子的構(gòu)成與賦權(quán)[3]。
多因子模型的一般表達(dá)式如式(1)所示。
式中:Xjk——標(biāo)的證券j 在共性特征k 上的暴露;μj——標(biāo)的證券j 的殘差收益率[4]。
如果某投資組合由N 個(gè)標(biāo)的證券組成,各標(biāo)的證券在組合中所占比重分別是hp1,hp2,…,hpn,則整體收益率為表示如式(2)所示。
決策樹(shù)生成的原理如下:如果X 為輸入變量,Y 為輸出變量,并且Y 是連續(xù)變量,給定的訓(xùn)練集如式(3)所示。
按照上述原理進(jìn)行遍歷,以求尋找到最佳的j,獲得一個(gè)對(duì)(j,s),依次將其分成兩個(gè)部分,然后對(duì)分割出的每個(gè)部分重復(fù)上述操作,直到符合條件為止[6]。
XGBoost 學(xué)習(xí)中,假設(shè)構(gòu)造了K 顆樹(shù)的情況下,則總體值可表示為:
式中:K——決策樹(shù)個(gè)數(shù);F——一個(gè)泛函數(shù),表示決策樹(shù)的函數(shù)空間;q——每棵樹(shù)的結(jié)構(gòu);T——決策樹(shù)葉子節(jié)點(diǎn)的數(shù)目;w——一個(gè)權(quán)重向量;每一個(gè)fk都對(duì)應(yīng)著一個(gè)獨(dú)立的樹(shù)結(jié)構(gòu)q 和葉節(jié)點(diǎn)權(quán)重w[7]。
XGBoost 模型可采用如下步驟進(jìn)行構(gòu)建:
本文中首先選取主流的標(biāo)的資產(chǎn)共性特征,然后將宏觀經(jīng)濟(jì)指標(biāo)數(shù)據(jù)、共性特征歷史IC 數(shù)據(jù)、相關(guān)市場(chǎng)變量數(shù)據(jù)等共同作為機(jī)器學(xué)習(xí)算法的輸入,基于XGBoost 模型來(lái)估計(jì)每個(gè)共性風(fēng)格特征在下一時(shí)段的IC 值,也就是說(shuō),估計(jì)資本市場(chǎng)中標(biāo)的資產(chǎn)在未來(lái)時(shí)間的回報(bào)率與共性特征值之間的關(guān)聯(lián)程度ρ。計(jì)算共性特征未來(lái)IC 值的目的在于后續(xù)按照此IC 值對(duì)各個(gè)共性特征進(jìn)行賦權(quán)[11]。
本文基于XGBoost 模型預(yù)測(cè)標(biāo)的資產(chǎn)未來(lái)時(shí)期的回報(bào)率與共性特征當(dāng)前值之間的關(guān)聯(lián)程度ρ,然后根據(jù)估計(jì)的IC 值決定綜合因子中的各風(fēng)格因子的構(gòu)成以及風(fēng)格因子的權(quán)重。主要選擇共性特征歷史IC 序列數(shù)據(jù)、市場(chǎng)指標(biāo)、宏觀指標(biāo)作為機(jī)器學(xué)習(xí)模型的輸入特征[12]。
本文中以周為調(diào)倉(cāng)頻率,在某一時(shí)刻t 通XGBoost機(jī)器學(xué)習(xí)模型預(yù)測(cè)預(yù)測(cè)標(biāo)的資產(chǎn)在一周后的收益率與當(dāng)前特征取值之間的相關(guān)系數(shù)ρ。針對(duì)風(fēng)格因子進(jìn)行賦權(quán)的具體規(guī)則如下。
(1)在某一時(shí)刻t,采用XGBoost 模型對(duì)共性特征i下一時(shí)段選股的IC 值進(jìn)行估算,得到ICi,t。
(2)若風(fēng)格因子為正向因子,在ICi,t>0 時(shí),權(quán)值wi,t=ICi,t,否則認(rèn)為風(fēng)格因子在下一時(shí)段失效,權(quán)值wi,t=0。
(3)若風(fēng)格因子為負(fù)向因子,在ICi,t<0 時(shí),權(quán)值wi,t=-ICi,t,否則認(rèn)為風(fēng)格因子在下一時(shí)段失效,權(quán)值wi,t=0。
(4)對(duì)wi,t做歸一化的處理,使得,如果預(yù)測(cè)在下一時(shí)段所有因子都失效,則使用等權(quán)方式對(duì)風(fēng)格因子進(jìn)行賦權(quán)[13]。
從回測(cè)結(jié)果的對(duì)比分析中可知,模型滾動(dòng)訓(xùn)練的多因子策略的信息比為1.76,分別較因子等權(quán)策略和固定模型的多因子策略提高了62.9%和33.3%,而且在勝率、年化收益率、最大回撤等多項(xiàng)指標(biāo)上也有明顯提升。各模型回測(cè)表現(xiàn)對(duì)比如表1 所示。
表1 各模型回測(cè)表現(xiàn)對(duì)比
隨著市場(chǎng)環(huán)境的變化以及市場(chǎng)參與者之間的博弈,量化投資中某一風(fēng)格因子帶來(lái)的回報(bào)率會(huì)產(chǎn)生波動(dòng)。前期產(chǎn)生穩(wěn)定Alpha 收益的風(fēng)格因子其有效性可能在未來(lái)轉(zhuǎn)弱,甚至于完全失效,降低資產(chǎn)組合的超額收益率。本文提出基于XGBoost 模型的多因子策略旨在及時(shí)把握市場(chǎng)環(huán)境的變化以及風(fēng)格因子的輪動(dòng)情況,并根據(jù)市場(chǎng)的變化靈活地選擇風(fēng)格因子以及在必要時(shí)調(diào)整風(fēng)格因子的權(quán)重。
歷史回測(cè)表明,相較于因子等權(quán)策略,基于XGBoost模型的多因子動(dòng)態(tài)策略的表現(xiàn)優(yōu)勢(shì)明顯,回測(cè)期累積收益率由55.81%提升到88.28%,信息比也由1.08 提升到1.32,但最大回撤比因子等權(quán)策略要高。若采用模型滾動(dòng)訓(xùn)練的模型,則能進(jìn)一步提升回測(cè)表現(xiàn),在策略的勝率、信息比、最大回撤等方面都顯著優(yōu)于傳統(tǒng)的因子等權(quán)策略,在波動(dòng)性較大的區(qū)間,基于模型滾動(dòng)訓(xùn)練的多因子策略也能及時(shí)把握市場(chǎng)變化,始終獲得比因子等權(quán)策略更好的表現(xiàn)。
本文不足之處在于未做限制換手率方面的研究。實(shí)證分析結(jié)果表明,相對(duì)于因子等權(quán)策略,基于XGBoost 模型的機(jī)器學(xué)習(xí)多因子動(dòng)態(tài)調(diào)倉(cāng)策略在最大回撤方面的表現(xiàn)不如傳統(tǒng)的因子等權(quán)策略。究其原因在于綜合因子中各風(fēng)格因子權(quán)重的動(dòng)態(tài)調(diào)整導(dǎo)致了資產(chǎn)組合換手率的明顯提高。資產(chǎn)組合換手率的提高意味著交易成本更高,導(dǎo)致資產(chǎn)組合回報(bào)降低。如果資產(chǎn)組合的換手率能夠得到降低,則可以大大降低交易成本,進(jìn)一步提升策略的表現(xiàn)[14]。