• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于機(jī)器學(xué)習(xí)的多因子選股模型

      2020-08-03 02:05:45劉佳琪張建
      時代金融 2020年17期
      關(guān)鍵詞:多因子

      劉佳琪 張建

      摘要:以滬深300成分股作為股票池,選取2010年年初到2019年年初中價值類、成長類、規(guī)模類、交投類、情緒類、每股、質(zhì)量類和風(fēng)險類這8大類因子的數(shù)據(jù),探討了XGBoost結(jié)合半衰期IC加權(quán)的方法在多因子選股模型中的應(yīng)用。從實證中看出,在多因子選股策略中,利用XGBoost方法選取重要的因子,然后運用半衰期IC加權(quán)對重要因子進(jìn)行賦權(quán)的方法在排名前10%的股票中可獲得年化收益率為26.86%,要比年化收益為2.05%的滬深300指數(shù)高出24.81%。這個方法可對量化選股提出新思路。

      關(guān)鍵詞:半衰期IC加權(quán) XGBoost 多因子 選股

      一、引言與文獻(xiàn)綜述

      近幾年來,量化投資慢慢在資本市場中占領(lǐng)了重要地位,發(fā)展迅猛,迅速成為國際投資界的一種新型方法。量化投資就是利用計算機(jī)的技術(shù),并且采用一定的數(shù)學(xué)模型,踐行投資理念,實現(xiàn)投資策略的過程。它主要有幾大特點:紀(jì)律性,系統(tǒng)性,及時性,準(zhǔn)確性和分散化。中國的量化投資發(fā)展還處于初級階段,我國A股市場發(fā)展歷程較短,還處于非有效或弱有效的市場階段,但是越來越多的人嘗試用數(shù)學(xué),金融學(xué),計算機(jī)技術(shù)相結(jié)合的量化投資方法把市場上被錯誤估計的股票挖掘出來,尋求超額收益。多因子選股模型是量化投資中非常重要的模型,該模型主要依據(jù)一系列的因子作為計算股票收益的標(biāo)準(zhǔn),后根據(jù)收益率的高低選擇合適的股票。它的優(yōu)點主要是對市場波動較為敏感,能夠依據(jù)最新市場行情改變選股策略,在不同的市場情況下,有不同的因子發(fā)揮作用,因此,各類的投資者在不同的市場情況下開發(fā)了不同的多因子模型。最早可以追溯到Fama & French(1996)等人提出的經(jīng)典的三因子模型,該模型是將比較沒有風(fēng)險的超額收益歸結(jié)到市場,規(guī)模效應(yīng),價值效應(yīng)這三個因子中。Esmaeil Hadavandi et al.(2010)等人提出遺傳模糊系統(tǒng)和人工神經(jīng)網(wǎng)絡(luò)兩者相結(jié)合的方法,構(gòu)建股票價格預(yù)測模型。王春麗等(2018)利用回歸法研究多因子選股模型,對上證180指數(shù)成分股進(jìn)行分析,并且證明了該方法能夠穩(wěn)定的跑贏上證180的基準(zhǔn)收益率。李文星和李文俊(2018)將一種帶有引力影響因子的半監(jiān)督K-means的核聚類方法應(yīng)用于多因子模型當(dāng)中,表明了該方法比傳統(tǒng)的聚類模型有更強(qiáng)的泛化能力,在線性不可分非球狀簇的樣本中更具優(yōu)勢,以便選出更優(yōu)的股票組合。周亮(2019)是對2007年到2017年中證500成分股的6大類因子,研究分位數(shù)回歸方法在多因子選股模型中的情況,并且說明多因子選股模型能夠優(yōu)于線性回歸模型。

      本文選取2010年1月到2019年1月的滬深300成分股的數(shù)據(jù)進(jìn)行建模,利用基于梯度提升樹的Xgboost算法自身能夠選取重要性的特點,篩選出重要的因子。因子具有短期動量效應(yīng),近期因子IC要比遠(yuǎn)期IC影響要大,而半衰期IC加權(quán)方法對因子權(quán)重進(jìn)行配置正好說明了這一特點,因此基于因子半衰期IC加權(quán)的方法和多因子選股模型結(jié)合,并進(jìn)行評價與分析,是有理論和現(xiàn)實意義的。

      二、多因子選股模型的方法框架

      本文多因子選股模型為圖1,主要分為五步,分別為候選因子的選取,數(shù)據(jù)預(yù)處理,篩選重要因子,構(gòu)建多因子模型,模型的評價與分析,下面是各個步驟的具體介紹:

      (一)候選因子的選取

      候選因子有多種選擇,可能是基本面指標(biāo),例如PB,PE等,也可以是技術(shù)面指標(biāo),例如動量,換手率等,又或者一些其他指標(biāo),如宏觀經(jīng)濟(jì)變量等。如何選擇候選因子,主要依賴于經(jīng)濟(jì)的邏輯和市場的經(jīng)驗,但是選擇更多和更有效的因子是增強(qiáng)模型的信息收割能力,提高收益的關(guān)鍵因素之一。

      (二)數(shù)據(jù)預(yù)處理

      我們在初期獲取因子時,數(shù)據(jù)總會出現(xiàn)一些問題,例如存在噪音,數(shù)據(jù)量綱不統(tǒng)一,數(shù)據(jù)缺失等,因此應(yīng)該對其進(jìn)行預(yù)處理,讓數(shù)據(jù)更適應(yīng)模型,匹配模型的需求。數(shù)據(jù)預(yù)處理的方法有許多,例如數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變化,數(shù)據(jù)規(guī)約等,本文主要對數(shù)據(jù)進(jìn)行缺失值處理,離群值處理,標(biāo)準(zhǔn)化和中性化四步。

      (三)因子篩選

      市場上有成百上千的因子,但是這些因子在不同的情況下起著不同的作用。本文主要利用XGBoost方法查看哪些因子對收益率起著較大的作用。

      1.理論。XGBoost是基于梯度提升樹實現(xiàn)的一種集成算法,能夠自動獲取特征因子的重要性,根據(jù)提升之后的樹可以進(jìn)行特征的篩選。本文利用這一特點把比較重要的候選因子選擇出來。核心思想是通過許多弱分類器迭代計算,每次迭代都會生成一顆新樹,通過求CART樹的結(jié)構(gòu)和葉子分?jǐn)?shù)來優(yōu)化xgboost的目標(biāo)函數(shù)。

      XGBoost主要是不斷的去添加新樹,學(xué)習(xí)新的函數(shù)去擬合上一次預(yù)測的殘差,而新的樹是通過特征分裂形成。其中XGBoost主要有兩件事:在已經(jīng)知道第t-1顆樹的時候,預(yù)測下一顆樹的葉子結(jié)點的權(quán)重,和第t顆樹。目標(biāo)函數(shù)可改寫為:

      式(6)是用來衡量一顆樹的結(jié)構(gòu)是好還是壞的標(biāo)準(zhǔn),分?jǐn)?shù)越小,代表這樣的結(jié)構(gòu)越好,可以用來選擇最佳切分點,就是衡量節(jié)點在分裂前后式(6)對應(yīng)的數(shù)值的大小來判斷是否需要分裂。分裂增益公式:

      式(7)是XGBoost基樹的根據(jù)。分別代表左子樹分?jǐn)?shù),右子樹分?jǐn)?shù),和不分割可拿到的分?jǐn)?shù),并且可看出是可以在一定程度上控制分裂的程度。

      2.XGBoost算法流程。

      輸入:I,當(dāng)前節(jié)點的數(shù)據(jù)集

      輸出:d,特征維度

      Step 3:以最高分分割輸出

      XGBoost有許多優(yōu)點,像引入正則項,降低了模型的方差,使所學(xué)的模型更加簡單,并且防止了過擬合;訓(xùn)練速度更加快速;支持列抽樣;支持線性分類器。

      (四)構(gòu)建模型

      多因子選股模型主要有兩種構(gòu)建方式,分別是打分法和回歸法。本文采取的是打分法,打分法的主要思想是選出一些對股票收益能夠產(chǎn)生預(yù)測的因子,然后根據(jù)股票把各個因子值進(jìn)行排序,并且給出在截面上的相對位置進(jìn)行打分,隨后為每個因子分配權(quán)重,按照權(quán)重將每個股票的因子得分相加,得到個股的綜合分?jǐn)?shù),最后按照綜合分?jǐn)?shù)進(jìn)行降序排列,挑選出分?jǐn)?shù)較高的股票構(gòu)建投資組合。但是在多因子選股中,因子并不穩(wěn)定,有的因子隨著時間逐漸失效,有的因子會隨著市場環(huán)境的變化而變化,使得因子在短期內(nèi)失效,所以在打分法模型中,需要對選用的因子進(jìn)行不斷的評價和改進(jìn)。如果每次都依據(jù)最新的因子進(jìn)行個股打分排名,重新構(gòu)建投資組合,可能會造成很大的換手率,導(dǎo)致交易成本提高,所以需要以降低換手率為目標(biāo),此時可以適當(dāng)對因子IC進(jìn)行犧牲,因此本文采取半衰期IC加權(quán)的方法進(jìn)行模型的構(gòu)建。

      3.半衰期IC加權(quán)。首先介紹因子IC ,其為當(dāng)期因子值和下期的收益率的相關(guān)系數(shù),表明了因子預(yù)測股票收益的能力。因子IC的時間衰減,是衡量一個因子對未來預(yù)測能力能夠持續(xù)多久。時間衰減過快可能會導(dǎo)致?lián)Q手率較高,交易成本提高。通過許多研究,發(fā)現(xiàn)因子都會具有相對穩(wěn)定的半衰期,即因子的有效性降低到一半所用的時間,為此,我們需要對不同的選股因子在不同樣本池的衰減速度進(jìn)行分析,以做到因子加權(quán)時靈活配置因子權(quán)重,適應(yīng)復(fù)雜多變的市場。

      IC均值加權(quán)為過去的每期因子IC等權(quán)分配權(quán)重,也就是給定因子過去N期的因子IC向量,那么因子的權(quán)重為

      因子具有動量效應(yīng),說明因子近期的IC對于當(dāng)期權(quán)重的影響要大一些,遠(yuǎn)期IC的影響要小一些,所以權(quán)重要給因子近期IC分配更大,才能更加適應(yīng)市場短期的變化。

      所以,我們用半衰期的權(quán)重來描述近期IC對因子的權(quán)重的影響用。半衰期為固定半衰期H,每隔H期的權(quán)重值以指數(shù)下降的方式降低一半。換句話說就是給定半衰期H,IC序列長度N,那么半衰期的權(quán)重向量其中為:

      本文使用滬深300的數(shù)據(jù)進(jìn)行對該方法的驗證,使用數(shù)據(jù)為2010年1月29到2019年1月31日,采用滾動窗口測試。

      三、基于滬深300市場的多因子選股模型的實證分析

      本文選取2010年年初到2019年年初的數(shù)據(jù),其中訓(xùn)練集是以滾動法進(jìn)行訓(xùn)練,例如以T日為準(zhǔn),每21個交易日為間隔區(qū)間,使用對應(yīng)的特征和標(biāo)簽作為訓(xùn)練集。業(yè)績比較基準(zhǔn)為滬深300本身。

      (一)候選因子的選取

      本文從價值類、成長類、規(guī)模類、交投類、情緒類、每股、質(zhì)量類和風(fēng)險類8大類因子的數(shù)據(jù)作為候選的因子,具體的因子見表1。

      (二)數(shù)據(jù)預(yù)處理

      1.缺失值處理。本文所采用數(shù)據(jù)缺失較少,因此使用均值來填補(bǔ)數(shù)據(jù)缺失的情況。

      2.離群值處理。數(shù)據(jù)可能非常大或者非常小,會影響了分析的結(jié)果,尤其是在做回歸的時候,所以應(yīng)該對數(shù)據(jù)進(jìn)行離群值處理。本文采取MAD法(絕對值差中位數(shù)法),它計算所有因子與平均值之間距離的總和,放大了離群值的影響,能更清晰地從正常數(shù)據(jù)中觀測出離群值,是一種比較穩(wěn)健的方法。

      3.標(biāo)準(zhǔn)化。運用數(shù)據(jù)標(biāo)準(zhǔn)化可以使多個不同的量級指標(biāo)間進(jìn)行相互比較,或者使數(shù)據(jù)變得集中。本文利用z-score,即,將因子值的均值調(diào)整到0,標(biāo)準(zhǔn)差調(diào)整到1。

      4.中性化。我們在利用因子的時候,由于因子之間可能會相互影響,導(dǎo)致有一些偏向性,選出來的股票偏向一方面,例如市凈率和市值之間有很高的相關(guān)性,如果選取沒有市值中性化的市凈率這種因子,選股就很集中。同樣的朝夕行業(yè)的的市盈率也類似,即行業(yè)也對估值因子有影響,所以要對市值和行業(yè)中性化。其具體方法就是利用回歸,得到一個與風(fēng)險因子線性無關(guān)的因子,提取殘差作為中性化后的新因子。

      是股票i的alpha因子,為股票i的總市值,為行業(yè)虛擬變量,就是股票i若屬于行業(yè)j,則暴露度為1,否則為0,每個股票i只屬于一個行業(yè),不再對所屬行業(yè)進(jìn)行劃分。

      (三)篩選重要因子

      如圖2,以XGBoost中形成的圖為例,從根節(jié)點出發(fā),當(dāng)operating_revenne<2.5696時執(zhí)行yes,判斷net_profit與2.7606的大小,執(zhí)行yes繼續(xù)判斷,當(dāng)operating_revenne 2.5696時執(zhí)行no,判斷BM與-0.3198的大小,以此類推直至葉子結(jié)點。

      通過圖2可以得到計算每個因子后的收益率,然后把34個候選因子進(jìn)行重要性排序。多次嘗試因子的組合,最終選取import>0.6的因子,也就是凈資產(chǎn)收益率(ROE),流通市值(circulating_market_cap),固定資產(chǎn)比例(FAP),總股本(capitalization),營業(yè)收入(operating_revenue),換手率(turnover_ratio),可以得到高收益,如圖3所示:

      (四)模型的構(gòu)建

      利用上面選取出的6個比較重要的因子構(gòu)建打分法模型。為了評估個股的綜合得分,模型對交易日的股票按照6個因子分別評分后再按照半衰期IC加權(quán)法進(jìn)行計算,在綜合打分后,將市場中的所有股票進(jìn)行排序,選取得分前10%的股票作為當(dāng)月的投資組合I,即完成了模型選股的全部步驟。

      (五)模型的檢驗

      本文利用2010年年初到2019年年初共9年的數(shù)據(jù)驗證模型的有效性。每個月初都按照最新的綜合評分進(jìn)行從大到小的排序,并且按照半衰期IC加權(quán)的方式分為Group1到Group5一共5組股票數(shù)量相同的組合,該組合持有到月末,再在下一個月月初進(jìn)行同樣的方法進(jìn)行構(gòu)建,一直到檢驗最后。假設(shè)在2010年年初將1000元投資這五個組合,那么在2019年年末Group1到Group5的凈值為4620.5102,2830.2020,2380.7148,1930.2245,1540.3103,而投資滬深300指數(shù)的凈值為1190.2642。得分最高的組合年化收益率為23.8%,而滬深300指數(shù)為2.05%,超出指數(shù)21.75%,具體組合收益可以看表2,組合及指數(shù)的凈值曲線圖見圖4.

      圖4由上往下以此為,Group1到Group5和HS300。

      接下來比較投資組合I的凈值和滬深300的凈值,結(jié)果如圖5所示。

      如圖5所示,投資組合I年化收益為26.86%高于年化收益為2.05%的滬深300指數(shù);投資組合I的凈值為7.42高于凈值為1.19的滬深300指數(shù),說明策略效果較好。

      四、結(jié)論

      量化投資的本質(zhì)就是借用計算機(jī)將傳統(tǒng)投資的邏輯定量化,并具有紀(jì)律性、程序化等優(yōu)勢,本文以量化投資中最常用的多因子模型為基礎(chǔ)進(jìn)行研究。多因子選股就是提煉出能夠長期具備擇股的因素并通過各種方法加以整合。從模型可以看出,對選取的2010年年初到2019年年初的滬深300成分股中8大類因子的數(shù)據(jù)進(jìn)行回測,回測數(shù)據(jù)為表1。然后利用XGBoost方法篩選出的重要因子為凈資產(chǎn)收益率(ROE),流通市值(circulating_market_cap),固定資產(chǎn)比例(FAP),總股本(capitalization),營業(yè)收入(operating_revenue),換手率(turnover_ratio)。采用動態(tài)的打分法為廣大的投資者提供一個簡單便捷,易操作,無需過多復(fù)雜整理運算的策略,并加入半衰期IC加權(quán)方法對模型進(jìn)行構(gòu)建。用歷史數(shù)據(jù)驗證了此策略的投資效果表現(xiàn)良好,結(jié)果為選出的前10%的股票中可獲得年化收益率為26.86%,要比滬深300的年化收益率高,高出24.81%??梢越o當(dāng)前投資者一條新的選股思路。

      我們構(gòu)建一個動態(tài)IC半衰期加權(quán)方法多因子組合,每期選擇因子打分排名前10%的股票作為投資組合。本文的選股方法在模型的檢驗期是有效的,由于月份眾多,本文只列出了幾個月份的股票組合,如表3。

      本文還存在進(jìn)一步改善和深化的地方,未來將會在以下幾個方面深入研究。其一,只是把模型與基準(zhǔn)進(jìn)行對比,沒有與其他模型的對比;其二,本文只是把樣本作為一個整體進(jìn)行分析,而沒有依照不同的市場的風(fēng)格的切換研究。后續(xù)研究將會對此進(jìn)行詳細(xì)探討,檢驗此方法是否是比較不錯的選擇。可以為廣大投資者開拓思路,能夠與當(dāng)前的投資行為更好的順應(yīng)未來的市場行情波動。

      隨著我國金融市場的逐步發(fā)展,應(yīng)該利用多因子選股策略去發(fā)現(xiàn)一些被錯誤定價的股票,以期獲得超額收益。利用多因子選股策略進(jìn)行投資將會是主要發(fā)展方向,會在越來越多的領(lǐng)域中出現(xiàn),在以后的中國市場中,量化選股必將成為發(fā)展方向。

      參考文獻(xiàn):

      [1]Fana E,F(xiàn)rench J R.Multifactor Explanations of Asset Pricing Anomalies [J].Journal of Finance,1996,51(1):55-84.

      [2]Esmaeil Hadavandi,Hassan Shavandi,Arash Ghanbari. Integration of genetic fuzzy systems and artificial neural networks for stock price forecasting[J].Knowledge-Based Systems,2010,23(8).

      [3]王春麗,劉光,王齊.多因子量化選股模型與擇時策略[J].東北財經(jīng)大學(xué)學(xué)報,2018(05):81-87.

      [4]李文星,李俊琪.基于多因子選股的半監(jiān)督核聚類算法改進(jìn)研究[J].統(tǒng)計與信息論壇,2018,33(03):30-36.

      [5]周亮.基于分位數(shù)回歸的多因子選股策略研究[J].西南大學(xué)學(xué)報(自然科學(xué)版),2019,41(01):89-96.

      [6]Brahim Ulas Ozturan,Elif Yaka,Selim Suner,Asim Enes Ozbek,Cansu Alyesil,Nurettin Ozgur Dogan,Serkan Yilmaz,Murat Pekdemir. Determination of carboxyhemoglobin half-life in patients with carbon monoxide toxicity treated with high flow nasal cannula oxygen therapy[J]. Clinical Toxicology,2019,57(7).

      [7]Christophe Morel. Stock selection using a multi-factor model - empirical evidence from the French stock market[J].The European Journal of Finance,2001,7(4).

      [8]Guresen E,Kayakutlu G,Daim T U.Using artificial neural network models in stock market index prediction[J].Expert Systems with Applications,2011,38(8):10389-10397.

      [9]Qui-yong Zhao,Xiaoyu Zhao,F(xiàn)u Duan. Prediction Model of Stock Prices Based on Correlative Analysis and Neural Networks[P].Information and Computing Science,2009. ICIC '09.Second International Conference on,2009.

      [10]Tian Jinyu,Li Yanni,Lin Yan.The analysis of factors affecting special treated stocks[P]. Industrial and Information Systems (IIS),2010 2nd International Conference on,2010.

      [11]Xue Chen College of Economics,Zhejiang University Hangzhou,China Xuejun Jin College of Economics,Zhejiang University Hangzhou,China. Detecting the Macroeconomic Factors in Chinese Stock Market Returns:A Generalized Dynamic Factor Model Approach[A].International AssociationofComputerScienceandInformationTechnology(IACSIT).Proceedings of 2010 2nd IEEE International Conference on Information and FinancialEngineering(ICIFE2010)[C].Inter-national Association of Computer Science and Information Technology(IACSIT):IEEE BEIJING SECTION(跨國電氣電子工程師學(xué)會北京分會),2010:5.

      作者單位:河北工業(yè)大學(xué)理學(xué)院

      猜你喜歡
      多因子
      基于GIS的萍鄉(xiāng)武功山風(fēng)景名勝區(qū)生態(tài)敏感性評價
      長三角地區(qū)GNSS可降水量直接轉(zhuǎn)換模型研究
      基于多因子AHP的印度汽車消費者決策研究
      時代汽車(2020年8期)2020-07-23 07:01:09
      基于BP神經(jīng)網(wǎng)絡(luò)的多因子洪水分類研究
      基于打分法的多因子量化選股策略研究
      基于大數(shù)據(jù)的股票多因子量化投資策略優(yōu)化研究
      乳腺良惡性病變影像多因子評價與BI-RADS分類相關(guān)性研究
      基于多因子的ZigBee安全認(rèn)證機(jī)制
      多因子協(xié)同作用對1992年和1998年黃淮地區(qū)夏季降水異常的影響
      基于回歸模型的方法分析半干旱流域的降雨徑流關(guān)系
      安新县| 文安县| 牙克石市| 清丰县| 富川| 鄂州市| 巴塘县| 南华县| 定兴县| 肇庆市| 夏津县| 收藏| 蒙阴县| 贡嘎县| 伊吾县| 炉霍县| 班玛县| 芒康县| 望都县| 徐州市| 汕头市| 温州市| 大新县| 广西| 旬阳县| 弋阳县| 安徽省| 门头沟区| 浑源县| 永善县| 南开区| 瓦房店市| 南雄市| 榆树市| 新龙县| 赞皇县| 榕江县| 仪陇县| 武平县| 六盘水市| 安阳市|