朱智賢
(中國計(jì)量大學(xué),浙江 杭州 310018)
在投資策略里,人們一直以來在為收益與風(fēng)險(xiǎn)想方設(shè)法,以此獲得盡可能高的收益,同時(shí)承擔(dān)盡可能低的風(fēng)險(xiǎn)。在過去,投資策略往往來自于主觀性的決策,比如投資經(jīng)理憑借自身對(duì)技術(shù)指標(biāo)的經(jīng)驗(yàn),從而做出買賣決策,這樣的行為即存在很大的主觀性。在瞬息萬變的金融市場(chǎng)中,主觀交易者要處事不驚同時(shí)又要眼疾手快地捕捉到稍縱即逝的機(jī)遇,如此需要精力的狀態(tài)每天持續(xù),也難免會(huì)力不從心。相反,量化投資在面對(duì)大量信息的時(shí)候,可以利用編程語言等工具來構(gòu)建算法,做到客觀地分析數(shù)據(jù),實(shí)現(xiàn)無限精力,概率取勝,紀(jì)律性強(qiáng)的自動(dòng)化交易,大大地提高了分析數(shù)據(jù)信息和交易的效率。
為了將機(jī)器學(xué)習(xí)應(yīng)用到我們的真實(shí)世界的策略中,一般將采用6個(gè)步驟:
在大多數(shù)情況下,需要收集文本文件、電子表格或者數(shù)據(jù)庫等的單一數(shù)據(jù)源。
任何機(jī)器學(xué)習(xí)項(xiàng)目的質(zhì)量基本取決于它的數(shù)據(jù)的質(zhì)量,所以要了解數(shù)據(jù)信息,在使用前,需要花費(fèi)大量時(shí)間去修復(fù)或者清理一些不規(guī)范的數(shù)據(jù),刪除不必要的數(shù)據(jù)并標(biāo)準(zhǔn)化,以便后期的模型處理。
在已經(jīng)準(zhǔn)備好用于分析的數(shù)據(jù)時(shí),很有可能已經(jīng)有了對(duì)數(shù)據(jù)如何處理的想法,選擇合適的機(jī)器學(xué)習(xí)算法。
由于機(jī)器學(xué)習(xí)模型會(huì)產(chǎn)生一個(gè)問題的有未知偏差的解決辦法,所以評(píng)價(jià)算法從經(jīng)驗(yàn)中學(xué)習(xí)是很重要的,那么可用測(cè)試集來評(píng)價(jià)其準(zhǔn)確性。
需使用更高級(jí)的方法來提高模型性能。比如可以更換一個(gè)完全不同的模型;補(bǔ)充一些其他的變量數(shù)據(jù)或者對(duì)數(shù)據(jù)進(jìn)行額外的準(zhǔn)備工作等。
如果模型性能令人滿意,就可以將之用到預(yù)期的任務(wù)里,比如預(yù)測(cè)股價(jià)等。
現(xiàn)今的大數(shù)據(jù)時(shí)代下,基于機(jī)器學(xué)習(xí)的數(shù)據(jù)運(yùn)用越來越頻繁,比如翻譯語言中的語音識(shí)別、信息檢索和自動(dòng)駕駛??梢钥吹剑絹碓蕉嗟娜俗⒁獾綑C(jī)器學(xué)習(xí)這個(gè)領(lǐng)域。特別是最近幾年興起的量化投資,已是每一位股票研究員值得關(guān)注與學(xué)習(xí)的條件。
以機(jī)器學(xué)習(xí)為工具,均進(jìn)行隨機(jī)森林(RM)、邏輯斯蒂(Logistic)、支持向量機(jī)(SVM)、平均神經(jīng)網(wǎng)絡(luò)(Neural network)和XGBoost模型訓(xùn)練測(cè)試,比較他們的準(zhǔn)確性、敏感性和特異性。模型之間對(duì)比之后選擇最佳的模型建立股票池,接著利用各股等權(quán)重比例構(gòu)建量化投資策略,進(jìn)行回測(cè)得出每一年的收益率和累計(jì)收益率,并與大盤進(jìn)行比較。
從Wind數(shù)據(jù)庫獲得到這些財(cái)務(wù)指標(biāo)數(shù)據(jù),在建立機(jī)器學(xué)習(xí)模型之前,需要對(duì)數(shù)據(jù)進(jìn)行收集(從Wind數(shù)據(jù)庫里導(dǎo)出)、處理缺失值(數(shù)據(jù)刪除和填補(bǔ))、數(shù)據(jù)歸一化,PCA對(duì)數(shù)據(jù)進(jìn)行降維等。對(duì)財(cái)務(wù)指標(biāo)輸入變量的處理大部分為缺失值的處理,缺失值處理本文采用的是最近鄰插值和近五年平均數(shù)及整體平均數(shù)的數(shù)據(jù)填補(bǔ)方法。對(duì)Y輸出變量的處理需要用到收盤價(jià)的數(shù)據(jù),當(dāng)股票的收盤價(jià)漲跌幅大于 HS300 指數(shù)的漲跌幅,Y的值取1,反之則取 0。相比之下,在R語言編程語言中,對(duì)輸出變量的處理速度要比輸入變量快很多。將數(shù)據(jù)處理至符合訓(xùn)練測(cè)試的要求時(shí),利用五種算法對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練測(cè)試,得出準(zhǔn)確性、敏感性和特異性綜合水平最佳的算法。使用最佳的算法預(yù)測(cè)出每一年上漲概率前20的股票,按等權(quán)配重分配,建倉、調(diào)倉8次構(gòu)建一個(gè)長(zhǎng)期的投資策略,最后回測(cè)得出該投資策略的收益率是否令人滿意。
本文將更傾向于隨機(jī)森林和XGBoost能得到不錯(cuò)的預(yù)測(cè)概率,結(jié)果:比較準(zhǔn)確率的話,隨機(jī)森林>平均神經(jīng)網(wǎng)絡(luò)>XGBoost>邏輯斯蒂>支持向量機(jī)。隨機(jī)森林算法是合適的量化選股型,在這里本文基于隨機(jī)森林模型使用填補(bǔ)和歸一化后的財(cái)務(wù)指標(biāo)數(shù)據(jù),每年依照模型預(yù)測(cè)出的上漲(up)的概率從高到低選20只優(yōu)質(zhì)股。收益率高出HS300大盤51.5%,跑贏了大盤。