• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多因子與多變量長(zhǎng)短期記憶網(wǎng)絡(luò)的股票價(jià)格預(yù)測(cè)①

      2019-08-22 02:30:10裴大衛(wèi)
      關(guān)鍵詞:多因子股票價(jià)格股票

      裴大衛(wèi), 朱 明

      (中國(guó)科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院 自動(dòng)化系,合肥 230027)

      1 概述

      隨著社會(huì)經(jīng)濟(jì)的高速發(fā)展,上市公司的數(shù)量越來(lái)越多,股票因而成為如今金融領(lǐng)域的熱點(diǎn)話題之一. 一方面,股票價(jià)格的走勢(shì)在一定程度上決定了諸多經(jīng)濟(jì)行為的走向,因此股票價(jià)格的預(yù)測(cè)也受到越來(lái)越多研究者的關(guān)注. 另一方面,互聯(lián)網(wǎng)的不斷發(fā)展為我們提供了海量的金融數(shù)據(jù),也就為機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn)提供了可能,因此有越來(lái)越多的研究者開(kāi)始嘗試使用機(jī)器學(xué)習(xí)對(duì)股票價(jià)格進(jìn)行預(yù)測(cè).

      目前,針對(duì)股票價(jià)格預(yù)測(cè)常用的機(jī)器學(xué)習(xí)方法有:改進(jìn)的梯度提升決策樹(shù)(Gradient Boosting Decision Tree,GBDT) XGBoost[1]、貝葉斯學(xué)習(xí)(Bayesian Learning,BL)[2]、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[3],結(jié)合自編碼器(auto encoder)的長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM)[4]等.然而文獻(xiàn)[1,2]中的策略使用的是傳統(tǒng)的機(jī)器學(xué)習(xí)方法,在大數(shù)據(jù)集下的性能相較深度學(xué)習(xí)較差; 文獻(xiàn)[3]的策略雖然使用了深度學(xué)習(xí)方法,但是一般的深度神經(jīng)網(wǎng)絡(luò)或者卷積神經(jīng)網(wǎng)絡(luò)實(shí)際上并不適合股票這類(lèi)序列型數(shù)據(jù); 文獻(xiàn)[4]的策略使用了更適合序列數(shù)據(jù)的長(zhǎng)短期記憶網(wǎng)絡(luò),然而這類(lèi)方法都只是將股票價(jià)格看做是一個(gè)簡(jiǎn)單時(shí)間序列來(lái)進(jìn)行預(yù)測(cè),預(yù)測(cè)的準(zhǔn)確度相對(duì)較低,同時(shí)在長(zhǎng)期預(yù)測(cè)下模型的魯棒性較差. 因而越來(lái)越多的研究者希望能為股票價(jià)格這個(gè)簡(jiǎn)單的時(shí)間序列添加更多的額外特征來(lái)提升預(yù)測(cè)水平.

      實(shí)際上,一只股票本身并不只包含價(jià)格信息,還包含大量經(jīng)濟(jì)學(xué)的外圍信息,例如:資產(chǎn)收益率、換手率、流通股數(shù)、市盈率、市凈率等,這些信息在量化選股[5]策略中經(jīng)常會(huì)使用到,它們對(duì)股票本身的價(jià)格走勢(shì)有一定影響作用,因而這些諸多的外圍信息可以為股票價(jià)格預(yù)測(cè)模型提供一定的幫助.

      本文從量化選股策略的角度出發(fā),將其中的多因子模型(multiple-factor model)作為股票的額外特征引入到股票價(jià)格預(yù)測(cè)中,建立了一個(gè)基于多變量的長(zhǎng)短期記憶網(wǎng)絡(luò)(multi-variable LSTM)股票價(jià)格預(yù)測(cè)模型,用以提升只基于單一價(jià)格序列,也即單變量長(zhǎng)短期記憶網(wǎng)絡(luò)(univariate LSTM)的股票價(jià)格預(yù)測(cè)模型的準(zhǔn)確性以及魯棒性.

      2 量化選股策略中的多因子模型

      量化選股就是利用數(shù)量化的方法選擇股票組合,使得期望的股票組合能過(guò)獲得超越基準(zhǔn)收益率的投資行為. 多因子模型是量化選股策略中一個(gè)十分常見(jiàn)而且十分有效的模型[5].

      2.1 多因子

      因子可認(rèn)為是影響股票價(jià)格波動(dòng)與價(jià)格走勢(shì)因素的數(shù)學(xué)表達(dá),這種因素主要來(lái)源于金融經(jīng)濟(jì)規(guī)律以及市場(chǎng)經(jīng)驗(yàn)[5].

      經(jīng)濟(jì)學(xué)上最早提出的因子模型是資本資產(chǎn)定價(jià)模型(Capital Asset Pricing Model,CAPM)[6],CAPM認(rèn)為對(duì)股票價(jià)格的影響因素主要是市場(chǎng)風(fēng)險(xiǎn)[7],現(xiàn)在金融領(lǐng)域常用Beta系數(shù)[8]來(lái)衡量,因此可以認(rèn)為CAPM是一種單因子模型.

      實(shí)際上影響股票價(jià)格僅僅依賴(lài)單一的市場(chǎng)風(fēng)險(xiǎn)是不夠的,CAPM模型暴露了諸多缺點(diǎn),在此基礎(chǔ)上又產(chǎn)生了法馬-福萊奇三因子模型(Fama-French 3-factor Model,F(xiàn)F3)[9],F(xiàn)F3認(rèn)為除了市場(chǎng)風(fēng)險(xiǎn)外,還存在市值風(fēng)險(xiǎn)[10]和賬面市值比風(fēng)險(xiǎn)[10],因此FF3可以看做是依賴(lài)市場(chǎng)風(fēng)險(xiǎn)、市值風(fēng)險(xiǎn)以及賬面市值比風(fēng)險(xiǎn)的三因子模型.

      隨著經(jīng)濟(jì)學(xué)的不斷發(fā)展與市場(chǎng)經(jīng)濟(jì)的愈發(fā)復(fù)雜,F(xiàn)F3也不再能很好的解釋當(dāng)前股票市場(chǎng)環(huán)境下的諸多現(xiàn)象[11]. 同時(shí)歸功于計(jì)算機(jī)技術(shù)的發(fā)展,計(jì)算能力的提升,可以嘗試用更多的因子來(lái)描述股票預(yù)測(cè)問(wèn)題,因而產(chǎn)生了多因子模型.

      多因子模型理論認(rèn)為,影響股票價(jià)格的因素來(lái)自于以下三個(gè)層面:公司層面,市場(chǎng)表現(xiàn)層面,外部環(huán)境層面[5].

      公司因子來(lái)自于公司的微觀結(jié)構(gòu),與公司的生產(chǎn)經(jīng)營(yíng)息息相關(guān),一般表現(xiàn)為公司的財(cái)務(wù)指標(biāo),反映了公司的盈利、運(yùn)營(yíng)、債務(wù)和成長(zhǎng)狀況,也是量化選股中最重要的一類(lèi)因子[5],它們刻畫(huà)了一個(gè)公司在市場(chǎng)的表現(xiàn),例如:資產(chǎn)負(fù)債比、流通市值、賬面市值比、凈利率等.

      市場(chǎng)表現(xiàn)因子來(lái)自于股票在交易過(guò)程中的價(jià)格和交易量,他們刻畫(huà)了風(fēng)險(xiǎn)、動(dòng)量、資金流向等各種金融技術(shù)類(lèi)指標(biāo),例如:風(fēng)險(xiǎn)系數(shù)、動(dòng)態(tài)市盈率、換手率等.

      外部環(huán)境層面因子來(lái)自于政治法律、宏觀經(jīng)濟(jì)、社會(huì)習(xí)俗和技術(shù)發(fā)展等外部環(huán)境,它們刻畫(huà)了一個(gè)行業(yè)的當(dāng)前以及未來(lái)發(fā)展的趨勢(shì),在長(zhǎng)期預(yù)測(cè)中十分重要,例如:宏觀經(jīng)濟(jì)變量,市場(chǎng)預(yù)期變化方向等.

      由于考慮了諸多股票外圍因素,使得多因子模型相對(duì)比較穩(wěn)定,因?yàn)樵诓煌袌?chǎng)下,總會(huì)有一些因子發(fā)揮作用[11]. 簡(jiǎn)單起見(jiàn)可以將多因子模型描述為一個(gè)線性回歸問(wèn)題:

      其中,Pstock為股票價(jià)格,N為因子的數(shù)量,F(xiàn)i為第i個(gè)因子,wi為第i個(gè)因子的權(quán)值,ε為偏置,可以認(rèn)為股票價(jià)格是受多個(gè)因子影響的,是多個(gè)因子的線性組合.

      基于多因子模型的啟發(fā),本文認(rèn)為多因子可以在一定程度上刻畫(huà)股票的特征,因此本文對(duì)多只股票計(jì)算了多因子模型中若干典型因子,將其作為后續(xù)長(zhǎng)短期記憶網(wǎng)絡(luò)的輸入特征來(lái)進(jìn)行股票價(jià)格的預(yù)測(cè).

      3 多變量長(zhǎng)短期記憶網(wǎng)絡(luò)

      3.1 長(zhǎng)短期記憶網(wǎng)絡(luò)[12]

      長(zhǎng)短期記憶網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[13]的一種變體形式. 傳統(tǒng)的RNN隨著輸入序列的長(zhǎng)度變長(zhǎng),會(huì)導(dǎo)致網(wǎng)絡(luò)的層數(shù)大大增加,進(jìn)而帶來(lái)梯度消失(vanishing gradient)問(wèn)題[14].

      LSTM的提出解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過(guò)程中由于輸入序列過(guò)長(zhǎng)帶來(lái)的梯度消失問(wèn)題. 圖1為L(zhǎng)STM的展開(kāi)形式,LSTM在RNN的基礎(chǔ)上設(shè)計(jì)了新的神經(jīng)單元結(jié)構(gòu). LSTM記憶的歷史信息保留在細(xì)胞狀態(tài)(cell state)中,其受輸入門(mén)(input gate)、遺忘門(mén)(forget gate)、輸出門(mén)(forget gate)的控制,三個(gè)門(mén)的激活函數(shù)均為Sigmoid.

      圖1 LSTM展開(kāi)形式

      輸入門(mén)用來(lái)控制當(dāng)前時(shí)刻神經(jīng)單元的輸入信息,遺忘門(mén)用來(lái)控制上一時(shí)刻神經(jīng)單元中存儲(chǔ)的歷史信息,輸出門(mén)用來(lái)控制當(dāng)前時(shí)刻神經(jīng)單元的輸出信息. 設(shè)圖2為t時(shí)刻LSTM神經(jīng)單元的狀態(tài),其中Xt為當(dāng)前時(shí)刻的輸入,Ht-1為上一個(gè)時(shí)刻的輸入,Ct-1為上一個(gè)時(shí)刻的細(xì)胞狀態(tài),則LSTM單元的更新計(jì)算方法為:

      其中,Wf、Wi、WC、Wo分別為遺忘門(mén)、輸入門(mén)、更新門(mén)和輸出門(mén)的權(quán)值矩陣,bf、bi、bC、bo分別為遺忘門(mén)、輸入門(mén)、更新門(mén)和輸出門(mén)的偏置(bias),最終計(jì)算得到當(dāng)前時(shí)刻的輸出Ht與當(dāng)前時(shí)刻更新的細(xì)胞狀態(tài)Ct.

      3.2 單變量長(zhǎng)短期記憶網(wǎng)絡(luò)

      對(duì)于一般的長(zhǎng)短期記憶網(wǎng)絡(luò)而言,輸入往往是一個(gè)單獨(dú)的股票價(jià)格序列,記為:

      其中,T為序列的長(zhǎng)度,將序列數(shù)據(jù)輸入網(wǎng)絡(luò)的時(shí)候并非一次只輸入一個(gè)時(shí)刻,而是會(huì)輸入前序多個(gè)時(shí)刻的數(shù)據(jù). 例如要預(yù)測(cè)t時(shí)刻的股票價(jià)格,則當(dāng)前時(shí)刻的輸入為:

      即t時(shí)刻之前的W個(gè)時(shí)刻的數(shù)據(jù),可以稱(chēng)W為序列觀測(cè)窗口的長(zhǎng)度,觀測(cè)窗口的大小也決定了輸入層的神經(jīng)元數(shù)量; 隱藏層的神經(jīng)元數(shù)量是一個(gè)超參數(shù)(hyperparameter),需要在實(shí)驗(yàn)中根據(jù)效果決定; 輸出層的神經(jīng)元數(shù)量為1表示每次預(yù)測(cè)下一個(gè)新時(shí)刻的股票價(jià)格.

      圖2展示了一般單變量LSTM的輸入層、隱藏層和輸出層隨時(shí)序的變化形式.

      圖2 單變量LSTM輸入層、隱藏層、輸出層時(shí)序

      3.3 多變量長(zhǎng)短期記憶網(wǎng)絡(luò)

      在本文中場(chǎng)景下,網(wǎng)絡(luò)的輸入不再是一條單一的時(shí)間序列,設(shè)我們使用的因子數(shù)量為N,加之原始股票價(jià)格序列,則會(huì)有N+1條序列輸入網(wǎng)絡(luò).

      為了適應(yīng)這樣的問(wèn)題,本文對(duì)傳統(tǒng)的單變量LSTM的輸入層與隱藏層進(jìn)行了改變,單變量LSTM的輸入形式為式(9)所示的向量. 而對(duì)于多條輸入序列,本文使用矩陣形式進(jìn)行輸入,即多變量LSTM的輸入形式. 設(shè)輸入的多條時(shí)間序列為:

      其中,j表示因子序號(hào),這里不妨令0號(hào)代表股票價(jià)格序列,后續(xù)1到N為多因子序列. 則對(duì)于t時(shí)刻的輸入可以表示為式(11)的矩陣形式:

      該輸入矩陣的大小取決于使用的因子數(shù)N以及觀測(cè)窗口W的大小. 圖3展示了多變量LSTM的輸入層、隱藏層和輸出層的形式.

      圖3 多變量LSTM輸入層、隱藏層、輸出層

      在多變量LSTM中,某個(gè)因子序列不僅僅與自身的隱藏層存在映射關(guān)系,還與其余多個(gè)因子的隱藏層存在映射關(guān)系,使得整個(gè)網(wǎng)絡(luò)的映射更加豐富,因而能在一定程度上提升了模型的性能,但是相比單變量LSTM而言,網(wǎng)絡(luò)的結(jié)構(gòu)更加復(fù)雜,要學(xué)習(xí)的參數(shù)激增,使得網(wǎng)絡(luò)訓(xùn)練的時(shí)間有所延長(zhǎng).

      4 多因子與多變量長(zhǎng)短期記憶網(wǎng)絡(luò)融合模型

      4.1 模型輸出層

      在實(shí)際應(yīng)用中通常需要預(yù)測(cè)未來(lái)的股票價(jià)格,在本文中即[T+1,L]區(qū)間的股票價(jià)格,現(xiàn)實(shí)中無(wú)法直接獲得未來(lái)的多因子信息,例如:預(yù)測(cè) t=T+3時(shí)刻的股票價(jià)格,必然沒(méi)有t=T+1與t=T+2時(shí)刻的多因子信息.

      為解決這樣的問(wèn)題,本文進(jìn)一步增加了輸出層的神經(jīng)元數(shù)量,使得模型不僅僅預(yù)測(cè)下一時(shí)刻的股票價(jià)格,還同時(shí)預(yù)測(cè)下一個(gè)時(shí)刻的多因子,也即輸出層神經(jīng)元數(shù)量由1變?yōu)镹+1,圖4展示了完整的融合模型形式.

      圖4 改進(jìn)后的多變量LSTM輸入層、隱藏層、輸出層

      4.2 輸入數(shù)據(jù)

      由于原始數(shù)據(jù)為多條股票價(jià)格及因子序列,需要將其轉(zhuǎn)換成類(lèi)似式(11)的模型輸入形式. 根據(jù)式(10),對(duì)于股票數(shù)據(jù)集中第i只股票樣本有訓(xùn)練數(shù)據(jù)S(i):

      由于觀察窗口W的存在,每次輸入的數(shù)據(jù)長(zhǎng)度不能少于W個(gè),因此輸入數(shù)據(jù)的實(shí)際長(zhǎng)度L=T-W,則在t時(shí)刻樣本i的輸入矩陣與該樣本對(duì)應(yīng)的標(biāo)簽有如下形式:

      4.3 預(yù)測(cè)

      當(dāng)預(yù)測(cè)時(shí)刻t∈[T+1,L]的股票價(jià)格時(shí),如前述原因無(wú)法獲得[T+1,t-1]區(qū)間的多因子信息,因而將這一時(shí)間區(qū)間的模型輸出作為t時(shí)刻的因子輸入,即:

      這樣就可以保證在預(yù)測(cè)過(guò)程中,窗口可以正確的向后滑動(dòng).

      5 實(shí)驗(yàn)與分析

      5.1 實(shí)驗(yàn)數(shù)據(jù)

      由于外部環(huán)境因子不容易量化與建模,本文中使用的因子主要來(lái)源于公司與市場(chǎng)表現(xiàn)兩個(gè)層面,包括:收益波動(dòng)率(volatility rate)、風(fēng)險(xiǎn)流通市值加權(quán)(Beta1)、風(fēng)險(xiǎn)總市值加權(quán)(Beta2)、市盈率(price earning ratio)、市凈率(price/book value ratio)、市銷(xiāo)率(price-to-sales ratio)、換手率(turnover rate)、流通市值(circulated market value)、當(dāng)日成交額(amount)、流動(dòng)性指標(biāo)(liquidity)這10個(gè)在量化選股策略中常用的因子[5].

      本文選取了2014年滬深交易所所有上市A股中共830只有效股票作為數(shù)據(jù)集. 并對(duì)所有股票計(jì)算了對(duì)應(yīng)因子作為模型的輸入數(shù)據(jù). 這里選取股票編號(hào)為600000的股票展示股票價(jià)格與幾個(gè)典型因子的走勢(shì).圖5為600000股票在當(dāng)年的價(jià)格走勢(shì),圖6為其市盈率、流通市值、換手率以及流動(dòng)性指標(biāo)四個(gè)因子的當(dāng)年走勢(shì).

      圖5 股票編號(hào)600000價(jià)格序列

      5.2 實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)準(zhǔn)備

      5.2.1 股票數(shù)據(jù)預(yù)處理

      由圖5的股票價(jià)格曲線可以觀察到,價(jià)格的微小波動(dòng)十分頻繁,從量化選股的角度而言,股票價(jià)格短期小范圍的微小波動(dòng)并不能作為判斷股票長(zhǎng)期價(jià)格走勢(shì)高低的依據(jù)[15],因此為了讓訓(xùn)練數(shù)據(jù)集有更好的泛化能力,本文對(duì)訓(xùn)練集中所有輸入的價(jià)格序列進(jìn)行了一階指數(shù)平滑(first order exponential smoothing)[16]處理.通過(guò)序列平滑可以在一定程度減少短期小范圍價(jià)格波動(dòng)對(duì)數(shù)據(jù)集造成的影響.

      圖7為股票編號(hào)為600000的股票價(jià)格平滑后的序列. 通過(guò)對(duì)比圖5可以觀察到,平滑后的股票價(jià)格序列減少了許多小范圍的價(jià)格波動(dòng),但也很好的保留了原始序列的價(jià)格趨勢(shì),這樣有助于提升訓(xùn)練數(shù)據(jù)集的泛化能力.

      5.2.2 預(yù)測(cè)模型的搭建

      本次實(shí)驗(yàn)中的多變量長(zhǎng)短期記憶網(wǎng)絡(luò)模型在Keras下進(jìn)行搭建. Keras是一個(gè)基于Tensorflow以及Theano封裝的高級(jí)神經(jīng)網(wǎng)絡(luò)應(yīng)用編程接口(deep learning application program interface),編程語(yǔ)言為Python.使用Keras的LSTM相關(guān)API就可以的搭建一個(gè)單變量的LSTM模型,本文在此基礎(chǔ)上,修改了模型輸入層接受訓(xùn)練數(shù)據(jù)的結(jié)構(gòu)進(jìn)而實(shí)現(xiàn)了一個(gè)可以輸入多個(gè)序列的多變量LSTM模型.

      5.2.3 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

      本文的實(shí)驗(yàn)環(huán)境如表1所示. 本次實(shí)驗(yàn)的模型損失函數(shù)為均方誤差(Mean Square Error,MSE),梯度下降的優(yōu)化器為Adam[17],模型迭代次數(shù)為200,隱藏層神經(jīng)元數(shù)量為16. 實(shí)驗(yàn)中的觀測(cè)窗口W大小為3,也即每次預(yù)測(cè)只觀測(cè)前3天的股票數(shù)據(jù).

      圖6 股票編號(hào)600000的四個(gè)典型因子走勢(shì)

      圖7 股票編號(hào)600000價(jià)格平滑后走勢(shì)

      5.2.4 模型評(píng)價(jià)標(biāo)準(zhǔn)

      本次實(shí)驗(yàn)使用的模型評(píng)價(jià)標(biāo)準(zhǔn)為回歸問(wèn)題中典型的均方根誤差(Root Mean Square Error,RMSE)[18]. 這里可以對(duì)每一只股票分別計(jì)算其均方根誤差,則第i只股票樣本的預(yù)測(cè)均方根誤差為:

      表1 實(shí)驗(yàn)環(huán)境

      其中,M為數(shù)據(jù)集的樣本總數(shù). 模型的RMSE越小說(shuō)明模型的預(yù)測(cè)準(zhǔn)確性越高.

      5.3 實(shí)驗(yàn)結(jié)果與分析

      5.3.1 模型的預(yù)測(cè)準(zhǔn)確率

      圖8展示了股票600000加入了多因子后的多變量LSTM模型的股票價(jià)格預(yù)測(cè)結(jié)果. 可以觀察到,對(duì)于驗(yàn)證集中的新數(shù)據(jù),模型可以較好的預(yù)測(cè)出股票價(jià)格的變化. 該序列預(yù)測(cè)的訓(xùn)練集與測(cè)試集的均方根誤差分別為:

      圖9展示了股票600000在沒(méi)有多因子的一般單變量LSTM模型下的股票價(jià)格預(yù)測(cè)結(jié)果,該序列預(yù)測(cè)的訓(xùn)練集與測(cè)試集的均方根誤差分別為:

      可以看到加入多因子的多變量LSTM相較于一般單變量LSTM在驗(yàn)證集上有11.39%的性能提升.

      為了更好的對(duì)比二者預(yù)測(cè)結(jié)果的差別,圖10僅顯示圖8和圖9在驗(yàn)證集上的預(yù)測(cè)結(jié)果.

      通過(guò)圖10中的預(yù)測(cè)曲線對(duì)比可以發(fā)現(xiàn),在多因子的條件下,預(yù)測(cè)曲線不僅擬合了整體價(jià)格曲線的變化趨勢(shì),同時(shí)也很好的擬合了曲線的一些短期波動(dòng),這就是多因子所帶來(lái)的價(jià)值; 而在一般單變量的條件下,預(yù)測(cè)曲線雖然也很好的擬合了價(jià)格曲線的變化趨勢(shì),但是在很多細(xì)節(jié)之處卻沒(méi)有很好的擬合曲線的價(jià)格波動(dòng).

      圖9 股票編號(hào)600000的單變量LSTM價(jià)格預(yù)測(cè)結(jié)果

      圖10 股票編號(hào)600000驗(yàn)證集預(yù)測(cè)結(jié)果對(duì)比

      圖11在此額外展示了數(shù)據(jù)集中其他多只股票的驗(yàn)證集預(yù)測(cè)結(jié)果.

      最終使用單變量LSTM與多變量LSTM分別對(duì)全部830只股票進(jìn)行預(yù)測(cè),并分別計(jì)算在整個(gè)數(shù)據(jù)集上的平均RMSE:

      在整個(gè)數(shù)據(jù)集上加入多因子的多變量LSTM相較于一般單變量LSTM有10.12%的性能提升.

      5.3.2 模型的魯棒性

      前文提到,本次實(shí)驗(yàn)的觀測(cè)窗口W的大小為3,也即每次預(yù)測(cè)只觀測(cè)前3天的股票數(shù)據(jù). 實(shí)際上觀察窗口的大小是一個(gè)對(duì)模型預(yù)測(cè)性能影響較大的模型超參數(shù).

      一般而言,觀測(cè)窗口越小預(yù)測(cè)曲線擬合的越緊湊,也即反映曲線的短期特性,更能體現(xiàn)曲線的波動(dòng); 觀測(cè)窗口越大預(yù)測(cè)曲線擬合的越松散,也即反映曲線的長(zhǎng)期特性,更能體現(xiàn)曲線的趨勢(shì). 因而根據(jù)RMSE的計(jì)算方式,則觀測(cè)窗口越小,RMSE就越小; 觀測(cè)窗口越大,RMSE就越大. 這也就意味著如果觀測(cè)窗口的變化對(duì)RMSE的值有很大影響,那么就會(huì)進(jìn)而對(duì)模型的評(píng)估造成干擾.

      圖11 額外幾只股票驗(yàn)證集預(yù)測(cè)結(jié)果

      圖12展示了RMSE隨觀測(cè)窗口W的變化曲線.隨著觀測(cè)窗口變大,無(wú)論是多變量LSTM還是單變量LSTM均受其影響導(dǎo)致RMSE增加. 但是在多因子的條件下,可以明顯會(huì)發(fā)現(xiàn)RMSE受觀測(cè)窗口的影響更加微弱,因而無(wú)論觀測(cè)窗口如何變化,多變量LSTM預(yù)測(cè)模型更加穩(wěn)定,這也是得益于多因子的引入,更多豐富的股票外圍特征為模型帶來(lái)了更好的魯棒性.

      6 結(jié)語(yǔ)與展望

      本文將量化選股策略中的多因子模型概念引入到股票價(jià)格預(yù)測(cè)中,為一般基于單序列的單變量LSTM價(jià)格預(yù)測(cè)模型加入了更多經(jīng)濟(jì)學(xué)外圍特征,不再僅僅將股票價(jià)格看做為一個(gè)簡(jiǎn)單的數(shù)學(xué)概念上的時(shí)間序列.在此之上構(gòu)造了一個(gè)基于多因子的多變量LSTM股票價(jià)格預(yù)測(cè)模型,在一定程度上提升了股票價(jià)格預(yù)測(cè)的準(zhǔn)確性與模型的魯棒性.

      圖12 驗(yàn)證集RMSE隨觀測(cè)窗口W的變化趨勢(shì)

      在本文中用于參與訓(xùn)練的股票因子是較為常用的典型的量化選股因素,但是典型并不意味著適用于所有場(chǎng)景,實(shí)際上因子的數(shù)量是非常龐大的,在初期可以嘗試通過(guò)某些方法對(duì)大量的因子進(jìn)行篩選,遴選出更為適合當(dāng)前場(chǎng)景的因子,可以進(jìn)一步提升模型的預(yù)測(cè)性能. 此外多變量的LSTM網(wǎng)絡(luò)的訓(xùn)練時(shí)間相對(duì)較長(zhǎng),在后續(xù)可以嘗試對(duì)模型的計(jì)算復(fù)雜度進(jìn)行優(yōu)化.

      猜你喜歡
      多因子股票價(jià)格股票
      基于GARCH族模型的重慶啤酒股票價(jià)格波動(dòng)研究
      基于BP神經(jīng)網(wǎng)絡(luò)的多因子洪水分類(lèi)研究
      基于打分法的多因子量化選股策略研究
      基于多因子的ZigBee安全認(rèn)證機(jī)制
      本周創(chuàng)出今年以來(lái)新高的股票
      本周創(chuàng)出今年以來(lái)新高的股票
      本周連續(xù)上漲3天以上的股票
      近期連續(xù)漲、跌3天以上的股票
      論股票價(jià)格準(zhǔn)確性的社會(huì)效益
      我國(guó)股票價(jià)格指數(shù)與“克強(qiáng)指數(shù)”的關(guān)系研究
      济南市| 柞水县| 保康县| 兖州市| 宁陕县| 都兰县| 宜宾县| 巴青县| 盐池县| 山阳县| 双桥区| 马龙县| 理塘县| 洱源县| 茌平县| 淅川县| 桃园县| 石河子市| 平利县| 广南县| 团风县| 山东省| 稻城县| 任丘市| 泊头市| 南川市| 枝江市| 宜川县| 大姚县| 岳池县| 沾益县| 迁西县| 清新县| 柳河县| 安顺市| 喀喇沁旗| 柞水县| 海原县| 宁城县| 凌云县| 新源县|