胡俊,桂霏,楊桂元
組合模型對(duì)股票價(jià)格預(yù)測(cè)的比較研究
胡俊,桂霏,楊桂元
股票價(jià)格預(yù)測(cè)向量是投資者、分析家以及很多學(xué)者所關(guān)注研究的對(duì)象,傳統(tǒng)的預(yù)測(cè)模型已發(fā)展得比較成熟,而近年產(chǎn)生的新型統(tǒng)計(jì)學(xué)習(xí)理論也逐漸成為了預(yù)測(cè)的工具,比如神經(jīng)網(wǎng)絡(luò),支持向量機(jī)等。對(duì)三種傳統(tǒng)與新型模型混合的組合模型(ARIMA、GARCH、SVR)進(jìn)行預(yù)測(cè),并比較分析,得到一定的結(jié)論。
股票價(jià)格預(yù)測(cè);ARIMA;條件異方差;支持向量回歸;組合模型
股票價(jià)格預(yù)測(cè)一直以來是投資者、分析家以及很多學(xué)者所關(guān)注研究的對(duì)象,但由于影響股市的因素太多,客觀預(yù)測(cè)——技術(shù)分析、數(shù)據(jù)分析、公司基本面判斷等盡管能判斷出一定的波動(dòng)趨勢(shì),但準(zhǔn)確性不佳。因此,對(duì)于很多散戶投資者甚至一些機(jī)構(gòu)評(píng)論分析人都是主觀加客觀來做推斷,這也進(jìn)一步導(dǎo)致了股票市場(chǎng)的盲動(dòng)性。
傳統(tǒng)的時(shí)間學(xué)列對(duì)于股市的預(yù)測(cè)有很多模型,比如線性的ARIMA,非線性的GARCH模型等,這些模型對(duì)數(shù)據(jù)要求比較嚴(yán)格,尤其是GARCH模型,對(duì)于股票數(shù)據(jù),盡管數(shù)據(jù)量大,但由于市場(chǎng)隨機(jī)性太強(qiáng),數(shù)據(jù)往往顯得不“真實(shí)”。20世紀(jì)50年代以來,暗箱理論的建立使統(tǒng)計(jì)研究理論從傳統(tǒng)型上發(fā)生了一些轉(zhuǎn)變,特別是計(jì)算機(jī)發(fā)展普及后,這方面的實(shí)踐也明顯增多,從而帶動(dòng)了預(yù)測(cè)模型的發(fā)展。比如人工神經(jīng)網(wǎng)絡(luò)(ANN)、灰色預(yù)測(cè)(GM)、支持向量機(jī)(SVM)等。 人工智能(Artificial Intelligence)主要是通過計(jì)算機(jī)來模擬人的某些思維過程和智能行為的一種方式,從而對(duì)新的變量與環(huán)境進(jìn)行較精確的經(jīng)驗(yàn)判斷或預(yù)測(cè)。
近年來,人們對(duì)新型預(yù)測(cè)模型的關(guān)注度越來越多,并且常常與傳統(tǒng)模型結(jié)合,用組合模型來判斷,取得了一定的效果。目前,國內(nèi)在這方面的組合模型主要有三種模式:第一類是把時(shí)間序列分成線性部分和非線性部分,并對(duì)線性部分進(jìn)行傳統(tǒng)的時(shí)間序列模型進(jìn)行預(yù)測(cè),而對(duì)非線性部分用人工智能進(jìn)行預(yù)測(cè),如盛艷波(2006)用BP神經(jīng)網(wǎng)路和ARIMA組合模型對(duì)浙江省人均GDP進(jìn)行預(yù)測(cè),有一定的預(yù)測(cè)性;第二類是通過對(duì)幾種預(yù)測(cè)(包括傳統(tǒng)與新型)的結(jié)果進(jìn)行加權(quán)求平均處理,如張防等(2009)通過對(duì)用BPNN預(yù)測(cè)和ARIMA預(yù)測(cè)出來的銷售數(shù)據(jù)進(jìn)行加權(quán)平均處理,得到比用單個(gè)方法預(yù)測(cè)的效果好;第三類是將某個(gè)傳統(tǒng)方法預(yù)測(cè)出來的結(jié)果作為神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)中的一個(gè)因素,再進(jìn)行神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等進(jìn)行仿真預(yù)測(cè),如高振坤等(2009)對(duì)深圳成指的收益率進(jìn)行研究,其方法是用前5天的對(duì)數(shù)收益率作為輸入神經(jīng)元,此外還加上用GARCH估計(jì)出來的條件變異數(shù)作為第六個(gè)輸入神經(jīng)元,再進(jìn)行仿真模擬,結(jié)果顯示組合預(yù)測(cè)比較好。
本文結(jié)合以上三種組合模型,運(yùn)用ARIMA、GARCH、SVR(支持向量回歸機(jī))對(duì)股票價(jià)格進(jìn)行預(yù)測(cè)。
對(duì)于上面的三個(gè)模型,由于ARIMA與GARCH發(fā)展得較成熟,這里只作簡(jiǎn)單介紹,筆者將重點(diǎn)闡述SVR的原理。
(一)差分自回歸移動(dòng)平均模型(ARIMA)
ARIMA模型是由Box和Jenkins于20世紀(jì)70年代初提出的時(shí)間序列預(yù)測(cè)方法,其基本思想是將預(yù)測(cè)對(duì)象隨時(shí)間推移而形成的數(shù)據(jù)序列視為一個(gè)隨機(jī)序列,用一定的數(shù)學(xué)模型來近似描述這個(gè)序列,這個(gè)模型一旦被識(shí)別后就可以從時(shí)間序列的過去值及現(xiàn)在值來預(yù)測(cè)未來值。ARIMA(p,l,q)模型基本方程:
這里 d(sht)=sht-sht-1,即一階差分(d=1)。這里差分的目的是建立ARMA模型的序列必須的平穩(wěn)序列。
ARIMA模型的應(yīng)用分析主要包括四個(gè)步驟:模型識(shí)別,即根據(jù)時(shí)間序列的特征,確定模型類型及其階數(shù),就是找出ARIMA模型的p,d,q值。模型估計(jì),即用適當(dāng)?shù)膮?shù)估計(jì)方法,估計(jì)初步設(shè)定模型的參數(shù)值。模型檢驗(yàn),即在建立好模型以及確定好參數(shù)后,檢驗(yàn)這些的準(zhǔn)備性,并進(jìn)一步調(diào)整。模型預(yù)測(cè)和控制,即利用所得到的模型進(jìn)行預(yù)測(cè)分析,包括靜態(tài)預(yù)測(cè)、動(dòng)態(tài)預(yù)測(cè)等。
(二)廣義自回歸條件異方差模型(GARCH)
GARCH是在Engle(1982)提出ARCH模型后,T.Bollerslev(1986)提出的擴(kuò)展模型。GARCH模型是一個(gè)專門針對(duì)金融數(shù)據(jù)的回歸模型,除去和普通回歸模型相同之處,GARCH對(duì)誤差的方差進(jìn)行了進(jìn)一步的建模,特別適用于波動(dòng)性的分析和預(yù)測(cè)。
GARCH(p,q)模型基本形式:
其中,vt獨(dú)立同分布,E(vt)=0,D(vt)=1在模型中為保證ht恒取正值,保證條件方差方程是一個(gè)平穩(wěn)過程,對(duì)模型的兩個(gè)約束條件為:
在實(shí)際應(yīng)用中,GARCH(p,q)中的q一般比較小,比ARCH(q)中的q可以小得多,事實(shí)上最常用的是GARCH(1,1)模型。GARCH(1,1)模型可以描述大量的金融時(shí)間數(shù)據(jù),但一般是收益率序列,對(duì)于股票價(jià)格,一般很少符合ARCH效應(yīng)的。應(yīng)用步驟也包括建立,參數(shù)估計(jì),檢驗(yàn),預(yù)測(cè)這幾步。
(三)支持向量機(jī)(SVM)
SVM方法是統(tǒng)計(jì)學(xué)習(xí)理論的一種實(shí)現(xiàn)方法,它也是一種前向型神經(jīng)網(wǎng)絡(luò) ,可以用于分類和非線性回歸。其基本思想是:基于Mercer核展開定理,通過非線性映射把特征空間映射到Hilbert空間,在Hilbert空間中用線性學(xué)習(xí)機(jī)方法解決非線性分類和回歸等問題。
本文因?yàn)橹贿\(yùn)用SVR即支持向量回歸,所以這里只介紹SVR的理論與推導(dǎo)。
線性ε-SVR的模型是:給定訓(xùn)練集T={(x1,y1),(x2,y2),…,(xn,yn)}∈(X×Y)n然后選擇適當(dāng)?shù)膮?shù) ε 和 C〉0,構(gòu)造并求解最優(yōu)化問題
得到Lagrange最優(yōu)目標(biāo)函數(shù)為:
本文為了與GARCH模型相比較,特地選取了具有ARCH效應(yīng)的股票價(jià)格,即選取了2010年11月01日到2011年3月16日三峽水利的收盤價(jià)格作為研究對(duì)象,對(duì)3月17日到3月23日的收盤價(jià)格進(jìn)行各種方法的預(yù)測(cè)。
1.對(duì)于ARIMA模型,對(duì)原序列單位根檢驗(yàn),得到為一階差分平穩(wěn),并且平穩(wěn)后的自相關(guān)系數(shù)和偏自相關(guān)系數(shù)顯示都有拖尾現(xiàn)象,因此根據(jù)AIC和SC準(zhǔn)則以及系數(shù)t檢驗(yàn)進(jìn)行模型階數(shù)確定,得到最優(yōu)的模型為 ARIMA(1,1,1),即
再看殘差的Q統(tǒng)計(jì)量,顯示不能拒絕原殘差為白噪聲序列。對(duì)股票價(jià)格進(jìn)行預(yù)測(cè),結(jié)果見表1。
2.對(duì)于GARCH模型,同樣根據(jù)AIC和SC準(zhǔn)則來確定模型,得到最好的階數(shù)為p=1,q=1,即:
再進(jìn)行殘差序列的LM檢驗(yàn),顯示不再存在ARCH效應(yīng),所以認(rèn)為模型合理。對(duì)股票價(jià)格進(jìn)行預(yù)測(cè),結(jié)果見于表1。
3.本文應(yīng)用SVR時(shí),主要是考慮到股票價(jià)格的周期波動(dòng)性,因?yàn)楣善苯灰滓恢転?天,所以本期的波動(dòng)往往跟前面5期的波動(dòng)有較大關(guān)聯(lián)。由前面5期,即
所取的訓(xùn)練集為2010-11-01到2011年3月16日,預(yù)測(cè)2011-3月17日到3月23日的價(jià)格,即本文全部模型要預(yù)測(cè)的5期股票價(jià)格。預(yù)測(cè)結(jié)果如表1所示。
表1 股票預(yù)測(cè)價(jià)格
從表1可以看出,總體來說,組合模型比單一模型預(yù)測(cè)效果要精確,而對(duì)比三類組合模型的平均絕對(duì)誤差(MAE)、平均絕對(duì)百分比誤差(MAPE)、均方誤差(MSE)、均方根誤差(RMSE),可以看到 ARIMA+SVR的預(yù)測(cè)精度最高,幾乎能準(zhǔn)確預(yù)測(cè)出實(shí)際值來,這可以看出線性與非線性的組合有比較好的效果,而加權(quán)預(yù)測(cè)結(jié)果次之,以GARCH模型預(yù)測(cè)的結(jié)果作為某一輸入變量的SVR模型的預(yù)測(cè)效果卻并不是很好,原因可能跟單獨(dú)用SVR來仿真擬合一樣,受訓(xùn)練集內(nèi)的數(shù)據(jù)影響。
組合模型是近年來時(shí)間序列預(yù)測(cè)精度要求提高后提出來的一種預(yù)測(cè)方法,它是單一模型的延伸,也可以說是一種新型的預(yù)測(cè)方法。但也不能亂用,比如說,加權(quán)平均模型,當(dāng)各個(gè)模型都正向偏離時(shí),組合就不能比單一模型更加精確。再說,如果作為支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等機(jī)器的輸入單元以及不準(zhǔn)備,那么進(jìn)行仿真實(shí)現(xiàn)后的數(shù)據(jù)也會(huì)不準(zhǔn)備,而對(duì)線性預(yù)測(cè)加非線性預(yù)測(cè)這個(gè)組合模型,非線性部分,作者持有一定的懷疑,因?yàn)榻?jīng)過ARIMA預(yù)測(cè)出來的時(shí)間序列值與真實(shí)值的差,也就是殘差學(xué)列,其走勢(shì)波動(dòng)并沒有特定的規(guī)律性,也就是說其很隨機(jī)性很強(qiáng),用前5期殘差來預(yù)測(cè)本期的殘差,跟實(shí)際殘差可能相差很大,這就導(dǎo)致預(yù)測(cè)結(jié)果反而更不準(zhǔn)確。
從本文的三種組合模型比較可以看出用時(shí)間序列ARMA模型擬合線性部分,用創(chuàng)新統(tǒng)計(jì)理論擬合殘差部分,再兩者相加得到預(yù)測(cè)結(jié)果可能是一種不錯(cuò)的組合模型,可以對(duì)很多時(shí)間序列加以運(yùn)用。至于另外兩類組合,應(yīng)該再次實(shí)踐,加以證實(shí)。但不可否認(rèn),三種組合模型都比單一的模型更加準(zhǔn)確,這也是現(xiàn)階段組合模型開始引人關(guān)注的一個(gè)原由。至于組合的方式以及用新的單一模型來組合,能使預(yù)測(cè)更加精確,這將是后面的一個(gè)研究方向。
[1]馬超群,蘭秋軍,陳為民.金融數(shù)據(jù)挖掘[M].北京:科學(xué)出版社,2007.
[2]謝識(shí)予,朱弘鑫.高級(jí)計(jì)量經(jīng)濟(jì)學(xué)[M].上海:復(fù)旦大學(xué)出版社,2005.
[3]易丹輝.數(shù)據(jù)分析與EViews應(yīng)用[M].北京:中國人民大學(xué)出版社,2008.
[4]沈巍.股票價(jià)格預(yù)測(cè)模型研究[J].財(cái)經(jīng)問題研究,2009(7).
[5]Ping-Feng Pai,Chih-Sheng Lin.A hybrid ARIMA and support vector machines model in stock price forecasting[J].2005(33).
[6]任海軍,孫瑞志,劉廣利.基于AR-SVR模型的時(shí)間序列預(yù)測(cè)算法的研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2010(2).
[7]林慧君,徐榮聰.組合ARMA與SVR模型的時(shí)間序列預(yù)測(cè)[J].計(jì)算機(jī)與現(xiàn)代化,2009(8).
[8]盛艷波.基于AR神經(jīng)網(wǎng)絡(luò)和ARIMA組合模型測(cè)浙江省人均國內(nèi)生產(chǎn)總值[J].商業(yè)研究,2006(8).
[9]張防,周宗放.基于ARIMA模型和BP神經(jīng)網(wǎng)絡(luò)的銷售組合預(yù)測(cè)研究[J].管理學(xué)家,2009(7).
F830.91
A
1673-1999(2012)04-0085-03
胡俊(1986-),男,安徽黃山人,安徽財(cái)經(jīng)大學(xué)(安徽蚌埠 233000)碩士研究生;桂霏(1987-),女,安徽池州人,安徽財(cái)經(jīng)大學(xué)碩士研究生。
2011-12-01