李崢嶸 韋增欣 祝人杰
[摘? ? 要] 股票市場的復雜性和非線性性,使得股票趨勢預測成為一個比較棘手的問題。文章通過分析不同特征和不同樣本點對模型預測的影響差異,將Relief算法與加權支持向量機(WSVM)相結合對股票價格的漲跌進行預測研究,以華蘭生物(002007)等股票為實驗對象,驗證了Reief-WSVM模型在股票漲跌預測中的可行性和準確性。
[關鍵詞] 加權支持向量機;Relief算法;股票趨勢;特征加權
1? ? ? 引? ? 言
隨著我國經(jīng)濟建設的發(fā)展、金融市場的完善,越來越多投資者選擇購買股票作為自己的投資方式。如何把握股票的價格趨勢、進行有效的股票投資管理、提高股票投資效率是投資者獲得超額收益的關鍵問題。股票市場中的金融規(guī)律復雜,影響因素眾多,其非線性、非平穩(wěn)、高噪聲等特性使得股票預測充滿了困難和挑戰(zhàn)。在傳統(tǒng)的金融分析和理論中,所采用的決策模型較為容易理解和解釋,但預測效果往往與實際偏差較大。隨著機器學習、數(shù)據(jù)挖掘領域的發(fā)展,金融數(shù)據(jù)挖掘技術的應用從某種意義上來說可以突破這些限制,得到更貼近現(xiàn)實的預測效果。
支持向量機在解決分類和回歸等機器學習問題方面有很好的效果,許多學者在將支持向量機應用于股票預測這個方向進行了深入研究。張玉川[1]等結合股票市場上流行的幾種技術指標,應用支持向量機對個股的價格漲跌進行預測分析。Lean Yu[2]等人提出了一種基于混合核的最小二乘支持向量機并應用于股票趨勢預測。張偉[3]等將支持向量機和遺傳算法結合,對RBF參數(shù)和特征集的選擇進行了優(yōu)化。
然而,支持向量機進行訓練分類時,不同的樣本點對最優(yōu)超平面的學習有著不同影響,數(shù)據(jù)集可能會出現(xiàn)野點或噪聲對分類帶來不好的影響,各個特征對股票趨勢預測的貢獻影響也不盡相同。為提升預測效果,本文將加權支持向量機(WSVM)與Relief算法相結合,在考慮樣本距離加權的同時,利用Relief算法求出各個特征在分類中的影響程度,即各自權值。然后把帶權值的特征輸入到支持向量機中進行訓練,對股票價格趨勢進行預測。
2? ? ? 原理與方法
2.1? ?加權支持向量機
支持向量機的基本思想是尋找一個滿足分類要求的最優(yōu)分類超平面,使得該超平面在保證分類精度的同時,能夠使超平面兩側的空白趨于最大化。為了降低數(shù)據(jù)集中野點或噪聲的影響,根據(jù)樣本點對本類別的相對重要性,考慮給野點安排一個比較低的權重,以降低野點對整個訓練誤差的影響。對于給定訓練集:{(x1,y1),(x2,y2),…,(xN,yN)},其中x∈Rn,y∈{-1,1},在本研究中y=1記為正類代表股價上漲,即后一天收盤價比前一天收盤價高;y=-1記為負類代表股價下跌,即后一天收盤價比前一天收盤價低。
2.2? ?Relief算法
Relief[5]是由Kira和Rendell于1992年提出的一種基于樣本學習的特征權重計算算法,是過濾式特征選擇算法中的一種。該算法通過考察特征在同類近鄰樣本和異類近鄰樣本間的差異來度量特征的區(qū)分能力。若某個特征在同類樣本間差異小,在異類樣本間差異大,則該特征具有較強的區(qū)分能力。假設每個樣本包含k個特征,即xi={xi1,xi2,…,xik},由于股票數(shù)據(jù)的特征為數(shù)值型,則兩個樣本xi和xj在特征t上的差定義為:
其中maxt和mint分別為特征t在樣本集中的最大值和最小值,1≤i≠j≤N,1≤t≤k。算法首先從樣本集中隨機選擇一個樣本xi,從正類和異類樣本中各選擇一個距離xi最近的樣本,與xi同類的樣本稱為Near Hit用Hi表示,與xi異類的樣本稱為Near Miss用Mi表示。根據(jù)式(4)更新特征t的權重wt,其中r表示抽樣次數(shù)
由式(4)可知,若樣本xi與Hi在某個特征上的距離小于xi與Mi的距離,則該特征異類間差異大而同類間差異小。特征的權重越大,表示該特征的類別區(qū)分能力越強,若權重為負,則表示該特征的類別區(qū)分能力較弱。
傳統(tǒng)SVM方法在數(shù)據(jù)預處理后便直接進行模型訓練,未考慮不同樣本和特征對最優(yōu)分類面的學習存在不同貢獻。本文將Relief算法與加權支持向量機相結合,在進行模型訓練前,使用Relief算法計算特征權重以增大不同類特征向量的差異性,并根據(jù)不同樣本點對其類別的相對重要性計算其距離權重以降低野點或噪聲的影響,進而提升模型預測的準確率。
3? ? ?實證分析
3.1? ?樣本選取與數(shù)據(jù)預處理
本文選取華蘭生物(002007)、科大訊飛(002230)、華夏銀行(600015)、上汽集團(600104)這4支不同行業(yè)的股票數(shù)據(jù)作為實驗對象,數(shù)據(jù)來源于東方財富旗下金融數(shù)據(jù)平臺——Choice金融終端。時間跨度為2017年1月1日至2017年12月31日244個交易日的數(shù)據(jù),其中前80%個數(shù)據(jù)作為訓練集,后20%個數(shù)據(jù)作為測試集,在MATLAB R2017a環(huán)境下,借助LIBSVM工具箱進行數(shù)值實驗。
選取股票的開盤價、最高價、最低價、收盤價、漲跌幅、成交量、換手率、振幅、5日移動平均線(MA5)、異同移動平均線(MACD)、6日相對強弱指數(shù)(RSI6)、隨機指標(KDJ_K、KDJ_D、KDJ_J)、6日乖離率(BIAS6)、心理線PSY作為數(shù)據(jù)特征(輸入變量),股票每日的漲跌趨勢作為預測目標(輸出變量)。由于各個特征量的計算方式不同,特征量之間存在的數(shù)量差異會使得運算過程復雜并導致大值特征主導預測模型的不利情況,為了消除這些不利影響,本文采用公式(5)對特征量進行歸一化處理。
3.2? ?模型訓練
總結以往研究發(fā)現(xiàn),RBF核函數(shù)在非線性擬合方面具有較好效果,因此本文選用RBF核函數(shù)作為WSVM的核函數(shù),用基于10折交叉驗證的網(wǎng)格搜索法對懲罰參數(shù)C和核函數(shù)參數(shù)g進行參數(shù)尋優(yōu)。
在Relief算法中,隨機選取樣本200個,不設閾值,將主程序運行40次,計算特征權重的平均值作為最終權值,把權值組成權值向量,與其相對應的特征一起送入支持向量機進行模型訓練。以華蘭生物(002007)為例,經(jīng)過Relief算法計算,每次循環(huán)中各個特征的權值分布如圖2所示,最終求得各個特征的平均權值柱形圖如圖3所示。
從圖3中可以看出漲跌幅的權重最大,其次是RSI6、BIAS6、PSY、MACD和KDJ_J這幾個特征權重較大,這些特征對類別有較好的區(qū)分能力。成交量、換手率、振幅這幾個特征的權重為負值,這些特征對類別的區(qū)分能力相對較弱。預測結果與實際可能出現(xiàn)的情況如表1所示。
本文采用分類模型常用的性能評價指標預測準確率(Accuracy)來衡量模型效果,計算方法如式(6)。
3.3? ?結果分析
用訓練好的模型對華蘭生物(002007)等4支股票進行預測,為了驗證本文提出模型的優(yōu)劣性,以常見的預測模型SVM、WSVM和BP神經(jīng)網(wǎng)絡作為參照模型進行對比,預測準確率如表2所示。
由表2可以看出,Relief-WSVM模型的預測準確率均達到70%以上且均比參照模型的準確率高。為避免單只股票的隨機性,本文選取了不同行業(yè)的4支股票進行對比實驗,預測準確率均有一定提高。這也同時說明本文的改進是有效的,本模型可以幫助投資者更好地判斷股票趨勢的拐點。
4? ? ? 小? ? 結
本文考慮到不同特征和不同樣本點對模型效果的影響不同,將Relief與WSVM進行結合并應用于股票價格漲跌預測中,并通過華蘭生物(002007)等股票進行實證分析,驗證了該模型的準確性和有效性。股票市場受宏觀、微觀各方面因素影響,復雜性很高,本文選取的是單個核函數(shù)中性能表現(xiàn)較好的RBF核函數(shù),在進一步的研究中可考慮引入混合核對模型做改進以進一步提高預測準確率。
主要參考文獻
[1]張玉川,張作泉.支持向量機在股票價格預測中的應用[J].北京交通大學學報,2007(6):73-76.
[2]Yu L,Chen H,Wang S,Lai KK.Evolving Least Squares Support Vector Machines for Stock Market Trend Mining[J]. IEEE Transactions on Evolutionary Computation,2009,13(1):87-102.
[3]張偉,李泓儀,蘭書梅,等.GA-SVM對上證綜指走勢的預測研究[J].東北師大學報:自然科學版,2012,44(1):55-59.
[4]黎金玲,李亞楠,郭海湘,等.一種加權的支持向量機及其在儲層識別中的應用[J].數(shù)學的實踐與認識,2014,44(7):39-46.
[5]王正宇,張揚帆,段向陽,等.基于Relief算法的風電機組故障特征參數(shù)提取方法[J].華北電力技術,2017(10):57-62.