侯 威
(云南財經(jīng)大學統(tǒng)計與數(shù)學學院 云南 昆明 650000)
Logistic模型在股票市場中的應(yīng)用
侯 威
(云南財經(jīng)大學統(tǒng)計與數(shù)學學院 云南 昆明 650000)
伴隨著社會經(jīng)濟的發(fā)展,及目前大數(shù)據(jù)技術(shù)在經(jīng)濟、政府統(tǒng)計、生物統(tǒng)計、信息技術(shù)等各種領(lǐng)域的廣泛應(yīng)用,人們越來越希望能夠?qū)⒋髷?shù)據(jù)的技術(shù)應(yīng)用到金融市場中去,運用大數(shù)據(jù)的方法對金融風險進行控制。本文介紹的logistic模型是回歸中的一個常用的模型,在實際生活中應(yīng)用十分廣泛。本文將logistic模型應(yīng)用到股票市場中,過去的歷史數(shù)據(jù)為基礎(chǔ),擬合logistic模型,對單只股票的漲跌進行二分類的預測。
logistic模型;股票市場;漲跌預測;逐步回歸
1.研究背景及意義
隨著社會經(jīng)濟的發(fā)展,我國的金融行業(yè)正進入了一個飛速發(fā)展的時代,隨著社會財富的增加和人們理財意識的提高,越來越多的人愿意把自己的錢進行投資,而股票也是人們投資的一個工具之一。隨著股票市場的不斷完善,以及數(shù)據(jù)規(guī)模的擴大,越來越多的人開始進行量化投資,即利用各種各樣的數(shù)據(jù)、指標去預測金融市場的走向,并以此為基礎(chǔ)進行投資。
Logistic模型作為回歸中的二分類模型,在股票市場上的應(yīng)用例子并不多。本文以個股的行情數(shù)據(jù)為基礎(chǔ),運用logistic模型對股票進行漲跌預測,希望做到規(guī)避風險的目的。
2.寫作思路及步驟
本文嘗試將logistic二分類模型運用到股票市場當中去,對個股進行漲跌預測,使用wind金融資訊軟件進行數(shù)據(jù)的提取,用R語言軟件對數(shù)據(jù)進行處理和模型擬合。
首先,下載了wind金融資訊軟件,利用wind金融資訊軟件的R處理接口,嘗試與R軟件進行對接,直接在R中即可獲取wind金融資訊軟件中的各種數(shù)據(jù)。
其次,獲取數(shù)據(jù)后,在R中對數(shù)據(jù)進行處理,分成訓練組和測試組,將某天漲跌幅大于等于0的數(shù)據(jù)定義為1,漲跌幅小于0的定義為0,用t期數(shù)據(jù)擬合logistic模型,去預測t+1期的漲跌。
再次,對模型進行評價,修改模型,得到最終的logistic預測模型,再利用測試組的數(shù)據(jù)對模型預測的準確率進行評估。
本文選取了股票市場個股的基本行情指標,包括有開盤價、最高價、最低價、收盤價、成交量、成交額、振幅、均價、換手率、尾盤凈流入資金、開盤凈流入資金、凈流入資金、凈流入量和漲跌等14個指標。通過這些指標可以較為全面地反映個股在股票市場上的表現(xiàn)。
1.數(shù)據(jù)提取
本文的相關(guān)數(shù)據(jù)都是通過wind金融資訊軟件提取,通過該軟件的R插件接口,對接上統(tǒng)計分析軟件R軟件,再用R軟件進行數(shù)據(jù)的提取。
在本文中,提取了股票代碼為600152.SH的股票,從2014年1月份開始到2015年12月25號的數(shù)據(jù)。
2.數(shù)據(jù)清洗
得到600152.SH代碼的股票485期原始數(shù)據(jù)后,需要對數(shù)據(jù)進行數(shù)據(jù)清洗。首先,將t+1期漲跌幅大于等于0的t期因變量y設(shè)置為1,將t+1期漲跌幅小于0的t期因變量y設(shè)置為0,即用t期的數(shù)據(jù)預測t+1期的漲跌。其次,將數(shù)據(jù)的y指標整理為當前期數(shù)t+1期的漲跌幅。再次,將455期以前的數(shù)據(jù)定為訓練組數(shù)據(jù),455期之后的30期數(shù)據(jù)為測試組數(shù)據(jù)。
3.模型估計
對于logistic模型只能用極大似然法進行估計。在處理上,首先直接把14個自變量納入模型,經(jīng)極大似然估計得出的系數(shù)存在較大的標準誤差,且部分指標不能通過統(tǒng)計檢驗。再通過逐步回歸的方法,找到AIC信息量最小的回歸。
逐步回歸結(jié)果可以確定引用模型中的變量個數(shù)為4個,AIC值為618.68,引入的變量分別為最高價、最低價、凈流入資金和均價。
4.模型檢驗
對原始模型和篩選完變量后的模型Model 10進行方差分析,結(jié)果顯示,方差分析的卡方統(tǒng)計量的值不顯著(p=0.6234),表明只引入4個變量的模型與全變量的模型擬合程度一樣好,減少其余10個變量并不會影響模型的預測精度,因此可以依據(jù)更加精簡的模型Model 10進行解釋。
用模型的殘差偏差與殘差自由度進行過度離勢檢驗,結(jié)果顯示,卡方統(tǒng)計量的p值為0.3895,顯然不顯著,不能拒絕殘差偏差與殘差自由度等于1的原假設(shè),故可認為該模型的相應(yīng)變量并不存在過度離勢的情況。
似然比檢驗LR統(tǒng)計量的結(jié)果表明統(tǒng)計顯著性很強,可認為模型通過了LR檢驗,拒絕了模型系數(shù)為0的假設(shè),可認為自變量提供的信息是有用的。
對于logistic模型,估計未知總體參數(shù)時主要采用的是極大似然估計。本文中使用極大似然法對模型參數(shù)進行估計,并用Wald檢驗法對參數(shù)進行檢驗,結(jié)果顯示,可以看出各參數(shù)均顯著。
表1 極大似然估計和Wald檢驗
基于上述分析與測算,可得出logistic回歸分析方程為:
自變量分別為:HIGH最高價,LOW最低價,AMT成交額,VWAP均價。
模型解釋:可以看到,最高價增加一個單位,漲跌的優(yōu)勢比將乘以0.2088,最低價增加一個單位,漲跌的優(yōu)勢比將乘以0.2403,成交額增加一個單位,張得的優(yōu)勢比將乘以1,當均價增加一個單位的時候,將會引起漲跌優(yōu)勢比變?yōu)樵瓉淼?0.7641倍。這可以認為,對漲跌比影響最大的因素就是均價,而均價是證券在交易日所在指定周期內(nèi)所有成交額與所有成交量之比。因此,我們在今后的證券價格預測研究中可以重點關(guān)注這個指標。
[1]孫磊平.數(shù)據(jù)挖掘方法在股票分析中的應(yīng)用與研究[D].西南財經(jīng)大學,2013
[2]肖朝勝.股市危機預警系統(tǒng)研究[D].西南交通大學,2008
[3]于立勇,詹捷輝.基于Logistic回歸分析的違約概率預測研究[J].財經(jīng)研究,2004
[4]張韜.基于非參數(shù)統(tǒng)計的程序化交易策略研發(fā)報告[D].浙江工商大學,2013
[5](美)卡巴科弗.R語言實戰(zhàn)[M].人民郵電出版社,2013.1
侯威(1992-),男,漢族,河南許昌人,云南財經(jīng)大學統(tǒng)計與數(shù)學學院,研究方向:經(jīng)濟統(tǒng)計。