楊曉婷 燕山大學理學院
基于貝葉斯模型的股票預測
楊曉婷 燕山大學理學院
運用樸素貝葉斯分類的方法對股票進行分類預測,對相應類別的股票給出了投資建議。首先,對160個觀測15個屬性的股票數據運用離差標準化方法進行處理消除了數據之間的不齊性。其次,利用主成分分析對對離差標準化后的數據進行降維處理,使原始數據從15個指標變量縮減到5個指標變量。最后,對降維后的數據運用樸素貝葉斯分類法進行分類,構建出了相應的樸素貝葉斯分類器。
離差標準化 主成分分析 樸素貝葉斯分類 股票預測
近年來我國的股票產業(yè)發(fā)展迅猛,股票作為證券和金融領域無法替代的重要元素,也逐漸在投資領域占有自己的一席之地,吸引著越來越多投資人的關注,大到金融巨頭,小到市民散戶,無不時刻關注著中國股市的動向態(tài)勢。因此,對股票市場行情變化的有效分析和建立準確的預測模型可以為投資者提供合理的投資方案具有重要的實際價值。
借助大智慧軟件提供的年報查詢功能,論文選取了2014年中期、2014年末期、2015年中期、2015年末期四個時間段中,我國滬深兩市大數據板塊的40只股票的年報數據。選取的15個影響股票行情的財務指標分別為:基本每股收益(元)、基本每股收益(扣除后)、攤薄每股收益(元)、每股凈資產(元)、每股未分配利潤(元)、每股公積金(元)、銷售毛利率(%)、營業(yè)利潤率(%)、凈利潤率(%)、加權凈資產收益率(%)、攤薄凈資產收益率(%)、股東權益(%)、流動比率、速動比率、每股經營現金流量(元)。
離 差 標 準 化( D e v i a t i o n Standardization),是統(tǒng)計學中最普遍的處理數據的方法之一,通常目的是去掉數據之間的不齊性。一種較為簡便的計算離差標準化的方法是從現有數據中,找出最大值P和最小值Q,然后將所有的數據Xij都減去最小值Q后除以離差P -Q ,即:
主成分分析是利用降維的方法,使數量較多的各類指標變成數量較少的綜合性指標。論文運用SAS軟件編寫了相應程序,將離差標準化后的數據輸入到程序中,得出了相應的結果。
圖3-4給出了經相關系數矩陣計算出的特征值。由圖3-5中的比例可知前5個主成分的貢獻率分別為35.66%、20.37%、13.80%、8.17%、5.98%,累積貢獻率為83.99%,那么前5個主成分就包含了原數據中15個指標變量的83.99%的信息。
圖3-4 相關矩陣的特征值
圖3-5給出了所有特征值所對應的特征向量,可以計算出各個主成分的得分系數。
圖3-5 特征向量
在各個主成分的表達式中,系數的絕對值越大,則表明該主成分受這個因素的影響越大。決定第1主成分Z1的主要因素為X1和X3,決定第2主成分Z2的主要因素為X13和X14,以此類推。
論文運用MATLAB軟件編寫了相應程序,將經過離差標準化和主成分分析處理后的數據作為訓練樣本,隨機抽取的5支股票作為預測數據導入到程序中。
將所選股票分為非ST股票和ST股票兩類,其中非ST股票用“normal”表示,ST股票用“st”表示。設C1對應的類別為“normal”,C2對應的類別為“st”,我們需要進行分類的樣本為X ,那么由貝葉斯公式:
論文的MATLAB程序運行后會直接輸出預測樣本的類別屬性,據此可以對將要預測的股票樣本進行預歸類。若此股票被歸為“normal”類,那么這只股票在未來的市場中行情向好,具有一定的可投資價值;若此股票被歸為“st”類,那么這只股票未來的行情走勢并不樂觀,不建議進行投資。
[1]文文.一本書搞懂年報[M].北京:經濟科學出版社,2012:50-55
[2]賈乃光.統(tǒng)計決策論及貝葉斯分析[M].北京:中國統(tǒng)計出版社,1998:167-172
[3]唐五湘.Excel在統(tǒng)計中的應用[M].北京:電子工業(yè)出版社.2002:56-59
[4]董大軍.SAS統(tǒng)計分析應用(第二版)[M].北京:電子工業(yè)出版社,2014:164-171
[5]Ken Black. Business Statistics for Contemporary Decision Making Fourth Edition[M], 2006, (4):121-123
楊曉婷(1992- ),女,天津人,燕山大學理學院研究生在讀,研究方向:保險精算。