裴洪文 裴錚
摘 要:本文對(duì)證券投資市場(chǎng)的數(shù)據(jù)背景進(jìn)行了分析,目前證券市場(chǎng)有近四千家上市公司,非常需要利用人工智能的方法來(lái)處理數(shù)據(jù)并對(duì)市場(chǎng)的變化趨勢(shì)作預(yù)測(cè)。對(duì)數(shù)據(jù)挖掘(獲?。┘夹g(shù)進(jìn)行了分析,同時(shí)分析了數(shù)據(jù)挖掘過(guò)程和依據(jù),研究了數(shù)據(jù)挖掘技術(shù)在證券投資市場(chǎng)上的應(yīng)用,研究了時(shí)間序列模型預(yù)測(cè)和神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型分析方法,并利用二種預(yù)測(cè)方法進(jìn)行了軟件模擬仿真,結(jié)果表明神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)比較有效。
關(guān)鍵詞:數(shù)據(jù)挖掘 ;數(shù)學(xué)模型 ;人工智能 預(yù)測(cè)
1研究背景及意義
證券投資可以實(shí)現(xiàn)資產(chǎn)增值,支持社會(huì)融資,化解供求雙方的壓力,傳遞經(jīng)濟(jì)優(yōu)化配置等功能,已成了各級(jí)政府部門、眾多企業(yè)和眾多投資者關(guān)心并積極參與的經(jīng)濟(jì)活動(dòng)。由于證券投資市場(chǎng)具有的投資收益和風(fēng)險(xiǎn)是正相關(guān)的,收益越高的投資則存在的風(fēng)險(xiǎn)也越大。近年來(lái),證券投資已經(jīng)成為人們?nèi)粘=?jīng)濟(jì)生活的一個(gè)重要組成部分,證券市場(chǎng)的漲跌對(duì)人民生活、經(jīng)濟(jì)活動(dòng)的影響日益增大,如果能有效預(yù)測(cè)證券市場(chǎng)股票價(jià)格的走勢(shì),將會(huì)對(duì)人們的投資理念、投資理財(cái)水平產(chǎn)生巨大的影響,還可以對(duì)國(guó)民經(jīng)濟(jì)的發(fā)展提供有價(jià)值的參考依據(jù)。
對(duì)證券市場(chǎng)的股票進(jìn)行預(yù)測(cè),主要利用三點(diǎn)基本假設(shè):即市場(chǎng)行為涵蓋一切信息;股價(jià)變化有趨勢(shì)可以遵循;歷史會(huì)重演。隨著股市的發(fā)展,人們不僅探索其內(nèi)在的有關(guān)規(guī)律,并對(duì)此進(jìn)行逐步深入的研究,同時(shí)找出了許多對(duì)股市的預(yù)測(cè)方法。但影響股票價(jià)格的因素有許多:如政策、經(jīng)濟(jì)發(fā)展?fàn)顩r、股票投資者的心理因素等,這些因素相互交織,相互影響,相互約束,股票的價(jià)格波動(dòng)表現(xiàn)出較強(qiáng)的非線性特征,僅用線性分析會(huì)產(chǎn)生較大的誤差,同時(shí)股價(jià)的變化呈現(xiàn)出隨機(jī)特性和時(shí)變特性,如何發(fā)掘股價(jià)的變化規(guī)律,是經(jīng)濟(jì)研究中的一個(gè)非常有意義的問(wèn)題。
股票的分析涉及大量的復(fù)雜數(shù)據(jù)的提取,以及大量的數(shù)據(jù)運(yùn)算,不可能單靠人工來(lái)完成獲取數(shù)據(jù),處理數(shù)據(jù),傳輸數(shù)據(jù),儲(chǔ)存數(shù)據(jù)的過(guò)程,也不可能完成這些處理過(guò)程中涉及到的大量的數(shù)據(jù)的算術(shù)和邏輯運(yùn)算。影響股票的走勢(shì)因素太多,股票市場(chǎng)中的數(shù)據(jù)含有較多的干擾因素即噪聲,在線性條件下,可以設(shè)計(jì)相應(yīng)的濾波器將這些噪聲部分清除,但在非線性條件下,難以用濾波器處理,要求股市的預(yù)測(cè)應(yīng)當(dāng)具有比較強(qiáng)大的非線性問(wèn)題的處理能力。股市的數(shù)據(jù)有時(shí)反映了投資者的主觀性,特別是投資者的心理因素影響很大,為了得到比較可靠和有效的股市模型及預(yù)測(cè)結(jié)果,人工智能的研究利用給我們提供了相應(yīng)的解決方法。
2數(shù)據(jù)挖掘分析
2.1概念
隨著國(guó)內(nèi)證券市場(chǎng)的發(fā)展,股票市場(chǎng)提供的數(shù)據(jù)越來(lái)越多,激增的數(shù)據(jù)背后含有許多重要的信息,做分析決策對(duì)數(shù)據(jù)的依賴性和敏感度也越來(lái)越也高。數(shù)據(jù)挖掘技術(shù)作為股票市場(chǎng)的分析和決策工具已經(jīng)得到越來(lái)越多的重視。
數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中 ,提取隱含在其中的、人們事先不知道的、潛在有用的信息和知識(shí)的過(guò)程。從證券市場(chǎng)應(yīng)用的角度,根據(jù)預(yù)定的分析目標(biāo),對(duì)大量的上市公司數(shù)據(jù)進(jìn)行必要的檢索,抽取和適當(dāng)?shù)姆治?,揭示這些數(shù)據(jù)隱含的變化規(guī)律,并進(jìn)一步將其模型化的先進(jìn)有效的技術(shù)過(guò)程。數(shù)據(jù)挖掘是一門交叉學(xué)科,是人工智能中一個(gè)重要技術(shù),集成了許多學(xué)科,包括數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、模型識(shí)別,人工智能、建模技術(shù)、電子技術(shù),信息技術(shù)等成熟的工具和技術(shù)。
2.2數(shù)據(jù)挖掘過(guò)程
分為定義問(wèn)題、數(shù)據(jù)的收集和預(yù)處理、數(shù)據(jù)挖掘、結(jié)果分析及知識(shí)的應(yīng)用等五個(gè)過(guò)程。
(1)定義問(wèn)題:清晰的定義出證券市場(chǎng)的問(wèn)題,確定數(shù)據(jù)挖掘的目的。
(2)數(shù)據(jù)的收集和預(yù)處理:包括數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理和數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)選擇的目的就是確定數(shù)據(jù)挖掘任務(wù)所涉及的操作數(shù)據(jù)對(duì)象;數(shù)據(jù)預(yù)處理通常包括消除噪聲、遺漏數(shù)據(jù)處理、消除重復(fù)數(shù)據(jù)、數(shù)據(jù)類型轉(zhuǎn)換等處理。
(3)數(shù)據(jù)挖掘:根據(jù)數(shù)據(jù)功能的類型和數(shù)據(jù)的特點(diǎn)選擇相應(yīng)的算法,在凈化和轉(zhuǎn)換過(guò)的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘。
(4)結(jié)果分析:對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行解釋和評(píng)價(jià),轉(zhuǎn)換成為能被證券市場(chǎng)用戶理解的知識(shí)。
(5)知識(shí)的運(yùn)用:將分析得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。
3數(shù)據(jù)挖掘技術(shù)在證券投資市場(chǎng)上的應(yīng)用
3.1數(shù)據(jù)挖掘的依據(jù)
(1)關(guān)聯(lián):證券股票市場(chǎng)與當(dāng)期的匯率變動(dòng)情況,利率變動(dòng)情況,國(guó)民經(jīng)濟(jì)的發(fā)展?fàn)顩r的關(guān)聯(lián),某一證券與該證券所屬行業(yè)板塊、所屬區(qū)域板塊及整個(gè)證券市場(chǎng)的相關(guān)分析,股價(jià)變化與關(guān)聯(lián)因素影響分析,不同地域、不同行業(yè)的股票關(guān)聯(lián)情況分析。
(2)技術(shù):對(duì)各種指標(biāo)和數(shù)據(jù)的排序、分類,研究它們具有的技術(shù)特征和影響程度,對(duì)股票價(jià)格波動(dòng)的技術(shù)指引。
(3)在線投資分析:對(duì)成交量、板塊進(jìn)行分析,對(duì)預(yù)測(cè)結(jié)果進(jìn)行驗(yàn)證,對(duì)股價(jià)的變動(dòng)規(guī)律、未來(lái)行情走勢(shì)做分類、探討不同投資結(jié)合效果,提出構(gòu)建綜合的科學(xué)方案。作出必要的收益和風(fēng)險(xiǎn)的評(píng)判。
3.2時(shí)間序列模型預(yù)測(cè)分析
通過(guò)編制和分析時(shí)間序列,根據(jù)時(shí)間序列所反映出來(lái)的發(fā)展過(guò)程、方向和趨勢(shì)、進(jìn)行類推和延伸。從歷史各個(gè)時(shí)間間隔的股票價(jià)格漲跌、交易量變動(dòng)的交叉信息中,分析出大眾的投資心理和投資趨向。
用T來(lái)表示長(zhǎng)期趨勢(shì)值,用S表示季節(jié)變動(dòng)值,用I來(lái)表示不規(guī)則變動(dòng)值,可以用兩種方法計(jì)算未來(lái)的時(shí)間序列預(yù)測(cè)值Y:
加法模式Y(jié)=T+S+I
乘法模式Y(jié)=T×S×I
在股票預(yù)測(cè)常用的時(shí)間序列分析法主要利用建立自回歸模型AR,移動(dòng)平均模型MA,自動(dòng)回歸和移動(dòng)平均模型ARMA和齊次非平穩(wěn)模型ARMA,通過(guò)選擇模型的參數(shù)和辨識(shí)模型的系數(shù)來(lái)實(shí)現(xiàn)對(duì)時(shí)間序列擬合的模型預(yù)測(cè)。
3.3神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)分析
(1)人工神經(jīng)元模型
4結(jié)論
本文利用數(shù)據(jù)挖掘方法中的時(shí)間序列分析方法及神經(jīng)網(wǎng)絡(luò)分析方法對(duì)同一股票,同一板塊股票進(jìn)行了預(yù)測(cè)。利用SQL平臺(tái)建立時(shí)間序列預(yù)測(cè)模型和神經(jīng)網(wǎng)絡(luò)模型。對(duì)預(yù)測(cè)結(jié)果進(jìn)行了對(duì)比,時(shí)間序列分析基本上能夠預(yù)測(cè)出當(dāng)時(shí)的收盤價(jià)走勢(shì),預(yù)測(cè)的二十只股票,有五只誤差在5%以內(nèi),有七只誤差在10%以內(nèi),其余在10%以上,而利用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)分析的二十只股票有八只誤差在5%以內(nèi),有十只誤差在10%以內(nèi),其余超過(guò)10%??梢园l(fā)現(xiàn)時(shí)間序列預(yù)測(cè)方法相對(duì)較簡(jiǎn)單,利用的算法比較直觀,但由于該算法的特點(diǎn),預(yù)測(cè)誤差有些大。人工神經(jīng)網(wǎng)絡(luò)方法預(yù)測(cè)結(jié)果相對(duì)較好,缺點(diǎn)是運(yùn)算量過(guò)大,算法較復(fù)雜。
隨著云計(jì)算、大數(shù)據(jù)及人工智能技術(shù)的發(fā)展,利用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)變得越來(lái)越方便,越來(lái)越精準(zhǔn),越來(lái)越有效。神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)技術(shù)將會(huì)更有發(fā)展前景。
參考文獻(xiàn) :
[1]鄧松,李文敬等.數(shù)據(jù)挖掘原理與SPSS Clementine應(yīng)用寶典[M] .北京:電子工業(yè)出版社 2009;
[2]廖芹,郝志峰等.數(shù)據(jù)挖掘與數(shù)學(xué)建模[M].北京:國(guó)防工業(yè)出版社 2010;
[3]Abarbanell,Bushee,F(xiàn)undamental analysis ,future earnings and stock prices. Journal of Accounting Research,2012 , 35(1):88-90;