陳磊,何國輝(五邑大學(xué) 計(jì)算機(jī)學(xué)院,廣東 江門 529020)
C4.5算法在期貨價(jià)格預(yù)測(cè)中的應(yīng)用
陳磊,何國輝
(五邑大學(xué) 計(jì)算機(jī)學(xué)院,廣東 江門 529020)
期貨價(jià)格預(yù)測(cè)對(duì)投資者進(jìn)行理性投資和規(guī)避投資風(fēng)險(xiǎn)具有重要指導(dǎo)作用,為了獲得較好的預(yù)測(cè)效果,本文通過應(yīng)用C4.5決策樹算法對(duì)相關(guān)期貨數(shù)據(jù)進(jìn)行訓(xùn)練,并通過建立決策樹模型進(jìn)行價(jià)格預(yù)測(cè).實(shí)驗(yàn)表明所建立的預(yù)測(cè)模型能有效預(yù)測(cè)期貨行情,具有一定的參考和應(yīng)用價(jià)值.
C4.5算法;決策樹;期貨預(yù)測(cè)
隨著大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)挖掘技術(shù)開始在各行業(yè)得到廣泛應(yīng)用.把數(shù)據(jù)挖掘技術(shù)應(yīng)用到期貨預(yù)測(cè)中,對(duì)投資者分析期貨行情、規(guī)避投資風(fēng)險(xiǎn)、進(jìn)行套期保值等具有重要意義[1-2].鑒于決策樹方法可以生成便于理解的規(guī)則等優(yōu)點(diǎn),本文選擇C4.5算法進(jìn)行期貨預(yù)測(cè).與ID3等算法相比,C4.5算法能夠直接處理期貨連續(xù)屬性;其次,通過剪枝操作,C4.5算法較ID3等算法具有更高的執(zhí)行速度,在大量期貨數(shù)據(jù)的環(huán)境下,能夠縮短預(yù)測(cè)時(shí)間.
1.1 期貨數(shù)據(jù)的特征
期貨數(shù)據(jù)主要有以下特征:
1)模糊性.期貨數(shù)據(jù)的模糊性特征是指影響期貨價(jià)格的因素十分復(fù)雜,具有不確定性.如期貨數(shù)據(jù)受供求關(guān)系、經(jīng)濟(jì)周期、政治政策、投機(jī)心理等諸多因素影響.
2)數(shù)據(jù)量大.期貨數(shù)據(jù)是一種時(shí)序數(shù)據(jù),其數(shù)據(jù)量隨時(shí)間推移而不斷增加,平均每幾秒鐘就產(chǎn)生一次臨時(shí)數(shù)據(jù),積累下來的數(shù)據(jù)量相當(dāng)龐大.
3)連續(xù)性.許多期貨數(shù)據(jù)取值往往都是變動(dòng)的數(shù)字,具有連續(xù)性的特征.
1.2 C4.5算法
C4.5算法是一種常用的數(shù)據(jù)挖掘方法,它采用信息增益率作為屬性選擇標(biāo)準(zhǔn).即,算法首先選取具有最大信息增益率的屬性作為分裂的根節(jié)點(diǎn),再逐步迭代生成其他樹節(jié)點(diǎn),直至生成整棵決策樹.
C4.5算法的優(yōu)點(diǎn):1)對(duì)訓(xùn)練數(shù)據(jù)要求不嚴(yán)格[3],相比其他算法,不需要擔(dān)心離群點(diǎn)和數(shù)據(jù)是否線性可分,即使期貨歷史數(shù)據(jù)具有模糊性特征,也能通過大量的歷史數(shù)據(jù)訓(xùn)練生成預(yù)測(cè)模型;2)執(zhí)行速度快[4],能應(yīng)對(duì)數(shù)據(jù)量巨大帶來的挑戰(zhàn),且無需相關(guān)應(yīng)用領(lǐng)域的專業(yè)知識(shí),生成的規(guī)則易于表達(dá)和理解;3)C4.5算法能夠直接處理連續(xù)型數(shù)據(jù).
如表1所示,期貨原始數(shù)據(jù)項(xiàng)主要包括合約種類、開盤價(jià)、收盤價(jià)、最高價(jià)、最低價(jià)、漲跌1、結(jié)算價(jià)、漲跌2、交易日期、持倉量、成交量等屬性.使用C4.5算法進(jìn)行期貨數(shù)據(jù)挖掘,必須先對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理.期貨數(shù)據(jù)的預(yù)處理過程包括屬性選擇和屬性規(guī)約兩個(gè)步驟.
表1 原始數(shù)據(jù)格式
2.1 屬性選擇
由于合約種類對(duì)同種期貨取值都相同,對(duì)訓(xùn)練無參考價(jià)值,故可刪去;開盤價(jià)和收盤價(jià)為交易日第一筆交易和最后一筆交易的價(jià)格,由于主觀性太大且存在故意操縱,也不具有挖掘價(jià)值;最高價(jià)和最低價(jià)雖能看出當(dāng)日期貨峰值,但期貨數(shù)據(jù)波動(dòng)太快,處于峰值的點(diǎn)通常是極少數(shù),對(duì)整體走勢(shì)的影響甚微,故不予考慮;同樣,漲跌1是由收盤價(jià)計(jì)算得出的,取值為收盤價(jià)減去前結(jié)算價(jià),而因?yàn)槭毡P價(jià)的主觀性大,故漲跌1也應(yīng)刪除.漲跌2為結(jié)算價(jià)減去前結(jié)算價(jià),由于結(jié)算價(jià)取自最后交易時(shí)間段內(nèi)的平均交易價(jià)格,能較好反應(yīng)市場(chǎng)行情,可信度大,故選取結(jié)算價(jià)和漲跌2作為訓(xùn)練屬性;交易日期、持倉量和成交量均是反映市場(chǎng)動(dòng)態(tài)最有價(jià)值的數(shù)據(jù)[5-6],也應(yīng)保留.故選擇建表的數(shù)據(jù)項(xiàng)包括交易日期、結(jié)算價(jià)、漲跌2、成交量、持倉量,其中日期屬性為參考屬性,不參與決策樹的訓(xùn)練.
2.2 屬性規(guī)約
為表征未來期貨數(shù)據(jù)的走勢(shì),引入走勢(shì)屬性,它是決策樹的類別屬性,分為3部分:前綴、主體和后綴.前綴為下期漲跌,主體為下期結(jié)算價(jià)區(qū)間,后綴為期貨種類.有關(guān)約定如下:
約定1:前綴的約定.設(shè)期貨下一交易日的漲跌2屬性為p,當(dāng) p ∈ [ 40, + ∞ ),前綴約定為A;當(dāng) p ∈ [ 10, 40 ),約定為B;當(dāng) p ∈(- 10,10),約定為C;當(dāng) p ∈(-4 0,- 1 0],約定為D;當(dāng) p ∈(- ∞,- 4 0],約定為E.
約定2:主體的約定.主體部分約定為取四位結(jié)算價(jià)的前兩位,如結(jié)算價(jià)不足四位的,前面用零填充后自動(dòng)補(bǔ)齊到四位.如下期結(jié)算價(jià)為3639,主體約定為36,表征的取值區(qū)間為[3600, 3 6 99);下期結(jié)算價(jià)為920,則先填零補(bǔ)齊到0920,再轉(zhuǎn)換為09,表征的取值區(qū)間為[900, 99 9 ).
約定3:后綴的約定.分別約定雞蛋期貨、玉米期貨、豆粕期貨、金期貨、銀期貨、銅期貨、鋁期貨的后綴為E、C、M、J、Y、T、L.
按照上述處理方式,表1數(shù)據(jù)規(guī)約后的格式如表2所示.
表2 表1數(shù)據(jù)規(guī)約后的格式
實(shí)驗(yàn)選取雞蛋期貨jd1601在2015年1到5月的數(shù)據(jù)預(yù)測(cè)6月的期貨走勢(shì).具體過程是:首先選取jd1601在1到5月的期貨數(shù)據(jù)通過Weka[3]數(shù)據(jù)挖掘工具進(jìn)行訓(xùn)練,生成決策樹模型(見圖1),圖中葉子結(jié)點(diǎn)如“C40E(3.0/2.0)”表示有3個(gè)樣本數(shù)據(jù)被分到C40E類中,其中有2個(gè)是錯(cuò)誤分類,圖中的非葉子結(jié)點(diǎn)jsj、zd2、cjl、ccl分別表示結(jié)算價(jià)、漲跌2、成交量、持倉量4個(gè)屬性.
圖1 決策樹模型
建立決策樹模型后,用該模型對(duì)6月的期貨數(shù)據(jù)進(jìn)行預(yù)測(cè),預(yù)測(cè)內(nèi)容包括期貨價(jià)格的取值區(qū)間(走勢(shì)屬性的主體部分),和期貨的漲跌(走勢(shì)屬性的前綴).圖2-a和圖2-b分別對(duì)應(yīng)價(jià)格取值區(qū)間預(yù)測(cè)和漲跌預(yù)測(cè),在圖2-b中,價(jià)格漲跌的取值,分別按A、B、C、D、E取值為1、2、3、4、5,取值大于3的值位于圖2-b上方,小于則位于下方.
圖2 預(yù)測(cè)結(jié)果
從圖2-a中可以看出,在價(jià)格取值區(qū)間上,除了6月12日、17日、19日3天的期貨價(jià)格取值區(qū)間沒有準(zhǔn)確預(yù)測(cè)外,其余18個(gè)交易日的均預(yù)測(cè)成功,預(yù)測(cè)準(zhǔn)確率為85.7%(18/21).
再觀察圖2-b,發(fā)現(xiàn)期貨漲跌預(yù)測(cè)有喜有憂,喜的是除了交易日6月19日外,所有上漲的交易日均被準(zhǔn)確預(yù)測(cè)到,憂的是多數(shù)的下跌交易日沒有被預(yù)測(cè)到,這種現(xiàn)象可能與6月的雞蛋現(xiàn)貨市場(chǎng)環(huán)境有很大關(guān)系[7-8].
本文從期貨數(shù)據(jù)特征的分析著手,選取C4.5算法對(duì)期貨價(jià)格進(jìn)行預(yù)測(cè),通過對(duì)期貨數(shù)據(jù)的預(yù)處理,構(gòu)建決策樹模型,最終對(duì)期貨行情進(jìn)行了有效預(yù)測(cè),具有一定的應(yīng)用價(jià)值和借鑒意義.下一步工作將考慮增加某些表征市場(chǎng)因素的訓(xùn)練屬性到期貨預(yù)處理過程中,以進(jìn)一步提高算法的預(yù)測(cè)能力.
[1]陸瑤.辯證角度下金融時(shí)間序列數(shù)據(jù)挖掘研究——以期貨市場(chǎng)為例[J].中國管理信息化,2015,18(20):117.
[2]鄒廣華.基于關(guān)聯(lián)規(guī)則的期貨交易信息數(shù)據(jù)挖掘[D].上海:上海海事大學(xué),2005.
[3]IAN H W,EIBE F,MARK A H.數(shù)據(jù)挖掘:實(shí)用機(jī)器學(xué)習(xí)工具與技術(shù)[M].李川,譯.北京:機(jī)械工業(yè)出版社,2014.
[4]MEHMED K.數(shù)據(jù)挖掘—概念、模型、方法和算法[M].王曉海,吳志剛,譯.北京:清華大學(xué)出版社.2003: 121-125.
[5]陳浩.股指期貨成交量、持倉量、波動(dòng)率與價(jià)格關(guān)系探究及應(yīng)用[J].中國證券期貨,2010(9):9-10.
[6]馮夢(mèng)黎,馬箐箐.我國燃油期貨市場(chǎng)成交量和持倉量對(duì)價(jià)格波動(dòng)的影響研究[J].成都理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2014,22(3):63-68.
[7]李凱,張傳奇,馬俊宇,等.我國雞蛋期貨與現(xiàn)貨價(jià)格關(guān)系的實(shí)證研究[J].價(jià)格理論語實(shí)踐,2014(6):99-101.
[8]祝青.國外貨幣市場(chǎng)部分期貨產(chǎn)品價(jià)格波動(dòng)與成交量動(dòng)態(tài)關(guān)系的實(shí)證分析[J].調(diào)研世界,2010(10):15-18.
[責(zé)任編輯:韋 韜]
Application of the C4.5 Algorithm in Futures Forecasting
CHEN Lei,HE Guo-hui
(School of Computer Science,Wuyi University,Jiangmen 529000,China)
Futures price forecasting is important to guiding investors in rational investment and investment risk avoidance.In order to obtain better prediction effect,this paper uses the C4.5 decision tree algorithmto train relevant futures data and forecasts prices by constructing a decision tree model.Experimental results show that the prediction model can be used to forecast the futures market effectively.Therefore it is of certain reference and application value.
C4.5 algorithm;decision tree;futures forecasting
TP391
A
1006-7302(2016)03-0067-04
2016-03-02
廣東省自然科學(xué)基金資助項(xiàng)目(S2013010013311);廣東省特色創(chuàng)新類資助項(xiàng)目(2015KTSCX145)
陳磊(1991—),男,廣東江門人,在讀碩士生,研究方向?yàn)閿?shù)據(jù)挖掘與機(jī)器學(xué)習(xí);何國輝,教授,碩士生導(dǎo)師,通信作者,研究方向?yàn)閿?shù)據(jù)倉庫與數(shù)據(jù)挖掘、大數(shù)據(jù)技術(shù).