• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于改進(jìn)AdaBoost算法的選股模型

      2020-04-29 11:00:38超,飛,洋,
      關(guān)鍵詞:分類器權(quán)重決策

      賀 超, 吳 飛, 何 洋, 朱 海

      (上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院, 上海 201620)

      0 引 言

      隨著改革開放的不斷深入,股票市場(chǎng)呈現(xiàn)出強(qiáng)勁崛起態(tài)勢(shì),并且在高速發(fā)展的當(dāng)代中國(guó)社會(huì)扮演著重要角色。股票投資的主要目的就是在控制一定風(fēng)險(xiǎn)的前提下取得投資的最高收益。

      傳統(tǒng)的交易模式通?;谌藶榻?jīng)驗(yàn)的對(duì)MACD、BOLL和RSI等技術(shù)指標(biāo)進(jìn)行判斷,從而做出投資決策。由于大數(shù)據(jù)、云計(jì)算以及人工智能等科學(xué)技術(shù)的進(jìn)步,傳統(tǒng)的金融交易也深受影響,并且在實(shí)際量化投資領(lǐng)域運(yùn)用中取得了良好效果。一直以來,股票市場(chǎng)吸引了各界的廣泛關(guān)注與探討研究,究其原因就在于其具有各種復(fù)雜多變的指標(biāo)和觀測(cè)角度,使得投資機(jī)遇與風(fēng)險(xiǎn)并存。支持向量機(jī)(Support Vector Machine, SVM)是基于統(tǒng)計(jì)學(xué)習(xí)理論推演生成的數(shù)據(jù)挖掘技術(shù)[1],但是由于SVM對(duì)于大數(shù)量級(jí)的數(shù)據(jù)樣本的訓(xùn)練有一定的難度,而實(shí)際面臨的股市信息數(shù)據(jù)巨大,所以傳統(tǒng)的SVM方法不足以支撐大規(guī)模訓(xùn)練強(qiáng)度。

      針對(duì)股票信息受到影響波動(dòng)拐點(diǎn)較多等特點(diǎn)[2],單獨(dú)的分類或預(yù)測(cè)算法無(wú)法做到較為靈活處理的問題,經(jīng)過研究可知,AdaBoost算法通過權(quán)重結(jié)合若干個(gè)弱分類器進(jìn)行串行的學(xué)習(xí)[3],并且通過聯(lián)合權(quán)重投票機(jī)制求得最終結(jié)果。同時(shí)考慮到股票因子繁雜,受到較多因素影響,如此一來就會(huì)在樣本數(shù)據(jù)集層面上引入較多的不確定性噪聲,而AdaBoost算法對(duì)于異常值較為敏感,對(duì)于最終結(jié)果也會(huì)造成較大的影響[4],所以在訓(xùn)練階段選用了判決式的特征因子選擇方法,能夠在一定程度上剔除相關(guān)影響,與傳統(tǒng)決策機(jī)制相比[5],除了分類器自身的精度信息外,還充分利用了特征因子權(quán)重信息來輔助決策,使得整體效果得到了顯著提升。利用上述分析來研究上市公司的財(cái)務(wù)指標(biāo)與個(gè)股價(jià)格浮動(dòng)率之間的關(guān)系,從而建立選股分類模型[6]。這里對(duì)此課題擬展開研究論述如下。

      1 AdaBoost算法

      自適應(yīng)增強(qiáng)算法(Adaptive Boosting Algorithm)[7],即AdaBoost算法,其主要思想是對(duì)于股票樣本訓(xùn)練集合D={(x1,y1),(x2,y2),...,(xN,yN)},其中xi表示股票樣本的因子屬性特征,yi表示個(gè)股的輸贏率作為標(biāo)簽變量,N表示樣本個(gè)數(shù),以股票一年為時(shí)間節(jié)點(diǎn)的后復(fù)權(quán)股價(jià)漲跌幅大于HS300指數(shù)的漲跌幅取“1”,小于則取“0”,所以有Y∈{+1,-1}。在選定好弱分類器后,初始狀態(tài)下,所有樣本權(quán)重相等,根據(jù)AdaBoost思想,不斷串行迭代訓(xùn)練,并且在訓(xùn)練過程中后一個(gè)弱分類器將會(huì)著重訓(xùn)練被前一個(gè)弱分類器錯(cuò)分的樣本,最終得到加權(quán)后的最終結(jié)果[8]。此處,給出主要流程具體如下。

      輸入:(x1,y1),(x2,y2),...,(xN,yN),其中xi∈X,且yi∈Y

      初始化:W<1>=(w<1>1,w<1>2,...,w<1>N)T,w<1>i=1/N,其中i=1,2,...,N,表示第i個(gè)分類器樣本的權(quán)重分布。

      訓(xùn)練過程:

      formin range(M):

      Step1利用具有權(quán)重向量wi的訓(xùn)練數(shù)據(jù)集對(duì)弱分類器進(jìn)行訓(xùn)練,其中m表示基分類器的個(gè)數(shù),得到基分類器,可表示為公式(1):

      hm(X):x->{-1,1},

      (1)

      Step2通過hm(X)在訓(xùn)練集上的效果,計(jì)算分類誤差率,可表示為公式(2):

      (2)

      并且,若分類誤差率em≥1/2,則算法提前停止,整體構(gòu)建失敗。

      Step3為基分類器分配相應(yīng)的構(gòu)建權(quán)重系數(shù),可表示為公式(3):

      (3)

      Step4更新訓(xùn)練權(quán)重向量W=(w1,w2,...,wN)T,其中wi的數(shù)學(xué)公式可表示為:

      (4)

      (5)

      2 改進(jìn)AdaBoost算法

      2.1 判決式因子選取

      根據(jù)隨機(jī)子空間(Random Subspace Method, RSM)樹結(jié)構(gòu)采樣方法[3],主要是從整個(gè)數(shù)據(jù)集中隨機(jī)采樣得到每個(gè)子樹空間的子樣本集,每次在建立子分類器的過程中,并不是采用整個(gè)數(shù)據(jù)集作為輸入,當(dāng)數(shù)據(jù)樣本數(shù)量足夠大時(shí),通過實(shí)驗(yàn)表明,此種策略最終得到的分類結(jié)果精度要高于傳統(tǒng)的AdaBoost算法。但是,上述隨機(jī)采樣在多次采樣過程中,會(huì)出現(xiàn)某些樣本被多次重復(fù)提取,而某些樣本僅有少量的機(jī)會(huì)、甚至在建模階段未被采用的情況,這就會(huì)導(dǎo)致基分類器的多樣性受到制約。

      ar=1+log2T,

      (6)

      研究中,并不是選擇整個(gè)數(shù)據(jù)集的所有特征進(jìn)行計(jì)算,選擇基尼系數(shù)小的特征屬性作為分割點(diǎn),可表示為:

      G[g(aj(d))]=gini(d)-gini(aj(d)) ,j∈[1,T],

      (7)

      其中,gini(d)表示該節(jié)點(diǎn)分割前的基尼系數(shù),對(duì)應(yīng)的gini(aj(d))表示在節(jié)點(diǎn)d中以最佳特征屬性aj分割后的基尼系數(shù)。

      由于采取特征屬性隨機(jī)采樣的機(jī)制,就使得在構(gòu)建基分類器的過程中會(huì)出現(xiàn)某些特征屬性被多次采取的情況,而在樣本個(gè)數(shù)相同的前提條件下,從特征屬性采樣的角度來分析,就勢(shì)必造成了數(shù)據(jù)的不均衡,因此當(dāng)所在基分類器建成后,對(duì)于被多次選擇的特征屬性aj,可進(jìn)行如下處理:

      (8)

      其中,ns(aj)表示選擇特征屬性aj的次數(shù),μ(G[g(aj(d))]) 表示其均值,在子決策樹中選擇所有G[g(aj(d))]和其對(duì)應(yīng)的m個(gè)特征屬性(m≤T),可推導(dǎo)計(jì)算出整體對(duì)應(yīng)的均值μ(G(g))和標(biāo)準(zhǔn)差σ(G(g)),并且如果μ(G(g))和σ(G(g))之間的差值是正數(shù),則提高特征屬性aj的權(quán)重,反之減少其對(duì)應(yīng)的權(quán)重。

      2.2 改進(jìn)決策機(jī)制

      由2.1節(jié)內(nèi)容可知,為了保證子樹之間的多樣性,改進(jìn)AdaBoost算法對(duì)于樣本特征屬性進(jìn)行隨機(jī)采樣,并不是完整使用樣本的所有數(shù)據(jù),對(duì)子分類器進(jìn)行訓(xùn)練,從而提高了各子分類器之間的多樣性,更貼近真實(shí)數(shù)據(jù)多變的情況。

      改進(jìn)AdaBoost算法采用包外估計(jì)的方法,選用2/3的訓(xùn)練數(shù)據(jù)用于構(gòu)建子樹,即基分類器,此外1/3的數(shù)據(jù)用于模型建成后的驗(yàn)證及相關(guān)學(xué)習(xí)權(quán)重的驗(yàn)證。利用訓(xùn)練數(shù)據(jù)集Dk去構(gòu)建子樹基分類器Ck,將測(cè)試數(shù)據(jù)作為輸入時(shí),由前述切割原理可知,通過計(jì)算特征屬性的基尼系數(shù)得到最佳切割屬性aj,再將測(cè)試數(shù)據(jù)通過基分類器得到分類結(jié)果的平均精度作為子樹基分類器Ck的屬性aj的決策權(quán)重wk,j。而在真正的在線使用階段,對(duì)于任何一個(gè)未知的樣本屬性,改進(jìn)后的算法將綜合考慮屬性分割點(diǎn)aj的決策權(quán)重wk, j和子分類器的自身精度去計(jì)算最終的聯(lián)合投票權(quán)重,最終分類預(yù)測(cè)結(jié)果可表示為:

      y∈Y.

      (9)

      其中,I-AdaBoost(x)表示改進(jìn)算法的預(yù)測(cè)結(jié)果;y表示真實(shí)的分類標(biāo)簽;Ci(x)表示子樹基分類器的預(yù)測(cè)結(jié)果;acci為子樹Ci的精確度;wij即為切割屬性aj的決策權(quán)重。

      通過新的決策集成機(jī)制,充分保留了對(duì)特征屬性隨機(jī)采樣而形成的子樹之間的多樣性,并且結(jié)合傳統(tǒng)的投票決策方式,在提高預(yù)測(cè)結(jié)果精確度的同時(shí),更好地切合了真實(shí)數(shù)據(jù)不確定性和多變性,從而有效提升了模型的魯棒性。

      3 實(shí)驗(yàn)設(shè)計(jì)與分析

      3.1 實(shí)驗(yàn)設(shè)計(jì)

      本文基于同花順平臺(tái)提供的iFinD數(shù)據(jù)庫(kù)接口,以HS300為股票池,提取了2008~2018年的年度每只股票財(cái)務(wù)指標(biāo)數(shù)據(jù)。文中例舉了貴州茅臺(tái)的財(cái)務(wù)指標(biāo)實(shí)驗(yàn)數(shù)據(jù)見圖1。

      圖1 貴州茅臺(tái)的財(cái)務(wù)指標(biāo)實(shí)驗(yàn)數(shù)據(jù)

      Fig. 1 Experimental data of financial indicators of Moutai, Guizhou

      實(shí)驗(yàn)選取2008~2018年HS300為股票池中的股票數(shù)據(jù)作^為實(shí)驗(yàn)數(shù)據(jù),實(shí)驗(yàn)數(shù)據(jù)為每只個(gè)股的財(cái)務(wù)指標(biāo)數(shù)據(jù),包含營(yíng)業(yè)總收入、營(yíng)業(yè)總成本、營(yíng)業(yè)利潤(rùn)、利潤(rùn)總額、凈利潤(rùn)、每股收益、其他綜合收益、綜合收益總額等信息。目標(biāo)函數(shù)是通過計(jì)算每只個(gè)股復(fù)權(quán)股價(jià)漲跌幅是否大于HS300指數(shù)漲跌幅計(jì)算求得。如果個(gè)股指數(shù)漲跌幅大于HS300指數(shù)的漲跌幅則取“1”,小于則取“0”,實(shí)驗(yàn)以2008~2017年數(shù)據(jù)為訓(xùn)練數(shù)據(jù)集,以2018年數(shù)據(jù)作為測(cè)試數(shù)據(jù)集。

      3.1.1 評(píng)價(jià)標(biāo)準(zhǔn)

      對(duì)于改進(jìn)AdaBoost模型,在實(shí)際運(yùn)用中,以分類準(zhǔn)確率為其性能好壞的評(píng)價(jià)標(biāo)準(zhǔn),其數(shù)學(xué)定義可寫為:

      (10)

      3.1.2 設(shè)計(jì)流程

      股票投資中,股票收益率的漲跌幅是一個(gè)非常重要的指標(biāo)。根據(jù)模型規(guī)則,如果預(yù)測(cè)下一年的收益率為正,則做出買入的決策,并且投資狀態(tài)設(shè)置為1;如果預(yù)測(cè)下一年的收益率為負(fù),則做出賣出的決策,并且投資狀態(tài)設(shè)置為0。決策流程如圖2所示。

      3.2 實(shí)驗(yàn)分析

      在量化交易發(fā)展初期,SVM算法由于其原理的簡(jiǎn)單易用性,在實(shí)際運(yùn)用中取得了很好的效果,但是隨著數(shù)據(jù)量級(jí)的增加,SVM在大數(shù)量級(jí)的交易數(shù)據(jù)和研報(bào)數(shù)據(jù)的處理中暴露出不足之處,這也是其算法本身存在的問題。由于AdaBoost算法框架思想的提出,使得可以集中各弱分類器,并在每一步中不斷地進(jìn)行迭代優(yōu)化,因?yàn)槠鋵?duì)異常值較為敏感的因素,在實(shí)際生產(chǎn)數(shù)據(jù)的應(yīng)用上會(huì)產(chǎn)生較大的影響,因此對(duì)于傳統(tǒng)的AdaBoost算法,加入新的特征屬性選擇機(jī)制,如此即使得最終的決策機(jī)制同時(shí)結(jié)合了子分類器自身的精度和特征屬性權(quán)重信息,使得最終的分類精準(zhǔn)度得到了極大的提升。本次研究中各選用算法的結(jié)果對(duì)比曲線如圖3所示。

      圖2 決策流程圖

      圖3 分類準(zhǔn)確率

      由圖3分析指出,由于改進(jìn)后的AdaBoost算法融合了屬性自身精度和基分類器的精度,更加貼合實(shí)際決策方式,提高了系統(tǒng)的魯棒性,而相比于傳統(tǒng)的AdaBoost算法,SVM性能上要稍有遜色。改進(jìn)后的AdaBoost算法的實(shí)測(cè)效果最佳,分類準(zhǔn)確度可達(dá)到99.3%。

      上述對(duì)比主要是基于業(yè)務(wù)層面的分析,下一步則需討論模型本身的性能分析,而為了更好地分析3種算法模型的性能,選取2014~2018年間的數(shù)據(jù)作為樣本,分析對(duì)比結(jié)果如圖4所示。

      圖4 AUC評(píng)分

      由圖4分析可知,從每個(gè)時(shí)期上看,因?yàn)楦倪M(jìn)后的AdaBoost算法運(yùn)用新的判決式因子選擇機(jī)制,保證了基分類器間的多樣性,提高了算法整體的魯棒性,所以每個(gè)時(shí)期的AUC評(píng)分非常穩(wěn)定,并且評(píng)分較高,最高評(píng)分可達(dá)0.71,這就表明改進(jìn)后的AdaBoost算法自身性能上較為穩(wěn)定且有好的實(shí)際效果。其中,SVM算法與傳統(tǒng)的AdaBoost算法相比,性能上仍有欠缺。

      4 結(jié)束語(yǔ)

      隨著中國(guó)一帶一路等政策的發(fā)展,逐漸走向國(guó)際市場(chǎng),股票市場(chǎng)將不斷完善。金融科技的布局,也將給股票市場(chǎng)帶來新的活力。本文從股票的投資價(jià)值角度分析,利用改進(jìn)AdaBoost算法,通過新的判決式屬性選擇機(jī)制保持了基分類器的多樣性,更客觀地貼合實(shí)際股票數(shù)據(jù)的情況,增強(qiáng)了整體的魯棒性,與此同時(shí),在最終的投票機(jī)制中融合了特征因子自身的精確度和基分類器的精確度評(píng)分,很大程度上提高了最終的決策性能,在實(shí)際應(yīng)用中有著良好的適用性。

      猜你喜歡
      分類器權(quán)重決策
      為可持續(xù)決策提供依據(jù)
      權(quán)重常思“浮名輕”
      決策為什么失誤了
      為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
      層次分析法權(quán)重的計(jì)算:基于Lingo的數(shù)學(xué)模型
      河南科技(2014年15期)2014-02-27 14:12:51
      文水县| 扶绥县| 望江县| 孟津县| 山西省| 镇平县| 永新县| 莫力| 大新县| 靖安县| 湖口县| 乐山市| 南部县| 湄潭县| 个旧市| 宜州市| 琼结县| 华蓥市| 桦甸市| 凤城市| 玛多县| 清涧县| 邵东县| 越西县| 建宁县| 孙吴县| 南乐县| 遂溪县| 焦作市| 新野县| 罗平县| 湖州市| 大兴区| 内江市| 焉耆| 金坛市| 温宿县| 栖霞市| 玛曲县| 南通市| 宁陕县|