• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    中概股的新聞極性市場預(yù)測研究

    2020-05-12 09:09:44王萬良
    小型微型計算機系統(tǒng) 2020年3期
    關(guān)鍵詞:概股樸素貝葉斯

    趙 澄,童 川,王萬良

    (浙江工業(yè)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,杭州 310023)

    E-mail:zjutwwl@zjut.edu.cn

    1 引 言

    股票市場的預(yù)測可以幫助投資者進行投資決策,提供關(guān)于股票市場行為的深刻見解以規(guī)避投資風(fēng)險.然而,股市預(yù)測并不是一件易事,因為其數(shù)據(jù)的性質(zhì)是可變的、非線性的、不穩(wěn)定的、接近隨機游走的[1];金融新聞對股票市場有很大影響,投資者經(jīng)常依賴金融新聞信息決定買賣,根據(jù)可獲得的信息做出投資決策[2].上市公司重大資產(chǎn)重組是調(diào)整業(yè)務(wù)、實現(xiàn)戰(zhàn)略目標(biāo)的重要途徑,對其價值影響頗大,該類新聞一般都會引起股價的波動[3],這使新聞報道成為金融預(yù)測的重要數(shù)據(jù)來源[4].如果新聞是積極的,股價上漲的可能性就更大;反之,股價可能會下跌[5].

    金融新聞屬于非結(jié)構(gòu)化數(shù)據(jù),獲取途徑多,但結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,格式多樣化,比結(jié)構(gòu)化數(shù)據(jù)更難標(biāo)準(zhǔn)化及使用.而通過研究金融新聞對股市的影響可以為投資者提供一個新的角度,提前洞察股價波動,規(guī)避不必要的風(fēng)險,起到?jīng)Q策輔助的作用.

    中概股即中國概念股,是指在國外上市的國內(nèi)注冊公司,或雖在國外注冊但業(yè)務(wù)和關(guān)系均在大陸的公司股票.國內(nèi)外上市機制存在著明顯差異,中國資本市場對于流程時間、信息披露要求以及企業(yè)、風(fēng)險管控上更加嚴(yán)格,導(dǎo)致越來越多的國內(nèi)企業(yè)在國外上市.本文研究中概股的原因主要有3點:1)中概股在國外上市,但屬于中國企業(yè),業(yè)務(wù)主要集中在國內(nèi),國外相關(guān)的外語新聞較為稀缺,相反,中文新聞則較為豐富;2)包括中概股在內(nèi)的傳統(tǒng)股票市場,對企業(yè)新聞都比較敏感;3)中文自然語言處理(Natural Language Processing,NLP)由于其特殊性,在分詞任務(wù)中,會碰到交叉歧義和組合歧義兩種歧義現(xiàn)象,雖然信息獲取較其他語言有更大困難,但所含的信息量巨大,值得研究與應(yīng)用.

    本文研究的主要內(nèi)容是最具代表性的在美上市中概股價與相關(guān)新聞之間的聯(lián)系,通過NLP技術(shù)分析新聞極性,使用Support Vector Machine(SVM)模型預(yù)測新聞對股價的影響,為股市操作者提供參考意見.

    2 相關(guān)工作

    華爾街“德溫特資本市場”公司通過判斷全球3.4億微博賬戶留言的情緒決定股票買、賣,于2012年第一季度獲得7%的收益率[6].Bing等[7]利用數(shù)據(jù)挖掘技術(shù)研究NLP提取的推特數(shù)據(jù)中的公眾情緒與真實股價走勢的關(guān)系.Martin等[8]利用對法語推文的情緒分析和主體性分析的結(jié)果訓(xùn)練一個簡單的神經(jīng)網(wǎng)絡(luò)預(yù)測了法國CAC40指數(shù)的收盤價.黃潤鵬等[9]通過格蘭杰因果關(guān)系檢驗上證指數(shù)時間序列與情緒傾向時間序列間的關(guān)系,建立SVM模型預(yù)測股票市場價格的變化來驗證假設(shè)的正確性.楊曉蘭等[10]利用計算機文本挖掘技術(shù)定量描述投資者基于博客進行社會互動的程度和情緒傾向,檢驗社會互動對股票市場的影響.Khatri等[11]對推特和股票推特中提取的數(shù)據(jù)進行情感分析,通過數(shù)據(jù)分析出用戶評論的語氣來預(yù)測股市投資.

    現(xiàn)有成果雖然通過對相關(guān)社交媒體發(fā)布的文本數(shù)據(jù)進行情感分析來預(yù)測股市價格變化,但所用數(shù)據(jù)中存在一定數(shù)量受心理影響產(chǎn)生的主觀情感誤差數(shù)據(jù),不能準(zhǔn)確反映事實.然而,對于股票預(yù)測最重要的影響因素是數(shù)據(jù)的時效性與真實性,新聞是眾多信息媒介發(fā)布數(shù)據(jù)中時效性與真實性兼優(yōu)的文本數(shù)據(jù),能夠即時反映股票相關(guān)聯(lián)公司的真實動態(tài)變化.因此,通過對新聞的極性進行分析,可以更加及時且準(zhǔn)確地預(yù)測股價變動趨勢.

    Hagenau等[2]利用SVM和樸素貝葉斯、ANN將消息對市場價格的影響分為正、負(fù)面,研究表明SVM在文本挖掘的表現(xiàn)更好.Kalyani等[12]創(chuàng)建了隨機森林(RF)、SVM和樸素貝葉斯三個分類模型來研究新聞與股票走勢關(guān)系,結(jié)果表明RF和SVM在所有類型的測試中表現(xiàn)良好.Kirange等[13]使用樸素貝葉斯、kNN和SVM分類器將股票新聞分為適當(dāng)?shù)念悇e,將結(jié)果與人工標(biāo)注進行比較,實驗顯示SVM準(zhǔn)確率高于其他兩者.Ou等[14]使用總共10種數(shù)據(jù)挖掘技術(shù)來預(yù)測香港股市恒生指數(shù)的價格走勢,實驗表明SVM和LS-SVM比其他模型均具有較好的預(yù)測性能.Heo等[15]發(fā)現(xiàn)利用SVM的財務(wù)信息輸入進行股價的可預(yù)測性優(yōu)于專家預(yù)測.

    由于SVM在金融市場預(yù)測中具有廣泛的適用性,結(jié)合文獻綜合考慮,本文選擇SVM作為預(yù)測模型的基礎(chǔ).但上述SVM模型存在一些不足之處:1)訓(xùn)練過程都不經(jīng)歷迭代操作,屬于“一次線性模型”,存在過擬合的風(fēng)險;2)在特征提取時沒有突出重要特征的作用;3)沒有綜合考慮高維輸入?yún)?shù)和噪聲數(shù)據(jù)對模型的影響.針對這些問題,在傳統(tǒng)SVM基礎(chǔ)上分別進行改進:1)針對金融新聞數(shù)據(jù)復(fù)雜多樣的特點,通過隨機分配語料并循環(huán)進行訓(xùn)練,降低其“一次線性模型”存在的過擬合風(fēng)險;2)以降維特征作為輸入,降低噪音特征對研究結(jié)果的影響;3)通過對比不同類型的核函數(shù)以及數(shù)量不等的特征空間對模型進行調(diào)參.

    本文主要貢獻包括:1)通過分析對股價變動有顯著影響的短語權(quán)重來提高中文NLP的分析性能;2)提出了一種將金融新聞和股票波動結(jié)合的標(biāo)簽?zāi)P?,在保證正確率的前提下降低人工標(biāo)注的經(jīng)濟與時間成本;3)提出一種新的CE-SVM模型,綜合優(yōu)化SVM的預(yù)測性能,提高股價趨勢預(yù)測的準(zhǔn)確率.

    3 解決方案

    本文提出的解決方案整體流程如圖1所示.

    圖1 方案整體流程圖

    3.1 數(shù)據(jù)的獲取與預(yù)處理

    本文研究需要獲取股票交易數(shù)據(jù)和中概股相關(guān)的金融新聞數(shù)據(jù).其中,文本數(shù)據(jù)預(yù)處理具體包括:

    1)金融新聞數(shù)據(jù)的清洗.雖然在獲取金融新聞數(shù)據(jù)時使用了關(guān)鍵詞匹配機制,但中概股在新聞中經(jīng)常被用來與其他同行比較,因此語料中存在部分相關(guān)性較低的新聞,即噪聲.利用正則表達式將數(shù)據(jù)分段,統(tǒng)計與其相關(guān)的關(guān)鍵詞,若關(guān)鍵詞數(shù)少于所設(shè)閾值,則判斷為相關(guān)性低的冗余數(shù)據(jù)并去除.

    2)金融新聞的極性標(biāo)記.可將新聞劃分為兩類,即積極與消極.Dang等[16]指出在文檔標(biāo)簽上有兩種不同的方法.第一種是根據(jù)專家意見手動為每一篇文章分配一個類,盡管準(zhǔn)確率很高,但數(shù)據(jù)集中包含大量文章,人力成本較高、工作周期較長;第二種是根據(jù)文章對股市的影響來自動標(biāo)注,但不如第一種準(zhǔn)確.

    考慮到股票市場大環(huán)境以及不同中概股之間的相互影響,本文自定義了中概股指數(shù)使標(biāo)簽標(biāo)準(zhǔn)化,并設(shè)計了全自動機器打標(biāo)簽?zāi)P?,將金融新聞和股票波動相結(jié)合.中概股指數(shù)指的是中概股股票平均股價變動率(上漲為正,下降為負(fù)),具體計算詳見公式(1),模型如圖2所示.通過公示(2)的邏輯關(guān)系,根據(jù)文章對股市的影響來自動標(biāo)注可以實現(xiàn)基本的標(biāo)記功能,且節(jié)省了人力與時間.默認(rèn)交易日當(dāng)天報道的新聞會即時影響到當(dāng)天股價的變動,同時考慮到非交易日報道新聞的影響力,將非交易日的新聞合并至下一交易周期的第一個交易日的新聞數(shù)據(jù)集中.結(jié)合交易日當(dāng)天金融股票交易數(shù)據(jù)中的開盤與收盤價格的變化進行打標(biāo)簽操作.將股票交易數(shù)據(jù)與金融新聞數(shù)據(jù)同時輸入全自動機器打標(biāo)簽?zāi)P椭?,?jīng)過模型處理后輸出完成打標(biāo)簽操作后的語料,其結(jié)構(gòu)組成為“極性標(biāo)簽+新聞標(biāo)題+新聞內(nèi)容”.

    圖2 標(biāo)簽流程圖

    (1)

    (2)

    式中:β為中概股指數(shù),αi為第i只中概股的股價變動率,n為中概股股票總數(shù),li為與第i只中概股相關(guān)新聞的極性標(biāo)簽.

    3.2 特征詞提取

    如果將金融新聞全文本輸入,由于數(shù)據(jù)量巨大、信息多樣化,將出現(xiàn)處理時間過長、分類效果不理想的現(xiàn)象.因此,需要對非結(jié)構(gòu)化數(shù)據(jù)進行特征提取,提取與股價變動較為相關(guān)的關(guān)鍵特征詞.Chiong等[17]提出在預(yù)處理階段進行情緒分析,從金融新聞中提取與情緒相關(guān)的特征,能夠顯著降低特征維度,提高預(yù)測模型性能.

    表1 類別與詞條四格表

    Table 1 Category and entry four-table

    屬于類別c不屬于類別c總計包含詞條tABA+B不包含詞條tCDC+D總計A+CB+DN=A+B+C+D

    特征提取的代表方法有TF-IDF和卡方檢驗等.前者單純以“詞頻”衡量一個詞的重要性,沒有考慮特征詞在類間的分布以及在類內(nèi)部文檔中的分布,不能全面提取與金融新聞極性相關(guān)的特征,而卡方檢驗做了綜合考慮,所以本文選擇卡方檢驗作為特征提取的方法.

    如表1所示,將四格表運用于金融新聞?wù)Z料,假設(shè)類別c為積極類,詞條t為“收購”,N為訓(xùn)練集文本總數(shù),那么,A為屬于積極類且包含詞條“收購”的文本數(shù),B為不屬于積極類且包含詞條“收購”的文本數(shù),C為屬于積極類且不包含詞條“收購”的文本數(shù),D為不屬于積極類且不包含詞條“收購”的文本數(shù).

    (3)

    卡方檢驗的思想是通過觀察值和理論值之間的偏差來判斷理論值的正確率是多少.它是以χ2分布為基礎(chǔ)的一種常用假設(shè)檢驗方法,通常使用四格表方法進行特征提取.通過計算χ2分布的結(jié)果進行排序,結(jié)果越大則關(guān)聯(lián)性越強.四格表是研究兩個定性變量相關(guān)性的有力工具,在四格表中的卡方檢驗公式可以變換為公式(3).

    如果給定一個文檔集合和類別,則N,M和N-M(即A+B+C+D,A+C和B+D)對同一類別文檔中的所有詞來說是一樣的,而本文只關(guān)心一堆詞對某個類別開方值的大小順序,并不關(guān)心具體值,因此把它們從公式(3)中去掉是完全可以的,實際計算時都使用公式(4).

    (4)

    在一般情況下,新聞中的“動詞+名詞”與“名詞+動詞”的出現(xiàn)對于股價的變動影響較大,例如:“拋售股票”、“大額資金買入”等.由此,首先將新聞?wù)Z料進行中文分詞處理,采用精確模式分詞將文本拆分開;增加新聞中“動詞+名詞”和“名詞+動詞”短語組合的權(quán)重,使得與股價相關(guān)詞組的卡方檢驗關(guān)聯(lián)性計算結(jié)果更為有效,提高特征提取的精確性.通過設(shè)置卡方閾值與詞個數(shù)閾值,即可在卡方檢驗運算結(jié)果中返回一系列特征詞,將全部特征詞合并,就構(gòu)建出了本文的文本詞典.

    3.3 CE-SVM分類

    SVM算法旨在學(xué)習(xí)一種決策函數(shù),將具有不同類標(biāo)簽的實例劃分為不同的類.基本模型定義為特征空間上的間隔最大的線性分類器,最終可轉(zhuǎn)化為一個凸二次規(guī)劃求解問題(Quadratic Programming,QP)[18].它可以表示原始空間中的線性或非線性決策邊界.線性決策邊界函數(shù)定義為公式(5):

    w·φ(x)+b=0

    (5)

    式中,x為低維特征空間矩陣,φ(x)為映射函數(shù),w為超平面的法向量,b為截距(實數(shù)).

    在新的特征空間中,不同類之間的最佳分區(qū)超平面稱為最大邊緣超平面,可通過求解公式(6)得到.

    (6)

    式中,yi為低維特征空間中第i個點(xi,yi)的縱坐標(biāo),n為特征空間中點的個數(shù).

    實質(zhì)上,通過構(gòu)造拉格朗日函數(shù),上述優(yōu)化問題可以表述為一個雙重問題:

    (7)

    式中,Lp為拉格朗日函數(shù),λi為第i個拉格朗日乘子.

    在線性不可分的情況下,SVM首先在低維空間中完成計算,通過核函數(shù)將輸入空間映射到高維特征空間,最終在高維特征空間中構(gòu)造出最優(yōu)分離超平面,從而把平面上不可分的非線性數(shù)據(jù)分開.

    通過定義為K(x,z)的核函數(shù)求解(7),則決策函數(shù)f(x)獲得如下:

    (8)

    通過使用卡方檢驗提取的特征詞集合為每一篇新聞建立向量表示模型,達到文本向量化的目的,從而得到語料向量集合.傳統(tǒng)SVM系統(tǒng)在實現(xiàn)過程中,由于一次結(jié)果即可得到SVM最優(yōu)分類超平面,可能會出現(xiàn)過擬合的情況.因此,在傳統(tǒng)SVM實現(xiàn)機制上進行改進,提出了CE-SVM模型,系統(tǒng)實現(xiàn)如圖3所示.

    將SVM模型訓(xùn)練與評估操作嵌入模型預(yù)期預(yù)測準(zhǔn)確率已設(shè)定的循環(huán)中,使用交叉驗證思想,重復(fù)地使用數(shù)據(jù),把得到的樣本內(nèi)數(shù)據(jù)進行切分,在此基礎(chǔ)上可以得到多組不同的訓(xùn)練集和驗證集.通過引入隨機數(shù)種子作為參數(shù),將語料向量集合隨機劃分為訓(xùn)練集和驗證集,其中,訓(xùn)練集占語料向量集合總數(shù)的80%,驗證集占語料向量集合總數(shù)的20%.

    圖3 CE-SVM模型系統(tǒng)實現(xiàn)圖

    重復(fù)實驗時,在其他參數(shù)不變的情況下,設(shè)置不同的隨機數(shù)種子以確保得到不一樣的隨機序列,避免偽隨機數(shù)序列的產(chǎn)生,增加實驗訓(xùn)練與驗證集組合的多樣性.在不斷訓(xùn)練與評估的過程中尋找預(yù)測準(zhǔn)確率達到設(shè)定要求的模型.經(jīng)過實踐可得,預(yù)期預(yù)測準(zhǔn)確率設(shè)定為0.65時得到的結(jié)果較為合理.通過調(diào)用SVM模型評估函數(shù),獲取當(dāng)前模型的精確率(precision)、召回率(recall)、f1值(f1-score)等信息,并計算準(zhǔn)確度(accuracy).

    4 參數(shù)優(yōu)化

    通過調(diào)整特征空間數(shù)與不同的核函數(shù)兩個超參,一方面確認(rèn)模型的泛化性能,另一方面優(yōu)化模型,提高預(yù)測的準(zhǔn)確率.其中,特征空間指的是所有特征向量存在的空間;核函數(shù)的作用是隱含著一個從低維空間到高維空間的映射,而該映射可以把低維空間中線性不可分的兩類點變成線性可分.

    4.1 特征空間數(shù)的確定

    對于分類器來說,特征空間數(shù)越多準(zhǔn)確率不一定越高.通過不同空間數(shù)對CE-SVM預(yù)測準(zhǔn)確率的對比實驗,得到特征空間數(shù)與CE-SVM預(yù)測準(zhǔn)確率的關(guān)系.如圖4所示,隨著特征空間數(shù)的增加,CE-SVM預(yù)測準(zhǔn)確率先升高后降低,在800左右達到最高.因此選擇自由度為1的四格表法,提取數(shù)量為800的特征詞集合.

    圖4 特征空間數(shù)對CE-SVM準(zhǔn)確率的影響

    4.2 核函數(shù)的選擇

    常用的核函數(shù)有高斯(RBF)核函數(shù)、多項式(Polynomial)核函數(shù)和Sigmoid核函數(shù)等,其定義分別見公式(9)、公式(10)、公式(11),RBF核函數(shù)應(yīng)用最廣[15].

    K(x,y)=e-γ‖x-y‖2

    (9)

    K(x,y)=(γxTy+r)p

    (10)

    K(x,y)=tanh(γxTy+r)

    (11)

    式中,x,y為特征空間矩陣,γ,r,p均為核函數(shù)參數(shù).

    表2 不同核函數(shù)的CE-SVM準(zhǔn)確率對比表

    Table 2 Comparison table of CE-SVM accuracy with different kernel functions

    RBFPolynomialSigmoid訓(xùn)練集準(zhǔn)確率/(%)65.462.361.2測試集準(zhǔn)確率/(%)66.764.763.5

    三種核函數(shù)中,RBF核函數(shù)表現(xiàn)相對穩(wěn)定,而Polynomial核函數(shù)和Sigmoid核函數(shù)穩(wěn)定性較差,運用支持向量機分類時,可優(yōu)先考慮RBF核函數(shù)[19].本文復(fù)現(xiàn)了文獻[19]中的交叉驗證網(wǎng)格優(yōu)選參數(shù)Matlab程序,獲得使用不同核函數(shù)的CE-SVM模型預(yù)測準(zhǔn)確率對比表.由表2可知,RBF核函數(shù)對打標(biāo)簽后的語料集分類性能高于Polynomial核函數(shù)和Sigmoid核函數(shù)3%~5%.

    5 實驗結(jié)果與對比分析

    5.1 實驗基礎(chǔ)與思路

    將本文提出的CE-SVM模型與廣泛運用于文本分類的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)及樸素貝葉斯模型進行預(yù)測性能比較,并結(jié)合BAT中概股金融數(shù)據(jù)走勢,實時對比三種模型的預(yù)測趨勢以及不同策略的模擬交易結(jié)果來證明CE-SVM模型的優(yōu)勢.其中,CNN模型主要包括五層,依次為:詞嵌入層、卷積層、最大池化層、全連接層以及softmax層.CNN通過卷積和池化操作抽取特征,并基于這些特征去訓(xùn)練分類器從而實現(xiàn)文本分類.

    算法實現(xiàn)的開發(fā)環(huán)境為PyCharm_2018.1.1、MATLAB_R2014b,使用的處理器為2.9GHz IntelCorei7,內(nèi)存為16GB,操作系統(tǒng)為macOS 10.14.1系統(tǒng).

    5.2 實驗數(shù)據(jù)

    本文為了在保證研究說服力的前提下簡化實驗,選取了在美上市中概股中最具代表性,新聞?wù)Z料也最為豐富的三只股票,即百度(納斯達克代碼:BIDU)、阿里巴巴(納斯達克代碼:BABA)、騰訊(納斯達克代碼:TCEHY),簡稱BAT中概股.獲取的數(shù)據(jù)時間段為2014年09月19日至2018年11月26日,其中,2014年09月19日至2018年07月05日的數(shù)據(jù)為訓(xùn)練及驗證數(shù)據(jù),2018年07月06日至2018年11月26日為樣本外測試數(shù)據(jù).具體包括兩部分:

    1)金融股票交易數(shù)據(jù).本文研究的BAT中概股票歷史價格數(shù)據(jù)均來自雅虎財經(jīng)網(wǎng)(1)https://finance.yahoo.com,具體數(shù)據(jù)包括交易時間、開盤價、當(dāng)日最高價、當(dāng)日最低價、收盤價等.

    2)與BAT中概股相關(guān)的金融新聞數(shù)據(jù).具體數(shù)據(jù)包括新聞標(biāo)題、內(nèi)容、發(fā)布時間、出處等.數(shù)據(jù)來自各大權(quán)威金融新聞網(wǎng)站(新浪財經(jīng)、雅虎財經(jīng)、騰訊新聞、網(wǎng)易新聞、中國金融新聞網(wǎng)、中國財經(jīng)新聞網(wǎng)、雪球網(wǎng)、證券時報網(wǎng)、今日頭條等).經(jīng)統(tǒng)計,BAT中概股金融歷史新聞數(shù)據(jù)總計3150篇,與百度、阿里巴巴、騰訊相關(guān)的新聞分別為1022篇、993篇、1135篇.其中,95%作為樣本內(nèi)訓(xùn)練數(shù)據(jù),5%作為樣本為測試數(shù)據(jù).

    5.3 對比實驗

    5.3.1 預(yù)測性能的對比

    由表3可知,三種模型的預(yù)測性能表現(xiàn)如下:CE-SVM對積極類新聞在精確率、召回率和f1值方面的表現(xiàn)均優(yōu)于CNN、樸素貝葉斯;CE-SVM對消極類新聞除了精確率與樸素貝葉斯相當(dāng)、稍遜于CNN外,在召回率和f1值方面的表現(xiàn)均更優(yōu);總體而言,CE-SVM對新聞的識別準(zhǔn)確率相對于CNN提高了2%的同時比樸素貝葉斯提高了4%.產(chǎn)生該結(jié)果的原因是:CE-SVM對非結(jié)構(gòu)化新聞數(shù)據(jù)的泛化能力比CNN以及樸素貝葉斯更出色,能夠更有效地識別樣本中的特征.因此,在相同訓(xùn)練集下CE-SVM擁有更好的預(yù)測性能.

    表3 模型評估結(jié)果對比表

    Table 3 Comparison table of model evaluation results

    模型 類別精確率召回率f1值準(zhǔn)確率CE-SVMpositive0.680.640.66-negative0.610.650.63-avg/total0.650.640.650.65CNNpositive0.650.630.63-negative0.620.640.62-avg/total0.630.630.620.63樸素貝葉斯positive0.610.580.59-negative0.610.640.62-avg/total0.610.610.610.61

    5.3.2 預(yù)測趨勢的對比

    由表4可知三種模型關(guān)于BAT股價在100個交易日測試數(shù)據(jù)內(nèi)走勢預(yù)測正確與錯誤的數(shù)量對比情況,CE-SVM與CNN以及樸素貝葉斯對于同一天的股價趨勢預(yù)測結(jié)果大體保持一致,但實際預(yù)測結(jié)果顯示CE-SVM最佳,其次是CNN,再者是樸素貝葉斯.

    表4 三種模型關(guān)于BAT股價走勢的預(yù)測值實時對比圖

    Table 4 Real-time comparison of the predicted values of the three models on BAT′s stock price trend

    模型類別百度阿里騰訊總數(shù)CE-SVM正確數(shù)677261200錯誤數(shù)332839100CNN正確數(shù)646859191錯誤數(shù)363241109樸素貝葉斯正確數(shù)616757185錯誤數(shù)393343115

    相同條件下,結(jié)合BAT中概股價走勢來看,在股價波動幅度比較大的時期CE-SVM的預(yù)測準(zhǔn)確率較高.這是由于在股價波動期間會產(chǎn)生大量同一極性的新聞,所含特征數(shù)量多且易于區(qū)分,CE-SVM對于新聞的識別分類能力強于CNN和樸素貝葉斯.

    5.3.3 模擬交易的對比

    利用CE-SVM與CNN、樸素貝葉斯三種模型,通過與時間相對應(yīng)的新聞預(yù)測BAT三只中概股價變動趨勢,同時與買入并持有(Buy and Hold,B&H)策略進行模擬交易對比.為更直觀地比較四種算法的收益情況,在模擬交易過程中不考慮買賣操作產(chǎn)生的交易成本等費用.

    圖5 BAT使用CE-SVM模型、CNN模型、樸素貝葉斯模型與B&H策略的模擬交易對比圖

    如圖5所示,測試數(shù)據(jù)時間范圍共計100個交易日.其中,CE-SVM模型的BAT平均收益率為11.49%;CNN模型的BAT平均收益率為7.77%;樸素貝葉斯模型的BAT平均收益率為3.87%;B&H策略的BAT平均收益率為-21.09%.結(jié)果表明,在相同的初始資金前提下,CE-SVM模型模擬交易的三只股票的平均收益率最高,其次是CNN模型,接著是樸素貝葉斯模型,最后是B&H策略.

    雖然圖5中B&H策略所示三只股票的價格在100個交易日內(nèi)均屬于下跌趨勢,但是CE-SVM模型與CNN模型及樸素貝葉斯模型預(yù)測獲得的超額收益一直處于上升趨勢.同時,由于CE-SVM具有較強的泛化能力以及對高維數(shù)據(jù)較好的處理能力,在新聞數(shù)據(jù)越多的情況下,其分析新聞極性的能力越佳,策略所得收益率也越高.

    6 總 結(jié)

    本文通過增加關(guān)鍵短語的權(quán)重,實現(xiàn)自定義全自動機器打標(biāo)簽?zāi)P?,提出一種新的CE-SVM模型,將語料隨機分配生成不同的訓(xùn)練集合與驗證集合,加入循環(huán)評估機制進行訓(xùn)練,在達到設(shè)定的預(yù)測準(zhǔn)確率后退出循環(huán)得到最終訓(xùn)練結(jié)果,并通過樣本外集合進行測試證明其合理性及有效性,從而改善了在中概股方面關(guān)于新聞對股票影響與預(yù)測的研究.未來,將進一步對標(biāo)簽進行升級,從定性分析向定量分析改進,提高算法的準(zhǔn)確性.

    猜你喜歡
    概股樸素貝葉斯
    高水平開放下的中概股出海與回歸
    中國外匯(2022年12期)2022-11-16 09:10:38
    隔離樸素
    中概股回歸新路
    中國外匯(2021年8期)2021-08-11 23:46:38
    中概股的AB面
    樸素的安慰(組詩)
    他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
    最神奇最樸素的兩本書
    貝葉斯公式及其應(yīng)用
    中概股回歸政策不變,這意味著什么?
    基于貝葉斯估計的軌道占用識別方法
    黔东| 阿拉尔市| 苍溪县| 镇雄县| 阜平县| 靖安县| 东丰县| 白玉县| 东丽区| 苍南县| 云梦县| 固镇县| 绵竹市| 驻马店市| 天祝| 泽普县| 浑源县| 西峡县| 隆化县| 张掖市| 灵武市| 井研县| 积石山| 中山市| 大港区| 南宫市| 平谷区| 襄汾县| 汉沽区| 巨野县| 新和县| 襄城县| 汕尾市| 宝鸡市| 淅川县| 新密市| 峨眉山市| 溆浦县| 茶陵县| 深圳市| 溧水县|