• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      關(guān)聯(lián)圖譜和輿情分析在異常傳導(dǎo)路徑分析中的應(yīng)用

      2018-05-30 01:48:00上交所技術(shù)有限責(zé)任公司
      電子世界 2018年9期
      關(guān)鍵詞:利空個(gè)股傳導(dǎo)

      上交所技術(shù)有限責(zé)任公司 王 泊

      0.引言

      傳統(tǒng)的指數(shù)貢獻(xiàn)度算法,主要使用漲跌幅乘以權(quán)重的計(jì)算方法,這種方法只能計(jì)算個(gè)股(行業(yè))本身對指數(shù)貢獻(xiàn)的直接影響?,F(xiàn)實(shí)情況下,個(gè)股(行業(yè))之間不是孤立的,是有相互影響的。如果不考慮個(gè)股(行業(yè))對其它個(gè)股(行業(yè))的影響而衍生出對指數(shù)影響的話,市場分析工作就有很大的局限性。

      本研究突破傳統(tǒng)的指數(shù)貢獻(xiàn)度算法的局限,首次量化個(gè)股對其關(guān)聯(lián)個(gè)股的影響,以及行業(yè)對其關(guān)聯(lián)行業(yè)的影響,并且更加精確地衡量個(gè)股、行業(yè)對指數(shù)的影響程度,結(jié)合對輿情關(guān)聯(lián)行情數(shù)據(jù)的分類處理,繪制個(gè)股(行業(yè))的異常傳導(dǎo)路徑,為日常對異動(dòng)股票、異動(dòng)行業(yè)的監(jiān)管提供了理論支持。

      1.研究背景

      在證券二級市場上,市場風(fēng)險(xiǎn)具有較強(qiáng)的擴(kuò)散性的特性,例如,概念股炒作往往從龍頭個(gè)股開始,接力炒作龍二、龍三等股票。研究個(gè)股(行業(yè))異常波動(dòng)之間的相關(guān)性和風(fēng)險(xiǎn)的傳播方向就顯得尤為重要。

      如果能根據(jù)個(gè)股(行業(yè))出現(xiàn)異常波動(dòng)之間的相關(guān)性,在風(fēng)險(xiǎn)擴(kuò)散的初級階段提前以預(yù)警方式提示風(fēng)險(xiǎn),則能從源頭上抑制炒作,有效的控制風(fēng)險(xiǎn)。比如,如果能從歷史的交易信息中,提前挖掘出可能炒作的與龍頭關(guān)聯(lián)的龍二、龍三等股票,并以預(yù)警形式提請關(guān)注,則可以為實(shí)現(xiàn)事前監(jiān)管累積豐富的基礎(chǔ)。

      另一方面,輿情信息也對市場波動(dòng)有重要影響。本文考慮將股市異常分析與輿情分析相結(jié)合,構(gòu)建出異常股票(行業(yè))的關(guān)聯(lián)和風(fēng)險(xiǎn)傳播網(wǎng)絡(luò)圖譜,用以更好地偵查和控制風(fēng)險(xiǎn)。在實(shí)際應(yīng)用中,個(gè)股信息和新聞信息是海量、高維度的,并存在數(shù)據(jù)噪聲需要處理,因此本研究結(jié)合深度學(xué)習(xí)、貝葉斯網(wǎng)絡(luò)和自然語言處理技術(shù),對數(shù)據(jù)進(jìn)行有效的篩選,構(gòu)建出兼具準(zhǔn)確性、可解釋性和不斷自我學(xué)習(xí)優(yōu)化的傳導(dǎo)模型。

      2.繪制異常傳導(dǎo)路徑的理論和算法

      如“深度貝葉斯網(wǎng)絡(luò)技術(shù)及股票關(guān)聯(lián)機(jī)器學(xué)習(xí)識別”一文中介紹,可以通過抓取異常節(jié)點(diǎn)和計(jì)算節(jié)點(diǎn)連接強(qiáng)度的方法,搭建股票的關(guān)聯(lián)圖譜。如果我們引入時(shí)間軸,將個(gè)股或行業(yè)在某一個(gè)時(shí)間點(diǎn)的異常波動(dòng)抓取出來、作為圖譜的節(jié)點(diǎn),沿用節(jié)點(diǎn)連接強(qiáng)度的計(jì)算方法,并結(jié)合輿情分析給節(jié)點(diǎn)標(biāo)注利好或利空的分?jǐn)?shù),進(jìn)而調(diào)整節(jié)點(diǎn)的連接強(qiáng)度(即異常傳導(dǎo)的相關(guān)系數(shù)),得到的股票(行業(yè))的異常傳導(dǎo)路徑,用以解釋或預(yù)測股市的波動(dòng)。模型整體思路的架構(gòu)圖如圖1所示:

      圖1 抓取異常傳導(dǎo)路徑的模型架構(gòu)圖

      第三、四兩章將分別介紹用行情數(shù)據(jù)搭建異常節(jié)點(diǎn)網(wǎng)絡(luò)和用輿情數(shù)據(jù)計(jì)算利好利空分?jǐn)?shù)這兩部分內(nèi)容。第五章介紹綜合前兩步計(jì)算的結(jié)果、尋找異常傳導(dǎo)路徑的過程。第六章介紹數(shù)據(jù)實(shí)驗(yàn)和結(jié)論部分。

      3.用行情數(shù)據(jù)搭建異常節(jié)點(diǎn)網(wǎng)絡(luò)和節(jié)點(diǎn)相關(guān)性的計(jì)算

      異常節(jié)點(diǎn)網(wǎng)絡(luò)的搭建分為節(jié)點(diǎn)識別、節(jié)點(diǎn)連接、網(wǎng)絡(luò)參數(shù)優(yōu)化和網(wǎng)絡(luò)微調(diào)四個(gè)部分,詳細(xì)的流程如圖2所示:

      圖2 異常貝葉斯網(wǎng)絡(luò)搭建機(jī)器學(xué)習(xí)算法框架圖

      3.1 節(jié)點(diǎn)識別

      “在股票關(guān)聯(lián)圖譜中,節(jié)點(diǎn)的定義是某個(gè)股或行業(yè)。節(jié)點(diǎn)的篩選,可以通過專家規(guī)則來確定,或者是通過確定異常節(jié)點(diǎn)閾值的方式進(jìn)行選擇。如果是通過專家規(guī)則來定義的話,就由市場分析專家來確定將哪些個(gè)股(行業(yè))作為節(jié)點(diǎn)。如果通過異常節(jié)點(diǎn)的方式來定義的話,考慮到個(gè)股(行業(yè))的形態(tài)不同,需要對個(gè)股采用用不同的閾值。不同個(gè)股(行業(yè))的波動(dòng)率(Volatility)不同,因此每個(gè)個(gè)股的異常定義也不同。對于波動(dòng)率較低的個(gè)股,其異常閾值也相對較低。”以上這段文字是敘述在構(gòu)建股票關(guān)聯(lián)圖譜中抓取節(jié)點(diǎn)的方法,這里的波動(dòng)率是一段時(shí)間的平均波動(dòng)率,異常閾值的設(shè)定也是針對一段時(shí)間的平均值。而在本研究中,異常節(jié)點(diǎn)是指某個(gè)時(shí)間點(diǎn)上波動(dòng)異常的某支股票或某個(gè)行業(yè),我們要構(gòu)建的是存在時(shí)間軸的傳導(dǎo)網(wǎng)絡(luò)。

      3.2 節(jié)點(diǎn)連接

      運(yùn)用點(diǎn)互信息(Pointwise Mutual Information (PMI))計(jì)算出節(jié)點(diǎn)連接強(qiáng)度,公式如下:

      其中各符號含義如下:

      p(x)是事件x單獨(dú)出現(xiàn)的概率;

      p(y)是事件y單獨(dú)出現(xiàn)的概率;

      p(x, y)是兩個(gè)事件x, y共現(xiàn)的概率;

      log(p(x, y))是歸一化項(xiàng),采用歸一化處理的PMI值更加穩(wěn)定。

      3.3 網(wǎng)絡(luò)參數(shù)優(yōu)化和網(wǎng)絡(luò)微調(diào)

      基于構(gòu)建好的節(jié)點(diǎn)和連接強(qiáng)度,結(jié)合人類專家標(biāo)記出個(gè)股(行業(yè))間的關(guān)聯(lián)關(guān)系,可對貝葉斯網(wǎng)絡(luò)的參數(shù)進(jìn)行調(diào)整。具體地,系統(tǒng)在收到人類專家的反饋后,會(huì)根據(jù)懲罰函數(shù)對現(xiàn)有參數(shù)進(jìn)行調(diào)整,重新計(jì)算連接強(qiáng)度,專家提供的懲罰函數(shù)具體可由如下兩種形式來實(shí)現(xiàn):

      方式一,個(gè)股(行業(yè))間關(guān)系的排序。人類專家標(biāo)記出個(gè)股(行業(yè))間的關(guān)聯(lián)關(guān)系,可以作為有監(jiān)督學(xué)習(xí)的標(biāo)簽。在系統(tǒng)計(jì)算出每對行業(yè)之間的相關(guān)性后,懲罰函數(shù)如下:

      其中,Rij是行業(yè)i,j之間的相關(guān)性,UDij代表上下游行業(yè)關(guān)系。UDij是1代表有上下游關(guān)系,此時(shí)Rij越大懲罰值越小,UDij是0代表沒有上下游關(guān)系,此時(shí)Rij越大懲罰值越大。

      方式二,人類專家給定的關(guān)聯(lián)關(guān)系權(quán)重值。對于系統(tǒng)分析出的關(guān)聯(lián)關(guān)系中的每條邊,人類專家可以給予1-5的評分,用以評判關(guān)聯(lián)關(guān)系的準(zhǔn)確性。懲罰函數(shù)的數(shù)學(xué)表達(dá)如下:

      其中,關(guān)聯(lián)關(guān)系由k條邊組成,Sk代表人類專家對每條邊的打分。

      得分越高,懲罰函數(shù)值越小,反之亦然。最終的懲罰函數(shù)等于所有邊的調(diào)整過的懲罰值相加。

      4.用輿情數(shù)據(jù)計(jì)算利好或利空分?jǐn)?shù)

      除了股票價(jià)格的直接波動(dòng),輿情也是影響異常事件傳導(dǎo)的重要因素。本研究的一個(gè)創(chuàng)新之處,即把輿情分析得到的利多或利空判斷與異常股票的關(guān)聯(lián)性相結(jié)合,作為異常傳導(dǎo)路徑的計(jì)算要素。

      本研究用自然語言處理技術(shù)(Natural Language Processing),對輿情信息進(jìn)行數(shù)據(jù)篩選、文本清理,建立了輿情信息與個(gè)股和行業(yè)的關(guān)聯(lián)以及利多、利空的識別模型。

      為解決高維數(shù)據(jù)與數(shù)據(jù)噪聲問題,研究對輿情文本進(jìn)行數(shù)據(jù)預(yù)處理,并引入關(guān)鍵詞引擎ElasticSearch輔助生成行情利多利空特征,加強(qiáng)輿情分類判斷的準(zhǔn)確性。其中預(yù)處理和關(guān)鍵詞引擎與云腦Deepro NLP形成多次迭代,通過機(jī)器學(xué)習(xí)不斷優(yōu)化模型。

      輿情分析整個(gè)流程具備高度自動(dòng)化與高度適應(yīng)性的能力,可以應(yīng)對不同種類的文本數(shù)據(jù)輸入,如:各種類別財(cái)經(jīng)新聞。對于新引入的行情關(guān)鍵詞可以快速更新模型庫,以便調(diào)整分類與評判結(jié)果。整體流程設(shè)計(jì)模塊化,具備標(biāo)準(zhǔn)API調(diào)用接口,并充分考慮了可擴(kuò)展性,預(yù)留模塊包括專家經(jīng)驗(yàn)引入,以及根據(jù)專家對分類結(jié)果的反饋等。如圖3所示。

      圖3 輿情分析系統(tǒng)圖

      4.1 用BM25模型獲取利好(利空)分?jǐn)?shù)

      研究在現(xiàn)有的輿情數(shù)據(jù)集的基礎(chǔ)上,測試了一系列排序與打分算法,包括:BM25、TF-IDF、DFR、DFI、IB、LM Dirichlet、LM Jelinek Mercer等,憑借BM25算法在文本查詢排序與文本誤查率等評判標(biāo)準(zhǔn)中的優(yōu)異表現(xiàn),將BM25算法選定為本課題的輿情分析的最終算法。

      BM是在概率搜索的框架下被提出的Best Matching(最佳匹配)算法的縮寫,BM25又常被稱為“Okapi BM25”。BM算法返回與搜索關(guān)鍵詞相關(guān)性最符合的結(jié)果,并給出結(jié)果排序,被廣泛應(yīng)用于復(fù)雜搜索引擎中。BM25核心計(jì)算公式如下:

      其中各符號含義如下:

      D:文檔;

      Q:搜索詞(多個(gè));

      f(qi, D):qi這個(gè)詞在文檔D中出現(xiàn)的次數(shù);

      |D|:D的單詞數(shù);

      avgdl:整個(gè)文檔庫中文檔的平均長度;

      k1, b:自由參數(shù),一般取值范圍是k1 ∈ [1.2,2.0], b = 0.75。IDF(qi)(inverse document frequency):通常由下述公式計(jì)算

      其中,N是文檔庫中的文章總數(shù),n(qi)是包含qi這個(gè)詞的文章總數(shù)。

      4.2 用NLP預(yù)測利好(利空)分?jǐn)?shù)

      通過以上過程我們得到一系列訓(xùn)練數(shù)據(jù),包括新聞的文本和針對每一篇文本用BM25標(biāo)記的利好和利空分?jǐn)?shù)。接下來,本研究用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)中的長短期記憶網(wǎng)絡(luò)(LSTMs)模型對文字的處理,將所有和節(jié)點(diǎn)相關(guān)的新聞進(jìn)行利好或利空的分類,并輸出每個(gè)節(jié)點(diǎn)的利好、利空分?jǐn)?shù),作為下一步綜合系數(shù)計(jì)算連接強(qiáng)度的輸入。簡單介紹下模型:

      循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,加入一個(gè)循環(huán)的操作,這種循環(huán)結(jié)構(gòu)使得某個(gè)時(shí)刻的狀態(tài)能夠傳到下一個(gè)時(shí)刻,即每一網(wǎng)絡(luò)會(huì)把它的輸出傳遞到下一個(gè)網(wǎng)絡(luò)中。把循環(huán)神經(jīng)網(wǎng)絡(luò)在時(shí)間步上進(jìn)行展開,就得到如圖4這樣的模型:

      圖4 RNN原理說明圖

      循環(huán)神經(jīng)網(wǎng)絡(luò)的出現(xiàn)和廣泛應(yīng)用,主要是因?yàn)樗鼈兡軌虬岩郧暗男畔⒙?lián)系到現(xiàn)在,從而解決現(xiàn)在的問題。比如在視頻中利用前面的畫面,能夠幫助我們理解當(dāng)前畫面的內(nèi)容。有時(shí)候,我們在處理當(dāng)前任務(wù)的時(shí)候,只需要看一下比較近的一些信息,即我們所要預(yù)測的內(nèi)容和相關(guān)信息間的間隔很小,這種情況下RNN就能夠很容易利用過去的信息進(jìn)行預(yù)測。但是非常幸運(yùn)地,長短期記憶網(wǎng)絡(luò)(LSTMs)的出現(xiàn)可以幫助我們避免這種長期依賴(long-term dependency)的問題。它們的本質(zhì)就是能夠記住很長時(shí)期內(nèi)的信息,其原理如圖5所示:

      圖5 LSTMs原理說明圖

      長短期記憶網(wǎng)絡(luò)最關(guān)鍵的地方在于每個(gè)單元(cell)的狀態(tài)和結(jié)構(gòu)圖上面的那條橫穿的水平線。單元狀態(tài)的傳輸就像一條傳送帶,向量從整個(gè)單元中穿過,只是做了少量的線性操作。這種結(jié)構(gòu)能夠很輕松地實(shí)現(xiàn)信息從整個(gè)單元中穿過而不做改變,從而實(shí)現(xiàn)長期記憶的保留。

      5.綜合系數(shù)模型和尋找異常傳導(dǎo)路徑

      5.1 綜合系數(shù)模型

      前文敘述了抓取異常節(jié)點(diǎn)、用點(diǎn)互信息的方法計(jì)算節(jié)點(diǎn)連接強(qiáng)度和計(jì)算利好或利空分?jǐn)?shù)的過程,這部分內(nèi)容將把用點(diǎn)互信息計(jì)算的連接強(qiáng)度和利好利空分?jǐn)?shù)結(jié)合,綜合考慮了股市的異常波動(dòng)和輿情傳播兩種情況對節(jié)點(diǎn)連接的影響。綜合系數(shù)模型計(jì)算新的連接強(qiáng)度的公式如下:

      其中,pmi是2.2節(jié)中計(jì)算出的連接強(qiáng)度,ε是用LSTM預(yù)測的利好利空分?jǐn)?shù),a是一個(gè)比較大的常數(shù),其取值可以通過參數(shù)微調(diào)的過程進(jìn)行優(yōu)化。

      5.2 尋找異常傳導(dǎo)路徑

      得到異常節(jié)點(diǎn)和新的節(jié)點(diǎn)連接強(qiáng)度后,用最長路徑算法在這個(gè)有向無環(huán)圖中尋找異常傳播路徑。即:

      拓?fù)渑判驁D(G)中的所有節(jié)點(diǎn);

      對于線性排序的每個(gè)節(jié)點(diǎn)v ∈ V,dist(v)=max(u, v)∈E{dist(u)+w(u, v)},w(u, v)是節(jié)點(diǎn)v和節(jié)點(diǎn)u的連接強(qiáng)度;

      返回maxv ∈ V{dist(v)}。

      6.數(shù)據(jù)實(shí)驗(yàn)結(jié)果輸出和結(jié)論

      本例中,系統(tǒng)分析2017年4月19日上證指數(shù)的異常波動(dòng)。所輸出的異常傳導(dǎo)路徑從2017年4月17日國防軍工板塊異常,到4月18日的銀行板塊與多個(gè)權(quán)重個(gè)股異常,到4月19日的鋼鐵板塊異常,以及上證指數(shù)異常。其中,板塊,個(gè)股之間異常事件的相關(guān)性也一并標(biāo)出。經(jīng)過行業(yè)專家與當(dāng)時(shí)輿情驗(yàn)證驗(yàn)證,證明此分析與專家經(jīng)驗(yàn)分析類似。

      各節(jié)點(diǎn)說明如下:

      (1)國防軍工(申萬)跌幅異常:-3.24%

      (2)銀行(申萬)跌幅異常:-1.37%

      (3)包鋼股份跌幅異常:-3.10%

      (4)交通銀行跌幅異常:-1.80%

      (5)浦發(fā)銀行跌幅異常:-1.67%

      (6)興業(yè)銀行跌幅異常:-1.77%

      (7)鋼鐵(申萬)跌幅異常:-2.73%

      (8)上證綜指5日跌幅超3%:-3.15%

      本系統(tǒng)將用深度貝葉斯網(wǎng)絡(luò)構(gòu)建關(guān)聯(lián)圖譜的方法遷移到構(gòu)建異常節(jié)點(diǎn)網(wǎng)絡(luò)的模型中,結(jié)合輿情信息的分析。從股票價(jià)格和輿情這兩個(gè)維度出發(fā)、刻畫風(fēng)險(xiǎn)如何從輿情傳導(dǎo)到相應(yīng)的股票或行業(yè),進(jìn)而傳導(dǎo)到關(guān)聯(lián)的股票和行業(yè),最終形成對指數(shù)波動(dòng)的影響。以異常傳導(dǎo)路徑的方法,可以更加直觀和準(zhǔn)確地刻畫出市場波動(dòng)的原因。從創(chuàng)新角度,本系統(tǒng)首次將貝葉斯網(wǎng)絡(luò)技術(shù)與NLP自然語言處理技術(shù)有機(jī)結(jié)合,利用NLP技術(shù)從非結(jié)構(gòu)化的輿情中提取有效相關(guān)信息,作為結(jié)構(gòu)化的證券行情數(shù)據(jù)的標(biāo)簽。整個(gè)系統(tǒng)需要經(jīng)過多輪迭代,以同時(shí)優(yōu)化貝葉斯網(wǎng)絡(luò)參數(shù)與NLP系統(tǒng)的參數(shù)。本系統(tǒng)的高精確度來源于深度貝葉斯網(wǎng)絡(luò)快速收斂的特性,以及NLP系統(tǒng)中采用的LSTM對語言序列高精度建模的能力。經(jīng)過專家驗(yàn)證,本系統(tǒng)在證券行業(yè)的實(shí)際應(yīng)用中,能高度協(xié)助,并在某些場景下超越專家經(jīng)驗(yàn)的分析。

      [1]K.W.Church and et al.(March 1990).“Word association norms,mutual information, and lexicography”.Compute. Linguist.16(1):22-29.

      [2]T.M.Cover and et al.(1991).Elements of Information Theory(Wiley ed.).ISBN 978-0-471-24195-9.

      [3]C.D.Manning and et al.,An Introduction to Information Retrieval,Cambridge University Press,2009,p.233.

      [4]S.E.Robertson and et al.(November 1994).Okapi at TREC-3.Proceedings of the Third Text REtrieval Conference(TREC 1994).Gaithersburg, USA.

      [5]S.E.Robertson and et al.(November 1998).Okapi at TREC-7.Proceedings of the Seventh Text REtrieval Conference.Gaithersburg,USA.

      [6]A.Y.Ng,sequence model course slides on coursera, https://www.coursera.org/learn/nlp-sequence-models/.

      [7]C.Olah,Understanding LSTM Networks, http://colah.github.io/posts/2015-08-Understanding-LSTMs/.

      猜你喜歡
      利空個(gè)股傳導(dǎo)
      利空增多 液氨后市承壓
      神奇的骨傳導(dǎo)
      新季玉米價(jià)格高開 利空因素猶存
      連續(xù)上漲2天以上的31只個(gè)股
      利空霧霾減散 創(chuàng)業(yè)板行情崛起
      “散亂污”企業(yè)治理重在傳導(dǎo)壓力、抓實(shí)舉措
      環(huán)境污染責(zé)任險(xiǎn)對企業(yè)利好還是利空?
      能源(2017年5期)2017-07-06 09:25:54
      房地產(chǎn)開發(fā)Ⅱ個(gè)股表現(xiàn)
      航空運(yùn)輸Ⅱ個(gè)股表現(xiàn)
      基于開關(guān)電源的傳導(dǎo)抗擾度測試方法
      青川县| 开阳县| 社会| 金湖县| 丹凤县| 汉寿县| 普安县| 临汾市| 汉寿县| 乐东| 城口县| 威远县| 扶绥县| 遂平县| 霍邱县| 肇东市| 建水县| 六盘水市| 贵阳市| 景德镇市| 武陟县| 潮安县| 长葛市| 金沙县| 淳化县| 灵寿县| 中牟县| 定日县| 无为县| 长顺县| 泾川县| 方山县| 广丰县| 平塘县| 万盛区| 河北省| 全椒县| 姜堰市| 岳池县| 延吉市| 宿松县|