• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    中文語境下基于事件關聯挖掘的金融網絡構建與分析*

    2021-03-18 07:26:06李朋遠于華江成
    中國科學院大學學報 2021年2期
    關鍵詞:股票關聯實體

    李朋遠,于華,江成

    (1 中國科學院大學工程科學學院, 北京 100049; 2 首都經濟貿易大學管理工程學院, 北京 100070)

    金融是開展經濟建設的重要推動力量。由于金融活動的參與者非常廣泛,包括中央銀行、金融機構、企業(yè)、個體群眾、銀證監(jiān)管部門等,各方所具有的專業(yè)背景不同,在金融市場中所扮演角色和利益關切也不盡相同。面對金融領域各種情形,發(fā)現金融事件的內在聯系,做出及時有效決策,是金融活動各參與方始終想要解決的問題。

    復雜網絡作為描述、分析復雜系統(tǒng)的有力工具,近年來引起了包括圖書情報、交通物流、電力系統(tǒng)等在內的各領域越來越多研究者關注[1-3]。在金融領域,人們?yōu)樘剿鹘鹑诨顒觾炔炕虮舜碎g在某類型事物(例如市場參與者、參與者狀態(tài),乃至活動本身)上反映出的關聯關系,會構建特定類型的復雜網絡,即金融關聯網絡。通過資料查閱及整理,本文認為目前圍繞金融關聯網絡的研究包含2大類、4種思路。

    利用金融行業(yè)內部數據與理論,以金融風險傳播為切入點進行金融系統(tǒng)的網絡建模與分析??筛爬?種思路:

    1)將金融系統(tǒng)內參與者個體作為網絡節(jié)點進行關聯關系建模,例如運用最小生成樹MST和平面極大過濾圖PMFG方法,構建、分析金融網絡,動態(tài)識別金融網節(jié)點系統(tǒng)重要性[4];通過描述金融市場間協(xié)同行為,比較不同危機時期的網絡結構[5]。類似還有通過市場分層與網絡構建,結合時間演變分析系統(tǒng)性重要市場的研究[6],以及圍繞銀行行業(yè)內部系統(tǒng)性風險進行的討論[7-8]。在這類研究中,復雜網絡僅相當于梳理擬研究對象關系的工具,故研究的視角傾向于對金融領域知識理論的探討。

    2)將金融系統(tǒng)內參與者狀態(tài)作為網絡節(jié)點進行關聯關系建模,主要是基于圖模型展開。例如,Fu等[9-10]提出基于SIR傳染模型的“潛在者-投資者-撤資人”(potential-investor-divestor,PID)模型,研究龐氏騙局在均勻和非均勻網絡中的擴散動力學,對投資者網絡進行分析,看其結構對于騙局擴散的影響,以及騙局操盤者的決策對網絡結構的影響,并在上述模型的基礎上,考慮直接再投資的個體行為,根據行為之間的轉移關聯,建立新的(potential-investor-divestor-investor,PIDI)模型;類似研究還有基于醫(yī)學傳染模型的金融風險交叉?zhèn)魅緳C制[11],以及對銀行系統(tǒng)性風險的測度[12]。這類方法相比于上一類方法,能夠利用時序數據開展動態(tài)的復雜網絡構建和分析研究,多引入了一些計量經濟模型。但和上一種方法一樣,都受限于金融研究者的視角下開展研究工作,對于其他專業(yè)人員而言,存在一定的知識短板。

    利用金融行業(yè)外部數據,不強調甚至不借助金融理論進行金融網絡建模與分析??筛爬?種思路:

    1)利用金融事件參與者的社交關聯映射金融網絡。例如,Alamsyah和Ramadhani[13]嘗試探索由事件驅動(2014印尼大選事件)的網絡拓撲結構變動與銀行交易之間的關聯;Lismont等[14]構建一個通過共享董事會成員連接的公司網絡,應用統(tǒng)計學習分類算法及企業(yè)特性、網絡特性或兩者的不同組合創(chuàng)建5個模型,對網絡中節(jié)點連接關系、節(jié)點的自身財務指標,進行避稅的可能性分析;Zhou等[15]通過搜集騰訊QQ上的操作數據,從賬戶活力、交易序列和賬戶空間的相關性這3個方面,設計描述洗錢賬戶的多元特征,并利用統(tǒng)計分類算法,結合這些特征構建判斷賬戶好壞的預測模型;類似的研究還包括使用包括社交網絡數據在內的非傳統(tǒng)金融數據,得到與研究金融現象有關的參與者網絡[16-17]。此類方法能夠將現已發(fā)展較為成熟的社交網絡分析思路予以結合,可針對具體金融事件開展較為深入的研究。但在開展過程中往往會涉及數據搜集、研究者所處社會氛圍等客觀環(huán)境制約。

    2)利用金融事件描述性數據(如新聞文本)挖掘事理關聯映射金融網絡。例如,Zhao等[18]認為可針對詞段更進一步地挖掘事件間潛在關聯關系,其基于前者的研究數據、基本遵循前者的文本因果提取思路,提出基于事件的雙層因果網絡模型,結合網絡特點將嵌入式鏈路預測算法運用于分析之中;Souza和Aste[19]探討基于多重網絡方法,運用社交媒體渠道的信息和金融數據,預測期貨市場的關聯結構的可行性,并在樣本外的實驗中得到了高精度的結果;此外,還有利用財經新聞構建的股票市場知識圖譜,進行關聯實體挖掘的研究[20],以及先后利用半結構化數據和非結構化數據(金融新聞),構建出金融知識圖譜并加以豐富完善,在給定事件場景下利用該知識圖譜進行分析與決策應用[21]。在這類方法中,研究者可以通過爬蟲獲取相關新聞數據,避免了因所謂“內部數據不公開”造成的數據獲取問題。同時研究視角不再強調圍繞金融理論展開,打破了專業(yè)知識和數據獲取的邊界,使研究開展更具普適性。但相關研究目前都圍繞在英文語境下,對于在其他語言環(huán)境下如何開展缺乏探討。

    綜上所述,目前關注以事件為節(jié)點構建金融網絡的研究較前3種研究思路更少。相關研究雖尚處在起步階段,但在數據搜集選擇上更為廣泛,可供開展研究的視角也更多。然而,現有成果僅討論了英文語境下如何構建一般化的金融事件關系網絡,而同時考慮事件與實體網絡構建與分析的研究,其事件和實體網絡的構建過程是相互獨立的。如何在非英語語境下(如中文)構建類似的事件關聯網絡,以及基于事件關聯能否直接反映實體之間的關聯關系,還有待進一步探討分析。

    本文的主要貢獻為:1)提供一種以發(fā)現事件基本關聯關系為目的,且不受語言環(huán)境限制,更具通用性的金融事件關聯網絡構建思路;2)提出一種基于事件關聯關系的事件-實體關聯映射方法,基于事件關聯發(fā)現實體關聯,作為一種新的獲取實體關聯關系的思路。

    1 相關工作

    本研究將構建一個能直接反映金融事件間關聯關系的網絡G(V,E)。其中,網絡節(jié)點v∈V代表通過聚類得到的金融事件類,網絡邊e∈E代表對于這些抽象事件類之間的關聯關系描述。

    據我們所知,在現有事件因果關聯網絡構建的研究中,Zhao等[18]最先給出僅從文本語義入手,以事件為節(jié)點,進行非本體論的事件關聯網絡構建嘗試。在其研究中,通過利用英文文本(英語新聞標題)數據,挖掘抽象層面事件間因果關系,構建一個能夠描述抽象事件彼此因果關系的網絡。本文認為,Zhao等提出的網絡構建方法可概括為以下3個組成環(huán)節(jié):1)因果關系識別;2)關聯事件提??;3)因果事件抽象。

    其中,環(huán)節(jié)1)對應數據篩選和預處理工作,環(huán)節(jié)2)搭建網絡的具體事件層,環(huán)節(jié)3)生成網絡抽象事件層,即得到一般化的金融事件關系網絡。利用該方法,在英文語境下,利用新聞構建金融網絡的思路可整理為表1所示的方法框架。其中變量D、FCOPA分別記錄網絡構建過程中,生成的事件文本集合,和經過WordNet和VerbNet語義知識庫處理后得到的抽象事件集合。

    表1 英文語境下基于事件因果的金融網絡構建Table 1 Cause-effect based financial network construction under English context

    根據表1所示的網絡構建邏輯,面對搜集的新聞標題數據,識別關系事件是基于人工給定的包含因果關聯的句法模式,以關鍵詞匹配形式實現;提取關系事件即提取文本中起主謂賓作用的動、名詞;因果事件的抽象則是引入現成的英文語義知識庫,借助其給出的詞語語義上下位概念體系,得到文本層面的語義抽象,直接完成不同事件在語義上的聚類。最后將抽象出來的一般化事件作為網絡節(jié)點,把具體事件間已知的因果關系映射至抽象事件得到網絡邊,完成抽象事件間因果關聯網絡的構建。

    然而,面對不同語言間的巨大差異,如何在非英文語境下選擇合適的句法模式以處理文本,以及面對缺乏WordNet等成熟語義知識庫的情形,如何完成事件抽象得到網絡節(jié)點與連邊,本文以在中文語境下獲取的新聞標題數據為例,就表1中抽象得到網絡節(jié)點與網絡邊的思路提出改進。

    2 金融事件關聯網絡構建方法

    在表1所示的現有網絡構建方法基礎上,淡化現有網絡構建方法因語言差異導致的局限性,同時考慮更普遍的事件間關聯關系(而非僅局限于因果關聯關系),提出基于文本共現和層次聚類的金融網絡構建方法框架,如表2所示。其中,變量D、SimMtrx、SimIdx分別記錄網絡構建過程中,生成的事件文本集合、文本關聯矩陣、指定閾值下篩選出的關聯文本的索引集合。

    表2 構建金融事件關聯網絡Table 2 Framework of constructing financial event correlation network

    27. forjinHclusterKWdo28. ifa,b∈iandc,d∈jwhilea+c,b+d∈Ddo29. addi,jtoV,(i,j)toE30. end if31. end for32.end for33.returnG(V,E)

    相比于表1的網絡構建方法,表2方法的改進包含以下3個方面:

    1)關聯關系識別:表2所示的方法框架中,考慮到新聞標題的高度概括性,新聞標題仍是網絡構建的原材料。經過大量觀察發(fā)現,中文語境下,新聞作者往往為了表達兩個不同事件存在某種關聯關系,如因果、時間順序、類比對比等,而構造“兩段式”標題——即由兩個各自獨立描述不同事件的半句及其間起黏結作用的空格復合成的標題。因此,通過“兩段式”標題,能幫助獲取不同事件之間,包括因果、時間順序、類比對比等多種形式的關聯關系。

    2)關聯事件提?。罕?所示的現有網絡構建方法中,關聯事件識別與關聯關系識別同時進行,其基于“新聞標題只簡潔地傳遞事件最核心元素”的認知,認為直接提取文本中的動、名詞,即可將其作為事件的基本描述,并用作后續(xù)關聯事件抽象。這一邏輯是建立在后續(xù)可以直接借助WordNet等現成語義知識庫中的詞匯語義體系,利用上下位關系詞完成事件的抽象。然而,在其他語言中,特別是中文語境下,考慮中文用語在分詞和詞性上的多變性,不僅缺乏類似的成熟語義知識庫,更要考慮到分詞尺度對文本語義的影響。因此,在表2提出的網絡構建方法中,關聯事件提取被放在關聯事件抽象后進行,即當完成關聯事件抽象后,針對抽象事件下包含的一系列描述具體事件的文本,以關鍵詞提取的方式,利用TextRank算法[22],按動、名詞詞性優(yōu)先識別的規(guī)則,用不超過4個詞語將抽象事件進行提煉概括。

    3)關聯事件抽象:前文提到,表1所示方法框架中,其直接借助WordNet等現成語義知識庫中的詞匯語義體系,利用詞語上下位關系完成事件的抽象,然后將已知具體事件間的關聯關系映射為抽象事件間的關聯關系。然而在中文語境下,該方法并不適用,最直接原因即缺乏現成的語義知識庫供文本語義聚類之用。本文認為,不考慮語言上的差異,可直接考慮采用基于自底向上的層次聚類(hierarchical agglomerative clustering)框架[23],基于預先訓練的詞向量模型獲取各文本向量并計算兩兩間相似度后,按相似度的降序將相似文本進行聚集,直至相似度達到預設的閾值停止,如此可避免表1方法內相應步驟的通用性問題;然后,查找不少于兩個共現于同一聚類的文本,若與之分別組成標題的文本同屬另一個聚類,則這兩個聚類間存在關聯關系,以此盡可能確保形成的事件路徑是基于某一事件框架下的,同時令網絡維持一定的路徑形成能力,達到對抽象層面事件路徑描述準確性和形成能力之間的平衡;遍歷所有聚類后,即完成抽象類層面的事件關聯。

    3 金融事件-實體關聯映射分析方法

    通過金融事件網絡,我們不僅可以從中獲取一般化的金融事理關聯及事件傳遞路徑,更能利用事件層面的關聯關系,通過事件-實體映射關系,探討實體(如金融交易市場上的股票)間基于事件關聯,可以呈現怎樣的關聯關系。

    本文研究的“事件-實體關聯”的內涵是一種針對不同關系集合間的映射,它將事件間關聯關系和實體間關聯關系聯系起來,利用事件層面的關聯關系和事件與實體間的對應關系,發(fā)現實體的關聯關系;外延是由事件關聯集合和實體關聯集合及兩個集合構成元素間的內在關聯映射所構成的關聯集合整體。其中,“實體關聯”的內涵是一種關聯關系,描述可造成金融領域活動的個體間由于某方面屬性或表現,基于一定視角予以配對;外延是涉及金融領域的一切活動中,所有參與個體之間構成的關聯關系的集合。

    本文選擇股票為映射實體對象,以股票關聯為切入點,開展基于事件關聯的實體關聯映射嘗試。我們設計通過事件-實體映射關系獲取股票關聯關系大致思路為:

    1)給定目標股票集合,從構建事件關聯網絡所用的新聞數據集中,獲取每只股票對應的事件集合;

    2)根據已構建的事件關聯網絡,將各股票所包含事件全部轉化為抽象事件,并得到抽象事件間形成的傳遞演變路徑;

    3)對比各股票的事件傳遞演變路徑,計算路徑相似度,得到基于事件關聯的股票關聯關系。

    同樣是發(fā)現股票之間的關聯關系,目前的研究基本都是圍繞股票價格數據開展的,常見方法包括基于股票價格時間序列的Granger因果關系[24-25],考慮給定時間段內股票價格趨勢變化的Pearson相關性分析[26-28],等等;待得到股票間關聯關系后,可通過每只股票基于其關聯股票的價格變化,判斷自身股價漲跌趨勢,以趨勢預測準確度來度量股票關聯關系構建效果[26]。

    本文同樣選擇以股票價格為切入點,考察基于事件關聯的股票關聯關系構建效果??紤]事件發(fā)生的時間先后,假設,給定一只股票,若有其他股票與該股票在事件演變路徑上存在一致之處,則可認為這些股票與該股票間存在關聯關系,且利用這些股票的市場價格數據,能夠預測該股票價格的變化趨勢;在相似事件傳遞路徑基礎上,路徑時間同步度越高,股票基于其關聯股票價格的趨勢預測準確性越高。

    圖1展示了從事件關聯網絡映射實體(股票)關聯,以及利用基于事件的實體關聯關系判斷股票價格變化趨勢的實驗流程。

    圖1 基于事件關聯發(fā)現實體關聯的步驟Fig.1 Experimental procedures of finding relationships among entities based on event correlations

    其中,通過新聞數據集和金融事件關聯網絡,發(fā)現某與給定股票S相關的事件構成的演變路徑形式為Path(S)={s1(t1),s2(t2),…,sm(tm)},組成該路徑的m個二元組各自包含了一個描述股票S的事件s和該事件的時間戳t;此外,分別用match、sync和allpairs記錄兩個路徑上累計時間同步值、累計同步事件數、累計共現事件數,給定股票事件路徑的時間同步閾值,計算事件路徑之間兩兩相似度pathsim的方法如表3所示。

    表3 股票事件路徑相似度計算Table 3 Similarity calculation among stocks’ event paths

    在關聯結果檢驗環(huán)節(jié),假設已知股票S與其基于事件關聯的n只關聯股票的關聯權重為W={w1,w2,…,wn},并得知這n只股票t+1個交易日內的股價數據P={p1,p2,…,pn},Pn={pn,1,pn,2,…,pn,t+1},在第t和第t+1個交易日,各支股票的價格構成的集合分別為Pt={p1,t,p2,t,…,pn,t}和Pt+1={p1,t+1,p2,t+1,…,pn,t+1},即得到從第t個到第t+1個交易日,這n只股票的價格日變化幅度集合C(t,t+1)={c1,(t,t+1),c2,(t,t+1),…,cn,(t,t+1)},其中每只股票的變化值ci,(t,t+1)=pi,t+1-pi,t,i∈n。對于股票S而言,可以通過式(1)估計其從第t到第t+1個交易日的股價變化趨勢qS,(t,t+1)

    (1)

    最終可得到股票S在t+1個交易日內的股價變化趨勢序列QS={qS,(1,2),qS,(2,3),…,qS,(t,t+1)}。將QS與股票S在t+1個交易日內的股票價格實際變動序列CS,(t,t+1)={cS,(1,2),cS,(2,3),…,cS,(t,t+1)}按式(2)計算,即可得到股票S在t+1個交易日內依據事件關聯的趨勢預測準確度Acc(S):

    (2)

    4 實驗分析

    本節(jié)依照表2網絡構建方法,搜集數據構建金融事件關聯網絡,分析構建出網絡拓撲連通性;此外,利用這一網絡進行事件-實體映射,得到股票市場實體關聯網絡,驗證通過事件關聯獲取的實體關聯關系在發(fā)現實體行業(yè)關聯上的效果。實驗在配置為Ubuntu 18.04操作系統(tǒng)的臺式機平臺上運行,核心硬件配置為:兩個主頻 2.6 GHz的Intel Xeon E5-2560 v2處理器,32 G運行內存。

    4.1 網絡構建數據

    為獲取構建網絡所需數據,即財經新聞標題,通過爬取新浪財經網站上2017年3月2日至2019年7月2日的2 054 662條中文財經新聞標題,經過篩選處理后,得到520 056條符合網絡構建要求的標題數據。

    4.2 網絡構建與拓撲分析

    依照表2所示的方法構建網絡時,存在一個不確定性變量,即在關聯事件抽象過程中,如何選擇文本對的聚類相似度閾值。基于直觀判斷,文本的相似度閾值選取決定網絡的規(guī)模與形態(tài):文本的相似度閾值設置的越低,能夠用于事件抽象的文本對數量就越多,抽象出的事件數量對應著網絡節(jié)點的數量;相反,相似度閾值選取得越高,進行聚類抽象的都是高相似度文本,保證了聚類抽象的質量,而這也將進一步影響網絡邊即抽象事件之間關聯關系的生成質量。

    按照表2所示的方法,利用HanLP中文自然語言處理包(1)https:∥github.com/hankcs/HanLP中Word2Vec預封裝模塊默認的CBOW框架訓練詞向量模型,用余弦相似度計算文本相似度,依次生成相似度閾值為0.95、0.90、0.85、0.80的4個網絡。圖2是這4個網絡在以下3種特征的對比結果:

    1)網絡內所有連通分支的規(guī)模分布(即連通分支內節(jié)點數,按降序排列),見圖2(a);

    2)連通分支大小按降序排列和網絡規(guī)模(即網絡中節(jié)點數)之間的累積占比,見圖2(b);

    3)抽象事件數量與網絡節(jié)點規(guī)模之比,見圖2(c)。

    CC即連通分支(connected components)的英文縮寫。圖2 文本相似度閾值變化與所構建網絡拓撲的關系Fig.2 Relationship between the changing of text similarity threshold and network topology

    圖2中的3個子圖展示了,文本相似度閾值設置的越低,整個網絡的連通分支集中度就越高(如圖2(a)和圖2(b)所示);隨著文本相似度閾值的降低,整個網絡的規(guī)模會先膨脹后收縮,網絡連通分支的數量會一直減少,而網絡節(jié)點數與抽象事件數之比會逐漸上升(如圖2(c)所示)。

    上述現象反映事件話題種類數變化。隨著文本相似度閾值的降低,可供網絡構建使用的文本數據量不斷增加,這不僅使得每個網絡節(jié)點所對應的抽象事件內包含的文本數量增加,同時隨著越來越多較低相似度文本對的加入,又涌現出更多新事件話題,從而抽象得到更多事件。但是,事件話題類別并不是無限制增長的——當相似文本對達到一定數量后,兩個原本并不相干的抽象事件所對應的文本集可能會出現交叉,隨著層次聚類不斷深入二者被重新合并,因此孤立存在的抽象事件也隨之減少。

    由于設置的文本相似度閾值越高,抽象事件間的關聯度也就越高。綜合考慮網絡構建所使用原始材料(即相似文本對)的可靠性,以及對抽象事件進行層次聚類后的主題覆蓋率,我們認為:在文本相似度閾值設置為0.90時,可以構建出相對完善的事件關聯網絡,文本相似度閾值為0.85的網絡次之;文本相似度閾值設置為0.95時,用于構建網絡的數據相對較少,因此事件類型的覆蓋廣度和事件間關聯挖掘程度上不如文本相似度閾值為0.90和0.85的網絡;文本相似度閾值為0.80的網絡明顯存在網絡節(jié)點過于集中的現象,而且網絡整體節(jié)點數相比另外3個網絡大幅減少,推斷其可能過度地合并事件話題,使得各個事件類型被定義得過于寬泛,而網絡中的連邊,即“類事件”聯系可靠性也隨之被削弱。

    4.3 金融事件路徑傳遞分析

    本文以4.2小節(jié)中生成的相似度閾值為0.95的網絡為例,說明利用4.1小節(jié)中搜集的數據構建網絡,可以幫助發(fā)現并解釋一些金融現象,獲取其中存在的事件傳遞關系。

    圖3展示文本相似度閾值為0.95的網絡中最大的連通分支概況。

    對網絡中的部分細節(jié)予以放大,共包含以下5條路徑,分屬網絡的2個部位(圖中突出顯示部分):

    路徑Ⅰ:[發(fā)、飛越、導彈、日本]→[開盤、下挫、下跌、道指]→[下跌、延續(xù)、趨勢、昨日]

    路徑Ⅱ:[發(fā)、飛越、導彈、日本]→[避險、升溫、情緒、市場]→[來襲、重磅、原油、EIA]

    路徑Ⅲ:[擔憂、貿易戰(zhàn)]→[避險、升溫、情緒、市場]→[來襲、重磅、原油、EIA]

    圖3 生成的金融事件關聯網絡與部分路徑細節(jié)Fig.3 Generated financial event correlation network and some of its path details

    路徑Ⅳ:[下跌、股價、供應商、蘋果]→[瑞聲科技、挫]→[回吐、領跌、現、藍籌]

    路徑Ⅴ:[下跌、股價、供應商、蘋果]→[瑞聲科技、挫]→[沽空、否認、指控、機構]→[擴大、跌幅、股價、持續(xù)]

    路徑Ⅰ、Ⅱ、Ⅲ共同闡釋了由政治事件造成的恐慌情緒,會對包括股票、原油等在內的金融市場產生影響。其中,路徑Ⅰ和Ⅱ都描述的是源于地緣政治因素(導彈飛射)產生的恐慌情緒,不僅會使股票市場反映出連續(xù)的消極情緒,也可能會使原油市場有“大動作”出現;路徑Ⅲ是貿易爭端引起的市場恐慌,同樣可能導致原油市場產生較大反應。

    路徑Ⅳ、Ⅴ反映了關聯股票彼此間影響及可能引發(fā)的后續(xù)影響。瑞聲科技作為蘋果公司供應商,其股價會受蘋果公司這一大型下游客戶影響,并且影響之大可能會造成其在藍籌股中的領跌局面;而當出現這種因供應鏈關系造成的股價牽連下跌時,相關機構不僅不會承認存在沽空的指控,股價反而可能會進一步下探。

    通過構建網絡,獲取以上所示的事件傳遞路徑,不僅可以幫助發(fā)現金融領域一般化事理演變,而且由于網絡是基于大量描述具體事件的文本而構建,對于其中包含的參與事件的實體對象,在金融網絡構建的同時,也可以幫助發(fā)現這些實體之間存在的關聯關系,并利用實體關聯開展一些應用。

    4.4 事件-實體關聯網絡映射分析

    按照本文圖1和表3所示的方法步驟,開展金融事件-實體關聯網絡映射實驗。實施過程中,利用本文4.2小節(jié)中構建的文本相似度閾值為0.90的網絡,選擇中證100指數(CSI100)成分股(2)CSI100成分股數據為2019年6月3日的調整版本。作為實驗中的實體目標。通過Tushare Pro財經數據接口(3)https:∥tushare.pro/,獲取2019年7月2日至2019年8月13日共計31 個交易日的中證100指數(CSI100)收盤價格數據。為研究預測時間遠近與預測結果準確性之間的關系,我們將7月2日至7月16日11個交易日數據作為一組實驗數據,7月2日至8月13日31個交易日數據作為另一組實驗數據,進行兩組預測實驗;此外,選擇1,3,5,7,14,30 d作為股票事件路徑時間同步閾值,探討事件演進路徑的時間同步度對預測結果的影響。最終的實驗結果如表4所示。

    表4 基于事件關聯網絡的股票趨勢預測Table 4 Stock price prediction based on event correlation network

    由表4可見,隨著股票事件路徑時間同步閾值的增加,即路徑兩兩間一致的事件也更趨向同步發(fā)生,會使得最終的趨勢預測更加準確,但也會因同步條件變得嚴格,使得可預測的股票數量減少;同等可預測率下,預測時段整體越靠近起始時間節(jié)點,趨勢的預測效果越好。

    作為對比,獲取2017年3月2日至2019年7月2日共570個交易日的中證100指數(CSI100)收盤價格,按照文獻[26]里提供的基于股票價格發(fā)現股票關聯關系的方法,選擇用Pearson關聯構建股票關聯預測方法得到股票關聯關系,并基于同樣的預測數據和預測思路,輸出與表4中同等可預測率的預測結果,如圖4所示。

    圖4 基于事件關聯的預測和基于Pearson關聯的預測結果對比Fig.4 Comparison of trend prediction of event correlationbased and Pearson correlation based

    相比以Pearson相似為代表的傳統(tǒng)基于股價相關系數所建立的網絡,我們提出的方法在股價預測方面體現出的本質不同可概括為以下兩個方面:

    1)實驗數據上:實驗數據所蘊含的信息量

    以Pearson相似為代表的傳統(tǒng)的基于股價相關系數所建立的網絡,使用的都是最原始的交易數據,將這些原始時序數據作為確定股票關聯相似度的素材;而我們的方法基于新聞文本搭建的金融事件關聯網絡,將獲取的各個股票所發(fā)生的事情在事件關聯網絡上找出股票演變路徑集合,作為股票相似度計算的素材。

    2)方法實現上:股票關聯網絡邊的生成

    傳統(tǒng)的基于股價相關系數所建立的股票關聯網絡,其網絡邊是通過對比所搜集的各股票價格日變化數據確定的。以本實驗中利用Pearson相似度構建的網絡為例,股票關聯網絡邊是計算其彼此間時序數據的Pearson相關系數確定的;而本文方法所用股票關聯網絡的邊是通過對比各股票的事件演進路徑確定的,其建立在先期已構建好的事件關聯網絡上,通過查找各支股票在事件網絡中的演進路徑集合,設置路徑相似度的計算規(guī)則,通過比較兩兩間演進路徑相似性確定。

    由圖4可以得出,盡管從整體上看,在同等可預測率下,基于Pearson相關性方法發(fā)現的股票關聯能夠更好地運用關聯股票數據預測給定股票的價格變化趨勢,但運用本文提出的基于事件關聯的方法,在可預測率為0.64時預測10、30 d的股價趨勢變化,以及在可預測率為0.69時預測30 d的股價趨勢變化效果相對更好。因此,為保證用于預測的股票關聯關系可靠性,在較低的股票可預測率下,面對有限數量的股票間關聯關系,利用關聯股票數據預測給定股票的價格變化趨勢時,我們的方法比利用Pearson相關性的方法有更好的預測準確率。

    5 總結

    本文提出一種更具語言環(huán)境普適性、以發(fā)現事件基本關聯關系為目的的金融事件關聯網絡構建思路。通過構建這種網絡,可以從中發(fā)現一般化的事件關聯關系,并觀察到一些規(guī)律:

    1)構建網絡的規(guī)模與文本相似度閾值的設置相關。文本相似度閾值設置越低,整個網絡的連通分支集中度就越高,即事件變得越來越抽象,最終會體現為幾個高度抽象事件之間的關聯;

    2)隨著文本相似度閾值的降低,整個網絡的規(guī)模會先增加后減小,網絡連通分支的數量會一直減少,整個網絡的連接會更加緊密,越來越多經抽象處理的事件會產生關聯關系。

    本文所提出的網絡構建方法,可以挖掘事件的關聯關系和演進路徑,幫助對于社會熱點話題的理解;此外,利用這種事件關聯網絡,可以通過其內在事件-實體映射關系,發(fā)現指定的金融實體間的關聯關系,并用于股票價格趨勢預測,且相比于現有類似的基于股票價格發(fā)現實體關聯、進行股票價格趨勢預測的研究,本文所提出的實體關聯關系挖掘方法,在較低可預測率,即已知有限數量股票間關聯關系下,表現出更好的預測性能。

    本文提出的網絡構建和分析方法可以應用于多種情景:除可在與金融有關的領域開展應用外,還可以在其他領域開展類似應用。如利用本文提出的聚類方法,可對新聞事件抽象聚類并梳理得到事理邏輯,設計出一套財經新聞個性化推薦機制;而在其他的學科領域中,基于本文提出的方法,可以研究個體潛在關聯對象。如在流行病學研究中,通過分析以文字形式記錄的研究個體近期活動歷史和過往社交歷史,自動化挖掘并確定與該個體可能有關聯的個體及關聯密切程度。

    在未來的研究中,將進一步圍繞本文提出的方法,就基于金融事件關聯的實體關聯應用開展深入探討。

    猜你喜歡
    股票關聯實體
    前海自貿區(qū):金融服務實體
    中國外匯(2019年18期)2019-11-25 01:41:54
    “一帶一路”遞進,關聯民生更緊
    當代陜西(2019年15期)2019-09-02 01:52:00
    奇趣搭配
    實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
    哲學評論(2017年1期)2017-07-31 18:04:00
    兩會進行時:緊扣實體經濟“釘釘子”
    振興實體經濟地方如何“釘釘子”
    智趣
    讀者(2017年5期)2017-02-15 18:04:18
    本周創(chuàng)出今年以來新高的股票
    本周創(chuàng)出今年以來新高的股票
    本周連續(xù)上漲3天以上的股票
    英超| 沂水县| 华宁县| 临颍县| 平乐县| 潼关县| 从江县| 苍溪县| 江达县| 东兰县| 进贤县| 安塞县| 晴隆县| 武山县| 南木林县| 汕尾市| 玛纳斯县| 嘉鱼县| 迁安市| 永春县| 中方县| 黄浦区| 武城县| 游戏| 广州市| 宁化县| 礼泉县| 资讯 | 任丘市| 吴江市| 嘉义县| 吉水县| 西吉县| 微博| 太仆寺旗| 靖江市| 阳山县| 原阳县| 临武县| 改则县| 彭州市|