摘 ?要:文本數(shù)據(jù)分析主要是將數(shù)據(jù)源中文本中隱含的有用信息進行充分地挖掘和檢索,為金融分析研究提供了新的視角與更充分的數(shù)據(jù)信息。本文對文本數(shù)據(jù)信息的處理方法進行總結,對于金融研究中采用文本挖掘、大數(shù)據(jù)分析的文獻進行梳理,并在此基礎上提出相關研究未來可能的發(fā)展趨勢和方向。
關鍵詞:文本挖掘;大數(shù)據(jù)分析;金融分析
一、引言
傳統(tǒng)的金融分析的信息主要來源于歷史股價、財務報表的等“硬信息”,而近年來,得益于網(wǎng)絡技術的快速發(fā)展,更加科學精準地量化非財務信息的“軟信息”成為可能。文本數(shù)據(jù)分析拓寬了金融研究的角度,現(xiàn)主要被運用于衡量文本可讀性、情感語調(diào)、關注度、意見分歧等方面。而文本數(shù)據(jù)分析在金融分析中運用的核心挑戰(zhàn)在于如何準確有效地提取和量化文本信息,國外相關研究相對時間較長、更為成熟,而國內(nèi)研究仍處于起步發(fā)展階段,本文對這些研究進行梳理,并提出未來研究展望。
二、文本數(shù)據(jù)信息來源及量化方法
(1)金融文本信息的來源
文本數(shù)據(jù)來源依據(jù)主體主要分為四大類:公司信息披露、媒體相關報道、政府機構信息披露和社交網(wǎng)絡的公眾輿論。而每個類別的形式也多種多樣,公司信息披露則包括上市公司的招股說明書、季報、年報、分析師報告以及高管演講等;媒體主要是通過新聞報道;而個人投資者或消費者主要是微博、Tiwtter、微信公眾號、論壇等;政府機構主要則是公開信息和政策規(guī)定。這些數(shù)量龐大且更新時頻高的文本為金融分析研究提供了充分的數(shù)據(jù)。
(2)文本數(shù)據(jù)信息量化方法
文本信息的量化主要是利用計算機模擬人腦思維進行數(shù)據(jù)分析和處理,即將文本作為原始數(shù)據(jù)輸入,經(jīng)過一定的轉化對文本數(shù)據(jù)降維得到數(shù)據(jù)矩陣,再采用統(tǒng)計計量模型進行處理,輸出目標信息序列的方法。
將原始數(shù)據(jù)轉化為數(shù)據(jù)矩陣,主要運用的方法有分詞、轉化為詞向量兩種方式。對于分詞法而言,英文由于單詞被空格隔開,采用單詞分詞;中文分詞則采用最大概率分詞和最大熵分詞,是基于詞典對漢字序列進行切割和字符串匹配,依據(jù)句法語義分析分成詞組的方式。而詞向量法則是將文本數(shù)據(jù)轉化為數(shù)字化矩陣,解決詞語構成高位稀疏矩陣降維的問題。主要有采用多種措施對數(shù)字化文本矩陣實現(xiàn)降維和詞嵌入技術,而詞嵌入技術把一個維數(shù)所有詞的數(shù)量的高為空間“嵌入”到相對低維的連續(xù)向量空間的技術模型,主要有獨熱法和Word2Vec技術。
而數(shù)據(jù)矩陣的信息提取主要分為有監(jiān)督學習和無監(jiān)督學習兩類方法進行分析,無監(jiān)督方法主要有詞典法、主題分類模型法。有監(jiān)督學習方法中經(jīng)典的機器學習方法在金融研究中運用主要是樸素貝葉斯和支持向量機;新興的深度學習方法主要包括深度神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡等,但是目前在金融領域使用深度神經(jīng)網(wǎng)絡提取文本信息的文獻較少。
三、文本數(shù)據(jù)分析在金融分析中運用
文本數(shù)據(jù)分析在金融研究中的運用主要從度量可讀性、關注度、情緒和意見分歧等指標與市場現(xiàn)象的關系進行展開。
(1)可讀性指標
可讀性是投資者進行信息提取的前提,而有關文本可讀性的研究大多集中于財務會計方面,近年來也運用于網(wǎng)絡借貸研究,研究發(fā)現(xiàn)文本可讀性可以顯著提高公司股價(Li,2008;Loughran and McDonald,2014),而可讀性更強的借款描述能向投資者傳遞積極信號,提高借款的成功率(陳霄等,2018)。
(2)關注度指標
關注是信息反應的前提,信息需要被關注才能反應到市場行為中,現(xiàn)有文獻對于關注度的量化主要集中于投資者關注度和媒體關注度。使用文本數(shù)據(jù)度量投資者關注度的方法主要有一使用網(wǎng)絡引擎統(tǒng)計對上市公司的搜索次數(shù),二網(wǎng)絡論壇上股民對于特定股票發(fā)帖數(shù)量。通過發(fā)帖數(shù)構建投資者關注度,段江嬌等(2017)發(fā)現(xiàn)帖子數(shù)與當日及未來的股票收益率顯著負相關,但與當日及未來的股票波動率顯著相關。而媒體關注度主要采用新聞數(shù)量進行構建,研究發(fā)現(xiàn)媒體關注會導致更嚴重的投資者偏差(Hillert et al.,2014),但同時對管理層行為起監(jiān)督作用(周開國等,2016),能提高分析師預測準確性(譚松濤等,2015)。
(3)文本情緒
文本情感傾向的度量是文本數(shù)據(jù)分析在金融領域的一大運用,文本情緒主要包括正面和負面,積極與消極等不同描述。而文本情緒的研究主體主要包括媒體語調(diào)、管理層語調(diào)、投資者情緒三個方面。
1.媒體情緒
媒體情緒度量主要是媒體報道內(nèi)容中的樂觀和悲觀情緒,國外Garcia(2013)發(fā)現(xiàn)新聞中無論正面還是負面語調(diào)均能預測收益率;而國內(nèi)研究中主要考察了媒體情緒與資產(chǎn)定價關系,發(fā)現(xiàn)文本情緒越極端,上市公司定價偏離程度越大(游家興等,2012),同時負面預期可以解釋IPO抑價率的變化,但是正面語氣卻不能(汪昌云等,2015)。
2.管理層語調(diào)
公司公開信息披露等文本中管理層語調(diào)可以看做管理層的策略行為的一部分,其中積極和消極的語調(diào)能對投資者起到引導和暗示作用,影響投資者在市場中的投資決策行為。國外文獻Li(2010)發(fā)現(xiàn)管理層語調(diào)與公司未來盈利存在正相關關系。國內(nèi)文獻則從公司的業(yè)績、投資者交易行為等角度進行研究,謝德仁和林樂(2015)發(fā)現(xiàn)業(yè)績說明會管理層語調(diào)與未來公司的業(yè)績存在顯著正相關關系;曾慶生等(2018)發(fā)現(xiàn)積極的年報語調(diào)預示公司高管隨后的賣出股票規(guī)模大、凈買入股票規(guī)模小。
3.投資者情緒
通過對于網(wǎng)絡論壇上投資者的發(fā)帖內(nèi)容進行分析從而構建投資者情緒指數(shù),現(xiàn)有國內(nèi)外文獻發(fā)現(xiàn)投資者情緒與收益率等市場變量同期相關(Da et al.,2011;段江嬌等,2017),同時受到市場變量的影響,并且投資者情緒的預測能力有限(Gao et al.,2018)。
(4)投資者分歧
投資者分歧主要衡量投資者的異質(zhì)信念,通過投資者情緒指數(shù)的標準差構建投資者分歧指數(shù)。研究發(fā)現(xiàn)分歧越高,市場交易量越高(Antweiler and Frank,2004),同時投資者分歧對價格也有影響,會導致資產(chǎn)價格被高估,錯誤定價(Hillert et al.,2018)。
四、研究展望
總體來看,國內(nèi)外將文本信息作為非結構性信息的量化補充,在市場現(xiàn)象解釋、預測等方面進行探究。這些文獻在理論上擴展和創(chuàng)新了金融學研究的視野,對于市場參與的各個主體具有一定實踐意義。但是文本數(shù)據(jù)分析對于算法的高要求,以及對文本數(shù)據(jù)背后金融現(xiàn)象的解釋,都需要研究人員具有豐富的計算機和金融知識。
而未來金融研究中文本大數(shù)據(jù)的運用可能會在以下幾個方面進一步完善發(fā)展。一是采用拓展更豐富的文本數(shù)據(jù)來源,如微博大V的觀點、政府報告、法院判決等;二是文本挖掘和數(shù)據(jù)分析會更加深入和完善,如加入中文的句法和語義考慮構建更加精準的量化指標(如情感傾向)、特定領域文本分析的適應改進,考慮文本時效性的影響等;三是現(xiàn)在研究主要集中于相關關系的研究,未來文本數(shù)據(jù)分析對金融研究中因果關系的研究也會逐漸發(fā)展。
參考文獻
[1]Jegadeesh N,Wu D.Word power: A new approach for content analysis ☆[J].Journal of Financial Economics,2013.110(3):712-729
[2]Loughran Tim,and Bill McDonald.Measuring Readability in Financial Disclosures[J].Journal of Finance,2014,69(4):1643–1671
[3]陳霄,葉德珠,鄧潔.借款描述的可讀性能夠提高網(wǎng)絡借款成功率嗎[J].中國工業(yè)經(jīng)濟,2018
[4]段江嬌,劉紅忠,曾劍平.中國股票網(wǎng)絡論壇的信息含量分析[J].金融研究,2017(10):182-196
[5]汪昌云,武佳薇.媒體語氣、投資者情緒與IPO定價[J].金融研究,2015(9):174-189
作者簡介:蘇蕓(1997—),女,漢族,四川成都市人,本科在讀,研究方向:投資學。