徐 翔 靳 菁 呂偉欣
新媒體環(huán)境下,網絡輿情作為社會公眾意見的重要“傳感器”,在不同領域發(fā)揮著越來越重要的作用。中國互聯(lián)網信息中心(CNNIC)發(fā)布的第41次《中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告》顯示,截至2017年12月,我國網民規(guī)模已達7.72億,全年共計新增網民4074萬人,互聯(lián)網普及率為55.8%。網民規(guī)模的增加,說明網絡輿情的來源愈加豐富,網絡輿情的輻射范圍也更加廣泛。
研究證券市場的漲跌與網絡輿情的變化之間是否存在相關性聯(lián)系的課題,有利于從傳播學角度探討網絡輿情的“社會傳感器”作用及其產生的社會影響。目前有關網絡輿情變化和股票市場關聯(lián)性的研究主要集中在經濟學、金融學領域。本研究從網絡輿情動力學的角度考察輿情主題變化對股價漲跌的影響,有利于為傳播學的跨學科發(fā)展提供新的視角。另外,影響網絡輿情的因素眾多,受眾的選擇性注意、信息不對稱、缺少信息把關等問題,都有可能造成公眾的非理性投資行為,甚至導致股票市場異常。因此,挖掘網絡輿情的“社會傳感器”作用對證券市場的影響,還有利于加強證券市場的監(jiān)管,完善投資環(huán)境,促進金融市場的穩(wěn)定。綜上,將網絡輿情變動和金融市場分別建立相應的指標,通過文本挖掘和實證研究考察其關聯(lián)性的研究,具有一定的理論意義和現(xiàn)實關照。
本文的核心觀點是,網絡輿情的變化與證券市場漲跌之間存在相關性。網絡輿情指向一定時期內社會公眾的重大關切,而網絡輿情作為公眾認知的重要“傳感器”,其變化說明受眾注意力的結構發(fā)生改變。那么這種結構性變化會不會對證券交易造成影響,會產生何種影響,就是本文試圖探討的話題。
本研究的理論依據(jù)主要包括兩個學科視角。首先,行為經濟學表明金融市場的投資并不是完全理性的。投資過程可能存在認知偏差。造成這種認知偏差的因素多樣。一方面,市場有效性強調信息在股價預測中的作用。有效市場內的信息會全面、迅速地反映在價格上。傳統(tǒng)股票市場的信息一般是單向傳播為主、并且有少數(shù)專業(yè)機構發(fā)布,而隨著信息社會的發(fā)展,網絡輿情呈現(xiàn)出碎片化、多元化、智能化的特點,投資者接受信息的渠道隨之增加,但良莠不齊的信息質量并不一定能夠減少投資者的認知偏差,還有可能誤導投資者。另一方面,投資者的內在情緒和選擇性注意機制也會深刻影響決策活動。非理性行為還會引發(fā)群體效應,影響群體投資行為,形成“羊群效應”。行為金融學突破了傳統(tǒng)金融學的理論桎梏,將金融市場的一些亂象從心理學、社會學角度進行歸因,成功地從跨學科交叉的角度解釋了許多市場行為。
其次,傳播學的經典理論“議程設置”認為,大眾傳播具有為受眾“設置議程”的功能。網絡所營造的“擬態(tài)環(huán)境”通過網絡輿情敏銳地將信息傳遞給投資者,造成投資者的注意力結構、刻板印象和認知水平等方面的變化,從而作用于證券交易市場。新媒體時代傳者泛化的特征,使得信息的提供者也不再僅僅局限于上市公司和監(jiān)管機構,普通股民也成為股市信息的提供者、傳播者和執(zhí)行者。從海量網絡輿情表現(xiàn)出的“議題”,可以代表受眾的重大關切和社會的普遍感知,實現(xiàn)了公共信息的凸顯和個性化信息的滿足。因此,網絡輿情的“社會傳感器”作用是不言而喻的。這種“社會傳感器”投射在本就對意見氣候極其敏銳的證券市場上,就很有可能影響市場的投資行為。
國內外學者從不同角度對于二者的關聯(lián)性進行了研究。國外研究方面,Wysocki(1999)最早開始對網絡論壇討論進行研究,他發(fā)現(xiàn)發(fā)帖量大的公司往往對應的是交易量大的,市值價值比高的,機構持股比例更小的公司。這表明前一日的股票評論數(shù)量對于后一日的股票收益率和成交量有一定的預測解釋能力。Antweiler(2004)等利用貝葉斯和向量機方法對RagingBull和雅虎金融板塊的論壇進行分析,建立了投資者情緒指數(shù)和投資者意見分散度指數(shù),發(fā)現(xiàn)股票收益率與當天論壇中的信息指標呈顯著的相關關系。隨著社交媒體的發(fā)展,Blankespoor、Miller和White(2014)等人從市場有效性的角度研究社交媒體與股票交易的關聯(lián),他們發(fā)現(xiàn),公司在twitter上發(fā)布新聞,能夠減少信息不對稱性,以降低異常的買賣差價。
國內研究方面,饒育蕾(2010),金雪軍等(2013)以及馬俊偉等(2014)都通過分析不同數(shù)據(jù)源,證明了媒體信息與股價的相關性。游家興等(2012)借用"沉默的螺旋"理論,從金融市場的資產誤定價現(xiàn)象入手研究媒體情緒對于金融市場的負面影響。金曦(2016)分析了個股成交量與百度媒體指數(shù)的動態(tài)關聯(lián),得出了在不控制任何條件的情況下新聞量越大,個股成交量越大的結論??紫栌畹龋?016)深度挖掘了財經新聞主題內容與股市市場的相關性,并提出了一種基于理解當日新聞主題分布來分析中國股市漲跌的預測模型。宋雙杰等(2011)人則通過分析網絡搜索量研究投資者關注和IPO溢價的異常情況。李正輝等人(2018)從文獻綜述的視角梳理了網絡輿情和金融市場的關系,圍繞投資者關注、信心和情緒等方面分析網絡輿情對資產定價波動的影響。
但是,另一方面,也有學者認為媒體信息和股票市場可能呈現(xiàn)不相關的情況。Tumarkin和Whitelaw(2001)分析了美國RagingBull論壇,以互聯(lián)網行業(yè)的72只股票為研究對象,著重觀察事件日前后各五天內證券市場變量的變化情況。作者最后認為,發(fā)帖者的情緒并不能預測股票成交量和回報,論壇上的開源信息主要是“市場噪音”。Das和Chen(2001)研究發(fā)現(xiàn),網絡討論能夠迅速反映信息,但無法預測股票收益。
另外,還有研究認為投資者情緒和關注度、搜索強度等媒體提供的信息也是對股價進行預測的重要指標。Bollen、Mao(2010)等學者對美國大型社交網站twitter近1000萬條網絡信息中表現(xiàn)出的投資者的不同情緒進行挖掘分析,結果表明,把某情緒指數(shù)向后移動3天左右得到的結果,同道瓊斯工業(yè)的平均指數(shù)非常相近,準確率甚至達到了86.7%。同樣關注投資者情緒對股價影響的還有Ljungqvist(2003)和Sapienza(2004)等。以搜索強度的媒體信息作為影響因素的研究中,Da和Gao(2009)通過網民在互聯(lián)網中的搜索指數(shù)來說明股票市場中投資者情緒的變化。他們搜集了Russell3000指數(shù)中所有公司股票簡稱的搜索強度數(shù)據(jù),得出的結論是規(guī)模較小的市場的搜索強度對于股價的預測能力更強。
研究假設即網絡輿情的變化與股票交易指數(shù)的漲跌幅有關聯(lián),網絡輿情變動能夠解釋股票市場交易量漲跌幅的變動。具體來說,通過LDA主題模型的反復迭代生成了100個主題,這些主題從第0天起到第6天末的變化情況,與上證指數(shù)、滬深三百、深證成指、創(chuàng)業(yè)板指這四個主要股指相對應的交易日漲跌幅之間存在關聯(lián)。
研究的基本思路是,首先,抓取今日頭條(https://www.toutiao.com)的約一千六百萬條帖子,這些帖子以傳者用戶為線索。這些用戶采取判斷抽樣方式,從今日頭條的“熱點”版塊中獲得發(fā)文者的url。對發(fā)問者的歷史發(fā)帖,按照從新到舊的順序排列,通過python編寫爬蟲抓取,其中由于頁面是“瀑布流”的下拉式ajax頁面,采用selenium技術模擬人類用戶在瀏覽今日頭條頁面時的下拉等操作行為。最后對數(shù)據(jù)進行清洗和選擇,得到2016年2月15日至2017年11月29日所有交易日帖子樣本,并對這些帖子進行LDA主題模型的分析。其次,分別獲取上證指數(shù)、滬深三百、深證成指、創(chuàng)業(yè)板指的數(shù)據(jù),整理這些股指在上述時間內的漲跌幅變化數(shù)據(jù)。之所以選擇以上四個股指,是因為這四個股指的代表性較強,上證指數(shù)和深證成指分別代表了滬深兩市的最綜合最全面的金融指標;滬深三百覆蓋滬深兩市,合理選擇樣本股描述股市投資情況;創(chuàng)業(yè)板指數(shù)全面地反映了創(chuàng)業(yè)板市場情況,向投資者提供了更豐富的金融指標參考。因此,四個股指的漲跌幅分析能夠幫助我們更宏觀地了解股市變動情況,從而考察其與網絡輿情的關聯(lián)。第三,通過多元線性回歸分析計算出今日頭條帖子的LDA模型主題變動數(shù)值與各個股指的股價漲跌幅之間存在何種聯(lián)系?;貧w分析可以從二者的關聯(lián)強度、顯著性檢驗、擬合優(yōu)度、穩(wěn)健性等方面進行。第四,運用支持向量機(SVM)算法進行機器學習,輸入回歸結果中具有顯著作用的LDA數(shù)值作為訓練樣本,運用五折法進行學習和預測(將樣本分為5份,機器學習五分之四的訓練樣本之后,對剩余五分之一的樣本的股價漲跌進行預測,反復進行五次)。這一實證結果表明,通過回歸結果中具有顯著作用的LDA列生成的機器學習模型具有比較強的泛化能力,即LDA所代表的網絡輿情的變動能夠對股價漲跌進行預測。
概念界定方面,首先,網絡輿情的概念學界尚未形成統(tǒng)一界定,一般來說,網絡輿情是指網民自發(fā)形成的零散的意見表達。在本研究中為了使網絡輿情可操作化,我們將“今日頭條”帖子作為數(shù)據(jù)源,通過LDA模型進行文本分析,得出比較具有代表性的網絡輿情表達?!敖袢疹^條”是基于數(shù)據(jù)挖掘和個性化推薦生成新聞資訊的平臺,包括新聞門戶網站、手機新聞客戶端等產品,其內容包含娛樂、科技、財經、體育等方面,受眾分布也比較廣泛。根據(jù)今日頭條公布的數(shù)據(jù),截止2018年7月31日,其日活躍用戶數(shù)已經達到了1.2億?;邶嫶蟮挠脩羧汉驮L問量,我們可以認為抓取的共約1600萬今日頭條帖子代表了一定時期內的社會關注和意見表達。其次,所謂網絡輿情的“社會傳感器”作用,是指網絡在生成海量信息的同時,也作為“社會傳感器”感知著社會意見分布,并將這種感知傳導到網絡的擬態(tài)環(huán)境中。這種“社會傳感器”作用對整合個體的感知能力,進行統(tǒng)籌資源調配,都具有重要意義。為了使網絡輿情的“社會傳感器”作用在研究中變得更加可操作化,在本研究中我們引入了LDA主題模型以分析輿情文本的變化情況。LDA主題模型通過對頭條帖子的文本進行挖掘,建立離散數(shù)據(jù)模型,分析不同主題的概率分布。我們可以通過觀察LDA主題模型相對于前0到6天的變化,了解公眾的注意力轉向何方,這種轉向是否與主要股指漲跌幅有關,以此證明網絡輿情在金融市場中是否存在“社會傳感器”的作用,影響力有多少。
對于網絡輿情的文本挖掘,我們采用的是建立LDA主題模型以觀察其在第0天起到第6天末變動的方法。LDA主題模型是一種對于文本內容進行分析的方式,它通過對離散數(shù)據(jù)集建立模型,分析概率主題。這種模型的核心思想是,一個文檔包含了若干主題,而每一主題又包括若干個主題詞。本研究中,對于每條帖子,考察它在這些主題上的分布概率,這些概率的總和為1。這種處理方法很好地適應了網絡內容的多主題性及其模糊性。
LDA主題模型的優(yōu)點主要包括以下三點。首先,LDA模型簡短描述文檔,并且引入先驗參數(shù),減少了過度擬合的可能性。即使文檔數(shù)量增加,主題參數(shù)也不會隨之線性增加,而只會留下最本質的統(tǒng)計信息,這使得大規(guī)模處理文檔信息,進行文本分類變得更加高效。其次,3層貝葉斯結構的LDA模型具有清晰的層次劃分,包括文檔集合層、主題、主題特征詞三層,這使得潛在語義分類更加科學化、智能化,減小了人工分類帶來的主觀偏見的影響,有助于提高聚類效果的質量。第三,本文中的LDA是動態(tài)化的主題模型,不再關注單個靜態(tài)因素對因變量的影響,而是關注主題的動態(tài)變化與因變量的關聯(lián),這種動態(tài)演化過程很好地反映了主題相對于前段時間的演化過程,更有助于把握文本變化。但是,我們也應該看到,LDA主題模型依然存在比較明顯的弊端,主要表現(xiàn)在采用強制方法分配隱含主題,挖掘語義上下文的能力有限。
本研究的分析中,考慮到主題之間的差異度,將網絡輿情內容的劃分設定為100個主題,LDA主題模型共迭代了500次,生成了區(qū)分度較優(yōu)的主題分布結果。劃分通過python程序語言及其LDA模塊進行。LDA主題的確立很好地引導我們了解社會關注和輿情熱點,文本語義挖掘結果比較合理。
需要注意的是,我們需要明確的不是網絡輿情內容指向與股價指數(shù)關注指向之間的靜態(tài)聯(lián)系,而是網絡輿情的動態(tài)變化,能否解釋股價市場的漲跌。因此,為了了解網絡輿情的動態(tài)變化,我們計算出了今日頭條每天的帖子在100個主題上的分布概率,相對與前一天的變化差值,了解LDA主題模型從第0天其到第6天末的變動情況。實際上,這種變化也是一階差分的處理,有助于通過輿情變化情況而非直接的輿情情況,更好地了解公眾的注意力變化情況和“議程設置”的情況。這里我們截選七天內LDA前10列的變動差值如下。(見表1)
表1 主題分布概率及相對于前一天的變化差值(以7天內的部分主題為例)
上證指數(shù)(000001)的樣本股是在上海證券交易所全部上市股票,包括A股和B股,反映了上海證券交易所上市股票價格的變動情況。多元線性回歸分析的因變量為上證指數(shù)在對應日期內的漲跌幅,自變量為2016年2月15日至2017年11月29日今日頭條帖子呈現(xiàn)的LDA主題模型從第0天起到第6天末的變化。變量的篩選采用了“逐步”分析策略,在每個變量進入方程之后再次判斷是否可以剔除,這就在引入變量之后的每一個階段都提供了剔除不顯著變量的機會。
關聯(lián)強度方面,回歸模型的調整R方為0.714(見表2),說明網絡輿情的變動能夠解釋上證指數(shù)約71.4%的變化,這說明網絡輿情對上證指數(shù)和證券市場的波動具有比較顯著的正向影響。
顯著性檢驗方面,從回歸方程的顯著性來看,F(xiàn)值為15.076,P-值為0.000(見表3),小于0.05,說明拒絕原假設,認為自變量和因變量的線性關系顯著?;貧w方程的顯著性檢驗結果與擬合優(yōu)度也有一定關聯(lián),P-值較小,說明擬合優(yōu)度較好。從回歸系數(shù)的顯著性來看,僅有兩個t統(tǒng)計量對應的概率P-值均大于0.05,需要被剔除,可以認為自變量和因變量的線性關系顯著。
殘差分析方面,殘差均值為0(見表4),說明總體上服從以0為均值的正態(tài)分布。殘差獨立性方面,Durbin-Watson值為1.651,約等于2,說明序列不存在自相關關系。另外,標準化殘差的標準P-P圖中,數(shù)據(jù)沿對角線方向分布(見圖1),說明回歸模型滿足正態(tài)要求。
多重共線性診斷方面,最大特征值為3.767,最小特征值為0.208,最大的條件指數(shù)為4.260,可以認為多重共線性較弱,特征值檢驗系統(tǒng)比較平穩(wěn),結論基本穩(wěn)健。
表2 上證指數(shù)的模型匯總
表3 上證指數(shù)的方差分析
表4 上證指數(shù)的殘差統(tǒng)計量
圖1 上證指數(shù)標準化殘差的標準P-P圖
滬深300(000300)是由滬深證券交易所聯(lián)合發(fā)布的覆蓋滬深兩市的金融指標,該回歸分析的因變量是滬深300在對應日期內的漲跌幅,自變量依然是基于網絡輿情生成的LDA主題模型的從第0天起到第6天末的變化。采用“逐步”策略進行分析。
關聯(lián)強度方面,回歸模型的調整R方為0.667(見表5),說明網絡輿情的變動能夠解釋上證指數(shù)約66.7%的變化,這說明網絡輿情的變動對滬深300股指也有比較顯著的影響,但是影響幅度小于上證指數(shù)。
顯著性檢驗方面,從回歸方程的顯著性來看,F(xiàn)值為12.617,P-值為0.000(見表6),小于0.05,認為自變量和因變量的線性關系顯著?;貧w方程的顯著性檢驗結果與擬合優(yōu)度也有一定關聯(lián),P-值較小,說明擬合優(yōu)度較好。從回歸系數(shù)的顯著性來看,每一個t統(tǒng)計量對應的概率P-值均小于0.05,說明自變量和因變量的線性關系顯著。
殘差分析方面,殘差均值為0(見表7),說明總體上服從以0為均值的正態(tài)分布。殘差獨立性方面,Durbin-Watson值為1.600,約等于2,說明序列不存在自相關關系。另外,標準化殘差的標準P-P圖中,數(shù)據(jù)沿對角線方向分布(見圖2),說明回歸模型滿足正態(tài)要求。
多重共線性診斷方面,最大特征值為3.573,最小特征值為0.191,最大的條件指數(shù)為4.325,說明多重共線性較弱,特征值檢驗系統(tǒng)比較平穩(wěn),結論基本穩(wěn)健。
表5 滬深300的模型匯總
表6 滬深300的方差分析
表7 滬深300的殘差統(tǒng)計量
圖2 滬深300標準化殘差的標準P-P圖
深證成指(399001)是深圳證券交易所的主要股指,它按一定標準選出500家有代表性的上市公司作為樣本股,以觀察股價變動的金融市場指標。該回歸分析的因變量是深證成指在對應日期內的漲跌幅,自變量和分析策略與之前股指的分析相同。
回歸結果表明,關聯(lián)強度方面,回歸模型的調整R方為0.627(見表8),說明網絡輿情的變動能夠解釋上證指數(shù)約62.7%的變化,這一結果小于上證指數(shù)和滬深300的解釋力。
顯著性檢驗方面,從回歸方程的顯著性來看,F(xiàn)值為12.566,P-值為0.000(見表9),小于0.05,認為自變量和因變量的線性關系顯著。回歸方程的顯著性檢驗結果與擬合優(yōu)度也有一定關聯(lián),P-值較小,說明擬合優(yōu)度較好。從回歸系數(shù)的顯著性來看,僅有兩個t統(tǒng)計量對應的概率P-值均大于0.05,需要被剔除,可以認為自變量和因變量的線性關系顯著。
殘差分析方面,殘差均值為0(見表10),說明總體上服從以0為均值的正態(tài)分布。殘差獨立性方面,Durbin-Watson值為1.797,約等于2,說明序列不存在自相關關系。另外,標準化殘差的標準P-P圖中,數(shù)據(jù)沿對角線方向分布(見圖3),說明回歸模型滿足正態(tài)要求。
多重共線性診斷方面,最大特征值為3.165,最小特征值為0.260,最大的條件指數(shù)為3.492,說明多重共線性較弱,特征值檢驗系統(tǒng)比較平穩(wěn),結論基本穩(wěn)健。
表8 深證成指的模型匯總
表9 深證成指的方差分析
表10 深證成指的殘差統(tǒng)計量
圖3 深證成指標準化殘差的標準P-P圖
創(chuàng)業(yè)板指數(shù)(399006)是從深交所創(chuàng)業(yè)板上市的A股中選出500家代表性較強的公司作為樣本股,以觀察股價變動的指標。創(chuàng)業(yè)板指的推出為我們分析資本市場提供了更多層次和角度。該回歸分析的因變量是創(chuàng)業(yè)板指在對應日期內的漲跌幅,自變量和分析策略與之前股指的分析相同。
回歸結果表明,關聯(lián)強度方面,回歸模型的調整R方為0.638(見表11),說明網絡輿情的變動能夠解釋上證指數(shù)約63.8%的變化,這一結果小于上證指數(shù)和滬深300的解釋力。
顯著性檢驗方面,從回歸方程的顯著性來看,F(xiàn)值為12.062,P-值為0.000(見表12),小于0.05,認為自變量和因變量的線性關系顯著。回歸方程的顯著性檢驗結果與擬合優(yōu)度也有一定關聯(lián),P-值較小,說明擬合優(yōu)度較好。從回歸系數(shù)的顯著性來看,每一個t統(tǒng)計量對應的概率P-值均小于0.05,可以認為自變量和因變量的線性關系顯著。
殘差分析方面,殘差均值為0(見表13),說明總體上服從以0為均值的正態(tài)分布。殘差獨立性方面,Durbin-Watson值為1.828,約等于2,說明序列不存在自相關關系。另外,標準化殘差的標準P-P圖中,數(shù)據(jù)沿對角線方向分布(見圖4),說明回歸模型滿足正態(tài)要求。
多重共線性診斷方面,最大特征值為3.950,最小特征值為0.158,最大的條件指數(shù)為5.005,說明多重共線性較弱,特征值檢驗系統(tǒng)比較平穩(wěn),結論基本穩(wěn)健。
表11 創(chuàng)業(yè)板指的模型匯總
表12 創(chuàng)業(yè)板指的方差分析
表13 創(chuàng)業(yè)板指的殘差統(tǒng)計量
圖4 創(chuàng)業(yè)板指標準化殘差的標準P-P圖
通過多元線性回歸分析我們發(fā)現(xiàn),上述四個股指的調整R方均大于0.6,說明不同股指的影響因素雖然存在差異,但是總體上都能夠解釋網絡輿情變化超過60%的概率。所有股指的回歸分析結果均通過了顯著性檢驗和穩(wěn)健性檢驗,得出的結論基本穩(wěn)健。從不同股指的個體差異來看,不同股指與輿情主題變化的關聯(lián)強度由小到大排列為:上證指數(shù)、滬深300、創(chuàng)業(yè)板指、深證成指。這說明不同股指所反映的市場變動存在差異,上證指數(shù)的樣本股包括在滬全部上市股票,總體即樣本的強大數(shù)據(jù)描述能力可能是其解釋力更加理想的原因之一。而創(chuàng)業(yè)板指只針對創(chuàng)業(yè)板市場,深證成指的樣本股為挑選得出的500家公司,不同股指的代表市場不同可能是解釋力稍低的原因。
本研究關注的并非網絡輿情內容與股票投資指向之間的關聯(lián),而是從網絡輿情動力學的角度出發(fā),描述網絡輿情變化與股指漲跌幅之間的關系,這種變化更能夠準確揭示網絡輿情的“社會傳感器”作用,反映網絡輿情將社會意見分布傳導到股票市場的動態(tài)過程。在研究方法方面,我們采用量化方法進行文本挖掘和數(shù)據(jù)分析,通過建立LDA主題模型進行文本聚合和分析,建立多元統(tǒng)計的分析模型。將文本抓取和挖掘、數(shù)據(jù)分析等多種方法相結合的實證研究也彰顯出計算傳播學與金融研究融合創(chuàng)新的張力。