——基于文本數(shù)據(jù)挖掘視角"/>
楊寧 史晨陽 喬英(通訊作者)
(1.南京證券股份有限公司寧夏分公司 寧夏銀川 750001;2.北方民族大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院 寧夏銀川 750021;3.寧夏智能信息與大數(shù)據(jù)處理重點(diǎn)實(shí)驗(yàn)室 寧夏銀川 750021)
隨著大數(shù)據(jù)時(shí)代的來臨,互聯(lián)網(wǎng)不僅成為投資者發(fā)布和獲取投資消息的平臺(tái),還為研究投資者關(guān)注和情緒提供了一條嶄新的道路,越來越多的研究者開始從互聯(lián)網(wǎng)文本大數(shù)據(jù)的角度衡量投資者的關(guān)注和情緒。我國股票市場是典型的散戶化市場,相對有大量的投資經(jīng)驗(yàn)和專業(yè)投資分析能力的機(jī)構(gòu)投資者,個(gè)人投資者更多的是通過社交網(wǎng)站等平臺(tái)獲取信息,并做出投資決策。
基于此,本文試圖從網(wǎng)絡(luò)大數(shù)據(jù)中挖掘有效信息,構(gòu)建投資者關(guān)注和投資者情緒指數(shù),研究它們與開放式基金收益率之間的動(dòng)態(tài)變化。
本文選取網(wǎng)絡(luò)評(píng)論文本,直接度量投資者的關(guān)注和情緒。使用的基金論壇網(wǎng)絡(luò)評(píng)論數(shù)據(jù)來自東方財(cái)富旗下的“天天基金網(wǎng)基金吧”,通過Python語言編寫的網(wǎng)絡(luò)爬蟲程序獲取招商中證白酒指數(shù)(LOF)A(以下稱白酒基金)吧中的網(wǎng)絡(luò)評(píng)論和所評(píng)論的閱讀數(shù)量、評(píng)論數(shù)量等。樣本研究區(qū)間設(shè)定在2018年1月1日—2022年6月30日。
首先,刪除了新聞帖、基金公司的公告網(wǎng)絡(luò)評(píng)論和基金吧網(wǎng)站自身的網(wǎng)絡(luò)評(píng)論;其次,將一些不包含中文文本卻有用的字符進(jìn)行替換,以便保留 有用信息;最后,刪除了文本中包含“半導(dǎo)體”“新能源”和“醫(yī)藥”等其他行業(yè)關(guān)鍵詞。最終留下了58萬多條有效網(wǎng)絡(luò)評(píng)論,每條網(wǎng)絡(luò)評(píng)論平均閱讀670.44次,平均回復(fù)1.63次。
1.3.1 投資者關(guān)注指數(shù)
選取白酒基金吧在t 月的網(wǎng)絡(luò)評(píng)論量取自然對數(shù)作為投資者關(guān)注指數(shù),即:
式(1)中:A ttt為基金在t 月的投資者關(guān)注指數(shù);Attentiont為白酒基金在t 月的網(wǎng)絡(luò)評(píng)論量。
1.3.2 投資者情緒指數(shù)
將網(wǎng)絡(luò)評(píng)論分為“積極的“”中立的”和“消極的”三類。從已經(jīng)標(biāo)注的13000條網(wǎng)絡(luò)評(píng)論每個(gè)類別中分別隨機(jī)抽取約3333條網(wǎng)絡(luò)評(píng)論,一共10000條網(wǎng)絡(luò)評(píng)論作為本文的標(biāo)簽集,并將這10000條已經(jīng)標(biāo)好類別標(biāo)簽的網(wǎng)絡(luò)評(píng)論按照8:2的比例分別作為訓(xùn)練集和測試集。
采用隨機(jī)森林、樸素貝葉斯、支持向量機(jī)和TextCNN四種分類模型進(jìn)行對比訓(xùn)練,得出每條數(shù)據(jù)分類的結(jié)果,并與測試集人工分類的結(jié)果進(jìn)行對比,計(jì)算分類正確率,分類結(jié)果如表1所示。
表1結(jié)果顯示,TextCNN分類模型在本文使用的四種模型中正確率是最高的,達(dá)到80.70%。因此,本文確定TextCNN模型為最終的分類模型。
表1 分類模型正確率
用該方法對全部58萬條天天基金網(wǎng)網(wǎng)絡(luò)評(píng)論內(nèi)容按其所體現(xiàn)的投資者情緒積極程度類型分成三類,用以構(gòu)建本文的情緒指數(shù),參考Antweiler和Frank(2004)的方法,計(jì)算公式如下:
式(2)中:S ent為基金在t 月的投資者情緒指數(shù);positivet為t 月網(wǎng)絡(luò)評(píng)論為積極情緒的網(wǎng)絡(luò)評(píng)論數(shù)量;negativet為t 月網(wǎng)絡(luò)評(píng)論為消極情緒的網(wǎng)絡(luò)評(píng)論數(shù)量。
1.3.3 基金收益率
基金收益率的定義如下:
式(3)中:Pt和 Pt-1分別表示白酒基金在第t 月和第t- 1月的收盤價(jià)。
1.3.4 控制變量
百度指數(shù)(BI)是百度發(fā)布的統(tǒng)計(jì)數(shù)據(jù),用于反映關(guān)鍵詞的搜索頻率。本文選擇的關(guān)鍵詞是“招商中證白酒”,并對其取自然對數(shù),公式如下:
式(4)中:tBI 為第t 月內(nèi)關(guān)鍵詞搜索次數(shù)之和。
式(5)中:A0= (α0, β0,γ0)T為常量向量為滯后內(nèi)生變量的系數(shù)矩陣;C = (δi,ηi,φi)T為滯后外生變量的系數(shù)矩陣;是高斯白噪聲序列;p 為滯后階數(shù)。
建立三元向量自回歸模型進(jìn)行實(shí)證研究,模型回歸結(jié)果如表2所示。
由表2可知,當(dāng)以投資者情緒指數(shù)為解釋變量時(shí),在置信水平為95%的情況下,基金收益率的一階滯后變量的估計(jì)系數(shù)為正,而投資者關(guān)注指數(shù)的一階滯后變量的系數(shù)并不顯著,意味著基金收益率的變化對投資者情緒具有正向影響,而投資者關(guān)注并未對投資者情緒產(chǎn)生影響。
表2 模型回歸估計(jì)結(jié)果
當(dāng)誤差項(xiàng)改變或模型受到某種影響時(shí),系統(tǒng)的動(dòng)態(tài)變化可以用脈沖響應(yīng)函數(shù)來展示,通過研究脈沖響應(yīng)函數(shù)來了解變量之間的影響程度。
由圖1可以看出,總體脈沖響應(yīng)影響的期數(shù)大都在4期左右,即投資者關(guān)注、投資者情緒和基金收益率之間都是短期影響,其原因是市場變化迅速,投資者會(huì)很快遺忘市場前段時(shí)間發(fā)生的變化,進(jìn)而考慮到當(dāng)下市場行情中來。其中,投資者情緒對基金收益率的影響為正向影響,并在滯后2期時(shí)影響效果達(dá)到最大,然后在滯后5期左右時(shí)衰減到0。投資者情緒的變化會(huì)帶動(dòng)市場的變化,在短期內(nèi)吸引更多資金,引起基金凈值的變化。
圖1 脈沖響應(yīng)結(jié)果
本文在構(gòu)建Sen指數(shù)的基礎(chǔ)上,構(gòu)建了第二種投資者情緒計(jì)算方法來保證穩(wěn)健性,參考李巖和金德環(huán)(2018)的方法,計(jì)算公式如下:
式(6)中:S enNewt為基金在t 月的新投資者情緒指數(shù),p ositivet為t 月網(wǎng)絡(luò)評(píng)論為積極情緒的網(wǎng)絡(luò)評(píng)論數(shù)量,negativet為t 月網(wǎng)絡(luò)評(píng)論為消極情緒的網(wǎng)絡(luò)評(píng)論數(shù)量。
在通過了一系列模型穩(wěn)定性檢驗(yàn)之后,新投資者情緒指數(shù)格蘭杰因果檢驗(yàn)結(jié)果與原投資者情緒指數(shù)一致,且脈沖響應(yīng)分析如圖2所示,即構(gòu)建的第二種投資者情緒指數(shù)在上述場景中仍然適用,說明本文構(gòu)建的指數(shù)和研究的內(nèi)容具有較強(qiáng)的穩(wěn)健性。
圖2 脈沖響應(yīng)結(jié)果
本文將投資者情緒和投資者關(guān)注統(tǒng)一在同一個(gè)分析框架下研究它們對金融市場的影響,具體通過建立向量自回歸(VAR)模型探究投資者情緒指數(shù)、投資者關(guān)注指數(shù)及白酒基金收益率之間的領(lǐng)先-滯后關(guān)系。結(jié)果顯示,基金收益率領(lǐng)先于投資者情緒,投資者情緒領(lǐng)先于投資者關(guān)注?;鹗找媛试礁撸顿Y者的情緒越高昂;基金收益率越低,投資者的情緒也越低迷。
基于研究結(jié)論,本文提出以下三個(gè)建議:
(1)利用網(wǎng)絡(luò)論壇大數(shù)據(jù)構(gòu)建的投資者關(guān)注和情緒指數(shù)與基金收益率的變化有一定的聯(lián)系,投資者關(guān)注和情緒都會(huì)對短期內(nèi)的收益率有正向的脈沖響應(yīng),因此投資者可將投資者情緒應(yīng)用于實(shí)際投資行為中,從而進(jìn)一步提高投資決策能力。
(2)基金管理者可通過分析投資者的關(guān)注和情緒,了解投資者的喜好,預(yù)測投資者的行為,及時(shí)調(diào)整投資策略,進(jìn)而擴(kuò)大基金的資金流入。
(3)市場監(jiān)管者應(yīng)了解不同的投資者關(guān)注和情緒產(chǎn)生的原因、傳播的途徑及未來的發(fā)展方向等,從而做到加強(qiáng)投資者教育,提升投資者服務(wù),建立更加有效、全面的市場監(jiān)管機(jī)制,保護(hù)投資者權(quán)益,維持市場穩(wěn)定,促進(jìn)我國金融市場健康有序地發(fā)展。