劉建義 周潔 夏換
摘??要:近年來,隨著互聯(lián)網(wǎng)技術(shù)和大數(shù)據(jù)技術(shù)的不斷發(fā)展,人們獲取投資信息的時間成本、空間成本不斷地下降,但是信息質(zhì)量卻是變得良莠不齊,投資者特別是新投資者面對海量的金融數(shù)據(jù)信息難以快速地找到自己所需的信息。因此,該文利用LDA主題模型對所爬取的文本信息進行挖掘分析,并進行了數(shù)據(jù)可視化展現(xiàn)。研究發(fā)現(xiàn)投資者關(guān)注主題熱詞,對投資者現(xiàn)實的投資行為具有一定的參考意義。
關(guān)鍵詞:投資行為????主題模型????數(shù)據(jù)爬取????SOR模型
中圖分類號:F832.51??????????文獻標識碼:A???????????文章編號:1672-3791(2022)06(b)-0000-00
Analysis?and?Research?on?Investors'?Concerned?Index?and?Investment Behavior?Based?on?Text?Mining
LIU?Jianyi1????ZHOU?Jie1?????XIA?Huan2*
(1.Guizhou?University?of?Finance?and?economics;?2.E-commerce?Big?Data?Marketing?Engineering?Research?Center?Guizhou?University?of?Finance?and?Economics,?Guiyang,?Guizhou?Province,?550025?China)
Abstract:In?recent?years,?with?the?continuous?development?of?Internet?technology?and?big?data?technology,?the?time?cost?and?space?cost?of?people's?investment?information?have?been?declining,?but?the?information?quality?has?become?uneven,?and?investors,?especially?new?investors,?cannot?quickly?find?the?information?they?need?in?the?face?of?massive?financial?data.?Therefore,?the?LDA?topic?model?is?used?to?mine?and?analyze?the?crawled?text?information,?and?the?data?is?visualized.?It?is?found?that?investors?pay?attention?to?the?topic?hot?words,?which?has?certain?reference?significance?for?investors'?actual?investment?behavior.
Key?Words:?Investment?behavior;?Theme?model;?Data?crawling;?SOR?model
流量信息時代的到來對證券投資行業(yè)帶來了巨大的沖擊,人們對于自己投資領(lǐng)域信息的獲取變得更加方便快捷,另外隨著智能終端的全民化以及投資理財線上化的日趨完善投資理財?shù)氖鼙娙后w也是橫向加縱向地大范圍擴張。而90、00后新生代群體因其對新事物的易接受性以及敢嘗試性逐漸地開始加入到理財群體中去,特別是在2020年中國股市的牛年,巨大的投資紅利在各種渠道進行宣傳吸引了眾多的新生代投資群體,巨大紅利的背后往往隱藏著巨大的風險,2021上半年上交所、深交所的指數(shù)一路下滑,導致眾多毫無經(jīng)驗的投資者受到了不同程度的損失,也因此產(chǎn)生了一個新的網(wǎng)絡(luò)熱詞“韭零后”。
面對這樣的沖擊,沒有經(jīng)驗的新生代投資者很容易造成情感上的焦慮,進而會發(fā)展成心理上的焦慮,而該文為解決新投資者沒有經(jīng)驗以及因此造成的情感波動這一問題,使用Python對雪球社區(qū)、騰訊自選股、微博投資理財超話三個社區(qū)的2020年1月至2021年9月的投資者討論內(nèi)容和熱點信息的文本進行抓取,建立LDA主題模型,篩選關(guān)鍵熱詞并且對其進行歸類,另外還對關(guān)鍵熱詞頻次進行梳理統(tǒng)計,整合出投資者關(guān)注的投資參考指標,以及投資行為。
1???國內(nèi)研究綜述
在對國內(nèi)文獻的梳理過程中發(fā)現(xiàn)林樹、葛逸云等利用對基金年報進行文本分析,進而探索基金經(jīng)理語調(diào)與投資行為之間的關(guān)系[1];李苗、李村璞對高管的攀比心理、控股股東性質(zhì)對投資行為的影響做出了相關(guān)研究陳述[2];趙勝民、張博超就分析師關(guān)注如何影響公司投資行為——基于不同投資類型的分析[3];馬天平、盧旭蕊等人在“原油寶”事件后對虧損后投資者的風險偏好做了研究和調(diào)查[4];葛如一、胡蓉認為智能投顧會影響投資者的投資行為,使得投資者單筆投資額下降、總投資額上升[5]。顏端武、梅喜瑞等人基于主題模型和詞向量融合的微博短文本主題聚類研究,利用LDA主題模型對微博一段時間內(nèi)的熱點進行聚類分析,發(fā)現(xiàn)對微博短文本的處理效果較好[6]。楊奕、張毅以中美貿(mào)易爭端為案例,利用?LDA?主題挖掘與社會網(wǎng)絡(luò)分析算法探究復雜公共議題下社交媒體演化趨勢,先利用?LDA?主題模型提取出議題關(guān)注主?題,實現(xiàn)降維分類,然后進行主題時間趨勢分析,最后利用社會網(wǎng)絡(luò)分析構(gòu)建主題詞圖譜,明確了主題議題之間的聯(lián)系[7]。曹樹金、岳文玉就突發(fā)公共衛(wèi)生事件微博輿情主題挖掘與演化分析進行了相關(guān)研究,通過生命周期理論對突發(fā)公共衛(wèi)生事件微博轉(zhuǎn)播階段進行劃分,利用LDA主題模型實現(xiàn)文本聚類和TF-IDF特征權(quán)重賦值,分析2020年01~04月的熱門微博和評論文本數(shù)據(jù),指出LDA主題模型可以揭示突發(fā)公共衛(wèi)生事件微博的傳播內(nèi)容主題[8]。但是現(xiàn)有文獻中對投資者關(guān)注度及其投資行為的分析較少,所以該文從這一研究角度出發(fā)進行深入研究。
2??數(shù)據(jù)和研究方法
2.1??數(shù)據(jù)文本的爬取
數(shù)據(jù)的獲取采用Python爬蟲技術(shù)獲取,利用Python爬蟲第三方庫selenium即瀏覽器自動化操作框架,這里主要用到webdriver這一個工具,接著利用element_by_xpath或css_selector進行數(shù)據(jù)抓取,具體處理過程為:
另外,因為微博評論的特殊性,使用移動端源代碼獲取評論較為簡單,需要找到爬取微博評論的URL、Cookie、Referer、User-Agen;因為現(xiàn)在微博的反爬蟲機制,20條評論后會出現(xiàn)一個隨機變化的max_id和max_id_type參數(shù),設(shè)置代碼捕捉這個參數(shù)就可以實現(xiàn)翻頁爬?。ú糠执a展示如下)。
"""提取翻頁的max_id"""
max_id?=?response['data']['max_id']
"""提取翻頁的max_id_type"""
max_id_type?=?response['data']['max_id_type']
在進行下一步的研究之前需要將獲取到的數(shù)據(jù)進行預處理,包括殘缺值的處理、相似值的處理等,將處理好的數(shù)據(jù)表格保存整理成.csv.文件。
2.2??爬取文本預處理
將利用Python爬蟲技術(shù)獲取到的數(shù)據(jù)首先進行殘缺值的預處理,利用人工檢索的方式進行補充,查詢不到的則將該條數(shù)據(jù)刪除。然后去除停用詞,停用詞表根據(jù)數(shù)據(jù)集的特殊性進行相應(yīng)的調(diào)整,最后利用jieba分詞庫進行分詞處理形成可進一步分析的數(shù)據(jù)集[9]。
2.3??LDA主題模型邏輯
對蘊含著投資者關(guān)注的指標文本進行主題挖掘,對求助、討論的中文文本進行聚類并獲取主題[10]。LDA即三層貝葉斯概率圖,包含文檔、主題、主題詞三層結(jié)構(gòu),這種方法首先選定一個主題向量θ,確定每個主題被選擇的概率。然后在生成每個單詞的時候,從主題分布向量θ中選擇一個主題z,按主題z的詞語概率分布生成一個詞語。其圖模型如圖1所示。
3??研究發(fā)現(xiàn)
在使用LDA主題模型處理文本時首先需要確定主題的數(shù)量,一方面要考慮模型的適配性,另一方面還要考慮所獲主題詞對文本的解釋性和涵蓋性。為了更科學地確定主題數(shù)不僅要從模型效果的角度,還要考慮所獲主題是否具有良好的解釋性。擬采用困惑度(Perplexity)指標來確定最優(yōu)主題數(shù),困惑度越低,說明聚類的效果越好[11]。
根據(jù)困惑度確定好主題數(shù)之后,進行LDA主題模型分析,因此該文在經(jīng)過測試后選擇了8個主題作為最終的主題數(shù)。
經(jīng)過挖掘和數(shù)據(jù)分析,投資者關(guān)注指標主題詞詞表見表1(表格數(shù)據(jù)經(jīng)過二次處理,近義詞進行了人工整合)。
根據(jù)表1所獲數(shù)據(jù)可以看到投資者關(guān)注指標是非常的多且雜亂的,但是人工二次梳理后會發(fā)現(xiàn)其這些主題指標是有內(nèi)在聯(lián)系的。根據(jù)其內(nèi)在屬性和聯(lián)系可以將其進行主題編碼,對雜亂的主題進行歸類,方便進行研究。
同時為了更加直觀地看出投資者對投資主題熱詞的關(guān)注度,繪制出投資者關(guān)注熱詞TOP16,根據(jù)條形圖所示,(數(shù)據(jù)經(jīng)過二次處理,近義詞進行了人工整合)可以看到資金流向是投資者最為關(guān)注的指標,帶著這一指標選取各個板塊中的部分股票進行驗證發(fā)現(xiàn)資金流向之所以是大家最關(guān)注的指標很大原因在于資金流向是影響股票走勢的最直接的因素之一,在資金里面又以主力資金的流向為最敏感的指標,主力資金凈流入高股價便會走紅,反之則很大程度會下跌,而散戶資金正好與之相反[12]。
另外,因為獲取樣本的時間在各上市公司財務(wù)中報發(fā)布之后,所以財務(wù)報表和其中的某些列示項目再一次引起了投資者的關(guān)注,同樣進行二次驗證之后發(fā)現(xiàn)主營業(yè)務(wù)營收同比上漲的公司其股價便是出于上升狀態(tài),反之則是下降狀態(tài)。
為了更方便我們解釋主題詞其中的內(nèi)涵,同時更加直觀方便地分析其中的內(nèi)在關(guān)聯(lián)。對上述8個主題依據(jù)其內(nèi)容進行歸類,詳見于表2。
第三方機構(gòu)根據(jù)其性質(zhì)來分析,不難得出其也是屬于投資者的一種。
SOR模型源自心理學,解釋了環(huán)境特征對用戶行為和心理活動的影響,Mechrabian?A和Russell在環(huán)境心理學的基礎(chǔ)上提出了SOR理論模型,其中S代表外界環(huán)境的刺激(Stimulus),會對主體有影響,O代表有認知的有機體(Organism);在某些外部環(huán)境刺激之后,產(chǎn)生相應(yīng)的心理活動并相應(yīng)做出的行為反應(yīng)(Response)就定義為R,如接受或拒絕、采納或規(guī)避。該文基于刺激-有機體-反應(yīng)(S-O-R)理論模型,借鑒管理學、信息學、心理學等領(lǐng)域的相關(guān)研究成果,研究互聯(lián)網(wǎng)時代投資者關(guān)注熱點,為新老投資者的投資決策提供科學數(shù)據(jù)支持[13]。
利用S-O-R理論模型即刺激-機體-反應(yīng)理論模型,強調(diào)外部環(huán)境的刺激引發(fā)機體的內(nèi)化作用最后產(chǎn)生機體的行為變化[14]。以及前文的結(jié)論來分析,其理論影響模型如圖3所示。
根據(jù)上述行為影響模型不難發(fā)現(xiàn)其實最重要的一環(huán)還是投資者自身的認知能力,當投資的外部環(huán)境對投資者產(chǎn)生刺激時,投資者自身的認知和經(jīng)驗就顯得尤為重要,因為這會直接影響下一步的投資行為。
所以投資者在進行理財投資的過程中應(yīng)當注意自身理財技能和認知能力的提升,多多關(guān)注財經(jīng)新聞,特別是當下新興流量媒體平臺的興起使得信息的獲取成本降低,為投資者自身投資理財知識的獲取提供了更多的便利。
4???結(jié)論與展望
根據(jù)研究發(fā)現(xiàn)資金流向成為投資者最為關(guān)注的指標,并且利用這一指標進一步發(fā)現(xiàn)了主力資金凈流入和股價走勢是成正比的。同時機構(gòu)、凈利潤、行業(yè)板塊、營業(yè)總收入、估值、財務(wù)報表、股價走勢也是投資者關(guān)注的熱點主題詞。
同時將主題詞歸類并利用S-O-R理論模型構(gòu)建了影響投資者投資行為的理論模型圖,分析出影響投資者投資行為的內(nèi)外部因素,并且根據(jù)模型指出投資者自身認知能力是最重要的一環(huán)。
流量化時代,新的媒體宣傳平臺再加上智能終端的快速普及使得人人都知道投資理財,投資者群體正在以肉眼可見的速度進行增長。因此對投資者關(guān)注主題及其投資行為的分析有助于更好地了解投資者的喜好同時可以讓新的投資者少走彎路,一定程度上減少投資損失,增強其投資信心,從而可以起到維護國家金融市場穩(wěn)定,擴大資金規(guī)模的作用。
參考文獻
[1] 林樹,葛逸云,朱超.基金經(jīng)理語調(diào)與投資行為——基于基金年報的文本分析方法[J].證券市場導報,2021(8):58-70.
[2] 李苗,李村璞.高管薪酬攀比心理、控股股東性質(zhì)與投資行為[J].統(tǒng)計與決策,2021,37(12):178-181.
[3] 趙勝民,張博超.分析師關(guān)注如何影響公司投資行為——基于不同投資類型的分析[J].中央財經(jīng)大學學報,2021(5):51-64.
[4] 馬天平,盧旭蕊,李沁洋.虧損后投資者風險偏好的變化——基于“原油寶”事件的檢驗[J].金融論壇,2021,26(9):49-57.
[5] 葛如一,胡蓉.互聯(lián)網(wǎng)金融環(huán)境下智能投顧對于投資行為的影響[J].系統(tǒng)管理學報,2021,30(1):94-100.
[6] 顏端武,梅喜瑞,楊雄飛,等.基于主題模型和詞向量融合的微博文本主題聚類研究[J].現(xiàn)代情報,2021,41(10):67-74.
[7] 楊奕,張毅.復雜公共議題下社交媒體主題演化趨勢與社會網(wǎng)絡(luò)分析——以中美貿(mào)易爭端為案例的比較研究[J].現(xiàn)代情報,2021,41(3):94-109.
[8] 曹樹金,岳文玉.突發(fā)公共衛(wèi)生事件微博輿情主題挖掘與演化分析[J].信息資源管理學報,2020,10(6):28-37.
[9] 楊建梁,劉越男,祁天嬌,等.重大公共衛(wèi)生事件中民眾訴求的主題挖掘與演變透視[J].圖書館論壇,2021,41(4):121-131.
[10] 羅棋,閔超,顏嘉麒,等.國際區(qū)塊鏈研究主題挖掘及演化分析[J].現(xiàn)代情報,2021,41(9):157-166.
[11] 夏鑫,田曉楠,劉永飛,等.投資者關(guān)注、融資融券交易與股價信息含量——基于交易所互動交易平臺的經(jīng)驗數(shù)據(jù)[J].會計之友,2021(17):75-82.
[12] 王文韜,張震,張坤,等.融合SOR理論的智能健康手環(huán)用戶不持續(xù)使用行為研究[J].圖書館論壇,2020,40(5):92-102.
[13] 黃仕靖,許縵.基于SOR理論的移動電商網(wǎng)絡(luò)直播對用戶在線購買意愿的影響機制研究[J].統(tǒng)計與管理,2021,36(7):122-128.
[14] 江琳,李民.基于SOR和TAM的社會化電商用戶持續(xù)意愿影響因素研究[J].科技促進發(fā)展,2021,17(4):808-815.