王喜東
(云南財經(jīng)大學 公共管理學院,昆明 650221)
?
財務(wù)信息的情感分析技術(shù)研究及應用
王喜東
(云南財經(jīng)大學公共管理學院,昆明650221)
[摘要]微博的出現(xiàn)無疑成為了人們表達個人觀點的一個平臺,涉及到各個領(lǐng)域。目前針對財務(wù)領(lǐng)域的情感分析大多集中在新聞、媒體上,微博則觀點自由,更加真實。通過對上市公司的股票微博評論內(nèi)容的挖掘,基于機器學習和字典知識的情感分析技術(shù),根據(jù)其情感傾向分析結(jié)果,判斷其股票走勢,進而預測上市公司的財務(wù)狀況,對有財務(wù)危機的公司提出預警。實驗結(jié)果表明,該方法可提前兩個月預測公司經(jīng)營狀況,為領(lǐng)導層提供決策支持。
[關(guān)鍵詞]情感分析;微博股評;Web挖掘
隨著信息技術(shù)的更新,人們的交流平臺也在不斷變化著。微博的出現(xiàn)無疑使這種交流更加便捷、更加廣泛。金融市場瞬息萬變,財務(wù)微博則實時反映著市場變化,并且其言論也對金融市場有著重要的影響。
Web財務(wù)方面信息大致分為論壇和新聞,目前的針對財務(wù)信息的情感分析都是以傳統(tǒng)新聞和財務(wù)媒體為載體,很少有以微博為資源的情感分析。本文轉(zhuǎn)向了一種基于金融財務(wù)文本數(shù)據(jù)——微博股評內(nèi)容的情感挖掘,原因如下:①由于部分媒體自身職業(yè)道德的缺失,對一些上市公司而采取迎合的態(tài)度,只是報道有利公司因素而忽略其不利因素,以至于我們很難在網(wǎng)上找到相關(guān)公司的負面報道;②微博提供了一個自由言論的平臺,敢于說出自己的觀點,善于做預測,而且針對性更強。
1.1微博股評數(shù)據(jù)集抓取
目前,對Web上文本數(shù)據(jù)的提取一般有兩種方式:①用爬蟲,根據(jù)設(shè)定的算法來獲??;②根據(jù)網(wǎng)站提供的應用程序接口,直接調(diào)用,來獲取想要的數(shù)據(jù)。
新浪微博則采取了Ajax數(shù)據(jù)推送技術(shù),實現(xiàn)無刷新頁面,提高數(shù)據(jù)顯示速度,帶來了更好的用戶體驗。
在新浪HTML源代碼中,找不到相關(guān)微博內(nèi)容,這是因為新浪微博采用了JS和Ajax技術(shù),異步刷新頁面,動態(tài)加載提供數(shù)據(jù)。而傳統(tǒng)的網(wǎng)絡(luò)蜘蛛爬蟲則是根據(jù)DOM樹來解析網(wǎng)頁,提取文本數(shù)據(jù),調(diào)用JavaScript并利用Ajax動態(tài)加載的方式,則使傳統(tǒng)的爬蟲獲取不了所需的數(shù)據(jù),失去應有的作用。
通過以上分析,本文則采用新浪微博的開放平臺所提供的API接口,來獲取所需要的文本信息。新浪開放平臺提供了25個常用接口,其中部分為高級權(quán)限接口,需要經(jīng)過申請,然后新浪授權(quán)才可以調(diào)用;還有部分是需要單獨向用戶提出SCOPF授權(quán)請求并且在用戶單獨授權(quán)后才可以調(diào)用的接口。
1.2數(shù)據(jù)集預處理
預處理模塊包含機器學習中訓練集數(shù)據(jù)獲取、文本信息噪聲移除、中文分詞和詞性標注。其流程如圖1所示。
圖1 預處理模塊流程圖
本文將利用爬蟲爬去股評網(wǎng)站上的文本數(shù)據(jù)來作為訓練集訓練分類器,將從微博上獲取的文本數(shù)據(jù)作為測試集進而輸出分類結(jié)果。對于爬蟲爬取得數(shù)據(jù),利用DiffPost算法除去噪音數(shù)據(jù),還有一些句子無任何感情色彩,將借助于情感詞典除去這部分內(nèi)容。另外,為了情感分析的高效性,將除去重復的和少于三個字的評論。
2.1基于HowNet構(gòu)造
HowNet詞語詞典包含:219個中文程度意義級別詞語、3 116個中文負向評價詞語、3 730個中文正向評價詞語、1 254個中文負向情感詞語和836個中文正向情感詞語。另外還擁有38個中文主張詞語。
基于知網(wǎng)的基礎(chǔ)詞典和武漢大學的帶有權(quán)值情感詞的語料庫,再加上微博提供的表情作為情緒詞也一同加入情感詞典中,一共得到1 456個帶有權(quán)值的情感詞,部分權(quán)值為人為判斷并加上去。
除了構(gòu)建情感詞典之外,還人工構(gòu)建了否定詞詞典(20個)和程度詞詞典(40個),具體示例內(nèi)容如表1所示。
表1 部分詞典內(nèi)容示例
2.2人工添加
用于情感分析的語料我們的標注方法為:人員分組,每組各人先單獨標注,然后存檔,這樣每組都有一個標注結(jié)果,然后進行整合。本研究只是標注了一些詞語級的情感語料,然后添加到HowNet情感詞中。
對于所標注的情感語料存在三方面的問題:由于一些人為因素,很多詞語是否是情感詞有待斟酌;帶有歧義的情感詞如何消歧;情感權(quán)值賦值該如何準確確定,需要專家領(lǐng)域人員商討。
3.1實驗數(shù)據(jù)集選取及原因分析
本文增加了對股評文本的抓取,作為訓練集來訓練分類器。測試集部分仍采用微博評論。
機器學習中訓練集數(shù)據(jù)是從股吧網(wǎng)站上(http://guba.eastmoney.com)提取,利用爬蟲抓取了2012年10月之前對金馬集團的股評數(shù)據(jù)。本文則提前兩個月根據(jù)微博股評來預測金馬集團股票的走勢,進而判斷該上市公司的經(jīng)營狀況,提前為公司領(lǐng)導層提供決策支持,進而采取有效措施,預防財務(wù)危機。
3.2實驗結(jié)果與分析
3.2.1機器學習實驗結(jié)果
本文的測評指標為準確率(Precision),召回率(RecaII)和F值(F-measure)。
訓練參數(shù)設(shè)置如下:特征選擇方法為信息熵(InformationGain);特征空間維數(shù)為1 000維;概率估算方法為基于詞頻統(tǒng)計;特征選擇方式為全局打分。SVM(支持向量機)參數(shù)設(shè)置為:學習過程中的懲罰系數(shù)為1.0,利用有偏差的超平面并移除不一致的特例;核函數(shù)類型設(shè)置為線性的;決策函數(shù)中的常數(shù)項設(shè)置為1;緩存大小設(shè)置為40 MB;可容忍偏差為0.001;迭代次數(shù)設(shè)置為100。
對261篇測試集股評數(shù)據(jù)情感分類結(jié)果如表2所示,利用機器學習方法對測試集情感分類結(jié)果與人工識別對比結(jié)果如表3所示。
表2 測試集情感分類結(jié)果
表3 測試集情感分類結(jié)果與人工識別對比
由表2和表3可以得出情感分類評價指標查全率和查準率如表4所示。
表4 查全率和查準率
由表4可以得到圖示微博股評查全率和查準率如圖2所示;分類測試結(jié)果統(tǒng)計圖如圖3所示。
圖2 微博股評查全率和查準率
圖3 微博股評分類測試結(jié)果圖
其中微觀平均和宏觀平均是用列聯(lián)表對單類賦值分類器的性能評估,其計算方法采用以下公式:公式(1)和公式(2)為宏觀平均;公式(3)和公式(4)為微觀平均。
其中:a表示人工標注屬于正面情感并且經(jīng)分類判斷也為屬于正面情感的文檔;b表示人工標注屬于反面情感但是經(jīng)分類后判斷為屬于正面情感的文檔數(shù);c表示人工標注屬于正面情感但是經(jīng)分類后判斷為屬于反面情感的文檔數(shù);d表示人工標注屬于反面情感并且經(jīng)過分類后判斷為屬于反面情感的文檔數(shù)。
3.2.2基于情感詞典實驗結(jié)果
依據(jù)我們構(gòu)建的針對特定金融領(lǐng)域的情感詞典,情感分類實驗數(shù)據(jù)仍是上節(jié)基于機器學習的測試集股評文本信息,最終得到的情感分類結(jié)果如表5所示。
表5 基于情感詞典情感分類結(jié)果
3.3實驗結(jié)果對比分析
本實驗主要利用三種方法來完成,分別為人工標注股評文本語料庫、利用機器學習方法對股評文本語料庫進行情感分類和基于情感詞典進行股評情感分類。得到最終對比結(jié)果如表6所示。
表6 三種方法實驗結(jié)果對比
我們以人工標注的股評分類結(jié)果為標準,將機器學習和基于情感詞典的分類結(jié)果進行誤差對比計算,計算結(jié)果如表7所示。
表7 機器學習和情感詞典分類結(jié)果誤差對比
由表所示結(jié)果可以看出:無論以哪種方法來對金馬集團微博股評情感分析,結(jié)果都是負面情感所占百分比較高,進而可以推測金馬集團存在財務(wù)狀況運行不佳,為金馬集團財務(wù)危機進行預警
本文的研究對象微博內(nèi)容除正常的文本文字外,還有各種表情、圖片和標簽等,博主根據(jù)自己的用語愛好來抒發(fā)自己的情感,于是各種符號、火星語、無結(jié)構(gòu)化句子和無主題文本應有盡有,而本論文則只是提取并分析微博股評文本和部分情感極性較強的表情符號,其他的則沒有考慮,這種處理無疑讓我們丟失了很多重要的情感信息。未來的工作研究中,將逐步增加微博文本研究范圍,對于情感值的計算更加細化,加入博主的語言風格模型,提高分類精度。完善表情符號、圖片和標簽的情感抽取。完善基于HowNet的財務(wù)信息情感詞庫,基于義原,計算相似度對文檔情感極性進行分析。
對于SVM核函數(shù)選擇,本文只是選擇了一個最容易實現(xiàn)的線性核函數(shù),期望在將來的研究中,逐步實現(xiàn)多項式核(g*u’*v+ coef 0)degree、RBF核:e(uv2)g、sigmoid核:tanh(g*u’*v+ coef 0)等,并對不同領(lǐng)域不同核函數(shù)進行對比,得出針對特定領(lǐng)域的最優(yōu)核函數(shù)。
主要參考文獻
[1]Yang Shu-e,Huang Li.FinanciaI Crisis Warning ModeI Based on BP NeuraI Network.Systems Fngineering -theory & Practice[J],2005,25(1):45- 51.
[2]A Bermingham,A F Smeaton.A Study of Inter-annotator Agreement for Opinion RetrievaI[C]//SIGIR’09:Proceedings of the 32nd AnnuaI InternationaI ACM SIGIR Conference on Research and DeveIopment in Information RetrievaI,2009:784-785.
[3]Zhao Wayne Xin,Jing Jiang,Weng Jianshu,et aI.Comparing Twitter and TraditionaI Media Using Topic ModeIs[C]//Proceedings of 33rd Furopean Conference on Information RetrievaI(FCIR’11).BerIin,HeideIberg:Springer-VerIag,2011:338-349.
[4]楊勇濤.Web輿情觀點挖掘關(guān)鍵技術(shù)研究[D].成都:電子科技大學,2009.
[5]胡靜,蔣外文,朱華.Web文本挖掘中數(shù)據(jù)預處理技術(shù)研究[J].現(xiàn)代計算機:專業(yè)版,2009(3):48-50.
[6]柳位平,朱艷輝,栗春亮,等.中文基礎(chǔ)情感詞詞典構(gòu)建方法研究[J].計算機應用,2009,29(10):2875 - 2877.
[7]廖祥文.基于博主背景的博客傾向性檢索歸一化策略[J].中文信息學報,2010,24(3):75 -80.
[8]謝昊,江紅.一種面向微博主題挖掘的改進LDA模型[J].華東師范大學學報:自然科學版,2013,11(6):93-100.
[9]馬雯雯,魏文晗,鄧一貴.基于隱含語義分析的微博話題發(fā)現(xiàn)方法[J].計算機工程與應用,2014,50(1):96-99.
doi:10.3969/j.issn.1673 - 0194.2016.03.104
[中圖分類號]TP301
[文獻標識碼]A
[文章編號]1673-0194(2016)03-0195-03
[收稿日期]2015-10-12
[基金項目]云南財經(jīng)大學??蒲星嗄觏椖俊盎谖谋厩楦蟹治黾夹g(shù)的上市公司財務(wù)危機預警”(YC2014B14)。