宋祖康 閻瑞霞 辜麗瓊
摘 要:作為社交網(wǎng)絡重要載體,微博成為信息傳播的重要平臺,承載著公眾情感表達及輿論傳播的重要功能。對微博博文及評論作出主題概括及情感分析在網(wǎng)絡管控、輿情監(jiān)測及公眾情緒引導方面具有重要的實踐意義。提出一種基于機器學習與文本分析的主題概括及情感分析模型。以武漢理工大學研究生墜亡事件為話題,利用Word2vec將文本轉化為詞向量,并且通過機器學習聚類方法對輿情各個生命周期過程進行主題概括,采用基于詞典文本分析方法,對評論文本進行多元情感分析,對表現(xiàn)突出的情感大類作細粒度分析,最終實現(xiàn)基于主題與情感分析的多元細粒度公眾情感變化分析模型。該分析模型可在特定輿情事件下得出公眾在各階段的關注中心及情緒變化規(guī)律,實現(xiàn)輿情主題與情感變化的協(xié)同演化研究。
關鍵詞:主題概括;Word2vec;K-Means;情感分析
DOI:10. 11907/rjdk. 182107
中圖分類號:TP301文獻標識碼:A文章編號:1672-7800(2019)004-0004-05
0 引言
作為社交網(wǎng)絡的重要載體,微博以簡潔、短小的特點爆發(fā)式成長,截至2017年年底,微博已發(fā)展至4億用戶。微博的特點在于可以即時分享,信息傳播不受時間、空間影響,因此成為熱點輿論產(chǎn)生及傳播的重要平臺。平臺上信息傳播深度、廣度及速度均有驚人潛力,若不能及時對公眾情感作出更加準確的分析與把握,可能會使其成為國家與社會不安定的潛在因素,甚至引起極大恐慌。因此,對輿情事件下公眾情緒進行細粒度多元情感分析刻畫,對于維護社會穩(wěn)定、消除社會潛在不穩(wěn)定因素有深遠影響與意義。
1 研究現(xiàn)狀
國內(nèi)外學者在短文本主題概括與情感分析方面積累了大量有意義的成果。在微博博文主題概括方面,目前常用模型為LDA主題抽取模型,李保利等[1]通過LDA模型自動抽取一個時間間隔里的話題,得到不同話題,然后通過簡單的啟發(fā)式規(guī)則找出種子話題,并根據(jù)種子話題語義相似度將其進行關聯(lián),得到話題演化趨勢。然而,由于LDA模型采用的是詞袋方法,每篇文檔被視作一個詞頻向量, LDA模型并沒有考慮詞與詞之間的關系,因此會漏掉一些關鍵特征。近年來,隨著機器學習、深度學習的研究不斷深入,越來越多的實例證明,基于神經(jīng)網(wǎng)絡模型的Word2vec開源算法在提取微博主題上顯著優(yōu)于LDA主題模型,其中,安璐等[2]通過Word2vec模型對微博主題進行提取,取得了較好結果;薛煒明等[3]使用Word2vec算法,通過大量實驗將其與傳統(tǒng)詞袋模型、經(jīng)典KNN算法及其改進方法進行效果對比,證明了算法優(yōu)良性。然而,以上研究大多數(shù)關注Word2vec模型應用及中文短文本分詞,仍使用傳統(tǒng)聚類方法進行中文主題概括,不能有效地對短文本進行分析。因此,本文通過Word2vec工具集將詞語轉化為詞向量,并引入無監(jiān)督學習下的K-Means均值聚類算法,力求對各個時序階段的微博博文主題準確抽取。
針對文本情感分析的研究方法有兩種:一種是基于機器學習,另一種是基于情感詞典?;跈C器學習方面,李巖等[4] 基于短文本聚類及評論情感分析,在一定程度上解決了由于關鍵詞稀疏特征引起的相似度漂移問題;王宏偉等[5]在分析用戶評論后對其中隱含的情感信息進行識別,并研究了用戶情感演化過程;張小倩[6]將微博文本極性轉移分為強調(diào)、否定、轉折3種類型,根據(jù)該研究,王文凱[7]設置了一種注意力機制以解決非連續(xù)詞情感相關性導致的極性轉移現(xiàn)象,并且引入卷積神經(jīng)網(wǎng)絡,通過注意力機制捕獲長距離上下文之間的相關性。然而,由于機器學習十分依賴標注的訓練集,但在海量數(shù)據(jù)的情況下又難以實現(xiàn),因此機器學習方法存在一定局限性。在基于字典的研究方面,國內(nèi)現(xiàn)在較為成熟的字典有大連理工大學情感詞匯本體庫[16]、臺灣大學“NTUSD”中文情感極性字典[11]及知網(wǎng)HowNet情感字典[12]。
綜上所述,本文參考大連理工大學情感詞匯本體庫[16],以武漢理工大學研究生跳樓事件為實驗案例,建立一個基于Word2vec與K-Means均值算法的細粒度多元情感分析模型。該模型可更加細致地掌握公眾情緒發(fā)展走向,并對各階段博文主題進行主題概括,有助于在各個階段更好地把握輿論中心走向,對公眾言論作出更有效的辨別和管控,為有關部門更加精準地遏制謠言及更加全面地掌握公眾情感提供參考意見。
2 研究框架
2.1 Word2vec算法
Word2vec是Google公司在2013年開源的一款將詞表征為實數(shù)值向量的工具,其基本思想來源于Mikolov提出的CBOW及Skip-gram模型。最早提出的前饋神經(jīng)網(wǎng)絡模型NNLM由4個主要層級構成,分別為輸入層、映射層、隱藏層及輸出層,主要計算障礙是從映射層到隱藏層的計算,為提升計算效率,Mikolov提出CBOW及Skip-gram模型,本文主要使用Python開源庫Gensim工具包的Skip-gram模型進行求解。
Skip-gram是一個簡單的神經(jīng)網(wǎng)絡模型,主要思想是根據(jù)當前單詞預測前后文語境,其輸入層為一個輸入單元,輸入值為當前單詞,輸出層是前后文單詞,輸出層數(shù)量為用戶設置的窗口數(shù), 將Skip-gram模型的前向計算過程攜程數(shù)學形式,為方便敘述,定義以下符號:文本集合為[T],當前單詞為[w],語境[c]定義為以單詞[w]為起點,向前[k]個數(shù)量、向后[k]個數(shù)量所包含的單詞,模型參數(shù)設為[θ],在[w]確定的情況下,上下文單詞[c]出現(xiàn)的概率設為[pc|w;θ],在文本中,單詞[w]所有上下文單詞[c]的集合設為[Cw],切分后的文本詞匯表設為[V],所有[w]及相對應[Cw]的集合設為[D],Skip-gram目標函數(shù)利用隨機梯度下降最大化以下條件的概率乘積為:
2.2 K-Means均值算法
將得到的詞向量作為訓練文本,使用K-Means聚類方法進行聚類。聚類分析是一種無監(jiān)督學習的方法,與分類不同的地方在于分類目標已預知,但聚類類別是沒有定義的,聚類分析試圖將相似的對象歸入同一簇中,在本文K-Means聚類中,相似度由兩個詞向量之間的歐氏距離決定。
K-Means主要目的是發(fā)現(xiàn)給定數(shù)據(jù)集的[k]個簇。首先隨機選定[k]個質(zhì)心,然后將數(shù)據(jù)集中的每個點按照歐氏距離計算其與[k]個質(zhì)心的相似度,將各個點分配到離它們最近的質(zhì)心所在簇中,遍歷整個數(shù)據(jù)集后,將每個簇的質(zhì)心更新為該簇所有點的平均值,然后重復上述過程。K-Means算法迭代過程在算法迭代到指定步數(shù)或其誤差值小于設定閾值時停止,K-Means誤差值為簇中每個點到質(zhì)心的距離之和,該誤差值也可用來對聚類效果進行評價,本文根據(jù)聚類結果得到相應階段的輿論中心話題。
3 文本情感分析——基于情感詞典
通過博文得到各階段的主題后,本文對各階段評論的情感進行分析,獲得輿情發(fā)展過程中公眾情感變化。本文參考大連理工大學情感詞匯本體庫,對各階段微博評論進行細粒度多元情感分析。
在文本預處理方面,由于微博具有短文本特點,其行文風格偏向口語化,因此本文在去除停用詞的步驟中,不僅去除常用停用詞,還根據(jù)詞頻統(tǒng)計,去除出現(xiàn)較多的詞匯,以保證高頻詞匯情感取值不會影響本文情感分析。
本文參照大連理工情感詞匯本體庫[16],根據(jù)武漢理工大學研究生墜亡事件的語境基礎,將其情感分類略作修改,將情感分為七大類,分別為樂、信、諷、哀、懼、惡、驚,具體分類見表1。
在傳統(tǒng)文本情感分析中,否定詞的研究是一個重要環(huán)節(jié),傳統(tǒng)情感分析往往是極性分析,分析判斷目標僅是二元極性,而本文情感分析為細粒度多元分析。當分析文本為微博短文本時,否定詞會產(chǎn)生豐富的語義內(nèi)容,若一概而論,僅將其作反向轉變情感處理,則有失偏駁,因此本文設定規(guī)則,根據(jù)實際情況,若在情感大類敬這類詞語前3個窗口內(nèi)出現(xiàn)否定詞,則將文本情感極性轉換為“惡”,若在其它情感大類的詞語向前3個窗口內(nèi)出現(xiàn)否定詞,則削減其情感強度,見公式(4)。
程度副詞表及各個程度副詞賦分情況部分截取見表2。
最后將各情感大類的情感得分相加,并畫出直方圖,對情感分析結果進行可視化。
通過對各個情感大類的劃分,可得出情感比較集中的幾個類,再對幾個類中的各個小類進行同樣的情感判別分析,通過細粒度劃分出公眾此時具體情感。
4 案例分析
4.1 文本主題概括
本文以武漢理工大學研究生跳樓事件為實驗案例,搜集3月29號開始一個月內(nèi)4 849條博文,經(jīng)去重操作后剩 1 941條。按照時間對其進行聚類分析,最終得到9 607個詞語分類結果,根據(jù)賈亞敏等[10]結合城市突發(fā)事件的特點及具體案例劃分的輿情傳播生命周期(起始階段、爆發(fā)階段、衰退階段和平息階段),結合數(shù)據(jù)特征,得出各階段微博發(fā)文數(shù)量分布,如圖1所示。
結合微博熱點時效短、公眾注意力容易被轉移且言論管控嚴的特點,將本事件分為3個階段,分別為起始階段(3.29-4.2)、爆發(fā)階段(4.3-4.10)與平息階段(4.11-4.30),并提取相關微博博文主題詞,見表3。
從整個輿論主題演化過程來看,此次事件從起始階段寒門學子不堪重負自殺開始,兩天后事件當事人王某作出回應,此時公眾熱點已經(jīng)形成,事件走向爆發(fā),直至武漢理工大學在4月8號作出回應時達到高潮,公眾大多表達了憤怒及質(zhì)疑的情緒,并且由此次事件深挖到北京大學沈陽當年性侵女生致其自殺的新聞,而當事件發(fā)酵到一定時期后,網(wǎng)絡上便開始出現(xiàn)了一些雖沒有根據(jù)、但邏輯卻很通順的謠言,由此事件開始轉化為社會不穩(wěn)定因素,相關危機管理部門為了防止謠言擴散及事態(tài)進一步惡化,開始對微博大量用戶刪帖禁言,使事件很快進入了衰退階段,這也與前段時間的“北電侯亮平”、“三色幼兒園”等事件的發(fā)展軌跡相似。
4.2 文本情感分析
本文對網(wǎng)友評論進行情感分析,根據(jù)爬蟲爬取一個月內(nèi)15 523條有關評論推演公眾各階段情緒變化。
首先本文對各階段公眾情感進行情感大類分析,見圖2。
從圖2中可以看出,這起事件引起的公眾情感大多集中于惡及諷刺,并且無論在哪一個階段,惡的情緒都處于高漲階段;在第二個階段,即爆發(fā)階段,公眾對該事件惡的情感達到最大值,因此本文對惡的情緒再作細粒度情感分析,見圖3。
從圖中可以看出,公眾情感大多集中于憎惡與貶責,在事件爆發(fā)前期,公眾大多持貶責及憎惡的情緒,對導師壓榨學生一事,這些情緒是正常表現(xiàn),公眾一方面是憎惡該事件,另一方面,根據(jù)聚類主題可看出,公眾同時也在譴責學校及領導管理不善,譴責導師師德淪喪。在事件演化到輿論中期時,憎惡的情感愈演愈烈,貶責的情感雖有所下降,但仍然高居不下,在此期間,導師王某以及武漢理工大學相繼發(fā)表申明,這也導致了憎惡情緒不斷攀升,懷疑的情緒也到達了周期峰值。在事件末期,除憎惡外,所有情緒都出現(xiàn)了相當程度的衰退,再加上有關部門網(wǎng)論管控,其它更新鮮的事件發(fā)生,此時微博熱點效應已經(jīng)過去,然而從情感大類的分析圖中可看出,此時公眾情緒并沒有從惡、諷轉向哀、信,惡、諷這兩種負面情緒依然占據(jù)主流,此時公眾依然對該事件懷有強烈的不信任,對整個導師制度及對校方處理方式不滿,因此在這種情況下事后相關部門進行追罰、完善制度才是引導輿論導向積極情緒,防止該類悲劇再次發(fā)生的根本辦法。
由此可以看出,分析輿情事件下的公眾情感態(tài)度可以幫助有關部門更加準確地把握各時段公眾情緒,制定符合當前狀況的有效措施。在事件起始階段,有關部門應當及時分析公眾情感,對事件有關人員作出處罰,緩和公眾與政府、有關單位之間的緊張關系,避免引發(fā)大規(guī)模不滿情緒;在時間爆發(fā)階段,有關部門應當及時公布事件處理進程,分析網(wǎng)民情緒構成,避免謠言傳播,通過社交媒體等多個途徑使事件調(diào)查結果公開化、透明化;在事件末尾階段,有關部門應該分析公眾此時主要情感,有針對地安撫公眾情緒,做好善后工作,并且將結果反饋給相關部門,避免該類影響社會安定的事件再次發(fā)生,而如果此時公眾情感仍處于偏激、負面狀態(tài),有關部門更應該反思該周期內(nèi)工作是否到位,分析是由于措施有效性不足,還是自身權威性已有所下降或其它原因造成了不良后果。
5 結語
本文構建了一個基于主題及細粒度文本分析的公眾情感分析模型,使用機器學習方法,用構建詞向量聚類分析的構想,得到了不同周期下輿情事件的主題概括,并在不同周期下對公眾情感基于詞典進行細粒度分析,結合武漢理工大學研究生墜亡事件,論證了結合各階段主體及情感演化,可有效把握公眾情感變化趨勢。本文建立的模型可為有關危機管理部門提供借鑒,有助于有關部門在認知輿情事件中實現(xiàn)有效輿情管控及情緒引導。
由于本研究是基于詞典的情感分析,對詞典依賴性較強,在實踐中發(fā)現(xiàn),大連理工大學情感詞匯本體庫仍有許多不完善之處,并且由于中文的復雜性,對有些反諷、一詞多義現(xiàn)象處理得還不夠完善,在下一步的工作中需完善情感詞匯本體庫,提高情感分析有效性及準確性。
參考文獻:
[1] 李保利,楊星. 基于LDA模型和話題過濾的研究主題演化分析[J]. 小型微型計算機系統(tǒng),2012,33(12):2738-2743.
[2] 安璐,吳林. 融合主題與情感特征的突發(fā)事件微博輿情演化分析[J]. 圖書情報工作,2017,61(15):120-129.
[3] 薛煒明,侯霞,李寧. 一種基于Word2vec 的文本分類方法[J].? 北京信息科技大學學報2018,33(1):72-75.
[4] 李巖,韓斌,趙劍,等. 基于短文本及情感分析的微博輿情分析[J]. 計算機應用與軟件,2013,30(12):240-243.
[5] 王宏偉,劉勰,尹裴,等. 基于語義分析的微博搜索[J]. 情報學報,2010(5):931-938.
[6] 張小倩. 情感極性轉移現(xiàn)象研究及應用[D]. 蘇州:蘇州大學, 2012.
[7] 王文凱,王黎明,柴玉梅,等. 基于卷積神經(jīng)網(wǎng)絡和Tree-LSTM的微博情感分析[J/OL]. 計算機應用與研究,2019,36(5):1-7.2018- 03-09.http://www.arocmag.com/article/02-2019-05-007.html.
[8] 杜振雷. 面向微博短文本的情感分析研究[D]. 北京:北京信息科技大學,2013.
[9] 馮成剛,田大鋼. 基于機器學習的微博情感分類研究[J]. 軟件導刊,2018,17(6): 58-61.
[10] 賈亞敏,安璐,李綱,城市突發(fā)事件網(wǎng)絡信息傳播時序變化規(guī)律研究[J]. 情報雜志,2015,34(4):91-96.
[11] 臺灣大學NTUSD中文情感極性字典[EB/OL].? https://download.csdn.net/download/huixion/9470816.
[12] 知網(wǎng). HowNet情感字典[EB/OL]. http://www.keenage.com/.
[13] 韓忠明,張玉沙,張慧,等. 有效的中文微博短文本傾向性分類算法[J]. 計算機應用與軟件,2012,29(10):89-93.
[14] DAVISON B D. Structural link analysis and prediction in Microblogs[C]. Proceedings of the 20th ACM Conference on Information and Knowledge Management, 2011 :1163-1168.
[15] HANNON J,BENNETT M,SMYTH B. Recommending Twitter users to follow using content and collaborative filtering approaches[C]. Proceedings of the 2010 ACM Conference on Recommender Systems, 2010:199-206.
[16] 大連理工大學. 大連理工大學情感詞匯本體庫[DB/OL].? http://ir.dlut.edu.cn/group/detail/4.
(責任編輯:江 艷)