劉翠娟 劉箴 柴艷杰 方昊 劉良平
?
基于微博文本數(shù)據(jù)分析的社會群體情感可視計(jì)算方法研究
劉翠娟1,2劉箴1,?柴艷杰1方昊1劉良平1
1.寧波大學(xué)信息科學(xué)與工程學(xué)院, 寧波 315211; 2.浙江萬里學(xué)院智能控制研究所, 寧波 315100; ?通信作者, E-mail: liuzhen@nbu.edu.cn
針對已有的情感分析研究多側(cè)重在情感的傾向性方面, 缺乏對各類情感的詳細(xì)描述, 不能形象直觀地反映社會群體的情感變化的問題, 提出一種基于依存句法和人工標(biāo)注相結(jié)合的情感分析方法。該方法采用三維立體的人臉表情進(jìn)行情感分析, 形象地呈現(xiàn)社會群體的情感變化。對于不同的社會事件, 以可視化方式來展現(xiàn)不同地區(qū)微博群體的情感。實(shí)驗(yàn)結(jié)果表明, 該模型可以有效地描述人群情感, 研究結(jié)果為基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析提供了一種新思路。
文本分析; 微博; 情感分析; 可視計(jì)算
隨著移動互聯(lián)網(wǎng)的發(fā)展, 社會媒體成為人們表達(dá)情感的重要載體。微博作為傳播較廣泛的社會媒體, 已經(jīng)成為了解民眾情感的重要渠道。面對既龐大又看似雜亂無章的微博數(shù)據(jù), 如何有效地通過已有數(shù)據(jù)提取有價(jià)值的信息進(jìn)而分析網(wǎng)絡(luò)輿情[1], 并以更加清晰的方式呈現(xiàn), 成為當(dāng)前備受關(guān)注的重要研究領(lǐng)域。
雖然關(guān)于文本的情感傾向性研究已取得不少成果, 但是社會媒體群體情感可視分析方面的相關(guān)研究很少見。本文首先對基于微博的文本情感分析和大數(shù)據(jù)的可視化進(jìn)行綜述。然后給出微博文本的情感計(jì)算模型, 提出一種基于依存句法和人工標(biāo)注相結(jié)合的情感分析方法, 并以三維立體的人臉表情呈現(xiàn)群體情感。最后結(jié)合微博文本分析實(shí)驗(yàn), 說明群體情感分析的思路。本文從社會計(jì)算的視角進(jìn)行群體情感分析, 針對特定話題, 從微博等社會傳感網(wǎng)絡(luò)獲取所關(guān)注的社會信號, 從中提取感興趣的社會事件信息。本文研究結(jié)果可為深入開展微博群體情感分析研究提供一種新的視角。
1 相關(guān)研究
關(guān)于微博情感分析的研究已經(jīng)積累了很多工作?;跈C(jī)器學(xué)習(xí)的方法把文本情感分析看做分類問題, 采用樸素貝葉斯、K最鄰近、支持向量機(jī)和條件隨機(jī)場等算法構(gòu)造分類器, 通過對訓(xùn)練集的特征進(jìn)行學(xué)習(xí)來構(gòu)造模型。從監(jiān)督微博群體情感的視角, 情感分析的計(jì)算效率較高。采用機(jī)器學(xué)習(xí)的方法, 由于需要訓(xùn)練大量的樣本[2], 對技術(shù)速度要求較高。因此, 采用基于情感詞匹配的方法并結(jié)合句法分析(syntactic parsing)成為群體情感計(jì)算的有效途徑。Caro等[3]提出一個模型, 通過語義理解分析用戶的情感, 并借助數(shù)據(jù)可視化展現(xiàn)情感的正負(fù)強(qiáng)度。Loia等[4]提出一個提取情感的框架, 采用四維情感層次, 利用同義詞集合計(jì)算情感的相似度, 結(jié)合模糊集的語義模式計(jì)算情感強(qiáng)度。實(shí)驗(yàn)證明, 此框架能很好分析文本中情感的極性。Wang等[5]提出一個交互的可視化系統(tǒng), 用于分析互聯(lián)網(wǎng)上用戶的群體情感, 采用細(xì)胞自動機(jī)模型比較時(shí)變特性, 可以適用不同的社交平臺。關(guān)于情感原因的檢測, Lee等[6]提出一個文本驅(qū)動的、以規(guī)則為基礎(chǔ)的情感原因的檢測方法, 構(gòu)建了一個情感原因標(biāo)注語料庫和檢測系統(tǒng), 經(jīng)驗(yàn)證, 取得顯著效果, 有助于分析和語言建模。在情感標(biāo)注方面, Mohammad等[7]關(guān)注詞的情感與詞的極性相結(jié)合, 生成一個大規(guī)模詞–情感的聯(lián)合詞匯, 并考慮8種基本情緒, 使用自動生成的詞選擇題來進(jìn)行情感標(biāo)注, 取得較好效果。Francisco等[8]提出一種自動標(biāo)注情感的方法, 該方法考慮情感類別和情感維度, 通過情感本體進(jìn)行分層分類來描述通用情感和特定情感, 為情感標(biāo)注提供了一種有效的手段。馮時(shí)等[9]提出一種基于句法依存分析技術(shù)的算法, 考慮情感關(guān)系對中的依存距離, 并通過建立原型系統(tǒng)實(shí)現(xiàn)情感傾向的搜索結(jié)果。徐琳宏等[10]構(gòu)造情感詞匯本體, 從情感類別、強(qiáng)度和極性三方面來描述詞匯。
可視化是一種大數(shù)據(jù)分析的重要方法, 可以對數(shù)據(jù)進(jìn)行推理, 進(jìn)而展示隱含的數(shù)據(jù)模式[11]。可視化數(shù)據(jù)的基本原理是讓數(shù)據(jù)用某種可視化方式呈現(xiàn)(如圖形、圖表、地圖等), 使人們能夠更加直觀地發(fā)現(xiàn)龐大數(shù)據(jù)內(nèi)部隱藏的規(guī)律, 進(jìn)而得出結(jié)論, 并且能夠直接與數(shù)據(jù)進(jìn)行交互。Zhang等[12]使用5Ws數(shù)據(jù)維度進(jìn)行大數(shù)據(jù)分析和可視化, 證明大數(shù)據(jù)可視化可以揭示數(shù)據(jù)接收和發(fā)送的密度, 從密度視角分析大數(shù)據(jù)的特征。Mukhopadhyay等[13]將可視化應(yīng)用于生物醫(yī)學(xué)領(lǐng)域, 通過多路結(jié)構(gòu)圖, 從生物文本中提取重要信息, 有助于理解基因和疾病的關(guān)系。可視界面是直觀了解海量社會媒體信息的重要工具。利用可視化工具對微博數(shù)據(jù)進(jìn)行可視分析有助于更好地發(fā)現(xiàn)微博的數(shù)據(jù)規(guī)律, 具有廣闊的發(fā)展前景。微博數(shù)據(jù)的可視化方面主要有以下幾種方式: 標(biāo)簽云與 Wordle、圖表、網(wǎng)絡(luò)、地圖等。Zhang等[14]提出一個電子云模型(ECM)來分析微博的情感, 將情感映射到電子的穩(wěn)定性, 通過核密度和邊界綁定表述情感的空間變化。數(shù)據(jù)可視化為微博的深入研究開辟了一條新徑, 具有深遠(yuǎn)的理論指導(dǎo)意義和實(shí)踐意義。
綜上所述, 關(guān)于微博情感分析的可視研究雖然已取得可觀的成果, 但還存在一些問題。1)已有的研究多側(cè)重在情感傾向性上, 缺乏對各類情感的詳細(xì)描述。對于社會事件, 人們更希望了解不同負(fù)面情感的強(qiáng)度, 這方面研究尚不多見。2)在情感分析中, 已有研究對于情感詞強(qiáng)度沒有給出具體的量化方法, 僅用級別代替。3)現(xiàn)有的社會媒體可視研究大多停留在線條圖形, 可視效果欠缺。
鑒于以上不足, 本文針對社會事件, 從多情感視角分析群體情感。在情感詞的強(qiáng)度上, 采用模糊集合理論, 給出情感詞的量化描述; 在可視效果上, 采用人臉表情呈現(xiàn)情感, 實(shí)現(xiàn)更加逼真的情感表現(xiàn)方式。
2 微博文本的情感計(jì)算模型
微博文本的情感計(jì)算模型采用三元組表示: EModel=<,,>, 其中=<1,2, …,w>為情感詞,為情感詞個數(shù);=<1,2, ...,6>為情感詞的類別, 共6類;(0, 1)為情感詞的情感強(qiáng)度。微博文本的情感計(jì)算模型如圖1所示。
模型的算法步驟如下。
1)對于收集的微博文本, 首先進(jìn)行句法分析, 對微博文本進(jìn)行預(yù)處理。
2)抽取并統(tǒng)計(jì)情感句數(shù)目, 根據(jù)句中情感詞的強(qiáng)度, 計(jì)算每個情感句的初始值。如句子結(jié)尾有感嘆號, 則句子的情感強(qiáng)度按照1.5倍計(jì)算; 如果有疑問號, 則句子的情感強(qiáng)度按照0.8倍計(jì)算。對于表情符號, 可以采用類似的思路, 并將最終的句子情感強(qiáng)度進(jìn)行歸一化處理。
3)以情感句中的每一情感詞為單位, 抽取關(guān)系對組, 并計(jì)算出每個情感詞的原始值(e)。
4)對于每個情感詞的關(guān)系對組(包括轉(zhuǎn)化后的ADV依存對), 結(jié)合程度副詞和否定副詞修飾強(qiáng)度的變化, 構(gòu)造情感強(qiáng)度的修正公式, 計(jì)算其依存修飾后的情感值。新的公式計(jì)算出的情感值仍在0~1之間。
5)結(jié)合情感句分析, 計(jì)算微博文本中的各類情感強(qiáng)度值, 結(jié)果呈現(xiàn)為二元組: EGroup=<,>。由于微博文本通常很短小, 所以本文選擇強(qiáng)度最大的情感作為該微博文本的情感類型。最后根據(jù)各條微博文本的情感類型和強(qiáng)度, 采用算數(shù)平均來計(jì)算該種類型的群體情感強(qiáng)度。
2.1 情感詞的強(qiáng)度人工標(biāo)注方法
情感詞典的整理和分類標(biāo)注 在林鴻飛情感詞匯本體[10]的基礎(chǔ)上, 對微博常用詞進(jìn)行標(biāo)注, 將6種情感類別(快樂、憤怒、厭惡、驚訝、恐懼和悲傷)映射到6種基本表情形態(tài)。
情感模糊性 自然語言所表達(dá)的情感強(qiáng)度的變化是連續(xù)的, 并不是離散的幾個強(qiáng)度點(diǎn)。人們在劃分情感強(qiáng)度時(shí)會覺得界限模糊, 對于某一類情感, 由于情感強(qiáng)度的邊界劃分并不清晰, 不同的標(biāo)注者可能將它劃分到不同的級別。例如情感詞“提心吊膽”、“驚弓之鳥”、“人心惶惶”和“觸目驚心”, 在進(jìn)行情感強(qiáng)度劃分時(shí),很難給出不同情感級別的明顯界限。鑒于語言本身具有模糊性,認(rèn)識情感詞語強(qiáng)度的模糊性, 可以有效地理解情感強(qiáng)度的模糊特征, 提高情感強(qiáng)度分析的準(zhǔn)確性。Kazemzadeh等[15]從概念上生成兩個語言計(jì)算模型, 將情感詞描述為間隔模糊集合, 并運(yùn)用模糊邏輯, 從效價(jià)、激活和支配3個維度描述情感, 分析情感的相似性和包容性, 最后通過顯式的模型描述隱性的情感。
情感詞強(qiáng)度統(tǒng)計(jì) 以往的情感分析中, 一般默認(rèn)采用情感詞典的強(qiáng)度, 但情感詞典中的強(qiáng)度一般采用分級標(biāo)注, 并沒有結(jié)合上下文信息。我們用統(tǒng)計(jì)人工標(biāo)注的方式, 通過人機(jī)界面進(jìn)行統(tǒng)計(jì)(圖2)。
結(jié)合微博內(nèi)容, 用戶可以對情感詞的情感強(qiáng)度進(jìn)行級別標(biāo)注, 針對性更強(qiáng)。本文通過模糊統(tǒng)計(jì)實(shí)驗(yàn)計(jì)算隸屬度。將情感強(qiáng)度分為低、中、高3個級別, 對應(yīng)的集合為,和。利用人工方式對情感詞強(qiáng)度進(jìn)行手工標(biāo)注, 由于不同情感強(qiáng)度之間的界限模糊不清, 所以分別統(tǒng)計(jì)落入不同強(qiáng)度級別的人數(shù)N,N和N。不失一般性, 賦予情感低、中、高3個級別的情感強(qiáng)度值分別為V,V和V, 則情感詞的強(qiáng)度E可以按照式(1)計(jì)算:
考慮到微博大多具有情感傾向性, 為簡便起見, 本文采用最大化原則。統(tǒng)計(jì)人數(shù)最多的級別則為該情感詞的強(qiáng)度, 即情感強(qiáng)度=, 其中*為,和中的一個,為屬于某一情感級別的人數(shù),為實(shí)際參與標(biāo)注的微博總數(shù)目。
2.2 基于依存句分析的情感詞強(qiáng)度修飾計(jì)算
句法分析句法分析指根據(jù)給定的語法規(guī)則, 對句子中的詞語語法功能進(jìn)行分析, 自動識別語句含有的句法單位以及它們之間的關(guān)系。句法分析是對自然語言進(jìn)行語義分析的基礎(chǔ), 已成為大多數(shù)自然語言處理應(yīng)用的關(guān)鍵環(huán)節(jié)。本文利用基于樹庫的統(tǒng)計(jì)句法分析, 得到語法樹形式的結(jié)果, 提取情感詞所在的句子成分, 將其作為統(tǒng)計(jì)整個語句的情感特征的權(quán)重賦值標(biāo)準(zhǔn)之一。通過對語法樹分析, 提取具有情感色彩的關(guān)系對組, 如圖3所示。
依存距離 依存距離指句法分析樹中任意兩節(jié)點(diǎn)w和w遍歷先后次序的差值。語法距離即詞匯在句法分析樹中經(jīng)過分詞分句和詞性標(biāo)注等預(yù)處理后, 先序遍歷句法分析樹時(shí)兩節(jié)點(diǎn)次序之差的絕對值[9], 即dist(w,w)=|N-N|。N和N分別表示先序遍歷句法樹時(shí)詞語w和w的詞號。語法距離值為正整數(shù), 能相對準(zhǔn)確地反映詞語w和w之間的依存關(guān)系和修飾關(guān)系。語法距離體現(xiàn)了情感句中修飾詞與被修飾的情感詞間相互依存的緊密程度。語法距離越大說明詞語間依存關(guān)系越松散, 情感修飾程度越弱。不同的修飾詞對情感的修飾起不同的作用。例如, 有的副詞對情感詞強(qiáng)度起加強(qiáng)作用, 有的副詞對情感詞強(qiáng)度起減弱作用, 否定詞對情感詞的強(qiáng)度起否定作用。我們在情感句子的情感計(jì)算中充分考慮副詞和否定詞的語法距離引起的修飾作用, 使用語法距離來衡量修飾詞對句子情感強(qiáng)度的影響, 在語言學(xué)的邏輯角度上,更具有科學(xué)性。
強(qiáng)度修飾 基于依存句分析的情感計(jì)算關(guān)鍵是情感詞強(qiáng)度修飾的計(jì)算。情感修飾主要考慮副詞和否定詞的修飾, 并結(jié)合修飾詞和情感詞之間的依存距離。通用的修飾公式為
其中,e為情感詞強(qiáng)度, revi為修飾強(qiáng)度,為修正參數(shù)(默認(rèn)為1), dist為修飾詞的依存距離。
1)對于副詞修飾的情感, 按照副詞強(qiáng)度表, 查詢得到副詞的修飾強(qiáng)度(一般在1~2之間)。
2)對于否定詞修飾的情感, 按照否定詞強(qiáng)度表, 查詢得到否定詞的修飾強(qiáng)度(一般在1~2之間)。
3)對于既有副詞又有否定詞修飾的情感, 按照副詞強(qiáng)度表和否定詞強(qiáng)度表, 分別查詢得到副詞的修飾強(qiáng)度和否定詞的修飾強(qiáng)度; 根據(jù)依存距離, 副詞和否定詞對情感詞進(jìn)行加強(qiáng)或減弱修飾。
更新的情感詞強(qiáng)度為e=min(1, revi ·e), 即更新后的情感強(qiáng)度范圍為[0, 1]。
3 情感的可視化呈現(xiàn)
以往對于微博輿情的可視展現(xiàn)大多通過顏色或者線條的變化來進(jìn)行, 而對于社會事件的群體情感, 則需要一種直觀的情感表現(xiàn)手段。本文提出采用虛擬人頭來直接呈現(xiàn)某個地區(qū)的群體情感狀態(tài)。采用三維模型工具, 制作6種虛擬人的表情形態(tài), 每種表情形態(tài)代表情感強(qiáng)度為1的狀態(tài)。幾何模型形態(tài)頂點(diǎn)向量為fa, 中性表情的頂點(diǎn)幾何向量為fa, 采用線形插值的方法計(jì)算合成的表情形態(tài)。假設(shè)各類基本情感強(qiáng)度為E, face代表對應(yīng)的表情形態(tài)幾何頂點(diǎn)向量, 則有如下公式:
face=(1 –E)fa +Efa。(3)
采用虛擬人頭表情來展現(xiàn)群體情感能夠直觀反映微博情感的變化, 是實(shí)現(xiàn)數(shù)據(jù)可視化的一種新方法。為了突出不同地區(qū)微博數(shù)量的差異性, 本文根據(jù)不同地區(qū)微博數(shù)量的相對大小調(diào)整虛擬人頭的大小, 虛擬人頭越大, 表示該地區(qū)的微博數(shù)量多, 反映群體情感的影響越大。
4 實(shí)驗(yàn)及分析
本文目的是分析微博中社會事件的群體情感, 評估提取群體情感方法的性能及其對文本情感分析的影響。我們將實(shí)驗(yàn)設(shè)計(jì)為兩部分: 一是情感詞的標(biāo)注實(shí)驗(yàn), 給出合理的情感強(qiáng)度; 二是微博情感分析實(shí)驗(yàn), 判斷文本的情感類別和強(qiáng)度。
4.1 實(shí)驗(yàn)設(shè)計(jì)
情感詞的標(biāo)注實(shí)驗(yàn) 針對不同的事件, 在全國34個省市自治區(qū)范圍內(nèi), 從性別、情感類型和情感強(qiáng)度等方面進(jìn)行調(diào)查。例如, 選取5個地區(qū), 每個地區(qū)取200條微博進(jìn)行調(diào)查, 微博數(shù)不足200條的地區(qū)以實(shí)際數(shù)目進(jìn)行統(tǒng)計(jì)。每個頁面只調(diào)查一條微博的情感。在進(jìn)行標(biāo)注實(shí)驗(yàn)時(shí), 考慮到標(biāo)注者性別的差異性, 請男生和女生分別標(biāo)注, 最后將各性別標(biāo)注的結(jié)果取平均。
微博情感分析實(shí)驗(yàn) 本實(shí)驗(yàn)分詞及句法分析使用哈爾濱工業(yè)大學(xué)語言云平臺。實(shí)驗(yàn)中抽取的情感關(guān)系對(依存關(guān)系對)是七元組:
4.2 實(shí)驗(yàn)數(shù)據(jù)采集
本文的實(shí)驗(yàn)數(shù)據(jù)包括微博內(nèi)容和微博評論。微博內(nèi)容包括“招遠(yuǎn)圍毆兇殺”、“事業(yè)單位打破終身制”、“大老虎”、“世界杯”、“高考生奪刀救人”等社會事件。為了驗(yàn)證本文提出的方法, 通過騰訊和新浪微博的API接口, 抓取大量社會事件的微博數(shù)據(jù)。這些數(shù)據(jù)是去重(過濾掉重復(fù))后的數(shù)據(jù), 避免同一個博主所發(fā)信息被多次采集。在調(diào)查初始情感強(qiáng)度時(shí), 只選擇部分去重后的數(shù)據(jù)集(特定事件的500條)。在分析時(shí), 選擇特定事件去重后的所有數(shù)據(jù)集。從實(shí)驗(yàn)數(shù)據(jù)分析看, 微博情感隨時(shí)間的變化與事件本身的特性有關(guān), 對于突發(fā)事件, 通常情感隨著時(shí)間變化快速達(dá)到高潮, 然后迅速消退。目前情感詞典不可能包含微博上一些口語化的情感詞匯, 這在很大程度上影響了情感分析的效果。
4.3 實(shí)驗(yàn)結(jié)果分析
4.3.1 情感詞的標(biāo)注實(shí)驗(yàn)
下面分別從性別、地區(qū)、情感強(qiáng)度和情感類型4個方面對情感詞的標(biāo)注實(shí)驗(yàn)進(jìn)行分析。
1)性別。在采集的微博數(shù)據(jù)中, 男性網(wǎng)民比女性網(wǎng)民數(shù)量多。對于“大老虎”事件, 性別不同, 對事件的關(guān)注度也不同, 參與評論的男性普遍多于女性??梢娫谕ㄟ^社會媒體參與評論方面, 男性比女性更關(guān)注社會政治。
2)地區(qū)。圖4顯示,對于“大老虎”事件, 得到的6種情感強(qiáng)度值的比較, 從不同的省份(5個省份)得到的調(diào)查結(jié)果看, 情感強(qiáng)度有微弱的差別, 也可能是樣本數(shù)據(jù)量不夠充分, 沒有體現(xiàn)出地區(qū)間的差異??傮w上, 不同地區(qū)的情感類型和強(qiáng)度差異不大, 說明網(wǎng)民對該事件的關(guān)注與地區(qū)位置無關(guān)。
3)情感強(qiáng)度。對不同事件進(jìn)行調(diào)查, 得到情感詞的初始強(qiáng)度。從圖5可以看出, 不同事件中情感詞的情感強(qiáng)度差異較大, 比如“憤怒”的強(qiáng)度較大, 而“驚訝”和“恐懼”的強(qiáng)度較低。說明對于社會事件, 網(wǎng)民表現(xiàn)“憤怒”這種情感時(shí)比較強(qiáng)烈, 而表現(xiàn)“驚訝”和“恐懼”情感時(shí)強(qiáng)度比較柔和。
4)情感類型。在標(biāo)注情感詞過程中, 有些地區(qū)可能不出現(xiàn)某種情感強(qiáng)度或者某類情感強(qiáng)度較低, 原因可能是發(fā)表的微博數(shù)量過少。針對這種情況, 我們假設(shè)該地區(qū)該種情感強(qiáng)度為0。
從表1中可以看出, 不同事件對情感的類型也有影響。例如, “高考生奪刀救人”事件, 大家更多表現(xiàn)出快樂的情感; 同一事件可以體現(xiàn)多種情感, 例如, “大老虎”事件, 大家既表現(xiàn)出快樂的情感, 也表現(xiàn)出憤怒和厭惡的情感。
表1 不同事件的情感類型和強(qiáng)度
4.3.2 微博情感分析實(shí)驗(yàn)
針對“招遠(yuǎn)圍毆兇殺”事件, 我們對比了本文方法和情感單詞匹配方法(在微博文本中搜索情感單詞, 一旦搜索到, 就把該情感詞的情感作為該條微博的情感類型)。由于每條微博文本所包含的情感類型較為單一, 所以本文方法和情感單詞匹配方法在情感類型判斷的準(zhǔn)確率和召回率相差不大。在測試的樣本中, 以厭惡情感為例, 本文的方法獲得的準(zhǔn)確率和召回率分別為0.6379和0.5441, 而情感詞匹配的方法獲得的結(jié)果為0.6121和0.5221。
2)不同事件的分析。從圖8可以看出, 同樣是高興情感, 不同的事件引起的情感強(qiáng)度卻不相同。各地區(qū)的情感圖中, “事業(yè)單位打破終身制”普遍比“高考生奪刀救人”的情感強(qiáng)度值高, 可能是由于前者涉及全社會民眾的切身利益, 關(guān)注的人更全面, 從而情感強(qiáng)度更強(qiáng)烈。
3)情感可視化。本文采用立體的臉譜(6種表情和1種中性表情)與中國地圖相結(jié)合的方式, 對實(shí)驗(yàn)結(jié)果進(jìn)行可視化呈現(xiàn), 然后結(jié)合不同地區(qū)的微博數(shù)目進(jìn)行整體分析, 其中人頭越大表示該地區(qū)情感影響力越大(考慮情感強(qiáng)度和微博數(shù)量)。
從圖9可以看出, 針對“打破事業(yè)單位終身制”事件, 主要表現(xiàn)的是“快樂”的情感, 說明民眾對該事件普遍持支持的態(tài)度。廣東地區(qū)對此事件的反映最強(qiáng)烈, 部分地區(qū)對此事件沒有明顯反映, 例如臺灣和西藏等。通過可視化顯示, 可以看出各地參與此類事件討論的積極程度。
由于該微博文本所包含的情感類型并非單一, 情感單詞匹配方法容易導(dǎo)致對微博文本真正情感類型的誤判, 以高興情感為例, 本文方法比情感單詞匹配方法在情感類型判斷的準(zhǔn)確率和召回率更有優(yōu)勢。在測試的樣本中,仍以高興情感為例,本文方法獲得的準(zhǔn)確率和召回率分別為0.7831和0.5462,而情感詞匹配的方法獲得的結(jié)果為0.7195和0.4958。
從圖10可以看出, 對于“招遠(yuǎn)圍毆兇殺”事件, 從微博數(shù)量和情感強(qiáng)度綜合來看, 廣東、山東等地的參與程度較高。原因可能是事件發(fā)生地在山東, 會引起山東網(wǎng)民的積極關(guān)注; 廣東地區(qū)可能是由于的網(wǎng)民通過網(wǎng)絡(luò)參與社會事件的意識較高, 更關(guān)注社會熱點(diǎn)事件。
通過對上述各類實(shí)驗(yàn)結(jié)果的分析發(fā)現(xiàn), 兇殺類、政治類事件更容易引起民眾的憤怒情感, 同時(shí)伴隨強(qiáng)烈的恐懼情感。對于這類事件, 通過社會媒體的參與, 容易形成人群的負(fù)面情感, 對社會穩(wěn)定形成不良影響, 應(yīng)當(dāng)引起政府足夠的重視。
5 結(jié)語
隨著近年來群體性事件的不斷攀升, 人群管理正面臨各種新的挑戰(zhàn)。以微博為代表的社會媒體是了解民眾群體情感的重要載體, 社會媒體爆發(fā)式的信息傳播方式容易引發(fā)負(fù)面情感的迅速擴(kuò)散, 一旦失控, 將導(dǎo)致群體性事件變得不可預(yù)測和難以控制。如何從微博的海量數(shù)據(jù)中分析民眾的群體情感, 一直是政府和學(xué)術(shù)界關(guān)注的熱點(diǎn)。本文在已有微博情感分析研究的基礎(chǔ)上, 提出微博群體情感計(jì)算框架, 建立了基于人工標(biāo)注統(tǒng)計(jì)的情感單詞強(qiáng)度計(jì)算方法, 并結(jié)合依存句法分析, 計(jì)算微博文本的情感類型和強(qiáng)度, 結(jié)合地理位置, 采用表情人頭來形象呈現(xiàn)群體的情感類型。實(shí)驗(yàn)結(jié)果表明, 該方法能夠有效地分析群體情感, 通過分析不同事件來反映群體的情感類型。本文方法可用來預(yù)測社會事件可能造成的人群負(fù)面情感, 為和諧社會的人群情感管理提供一種高效可視化方式, 為基于大數(shù)據(jù)分析社會事件提供一種新思路。限于數(shù)據(jù)資源和水平, 本文的工作還需要進(jìn)一步完善。未來的工作將考慮補(bǔ)充數(shù)據(jù)資源和情感詞典, 在微博可視化呈現(xiàn)中加入體感交互虛擬人, 實(shí)現(xiàn)更真實(shí)的可視交互體驗(yàn)。
[1]王飛躍. 社會信號處理與分析的基本框架: 從社會傳感網(wǎng)絡(luò)到計(jì)算辯證解析方法. 中國科學(xué): F輯, 2013, 43(12): 1598–1611
[2]Ren Fuji, Kang Xin. Employing hierarchical Bayesian networks in simple and complex emotion topic analysis. Computer Speech and Language, 2013, 27 (4): 943–968
[3]Caro L D, Grella M. Sentiment analysis via depen-dency parsing. Computer Standards & Interfaces, 2013, 35(5): 442–453
[4]Loia V, Senatore S. A fuzzy-oriented sentic analysis to capture the human emotion in Web-based content. Knowledge-Based Systems, 2014, 58(1): 75–85
[5]Wang Changbo, Xiao Zhao, Liu Yuhua, et al. SentiView: sentiment analysis and visualization for internet popular topics. IEEE Transactions on Human-Machine Systems, 2013, 43(6): 620–630
[6]Lee S Y M, Chen Ying, Huang Churen, et al. Detecting emotion causes with a linguistic rule-based approach. Computational Intelligence, 2013, 29(3): 390–416
[7]Mohammad S M, Turney P D. Crowdsourcing a word-emotion association lexicon. Computational Intelli-gence, 2013, 29(3): 436–465
[8]Francisco V, Gervás P. Emotag: an approach to automated markup of emotions in texts. Compu-tational Intelligence, 2013, 29(4): 680–721
[9]馮時(shí), 付永陳, 陽鋒, 等. 基于依存句法的博文情感傾向分析研究. 計(jì)算機(jī)研究與發(fā)展, 2012, 49(11): 2395–2406
[10]徐琳宏, 林鴻飛, 潘宇, 等. 情感詞匯本體的構(gòu)造. 情報(bào)學(xué)報(bào), 2008, 27(2): 180–185
[11]任磊, 杜一, 馬帥, 等. 大數(shù)據(jù)可視分析綜述. 軟件學(xué)報(bào), 2014, 25(9): 1909–1936
[12]Zhang Jinson, Huang Maolin. 5Ws model for bigdata analysis and visualization // 2013 IEEE 16th International Conference on Computational Science and Engineering. Sydney, 2013: 1021–1028
[13]Mukhopadhyay S, Palakal M, Maddu K. Multi-way association extraction and visualization from biolo-gical text documents using hyper-graphs: applications to genetic association studies for diseases. Artificial Intelligence in Medicine, 2010, 49(3): 145–154
[14]Zhang Chenghai, Liu Yuhua, Wang Changbo. Time-space varying visual analysis of micro-blog sentiment // The 6th International Symposium on Visual Information Communication and Interaction. New York: ACM, 2013: 64–71
[15]Kazemzadeh A, Lee S, Narayanan S. Fuzzy logic models for the meaning of emotion words. IEEE Com-putational Intelligence Magazine, 2013, 8(2): 24–49
Research on the Visualization Method of Social Crowd Emotion Based on Microblog Text Data Analysis
LIU Cuijuan1,2, LIU Zhen1,?, CHAI Yanjie1, FANG Hao1, LIU Liangping1
1. Faculty of Information Science and Technology, Ningbo University, Ningbo 315211; 2. Intelligent Control Research Institute, Zhejiang Wanli University, Ningbo 315100; ? Corresponding author, E-mail: liuzhen@nbu.edu.cn
Existing sentiment analysis focus on the emotional tendency, which are lack of detailed description of all kinds of emotions, they can’t intuitively reflect the emotional change of social groups. An emotional analysis method based on the combination of dependency parsing and artificial tagging was proposed. Facial expression animation to present emotions analysis was realized. The microblog crowd’s emotion in different areas for different social events was visualized. The experimental results show that the model could closely and effectively simulate the crowd emotion, and it could provide a new way of the analysis of network public opinion based on large data.
text analysis; microblog; sentiment analysis; visual computing
10.13209/j.0479-8023.2016.021
TP391
2015-06-19;
2015-09-15; 網(wǎng)絡(luò)出版日期: 2015-09-29
國家自然科學(xué)基金(61373068)、寧波市科技計(jì)劃項(xiàng)目(2015A610128, 2015C50053, 2015D10011, 2014C50018)、高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金(20133305110004)和浙江省教育廳科研項(xiàng)目(Y201431792)資助