王學(xué)賀, 趙 華
(1.菏澤醫(yī)學(xué)??茖W(xué)校 計(jì)算機(jī)教研室,山東 菏澤 274030; 2.山東科技大學(xué) 計(jì)算科學(xué)與工程學(xué)院,山東 青島 266590)
近年來,世界各地頻繁發(fā)生各種突發(fā)事件,互聯(lián)網(wǎng)慢慢成為繼報(bào)刊、廣播、雜志、電視等最大的傳播媒介,移動(dòng)終端也飛速地在世界各地普及.移動(dòng)終端的迅猛發(fā)展,逐漸改變了民眾的交流方式,使網(wǎng)絡(luò)用戶可隨時(shí)隨地接收網(wǎng)絡(luò)上的消息并進(jìn)行回應(yīng)和傳播.突發(fā)事件一旦發(fā)生,有關(guān)突發(fā)事件的信息便會(huì)在互聯(lián)網(wǎng)上的各類平臺(tái)急劇增加,從而對事件的發(fā)展產(chǎn)生影響,甚至引發(fā)新的突發(fā)事件.網(wǎng)絡(luò)映射著我們的現(xiàn)實(shí)社會(huì),它像一面放大鏡,現(xiàn)實(shí)社會(huì)的一些事件在網(wǎng)絡(luò)上被討論的越多就越會(huì)被放大,這就有可能反作用于我們的物質(zhì)社會(huì).突發(fā)事件所帶來的極端負(fù)面情緒會(huì)誤導(dǎo)公眾對事件的真實(shí)看法,從而產(chǎn)生負(fù)面影響.如果能夠及時(shí)發(fā)現(xiàn)并阻斷不良信息的網(wǎng)絡(luò)傳播,不僅能夠穩(wěn)定公眾的情緒,還能減少經(jīng)濟(jì)損失,因此對于突發(fā)事件的應(yīng)急處置工作具有重要意義.對突發(fā)事件相關(guān)的在線評(píng)論進(jìn)行情感傾向性分析,已經(jīng)引起了國內(nèi)外研究者的廣泛關(guān)注,并取得較好的研究成果[1].其中,基于情感詞典的意見挖掘方法是比較重要的一類研究方法,而情感詞典是該類方法成敗的關(guān)鍵因素.筆者以新浪微博為研究平臺(tái),首先以利用微博API接口爬取有關(guān)突發(fā)事件的微博評(píng)論作為數(shù)據(jù)集,經(jīng)過微博的噪聲過濾去除與突發(fā)事件無關(guān)的大量廣告微博.然后基于詞性標(biāo)注和snownlp進(jìn)行情感詞典的自動(dòng)構(gòu)建,并將其應(yīng)用于突發(fā)事件在線評(píng)論的情感傾向性分析中.實(shí)驗(yàn)結(jié)果表明,文中構(gòu)建的方法有效.
基于情感詞典的情感傾向性分析研究需要一個(gè)高質(zhì)量的情感詞典作為支撐.情感詞典的構(gòu)建主要包括:情感詞的提取、情感詞傾向性的分類、情感詞情感極性強(qiáng)度的計(jì)算、情感詞典的維護(hù)和保存.目前,構(gòu)建情感詞典的主要方法是從已有的詞典和標(biāo)注語料庫中提取情感詞[2],或者利用這些資源通過一定的規(guī)則派生出新的情感詞典.表1總結(jié)了常見的基本情感詞典.
表1 常見的情感詞典
目前,常規(guī)的情感詞典是通過人工篩選、標(biāo)注大量情感詞構(gòu)建的[2].雖然人工標(biāo)注花費(fèi)的代價(jià)很大,但構(gòu)建的情感詞典有較強(qiáng)的通用性.通用的情感詞典具有規(guī)模大、準(zhǔn)確率高的優(yōu)點(diǎn),但對不同領(lǐng)域的語料庫和情感詞的涵蓋還不夠.因此,面向特定領(lǐng)域的情感詞典的自動(dòng)構(gòu)建成為學(xué)術(shù)界關(guān)注的焦點(diǎn).
國內(nèi)外學(xué)者在情感詞典的構(gòu)建方面進(jìn)行了積極探索.Hassan等首先挑選情感種子詞,然后基于WordNet中單詞之間的關(guān)系,計(jì)算待判斷的情感詞與情感種子詞之間的移動(dòng)步數(shù),從而得到待判斷單詞的情感傾向[3].Baccianella等使用半監(jiān)督機(jī)器學(xué)習(xí),先通過WordNet擴(kuò)展初始標(biāo)注的種子情感詞集和客觀詞集,然后使用已知情感作為訓(xùn)練集,構(gòu)造分類器判定未知情感詞的情感傾向[4].柳位平等通過計(jì)算種子情感詞和HowNet之間的語義相似性,建立中文基礎(chǔ)情感詞典[5].徐琳宏等通過對漢語情感詞進(jìn)行分類和標(biāo)注,構(gòu)建中文情感詞匯本體庫,從詞類、情感類、情感強(qiáng)度、極性等不同角度對漢語詞匯或短語進(jìn)行描述[6].張成功等構(gòu)建包括基礎(chǔ)詞典、領(lǐng)域詞典、網(wǎng)絡(luò)詞詞典和修飾語詞典在內(nèi)的極性詞典[7].馬秉楠等提出利用表情符號(hào)提取文本情感詞典的方法[8].
筆者以新浪微博為平臺(tái),將其平臺(tái)內(nèi)有關(guān)突發(fā)事件的微博評(píng)論作為研究數(shù)據(jù),主要選取事態(tài)緊急、影響力較大、涉及范圍較廣、討論人數(shù)較多的微博評(píng)論,通過官方指定的微博API進(jìn)行數(shù)據(jù)的爬?。闹蟹謩e爬取“2019年5月16日的涼山木里縣森林火災(zāi)”“2019年4月16日的巴黎圣母院火災(zāi)”及“2018年12月14日的武漢醫(yī)生坐診時(shí)被男子刺傷生命垂危,行兇者墜樓身亡”3個(gè)突發(fā)事件的微博數(shù)據(jù),獲得的微博數(shù)量分別為6 862,9 018,5 620條.
微博數(shù)據(jù)作為一種UGC數(shù)據(jù),其中包含較多的噪聲數(shù)據(jù).為此,首先對微博數(shù)據(jù)中的噪聲和垃圾信息進(jìn)行過濾等預(yù)處理操作,主要是刪除“@用戶”信息和URL鏈接.“@用戶”有效反映了用戶之間的社交關(guān)系,但并不能描述突發(fā)事件的相關(guān)信息,為此文中將其刪除.微博中的URL鏈接大多數(shù)是為了能夠更清楚地表達(dá)用戶的觀點(diǎn),雖然鏈接的Web頁面可能會(huì)更詳細(xì)地描述微博的事件,但是對評(píng)論中情感詞的提取意義不大,這種情況下反而產(chǎn)生更多噪聲,為此將其刪除.這2種信息都具有較固定的格式,所以可采用正則表達(dá)式進(jìn)行有效過濾.用于刪除“@用戶”信息的正則表達(dá)式為“@.*?+{1}”,刪除URL鏈接的正則表達(dá)式為“http://(w+.)?w+.com”.
為更好地了解爬取的數(shù)據(jù)內(nèi)容,筆者首先采用標(biāo)簽云對預(yù)處理后的數(shù)據(jù)進(jìn)行可視化展示(圖1~圖3).
圖1 “涼山森林火災(zāi)”微博評(píng)論詞云
圖2 “巴黎圣母院火災(zāi)”微博評(píng)論詞云
圖3 “武漢醫(yī)生坐診時(shí)被男子刺傷”微博評(píng)論詞云
圖1中出現(xiàn)較多的詞是平安、歸來、希望、保佑等,可以看出,大多數(shù)人對此事件表達(dá)了祈禱與祝福.圖2所示的詞云中出現(xiàn)較多的詞是傷心、惋惜、可惜、允悲,這表達(dá)了一部人對該事件的遺憾和惋惜情緒,但還有一部分人表達(dá)出“無所謂”或“幸災(zāi)樂禍”的情緒.圖3所示的詞云中出現(xiàn)較多的詞是醫(yī)生、患者、學(xué)醫(yī)、醫(yī)療等.
情感詞的提取分2個(gè)步驟:
1)識(shí)別突發(fā)事件評(píng)論中的情感詞;
2)為每一個(gè)情感詞標(biāo)記情感傾向(正向和負(fù)向).
分析大量的評(píng)論數(shù)據(jù),發(fā)現(xiàn)情感詞的詞性比較固定,一般為形容詞和副詞.為此,基于詞性標(biāo)注結(jié)果識(shí)別情感詞.Jieba分詞工具在分詞的同時(shí)提供了詞性標(biāo)注結(jié)果,其采用的標(biāo)注集和ICTCLAS的標(biāo)注集是一樣的,比如“a”是形容詞,“d”是副詞,“n”是名詞,“v”是動(dòng)詞等.Jieba分詞的詞性標(biāo)注只需要使用jieba.posseg功能words=pseg.cut()即可實(shí)現(xiàn).
在基于上述方法抽取得到情感詞后,使用snownlp的情感分析功能比較每個(gè)詞的sentiments值,判斷每個(gè)情感詞的正負(fù)傾向,并分別將其放入正負(fù)情感詞詞典中.表2給出了部分sentiments值.
表2 基于snownlp的詞語sentiments值
為驗(yàn)證上述構(gòu)建的情感詞典的有效性,采用基于情感詞典的方法實(shí)現(xiàn)微博評(píng)論的情感分析,方法如下:
(1)
式中:s(comment)表示評(píng)論comment的情感得分;si表示comment中包含的情感詞;w(si)表示si的情感傾向.如果si是正向的,則w(si)=1,否則w(si)=0.如果s(comment)>0,則評(píng)論是正向的,否則評(píng)論是負(fù)向的.
為對比本文所構(gòu)建詞典的有效性,設(shè)計(jì)以下2個(gè)模型:
1)BaseSenti:該模型是本文的baseline模型,采用基礎(chǔ)情感詞典(hownet情感詞典)作為情感分析時(shí)的詞典.
2)ModiSenti:該模型是本文改進(jìn)后的情感分析模型,采用更新后的情感詞典作為情感分析時(shí)所采用的詞典.
為分析文中面向突發(fā)事件的情感詞典構(gòu)建方法的有效性,首先從所獲取的突發(fā)事件微博評(píng)論中隨機(jī)抽取2 000條微博評(píng)論,然后由3名學(xué)生對其中的情感詞及其傾向進(jìn)行標(biāo)注,并采用準(zhǔn)確率和召回率作為本文構(gòu)建方法的評(píng)測指標(biāo).經(jīng)過評(píng)測,文中采用的基于詞性標(biāo)注進(jìn)行情感詞典構(gòu)建方法的準(zhǔn)確率為87.14%,召回率為84.35%.因此,文中的構(gòu)建方法是簡單有效的詞典構(gòu)建方法.
表3為文中方法識(shí)別出的情感詞(限于篇幅,只列出部分情感詞,其中下劃線標(biāo)記的情感詞是原有情感詞典沒有的).由表3可知,民眾在評(píng)論不同突發(fā)事件時(shí),往往采用不同的情感詞表達(dá)不同的情感.
表3 面向突發(fā)事件的情感詞典自動(dòng)構(gòu)建示例
為進(jìn)一步顯示文中詞典方法的有效性,隨機(jī)抽取500條微博評(píng)論,同樣讓3名學(xué)生對每條評(píng)論的情感傾向進(jìn)行標(biāo)記(正向或者負(fù)向).然后對基于情感詞典的2個(gè)情感分析模型(Basesenti,ModiSenti)進(jìn)行評(píng)測,結(jié)果見表4.由表4可知,由于加入了從突發(fā)事件評(píng)論數(shù)據(jù)中識(shí)別的情感詞,ModiSenti系統(tǒng)的準(zhǔn)確率和召回率(計(jì)算方法見式(2)~式(3))均增加,進(jìn)一步證明文中詞典構(gòu)建方法的有效性.
表4 基于情感詞典的情感分析 %
a=n/n1,
(2)
r=n/n2,
(3)
式(2)~式(3)中:a為準(zhǔn)確率;n為事實(shí)屬于此類且被系統(tǒng)判定正確的微博條數(shù);n1為系統(tǒng)標(biāo)記的屬于此類的微博總數(shù);r為召回率;n2為事實(shí)屬于此類的微博總數(shù).
為更好地展示情感分析結(jié)果,將不同突發(fā)事件的部分微博評(píng)論的情感值進(jìn)行可視化(圖4~圖6),圖中橫坐標(biāo)是情感值(s),縱坐標(biāo)是取得該情感值的微博數(shù)量(n1).
圖4 “涼山森林火災(zāi)”情感值分布
圖5 “巴黎圣母院火災(zāi)”情感值分布
圖6 “武漢醫(yī)生坐診時(shí)被男子刺傷”情感值分布
由圖4可知, BaseSenti模型中微博的情感值為0.2~0.4,ModiSenti模型中微博的情感值為0.25~0.5,說明總體情感值變得積極,但是群眾對此事件的情緒大多還是偏向消極和中性.
由圖5可知, BaseSenti模型中微博的情感值在1.0附近,這與實(shí)際情況并不相符,ModiSenti模型的情感值比較平均(0~0.4),說明大多數(shù)群眾對此事的發(fā)生還是感到惋惜的.
由圖6可知,BaseSenti模型中微博的情感值在0附近,ModiSenti模型中數(shù)值反映出群眾的情感傾向變分散,但大多數(shù)仍集中在0~0.5,且情感值偏低,說明群眾在此事中表達(dá)的負(fù)面情感較多.
對面向突發(fā)事件的情感詞典自動(dòng)構(gòu)建方法進(jìn)行研究探討.在分析大量突發(fā)事件評(píng)論后,基于詞性標(biāo)注的方法識(shí)別情感詞,并基于snownlp判定情感詞的情感傾向.為驗(yàn)證所構(gòu)建詞典的有效性,將構(gòu)建的詞典應(yīng)用于突發(fā)事件評(píng)論的情感分析中.結(jié)果表明,不同的突發(fā)事件評(píng)論中,采用的情感詞具有一定的差異,通過添加面向突發(fā)事件的情感詞典,可有效提高突發(fā)事件評(píng)論數(shù)據(jù)的情感分析性能.