文/陳海郎
互聯(lián)網(wǎng)能夠不受時(shí)間和空間的限制,民眾通過互聯(lián)網(wǎng)能夠非常便捷、自由地進(jìn)行民意表達(dá)。尤其是在“人人都有麥克風(fēng),人人都是傳播者” 自媒體時(shí)代,互聯(lián)網(wǎng)能夠大力提升民意傳播的自由度。各種輿論事件引起的社會(huì)效應(yīng),在互聯(lián)網(wǎng)上有了更為寬敞的傳播空間和更為迅速的傳播速度,進(jìn)而導(dǎo)致網(wǎng)絡(luò)輿情所引起的社會(huì)矛盾頻發(fā)。2016年7月30日,國務(wù)院發(fā)布《關(guān)于在政務(wù)公開工作中進(jìn)一步做好政務(wù)輿情回應(yīng)的通知》明確指出,各級(jí)政府及其部門需要加強(qiáng)輿情監(jiān)測(cè)與研判處置能力,積極做好輿情回應(yīng)措施,促進(jìn)政府有效施政。
圖1:網(wǎng)絡(luò)爬蟲的原理以及數(shù)據(jù)抓取過程
互聯(lián)網(wǎng)已成為各級(jí)政府或單位了解民眾需求的重要渠道。在網(wǎng)絡(luò)大環(huán)境下,每項(xiàng)輿情背后都會(huì)經(jīng)歷一次產(chǎn)生、發(fā)展、高潮、減弱、消退的動(dòng)態(tài)過程。在輿情事件發(fā)生后,迅速通過互聯(lián)網(wǎng)收集有關(guān)輿情信息,及時(shí)跟蹤輿情最新發(fā)展動(dòng)態(tài),并對(duì)輿情的傳播路徑、爆發(fā)點(diǎn)和事態(tài)等進(jìn)行深入、詳細(xì)的了解,有助于指導(dǎo)有關(guān)管理部門或企業(yè)開展輿情引導(dǎo)和采取措施的決策。
圖2:基于主題事件的輿情監(jiān)測(cè)架構(gòu)圖
圖3:主題事件發(fā)展趨勢(shì)圖例
圖4:主題事件情感趨勢(shì)分析圖例
網(wǎng)絡(luò)爬蟲,也稱蜘蛛。在輿情監(jiān)測(cè)過程中,網(wǎng)絡(luò)爬蟲主要作用是完成對(duì)網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行爬取、篩選和存儲(chǔ)。如圖1所示,首先從論壇、報(bào)刊、微博和APP等網(wǎng)絡(luò)平臺(tái)進(jìn)行種子URL挑選與設(shè)定。網(wǎng)絡(luò)爬蟲根據(jù)用戶設(shè)定的種子URL,能夠會(huì)自動(dòng)識(shí)別并獲得整個(gè)種子URL所對(duì)應(yīng)的網(wǎng)頁URL,并生成待抓取的網(wǎng)頁URL隊(duì)列。然后,依據(jù)既定的網(wǎng)頁檢索策略,對(duì)待抓取的URL進(jìn)行訪問,并對(duì)URL所對(duì)應(yīng)的網(wǎng)頁數(shù)據(jù)進(jìn)行采集和存儲(chǔ)。最后,不斷重復(fù)上述的數(shù)據(jù)抓取過程,直到滿足系統(tǒng)設(shè)定的終止條件后停止數(shù)據(jù)抓取。
文本情感分析又稱之為意見挖掘(Opinion Mining),是指對(duì)帶有情感色彩的文本,進(jìn)行采集、處理、分析和推理的過程。從情感色彩分類層面看,網(wǎng)絡(luò)輿情可分為正面、中性和負(fù)面三種類型。正面輿情往往能夠給政府或單位形象帶來積極的宣傳效果,而面對(duì)負(fù)面輿情時(shí),倘若未能及時(shí)加以控制或引導(dǎo),很有可能會(huì)帶來嚴(yán)重、不可逆的負(fù)面影響。例如,針對(duì)政府議案或新政策的出臺(tái),通過對(duì)相關(guān)微信、微博和論壇等言論進(jìn)行采集與分析,能夠?yàn)檎疀Q策提供依據(jù)。因此,通過對(duì)輿情有關(guān)文章或評(píng)論所秉持的觀點(diǎn)進(jìn)行情感分析判斷,及時(shí)獲得網(wǎng)民對(duì)事件的整體情感,對(duì)準(zhǔn)確的掌控輿情的動(dòng)態(tài)發(fā)展趨勢(shì)起到了關(guān)鍵作用。
文本情感分析是當(dāng)前比較熱門的研究方向。眾多學(xué)者對(duì)文本情感分析進(jìn)行了一系列的探索。Zhang等通過建立情感詞典、情感系數(shù)計(jì)算,實(shí)現(xiàn)了微博主題情感分類。孫建旺等通過提取微博中的動(dòng)詞和形容詞為作特征向量,并借助支持向量機(jī)(Support Vector Machine)實(shí)現(xiàn)了正面、中性和負(fù)面三種微博文本情感分類。本文觀察分析網(wǎng)絡(luò)文本的特點(diǎn),設(shè)計(jì)了一種基于分詞的網(wǎng)絡(luò)文本情感分析方法。該方法具體實(shí)現(xiàn)過程如下:
假設(shè)網(wǎng)絡(luò)文本T由句子Si構(gòu)成,則句子Si的情感值f(Si)和網(wǎng)絡(luò)文本T的情感值f(S)可表示為:
其中,Swi為句子中詞wi的情感值。如果f(T)>0 ,表示為正面情感文本。如果f(T)<0,表現(xiàn)為負(fù)面情感文本。如果f(T)=0,表示為中立情感文本。
基于網(wǎng)絡(luò)大數(shù)據(jù)的輿情監(jiān)測(cè)系統(tǒng)分為數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊、數(shù)據(jù)管理和存儲(chǔ)模塊、數(shù)據(jù)展現(xiàn)四個(gè)模塊。實(shí)現(xiàn)將互聯(lián)網(wǎng)數(shù)據(jù)采集后,進(jìn)行數(shù)據(jù)分析和管理,實(shí)現(xiàn)數(shù)據(jù)可視化。詳情如2圖所示。
數(shù)據(jù)采集模塊由爬蟲服務(wù)器、爬蟲任務(wù)調(diào)度服務(wù)器、爬蟲監(jiān)控服務(wù)器、爬蟲日志服務(wù)器、數(shù)據(jù)去重服務(wù)器以及自然人行為服務(wù)器組成。數(shù)據(jù)采集是通過爬蟲服務(wù)器集群協(xié)作完成的。數(shù)據(jù)采集面向互聯(lián)網(wǎng)新聞、論壇、微博、微信等海量數(shù)據(jù)進(jìn)行采集,篩選出有用的數(shù)據(jù)信息。
數(shù)據(jù)處理模塊由用戶專題實(shí)時(shí)計(jì)算服務(wù)器、實(shí)體抽取服務(wù)器、地域識(shí)別服務(wù)器、數(shù)據(jù)清洗服務(wù)器、流傳輸服務(wù)器、情感識(shí)別服務(wù)器組成。數(shù)據(jù)處理服務(wù)器對(duì)數(shù)據(jù)進(jìn)行基礎(chǔ)數(shù)據(jù)處理和輿情信息處理,利用先進(jìn)的數(shù)據(jù)分析處理方法對(duì)獲取到的數(shù)據(jù)進(jìn)行分析、處理,得出相關(guān)熱點(diǎn)、正負(fù)面新聞等信息。數(shù)據(jù)存儲(chǔ)管理模塊由大數(shù)據(jù)分布式存儲(chǔ)服務(wù)器、用戶數(shù)據(jù)分布式存儲(chǔ)服務(wù)器、流式處理分布式日志存儲(chǔ)服務(wù)器、Web服務(wù)器、發(fā)布服務(wù)器、管理服務(wù)器等組成。數(shù)據(jù)存儲(chǔ)管理模塊負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)、檢索以及發(fā)布。最終通過數(shù)據(jù)展現(xiàn)模塊,將分析處理過的輿情信息通過圖表等可視化形式展示給用戶。
本文選用2019年5月29日某師范大二學(xué)生自述遭受 “校園暴力”輿情事件為例。通過對(duì)該事件的新聞、博客、微博、論壇等互聯(lián)網(wǎng)數(shù)據(jù)持續(xù)監(jiān)測(cè)和采集,從時(shí)間、空間兩個(gè)維度,全面、動(dòng)態(tài)展示信息的變化情況,對(duì)基于網(wǎng)絡(luò)大數(shù)據(jù)的輿情監(jiān)測(cè)具體實(shí)現(xiàn)過程進(jìn)行論述。
發(fā)展趨勢(shì)監(jiān)測(cè)是通過對(duì)事件輿情的網(wǎng)絡(luò)數(shù)據(jù)來源、數(shù)量和時(shí)間三個(gè)維度進(jìn)行趨勢(shì)分析。該分析結(jié)果,能夠直觀展示輿情各大網(wǎng)絡(luò)媒體的傳播情況。如圖3所示,該輿情信息在2019-05-31達(dá)到了最大值,當(dāng)日共產(chǎn)生67248條輿情信息,其中微博平臺(tái)的傳播量最大,最高達(dá)到了65243條,成為該事件的主要傳播媒體。
輿情情感趨勢(shì)分析是通過對(duì)輿情有關(guān)網(wǎng)絡(luò)文本進(jìn)行情感分析,以充分了解廣大民眾對(duì)輿情所持的態(tài)度。如圖4所示,在該輿情事件的發(fā)展過程中,負(fù)面的態(tài)度信息一直居高不下,幾乎占據(jù)了整個(gè)輿論陣營。
傳播途徑分析是對(duì)該輿情去向、數(shù)量和范圍進(jìn)行可視化分析。傳播途徑監(jiān)測(cè)分析有助于管理者更為直觀地了解到整個(gè)輿情事件的傳播路徑以及事態(tài)演變過程,特別是輿情起源于哪里,又往何處發(fā)展,都有軌跡可尋。具體效果如圖5所示,其中,最大的中間圓點(diǎn)為該輿情的起源;圓點(diǎn)圖標(biāo)越大表示輿情的影響力越大、傳播范圍越廣,圓點(diǎn)圖標(biāo)數(shù)量越多,表示該輿情事件得到了越多網(wǎng)民轉(zhuǎn)發(fā)關(guān)注;點(diǎn)與點(diǎn)之間的連接表示傳播途徑。在該事件輿情中,最大的信息層達(dá)到了11級(jí),總轉(zhuǎn)發(fā)人數(shù)超過106916人次,覆蓋微博用戶達(dá)945630798人。
輿情媒體數(shù)量監(jiān)測(cè)分析是對(duì)參與輿情的各大媒體所發(fā)表的輿論數(shù)量進(jìn)行監(jiān)測(cè)分析。如圖6所示,從網(wǎng)媒、論壇、博客和報(bào)刊等媒體報(bào)道的采集的169370個(gè)網(wǎng)絡(luò)文本中,其中微博文本數(shù)量占比為97.64%,在所有媒體文本中占比最高。導(dǎo)致這一結(jié)果的最主要原因是因?yàn)樵撌录旧硎窃谖⒉┢脚_(tái)中發(fā)起的,并且微博平臺(tái)具有非常便捷的媒體轉(zhuǎn)發(fā)功能。
互聯(lián)網(wǎng)已經(jīng)逐漸成為民眾參與輿論的首先渠道。在萬物互聯(lián)互通的網(wǎng)絡(luò)時(shí)代,加強(qiáng)網(wǎng)絡(luò)輿情監(jiān)測(cè)與引導(dǎo),對(duì)維持國家穩(wěn)定、促進(jìn)社會(huì)和諧發(fā)展具有重要的現(xiàn)實(shí)意義。本文基于網(wǎng)絡(luò)爬蟲和文本情感分析等信息技術(shù),提出并設(shè)計(jì)了一種基于主題事件的網(wǎng)絡(luò)輿情監(jiān)測(cè)框架。然后,以某師范大二學(xué)生自述遭受 “校園暴力”輿情事件為例,對(duì)輿情發(fā)展趨勢(shì)、情感趨勢(shì)、傳播途徑和媒體數(shù)量等輿情監(jiān)測(cè)分析的實(shí)現(xiàn)進(jìn)行了實(shí)證論述。
圖5:主題事件傳播途徑分析圖例
圖6:主題事件媒體數(shù)量監(jiān)測(cè)分析圖例