許 鵬 耿藤森 郭鑫濤 陶瑞雪 張傳營 張書曼 李俐瑩
(河北科技大學,河北 石家莊 050018)
隨著網(wǎng)絡技術的不斷發(fā)展,網(wǎng)民數(shù)量的增多,網(wǎng)絡逐漸成為社會公眾關注新聞的第一渠道。個人和各種社會群體由于自身的基本訴求未得到滿足,在網(wǎng)絡上自由抒發(fā)自己的觀點,其通過網(wǎng)絡數(shù)據(jù)的高速傳播,部分內(nèi)容伴隨時間的發(fā)酵,公眾關注力逐漸上升,會形成針對某一官方機構(gòu)或公共事務責任方的網(wǎng)絡輿論。這樣的輿論傳播存在很明顯的情感導向,很大層面上無法及時解決真正的社會問題,反而會給相關機構(gòu)和人員帶來很大的輿論沖擊,造成其聲譽和社會地位上難以挽回的損失。因此,本研究基于分布式數(shù)據(jù)處理,搭建網(wǎng)絡輿情調(diào)控系統(tǒng),其能對網(wǎng)絡中的大量數(shù)據(jù)進行實時的監(jiān)測和篩選,及時發(fā)現(xiàn)有關社會輿情的信息,及時和相關人員取得聯(lián)系,避免事態(tài)進一步發(fā)酵形成輿論,達到網(wǎng)絡輿情調(diào)控的目的。
根據(jù)第49次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》,截至2021年12月,我國的網(wǎng)民規(guī)模達到了10.32億,和上一年同期比較,增長了4 296萬人;移動互聯(lián)網(wǎng)接入流量為2 216億GB,相較上一年增長了33.9%;市場上監(jiān)測到的APP數(shù)量達到了252萬款;移動電話用戶規(guī)模也在持續(xù)上漲,5G移動電話用戶達到了3.55億戶[1]。這些數(shù)據(jù)表明,網(wǎng)絡和現(xiàn)實生活已經(jīng)緊密相連。人們在享受著網(wǎng)絡技術所提供的便利的同時,其日常生活也已經(jīng)被信息流所“裹挾”。
網(wǎng)絡中的活躍用戶,往往渴望被認同,對較為新鮮的事件會更加積極地響應和反饋。網(wǎng)絡具有隱蔽性,前臺用戶的信息依然具有匿名性,言論發(fā)布者的心理壓力相對較小,相比現(xiàn)實生活,有些人更愿意在網(wǎng)絡中跟隨情緒發(fā)表自己的意見。網(wǎng)絡具有開放性和強交互性,因此個人能通過言論的傳播謀取更大程度的社會認同。一方面,網(wǎng)絡的監(jiān)管力度遠不如現(xiàn)實,在此過程中,部分人把互聯(lián)網(wǎng)當情緒的宣泄口,其中部分群體很容易被虛假信息甚至極端的言論所影響,產(chǎn)生激進、感性和情緒化的言論敘述,這些情緒化言論在眾人的響應下,存在逐漸發(fā)展成有害輿論的可能性。另一方面,廣大網(wǎng)民情感、態(tài)度、意見和觀點的表達和傳播過程中,實時審核機制存在漏洞,缺乏對其后續(xù)影響力的預判,這是現(xiàn)階段技術的局限性造成的。因此,在信息的快速傳播過程中,缺少傳統(tǒng)媒體中的“把關人”,信息被不停產(chǎn)生的新信息所埋沒,部分內(nèi)容隨機伴隨網(wǎng)絡上龐雜的信息流進行傳播、擴散,最終,在傳播過程中進行發(fā)酵,成為網(wǎng)絡熱點,產(chǎn)生社會輿情,造成一定的社會影響。
從Web2.0時代開始,網(wǎng)絡信息傳播不再僅按照傳統(tǒng)形式發(fā)布內(nèi)容供用戶瀏覽,更多的是集各種媒介方式于一體進行信息傳播,并能針對用戶喜好、興趣、關注對象、地區(qū)信息和個人信息等相關數(shù)據(jù)進行分析與追蹤,形成“用戶畫像”,精確推送符合用戶偏好的內(nèi)容[2],大眾所熟知的先進的主流傳播平臺如微博、知乎以及抖音,均以這種形式進行信息傳播。
通過智能算法,用戶可以對自己感興趣的相關事件產(chǎn)生更強的參與感,因此新媒體時代,用戶不再單單處于傳統(tǒng)媒體的“議程設置”下,而是通過表達自己對于某一事件的體會和感受,完成了自身的議程設置工作,將相關事件融合個人想法進行“信息包裝”,借用網(wǎng)絡進行傳播。
廣義的輿情是個人和各種社會群體構(gòu)成的公眾,發(fā)布與自身利益相關的公共事務引起的個人情緒所造成的社會性討論的總和。而網(wǎng)絡輿情是社會輿情在互聯(lián)網(wǎng)空間的映射,是對社會輿情的直接反映[3]。隨著信息社會的快速發(fā)展和互聯(lián)網(wǎng)的普及,各階層與網(wǎng)絡的接觸更加緊密,信息具有傳播渠道多、傳播速度快、傳播范圍廣的特點。在這種情況下,易形成網(wǎng)絡輿情。網(wǎng)絡輿情具有突發(fā)性、交互性、自由性、多元性與偏差性等特點。從積極方面看,社會輿情在某些方面可以形成正確的輿論導向,可以凈化社會環(huán)境與人的心靈,陶冶人的情操,有助于良好社會風氣的形成,在弘揚中華民族文化和社會主義道德上起到巨大的推動作用,但同時,網(wǎng)民看問題存在主觀性,無法清楚地了解事件的來龍去脈,容易給當事人造成很大的傷害。
網(wǎng)絡輿論的發(fā)酵過程中,參與討論的個人大多不具有很高的社會地位或權力,卻可以通過互聯(lián)網(wǎng)表達自身訴求,通過和網(wǎng)友進行討論,抒發(fā)自身不滿,在此過程中滿足自身期望與自我肯定。但是,在網(wǎng)絡中,個人的議程設置往往具有很強的偏向性和主觀性,網(wǎng)絡輿論中的相關官方機構(gòu)和公共事務的責任方往往會受到眾多網(wǎng)友的聲討。
發(fā)起者利用網(wǎng)絡輿論是以闡述個人訴求,得到社會肯定為目的,但是,通過網(wǎng)絡輿論的傳播,無論最終的結(jié)果如何,都會給相關單位或組織造成一定程度的聲譽損害。相關人員在前期和發(fā)起者積極進行溝通,并且迅速做出反饋,對事情進行全面調(diào)查與分析,就可以降低對自身聲譽的損害。如果是由于發(fā)起者自身的相關問題,通過溝通,可以引導其完善個人資料,滿足個人或群體訴求;如果是因為組織內(nèi)部存在制度缺陷,則積極回應,完善內(nèi)部機制,與發(fā)起者進行溝通,使雙方的社會利益均得到保障。
民眾是輿情的核心所在,是整個網(wǎng)絡鏈中核心的部分,是受輿情結(jié)果牽制的最終受益者或受害者。這要求網(wǎng)絡監(jiān)測能更切合實際地反映民情,更有效地展示社會中的實際問題,維護民眾的利益。因此,網(wǎng)絡輿情監(jiān)測發(fā)展的方向必然是更專業(yè)化和更服務化。設立相關預警機制,實時監(jiān)測、準確地分析數(shù)據(jù),并在此基礎上提出行之有效的解決方案等,將是輿情監(jiān)測這個新興行業(yè)需要堅持不懈地努力的方向。
本研究針對以上社會訴求,進行系統(tǒng)功能開發(fā)和平臺搭建,該系統(tǒng)可以通過網(wǎng)絡對特定學校、企業(yè)和政府部門相關信息的實時篩查,及時發(fā)現(xiàn)并收集來自組織或個人的可能醞釀成熱點新聞的話題言論,進行風險評估,并形成相關預防預警機制,從而減緩社會事態(tài)的發(fā)酵,減小學校、企業(yè)和政府相關部門等的輿論壓力,營造和諧的社會風氣,以更好地維護社會秩序。
輿情監(jiān)控對于維護國家和社會的穩(wěn)定具有重要意義,而“網(wǎng)絡爬蟲工具”為其提供了有力的技術支持。近年來隨著信息技術的不斷發(fā)展,數(shù)據(jù)爬取行為的合法性受到質(zhì)疑,在輿情監(jiān)測系統(tǒng)的創(chuàng)建與發(fā)展中,數(shù)據(jù)爬取行為是否合法,應從三個方面看待[4]。
運用數(shù)據(jù)爬取技術應秉持中立原則,但技術中立原則不是免責條款,其使用方式和目標追求以及社會影響都是判斷其是否合法的依據(jù)。輿情監(jiān)測系統(tǒng)使用的數(shù)據(jù)爬取技術如非出于惡意,具有非實質(zhì)性侵權性質(zhì),則不影響被爬取數(shù)據(jù)擁有者的合法權益,那么這種爬取行為就是合法的。
不正當競爭行為的成立要求當事人之間具有實質(zhì)性的競爭關系,輿情監(jiān)測系統(tǒng)應用數(shù)據(jù)爬取技術之時,如沒有與被爬取數(shù)據(jù)擁有者之間產(chǎn)生實質(zhì)性的競爭關系,就不存在不正當競爭行為,數(shù)據(jù)爬取行為應為合法,同時還應當綜合考慮競爭主體、行為不正當性等多方面因素。
關于數(shù)據(jù)爬取行為是否合法并沒有明確的法律規(guī)定,但是基于民法的自愿誠信原則,遵循Robots協(xié)議[5],對數(shù)據(jù)進行合法的抓取利用,未出現(xiàn)違背法律的現(xiàn)象。合理運用數(shù)據(jù)爬取手段進行輿論檢測符合行業(yè)規(guī)范,是合法行為。
通過對網(wǎng)絡數(shù)據(jù)抓取的合法性的調(diào)查和研究,最終得出結(jié)果,數(shù)據(jù)爬取技術在輿論檢測系統(tǒng)中的應用是具有合法性的,只要合理合規(guī)地運用,可以通過此類技術實現(xiàn)信息的二次價值,并且并不會觸及法律的邊界。
本系統(tǒng)從兩個部分進行開發(fā),分別是數(shù)據(jù)采集和系統(tǒng)部署。數(shù)據(jù)采集部分采用Elasticsearch搜索引擎進行搜索,在短時間內(nèi)完成目標內(nèi)容定位,獲取相關數(shù)據(jù)。獲取的數(shù)據(jù)經(jīng)由三個數(shù)據(jù)處理系統(tǒng)進行數(shù)據(jù)過濾,這三個系統(tǒng)分別是數(shù)據(jù)在線處理子系統(tǒng)、數(shù)據(jù)應用分析子系統(tǒng)和數(shù)據(jù)資源管理子系統(tǒng)。通過三個系統(tǒng)的相互配合,對原數(shù)據(jù)進行清洗凈化來獲取特征詞,以自然語言分析自動形成文摘。
系統(tǒng)以Elasticsearch+Hive+HBase組合作為數(shù)據(jù)層的解決方案。其中,Elasticsearch是基于Lucene開發(fā)的搜索和數(shù)據(jù)分析引擎,具備強大的數(shù)據(jù)索引、快速搜索和海量存儲功能,適用于包括文本、數(shù)字、地理空間、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)等在內(nèi)的所有類型的數(shù)據(jù)。本系統(tǒng)主要使用Elasticsearch完成關鍵數(shù)據(jù)的索引和搜索工作,輿情數(shù)據(jù)通過使用Elasticsearch從多個來源(包括日志、系統(tǒng)指標和網(wǎng)絡應用程序)實現(xiàn)匯集。這些數(shù)據(jù)在Elasticsearch中索引完成之后,用戶便可針對他們的數(shù)據(jù)運行復雜的查詢,并使用聚合來檢索自身數(shù)據(jù)。同時,將網(wǎng)絡爬蟲技術和Elasticsearch搜索引擎結(jié)合,通過網(wǎng)絡爬蟲技術對網(wǎng)絡上的各個客戶端的網(wǎng)站進行訪問,在遵循互聯(lián)網(wǎng)的Robots協(xié)議的基礎上,對各個網(wǎng)站的網(wǎng)絡數(shù)據(jù)進行獲取。
數(shù)據(jù)在線處理子系統(tǒng)是自主研發(fā)的通用采集器,采用主從分離的分布式架構(gòu),根據(jù)需要通過分布式擴展部署,在實現(xiàn)高效率數(shù)據(jù)采集的同時,也具備高可用性、高擴展性、快速定制采集規(guī)則等能力,從而保證數(shù)據(jù)在線處理子系統(tǒng)擁有增量式采集、按主題分類采集、可定制化采集的強大功能。
它由數(shù)據(jù)采集、數(shù)據(jù)預處理、在線翻譯、相似度計算、云端數(shù)據(jù)管理、系統(tǒng)管理組成。在互聯(lián)網(wǎng)如微博、知乎、貼吧等各大網(wǎng)絡平臺上進行熱點信息采集后交由云端處理器管理,對輿情數(shù)據(jù)進行預處理、翻譯和計算后,價值度更高的監(jiān)測信息被送入海量數(shù)據(jù)存儲集群。針對需要登錄的網(wǎng)站定制化的采集需求,可通過采集器的定制服務完成。
數(shù)據(jù)資源存儲管理子系統(tǒng)可通過開源的分布式數(shù)據(jù)存儲組件構(gòu)成,如Minio、HBase、Hive等。其中,HBase是一個開源的、分布式的、版本化的NoSQL數(shù)據(jù)庫(非關系型數(shù)據(jù)庫),它利用Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)提供分布式數(shù)據(jù)存儲。HBase將所收集的目標信息以表的形式組織數(shù)據(jù),表由行和列組成,它將一列或者多列組織在一起,每一個列都必須屬于某個列族。
利用這些工具可以對所采集的輿情數(shù)據(jù)如文本文件、網(wǎng)頁文件、PDF文檔、Office文檔等常見的數(shù)據(jù)類型進行統(tǒng)一的數(shù)據(jù)管理,方便人工進行熱點數(shù)據(jù)標注,開展數(shù)據(jù)文本分析,對輿情信息由面到點地一一摘取進行處理,如提取關鍵信息、實體識別、實體屬性等,構(gòu)建領域知識圖譜。一系列操作完畢后,數(shù)據(jù)交由海量數(shù)據(jù)存儲集進行更深的加工處理。
數(shù)據(jù)分析應用子系統(tǒng)在使用開源的基礎算法組件之上,根據(jù)需求,定制算法,對全網(wǎng)進行監(jiān)測,如對熱門論壇、貼吧、微博等各大網(wǎng)媒門戶網(wǎng)站實時監(jiān)控,收集重大高校相關政策信息、本校熱門事件,若發(fā)現(xiàn)負面輿情,第一時間進行處理。利用自然語言分析,在重要數(shù)據(jù)分析模塊進行全方位、多角度的關聯(lián)分析與擴展,為系統(tǒng)用戶提供具有實際價值和前瞻性的綜合分析內(nèi)容。
針對數(shù)據(jù)資源管理子系統(tǒng)處理后的數(shù)據(jù),進一步挖掘可用信息,進行可視化的關聯(lián)展示,使用戶可以直觀地看到所需信息。用戶能夠通過主題設置,實現(xiàn)信息分類展示,便于對其感興趣的內(nèi)容進行瀏覽閱讀。相關信息從數(shù)據(jù)庫中調(diào)取,通過圖表、文字等形式進行用戶展現(xiàn)。
系統(tǒng)采用以Java語言為主、以開源軟件為基礎的定制化系統(tǒng)架構(gòu),共分四個層次。其中資源平臺層和基礎平臺層屬于數(shù)據(jù)在線處理子系統(tǒng),其采用分布式的C/S架構(gòu),實現(xiàn)多線程并發(fā)信息采集與數(shù)據(jù)清洗;業(yè)務層和功能平臺層屬于數(shù)據(jù)分析管理子系統(tǒng),采用B/S架構(gòu)實現(xiàn),使用瀏覽器來進行配置和瀏覽。
網(wǎng)絡部分,系統(tǒng)采用“外網(wǎng)+內(nèi)部局域網(wǎng)”方式進行部署。外網(wǎng)部署數(shù)據(jù)在線處理子系統(tǒng)基于Java開發(fā)的C/S架構(gòu)設計,通過多節(jié)點、多進程、多線程并發(fā)的方式進行信息采集。由于系統(tǒng)整體采用的是松耦合設計,通過松耦合,與Java的多接口設計相結(jié)合,使該系統(tǒng)可以很好地部署在多種類型的服務器上,可以合理運行于Linux、Windows等服務器平臺上。局域網(wǎng)部署數(shù)據(jù)分析管理子系統(tǒng)基于Java開發(fā)的B/S架構(gòu)設計,前端使用主流的Vue框架以及阿里開源的ant-design組件,可達到完美兼容IE11、Chrome和Firefox三款最主流的瀏覽器的目標,并實現(xiàn)數(shù)據(jù)的集中可視化展示。
系統(tǒng)能夠給用戶提供可視化的分析結(jié)果,采集瀏覽到的信息和各類統(tǒng)計圖表。基礎業(yè)務數(shù)據(jù)能夠與國產(chǎn)達夢數(shù)據(jù)庫實現(xiàn)兼容移植,同時系統(tǒng)能夠運行在國產(chǎn)化的操作系統(tǒng)上。該系統(tǒng)現(xiàn)擁有完善的功能體系,平臺操作界面簡單,可以為用戶提供信息監(jiān)測、熱點分析、事件分析、輿情簡報及輿情大屏顯示功能,模塊可靈活部署于不同系統(tǒng)和應用之上,功能模塊間的通信通過消息中間件來完成。
整個系統(tǒng)主要由內(nèi)網(wǎng)和外網(wǎng)兩大模塊構(gòu)成。外網(wǎng)進行數(shù)據(jù)的云端獲取,內(nèi)網(wǎng)用于數(shù)據(jù)的實時處理和結(jié)果輸出,兩者之間通過光盤擺渡進行數(shù)據(jù)的傳輸,進而進行數(shù)據(jù)的進一步加工工作,通過此種方式,可以實現(xiàn)系統(tǒng)的高效運行。
數(shù)據(jù)分析子系統(tǒng)和數(shù)據(jù)資源管理子系統(tǒng)在內(nèi)網(wǎng)進行部署,數(shù)據(jù)在線處理子系統(tǒng)在外網(wǎng)進行部署?;贐/S架構(gòu)的系統(tǒng)可以使得數(shù)據(jù)更加容易獲取,利用C/S架構(gòu)進行外網(wǎng)部署,有利于數(shù)據(jù)的處理和直接呈現(xiàn)。三個部分通過光盤擺渡的方式實現(xiàn)數(shù)據(jù)交換,系統(tǒng)部署部分如圖1所示。
圖1 系統(tǒng)部署框架圖
系統(tǒng)通過對網(wǎng)絡信息的收集和處理,得以在較短時間內(nèi)明確輿情相關的事件性質(zhì),便于確定與相關單位或社會群體有關的危險等級,展開事件的風險評估。并通過及時聯(lián)系相關責任機關或責任人,使其明確事態(tài)發(fā)展進程,及時把控事件的嚴重程度,降低社會輿論發(fā)生的可能性,減小相關輿論議題的社會影響,將輿情影響降低到最小,起到網(wǎng)絡輿情調(diào)控的目的。
網(wǎng)絡輿情調(diào)控系統(tǒng)能利用網(wǎng)絡爬蟲,在遵守互聯(lián)網(wǎng)關于數(shù)據(jù)抓取的Robots協(xié)議的基礎上,對各大門戶網(wǎng)站的公開輿情信息進行搜索并抓??;通過對元數(shù)據(jù)的清洗和去重獲取特征詞匯,結(jié)合自然語言處理和HBase數(shù)據(jù)庫完成數(shù)據(jù)的存儲和歸類;再使用自然語言分析技術將數(shù)據(jù)進行歸總展示。通過本系統(tǒng)進行網(wǎng)絡輿情數(shù)據(jù)調(diào)控可以更加及時高效地解決公眾提出的社會問題,同時也能降低由于公眾的盲目發(fā)泄對官方機構(gòu)和社會公共組織造成的潛在傷害。進行輿情防控,在很大程度上可以提高社會的安定程度和人民的生活幸福感。