高校網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的實現(xiàn)*

2014-10-10 07:33:18劉志兵

長沙大學(xué)學(xué)報 2014年5期

劉志兵

（長沙大學(xué)附屬中學(xué)，湖南長沙 410022）

劉志兵

（長沙大學(xué)附屬中學(xué)，湖南長沙 410022）

立足于對高校網(wǎng)絡(luò)這一校內(nèi)主要輿論平臺的監(jiān)控的實際需要，結(jié)合中文信息處理領(lǐng)域中網(wǎng)絡(luò)爬蟲、網(wǎng)頁除噪、特征提取、文本分類等技術(shù)，給出了一種高校網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的實現(xiàn)方案，并通過實驗驗證了系統(tǒng)的有效性.

網(wǎng)絡(luò)輿情；數(shù)據(jù)挖掘；網(wǎng)絡(luò)爬蟲；聚類分析

2014年11月，CNNIC第33次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》表明，至2013年12月，我國網(wǎng)民已達到6.18億.在高校校園，網(wǎng)絡(luò)已經(jīng)成為在校大學(xué)生獲取信息、表達意見、參與社會事務(wù)的重要平臺，是網(wǎng)絡(luò)社會的重要力量.在這一虛擬空間里，國內(nèi)外的一些重大突發(fā)事件以及高校內(nèi)的熱點問題都會在很短時間內(nèi)引發(fā)在校學(xué)生的關(guān)切，當(dāng)主題逐漸收斂為特定對象，就形成了網(wǎng)絡(luò)輿情現(xiàn)象.本文將基于網(wǎng)頁信息挖掘技術(shù)，針對輿情監(jiān)控系統(tǒng)展開研究.

1 網(wǎng)絡(luò)輿情研究現(xiàn)狀

目前，在國內(nèi)學(xué)術(shù)界，針對于“網(wǎng)絡(luò)輿情”這一概念，還沒有形成統(tǒng)一的認識［1］.其中“網(wǎng)絡(luò)輿情是由各種社會群體構(gòu)成的公眾，在一定的社會空間內(nèi)，對自己關(guān)心或與自身利益緊密相關(guān)的各種公共事務(wù)所持有的多種情緒、態(tài)度和意見交錯的總和”這一表述較為普便認同.

在國際上，網(wǎng)絡(luò)輿情的研究方向主要有兩個：一是基于自然語言的處理，其關(guān)鍵技術(shù)有中英文分詞技術(shù)和未登錄詞鑒別.而就熱點發(fā)現(xiàn)的研究，基于論壇的信息、環(huán)境、目標的共享等多種度量指標，則采用多維向量技術(shù)來度量話題活性的方法.二是利用數(shù)據(jù)挖掘技術(shù)，研究熱點的發(fā)現(xiàn).利用網(wǎng)絡(luò)的復(fù)雜特性對內(nèi)容進行分聚類.該技術(shù)基于網(wǎng)絡(luò)無尺度網(wǎng)絡(luò)，即：Scale－Free，此類技術(shù)立足于Web特性和數(shù)據(jù)挖掘.

2 系統(tǒng)功能實現(xiàn)分析

為了測試系統(tǒng)功能的有效性，將本系統(tǒng)部署在湖南省長沙某高校校園網(wǎng)絡(luò)內(nèi)，輿情分析監(jiān)控系統(tǒng)重點關(guān)校內(nèi)某學(xué)生論壇的輿情數(shù)據(jù).系統(tǒng)開發(fā)語言為JAVA；數(shù)據(jù)庫軟件為MySQL；開發(fā)工具為MyEclipes6；采用為B／S架構(gòu)，主程序運行在Linux 2.6.32環(huán)境中，中間件采用為Tomcat6.0.24，下圖1，為網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的工作流程和主要功能模塊.

2.1 信息采集模塊

信息采集模塊負責(zé)本系統(tǒng)的對校園網(wǎng)上各類網(wǎng)站論壇上頁面的數(shù)據(jù)抓取，并為此后進行信息分析提數(shù)據(jù)來源.在校園網(wǎng)中的各類網(wǎng)站、論壇web頁中，蘊涵了非常多的數(shù)據(jù)信息，且此類頁面以半結(jié)構(gòu)化或者是非結(jié)構(gòu)化形式存儲數(shù)據(jù)，并處于時刻更新的狀態(tài)，所以，系統(tǒng)就必須具備一個信息采集模塊，負責(zé)對輿情信息進行有效收集，其工作流程如下圖2所示.

圖1 系統(tǒng)工作流程和主要功能模塊

圖2 系統(tǒng)采集模塊的工作流程

輿情信息采集是指對網(wǎng)頁的抓取和相關(guān)數(shù)據(jù)的存儲，網(wǎng)頁抓取基于網(wǎng)絡(luò)爬蟲技術(shù).第一步，利用頁面數(shù)據(jù)采集器，從初始數(shù)據(jù)集開始，將此類URL鏈接信息都存儲在一個有序的、等待收集的隊列之中；第二步，根據(jù)順序獲取URL信息，定向的所指網(wǎng)頁，并返回得到頁面文件.第三步，通過分析已獲取的網(wǎng)頁鏈接信息，生成下一步需要采集的頁面的鏈接信息，并再次將其重新放入待采集的隊列中，通過不斷重復(fù)以上步驟，直到目標網(wǎng)站所有頁面或者預(yù)設(shè)層級頁面被全部抓取.為了提高效率，系統(tǒng)設(shè)計了幾個信息采集器并行采集數(shù)據(jù)，即多線程地爬行多個網(wǎng)頁并存儲網(wǎng)頁源碼.另外，為提高采集頁面效率，可使用基于特定主題的定向抓取技術(shù)，如：主題網(wǎng)絡(luò)爬蟲.該技術(shù)是通過一定的web分析算法，先過濾掉和指定主題無關(guān)的URL，再將有用連接信息存入等待抓取的隊列之中，依據(jù)預(yù)設(shè)主題，對頁面連接與已下載內(nèi)容進行分析，從而預(yù)測出，下步需要進行抓取的連接以及當(dāng)前web頁的主題關(guān)聯(lián)性，確保爬蟲對于頁面下載的有效性.本系統(tǒng)模塊具體要求滿足兩類操作，一是對普通瀏覽網(wǎng)頁的抓取，二是對用戶信息的抓取，采用的技術(shù)主要是網(wǎng)絡(luò)爬蟲技術(shù).

（1）對網(wǎng)頁的爬取

本文系統(tǒng)利用網(wǎng)絡(luò)爬蟲技術(shù)，根據(jù)網(wǎng)頁或者論壇頁面結(jié)構(gòu)進行過濾爬取選定的URL所指頁面，分別存放在系統(tǒng)中的：forum、board、rootboard、post文件夾中.并為后續(xù)信息理提供基礎(chǔ)數(shù)據(jù).具體方法如下：

設(shè)置爬取深度“1”，對網(wǎng)站或者論壇頁面進行爬取.URL過濾規(guī)則是依照對其鏈接進行字符串鑒別.對符合規(guī)則的爬取下載頁面，按照時間分別存放到系統(tǒng)中相應(yīng)文件夾中.

（2）用戶信息爬取

用戶的信息爬取，必須模擬登陸后方能操作，具體分為模擬登陸和爬取信息兩個部分.爬取的注冊用戶信息格式如下形式：

2.2 信息預(yù)處理模塊

在已抓取的頁面之中，除了有用的正文信息外，還存在大量的其他無用信息內(nèi)容，如：菜單導(dǎo)航、網(wǎng)站版權(quán)、友情鏈接等，不同于結(jié)構(gòu)化數(shù)據(jù)，web中的數(shù)據(jù)多為半結(jié)構(gòu)化或者非結(jié)構(gòu)化數(shù)據(jù)，其形式非常復(fù)雜，所以，一般程序就難以對此類原始數(shù)據(jù)直接進行分析和處理.而系統(tǒng)中的信息預(yù)處理模塊，其主要負責(zé)的工作，就是對網(wǎng)頁進行無用信息的清洗除噪，并對內(nèi)容、特征以及關(guān)鍵詞等進行提取工作，下圖3所示，即為此模塊的工作流程.

圖3 系統(tǒng)信息預(yù)處理模塊流程

（1）頁面除噪和內(nèi)容提?。喝缜八?，由于web頁中含有大量的除正文外的噪聲信息，另外，在頁面語義內(nèi)聚性上很難保證，一個網(wǎng)頁中，往往有若干個與語義無關(guān)內(nèi)容，因此首先進行頁面除噪，將對后續(xù)的數(shù)據(jù)挖掘效果起到非常重要的作用.該項工作的目標是從網(wǎng)頁里獲得更加精確的數(shù)據(jù)信息單位，過濾掉如：頁面導(dǎo)航、標注、廣告等垃圾信息.在完成除噪后，通過內(nèi)容提取，系統(tǒng)將半結(jié)構(gòu)或者非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)變?yōu)榫哂薪Y(jié)構(gòu)化模式的，且可操作的信息.在本網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)里，內(nèi)容的提取，是依據(jù)以下兩步完成：第一步，web頁邏輯結(jié)構(gòu)的解釋；第二步，針對特定元素內(nèi)容的篩擇.

（2）特征和關(guān)鍵詞提?。禾卣魈崛?，就是從文本分詞處理后的文檔當(dāng)中，獲取有效信息的技術(shù)方式.經(jīng)常使用的是：基于詞義、詞性特征的提取方法.本系統(tǒng)采用的就是基于詞性的特征提取.第一步，獲取文本內(nèi)容里的動詞、名詞等，并將其定義為該文本1級特征詞，再通過計算此級別特征詞的文本頻數(shù)以及文檔頻數(shù)，進而得到其權(quán)重值.第二步，依據(jù)先前得到的特征詞的各權(quán)重值，對此類1級特征詞實施排序，并預(yù)設(shè)K，為閾值，然后在此類詞中，選出權(quán)重值較大的1級特征詞，K個，作為核心特征詞，進而生成表示該文本的特征向量.

2.3 輿情分析與預(yù)警模塊

輿情分析是本系統(tǒng)當(dāng)中最為關(guān)鍵的一個處理模塊，該模塊基于文本分類和聚類等方法，對先前預(yù)處理后的輿情數(shù)據(jù)進行深入挖掘和分析，并以此提供“話題發(fā)現(xiàn)”和“熱點跟蹤”，下圖4，即為輿情分析模塊的工作流程.

圖4 輿情分析功能模塊流程

（1）話題發(fā)現(xiàn)與跟蹤：話題發(fā)現(xiàn)功能是將信息內(nèi)容歸入不同的話題，并在需要的時候建立新話題，等同于無指導(dǎo)的聚類；話題追蹤負責(zé)追蹤用戶選定興趣話題的后續(xù)發(fā)展，判斷出與之相關(guān)事件［4］.此類功能的實現(xiàn)采用的是文本聚類分析技術(shù).聚類分析就參照一定規(guī)律要求對事物進行區(qū)分的過程，把內(nèi)容相近的文檔進行歸納.聚類分析，其數(shù)學(xué)描述如下［5］：

針對一個特定的數(shù)據(jù)樣本集合：

依照集合中數(shù)據(jù)點的相似程度，將數(shù)據(jù)的樣本集合分成若干個簇

的過程，我們就稱其為：聚類的分析.

典型應(yīng)用是作為一個獨立的工具透視數(shù)據(jù)分布.

基本步驟如下：

第一步，指定一個數(shù)據(jù)集合作為聚類.

第二步，選取文檔中的數(shù)據(jù)特征.

第三步，按照特征，聚合文檔到對應(yīng)類.

第四步，選擇關(guān)鍵詞，對聚類進行標記.

在實際應(yīng)用當(dāng)中，我們最為常見的文本聚類算法有基于網(wǎng)格的方法，還有層次型、分割型等聚類算法.

（2）敏感話題識別：此項功能，是用于分析特定主題在不同時段之中，被瀏覽者關(guān)注的程度.在互聯(lián)網(wǎng)里，話題往往會根據(jù)時間的推移，或者某類事件的發(fā)生，出現(xiàn)一定的規(guī)律變動.經(jīng)過研究，可以發(fā)現(xiàn)，小規(guī)模話題，即使觀點對立度在一定時段中變化較快，但因為人們參與話題規(guī)模不大，無法代表多數(shù)人意見，故，在進行敏感話題識別時，就必須還要結(jié)合話題參與規(guī)模、網(wǎng)民觀注度這些要素，找出輿情在一定時段中的相關(guān)網(wǎng)頁數(shù)量，只有能夠都滿足參與規(guī)模數(shù)、觀點對立度兩個閾值，系統(tǒng)才可以啟動預(yù)警.

（3）輿情預(yù)警：此模塊提供輿情監(jiān)控系統(tǒng)和用戶之間的各類交互操作，可以通過報表、圖型等方式，將經(jīng)過系統(tǒng)分析后的結(jié)果最終反饋給管理者.其中常見功能如：敏感話題趨勢、熱點話題排序等，系統(tǒng)通過此類直觀交互性展示信息，能使管理者對各類熱點敏感信息的進行在線分析，及時把握輿情變化趨勢，必要時，系統(tǒng)還能實現(xiàn)預(yù)警的自動觸發(fā).而預(yù)警功能是檢驗本系統(tǒng)實際應(yīng)用效果的一個關(guān)鍵指標項，為此本系統(tǒng)針對該模塊功能進行了如下評價測試.

①評價標準：輿情預(yù)警能對系統(tǒng)分析出的熱點詞匯、敏感詞匯等要素對獲取的網(wǎng)頁信息進行二次處理，并有效提供管理者查詢分析使用.

②實驗環(huán)境：系統(tǒng)針對特定敏感詞“聚會”，對從論壇下載的網(wǎng)頁進行篩選，整理出符合條件的網(wǎng)頁信息結(jié)果.實驗的硬件配置為戴爾PowerEdge T110塔式服務(wù)器，CPU：Xeon E3－1220，內(nèi)存：1GB，系統(tǒng)環(huán)境：Windows 2003.

③結(jié)果分析

圖5 輿情預(yù)警對敏感詞的篩選結(jié)果

以上結(jié)果可以看出，本系統(tǒng)輿情預(yù)警服務(wù)能針對熱詞、敏感詞、關(guān)鍵字進行有效篩選，能為管理者及時提供預(yù)警信息幫助.

3 結(jié)語

加強高校校園網(wǎng)上網(wǎng)站、論壇BBS上的網(wǎng)絡(luò)輿情信息監(jiān)控，及時追蹤校園網(wǎng)上的輿情變化趨勢，對于分析在校大學(xué)生的思想行為特點，指導(dǎo)學(xué)生身心健康發(fā)展，引導(dǎo)校園文化和輿論的正確走向都具有非常重要的積極作用.本文中涉及的輿情系統(tǒng)經(jīng)過前期的詳細論證、認真設(shè)計，以及后期的試運行分析，已經(jīng)表明系統(tǒng)已具備一定的實用功效.但由于時間倉促，在系統(tǒng)的實際應(yīng)用過程中，我們也發(fā)現(xiàn)了一些問題，這也是我認在今后需要進行重點改進的地方：

（1）系統(tǒng)的輿情分析功能有待加強：經(jīng)過一段時間的運行表明，本系統(tǒng)在一些基本功能方面都已具備，在今后的研究當(dāng)中，“文本傾向性分析”技術(shù)的應(yīng)用和優(yōu)化仍然需要重點進行改進的內(nèi)容.

（2）系統(tǒng)擴展性有待加強：本次工作中所設(shè)計實現(xiàn)的網(wǎng)絡(luò)輿情分析監(jiān)控系統(tǒng)主要還是針對高校普遍采用的論壇架構(gòu)體系而言，雖然能通過修改相關(guān)XML配置文件和類屬性可以實現(xiàn)對不同類型論壇的分析監(jiān)控，但針對其他如傳統(tǒng)網(wǎng)站、應(yīng)用日志、非HTTP下載應(yīng)用的信息獲取和分析功能還需要進一步完善.

（3）系統(tǒng)部署通用性和兼容性：本系統(tǒng)主要部署在校內(nèi)服務(wù)器上，并基于Linux操作系統(tǒng)和Tomcat中間件發(fā)布，目前只應(yīng)用于校內(nèi)論壇的輿情信息的監(jiān)控，如需推廣應(yīng)用，系統(tǒng)就必須綜合考慮不同網(wǎng)絡(luò)環(huán)境、系統(tǒng)架構(gòu)下的兼容性和通用性.

［1］姚占雷，許鑫，趙路平.2005－2009年國內(nèi)網(wǎng)絡(luò)輿情文獻的計量分析［J］.現(xiàn)代情報，2010，（10）：174－177.

［2］Franz M，Ward T，McCarley JS，et al.Unsupervised and supervised clustering for topic tracking［A］.Proceedingsof the24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval［C］.2001.

［3］Alena N.Sematically distinct verb classes involved in sentiment analysis［A］.IADIS International Conference Applied Computing［C］.2009.

（作者本人校對）

Realization of the Public Opinion M onitoring System of College Network

LIU Zhibing
（The Middle School Attached to Changsha University，Changsha Hunan 410022，China）

Based on the actualneeds of college campus network，amajormediamonitoring platform，and combined with Chinese information processing fields，such asWeb crawler，web noise removal，feature extraction and text classification techniques，this paper provides an implementation method of university network public opinion monitoring system，and verifies the effectiveness of the system through experiments.

network public opinion；datamining；crawlers；cluster analysis

TP391

1008－4681（2014）05－0056－03

2014－07－14

劉志兵（1986－），男，湖南長沙人，長沙大學(xué)附屬中學(xué)網(wǎng)絡(luò)工程師，碩士.研究方向：網(wǎng)絡(luò)工程.

長沙大學(xué)學(xué)報2014年5期

長沙大學(xué)學(xué)報的其它文章: 廣東省CBA籃球俱樂部后備人才訓(xùn)練現(xiàn)狀分析與研究*; 雙因素方差分析的應(yīng)用及M atlab實現(xiàn)*; 移動學(xué)習(xí)環(huán)境下PBL模式在軟件工程實訓(xùn)課程中的應(yīng)用探索*; 以項目化教學(xué)為主導(dǎo)的多元化教學(xué)法在“機械設(shè)計基礎(chǔ)”課程中的實踐研究*; 物業(yè)管理專業(yè)本科生專業(yè)認同及對擇業(yè)行為影響的實證分析*; “工程索道”國家級精品資源共享課建設(shè)*