于 琨,孫新領(lǐng)
(河南機(jī)電高等??茖W(xué)校計(jì)算機(jī)科學(xué)與技術(shù)系,河南新鄉(xiāng)453000)
目前,在我國(guó)近3億龐大規(guī)模的網(wǎng)絡(luò)輿情主體[1]中,學(xué)生網(wǎng)民規(guī)模已達(dá)到7600萬(wàn)人,其中高校大學(xué)生網(wǎng)民比例就占據(jù)了21.2%。相對(duì)于一般社會(huì)群體,高校大學(xué)生是對(duì)社會(huì)諸多現(xiàn)象、現(xiàn)實(shí)和問(wèn)題等反應(yīng)最為敏感的重要群體,加上高校大學(xué)生自身知識(shí)積累不足、社會(huì)閱歷不夠豐富、思維不夠嚴(yán)密、情感活躍,易受到錯(cuò)誤言論的蒙蔽和誤導(dǎo)等特點(diǎn),以及高校校園網(wǎng)絡(luò)輿情監(jiān)測(cè)與預(yù)警手段方面的嚴(yán)重不足,使得高校校園最易成為網(wǎng)絡(luò)輿情的發(fā)源地和擴(kuò)散地。
所以,能否對(duì)校園網(wǎng)絡(luò)輿情進(jìn)行科學(xué)正確的引導(dǎo)、規(guī)范,進(jìn)一步發(fā)揮網(wǎng)絡(luò)輿論的積極作用,克服其消極作用,是構(gòu)建社會(huì)主義和諧校園面臨的重要課題,是高校思想政治教育工作的內(nèi)在要求,亦是衡量高等院校輿情應(yīng)對(duì)能力的一項(xiàng)重要標(biāo)準(zhǔn)。
網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)[2]需要通過(guò)對(duì)互聯(lián)網(wǎng)上各類信息進(jìn)行采集、分類、整合、篩選等技術(shù)處理,來(lái)實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)熱點(diǎn)、輿情動(dòng)態(tài)、網(wǎng)民意見等實(shí)時(shí)統(tǒng)計(jì)報(bào)表的具體功能。通過(guò)對(duì)熱點(diǎn)問(wèn)題和重點(diǎn)領(lǐng)域比較集中的網(wǎng)站信息,如:各大網(wǎng)站、論壇、百度貼吧、校內(nèi)BBS、微博等,進(jìn)行24小時(shí)監(jiān)控,隨時(shí)采集最新的消息和意見,然后完成對(duì)數(shù)據(jù)格式的轉(zhuǎn)換及元數(shù)據(jù)的標(biāo)引。同時(shí)對(duì)采集到本地的信息,進(jìn)行初步的過(guò)濾和預(yù)處理。對(duì)熱點(diǎn)問(wèn)題和重要領(lǐng)域?qū)嵤┍O(jiān)控,并在監(jiān)控知識(shí)庫(kù)的指導(dǎo)下進(jìn)行基于輿情的語(yǔ)義分析,使管理者看到的民情民意更有效,更符合現(xiàn)實(shí)。最后將監(jiān)控的結(jié)果,分別推送到不同的職能部門,供制定對(duì)策使用。
本課題的主要思路是針對(duì)高校校園網(wǎng)絡(luò)管理及輿情發(fā)生特點(diǎn)開發(fā)一個(gè)基于網(wǎng)絡(luò)信息挖掘技術(shù)的網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng),利用網(wǎng)絡(luò)蜘蛛技術(shù)、中文分詞技術(shù)和文本聚類技術(shù),通過(guò)對(duì)互聯(lián)網(wǎng)信息采集、處理,輿情識(shí)別分析,進(jìn)行公共危機(jī)和熱點(diǎn)事件的輿情監(jiān)測(cè),對(duì)高校網(wǎng)絡(luò)輿情進(jìn)行監(jiān)測(cè)和預(yù)警。
該系統(tǒng)的功能模塊設(shè)置如圖1所示:
圖1 系統(tǒng)功能模塊圖
系統(tǒng)采用C#作為編程語(yǔ)言,采用 Microsoft Visual Studio2005作為開發(fā)工具,采用客戶端/服務(wù)器(C/S)與瀏覽器/服務(wù)器(Browser/Server)作為開發(fā)結(jié)構(gòu),數(shù)據(jù)庫(kù)采用SQL Server 2005,Web服務(wù)器采用 IIS。
4.2.1 Web 信息挖掘技術(shù)
隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,數(shù)據(jù)挖掘技術(shù)被運(yùn)用到網(wǎng)絡(luò)上,并根據(jù)網(wǎng)絡(luò)信息的特點(diǎn)發(fā)展出新的理論與方法,演變成Web信息挖掘技術(shù)。Web信息挖掘是指對(duì)目標(biāo)樣本進(jìn)行分析并提取特征,以此為依據(jù)從Web文檔和Web活動(dòng)中抽取人們感興趣、潛在的有用模式和隱藏的信息。所挖掘出的知識(shí)能夠用于信息管理、查詢處理、決策支持、過(guò)程控制等方面,信息挖掘流程如圖2所示。
圖2 Web信息挖掘流程圖
4.2.2 網(wǎng)絡(luò)蜘蛛技術(shù)
本文采用網(wǎng)絡(luò)蜘蛛作為獲取輿情語(yǔ)料的輔助工具。
圖3 網(wǎng)絡(luò)蜘蛛工作流程圖
網(wǎng)絡(luò)蜘蛛[3]實(shí)質(zhì)上是一個(gè)爬行程序,一個(gè)抓取網(wǎng)頁(yè)的爬行程序,通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)尋找網(wǎng)頁(yè),從網(wǎng)站某一個(gè)頁(yè)面(通常是首頁(yè))開始,讀取網(wǎng)頁(yè)的內(nèi)容,找到在網(wǎng)頁(yè)中的其他鏈接地址,然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè),這樣一直循環(huán)下去,直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止(如圖3所示)。如果把整個(gè)互聯(lián)網(wǎng)當(dāng)成一個(gè)網(wǎng)站的話,那么網(wǎng)絡(luò)蜘蛛就可以用這個(gè)原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)都抓取下來(lái)。
4.2.3 中文分詞技術(shù)
中文分詞技術(shù)是中文信息處理領(lǐng)域的一項(xiàng)基礎(chǔ)性課題,也是智能化中文信息處理的關(guān)鍵,中文分詞系統(tǒng)的實(shí)現(xiàn)及效果依賴于分詞理論與方法。
現(xiàn)有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。由于基于統(tǒng)計(jì)的分詞方法對(duì)歧義、新詞的識(shí)別能力強(qiáng)、分詞的準(zhǔn)確性高以及技術(shù)成熟、便于實(shí)施等方面的優(yōu)勢(shì),結(jié)合網(wǎng)絡(luò)輿情的特點(diǎn),基于統(tǒng)計(jì)的分詞更為適合網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的研究。
4.2.4 文本聚類技術(shù)
文本聚類技術(shù)是文本挖掘分析技術(shù)的一個(gè)重要研究分支。它是在無(wú)類別標(biāo)記信息的情況下,根據(jù)事物的不同特征,將事物劃分為不同的組,使得不同聚類中的數(shù)據(jù)盡可能的不同,而同一聚類中的數(shù)據(jù)盡可能的相似。近年來(lái),文本聚類較多應(yīng)用于自動(dòng)產(chǎn)生文本的多層次的類或者簇,并利用這些生成的類對(duì)新文本進(jìn)行高效率的歸類。
4.3.1 信息采集模塊
信息采集模塊為整個(gè)輿情監(jiān)測(cè)系統(tǒng)的基礎(chǔ)模塊,該模塊主要完成了對(duì)指定數(shù)據(jù)采集空間內(nèi)的信息資源進(jìn)行采集與存儲(chǔ)。該模塊所采集的信息資源,將作為輿情分析的有效文本集。
4.3.2 信息處理模塊
信息處理模塊包含兩個(gè)工作:分詞與建立索引。該模塊主要對(duì)信息采集過(guò)程采集到的文本數(shù)據(jù)庫(kù)進(jìn)行讀取,逐條進(jìn)行數(shù)據(jù)清理,去除文本中的腳本等無(wú)用信息,提取出文本的標(biāo)題、內(nèi)容,并利用 Lucene.Net對(duì)文本進(jìn)行分詞索引,為熱點(diǎn)話題發(fā)現(xiàn)模塊創(chuàng)建文本模型提供數(shù)據(jù)資源。
4.3.3 輿情熱點(diǎn)發(fā)現(xiàn)模塊
輿情熱點(diǎn)發(fā)現(xiàn)模塊是整個(gè)系統(tǒng)的核心模塊,是輿情監(jiān)控以及輿情熱點(diǎn)的發(fā)現(xiàn)、突發(fā)事件的發(fā)現(xiàn)等功能的實(shí)現(xiàn)模塊,該模塊主要利用文本聚類技術(shù),對(duì)獲得的文本信息進(jìn)行聚類分析,獲取聚類中心,即輿情熱點(diǎn)。
4.3.4 輿情分析模塊
輿情分析模塊使用了B/S設(shè)計(jì)模式,便于各級(jí)管理部門及輿情觀察人員隨時(shí)隨地可觀察到當(dāng)前輿情信息。
系統(tǒng)在進(jìn)行輿情分析后,利用SQL Server2005的ETL功能對(duì)輿情信息進(jìn)行清洗,存儲(chǔ)至數(shù)據(jù)倉(cāng)庫(kù)中,建立維度模型。ETL主要分為四個(gè)步驟:分別是抽取、清洗、一致性處理和交付。
4.3.5 輿情預(yù)警模塊
輿情預(yù)警模塊[4]主要是針對(duì)輿情分析模塊交付的熱點(diǎn)信息與突發(fā)事件進(jìn)行監(jiān)聽分析,然后根據(jù)信息的語(yǔ)料庫(kù)與報(bào)警監(jiān)控信息庫(kù)進(jìn)行分析,將某一具體網(wǎng)絡(luò)輿情信息的安全性劃分為安全、較安全、臨界、較危險(xiǎn)、危險(xiǎn)五個(gè)區(qū)間,從而針對(duì)某一網(wǎng)絡(luò)輿情信息的安全指數(shù)通過(guò)圖表等形式呈現(xiàn)給高校專業(yè)化網(wǎng)絡(luò)政工的研判人員和監(jiān)管人員的機(jī)制,能幫助他們及早發(fā)現(xiàn)輿情信息,從而實(shí)現(xiàn)對(duì)高校重大輿情事件的及時(shí)響應(yīng)。
本課題所開發(fā)的高校網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng),著重于實(shí)現(xiàn)輿情熱點(diǎn)與話題信息的推送與跟蹤功能,可進(jìn)一步分析輿情內(nèi)容的觀點(diǎn)與態(tài)度問(wèn)題,篩選并判定各級(jí)別網(wǎng)絡(luò)輿情的發(fā)生,這對(duì)于高等院校充分利用網(wǎng)絡(luò)輿情傾聽學(xué)生的呼聲,變網(wǎng)絡(luò)輿情由被動(dòng)為主動(dòng),進(jìn)一步加強(qiáng)新聞宣傳和信息傳播的安全管理、引導(dǎo)輿情發(fā)展、制定策略方針,并及時(shí)采取措施進(jìn)行有效的干預(yù),緩解輿論壓力,建設(shè)和諧校園具有重要的應(yīng)用價(jià)值和意義。
[1] 徐楠,戴媛.面向高校網(wǎng)絡(luò)輿情安全的監(jiān)管與預(yù)警研究[J].信息系統(tǒng)工程,2009,(7):62 -66.
[2] 梅中玲.基于Web信息挖掘的網(wǎng)絡(luò)輿情分析技術(shù)[J].中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,(4):85 -88.
[3] 李振.網(wǎng)絡(luò)輿情預(yù)測(cè)關(guān)鍵技術(shù)研究[D].鄭州:鄭州大學(xué),2010.
[4] 羅暉霞.網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)研究與開發(fā)[D].太原:中北大學(xué),2010.