李璀
(河南師范大學(xué)計算機與信息工程學(xué)院,河南新鄉(xiāng)453007)
網(wǎng)絡(luò)輿情智能分析系統(tǒng)的總體設(shè)計
李璀
(河南師范大學(xué)計算機與信息工程學(xué)院,河南新鄉(xiāng)453007)
采用多服務(wù)器集群與分布式管理、網(wǎng)絡(luò)爬蟲與全文檢索等技術(shù),設(shè)計完成一套網(wǎng)絡(luò)輿情智能分析系統(tǒng).按照軟件工程原理,完成需求分析.對系統(tǒng)總體結(jié)構(gòu)進行設(shè)計,分為網(wǎng)絡(luò)輿情數(shù)據(jù)采集模塊、智能全文檢索模塊、用戶界面模塊.最后對系統(tǒng)進行仿真,結(jié)果表明系統(tǒng)能夠達(dá)到對網(wǎng)絡(luò)輿情進行搜索采集分析的要求.
網(wǎng)絡(luò)輿情;智能分析;系統(tǒng)設(shè)計
互聯(lián)網(wǎng)輿情分析系統(tǒng)主要針對互聯(lián)網(wǎng)上海量的數(shù)據(jù)信息,自動地進行收集和處理,并及時對互聯(lián)網(wǎng)輿情進行預(yù)測和監(jiān)控.系統(tǒng)最終要實現(xiàn)對網(wǎng)絡(luò)輿情信息進行及時有效的分析和監(jiān)控,并將分析結(jié)果以多種直觀簡潔的方式反映給用戶[1-7].同時系統(tǒng)的設(shè)計還需要考慮對各種不同網(wǎng)站頁面結(jié)構(gòu)的適應(yīng)性,以及作為系統(tǒng)的可擴展性和可維護性.
本文設(shè)計的網(wǎng)絡(luò)輿情智能分析系統(tǒng)可以實現(xiàn)對網(wǎng)絡(luò)輿情數(shù)據(jù)快速抓取、分析,及通過二次搜索方式對輿情結(jié)果中的虛假信息進行甄別、對重點內(nèi)容進行關(guān)注、有害信息進行分析預(yù)警等.
網(wǎng)絡(luò)輿情分析系統(tǒng)需要滿足下列功能:①跨平臺,支持當(dāng)前多數(shù)操作系統(tǒng),如:Windows/Unix/Linux;②面對網(wǎng)頁信息的不同編碼格式能夠?qū)崿F(xiàn)自主識別下載功能,并且可以人工設(shè)置解析格式,支持對多國語言的網(wǎng)站解析;③能夠?qū)崿F(xiàn)對網(wǎng)頁上各類網(wǎng)絡(luò)輿情數(shù)據(jù)資源的下載,例如各種格式的圖片、音樂、視頻等;④針對那些需要輸入用戶名、密碼才能登錄采集數(shù)據(jù)的網(wǎng)站,如人人網(wǎng)、微博等,可以自動輸入用戶名與密碼進行登錄;⑤支持大數(shù)據(jù)的數(shù)據(jù)挖掘、信息采集、存儲,服務(wù)器的管理模式使用分布式的配置,尤其要求能夠?qū)崿F(xiàn)多臺服務(wù)器通過共同協(xié)作、配置為服務(wù)器集群;⑥多個數(shù)據(jù)挖掘任務(wù)在同一個數(shù)據(jù)采集服務(wù)器下可以同時并行運行;⑦每個搜情專題能夠配置多個可采集的信息源,即同時可以從多個網(wǎng)站采集信息;⑧信息采集自動更新策略.當(dāng)被采集的網(wǎng)絡(luò)原始信息發(fā)生變化時,系統(tǒng)能夠自主識別并對已采集到的信息進行更新;⑨嚴(yán)格整個輿情分析系統(tǒng)的權(quán)限管理.尤其是對數(shù)據(jù)挖掘服務(wù)器與用戶配置使用平臺之間分配不同的管理權(quán)限,用以加強數(shù)據(jù)挖掘服務(wù)器的整體安全措施;⑩自主發(fā)現(xiàn)獲取網(wǎng)絡(luò)信息中的圖片.能夠自動對圖片進行下載,并將網(wǎng)絡(luò)信息中的圖片URL替換為本地的URL.系統(tǒng)后臺運行監(jiān)測平臺可以對每臺數(shù)據(jù)挖掘服務(wù)器的詳細(xì)運行情況及系統(tǒng)資源是否得到合理配置使用等情況進行監(jiān)控,從而得出系統(tǒng)是否正常運行的結(jié)論,并形成報告.
通過上述功能需求分析,系統(tǒng)功能主要包括輿情數(shù)據(jù)采集、全文檢索及用戶界面.系統(tǒng)流程如圖1所示.輿情數(shù)據(jù)采集采用網(wǎng)絡(luò)爬蟲技術(shù),把用戶監(jiān)控的網(wǎng)絡(luò)網(wǎng)站中的文字信息抓取下來存儲到輿情數(shù)據(jù)庫,對輿情數(shù)據(jù)庫中的數(shù)據(jù)進行預(yù)處理,主要是把各類非結(jié)構(gòu)化的輿情數(shù)據(jù)結(jié)構(gòu)化并分類提取出標(biāo)題、全文、網(wǎng)址、時間等信息,把結(jié)構(gòu)化的數(shù)據(jù)結(jié)果存儲到預(yù)處理數(shù)據(jù)庫中,輸出到全文檢索系統(tǒng).全文檢索系統(tǒng)首先對網(wǎng)頁文字信息進行分詞、分類、文本挖掘、創(chuàng)建索引并存儲在索引數(shù)據(jù)庫中,然后按照用戶采集指令對索引數(shù)據(jù)庫中的數(shù)據(jù)進行檢索形成全文檢索數(shù)據(jù)庫中.通過全文檢索API,對全文檢索數(shù)據(jù)庫數(shù)據(jù)進行分析處理,根據(jù)用戶需要,還可以對全文檢索數(shù)據(jù)庫中的數(shù)據(jù)進行二次檢索,之后把結(jié)果反饋到用戶界面.通過界面完成系統(tǒng)配置、管理,并把結(jié)果展示給用戶.
圖1 網(wǎng)絡(luò)輿情智能分析系統(tǒng)流程Fig.1 Internet public opinion intelligent analysis system flow
系統(tǒng)開發(fā)過程包括系統(tǒng)需求分析、系統(tǒng)總體設(shè)計、系統(tǒng)模塊具體設(shè)計、系統(tǒng)編程實現(xiàn)、軟件運行測試、系統(tǒng)改進完善、系統(tǒng)完成及編寫用戶使用手冊等環(huán)節(jié).具體流程及生成的相應(yīng)文檔如圖2所示.
圖2 網(wǎng)絡(luò)輿情智能分析系統(tǒng)設(shè)計實現(xiàn)流程Fig.2 Internet public opinion intelligent analysis system design implementation flow
3.1 輿情數(shù)據(jù)采集模塊
輿情數(shù)據(jù)采集部件通過爬蟲把符合條件的輿情信息,如網(wǎng)頁中的文字、圖片、圖表等等,進行預(yù)處理并存儲到數(shù)據(jù)采集數(shù)據(jù)庫中.首先搜索并處理輿情數(shù)據(jù),然后進行解析,對解析后資源進行修正,最后輸出任務(wù)要求結(jié)果.如圖3所示,輿情數(shù)據(jù)采集模塊數(shù)據(jù)流程如下:配置信息主要包括釆集數(shù)據(jù)的保存路徑、采集循環(huán)的時間間隔、采集數(shù)據(jù)的預(yù)處理結(jié)果保存格式(包括文件格式和編碼信息等)[8].
圖3 輿情數(shù)據(jù)采集模塊流程Fig.3 Public opinion data acquisition module flowchart
3.2 全文檢索模塊
全文檢索模塊主要分為兩個部分,索引部分和檢索部分,如圖4所示.模塊接收到輿情資源采集模塊獲取的輿情信息后,首先在索引部分內(nèi)對網(wǎng)頁正文、標(biāo)題等內(nèi)容進行分詞、建立索引.然后將索引結(jié)果輸出到檢索部分.第三,根據(jù)用戶查詢的關(guān)鍵詞信息等進行檢索,將符合條件的結(jié)果輸出到用戶界面.
本模塊把智能自動處理器插入普通的文件索引系統(tǒng)中,這樣的文件索引系統(tǒng)即能夠?qū)Σ杉降臄?shù)據(jù)信息主題和相關(guān)目的進行判斷、理解、學(xué)習(xí)、聯(lián)想等,并能通過修改配置等方法操控這個自動化處理過程.對爬蟲系統(tǒng)捕捉到的網(wǎng)絡(luò)輿情信息的意思,完成自主研判、識別、理解、區(qū)分等操作.該部件可以自動將不同來源和不同處理方式的網(wǎng)絡(luò)輿情信息進行關(guān)聯(lián)處理,并能進行檢索.全文檢索部件能根據(jù)聚類、分類策略,通過不同的分詞算法,把網(wǎng)頁等包含文字信息的文件推送到全文檢索數(shù)據(jù)庫中進行存儲.
圖4 智能全文檢索模塊結(jié)構(gòu)Fig.4 Intelligent full-text search module structure diagram
全文檢索系統(tǒng)的核心是動態(tài)智能分析引擎,如圖5所示.智能分析引擎對信息所含概念進行理解和分析,自動判斷分類,不需要人工參與,這樣就消除了所有手工成本.另外,智能分析引擎為應(yīng)用提供了理解概念信息的能力,這意味著來源迥異并且采用不同方案標(biāo)記的傳統(tǒng)數(shù)據(jù),可以自動被關(guān)聯(lián)和檢索.智能分析引擎將文檔、網(wǎng)頁、郵件等文件,按照不同的分詞,通過聚類、分類,插入到全文檢索數(shù)據(jù)庫中.可以解決因為手工創(chuàng)建索引任務(wù)所引起的低效率及主要失敗原因.
圖5 智能全文檢索模塊流程Fig.5 Intelligent full-text search module flowchart
3.3 用戶界面模塊
通過用戶界面可完成系統(tǒng)管理、配置及分析結(jié)果展示.基于界面結(jié)構(gòu)采用B/S結(jié)構(gòu),不需要安裝及維護客戶端,方便使用.界面展示主要分為兩部分,一部分是配置界面,配置輿情專題相關(guān)信息,如名稱、開始搜索時間、采集目標(biāo)、關(guān)鍵詞等;另一部分是對獲得的輿情結(jié)果進行分類顯示、對重點輿情信息進行預(yù)警等.
對系統(tǒng)使用的全文檢索算法進行編程實現(xiàn)后,通過實驗對構(gòu)建的全文檢索模塊進行功能驗證.仿真環(huán)境使用JVM 5.0版本,Windows7旗艦版操作系統(tǒng),系統(tǒng)主要基于JAVA代碼開發(fā),存儲數(shù)據(jù)庫使用MySQL數(shù)據(jù)庫,用戶交互界面展示通過Apache Tomcat平臺實現(xiàn).
將一篇文章輸入到系統(tǒng)檢索入口,對文章進行分詞、創(chuàng)建索引表、全文檢索,如圖6所示.
圖6 創(chuàng)建索引輸出界面Fig.6 Create an index output interface
索引端對文章進行了分詞,并按照權(quán)值大小對詞進行了排列,形成索引鏈表.圖7表示使用預(yù)置的關(guān)鍵詞組,對檢測的網(wǎng)站群進行全文檢索,可以指定檢索結(jié)果中摘要的顯示字?jǐn)?shù),可以得到符合要求網(wǎng)頁數(shù)量及網(wǎng)頁具體內(nèi)容.
圖7 關(guān)鍵詞檢索輸出界面Fig.7 Keyword search output interface
分析了網(wǎng)絡(luò)輿情分析系統(tǒng)所應(yīng)滿足的相應(yīng)功能,結(jié)合總體設(shè)計需求構(gòu)建了新型網(wǎng)絡(luò)輿情分析系統(tǒng),并對其系統(tǒng)功能進行了詳細(xì)的介紹,對設(shè)計的網(wǎng)絡(luò)輿情分析系統(tǒng)進行了仿真實現(xiàn),基本達(dá)到了設(shè)計要求.
[1]殷衛(wèi)東,朱曉華,趙俊凱.網(wǎng)絡(luò)輿情技術(shù)淺析[J].信息網(wǎng)絡(luò)安全,2012(3):5-9.
[2]張玉珠.基于K-means聚類的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)[J].通信技術(shù),2013,46(1):57-59.
[3]張煥明.網(wǎng)絡(luò)輿情分析系統(tǒng)的研究與設(shè)計[J].微計算機信息,2010(18):119-121.
[4]黃敏,胡學(xué)鋼.網(wǎng)絡(luò)輿情分析技術(shù)及系統(tǒng)構(gòu)建[J].山東理工大學(xué)學(xué)報:自然科學(xué)版,2013,27(1):25-29.
[5]吳靜.網(wǎng)絡(luò)輿情信息采集系統(tǒng)的設(shè)計與實現(xiàn)[D].成都:電子科技大學(xué),2011.
[6]喻思遠(yuǎn).網(wǎng)絡(luò)輿情系統(tǒng)的分析與設(shè)計[J].計算機光盤軟件與應(yīng)用,2014,27(5):60-62.
[7]李海燕.網(wǎng)絡(luò)輿情爬蟲系統(tǒng)的設(shè)計與實現(xiàn)[D].廈門:廈門大學(xué),2014.
[8]王劍.輿情監(jiān)控系統(tǒng)的設(shè)計與實現(xiàn)[D].濟南:山東大學(xué),2012.
(責(zé)任編輯:盧奇)
The overall design of the intelligent analysis system of network public opinion
Li Cui
(College of Computer&Information Engineering,Henan Normal University,Xinxiang 453007,China)
Intelligent design was completed by Internet public opinion analysis system,multi-server clusters and distributed management,web crawlers and full-text retrieval technology.In accordance with the principles of software engineering,requirements analysis was completed.The overall system architecture is divided into data acquisition module into the network public opinion,intelligent full-text search module,the user interface module.The simulation results showed that the system can achieve the network search collect public opinion analysis.
network public opinion;intelligent analysis;system design
TP393
A
1008-7516(2015)03-0061-06
10.3969/j.issn.1008-7516.2015.03.013
2015-04-28
李璀(1990―),男,河南滑縣人,碩士生.主要從事網(wǎng)絡(luò)輿情分析研究.