• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Hadoop的網(wǎng)絡(luò)輿情監(jiān)控平臺的研究

    2016-01-14 01:22:21
    電子測試 2015年9期
    關(guān)鍵詞:熱點話題社會網(wǎng)絡(luò)分析云計算

    ?

    基于Hadoop的網(wǎng)絡(luò)輿情監(jiān)控平臺的研究

    史玉珍,單冬紅

    (平頂山學(xué)院軟件學(xué)院,河南平頂山,467002)

    摘要:根據(jù)信息時代輿情管理的要求,利用云計算的高效的分布式運算能力,本文構(gòu)建了基于云平臺的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)。首先介紹了輿情監(jiān)控與Hadoop技術(shù),結(jié)合輿情監(jiān)控工作流程,重點闡述了輿情監(jiān)控系統(tǒng)的架構(gòu)及關(guān)鍵算法的MapReduce實現(xiàn),最終驗證了基于Hadoop的輿情分析處理的高效性。

    關(guān)鍵詞:云計算;Hadoop;輿情監(jiān)控;熱點話題;社會網(wǎng)絡(luò)分析

    0 引言

    網(wǎng)絡(luò)作為信息傳播的載體,因為信息內(nèi)容多樣,具有實時快捷傳播的特點,已成為當前四大傳播媒體之一?;ヂ?lián)網(wǎng)開放、虛擬的特性讓言論達到了前所未有的活躍程度。網(wǎng)絡(luò)傳播中的各類信息,既有積極的、正面的,也有虛假的、反動的不良言論。人們可以隨時運用數(shù)字設(shè)備將發(fā)送信息至網(wǎng)上,部分社會矛盾在網(wǎng)民的關(guān)注下,會急劇放大、集聚、引爆,嚴重時可演變成突發(fā)公共事件,一旦失去將進一步危害國家安全和社會穩(wěn)定。因此針對網(wǎng)絡(luò)輿論的管理及監(jiān)控,政府部門需要進行有效的引導(dǎo)和治理,實現(xiàn)對網(wǎng)絡(luò)輿情的實時監(jiān)控,防止事態(tài)惡化。

    利用當前流行的云計算技術(shù),可開發(fā)高性能應(yīng)用程序,完成海量數(shù)據(jù)的存儲及高效的數(shù)據(jù)挖掘。傳統(tǒng)的輿情監(jiān)控系統(tǒng)需要昂貴工作站或服務(wù)器集群,處理海量數(shù)據(jù)時存在成本高、通信維護困難、系統(tǒng)的擴展性差等弊端,同時需要處理海量數(shù)據(jù)時存在傳統(tǒng)數(shù)據(jù)庫難以維護管理的困難,基于此提出采用分布式文件系統(tǒng)和并行云計算進行海量輿情信息處理,設(shè)計開發(fā)基于Hadoop的輿情監(jiān)控系統(tǒng)。

    1 關(guān)鍵技術(shù)

    1.1輿情監(jiān)控系統(tǒng)

    網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)主要通過在線收集定位網(wǎng)絡(luò)信息,識別有害消息,利用統(tǒng)計分析進行輿情識別發(fā)現(xiàn),然后發(fā)布預(yù)警公告。該類系統(tǒng)一般具有信息采集、信息預(yù)處理和分析與輿情服務(wù)三大功能。信息采集部分實現(xiàn)自動抓取數(shù)據(jù)源(論壇、博客、網(wǎng)站等)上新聞、帖子發(fā)布及回復(fù)、聊天記錄等信息;通過網(wǎng)頁去重、標準化、關(guān)鍵詞篩選、主題分析等工作對信息預(yù)處理后進行數(shù)據(jù)分析評測輿情情況;然后實現(xiàn)輿情趨勢分析、輿情正負面分析和預(yù)警等輿情預(yù)報服務(wù)工作。

    1.2Hadoop技術(shù)

    云計算,將網(wǎng)絡(luò)大量不同類型的存儲設(shè)備集合起來,對外提供數(shù)據(jù)存儲和業(yè)務(wù)訪問的功能。云計算可提供更加彈性、更加安全的存儲,以及更低的成本。當前國內(nèi)外許多機構(gòu)開展了關(guān)于云計算技術(shù)的研究,其中最為著名的是由Apache 開發(fā),基于Google 文件系統(tǒng)設(shè)計思想的 Hadoop 開源框架。Hadoop 是當前較為流行的分布式計算框架,它為處理海量數(shù)據(jù),充分發(fā)揮集群的處理能力以及存儲能力提供了方案。Hadoop平臺基礎(chǔ)架構(gòu)由三大核心組件組成,分別是MapReduce、HDFS、HBase。

    2 網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)架構(gòu)設(shè)計

    2.1系統(tǒng)總體結(jié)構(gòu)

    輿情監(jiān)控系統(tǒng)共分為五層,具體為分布式存儲層、分布式計算層、數(shù)據(jù)采集層、輿情分析層及用戶交

    互層?;谇皟蓪拥募夹g(shù)支撐,重點實現(xiàn)信息采集、存儲、分析與輿情信息展示模塊。基于Hadoop的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)架構(gòu)設(shè)計如下圖1所示。

    (1)信息采集模塊是利用云計算技術(shù)的Nutch 框架設(shè)置網(wǎng)絡(luò)爬取設(shè)置規(guī)則,依據(jù)輿情搜索爬取規(guī)則對所收集的網(wǎng)站、微信、微博、論壇等 URL 地址分析,建立白名單和黑名單,完成輿情信息的采集。

    (2)信息存儲模塊提供對Hadoop 分布式數(shù)據(jù)(索引庫、HBase 庫、分析庫)的操作接口;主要實現(xiàn)已爬取輿情信息的源數(shù)據(jù)本地存儲、已經(jīng)機器學(xué)習(xí)數(shù)據(jù)源的 HDFS分布式存儲和分析結(jié)果的數(shù)據(jù)庫存儲。

    (3)輿情監(jiān)控分析模塊利用聚類分析和分類預(yù)測處理,根據(jù)專家?guī)熘薪⒌妮浨樗阉饕?guī)則及存儲的URL地址,識別發(fā)現(xiàn)熱點輿情信息。也可利用對輿情信息的情感偏好分析,標記出信息的情感屬性,統(tǒng)計分析輿情情感歸屬類別,進行詞性(正面、負面、中立)的判斷,然后預(yù)測輿情未來的發(fā)展形勢及走向趨勢。

    (4)輿情信息展示模塊將從輿情數(shù)據(jù)中分析出的熱點信息、情感偏好及輿情發(fā)展態(tài)勢,通過形式多樣的圖表形式發(fā)布展示到用戶界面。

    2.2系統(tǒng)工作流程

    輿情監(jiān)控系統(tǒng)首先是通過數(shù)據(jù)采集模塊將定向的數(shù)據(jù)采集到本地;接著將采集回來的原始數(shù)據(jù)進行清洗加工,即去除垃圾數(shù)據(jù)并將數(shù)據(jù)格式規(guī)范,建立數(shù)據(jù)索引;然后根據(jù)輿情監(jiān)控專業(yè)需求特點對數(shù)據(jù)進行分析,包括語義分析、聚類分析、網(wǎng)絡(luò)社會關(guān)系分析;最后通過客戶端調(diào)用數(shù)據(jù)進行呈現(xiàn)。

    3 基于Hadoop的輿情監(jiān)控系統(tǒng)的實現(xiàn)

    3.1輿情信息采集

    圖1 輿情監(jiān)控系統(tǒng)架構(gòu)圖

    將來自于網(wǎng)站、微博、論壇等國內(nèi)外著名網(wǎng)站的輿情數(shù)據(jù),采用網(wǎng)頁抽取技術(shù),可進行關(guān)鍵詞采集、語義話題采集,通過關(guān)鍵詞管理、URL管理、過濾詞典及分類管理等系統(tǒng)管理配置,進行輿情信息分類管理工作,將數(shù)據(jù)保存在HBase數(shù)據(jù)庫中。在采集輿情信息過程中同時進行網(wǎng)頁解析,利用Dom 解析html 和抽取信息;通過分布式爬蟲方法抓取網(wǎng)頁內(nèi)容,利用多個獲取器和爬蟲器分布運行在多個slaver機器上,在master 機器上進行總調(diào)度。

    3.2輿情信息存儲

    Hadoop平臺上,通過HDFS就能實現(xiàn)文件的讀寫,但為了使數(shù)據(jù)更清晰、程序更簡便,選擇將數(shù)據(jù)寫入HBase。完全分布模式下HBase的運行基于HDFS文件系統(tǒng),HBase處在HDFS和MapReduce的中間,可通過MapReduce實現(xiàn)算法對HBase進行操作,系統(tǒng)將經(jīng)過預(yù)處理的用戶數(shù)據(jù)上傳到 HBase 分布式數(shù)據(jù)庫中。

    3.3輿情監(jiān)控分析

    輿情監(jiān)控分析是系統(tǒng)的關(guān)鍵模塊, 主要完成最新消息、熱點話題、活躍人物追蹤、熱點區(qū)域追蹤、傳播途徑分析、走勢分析、網(wǎng)絡(luò)社會關(guān)系分析等功能。利用Hadoop框架中的HDFS 分布式文件系統(tǒng)和 Map/Reduce 編程模型進行開發(fā),實現(xiàn)抓取的新輿情信息分類,對熱點話題追蹤,并進行情感偏好分析,預(yù)測出輿情發(fā)展的趨勢。因篇幅有限,本文僅介紹熱點話題發(fā)現(xiàn)、社會網(wǎng)絡(luò)分析的MapReduce設(shè)計。

    4 實驗環(huán)境

    為檢驗輿情監(jiān)控云模型的性能和效率,本文利用3臺CnetOS服務(wù)器搭建Hadoop集群,硬件配置為主頻2.93 GHz;內(nèi)存4GB;500 G 硬盤;1 000 Mbps 網(wǎng)卡。軟件環(huán)境為Linux Fedora21;JDK1.7;Hadoop 2.2.0。

    4.1實驗數(shù)據(jù)分析

    利用網(wǎng)絡(luò)爬取論壇數(shù)據(jù)集,分別在單機與云計算集群運行,經(jīng)多次運行并對性能進行分析,得出如下結(jié)論如下:當處理數(shù)據(jù)量較少時,Hadoop的信息處理速度不如單機,因為如果數(shù)據(jù)量太少,很多時間用于系統(tǒng)的初始化和通信,集群不能發(fā)揮自身優(yōu)勢。當數(shù)據(jù)量增大時,單機處理時間增長幅度明顯增大,集群優(yōu)越性顯形發(fā)揮。因此在海量數(shù)據(jù)處理時,隨著數(shù)據(jù)的增加,以及集群機器數(shù)量的增多,Hadoop大數(shù)據(jù)處理優(yōu)勢顯而易見。

    5 結(jié)束語

    本文利用Hadoop 分布式存儲和MapReduce 并行計算模對輿情監(jiān)控平臺研究分析,構(gòu)建了基于HBase 的輿情信息監(jiān)控系統(tǒng),介紹了輿情監(jiān)控系統(tǒng)設(shè)計中關(guān)鍵技術(shù)及設(shè)計過程。通過仿真實驗分析,利用Hadoop可有效地對大規(guī)模輿情數(shù)據(jù)進行分析、預(yù)測,提升了大數(shù)據(jù)運算分析的速度。今后可結(jié)合網(wǎng)絡(luò)輿情的特點,探索云模型中聚群設(shè)置規(guī)則,進一步提高輿情識別的精準度。

    參考文獻

    [1] 賀瑤,王文慶,薛飛.基于云計算的海量數(shù)據(jù)挖掘研究[J].計算機技術(shù)與發(fā)展,2013,02:69-72.

    [2] 陳彥舟,曹金璇.基于Hadoop的微博輿情監(jiān)控系統(tǒng)[J].計算機系統(tǒng)應(yīng)用,2013,04:18-22+9.

    [3] 洑云龍.云計算平臺下的數(shù)據(jù)挖掘研究[D].南京郵電大學(xué),2013.

    [4] 吳健.基于Hadoop的上市公司輿情挖掘系統(tǒng)的研究與實現(xiàn)[D].電子科技大學(xué),2013.

    史玉珍(1975-),女,河南舞陽人,碩士,平頂山學(xué)院軟件學(xué)院,副教授,研究方向web數(shù)據(jù)挖掘。

    單冬紅(1976-),女,河南鄧州人,碩士,平頂山學(xué)院軟件學(xué)院,副教授,研究方向數(shù)據(jù)挖掘。

    Research on Monitoring Public Opinio System Based on Hadoop

    Shi Yuzhen,Shan Donghong

    (College of Software,Pingdingshan University,Pingdingshan Henan,467002)

    Abstract:Based on the management of public opinion with the needs of the information age, high performance distributed computing features using cloud computing technology,the construction of network public opinion monitoring system based on cloud platform.This paper firstly introduced the public opinion monitoring and Hadoop technology,according to a public opinion monitoring work flow,constructed the network public opinion monitoring system based on Hadoop framework;focused on the key algorithm of public opinion monitoring system MapReduce implementation.The system is finally verified using experimental platform,the efficiency of Hadoop public opinion analysis processing based on.

    Keywords:Cloud computing;Hadoop;Public opinion supervision;Topic;Social network analysis

    作者簡介

    課題來源:河南省科技攻關(guān)項目(KJT142102210226)基于云計算的網(wǎng)絡(luò)輿情監(jiān)控平臺研究,2011年度河南省高等學(xué)校青年骨干教師資助計劃資助項目(183) :網(wǎng)絡(luò)下犯罪社團的識別與發(fā)現(xiàn)研究

    中圖分類號:TP393.08

    文獻標志碼:A

    猜你喜歡
    熱點話題社會網(wǎng)絡(luò)分析云計算
    2017年高考作文熱點話題預(yù)測
    境外公益旅游研究進展與啟示
    新浪微博娛樂明星的社會網(wǎng)絡(luò)分析
    時代金融(2016年29期)2016-12-05 17:09:47
    基于社會網(wǎng)絡(luò)分析的青島市產(chǎn)學(xué)研專利合作網(wǎng)絡(luò)結(jié)構(gòu)研究
    基于云計算的移動學(xué)習(xí)平臺的設(shè)計
    基于社會網(wǎng)絡(luò)分析的我國微課研究探析
    實驗云:理論教學(xué)與實驗教學(xué)深度融合的助推器
    云計算中的存儲虛擬化技術(shù)應(yīng)用
    科技視界(2016年20期)2016-09-29 13:34:06
    基于SVM的熱點話題跟蹤實現(xiàn)過程研究
    熱點話題排行榜
    石柱| 宁城县| 汉川市| 上蔡县| 樟树市| 石景山区| 安吉县| 乡宁县| 泰和县| 万宁市| 屯门区| 江都市| 赤壁市| 无棣县| 靖州| 临海市| 延长县| 绵阳市| 门头沟区| 新蔡县| 逊克县| 凯里市| 呼伦贝尔市| 永靖县| 灌云县| 孝感市| 黎城县| 孝义市| 镇坪县| 西林县| 宜丰县| 布拖县| 收藏| 德惠市| 交口县| 融水| 白河县| 临沂市| 冀州市| 喜德县| 峡江县|