• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于大數(shù)據(jù)技術(shù)的輿情信息收集研判管理系統(tǒng)實(shí)現(xiàn)路徑探索研究

      2019-01-28 08:04:42張雅京付軍劉皓
      消費(fèi)導(dǎo)刊 2019年3期
      關(guān)鍵詞:輿情文章用戶

      張雅京 付軍 劉皓

      中日友好環(huán)境保護(hù)中心

      一、研究背景

      隨著網(wǎng)絡(luò)應(yīng)用的迅猛發(fā)展,互聯(lián)網(wǎng)已深入覆蓋并影響到當(dāng)今社會(huì)的各個(gè)領(lǐng)域。Web2.0上的話題往往具有突發(fā)性、直接性、豐富性、互動(dòng)性、偏差性的特點(diǎn)。無(wú)論對(duì)于政府還是商業(yè)組織來(lái)說(shuō),這些數(shù)據(jù)蘊(yùn)含著非凡的價(jià)值。正確合理利用這些信息,可以有效地了解民情民意,配合處理一些突發(fā)性公共危機(jī)事件,從而促進(jìn)社會(huì)和諧。同時(shí),隨著互聯(lián)網(wǎng)的發(fā)展,逐步進(jìn)入大數(shù)據(jù)時(shí)代。大數(shù)據(jù)的發(fā)展不僅使得通過(guò)互聯(lián)網(wǎng)獲取個(gè)人信息更加容易、可獲取的內(nèi)容也更多。在大數(shù)據(jù)時(shí)代,面對(duì)如此海量快速的信息,輿情的采集、分析、可視化呈現(xiàn)都將進(jìn)行相應(yīng)的轉(zhuǎn)變。目前國(guó)內(nèi)的輿情研究和應(yīng)用非常廣泛[1],有些研究專注于特定領(lǐng)域的輿情系統(tǒng)的研究和開(kāi)發(fā)[2],有些研究則面向通用[3]。本文所設(shè)計(jì)和實(shí)現(xiàn)的系統(tǒng)屬于后者這一類(lèi),和其它已有的輿情系統(tǒng)相比,本系統(tǒng)具有信息覆蓋面廣、架構(gòu)靈活、智能分析等特點(diǎn)。

      二、系統(tǒng)需求

      1.采集:互聯(lián)網(wǎng)規(guī)模大、媒體類(lèi)型眾多、網(wǎng)民眾多、信息更新速度快。系統(tǒng)需要對(duì)網(wǎng)絡(luò)上的主要信息不遺漏,覆蓋論壇、博客、微博、新聞、新聞、境外等信息源,對(duì)信息源進(jìn)行實(shí)時(shí)采集。針對(duì)不同的信息源,可以方便的調(diào)整采集頻率,采集字段。

      2.架構(gòu):考慮到數(shù)據(jù)量大和可擴(kuò)展性等特點(diǎn),需要采用基于云計(jì)算的構(gòu)架設(shè)計(jì)。系統(tǒng)以網(wǎng)頁(yè)形式展示給用戶。用戶只需要用瀏覽器登錄系統(tǒng)就可以使用全部功能。

      3.個(gè)性化:為了滿足使用者的不斷變化的需求,需要系統(tǒng)能夠?qū)崿F(xiàn)個(gè)性化。系統(tǒng)能方便的調(diào)整和設(shè)置參數(shù)(比如關(guān)鍵詞、站點(diǎn)等)。用戶能通過(guò)簡(jiǎn)便直觀的方法篩選出關(guān)心的數(shù)據(jù),并且能方便、直觀的進(jìn)行系統(tǒng)維護(hù)。

      4.智能:為了降低用戶的設(shè)置,篩選重要信息的工作量,系統(tǒng)需要進(jìn)行智能分析,自動(dòng)的對(duì)文章進(jìn)行過(guò)濾,分類(lèi),地域識(shí)別,情感分析等。

      三、系統(tǒng)架構(gòu)

      本系統(tǒng)采用跨平臺(tái)的JAVA技術(shù),使得采集系統(tǒng)可以運(yùn)行在各種操作系統(tǒng)上。圖一給出了系統(tǒng)的總體架構(gòu),其包含兩個(gè)部分。第一個(gè)部分是數(shù)據(jù)采集和分析模塊;第二部分是輿情信息收集研判管理系統(tǒng)模塊。圖二是輿情信息收集研判管理系統(tǒng)模塊的系統(tǒng)功能圖。這部分功能直接對(duì)接客戶。

      四、數(shù)據(jù)采集和分析模塊

      (一)信息采集模塊。采集器不但可以采集普通采集器的所能實(shí)現(xiàn)的簡(jiǎn)單的網(wǎng)頁(yè)采集,還可以執(zhí)行網(wǎng)頁(yè)上的動(dòng)態(tài)腳本(例如javascript,ajax等)以得到普通采集方式通過(guò)抓取靜態(tài)頁(yè)面無(wú)法獲取的信息。越來(lái)越多的網(wǎng)站采用了動(dòng)態(tài)頁(yè)面技術(shù)(即javascript,ajax等),典型的如博客,微薄等網(wǎng)站,通過(guò)普通的靜態(tài)頁(yè)面往往只能采集到部分信息,甚至根本采集不到真正的頁(yè)面內(nèi)容。本系統(tǒng)的采集器內(nèi)建了頁(yè)面動(dòng)態(tài)構(gòu)建技術(shù),可以使采集到的頁(yè)面執(zhí)行頁(yè)面動(dòng)態(tài)腳本而得到與普通瀏覽器能看到的完全一致的頁(yè)面內(nèi)容。

      (二)信息分析模塊。信息分析模塊主要包括以下功能:垃圾文識(shí)別、自動(dòng)排重、相似文計(jì)算、原創(chuàng)新聞?dòng)?jì)算、輿情傾向性分析、自動(dòng)摘要提取、行業(yè)識(shí)別、傳播路徑分析、傳播軌跡圖。

      (三)垃圾文識(shí)別。垃圾文包括廣告,無(wú)意義文章等。據(jù)分析,特別是論壇站點(diǎn),70%左右是此類(lèi)文章。系統(tǒng)采用人工智能技術(shù),能夠有效識(shí)別此類(lèi)垃圾文,大大增強(qiáng)輿情分析和處理的效率。對(duì)于系統(tǒng)未能自動(dòng)識(shí)別的垃圾文,如果人工識(shí)別為垃圾文后,系統(tǒng)對(duì)后續(xù)采集同類(lèi)文章能夠自動(dòng)識(shí)別為垃圾文。

      (四)自動(dòng)排重。系統(tǒng)根據(jù)信息的各項(xiàng)屬性:信息的文本內(nèi)容,信息的發(fā)文站點(diǎn),版面,發(fā)文作者計(jì)算信息的hash值。通過(guò)判斷兩條信息的hash值是否相同,從而快速的判斷兩條信息是否重復(fù)。

      (五)相似文計(jì)算。雖然互聯(lián)網(wǎng)上很多信息都是重復(fù)的,但是重復(fù)信息往往有少量的變化,這個(gè)模塊的目的是找到那些幾乎是重復(fù)的、但是又不完全相同的文章。相似文計(jì)算的方法參考了。由于系統(tǒng)所采集的數(shù)量巨大,所以不能針對(duì)所有文章進(jìn)行計(jì)算。由于相似文章的出現(xiàn)往往是在一個(gè)事件范圍內(nèi)集中出現(xiàn),因此對(duì)每一個(gè)新進(jìn)系統(tǒng)的文章,只計(jì)算最近2天的文章中是否有重復(fù)文章。

      (六)原創(chuàng)新聞?dòng)?jì)算。原創(chuàng)新聞報(bào)道數(shù)量偵測(cè)系統(tǒng)主要包括兩部分功能,即轉(zhuǎn)載文章識(shí)別歸類(lèi)和原創(chuàng)文章判定兩部分。轉(zhuǎn)載新聞往往含有發(fā)文網(wǎng)站的鏈接及“【轉(zhuǎn)】”等特征內(nèi)容,可通過(guò)建立模板識(shí)別大部分轉(zhuǎn)載文章。比對(duì)轉(zhuǎn)載文章及現(xiàn)有文章特征庫(kù)即可將相當(dāng)部分轉(zhuǎn)載文章濾除。對(duì)于不含轉(zhuǎn)載信息、通過(guò)更改原文個(gè)別關(guān)鍵詞的偽原創(chuàng)性文章,則需通過(guò)原創(chuàng)判別算法剔除。原創(chuàng)新聞判別算法核心在于語(yǔ)義分析和相似文章識(shí)別算法,本系統(tǒng)利用文本相似性算法,以文章主干或關(guān)鍵詞為基礎(chǔ),通過(guò)文章相似度算法,建立相似度聚類(lèi)數(shù)據(jù)庫(kù),為原創(chuàng)文章的識(shí)別提供依據(jù)。而后可通過(guò)以下三個(gè)步驟判別文章的原創(chuàng)性:提取文章內(nèi)關(guān)鍵詞結(jié)點(diǎn);將提取的關(guān)鍵詞結(jié)點(diǎn)進(jìn)行近義詞匹配。(搜索引擎有自己的近義詞庫(kù));發(fā)現(xiàn)一篇文章中的節(jié)點(diǎn)于另外一篇文章中的節(jié)點(diǎn)超過(guò)某個(gè)點(diǎn),給予偽原創(chuàng)定義。

      (七)輿情傾向性分析。系統(tǒng)能夠自動(dòng)分析出文章的傾向性為正面,負(fù)面,或者中性,為輿情處理提供重要的分析依據(jù)。

      (八)自動(dòng)摘要提取。自動(dòng)摘要提取算法包含兩類(lèi)方法,即機(jī)械方法和語(yǔ)義方法,本系統(tǒng)將結(jié)合兩類(lèi)方法。

      機(jī)械方法需要對(duì)文本的物理信息進(jìn)行歸納:詞的頻率、標(biāo)題、詞的位置、句子的結(jié)構(gòu)和位置等。通常分為以下三個(gè)步驟:計(jì)算詞的權(quán)重,確定有效詞;通過(guò)詞和句子的位置、線索詞指示性短語(yǔ)等計(jì)算句子的權(quán)值;將句子排序,并按照原文順序整理輸出;

      基于機(jī)械方法的摘要提取能夠?qū)ξ恼聝?nèi)容做一定的梳理,但其缺點(diǎn)主要體現(xiàn)在結(jié)構(gòu)不平衡、內(nèi)容冗余、缺乏連貫性等方面,因而需要結(jié)合語(yǔ)義方法對(duì)摘要做進(jìn)一步整理,語(yǔ)義方法包含:語(yǔ)法分析、語(yǔ)義分析、語(yǔ)用分析和信息提取等,此方法將文本整理成語(yǔ)法樹(shù)等形式,從而梳理文章主干,完成信息提取,將所得到內(nèi)容結(jié)合機(jī)械摘要得到最終結(jié)果。

      (九)行業(yè)識(shí)別。對(duì)數(shù)據(jù)進(jìn)行行業(yè)分類(lèi),該模塊基于機(jī)器學(xué)習(xí)和自然語(yǔ)言處理領(lǐng)域最先進(jìn)的思想和算法,提供了常用的多個(gè)行業(yè)(包括環(huán)境、衛(wèi)生、渉警等)的分類(lèi)。

      (十)傳播路徑分析、傳播軌跡圖。對(duì)所有的微博消息,系統(tǒng)會(huì)采集內(nèi)容以及其轉(zhuǎn)播信息。對(duì)于需要做路徑分析的微博消息,根據(jù)微博轉(zhuǎn)播記錄和轉(zhuǎn)播微博的文本信息追本溯源的找到了這條微博的傳播路徑,并將傳播路徑上的各個(gè)節(jié)點(diǎn)的地理位置信息、個(gè)人信息等保存下來(lái),最終形成了一棵信息傳播樹(shù)。

      五、輿情監(jiān)測(cè)系統(tǒng)功能模塊

      (一)輿情數(shù)據(jù)基礎(chǔ)管理。該系統(tǒng)能夠全面、及時(shí)監(jiān)測(cè)互聯(lián)網(wǎng)輿情??啥ㄖ撇杉?,提供全面、及時(shí)的輿情信息。全面監(jiān)控微博、博客、新聞網(wǎng)站、論壇、貼吧、搜索引擎等互聯(lián)網(wǎng)內(nèi)容。通過(guò)輿情監(jiān)測(cè)系統(tǒng)實(shí)現(xiàn)對(duì)輿情管理和對(duì)輿情數(shù)據(jù)服務(wù)的有效支撐。

      條件篩選:發(fā)文時(shí)間是一篇網(wǎng)絡(luò)文章最重要屬性之一。通過(guò)時(shí)間控制,就可以通過(guò)限定文章的發(fā)文時(shí)間,對(duì)文章進(jìn)行篩選。除了限定具體時(shí)間區(qū)間之外,系統(tǒng)還設(shè)置一些快捷按鈕,直接查詢“今天”、“昨天”、“本周”、“上周”、“本月”、“上月”和“全部”等時(shí)間范圍內(nèi)的文章?!邦?lèi)型”,可提供篩選“新聞”、“論壇”、“博客”等類(lèi)型的文章,且可同時(shí)篩選如“新聞”或“論壇”的文章?!鞍H”,可提供篩選“正面”、“負(fù)面”、“中立”、“未知”等性質(zhì)的文章,且可同時(shí)篩選如“正面”或“中立”的文章。“地域”,可提供篩選包括“境內(nèi)”、“境外”的文章,當(dāng)只篩選了“境內(nèi)”范圍里的部分省時(shí),“境內(nèi)”為半藍(lán)顏色顯示;只有所有省份都被篩選時(shí),“境內(nèi)”為藍(lán)色顯示?!皩n}”,可提供篩選多個(gè)專題的文章,如專題為“城管城建”或“交通”的文章。

      文章瀏覽:對(duì)于每一篇收錄進(jìn)系統(tǒng)的文章,列表將顯示如下信息:標(biāo)題、網(wǎng)站、信息類(lèi)型、褒貶、地域、所屬專題、閱讀數(shù)、回復(fù)數(shù)、發(fā)表時(shí)間、操作。

      文章操作:系統(tǒng)提供對(duì)每一篇文章的豐富的管理功能。對(duì)文章進(jìn)行查看全文信息、修改文章屬性、對(duì)文章進(jìn)行公告預(yù)警操作或者定向預(yù)警操作、刪除文章、分不同模式查看監(jiān)測(cè)列表內(nèi)容、導(dǎo)出文章(word或excel格式)。

      (二)信息預(yù)警。提供實(shí)時(shí)信息預(yù)警機(jī)制,由輿情信息的重要性、緊急性及客戶約定需求決定。系統(tǒng)要將短時(shí)間內(nèi)發(fā)生的突發(fā)熱點(diǎn)事件以及敏感新聞通過(guò)系統(tǒng)通知、短信、電話、QQ、郵件等方式通知用戶。

      (三)統(tǒng)計(jì)分析。統(tǒng)計(jì)分析包括“趨勢(shì)分析”、“媒體分析”、“地域分析”、“褒貶分析”、“熱點(diǎn)分析”、“熱詞分析”六大類(lèi);分別表示按“時(shí)間”、“媒體類(lèi)型”、“地域分布”、“輿論褒貶性質(zhì)”、“熱點(diǎn)輿論、話題”、“最熱”要素來(lái)進(jìn)行對(duì)比分析出圖。

      圖形化展示功能。對(duì)熱點(diǎn)新聞和事件發(fā)展趨勢(shì)進(jìn)行圖形化顯示,便于更加直觀地了解輿情發(fā)展態(tài)勢(shì)。提供多種基于Flash的圖表,包括全國(guó)地形圖、趨勢(shì)圖、金字塔圖、轉(zhuǎn)載傳播鏈等,具有更好的交互能力。

      (四)熱點(diǎn)識(shí)別。熱點(diǎn)自動(dòng)發(fā)現(xiàn)。輿情系統(tǒng)采用基于內(nèi)容相似的智能聚類(lèi)技術(shù),能夠自動(dòng)識(shí)別網(wǎng)絡(luò)上的熱點(diǎn)新聞事件,及時(shí)掌控論壇中的交互信息,發(fā)現(xiàn)網(wǎng)民的關(guān)注焦點(diǎn)和熱點(diǎn)。同時(shí)利用輿情分類(lèi)信息,把用戶不關(guān)注的熱點(diǎn)信息過(guò)濾掉,提高熱點(diǎn)發(fā)現(xiàn)的準(zhǔn)確性。根據(jù)新聞熱點(diǎn)、關(guān)鍵詞、專題等信息進(jìn)行熱度分析,考慮了信息來(lái)源、所處網(wǎng)頁(yè)位置、轉(zhuǎn)載、點(diǎn)擊、評(píng)論、回復(fù)和報(bào)道率等關(guān)鍵因素,并能夠?qū)@些因素進(jìn)行綜合排名,并支持以半小時(shí)為間隔的任意時(shí)間段進(jìn)行統(tǒng)計(jì)分析,同時(shí)提供1天、3天、7天等時(shí)間序列的符合用戶精確度要求的分類(lèi)熱點(diǎn)排行。

      熱點(diǎn)自動(dòng)追蹤。輿情系統(tǒng)可以對(duì)熱點(diǎn)信息做到持續(xù)追蹤,并通過(guò)趨勢(shì)分析圖和傳播鏈分析圖等技術(shù)幫助用戶了解熱點(diǎn)事件的報(bào)道趨勢(shì)以及來(lái)龍去脈,幫助用戶更好地對(duì)輿情進(jìn)行研判。

      網(wǎng)絡(luò)熱詞自動(dòng)挖掘。熱詞挖掘是從互聯(lián)網(wǎng)不斷更新的信息中尋找一定時(shí)期熱度高的那些短語(yǔ),比如人名、地名、機(jī)構(gòu)名和其他常見(jiàn)短語(yǔ),很多網(wǎng)絡(luò)熱詞是詞典中未收錄的新詞語(yǔ)。按領(lǐng)域可分為政治、經(jīng)濟(jì)、軍事、娛樂(lè)、體育、衛(wèi)生、科技、社會(huì)生活等各個(gè)領(lǐng)域的熱詞。

      (五)報(bào)告生成。輿情分析系統(tǒng)提供有效的輿情簡(jiǎn)報(bào)加工工具,可以輔助用戶生成各種類(lèi)型的互聯(lián)網(wǎng)輿情簡(jiǎn)報(bào)。報(bào)告的內(nèi)容可編輯修改,報(bào)告模板可靈活定制。支持日?qǐng)?bào)、周報(bào)、及時(shí)報(bào)等多種簡(jiǎn)報(bào)樣式??梢酝ㄟ^(guò)元搜索方式從百度新聞獲取統(tǒng)計(jì)信息,使得簡(jiǎn)報(bào)的統(tǒng)計(jì)圖表具有更高的代表性和準(zhǔn)確性。提供可以在線生成和編輯WORD格式的簡(jiǎn)報(bào),支持復(fù)雜格式的簡(jiǎn)報(bào),提高了簡(jiǎn)報(bào)的表現(xiàn)能力。

      系統(tǒng)能夠?qū)崿F(xiàn)對(duì)專題給定時(shí)間范圍的文章進(jìn)行統(tǒng)計(jì),并生成統(tǒng)計(jì)報(bào)告。

      (六)系統(tǒng)管理。個(gè)人信息管理:系統(tǒng)里可以管理用戶的個(gè)人信息,如用戶名、密碼、郵件、電話等。

      用戶管理:提供系統(tǒng)用戶權(quán)限管理方面的配置,中青華云配備專人實(shí)時(shí)響應(yīng)更改用戶需求,如:通過(guò)申請(qǐng)可添加或變更系統(tǒng)管理員,設(shè)置系統(tǒng)管理員的權(quán)限,從而實(shí)現(xiàn)多用戶分權(quán)限管理。通過(guò)角色和權(quán)限配置,對(duì)系統(tǒng)中的各個(gè)功能進(jìn)行嚴(yán)格的權(quán)限管理,保證系統(tǒng)的安全性。

      關(guān)鍵詞管理:可根據(jù)需要添加需要關(guān)注的文章的關(guān)鍵詞。也可以對(duì)已有關(guān)鍵詞作修改和刪除的操作。

      網(wǎng)站管理:用戶可以在網(wǎng)站管理的頁(yè)面上點(diǎn)擊“申請(qǐng)?zhí)砑泳W(wǎng)站”,就可以申請(qǐng)?zhí)砑酉胍O(jiān)測(cè)的網(wǎng)站。

      專題管理:可添加需要關(guān)注的文章的專題??梢詫?duì)現(xiàn)有的專題進(jìn)行是否想要讓其顯示的操作,也可以對(duì)已有專題作修改和刪除的操作。

      系統(tǒng)設(shè)置:系統(tǒng)設(shè)置能夠選擇“最新監(jiān)測(cè)”的文章的來(lái)源(“論壇”“博客”“新聞”“微博”)、和選擇關(guān)注的專題、是否顯示系統(tǒng)專題、是否僅顯示已歸檔文章。

      (七)輿情檢索。輿情系統(tǒng)針對(duì)信息內(nèi)容管理和資源建設(shè)的新需求,實(shí)現(xiàn)包括Native XML,集群,Unicode,自然語(yǔ)言及智能擴(kuò)展檢索等功能,結(jié)合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合查詢技術(shù),滿足客戶對(duì)專業(yè)搜索的廣泛需求。專業(yè)級(jí)搜索需要精確(查全和查準(zhǔn)兩者需要兼顧)和快速(數(shù)據(jù)一旦變化需要及時(shí)體現(xiàn)),而通用互聯(lián)網(wǎng)搜索引擎無(wú)法滿足精確和快速的目標(biāo)檢索需求。

      (八)回收站和垃圾箱??梢詫?duì)一些回收站和垃圾箱中的文章進(jìn)行管理。

      六、結(jié)論

      本文提出的基于大數(shù)據(jù)技術(shù)的輿情信息收集研判管理系統(tǒng)是一個(gè)基于大數(shù)據(jù)技術(shù)的輿情信息高效采集與存儲(chǔ)系統(tǒng)。它能實(shí)現(xiàn)信息的全方位采集、更新和自動(dòng)分析。在此基礎(chǔ)上,系統(tǒng)還給用戶提供了直觀、高效的使用界面,使用戶可以快速、精準(zhǔn)的在海量的互聯(lián)網(wǎng)數(shù)據(jù)中篩選出自己所關(guān)心的輿情信息。

      猜你喜歡
      輿情文章用戶
      細(xì)致入微的描寫(xiě)讓文章熠熠生輝
      放屁文章
      小處著眼,寫(xiě)大文章
      關(guān)注用戶
      輿情
      關(guān)注用戶
      輿情
      關(guān)注用戶
      輿情
      做好深化國(guó)企改革大文章
      遂昌县| 泗洪县| 景洪市| 班玛县| 丹阳市| 辉南县| 元朗区| 临城县| 汝城县| 枝江市| 昌平区| 栾川县| 西乌珠穆沁旗| 襄城县| 大竹县| 鹤壁市| 建水县| 县级市| 惠安县| 通海县| 繁峙县| 昭觉县| 金沙县| 湘潭市| 龙川县| 英吉沙县| 三穗县| 思茅市| 广元市| 科技| 营口市| 盐城市| 康马县| 大英县| 环江| 中方县| 萍乡市| 郯城县| 天门市| 亳州市| 泗水县|