• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于機(jī)器學(xué)習(xí)的網(wǎng)情監(jiān)測(cè)及預(yù)警系統(tǒng)

      2018-02-28 11:25:32吳新勇邱吉?jiǎng)?/span>李汶隆
      電子技術(shù)與軟件工程 2018年13期
      關(guān)鍵詞:態(tài)勢(shì)感知

      吳新勇 邱吉?jiǎng)? 李汶隆

      摘要 為解決互聯(lián)網(wǎng)輿情轉(zhuǎn)播速度快、分布廣、不易監(jiān)測(cè)及預(yù)警的問(wèn)題,本文提出了一種基于機(jī)器學(xué)習(xí)的網(wǎng)情監(jiān)測(cè)及預(yù)警系統(tǒng),通過(guò)采用自動(dòng)采集、自然語(yǔ)言處理、數(shù)據(jù)挖掘等關(guān)鍵技術(shù),實(shí)現(xiàn)海量網(wǎng)絡(luò)輿情的實(shí)時(shí)監(jiān)測(cè)、態(tài)勢(shì)感知、專題分析等特殊功能,提供自動(dòng)預(yù)警和輔助決策等智能服務(wù)。文章首先對(duì)網(wǎng)絡(luò)輿情的現(xiàn)狀及行業(yè)痛點(diǎn)進(jìn)行分析;然后逐一介紹了系統(tǒng)的整體架構(gòu)以及數(shù)據(jù)采集、挖掘分析及應(yīng)用服務(wù)等核心子系統(tǒng);最后介紹了該系統(tǒng)在不同領(lǐng)域的應(yīng)用效果。

      【關(guān)鍵詞】網(wǎng)情監(jiān)測(cè) 自動(dòng)采集 自然語(yǔ)言處理機(jī)器學(xué)習(xí) 態(tài)勢(shì)感知

      1 引言

      隨著移動(dòng)互聯(lián)網(wǎng)的普及,網(wǎng)民的數(shù)量日益龐大,網(wǎng)民發(fā)表的信息沒(méi)有門檻,且傳播便捷,其形成的輿論力量正深刻改變著中國(guó)的思想形態(tài)和社會(huì)面貌。一些負(fù)面網(wǎng)絡(luò)信息一旦被網(wǎng)評(píng)關(guān)注后,呈現(xiàn)圍觀者眾多、轉(zhuǎn)載傳播速度極快的特點(diǎn),由此引發(fā)的群體性事件、企業(yè)聲譽(yù)受損等案例層出不窮,網(wǎng)情監(jiān)測(cè)與預(yù)警系統(tǒng)已經(jīng)成為政府及相關(guān)行業(yè)必備的信息化工具。

      國(guó)內(nèi)外已有網(wǎng)情監(jiān)控系統(tǒng)以監(jiān)測(cè)分析為主,缺乏不同輿情之間的關(guān)聯(lián)、縱向和演化分析,缺乏線上數(shù)據(jù)與線下數(shù)據(jù)的整合研究,缺乏社會(huì)輿情事件的溯源、風(fēng)險(xiǎn)評(píng)估、預(yù)警等方面的系統(tǒng)化研究,很難滿足行業(yè)客戶實(shí)戰(zhàn)型應(yīng)用需要。

      為此,本文介紹了一種基于機(jī)器學(xué)習(xí)的網(wǎng)情監(jiān)測(cè)及預(yù)警系統(tǒng),采用基于機(jī)器學(xué)習(xí)的自適應(yīng)數(shù)據(jù)采集、語(yǔ)義分析、情感分析、溯源等技術(shù),實(shí)現(xiàn)互聯(lián)網(wǎng)輿情定點(diǎn)采集與離線/實(shí)時(shí)分析,對(duì)網(wǎng)絡(luò)媒體中反映的熱點(diǎn)、焦點(diǎn)信息進(jìn)行自動(dòng)分類與聚類,并通過(guò)直觀、可視化的界面對(duì)網(wǎng)絡(luò)輿情進(jìn)行展示,提供及時(shí)有效的管理和決策支持手段。

      2 系統(tǒng)架構(gòu)

      系統(tǒng)由基礎(chǔ)設(shè)施層、數(shù)據(jù)采集層、數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)分析層、應(yīng)用服務(wù)層及

      安全與運(yùn)維保障體系組成,如圖1所示。

      其中,基礎(chǔ)設(shè)施層是平臺(tái)運(yùn)行的基礎(chǔ)物理設(shè)施,包括網(wǎng)絡(luò)設(shè)備、安全設(shè)備、存儲(chǔ)設(shè)備、服務(wù)器和容災(zāi)備份等相關(guān)設(shè)備。

      數(shù)據(jù)采集層采用定向采集、全向采集等技術(shù)實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)不同媒體類型、不同網(wǎng)頁(yè)風(fēng)格和實(shí)現(xiàn)技術(shù)網(wǎng)站的按需式、定向式、精確化數(shù)據(jù)采集。

      數(shù)據(jù)存儲(chǔ)層采用分布式非關(guān)系型/關(guān)系型數(shù)據(jù)庫(kù)、分布式緩存、分布式搜索引擎等技術(shù)以滿足平臺(tái)對(duì)海量非結(jié)構(gòu)化、結(jié)構(gòu)化數(shù)據(jù)的高效快速存取。

      數(shù)據(jù)分析層實(shí)現(xiàn)對(duì)原始采集數(shù)據(jù)的處理分析,挖掘“輿情價(jià)值信息”,為應(yīng)用服務(wù)層提供基礎(chǔ)服務(wù)數(shù)據(jù)。

      應(yīng)用服務(wù)層面向各類用戶,提供平臺(tái)業(yè)務(wù)功能,提供統(tǒng)- Web服務(wù)接口,支持用戶并發(fā)訪問(wèn)。

      3 核心系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

      整個(gè)系統(tǒng)由自動(dòng)輿情采集子系統(tǒng)、智能輿情分析子系統(tǒng)和輿情服務(wù)子系統(tǒng)組成。

      3.1 自動(dòng)輿情采集子系統(tǒng)

      自動(dòng)輿情數(shù)據(jù)采集子系統(tǒng)采用分布式框架,能夠快速自定義采集數(shù)據(jù)需要的各個(gè)模塊,依據(jù)輿情來(lái)源的方式采取主動(dòng)方式和被動(dòng)方式進(jìn)行數(shù)據(jù)爬取,主要由分布式采集器、日志管理和異常數(shù)據(jù)預(yù)警等核心模塊組成。其中采集器負(fù)責(zé)對(duì)互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行下載和存儲(chǔ);日志管理負(fù)責(zé)存儲(chǔ)和展示采集系統(tǒng)各個(gè)階段的日志信懇異常數(shù)據(jù)預(yù)警用于監(jiān)測(cè)采集數(shù)據(jù)是否正常,數(shù)據(jù)是否完整可靠,出現(xiàn)異常能夠迅速進(jìn)行排查和修復(fù)。

      3.2 智能輿情分析子系統(tǒng)

      智能輿情分析子系統(tǒng)以Spring boot作為核心框架,采用NLP自然語(yǔ)言處理包實(shí)現(xiàn)基礎(chǔ)的詞法分析、句法分析、語(yǔ)義理解處理流程,結(jié)合輿情平臺(tái)配置將數(shù)據(jù)處理后寫(xiě)入數(shù)據(jù)庫(kù)。

      用戶通過(guò)瀏覽器訪問(wèn)實(shí)時(shí)輿情服務(wù)系統(tǒng),可做相關(guān)配置。用戶設(shè)置的正/負(fù)面詞和預(yù)警詞可通過(guò)接口通知給智能輿情分析系統(tǒng),智能輿情分析系統(tǒng)分析Redis中的數(shù)據(jù)存入到MySQL中,數(shù)據(jù)再通過(guò)搜索優(yōu)化引擎ElasticSearch提供給用戶所需的功能。

      3.3 輿情服務(wù)子系統(tǒng)

      實(shí)時(shí)網(wǎng)絡(luò)輿情服務(wù)系統(tǒng)主要由綜合展示模塊、輿情服務(wù)模塊和運(yùn)維管理模塊三部分組成。其中,展示模塊采用Bootstrap、HTML5、CSS. JavaScript、JQuery. ECharts和AJAX等技術(shù)實(shí)現(xiàn)了動(dòng)態(tài)輿情展示W(wǎng)eb頁(yè)面。

      綜合輿情服務(wù)模塊通過(guò)大屏界面為用戶呈現(xiàn)地域輿情動(dòng)態(tài)、輿情預(yù)警動(dòng)態(tài)、網(wǎng)絡(luò)輿情熱詞、負(fù)面輿情、情感趨勢(shì)等輿情信息的圖文情況,讓用戶對(duì)當(dāng)前的輿情態(tài)勢(shì)有直觀的了解。

      運(yùn)維管理模塊實(shí)現(xiàn)主題管理、預(yù)警管理、網(wǎng)站管理、輿情管理、用戶管理和日志管理等功能。

      3.4 基于機(jī)器學(xué)習(xí)的分析處理技術(shù)

      系統(tǒng)采用業(yè)界典型的機(jī)器學(xué)習(xí)模型,重點(diǎn)對(duì)主題分析、輿情溯源、情感分析等關(guān)鍵技術(shù)進(jìn)行研發(fā)和優(yōu)化。

      3.4.1 基于LDA的主題分析

      為克服了傳統(tǒng)信息檢索中文檔相似度計(jì)算難以及LSA的過(guò)度擬合的缺點(diǎn),系統(tǒng)采用LDA模型,基于貝葉斯概率的非監(jiān)督機(jī)器學(xué)習(xí)方法,進(jìn)行主題關(guān)鍵詞預(yù)處理,自動(dòng)地從多個(gè)文本中抽取隱含的語(yǔ)義主題。系統(tǒng)首先對(duì)原始網(wǎng)頁(yè)文本進(jìn)行分詞、去噪、去除停用詞等預(yù)處理,放入原始語(yǔ)料庫(kù)中;然后,統(tǒng)計(jì)原始語(yǔ)料庫(kù)中的關(guān)鍵詞項(xiàng),利用LDA生成模型計(jì)算“文檔.主題”分布和“主題.關(guān)鍵詞”分布;最終從“主題.關(guān)鍵詞”分布中提取部分關(guān)鍵詞生成主題集,并從“文檔.主題”分布中提取部分主題生成網(wǎng)頁(yè)主題列表。

      3.4.2 基于多維分析的輿情溯源

      系統(tǒng)主要從屬性維度、結(jié)構(gòu)維度、行為維度分析找出輿情的源頭及散布途徑.降低了計(jì)算復(fù)雜度,提高了溯源準(zhǔn)確度。屬性維度計(jì)算主要圍繞時(shí)間和作者進(jìn)行分析計(jì)算;結(jié)構(gòu)維度主要圍繞內(nèi)容相似度做分析;行為維度主要圍繞文章是直接轉(zhuǎn)發(fā)行還是隱含式轉(zhuǎn)發(fā)進(jìn)行分析。

      3.4.3 基于樸素貝葉斯訓(xùn)練器的情感分析

      為實(shí)現(xiàn)輿情情感分析,首先需要導(dǎo)入情感分析訓(xùn)練語(yǔ)料(分為正面和負(fù)面),然后利用情感分析工具創(chuàng)建樸素貝葉斯訓(xùn)練器進(jìn)行訓(xùn)練,再用訓(xùn)練好的模型對(duì)輸入的文章進(jìn)行分類,得到正面或者負(fù)面的結(jié)果。

      4 系統(tǒng)應(yīng)用實(shí)踐

      本系統(tǒng)已經(jīng)成功部署應(yīng)用于公安、政務(wù)、教育等行業(yè)。在公共安全領(lǐng)域,系統(tǒng)通過(guò)爬取微博、微信等社交媒體數(shù)據(jù),分析挖掘網(wǎng)情數(shù)據(jù)的情報(bào)價(jià)值,為重點(diǎn)人員管控,警情預(yù)警預(yù)防、網(wǎng)上最陶、案件偵破等提供研判依據(jù),有效提升公安機(jī)關(guān)反恐防暴、治安防控、偵查破案的能力。在政務(wù)領(lǐng)域,系統(tǒng)通過(guò)對(duì)各部門政務(wù)信息發(fā)布、解讀、回應(yīng)、實(shí)施、反饋的全流程監(jiān)測(cè),通過(guò)網(wǎng)情分析獲取施政情況反饋及處置建議,幫助政府部門提升治理能力及服務(wù)能力。

      5 結(jié)語(yǔ)

      本文介紹了一種基于機(jī)器學(xué)習(xí)的網(wǎng)情監(jiān)測(cè)及預(yù)警系統(tǒng),通過(guò)采用自適應(yīng)采集、自然語(yǔ)言處理等關(guān)鍵技術(shù),實(shí)現(xiàn)了對(duì)海量網(wǎng)絡(luò)輿情的實(shí)時(shí)監(jiān)測(cè)、關(guān)聯(lián)分析、溯源、風(fēng)險(xiǎn)評(píng)估、預(yù)警等功能,可廣泛應(yīng)用于互聯(lián)網(wǎng)數(shù)據(jù)的實(shí)時(shí)采集、分析研判、預(yù)警處理等應(yīng)用場(chǎng)景。

      參考文獻(xiàn)

      [1]陳必坤,王日芬等,大數(shù)據(jù)時(shí)代社會(huì)輿情分析與決策支持研究的現(xiàn)狀及其發(fā)展趨勢(shì)[J].情報(bào)科學(xué),2016.

      [2]李廣建,楊林.大數(shù)據(jù)視角下的情報(bào)研究與情報(bào)研究技術(shù)[J],圖書(shū)與情報(bào),2012.

      [3]Blei D M.Probabilistic TopicModels[I].Communications of theACM.2002.

      [4]石晶,李萬(wàn)龍.基于LDA模型的話題詞抽取方法[J].計(jì)算機(jī)工程,2010.

      [5]柯贊,基于動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)的輿情預(yù)測(cè)模型研究[J].統(tǒng)計(jì)與決策,2016.

      [6]周杰,林琛等.基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)新聞評(píng)論情感分類研究[J].計(jì)算機(jī)應(yīng)用,2010.

      猜你喜歡
      態(tài)勢(shì)感知
      網(wǎng)絡(luò)安全態(tài)勢(shì)感知實(shí)用研究
      安全態(tài)勢(shì)感知在移動(dòng)業(yè)務(wù)支撐系統(tǒng)中的應(yīng)用
      科技視界(2017年14期)2017-10-09 16:49:51
      針對(duì)超強(qiáng)臺(tái)風(fēng)的大規(guī)模人群疏散模式研究
      綠色科技(2017年10期)2017-07-05 00:15:40
      基于態(tài)勢(shì)感知理念的交通運(yùn)輸行業(yè)網(wǎng)絡(luò)安全體系構(gòu)建探析
      基于融合的網(wǎng)絡(luò)安全態(tài)勢(shì)量化感知
      航電系統(tǒng)數(shù)據(jù)危害的模式和原理
      信息安全態(tài)勢(shì)分析方法與系統(tǒng)在電力信息化中的應(yīng)用研究
      基于態(tài)勢(shì)感知平臺(tái)的網(wǎng)絡(luò)安全威脅管理研究
      基于數(shù)學(xué)模型的網(wǎng)絡(luò)安全態(tài)勢(shì)感知綜述
      信息安全態(tài)勢(shì)智能預(yù)警分析平臺(tái)淺談
      白城市| 成都市| 黄骅市| 凉山| 富源县| 长岭县| 东丰县| 天津市| 河曲县| 海原县| 灵川县| 临安市| 宝兴县| 南宫市| 桂东县| 化州市| 滁州市| 甘谷县| 广西| 雅安市| 本溪| 永仁县| 营山县| 桐柏县| 明溪县| 措勤县| 威宁| 乃东县| 玉树县| 徐水县| 习水县| 平利县| 辉县市| 忻州市| 旅游| 绍兴市| 延长县| 花莲县| 子洲县| 玛曲县| 石家庄市|