劉洪霞
摘要:本文對(duì)大數(shù)據(jù)、網(wǎng)絡(luò)輿情信息相關(guān)特征進(jìn)行分析,并以大數(shù)據(jù)為基礎(chǔ)構(gòu)建模塊對(duì)網(wǎng)絡(luò)輿情相關(guān)文本進(jìn)行挖掘,同時(shí)對(duì)預(yù)警模型進(jìn)行構(gòu)建。此外,還使關(guān)系型、分布式兩種數(shù)據(jù)庫(kù)得到融合,使其能夠?qū)牟杉敛樵兎治鋈^程進(jìn)行適應(yīng),并擴(kuò)展了Map Reduce這一核心技術(shù)。
關(guān)鍵詞:大數(shù)據(jù)技術(shù);網(wǎng)絡(luò)輿情文本;挖掘研究
引言
Web時(shí)代不斷推進(jìn),使國(guó)內(nèi)網(wǎng)絡(luò)以較快速度進(jìn)行普及?,F(xiàn)階段公眾通過互聯(lián)網(wǎng)這一平臺(tái)對(duì)信息進(jìn)行獲取與表達(dá),此外還是相關(guān)部門對(duì)公眾輿情進(jìn)行獲取與了解的關(guān)鍵窗口。若想對(duì)網(wǎng)絡(luò)輿情進(jìn)行準(zhǔn)確獲取,必須配以相應(yīng)信息技術(shù)。例如,可以對(duì)輿情預(yù)警模塊利用數(shù)學(xué)模型進(jìn)行構(gòu)建,使輿情預(yù)警可以實(shí)現(xiàn)定量分析。此外,外國(guó)學(xué)者對(duì)輿情傳播更為關(guān)注,而國(guó)內(nèi)更多重視輿情本質(zhì)及其預(yù)警的相關(guān)研究。下面通過利用大數(shù)據(jù)在處理數(shù)據(jù)方面的優(yōu)勢(shì)來對(duì)輿情文本進(jìn)行挖掘,同時(shí)以其為基礎(chǔ)對(duì)預(yù)警模型進(jìn)行構(gòu)建。
一、大數(shù)據(jù)基本概述
1、大數(shù)據(jù)、網(wǎng)絡(luò)輿情相應(yīng)特征簡(jiǎn)述
大數(shù)據(jù)并不僅限于海量數(shù)據(jù),其還包含對(duì)于數(shù)據(jù)處理的相應(yīng)方式。網(wǎng)絡(luò)輿情也沒有在網(wǎng)絡(luò)中直接存在,需要配套技術(shù)對(duì)其從網(wǎng)絡(luò)數(shù)據(jù)當(dāng)中進(jìn)行提取、分析。輿情獲取與大數(shù)據(jù)相關(guān)思想十分契合。例如,大數(shù)據(jù)“4V”這一特征便和輿情聯(lián)系十分密切。如下表所示。二者特征十分契合,很大程度上因?yàn)槎叻治瞿繕?biāo)一致,也就實(shí)現(xiàn)更為準(zhǔn)確預(yù)測(cè)。這便使大數(shù)據(jù)相關(guān)思想、技術(shù)等與輿情預(yù)警相契合這一猜想得到理論論證。但輿情輿情更多側(cè)重與發(fā)現(xiàn)輿情的及時(shí)性,其準(zhǔn)確度與數(shù)據(jù)、算法模型相關(guān),及時(shí)度則取決于相應(yīng)平臺(tái)處理的效率。而傳統(tǒng)技術(shù)更多關(guān)注準(zhǔn)確度,對(duì)時(shí)間并未有更多要求,因此無(wú)法與輿情預(yù)警相契合。
2、關(guān)系型、分布式兩類數(shù)據(jù)庫(kù)優(yōu)缺點(diǎn)
數(shù)據(jù)庫(kù)主要有關(guān)系型、分布式兩類,前者(RDB)發(fā)展較久,因此其在對(duì)數(shù)據(jù)管理、分析等方面較為成熟,但其擴(kuò)展性受到較大限制,并不能對(duì)大數(shù)據(jù)進(jìn)行有效分析。后者(HBase)不論是擴(kuò)展性還是容錯(cuò)性等較高,其可以實(shí)現(xiàn)規(guī)?;牟⑿刑幚恚梢赃m應(yīng)諸多數(shù)據(jù)領(lǐng)域,例如Map Reduce便是其中代表。RDB特征是其SQL語(yǔ)言較為標(biāo)準(zhǔn)并且約束較為完整,因此其在處理性能以及確保數(shù)據(jù)完成等方面較強(qiáng)。而HBase對(duì)擴(kuò)展性有著較好考慮,其發(fā)展初期便對(duì)TB或者是PB等級(jí)別的數(shù)據(jù)進(jìn)行存儲(chǔ)、讀寫等進(jìn)行設(shè)計(jì)。而RDB則受到理論、實(shí)現(xiàn)等方面限制,其擴(kuò)展性方面最多為擺個(gè)服務(wù)器的節(jié)點(diǎn)。而網(wǎng)絡(luò)輿情相關(guān)數(shù)據(jù)源自整個(gè)網(wǎng)絡(luò),同時(shí)要確保各部門對(duì)檢測(cè)信息進(jìn)行共享,若僅依賴RDB無(wú)法高效實(shí)現(xiàn)上述目標(biāo)。二者優(yōu)缺點(diǎn)如下表所示。
二、構(gòu)建模塊對(duì)網(wǎng)絡(luò)輿情文本進(jìn)行挖掘
1、使數(shù)據(jù)庫(kù)向著混合型發(fā)展
由于HBase在擴(kuò)展性或者使對(duì)數(shù)據(jù)進(jìn)行多樣化地存儲(chǔ)方面優(yōu)勢(shì)較強(qiáng),而RDB可以有效實(shí)現(xiàn)對(duì)后期數(shù)據(jù)進(jìn)行查詢等目的,所以對(duì)構(gòu)建模塊時(shí)應(yīng)將二者進(jìn)行結(jié)合,使其呈現(xiàn)混合化,該混合系統(tǒng)應(yīng)包含關(guān)系型(RDBMS)、分布式(HDFS)兩類管理系統(tǒng)。這種混合系統(tǒng)較為明確地分為兩層,下層主要利用HDFS來分解、調(diào)度相關(guān)任務(wù),上層則通過RDBMS來對(duì)數(shù)據(jù)進(jìn)行查詢、處理。該系統(tǒng)可通過HDFS這一調(diào)度機(jī)制來提升自身擴(kuò)展、容錯(cuò)性,從而在對(duì)規(guī)模較大的數(shù)據(jù)進(jìn)行分析時(shí)橫向擴(kuò)展等問題進(jìn)行解決,使多部分間信息得以共享。此外,通過RDBMS可以對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)與查詢,從而使其查詢分析等性能得到提升。
2、對(duì)Map Reduce進(jìn)行擴(kuò)展
Map Reduce這一技術(shù)主要處理海量數(shù)據(jù),而對(duì)以該技術(shù)為基礎(chǔ)的具有相關(guān)文本特征的向量進(jìn)行提取則是預(yù)處理的重要步驟。Map任務(wù)中對(duì)文件的輸入操作可當(dāng)做多元素(一篇文檔)構(gòu)成,而其數(shù)據(jù)塊則是較多元素構(gòu)成的集合,同時(shí)一個(gè)元素不可以跨越數(shù)據(jù)塊進(jìn)行存儲(chǔ)。系統(tǒng)內(nèi)全部Map輸入預(yù)計(jì)Reduce輸出都需要以key-value對(duì)形式進(jìn)行,該方式可以確保后續(xù)過程可構(gòu)成組合器。
Map函數(shù)能夠?qū)ξ臋n進(jìn)行轉(zhuǎn)換,并且以key-value對(duì)來輸出,而鍵、值類型不定,同時(shí)鍵并不唯一,一個(gè)Map內(nèi)可以存在多個(gè)key-value對(duì)含有相同鍵。
在全部Map任務(wù)完成之后,主控程序便分類聚合文件(一般以一個(gè)Reduce文件為基準(zhǔn)),同時(shí)對(duì)各鍵k進(jìn)行輸入,其中處理鍵輸入為,其中都來自Map中輸出結(jié)果是k的key-value對(duì)。
三、對(duì)預(yù)警模型進(jìn)行構(gòu)建
1、對(duì)系統(tǒng)功能相關(guān)框架進(jìn)行構(gòu)建
對(duì)其功能架構(gòu)進(jìn)行構(gòu)建,該預(yù)警模型主要以三層結(jié)構(gòu)為基礎(chǔ)進(jìn)行設(shè)計(jì),其邏輯為服務(wù)層、處理層以及查詢層。而其中一般將服務(wù)與處理層分開進(jìn)行設(shè)計(jì),從而對(duì)采集以及存儲(chǔ)等細(xì)節(jié)進(jìn)行評(píng)比,確保輿情數(shù)據(jù)可以得到有效共享,實(shí)現(xiàn)大區(qū)域橫向形式的組合。此外,該模型把查詢層進(jìn)行了獨(dú)立處理,確保模型在使用、查詢時(shí)更為靈活,便于信息共享的跨區(qū)域、部門目標(biāo)的實(shí)現(xiàn)。
2、對(duì)功能模塊進(jìn)行設(shè)計(jì)
該模型一般由數(shù)據(jù)采集、處理以及輿情分析和查詢?nèi)矫娼M成。其中采集模塊主要源于海量網(wǎng)頁(yè),給模型輿情分析以數(shù)據(jù)支持。該模型通常對(duì)門戶網(wǎng)站以及微博等大流量網(wǎng)站進(jìn)行監(jiān)控。為使采集效率得以提升,該系統(tǒng)以MapReduce中的多個(gè)任務(wù)進(jìn)程概念為基礎(chǔ),進(jìn)行了采集器任務(wù)的設(shè)計(jì),各任務(wù)對(duì)單網(wǎng)頁(yè)進(jìn)行采集,同時(shí)分別構(gòu)成數(shù)據(jù)塊。該形式能夠確保數(shù)據(jù)由服務(wù)層至處理層時(shí)不必對(duì)數(shù)據(jù)進(jìn)行重新分配,從而時(shí)時(shí)間得到極大節(jié)約。
處理模塊則主要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,并對(duì)向量進(jìn)行提取,計(jì)算各類輿情參數(shù)并對(duì)詞庫(kù)進(jìn)行及時(shí)更新。數(shù)據(jù)清洗則對(duì)網(wǎng)頁(yè)內(nèi)無(wú)用數(shù)據(jù)進(jìn)行去除操作,一般通過DOM樹解析,而后對(duì)HTML標(biāo)記進(jìn)行瀏覽,從而得到所需網(wǎng)頁(yè),并將其以文本進(jìn)行保存。網(wǎng)絡(luò)話題所對(duì)應(yīng)的輿情指數(shù)一利用矩陣-向量這一乘法來達(dá)到。對(duì)詞庫(kù)進(jìn)行更新不但能夠備份數(shù)據(jù),還可以給以后輿情評(píng)判作參考。
分析和查詢這一模塊極為關(guān)鍵,它以上述乘法為基礎(chǔ)對(duì)VSM進(jìn)行計(jì)算,同時(shí)挖掘相關(guān)輿情信息,對(duì)輿情熱點(diǎn)進(jìn)行有效識(shí)別并實(shí)現(xiàn)即時(shí)預(yù)警。
【總結(jié)】
大數(shù)據(jù)相關(guān)模型較為簡(jiǎn)單,其不論是擴(kuò)展性還是容錯(cuò)性、并行性都較好,可以對(duì)網(wǎng)絡(luò)輿情進(jìn)行有效處理。本文則以大數(shù)據(jù)為基礎(chǔ)來構(gòu)建模塊對(duì)網(wǎng)絡(luò)輿情文本進(jìn)行挖掘,其優(yōu)勢(shì)如下:首先,混合數(shù)據(jù)庫(kù)能夠?qū)鹘y(tǒng)系統(tǒng)擴(kuò)展性以及可靠性等問題進(jìn)行處理,同時(shí)解決處理性能以及無(wú)法保持?jǐn)?shù)據(jù)完整等問題。其次,通過對(duì)Map Reduce這一技術(shù)進(jìn)行改進(jìn),可以將向量從大量文本中進(jìn)行提取,其匹配的乘法能夠?qū)Ω呔SVSM快速計(jì)算。該模型相對(duì)傳統(tǒng)方式而言,其準(zhǔn)確性大致相同,但其時(shí)效性優(yōu)勢(shì)顯著,因?yàn)榇髷?shù)據(jù)給網(wǎng)絡(luò)數(shù)據(jù)的處理帶來較大優(yōu)勢(shì),對(duì)其進(jìn)行合理應(yīng)用必然是未來趨勢(shì)。
參考文獻(xiàn):
[1]張紅軍. 面向網(wǎng)絡(luò)輿情的文本分類系統(tǒng)研究與實(shí)現(xiàn)[D].電子科技大學(xué),2017.
[2]陳雪剛. 基于大數(shù)據(jù)技術(shù)的微博輿情快速自聚類方法研究[J]. 情報(bào)雜志,2017,36(05):113-117.
[3]何凌南,賴凱聲. 大數(shù)據(jù)時(shí)代的網(wǎng)絡(luò)輿情研究范式變革[J]. 現(xiàn)代傳播(中國(guó)傳媒大學(xué)學(xué)報(bào)),2017,39(05):160-162.
[4]王志國(guó). 網(wǎng)絡(luò)輿情監(jiān)控過程中微博文本分類處理的實(shí)現(xiàn)方法[J]. 圖書情報(bào)導(dǎo)刊,2016,1(12):129-133.
[5]王高飛,李明. 我國(guó)網(wǎng)絡(luò)輿情研究的回顧與展望[J]. 現(xiàn)代情報(bào),2016,36(05):172-176.
[6]李金海,何有世,熊強(qiáng). 基于大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)輿情文本挖掘研究[J]. 情報(bào)雜志,2014,33(10):1-6+13.