肖卓明,吳 嫻
(南方報業(yè)傳媒集團(tuán) 南方輿情數(shù)據(jù)研究院,廣東 廣州 510601)
輿情監(jiān)測分析系統(tǒng)關(guān)鍵技術(shù)實現(xiàn)方案
肖卓明,吳 嫻
(南方報業(yè)傳媒集團(tuán) 南方輿情數(shù)據(jù)研究院,廣東 廣州 510601)
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,人們獲取信息和相互交流的渠道與之前相比發(fā)生了根本性的變化。突發(fā)事件比以往更容易傳播,并引起了激烈的討論,進(jìn)而發(fā)展為輿情事件。網(wǎng)絡(luò)輿情的監(jiān)控和分析受到了前所未有的關(guān)注。輿情監(jiān)測分析系統(tǒng)涉及互聯(lián)網(wǎng)信息采集、海量數(shù)據(jù)分析、可視化展示等,其中,涉及的技術(shù)細(xì)節(jié)較為復(fù)雜,應(yīng)用環(huán)境多變,對系統(tǒng)的穩(wěn)定性、安全性、可靠性有較高的要求。簡要分析了輿情監(jiān)測分析系統(tǒng)中需要使用到的通用關(guān)鍵技術(shù),以期為日后相關(guān)工作的順利進(jìn)行提供參考。
輿情監(jiān)測;大數(shù)據(jù);信息采集;語義識別
穩(wěn)定性、安全性、可靠性有較高的要求。
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,越來越多的人通過網(wǎng)絡(luò)媒體獲取信息,并通過社交媒體發(fā)表言論,信息傳播的路徑和人們相互交流的渠道與之前有了根本性的變化。一些突發(fā)事件比以往更容易傳播,并會引起人們激烈的討論,經(jīng)過網(wǎng)絡(luò)發(fā)酵后,成為重要的新聞熱點,甚至可以產(chǎn)生巨大的社會影響。對網(wǎng)絡(luò)輿情進(jìn)行適當(dāng)?shù)谋O(jiān)測和引導(dǎo),防止突發(fā)事件持續(xù)惡化,已經(jīng)成為當(dāng)前相關(guān)部門面臨的重要挑戰(zhàn)之一。各級政府希望通過對互聯(lián)網(wǎng)輿情的有效監(jiān)控和分析,快速發(fā)現(xiàn)相關(guān)的熱點事件,進(jìn)而有效引導(dǎo)網(wǎng)絡(luò)輿論,實現(xiàn)對社會的綜合治理,提高維護(hù)社會穩(wěn)定的能力。
傳統(tǒng)媒體作為新聞事件的發(fā)現(xiàn)者和傳播者,對熱點事件有極強的敏感性。又因為對傳播機制的熟悉,傳統(tǒng)媒體在熱點發(fā)現(xiàn)、輿論引導(dǎo)、輿情處置上有天然的優(yōu)勢;再加上媒體傳統(tǒng)業(yè)務(wù)的下滑,尋求新的利潤增長點和媒體融合發(fā)展雙動力驅(qū)使,越來越多的傳統(tǒng)媒體開始在新型輿情智庫上展開探索,以期開辟一條媒體轉(zhuǎn)型的有效路徑。網(wǎng)絡(luò)輿情的監(jiān)控和分析涉及互聯(lián)網(wǎng)信息采集、海量數(shù)據(jù)分析、可視化展示等,其中,涉及的技術(shù)細(xì)節(jié)較為復(fù)雜,應(yīng)用環(huán)境多變,對系統(tǒng)的
輿情監(jiān)測分析系統(tǒng)一般由信源層、采集處理層、業(yè)務(wù)處理層和應(yīng)用層組成,每一層包括不同的功能模塊,涉及多種關(guān)鍵技術(shù)。輿情監(jiān)測分析系統(tǒng)總體架構(gòu)如圖1所示。
信源層負(fù)責(zé)解釋和獲取互聯(lián)網(wǎng)原始數(shù)據(jù),完成對原始網(wǎng)頁的數(shù)據(jù)抓取,網(wǎng)頁抓取是基于HTTP協(xié)議的。信源層的資源包括媒體數(shù)據(jù)、社交網(wǎng)站數(shù)據(jù)、博客數(shù)據(jù)、微博數(shù)據(jù)、微信公眾號數(shù)據(jù)、新聞客戶端數(shù)據(jù)、視音頻數(shù)據(jù)和搜索引擎數(shù)據(jù)等。信源層的數(shù)據(jù)被獲取后,會被傳輸?shù)讲杉幚韺舆M(jìn)行進(jìn)一步的存儲、分析和處理。信源層是整個系統(tǒng)的數(shù)據(jù)來源,提供大量豐富的原始數(shù)據(jù)。
信源層獲取到的原始數(shù)據(jù)來源多樣,格式復(fù)雜,且包含了大量無用冗余的垃圾信息,并不能被系統(tǒng)直接使用,因此,需要在采集處理層有效處理這些原始數(shù)據(jù),使之變成系統(tǒng)能夠識別的數(shù)據(jù)。采集處理層是整個系統(tǒng)的重要環(huán)節(jié),為系統(tǒng)提供穩(wěn)定的數(shù)據(jù)支撐。采集處理層主要分為采集架構(gòu)、云存儲體系、數(shù)據(jù)處理中心、采集數(shù)據(jù)庫、新聞快照庫、業(yè)務(wù)數(shù)據(jù)庫和擴展信源通道等7個部分。
業(yè)務(wù)處理層主要建設(shè)分析處理引擎,包括各個應(yīng)用系統(tǒng)需要建設(shè)的業(yè)務(wù)處理部分,需要進(jìn)行全面的考量和建設(shè),設(shè)計出穩(wěn)定的業(yè)務(wù)處理支撐層,并為最上端的應(yīng)用層打下堅實的基礎(chǔ)。
應(yīng)用層基于業(yè)務(wù)處理層提供的框架、平臺和工具,訪問各類主題數(shù)據(jù)資源層的數(shù)據(jù)庫,構(gòu)建面向用戶各環(huán)節(jié)的分析應(yīng)用。應(yīng)用層主要由一系列已經(jīng)封裝好的數(shù)據(jù)服務(wù)組成,整合不同來源的新聞數(shù)據(jù),借助平臺的大數(shù)據(jù)處理和指揮調(diào)度能力,完成一系列的數(shù)據(jù)分析輸出功能,為用戶提供一體化的監(jiān)測分析服務(wù)。
圖1 輿情監(jiān)測分析系統(tǒng)總體架構(gòu)
輿情監(jiān)測分析系統(tǒng)網(wǎng)絡(luò)規(guī)模大,運行環(huán)境復(fù)雜,數(shù)據(jù)量龐大,涉及多系統(tǒng)、多數(shù)據(jù)庫和多應(yīng)用平臺?;ヂ?lián)網(wǎng)上采集的數(shù)據(jù)類型多樣,同時存在垃圾數(shù)據(jù),海量的數(shù)據(jù)信息需要通過聚類、分類、可視化才能直觀地表現(xiàn)出來。信息采集、信息處理、信息分析、信息檢索、文本分詞、文本分類聚類、系統(tǒng)的穩(wěn)定性和大數(shù)據(jù)的可讀性,等等,都需要采用特定的關(guān)鍵技術(shù)來解決實現(xiàn)。
輿情監(jiān)測分析系統(tǒng)的首要特點就是數(shù)據(jù)體量大、數(shù)據(jù)流量高、數(shù)據(jù)類型繁多,因此,海量的互聯(lián)網(wǎng)數(shù)據(jù)采集和處理是整個系統(tǒng)建設(shè)的基石,互聯(lián)網(wǎng)數(shù)據(jù)的快速、全面采集是決定輿情監(jiān)測工作成效的最直接因素。只有采集及時,才能第一時間捕捉線索苗頭,不漏失重要信息,避免貽誤處理時機;只有數(shù)據(jù)全面,才能充分發(fā)揮大數(shù)據(jù)挖掘的優(yōu)勢,避免不同平臺的群體差異性帶來的抽樣偏頗,導(dǎo)致分析結(jié)果出現(xiàn)偏差。
當(dāng)系統(tǒng)出錯時,如何才能保證數(shù)據(jù)的完整性和一致性,同時,互聯(lián)網(wǎng)上的數(shù)據(jù)無時無刻不在更新,如何采用冗余機制建立備份系統(tǒng),在系統(tǒng)發(fā)生故障時保證系統(tǒng)的不間斷運行,互聯(lián)網(wǎng)海量信息的采集、處理、展示,對系統(tǒng)的穩(wěn)定性提出了更高的要求。
互聯(lián)網(wǎng)上采集的絕大部分?jǐn)?shù)據(jù)都是文本信息,需要對海量信息進(jìn)行自動聚類分析,自動根據(jù)信息主體所屬的領(lǐng)域判斷,對不同語種的內(nèi)容進(jìn)行自動轉(zhuǎn)譯后分解,對主題事件的語義情緒傾向性進(jìn)行分析。這時,人機語義的識別問題就顯得尤為重要。
輿情大數(shù)據(jù),絕大部分都是非結(jié)構(gòu)化處理后形成的結(jié)構(gòu)化數(shù)據(jù),體量達(dá)到PB級。面對如此龐大的數(shù)據(jù),需要進(jìn)行數(shù)據(jù)元素分解,才能在業(yè)務(wù)層面進(jìn)行歸納,進(jìn)而對數(shù)據(jù)進(jìn)行深入透視,進(jìn)一步滿足日常的研判工作。如何將隱含在大數(shù)據(jù)中的輿情信息通過可被用戶簡單閱讀和理解的方式表現(xiàn)出來,是實現(xiàn)數(shù)據(jù)可閱讀性、可視化不得不考慮的問題。
采用分布式多線程并發(fā)指令執(zhí)行體系結(jié)構(gòu)、增量實時索引、智能分詞等先進(jìn)技術(shù),基于爬蟲機制,對Web頁面信息進(jìn)行智能識別和資源抓取,能夠?qū)崿F(xiàn)網(wǎng)頁排重、垃圾過濾等預(yù)處理,實現(xiàn)分頁內(nèi)容自動合并、動態(tài)信息增量采集。另外,依托云計算平臺,建立有效的采集調(diào)度規(guī)則,采用自適應(yīng)帶寬設(shè)計,能夠達(dá)到分鐘級的實時采集效率和多個網(wǎng)站同時并發(fā)訪問,達(dá)到多點負(fù)載均衡的效果,提高信息抓取的效率和性能。
在做互聯(lián)網(wǎng)數(shù)據(jù)的采集時,因為采集數(shù)據(jù)量大,需要進(jìn)行大量的I/O操作,如果按照常規(guī)串聯(lián)I/O讀取和分析,容易出現(xiàn)任務(wù)死鎖等假死狀況。采用分布式多任務(wù)并行處理技術(shù),是為了讓一份文件同時被多臺機器或進(jìn)程讀取計算,將2條或多條指令并行執(zhí)行,同時處理多個任務(wù)。這樣做,可以在提高運算速率的基礎(chǔ)上保證采集系統(tǒng)的穩(wěn)定性。
高速度網(wǎng)頁實時增量采集技術(shù)實現(xiàn)分秒監(jiān)測網(wǎng)站信息變化動態(tài),同時,增量實時索引技術(shù)保證信息即時采集即時檢索,可以采集到最新的網(wǎng)站信息。另外,以先進(jìn)搜索技術(shù)為核心,可實現(xiàn)亞秒級的檢索速度和每秒上百次的并發(fā)檢索支持,保證全面快速的響應(yīng)用戶檢索需求。
如何發(fā)揮集群的最大效用,保證集群的整體穩(wěn)定性,是分布式計算中必須考慮的重要環(huán)節(jié)之一。采用集群性能均衡器技術(shù),即集群調(diào)度器定時掃描服務(wù)器節(jié)點性能占用情況、I/O負(fù)荷情況等,并調(diào)用操作系統(tǒng)日志進(jìn)行性能日志審計,對異常節(jié)點進(jìn)行告警,將任務(wù)調(diào)度重新進(jìn)行哈希分配,重新平衡各任務(wù)節(jié)點的計算任務(wù)分配,可以極大地提高系統(tǒng)整體集群的工作效率和穩(wěn)定性。
用Rocchio算法可以解決文本分類問題,將一個類別里的樣本文本各項取個平均值,可以得到一個新的向量,可以將其稱之為“質(zhì)心”,而“質(zhì)心”就成了這個類別最具代表性的向量表示。再有新文本需要判斷的時候,比較新文本與“質(zhì)心”相似度,就可以確定新文本屬不屬于這個類別。稍微改進(jìn)一點的Rocchio算法不僅考慮了屬于這個類別的文本(稱為正樣本),也考慮了不屬于這個類別的文本數(shù)據(jù)(稱為負(fù)樣本),計算出來的質(zhì)心盡量靠近正樣本,盡量遠(yuǎn)離負(fù)樣本。
貝葉斯算法解決的是文本屬于某類別的概率。文本屬于某個類別的概率等于文本中每個詞屬于該類別的概率的綜合表達(dá)式。而每個詞屬于該類別的概率又在一定程度上可以用這個詞在該類別訓(xùn)練文本中出現(xiàn)的次數(shù)(詞頻信息)來粗略估計,因而使得整個計算過程變得可行。使用樸素貝葉斯算法時,訓(xùn)練階段的主要任務(wù)就是估計這些值。
在kNN算法里,訓(xùn)練樣本代表了類別的準(zhǔn)確信息,而不管樣本是使用什么特征表示的。在給定新文本后,計算新文本特征向量和訓(xùn)練文本集中各個文本向量的相似度,得到K篇與該新文本距離最近、最相似的文本,根據(jù)這K篇文本所屬的類別判定新文本所屬的類別。這種判斷方法很好地克服了Rocchio算法中無法處理線性不可分問題的缺陷,也適用于分類標(biāo)準(zhǔn)隨時會變化的需求——只要刪除舊訓(xùn)練文本,添加新訓(xùn)練文本,就改變了分類準(zhǔn)則。
SVM訓(xùn)練的本質(zhì)是解決一個二次規(guī)劃問題(Quadruple Programming,指目標(biāo)函數(shù)為二次函數(shù),約束條件為線性約束的最優(yōu)化問題),得到的是全局最優(yōu)解,這使它有著其他統(tǒng)計學(xué)習(xí)技術(shù)難以比擬的優(yōu)越性。SVM分類器的文本分類效果很好,是最好的分類器之一。同時,使用核函數(shù)將原始的樣本空間向高維空間變換,能夠解決原始樣本線性不可分的問題。
數(shù)據(jù)可視化技術(shù)主要包括5種,分別是標(biāo)準(zhǔn)2D/3D顯示技術(shù)、基于幾何的技術(shù)、基于圖標(biāo)的技術(shù)、基于層次的可視化技術(shù)和面向像素的可視化技術(shù)。運用可視化技術(shù)能夠?qū)⑿侣劅岫?、事件發(fā)展趨勢、數(shù)據(jù)統(tǒng)計、傳播路徑、人物關(guān)系等通過圖形顯示出來,以便人們更加直觀地了解輿情發(fā)展態(tài)勢。同時,可以利用多種形式的圖表,包括全國地圖、曲線趨勢圖、樹狀圖、餅圖、柱形圖和星狀圖等,基于HTML5技術(shù)展現(xiàn)數(shù)據(jù)分析結(jié)果,呈現(xiàn)出更好的交互能力。
網(wǎng)絡(luò)輿情監(jiān)測分析系統(tǒng)具有復(fù)雜性,它涉及大數(shù)據(jù)、云計算、數(shù)據(jù)挖掘等多個技術(shù)領(lǐng)域,每一個技術(shù)細(xì)節(jié)都值得深入研究。本文簡要分析了輿情監(jiān)測分析系統(tǒng)中使用到的通用關(guān)鍵技術(shù),拋磚引玉,以期為同行提供參考。
[1]周寶曜,范承工,劉偉.大數(shù)據(jù):戰(zhàn)略·技術(shù)·實踐[M].北京:電子工業(yè)出版社,2013.
[2]Anand Rajaraman,Jeffrey David Ullman.大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理[M].北京:人民郵電出版社,2012.
[3]劉毅.網(wǎng)絡(luò)輿情研究概論[M].天津:天津人民出版社,2007.
[4]馬明建.數(shù)據(jù)采集與處理技術(shù)[M].西安:西安交通大學(xué)出版社,2005.
TP393.09
A
10.15913/j.cnki.kjycx.2018.02.016
2095-6835(2018)02-0016-03
肖卓明(1981—),男,主要從事數(shù)據(jù)庫設(shè)計、網(wǎng)絡(luò)應(yīng)用方面的研究。吳嫻(1985—),女,主要從事自然語言處理、文本挖掘和模式識別方面的研究。
白潔〕