一、網(wǎng)絡(luò)輿情
網(wǎng)絡(luò)輿情是由于各種事件的刺激而產(chǎn)生的通過互聯(lián)網(wǎng)傳播的人們對于該事件的所有認(rèn)知、態(tài)度、情感和行為傾向的集合。網(wǎng)絡(luò)輿情形成迅速,對社會影響巨大。隨著因特網(wǎng)在全球范圍內(nèi)的飛速發(fā)展,網(wǎng)絡(luò)媒體已被公認(rèn)為是繼報紙、廣播、電視之后的“第四媒體”,網(wǎng)絡(luò)成為反映社會輿情的主要載體之一。網(wǎng)絡(luò)環(huán)境下的輿情信息的主要來源有:新聞評論、BBS、博客、聚合新聞(RSS)。網(wǎng)絡(luò)輿情表達(dá)快捷、信息多元,方式互動,具備傳統(tǒng)媒體無法比擬的優(yōu)勢。
網(wǎng)絡(luò)的開放性和虛擬性,決定了網(wǎng)絡(luò)輿情具有以下特點(diǎn):
(一)直接性,通過BBS,新聞點(diǎn)評和博客網(wǎng)站,網(wǎng)民可以立即發(fā)表意見,下情直接上達(dá),民意表達(dá)更加暢通;
(二)突發(fā)性,網(wǎng)絡(luò)輿論的形成往往非常迅速,一個熱點(diǎn)事件的存在加上一種情緒化的意見,就可以成為點(diǎn)燃一片輿論的導(dǎo)火索;
(三)偏差性,由于發(fā)言者身份隱蔽,并且缺少規(guī)則限制和有效監(jiān)督,網(wǎng)絡(luò)自然成為一些網(wǎng)民發(fā)泄情緒的空間。在現(xiàn)實生活中遇到挫折,對社會問題片面認(rèn)識等等,都會利用網(wǎng)絡(luò)得以宣泄。因此在網(wǎng)絡(luò)上更容易出現(xiàn)庸俗、灰色的言論。
二、數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘(Data Mining,DM),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘是目前人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點(diǎn)問題。數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識別、統(tǒng)計學(xué)、數(shù)據(jù)庫、可視化技術(shù)等,高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策略,減少風(fēng)險,做出正確的決策。知識發(fā)現(xiàn)過程由以下三個階段組成:1.數(shù)據(jù)準(zhǔn)備,2.數(shù)據(jù)挖掘,3.結(jié)果表達(dá)和解釋。數(shù)據(jù)挖掘可以與用戶或知識庫交互。
(一)決策樹。決策樹是數(shù)據(jù)挖掘分類算法的一個重要方法。在各種分類算法中,決策樹是最直觀的一種。每個決策樹都表述了一種樹型結(jié)構(gòu),它由它的分支來對該類型的對象依靠屬性進(jìn)行分類。每個決策樹可以依靠對源數(shù)據(jù)庫的分割進(jìn)行數(shù)據(jù)測試。這個過程可以遞歸式的對樹進(jìn)行修剪。 當(dāng)不能再進(jìn)行分割或一個單獨(dú)的類可以被應(yīng)用于某一分支時,遞歸過程就完成了。另外,隨機(jī)森林分類器將許多決策樹結(jié)合起來以提升分類的正確率。
決策樹同時也可以依靠計算條件概率來構(gòu)造。
決策樹如果依靠數(shù)學(xué)的計算方法可以取得更加理想的效果。 數(shù)據(jù)庫已如下所示:
(x,y) = (x1,x2,x3…,xk,y)
相關(guān)的變量 Y 表示我們嘗試去理解,分類或者更一般化的結(jié)果。 其他的變量x1,x2,x3 等則是幫助我們達(dá)到目的的變量。
(二)遺傳算法。遺傳算法也是計算機(jī)科學(xué)人工智能領(lǐng)域中用于解決最優(yōu)化的一種搜索啟發(fā)式算法,是進(jìn)化算法的一種。這種啟發(fā)式通常用來生成有用的解決方案來優(yōu)化和搜索問題。進(jìn)化算法最初是借鑒了進(jìn)化生物學(xué)中的一些現(xiàn)象而發(fā)展起來的,這些現(xiàn)象包括遺傳、突變、自然選擇以及雜交等。遺傳算法在適應(yīng)度函數(shù)選擇不當(dāng)?shù)那闆r下有可能收斂于局部最優(yōu),而不能達(dá)到全局最優(yōu)。
(三)人工神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)在結(jié)構(gòu)上模仿生物神經(jīng)網(wǎng)絡(luò),是一種通過訓(xùn)練來學(xué)習(xí)的非線性預(yù)測模型,在數(shù)據(jù)采掘中可用來進(jìn)行分類、聚類、特征采掘等操作。人工神經(jīng)網(wǎng)絡(luò)是并行分布式系統(tǒng),采用了與傳統(tǒng)人工智能和信息處理技術(shù)完全不同的機(jī)理,克服了傳統(tǒng)的基于邏輯符號的人工智能在處理直覺、非結(jié)構(gòu)化信息方面的缺陷,具有自適應(yīng)、自組織和實時學(xué)習(xí)的特點(diǎn)。
(四)模糊邏輯。模糊邏輯指模仿人腦的不確定性概念判斷、推理思維方式,對于模型未知或不能確定的描述系統(tǒng),以及強(qiáng)非線性、大滯后的控制對象,應(yīng)用模糊集合和模糊規(guī)則進(jìn)行推理,表達(dá)過渡性界限或定性知識經(jīng)驗,模擬人腦方式,實行模糊綜合判斷,推理解決常規(guī)方法難于對付的規(guī)則型模糊信息問題。在數(shù)據(jù)采掘中,常用來進(jìn)行證據(jù)合成置信度計算等。
(五)粗糙集理論。粗糙集理論作為一種數(shù)據(jù)分析處理理論,在1982年由波蘭科學(xué)家Z.Pawlak創(chuàng)立。粗糙集理論作為一種處理不精確(imprecise)、不一致(inconsistent)、不完整(incomplete)等各種不完備的信息有效的工具,一方面得益于他的數(shù)學(xué)基礎(chǔ)成熟、不需要先驗知識;另一方面在于它的易用性。由于粗糙集理論創(chuàng)建的目的和研究的出發(fā)點(diǎn)就是直接對數(shù)據(jù)進(jìn)行分析和推理,從中發(fā)現(xiàn)隱含的知識,揭示潛在的規(guī)律,因此是一種天然的數(shù)據(jù)挖掘或者知識發(fā)現(xiàn)方法,它與基于概率論的數(shù)據(jù)挖掘方法、基于模糊理論的數(shù)據(jù)挖掘方法和基于證據(jù)理論的數(shù)據(jù)挖掘方法等其他處理不確定性問題理論的方法相比較,最顯著的區(qū)別是它不需要提供問題所需處理的數(shù)據(jù)集合之外的任何先驗知識,而且與處理其他不確定性問題的理論有很強(qiáng)的互補(bǔ)性。
(六)可視化技術(shù)??梢暬夹g(shù)作為解釋大量數(shù)據(jù)最有效的手段而率先被科學(xué)與工程計算領(lǐng)域采用,并發(fā)展為當(dāng)前熱門的研究領(lǐng)域——科學(xué)可視化。可視化技術(shù)把數(shù)據(jù)轉(zhuǎn)換成圖形,給予人們深刻與意想不到的洞察力,在很多領(lǐng)域使科學(xué)家的研究方式發(fā)生了根本變化??梢暬夹g(shù)的應(yīng)用大至高速飛行模擬,小至分子結(jié)構(gòu)的演示,無處不在。在互聯(lián)網(wǎng)時代,可視化與網(wǎng)絡(luò)技術(shù)結(jié)合使遠(yuǎn)程可視化服務(wù)成為現(xiàn)實。
三、基于WEB的數(shù)據(jù)挖掘
基于WEB的數(shù)據(jù)挖掘,就是利用數(shù)據(jù)挖掘技術(shù)自動地從網(wǎng)絡(luò)文檔以及服務(wù)中發(fā)現(xiàn)和抽取信息的過程?;赪EB的數(shù)據(jù)挖掘技術(shù)已經(jīng)應(yīng)用于解決多方面的問題,比如基于WEB內(nèi)容和結(jié)構(gòu)的挖掘極大的幫助了我們從巨量的網(wǎng)絡(luò)資源中更加快速而準(zhǔn)確的獲取所需要的資料,而基于使用的數(shù)據(jù)挖掘的強(qiáng)大作用,更是為商業(yè)運(yùn)作提供了有力的量化決策根據(jù)。
(一)基于WEB的數(shù)據(jù)挖掘特點(diǎn)
1.Web數(shù)據(jù)挖掘的對象是大量、異質(zhì)、分布的Web文檔web上的每一個站點(diǎn)就是一個數(shù)據(jù)源,每個數(shù)據(jù)源都是異構(gòu)的,因而每一站點(diǎn)之間的信息和組織都不一樣,這就構(gòu)成了一個巨大的異構(gòu)數(shù)據(jù)庫環(huán)境。如果想要利用這些數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,必須要研究站點(diǎn)之間異構(gòu)數(shù)據(jù)的集成問題,只有將這些站點(diǎn)的數(shù)據(jù)都集成起來,提供給用戶一個統(tǒng)一的視圖,才有可能從巨大的數(shù)據(jù)資源中獲取所需的東西。
2.web文檔是半結(jié)構(gòu)化或無結(jié)構(gòu)的目前數(shù)據(jù)發(fā)掘多應(yīng)用于關(guān)系和面向?qū)ο髷?shù)據(jù)庫,它們有完善的結(jié)構(gòu),按照預(yù)先定義的模式進(jìn)行組織、存儲和存取,而W eb 上的數(shù)據(jù)非常復(fù)雜,往往具有半結(jié)構(gòu)化或非結(jié)構(gòu)化特性,難以映射到一個固定的模式,使傳統(tǒng)數(shù)據(jù)模型和數(shù)據(jù)庫系統(tǒng)難以支持Web上的信息挖掘。針對W eb 上的數(shù)據(jù)半結(jié)構(gòu)化的特點(diǎn),尋找一個半結(jié)構(gòu)化的數(shù)據(jù)模型是解決問題的關(guān)鍵所在。除了要定義一個半結(jié)構(gòu)化數(shù)據(jù)模型外,還需要一種半結(jié)構(gòu)化模型抽取技術(shù),即自動地從現(xiàn)有數(shù)據(jù)中抽取半結(jié)構(gòu)化模型的技術(shù)。
3.數(shù)據(jù)源具有很強(qiáng)的動態(tài)性,因特網(wǎng)中數(shù)據(jù)更新非常迅速,有些信息可能很快過時,針對當(dāng)前狀態(tài)的信息能快速更新知識,提供準(zhǔn)確的決策支持要求數(shù)據(jù)發(fā)掘的動態(tài)性。
4.用戶目標(biāo)的模糊性,基于WEB的數(shù)據(jù)采掘用戶往往只對要采掘的主題有一個粗淺的認(rèn)識,提不出很明確的目標(biāo)來。這就需要數(shù)據(jù)采掘系統(tǒng)具有一定的智能性和學(xué)習(xí)機(jī)制,不斷地跟蹤用戶的興趣,清晰明白地闡述采掘結(jié)果。
(二)Web數(shù)據(jù)挖掘的分類
1. Web內(nèi)容挖掘
Web內(nèi)容挖掘是指從Web 文檔內(nèi)容及其描述信息中獲取潛在的、有價值的知識和模式的過程,主要包括對網(wǎng)頁的內(nèi)容特征進(jìn)行提取、基于內(nèi)容的網(wǎng)頁分析/聚類、網(wǎng)頁間內(nèi)容的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)等。網(wǎng)頁的文本內(nèi)容包含最豐富的信息,然而其表達(dá)方式復(fù)雜,不利于計算機(jī)理解。Web內(nèi)容挖掘可以有效地對大量文本內(nèi)容進(jìn)行總結(jié)、分類、聚類、關(guān)聯(lián)分析以及利用Web 文本進(jìn)行趨勢預(yù)測等。Web內(nèi)容挖掘是數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息處理中的應(yīng)用,不僅能夠處理來自數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù),還能夠處理半結(jié)構(gòu)化數(shù)據(jù)和無結(jié)構(gòu)化的自由文本,還有圖像、圖形、視頻、音頻等多媒體數(shù)據(jù),可以全方位、多角度地對輿情信息內(nèi)容進(jìn)行深入分析。
2. Web結(jié)構(gòu)挖掘
在整個Web 空間中,有用的知識不僅包含在Web 頁面內(nèi)容中,也包含在Web 頁面結(jié)構(gòu)和Web 超鏈接結(jié)構(gòu)中。Web 結(jié)構(gòu)挖掘主要是通過分析Web 組織結(jié)構(gòu)和鏈接關(guān)系,挖掘出潛在的有用的知識,其目的是獲得與主題高度相關(guān)的鏈接以及鏈接邏輯結(jié)構(gòu)的語義知識,這些知識可以幫助輿情監(jiān)管部門從中找到有價值的權(quán)威頁面、中心頁面。Web 結(jié)構(gòu)挖掘應(yīng)用于網(wǎng)絡(luò)輿情分析系統(tǒng)中,能夠幫助輿情監(jiān)管部門獲取與輿情信息發(fā)布者、傳播者以及傳播環(huán)境最相關(guān)的鏈接,可揭示權(quán)威網(wǎng)頁之間的關(guān)聯(lián),揭示蘊(yùn)涵在這些文檔結(jié)構(gòu)信息中的有用模式,有助于從多個維度和層面挖掘輿情信息。
3. Web使用挖掘
Web使用挖掘就是對用戶訪問Web 時在服務(wù)器上留下的訪問記錄進(jìn)行挖掘,獲取用戶訪問Web頁面的模式。由于挖掘的對象是服務(wù)器上的日志信息,因此也稱為Web日志挖掘。這些信息包括網(wǎng)絡(luò)服務(wù)器訪問記錄、代理服務(wù)器日志記錄、瀏覽器日志記錄、用戶簡介、注冊信息、用戶對話或交易信息、用戶提問式等。通過分析和探究Web 日志記錄中的規(guī)律,可以識別用戶的訪問模式和行為偏好,從而預(yù)測其行為。
四、基于WEB挖掘的網(wǎng)絡(luò)輿情分析模型設(shè)計
針對WEB的特點(diǎn),為了迅速準(zhǔn)確了解互聯(lián)網(wǎng)絡(luò)輿情關(guān)注的熱點(diǎn),分析輿情發(fā)展的時間和空間分布,本文提出了一網(wǎng)絡(luò)輿情分析框架模型,如上圖所示。
(一)輿情信息采集模塊
輿情信息采集的主要任務(wù)是選擇性地從輿情傳播的主要載體中對那些與預(yù)定義主題相關(guān)的頁面進(jìn)行自動化、智能化的收集,并進(jìn)行有效的過濾和存儲,為下一步的輿情挖掘與分析提供優(yōu)質(zhì)素材。
本模型采取構(gòu)建包含公眾集合、社會現(xiàn)象(問題)、態(tài)度情緒表象、輿論持續(xù)性、輿論的功能表現(xiàn)、輿論質(zhì)量等多種因素的各個初始網(wǎng)頁集合,實現(xiàn)具有領(lǐng)域詞義的多維時空的分布式多點(diǎn)海量數(shù)據(jù)采集,結(jié)合適用輿情信息的數(shù)據(jù)預(yù)處理方法,利用網(wǎng)格技術(shù)實現(xiàn)數(shù)據(jù)集成,建立針對具體輿情問題的統(tǒng)一的數(shù)據(jù)存儲格式。設(shè)公眾集合、社會現(xiàn)象(問題)、態(tài)度情緒表象、輿論持續(xù)性、輿論的功能表現(xiàn)、輿論質(zhì)量的各個方面權(quán)威集合集分別為Pc、Sp、Em、Cn、Fu、Qu,不同的數(shù)據(jù)存儲分別為SV1、SV2、SV3,利用網(wǎng)格技術(shù)實現(xiàn)數(shù)據(jù)共享,SV1、SV2作為數(shù)據(jù)采集器,SV3為輿情分析系統(tǒng)主機(jī)。數(shù)據(jù)采集子系統(tǒng)數(shù)據(jù)流如下:
(二)輿情信息預(yù)處理模塊
輿情信息預(yù)處理模塊的主要功能是: 對采集到的相關(guān)網(wǎng)頁進(jìn)行去噪處理,如對廣告、注釋等噪聲數(shù)據(jù)進(jìn)行清理,然后用統(tǒng)一的結(jié)構(gòu)化的格式進(jìn)行文本表示,然后利用分詞技術(shù)、特征提取技術(shù)、權(quán)重計算技術(shù)等進(jìn)行特征選擇,構(gòu)建糧食數(shù)據(jù)倉庫,利用分類器實現(xiàn)文本的分類。文本分類技術(shù)是整個預(yù)處理模塊的核心,其步驟描述如下:
步驟1 輿情因素集合Pc、Sp、Em、Cn、Fu、Qu分別用類別集合S= {S1,…Sm…Sn} 表示,分別進(jìn)行去重、去噪處理,并統(tǒng)一轉(zhuǎn)化為XML格式,用分詞系統(tǒng)分詞。
步驟2 計算詞條t在文檔d中的權(quán)重W(t ),并構(gòu)建文檔d的特征矢量V(d ) 表示文本。
V(d )= (t1,Wn(t1) ; t2,Wn(t2) ; …tn,Wn(tn))
步驟3 對于訓(xùn)練階段轉(zhuǎn)到步驟4;對于分類階段轉(zhuǎn)到步驟5。
步驟4 統(tǒng)計S中類別m的所有文檔的特征矢量V(Sm),用特征選函數(shù)F( x) 進(jìn)行特征選擇,確定類別m的特征矢量V( Sm),評價分類結(jié)果,若需優(yōu)化Wn(ti)和F( x),轉(zhuǎn)到步驟2。
步驟5 分類器函數(shù)計算待分類樣本dn的特征矢量V(dn)與每個V( Sm)之間的相似度Sim(dn,sm),選取相似度最大的類別作為dn的類別;對于所有相似度都小于一定閥值的樣本,則視為非輿情主題相關(guān)樣本。
(三)輿情數(shù)據(jù)挖掘模塊
數(shù)據(jù)挖掘模塊主要由語義信息集成和Web挖掘引擎兩部分組成,前者可為后者提供經(jīng)預(yù)處理后的結(jié)構(gòu)化信息,簡化并加速Web 挖掘處理。
1. 語義信息集成由于輿情數(shù)據(jù)采集初始數(shù)據(jù)庫的原始數(shù)據(jù)來自不同的媒介,在結(jié)構(gòu)和語義上都存在較大的差別,需要對其進(jìn)行統(tǒng)一處理,并根據(jù)需要利用自然語言理解等智能信息處理技術(shù)進(jìn)行深層次的預(yù)分析,為提高挖掘引擎的效能和健壯性奠定基礎(chǔ)。借助XML 或Ontology 技術(shù),在本體庫、元數(shù)據(jù)庫、文獻(xiàn)知識庫、語言知識庫等基本知識庫的協(xié)助下進(jìn)行語義抽取、標(biāo)注和描述,可將異構(gòu)數(shù)據(jù)轉(zhuǎn)換成具有統(tǒng)一語法和語義格式的通用數(shù)據(jù)模型,減少挖掘阻力及提高通用性。
2. Web挖掘引擎
Web挖掘引擎是整個輿情分析模型的動力所在,通過定義Web挖掘模型語言,選用合適的挖掘算法和工具,執(zhí)行Web 挖掘任務(wù)。由于Web 挖掘的主要目的在于從大量的網(wǎng)絡(luò)輿情信息中提取出可理解的模式或規(guī)律,預(yù)測事件發(fā)展的趨勢,因此,需要根據(jù)決策的需要和網(wǎng)絡(luò)輿情信息源的特點(diǎn),從多個維度和層面進(jìn)行深層次的挖掘處理。
(四)網(wǎng)絡(luò)輿情統(tǒng)計分析模塊
利用統(tǒng)計學(xué)、模式識別、人工智能以及人工神經(jīng)網(wǎng)絡(luò)等多種數(shù)據(jù)分析模型的融合,利用實現(xiàn)海量網(wǎng)絡(luò)信息輿情分析處理模塊,形成網(wǎng)絡(luò)輿情監(jiān)控和預(yù)警機(jī)制。模塊包含三個方面職能。
第一,通過對輿情專題檢測捕捉熱點(diǎn)、敏感信息,并針對特定的專題主體,如情緒表達(dá)、熱點(diǎn)持續(xù)性、輿論的功能等各個要素跟蹤技術(shù)處理,同時設(shè)計融合各方面因素的分析策略,及時發(fā)現(xiàn)輿情安全隱患,并提供預(yù)警信息。
第二,對特定公共事件的公眾所持觀點(diǎn)和關(guān)注度的分析,掌握事件發(fā)生、發(fā)展和加強(qiáng)的可視化時間序列,開發(fā)基于區(qū)域性輿情的分別匯總,提供實時的空間和時間的網(wǎng)絡(luò)輿情趨勢信息保障,有利于決策者實施適當(dāng)?shù)拇胧?/p>
第三,利用破壞性預(yù)測、分析和預(yù)防的決策系統(tǒng),對多發(fā)性的、社會危害嚴(yán)重的輿情構(gòu)建主動分析、及早預(yù)測和及時預(yù)警的機(jī)制,提供相關(guān)、相近主題的預(yù)防措施經(jīng)驗。同時針對輿情引起的其他方面的問題進(jìn)行關(guān)聯(lián)分析,及時發(fā)現(xiàn)彼此存在的聯(lián)系。
五、結(jié)束語
利用Web挖掘技術(shù)實現(xiàn)對網(wǎng)絡(luò)輿情信息的監(jiān)測,有利于充分挖掘海量的網(wǎng)絡(luò)信息資源,能夠及時發(fā)現(xiàn)輿情熱點(diǎn)事件,為輿情產(chǎn)生的社會影響提供預(yù)警服務(wù)。本文著重分析了當(dāng)前網(wǎng)絡(luò)輿情分析系統(tǒng)的特點(diǎn)和方法,提出了一種解決方案,構(gòu)造了一個較完善的網(wǎng)絡(luò)輿情分析架構(gòu)。通過各種算法的編碼和改進(jìn),達(dá)到了動態(tài)預(yù)警和輔助決策的目的。網(wǎng)絡(luò)輿情信息分析系統(tǒng)是一個復(fù)雜而新穎的研究領(lǐng)域,仍需進(jìn)一步的研究和深化。
基金項目:
本文系甘肅省教育科學(xué)“十二五”規(guī)劃課題“數(shù)據(jù)挖掘網(wǎng)絡(luò)系統(tǒng)的研究”研究成果,課題編號為:GS﹝2013﹞GHB0836 。