劉斌
摘要:網(wǎng)絡輿情是網(wǎng)絡上人們對某個問題或現(xiàn)象而發(fā)表言論的一種方式??梢酝ㄟ^對分析網(wǎng)絡輿情提供給政府和企業(yè)的決策者以幫助。但隨著網(wǎng)絡信息的爆炸式增長,傳統(tǒng)的數(shù)據(jù)處理方式已經(jīng)難以勝任網(wǎng)絡輿情分析的工作,需要通過如Hadoop這樣的大數(shù)據(jù)平臺進行處理和分析。Mahout作為Hadoop中高維度、海量、復雜數(shù)據(jù)的處理算法集??梢杂行У靥幚砭W(wǎng)絡輿情的海量數(shù)據(jù)。因此,該文提出了利用TF-Gini提取文本特征和Mahout核心算法進行網(wǎng)絡與情分析方法。
關(guān)鍵詞:大數(shù)據(jù);輿情分析;Hadoop
中圖分類號:G350? ? ? 文獻標識碼:A
文章編號:1009-3044(2020)30-0025-02
1背景
網(wǎng)絡輿情是人們在網(wǎng)絡上對社會現(xiàn)象、問題、熱點話題和觀點等情緒反應。通過對網(wǎng)絡與情的分析,我們可以預測未來將要發(fā)生什么。據(jù)此決策者的正確決策將對政府和企業(yè)提供有力的幫助。隨著網(wǎng)絡信息的爆炸式增長,需要使用Hadoop這種大數(shù)據(jù)處理平臺[1-3]來代替?zhèn)鹘y(tǒng)的輿情分析處理方法。
Hadoop平臺架構(gòu)如圖1所示。Hadoop作為通用的大數(shù)據(jù)處理平臺包含眾多組件,其中最為重要的如表1所示。這些組件可以高效處理大數(shù)據(jù)中的需要解決的幾乎所有問題。
多數(shù)情況下,網(wǎng)絡與情數(shù)據(jù)是由海量的文本消息組成,傳統(tǒng)的算法難以處理如此高維度和海量的數(shù)據(jù)集。Mahout(圖2所示)[4]是作為基于Hadoop的挖掘大規(guī)模和復雜數(shù)據(jù)的算法集,可以被用于進行網(wǎng)絡輿情數(shù)據(jù)挖掘。數(shù)據(jù)集中的文本特征的提取也是與情分析的重要部分。TF-Gini[5]文本特征提取算法在處理短消息等小文本上具有很好的表現(xiàn)。因此本文提出了利用TF-Gini提取文本特征和Mahout核心算法進行文本挖掘網(wǎng)絡與情數(shù)據(jù)分析方法。
2 系統(tǒng)架構(gòu)
根據(jù)傳統(tǒng)的網(wǎng)絡輿情分析系統(tǒng)(如圖3所示)結(jié)合大數(shù)據(jù)處理的方法,本文設計的數(shù)據(jù)網(wǎng)絡輿情分析系統(tǒng)分為三個階段,分別為系統(tǒng)準備階段、系統(tǒng)處理階段和系統(tǒng)分析階段(如圖表2所示)。系統(tǒng)整體結(jié)構(gòu)如圖4所示。
(1)對已有的輿論數(shù)據(jù)集進行分類和聚類分析得到該主題的關(guān)鍵詞詞典;
(2)根據(jù)關(guān)鍵詞詞典在微博、微信、qq、twitter和facebook等社交媒體抓取消息;
(3)將所有得到的消息分類保存到文檔集中。 處理階段 (1)對html和其他格式消息轉(zhuǎn)化為文本格式;
(2)使用TF-Gini算法選取詞語特征保存到文本庫中;
(3)使用Hadoop Mahout的文本挖掘算法處理文本庫中的數(shù)據(jù),將挖掘的結(jié)果保存在文本特征庫中。這是系統(tǒng)最重要的部分。 分析階段 (1)從文本特征庫中生成可視化分析結(jié)果;
(2)根據(jù)可視化分析結(jié)果生出輿情分析報告;
(3)根據(jù)輿情分析報告,決策者可以對未來做出決策。 ]
本文的大數(shù)據(jù)網(wǎng)絡與情分析系統(tǒng)主要使用TF-Gini的文本特征提取算法和Hadoop Mahout文本挖掘算法。其余部分使用如NLTK、Wordnet、HowNet等開源軟件實現(xiàn)。
3 系統(tǒng)核心算法
本文大數(shù)據(jù)的與情分析系統(tǒng)的核心算法主要是TF-Gini的文本特征提取算法,Hadoop Mahout聚類、分類和模式識別算法。
3.1 文本特征提取算法
本文使用TF-Gini算法來來提取文本特征信息,實現(xiàn)大數(shù)據(jù)網(wǎng)絡輿情分析系統(tǒng)。TF-Gini是經(jīng)典的分類特征權(quán)重計算方法TFIDF的改進算法。用以解決TF-IDF不適合短文本分類的問題。TF-IDF計算公式如下:
3.2 Mahout聚類算法
3.2.1 K-Means聚類算法
作為廣泛使用的聚類算法K-Means算法[6]的思想是:隨機選擇K個對象,表示集群中心。其余的對象根據(jù)其與每個群集中心的距離,劃分為最小的距離群集中心,而后重新計算每個群中心。以此重復,直到聚類函數(shù)收斂。聚類收斂標準函數(shù)有兩種形式:
4結(jié)束語
網(wǎng)絡輿情分析在網(wǎng)絡社會中發(fā)揮著重要作用。人們通過互聯(lián)網(wǎng)表達自己觀點。隨著互聯(lián)網(wǎng)大數(shù)據(jù)時代的到來,傳統(tǒng)的輿情分析方法已經(jīng)不再適用。需要使用大數(shù)據(jù)方法來進行輿情分析。本文提出了利用TF-Gini提取文本特征和Mahout核心算法進行網(wǎng)絡與情數(shù)據(jù)的文本挖掘方法。該方法可以解決海量網(wǎng)絡輿情數(shù)據(jù)處理問題。但該方法并不適用于非文本數(shù)據(jù),這也是未來研究的方向。
參考文獻:
[1] 黃曉斌,趙超.文本挖掘在網(wǎng)絡輿情信息分析中的應用[J].情報科學,2009,27(1):94-99.
[2] TaoT.Research on method of internet public opinion analysis based on big data[J].Journal of Modern Information,2014,4,34(3):3-6.
[3] Broniatowski D A,Paul M J,Dredze M.Twitter:big data opportunities[J].Science,2014,345(6193):148.
[4] Owen S,Anil R,Dunning T,et al.Mahout in Action[M]Manning Publications,2011
[5] 任國鋒,李德華,潘瑩.一種改進的基尼指數(shù)特征權(quán)重算法[J].計算機與數(shù)字工程,2010,38(12):8-13.
[6] WuX,KumarV,QuinlanJ R,et al.Top 10 algorithms in data mining[J].Knowledge and Information Systems,2007,14(1):1-37.
[7] Ng A Y,Jordan M I,Weiss Y.On Spectral Clustering: Analysis and an algorithm[C]//Advances in Neural Information Processing Systems 14,2001:849-856.
[8] 趙慶.基于Hadoop平臺下的Canopy-Kmeans高效算法[J].電子科技,2014,27(2):29-31.
[9] McCallumA,NigamK.A Comparison of Event Models for Naive Bayes Text Classification[C].Proceedings in Workshop on Learning for Text Categorization, AAAI98,1998:41-48.
[10] Agrawal R,Imielinski T,Swami A N.Mining association rules between sets of items in large databases[C]//Proceedings of the 1993 ACM SIGMOD international conference on Management of data,1993,22:207-216.
[11] Mahout之聚類Canopy分析[EB/OL].(2011-10-24)[2020-03-16].https://blog.csdn.net/yclzh0522/article/details/6839643.
[12] 趙晨婷,馬春娥.探索推薦引擎內(nèi)部的秘密(第3部分):深入推薦引擎相關(guān)算法-聚類[EB/OL].(2011-03-24)[2020-04-13].https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy3/.
【通聯(lián)編輯:謝媛媛】