• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于大數(shù)據(jù)的網(wǎng)絡輿情分析方法研究

    2020-12-29 11:56:42劉斌
    電腦知識與技術(shù) 2020年30期
    關(guān)鍵詞:大數(shù)據(jù)

    劉斌

    摘要:網(wǎng)絡輿情是網(wǎng)絡上人們對某個問題或現(xiàn)象而發(fā)表言論的一種方式??梢酝ㄟ^對分析網(wǎng)絡輿情提供給政府和企業(yè)的決策者以幫助。但隨著網(wǎng)絡信息的爆炸式增長,傳統(tǒng)的數(shù)據(jù)處理方式已經(jīng)難以勝任網(wǎng)絡輿情分析的工作,需要通過如Hadoop這樣的大數(shù)據(jù)平臺進行處理和分析。Mahout作為Hadoop中高維度、海量、復雜數(shù)據(jù)的處理算法集??梢杂行У靥幚砭W(wǎng)絡輿情的海量數(shù)據(jù)。因此,該文提出了利用TF-Gini提取文本特征和Mahout核心算法進行網(wǎng)絡與情分析方法。

    關(guān)鍵詞:大數(shù)據(jù);輿情分析;Hadoop

    中圖分類號:G350? ? ? 文獻標識碼:A

    文章編號:1009-3044(2020)30-0025-02

    1背景

    網(wǎng)絡輿情是人們在網(wǎng)絡上對社會現(xiàn)象、問題、熱點話題和觀點等情緒反應。通過對網(wǎng)絡與情的分析,我們可以預測未來將要發(fā)生什么。據(jù)此決策者的正確決策將對政府和企業(yè)提供有力的幫助。隨著網(wǎng)絡信息的爆炸式增長,需要使用Hadoop這種大數(shù)據(jù)處理平臺[1-3]來代替?zhèn)鹘y(tǒng)的輿情分析處理方法。

    Hadoop平臺架構(gòu)如圖1所示。Hadoop作為通用的大數(shù)據(jù)處理平臺包含眾多組件,其中最為重要的如表1所示。這些組件可以高效處理大數(shù)據(jù)中的需要解決的幾乎所有問題。

    多數(shù)情況下,網(wǎng)絡與情數(shù)據(jù)是由海量的文本消息組成,傳統(tǒng)的算法難以處理如此高維度和海量的數(shù)據(jù)集。Mahout(圖2所示)[4]是作為基于Hadoop的挖掘大規(guī)模和復雜數(shù)據(jù)的算法集,可以被用于進行網(wǎng)絡輿情數(shù)據(jù)挖掘。數(shù)據(jù)集中的文本特征的提取也是與情分析的重要部分。TF-Gini[5]文本特征提取算法在處理短消息等小文本上具有很好的表現(xiàn)。因此本文提出了利用TF-Gini提取文本特征和Mahout核心算法進行文本挖掘網(wǎng)絡與情數(shù)據(jù)分析方法。

    2 系統(tǒng)架構(gòu)

    根據(jù)傳統(tǒng)的網(wǎng)絡輿情分析系統(tǒng)(如圖3所示)結(jié)合大數(shù)據(jù)處理的方法,本文設計的數(shù)據(jù)網(wǎng)絡輿情分析系統(tǒng)分為三個階段,分別為系統(tǒng)準備階段、系統(tǒng)處理階段和系統(tǒng)分析階段(如圖表2所示)。系統(tǒng)整體結(jié)構(gòu)如圖4所示。

    (1)對已有的輿論數(shù)據(jù)集進行分類和聚類分析得到該主題的關(guān)鍵詞詞典;

    (2)根據(jù)關(guān)鍵詞詞典在微博、微信、qq、twitter和facebook等社交媒體抓取消息;

    (3)將所有得到的消息分類保存到文檔集中。 處理階段 (1)對html和其他格式消息轉(zhuǎn)化為文本格式;

    (2)使用TF-Gini算法選取詞語特征保存到文本庫中;

    (3)使用Hadoop Mahout的文本挖掘算法處理文本庫中的數(shù)據(jù),將挖掘的結(jié)果保存在文本特征庫中。這是系統(tǒng)最重要的部分。 分析階段 (1)從文本特征庫中生成可視化分析結(jié)果;

    (2)根據(jù)可視化分析結(jié)果生出輿情分析報告;

    (3)根據(jù)輿情分析報告,決策者可以對未來做出決策。 ]

    本文的大數(shù)據(jù)網(wǎng)絡與情分析系統(tǒng)主要使用TF-Gini的文本特征提取算法和Hadoop Mahout文本挖掘算法。其余部分使用如NLTK、Wordnet、HowNet等開源軟件實現(xiàn)。

    3 系統(tǒng)核心算法

    本文大數(shù)據(jù)的與情分析系統(tǒng)的核心算法主要是TF-Gini的文本特征提取算法,Hadoop Mahout聚類、分類和模式識別算法。

    3.1 文本特征提取算法

    本文使用TF-Gini算法來來提取文本特征信息,實現(xiàn)大數(shù)據(jù)網(wǎng)絡輿情分析系統(tǒng)。TF-Gini是經(jīng)典的分類特征權(quán)重計算方法TFIDF的改進算法。用以解決TF-IDF不適合短文本分類的問題。TF-IDF計算公式如下:

    3.2 Mahout聚類算法

    3.2.1 K-Means聚類算法

    作為廣泛使用的聚類算法K-Means算法[6]的思想是:隨機選擇K個對象,表示集群中心。其余的對象根據(jù)其與每個群集中心的距離,劃分為最小的距離群集中心,而后重新計算每個群中心。以此重復,直到聚類函數(shù)收斂。聚類收斂標準函數(shù)有兩種形式:

    4結(jié)束語

    網(wǎng)絡輿情分析在網(wǎng)絡社會中發(fā)揮著重要作用。人們通過互聯(lián)網(wǎng)表達自己觀點。隨著互聯(lián)網(wǎng)大數(shù)據(jù)時代的到來,傳統(tǒng)的輿情分析方法已經(jīng)不再適用。需要使用大數(shù)據(jù)方法來進行輿情分析。本文提出了利用TF-Gini提取文本特征和Mahout核心算法進行網(wǎng)絡與情數(shù)據(jù)的文本挖掘方法。該方法可以解決海量網(wǎng)絡輿情數(shù)據(jù)處理問題。但該方法并不適用于非文本數(shù)據(jù),這也是未來研究的方向。

    參考文獻:

    [1] 黃曉斌,趙超.文本挖掘在網(wǎng)絡輿情信息分析中的應用[J].情報科學,2009,27(1):94-99.

    [2] TaoT.Research on method of internet public opinion analysis based on big data[J].Journal of Modern Information,2014,4,34(3):3-6.

    [3] Broniatowski D A,Paul M J,Dredze M.Twitter:big data opportunities[J].Science,2014,345(6193):148.

    [4] Owen S,Anil R,Dunning T,et al.Mahout in Action[M]Manning Publications,2011

    [5] 任國鋒,李德華,潘瑩.一種改進的基尼指數(shù)特征權(quán)重算法[J].計算機與數(shù)字工程,2010,38(12):8-13.

    [6] WuX,KumarV,QuinlanJ R,et al.Top 10 algorithms in data mining[J].Knowledge and Information Systems,2007,14(1):1-37.

    [7] Ng A Y,Jordan M I,Weiss Y.On Spectral Clustering: Analysis and an algorithm[C]//Advances in Neural Information Processing Systems 14,2001:849-856.

    [8] 趙慶.基于Hadoop平臺下的Canopy-Kmeans高效算法[J].電子科技,2014,27(2):29-31.

    [9] McCallumA,NigamK.A Comparison of Event Models for Naive Bayes Text Classification[C].Proceedings in Workshop on Learning for Text Categorization, AAAI98,1998:41-48.

    [10] Agrawal R,Imielinski T,Swami A N.Mining association rules between sets of items in large databases[C]//Proceedings of the 1993 ACM SIGMOD international conference on Management of data,1993,22:207-216.

    [11] Mahout之聚類Canopy分析[EB/OL].(2011-10-24)[2020-03-16].https://blog.csdn.net/yclzh0522/article/details/6839643.

    [12] 趙晨婷,馬春娥.探索推薦引擎內(nèi)部的秘密(第3部分):深入推薦引擎相關(guān)算法-聚類[EB/OL].(2011-03-24)[2020-04-13].https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy3/.

    【通聯(lián)編輯:謝媛媛】

    猜你喜歡
    大數(shù)據(jù)
    大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
    新聞世界(2016年10期)2016-10-11 20:13:53
    基于大數(shù)據(jù)背景下的智慧城市建設研究
    科技視界(2016年20期)2016-09-29 10:53:22
    數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務能力的探索
    中國記者(2016年6期)2016-08-26 12:36:20
    平阴县| 克山县| 独山县| 容城县| 新宾| 花莲市| 长顺县| 肥乡县| 安宁市| 汉寿县| 行唐县| 津市市| 德清县| 英山县| 沈丘县| 金寨县| 道真| 遂溪县| 敦煌市| 宜宾市| 会同县| 福贡县| 图木舒克市| 平果县| 清河县| 焦作市| 易门县| 深圳市| 休宁县| 吴忠市| 无为县| 桂阳县| 三门峡市| 竹山县| 平安县| 望都县| 监利县| 阳泉市| 徐水县| 册亨县| 泰顺县|