• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      微博集群行為輿情感知大數(shù)據(jù)挖掘機制研究

      2016-06-25 03:43:26劉海鷗燕山大學(xué)經(jīng)濟(jì)管理學(xué)院燕山大學(xué)互聯(lián)網(wǎng)與產(chǎn)業(yè)發(fā)展研究中心河北秦皇島
      合作經(jīng)濟(jì)與科技 2016年10期

      □文/劉海鷗(1.燕山大學(xué)經(jīng)濟(jì)管理學(xué)院;2.燕山大學(xué)互聯(lián)網(wǎng)+與產(chǎn)業(yè)發(fā)展研究中心 河北·秦皇島)

      ?

      微博集群行為輿情感知大數(shù)據(jù)挖掘機制研究

      □文/劉海鷗1,2
      (1.燕山大學(xué)經(jīng)濟(jì)管理學(xué)院;2.燕山大學(xué)互聯(lián)網(wǎng)+與產(chǎn)業(yè)發(fā)展研究中心河北·秦皇島)

      [提要]海量微博集群行為大數(shù)據(jù)環(huán)境下,如何感知微博用戶的情緒變化,如何掌握微博集群行為輿情預(yù)警方法,成為維護(hù)社會穩(wěn)定和政府執(zhí)政安全的重要議題。本文提出基于輿情語義感知的微博集群行為大數(shù)據(jù)挖掘方法,通過計算微博輿情語義傾向相似程度,基于大數(shù)據(jù)并行挖掘技術(shù)進(jìn)行輿情分析。

      關(guān)鍵詞:微博集群行為;大數(shù)據(jù)挖掘;輿情語義感知

      收錄日期:2016年3月21日

      一、引言

      當(dāng)前,異軍突起的新媒體——微博逐步成為最具影響力的信息分享社交平臺,由此帶來的微博評論與微博轉(zhuǎn)發(fā)等行為也衍生出海量的數(shù)據(jù)信息。國內(nèi)外學(xué)者據(jù)此對微博輿情進(jìn)行研究,如Saki.Knafo強調(diào)美國總統(tǒng)競選中奧巴馬對twitter的使用,Mili論證了微博影響危機信息傳播的程度,任立肖等提出的輿情預(yù)警系統(tǒng)Web數(shù)據(jù)挖掘技術(shù),朱曉峰等探討微博輿情監(jiān)測K-Means聚類算法。上述模型與方法對發(fā)現(xiàn)微博熱點話題、跟蹤事件動態(tài)、預(yù)警危機事件都具有重大意義。但當(dāng)前研究多利用文本挖掘來實現(xiàn)網(wǎng)絡(luò)輿情的預(yù)警,而在海量網(wǎng)絡(luò)數(shù)據(jù)處理中采用并行計算與分布式處理技術(shù),同時輔以基于大數(shù)據(jù)態(tài)勢決策分析對網(wǎng)絡(luò)突發(fā)事件進(jìn)行跟蹤與監(jiān)督的研究很少。面對微博大數(shù)據(jù)與日俱增的語義文本,采用傳統(tǒng)的機器學(xué)習(xí)方法難以對上述文本內(nèi)容的語義關(guān)系與輿情傾向進(jìn)行深度挖掘,該問題也成為當(dāng)前輿情挖掘研究的熱點問題。在輿情的傾向性挖掘方面,基于輿情語義上下文的挖掘方法得到了較為廣泛的應(yīng)用。本文在輿情挖掘過程中引入了微博輿情語義感知方法,充分考慮微博文本輿情語義上下文分析的模式特點,同時借助Hadoop并行算法提升了微博集群行為大數(shù)據(jù)環(huán)境下的并行挖掘性能,取得了較好的實驗測試效果。

      二、方法描述

      本文首先對基于輿情語義感知的微博集群行為大數(shù)據(jù)挖掘方法進(jìn)行細(xì)致描述。在微博輿情挖掘系統(tǒng)中,假設(shè)存在微博用戶組M、輿情信息S、微博輿情語義信息Context以及微博用戶間的信任關(guān)系TU,采用協(xié)同挖掘方法計算目標(biāo)用戶ui對輿情信息Sj的傾向,然后按計算結(jié)果的高低進(jìn)行排列,挖掘出傾向得分高的輿情信息,基于輿情語義感知的微博集群行為大數(shù)據(jù)挖掘主要包括如下幾個步驟:

      (一)輿情語義表示。假設(shè)微博用戶的情境信息存在用戶發(fā)布微博的位置L、發(fā)布時間T等n種不同類型的情境信息,本文記為Contexty=(C1,C2,…Cn),向量Ck(k=1,2,…n)則表示微博用戶的某種具體情境,則存在:ItemRatingContext=(Item,Context1,Context2,…Contextn)。設(shè)某微博用戶的兩種不同情境向量為Contextx、Contexty,則可將用戶上述兩種情境的相似程度表示為Sim(Contextx,Contexty),即表示該用戶在發(fā)表某微博時Contextx和Contexty的情境相似程度,記為:

      (二)輿情語義感知。獲取微博用戶情境信息,建立用戶-輿情傾向矩陣RSM×N,該矩陣RSM×N表示微博用戶User對輿情Item的傾向,通過向量公式表示為:

      根據(jù)Pearson法計算微博用戶與其他用戶的輿情語義相似程度,具體方法為:

      式中,sim(ui,uj)表示微博用戶ui與微博用戶uj的輿情語義相似度。

      (三)微博輿情挖掘。按照輿情語義協(xié)同挖掘的步驟,采用Pearson相似性度量公式sim(ui,uj)挖掘出輿情語義相似度最大的M條微博輿情信息,然后對用戶發(fā)布的微博信息與具有相似輿情語義的其他微博信息進(jìn)行加權(quán),得出最終的輿情語義傾向評分:

      根據(jù)計算的微博輿情傾向評分的高低對微博輿情信息進(jìn)行排名,當(dāng)微博用戶的輿情語義與已進(jìn)行微博輿情傾向評分用戶的輿情語義相似度Simi(ItemContext,ItemRatingContext)最為接近時,則說明該輿情傾向為本次挖掘的最佳結(jié)果。

      (四)Mapreduce化的大數(shù)據(jù)并行挖掘機制。為提高對微博集群行為大數(shù)據(jù)的挖掘性能,本文通過在Hadoop云環(huán)境來對微博集群行為大數(shù)據(jù)進(jìn)行MapReduce化的并行挖掘,具體步驟主要包括:Step1:將輸入MapReduce的微博集群行為大數(shù)據(jù)文件分解為N個任務(wù);Step2:通過主控程序Master將N個微博集群行為大數(shù)據(jù)處理任務(wù)分配到MapReduce空閑的Worker節(jié)點;Step3:對每一個Map的微博集群行為大數(shù)據(jù)處理任務(wù)進(jìn)行數(shù)據(jù)預(yù)處理,通過Map函數(shù)接收處理后的關(guān)鍵關(guān)鍵字Key;Step4:通過Map函數(shù)存儲計算得出的中間結(jié)果,使用主機程序Master定時將信息傳遞到Reduce子任務(wù)節(jié)點;Step5:得到Master處理任務(wù)后,執(zhí)行Reduce子任務(wù)的節(jié)點通過遠(yuǎn)程程序讀取Map上的緩沖數(shù)據(jù),通過Reduce函數(shù)輸出關(guān)鍵字Key和相對應(yīng)的計算結(jié)果集合;Step6:為用戶輸出R個計算完成的Map和Reduce輿情大數(shù)據(jù)處理結(jié)果,并進(jìn)行信息整合。

      三、方法驗證

      為對本文基于輿情語義感知的微博集群行為大數(shù)據(jù)挖掘方法進(jìn)行驗證,本文將實驗的MapReduce環(huán)境搭建在具有9臺服務(wù)器的Hadoop平臺上,其中安裝系統(tǒng)軟件的服務(wù)器為NameNode(Lenovo服務(wù)器,4G內(nèi)存,IT硬盤,2.8G主頻,命名為Hadoop),其余8臺服務(wù)器為DataNode,命名為hadoop1,hadoop2,…h(huán)adoop8,采用redhat5.5-x64安裝VMware虛擬機的Linux系統(tǒng),使用Hadoop-0.21.0版本。實驗的輿情數(shù)據(jù)集為中國移動應(yīng)用商城抓取到的上百種最常被下載和評論的移動服務(wù)數(shù)據(jù)集,同時選取了200多位微博用戶進(jìn)行測試,基于上述用戶發(fā)表微博的服務(wù)評論信息構(gòu)建一個移動社會化網(wǎng)絡(luò),通過對其1個多月時間的評論信息收集,共獲得了4,000多條關(guān)于中國移動應(yīng)用商城移動應(yīng)用服務(wù)的評語,如能夠體現(xiàn)微博用戶對移動應(yīng)用服務(wù)正向輿情傾向值的輿情語義詞包括:“服務(wù)周到、服務(wù)溫馨、舒適方便、貼心親切、擺設(shè)整潔、服務(wù)熱情、設(shè)備齊全、網(wǎng)速不錯、性價比高”等,而“差評、環(huán)境惡劣、臟亂差、網(wǎng)速捉雞、失望、手續(xù)繁瑣、不爽、大呼上當(dāng)”等則為反向的輿情語義傾向詞。實驗對傳統(tǒng)的協(xié)同挖掘方法、傳統(tǒng)的上下文挖掘方法以及本文挖掘方法的處理性能進(jìn)行了比較。通過比較可以看出,本文實驗條件下,傳統(tǒng)的協(xié)同挖掘方法很難在較大程度上減小挖掘誤差,而傳統(tǒng)的上下文挖掘方法與本文提出的基于輿情語義感知的挖掘方法得出的MAE值與傳統(tǒng)協(xié)同挖掘方法相比有所下降,這表明在微博輿情挖掘過程中引入上下文與輿情語義可以取得更為理想的挖掘效果;而從輿情挖掘的覆蓋率指標(biāo)Coverage來看,本文方法對輿情信息的覆蓋范圍顯著高于傳統(tǒng)的協(xié)同挖掘與傳統(tǒng)的上下文挖掘方法,導(dǎo)致這一結(jié)果的原因是因為基于輿情語義感知的輿情挖掘方法通過加權(quán)計算用戶發(fā)表微博信息的情境相似性來進(jìn)一步強化目標(biāo)用戶輿情傾向與輿情挖掘結(jié)果的相似性。由此可見,云環(huán)境下基于輿情語義感知的微博集群行為大數(shù)據(jù)挖掘方法顯著提升了并行挖掘速度以及對輿情信息的覆蓋率,降低了挖掘誤差,在較大程度上提升了對微博大數(shù)據(jù)輿情傾向挖掘的深度,因此是一種非常有效的應(yīng)對微博輿情的大數(shù)據(jù)挖掘方法。

      主要參考文獻(xiàn):

      [1]Saki Knafo.NDAA Trends On Twi t t er Duri ng The Debat e[N]. The Huffi ngt on Post,2012. 10. 23. 9.

      [2]Mil l A,Che,R Lee.Web 2. 0 Emergency Appl i cat i ons:HowUseful Can Twit t er Be for Emergency Response[J]. Journal of Informat i on Pri vacy Securi t y,2009. 3.

      [3]任立肖,張亮.食品安全突發(fā)事件網(wǎng)絡(luò)輿情的分析模型[J].圖書館學(xué)研究,2014. 1.

      基金項目:河北省社會科學(xué)基金項目(編號:HB15GL016、HB15GL009);河北省教育廳自然科學(xué)基金(編號:QN2015248);燕山大學(xué)自主研究項目(編號:14SKB002)

      中圖分類號:TP393

      文獻(xiàn)標(biāo)識碼:A

      兴国县| 曲阳县| 黎川县| 石屏县| 浦东新区| 平昌县| 广昌县| 璧山县| 澎湖县| 东阳市| 电白县| 新野县| 九龙县| 册亨县| 弥渡县| 姚安县| 万源市| 松江区| 沙洋县| 灵山县| 曲周县| 利川市| 柘荣县| 青田县| 阜新市| 宜州市| 大同市| 同德县| 韩城市| 蒙自县| 新安县| 大足县| 襄汾县| 镇雄县| 宾阳县| 渝中区| 福泉市| 潼南县| 平谷区| 简阳市| 乌兰县|