微博轉發(fā)是微博網絡中信息得以傳播的基礎,對用戶影響力評估以及網絡營銷等具有重要意義?,F有的方法在考慮影響用戶轉發(fā)行為的因素時,大多只考慮微博以及用戶屬性等特征,沒有考慮用戶興趣和用戶歷史行為規(guī)律等個性化特征,本文提出了基于LDA主題模型的用戶興趣與微博相似度計算方法,將計算結果作為用戶興趣特征,還提出了基于用戶轉發(fā)率、與上游用戶交互頻率的用戶歷史行為特征,最后融合用戶興趣特征、用戶歷史行為特征、上游用戶特征、微博特征,建立基于幾種常見分類模型的預測方法,在真實數據集上的實驗結果表明,該方法能夠有效提升預測準確性,取得較好的預測效果。
【關鍵詞】微博轉發(fā) LDA主題模型 用戶興趣 用戶歷史行為規(guī)律 分類模型
1 引言
微博,作為web2.0的典型應用之一,是近年來興起的信息交流與傳播平臺,表現出非常強勁的發(fā)展勢頭。由于具有龐大的用戶規(guī)模以及便捷快速的消息發(fā)布與傳播方式,微博已發(fā)展成為當前信息傳播與輿論擴散的重要平臺。如何對微博的信息傳播機制進行有效的檢測與管控,增強對熱點事件的預見性,使其能夠更好地服務于社會是當下亟需重視的問題。因此,微博轉發(fā)作為微博信息傳播的重要過程,研究其具有重要意義,現有的研究將用戶轉發(fā)問題看成是二分類問題,但大多沒考慮用戶的興趣和用戶的歷史行為對用戶轉發(fā)行為的影響。
2 問題描述
若給出了用戶的歷史轉發(fā)或不轉發(fā)微博集合,對用戶轉發(fā)行為的預測問題可看成是機器學習中的二分類問題,通過對微博集合進行訓練,可得到用戶轉發(fā)或不轉發(fā)微博的分類結果。
3 融合興趣和行為的用戶轉發(fā)行為預測
3.1 用戶興趣特征
本文通過LDA主題模型去建立用戶的興趣并計算用戶興趣與微博的相似性,再將計算結果作為用戶興趣特征。
3.2 用戶歷史行為特征
用戶的歷史行為包括用戶轉發(fā)活躍度以及用戶與上游用戶的交互強度。
本文按如下方式定義用戶的轉發(fā)活躍度frr:
其中,nrepost表示用戶最近發(fā)布的微博中轉發(fā)微博的數量,npost表示用戶最近發(fā)布所有微博的數量,frr越大說明用戶最近發(fā)表的微博中轉發(fā)微博的比例越高。
本文按如下方式定義用戶的接受用戶與上游用戶之間的交互強度fuv。
其中u表示上游用戶,v表示接受用戶, nv表示一段時間t內接受用戶轉發(fā)微博的次數,nuv表示一段時間t接受用戶轉發(fā)的微博中上游用戶微博的數量。
3.3 上游用戶特征
上游用戶的特征包括上游用戶的粉絲數、注冊年限、上游用戶身份、認證狀態(tài)。
3.4 微博內容特征
微博內容特征包括微博中是否@他人,是否含有主題標簽,微博發(fā)表時間段以及是否含有超鏈接。
4 實驗分析
4.1 實驗數據集
本文基于新浪微博開放平臺提供的API來抓取所需的數據,實驗數據整體分布見表1。
表1:實驗數據集分布
轉發(fā)微博 不轉發(fā)微博 總數
62,966 497,130 560,126
4.2 實驗結果及分析
轉發(fā)行為預測結果如圖1所示,使用不同的分類模型將有不同的預測效果,其中使用邏輯回歸進行預測時準確率達到0.73,召回率達到0.75,F1度量值達到0.75。
為了證明本文考慮的用戶興趣和行為特征的有效性,將結果和Zhang等人的工作進行比較,都使用邏輯回歸模型進行預測,比較結果如表2所示。
表2:預測結果對比
分類方法 準確率 召回率 F1度量值
本文的方法 0.735 0.752 0.752
張的方法 0.708 0.733 0.735
可以看出本文所提出的的方法預測結果更加準確,能夠將準確率提升將近3%,說明本文考慮的用戶興趣和行為特征能夠提高預測準確性。
參考文獻
[1]Xu Z,Yang Q.Analyzing user retweet behavior on Twitter.In:Proc.of the ASONAM 2012.Washington: IEEE Computer Society,2012.46-50.[doi: 10.1109/ASONAM.2012.18]
[2]張旸,路榮,楊青.微博客中轉發(fā)行為的預測研究[J].中文信息學報,2012,26(04):109-114
[3]曹玖新,吳江林,石偉,劉波,鄭嘯,羅軍舟.新浪微博網信息傳播分析與預測[J].計算機學報,2014,37(04):779-790.
[4]Zhang J,Liu B,Tang J,Chen T,et al.Social influence locality for modeling retweeting behaviors[C]//Proceedings of the 23rd International Joint Conference on Artificial Intelligence (IJCAI),2013: 2761-2767.
作者簡介
劉清(1993-),男,江蘇省淮安市人。工學碩士,同濟大學學生。主要研究方向為社交網絡數據挖掘研究。
作者單位
同濟大學 上海市 201800