王志峰 , 馮錫煒, 賈 強(qiáng), 朱 睿, 秦 航
(1.遼寧石油化工大學(xué) 計算機(jī)與通信工程學(xué)院, 遼寧 撫順 113001;2.遼寧省撫順市望花區(qū)教師進(jìn)修學(xué)校, 遼寧 撫順 113001)
多特征神經(jīng)網(wǎng)絡(luò)微博轉(zhuǎn)發(fā)預(yù)測
王志峰1, 馮錫煒1, 賈 強(qiáng)1, 朱 睿1, 秦 航2
(1.遼寧石油化工大學(xué) 計算機(jī)與通信工程學(xué)院, 遼寧 撫順 113001;2.遼寧省撫順市望花區(qū)教師進(jìn)修學(xué)校, 遼寧 撫順 113001)
隨著社交網(wǎng)絡(luò)的快速發(fā)展,微博已成為一種信息擴(kuò)散傳播的平臺。鑒于微博信息擴(kuò)散的特點,挖掘微博轉(zhuǎn)發(fā)過程中的潛在規(guī)律對于輿情監(jiān)控、熱點話題追蹤、產(chǎn)品營銷等有著重要意義。以新浪微博作為數(shù)據(jù)源,以用戶和微博內(nèi)容作為特征源,引入機(jī)器學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)預(yù)測算法建立預(yù)測模型,實現(xiàn)對微博的轉(zhuǎn)發(fā)預(yù)測。結(jié)果表明,與傳統(tǒng)預(yù)測方法的對比,對微博轉(zhuǎn)發(fā)可以做出較高準(zhǔn)確率的預(yù)測。
神經(jīng)網(wǎng)絡(luò); BP算法; LDA; 預(yù)測建模
近年來,微博作為一種實時信息分享平臺,越來越得到人們的認(rèn)可。摩根士丹利針對微博發(fā)布的一項預(yù)測報告顯示,在2017年內(nèi),微博的月活用戶將達(dá)4億。隨之而來的,越來越多的學(xué)者、機(jī)構(gòu)加入到微博用戶、內(nèi)容的研究隊伍當(dāng)中。通過對微博的分析挖掘,能夠?qū)Ξa(chǎn)品的營銷、熱點話題追蹤、個性化推薦、網(wǎng)絡(luò)輿情引導(dǎo)等提供技術(shù)支持。
分析研究微博用戶、微博用戶網(wǎng)絡(luò)結(jié)構(gòu)、微博內(nèi)容對微博轉(zhuǎn)發(fā)情況以及轉(zhuǎn)發(fā)規(guī)模的預(yù)測。曹玖新等[1]提出基于用戶屬性、社交關(guān)系和微博內(nèi)容5類綜合特征,使用機(jī)器學(xué)習(xí)的分類方法,對給定微博用戶轉(zhuǎn)發(fā)行為進(jìn)行預(yù)測;張旸等[2]以Twitter為例,通過對微博不同特征的重要性進(jìn)行分析,提出了基于特征加權(quán)的預(yù)測模型;李英樂等[3]在分析影響用戶轉(zhuǎn)發(fā)行為因素的基礎(chǔ)上,提出了基于SVM算法的利用用戶影響力、用戶活躍度、興趣相似度、微博內(nèi)容重要性和用戶親密程度5項特征進(jìn)行轉(zhuǎn)發(fā)行為預(yù)測的模型;S.Petrovic等[4]從社會因素和微博內(nèi)容基礎(chǔ)上提出了基于Passive-aggressive算法的人工實驗方法并以此來預(yù)測微博傳播;謝婧等[5]基于貝葉斯算法選取合適的用戶特征預(yù)測微博的轉(zhuǎn)發(fā)概率;吳凱等[6]從發(fā)布用戶、接收用戶、微博內(nèi)容3個維度進(jìn)行用戶特征提取,將處理后的特征輸入到邏輯回歸算法當(dāng)中,實現(xiàn)對微博轉(zhuǎn)發(fā)概率的預(yù)測輸出;D.M.Blei等[7]提出基于興趣相似程度、社會關(guān)系影響、文本特征與用戶屬性影響、用戶受激活次數(shù)的影響4種指標(biāo)的一種行為預(yù)測的信息傳播模型。
神經(jīng)網(wǎng)絡(luò)在函數(shù)逼近以及算法擬合方面有著相當(dāng)?shù)膬?yōu)勢,考慮到微博結(jié)構(gòu)以及微博特征與轉(zhuǎn)發(fā)之間的非線性關(guān)系,用BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)[7]作為預(yù)測模型。從發(fā)布用戶、轉(zhuǎn)發(fā)用戶、微博文本與用戶興趣相似度3個方面切入做特征提取,輸入預(yù)測模型,得出微博轉(zhuǎn)發(fā)概率。
分析微博網(wǎng)頁結(jié)構(gòu),選取種子用戶后,以該用戶為根節(jié)點,按廣度優(yōu)先的順序?qū)⒃撚脩舻姆劢z群以及該用戶的關(guān)注列表加入到待爬取隊列,抓取一定時間段內(nèi)的數(shù)據(jù),最后將爬取數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)。
要想讓用戶對一篇微博產(chǎn)生興趣,繼而發(fā)生轉(zhuǎn)發(fā)行為,那么微博得盡可能地符合用戶的興趣口味。通過接收用戶以前的微博來生成接收用戶的興趣特征,計算用戶興趣特征與微博特征相似度。
從爬取到的數(shù)據(jù)中提取出接收用戶的微博記錄M={m1,m2,…,mn},考慮到微博短文本的特性,將M整合成一篇大文本,預(yù)處理之后,通過LDA(Latent Dirichlet Allocation)[8-9]方法,提取出接收用戶的特征向量V={c1,c2,…,cm},用同樣的方法提取出微博的特征T={w1,w2,…,ws},兩者之間的興趣相似度S的計算公式為:
(1)
(2)
用戶之間的親密度I,反映用戶之間的交互頻繁程度,按公式(3)計算:
(3)
式中,cuv、cvu表示用戶u、v之間相互評論數(shù);ruv、rvu表示用戶u、v之間的相互轉(zhuǎn)發(fā)數(shù);suv、svu表示用戶u、v之間的相互點贊數(shù)。
用戶的重要程度P(ui)表示一種認(rèn)可程度,按式(4)PageRank算法[10]計算。
(4)
式中,F(xiàn)(ui)為用戶ui的粉絲集合;L(vj)為用戶vj的粉絲數(shù)量;d為阻尼系數(shù),d=0.85。微博用戶的認(rèn)證與否都被納入用戶特征當(dāng)中。
從微博內(nèi)容看,是否包含視頻、圖片、URL,是否@他人,以及是否包含主題(#主題#)均影響到微博的轉(zhuǎn)發(fā),預(yù)測模型將以上5個特征納入微博特征當(dāng)中。從用戶、微博內(nèi)容的角度切入,提取用戶重要程度、用戶間的親密度、用戶活躍度、是否認(rèn)證、興趣相似度、@他人的次數(shù)、包含主題的個數(shù)、是否包含URL、是否包含視頻9大特征作為模型的輸入。
三層的神經(jīng)網(wǎng)絡(luò)可以實現(xiàn)任意的非線性逼近,使用BP神經(jīng)網(wǎng)絡(luò)[11-13]作為轉(zhuǎn)發(fā)預(yù)測模型,來預(yù)測微博的轉(zhuǎn)發(fā)情況。微博轉(zhuǎn)發(fā)預(yù)測網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,文中箭頭所示方向為信號傳播方向。
圖1 微博轉(zhuǎn)發(fā)預(yù)測網(wǎng)絡(luò)結(jié)構(gòu)
輸入層神經(jīng)元的個數(shù)由輸入特征向量的維度決定;網(wǎng)絡(luò)性能受隱含層神經(jīng)元的數(shù)量的影響,過多會導(dǎo)致訓(xùn)練時間太長,甚至出現(xiàn)過擬合的情況,過少使得結(jié)果不收斂或者收斂太慢[14-15],用公式(5)確定隱含層神經(jīng)元的數(shù)量;由于輸出層只有1個輸出,因此輸出層只有1個神經(jīng)元。
(5)
式中,h為隱含層神經(jīng)元數(shù)量;n為輸入層神經(jīng)元數(shù)量;m為輸出層神經(jīng)元數(shù)量;α為調(diào)節(jié)常數(shù),α∈1,10。實驗得隱含層神經(jīng)元最佳個數(shù)為10個。
(6)
(7)
(8)
(9)
為了模型訓(xùn)練更高效,對特征向量的每一個維度,按公式(10)進(jìn)行了歸一化處理。
(10)
對所有爬取到的用戶數(shù)據(jù)、微博數(shù)據(jù)按照上面所示的特征提取方法進(jìn)行特征提取,興趣相似度S、用戶活躍度Ar、用戶親密度I、用戶的影響力P(ui)、是否包含視頻、是否包含圖片、是否包含URL、是否@他人,以及包含話題的數(shù)量共9個特征。為了提高模型精度,同時為了減少模型的訓(xùn)練時間,對提取到的特征按照式(10)進(jìn)行了歸一化處理,預(yù)測模型輸出的轉(zhuǎn)發(fā)預(yù)測混淆矩陣如表1所示。
表1 轉(zhuǎn)發(fā)預(yù)測混淆矩陣
通過混淆矩陣,可以得出預(yù)測模型的3個評價指標(biāo),分別是準(zhǔn)確率P=TP/TP+FP、查全率R=TP/TP+TN、調(diào)和平均F1=2PR/(P+R)。特定話題轉(zhuǎn)發(fā)預(yù)測如表2所示。由表2可知,多特征神經(jīng)網(wǎng)絡(luò)微博轉(zhuǎn)發(fā)預(yù)測時的高效性。
表2 特定話題轉(zhuǎn)發(fā)預(yù)測 %
為了驗證算法的有效性和準(zhǔn)確性,分別與樸素貝葉斯算法和邏輯回歸算法兩種經(jīng)典算法作比較,模型性能對比如表3所示。
表3 模型性能對比 %
由表3可知,在相同實驗環(huán)境下,多特征神經(jīng)網(wǎng)絡(luò)模型的預(yù)測準(zhǔn)確率比樸素貝葉斯算法高出約12%,比邏輯回歸算法高出約3%,相比之下,多特征神經(jīng)網(wǎng)絡(luò)算法在預(yù)測準(zhǔn)確度上較前兩種預(yù)測方法有一定的優(yōu)勢。
通過對微博網(wǎng)絡(luò)信息的轉(zhuǎn)發(fā)規(guī)律的挖掘研究,提取出用戶活躍度、用戶的重要程度、用戶之間的親密度、是否為認(rèn)證用戶、是否@他人、是否包含URL、是否包含話題、文本興趣相似度、用戶活躍程度9個特征,運(yùn)用多特征神經(jīng)網(wǎng)絡(luò)微博轉(zhuǎn)發(fā)預(yù)測模型,實現(xiàn)對微博轉(zhuǎn)發(fā)的概率輸出,即微博轉(zhuǎn)發(fā)行為的預(yù)測。研究結(jié)果可以為微博營銷、輿情監(jiān)控、熱點話題追蹤以及微博推薦等方面的應(yīng)用提供參考。然而預(yù)測模型在個性化方面做得還不夠,特征的提取也不夠完備,隨著對微博的進(jìn)一步研究,綜合考慮個性化因素,盡可能全面地挖掘提取用戶及微博的特征,以獲得更高的預(yù)測準(zhǔn)確率。
[1] 曹玖新,吳江林,石偉,等.新浪微博網(wǎng)信息傳播分析與預(yù)測[J].計算機(jī)學(xué)報,2014,37(4):779-790.
[2] 張旸,路榮,楊青.微博客中轉(zhuǎn)發(fā)行為的預(yù)測研究[J].中文信息學(xué)報,2012,26(4):109-114.
[3] 李英樂,于洪濤,劉力雄.基于SVM的微博轉(zhuǎn)發(fā)規(guī)模預(yù)測方法[J].計算機(jī)應(yīng)用研究,2013,30(9):2594-2597.
[4] Petrovic S, Osborne M, Lavrenko V. RT to Win! predicting message propagation in Twitter[J]. ICWSM, 2011, 11:586-589.
[5] 謝婧,劉功申,蘇波,等.社交網(wǎng)絡(luò)中的用戶轉(zhuǎn)發(fā)行為預(yù)測[J].上海交通大學(xué)學(xué)報,2013,47(4):584-588.
[6] 吳凱,季新生,劉彩霞.基于行為預(yù)測的微博網(wǎng)絡(luò)信息傳播建模[J].計算機(jī)應(yīng)用研究,2013,30(6):1809-1813.
[7] Blei D M. Probabilistic topic models[J].Communications of the ACM,2012,55(4):77-84.
[8] 李湘東,巴志超,黃莉.基于加權(quán)隱含狄利克雷分配模型的新聞話題挖掘方法[J].計算機(jī)應(yīng)用,2014,34(5):1354-1359.
[9] 鄧青,馬曄風(fēng),劉藝,等.基于BP神經(jīng)網(wǎng)絡(luò)的微博轉(zhuǎn)發(fā)量的預(yù)測[J].清華大學(xué)學(xué)報(自然科學(xué)版),2015,55(12):1342-1347.
[10] 黃德才,戚華春.PageRank算法研究[J].計算機(jī)工程,2006,32(4):145-146.
[11] 鄧萬宇,鄭慶華,陳琳,等.神經(jīng)網(wǎng)絡(luò)極速學(xué)習(xí)方法研究[J].計算機(jī)學(xué)報,2010,33(2):279-287.
[12] 楊偉,倪黔東,吳軍基.BP神經(jīng)網(wǎng)絡(luò)權(quán)值初始值與收斂性問題研究[J].電力系統(tǒng)及其自動化學(xué)報,2002,14(1):20-22.
[13] 饒浩,陳海媚.主成分分析與BP神經(jīng)網(wǎng)絡(luò)在微博輿情預(yù)判中的應(yīng)用[J].現(xiàn)代情報,2016,36(7):58-62.
[14] 高玉明,張仁津.基于遺傳算法和BP神經(jīng)網(wǎng)絡(luò)的房價預(yù)測分析[J].計算機(jī)工程,2014,40(4):187-191.
[15] 王赟松,許洪國.快速收斂的BP神經(jīng)網(wǎng)絡(luò)算法[J].吉林大學(xué)學(xué)報(工學(xué)版),2003,33(4):79-84.
Micro-Blog Retweet Prediction Based on Multi-Feature Neural Network
Wang Zhifeng1, Feng Xiwei1, Jia Qiang1, Zhu Rui1, Qin Hang2
(1.SchoolofComputerandCommunicatingEngineering,LiaoningShihuaUniversity,FushunLiaoning113001,China; 2.TeacherContinuingEducationSchoolofWanghuaDistrict,FushunLiaoning113001,China)
With the rapid development of social networks, microblog has become a platform for the spread of information dissemination. In view of the characteristics of microblog information diffusion, mining the potential law of microblog forwarding process is of great significance for public opinion monitoring, hot topic tracking, product marketing and so on. In this paper, the Sina microblog is used as the data source, the user and microblog content are used as the characteristic source. The neural network prediction algorithm in machine learning is introduced to establish the prediction model to realize the forward prediction of microblog. The results show that, compard with the traditional prediction method, the microblog forwarding can make a higher accuracy prediction.
Neural network; BP algorithm; LDA; Predictive modeling
1672-6952(2017)06-0047-04
投稿網(wǎng)址:http://journal.lnpu.edu.cn
2017-03-13
2017-04-11
遼寧省教育科學(xué)“十三五”規(guī)劃2016年度課題(JG16DB253);遼寧石油化工大學(xué)2016年教育教學(xué)改革研究項目(20165230060003)。
王志峰(1990-),男,碩士研究生,從事分布式計算、數(shù)據(jù)挖掘相關(guān)研究;E-mail:kruskr@sina.com。
馮易煒(1970-),男,博士,教授,從事語義網(wǎng)·分布式計算與計算機(jī)網(wǎng)絡(luò)方面的研究;E-mail:feng.xw@163.com。
TP391
A
10.3969/j.issn.1672-6952.2017.06.010
(編輯 陳 雷)