朱曉明,王直杰
(東華大學(xué) 上海 201620)
社交網(wǎng)絡(luò)傳播節(jié)點影響力建模分析
朱曉明,王直杰
(東華大學(xué) 上海 201620)
針對現(xiàn)有社交網(wǎng)絡(luò)研究未能充分考慮網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的現(xiàn)狀,通過提取更多的影響轉(zhuǎn)發(fā)行為的特征因素,利用邏輯斯蒂回歸模型得到用戶間的信息轉(zhuǎn)發(fā)概率,進(jìn)而建立完整的網(wǎng)絡(luò)拓?fù)淠P?。在轉(zhuǎn)發(fā)預(yù)測模型的基礎(chǔ)上,給出網(wǎng)絡(luò)節(jié)點的影響力評估指標(biāo),并對PageRank算法進(jìn)行改進(jìn)。最后通過在數(shù)據(jù)集上的試驗,試驗結(jié)果證明給出的拓?fù)淠P湍茌^好的模擬信息在網(wǎng)絡(luò)中傳播過程,改進(jìn)后的PageRank算法能較好的對節(jié)點影響力進(jìn)行評估和排序。
微博;用戶影響力;信息傳播;PageRank算法
信息的快速傳播是社交網(wǎng)絡(luò)的最大特點。通過用戶之間的關(guān)注及轉(zhuǎn)發(fā),借助社交網(wǎng)絡(luò)的級聯(lián)效應(yīng),信息以前所未有的速度在社交網(wǎng)絡(luò)中擴(kuò)散。社交網(wǎng)絡(luò)的特性使得每個互聯(lián)網(wǎng)用戶都可以通過信息的傳播影響更多人。
目前,微博的信息傳播機(jī)制研究大多從用戶個體的微觀角度出發(fā),分析用戶個體的信息傳播能力,預(yù)測信息的傳播效果。然而,微博作為一種新興的社交工具,其信息傳播是通過眾多個體的信息行為而形成級聯(lián)型的網(wǎng)絡(luò)傳播。單一從微觀層面的研究并不能準(zhǔn)確描述微博中信息的擴(kuò)散效應(yīng)[1]。
微博影響力的研究大多利用節(jié)點度數(shù)相關(guān)的概念去衡量用戶影響力,將影響力簡單等同于粉絲數(shù),這種評估方式忽略了微博網(wǎng)絡(luò)的應(yīng)用特點。因此,有必要對微博網(wǎng)絡(luò)中的傳播影響力進(jìn)行合理定義,分析決定傳播影響力的因素,建立微博網(wǎng)絡(luò)的影響力模型,并對用戶影響力進(jìn)行度量[2]。
文中以微博這一社交網(wǎng)絡(luò)的典型代表作為研究對象,分析其傳播機(jī)制并進(jìn)一步構(gòu)建微博信息傳播模型和影響力衡量模型。
1.1 問題描述
定義 1(消息轉(zhuǎn)發(fā)行為預(yù)測):在給定微博網(wǎng)絡(luò)r,用戶網(wǎng)絡(luò)G=(U,E)和歷史轉(zhuǎn)發(fā)消息集合M的情況下,對用戶微博u轉(zhuǎn)發(fā)微博r的概率進(jìn)行預(yù)測。
yu表示用戶u的轉(zhuǎn)發(fā)行為,取值為0或1,yu=1表明用戶u對消息r進(jìn)行轉(zhuǎn)發(fā)。對消息轉(zhuǎn)發(fā)行為的預(yù)測是機(jī)器學(xué)習(xí)中的二分類問題。在給定用戶網(wǎng)絡(luò)的情況下,通過對歷史消息集合M進(jìn)行訓(xùn)練,可以得到用戶u對微博r的轉(zhuǎn)發(fā)行為分類結(jié)果。邏輯回歸(logistic regression,LR)模型[3]可以在誤差較小的情況下很好的完成分類任務(wù),并且得到概率型的分類結(jié)果。在LR模型的基礎(chǔ)上,去建立微博消息轉(zhuǎn)發(fā)模型。
1.2 特征提取
特征的選取將在很大程度上影響轉(zhuǎn)發(fā)預(yù)測的準(zhǔn)確性,通過對微博應(yīng)用特點的分析,影響轉(zhuǎn)發(fā)行為的因素主要來自微博內(nèi)容、用戶屬性和網(wǎng)絡(luò)關(guān)系。接下來對這幾個因素進(jìn)行特征提取[4]。
1)微博內(nèi)容與用戶興趣:微博原文內(nèi)容與用戶興趣的相似程度可以看作是消息內(nèi)部對消息傳播起到驅(qū)動作用的動力。簡單來說,如果用戶所關(guān)注的用戶發(fā)布了一條微博,而這條微博的內(nèi)容與用戶興趣的相似程度很高,那意味著該用戶轉(zhuǎn)發(fā)該微博的概率很高。
2)微博用戶社會關(guān)系:在社交網(wǎng)絡(luò)中,用戶之間的信息傳播是通過用戶間的轉(zhuǎn)發(fā)完成的,而轉(zhuǎn)發(fā)的基礎(chǔ)是關(guān)注與被關(guān)注。但與此同時,關(guān)注和被關(guān)注之間的關(guān)系是不對等的,被關(guān)注者的信息更容易傳播給關(guān)注者,而關(guān)注者的信息傳播給被關(guān)注者的概率更小,除非雙方是相互關(guān)注的關(guān)系[5]。
3)微博文本與用戶屬性:基于歷史統(tǒng)計數(shù)據(jù)表明:微博消息的文本特征將對用戶的轉(zhuǎn)發(fā)行為產(chǎn)生影響。相關(guān)研究指出,微博中是否含有Hashtag、URL、@等特殊符號,都影響著用戶的轉(zhuǎn)發(fā)行為[6]。包含這些符號表明微博內(nèi)容具有更多的延伸信息,這些延伸信息決定了用戶對微博的接受程度。
4)受激活次數(shù):社會網(wǎng)絡(luò)中,當(dāng)鄰居節(jié)點頻繁對目標(biāo)節(jié)點傳遞信息時,目標(biāo)節(jié)點對該信息的接受程度將相應(yīng)的發(fā)生變化[7]。因此,可以認(rèn)為在微博網(wǎng)絡(luò)中,當(dāng)用戶的朋友中轉(zhuǎn)發(fā)微博的人數(shù)增多時,用戶轉(zhuǎn)發(fā)微博的傾向性將發(fā)生變化。
1.3 傳播模型建立
根據(jù)之前的分析,文中共提取了如表1所示的影響轉(zhuǎn)發(fā)行為的數(shù)值化特征[8]。其中特征1、2描述興趣相似程度;特征3~9表示社會關(guān)系的影響;特征10~15表示文本特征與用戶屬性的影響;特征16為用戶受激活次數(shù)的影響。
表 1 影響消息轉(zhuǎn)發(fā)特征列表
在這些特征中,特征5、10、11、和12采用布爾量表示,0表示否,1表示是,其余特征可以從歷史數(shù)據(jù)集中直接提取。這些特征與轉(zhuǎn)發(fā)行為呈現(xiàn)出線性關(guān)系[9],可以通過訓(xùn)練得到特征權(quán)重,從而建立用戶轉(zhuǎn)發(fā)行為的概率預(yù)測公式:
其中x表示了微博與用戶的屬性集合,F(xiàn)(r,G)為影響用戶u轉(zhuǎn)發(fā)行為的特征集合,ω為權(quán)值向量,權(quán)值的獲取利用極大似然函數(shù)的方法,對用戶u利用N條歷史記錄微博數(shù)據(jù)形成訓(xùn)練集。
2.1 影響力定義
微博影響力主要是通過微博用戶間的關(guān)系進(jìn)行體現(xiàn)的,當(dāng)微博用戶對其他用戶的作用越大,該用戶的影響力也就越大[10]。
定義 2(微博用戶影響力網(wǎng)絡(luò)定義)考慮微博網(wǎng)絡(luò)G=(U,E),其中節(jié)點u∈U表示網(wǎng)絡(luò)中的所有用戶,邊(u,v)∈E表示用戶u與v之間的關(guān)注關(guān)系,定義用戶轉(zhuǎn)發(fā)行為構(gòu)成的網(wǎng)絡(luò)是用戶關(guān)系網(wǎng)絡(luò)的一個子網(wǎng),即用戶只轉(zhuǎn)發(fā)來自關(guān)注節(jié)點的消息[11]。定義節(jié)點i所關(guān)注的節(jié)點集合為:A(i)={j|(i,j)∈E},定義節(jié)點j的粉絲節(jié)點集合:N(j)={i|(i,j)∈E}。
微博網(wǎng)絡(luò)是一個由關(guān)注關(guān)系形成的信息傳播網(wǎng)絡(luò)。依據(jù)這種關(guān)注關(guān)系可以構(gòu)建出一個有向網(wǎng)絡(luò)[12],建立關(guān)注關(guān)系矩陣如下:
其中矩陣元素滿足:
2.2 影響力關(guān)鍵因素
根據(jù)上述影響力定義,本節(jié)提出了一套評估微博用戶傳播影響力的指標(biāo)和體系,該體系從用戶面向的信息傳播的受眾廣度、信息傳播的活躍程度、信息的被傳播度3個方面引入指標(biāo)來評價微博用戶的影響力。
1)信息傳播度:信息傳播度是指微博用戶發(fā)布一條微博得到的擴(kuò)散效果,包括擴(kuò)散范圍、被轉(zhuǎn)發(fā)數(shù)、被評論數(shù)等等,是一個用戶信息傳播能力的體現(xiàn)。此外,信息傳播度同樣是信息質(zhì)量的一種體現(xiàn),發(fā)布微博的質(zhì)量越高,越能吸引粉絲對微博的轉(zhuǎn)發(fā)及評論行為[13]。
2)傳播活躍程度:微博是一種廣播式的信息傳播平臺,用戶通過關(guān)注的方式來獲取自己感興趣博主所發(fā)布的微博,所有的微博將按照時間的先后順序呈現(xiàn)給用戶,因此,博主發(fā)布微博的頻率越高,激活其粉絲發(fā)生信息行為的機(jī)會就越多,相應(yīng)的用戶傳播影響力也就越高。博主發(fā)布微博的頻率被定義為傳播活躍程度,活躍度可以用單位時間內(nèi)發(fā)表的微博數(shù)量來表示。
3)傳播受眾廣度:傳播受眾廣度表示了用戶通過信息行為可以激活的用戶范圍,粉絲數(shù)量及粉絲質(zhì)量是體現(xiàn)受眾廣度的重要方面。圖1所示的有向圖是一個由6個節(jié)點組成的微博網(wǎng)絡(luò)結(jié)構(gòu)示意。
圖1 微博網(wǎng)絡(luò)結(jié)構(gòu)示意圖
圖中的有向邊表明了用戶間的關(guān)注關(guān)系,例如用戶 D關(guān)注了用 A,則形成了一條由 D指向 A的邊。圖中顯示了用戶A的粉絲數(shù)達(dá)到了5個,B、C、E分別有一個粉絲,D、F沒有粉絲,用戶 A相比于其余節(jié)點,其發(fā)布的信息可以迅速的傳播到整個網(wǎng)絡(luò)中,因此,用戶 A具有更高的影響力。此外,比較B、C、E 3個用戶,雖然他們的粉絲數(shù)都為1,但由于用戶A關(guān)注了 E,E發(fā)布的信息將會被A接收,從而有可能繼續(xù)在網(wǎng)絡(luò)中擴(kuò)散,因此,用戶 E在網(wǎng)絡(luò)中的影響力高于用戶B、C。
可見,用戶的粉絲越多,激發(fā)其他用戶產(chǎn)生信息行為的潛力就越大,越容易影響到其他人,且所花費的代價也越小,反之亦然。同時,粉絲與粉絲之間也不能同等對待,粉絲自身的影響力以及網(wǎng)絡(luò)的用戶規(guī)模也是衡量用戶影響力的重要指標(biāo)。
2.3 影響力度量算法
微博中的拓?fù)浣Y(jié)構(gòu)類似于網(wǎng)頁之間的鏈入鏈出關(guān)系,PageRank算法是計算網(wǎng)頁重要性的經(jīng)典算法,可以很好的體現(xiàn)網(wǎng)絡(luò)拓?fù)涞挠绊?。因此,本?jié)將在微博影響力模型的基礎(chǔ)上,融合PageRank算法,提出一種新的微博影響力度量算法MIR(Microblog Influence Rank)[14]。
根據(jù)上節(jié)分析,得到用戶影響力關(guān)聯(lián)網(wǎng)絡(luò),如圖2所示。其中 f(i,j)表示節(jié)點之間的影響權(quán)值,用轉(zhuǎn)發(fā)預(yù)測模型的轉(zhuǎn)發(fā)概率表示。
圖2 用戶影響力關(guān)聯(lián)網(wǎng)絡(luò)
根據(jù)上一節(jié)提出的影響力網(wǎng)絡(luò)模型,建立微博中的影響力轉(zhuǎn)移矩陣,如下所示:
其中,sij表示用戶i向其關(guān)注節(jié)點j的影響力轉(zhuǎn)移概率,其表達(dá)式如下所示:
A(i)為節(jié)點i的關(guān)注節(jié)點集合。
2.4 MIR算法的提出
在PageRank算法中,PR(PageRank)值是根據(jù)反向鏈接的數(shù)目均勻分配給相應(yīng)的關(guān)系節(jié)點的,而在微博中,用戶之間的關(guān)聯(lián)緊密程度卻是不盡相同的,平均分配PR值無法體現(xiàn)微博網(wǎng)絡(luò)中用戶間的影響力關(guān)聯(lián)強(qiáng)度。在影響力轉(zhuǎn)移矩陣的基礎(chǔ)上改進(jìn)PageRank的算法思想,建立了MIR算法,表達(dá)式如下:
算法中使用MIR值衡量用戶的影響力大小,將所有節(jié)點的初始MIR值設(shè)為0.1,通過迭代可以得到所有用戶的MIR值。N(j)是節(jié)點j的粉絲集合,sij是影響力轉(zhuǎn)移概率,表示節(jié)點i的影響力分配給節(jié)點j的比例因子,體現(xiàn)了節(jié)點j在所有影響節(jié)點i的節(jié)點中所占的比重[15]。
在MIR算法中,表征用戶影響力的MIR值并不是依靠關(guān)注數(shù)目平均分配,而是根據(jù)計算得到的每條邊的影響率權(quán)值進(jìn)行分配,這樣做可以使影響關(guān)系更緊密的用戶得到更多的MIR值,通過多次迭代,最終使微博網(wǎng)絡(luò)中的影響力度量更加合理。
MIR算法主要的偽代碼如下所示:
Input:微博網(wǎng)絡(luò)G(V,E),網(wǎng)絡(luò)節(jié)點個數(shù)K,迭代次數(shù)M
2.5 算法結(jié)果分析
為了驗證MIR算法在微博網(wǎng)絡(luò)節(jié)點影響力評估的有效性,文中使用新浪微博提供的API接口獲取真實的微博數(shù)據(jù)作為實驗數(shù)據(jù)集,依據(jù)用戶的關(guān)注關(guān)系獲取了6 302個活躍節(jié)點信息,組成了一個信息傳播網(wǎng)絡(luò),并且獲取了相應(yīng)節(jié)點在一周時間內(nèi)所進(jìn)行的相關(guān)信息行為數(shù)據(jù),如發(fā)布、轉(zhuǎn)發(fā)、評論等。數(shù)據(jù)集的具體描述如表2所示。
表2 數(shù)據(jù)集描述
我們運(yùn)用MIR算法在數(shù)據(jù)集中進(jìn)行了實證分析,得到的影響力排名前10的節(jié)點如表3所示。
表3 用戶影響力排序表
從表3中可以看出,用戶影響力與粉絲數(shù)量具有明顯的正比關(guān)系,微博作為一個廣播型的信息擴(kuò)散平臺,粉絲數(shù)量表明了一個用戶在網(wǎng)絡(luò)中的信息受眾群體大小,進(jìn)而決定了用戶所處的地位。當(dāng)然,粉絲數(shù)量多少并不是與影響力成絕對正比,從表中還可以看到一些用戶本身粉絲數(shù)量雖然有限,但憑借其發(fā)布微博的數(shù)量優(yōu)勢躋身前十名。這說明在微博中,通過努力的多傳播有價值的信息,同樣可以獲得相當(dāng)大的影響力[16]。
在對微博用戶傳播影響力進(jìn)行定義的基礎(chǔ)上提出了評估用戶影響力的指標(biāo)體系,并詳細(xì)分析了決定用戶影響力的3大因素,包括用戶粉絲數(shù),活躍度以及信息傳播度,提出了衡量用戶之間影響力關(guān)聯(lián)大小的影響率的概念,進(jìn)而建立了有向加權(quán)的微博網(wǎng)絡(luò)影響力模型。最后,在影響力模型的基礎(chǔ)上改進(jìn)用于網(wǎng)頁排序的 PageRank算法,提出了度量微博用戶影響力的MIR算法,能夠基于此算法找出微博影響力大的用戶。
[1]劉軍.社會網(wǎng)絡(luò)分析導(dǎo)論[M].北京:社會科學(xué)文獻(xiàn)出版社,2004.
[2]張腸,路榮,楊青.微博客中轉(zhuǎn)發(fā)行為的預(yù)測研究[J].中文信息學(xué)報,2012,26(4):109-114.
[3]李航.統(tǒng)計機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2012.
[4]王曉光.微博客用戶行為特征與關(guān)系特征實證分析—以“新浪微博”為例[J].圖書情報工作,2010,54(14):66-70.
[5]楊長春,俞克非,葉施仁,等.一種新的中文微博社區(qū)博主影響力的評估方法[J].計算機(jī)工程與應(yīng)用,2012,38(25): 229-233.
[6]王晶,朱珂,汪斌強(qiáng).基于信息數(shù)據(jù)分析的微博研究綜述[J].計算機(jī)應(yīng)用,2012,32(7):2027-2029,2037.
[7]Narayanam R,Narahari Y.A shapley value-based approach to discover influential nodes in social networks[J].IEEE Transactions on Automation Science and Engineering,2011,8(1):130-147.
[8]李英樂,于洪濤,劉力雄.基于SVM的微博轉(zhuǎn)發(fā)規(guī)模預(yù)測方法.計算機(jī)應(yīng)用研究,2013(9):2594-2597.
[9]張旸,路榮,楊青.微博客中轉(zhuǎn)發(fā)行為的預(yù)測研究[J].中文信息學(xué)報,2012,26(4):109-114.
[10]郭浩,陸余良,王宇,等.基于信息傳播的微博用戶影響力度量[J].山東大學(xué)學(xué)報:理學(xué)版,2012,47(5):1-6.
[11]陳一帆社交網(wǎng)絡(luò)中節(jié)點影響力的評價與優(yōu)化機(jī)制研究[D].長沙:中南大學(xué)信息科學(xué)與工程學(xué)院,2014.
[12]謝婧,劉功申,蘇波,等.社交網(wǎng)絡(luò)中的用戶轉(zhuǎn)發(fā)行為預(yù)測[J].上海交通大學(xué)學(xué)報,2013,47(4):584-588.
[13]張亞明,唐朝生,李偉鋼.微博機(jī)制和轉(zhuǎn)發(fā)預(yù)測研究[J].情報學(xué)報,2013,32(8):868-876.
[14]詹圣君,邵雄凱,劉建舟.一種考慮用戶行為的改進(jìn)N—PageRank算法[J].計算機(jī)技術(shù)與發(fā)展,2011,21(8):137-140.
[15]王琛,陳庶樵.一種改進(jìn)的微博用戶影響力評價算法[J].信息工程大學(xué)學(xué)報,2013,14(3):380-384.
[16]劉志明,劉魯.微博網(wǎng)絡(luò)輿情中的意見領(lǐng)袖識別及分析[J].系統(tǒng)工程,2011,29(6):8-9.
Modeling analysis of the influence of social network communication node
ZHU Xiao-ming,WANG Zhi-jie
(Donghua University,Shanghai 201620,China)
Since the existing studies don't take full consideration of the network topology of social network.In this paper,by extracting more characteristics which will influencethe information transfer behavior,then using logistic regression model to get the probability between two users,thereby establishinga complete network topology model.Base on the information transfer model,then given the influence of the assessment indicators of network nodes,and improve the PageRank algorithm.The test results on the dataset proved that topology model simulate the process of information disseminationin the network very well,and the improved PageRank algorithm can better assess and sort the influence of the nodes.
microblogging;user influence;information dimension;PageRank algorithm
TN915.41
A
1674-6236(2016)23-0058-04
2015-11-18稿件編號:201511175
朱曉明(1992—),男,湖南常德人,碩士研究生。研究方向:復(fù)雜網(wǎng)絡(luò)。