李元齊
(英國(guó)華威大學(xué),河北 寧晉 050000)
高影響點(diǎn)在社交網(wǎng)絡(luò)信息傳播中起到至關(guān)重要的作用,并且高影響點(diǎn)的分析在其他領(lǐng)域也有很重要的意義[1]。推特、臉書以及微博在信息化發(fā)展中蓬勃發(fā)展,并已經(jīng)成為居民信息交互過(guò)程中必不可少的一部分。在微博上,大量公司通過(guò)社交網(wǎng)絡(luò)投放廣告,以此來(lái)?yè)屨几嗟氖袌?chǎng)份額。然而在社交網(wǎng)絡(luò)中,用戶有很多交互行為[2]。當(dāng)下大部分研究針對(duì)固定時(shí)間節(jié)點(diǎn)不同節(jié)點(diǎn)的影響力的衡量[3][4],忽視了動(dòng)態(tài)傳播網(wǎng)絡(luò)中傳播節(jié)點(diǎn)的加入對(duì)傳播拓?fù)鋱D的影響。本文主要研究社交網(wǎng)絡(luò)中廣告投放,進(jìn)而分析影響因子比較大的用戶,后期選取這些用戶作為廣告投放的用戶。
不同的節(jié)點(diǎn)的中心性對(duì)衡量節(jié)點(diǎn)影響力有著不同的偏差,單一中心性對(duì)于重要節(jié)點(diǎn)的選取會(huì)有嚴(yán)重偏誤,進(jìn)而對(duì)于重要節(jié)點(diǎn)的衡量指標(biāo)要做多方面以及有針對(duì)性的研究[2][5]。Al-Garadi 等人將節(jié)點(diǎn)的中心性分為局部的和整體的,兩者的區(qū)別在于衡量節(jié)點(diǎn)是否結(jié)合圖形的整體結(jié)構(gòu)。局部中性中度是一個(gè)廣泛用來(lái)衡量節(jié)點(diǎn)重要性的指標(biāo),也有很多指標(biāo)由其衍生出來(lái)并廣泛用于重要節(jié)點(diǎn)的選取,例如鄰居的度平均數(shù)(AND)[6]。在整體中心性上,F(xiàn)reeman 于1979 年展示了一種結(jié)合最短路徑的算法,進(jìn)而研發(fā)出了接近中心性算法和介數(shù)中心性算法,這兩種算法廣泛用于社交網(wǎng)絡(luò)重要節(jié)點(diǎn)選取[7]。社交網(wǎng)絡(luò)數(shù)據(jù)大部分是大于十萬(wàn)節(jié)點(diǎn)的,進(jìn)而結(jié)合圖形進(jìn)行中心性提取在很多情況下是不現(xiàn)實(shí)的。近些年很多研究者著眼于半局部中心性算法的研究。
由于研究方向偏向于商業(yè)廣告投放,因此,通過(guò)Python 在微博軟件上對(duì)可口可樂及一些流量明星的信息進(jìn)行采集并構(gòu)建成為完整的轉(zhuǎn)發(fā)網(wǎng)絡(luò),進(jìn)而進(jìn)行重要節(jié)點(diǎn)分析。由于微博關(guān)注網(wǎng)絡(luò)只顯示前3000 個(gè)粉絲,致使根本不可能得到關(guān)注網(wǎng)絡(luò),言外之意只能使用關(guān)注網(wǎng)絡(luò)對(duì)微博用戶的影響力進(jìn)行分析。本文采集了12 組網(wǎng)絡(luò)結(jié)構(gòu),由于自轉(zhuǎn)發(fā)信息以及多次轉(zhuǎn)發(fā)同一用戶同一則信息將會(huì)大大影響節(jié)點(diǎn)的介數(shù)中心性屬性,在數(shù)據(jù)清洗中將這些數(shù)據(jù)進(jìn)行針對(duì)性的處理。
圖1 數(shù)據(jù)可視化
通過(guò)對(duì)數(shù)據(jù)進(jìn)行清洗,轉(zhuǎn)化網(wǎng)絡(luò)可視化,圖1將兩個(gè)清洗完的數(shù)據(jù)可視化,可以發(fā)現(xiàn)社交網(wǎng)絡(luò)中,大部分節(jié)點(diǎn)連接于個(gè)別節(jié)點(diǎn),圖形的各個(gè)節(jié)點(diǎn)的度服從冪律分布,這一特征有助于對(duì)重要節(jié)點(diǎn)的初步篩選,并有針對(duì)性地根據(jù)各個(gè)節(jié)點(diǎn)的中心性進(jìn)行再次篩選,進(jìn)而減輕篩選的難度。
表1 給出了12 組數(shù)據(jù)的基本特征,可以發(fā)現(xiàn)社交網(wǎng)絡(luò)的圖形結(jié)構(gòu)比較稀松。
圖形數(shù)據(jù)的度均值在2.4 左右,其數(shù)值什么小,也就是意味著每個(gè)節(jié)點(diǎn)大約有1.2 個(gè)線去鏈接,而度小于10 的占總體點(diǎn)數(shù)的80%以上進(jìn)而可以得出圖形中大量的節(jié)點(diǎn)連接于個(gè)別節(jié)點(diǎn),也驗(yàn)證出了社交網(wǎng)絡(luò)中的節(jié)點(diǎn)的度服從冪律分布。
表1 數(shù)據(jù)統(tǒng)計(jì)分析
本章節(jié)主要介紹節(jié)點(diǎn)的整體中心性算法以及全圖中心性算法,并結(jié)合兩種算法分別運(yùn)算得出結(jié)果,分析差異及對(duì)重要節(jié)點(diǎn)影響力的不同。
1.3.1 整體中心性算法
1.3.1.1 接近中心性
在方程(1)中,lij表示i點(diǎn)和j點(diǎn)之間最短路徑的距離,因此方程(1)表示圖中所有其他點(diǎn)到點(diǎn)i的最短路徑之和。圖2 中的節(jié)點(diǎn)的大小是根據(jù)節(jié)點(diǎn)的緊密中心性來(lái)繪圖的,可以發(fā)現(xiàn),如果一個(gè)點(diǎn)的接近中心性比較小,那么這個(gè)點(diǎn)將會(huì)位于圖形比較邊緣的位置;反之,接近中心性比較大的時(shí)候,那么點(diǎn)將會(huì)位于圖形比較中心的位置。在一定程度上接近中心性也能反映出整體傳播網(wǎng)絡(luò)的傳播深度。當(dāng)信息傳播比較深遠(yuǎn)的時(shí)候那么圖形中的接近中心性的均值都會(huì)比較小。但是根據(jù)單一節(jié)點(diǎn)對(duì)圖形結(jié)構(gòu)的反應(yīng)能力十分有限。
1.3.1.2 介數(shù)中心性算法
σ(s,t)是指點(diǎn)s到點(diǎn)t之間的最短路徑多少,σ(s,t|v)是指點(diǎn)s到點(diǎn)t經(jīng)過(guò)點(diǎn)v的最短路徑的多少。進(jìn)而可以得到介數(shù)中心性是衡量一個(gè)點(diǎn)位于橋點(diǎn)的概率,當(dāng)介數(shù)中心性大的時(shí)候,會(huì)發(fā)現(xiàn)點(diǎn)位于圖形比較關(guān)鍵的位置更偏向于圖形鏈接個(gè)圖形部分之間的關(guān)鍵點(diǎn),尤其在社交網(wǎng)絡(luò)中,其數(shù)值更像是衡量一個(gè)點(diǎn)在鏈接圖形各個(gè)部分之間的重要程度。由圖4 可知,當(dāng)介數(shù)中心性比較大的時(shí)候,那么這個(gè)點(diǎn)是連接各部分之間的核心點(diǎn)如點(diǎn)2,3 以及4,進(jìn)而介數(shù)中心性大小在社交網(wǎng)絡(luò)各個(gè)群落之間傳播有著至關(guān)重要的作用。盡管圖4 中,各個(gè)節(jié)點(diǎn)的介數(shù)和接近中心性十分相似,但兩者在密集型復(fù)雜網(wǎng)絡(luò)中是有很大區(qū)別。
圖2 圖形接近中心性和介數(shù)中心性事例(左邊節(jié)點(diǎn)的大小是根據(jù)節(jié)點(diǎn)的接近中心性的大??;右邊節(jié)點(diǎn)的大小是根據(jù)節(jié)點(diǎn)介數(shù)大小來(lái)表達(dá))
1.3.2 全圖中心性分析
1.3.2.1 全圖度中心性
1.3.2.2 全圖接近中心性
1.3.2.3 全圖介數(shù)中心性
通過(guò)圖形整體的接近中心性以及介數(shù)中心性,根據(jù)不同節(jié)點(diǎn)加入傳播網(wǎng)絡(luò)后進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)分析,在網(wǎng)絡(luò)結(jié)構(gòu)可視化的過(guò)程中,如果采用每一秒進(jìn)行節(jié)點(diǎn)選取,會(huì)有很長(zhǎng)時(shí)間沒有節(jié)點(diǎn)進(jìn)入網(wǎng)絡(luò),因?yàn)槲⒉┯脩舸蠖鄶?shù)時(shí)間是在上午7 點(diǎn)到凌晨2 點(diǎn)對(duì)信息進(jìn)行轉(zhuǎn)發(fā)與評(píng)論。根據(jù)這一特性,將圖形的每一節(jié)點(diǎn)加入作為一個(gè)時(shí)間節(jié)點(diǎn)進(jìn)而根據(jù)這一特性構(gòu)建出網(wǎng)絡(luò)結(jié)構(gòu),并將節(jié)點(diǎn)加入密集的時(shí)間節(jié)點(diǎn)進(jìn)行采集。根據(jù)所采集的數(shù)據(jù),圖形傳播大致可以分為兩種,根據(jù)節(jié)點(diǎn)加入的時(shí)間差可以將數(shù)據(jù)分為兩類。
圖3 介紹了密集傳播型社交網(wǎng)絡(luò)的全圖中心性隨時(shí)間的走勢(shì)圖,即不同節(jié)點(diǎn)加入圖形后的全圖整體介數(shù)中心性和接近中心性的變化,由圖3 可以發(fā)現(xiàn)全圖接近中心性、特征向量、介數(shù)中心性以及度中心性曲線沒有太大波動(dòng),這表明重要節(jié)點(diǎn)以及傳播用戶在較短的時(shí)間內(nèi)快速加入傳播網(wǎng)絡(luò),從而使一些高影響節(jié)點(diǎn)的滯后效果被覆蓋。因而對(duì)于這種傳播圖形分析的意義不大。
圖3 圖形接近中心性和介數(shù)中心性事例(左邊節(jié)點(diǎn)大小是根據(jù)節(jié)點(diǎn)的接近中心性的大??;右邊節(jié)點(diǎn)的大小是根據(jù)節(jié)點(diǎn)介數(shù)大小來(lái)表達(dá))
圖4 反映了分散傳播性網(wǎng)絡(luò)的全圖中心性隨時(shí)間的波動(dòng),在這個(gè)傳播網(wǎng)絡(luò)中,可以明顯發(fā)現(xiàn)全圖接近中心性以及度中心性曲線有個(gè)明顯的波峰,根據(jù)研究方法可以知道,全圖接近中心性變大表明信息由廣度傳播轉(zhuǎn)向深度傳播,而全圖度中心性擴(kuò)大則表明網(wǎng)絡(luò)結(jié)構(gòu)中有一些度較高的重要節(jié)點(diǎn)使得網(wǎng)絡(luò)結(jié)構(gòu)有較大的變化,即可能存在引入新的群體加入傳播過(guò)程中。根據(jù)波峰的突起程度,可以衡量一個(gè)網(wǎng)絡(luò)在加入傳播過(guò)程中所帶來(lái)的信息流量,進(jìn)而衡量其影響能力。
圖4 分散傳播的傳播網(wǎng)絡(luò)
重要節(jié)點(diǎn)在社交網(wǎng)絡(luò)中的篩選原則主要從兩方面去考慮:第一個(gè)是針對(duì)衡量節(jié)點(diǎn)影響力的指標(biāo)選擇;第二類是在動(dòng)態(tài)網(wǎng)絡(luò)中,節(jié)點(diǎn)影響力的衡量標(biāo)準(zhǔn)。
由上述分析可以得到,在社交網(wǎng)絡(luò)傳播過(guò)程中,可以發(fā)現(xiàn)全圖介數(shù)中心性以及度和接近中心性在圖形中有著不同的作用和影響。
首先針對(duì)介數(shù)中心性,根據(jù)數(shù)據(jù)可以發(fā)現(xiàn)大多數(shù)網(wǎng)絡(luò)的全圖介數(shù)中心性在隨著節(jié)點(diǎn)加入過(guò)程中沒有太大變化,進(jìn)而很難通過(guò)全圖介數(shù)中心性分析出信息傳播路徑突變的時(shí)間節(jié)點(diǎn),最終無(wú)法用全圖介數(shù)中心性判別出重要節(jié)點(diǎn)的位置。而對(duì)于節(jié)點(diǎn)的介數(shù)中心性,會(huì)發(fā)現(xiàn)介數(shù)中心性在衡量節(jié)點(diǎn)的重要性方面也有一定的偏差。這種問題可能與社交網(wǎng)絡(luò)的度的無(wú)尺度分布有關(guān),即大量節(jié)點(diǎn)僅僅連接于個(gè)別節(jié)點(diǎn),進(jìn)而導(dǎo)致傳播路徑十分稀疏,并造成連接葉點(diǎn)的度數(shù)值比較大的節(jié)點(diǎn)擁有較高的介數(shù)中心性數(shù)值。
根據(jù)結(jié)果展示可以發(fā)現(xiàn),全圖接近中心性以及度中心性對(duì)于衡量圖形結(jié)構(gòu)變化有著比較好的作用,進(jìn)而可以推測(cè)圖形結(jié)構(gòu)改變的節(jié)點(diǎn)的加入時(shí)間短,并提取這個(gè)時(shí)間段將其傳播路徑進(jìn)行動(dòng)態(tài)可視化,進(jìn)而可以判別出在圖形結(jié)構(gòu)改變過(guò)程中哪些點(diǎn)擁有更廣的影響力。
通過(guò)各個(gè)節(jié)點(diǎn)的度、接近以及介數(shù)中心性分析靜態(tài)網(wǎng)絡(luò)中的重要節(jié)點(diǎn)具有一定意義,但是靜態(tài)網(wǎng)絡(luò)中很難判別重要節(jié)點(diǎn)傳播過(guò)程中深度和廣度的延伸效果。相對(duì)應(yīng)動(dòng)態(tài)網(wǎng)絡(luò)中可以根據(jù)全圖中心性很容易得出信息傳遞波峰與信息發(fā)布的間隔,進(jìn)而可以判別出用戶對(duì)于信息傳播的滯后效果,這一滯后效果主要是由于廣度傳播速率慢造成。在動(dòng)態(tài)網(wǎng)絡(luò)中深度的研究具有很重要的意義,通過(guò)全圖動(dòng)態(tài)結(jié)構(gòu)網(wǎng)絡(luò)可以發(fā)現(xiàn),深度傳播影響的是信息的傳播持久度,并且更廣的傳播也意味著更廣泛的信息受眾類型。
在實(shí)踐過(guò)程中,可以首先在靜態(tài)網(wǎng)絡(luò)中篩選出重要節(jié)點(diǎn),然后結(jié)合動(dòng)態(tài)網(wǎng)絡(luò)中的全圖中心性分析,進(jìn)一步篩選出用戶信息傳播滯后性小的以及深度傳播更持久的節(jié)點(diǎn),從而提高信息傳播的商業(yè)效率,并且減少信息傳播中的過(guò)多傳播節(jié)點(diǎn)的費(fèi)用。