栗麗兵,董榮勝
(桂林電子科技大學(xué) 計算機科學(xué)與工程學(xué)院,廣西 桂林 541004)
人類很早就汲取著社會網(wǎng)絡(luò)的力量[1],F(xiàn)acebook、Twitter、Sina微博等在線社交應(yīng)用的陸續(xù)出現(xiàn)和不斷壯大,積攢了海量的用戶活動數(shù)據(jù)?;谖⒉?shù)據(jù)的實證研究發(fā)現(xiàn),許多好友之間并不存在經(jīng)常性的網(wǎng)絡(luò)互動(如微博轉(zhuǎn)發(fā)行為),而且網(wǎng)絡(luò)互動行為也不僅局限于好友之間。有時互動網(wǎng)民之間根本不存在任何顯性的好友關(guān)系(如微博空間中的“關(guān)注”關(guān)系),但真實發(fā)生的互動行為確實體現(xiàn)了他們在某些觀點或喜好上的一致性和相互間的認同感,這可能隱藏著一個巨大的合作網(wǎng)絡(luò)[2-3]?,F(xiàn)存在2種方法來刻畫這一現(xiàn)象:1)通過為傳統(tǒng)關(guān)系模型中節(jié)點和邊添加的屬性來區(qū)分節(jié)點間是否存在實際的微博轉(zhuǎn)發(fā)行為[4];2)通過多層網(wǎng)絡(luò)拓撲將用戶社交關(guān)系和信息互動過程中的用戶合作關(guān)系分別記錄在維數(shù)相同且相互獨立的一組鄰接矩陣中[5]。但這2種方法無法清晰地刻畫用戶的重復(fù)參與行為,而且數(shù)據(jù)結(jié)構(gòu)的改動導(dǎo)致社會網(wǎng)絡(luò)分析的測量參數(shù)需要重新設(shè)計。
鑒于此,本研究構(gòu)建了上述網(wǎng)民特征的微博信息流(Weibo information flow,簡稱WIF)模型,并以2010年7月至2013年8月期間新浪微博用戶談?wù)摿鞲幸咔榈臄?shù)據(jù)為對象,分別從用戶間的好友關(guān)系和用戶間博文轉(zhuǎn)發(fā)關(guān)系2個角度對疫情信息的擴散網(wǎng)絡(luò)的拓撲特征進行測量。
數(shù)據(jù)集為新浪微博空間的網(wǎng)民數(shù)據(jù),按主題不同分為3個子數(shù)據(jù)集,即回憶2009年H1N1疫情的數(shù)據(jù)集、談?wù)撈胀鞲械臄?shù)據(jù)集和談?wù)?013年4月爆發(fā)的H7N9疫情的數(shù)據(jù)集。數(shù)據(jù)采集采用內(nèi)嵌新浪微博APIs的Python爬蟲程序完成,最終得到的新浪微博數(shù)據(jù)集見表1。
表1 新浪微博數(shù)據(jù)集Tab.1 The Sina-Weibo dataset
為實現(xiàn)微博空間信息擴散過程的形式化描述,構(gòu)建了一個4元組形式的WIF模型。對于“信息流”一詞的使用約定:如果用戶B轉(zhuǎn)發(fā)了用戶A的博文T,那么博文T包含的信息便由用戶A流向了用戶B。該WIF模型共涉及3類實體(博主、博文、博文轉(zhuǎn)發(fā)樹)和1類合作關(guān)系(博文轉(zhuǎn)發(fā)關(guān)系),即:F=〈SU,ST,SR,SRT〉。其中:SU為微博用戶組成的集合;ST為博文組成的集合;SR為博文轉(zhuǎn)發(fā)行為組成的集合;SRT為博文轉(zhuǎn)發(fā)樹組成的集合。
1.2.1 博主U∈SU的結(jié)構(gòu)定義
U=〈g,p,l,fo,fr,Nt〉,其中:g=0/1,0表示男性,1表示女性;p∈P,記錄博主所在城市,P為新浪微博的地區(qū)編碼集;l∈{lzh-cn,lzh-tw,lzh-h(huán)k,len},lzh-cn、lzh-tw、lzh-h(huán)k、len分別代表大陸簡體中文、臺灣繁體中文、香港繁體中文、英文,反映了用戶的文化背景;fo?SU,表示關(guān)注博主的用戶;fr?SU,表示博主關(guān)注的用戶;Nt∈N,表示博主發(fā)布的博文數(shù)量,其中N={0,1,2,…}。
1.2.2 博文T∈ST的結(jié)構(gòu)定義
T=〈b,u,Nr,Δ,m,to〉,其中:b=0/1,0表示T為原創(chuàng)博文,1表示T為轉(zhuǎn)發(fā)博文;u∈SU,表示當前T的博主;Nr∈N,表示當前T被轉(zhuǎn)發(fā)的次數(shù);Δ為日期類型數(shù)值,表示T創(chuàng)建的時間;m為文本類型數(shù)據(jù),表示T的內(nèi)容;to∈T,當b=0時取“null”,當b=1時表示當前轉(zhuǎn)發(fā)博文所在轉(zhuǎn)發(fā)樹的原創(chuàng)博文。
1.2.3 轉(zhuǎn)發(fā)行為R∈SR的結(jié)構(gòu)定義
R=〈ts,tr,d,c〉,其中:ts∈{t|(t∈ST)∧(t.Nr>0)},表示被轉(zhuǎn)發(fā)的博文,因為可能存在多層轉(zhuǎn)發(fā),所以ts可能是原創(chuàng)博文,也可能是轉(zhuǎn)發(fā)博文;tr∈{t|(t∈ST)∧(t.b=1)},表示對博文tr進行轉(zhuǎn)發(fā)操作后生成的轉(zhuǎn)發(fā)博文;d∈N+,表示tr在對應(yīng)原創(chuàng)博文轉(zhuǎn)發(fā)樹中所處的深度,其中N+={1 ,2,3,…}。約定當ts.b=0時d=1,后續(xù)R根據(jù)轉(zhuǎn)發(fā)關(guān)系依次加1;c∈{1,2,3,4,5},標記3種不同關(guān)系的微博用戶之間產(chǎn)生的5類轉(zhuǎn)發(fā)行為。
3類用戶關(guān)系和5類轉(zhuǎn)發(fā)信息流結(jié)構(gòu)如圖1所示。圖1(a)為微博空間的3類用戶關(guān)系:由單向線段連接的2個用戶之間存在社會關(guān)系為微博平臺的“關(guān)注”功能產(chǎn)生的單向友好關(guān)系,終端節(jié)點為被關(guān)注者,起始節(jié)點為關(guān)注者;由雙向線段連接的2個用戶均“關(guān)注”了對方,稱為“互粉用戶”或“互惠用戶”。虛線連接的2個用戶均未“關(guān)注”對方,稱為“陌生人”。因為微博空間的信息擴散有明確的方向性,圖1(a)中3類用戶關(guān)系的組合便會出現(xiàn)5類信息流,圖1(b)~(f)為由參數(shù)R.c區(qū)分的5類信息流,弧形虛線代表用戶間博文轉(zhuǎn)發(fā)過程的信息流向。式(1)~(5)為5類博文轉(zhuǎn)發(fā)模式對應(yīng)的邏輯關(guān)系。
圖1 3類用戶關(guān)系和5類轉(zhuǎn)發(fā)信息流結(jié)構(gòu)Fig. Three types of user relationships and five types of information cascade patterns
1.2.4 轉(zhuǎn)發(fā)樹TR∈SRT結(jié)構(gòu)定義
TR=〈To,RS,RS*,N〉,其中:To∈{t|(t∈ST)∧(t.b=0)}為轉(zhuǎn)發(fā)樹的根節(jié)點位置的原創(chuàng)博文;Tr*?{t|(t∈ST)∧(t.b=1)∧(t.to=T)}為用戶轉(zhuǎn)發(fā)to時產(chǎn)生的轉(zhuǎn)發(fā)博文集合;RS*?{R|(R∈SR)∧(R.tr∈Tr*)}為由轉(zhuǎn)發(fā)樹中節(jié)點間的邊組成的集合;N=(To.Nr+1)為當前轉(zhuǎn)發(fā)樹的節(jié)點數(shù)量。
依據(jù)TRTS數(shù)據(jù),對所有轉(zhuǎn)發(fā)節(jié)點深度統(tǒng)計發(fā)現(xiàn),直接轉(zhuǎn)發(fā)原創(chuàng)博文且未得到其他用戶繼續(xù)轉(zhuǎn)發(fā)的轉(zhuǎn)發(fā)行為大于總轉(zhuǎn)發(fā)量的三分之一。鑒于網(wǎng)絡(luò)水軍的盛行,在提取用戶合作網(wǎng)絡(luò)時剔除了此類轉(zhuǎn)發(fā)行為。
微博信息流實例如圖2所示,其由16條微博信息(3條原創(chuàng)博文和13條轉(zhuǎn)發(fā)博文)和12名微博用戶組成。其中:圖2(a)為博文轉(zhuǎn)發(fā)流,節(jié)點表示博文,邊表示轉(zhuǎn)發(fā)關(guān)系;圖2(b)為用戶社交網(wǎng)絡(luò),節(jié)點表示用戶,邊表示“關(guān)注”關(guān)系。
圖2 微博信息流實例Fig.2 An example of Weibo information flow
按照WIF結(jié)構(gòu)定義,圖2的微博信息流實例的形式化描述為:
其 中:to1=〈0,u5,0,-,-,null〉;to2=〈0,u9,3,-,-,null〉;to3=〈0,u1,10,-,-,null〉;tr1=〈1,u10,1,-,-,to2〉;tr2=〈1,u4,0,-,-,to2〉;tr3=〈1,u11,0,-,-,to2〉;tr4=〈1,u2,2,-,-,to3〉;tr5=〈1,u2,5,-,-,to3〉;tr6=〈1,u12,0,-,-,to3〉;tr7=〈1,u3,1,-,-,to3〉;tr8=〈1,u6,1,-,-,to3〉;tr9=〈1,u7,2,-,-,to3〉;tr10=〈1,u7,0,-,-,to3〉;tr11=〈1,u6,0,-,-,to3〉;tr12=〈1,u8,0,-,-,to3〉;tr13=〈1,u3,0,-,-,to3〉。
其中:R1=〈to2,tr1,1,1〉;R2=〈to2,tr2,1,4〉;R3=〈tr1,tr3,2,4〉;R4=〈to3,tr4,1,3〉;R5=〈to3,tr5,1,3〉;R6=〈to3,tr6,1,4〉;R7=〈tr4,tr7,2,3〉;R8=〈tr5,tr8,2,2〉;R9=〈tr5,tr9,2,4〉;R10=〈tr7,tr10,3,4〉,R11=〈tr8,tr11,3,5〉;R12=〈tr9,tr12,3,4〉;R13=〈tr9,tr13,3,4〉。
其中:TR1=〈to1,null,null,1〉;TR2=〈to2,{tr1,tr2,tr3},{R1,R2,R3},4〉;TR3=〈to3,{tr4,tr5,tr6,tr7,tr8,tr9,tr10,tr11,tr12,tr13},{R4,R5,R6,R7,R8,R9,R10,R11,R12,R13},11〉。
目前大多基于好友關(guān)系的用戶社會關(guān)系網(wǎng)絡(luò)(online friends social network,簡稱OFSN)如圖2(b)所示,節(jié)點表示用戶、邊表示用戶之間的社會關(guān)系網(wǎng)絡(luò)[6-9]。相比這些單純的關(guān)系網(wǎng)絡(luò),實際信息互動的用戶群體的社會網(wǎng)絡(luò)結(jié)構(gòu)包含更豐富的內(nèi)容。
基于好友關(guān)系的轉(zhuǎn)發(fā)合作網(wǎng)絡(luò)(friendship-based reposting cooperation network,簡稱FRCN)如圖3(a)所示。網(wǎng)絡(luò)中節(jié)點代表用戶,有向邊代表存在實際轉(zhuǎn)發(fā)合作行為的用戶的關(guān)注關(guān)系,其提取過程是一個對OFSN中所有邊的遍歷過程,僅滿足式(6)邏輯條件的用戶對(Ui,Uj)的邊被保留。
圖3 微博信息擴散網(wǎng)絡(luò)Fig.3 Weibo message spread participant networks
陌生用戶間的轉(zhuǎn)發(fā)合作網(wǎng)絡(luò)(stranger reposting cooperation network,簡稱SRCN)如圖3(b)所示。節(jié)點表示用戶,有向邊表示博文信息不存在關(guān)注關(guān)系的陌生用戶之間的轉(zhuǎn)發(fā)流向,其提取過程是一個對R中所有c=4的轉(zhuǎn)發(fā)行為的遍歷過程,只要用戶對(Uk,Ul)滿足式(7)的邏輯條件,便會在Uk、Ul的節(jié)點間添加一條由Uk指向Ul的有向邊。
最 終,F(xiàn)RCN包 含343 742個 節(jié) 點、514 334條邊,最大聯(lián)通分量包含291 061個節(jié)點;SRCN包含164 453個節(jié)點、143 790條邊,最大聯(lián)通分量包含69 598個節(jié)點。
FRCN、SRCN和HFS[8]網(wǎng)絡(luò)的拓撲屬性如表2所示。從表2可以看出:
1)微博空間的互動群體比社區(qū)論壇的用戶群更松散。FRCN和SRCN的網(wǎng)絡(luò)密度非常低,可見不管是依賴好友關(guān)系的消息推薦還是完全靠話題熱度的消息推薦,最終產(chǎn)生的實際響應(yīng)群體不存在任何組織性,即共同參與流感疫情討論的微博用戶群是一個獨立的松散團體,他們完全是自愿加入的。
2)FRCN和SRCN均屬于無標度網(wǎng)絡(luò)。FRCN和SRCN中節(jié)點的入度和出度的頻率分布均服從冪率特性,即少數(shù)用戶發(fā)表的微博總能得到大家的響應(yīng),而大多數(shù)用戶發(fā)表的微博影響力極其有限。對于無標度現(xiàn)象,Barabasi認為其源于優(yōu)先連接習(xí)慣[10],對應(yīng)到微博轉(zhuǎn)發(fā)的討論背景,人們會優(yōu)先轉(zhuǎn)發(fā)那些已經(jīng)得到大量用戶轉(zhuǎn)發(fā)的博文。雖然還無法驗證這種假設(shè)的正確性,但無論在相互認識的好友圈,還是在完全由陌生人因共同興趣組成的臨時性群體內(nèi),信息大范圍快速傳播的實現(xiàn)離不開Hub節(jié)點。
3)FRCN和SRCN均具有小世界特性。從刻畫用戶好友圈重合程度的聚類系數(shù)可以看出,F(xiàn)RCN和SRCN中相鄰用戶各自朋友圈的重合程度并不高。同時,平均度、特征路徑長度和網(wǎng)絡(luò)直徑的結(jié)果顯示:雖然FRCN和SRCN的平均度略低于HFS網(wǎng)絡(luò),但未影響用戶間社會距離。對于完全由陌生用戶因共同話題涌現(xiàn)的SRCN,用戶的平均相鄰用戶數(shù)不足2個,但微博信息從一位用戶擴散到另一位用戶的平均距離小于3,最遠距離僅為16。由此可見,微博轉(zhuǎn)發(fā)行為的傳染性比社區(qū)論壇中的回帖行為低一個數(shù)量級,多數(shù)用戶的相鄰用戶數(shù)量非常有限,但存在一條相當短的路徑可讓微博信息從一個用戶擴散到另一個用戶。
表2 FRCN、SRCN和HFS網(wǎng)絡(luò)拓撲屬性Tab.2 The topological properties of FRCN,SRCN and HFS
以新浪微博用戶在2010年7月至2013年8月期間談?wù)摿鞲幸咔榈臍v史記錄為對象,分別從微博轉(zhuǎn)發(fā)流結(jié)構(gòu)和用戶合作模式對新浪微博空間信息擴散網(wǎng)絡(luò)的拓撲結(jié)構(gòu)進行測量。社會網(wǎng)絡(luò)的拓撲結(jié)構(gòu)通常涉及2個問題:1)在結(jié)構(gòu)層面的連通性——誰和誰相連;2)在行為層面的連通性——每個個體的行為對系統(tǒng)中其他個體都有隱含的后果。本研究提供了一種可以研究聯(lián)系強度的語言,可以描述在線社會活動是如何分布在不同類型的連接上的,特別是如何分布在不同強度的連接上的。在線社交中成千上萬的好友有多少會經(jīng)常聯(lián)系,通常存在好友關(guān)系的用戶被視為同質(zhì)關(guān)系,微博用戶群的好友關(guān)系背后是否有可能存在結(jié)構(gòu)失衡現(xiàn)象,即結(jié)構(gòu)平衡問題,需要進一步研究。
[1]Watts D.A twenty-first century science[J].Nature,2007,445(7127):489-489.
[2]Huberman B,Romero D,Wu F.Social networks that matter:twitter under the microscope[J].First Monday,2008,14(1):2317.
[3]Lam S,Riedl J.Are our online"friends"really friends?[J].Computer,2012,45(1):91-93.
[4]Guille A,Hacid H,F(xiàn)avre C.Predicting the temporal dynamics of information diffusion in social networks[J].arXiv,2013:1302.5235.
[5]Mucha P,Richardson T,Macon K,et al.Community structure in time-dependent,multi-scale,and multiplex networks[J].Science,2010,328(5980):876-878.
[6]Fu Feng,Liu Lianghuan,Wang Long.Empirical analysis of online social networks in the age of Web 2.0[J].Physica A:Statistical Mechanics and its Applications,2008,387(2):675-684.
[7]Wang Feiyue,Zeng Daniel,Hendler J A,et al.A study of the human flesh search engine:crowd-powered expansion of online knowledge[J].Computer,2010,43(8):45-53.
[8]Zhang Qingpeng,Wang Feiyue,Zeng Daniel,et al.Understanding crowd-powered search groups:a social network perspective[J].PLOS ONE,2012,7(6):e39749.
[9]樊鵬翼,王暉,姜志宏,等.微博網(wǎng)絡(luò)測量研究[J].計算機研究與發(fā)展,2012,49(4):691-699.
[10]Barabasi A.The origin of bursts and heavy tails in human dynamics[J].Nature,2005,435(7039):207-211.