王 竹
(四川大學(xué)財(cái)務(wù)處,四川 成都 610065)
隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的用戶開始使用社交網(wǎng)絡(luò)。與此同時(shí),社交網(wǎng)絡(luò)的分析方法也吸引了大量研究者的注意。然而真實(shí)的社交網(wǎng)絡(luò)建模是一個(gè)交叉學(xué)科并且極其復(fù)雜[1-2],它涉及社會(huì)心理學(xué)、社會(huì)關(guān)系學(xué)、統(tǒng)計(jì)理論和圖論。因此對(duì)于社交網(wǎng)絡(luò)的研究可以借助于社交網(wǎng)絡(luò)的建模方法,先構(gòu)建合理的模型,在此基礎(chǔ)上再做進(jìn)一步研究[3-4]。
社交網(wǎng)絡(luò)建模研究的早期模型有小世界網(wǎng)絡(luò)模型,包括Watts-Strogatz 模型和Newman-Watts 模型。后來發(fā)展到無尺度網(wǎng)絡(luò),其典型的模型有BA 模型和HK 模型。其中HK 模型和真實(shí)的社交網(wǎng)絡(luò)最為接近,但是兩者之間仍有一定的距離。因此,本文首先分析現(xiàn)有的幾種社交網(wǎng)絡(luò)建模方法,并在HK 模型的基礎(chǔ)上,提出一種新的建模方法。
為了研究社交網(wǎng)絡(luò),本文使用圖描述其結(jié)構(gòu)以及節(jié)點(diǎn)間的關(guān)系。基于圖論,許多網(wǎng)絡(luò)屬性被發(fā)掘,其中重要的屬性包括:網(wǎng)絡(luò)度、度分布、平均最短路徑、聚集系數(shù)和社團(tuán)結(jié)構(gòu)[5]。
節(jié)點(diǎn)的度是所有與該節(jié)點(diǎn)相連邊的數(shù)量。在無向網(wǎng)絡(luò)中,節(jié)點(diǎn)i 的度可以描述為。其中Aij代表節(jié)點(diǎn)i 和j 的連接屬性,如節(jié)點(diǎn)i 與j 相連接,Aij為1,否則為0。網(wǎng)絡(luò)的度為所有節(jié)點(diǎn)度的平均值,可以描述為,其中ki為節(jié)點(diǎn)i 的度,n 為網(wǎng)絡(luò)中所有節(jié)點(diǎn)的個(gè)數(shù)。
在無權(quán)重網(wǎng)絡(luò)中,2 個(gè)節(jié)點(diǎn)間的最短路徑是2 個(gè)節(jié)點(diǎn)中所有可能的路徑中具有最少連接數(shù)的路徑。一個(gè)網(wǎng)絡(luò)的平均最短路徑是任意2 個(gè)節(jié)點(diǎn)間的最短路徑的平均值。對(duì)于網(wǎng)絡(luò)G,使用d(vi,vj)表示節(jié)點(diǎn)vi和vj間的最短路徑,此網(wǎng)絡(luò)的平均最短路徑可以表示為。在社交網(wǎng)絡(luò)中,lG可以理解為任意2 個(gè)個(gè)體間平均的關(guān)系節(jié)點(diǎn)數(shù)。
聚集系數(shù)是衡量節(jié)點(diǎn)聚集程度的系數(shù)。在社交網(wǎng)絡(luò)中,節(jié)點(diǎn)傾向于形成高密度的團(tuán)體[6-9]。假設(shè)節(jié)點(diǎn)i 和ki個(gè)節(jié)點(diǎn)相連,那么在ki個(gè)節(jié)點(diǎn)間,最多有ki(ki-1)/2 條邊,但實(shí)際上只有Ei條邊。那么對(duì)于節(jié)點(diǎn)i,其聚集系數(shù)Ci,也稱為本地聚集系數(shù),可以描述為。對(duì)于整個(gè)網(wǎng)絡(luò),所有節(jié)點(diǎn)網(wǎng)絡(luò)系數(shù)的平均值,也叫做Watts-Strogatz聚集系數(shù),可以被用來描述整個(gè)網(wǎng)絡(luò)的網(wǎng)絡(luò)系數(shù)C=。
在小世界網(wǎng)絡(luò)模型出現(xiàn)以前,網(wǎng)絡(luò)拓?fù)渲械倪B接是規(guī)律或者隨機(jī)的,但是世界上許多網(wǎng)絡(luò)都是介于兩者之間[10]。在小世界網(wǎng)絡(luò)中,絕大多數(shù)的節(jié)點(diǎn)并不相連,但是大多數(shù)的節(jié)點(diǎn)可以通過很少的幾個(gè)中間節(jié)點(diǎn)而相連。小世界網(wǎng)絡(luò)模型中比較經(jīng)典的模型有Watts-Strogatz 模型和Newman-Watts 模型。
2.1.1 Watts-Strogatz 模型
Watts-Strogatz 模型的構(gòu)建方法如下。1)構(gòu)建一個(gè)具有n 個(gè)節(jié)點(diǎn)的環(huán)形網(wǎng)絡(luò),每個(gè)節(jié)點(diǎn)i 和它相鄰的K 個(gè)節(jié)點(diǎn)連接;2)以概率p 重新連接每條邊。如果p=0,那么生成的網(wǎng)絡(luò)是一個(gè)規(guī)則的網(wǎng)絡(luò);如果p=1,最終形成一個(gè)隨機(jī)網(wǎng)絡(luò)。
2.1.2 Newman-Watts 模型
Newman-Watts 模型的構(gòu)建包含2 步。1)構(gòu)建一個(gè)具有n 個(gè)節(jié)點(diǎn)的環(huán)形網(wǎng)絡(luò),每個(gè)節(jié)點(diǎn)i 和它相鄰的K 個(gè)節(jié)點(diǎn)相連接(K/2 個(gè)左側(cè)的節(jié)點(diǎn),K/2 個(gè)右側(cè)的節(jié)點(diǎn),K 是偶數(shù))。2)隨機(jī)選擇一對(duì)節(jié)點(diǎn),并以概率p連接這2 個(gè)節(jié)點(diǎn)。已經(jīng)證實(shí),當(dāng)p 值很小,并且n 值很大時(shí),Newman-Watts 模型和Watts-Strogatz 模型表現(xiàn)出相同的屬性。
近年的研究表明發(fā)現(xiàn)真實(shí)網(wǎng)絡(luò)的度分布符合冪定律。冪定律是指網(wǎng)絡(luò)節(jié)點(diǎn)的度分布函數(shù)p(k)滿足p(k)~ck-γ。其中γ 是一個(gè)常數(shù)。許多真實(shí)的網(wǎng)絡(luò),例如社交網(wǎng)絡(luò),被認(rèn)為是無尺度的。
2.2.1 BA 模型
Barabási 和Albert 各自獨(dú)立地發(fā)現(xiàn)了創(chuàng)建無尺度網(wǎng)絡(luò)的方法,稱為偏好連結(jié)。他們把這種方法應(yīng)用到了互聯(lián)網(wǎng)度分布的建模。無尺度網(wǎng)絡(luò)的特點(diǎn)如下:1)增長,是指網(wǎng)絡(luò)的大小隨著時(shí)間增長。2)偏好連結(jié),指新加入的節(jié)點(diǎn)傾向于連結(jié)具有高度值的節(jié)點(diǎn)。社交網(wǎng)絡(luò)顯現(xiàn)了BA 模型的這些性質(zhì)。首先,社交網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)是迅速增加的。其次,一位新人加入社會(huì)團(tuán)體的時(shí)候,他傾向于和那些受大眾歡迎的明星人物做朋友。
BA 模型的建立過程如下:
1)初始化:建立一個(gè)網(wǎng)絡(luò)具有m0個(gè)節(jié)點(diǎn)和0 個(gè)邊。新加入網(wǎng)絡(luò)的節(jié)點(diǎn)和已有的m 個(gè)節(jié)點(diǎn)相連結(jié),其中m <m0。
2)當(dāng)新加入的節(jié)點(diǎn)決定和哪些節(jié)點(diǎn)相連接時(shí),假設(shè)連接概率pi和節(jié)點(diǎn)的度k 成正比pi=ki/∑jkj。當(dāng)添加了t 個(gè)新的節(jié)點(diǎn)后,網(wǎng)絡(luò)中將有n=t +m0個(gè)節(jié)點(diǎn)和mt 條邊。
2.2.2 HK 模型
Watts-Strogatz 模型顯示了高的聚集度,但是其度分布不符合冪定律;BA 模型的度分布符合冪定律,但其不具有高聚集度的特性。然而對(duì)于一些真實(shí)的網(wǎng)絡(luò),它們同時(shí)具有符合冪定律的度分布和高聚集度的特性。例如,社交網(wǎng)絡(luò)正是這樣一種網(wǎng)絡(luò)?;贐A模型,Holme 和Kim 介紹了Holme-Kim(HK)模型。HK 模型相對(duì)于BA 更好地模擬了真實(shí)的社交網(wǎng)絡(luò)。HK 模型的構(gòu)建方法如下:
1)初始化網(wǎng)絡(luò)為m0個(gè)節(jié)點(diǎn)和0 條邊;
2)每一次,添加一個(gè)新的節(jié)點(diǎn)和m 條邊到這個(gè)網(wǎng)絡(luò)中;
3)一條邊以概率pi=ki/∑jkj被添加到網(wǎng)絡(luò)中;
4)其余m-1 條邊按照1 -pi做偏好連結(jié);
5)重復(fù)步驟2)~4)直到網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)增加到指定的數(shù)量。
針對(duì)真實(shí)網(wǎng)絡(luò)的建模,HK 模型已經(jīng)取得了很好的效果,但是它仍然有一些缺點(diǎn)。例如,每次新增加的節(jié)點(diǎn)數(shù)是固定的;新增的邊只在新加入的節(jié)點(diǎn)和舊節(jié)點(diǎn)間建立。在真實(shí)的社交網(wǎng)絡(luò)中,人們有較大的概率與朋友的朋友建立關(guān)系。另外在一個(gè)團(tuán)體中,新人的朋友數(shù)也是不固定的。這2 點(diǎn)是HK 模型沒能解決的問題。因此,筆者提出一種改進(jìn)的HK 模型。
真實(shí)社交網(wǎng)絡(luò)的特性可以總結(jié)為以下幾個(gè)方面:
1)相稱混合。如果網(wǎng)絡(luò)中那些具有很多連接數(shù)的節(jié)點(diǎn)傾向于和同樣具有大量連接數(shù)的節(jié)點(diǎn)相連,那么這個(gè)網(wǎng)絡(luò)是相稱混合的[11]。在社交網(wǎng)絡(luò)中,這也可以被理解為同質(zhì)性[12]。
2)有限最大度。由于個(gè)體的社會(huì)資源和時(shí)間限制,社交網(wǎng)絡(luò)中每個(gè)個(gè)體可以維護(hù)的朋友個(gè)數(shù)是有限的[13]。這也可以理解為,社交網(wǎng)絡(luò)中度分布表現(xiàn)為陡峭的長尾。
3)高聚集度。聚集度也被稱為傳遞性。在社交網(wǎng)絡(luò)中,這個(gè)屬性理解為具有相同朋友的個(gè)體具有較高的概率建立朋友關(guān)系[13]。在真實(shí)的社交網(wǎng)絡(luò)中,聚集度通常介于0.1 到0.5 之間[14-15]。
4)短平均最短路徑。隨著網(wǎng)絡(luò)規(guī)模的增加,網(wǎng)絡(luò)的平均最短路徑長度增加緩慢[16]。這也可以理解為小世界網(wǎng)絡(luò)效應(yīng)。
5)社團(tuán)結(jié)構(gòu)。這意味著個(gè)體與社團(tuán)內(nèi)的個(gè)體具有較多的連結(jié),而與社團(tuán)外的節(jié)點(diǎn)具有少的連結(jié)。
6)偏好連結(jié)。新加入的節(jié)點(diǎn)傾向與具有高度值的節(jié)點(diǎn)連結(jié)。
7)邊是動(dòng)態(tài)的。邊可以在已有節(jié)點(diǎn)間添加或者刪除。這就好比在社交網(wǎng)絡(luò)中,人之間的關(guān)系即使是新建立的也可以斷開。
考慮到上述討論的社交網(wǎng)絡(luò)特性,在HK 模型的基礎(chǔ)上,筆者提出如下的建模算法:
1)初始化網(wǎng)絡(luò)為m0個(gè)節(jié)點(diǎn)和0 條邊。
2)選擇mr+1 個(gè)節(jié)點(diǎn)作為第一聯(lián)系人,其中mr>0。
①其中一個(gè)節(jié)點(diǎn)按照偏好連結(jié)原則來選擇;
②mr個(gè)節(jié)點(diǎn)以prandom的概率隨機(jī)選擇。
3)從第一聯(lián)系人鄰居節(jié)點(diǎn)隨機(jī)選取ms個(gè)節(jié)點(diǎn)作為第二聯(lián)系人。ms不是一個(gè)固定的值。定義第一聯(lián)系人的鄰居節(jié)點(diǎn)數(shù)為u,那么,其中p2nd是一個(gè)小的概率定值。
4)新加入一個(gè)節(jié)點(diǎn),并將此節(jié)點(diǎn)與第一聯(lián)系人和第二聯(lián)系人建立連接。
①如果一個(gè)聯(lián)系人節(jié)點(diǎn)的連結(jié)數(shù)超過了最大的限定,那么從他的聯(lián)系人里選擇一個(gè)最小度的節(jié)點(diǎn),并將他們間的連結(jié)斷開;
②依據(jù)鄧巴數(shù)[17],個(gè)體可以持續(xù)維護(hù)的人際關(guān)系的人數(shù)不超過230。所以設(shè)定每個(gè)節(jié)點(diǎn)的最大度為230。
5)重復(fù)步驟2)~4),直到網(wǎng)絡(luò)規(guī)模達(dá)到指定數(shù)目。
為了驗(yàn)證模型有效性,本文根據(jù)模型算法采用C++編寫仿真程序來構(gòu)建網(wǎng)絡(luò),使用Pajek 來繪制網(wǎng)絡(luò)的可視圖以及采用MATLAB 分析網(wǎng)絡(luò)的特性。
在仿真的過程中,采用多種參數(shù)組合作為設(shè)定:
1)初始化網(wǎng)絡(luò)節(jié)點(diǎn)m0=3。
2)初始化網(wǎng)絡(luò)邊n0=3。實(shí)際上這是一個(gè)環(huán)形網(wǎng)絡(luò),每個(gè)節(jié)點(diǎn)都與鄰居節(jié)點(diǎn)相連。
3)第一聯(lián)系人的個(gè)數(shù)mr+1=2。
4)第一聯(lián)系人選擇概率prandom=0.1。
5)第二聯(lián)系人的選擇概率p2nd∈{0.10,0.15,0.20,0.25}。
6)節(jié)點(diǎn)總數(shù)N∈{100,1000,10000,100000}。
4.2.1 節(jié)點(diǎn)平均度
計(jì)算各種網(wǎng)絡(luò)參數(shù)情況下,節(jié)點(diǎn)的平均度如圖1所示。
圖1 平均度隨著N 和p2nd的增加而增加
從圖中可見:
1)節(jié)點(diǎn)平均度隨著網(wǎng)絡(luò)的規(guī)模N 增加而增大,已有節(jié)點(diǎn)的度也會(huì)增加。因?yàn)樗惴ㄖ械诙?lián)系人的個(gè)數(shù)ms=「u·p2nd」,所以ms隨著網(wǎng)絡(luò)規(guī)模增大而增大,進(jìn)而導(dǎo)致節(jié)點(diǎn)平均度增加。
2)節(jié)點(diǎn)平均度隨著prandom增加而增大。原因和上述類似,ms=「u·p2nd」,所以ms隨prandom增加而增大。
當(dāng)一個(gè)新節(jié)點(diǎn)加入網(wǎng)絡(luò)時(shí),節(jié)點(diǎn)平均度的增加量為:
根據(jù)u 的定義,假設(shè)其為網(wǎng)絡(luò)平均度,所以∑ki=u·N,可以得到ΔAD=(2(mr+1)(「u·p2nd+1)>+1)-u)/(N+1)。
因此2(mr+1)(「u·p2nd+1)>+1)>u 時(shí),平均節(jié)點(diǎn)度將增加。
4.2.2 度分布
如圖2~圖5 所示,網(wǎng)絡(luò)的度分布均符合冪分布,即p(k)~ck-γ。其參數(shù)如下:
1)圖2:N=105,p2nd=0.10,p(k)=1.476 ×k-2.158-1.35-5;
2)圖3:N=105,p2nd=0.15,p(k)=0.867 ×k-1.537-3.0-4;
3)圖4:N=105,p2nd=0.20,p(k)=1.087 ×k-1.483 -4.0-4;
4)圖5:N=105,p2nd=0.25,p(k)=1.273 ×k-1.362 -9.0-4。
隨著p2nd的增加,冪指數(shù)γ 逐漸下降。對(duì)于任意的節(jié)點(diǎn)i,其度值會(huì)在2 種情況下增加:
1)節(jié)點(diǎn)i 被選作第一聯(lián)系人??紤]到mr+1 個(gè)節(jié)點(diǎn)被隨機(jī)選擇,那么這種情況的概率為(mr+1)/t。因?yàn)樵诿恳徊街挥幸粋€(gè)新的節(jié)點(diǎn)被加入到網(wǎng)絡(luò)中,所以在時(shí)刻t,網(wǎng)絡(luò)中共有t 個(gè)節(jié)點(diǎn)。
2)節(jié)點(diǎn)i 被選作第二聯(lián)系人。對(duì)于每個(gè)第一聯(lián)系人,有ms個(gè)第二聯(lián)系人被選定。
節(jié)點(diǎn)i 的度,符合公式:
其中∑k=2(mr+1)(1 +mr),因此得:
解上述方程后,可以得到度分布:p(k)=ABA(k+C)-A-1,冪指數(shù)為:γ=A+1=2/ms+3。
由于ms=「u·p2nd+1)>,所以γ 隨著p2nd的增加而增加。這與仿真結(jié)果相符。
圖2 N=105,p2nd=0.10,γ=2.158
圖3 N=105,p2nd=0.15,γ=1.537
圖4 N=105,p2nd=0.20,γ=1.483
圖5 N=105,p2nd=0.25,γ=1.362
4.2.3 平均最短路徑
如圖6 所示,當(dāng)網(wǎng)絡(luò)規(guī)模較小時(shí)(N <1000),平均最短路徑隨著網(wǎng)絡(luò)的規(guī)模增加而增加,之后,不斷下降。在真實(shí)社交網(wǎng)絡(luò)中,平均最短路徑一般都較?。?],這也是小世界網(wǎng)絡(luò)的特性。從圖6 仿真的結(jié)果來看,平均最短路徑最大值不超過6.5,這與真實(shí)社交網(wǎng)絡(luò)相符。
圖6 平均最短路徑(□):p2nd=0.1,(×):p2nd=0.15,(?):p2nd=0.20,(+):p2nd=0.25
4.2.4 聚集系數(shù)
如圖7 所示,隨著網(wǎng)絡(luò)規(guī)模的增加,其聚集系數(shù)不斷下降。但是仍然顯示出高的聚集度(C≥0.05 并且C ≤0.25)。考慮到聚集系數(shù)的定義,兩步選擇是造成高聚集度的主要原因。
圖7 聚集系數(shù)(□):p2nd=0.1,(×):p2nd=0.15,(?):p2nd=0.20,(+):p2nd=0.25
4.2.5 社團(tuán)結(jié)構(gòu)
圖8 網(wǎng)絡(luò)拓?fù)鋱D,其中N=1000,p2nd=0.25
圖8 是采用Pajek 軟件繪制的網(wǎng)絡(luò)拓?fù)鋱D,其中N=1000,p2nd=0.25。從圖中可分辨主要的社團(tuán)結(jié)構(gòu)。這個(gè)模型中,與第二聯(lián)系人相連接會(huì)導(dǎo)致已有的社團(tuán)結(jié)構(gòu)更大。新加入的節(jié)點(diǎn)會(huì)與多個(gè)第一聯(lián)系人節(jié)點(diǎn)相連結(jié)。這些第一聯(lián)系人節(jié)點(diǎn)可能會(huì)屬于不同的社團(tuán),因此新加入的節(jié)點(diǎn)起到了橋梁作用。
仿真結(jié)果表明,本文提出的模型在網(wǎng)絡(luò)度、度分布、平均最短路徑、社團(tuán)結(jié)構(gòu)等各個(gè)方面都有良好的表現(xiàn)。
社交網(wǎng)絡(luò)建模已經(jīng)成為網(wǎng)絡(luò)研究的重要環(huán)節(jié),雖然已有眾多建模方法,但是它們生成的網(wǎng)絡(luò)與真實(shí)的社交網(wǎng)絡(luò)相比都還有一定差距。本文分析了真實(shí)社交網(wǎng)絡(luò)具有的特性,提出了一種新型的社交網(wǎng)絡(luò)建模方法。仿真結(jié)果表明,該模型具有高聚集度、小的平均最短路徑、寬的度分布和清晰的社團(tuán)結(jié)構(gòu)等特性。
[1]蒙在橋,傅秀芬.基于在線社交網(wǎng)絡(luò)的動(dòng)態(tài)消息傳播模型[J].計(jì)算機(jī)應(yīng)用,2014,34(7):1960-1963.
[2]何宇,趙洪利,楊海濤,等.復(fù)雜網(wǎng)絡(luò)演化研究綜述[J].裝備指揮技術(shù)學(xué)院學(xué)報(bào),2011,22(1):120-125.
[3]呂琳媛,陸君安,張子柯,等.復(fù)雜網(wǎng)絡(luò)觀察[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2010,7(2):173-186.
[4]胡曉峰.戰(zhàn)爭(zhēng)復(fù)雜網(wǎng)絡(luò)研究概述[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2010,7(2):24-28.
[5]汪小帆,李翔,陳關(guān)榮.復(fù)雜網(wǎng)絡(luò)理論及其應(yīng)用[M].北京:清華大學(xué)出版社,2006.
[6]Holland P W,Leinhardt S.Transitivity in structural models of small groups[J].Comparative Group Studies,1971,2(1):107-124.
[7]Watts D J,Strogatz S H.Collective dynamics of smallworld networks[J].Nature,1998,393:440-442.
[8]程學(xué)旗,沈華偉.復(fù)雜網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu)[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2011,8(1):57-70.
[9]李峻金,向陽,牛鵬,等.一種新的復(fù)雜網(wǎng)絡(luò)聚類算法[J].計(jì)算機(jī)應(yīng)用研究,2010,27(6):2097-2099.
[10]Newman M Dwatt,Strogatz S.Random graphs with arbitrary degree distributions and their applications[J].Physical Review E,2001,64:26118.
[11]Newman M.Assortative mixing in networks[J].Physical Review Letter,2002,89:208701.
[12]Mcpherson M,Smith-Lovin L,Cook J M.Birds of a feather:Homophily in social networks[J].Annual Review Sociology,2001,27(1):415-444.
[13]Girvan M,Newman M.Community structure in social and biological networks[J].Proceedings of the National Academy of Science,2002,99(12):7821-7826.
[14]楊建梅.復(fù)雜網(wǎng)絡(luò)與社會(huì)網(wǎng)絡(luò)研究范式的比較[J].系統(tǒng)工程理論與實(shí)踐,2010,30(11):2046-2055.
[15]尹書華.基于復(fù)雜網(wǎng)絡(luò)的微博用戶關(guān)系網(wǎng)絡(luò)特性研究[J].西南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,33(6):57-61.
[16]Newman M.The structure and function of networks[J].Computer Physics Communications,2002,147(1-2):40-45.
[17]Dunbar R I.How Many Friends Does One Person Need?[M].London:Faber and Faber,2010.