陳慶華,史定華
(1. 福建師范大學(xué) 福州 350007; 2. 上海大學(xué)數(shù)學(xué)系 上海 寶山區(qū) 200444)
復(fù)雜網(wǎng)絡(luò)科學(xué)[1]和與之相關(guān)的人類動(dòng)力學(xué)[2]發(fā)現(xiàn),許多復(fù)雜現(xiàn)象存在令人驚奇的普適規(guī)律,即涌現(xiàn)標(biāo)度特性。例如,復(fù)雜網(wǎng)絡(luò)的度分布呈現(xiàn)P(k)~k?γ的冪律形式,人類時(shí)空行為往往陣發(fā)而非隨機(jī),導(dǎo)致任務(wù)等待時(shí)間也呈現(xiàn)這一形式。物理學(xué)家側(cè)重探索它們形成的動(dòng)力學(xué)機(jī)制,如增長(zhǎng)擇優(yōu)連線或任務(wù)優(yōu)先權(quán)規(guī)則等。然而確認(rèn)標(biāo)度律是否成立還同時(shí)需要得到廣泛的統(tǒng)計(jì)支持。文獻(xiàn)[3]就用一幅圖展示了標(biāo)度律的兩大支柱:機(jī)制成熟和統(tǒng)計(jì)支持的景觀。
圖1 統(tǒng)計(jì)支持
統(tǒng)計(jì)學(xué)是一門古老的學(xué)科,也是統(tǒng)計(jì)物理的基礎(chǔ),取得了許多重要成果,有著廣泛的實(shí)際應(yīng)用。在我國(guó)高校,統(tǒng)計(jì)學(xué)已列入一級(jí)學(xué)科,人才供不應(yīng)求??茖W(xué)出版社出版的《統(tǒng)計(jì)手冊(cè)》[4]有百余萬(wàn)字厚達(dá)千頁(yè),但卻沒(méi)有涉及標(biāo)度律的統(tǒng)計(jì)方法。究其原因主要是定義不夠明確,冪律形式是指近似冪律關(guān)系,嚴(yán)格冪律分布還是重尾分布,認(rèn)識(shí)并不統(tǒng)一。
網(wǎng)絡(luò)科學(xué)剛剛出現(xiàn)時(shí),人們普遍采用簡(jiǎn)單的圖估計(jì)方法進(jìn)行統(tǒng)計(jì)。而且主要是在雙對(duì)數(shù)坐標(biāo)上畫頻率圖,看上去基本成一條直線就認(rèn)為服從標(biāo)度律。由于大度數(shù)節(jié)點(diǎn)稀少,尾部擺動(dòng)太大,就采用粗?;膶?duì)數(shù)盒子圖。在確定幾何增長(zhǎng)網(wǎng)絡(luò)度分布指數(shù)時(shí)出現(xiàn)了反復(fù),人們才開始使用畫補(bǔ)分布圖。關(guān)于這三種圖的畫法與比較,詳細(xì)討論參見文獻(xiàn)[5]。畫補(bǔ)分布圖實(shí)質(zhì)上等價(jià)于畫秩次圖,秩次圖早在研究人類語(yǔ)言規(guī)律時(shí)就已被采用。Zipf在研究文本中單詞出現(xiàn)頻次時(shí),將所有單詞排序,用橫坐標(biāo)表示序號(hào),縱坐標(biāo)表示對(duì)應(yīng)的頻次,在雙對(duì)數(shù)坐標(biāo)上畫圖得到了著名的Zipf標(biāo)度律。文獻(xiàn)[6]用兩套數(shù)據(jù)比較了頻率圖和秩次圖的優(yōu)劣,數(shù)據(jù)1和數(shù)據(jù)2分別從冪律分布和指數(shù)分布產(chǎn)生,并分別畫在雙對(duì)數(shù)坐標(biāo)和半對(duì)數(shù)坐標(biāo)上,他們發(fā)現(xiàn)按秩次畫圖正確,按頻率畫圖會(huì)出現(xiàn)錯(cuò)誤。可見正確統(tǒng)計(jì)方法的重要性。
圖估計(jì)方法全憑經(jīng)驗(yàn),結(jié)果因人而異?,F(xiàn)在考慮數(shù)值方法,對(duì)于嚴(yán)格連續(xù)冪律分布:
這是參數(shù)γ的極大似然估計(jì),它是有偏估計(jì),因?yàn)?。文獻(xiàn)[8]證明了針對(duì)連續(xù)冪律分布不存在有效無(wú)偏估計(jì),只存在漸近有效無(wú)偏估計(jì):
進(jìn)一步,文獻(xiàn)[8]還討論了假設(shè)檢驗(yàn)和似然比檢驗(yàn)。引入連續(xù)伽瑪分布
然而,復(fù)雜網(wǎng)絡(luò)中的度是離散的,上述估計(jì)結(jié)果需修正。另外,實(shí)際網(wǎng)絡(luò)的最小度也是隨機(jī)變量,而且對(duì)估計(jì)結(jié)果有重要影響。前面的討論都是假定實(shí)際網(wǎng)絡(luò)的度分布服從冪律分布,而這是需要統(tǒng)計(jì)檢驗(yàn)的。更為重要的是度分布往往不是嚴(yán)格冪律的,而是重尾分布。重尾分布是一個(gè)很大的分布類,嚴(yán)格冪律分布只是其中最簡(jiǎn)單的代表。文獻(xiàn)[9]發(fā)現(xiàn)Waring分布為:
是另一個(gè)重要代表,幾乎所有無(wú)標(biāo)度增長(zhǎng)網(wǎng)絡(luò)模型的度分布都是Waring分布。如BA模型度分布是α=2,β=m;復(fù)制模型入度分布是α=1,β=1的Waring分布。因此,深入研究雙參數(shù)Waring分布的統(tǒng)計(jì)分析方法具有重要的理論意義和實(shí)際價(jià)值。
[1] BARABáSI A-L, ALBERT R. Emergence of scaling in random networks[J]. Science, 1999(286): 509-512.
[2] BARABáSI A-L. The origin of bursts and heavy tails in human dynamics[J]. Nature, 2005(435): 207-211.
[3] STUMPF M P H, PORTER M A. Critical truths about power laws[J]. Science, 2012(335): 665-666.
[4] 茆詩(shī)松, 王靜龍, 史定華, 等. 統(tǒng)計(jì)手冊(cè)[M]. 北京: 科學(xué)出版社, 2003.MAO Shi-song, WANG Jing-long, SHI Ding-hua, et al.Statistical handbook[M]. Beijing: Science Press, 2003.
[5] 史定華. 網(wǎng)絡(luò)度分布理論[M]. 北京: 高等教育出版社,2011.SHI Ding-hua. Theory of network degree distributions[M].Beijing: Higher Education Press, 2011.
[6] LI L, ALDERSON D, DOYLE J C, et al. Towards a theory of scale-free graphs: definitions, properties, and implications[J]. Internet Math, 2005(2): 431-523.
[7] CLAUSET A, ROHILIA S, NEWMAN M E J. Power-law distributions in empirical data[J]. SIAM Review, 2009(51):661-703.
[8] 陳慶華, 陳月萍, 史定華. 冪律分布的統(tǒng)計(jì)性質(zhì)及其應(yīng)用[C]//第八屆全國(guó)復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會(huì)議. 南京: [出版者不詳],2012.CHEN Qing-hua, CHEN Yue-ping , SHI Ding-hua. The statistic property of power-law distributions and its applications[C]//The 8th Chinese Conference on Complex Networks. Nanjing: [s.n.], 2012.
[9] 史定華. 關(guān)于無(wú)標(biāo)度網(wǎng)絡(luò)[C]//第八屆全國(guó)復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會(huì)議. 南京: [出版者不詳], 2012.SHI Ding-hua. About scale-free networks[C]//The 8th Chinese Conference on Complex Networks. Nanjing: [s.n.],2012.