張素娟,甘若迅,樊鎖海,劉 鵬
?
科研合作網(wǎng)絡(luò)的社團結(jié)構(gòu)和中心節(jié)點研究
張素娟1,甘若迅2,樊鎖海2,劉 鵬2
(1 暨南大學(xué) 科技處,廣東 廣州 510632;2 暨南大學(xué) 信息科學(xué)技術(shù)學(xué)院,廣東 廣州 510632)
對發(fā)表于《ISI-SCIE(Science Citation Index Expanded)》上的PHARMACOLOGY & PHARMACY學(xué)科的論文作者合作研究形成的一個復(fù)雜網(wǎng)絡(luò)進行了研究。分析表明該合作網(wǎng)絡(luò)共有40個子網(wǎng)絡(luò),其最大連通子網(wǎng)絡(luò)節(jié)點的度服從冪律分布且有厚尾趨勢,具有較小的平均路徑長度,較大的聚類系數(shù),存在少數(shù)關(guān)鍵節(jié)點,具有典型的小世界性和無標度性。并通過GN算法分析和挖掘了該最大連通子網(wǎng)絡(luò)的社團結(jié)構(gòu),用度值、介數(shù)值和PAGERANK值等指標評價了網(wǎng)絡(luò)的中心節(jié)點,揭示了合作網(wǎng)絡(luò)中合作水平較高的科研團隊和具有影響力的科學(xué)家。
復(fù)雜網(wǎng)絡(luò);無標度性;小世界性;社團結(jié)構(gòu);中心節(jié)點
復(fù)雜網(wǎng)絡(luò)興起于數(shù)學(xué)領(lǐng)域,著名的歐拉“七橋問題”是圖論的研究開端,而隨機圖理論的建立在數(shù)學(xué)上開創(chuàng)了對復(fù)雜網(wǎng)絡(luò)的系統(tǒng)性研究的先例。然而這些研究只是簡單的、隨機的、抽象的數(shù)學(xué)方法上的研究,現(xiàn)實中的網(wǎng)絡(luò)并不完全是簡單和隨機的。直到20世紀末,對復(fù)雜網(wǎng)絡(luò)的研究終于不再局限于數(shù)學(xué)領(lǐng)域,考慮到現(xiàn)實中的大量節(jié)點及復(fù)雜連接結(jié)構(gòu)的實際網(wǎng)絡(luò),科學(xué)家從社會學(xué)到物理學(xué)等眾多學(xué)科中掀起了復(fù)雜網(wǎng)絡(luò)的研究熱潮。這一時期兩個重要研究的發(fā)現(xiàn)推動了復(fù)雜網(wǎng)絡(luò)研究新紀元的到來:1998年watts和strogatz將隨機性引入到規(guī)則網(wǎng)絡(luò)中,建立了著名的小世界網(wǎng)絡(luò)模型[1],該模型真實的描述了實際網(wǎng)絡(luò)存在的小世界特性;1999年,Barabási和Albert在對萬維網(wǎng)的數(shù)據(jù)進行統(tǒng)計分析時,考慮到實際網(wǎng)絡(luò)中網(wǎng)絡(luò)規(guī)模的不斷增長特性與網(wǎng)絡(luò)中新的節(jié)點傾向于優(yōu)先連接度較大節(jié)點的兩個性質(zhì),發(fā)現(xiàn)網(wǎng)絡(luò)節(jié)點的度分布服從冪律分布并建立無標度網(wǎng)絡(luò)模型[2]。
科研合作網(wǎng)絡(luò)是最早研究的復(fù)雜網(wǎng)絡(luò)之一,它描述并影響著科研人員之間的團隊合作關(guān)系??蒲泻献骶W(wǎng)絡(luò)是典型的社會網(wǎng)絡(luò),同時也是一類復(fù)雜網(wǎng)絡(luò),國內(nèi)外學(xué)者在網(wǎng)絡(luò)的構(gòu)造、網(wǎng)絡(luò)拓撲特性和演化模型等方面進行了初步研究,取得了一些成果,也引起了廣泛關(guān)注。
《ISI-SCIE(Science Citation Index Expanded)》是國際上最有影響力的檢索系統(tǒng),最具權(quán)威性的、用于基礎(chǔ)研究和應(yīng)用基礎(chǔ)研究成果的重要評價體系。根據(jù)《ISI-SCIE(Science Citation Index Expanded)》中暨南大學(xué)的作者的合作關(guān)系所構(gòu)建的科研合作網(wǎng)絡(luò)可以在一定程度上反映暨南大學(xué)學(xué)科的合作情況和學(xué)術(shù)的發(fā)展狀況。本文收集了2010年《ISI-SCIE(Science Citation Index Expanded)》上發(fā)表的PHARMACOLOGY & PHARMACY類的暨南大學(xué)作者的合作信息,分析了網(wǎng)絡(luò)的最大連通子圖的拓撲性質(zhì),比較了不同的節(jié)點指標對于科學(xué)家影響力的評價。
1.1 數(shù)據(jù)來源
本文研究所用的論文選用了《ISI-SCIE (Science Citation Index Expanded)》中作者單位為暨南大學(xué),學(xué)科為PHARMACOLOGY & PHARMACY中2010年論文,該數(shù)據(jù)庫沒有獨著作者,因此搜索的論文即為實際論文數(shù),共129篇,581名作者。
統(tǒng)計每篇論文有幾個作者可得該數(shù)據(jù)庫的作者基本信息(見表1):
表1 論文作者數(shù)統(tǒng)計表
從表1中可以很直觀的看出,論文主要以4-8人為合作形式,所占比例為76%,其中大于8人所占比例為18.3%。每篇論文的平均作者數(shù)為6.6個,這比生物醫(yī)學(xué)領(lǐng)域平均3.75個,天文物理領(lǐng)域平均3.35個,計算機平均領(lǐng)域2.53個,凝固態(tài)物理領(lǐng)域平均2.66個都要高的多。這說明該合作網(wǎng)絡(luò)合作規(guī)模較大,作者間合作效果良好。
1.2 網(wǎng)絡(luò)模型構(gòu)建
本文在無權(quán)條件下構(gòu)建網(wǎng)絡(luò)模型,把每個科研人員視為網(wǎng)絡(luò)中的一個節(jié)點,如果兩個科研人員之間共同發(fā)表過一篇科研論文,這兩個節(jié)點之間就連接一條邊,則在科研人員之間形成了網(wǎng)絡(luò)。為了簡單起見,本文沒有區(qū)分作者的署名順序,同一篇文章的多個作者間的合作關(guān)系用全連接的方式表達。其網(wǎng)絡(luò)的拓撲結(jié)構(gòu)圖如圖1所示。
圖1 暨南大學(xué)PHARMACOLOGY & PHARMACY合作網(wǎng)絡(luò)拓撲圖
通過分析該網(wǎng)絡(luò)模型,發(fā)現(xiàn)該網(wǎng)絡(luò)是一個分散的非連通網(wǎng)絡(luò)。整個網(wǎng)絡(luò)由40個連通的子網(wǎng)絡(luò)組成,其中最大連通子網(wǎng)絡(luò)含有316個科研人員,在這個子網(wǎng)絡(luò)的團隊中發(fā)表論文數(shù)量較多,作者之間的合作更為緊密,相互作用力較大,對于信息的傳播具有較大的促進作用。下面選取該最大連通子網(wǎng)絡(luò)作為研究對象,研究網(wǎng)絡(luò)的基本特征變量。
2.1 聚類系數(shù)
2.2 平均路徑長度
所選研究的最大連通子網(wǎng)絡(luò)是連通網(wǎng)絡(luò),故可達性為1。采用Floyd算法計算得到,網(wǎng)絡(luò)中兩節(jié)點間最大距離為8,最小距離為1,平均路徑長度為3.6956。密歇根大學(xué)的M.E.J.Newman[7]曾對生物、物理、數(shù)學(xué)三個學(xué)科領(lǐng)域的合作社會網(wǎng)絡(luò)進行研究,得到網(wǎng)絡(luò)的平均距離分別為:4.6,5.9,7.6。由于這三個學(xué)科都是傳統(tǒng)的基礎(chǔ)學(xué)科,因此可比性比較高,而本文研究的網(wǎng)絡(luò)平均距離為3.6956,這與生物學(xué)科網(wǎng)絡(luò)是十分接近的,且與 Co-authors[8]網(wǎng)絡(luò)的平均距離為4也是十分接近的。這說明3.6956是一個較小的平均距離,具有小世界網(wǎng)絡(luò)的特征。作者間形成了良好的合作關(guān)系,合作交流較為緊密。
2.3 度與度分布
經(jīng)過對最大連通子網(wǎng)絡(luò)中的節(jié)點度進行統(tǒng)計,可以得到節(jié)點的度分布,如圖2所示。大多數(shù)節(jié)點的度在60以內(nèi),存在三個節(jié)點的度較大,分別為4、42和108。經(jīng)過這三個的節(jié)點的信息流量多,應(yīng)努力避免這三個節(jié)點的阻塞。
圖2 節(jié)點度分布圖
圖3 雙對數(shù)坐標節(jié)點度分布圖
圖4 最大連通子網(wǎng)絡(luò)模塊度變化圖
2.4 社團結(jié)構(gòu)
在現(xiàn)實生活中,許多網(wǎng)絡(luò)都表現(xiàn)出很強的社團性,即網(wǎng)絡(luò)由若干較為明顯的社團構(gòu)成,社團內(nèi)部節(jié)點間連接相對緊密,而社團之間連接則比較稀疏。本文利用Newman和Girvan等人提出的GN算法[5,6]對該合作網(wǎng)的最大連通子圖社團特性進行了分析,其基本劃分算法如下:(1)計算復(fù)雜網(wǎng)絡(luò)中每一條邊的邊介數(shù);(2)找到介數(shù)最高的邊并將它從網(wǎng)絡(luò)中移除;(3)重復(fù)步驟1和2,直到每個節(jié)點就是一個社團為止。
圖5 最大連通子網(wǎng)絡(luò)社團結(jié)構(gòu)圖
圖6 小社團示例
其社團結(jié)構(gòu)如圖5、圖6所示。
通過對社團結(jié)構(gòu)圖進行分析,我們可以了解到4(Yao,Xinsheng),21(Wang,Ying),38(Liu, Zhong),42(Ye,Wencai),48(Wang,Hui),49(Zhou,guangxiong),218(Huang,Dadong),108(Wang,Yifei),190(Qi, Renbin),191(Lu,Daxiang)等幾位作者都處于各自社團內(nèi)部的中心位置,占主導(dǎo)主用。并且整個合作網(wǎng)絡(luò)中,作者間的合作比較穩(wěn)定,且存在較高的科研團隊。
合作網(wǎng)絡(luò)中科學(xué)家的影響力我們可以通過網(wǎng)絡(luò)中節(jié)點的重要性來評價,本文使用了4個評價節(jié)點重要程度的參考指標——發(fā)表文章數(shù)、度值、介數(shù)值以及Pagerank值。發(fā)表文章數(shù)可以反映科學(xué)家的生產(chǎn)能力,度值可以反映科學(xué)家合作交往的廣度,介數(shù)則體現(xiàn)了科學(xué)家在整個網(wǎng)絡(luò)信息溝通中的重要性,而PageRank值則能夠在網(wǎng)絡(luò)中準確定位節(jié)點的相對重要程度。度值和介數(shù)這兩項指標都是在社會網(wǎng)絡(luò)分析[14]中經(jīng)常使用的方法,而Pagerank值則是基于信息搜索分析方法[14]——Pagerank算法得出。
PageRank算法是由斯坦福大學(xué)的博士研究生Sergey Brin和Lawrence Page于1998年提出的,并成功應(yīng)用在Google 搜索引擎中。其基本思想是:當從網(wǎng)頁A鏈接到網(wǎng)頁B時,就認為“網(wǎng)頁A投了網(wǎng)頁B一票”,并根據(jù)網(wǎng)頁的得票數(shù)評定其重要性,并根據(jù)投票來源和投票目標的等級來決定新的等級,一個高等級的頁面可以使其他低等級頁面的等級提升。一個頁面的“得票數(shù)”由所有鏈向它的頁面的重要性決定。一個有很多鏈入的頁面會有很高的等級,相反如果一個頁面沒有任何鏈入頁面,那么它沒有等級。一個頁面的PageRank是由所有鏈向它的頁面的重要性經(jīng)過遞歸算法得到的。由于互聯(lián)網(wǎng)中網(wǎng)頁的鏈接相互指向復(fù)雜,該分值的計算過程是一個迭代過程,最終將依照所得的分數(shù)進行排序,這個量化的分數(shù)就是PageRank值。
表2統(tǒng)計了文章數(shù)、合作者數(shù)、節(jié)點介數(shù)、Pagerank值等4項指標分別排前十名的作者。通過表2,我們可以看出Yao,Xinsheng、Ye,Wencai、Wang,Yifei、Wang,Ying、Huang,Yadong、Jiang,Renwang這六人都在這前十名中,這也與社團結(jié)構(gòu)分析中結(jié)論相符。因此不管從哪個角度來分析,這六位科學(xué)家在該合作網(wǎng)絡(luò)中都是最有影響力的,應(yīng)該把他們看成該合作網(wǎng)絡(luò)的學(xué)術(shù)領(lǐng)軍人。
表2 發(fā)表文章數(shù)、合作者數(shù)、介數(shù)、Pagerank值前10作者排名
注:括號中的數(shù)值表示該作者的發(fā)表文章數(shù)、度值、介數(shù)值以及Pagerank值
本文以暨南大學(xué)2010年在《ISI-SCIE(Science Citation Index Expanded)》中PHARMACOLOGY & PHARMACY發(fā)表的論文合作情況作為研究實例,并且構(gòu)建了網(wǎng)絡(luò)模型,特別是對占網(wǎng)絡(luò)規(guī)模54.39%的最大連通子網(wǎng)絡(luò)進行了研究,具體結(jié)果如表3:
表3 最大連通子網(wǎng)絡(luò)性質(zhì)
另外,通過社團結(jié)構(gòu)分析發(fā)現(xiàn)該網(wǎng)絡(luò)具有顯著的社團特性,存在緊密合作的作者團隊。并利用了4種不同指標——發(fā)表文章數(shù)、度值、介數(shù)和Pagerank值來度量中心節(jié)點在網(wǎng)絡(luò)中的影響力和的重要性,發(fā)現(xiàn)Yao,Xinsheng、Ye,Wencai、Wang,Yifei、Wang,Ying、Huang,Dadong、Jiang,Renwang等人,他們的發(fā)表的論文較多,節(jié)點度數(shù)較高,介數(shù)值較大,Pagerank值排名較高,是該合作網(wǎng)絡(luò)中都是最有影響力的科學(xué)家。但是,該網(wǎng)絡(luò)在過去10年里是如何演化的,如何預(yù)測將來的變化,這些都是值得進一步研究以及探討的問題。
[1] Watts D J, Strogatz S H. Collective Dynamics of “Small World” Networks[J]. Nature, 1998, 393(6684): 440-442.
[2] Barabási A L, Albert R. Emergence of Scaling in Random Networks[J]. Science, 1999, 286(5439): 509-512.
[3] 方錦清,汪小帆,鄭志剛,等. 一門嶄新的交叉科學(xué):網(wǎng)絡(luò)科學(xué)(上)[J]. 物理學(xué)進展,2007,27(3).
[4] 方錦清,汪小帆,鄭志剛,等. 一門嶄新的交叉科學(xué):網(wǎng)絡(luò)科學(xué)(下)[J]. 物理學(xué)進展,2007,27(4).
[5] M Girvan, M E J Newman. Community structure in social and biological networks[J]. Applied Mathematics, 2002, 99(12).
[6] M Girvan, M E J Newman. Finding and evaluating community structure in networks[J]. Phys Rev E, 2004, 69 (2).
[7] Newman M E J.Scientific collaboration networks. I. Network construction and fundamental results[J].Physical Review E, 2001, 64: 016131.
[8] 張小琴,姚洪興,梁洪振.利用傅里葉變換求解無標度網(wǎng)絡(luò)的冪指數(shù)[J].云南民族大學(xué)學(xué)報,2007,16:206-208.
[9] 解,汪小凡. 復(fù)雜網(wǎng)絡(luò)中的社團結(jié)構(gòu)分析算法研究綜述[J]. 復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2005,2(3).
[10]李曉佳,張鵬,狄增如,等. 復(fù)雜網(wǎng)絡(luò)中的社團結(jié)構(gòu)[J]. 復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2008,5(3).
[11]劉杰,陸君安. 一個小型科研合作復(fù)雜網(wǎng)絡(luò)及其分析[J]. 復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2004,1(3).
[12]徐玲,胡海波,汪小帆. 一個中國科學(xué)家合作網(wǎng)的實證分析[J]. 復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2009,6(1).
[13]劉濤,陳忠,陳曉榮. 復(fù)雜網(wǎng)絡(luò)理論及其應(yīng)用研究概述[J]. 系統(tǒng)工程,2005,23(6).
[14]赫南,李德毅, 等. 復(fù)雜網(wǎng)絡(luò)中重要性節(jié)點發(fā)掘綜述[J]. 計算機科學(xué),2007,34(12).
Research on the Community Structure and Hub Node of a Scientific Collaboration Network
ZHANG Su-juan1, GAN Ruo-xun2, FAN Suo-hai2, LIU Peng2
(1 Department of Science and Technology, JiNan University, Guangzhou GuangDong 510632, China;2 School of Information Science and Technology, Jinan University, Guangzhou Guangdong 510632, China)
Study on the author collaboration complex network of journals "ISI-SCIE(Science Citation Index Expanded)" in PHARMACOLOGY & PHARMACY category, It is found that the collaboration networks have 40 sub-networks, and the node degrees of the maximal connected sub-networks obey the power-law distribution. And this collaboration networks has a smaller characteristic path length and a bigger clustering coefficient. And it also has some key nodes and typical characteristic of Scale-Free and Small-World. Moreover, through the analysis and mine of community structure by the GN algorithm, and evaluating the Hub nodes by degree, betweenness and Pagerank value, it is found that, this collaboration networks have some high cooperation level of scientific research groups and some influential scientists.
Complex Network; Scale-Free; Small-World; Community Structure; Hub Node
O157.5; TP391; N94; G35
A
1009-5160(2012)03-0081-05
張素娟(1952-),女,副研究員,研究方向:科學(xué)技術(shù)管理.
廣東省自然科學(xué)基金 (10151063201000005);國家自然科學(xué)基金(10671076, 11071089);中央高?;究蒲袠I(yè)務(wù)費專項資金(21609602).