馬逸晗 張寧
摘 要:為了研究期刊文獻引用數量隨時間推移的變化規(guī)律,選取上海理工大學學報1998-2016年刊登的文章及引用文獻作為數據樣本,經過數據篩選和整理,形成新的數據樣本,隨后按照引用關系,將刊登文章和引用文獻形成一個新的引文網絡,并分析該網絡的靜態(tài)屬性,繪制冪率分布圖,發(fā)現該網絡呈明顯的冪率分布現象。隨后運用KS統(tǒng)計與極大似然估計擬合冪率分布X-min值和a指數進行冪率分布檢驗,結果證明該網絡的文獻引用頻次服從冪率分布。
關鍵詞:復雜網絡;冪率分布;K-S檢驗;極大似然估計
DOI:10.11907/rjdk.172846
中圖分類號:TP391
文獻標識碼:A 文章編號:1672-7800(2018)006-0181-04
Abstract:In order to study the change rules over time about variation of citation numbers of journal articles, this paper selected the published articles and references from Journal of Shanghai University of Science and Technology from 1998 to 2016 as data samples.New data samples were formed after data screening and collocation. Published articles and cited documents were transformed into a new citation network according to the reference relationship. The static properties of network were analyzed for making the power-law distribution map. It was found that the network showed a clear power-law distribution. We employed KS statistics and maximum likelihood estimation to fit the power distribution X-min and a exponent for power distribution test. The results showed that the citation frequency of the network followed a power-law distribution.
Key Words:complex network; power-law; distribution; K-S test; maximum likelihood estimation
0 引言
復雜性科學是21世紀的新興學科。此前,并未對復雜系統(tǒng)進行系統(tǒng)、深入的研究,因為復雜系統(tǒng)涉及學科眾多,需要采用合理的方法解決此類問題。復雜網絡和復雜系統(tǒng)都是探索整體規(guī)律,兩者之間有著緊密聯(lián)系。因此,復雜網絡成為研究復雜系統(tǒng)的重要方法之一。
特別是研究復雜系統(tǒng)時,假若在還原論基礎上建立定量模型十分困難,但是建立網絡模型十分容易。例如隨機網絡,其模型為n個定點,每一對定點的連接概率為P[1],以及Watts和Strogatz[2]提出的重要網絡——小世界網。該模型是對規(guī)則網絡中的邊略微進行改動,隨機增加與刪減幾條邊,可以使小世界網介于規(guī)則網與隨機網之間,因而更接近現實世界,從而具有更重要的研究價值。
對于復雜系統(tǒng)的研究需要探索其整體規(guī)律,因此需要注重定性研究。定性研究關注的要點是整體的概括而不是局部的精確。建立網絡模型后,即可對網絡靜態(tài)特性展開研究,如聚集系數、節(jié)點度分布、平均路徑長度等,并分析網絡動態(tài)過程,以上反映的都是系統(tǒng)整體規(guī)律。
本文研究的期刊文獻引用網絡,是通過文獻之間引用和被引用關系構成的集合。構成文獻的類型有多種,包括科技期刊、專業(yè)叢書、會議論文、科技報告等,這些文獻及其引用文獻都反映了某一學科領域的發(fā)展以及該學科與其它學科間的交互關系。隨著科技的發(fā)展,文獻數量大幅增加,新的文章引用已發(fā)表的文章及相關資料,通過相互之間的引用關系,構成一個規(guī)模龐大的復雜網絡。由于研究方法十分靈活,一種研究方法可能運用于多個領域,該網絡可以對不同學科進行交叉描述,所以是十分重要的研究介質。
從文獻引用網絡節(jié)點和邊的含義看,可看作衍生的社會網絡,該網絡中文獻代表節(jié)點,引用關系用連邊表示。但事實上該網絡與社會網絡有很大不同,社會網絡中關系變化迅速,新節(jié)點不斷出現,舊節(jié)點不斷消亡。而文獻引用網絡中節(jié)點穩(wěn)固,引用關系確定,一旦確定則無法隨意刪除和修改。從時間先后順序看,只能是發(fā)表時間在后的文獻引用發(fā)表時間在前的文獻。文獻與文獻之間的引用關系不僅包含了二者之間的知識傳遞,更包含了作者、時間以及文獻價值等多種信息。
將文獻引用網絡與復雜網絡研究相結合,文獻計量學中提出普賴斯定律的普賴斯(Price),通過科學論文之間的引證關系描繪了科學論文的網絡圖,并對引文網絡中的出入度分布進行研究;隨后,Barabasi等[3]在《Science》上提出了無標度網絡模型,提出復雜網絡中的度分布呈明顯的冪率分布。對于復雜網絡的研究,涉及領域越來越廣,而對于冪率擬合還停留在圖形法,直到Clauset[4]和Barabasi[5]提出基于極大似然估計的冪率估計方法,并用KS統(tǒng)計對結果進行檢驗。目前國內對于引文網絡的研究也有許多新進展。如吳海峰等[6]對當前引文網絡的現狀及發(fā)展進行了綜述性介紹;王亮等[7]從引文網絡視角對知識流動相關概念進行剖析,總結出知識流動類型和要素;肖雪等[8]以期刊文獻為研究對象,利用統(tǒng)計分析、信息計量等方法,揭示該領域的知識發(fā)展脈絡和演進軌跡;楊波等[9]提出基于最大似然估計冪律分布的標度指數估計方法;尹麗春[10]從宏觀、中觀和微觀3個層面對科學引文網絡進行研究,探討網絡結構及其對知識流動傳播產生的影響。
隨著網絡技術的發(fā)展,可供參考的科技文獻越來越多。學者發(fā)表論文時,參考論文數量有沒有發(fā)生明顯變化?引用文獻頻次是否服從復雜網絡中的冪率分布現象?為了解釋上述現象并發(fā)現其分布規(guī)律,本文選取上海理工大學學報1998-2016年刊登的文章及引用文獻為數據樣本,以每篇文章的引用文獻頻次為研究對象,研究其分布規(guī)律。
1 研究方法
通過研究考證,現實世界中,很多網絡都服從冪率分布。對冪率分布的最初研究中提出的定律是Pareto分布,后期又出現了長尾理論[11],用于描述小事件普遍、大事件稀少的概率分布網絡。冪率分布的表達公式為:
通過公式(2)可以發(fā)現,X的取值是整個公式的關鍵,因為在實際網絡中,并不是所有數據都滿足X值服從冪率分布,實證數據其實是對于X的某個值服從冪率分布,這里的X值記為X-min。由于X-min的存在,選擇的X-min大小將直接影響所求a的值,從而影響統(tǒng)計誤差。因此,根據Clauset[4]在2009年發(fā)表的文章,本文將根據其提供的方法估計X-min,該方法既適用于離散數據,也可運用于連續(xù)數據。對于不服從正態(tài)分布的數據而言,常用的是K-S(Kolmogorov-Smirnov)檢驗方法,其用于計算實證數據的累積概率分布和擬合模型差值的最大值:
其中,F-n(x)是數據x最小值為X-min時的累積概率分布,F-0(x)是最擬合數據冪率分布的累積概率分布。所以首先需要對樣本進行估計,得出最擬合數據,這里運用Cross-Validation[12-15]方法進行估計推斷。
其次,需要對所求的a值進行標準化,傳統(tǒng)研究方法是假設條件下的最小二乘估計法,這里選擇在數據集有限的條件下,采用極大似然法估計服從冪率分布的參數a[4],參數方程為:
所以根據對K-S(Kolmogorov-Smirnov)檢驗的描述,可以通過最擬合數據得出的P值判斷假設的合理性。對于一組數據,假設它們服從冪率分布,通過最擬合數據可以得出擬合數據與理論X-min分布的距離。由實際數據和理論X-min建立的模型為N,該模型會有n組數據產生,若實際數據和理論X-min模型的距離比模型N的距離大,這樣的數據有m組,則mn值記為p,稱為p-值。若p-值較大,則實際數據和理論模型的差異是由統(tǒng)計誤差引起的;若p-值較小,理論模型的合理性則會受到質疑。一般若p值≤0.1,可以判斷實際數據并不服從冪率分布。
2 實證數據研究與分析
2.1 數據來源及處理
本文以上海理工大學學報1998-2016年刊登的文章及其引用文獻作為數據來源,由于原始數據來源是PDF格式的文章,需要進行人工摘錄、辨別和匯總,所以需要進行大量的數據分析和處理。首先需要將所刊登的文章及文獻都轉化成固定的檢索文獻格式,便于分類查找;然后按照一篇被引用文獻對應一篇刊載文章的形式進行摘抄記錄,每條記錄的格式為前部分是刊登文章的引用文獻格式,用分隔符分開,后面是引用文獻的文獻格式,即若一篇文章有30篇引用文獻,則應有30條記錄;記錄完成后,還需對這些數據進行去重及去偽。因為所有記錄都運用Java語言進行編號整理,文章有30篇引用文獻,在記錄時有60條,但實際上只有31條有效,所以需要對數據進行去重處理。此外,在早年的上海理工大學學報中有社科類專題,但是此類文章對研究會起干擾作用,所以需要將該專題的文章去除,此即去偽工作。經過上述操作步驟后,得到的數據才是較為準確的。經統(tǒng)計,上海理工大學學報1998-2016年刊登文章及引用文獻共計20 854條,其中刊載文章2 284篇,引用文獻數量為18 621篇,二者相加的數量超過了文章及文獻數量總和,是由于時間點靠后的刊載文章引用了時間點在前的文章,但所占比重較小,可忽略不計。通過對這些數據的分析,可以發(fā)現文章引用頻次是否服從冪率分布。
統(tǒng)計分析結果匯總如表1所示,發(fā)現其中度為0的點占據了絕大多數,約為89.3%,因為在該復雜網絡中,每篇文章都作為一個節(jié)點,但是文章引用的文獻數量遠遠多于文章本身,往往為文章數量的幾十甚至上百倍。經分析發(fā)現,文章引用頻次主要集中在2~16條。對于引用頻次極大與極小的文章也進行了具體分析,引用頻次過大的文章主要是一些綜述類文章,主要介紹學科發(fā)展現狀及未來發(fā)展前景,而一些引用頻次較小的文章主要是各位學者的心得體會。
為了更好地研究該網絡,經過統(tǒng)計分析,將網絡中度為0的節(jié)點去除,由引用頻次為1~160的節(jié)點構成一個新網絡。發(fā)現引用頻次在2~16的節(jié)點占整個網絡節(jié)點的86.5%,但其節(jié)點頻次僅占整體引用頻次個數的28.3%,這種文獻頻次分布規(guī)律與布拉德福期刊聚散分布規(guī)律、加菲爾德的文獻集中規(guī)律大體一致。
2.2 數據可視化及冪率分布檢驗
為了驗證前文的猜想,判斷引用文獻數目是否服從冪率分布。本文參考Clauset文章中的方法,應用Python統(tǒng)計分析軟件,得出引用頻次冪率分布圖如圖2所示。
通常判斷一個分布是否服從冪率分布的方法是通過圖形法,即觀察分布圖的形狀。冪率分布在橫坐標和縱坐標都是對數刻度的雙對數坐標系中顯示為一條直線,而指數分布在縱坐標為對數刻度的單對數坐標系中顯示為一條直線[16]。如圖2所示,橫坐標代表引用文獻數目頻次,縱坐標代表Pr[X≥x]。通過對X和Y軸進行對數縮放后觀察圖形,有著很明顯的直線趨勢,圖中已作出擬合直線,并且P值大于0.1。綜上述,引用文獻頻次可以假定服從冪率分布。擬合結果如表2所示。
其中,n表示引用文獻數目頻次,X表示引用頻次平均值,σ表示引用頻次標準差,X-max表示引用頻次最大值,X-min表示估計X最小值,a表示參數a估值,N-e表示引用頻次估值,p是判斷數據是否服從冪率分布的重要依據。
3 結語
為了研究期刊文獻引用數量隨時間變化以及技術變革的變化規(guī)律,本文選取上海理工大學學報1998-2016年的刊發(fā)及引用文獻作為數據樣本,通過研究期刊論文引用文獻的頻次分布規(guī)律,發(fā)現其構成網絡呈明顯的冪率分布現象,并且文獻引用頻次分布規(guī)律與布拉德福期刊聚散分布規(guī)律、加菲爾德文獻集中規(guī)律大體一致,說明大多數作者投稿時,文章中引用文獻數目具有一定規(guī)律性。同時運用KS統(tǒng)計和極大似然估計擬合冪率分布的X-min值和a指數進行冪率分布檢驗,結果證明該網絡的論文引用頻次在一定程度上服從冪率分布。此外,對于X-min值的形成作更深入的探究,將對未來引文網絡研究有著重要意義。
參考文獻:
[1] NEWMANMEJ. The structure and function of complex networds[J].SLAM Review,2003,45(2):167-256.
[2] WATTTS D J ,STROGATZ SH.Collective dynamics of “small-world”networds[J].Nature,1998,393:440-442.
[3] BARABASI A L,LBERT R.Emergenceof scaling in random networks[J].Sciences,1999,286:509512.
[4] CLAUSET A,SHALIZI C R,NEWMAN M E J.Power-law distributions in empirical data[J].SIAM review,2009,51(4):661-703.
[5] BARABASI AL,ALBERT R,JEONG H. Mean-field theory for scale -free random networks[J].Physica, 1999,272:173-187.
[6] 吳海峰,孫一鳴.引文網絡的研究現狀及其發(fā)展綜述[J].計算機應用與軟件,2012,29(2):164-168.
[7] 王亮,張慶普.基于引文網絡的知識流動過程與機制研究[J].哈爾濱工業(yè)大學學報:社會科學版,2014,16(1):110-116.
[8] 肖雪,陳云偉,鄧勇.引文網絡的社團劃分研究進展綜述[J].情報雜志,2016,35(4):125-130.
[9] 楊波,陳忠,段文奇.復雜網絡冪律函數標度指數的估計與檢驗[J].上海交通大學學報,2007(7):1066-1068,1073.
[10] 尹麗春.科學學引文網絡的結構研究[D].大連:大連理工大學,2006.
[11] [美] 克里斯·安德森.長尾理論[M].喬江濤,譯.北京:中信出版社,2006.
[12] 吳德勝,梁樑.基于V-fold Cross-validation和Elman神經網絡的信用評價研究[J].系統(tǒng)工程理論與實踐,2004,24(4):92-97.
[13] REFAEILZADEH P,TANG L,LIU H.Cross-validation,in encyclopedia of database systems[M].New York:Springer US,2009:532-538.
[14] CARLOS A,LPEZ SNCHEZ.A height-diameter model for pinusradiata[D].Don in Galicia(Northwest Spain):Annual of Forest Science,2003,60:237-245.
[15] BOYCE M S,VERNIER P R,NIELSEN S E,et al.Evaluating resource selection functions[J].Ecological Modeling,2002,157:281-300.
[16] 劉臣,單偉,于晶.中國學科知識網絡的演化研究——基于1981-2010年引文數據[J].系統(tǒng)工程理論與實踐,2013,33(2):431-436.
(責任編輯:黃 ?。?/p>