曹紅艷,許小可,許 爽
(大連民族大學(xué)信息與通信工程學(xué)院 遼寧 大連 116600)
隨著科學(xué)研究的迅猛發(fā)展和數(shù)據(jù)分析技術(shù)的應(yīng)用,“科學(xué)學(xué)”已經(jīng)成為近年來國內(nèi)外研究的熱點(diǎn)[1-2]。其中,由于科學(xué)家合作網(wǎng)絡(luò)是科研活動(dòng)組織與科學(xué)信息傳播的重要結(jié)構(gòu)基礎(chǔ),因此受到科研學(xué)者的廣泛關(guān)注[3]。在此情況下,科學(xué)家合作網(wǎng)絡(luò)中的合作形成以及合作權(quán)重預(yù)測就成為很有意義的研究課題,對應(yīng)網(wǎng)絡(luò)科學(xué)中的科學(xué)問題為鏈路預(yù)測[4]和權(quán)重預(yù)測[5]。通過對科學(xué)家合作網(wǎng)絡(luò)的定量分析,可以辨識科學(xué)家在合作網(wǎng)絡(luò)中的角色、了解他們之間的合作模式并預(yù)測他們學(xué)術(shù)合作的可持續(xù)性和合作強(qiáng)度。本文基于多個(gè)實(shí)證科學(xué)家合作網(wǎng)絡(luò)的多模體特征對科學(xué)家合作進(jìn)行預(yù)測,旨在預(yù)測網(wǎng)絡(luò)中的科學(xué)家之間未來合作的可能性,及其合作的強(qiáng)度。
鏈路預(yù)測是通過網(wǎng)絡(luò)中部分節(jié)點(diǎn)以及它們之間的結(jié)構(gòu)信息,預(yù)測網(wǎng)絡(luò)中任意兩個(gè)節(jié)點(diǎn)之間存在連接的可能性[6]。近年來,基于網(wǎng)絡(luò)結(jié)構(gòu)相似性的鏈路預(yù)測方法引起了學(xué)者們的廣泛關(guān)注。文獻(xiàn)[7]提出了基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的相似性預(yù)測方法,并發(fā)現(xiàn)在科學(xué)家合作網(wǎng)中使用節(jié)點(diǎn)的共同鄰居(common neighbors, CN)和Adamic-Adar(AA)指標(biāo)進(jìn)行預(yù)測的準(zhǔn)確性最好[8]。文獻(xiàn)[9]提出了使預(yù)測準(zhǔn)確性更高的資源分配(resource allocation, RA)指標(biāo)和局部路徑(local path, LP)指標(biāo)。文獻(xiàn)[10]將局部隨機(jī)游走應(yīng)用于鏈路預(yù)測,進(jìn)一步提高了預(yù)測的準(zhǔn)確性。近年來,人們將機(jī)器學(xué)習(xí)方法應(yīng)用于鏈路預(yù)測問題,綜合性使用多種特征大大提高了鏈路預(yù)測的準(zhǔn)確性[11]。以上方法大都僅能應(yīng)用于無權(quán)網(wǎng)絡(luò)的鏈路預(yù)測中,在加權(quán)網(wǎng)絡(luò)鏈路預(yù)測中,文獻(xiàn)[12]提出了3 個(gè)基于無權(quán)網(wǎng)絡(luò)的經(jīng)典相似性CN、AA 和RA的加權(quán)形式指標(biāo),分別是WCN、WAA 和WRA。
權(quán)重預(yù)測是預(yù)測兩個(gè)節(jié)點(diǎn)之間連接的權(quán)重。在現(xiàn)實(shí)世界中的許多網(wǎng)絡(luò)都是加權(quán)網(wǎng)絡(luò),在不同的網(wǎng)絡(luò)中權(quán)重通常代表不同的含義。如在航空網(wǎng)絡(luò)中,連邊權(quán)重代表航班數(shù)量;在社交網(wǎng)絡(luò)中,連邊權(quán)重代表朋友間的親密程度;在科學(xué)家合作網(wǎng)中,連邊權(quán)重代表作者與作者之間的合作強(qiáng)度。連邊的權(quán)重預(yù)測是一個(gè)較新的研究主題,科研人員提出了一些有效的預(yù)測算法。文獻(xiàn)[13]提出了一種基于局部網(wǎng)絡(luò)結(jié)構(gòu)(分析節(jié)點(diǎn)的鄰居集合結(jié)構(gòu))的權(quán)重預(yù)測方法,此方法在鏈接存在或不存在的情況下都可以使用,且可以比線性相關(guān)方法更準(zhǔn)確地預(yù)測權(quán)重。文獻(xiàn)[5]提出了“可靠路線”策略來預(yù)測網(wǎng)絡(luò)中的連邊和權(quán)重,將未加權(quán)的局部相似性指數(shù)擴(kuò)展到加權(quán)的網(wǎng)絡(luò)中,稱為rWCN、rWAA 和rWRA,使用這些指標(biāo)計(jì)算出相似性得分,取得了較好的預(yù)測效果。
目前科學(xué)家合作網(wǎng)絡(luò)中的鏈路預(yù)測和權(quán)重預(yù)測算法中,基于拓?fù)浣Y(jié)構(gòu)的相似性指標(biāo)往往僅關(guān)注了科學(xué)合作的傳遞性結(jié)構(gòu)(三角形關(guān)系),將這類指標(biāo)應(yīng)用于科學(xué)家合作的預(yù)測中,只對應(yīng)了一種科學(xué)家之間的合作模式,而忽略了科學(xué)家之間存在的其他合作模式及多種合作模式的組合,這些合作模式可以表達(dá)為模體或子圖。模體的概念最早是由文獻(xiàn)[14]提出,定義為實(shí)際網(wǎng)絡(luò)中出現(xiàn)的頻次遠(yuǎn)遠(yuǎn)高于其對應(yīng)隨機(jī)網(wǎng)絡(luò)的子圖[15]。模體基于微觀結(jié)構(gòu)刻畫了真實(shí)網(wǎng)絡(luò)中局部相互作用的合作模式,并自下而上自組織構(gòu)成網(wǎng)絡(luò)整體結(jié)構(gòu)[3]。
綜上所述,本文在研究通用三角關(guān)系一種模體結(jié)構(gòu)特征預(yù)測基礎(chǔ)上,又利用了科學(xué)家合作網(wǎng)中其他7 種合作模式,即8 種模體結(jié)構(gòu)進(jìn)行合作預(yù)測。研究中通過提取科學(xué)家合作網(wǎng)中的單模體特征和多模體特征統(tǒng)計(jì)量,并采用機(jī)器學(xué)習(xí)算法對特征進(jìn)行分析計(jì)算,實(shí)現(xiàn)網(wǎng)絡(luò)中科學(xué)家之間合作的可能性及其合作強(qiáng)度的鏈路預(yù)測和權(quán)重預(yù)測,取得了較好的預(yù)測性能。
本文使用的多個(gè)科學(xué)家合作網(wǎng)絡(luò)為加權(quán)無向網(wǎng)絡(luò),形式為G(V,E,W),其中 V、E 和 W分別是網(wǎng)絡(luò)中的節(jié)點(diǎn)集合、連邊集合和權(quán)重集合。網(wǎng)絡(luò)中每條連邊由(x,y)表示,且(x,y)∈E,每條連邊的權(quán)重由wxy表示。由于本文使用的都是無向網(wǎng)絡(luò),所以wxy=wyx。數(shù)據(jù)集被隨機(jī)劃分成訓(xùn)練集 ET和測試集EV兩部分,其中ET∪EV=E ,ET∩EV=?。
1) 鏈路預(yù)測評價(jià)指標(biāo)AUC
衡量鏈路預(yù)測算法性能的指標(biāo)有3 種,分別是AUC、精確度(precision)和排序分(ranking score),它們的側(cè)重點(diǎn)各不相同。其中,AUC 可以從整體上衡量算法的精確度而得到最廣泛的使用[6],因此本文采用該指標(biāo)衡量不同算法鏈路預(yù)測的準(zhǔn)確性。在鏈路預(yù)測算法中,計(jì)算出所有測試集兩兩節(jié)點(diǎn)間的相似度得分之后,AUC 指標(biāo)可以描述為如下形式:每次從測試集中隨機(jī)選取一條存在的邊(x,y),然后隨機(jī)選取一條不存在的邊(x1,y1),比較這兩條邊的相似度得分,如果邊(x,y)的分?jǐn)?shù)大于邊(x1,y1)的分?jǐn)?shù),則加1 分;如果兩條邊的分?jǐn)?shù)相等,則加0.5 分。獨(dú)立比較n 次,如果有 n′次邊(x,y)的分?jǐn)?shù)值大于邊(x1,y1)的分?jǐn)?shù)值,有 n′′次兩條邊的分?jǐn)?shù)值相等,則AUC 值可以定義為:
通常,上述評分算法計(jì)算出的AUC 值應(yīng)該至少大于0.5。AUC 的值越高,算法的精確度越高,但AUC 的值最高不會(huì)超過1。
2) 合作權(quán)重預(yù)測評價(jià)指標(biāo)RMSE
科學(xué)家合作網(wǎng)絡(luò)是被用于研究科學(xué)學(xué)的主要途徑[1],合作權(quán)重是科學(xué)家網(wǎng)絡(luò)中的重要特征之一。本文使用均方根誤差作為合作權(quán)重預(yù)測評價(jià)指標(biāo)。它亦被稱為標(biāo)準(zhǔn)誤差,是真實(shí)值與預(yù)測值之間差值的平方與樣本數(shù)n 比值的平方根,具體定義為:
1) 加權(quán)CN 指標(biāo)(WCN):
式中, z 為x 和y的共同鄰居; wxz表示連接節(jié)點(diǎn)x和z之間連邊的權(quán)重值; wyz表示連接節(jié)點(diǎn)y和z的邊的權(quán)重值。如果所有邊權(quán)重都等于1,那么上述指標(biāo)都等價(jià)于無權(quán)的CN 指標(biāo)。
2) 加權(quán)AA 指標(biāo)(WAA):
3) 加權(quán)RA 指標(biāo)(WRA):
WRA 是WCN 的另外一種加權(quán)形式。
基于共同鄰居加權(quán)特征的科學(xué)家合作預(yù)測主要提取測試集數(shù)據(jù)的上述指標(biāo),將指標(biāo)得分視為數(shù)據(jù)集中可能存在連邊的相似度得分,通過相關(guān)的評價(jià)指標(biāo)衡量預(yù)測的準(zhǔn)確性。
在先前研究中,只有少數(shù)的預(yù)測算法被擴(kuò)展到了加權(quán)網(wǎng)絡(luò),而且大多數(shù)只考慮了網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),很少充分利用連邊的權(quán)重信息。受通信網(wǎng)絡(luò)中可靠路線問題的解決方案的啟發(fā),文獻(xiàn)[5]提出了可靠路線策略方法來預(yù)測網(wǎng)絡(luò)中的連邊和權(quán)重,將未加權(quán)的局部相似性指數(shù)擴(kuò)展到加權(quán)網(wǎng)絡(luò)中,并使用這些指標(biāo)計(jì)算出相似性得分,取得了較高的準(zhǔn)確性。
1) 可靠路線加權(quán)CN 指標(biāo)(rWCN):
2) 可靠路線加權(quán)AA 指標(biāo)(rWAA):
3) 可靠路線加權(quán)RA 指標(biāo)(rWRA):
基于可靠路線加權(quán)特征的預(yù)測方法是從已知的訓(xùn)練集 ET和測試集 EV得到它們的加權(quán)鄰接矩陣WT和 WV,提取測試集中的上述指標(biāo)得到連邊相似度分?jǐn)?shù),由 SV表示。然后考慮到線性相關(guān)性,引入一個(gè)自由參數(shù)λ,定義預(yù)測函數(shù)為F(WT)=λ·SV,通過最小化預(yù)測函數(shù)與WV之間的差來確定λ:
式中, ∥·∥為Frobenius 范數(shù)。最后通過相關(guān)的評價(jià)指標(biāo)來衡量預(yù)測的準(zhǔn)確性。
基于共同鄰居和可靠路線的加權(quán)網(wǎng)絡(luò)鏈路預(yù)測方法都是基于網(wǎng)絡(luò)的傳遞特性(分析三角形模體)。在基于模體特征的預(yù)測方法中,共涉及8 個(gè)模體特征,分別為2 個(gè)三節(jié)點(diǎn)模體和6 個(gè)四節(jié)點(diǎn)模體,它們代表了科學(xué)家合作網(wǎng)中的8 種合作模式。所有的模體編號、圖示和合作模式如表1 所示[3],其中(a,b)為待預(yù)測連邊。
表1 模體對應(yīng)的科學(xué)家合作模式
基于模體特征的科學(xué)家合作預(yù)測主要是提取訓(xùn)練集和測試集的模體特征,將每種模體的數(shù)量作為特征值,科學(xué)家之間是否合作作為機(jī)器學(xué)習(xí)的分類標(biāo)簽、科學(xué)家之間合作的強(qiáng)度作為回歸的預(yù)測值,得到預(yù)測結(jié)果后使用相關(guān)評價(jià)指標(biāo)衡量預(yù)測的準(zhǔn)確性。圖1 為基于模體特征的科學(xué)家合作預(yù)測的具體過程。
圖1 基于模體特征的科學(xué)家合作預(yù)測
如圖1 所示,圖1a 為一個(gè)7 節(jié)點(diǎn)的小網(wǎng)絡(luò)圖,邊(x,y)為待預(yù)測連邊。圖1b 以模體特征3_2、4_4 和4_5 為例說明科學(xué)家合作預(yù)測的主要過程。如圖1b 所示,分別計(jì)算模體特征3_2、4_4 和4_5在圖1a 中的個(gè)數(shù)。模體特征3_2 的計(jì)算方法為尋找節(jié)點(diǎn)x和 y的共同鄰居數(shù)。模體特征4_4 的計(jì)算方法為尋找節(jié)點(diǎn)x 和y的除去共同鄰居節(jié)點(diǎn)的各自鄰居節(jié)點(diǎn),將節(jié)點(diǎn)x 和y的各自鄰居節(jié)點(diǎn)進(jìn)行組合,其中鄰居節(jié)點(diǎn)之間在網(wǎng)絡(luò)中存在連邊的記為1,最終將所有連邊記為1 的累加求和。其他特征的計(jì)算方法依次類推。通過計(jì)算得出模體特征3_2 的個(gè)數(shù)為2,模體特征4_4 的個(gè)數(shù)為1,模體特征4_5 的個(gè)數(shù)為1。
在進(jìn)行科學(xué)家合作預(yù)測時(shí),可以將這些模體中的每一種模體的數(shù)量值單獨(dú)作為機(jī)器學(xué)習(xí)方法的輸入。也可以將圖1b 中的3 種模體在拓?fù)浣Y(jié)構(gòu)上進(jìn)行組合,即S3_2+S4_4+S4_5,形成如圖1c 所示的結(jié)構(gòu),計(jì)算圖1c 中所涉及的3 種模體在圖1a 小網(wǎng)絡(luò)中的數(shù)量,并將得到的模體3_2、4_4 和4_5 的這3 種模體的數(shù)量作為機(jī)器學(xué)習(xí)方法的輸入。還可以將所有8 種模體的數(shù)量都作為特征值作為機(jī)器學(xué)習(xí)方法的輸入,從而得到連邊的相似度得分或連邊權(quán)重。
本文使用了常用的4 個(gè)科學(xué)家合作網(wǎng)絡(luò)進(jìn)行鏈路預(yù)測與合作權(quán)重預(yù)測。
1) netscience 是一個(gè)從事網(wǎng)絡(luò)理論和實(shí)驗(yàn)的科學(xué)家之間的加權(quán)合作網(wǎng)絡(luò),包括1 461 個(gè)節(jié)點(diǎn),2 742條連邊。其中,節(jié)點(diǎn)代表網(wǎng)絡(luò)中的科學(xué)家,連邊代表兩位科學(xué)家有合作關(guān)系。
2) geom 是一個(gè)計(jì)算幾何領(lǐng)域的科學(xué)家之間的加權(quán)合作網(wǎng)絡(luò),包括6 158 個(gè)節(jié)點(diǎn),11 898 條連邊,權(quán)重代表兩位科學(xué)家合作的次數(shù)[16]。
3) hepth 是1995 年1 月1 日?1999 年12 月31日期間在高能物理領(lǐng)域上發(fā)布預(yù)印本論文的科學(xué)家之間的加權(quán)網(wǎng)絡(luò),包括7 610 個(gè)節(jié)點(diǎn),15 751 條連邊。
4) condmat 是1995 年?1999 年在凝聚態(tài)物理領(lǐng)域上發(fā)布預(yù)印本論文的科學(xué)家之間的加權(quán)合作網(wǎng)絡(luò),包括16 264 個(gè)節(jié)點(diǎn),47 594 條連邊。
數(shù)據(jù)netscience、hepth 和condmat 來自于參考文獻(xiàn)[17],其中連接的權(quán)重代表科學(xué)家合作的強(qiáng)度[18]。其權(quán)重的具體計(jì)算公式為:
為了比較權(quán)重預(yù)測問題時(shí)不同網(wǎng)絡(luò)的預(yù)測結(jié)果,所有鏈路權(quán)重均在區(qū)間[0,1]上進(jìn)行歸一化處理。具體的歸一化方法為:
式中, w 為原始權(quán)重值; w?為歸一化后的權(quán)重值。
XGBoost 是Extreme Gradient Boosting 的簡稱,它是Gradient Boosting Machine 的一個(gè)C++實(shí)現(xiàn)。XGBoost 最大的特點(diǎn),它能夠自動(dòng)利用CPU 的多線程進(jìn)行并行,同時(shí)在算法上加以改進(jìn)提高了精度[19]。XGBoost 是一種基于GBDT 原理的改進(jìn)算法,與普通的GBDT 僅使用一階導(dǎo)數(shù)信息不同,XGBoost 對損失函數(shù)做了二階泰勒展開,并在目標(biāo)函數(shù)中加入了正則項(xiàng),減少過度擬合。除了與GBDT模型的理論差異外,XGBoost 還具有以下優(yōu)勢:速度快、可移植、少寫代碼、可容錯(cuò)。
本文利用XGBoost 機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)特征統(tǒng)計(jì)量的計(jì)算,實(shí)驗(yàn)中首先讀取訓(xùn)練集和測試集的數(shù)據(jù),將訓(xùn)練集的數(shù)據(jù)按9∶1 的比例劃分為訓(xùn)練集和驗(yàn)證集,并讀取劃分后的訓(xùn)練集、驗(yàn)證集和測試集的特征值;然后利用XGBoost 機(jī)器學(xué)習(xí)方法建立基于訓(xùn)練集的模型,最終通過建立的模型實(shí)現(xiàn)測試集中的鏈路和權(quán)重預(yù)測。
本文使用上述4 個(gè)科學(xué)家合作網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)驗(yàn)證。對于每個(gè)網(wǎng)絡(luò),選取90%的數(shù)據(jù)作為訓(xùn)練集ET,選取10%的存在邊作為測試集 EV中的正樣本,從不存在的邊中去構(gòu)建負(fù)樣本,最終讓測試集滿足正負(fù)樣本1:1 的比例。然后基于單個(gè)模體特征和多模特特征(所有8 個(gè)模體)進(jìn)行鏈路預(yù)測,得到評價(jià)指標(biāo)AUC 的值,如表2 所示,單個(gè)模體特征的最好預(yù)測性能和多模體特征的預(yù)測效果加粗標(biāo)出。
表2 基于模體特征的鏈路預(yù)測結(jié)果(AUC)
由表2 可以發(fā)現(xiàn),使用單模體特征進(jìn)行鏈路預(yù)測時(shí),模體特征3_2 的預(yù)測準(zhǔn)確率最高。說明在科學(xué)家合作網(wǎng)絡(luò)中,如果兩位科學(xué)家同時(shí)與第三位科學(xué)家有合作,那么這兩位科學(xué)家有合作的概率比較大。模體特征3_2 從結(jié)構(gòu)上看可以表示為計(jì)算節(jié)點(diǎn)的共同鄰居數(shù)量,也是聚類系數(shù)的一種表達(dá),與WCN、WAA、WRA 和rWCN、rWAA、rWRA 在拓?fù)浣Y(jié)構(gòu)上一樣,說明上述方法僅僅是一種模體的加權(quán)形式。這類方法最大的缺陷是沒有考慮到其他模體,即科學(xué)家合作的其他方式,本文綜合多個(gè)模體特征進(jìn)行預(yù)測,在表2 中發(fā)現(xiàn)多模體特征的預(yù)測效果比單模體特征的最好預(yù)測效果高5.0%~10.8%,說明綜合科學(xué)家之間的多種合作模式進(jìn)行鏈路預(yù)測效果更好。
在鏈路預(yù)測中,還將多模體特征鏈路預(yù)測的結(jié)果與基于共同鄰居加權(quán)特征的預(yù)測方法(WCN、WAA 和WRA),和基于可靠路線加權(quán)特征的預(yù)測方法(rWCN、rWAA 和rWRA)進(jìn)行了比較,其結(jié)果如表3 所示,其中預(yù)測效果最好的方法加粗標(biāo)出。
表3 3 類方法的鏈路預(yù)測結(jié)果(AUC)
表3 為使用3 類不同方法進(jìn)行鏈路預(yù)測的AUC結(jié)果對比,分析表3 中的數(shù)據(jù)可以發(fā)現(xiàn),多模體特征的預(yù)測準(zhǔn)確率比共同鄰居和可靠路線策略的最高預(yù)測準(zhǔn)確率提高了4.9%~8.9%。在與傳統(tǒng)方法對比的基礎(chǔ)上,以netscience 網(wǎng)絡(luò)為例,在8 種模體特征中選取部分特征進(jìn)行組合,然后進(jìn)行鏈路預(yù)測,其結(jié)果如圖2 所示。通過圖2 可以發(fā)現(xiàn)預(yù)測效果最好的為多模體特征,說明在科學(xué)家合作網(wǎng)絡(luò)中使用多模體特征(即結(jié)合科學(xué)家之間多種合作模式),進(jìn)行鏈路預(yù)測能夠有效提高預(yù)測的準(zhǔn)確性。
在鏈路預(yù)測問題中,還對8 種模體特征進(jìn)行了皮爾遜相關(guān)性分析,結(jié)果如圖3 所示。從圖3 可以發(fā)現(xiàn)特征被分為兩個(gè)不同的集合,第一個(gè)集合包括特征3_1、4_3、4_2 和4_1,它們之間有較強(qiáng)的相關(guān)性,是因?yàn)樗鼈冎魂P(guān)注待預(yù)測連邊中兩個(gè)節(jié)點(diǎn)的各自鄰居節(jié)點(diǎn)之間的結(jié)構(gòu)。第二個(gè)集合包括特征3_2、4_6、4_5 和4_4,它們之間同樣具有比較強(qiáng)的相關(guān)性,是因?yàn)樗鼈兇蠖鄶?shù)關(guān)注待預(yù)測連邊中節(jié)點(diǎn)的共同鄰居之間的關(guān)系。
圖2 鏈路預(yù)測的特征選擇方法性能比較
圖3 鏈路預(yù)測模體特征的相關(guān)性分析
除了使用上述4 個(gè)網(wǎng)絡(luò)進(jìn)行鏈路預(yù)測算法比較,本文也使用這些數(shù)據(jù)進(jìn)行合作權(quán)重預(yù)測。權(quán)重預(yù)測可以抽象為機(jī)器學(xué)習(xí)中的回歸問題,在本文已知兩位科學(xué)家有合作關(guān)系的前提下進(jìn)行。對于每個(gè)網(wǎng)絡(luò),將數(shù)據(jù)集隨機(jī)按9:1 的比例分為訓(xùn)練集 ET和測試集 EV。然后基于單模體特征和多模體特征進(jìn)行權(quán)重預(yù)測,得到評價(jià)指標(biāo)RMSE 的值,如表4所示。單模體特征的最好預(yù)測效果和多模體特征的最好預(yù)測結(jié)果已加粗標(biāo)出。
通過表4 可以發(fā)現(xiàn),使用單模體特征進(jìn)行合作權(quán)重預(yù)測時(shí),其預(yù)測效果最好的單個(gè)模體特征在不同的科學(xué)家合作網(wǎng)絡(luò)中是不一樣的,在netscience和hepth 兩組數(shù)據(jù)中預(yù)測效果最好的單模體特征為特征3_2,這與在鏈路預(yù)測中的結(jié)果是相同的。另兩組數(shù)據(jù)geom 和condmat 中預(yù)測效果最好的單模體特征分別為特征4_5 和特征4_6。通過對模體特征拓?fù)浣Y(jié)構(gòu)的分析發(fā)現(xiàn),這兩個(gè)特征在拓?fù)浣Y(jié)構(gòu)上可以看作為特征3_2 的組合,所以在權(quán)重預(yù)測問題中,預(yù)測效果最好的模體特征可以視為特征3_2 以及該特征的組合。在每個(gè)網(wǎng)絡(luò)中多模體特征的預(yù)測準(zhǔn)確率比單模體特征的最好預(yù)測性能高7.1%~25.2%,說明結(jié)合科學(xué)家多種合作模式進(jìn)行權(quán)重預(yù)測效果更好。
表4 基于模體特征的合作權(quán)重預(yù)測結(jié)果(RMSE)
在合作權(quán)重預(yù)測中,本文同樣將多模體特征的預(yù)測結(jié)果與基于共同鄰居加權(quán)特征的預(yù)測方法(WCN、WAA 和WRA),和基于可靠路線加權(quán)特征的預(yù)測方法(rWCN,rWAA 和rWRA)進(jìn)行了對比,結(jié)果如表5 所示,其中最好的預(yù)測效果已加粗標(biāo)出。
表5 3 類方法的權(quán)重預(yù)測結(jié)果(RMSE)
表5 表示的是使用3 類不同方法進(jìn)行權(quán)重預(yù)測的RMSE 結(jié)果對比。分析表5 中的結(jié)果可發(fā)現(xiàn),多模體特征的合作權(quán)重預(yù)測準(zhǔn)確率比其他兩類預(yù)測方法的最高準(zhǔn)確率提高了25.8%~59.6%。
在權(quán)重預(yù)測中,同樣以netscience 網(wǎng)絡(luò)為例,在8 種模體特征中選取部分特征進(jìn)行組合,然后進(jìn)行權(quán)重預(yù)測,其結(jié)果如圖4 所示。通過圖4 可以發(fā)現(xiàn)預(yù)測效果最好的同樣為多模體特征,說明使用多模體特征的權(quán)重預(yù)測方法可大幅提高其預(yù)測準(zhǔn)確率。
在權(quán)重預(yù)測問題中,同樣使用皮爾遜相關(guān)性分析法對8 種模體特征進(jìn)行了相關(guān)性分析,結(jié)果如圖5 所示。從圖5 可以看出模體特征3_1、4_1、4_3 和4_2 同樣具有強(qiáng)相關(guān)性;此外,模體特征3_2 和4_6 具有強(qiáng)相關(guān)性,主要是因?yàn)槭悄sw特征4_6 是3_2 拓?fù)浣Y(jié)構(gòu)特征的組合,模體特征4_4 和4_5 與其他特征之間都是相互獨(dú)立的,幾乎沒有相關(guān)性。
圖4 權(quán)重預(yù)測的特征選擇方法性能比較
圖5 權(quán)重預(yù)測模體特征的相關(guān)性分析
分析表3 和表5 的數(shù)據(jù)發(fā)現(xiàn),在合作鏈路預(yù)測和權(quán)重預(yù)測中,多模體特征預(yù)測方法的準(zhǔn)確率比其他預(yù)測方法的準(zhǔn)確率要高,說明結(jié)合多種科學(xué)家之間的合作模式進(jìn)行鏈路和權(quán)重預(yù)測可有效提高預(yù)測的準(zhǔn)確率。對比鏈路預(yù)測和權(quán)重預(yù)測兩項(xiàng)預(yù)測的單模體特征預(yù)測結(jié)果(表2 和表4),可以發(fā)現(xiàn)在鏈路預(yù)測中,預(yù)測效果最好的單模體特征是模體特征3_2。在權(quán)重預(yù)測中,預(yù)測效果最好的單模體特征分別為特征3_2、4_5 和4_6,其中模體特征4_5和4_6 在拓?fù)浣Y(jié)構(gòu)上可以看作多個(gè)模體特征3_2 的組合,所以綜合以上結(jié)果,在使用單模體特征進(jìn)行鏈路預(yù)測和權(quán)重預(yù)測時(shí),預(yù)測效果最好為模體特征3_2。從結(jié)構(gòu)上看,模體特征3_2 可以表示為計(jì)算節(jié)點(diǎn)的共同鄰居數(shù)量,也是聚類系數(shù)的一種表達(dá)?;诠餐従蛹訖?quán)特征的預(yù)測方法和基于可靠路線加權(quán)特征的預(yù)測方法也是基于模體特征3_2,說明所依賴的拓?fù)浣Y(jié)構(gòu)這兩種方法是一致的?;诙嗄sw的預(yù)測相對于上述兩種方法,最大的優(yōu)勢是綜合利用了多個(gè)模體特征。
本文提出了使用多模體特征進(jìn)行科學(xué)家合作鏈路和權(quán)重預(yù)測的方法,涉及了8 種不同的科學(xué)家之間的合作模式,用來解決經(jīng)典預(yù)測方法在拓?fù)浣Y(jié)構(gòu)上僅僅利用的單一的科學(xué)家合作模式的問題,并在不同的網(wǎng)絡(luò)上進(jìn)行相關(guān)實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,結(jié)合多個(gè)模體特征進(jìn)行科學(xué)家合作預(yù)測可以有效提高預(yù)測的準(zhǔn)確率,并可有效分析不同合作模式對于預(yù)測結(jié)果的影響。本文研究有助于預(yù)測出科學(xué)家合作的可能性及其合作權(quán)重,進(jìn)而挖掘科研合作網(wǎng)絡(luò)的結(jié)構(gòu)特性對科研產(chǎn)出和科研影響力的影響。在后續(xù)研究中,將在模體特征的基礎(chǔ)上引入權(quán)重信息,即利用模體的結(jié)構(gòu)特征和權(quán)重信息進(jìn)行更準(zhǔn)確的預(yù)測。