余黃櫻子
摘要:近年來,隨著網(wǎng)絡(luò)科學(xué)的迅猛發(fā)展,鏈路預(yù)測(cè)成為目前的研究熱點(diǎn)。因其有著廣泛的應(yīng)用,例如電子商務(wù)網(wǎng)站中的商品推薦,F(xiàn)acebook、Twitter等各種社交平臺(tái)中的好友推薦,以及在生物領(lǐng)域中蛋白質(zhì)或者是基因的網(wǎng)絡(luò)機(jī)制與功能推測(cè)等,如何進(jìn)行精準(zhǔn)的鏈路預(yù)測(cè)的問題儼然備受矚目。為了更加全面而深入地了解鏈路預(yù)測(cè)領(lǐng)域,以“Web of Science”核心合集收錄的期刊論文及其參考文獻(xiàn)為研究對(duì)象,利用關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)、文獻(xiàn)共被引網(wǎng)絡(luò)以及突現(xiàn)詞分析,借助CiteSpace軟件進(jìn)行信息可視化,對(duì)鏈路預(yù)測(cè)的知識(shí)結(jié)構(gòu)與研究熱點(diǎn)進(jìn)行了深入分析。
關(guān)鍵詞:鏈路預(yù)測(cè);知識(shí)圖譜;CiteSpace
中圖分類號(hào):F27
文獻(xiàn)標(biāo)識(shí)碼:A
doi:10.19311/j.cnki.16723198.2016.17.032
0引言
隨著互聯(lián)網(wǎng)技術(shù)的日新月異,各種知識(shí)呈現(xiàn)出指數(shù)級(jí)的爆炸增長(zhǎng)趨勢(shì),人們對(duì)“網(wǎng)絡(luò)”一詞的理解也越來越豐富。起初,人們僅僅認(rèn)識(shí)到計(jì)算機(jī)組成的萬(wàn)維網(wǎng)網(wǎng)絡(luò),后來隨著認(rèn)識(shí)的逐漸深入,人們發(fā)現(xiàn)生活中無(wú)處不存在著網(wǎng)狀結(jié)構(gòu)的事物。比如說社交網(wǎng)絡(luò)的代表之一,新浪微博中的不同用戶組成的復(fù)雜的人際關(guān)系網(wǎng)絡(luò),生物領(lǐng)域中的蛋白質(zhì)分子結(jié)構(gòu)呈現(xiàn)出來的網(wǎng)狀結(jié)構(gòu),學(xué)術(shù)領(lǐng)域中存在的引文網(wǎng)絡(luò)等。因此,對(duì)網(wǎng)絡(luò)科學(xué)的研究,已成為當(dāng)下的研究熱點(diǎn)。然而,更重要的是,網(wǎng)絡(luò)是動(dòng)態(tài)變化的,研究各種不同網(wǎng)絡(luò)的性質(zhì)及其拓?fù)浣Y(jié)構(gòu)等相關(guān)知識(shí)最終是為了了解網(wǎng)絡(luò)的發(fā)展規(guī)律,對(duì)網(wǎng)絡(luò)的演化方向和趨勢(shì)進(jìn)行預(yù)測(cè),也就是進(jìn)行鏈路預(yù)測(cè),從而更好地應(yīng)對(duì)網(wǎng)絡(luò)中的突變現(xiàn)象,并將這些知識(shí)應(yīng)用到實(shí)際網(wǎng)絡(luò)中。例如,電子商務(wù)網(wǎng)站中的“您可能喜歡的商品”推薦、科技文獻(xiàn)下載后的“您可能感興趣的文獻(xiàn)”推薦,F(xiàn)acebook中的關(guān)注對(duì)象的推薦等等,由此可見,實(shí)際生活中無(wú)處不在將鏈路預(yù)測(cè)的成果進(jìn)行應(yīng)用。因而,鏈路預(yù)測(cè)儼然成為目前的研究熱點(diǎn)和難點(diǎn)。
一般而言,學(xué)科領(lǐng)域知識(shí)發(fā)展脈絡(luò)由該領(lǐng)域公認(rèn)的“學(xué)術(shù)大?!眮硗瓿蓪?duì)該學(xué)科知識(shí)的綜合梳理。通常都是利用過去已有的文獻(xiàn)進(jìn)行人工梳理,很少利用統(tǒng)計(jì)工具或者可視化軟件完成。本文采用客觀計(jì)量的方式,以2005年到2015年間,“Web of Science”核心合集收錄的與鏈路預(yù)測(cè)相關(guān)的期刊論文及其參考文獻(xiàn)為研究對(duì)象,借助陳超美開發(fā)的CiteSpace分析軟件,通過文獻(xiàn)之間存在的引用和被引用的關(guān)系進(jìn)行鏈路預(yù)測(cè)領(lǐng)域的知識(shí)結(jié)構(gòu)和研究熱點(diǎn)的整理和發(fā)現(xiàn),為之后相關(guān)領(lǐng)域的深入奠定基礎(chǔ)。
1CiteSpace工具介紹及數(shù)據(jù)采集
CiteSpace是由陳超美博士開發(fā)的一款對(duì)科學(xué)文獻(xiàn)進(jìn)行可視化分析的軟件,它能夠顯示一個(gè)學(xué)科或只適應(yīng)于在一定時(shí)期發(fā)展的趨勢(shì)和動(dòng)向,形成若干研究前沿領(lǐng)域的演進(jìn)歷程。它可以分析主流數(shù)據(jù)庫(kù)的各種科學(xué)文獻(xiàn),并且無(wú)需對(duì)文獻(xiàn)進(jìn)行繁瑣的數(shù)據(jù)預(yù)處理,只需用戶進(jìn)行簡(jiǎn)單的操作,即可自動(dòng)生成揭示某學(xué)科領(lǐng)域知識(shí)結(jié)構(gòu)隨著時(shí)間的演變趨勢(shì),幫助用戶迅速發(fā)現(xiàn)研究某學(xué)科領(lǐng)域的領(lǐng)軍人物、相關(guān)研究機(jī)構(gòu)和科研人員,還可以幫助用戶梳理整個(gè)學(xué)科領(lǐng)域的知識(shí)圖譜,以便更全面地認(rèn)識(shí)該學(xué)科領(lǐng)域。
考慮到文獻(xiàn)的質(zhì)量,本文的數(shù)據(jù)源自Web of Science(以下簡(jiǎn)稱WOS)引文索引數(shù)據(jù)庫(kù)中的核心合集中的“SCI-EXPANDED”,以“l(fā)ink Prediction”為主題,文獻(xiàn)類型選擇“Article”,時(shí)間跨度從2005年到2015年,語(yǔ)種選擇英語(yǔ),進(jìn)行檢索,總共檢索到11995篇文獻(xiàn)記錄。文獻(xiàn)記錄下載時(shí)間為2016年4月24日。
2鏈路預(yù)測(cè)的知識(shí)結(jié)構(gòu)分析
由于引用文獻(xiàn)與被引用文獻(xiàn)的研究?jī)?nèi)容之間存在著相關(guān)性,并且各種參考文獻(xiàn)之間同樣存在著這種內(nèi)容研究上的關(guān)聯(lián),參考文獻(xiàn)之間的這種關(guān)系會(huì)隨著被引次數(shù)的增加而加強(qiáng)?;诖?,建立引文網(wǎng)絡(luò)即可細(xì)分該領(lǐng)域的研究方向,厘清該領(lǐng)域研究的發(fā)展脈絡(luò),因此網(wǎng)絡(luò)中被引頻次高的文獻(xiàn)即可被看作是本領(lǐng)域的知識(shí)基礎(chǔ)。
本文利用CiteSpace軟件對(duì)上述從WOS上下載文獻(xiàn)記錄的相關(guān)數(shù)據(jù)進(jìn)行分析。其中,時(shí)間區(qū)間選擇2005年到2015年,時(shí)間分割默認(rèn)為為1年,術(shù)語(yǔ)來源選擇標(biāo)題、摘要、關(guān)鍵詞,屬于類型選擇burst terms,即頻次變化率高的詞。在引文數(shù)量(C)、共被引頻次(CC)和共被引系數(shù)(CCV)三個(gè)層次上,按前中后三個(gè)時(shí)區(qū)分別設(shè)定閾值為(2,2,20),(4,3,20),(4,3,20),其余的由線性內(nèi)插值來決定。由于文獻(xiàn)數(shù)量較多,因此需要對(duì)復(fù)雜的網(wǎng)絡(luò)進(jìn)行剪裁,則相關(guān)的參數(shù)設(shè)置為路徑尋找、修剪片段網(wǎng)絡(luò)和合并網(wǎng)絡(luò),最終生成靜態(tài)聚類圖,最終以合并網(wǎng)絡(luò)的形式展示結(jié)果。結(jié)果如表1所示。
利用CiteSpace繪制出鏈路預(yù)測(cè)領(lǐng)域的11995篇文獻(xiàn)的共被引分析圖譜,結(jié)果見圖1。
在圖1中,整個(gè)文獻(xiàn)共被引網(wǎng)絡(luò)由345個(gè)節(jié)點(diǎn)、370條連邊組成。其中,每一個(gè)圓形節(jié)點(diǎn)都表示一篇被引文獻(xiàn),引文年輪表示該篇文獻(xiàn)的引文歷史,引文年輪的顏色表示相應(yīng)的引文時(shí)間,每一個(gè)年輪的厚度與某個(gè)時(shí)間分區(qū)內(nèi)引文數(shù)量成正比。兩個(gè)節(jié)點(diǎn)之間連線的粗細(xì)表示節(jié)點(diǎn)共被引的次數(shù),線條越粗表示共被引次數(shù)越多。其中帶有紫紅色光圈的節(jié)點(diǎn)具有較高的中心性,與其他節(jié)點(diǎn)之間的聯(lián)系也越緊密。
其次,利用聚類算法對(duì)數(shù)似然比(Log-Likelihood Ratio,以下簡(jiǎn)稱LLR)算法進(jìn)行文獻(xiàn)共被引聚類,其中,聚類指標(biāo)Modularity Q為0.8639、Mean silhouette為0.4171,聚類結(jié)果見圖2。
由于聚類指標(biāo)Modularity Q介于0和1之間,數(shù)值越趨向于1,說明模塊性越好,聚類內(nèi)的聯(lián)系越緊密,聚類間的聯(lián)系越松散。Mean silhouette的取值介于-1到1之間,值越趨向于1,則聚類主題越明確,聚類內(nèi)文章內(nèi)容越相似。由此可見,本文的聚類效果是較好的。
聚類產(chǎn)生15個(gè)類別,表示鏈路預(yù)測(cè)領(lǐng)域涵蓋了15個(gè)研究類群,從LLR算法抽詞并對(duì)每個(gè)類進(jìn)行自動(dòng)標(biāo)引的結(jié)果來看,見表2。鏈路預(yù)測(cè)主要是在生物學(xué)、醫(yī)學(xué)、人類學(xué)、社會(huì)學(xué)、網(wǎng)絡(luò)科學(xué)中的研究居多。其中在生物學(xué),主要是研究基因的表達(dá)、蛋白質(zhì)的結(jié)構(gòu)和功能預(yù)測(cè);在醫(yī)學(xué),主要是研究疾病的傳播、預(yù)測(cè)與控制;在人類學(xué)中,主要是研究物種的形成、群落的演化;在社會(huì)學(xué)中,主要是研究社會(huì)輿情、突發(fā)事件在網(wǎng)絡(luò)上的傳播、預(yù)測(cè)和控制;在網(wǎng)絡(luò)科學(xué)中,主要是研究復(fù)雜網(wǎng)絡(luò)的結(jié)構(gòu)、性質(zhì),以及各種預(yù)測(cè)算法,主要偏于理論化。
3鏈路預(yù)測(cè)的研究熱點(diǎn)
研究熱點(diǎn)指的是在特定時(shí)間段內(nèi),相對(duì)較多的論文研究的主題呈現(xiàn)出一種集中趨勢(shì)。本文將從關(guān)鍵詞的共現(xiàn)分析來總結(jié)出研究熱點(diǎn)。CiteSpace的各種參數(shù)與分析共被引文獻(xiàn)的參數(shù)設(shè)置相同,熱點(diǎn)詞匯圖譜見圖3。網(wǎng)絡(luò)中共有116個(gè)節(jié)點(diǎn),128條連邊。
然后選取LLR算法對(duì)每個(gè)聚類標(biāo)簽進(jìn)行標(biāo)引結(jié)果產(chǎn)生11個(gè)聚類,即表示鏈路預(yù)測(cè)領(lǐng)域的11個(gè)研究熱點(diǎn)(圖4),其中,聚類指標(biāo)Modularity Q為0.8054、Mean silhouette為0.9083,說明聚類效果很好,即類與類之間差別足夠大,類內(nèi)節(jié)點(diǎn)足夠相似。
由于CiteSpace中對(duì)關(guān)鍵詞的分析是從原文的題目、摘要、關(guān)鍵詞中抽取,而這些詞帶有作者本身的主觀性,聚類標(biāo)簽可能無(wú)法精確表達(dá)研究熱點(diǎn)。因此,在CiteSpace聚類的基礎(chǔ)上,對(duì)聚類的施引文獻(xiàn)和被引文獻(xiàn)進(jìn)行全面分析,本文總結(jié)出鏈路預(yù)測(cè)領(lǐng)域以下研究熱點(diǎn)。
3.1生物網(wǎng)絡(luò)領(lǐng)域
幾十億年來,生物一直在進(jìn)化。無(wú)論是微觀上的一個(gè)細(xì)胞還是宏觀上的一個(gè)物種,其內(nèi)部結(jié)構(gòu)都在不斷地發(fā)生演化,傳統(tǒng)的關(guān)于生物的研究已經(jīng)是相對(duì)比較成熟了,而網(wǎng)絡(luò)生物學(xué)的發(fā)展給生物學(xué)領(lǐng)域的研究帶來了全新的視角,尤其是生物網(wǎng)絡(luò)中的鏈路預(yù)測(cè)研究。例如,利用蛋白質(zhì)之間的相互作用,預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)和功能。根據(jù)基因的表達(dá)來預(yù)測(cè)人類致病基因等等。這些在現(xiàn)代醫(yī)學(xué)中有很多應(yīng)用。
3.2社會(huì)網(wǎng)絡(luò)領(lǐng)域
社會(huì)網(wǎng)絡(luò)就是以人或者組織為節(jié)點(diǎn)的社會(huì)關(guān)系網(wǎng)絡(luò),如Facebook、Twitter、新浪微博、引文網(wǎng)絡(luò)等等。近年來,社交網(wǎng)絡(luò)蓬勃興起,社交網(wǎng)絡(luò)上的關(guān)注對(duì)象、話題推薦或者朋友推薦就是鏈路預(yù)測(cè)的一個(gè)很好的應(yīng)用。WANG Peng等人總結(jié)出在社會(huì)網(wǎng)絡(luò)中,鏈路預(yù)測(cè)研究主要是在社會(huì)化推薦、關(guān)系預(yù)測(cè)、網(wǎng)絡(luò)重構(gòu)、在學(xué)術(shù)領(lǐng)域中尋找專家和合作者等方面。
3.3網(wǎng)絡(luò)理論研究
與網(wǎng)絡(luò)理論相關(guān)的研究就是針對(duì)網(wǎng)絡(luò)的結(jié)構(gòu)、性質(zhì)和演化機(jī)理進(jìn)行研究。如何利用網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)屬性刻畫網(wǎng)絡(luò),進(jìn)而更好地對(duì)網(wǎng)絡(luò)的發(fā)展趨勢(shì)進(jìn)行預(yù)測(cè),是目前理論研究的熱點(diǎn)。如何處理超規(guī)模網(wǎng)絡(luò)、多層異質(zhì)網(wǎng)絡(luò),如何提高預(yù)測(cè)精度是目前研究的重點(diǎn)和難點(diǎn)。
4結(jié)論
本文利用CiteSpace文獻(xiàn)計(jì)量工具對(duì)鏈路預(yù)測(cè)領(lǐng)域的知識(shí)結(jié)構(gòu)和研究熱點(diǎn)進(jìn)行分析,研究表明:鏈路預(yù)測(cè)的知識(shí)結(jié)構(gòu)涵蓋了多門學(xué)科,研究十分廣泛,主要集中于生物網(wǎng)絡(luò)、社會(huì)網(wǎng)絡(luò)、網(wǎng)絡(luò)理論研究。
本文的不足之處在于,僅僅只是涵蓋了WOS中的SCI數(shù)據(jù)庫(kù)中的文獻(xiàn)進(jìn)行分析,忽略了未被收錄的而且質(zhì)量高的文獻(xiàn),在一定程度上影響了分析結(jié)果。
參考文獻(xiàn)
[1]陳悅,陳超美,劉則淵,等.CiteSpace知識(shí)圖譜的方法論功能[J].科學(xué)學(xué)研究,2015,33(2):242253.
[2]衛(wèi)軍朝,蔚海燕.基于CiteSpaceⅡ的數(shù)字圖書館研究熱點(diǎn)分析[J].圖書館雜志,2011,30(4):7077.
[3]Mamitsuka H.Mining from protein–protein interactions[J].Wiley Interdisciplinary Reviews:Data Mining and Knowledge Discovery,2012,2(5):400410.
[4]Wu X,Jiang R,Zhang M Q,et al.Network‐based global inference of human disease genes[J].Molecular systems biology,2008,4(1):189.
[5]Wang P,Xu B W,Wu Y R,et al.Link prediction in social networks:the state-of-the-art[J].Science China Information Sciences,2015,58(1):138.
[6]呂琳媛,周濤.鏈路預(yù)測(cè)[M].北京:高等教育出版社,2013.