馬慧芳,胡東林,劉宇航,李志欣
(1.西北師范大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,甘肅 蘭州 730070;2.桂林電子科技大學(xué)廣西可信軟件重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541004;3.廣西師范大學(xué)廣西多源信息挖掘與安全重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541004)
科研社交網(wǎng)站旨在為研究人員提供在線的以科學(xué)研究為導(dǎo)向的活動(dòng)[1]、作者署名識(shí)別[2]、學(xué)術(shù)文本功能識(shí)別[3]、發(fā)布自己的研究成果(如論文、基金項(xiàng)目)[4,5]以及發(fā)現(xiàn)相同研究領(lǐng)域的學(xué)者或團(tuán)體以快速挖掘出“合作關(guān)系緊密”“潛在的”合作者。在學(xué)術(shù)資源非常寶貴的前提下,研究人員數(shù)量的不斷增長(zhǎng)給彼此帶來(lái)了更多的合作機(jī)會(huì)。在學(xué)術(shù)界,作者之間的頻繁合作對(duì)科研發(fā)展有一定的促進(jìn)作用。然而,如何為研究人員快速選擇最有價(jià)值的合作者并非易事,合作者推薦也顯得尤為必要。
近年來(lái),研究人員已從不同的角度提出了合作者推薦方法。如Tang等人[6]提出了解決跨領(lǐng)域中存在的稀疏連接和主題偏離的CTL (Cross- domain Topic Learning)方法。Sun等人[7]提出了一種基于元路徑的關(guān)系預(yù)測(cè)模型來(lái)解決異構(gòu)網(wǎng)絡(luò)中存在多種類型的對(duì)象(例如作者、主題和論文)以及這些對(duì)象之間存在多種類型的鏈接預(yù)測(cè)問(wèn)題。Li等人[8]提出了ACRec (Academic Collaboration Recommendation)方法,其使用3個(gè)學(xué)術(shù)指標(biāo)的隨機(jī)游走方法推薦新合作者,通過(guò)計(jì)算的鏈接重要性,使隨機(jī)游走者更有可能訪問(wèn)有價(jià)值的節(jié)點(diǎn)。Rêgo等人[9]研究了合作網(wǎng)絡(luò)的形成模型,認(rèn)為作者的貢獻(xiàn)與合作者的數(shù)量以及作者與其他作者合作的相對(duì)努力大小有關(guān)。Makarov等人[10]使用node2vec網(wǎng)絡(luò)嵌入和新的邊緣嵌入運(yùn)算符嵌入方法研究合作網(wǎng)絡(luò)中合作量的預(yù)測(cè)問(wèn)題。此外,合作者推薦也可被看作是社區(qū)搜索,一般地,可將科研社交網(wǎng)絡(luò)建模為由節(jié)點(diǎn)和邊組成的圖,節(jié)點(diǎn)表示研究者關(guān)注的實(shí)體,邊表示實(shí)體與實(shí)體之間的關(guān)系,如作者合作關(guān)系。行之有效的向科研人員推薦適合的合作者的方法本質(zhì)上就是在圖中找到包含特定節(jié)點(diǎn)的最合適社區(qū),該過(guò)程也稱為社區(qū)搜索[11]?,F(xiàn)有的社區(qū)搜索方法包括2類:(1)網(wǎng)絡(luò)拓?fù)湎嚓P(guān)的社區(qū)搜索,指尋找包含給定節(jié)點(diǎn)集且滿足k-clique[12]、k-core[13]或k-truss[14]等特定拓?fù)浣Y(jié)構(gòu)的社區(qū);(2)綜合考慮了網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)屬性的社區(qū)搜索[15]。Sourabh等人[16]已將社區(qū)搜索方法成功地運(yùn)用到了推薦系統(tǒng)中。上述工作中,Rêgo等人[9]和Sourabh等人[16]提出的方法與本文方法最相關(guān),但前者沒(méi)有采用社區(qū)搜索方法并對(duì)合作網(wǎng)絡(luò)進(jìn)行雙加權(quán);后者雖然將社區(qū)搜索方法運(yùn)用到了合作者推薦方法中,但沒(méi)有同時(shí)考慮合作網(wǎng)絡(luò)的結(jié)構(gòu)信息與屬性信息,并且忽略了推薦的作者質(zhì)量高低以及一篇論文具有多個(gè)合作者等特殊情況。
針對(duì)以上問(wèn)題,本文提出了一種融合作者合作強(qiáng)度與研究興趣的合作者推薦CRISI(Collaborator Recommendation via Integrating author’s cooperation Strength and research Interest)方法。首先,利用合作網(wǎng)絡(luò)的結(jié)構(gòu)信息(合作強(qiáng)度大小)與屬性信息(研究興趣相似程度)構(gòu)建雙加權(quán)網(wǎng)絡(luò);其次,設(shè)計(jì)種子替換方法尋找種子節(jié)點(diǎn),即影響力大的作者;再次,基于分?jǐn)?shù)k-core社區(qū)搜索方法搜索合適的目標(biāo)社區(qū),使用這種方式可以推薦與其他研究人員合作強(qiáng)度較高的合作者;最后,在DBLP(Digital Bibliography and Library Project)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證本文方法的有效性。
二分圖又稱為二部圖,是圖論中的一種特殊模型,在復(fù)雜網(wǎng)絡(luò)研究中具有重要的意義,它可以模擬2類實(shí)體之間的關(guān)系,同類實(shí)體之間無(wú)邊,不同類實(shí)體之間可能有邊。例如作者和論文,查詢和網(wǎng)頁(yè)等。以本文使用的DBLP數(shù)據(jù)集為例,構(gòu)建作者和論文形成的二分圖。DBLP作為計(jì)算機(jī)領(lǐng)域內(nèi)計(jì)算機(jī)類英文文獻(xiàn)的集成數(shù)據(jù)庫(kù),以作者為核心,按年代列出了作者的科研成果,其中涵蓋了國(guó)際期刊和會(huì)議等公開發(fā)表的論文。
形式化地,設(shè)G=(A∪P,D)是一個(gè)作者-論文二分圖,如圖1所示。其中,A={a1,a2,…,an}表示作者集合,P={p1,p2,…,pm}表示論文集合,D表示邊集合,同類節(jié)點(diǎn)(作者與作者、論文與論文)之間無(wú)邊,不同類節(jié)點(diǎn)(作者與論文)之間可能有邊。
Figure 1 Example of author-paper bipartite graph圖1 作者-論文二分圖示例
由作者-論文二分圖G構(gòu)建作者合作關(guān)系圖T=(A,E,B),其中A表示作者集合,E表示邊集合,(ai,aj)∈E表示作者ai與作者aj有過(guò)合作關(guān)系,即存在邊;B=[b1,b2,…,bn]∈Rk×n是一個(gè)屬性矩陣,其屬性向量bi是每一個(gè)節(jié)點(diǎn)ai∈A對(duì)應(yīng)的k維向量;使用一個(gè)對(duì)稱權(quán)重矩陣W=[wij]n×n存儲(chǔ)作者ai和作者aj之間邊上的權(quán)重,其權(quán)重大小由作者間合作強(qiáng)度和作者研究興趣相似度決定。僅僅單方面通過(guò)作者間的合作強(qiáng)度(結(jié)構(gòu))或研究興趣相似性(屬性)來(lái)計(jì)算邊的權(quán)重,這不足以有效地捕獲作者間的合作緊密性。所以,同時(shí)對(duì)結(jié)構(gòu)和屬性加權(quán)可以有效地提升推薦效果。
本節(jié)詳細(xì)描述融合作者合作強(qiáng)度與研究興趣推薦方法的基本過(guò)程。首先同時(shí)考慮結(jié)構(gòu)和屬性構(gòu)建雙加權(quán)網(wǎng)絡(luò),其次利用提出的種子替換方法挖掘種子節(jié)點(diǎn),最后使用分?jǐn)?shù)k-core社區(qū)搜索方法給待推薦作者搜索合適的目標(biāo)社區(qū),如圖2所示。
Figure 2 Example of integrating author cooperation strength and research interest圖2 融合作者合作強(qiáng)度與研究興趣的示例圖
圖2描述了融合作者合作強(qiáng)度與研究興趣的基本過(guò)程。節(jié)點(diǎn)表示作者,每個(gè)節(jié)點(diǎn)都有一個(gè)與之關(guān)聯(lián)的屬性列表,用于定義作者的屬性。以作者4作為待推薦節(jié)點(diǎn)為例,考慮以下2種情況:(1)直接將作者4作為種子節(jié)點(diǎn),利用傳統(tǒng)的k-core方法搜索社區(qū),得到與作者4有直接合作關(guān)系的社區(qū),如圖2的右上方框所示,此社區(qū)由作者3、作者4、作者5和作者6構(gòu)成;(2)圖2右下方框使用本文的種子替換方法和分?jǐn)?shù)k-core方法則可以找到一個(gè)由作者3、作者4、作者6、作者7和作者8構(gòu)成的目標(biāo)社區(qū),如圖2的右下方框所示。通過(guò)比較圖2右上方和右下方的2個(gè)圖,可以看出,本文方法找到的社區(qū)具有合作關(guān)系強(qiáng)度大、興趣類似的特點(diǎn)。
(1)合作關(guān)系強(qiáng)度計(jì)算。在作者合作關(guān)系網(wǎng)絡(luò)中,作者間的合作次數(shù)在一定程度上反映了網(wǎng)絡(luò)的緊密性。如果作者間的合作次數(shù)越多,作者間的合作關(guān)系強(qiáng)度越大,網(wǎng)絡(luò)連接就越緊密。作者間的合作強(qiáng)度定義如式(1)所示:
(1)
其中,cij表示作者ai與作者aj之間的合作強(qiáng)度,xij表示作者ai和作者aj之間的合作次數(shù)。
(2)作者研究興趣相似度計(jì)算。以DBLP數(shù)據(jù)集上作者在6個(gè)研究領(lǐng)域[17]以及在每個(gè)領(lǐng)域已發(fā)表的論文篇數(shù)為依據(jù),構(gòu)建每個(gè)作者ai的屬性向量bi=[b1,b2,…,b6]T,其中每個(gè)維度的屬性值為作者ai在對(duì)應(yīng)領(lǐng)域發(fā)表的論文數(shù)量,則可利用余弦相似度度量作者研究興趣相似度,定義如式(2)所示:
(2)
其中,sij表示作者ai與作者aj之間的研究興趣相似度值。
最后,定義作者ai與作者aj之間的邊上的雙加權(quán)重如式(3)所示:
wij=r×cij+(1-r)×sij
(3)
其中,r∈(0,1),用來(lái)調(diào)整作者間合作強(qiáng)度與研究興趣相似度所占比例的大小。經(jīng)實(shí)驗(yàn)發(fā)現(xiàn),將r設(shè)置為0.6時(shí)實(shí)驗(yàn)效果最佳,具體分析見(jiàn)4.2.2節(jié)。
在作者合作關(guān)系網(wǎng)絡(luò)中,社區(qū)搜索中的查詢節(jié)點(diǎn)對(duì)查詢結(jié)果有很大的影響??紤]到直接使用待推薦節(jié)點(diǎn)搜索社區(qū),找到的社區(qū)中成員很有可能質(zhì)量不高,于是本文設(shè)計(jì)了一種挖掘高質(zhì)量的種子節(jié)點(diǎn)替換方法,從而搜索合作關(guān)系強(qiáng)度較大的目標(biāo)社區(qū)。以下給出挖掘種子節(jié)點(diǎn)方法的相關(guān)定義及具體描述。
定義1(節(jié)點(diǎn)的鄰居社區(qū))A中任意節(jié)點(diǎn)a的鄰居社區(qū)如式(4)所示:
N(a)={ai|(a,ai)∈E}∪{a}
(4)
其中,(a,ai)∈E表示有邊,E是作者合作關(guān)系圖中的邊集合。
定義2(節(jié)點(diǎn)質(zhì)量) 節(jié)點(diǎn)a的質(zhì)量如式(5)所示:
(5)
其中,|E|表示圖中的總邊數(shù),Q(a)表示節(jié)點(diǎn)a的鄰居邊數(shù)與總邊數(shù)的比值,即表示節(jié)點(diǎn)a的中心性。由于節(jié)點(diǎn)質(zhì)量的計(jì)算涉及到節(jié)點(diǎn)鄰居社區(qū)中邊的數(shù)量,引入節(jié)點(diǎn)質(zhì)量作為局部節(jié)點(diǎn)中心度指標(biāo),較大的節(jié)點(diǎn)質(zhì)量值意味著節(jié)點(diǎn)的中心性越高,節(jié)點(diǎn)的影響力就越大。
定義3(節(jié)點(diǎn)影響區(qū)域) 2個(gè)相鄰節(jié)點(diǎn)ai,aj之間的影響區(qū)域如式(6)所示:
IA(ai,aj)={a|a∈N(ai)∩N(aj)}
(6)
定義4(節(jié)點(diǎn)影響區(qū)域密度) 影響區(qū)域中的節(jié)點(diǎn)密度[18]如式(7)所示:
dIA(ai,aj)=
(7)
定義5(節(jié)點(diǎn)關(guān)系強(qiáng)度) 2個(gè)相鄰節(jié)點(diǎn)ai,aj之間的關(guān)系強(qiáng)度如式(8)所示:
(8)
從式(8)中可看出,節(jié)點(diǎn)屬性越相似,影響區(qū)域密度越大,節(jié)點(diǎn)關(guān)系強(qiáng)度值就越大,意味著相鄰節(jié)點(diǎn)之間合作越緊密。
在很多情況下,由于待推薦節(jié)點(diǎn)往往帶有主觀特性且包含的信息量有限,直接將其作為種子節(jié)點(diǎn),會(huì)使得搜索的目標(biāo)社區(qū)中作者之間鏈接稀疏。算法1將用戶給定的待推薦節(jié)點(diǎn)替換為目標(biāo)社區(qū)中的種子節(jié)點(diǎn)。
算法1挖掘種子(作者)節(jié)點(diǎn)的方法
輸入:圖T=(A,E,B),節(jié)點(diǎn)ar。
輸出:目標(biāo)社區(qū)的種子節(jié)點(diǎn)ass。
1:ass=ar;
2:MaxNRS=0;
3:使用式(4)計(jì)算N(ar);
4:使用式(5)計(jì)算Q(ar);
5:do
6:forallai∈N(ar)do
7: 使用式(5)計(jì)算Q(ai);
8:ifQ(ai)>Q(ar)then
9: 使用式(8)計(jì)算NRS(ar,ai);
10:ifNRS(ar,ai) >MaxNRSthen
11:MaxNRS=NRS(ar,ai);
12:endif
13:endif
14:endfor
15:while(節(jié)點(diǎn)ass的質(zhì)量小于圖T中所有節(jié)點(diǎn)的質(zhì)量)
16:輸出ass。
在算法1中,第1行將節(jié)點(diǎn)ar賦值給種子節(jié)點(diǎn)ass,第2行將最大節(jié)點(diǎn)關(guān)系強(qiáng)度MaxNRS的初始值設(shè)置為0;第8行確保候選鄰居節(jié)點(diǎn)的質(zhì)量大于節(jié)點(diǎn)ar的質(zhì)量;第10~12行確保候選鄰居節(jié)點(diǎn)與節(jié)點(diǎn)ar有最強(qiáng)的關(guān)系;第15行重復(fù)使用候選鄰居節(jié)點(diǎn)迭代地替換當(dāng)前節(jié)點(diǎn),直到找不到比當(dāng)前節(jié)點(diǎn)質(zhì)量大的節(jié)點(diǎn)停止;第16行最終輸出與節(jié)點(diǎn)ar合作強(qiáng)度高且質(zhì)量最大的節(jié)點(diǎn)作為種子節(jié)點(diǎn)ass。
社區(qū)搜索中一個(gè)非常重要的問(wèn)題就是定義目標(biāo)社區(qū)的聯(lián)系緊密程度,研究人員常利用k-core定義局部社區(qū)鏈接的緊密程度,其具體定義[19]如下所示:
定義6(k-core) 給定一個(gè)整數(shù)k(k≥0),圖T的k-core是該圖的一個(gè)最大子圖H,其中圖H中的每一個(gè)節(jié)點(diǎn)的度degH(ai)都大于或等于k,即?ai∈H,degH(ai)≥k。
然而,在現(xiàn)實(shí)世界中存在某些論文的作者數(shù)量很龐大,甚至有的有一百多位作者,而這些作者之間雖然存在互相合作關(guān)系,但也僅合作一次,使得搜索到的社區(qū)并不是某個(gè)作者想要的。如以本文采用的DBLP數(shù)據(jù)集為例,有114位作者共同參與了同一篇論文的合作,而其中多數(shù)作者從未參與過(guò)其他論文的合作,若使用傳統(tǒng)的k-core社區(qū)搜索方法,當(dāng)k=113時(shí),發(fā)現(xiàn)最終得到的目標(biāo)社區(qū)中這些作者之間的合作強(qiáng)度較低。所以,本文方法可以有效地基于分?jǐn)?shù)k-core方法來(lái)應(yīng)對(duì)合作次數(shù)少且作者人數(shù)多的情況。
定義7(節(jié)點(diǎn)分?jǐn)?shù)度) 圖T中節(jié)點(diǎn)ai的分?jǐn)?shù)度定義如式(9)所示:
(9)
其中,E(ai)表示節(jié)點(diǎn)ai的邊集,wij是作者ai和作者aj構(gòu)建的邊上的權(quán)重。
定義8(分?jǐn)?shù)k-core) 給定一個(gè)有理數(shù)f,圖T的分?jǐn)?shù)k-core是該圖的一個(gè)最大子圖F,圖F中的每一個(gè)節(jié)點(diǎn)的分?jǐn)?shù)度都不小于f,即?ai∈F,FDegF(ai)≥f[20]。
從定義8看出,盡管分?jǐn)?shù)k-core與k-core定義類似,但分?jǐn)?shù)k-core中的節(jié)點(diǎn)引入了分?jǐn)?shù)度的約束,更為嚴(yán)格,對(duì)應(yīng)的子圖滿足權(quán)重的約束,即體現(xiàn)了作者間合作強(qiáng)度與研究興趣相似度,使得搜索得到的子圖更有意義。特別地,在作者合作關(guān)系圖中,分?jǐn)?shù)k-core會(huì)將僅僅合作過(guò)一次的大量作者形成的子圖過(guò)濾掉,具體過(guò)程如算法2所示。
算法2分?jǐn)?shù)k-core社區(qū)搜索方法
輸入:有理數(shù)f,圖T=(A,E,B)。
輸出:子圖F。
1:F=T;
2:forallai∈Ado
3: 使用式(9)計(jì)算每個(gè)節(jié)點(diǎn)的FDegF(ai);
4:endfor;
5:whileFDegF(ai)>f
6: 刪除節(jié)點(diǎn)ai;
7:endwhile
8:return子圖F;
算法2描述對(duì)于給定一個(gè)合適的f值,可以找到包含種子節(jié)點(diǎn)在內(nèi)的最大分?jǐn)?shù)k-core子社區(qū)作為可推薦目標(biāo)社區(qū)。第2~4行計(jì)算每個(gè)節(jié)點(diǎn)的分?jǐn)?shù)度;第5~7行刪除節(jié)點(diǎn)分?jǐn)?shù)度小于給定f值的節(jié)點(diǎn);第8行輸出包含種子節(jié)點(diǎn)ass在內(nèi)的具有最大f值的分?jǐn)?shù)k-core的一個(gè)子圖(子社區(qū))F。
合適的合作者推薦有助于提高作者的研究質(zhì)量,加快其研究進(jìn)程??紤]到作者之間存在合作關(guān)系或某些作者與其他作者之間不存在合作關(guān)系(冷啟動(dòng)用戶)的2種情況,在作者合作關(guān)系網(wǎng)絡(luò)中,對(duì)于冷啟動(dòng)用戶,通過(guò)待推薦作者的主頁(yè)查找他感興趣的論文,尋找論文中與他有過(guò)合作關(guān)系的作者。然后,使用算法1挖掘質(zhì)量高且合作關(guān)系強(qiáng)的作者作為種子節(jié)點(diǎn)。最后,利用算法2搜索合適的目標(biāo)社區(qū)。
對(duì)于一個(gè)給定的作者a,先使用上述搜索方法得到目標(biāo)社區(qū),然后利用式(9)計(jì)算該目標(biāo)社區(qū)中每位作者的節(jié)點(diǎn)分?jǐn)?shù)度并降序排序形成推薦列表。
數(shù)據(jù)集:本文選取了DBLP數(shù)據(jù)集中2013年1月之前,53 872位作者主要在“人工智能”(AI)、“計(jì)算機(jī)視覺(jué)”(CV)、“數(shù)據(jù)庫(kù)”(DB)、“數(shù)據(jù)挖掘”(DM)、“信息檢索”(IR)和“機(jī)器學(xué)習(xí)”(ML)領(lǐng)域發(fā)表的65 006篇論文[17],如表1所示。
Table 1 DBLP experimental data statistics
本文利用以下社區(qū)搜索評(píng)價(jià)指標(biāo):加權(quán)模塊度Q(F)(Modularity)[21]和加權(quán)電導(dǎo)率C(F) (Conductance)[22]來(lái)評(píng)估推薦社區(qū)的質(zhì)量,其中,F(xiàn)表示特定社區(qū)。
模塊度也稱模塊化度量值,是一種常用的衡量網(wǎng)絡(luò)社區(qū)內(nèi)部緊密程度的指標(biāo)。具體來(lái)說(shuō),模塊度的大小定義為實(shí)際情況下社區(qū)內(nèi)部2個(gè)節(jié)點(diǎn)連接強(qiáng)度與將網(wǎng)絡(luò)隨機(jī)連接情況下社區(qū)內(nèi)2個(gè)節(jié)點(diǎn)連接強(qiáng)度的差異,定義如式(10)所示:
(10)
其中,w表示社區(qū)F中邊的權(quán)值總和,wij表示社區(qū)F中節(jié)點(diǎn)ai與aj邊上的權(quán)值,wi表示社區(qū)F中節(jié)點(diǎn)ai的所有連邊的權(quán)值之和。Q(F)值越大表明社區(qū)緊密性越強(qiáng)。
電導(dǎo)率是一種衡量社區(qū)內(nèi)一組節(jié)點(diǎn)的組織緊密度的指標(biāo),定義為平行割與社區(qū)容積的比值。平行割指的是社區(qū)內(nèi)節(jié)點(diǎn)與社區(qū)外節(jié)點(diǎn)的連邊數(shù)與社區(qū)內(nèi)部節(jié)點(diǎn)之間的連邊數(shù)比值;社區(qū)容積指的是社區(qū)中所有節(jié)點(diǎn)度的和。具體定義如式(11)~式(13)所示:
(11)
(12)
(13)
其中,Vol(F)表示社區(qū)F的容積;deg(ai)表示節(jié)點(diǎn)ai的度;P_Cut(F)表示社區(qū)F的平行割;C(F)表示社區(qū)F的電導(dǎo)率,電導(dǎo)率越小,表示社區(qū)內(nèi)節(jié)點(diǎn)之間的連接越緊密,C(F)取值為0~1。
對(duì)比方法:選取本文方法的3種變體和4種經(jīng)典的合作者推薦方法與本文方法進(jìn)行比較。具體包括:(1) CRISI-1方法,其利用本文設(shè)計(jì)的種子替換方法和傳統(tǒng)k-core方法進(jìn)行社區(qū)搜索;(2)CRISI-2方法,其直接利用待推薦用戶和本文的分?jǐn)?shù)k-core方法進(jìn)行社區(qū)搜索;(3)CRISI-3方法,直接利用待推薦用戶和傳統(tǒng)的k-core方法進(jìn)行社區(qū)搜索;(4) ACRec[8]方法利用3個(gè)學(xué)術(shù)指標(biāo)計(jì)算鏈接的重要性,以使隨機(jī)游走者更有可能訪問(wèn)有價(jià)值的節(jié)點(diǎn),但此方法只考慮了結(jié)構(gòu)信息并未考慮節(jié)點(diǎn)的屬性信息;(5) CAMLS(Co-Authorship Model with Link Strength)[9]方法研究合作網(wǎng)絡(luò)的形成模型,其中作者的利益不僅取決于合作者的數(shù)量,還取決于作者與其他作者合作的相對(duì)努力大??;(6)PEER(PEER recommendation in dynamic attributed graphs)[16]在屬性圖上使用動(dòng)態(tài)社區(qū)搜索,以進(jìn)行同行推薦;(7)ARBCI(co-Author Recommendations Betweenness Centrality and Interest similarity)[23]方法基于節(jié)點(diǎn)的中介中心性和興趣相似性為作者產(chǎn)生推薦,雖然考慮了節(jié)點(diǎn)的結(jié)構(gòu)和屬性信息,但沒(méi)有使用高質(zhì)量的種子節(jié)點(diǎn)搜索社區(qū)和過(guò)濾掉合作次數(shù)很少的作者形成的社區(qū)。
4.2.1 種子節(jié)點(diǎn)替換的分析
為了驗(yàn)證種子節(jié)點(diǎn)替換對(duì)社區(qū)搜索結(jié)果的影響,將本文方法與對(duì)比方法進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表2所示。
由表2可以看出,本文提出的CRISI方法的性能優(yōu)于其他7種方法,同時(shí)其變體CRISI-1方法的性能與CRISI的接近,原因是這2種方法都使用了種子替換方法找出高質(zhì)量的種子節(jié)點(diǎn)來(lái)搜索社區(qū),而其他6種方法都沒(méi)有使用此方法,所以它們?cè)诜N子節(jié)點(diǎn)替換分析結(jié)果中表現(xiàn)的性能較差。
Table 2 Influence of seed node replacement on results
同時(shí)發(fā)現(xiàn)變體CRISI-2、PEER和變體CRISI-3這3種方法雖然沒(méi)有考慮種子替換方法,但3者都使用了不同的社區(qū)搜索方法來(lái)搜索社區(qū),其最終挖掘的社區(qū)緊密性高于ARBCI、CAMLS和ACRec 3種都沒(méi)有使用種子替換方法和社區(qū)搜索方法找到的社區(qū)的緊密性。
4.2.2 參數(shù)r的影響
本節(jié)將探索調(diào)節(jié)合作強(qiáng)度與研究興趣的參數(shù)r對(duì)推薦結(jié)果的影響。本文通過(guò)控制質(zhì)量法來(lái)得到參數(shù)對(duì)推薦結(jié)果的影響。為了能夠有效地得到參數(shù)r對(duì)實(shí)驗(yàn)結(jié)果的影響,將參數(shù)f取0.5,實(shí)驗(yàn)結(jié)果如圖3a和圖3b所示。
Figure 3 Influence of r on Q(F) and C(F) of CRISI圖3 r對(duì)CRISI的Q(F)和C(F)的影響
從圖3a和圖3b中可以看出,參數(shù)r會(huì)影響推薦效果。進(jìn)一步通過(guò)在2個(gè)評(píng)價(jià)指標(biāo)上的實(shí)驗(yàn)結(jié)果表明,在合作強(qiáng)度占比較小(小于0.5)時(shí),CRISI方法的性能相對(duì)較差,而在合作強(qiáng)度占比超過(guò)一半時(shí),CRISI方法的性能有所提升。特別地,當(dāng)合作強(qiáng)度占比達(dá)到0.6時(shí),CRISI方法的性能達(dá)到最佳。這說(shuō)明合作強(qiáng)度的重要性略大于研究興趣的相似性。
4.2.3 參數(shù)f的影響
由于CRISI和CRISI-2方法都使用了分?jǐn)?shù)k-core方法來(lái)搜索社區(qū),所以本節(jié)使用這2種方法來(lái)分析參數(shù)f對(duì)實(shí)驗(yàn)結(jié)果的影響,實(shí)驗(yàn)結(jié)果如圖4a和4b所示。
Figure 4 Influence of f on Q(F) and C(F) of CRISI and CRISI-2圖4 f對(duì)CRISI和CRISI-2的Q(F)和C(F)的影響
圖4a和圖4b分別展示了參數(shù)f變化時(shí)CRISI與CRISI-2方法得到的Q(F)和C(F)。隨著參數(shù)f值的增大,CRISI方法始終優(yōu)于CRISI-2方法。特別地,CRISI方法的社區(qū)緊密性的影響最好,而由于CRISI-2方法沒(méi)有使用種子替換方法找出質(zhì)量最大的節(jié)點(diǎn)來(lái)搜索社區(qū),導(dǎo)致搜索的社區(qū)中作者之間的合作強(qiáng)度很小,與本文方法的差距相對(duì)較大。當(dāng)f取值為0.5時(shí),CRISI方法的評(píng)價(jià)指標(biāo)Q(F)和C(F)達(dá)到了最佳,CRISI-2方法在f取值為0.4時(shí)搜索的社區(qū)緊密性達(dá)到了最好。當(dāng)CRISI方法和CRISI-2方法的f取值分別超過(guò)0.5和0.4后,這2種方法在評(píng)價(jià)指標(biāo)Q(F)和C(F)上的性能都有所降低,由于f值越大,更多的作者會(huì)被過(guò)濾掉,使得搜索得到的社區(qū)中作者人數(shù)減少。可以看出,將參數(shù)f取值設(shè)為0.5時(shí),本文方法的推薦效果最好。
4.2.4 離群點(diǎn)(冷啟動(dòng)用戶)的分析
合作者關(guān)系網(wǎng)絡(luò)中可能存在某些作者與其他作者之間沒(méi)有合作關(guān)系,給這些沒(méi)有參與合作的作者推薦合作者就顯得比較困難,本文方法在3.4節(jié)給出了解決辦法。表3展示了8種方法在離群點(diǎn)上的實(shí)驗(yàn)結(jié)果,粗體字表示8種方法中的最佳性能。
從表3看出,CRISI方法在解決離群點(diǎn)問(wèn)題上表現(xiàn)的性能最好,CRISI方法的模塊度Q(F)為0.41,電導(dǎo)率C(F)為0.009。特別地,雖然本文方法的3種變體和CAMLS方法都沒(méi)有同時(shí)使用種子替換方法和社區(qū)搜索方法來(lái)搜索社區(qū),但它們都考慮了離群點(diǎn)這一因素,因此它們最終得到的目標(biāo)社區(qū)中各成員之間的連接緊密性高于沒(méi)有考慮離群點(diǎn)的PEER、ARBCI和ACRec 3種方法??梢?jiàn),本文方法可以更好地應(yīng)對(duì)離群點(diǎn)問(wèn)題。
Table 3 Experimental results of outliers testing 表3 測(cè)試離群點(diǎn)的實(shí)驗(yàn)結(jié)果
4.2.5 雙加權(quán)對(duì)實(shí)驗(yàn)結(jié)果的影響
在本節(jié),為了分析邊上的權(quán)重對(duì)推薦結(jié)果的準(zhǔn)確性的影響,統(tǒng)計(jì)了權(quán)重在不同合作者數(shù)量下的推薦精度,如圖5a和圖5b所示。
Figure 5 Influence of weigh on results of different recommendation methods圖5 權(quán)重對(duì)不同推薦方法結(jié)果的影響
具體來(lái)說(shuō),依據(jù)作者社交關(guān)聯(lián)作者的數(shù)量和本文方法得到的權(quán)重將作者劃分成5組,如圖5a和圖5b所示。從柱狀圖可以看出:不同推薦方法在不同權(quán)重范圍下具有很大的差異,而本文CRISI方法始終表現(xiàn)最優(yōu)。從圖5中也發(fā)現(xiàn),同時(shí)對(duì)結(jié)構(gòu)和屬性加權(quán)的5種方法的性能都比較好,而CAMLS、PEER、ACRec 3種方法沒(méi)有同時(shí)對(duì)結(jié)構(gòu)和屬性加權(quán),所以在2個(gè)評(píng)價(jià)指標(biāo)上表現(xiàn)相對(duì)較差,這表明雙加權(quán)在合作者推薦方法中是很有必要考慮的。
Figure 6 Example of a fractional k-core community search on the author’s partnership graph圖6 作者合作關(guān)系圖上的分?jǐn)?shù)k-core社區(qū)搜索示例
圖6a是一個(gè)完整的作者合作關(guān)系圖,圖6b是圖6a中陰影部分所示的子圖。其中,節(jié)點(diǎn)表示作者,邊上數(shù)字表示權(quán)重,其由作者合作強(qiáng)度與研究興趣相似度計(jì)算得到。圖6c是采用式(9)計(jì)算分?jǐn)?shù)度得到的推薦列表。現(xiàn)以灰色節(jié)點(diǎn)Beng Chin Ooi作為待推薦節(jié)點(diǎn)為例,使用算法1挖掘種子節(jié)點(diǎn),則整個(gè)替換過(guò)程為圖6b中的黑粗實(shí)線路線,最終找到的種子節(jié)點(diǎn)為黑色節(jié)點(diǎn)Jiawei Han。如果不使用本文方法,直接使用待推薦作者Beng Chin Ooi搜索社區(qū),則搜索的社區(qū)為圖6b中右邊虛線構(gòu)成的橢圓部分,社區(qū)緊密性明顯較差。若以作者Jiawei Han作為種子節(jié)點(diǎn),將f設(shè)為0.5并使用分?jǐn)?shù)k-core社區(qū)搜索方法搜索社區(qū),就會(huì)過(guò)濾掉僅僅參與一次合作的作者,如Sung Young Lee、Takahiro Hara和Christian S.Jensen,最終將推薦列表中分?jǐn)?shù)度大于0.5的作者推薦給作者Beng Chin Ooi,即圖6b中黑粗虛線構(gòu)成的社區(qū)??梢?jiàn),使用本文方法搜索得到的社區(qū)緊密性高。
為了給作者推薦一個(gè)合作關(guān)系更緊密的社區(qū),本文提出了一種融合作者合作強(qiáng)度與研究興趣的合作者推薦方法。首先,本文從合作者強(qiáng)度(結(jié)構(gòu))和研究興趣(屬性)2方面構(gòu)建雙加權(quán)網(wǎng)絡(luò);然后,利用種子替換方法找到高質(zhì)量的種子節(jié)點(diǎn);最后,利用分?jǐn)?shù)k-core社區(qū)搜索方法搜索合適的目標(biāo)社區(qū),即給待推薦作者推薦合作關(guān)系緊密的群體。通過(guò)在DBLP數(shù)據(jù)集上進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明所提出的方法具有很好的推薦性能。在今后的工作中考慮給定作者和作者的研究主題來(lái)搜索合適的合作者群體。