李春英,湯 庸,肖政宏,李天送
(1.廣東技術(shù)師范大學(xué)計算機科學(xué)學(xué)院,廣州 510665;2.華南師范大學(xué)計算機學(xué)院,廣州 510631)
學(xué)術(shù)社交網(wǎng)絡(luò)服務(wù)是典型的以人為中心的計算(Human Centered Computing,HCC),學(xué)者是學(xué)術(shù)社交網(wǎng)絡(luò)的主體[1]。學(xué)術(shù)社交網(wǎng)絡(luò)以學(xué)者相互建立關(guān)系為基礎(chǔ),以實名或者非實名的方式自主構(gòu)建社交關(guān)系網(wǎng)絡(luò)服務(wù)。像其他復(fù)雜系統(tǒng)一樣,學(xué)術(shù)社交網(wǎng)絡(luò)系統(tǒng)可以模型化為由學(xué)者(節(jié)點)以及學(xué)者之間的關(guān)系(邊)構(gòu)成的無向無權(quán)重復(fù)雜網(wǎng)絡(luò)圖結(jié)構(gòu)。在這個無向無權(quán)重復(fù)雜網(wǎng)絡(luò)中,有些節(jié)點間的連接關(guān)系比較緊密,有些節(jié)點間的連接關(guān)系則相對稀疏。與現(xiàn)實生活中由各種關(guān)系構(gòu)成的人際交往圈類似,交往圈內(nèi)部的人聯(lián)系比較多,而交往圈之間的人聯(lián)系則相對較少。這種交往圈在學(xué)術(shù)社交網(wǎng)絡(luò)中被稱之為學(xué)術(shù)社區(qū)。學(xué)術(shù)社區(qū)是學(xué)術(shù)社交網(wǎng)絡(luò)中非常有意義的屬性。學(xué)術(shù)社區(qū)檢測是為了對在線學(xué)術(shù)社交網(wǎng)絡(luò)進(jìn)行分割,從而對學(xué)術(shù)社區(qū)成員進(jìn)行標(biāo)識,找到具有相似研究興趣等共同特征的群體,目的在于區(qū)分學(xué)者特定的興趣聯(lián)盟,更好地發(fā)現(xiàn)學(xué)者的屬性特征、興趣愛好及行為傾向等,為學(xué)術(shù)社交網(wǎng)絡(luò)平臺的各類學(xué)術(shù)推薦系統(tǒng)提供決策支持。
隨著學(xué)術(shù)社交網(wǎng)絡(luò)的快速發(fā)展,學(xué)術(shù)社交網(wǎng)絡(luò)平臺存在信息過載和信息不對稱等問題,對學(xué)者特別是影響力低的青年學(xué)者而言,需要花費更多的時間和精力尋找到自己感興趣的內(nèi)容。為了持久保持學(xué)者對學(xué)術(shù)社交網(wǎng)絡(luò)的黏性和滿意度以及依靠網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進(jìn)行相關(guān)計算具有模型簡單、計算效率高和易于應(yīng)用等優(yōu)勢,本文提出融合學(xué)術(shù)社區(qū)劃分的權(quán)威學(xué)者推薦模型。該模型使用學(xué)術(shù)社交網(wǎng)絡(luò)平臺學(xué)者間拓?fù)浣Y(jié)構(gòu)關(guān)系數(shù)據(jù)對學(xué)術(shù)社交網(wǎng)絡(luò)中的學(xué)者進(jìn)行社區(qū)劃分,使興趣相似的學(xué)者聚集在同一個社區(qū),并在學(xué)術(shù)社區(qū)內(nèi)部計算學(xué)者的影響力進(jìn)而推薦影響力較大的學(xué)者給影響力較小的非直接好友學(xué)者,使之建立直接關(guān)系進(jìn)而為影響力低的學(xué)者的研究起到導(dǎo)向作用。該推薦模型總體框架如圖1 所示。該推薦服務(wù)不僅可以準(zhǔn)確地為學(xué)者們提供其感興趣的權(quán)威學(xué)者,而且可以增強學(xué)者尤其是影響力低的青年學(xué)者對學(xué)術(shù)社交網(wǎng)絡(luò)平臺的使用滿意度和黏度,進(jìn)一步為學(xué)術(shù)社交網(wǎng)絡(luò)平臺形成良好的口碑及吸引潛在的學(xué)者提供幫助。
圖1 學(xué)術(shù)社交網(wǎng)絡(luò)權(quán)威學(xué)者推薦模型總體框架Fig.1 Overall framework of influential scholar recommendation model in academic social network
為了解決學(xué)術(shù)社交網(wǎng)絡(luò)信息過載問題,學(xué)術(shù)界從多個角度對學(xué)者用戶的偏好進(jìn)行研究,并取得了豐富的研究成果。文獻(xiàn)[2]提出一種基于論文共同作者學(xué)術(shù)關(guān)系的推薦系統(tǒng)。該推薦系統(tǒng)應(yīng)用科研人員所著論文的關(guān)鍵詞對科研人員進(jìn)行建模,突出科研人員與研究領(lǐng)域之間的關(guān)聯(lián),通過論文共同作者等學(xué)術(shù)關(guān)系計算科研人員之間的相似度并進(jìn)行推薦。文獻(xiàn)[3]從學(xué)者知識結(jié)構(gòu)和學(xué)術(shù)行為網(wǎng)絡(luò)兩個維度出發(fā),構(gòu)建基于相似興趣的學(xué)者推薦模型,挖掘分析學(xué)者知識結(jié)構(gòu)特征、學(xué)者間合作網(wǎng)絡(luò)、機構(gòu)間合作網(wǎng)絡(luò)關(guān)系,計算學(xué)者在這3 個層面上的相似度并進(jìn)行整合實現(xiàn)學(xué)者推薦。文獻(xiàn)[4]通過綜合分析科研社交網(wǎng)絡(luò)中專家所具有的知識信息以及社會關(guān)系信息,并以此為基礎(chǔ),構(gòu)建鏈接預(yù)測模型對科研社交網(wǎng)絡(luò)中的用戶進(jìn)行相關(guān)專家推薦。文獻(xiàn)[5]定義出了兩個主要的合作者推薦情境,即基于相似性的合作者推薦和在一個特定的背景限制下的合作者推薦。對于基于相似性的合作者推薦問題,其提出了一個混合方法,分別從專業(yè)知識的相關(guān)性、社交網(wǎng)絡(luò)的鄰近度和機構(gòu)層面的合作度3個維度,整合了5種異質(zhì)文獻(xiàn)網(wǎng)絡(luò)的特征。針對在限定背景下的合作者推薦問題,其給出了一個以專業(yè)知識的覆蓋面為導(dǎo)向的合作者推薦機制,該機制提出并使用了一個基于傳統(tǒng)的潛狄利克雷分配(Latent Dirichlet Allocation,LDA)模型的改進(jìn)方法,以提高其對同一語料庫中不同影響力的文檔的建模性能。文獻(xiàn)[6]提出了一種個性化的導(dǎo)師智能推薦方法,用于在科研社交網(wǎng)絡(luò)上為有需求的學(xué)生推薦適合自己個人特征的導(dǎo)師。該方法融合了相關(guān)度分析、連接度分析、質(zhì)量度分析以及個性匹配度分析,有助于為有決策需求的學(xué)生提供導(dǎo)師選擇支持。文獻(xiàn)[7]從學(xué)者的學(xué)術(shù)能力和合作關(guān)系網(wǎng)絡(luò)兩個維度構(gòu)建推薦模型,通過相關(guān)學(xué)者的學(xué)術(shù)能力挖掘候選推薦學(xué)者的知識覆蓋度,根據(jù)歷史合作關(guān)系網(wǎng)絡(luò)挖掘合作質(zhì)量,綜合計算在這兩個層面的推薦值實現(xiàn)合作學(xué)者推薦。最終以百度學(xué)術(shù)學(xué)者主頁數(shù)據(jù)進(jìn)行實證驗證了模型的有效性和有用性。文獻(xiàn)[8]利用在線學(xué)術(shù)社區(qū)中的實體和關(guān)系數(shù)據(jù),提出了一種基于異構(gòu)網(wǎng)絡(luò)的方法來推薦學(xué)者朋友,并進(jìn)一步討論了元路徑和相應(yīng)的學(xué)習(xí)權(quán)重如何幫助理解研究人員的偏好和行為。文獻(xiàn)[9]提出基于深度學(xué)習(xí)和有偏向隨機游走的多層次融合模型為科研人員推薦潛在的合作者,在DBLP(Digital Bibliography & Library Project)和hep-th(Theoretical High Energy Particle Physics)數(shù)據(jù)集上的實驗證明了所提出的模型相對于其他方法在精度、召 回 率、F1 得 分、MRR(Mean Reciprocal Rank)和nDCG(Normalized discounted cumulative gain)方面的有效性。文獻(xiàn)[10]通過移除引用的論文節(jié)點來構(gòu)建具有多種類型節(jié)點和鏈接關(guān)系的簡化異構(gòu)網(wǎng)絡(luò);然后,使用兩個重要的度量來加權(quán)網(wǎng)絡(luò)中的鏈接關(guān)系(邊),以使隨機步行者的行為產(chǎn)生偏差;最后,通過采用帶有重啟的隨機游走算法來檢索相關(guān)作者,并根據(jù)排名得分輸出排序的合作者推薦列表。文獻(xiàn)[11-12]采用了兼顧內(nèi)容和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的混合方法,文中使用2~3 個特征增強學(xué)術(shù)合作網(wǎng)絡(luò)中科研人員之間聯(lián)系的重要性,雖然他們捕獲了科研人員之間協(xié)作的聯(lián)系和兼容性,但是仍然存在許多隱性因素,例如其隸屬關(guān)系的物理距離、年齡或血統(tǒng)以及影響現(xiàn)實生活中協(xié)作的個性等。文獻(xiàn)[13]提出基于學(xué)者和研究主題的相互依存度共同代表學(xué)者和研究主題,并提取學(xué)者的基本特征以進(jìn)行高質(zhì)量的新合作者推薦。文獻(xiàn)[14]針對科學(xué)合作模式可能會隨著學(xué)者的職業(yè)年齡而發(fā)生變化的問題,設(shè)計了一種對學(xué)者的職業(yè)年齡敏感的科學(xué)合作推薦(Career Age-Aware Scientific Collaborator Recommendation,CAASCR)模型。該模型從數(shù)字圖書館中提取作者身份、提取基于出版物標(biāo)題/摘要的主題以及用于衡量學(xué)者相似性的具有職業(yè)年齡意識的隨機游走,在兩個真實數(shù)據(jù)集上通過與6 種基線方法進(jìn)行比較,實驗結(jié)果表明提出的模型在精度和召回率方面可以達(dá)到最佳性能。在第22 屆國際數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(22th SIGKDD Conference on Knowledge Discovery and Data Mining)的推薦系統(tǒng)專題中,羅馬大學(xué)和谷歌合作了一篇讓人耳目一新的論文:“人們的社會聯(lián)系可以保護(hù)消費者免受推薦系統(tǒng)扭曲的影響”[15]。該研究表明了人們的社會聯(lián)系在推薦系統(tǒng)中具有非常重要的地位。文獻(xiàn)[16-18]對社交網(wǎng)絡(luò)進(jìn)行圖結(jié)構(gòu)的形式化描述,并使用社交網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)信息挖掘社交用戶所在的朋友圈(社區(qū))進(jìn)而預(yù)測用戶的偏好,并對社區(qū)內(nèi)的用戶進(jìn)行相關(guān)的推薦服務(wù),取得了一定的效果。文獻(xiàn)[19]提出一種融合社區(qū)結(jié)構(gòu)和興趣聚類的協(xié)同過濾推薦算法提高推薦系統(tǒng)的準(zhǔn)確性。這些研究進(jìn)一步表明了融合社區(qū)的推薦算法在一定程度上具有更好的推薦準(zhǔn)確性。
現(xiàn)有的大多數(shù)方法主要側(cè)重于為科研人員推薦可能的學(xué)者或合作者,而推薦有影響力的權(quán)威學(xué)者的方法很少。因此,本文提出一種融合學(xué)術(shù)社區(qū)檢測的權(quán)威學(xué)者推薦模型(Influential Scholar Recommendation Model based on Academic Community Detection,ISRMACD)。利用學(xué)術(shù)社交網(wǎng)絡(luò)平臺學(xué)者網(wǎng)(SCHOLAT)中學(xué)者間的真實社會聯(lián)系——好友關(guān)系所產(chǎn)生的復(fù)雜網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)關(guān)系進(jìn)行學(xué)術(shù)社區(qū)檢測,并利用社區(qū)檢測結(jié)果實現(xiàn)社區(qū)內(nèi)部的權(quán)威學(xué)者推薦服務(wù)。
學(xué)術(shù)社交網(wǎng)絡(luò)系統(tǒng)可以模型化為由學(xué)者作為節(jié)點及學(xué)者之間的關(guān)系作為邊的復(fù)雜網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)G(V,E)的形式,其中V表示社交網(wǎng)絡(luò)學(xué)者集合,E表示學(xué)者間好友關(guān)系的集合。文獻(xiàn)[20]已經(jīng)證明核心學(xué)者圈所定義的結(jié)構(gòu)是社區(qū)的核心單位,處在同一個核心學(xué)者圈中的節(jié)點,必然處在同一個社區(qū)。在學(xué)術(shù)社交網(wǎng)絡(luò)中,影響力大的學(xué)者群體同樣會成為社區(qū)的核心結(jié)構(gòu)。因此對學(xué)術(shù)社交網(wǎng)絡(luò)進(jìn)行初始化時,著重考慮尋找學(xué)術(shù)社交網(wǎng)絡(luò)中的核心學(xué)者圈作為學(xué)術(shù)社區(qū)的核心結(jié)構(gòu)。該模型按照定義1 的規(guī)則在學(xué)術(shù)社交網(wǎng)絡(luò)中尋找不相交的核心結(jié)構(gòu)并為其中的學(xué)者用戶賦予一個相同的標(biāo)簽及權(quán)重,后續(xù)查找核心學(xué)者圈的過程則不再考慮已具有標(biāo)簽的學(xué)者用戶節(jié)點。
定義1學(xué)術(shù)社交網(wǎng)絡(luò)被模型化為G(V,E)的圖結(jié)構(gòu)形式,其中V表示學(xué)術(shù)社交網(wǎng)絡(luò)學(xué)者節(jié)點集合,即學(xué)術(shù)社交網(wǎng)絡(luò)中任意一個學(xué)者節(jié)點i∈V,E表示學(xué)術(shù)社交網(wǎng)絡(luò)學(xué)者節(jié)點間相鄰關(guān)系的集合。N(i)是學(xué)者節(jié)點i的鄰接節(jié)點集合,|N(i)|表示學(xué)者節(jié)點i的好友數(shù),也是學(xué)者節(jié)點i的度數(shù),本文把它作為學(xué)者i的影響力。在圖G中尋找局部影響力最大的學(xué)者圈Gm,且不存在學(xué)者圈Gt?G,使得Gm?Gt,則稱Gm為核心學(xué)者圈(Core Scholar Group,CSG)。
標(biāo)簽初始化規(guī)則如下所示。
1)設(shè)置學(xué)術(shù)社交網(wǎng)絡(luò)中所有學(xué)者節(jié)點ui的標(biāo)簽集Ci=?。
2)設(shè)置迭代次數(shù)t=1。
3)按照定義1 尋找學(xué)術(shù)社交網(wǎng)絡(luò)中的CSG,并令標(biāo)簽權(quán)重有序?qū)?t,1)∈Ci。其中t為標(biāo)簽號,一個標(biāo)簽號將代表一個社區(qū),1為標(biāo)簽t的權(quán)重值。
4)t=t+1。
5)重復(fù)步驟3)~4),直到學(xué)術(shù)社交網(wǎng)絡(luò)中沒有再滿足要求的學(xué)者節(jié)點,初始化過程結(jié)束。
根據(jù)標(biāo)簽初始化規(guī)則,以一個簡單的復(fù)雜網(wǎng)絡(luò)為例,如圖2 所示。按照定義1 的尋找核心學(xué)者圈規(guī)則,算法首先在圖2中選擇度數(shù)最大的節(jié)點4,在節(jié)點4 的所有鄰居節(jié)點中,節(jié)點11 是度數(shù)最大的一個,因此在網(wǎng)絡(luò)中繼續(xù)尋找與節(jié)點4 和節(jié)點11 均相鄰的節(jié)點,只有節(jié)點8 符合定義1 要求的條件。按照此規(guī)則繼續(xù)尋找與節(jié)點4、節(jié)點11和節(jié)點8均相鄰的第4個節(jié)點,發(fā)現(xiàn)該網(wǎng)絡(luò)中沒有節(jié)點符合加入的條件。因此,第一個核心學(xué)者圈只包含3個節(jié)點4,11和8。依此類推,在圖2中共找出3 個核心學(xué)者圈CSG,分別為節(jié)點群(4,11,8)、(3,5,6)和(12,13,14),如圖3 所示。按照標(biāo)簽初始化規(guī)則分別為每一個CSG 中的節(jié)點賦予相同的標(biāo)簽及權(quán)重,即節(jié)點群{4,11,8}對應(yīng)的標(biāo)簽及權(quán)重均為1,節(jié)點群{3,5,6}對應(yīng)的標(biāo)簽為2、權(quán)重為1,節(jié)點群{12,13,14}對應(yīng)的標(biāo)簽為3、權(quán)重也為1。
圖2 復(fù)雜網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)Fig.2 Complex network topology
圖3 初始化后復(fù)雜網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)Fig.3 Complex network topology after initialization
通過對學(xué)術(shù)社交網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)分析得知,每一個社區(qū)至少包含一個影響力比較大的核心學(xué)者圈,社區(qū)的拓?fù)潢P(guān)系由核心學(xué)者圈向周圍擴(kuò)展。標(biāo)簽在傳播時,以核心學(xué)者圈CSG 中節(jié)點及其對應(yīng)的標(biāo)簽權(quán)重作為迭代開始時的種子。根據(jù)復(fù)雜網(wǎng)絡(luò)小世界原則,只要節(jié)點的鄰居節(jié)點擁有標(biāo)簽及權(quán)重,在算法的迭代過程中,其一定能獲得標(biāo)簽和權(quán)重。標(biāo)簽更新時按照式(1)定義的規(guī)則更新節(jié)點的標(biāo)簽和權(quán)重。
其中N(x)表示學(xué)者節(jié)點x所有鄰居節(jié)點的集合。在式(1)中,節(jié)點x在第t-1 步已經(jīng)擁有標(biāo)簽c,那么當(dāng)節(jié)點x在第t步更新時,如果其鄰居節(jié)點y也擁有標(biāo)簽c,則節(jié)點x在第t步更新時,在標(biāo)簽c下的權(quán)重值為其在第t-1步標(biāo)簽c的權(quán)重值與其鄰居節(jié)點y在第t-1 步標(biāo)簽c的權(quán)重值與節(jié)點x度數(shù)的比值之和。若被更新節(jié)點x沒有鄰居節(jié)點的標(biāo)簽c,則bt-1(c,x)值為0,節(jié)點x接收鄰居節(jié)點的標(biāo)簽c作為新標(biāo)簽,并按照式(1)計算節(jié)點x在標(biāo)簽c下對應(yīng)的權(quán)重。
標(biāo)簽更新過程具體操作步驟如下所示。
1)令迭代次數(shù)I=1。
2)隨機排序網(wǎng)絡(luò)節(jié)點得到一個序列S。
3)根據(jù)標(biāo)簽更新式(1)定義的規(guī)則更新節(jié)點的標(biāo)簽及權(quán)重。
4)每一輪迭代后刪除權(quán)重小于閾值1/L(L為算法每一次迭代后當(dāng)前節(jié)點擁有的標(biāo)簽數(shù))的標(biāo)簽及權(quán)重。若所有標(biāo)簽權(quán)重都小于1/L,則保留最大的一個;若最大的標(biāo)簽有多個,則隨機選擇一個。
5)歸一化所保留的學(xué)者節(jié)點標(biāo)簽權(quán)重,使其和為1。
6)如果S中的所有學(xué)者節(jié)點都擁有了標(biāo)簽,則算法停止。
7)否則令I(lǐng)=I+1,重復(fù)步驟2)~6)。
算法迭代過程停止后,節(jié)點擁有的標(biāo)簽數(shù)即為學(xué)者所屬的社區(qū)個數(shù),每一個標(biāo)簽代表一個社區(qū),標(biāo)簽相同的節(jié)點組成一個社區(qū)。按照這些規(guī)則進(jìn)行后期處理后,在圖2中共發(fā)現(xiàn)3個社區(qū),分別為社區(qū)C1:{4,8,9,10,11},社區(qū)C2:{1,2,3,4,5,6,7}和社區(qū)C3:{12,13,14}。結(jié)果如圖4所示。
圖4 復(fù)雜網(wǎng)絡(luò)社區(qū)檢測結(jié)果Fig.4 Community detection results of complex network
社區(qū)發(fā)現(xiàn)算法對學(xué)術(shù)社交網(wǎng)絡(luò)中的學(xué)者按照網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中表現(xiàn)出來的信息進(jìn)行了相似性聚集。推薦模型接下來對社區(qū)內(nèi)的學(xué)者進(jìn)行挖掘并尋找影響力較大的學(xué)者,將影響力較大的學(xué)者推薦給社區(qū)內(nèi)其他非直接好友學(xué)者用戶。該推薦模型第二步的關(guān)鍵點在于尋找影響力較大的學(xué)者節(jié)點。在學(xué)術(shù)社交網(wǎng)絡(luò)中,如果和一個學(xué)者建立聯(lián)系的學(xué)者數(shù)量越多,一定程度上可以說明該學(xué)者的影響力(權(quán)威)越大,是一個廣受歡迎的學(xué)者。因此,在基于好友關(guān)系的學(xué)術(shù)社交網(wǎng)絡(luò)中,將學(xué)者影響力大小定義為其好友數(shù)量,即學(xué)者節(jié)點對應(yīng)的度數(shù),如式(2)所示。其中,ui為復(fù)雜網(wǎng)絡(luò)中的任意一個學(xué)者節(jié)點,d(ui)為學(xué)者節(jié)點ui的度數(shù),Uiscore表示學(xué)者影響力大小。
按照定義1 的規(guī)則,核心學(xué)者圈是社區(qū)內(nèi)度數(shù)較高的學(xué)者節(jié)點集合,具有較高的影響力,但是在尋找不相交的核心學(xué)者圈時存在較高影響力的學(xué)者節(jié)點沒有被加入核心學(xué)者圈的情形。為了避免漏掉一些影響力較大的學(xué)者,推薦模型將社區(qū)內(nèi)高于平均影響力的學(xué)者作為社區(qū)內(nèi)影響力較大的學(xué)者,分組推薦給社區(qū)內(nèi)其他非直接好友學(xué)者。
假設(shè)學(xué)術(shù)社交網(wǎng)絡(luò)有n個學(xué)者節(jié)點且節(jié)點的平均度數(shù)為k,核心學(xué)者圈的平均節(jié)點數(shù)為m。最終發(fā)現(xiàn)的學(xué)術(shù)社區(qū)數(shù)為c個。ISRMACD 模型在學(xué)術(shù)社區(qū)檢測階段所使用的最大時間耗費為尋找社區(qū)中的核心結(jié)構(gòu)CSG,近似為O(n2);在模型的推薦階段,為各個學(xué)術(shù)社區(qū)建立索引需要的時間復(fù)雜度為O(c);計算社區(qū)內(nèi)節(jié)點的影響力并按照影響力高低進(jìn)行排序需要的時間復(fù)雜度近似為O(km+m2)。因此,該推薦模型的時間復(fù)雜度近似為O(n2)。
實驗采用了學(xué)者網(wǎng)2016 年5 月30 日的學(xué)者好友關(guān)系數(shù)據(jù)集,并對該數(shù)據(jù)集去除噪聲,保留了最大的一個連通分量,共計3 053 個學(xué)者節(jié)點和10 920 條好友關(guān)系(邊)構(gòu)成的學(xué)術(shù)社交網(wǎng)絡(luò)關(guān)系圖。在該數(shù)據(jù)集上應(yīng)用本文提出的ISRMACD模型進(jìn)行權(quán)威學(xué)者推薦。模型在標(biāo)簽初始化階段共獲得182個核心學(xué)者圈,亦即產(chǎn)生了182 個標(biāo)簽,在這些核心學(xué)者圈中學(xué)者數(shù)最多的是13 位、最少的是3 位,并且有125 個核心學(xué)者圈只包含3 位學(xué)者,占比超過2/3,即三角形結(jié)構(gòu)往往是一個社區(qū)的核心結(jié)構(gòu),每個核心學(xué)者圈包含的學(xué)者數(shù)(Number)統(tǒng)計情況如圖5所示。在圖5中橫坐標(biāo)表示核心學(xué)者圈的序號、縱坐標(biāo)表示核心學(xué)者圈中的學(xué)者數(shù)量。使用這182 個核心學(xué)者圈中的學(xué)者節(jié)點及其對應(yīng)的標(biāo)簽和權(quán)重作為種子進(jìn)行學(xué)術(shù)社區(qū)檢測,最后檢測到109 個學(xué)術(shù)社區(qū),其中最大社區(qū)包含1 339 個學(xué)者,最小社區(qū)為3 個學(xué)者,具體如圖6 所示。在圖6中,橫坐標(biāo)表示社區(qū)序號,主坐標(biāo)軸表示社區(qū)內(nèi)學(xué)者用戶(scholar number)的數(shù)量,次坐標(biāo)軸表示社區(qū)內(nèi)學(xué)者的平均影響力(average degree)和社區(qū)內(nèi)包含的核心學(xué)者圈(CSG number)數(shù)量。在社區(qū)1 中,學(xué)者數(shù)是1 339,平均影響力是9.496,包含71 個核心學(xué)者圈;而在社區(qū)9 中,學(xué)者數(shù)是89,平均影響力是56.218,包含3 個核心學(xué)者圈。因此在真實社交網(wǎng)絡(luò)中,社區(qū)中學(xué)者數(shù)越多,學(xué)者之間的相互聯(lián)系相對越稀疏,為非直接好友關(guān)系的低影響力學(xué)者推薦權(quán)威學(xué)者顯得更有意義。
圖5 核心學(xué)者圈中學(xué)者數(shù)統(tǒng)計Fig.5 The numbers of scholars in core scholar groups
圖6 社區(qū)內(nèi)各項數(shù)據(jù)統(tǒng)計結(jié)果Fig.6 Statistical results of various data in communities
一些基于模塊度函數(shù)的社區(qū)發(fā)現(xiàn)算法存在分辨率和尺度問題,如社區(qū)發(fā)現(xiàn)結(jié)果易淹沒較小的社區(qū)結(jié)構(gòu)[21]。但是從本文的實驗可知,聚類結(jié)果中既有包含1 339個學(xué)者節(jié)點的大型社區(qū),也有只包含3 個學(xué)者節(jié)點的小型社區(qū)。因此,本文的聚類結(jié)果反映了真實社交網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)需求,能夠為進(jìn)一步的權(quán)威學(xué)者推薦服務(wù)提供比較精確的決策支持。另外,從社區(qū)發(fā)現(xiàn)結(jié)果可知,很多學(xué)者屬于多個不同的社區(qū),這與學(xué)者網(wǎng)數(shù)據(jù)集有關(guān)。學(xué)者網(wǎng)數(shù)據(jù)集中的大多數(shù)學(xué)者可能因相同工作單位而屬于同一個社區(qū);也可能因不同的學(xué)術(shù)組織團(tuán)體而聚集在一起;或因同一個科研團(tuán)隊/課程團(tuán)隊而屬于另外一個社區(qū);或因相同研究興趣而與不同單位不同地域的學(xué)者構(gòu)成一個社區(qū)。以學(xué)者網(wǎng)創(chuàng)始人湯庸教授為例,在該實驗所采用的連通分量中其分別屬于7 個不同的社區(qū),共有938 個好友,好友遍布海內(nèi)外各大知名科研院所,是影響力很大的權(quán)威學(xué)者。湯庸教授目前的研究方向、研究興趣代表了學(xué)術(shù)領(lǐng)域當(dāng)前的一些熱點研究問題。將類似于湯庸教授的權(quán)威學(xué)者推薦給社區(qū)內(nèi)的其他非直接好友學(xué)者,其他學(xué)者通過學(xué)者網(wǎng)好友社區(qū)內(nèi)的信息共享可以實時獲得權(quán)威學(xué)者的科研動態(tài)信息,具有較好的科學(xué)研究行動導(dǎo)向作用。
為了對所提出的學(xué)者推薦模型進(jìn)行量化評價,利用在SCHOLAT 數(shù)據(jù)集上的學(xué)術(shù)社區(qū)劃分結(jié)果及學(xué)術(shù)社區(qū)內(nèi)學(xué)者影響力權(quán)值,在學(xué)者數(shù)最多的社區(qū)采用每組隨機推薦10 名影響力權(quán)值高于社區(qū)內(nèi)平均影響力權(quán)值的學(xué)者給社區(qū)內(nèi)的其他非直接好友學(xué)者,以便對推薦模型的準(zhǔn)確率、召回率以及準(zhǔn)確率和召回率的加權(quán)調(diào)和平均函數(shù)F-Measure進(jìn)行定量分析。準(zhǔn)確率、召回率和F-Measure函數(shù)的計算方法分別如式(3)~(5)所示:
本實驗選擇向10 位參與測試的學(xué)者分別推薦1 組、2 組和3 組,即10 名、20 名和30 名權(quán)威學(xué)者來檢測推薦模型的準(zhǔn)確率、召回率以及F-Measure函數(shù)隨著推薦權(quán)威學(xué)者數(shù)增加情況下的變化情況,實驗結(jié)果如圖7 所示,在圖7 中Precision-1、Recall-1 和F-Measure-1 分別表示推薦1 組權(quán)威學(xué)者時的推薦精度、召回率和F-Measure函數(shù)值,Precision-2、Recall-2 和F-Measure-2 分別表示推薦2 組權(quán)威學(xué)者時的推薦精度、召回率和F-Measure函數(shù)值,Precision-3、Recall-3 和F-Measure-3 分別表示推薦3 組權(quán)威學(xué)者時的推薦精度、召回率和F-Measure函數(shù)值。從圖7 可以看出,當(dāng)推薦10 名權(quán)威學(xué)者時,推薦模型的推薦準(zhǔn)確率總體表現(xiàn)較好,但是推薦模型的召回率比較低。隨著推薦權(quán)威學(xué)者數(shù)的增加,推薦精度總體呈下降趨勢,也許測試用戶不愿意一次接受太多的推薦結(jié)果、需要時間來進(jìn)行消化,但是推薦模型的召回率和F-Measure函數(shù)呈上升趨勢,這和召回率和F-Measure函數(shù)的計算方法有關(guān),即在推薦總數(shù)確定的情況下,隨著被接受的推薦學(xué)者的增多,召回率和F-Measure函數(shù)的值也隨之增加??傮w來講,該推薦模型的推薦精度均在60%以上,推薦準(zhǔn)確率較好。
圖7 推薦模型的質(zhì)量評價Fig.7 Quality evaluation of recommendation model
本文闡述了融合學(xué)術(shù)社區(qū)檢測的學(xué)術(shù)社交網(wǎng)絡(luò)權(quán)威學(xué)者推薦模型的工作原理,模型首先對學(xué)術(shù)社交網(wǎng)絡(luò)進(jìn)行學(xué)術(shù)社區(qū)檢測,并將學(xué)術(shù)社區(qū)檢測結(jié)果作為興趣相似學(xué)者的聚集。社區(qū)的核心結(jié)構(gòu)是每個社區(qū)內(nèi)節(jié)點度數(shù)(影響力)較高的學(xué)者,在社區(qū)內(nèi)具有更高的權(quán)威,但是考慮社區(qū)核心結(jié)構(gòu)可能沒有包含全部權(quán)威學(xué)者,因此,該推薦模型將社區(qū)內(nèi)影響力高于該社區(qū)平均影響力的學(xué)者作為有影響力的權(quán)威學(xué)者推薦給社區(qū)內(nèi)的其他非直接好友學(xué)者。在SCHOLAT 數(shù)據(jù)集上的實驗表明該推薦模型取得了較高的推薦準(zhǔn)確率,能夠?qū)φ鎸崒W(xué)術(shù)社交網(wǎng)絡(luò)平臺學(xué)者網(wǎng)的功能演化及預(yù)測提供有力支持。下一步將對學(xué)者網(wǎng)的全部用戶數(shù)據(jù)(包括多個連通分量)進(jìn)行動態(tài)社區(qū)發(fā)現(xiàn),并根據(jù)動態(tài)社區(qū)發(fā)現(xiàn)結(jié)果實現(xiàn)權(quán)威學(xué)者在學(xué)術(shù)社交平臺中的實時在線推薦。研究還發(fā)現(xiàn),學(xué)者網(wǎng)中學(xué)生用戶的數(shù)據(jù)相對都比較稀疏,為了避免數(shù)據(jù)稀疏及為冷啟動學(xué)生用戶提供更好的權(quán)威學(xué)者推薦服務(wù),引導(dǎo)他們的學(xué)習(xí)及學(xué)術(shù)研究,下一步研究考慮結(jié)合學(xué)者尤其是學(xué)生用戶的其他屬性數(shù)據(jù),如專業(yè)、研究興趣、瀏覽軌跡等數(shù)據(jù)進(jìn)行學(xué)術(shù)社區(qū)檢測并為相應(yīng)的推薦服務(wù)提供支持。