崔志慧,彭蘭一香,熊 曦,王名揚(yáng)
(東北林業(yè)大學(xué) 信息與計(jì)算機(jī)工程學(xué)院,哈爾濱150040)
隨著互聯(lián)網(wǎng)的高速發(fā)展,每年發(fā)表的科技文獻(xiàn)總數(shù)呈指數(shù)增長。據(jù)統(tǒng)計(jì),僅2018年中國科研人員發(fā)表在國際、國內(nèi)的優(yōu)秀文獻(xiàn)總量就達(dá)到31.59萬篇[1]。對研究者來說,從如此海量的數(shù)據(jù)中定位滿足科研需要的文獻(xiàn)是非常困難的。引文推薦能針對某一具體的研究主題和學(xué)術(shù)文獻(xiàn),自動地為研究者推薦合適的相關(guān)成果和文獻(xiàn)。借助于引文推薦,研究者可快速獲取到與其研究相關(guān)的文獻(xiàn)資料,從而在一定程度上提高撰寫學(xué)術(shù)文獻(xiàn)的效率。
2001年,Basu C等首次提出文獻(xiàn)推薦的概念,給出文獻(xiàn)推薦的過程是如何找到與用戶興趣相匹配的文獻(xiàn)的過程,其核心問題在于如何表達(dá)用戶興趣和目標(biāo)文獻(xiàn)[2]。在之后的研究中,研究者們也將關(guān)注點(diǎn)更多放在對用戶興趣的建模和文獻(xiàn)間相似度的計(jì)算上。2007年,Strohma等提出引文推薦的概念,并結(jié)合文本相似性和圖模型方法對引文推薦問題進(jìn)行了初步探索[3]。Bethard S等結(jié)合用戶的歷史引用信息和引用偏好來為目標(biāo)文獻(xiàn)推薦參考文獻(xiàn)列表[4];2010年,He Q等人將詞頻信息和文獻(xiàn)的主題分布作為主要特征,實(shí)施引文推薦[5];Pohl等基于用戶下載文獻(xiàn)的行為記錄進(jìn)行引文推薦[6]。2013年,劉盛博等以全文數(shù)據(jù)為基礎(chǔ),構(gòu)建基于引用內(nèi)容的引文檢索與推薦系統(tǒng)[7];Liu Yaning實(shí)現(xiàn)了基于翻譯模型和用戶過濾算法的混合推薦模型[8];2014年,蔡阿妮等結(jié)合文獻(xiàn)的內(nèi)容信息和引用關(guān)系來對引文進(jìn)行推薦[9];王萌星等基于主題社區(qū)和雙層引用網(wǎng)絡(luò)的學(xué)術(shù)推薦方案,向用戶推薦作者和論文[10];劉亞寧等在考察用戶的興趣和其知識水平的基礎(chǔ)上實(shí)施引文推薦[11];Guo LT等運(yùn)用深度學(xué)習(xí)技術(shù)獲取用戶的興趣模型,并改進(jìn)個(gè)性化重排序算法實(shí)施推薦[12];Ali Z等從6個(gè)角度對基于深度學(xué)習(xí)的引文推薦模型進(jìn)行綜述[13];劉洋利用文獻(xiàn)間的語義關(guān)聯(lián)度和作者間的關(guān)系構(gòu)造網(wǎng)絡(luò)模型實(shí)施推薦[14];Wang J等將作者信息和引文關(guān)系整合到用分布式矢量表示的引文上下文和論文中,提出了基于端到端記憶網(wǎng)絡(luò)的上下文感知引文推薦模型[15]。
綜上,為了實(shí)現(xiàn)更精準(zhǔn)快捷的推薦,研究者從用戶和文獻(xiàn)兩個(gè)角度對引文推薦問題進(jìn)行了深入的研究,但是這些已有成果的推薦效果仍然差強(qiáng)人意。在這些研究中,學(xué)者們均未討論文獻(xiàn)的活躍度特征在引文推薦中的作用。實(shí)際上,文獻(xiàn)的活躍度體現(xiàn)了文獻(xiàn)在科學(xué)社區(qū)的可見度,活躍度較高的文獻(xiàn)將具有更高的被研究者關(guān)注的機(jī)會,而這種機(jī)會將在一定程度上促使文獻(xiàn)被研究者引用,成為研究者文獻(xiàn)中的參考文獻(xiàn)。
在評價(jià)引文推薦效果時(shí),往往將被推薦文獻(xiàn)是否真正成為目標(biāo)文獻(xiàn)參考文獻(xiàn)中的一員來作為評價(jià)的依據(jù)。這實(shí)際上已經(jīng)將引文的推薦問題轉(zhuǎn)化成了文獻(xiàn)是否被引用的二元分類問題。為此,本文將引文推薦問題轉(zhuǎn)換為文獻(xiàn)是否被引的二元分類問題,提取表征文獻(xiàn)活躍度的特征,結(jié)合研究者的個(gè)性化引用偏好和常用的文獻(xiàn)計(jì)量學(xué)特征,構(gòu)建二元分類問題的特征庫。利用機(jī)器學(xué)習(xí)方法從特征庫中提取有利于文獻(xiàn)被引用的關(guān)鍵特征,并基于這些特征實(shí)現(xiàn)引文推薦。
2010年,He Q等利用引文上下文的差異性將引文推薦任務(wù)細(xì)分為局部引文推薦和全局引文推薦[5]。局部引文推薦,是指為目標(biāo)文獻(xiàn)的局部上下文推薦合適的引文列表;而全局引文推薦,是根據(jù)目標(biāo)文獻(xiàn)的標(biāo)題內(nèi)容和摘要內(nèi)容為其從整體上推薦引文列表。本文主要對全局引文推薦問題進(jìn)行研究,僅對全局引文推薦相關(guān)的工作進(jìn)行分析。由于推薦技術(shù)主要用于實(shí)現(xiàn)用戶興趣與待推薦對象之間的匹配,因此推薦算法是推薦問題的核心,引文推薦問題也不例外。在全局引文推薦領(lǐng)域,研究者主要用到的推薦算法主要包括協(xié)同過濾推薦和基于圖的引文推薦。
協(xié)同過濾推薦根據(jù)作者的引用偏好和文獻(xiàn)間的相關(guān)性來預(yù)測作者與文獻(xiàn)間的引用關(guān)系。McNee等將作者視為用戶,文獻(xiàn)視為商品,利用文獻(xiàn)之間的引用關(guān)系建立評分矩陣,從而將引文推薦問題轉(zhuǎn)化為普通的商品推薦問題[16];Pohl等把用戶下載文獻(xiàn)的行為作為用戶的活動記錄,并將訪問量較高的文獻(xiàn)推薦給用戶[6];Tang等綜合引用關(guān)系和文獻(xiàn)文本內(nèi)容間的相關(guān)性來實(shí)施推薦[17];Choochaiwattana提出一種基于標(biāo)簽的引文推薦機(jī)制,通過用戶創(chuàng)建的標(biāo)簽來為用戶推薦引文[18];倪衛(wèi)杰構(gòu)建用戶興趣模型和文獻(xiàn)興趣模型,為特定用戶推薦引文[19]。Wang等根據(jù)用戶的歷史行為構(gòu)建用戶偏好模型來實(shí)施推薦[20];Gipp等在引文推薦中使用了基于內(nèi)容的協(xié)同過濾方法[21];陳將引文推薦問題視為分類問題,使用文獻(xiàn)的內(nèi)容信息預(yù)測文獻(xiàn)可能的參考文獻(xiàn)列表[22]。Pan等用標(biāo)簽對用戶進(jìn)行個(gè)人配置,計(jì)算文獻(xiàn)標(biāo)簽向量與個(gè)人配置向量間的相似度來實(shí)施文獻(xiàn)推薦[23];Khadka等結(jié)合引文位置和引文上下文特征,使用主題建模來實(shí)現(xiàn)引文推薦[24];Zhang等引入結(jié)構(gòu)上下文的概念來提升引文推薦的效果[25]。
由于異種類型對象和其之間的關(guān)系可以簡單的用一個(gè)圖來表示,所以基于圖的方法可以很容易地被應(yīng)用到包含多種類型數(shù)據(jù)的數(shù)據(jù)集上來實(shí)施推薦。Gori等構(gòu)建文獻(xiàn)間的同構(gòu)網(wǎng)絡(luò),使用PageRank算法計(jì)算權(quán)重來實(shí)施推薦[26];Meng等構(gòu)建四層多元圖,利用重啟隨機(jī)游走的方法計(jì)算目標(biāo)文獻(xiàn)與候選文獻(xiàn)間的相似性來實(shí)施推薦[27];Jardine等在引文網(wǎng)絡(luò)圖中加入主題分布信息,來改進(jìn)PageRank算法的轉(zhuǎn)移概率以實(shí)施推薦[28];Cai等構(gòu)造三層圖模型,包括作者層、文獻(xiàn)層和出版商層,在此基礎(chǔ)上進(jìn)行推薦[29];Pan等提出了一種包含多元信息異構(gòu)圖的引文推薦方法[30];Gupta等綜合文獻(xiàn)內(nèi)容和文獻(xiàn)的結(jié)構(gòu)關(guān)系來表示文獻(xiàn),在網(wǎng)絡(luò)圖中計(jì)算文獻(xiàn)間的相似度進(jìn)行推薦[31];李飛構(gòu)建基于作者和引文的異構(gòu)圖,利用Deepwalk算法進(jìn)行推薦[32];陳潔等將多粒度屬性網(wǎng)絡(luò)表示學(xué)習(xí)應(yīng)用于引文推薦工作中來解決在異質(zhì)網(wǎng)絡(luò)中的引文推薦問題[33]。
雖然這些工作實(shí)施推薦的角度不同,但其核心問題仍然離不開如何對用戶興趣和目標(biāo)文獻(xiàn)建模,以及如何度量目標(biāo)文獻(xiàn)和待推薦文獻(xiàn)的相似性。盡管這些工作已盡可能廣泛地提出了解決以上核心問題的思路,但引文推薦的精度仍不太理想,且有些推薦算法過于復(fù)雜,并不能很好地進(jìn)行推廣應(yīng)用。本文致力于在這些已有工作的基礎(chǔ)上,發(fā)掘盡可能簡潔的特征來實(shí)施推薦,取得較為可觀的推薦效果。
在當(dāng)前的推薦工作中,還鮮有研究者考察待推薦文獻(xiàn)的活躍程度相關(guān)的指標(biāo)。如果一篇文獻(xiàn)在近年來獲得了較高的被引頻次,說明該文獻(xiàn)在科學(xué)社區(qū)具有較高的認(rèn)可度,同時(shí)也具有較高的可見度。這種較高的可見度能帶給文獻(xiàn)更高的被研究者關(guān)注的機(jī)會,從而提升其被研究者引用的可能性?;谶@種考慮,本文將文獻(xiàn)的活躍度指標(biāo)引入推薦過程,并探討這種加入是否能顯著提升引文推薦的效果。
本文構(gòu)建的考察文獻(xiàn)活躍度的引文推薦系統(tǒng)的輸入和輸出信息如下:
(1)輸入
①目標(biāo)文獻(xiàn):需要被推薦引文的文獻(xiàn)集合P;
②待推薦文獻(xiàn):待推薦文獻(xiàn)集合R,由目標(biāo)文獻(xiàn)P的參考文獻(xiàn)列表中實(shí)際出現(xiàn)的參考文獻(xiàn)集合B,和未被目標(biāo)文獻(xiàn)P引用的文獻(xiàn)集合N構(gòu)成。其中,未被目標(biāo)文獻(xiàn)引用的文獻(xiàn)集合N中的文獻(xiàn)來自于與B中文獻(xiàn)在同一期刊、同一年份發(fā)表的其他文獻(xiàn)。
(2)特征集合X。由用戶的個(gè)性化引用偏好特征、常用的文獻(xiàn)計(jì)量學(xué)特征和文獻(xiàn)的活躍度特征構(gòu)成。
(3)輸出。根據(jù)篩選出的特征,取3個(gè)分類器推薦結(jié)果的并集,為每篇目標(biāo)文獻(xiàn)生成一個(gè)按照被推薦概率排好序的推薦文獻(xiàn)列表L。
本文將引文推薦問題看成待推薦文獻(xiàn)R是否被目標(biāo)文獻(xiàn)P引用的二分類問題。為此,需要首先構(gòu)造用于分類的特征庫X。 在已有的推薦工作中,研究者利用不同算法證實(shí)了用戶的興趣和文獻(xiàn)對間的相似性在引文推薦中的重要作用。本文也將這些特征考慮進(jìn)來,同時(shí)構(gòu)造表征文獻(xiàn)活躍程度的指標(biāo),共同生成分類問題的特征庫X。 在此特征庫基礎(chǔ)上,運(yùn)用Relief-F、RFE和LR3種特征選擇方法,對特征庫X中的各特征x進(jìn)行重要性排序;利用樸素貝葉斯、SVM和Bagging3種分類器驗(yàn)證特征組合的分類性能,提取對文獻(xiàn)是否被引用具有重要影響的特征。依據(jù)這些關(guān)鍵特征,生成針對目標(biāo)文獻(xiàn)的待推薦文獻(xiàn)列表。本文提出的考察文獻(xiàn)活躍度特性的引文推薦算法的示意圖如圖1所示。
圖1 基于文獻(xiàn)活躍度特征的引文推薦實(shí)驗(yàn)流程示意圖Fig.1 Schematic diagram of citation recommendation experiment based on paper activity characteristics
3.1.1 用戶的個(gè)性化引用偏好特征
用戶的個(gè)性化引用偏好特征主要用來反映用戶在撰寫科研成果時(shí)的引用習(xí)慣。本文主要從用戶是否偏向于引用其之前發(fā)表的文獻(xiàn),是否偏向于引用其之前引用過的文獻(xiàn),是否偏向于引用合作者的文獻(xiàn),以及是否偏向于引用之前引用過的作者所寫的文獻(xiàn),4個(gè)角度來表征用戶的個(gè)性化引用偏好,見表1。
表1 用戶的個(gè)性化引用偏好特征Tab.1 Personalized reference preference characteristics of users
為獲取這些特征,需要為每篇目標(biāo)文獻(xiàn)采集如下信息:
(1)目標(biāo)文獻(xiàn)的所有作者發(fā)表的文獻(xiàn)構(gòu)成的集合;
(2)目標(biāo)文獻(xiàn)的所有作者曾經(jīng)引用過的文獻(xiàn)構(gòu)成的集合;
(3)所有曾經(jīng)同目標(biāo)文獻(xiàn)的作者合作過的其他作者構(gòu)成的集合;
(4)目標(biāo)文獻(xiàn)的所有作者曾經(jīng)引用過的其他作者構(gòu)成的集合。
3.1.2 常用的文獻(xiàn)計(jì)量學(xué)特征
在引文推薦工作中常被研究者用到的文獻(xiàn)計(jì)量學(xué)特征見表2,符號p代指目標(biāo)文獻(xiàn),符號r代指待推薦文獻(xiàn)。這些特征涵蓋了待推薦文獻(xiàn)的作者、所在期刊、基金資助情況,以及待推薦文獻(xiàn)與目標(biāo)文獻(xiàn)間的相似度等指標(biāo)。
表2 常用的文獻(xiàn)計(jì)量特征Tab.2 Commonly used bibliometric characteristics
其中,特征x6作者關(guān)鍵字是對文獻(xiàn)作者的國籍、所屬單位和研究領(lǐng)域等的概括性介紹。本文采用Jaccard系數(shù)計(jì)算目標(biāo)文獻(xiàn)p和待推薦文獻(xiàn)r在作者關(guān)鍵字上的相似度。x6的值越大,說明目標(biāo)文獻(xiàn)p和待推薦文獻(xiàn)r的作者越相似。對于目標(biāo)文獻(xiàn)p和待推薦文獻(xiàn)r的作者關(guān)鍵字集合,Jaccard系數(shù)為p與r交集的大小與p與r并集的大小的比值,定義如式(1):
利用余弦相似度計(jì)算特征x8,x9,x10的值。利用Python中的jieba算法分別對目標(biāo)文獻(xiàn)p和待推薦文獻(xiàn)r的標(biāo)題、主題和摘要進(jìn)行分詞,去掉停用詞,主題是Scopus數(shù)據(jù)庫中對文獻(xiàn)研究內(nèi)容的高度概括。之后結(jié)合剩下的詞的詞頻構(gòu)建標(biāo)題、主題和摘要的向量,最后利用余弦相似度計(jì)算目標(biāo)文獻(xiàn)p和待推薦文獻(xiàn)r在3個(gè)方面的相似度。余弦相似度的計(jì)算公式(2)如下:
收集處理完上述特征后,利用線性函數(shù)歸一化方法將上述特征歸一化到[0.01,0.99]范圍內(nèi),消除不同特征的取值范圍對分類的影響。
3.1.3 文獻(xiàn)的活躍度特征
本文用待推薦文獻(xiàn)在近兩年內(nèi)的引用情況來度量文獻(xiàn)的活躍程度。在本實(shí)驗(yàn)中,選取的目標(biāo)文獻(xiàn)均發(fā)表在2018年,則對待推薦文獻(xiàn)而言,表征其活躍程度的引用指標(biāo)均來自于其在2016和2017年的引用情況。
本文采集了待推薦文獻(xiàn)在近2年內(nèi)的總被引頻次、近2年內(nèi)的引證國家數(shù)量、近2年內(nèi)的引證期刊數(shù)量、近2年內(nèi)的引證機(jī)構(gòu)數(shù)量和近2年內(nèi)的引證學(xué)科數(shù)量,來構(gòu)造文獻(xiàn)的活躍度特征。這些指標(biāo)反映了在近2年內(nèi)待推薦文獻(xiàn)在科學(xué)社區(qū)內(nèi)的影響可見度。對一篇待推薦文獻(xiàn)r而言,如果在近2年內(nèi)得到了來自更多的國家、機(jī)構(gòu)、期刊和學(xué)科的引用,則意味著該文獻(xiàn)受到了更多學(xué)術(shù)同行的認(rèn)可,在科學(xué)社區(qū)內(nèi)產(chǎn)生了較為廣泛的影響。而這種影響將推動其繼續(xù)被學(xué)者關(guān)注,并持續(xù)轉(zhuǎn)化為學(xué)者研究成果的參考文獻(xiàn)。
為結(jié)合以上5個(gè)引用指標(biāo)生成綜合的文獻(xiàn)活躍度特征,本文利用熵權(quán)法為每個(gè)特征賦權(quán)重,求得5個(gè)特征值的加權(quán)和以代表本文的文獻(xiàn)活躍度特征。根據(jù)待推薦文獻(xiàn)在近2年內(nèi)的總被引頻次、以及其被不同國家、期刊、機(jī)構(gòu)和學(xué)科的引證數(shù)量的值構(gòu)成這5項(xiàng)子特征的數(shù)據(jù)矩陣A,式(3),其中Xij為第i個(gè)文獻(xiàn)的第j個(gè)特征的數(shù)值。
計(jì)算xij占特征xj的比重,式(4):
計(jì)算第j個(gè)特征的熵值,式(5):
根據(jù)ej計(jì)算第j個(gè)特征的熵冗余度,式(6):
根據(jù)gj求特征的權(quán)數(shù),式(7):
將求得的每個(gè)特征的權(quán)重和其值求加權(quán)和,得出本文的文獻(xiàn)活躍度特征x19,式(8):
為提取對引文推薦具有重要價(jià)值的特征,本文采用Relief-F、Recursive Feature Eimination(RFE)和Logistic Regression(LR)3種特征選擇方法對特征進(jìn)行重要性排序,并結(jié)合不同特征組合的分類精度得到影響推薦效果的核心特征子集。
3.2.1 Relief-F
Relief-F算法通過計(jì)算不同特征,區(qū)分不同類型樣本的能力來為特征賦予權(quán)重。其隨機(jī)從待推薦數(shù)據(jù)集R中選取一個(gè)樣本ri,從ri同類的樣本集C中找到k臨近的臨近樣本{hj},從與ri不同類的樣本集S中找到k臨近的隨機(jī)樣本{mj},計(jì)算特征x區(qū)分臨近樣本{hj}和隨機(jī)樣本{mj}的能力。如果樣本ri和臨近樣本{hj}在特征x上的距離小于樣本ri和隨機(jī)樣本{mj}上的距離,則說明該特征對區(qū)分同類和不同類的數(shù)據(jù)是有益的,則增加該特征的權(quán)重W。根據(jù)W對特征進(jìn)行排序,獲得根據(jù)重要程度排序的特征。
求權(quán)重W的具體算法見公式(9):
其中,p(C)為類別C在所有類別中所占比例,p(S)為類別S在所有類別中所占比例。diff定義見公式(10),其表示樣本r1和r2在特征x上的差:Diff(x,ri,rj)=
3.2.2 RFE
遞歸特征消除法是通過遞歸的方式,不斷剔除作用最小的特征,減少特征集的規(guī)模來選擇需要的特征,RFE的底層模型很大程度會影響其穩(wěn)定性。本模型底層采用SVM,SVM作為一種基于統(tǒng)計(jì)理論的分類方法,將低維線性不可分割的數(shù)據(jù)在核函數(shù)的作用下映射到較高維度而實(shí)現(xiàn)線性分割。每個(gè)特征對應(yīng)特定維度,維度的權(quán)重由分類器的精度確定,而權(quán)重即可視作該特征的重要性。
REF首先給每個(gè)特征賦一初始權(quán)重w0,然后采用預(yù)測模型在這些原始的數(shù)據(jù)上進(jìn)行訓(xùn)練,訓(xùn)練后獲取特征的最終權(quán)重值w1,取這些權(quán)重值的絕對值,把絕對值最小的特征剔除掉。按照以上步驟,不斷循環(huán)遞歸,直至剩余的特征數(shù)量達(dá)到所需的數(shù)量。將剩余特征按照w1排序即得到特征選擇的最終結(jié)果。
3.2.3 LR
LR是統(tǒng)計(jì)學(xué)中一種經(jīng)典的分類算法,對回歸或分類問題建立代價(jià)函數(shù)并迭代優(yōu)化,求解出最優(yōu)參數(shù),該參數(shù)即特征的權(quán)值。具體步驟如下:
將線性回歸函數(shù)帶入Sigmoid函數(shù),得到的h函數(shù),若hθ(x)>0.5,則Y∈A;若hθ(x)<0.5,則Y∈B。
線性回歸函數(shù),式(11):Sigmoid函數(shù),式(12):
h函數(shù),式(13):
然后構(gòu)造代價(jià)函數(shù)C(θ),C(θ)能夠描述模型預(yù)測值h(θ)和真實(shí)值y之間的差異。若有多個(gè)樣本,則取所有代價(jià)函數(shù)的均值,計(jì)作J(θ)。 該均值J(θ)可用于評價(jià)該模型的好壞。J(θ)越小,則當(dāng)前模型的參數(shù)與訓(xùn)練樣本越相符。于是基于最大似然估計(jì)可得J(θ),式(14):
基礎(chǔ)梯度下降法求J(θ)最小值,更新參數(shù),得到最符合當(dāng)前數(shù)據(jù)的模型,式(15):
特征對應(yīng)的系數(shù)θj越大代表對期望的貢獻(xiàn)越大,該系數(shù)也就是特征的權(quán)值。將系數(shù)θj從大到小排序,獲得根據(jù)重要程度排序的特征。
在通過特征選擇方法獲得特征排序結(jié)果的基礎(chǔ)上,本文利用樸素貝葉斯,SVM和基于決策樹的Bagging 3種分類器來檢驗(yàn)不同特征組合的分類效果,得到影響文獻(xiàn)是否被引用的關(guān)鍵特征。
樸素貝葉斯是一種基于概率的分類器算法,其假設(shè)每個(gè)輸入變量是獨(dú)立的,根據(jù)訓(xùn)練集中每個(gè)特征的取值是否被引的先驗(yàn)概率,推算出測試集中特征給定時(shí)被引的后驗(yàn)概率,決定該元組是否被引。本實(shí)驗(yàn)中使用的是高斯樸素貝葉斯模型,假定數(shù)據(jù)符合高斯分布。
SVM是一種二分類算法,可以支持線性和非線性的分類,其把劃分?jǐn)?shù)據(jù)的決策平面統(tǒng)稱為超平面。離這個(gè)超平面最近的點(diǎn)叫支持向量,點(diǎn)到平面的距離叫間隔,通過在特征空間中尋找最佳的分離超平面,從而使訓(xùn)練集中正樣本和負(fù)樣本的間隔最大。利用該最優(yōu)超平面,將文獻(xiàn)集輸入模型后即可得到合適的引文集并推薦給目標(biāo)文獻(xiàn)。本實(shí)驗(yàn)使用線性核函數(shù)的SVM并進(jìn)行概率估計(jì)。
Bagging是一種基于決策樹的分類器,它是一種并行的集成學(xué)習(xí)方法,使用多棵樹進(jìn)行訓(xùn)練和預(yù)測,并結(jié)合訓(xùn)練結(jié)果輸出預(yù)測值。本實(shí)驗(yàn)中使用決策樹分類器,考慮到該分類問題為二分問題,構(gòu)建9棵決策樹進(jìn)行投票,在避免過擬合的情況下盡可能收縮,使最終結(jié)果趨于均值。
本實(shí)驗(yàn)的原始數(shù)據(jù)均來自Scopus數(shù)據(jù)庫。Scopus收錄了來自于全球4 000家出版社的19 000種來源期刊,是全球最大的文摘和引文數(shù)據(jù)庫,為科研人員提供一站式獲取科技文獻(xiàn)的平臺。本文以科學(xué)計(jì)量學(xué)領(lǐng)域下的國際頂級期刊Scientometrics為文獻(xiàn)樣本來源,來獲取目標(biāo)文獻(xiàn)集合。
數(shù)據(jù)的獲取為利用爬蟲算法在Python3.7環(huán)境下,爬取Scopus數(shù)據(jù)庫中期刊Scientometrics中發(fā)表時(shí)間為2018年且被引頻次排名前100的文獻(xiàn)作為目標(biāo)文獻(xiàn)集合P。收集100篇目標(biāo)文獻(xiàn)P的參考文獻(xiàn)共4 250篇,將標(biāo)題、作者、摘要和DOI為空的文獻(xiàn)刪除,剩余的3 555篇文獻(xiàn)作為被引文獻(xiàn)B。按照1:4的比例收取與被引文獻(xiàn)B在同一期刊、同一年份發(fā)表的且未被目標(biāo)文獻(xiàn)P引用的文獻(xiàn)N。被引文獻(xiàn)B和未被引文獻(xiàn)N共同構(gòu)成待推薦的文獻(xiàn)集R。
數(shù)據(jù)的處理分為對目標(biāo)文獻(xiàn)集P的處理,以及對待推薦的文獻(xiàn)集R的處理,處理步驟如下:
(1)目標(biāo)文獻(xiàn)
①從Scopus數(shù)據(jù)庫上直接導(dǎo)出文獻(xiàn)的標(biāo)題、作者、作者ID、摘要、來源出版物、發(fā)表時(shí)間、施引文獻(xiàn)數(shù)量、作者關(guān)鍵字以及在Scopus上的鏈接、文獻(xiàn)的EID號和DOI號;
②在Scopus數(shù)據(jù)庫上手工收集每篇目標(biāo)文獻(xiàn)p的每個(gè)作者之前寫過的所有文獻(xiàn)、每個(gè)作者的之前的合著者、每個(gè)作者引用過的文獻(xiàn)以及每個(gè)作者引用過的作者;
③利用爬蟲爬取每篇目標(biāo)文獻(xiàn)p的主題、學(xué)科和國家。
(2)推薦的文獻(xiàn)
①從Scopus數(shù)據(jù)庫上直接導(dǎo)出文獻(xiàn)的標(biāo)題、作者、作者ID、摘要、來源出版物、發(fā)表時(shí)間、施引文獻(xiàn)數(shù)量、作者關(guān)鍵字、出資詳情以及在Scopus上的鏈接、文獻(xiàn)的EID號和DOI號;
②利用爬蟲爬取待推薦文獻(xiàn)r的常用的科學(xué)計(jì)量學(xué)特征和文獻(xiàn)活躍度特征,利用程序判斷待推薦文獻(xiàn)r和對應(yīng)目標(biāo)文獻(xiàn)p的關(guān)系,獲取作者偏好特征。
首先,利用Relief-F、RFE、LR 3個(gè)特征選擇算法分別對實(shí)驗(yàn)收集的19個(gè)特征進(jìn)行特征排序;其次,選取每個(gè)方法排名前10的特征完成進(jìn)一步實(shí)驗(yàn)。對于某一種特征組合{xi},(i=1,2,…,10),取一篇種子文獻(xiàn)pi,pi作為目標(biāo)文獻(xiàn),pi的待推薦文獻(xiàn)集RA作為測試集,其余99篇種子文獻(xiàn)的待推薦文獻(xiàn)集RB作為訓(xùn)練集。將訓(xùn)練集RB放入分類器進(jìn)行訓(xùn)練后,輸入測試集RA,通過比較分類器對測試集RA的預(yù)測結(jié)果和目標(biāo)文獻(xiàn)pi實(shí)際引用情況的吻合程度,衡量分類效果。求取3個(gè)分類器分別輸出的F1的均值作為該特征組合{x i}對該篇目標(biāo)文獻(xiàn)pi的分類效果值。對100篇種子文獻(xiàn)都重復(fù)以上步驟后,將獲得的100個(gè)F1值求取均值,來代表該特征組合{x i}對本實(shí)驗(yàn)數(shù)據(jù)集的分類效果值。
按照上述實(shí)驗(yàn)思路,逐個(gè)去掉每個(gè)特征選擇中得分最低的特征,輸入到3個(gè)不同的分類器模型中,得出新的子特征組合對應(yīng)的F1均值。提取F1均值最高時(shí)對應(yīng)的特征子集為最終的約簡子集。將在3種分類器下得到的約簡子集取交集運(yùn)算,即可得最終篩選出的特征。
為評價(jià)本文提出的算法在引文推薦任務(wù)中的有效性,本文采用準(zhǔn)確率P,召回率R和F1值來衡量推薦列表的質(zhì)量。公式中符號的具體說明見表3。
表3 評價(jià)指標(biāo)Tab.3 Evaluation indexes
準(zhǔn)確率是指分類正確的文獻(xiàn)在文獻(xiàn)總數(shù)中的占比,是對推薦系統(tǒng)查準(zhǔn)率的衡量。在本文中,即被正確分類的待推薦文獻(xiàn)與總的待推薦文獻(xiàn)的比值,式(16):
召回率指的是正確推薦給目標(biāo)文獻(xiàn)p的引文與其實(shí)際引用的比率,是對推薦系統(tǒng)查全率的衡量,式(17):
由于準(zhǔn)確率與召回率有時(shí)候會出現(xiàn)相矛盾的情況,故引入衡量指標(biāo)F1值對二者進(jìn)行綜合考慮,式(18):
4.4.1 重要特征的選擇
表4列出了3種特征選擇算法下選出的前10個(gè)特征,可以看出由近期引用狀況特征所確定的文獻(xiàn)的活躍度特征,在3種方法中的排名均比較靠前,說明文獻(xiàn)活躍度的特征有助于提升推薦效果;在常用的科學(xué)計(jì)量學(xué)特征中,主題和標(biāo)題的相似度具有更大的優(yōu)勢;作者偏好特征中,大部分的特征排名都靠前,說明作者的興趣對推薦具有較大的影響。
表4 特征選擇的結(jié)果Tab.4 Result of feature selection
為了得到對文獻(xiàn)是否被引具有重要影響的特征,在由每個(gè)特征選擇方法得到的特征排序結(jié)果中,本文依次去掉權(quán)重得分最低的特征,將剩下的特征集合放入分類器中,記錄分類的精度,循環(huán)進(jìn)行,直到分類器的精度下降,取此時(shí)在特征集中剩余的特征為選出的特征約簡子集。在分類器Relief-F、RFE和LR下分類精度的變化趨勢如圖2~4所示,按照此過程選出的特征約簡子集的結(jié)果見表5。
圖2 Relief-F方法下F1值變化趨勢圖Fig.2 Change trend diagram of F1 index under Relief-F method
圖3 RFE方法下F1值化趨勢圖Fig.3 Change trend diagram of F1 index under RFE method
圖4 LR方法下F1值變化趨勢圖Fig.4 Change trend diagram of F1 index under LR method
表5 特征選擇結(jié)果Tab.5 Results of feature selection
不同的特征選擇算法側(cè)重點(diǎn)各異,單個(gè)特征選擇方法選出的特征具有局限性,因此,對3個(gè)特征選擇算法所得到的約簡子集取交集運(yùn)算,以得到在不同的特征選擇算法下都比較重要的特征。這些特征,將是影響文獻(xiàn)是否被引用的最核心的指標(biāo),得到的結(jié)果見表6。
表6 最終選擇的特征結(jié)果Tab.6 The final selection of feature results
4.4.2 利用分類器實(shí)現(xiàn)推薦
將選出來的7個(gè)特征放入分類器,驗(yàn)證基于這些特征的引文推薦效果。本文將推薦問題轉(zhuǎn)化為二元分類問題,對每篇目標(biāo)文獻(xiàn)p,生成一個(gè)按照被推薦概率排序的推薦文獻(xiàn)列表l,將推薦結(jié)果l與每篇目標(biāo)文獻(xiàn)p的實(shí)際引用進(jìn)行比較,算出相應(yīng)的得分。同時(shí)與僅考慮文本相似度,利用標(biāo)題相似度和主題相似度進(jìn)行推薦的結(jié)果作對比見表7??梢钥闯?,相對于基線方法,利用本文提取出的7個(gè)核心特征進(jìn)行是否被引用的識別,其準(zhǔn)確率、召回率和F1值分別提升了6%、29%和26%,由此證明了這些特征是影響文獻(xiàn)是否被引,實(shí)際上也是文獻(xiàn)是否應(yīng)該被推薦的關(guān)鍵指標(biāo)。
表7 分類器實(shí)現(xiàn)推薦的結(jié)果Tab.7 Results of classifier implementation recommendations
相對于之前的研究工作而言,本文用較少的非常容易獲取的特征較好地實(shí)現(xiàn)了引文推薦的工作,這對研究者開展實(shí)際的引文推薦研究具有重要的價(jià)值。在這些特征中,本文引入的文獻(xiàn)的活躍度特征在引文推薦過程中起到了非常重要的作用,這實(shí)際上反映了引用過程中的“優(yōu)先鏈接”的思想,說明那些在近期內(nèi)得到較高引用的文章將具有更高的被再次引用的可能性。
本文將引文推薦問題轉(zhuǎn)換為文獻(xiàn)是否被引的二元分類問題,提取表征文獻(xiàn)活躍度的特征,結(jié)合研究者的個(gè)性化引用偏好和常用的文獻(xiàn)計(jì)量學(xué)特征,構(gòu)建用以二元分類問題的特征庫。利用Relief-F、RFE和LR特征選擇方法從特征庫中提取有利于文獻(xiàn)被引用的關(guān)鍵特征,并基于這些特征利用樸素貝葉斯、SVM和Bagging分類器實(shí)現(xiàn)引文推薦。本文的實(shí)驗(yàn)結(jié)果表明,文獻(xiàn)的近期活躍度特性、作者的個(gè)性化引用偏好和文獻(xiàn)對間的主題相似性是影響文獻(xiàn)是否被推薦的核心因素。本文通過較為精簡的特征實(shí)現(xiàn)了較好的引文推薦工作,這將對研究者開展實(shí)際的引文推薦研究提供有價(jià)值的參考。