王嚴(yán)鑫 張 芳
(1.江蘇大學(xué)計(jì)算機(jī)科學(xué)與通信工程學(xué)院 鎮(zhèn)江 212013)
(2.南陽理工學(xué)院計(jì)算機(jī)與信息工程學(xué)院 南陽 473004)
引文分析是利用數(shù)學(xué)及統(tǒng)計(jì)學(xué)的方法和比較、歸納、抽象、概括等邏輯方法,對科學(xué)期刊、論文、著者等各種分析對象的引證與被引證現(xiàn)象進(jìn)行分析,進(jìn)而揭示其中的數(shù)量特征和內(nèi)在規(guī)律的一種文獻(xiàn)計(jì)量分析方法[1]。根據(jù)對引文分析著重的角度不同,可分為基于引文著錄的引文分析法和基于全文信息的引文分析法[2]。
由于引文分析學(xué),是一門交叉學(xué)科,與圖書館學(xué),情報(bào)學(xué)以及信息學(xué)有著密切的聯(lián)系[3]。因此,信息技術(shù)的發(fā)展同時(shí)也推動(dòng)著引文分析學(xué)的發(fā)展。由此為出發(fā)點(diǎn),通過文本挖掘,自然語言處理,語義分析等方法與技術(shù),假設(shè)原始文獻(xiàn)與引用文獻(xiàn)之間的相關(guān)性可以通過對原始文獻(xiàn)和引用文獻(xiàn)的文本特征進(jìn)行定量分析,并通過相關(guān)性的判斷,對其進(jìn)行加權(quán)計(jì)算,不再簡單地同等對待所有引用,而是通過語義的相似度計(jì)算,區(qū)分程度較深的引用和程度較淺的引用。
PageRank 算法是Lawrence Page 和Sergey Brin提出的[4],用于進(jìn)行網(wǎng)頁排序的算法,但在引文分析領(lǐng)域,極大地推動(dòng)了對于引文網(wǎng)絡(luò)的分析發(fā)展,成為一種有效分析引文網(wǎng)絡(luò)的手段。
引文網(wǎng)絡(luò)之間存在引用關(guān)系,以此為基礎(chǔ)形成了引文網(wǎng)絡(luò),與網(wǎng)絡(luò)有著相同的性質(zhì),因此,使用網(wǎng)絡(luò)的方法對引文網(wǎng)絡(luò)進(jìn)行分析成為了新的研究熱點(diǎn)。近年來,將PageRank 算法應(yīng)用于引文分析領(lǐng)域,取得了一定的進(jìn)展,以PageRank 算法為基礎(chǔ)的研究在實(shí)驗(yàn)中獲得了更好的性能。
近年來,學(xué)者們基于PageRank 算法提出了很多引文分析的算法。
Zhiwei W 等[6]根據(jù)PageRank算法的性質(zhì),綜合考慮主題間的相關(guān)性、文獻(xiàn)流動(dòng)價(jià)值、文獻(xiàn)活躍度,提出了多維檢索排序法。劉俊婉等[7]基于Word2Vec 和TF-IDF 提出了一種根據(jù)學(xué)術(shù)相似度的改進(jìn)PageRank 算法,目的是合理地為學(xué)者的學(xué)術(shù)影響力排序。Zhang Y 等[8]提出了一種集體主題的管道模型,目的是將論文文本內(nèi)容與PageRank算法結(jié)合,對論文進(jìn)行排序。
Erjia Yan 等[9]提出的一種使用加權(quán)引用技術(shù)來衡量一篇文章的聲望的算法,該技術(shù)通過考慮引用期刊和引用時(shí)間間隔的影響,為每個(gè)參考分配不同的權(quán)重。Jianlin Zhou 等[10]提出的一種基于相似性優(yōu)先機(jī)制的SPRank算法。其基本思想是考慮節(jié)點(diǎn)之間的相似性:不同節(jié)點(diǎn)之間的連接更可能是虛假連接。
對于一個(gè)n 篇文獻(xiàn)的文獻(xiàn)集合D={d1,d2,…,,根據(jù)PageRank算法,有:
其中,PageRank(di)是文獻(xiàn)di的PageRank 得分,N是全部參與計(jì)算文獻(xiàn)的數(shù)目,q 是一個(gè)阻尼系數(shù),Mdi是指引用了文獻(xiàn)di的文獻(xiàn)集合,dj是屬于Mdi中的一篇文獻(xiàn),L(dj)是文獻(xiàn)dj引用的其他文獻(xiàn)的數(shù)量。
本文采用詞向量技術(shù)[12~13]對該科學(xué)文獻(xiàn)di進(jìn)行表示。首先抽取該文獻(xiàn)集合D 中所有文獻(xiàn)的標(biāo)題以及摘要作為文獻(xiàn)集合語料庫Dcorpus,去除停用詞后使用word2vec[13~15]對Dcorpus語料庫進(jìn)行訓(xùn)練,并得到關(guān)于Dcorpus的 |V |*m 維的詞向量矩陣WVec,其中,V 表示Dcorpus語料庫的詞典向量,|V|表示Dcorpus語料庫的長度,詞向量矩陣WVec 表示單詞Vi在m 維向量空間的向量表示:
其中,eiT表示第i 個(gè)分量為1的單位向量。
對于一篇科學(xué)文獻(xiàn)di,根據(jù)文本空間向量模型,該文獻(xiàn)的語義模型可以使用一組文本特征來表征:
其中fi為文本特征,t 為不同文本特征的數(shù)目。首先統(tǒng)計(jì)該科學(xué)文獻(xiàn)di中出現(xiàn)的所有詞項(xiàng){w1,w2,…,wt} 以 及 對 應(yīng) 詞 項(xiàng) 出 現(xiàn) 的 詞 頻{df1,df2,…,dft},此時(shí),對于任一篇文獻(xiàn)di的第i個(gè)文本特征fi可以用( wi,dfi)的一個(gè)詞項(xiàng)-詞頻二元組來表示:
最終得到了一篇科學(xué)文獻(xiàn)di在一個(gè)向量空間的映射,以此為基礎(chǔ),計(jì)算其文檔間的相似度Simlarity(di,dj)。
以文獻(xiàn)間的相似度為基礎(chǔ),結(jié)合以往經(jīng)過驗(yàn)證對于PageRank 算法有提升效果的時(shí)間以及會(huì)議因素,提出基于文獻(xiàn)間相似度的PageRank 算法,其描述如下:
其中,對于其中任一個(gè)引文鏈接,引用文獻(xiàn)為被引用文獻(xiàn)貢獻(xiàn)權(quán)重的計(jì)算方式為
1)相關(guān)性因素的得分
本文使用存在引用關(guān)系的引用文獻(xiàn)di和被引用文獻(xiàn)dj的相似度,直接作為該引文鏈接相關(guān)性因素的得分,作為加權(quán)PageRank 算法中相似度為被引用文獻(xiàn)dj提供的權(quán)重。
2)時(shí)間因素的得分
引用時(shí)間間隔會(huì)影響文章的聲望[9]。當(dāng)年的引用將具有更大的價(jià)值。因此不能將每個(gè)引用文章視為同等重要,而是將其引用期刊的文章影響力分?jǐn)?shù)與引用時(shí)間與發(fā)布時(shí)間的差值相乘。根據(jù)時(shí)間間隔與引用次數(shù)獲得時(shí)間因素的擬合函數(shù)。
圖1 時(shí)間因素的擬合函數(shù)
3)會(huì)議因素的得分:
算法1(基于詞向量的PageRank算法STVRank)
輸入:文獻(xiàn)集合D,文獻(xiàn)集合語料庫Dcorpus,引文網(wǎng)絡(luò)A,相關(guān)性系數(shù)sij,時(shí)間系數(shù)tij,會(huì)議系數(shù)vij,詞向量矩陣WVec。
輸出:STVRank算法排序結(jié)果列表R
/*第一部分,構(gòu)建文檔向量空間模型Φ*/
1 用詞向量技術(shù)訓(xùn)練Dcorpus中文檔,得到詞向量矩陣WVec
/*第二部分,計(jì)算相關(guān)性權(quán)重,時(shí)間權(quán)重,會(huì)議權(quán)重*/
2 for each di∈D do
5 end for
6 for each Aij∈A do
10 end for
/*第三部分,綜合三個(gè)因素排序*/11 for error <min Error do
12 for each d ∈Ddivand d ∈Cido
15 end for
16 end for
17 按PageRank 值從大到小順序?yàn)樗锌茖W(xué)文獻(xiàn)排序,得到排序列表R
18 return R
α,β,γ 分別為相似度因素,時(shí)間因素,會(huì)議因素對應(yīng)的權(quán)重,且約束條件為α+β+γ=1。
本文使用ACL 選集網(wǎng)絡(luò)語料庫(ACL Antholo?gy Network,AAN)作為基準(zhǔn)數(shù)據(jù)集[15]。ANN包含了由ACL(Association of Computational Linguistics)所出版的計(jì)算機(jī)語言學(xué)文獻(xiàn)的完整集合。本文使用的是2014 版的ANN 語料庫,其統(tǒng)計(jì)數(shù)據(jù)如表1 所示,ANN 選集網(wǎng)絡(luò)語料庫包含了共19892篇科學(xué)文獻(xiàn),作者15379 名,會(huì)議361 個(gè),引用鏈接124741條。
表1 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)信息
金標(biāo)準(zhǔn)文檔集合(GoldP)[16]包含了93 篇至少被著名的教科書以及十五個(gè)世界知名的大學(xué)科學(xué)文獻(xiàn)引用兩次及以上的文獻(xiàn),其統(tǒng)計(jì)信息如表2 所示。
表2 金標(biāo)準(zhǔn)集合的統(tǒng)計(jì)信息
由于有了黃金標(biāo)準(zhǔn)文檔集合的推薦等級計(jì)數(shù),我們采用常見的分類指標(biāo)和分級相關(guān)性指標(biāo)來評估排名有效性。本節(jié)采用的分類指標(biāo)是精確率(Precision),采用的分級相關(guān)性指標(biāo)是標(biāo)準(zhǔn)化折扣累積增益(NDCG)。
精確率的定義為
其中,reli表示結(jié)果列表第i 篇文檔是否相關(guān)。
α-NDCG的定義為
其中,gradei表示結(jié)果列表第i 篇文檔的相關(guān)等級,idealgradei表示理想結(jié)果列表的第i 篇文檔的相關(guān)等級。
圖2 顯示了不同的α,β和γ值的STVRank 精度。X 軸表示α的值,Y 軸表示β值。由于α+β+γ總是等于1,所以在熱圖中的任何一點(diǎn),γ的值都是1-α-β(地圖的右上角三角形是空的,因?yàn)棣?,β的總和,和γ不能超過1)。 熱圖中的溫度越高,效果越好。
STVRank 的 最 高 NDCG@20 得 分 是 在α=0.375, β=0.125,γ=0.5 時(shí)獲得的。本章采用PageRank 算法作為基線,對比基于PageRank 的引文分析算法最新研究成果WC 和SPRank,SPRank算法中,選取效果最佳的θ=0.1。STV 算法的參數(shù)設(shè)置為α=0.375,β=0.125,γ=0.5。
圖2 不同參數(shù)α,β(γ=1-α-β)設(shè)置下的STVRank算法的NDCG@20得分
本節(jié)采用P@K和NDCG@K兩種指標(biāo)作為評價(jià)標(biāo)準(zhǔn),實(shí)驗(yàn)對比結(jié)果如表3及表4所示。
表3 在P@K指標(biāo)中各算法的性能對比
表4 在NDCG@K指標(biāo)中各算法的性能
從表3、4 中可以發(fā)現(xiàn),在基于結(jié)果列表評價(jià)的兩種指標(biāo),分別對應(yīng)著對于高質(zhì)量文獻(xiàn)的分類以及分級評估的性能,STVRank算法明顯優(yōu)于PageRank算法。最佳狀態(tài)下的STVPageRank 算法,相較于SPRank和WC算法,對于高質(zhì)量文獻(xiàn)的分類性能提高了29.9%、7.4%,對于高質(zhì)量文獻(xiàn)的分級評估性能明顯優(yōu)于SPRank 算法,相較于WC 算法提升了22%。在各項(xiàng)指標(biāo)中,STVPageRank 算法都有著優(yōu)良的表現(xiàn)。實(shí)驗(yàn)證明,考慮文檔間相似度的STVRank 算法,可以提升PageRank 算法對于科學(xué)文獻(xiàn)排名的有效性。
設(shè)計(jì)的排名算法必須能夠抵抗這些惡意操縱行為。我們進(jìn)一步研究了STVRank 算法對惡意操縱的穩(wěn)定性。首先基于ANN 數(shù)據(jù)集,構(gòu)建正確的引文網(wǎng)絡(luò)。之后,隨機(jī)選取被引用次數(shù)為0 的文獻(xiàn)作為嘗試去提升名次的目標(biāo)文獻(xiàn)。標(biāo)記目標(biāo)文獻(xiàn)節(jié)點(diǎn)的起始排名R0,然后向引文網(wǎng)絡(luò)中隨機(jī)添加n個(gè)文獻(xiàn)節(jié)點(diǎn),每個(gè)文獻(xiàn)節(jié)點(diǎn)帶有m條指向之前已經(jīng)存在的文獻(xiàn)節(jié)點(diǎn)的鏈接,其中一條鏈接指向目標(biāo)文獻(xiàn)節(jié)點(diǎn),剩下m-1條鏈接隨機(jī)指向引文網(wǎng)絡(luò)內(nèi)的節(jié)點(diǎn)。在經(jīng)過h 次添加節(jié)點(diǎn)并迭代網(wǎng)絡(luò)達(dá)到收斂后的目標(biāo)文獻(xiàn)節(jié)點(diǎn)的排名為Rh,我們使用ΔRh=R0-Rh,作為排序算法排名變化的描述。當(dāng)帶有動(dòng)機(jī)不當(dāng)?shù)逆溄舆M(jìn)入引文網(wǎng)絡(luò)時(shí),目標(biāo)文獻(xiàn)節(jié)點(diǎn)的變化幅度越小,說明該算法的穩(wěn)定性越高。
圖3 當(dāng)作弊節(jié)點(diǎn)輻射鏈接為20的時(shí)候,各算法作弊節(jié)點(diǎn)排名的提升
實(shí)驗(yàn)設(shè)置為每篇新建文獻(xiàn)節(jié)點(diǎn)的鏈接數(shù),實(shí)驗(yàn)結(jié)果取100次獨(dú)立實(shí)驗(yàn)的平均值。
圖3 是穩(wěn)定性實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果。通過圖4 發(fā)現(xiàn),WC 算法對于操縱引文網(wǎng)絡(luò)的引文不當(dāng)行為比PageRank 算法更為敏感,而SPRank 算法,STV 算法均比PageRank 算法更為穩(wěn)定,相較于PageRank 算法,穩(wěn)定性提升分別為13.2%、24.3%。實(shí)驗(yàn)證明,考慮文檔間相似度的STVRank算法,可以提升Pag?eRank算法對于科學(xué)文獻(xiàn)排名的穩(wěn)定性。
客觀地評價(jià)科學(xué)出版物的質(zhì)量是科學(xué)計(jì)量學(xué)中長期存在的挑戰(zhàn)。雖然現(xiàn)在引用計(jì)數(shù)被廣泛用對科學(xué)文獻(xiàn)質(zhì)量的近似評估,但這種計(jì)數(shù)方法并不公平。PageRank 現(xiàn)在通常被認(rèn)為是比引用計(jì)數(shù)更好的排序方法,因?yàn)樗趯?jié)點(diǎn)進(jìn)行排名時(shí)會(huì)考慮網(wǎng)絡(luò)的全局信息。
在本文中,我們結(jié)合自然語言處理的最新進(jìn)展詞向量,考慮存在鏈接關(guān)系的兩個(gè)科學(xué)文獻(xiàn)在語義上的相似性,最后在考慮引用期刊因素與引用時(shí)間間隔因素,對該模型進(jìn)行擬合,提出了一種新的迭代排序算法,它結(jié)合了文獻(xiàn)節(jié)點(diǎn)語義相似性的貢獻(xiàn)。最終發(fā)現(xiàn),新方法不僅可以顯著提高最終排名的穩(wěn)定性,而且在識(shí)別有影響力的論文上也具有突出的效果。