劉 圣,張景肖
(中國人民大學(xué) 統(tǒng)計學(xué)院,北京 100872)
在國內(nèi),現(xiàn)在應(yīng)用最廣泛的科研評價指標的數(shù)據(jù)源是科學(xué)引文索引數(shù)據(jù)庫(SCI),SCI是由美國科學(xué)情報所(ISI)建立的國際性數(shù)據(jù)庫,它收錄了國際上高質(zhì)量的學(xué)術(shù)期刊,建立了較為科學(xué)的文獻計量指標,并且被越來越多地用于評價各國的科研績效。盡管SCI在國際范圍內(nèi)得到了廣泛的應(yīng)用,其本身仍存在很多局限性,不能很好地反映文獻的學(xué)術(shù)水平。
基于馬氏鏈的文獻評價方法是對傳統(tǒng)文獻計量指標(期刊影響因子)的修正和完善,主要包括迭代影響因子(Pinski和 Narin,1976)和 Page Rank算法(Page et al,1998),該方法能夠解決傳統(tǒng)文獻計量指標對不同的引用關(guān)系不進行區(qū)分的問題,可以更好地描述文獻的影響力,因而也越來越受到研究人員的關(guān)注。因為計算過程相對復(fù)雜,這類方法在實際中的應(yīng)用遠沒有傳統(tǒng)計量指標廣泛,但該方法對著名的搜索引擎算法的產(chǎn)生起到了重要影響,Larry Page和Sergey Brin提出的Page Rank算法是迭代影響因子在Web結(jié)構(gòu)上的應(yīng)用(Cole,2007)。
根據(jù)文章間的引用與網(wǎng)頁間鏈接的相似性,將發(fā)展相對更加成熟的網(wǎng)頁排序方法 (如Page Rank算法和HITS算法等)應(yīng)用到文獻的引文分析中是一項重大創(chuàng)新,具有很強的實用價值(Langville和Meyer 2006)。但是基于馬氏鏈的文獻評價模型在理論模型、實際應(yīng)用中仍有許多需要改進和完善的地方,如馬氏鏈轉(zhuǎn)移矩陣中的等權(quán)重問題:不同的參考文獻對文章的影響是不同的,顯然不應(yīng)同等對待;模型參數(shù)敏感性問題:不同的參數(shù)選擇會導(dǎo)致不同的評價結(jié)果,如何選擇最優(yōu)的參數(shù)值仍有待研究。本文將針對這些問題提出修正模型,使得修正后的模型結(jié)果更能反映實際情況。
基于馬氏鏈的文獻評價方法的思路可描述如下:該方法模擬一名研究人員查閱文獻的過程,將所有待評價的文獻看作馬氏鏈的狀態(tài)空間,其中每一篇待評價文獻作為一個狀態(tài),狀態(tài)轉(zhuǎn)移矩陣則是根據(jù)文獻間是否有引用關(guān)系、引用關(guān)系的類型強弱決定的。文獻的影響力則用研究人員在每篇文獻上的平均停留次數(shù)或到達每篇文獻的概率來度量,即需要求解該馬氏鏈的平穩(wěn)分布,記為 R=(PR(p1),PR(p2),…,PR(pN))T。該模型可表示如下:
其中:p1,p2,…,pN為待評文獻;
d為阻尼因子(damping factor),通常取為0.85;
B(pi)為文獻pi的引用文獻,即引用的文獻;
|O(pj)|為文獻pj的參考文獻數(shù)目。
雖然上述基于引文結(jié)構(gòu)的文獻評價較之傳統(tǒng)的評價指標有了某種程度的改進,并且隨著信息技術(shù)的發(fā)展,該方法在實際中也有越來越多的應(yīng)用。但是,從已經(jīng)發(fā)表的相關(guān)研究中可以看出,現(xiàn)有的研究主要是從網(wǎng)頁鏈接和引文網(wǎng)絡(luò)的共同之處出發(fā),借用網(wǎng)頁評價中的算法,并沒有考慮文獻引文網(wǎng)絡(luò)的獨有特點和專有信息。引文結(jié)構(gòu)只代表了文獻信息的一部分,所以基于馬氏鏈的文獻評價方法仍存在進一步完善的空間。本文將從這個角度出發(fā),研究更加合理的文獻評價模型。
在構(gòu)造馬氏鏈轉(zhuǎn)移矩陣時,我們最初都是假定等權(quán)重的,即被同一篇文章所引用的文章是同等重要的。但很多情況是:一篇文章所引用的文章中有一部分起著非常重要的作用,而另一些只是補充性材料。因此,為了提高文獻排序的準確性,有必要對文獻的不同引用關(guān)系進行區(qū)分。
在修正模型中,我們創(chuàng)新性地在文獻評價模型中提出了文獻引用動機的概念,利用文獻引用動機來反映文獻間的引文關(guān)系,并根據(jù)不同的引用動機分配馬氏鏈中的轉(zhuǎn)移概率。對引文動機的研究,除了從引文網(wǎng)絡(luò)的結(jié)結(jié)構(gòu)出發(fā),文獻的標題、關(guān)鍵詞和摘要等同樣包含文獻的重要信息,我們試圖通過這些信息對文獻引用的動機、引文的貢獻進行度量。我們將綜合考慮引文結(jié)構(gòu)和文獻的標題、摘要和關(guān)鍵詞等文獻信息,對文獻進行評價。
引文分析的所有結(jié)果都是基于一個基本假定:引用文獻對被引文獻的引用是對被引文獻的影響力的肯定。但是文獻的引用情況十分復(fù)雜,并不是所有的引用都是對被引文獻影響力的肯定。Eugene Garfield,Brooks,Oppenheim等諸多學(xué)者都對于引用情況問題有相關(guān)研究,對引用情況進行了不同類型的分類總結(jié)。
Brooks(1986)根據(jù)前人的研究,將引文的動機分為七類:
(1)新穎性:只引用最新的資料,以彰顯自己搜集資料的新穎程度;
(2)負面證據(jù):引用反面的證據(jù)批評、否定、反駁他人的作品;
(3)操作型資訊:沿用其他研究者的研究方法、結(jié)果、參考工具等;
(4)說服:引用文獻說服他人;
(5)正面評價:對于同領(lǐng)域的論文或相近的研究成果給予正面評價;
(6)提醒:提醒讀者注意背景資料、原始資料和最新資料;
(7)社會認同:為了得到他人在學(xué)術(shù)上的認同而引用文獻。
我們可將上述七類動機分成下列三組:
第一組:說服、正面評價、提醒和操作型資訊;
第二組:負面證據(jù);
第三組:新穎性和社會認同。
其中第一、二組分別為被引文獻的正面和負面的影響,但不管是正面的影響還是負面的影響,被引文獻對引用文獻均產(chǎn)生了相對重要的作用,對知識的進步起到了推動的效果。而第三組的引用只是為了使引用文獻得到認同而列出被引文獻,對引用文獻的結(jié)果并未起到實質(zhì)性的促進作用。另外,第三組出現(xiàn)的次數(shù)相對較少。Zhao,Zhang和Tang(2005),Teufel et al(2006)等對引用文獻的內(nèi)容進行分析,根據(jù)被引文獻在文中被引的信息進行文本分析,根據(jù)特征詞將被引文獻和引用文獻間的引用關(guān)系分到相應(yīng)的類別中。因為鑒于涉及所有文獻的全文,但在實際分析中通常只能獲得文獻的引文信息,全文不易獲得,所以不能利用全文對不同的引用關(guān)系進行區(qū)分。退而求其次,我們將試圖建立相關(guān)的指標來對不同的引用關(guān)系進行區(qū)分,對第一、二類賦以較大的權(quán)重,并對第三類引用賦以較小的權(quán)重。
在修正模型中,我們選擇文獻間的相似度作為區(qū)分第三組文獻引用動機的指標:若被引文獻對引用文獻起到正面、負面的影響,文獻間的相似程度相對較高;若被引文獻只是起到社會認同的作用,則文獻間的相似程度相對較低。即相似度越高則貢獻越大,反之亦然,這與實際情況是相吻合的。因為在研究過程中,研究人員總是精讀與自己研究內(nèi)容最相關(guān)的文獻,使得這些文章在研究過程中產(chǎn)生的影響也相對其他文章更加重要。在網(wǎng)頁排序中,已經(jīng)有利用網(wǎng)頁的相似性進行排序的研究:Lin et al(2007)提出了PageSim算法,PageSim算法在PageRank算法的基礎(chǔ)上根據(jù)網(wǎng)頁間的相似性對網(wǎng)頁進行重要性排序。Wang et al(2006)在PageRank算法和TFIDF算法的基礎(chǔ)上,提出了NewPR算法,該算法綜合利用網(wǎng)頁內(nèi)容和網(wǎng)頁鏈接信息對網(wǎng)頁重要進行評價。
下面介紹本文中使用的文獻相似度指標—基于文獻文本信息的文獻相似度,此文獻相似度與空間向量模型(Vector Space Model,VSM)中的相似度的概念十分相近。文獻相似度是我們構(gòu)造馬氏鏈轉(zhuǎn)移矩陣的重要概念。
假設(shè)文獻j是文獻i的被引文獻,記文獻i和文獻j之間的相似度為sij,每篇文檔都可表示為一個向量v,向量的每一維度對應(yīng)文獻或文獻的一個關(guān)鍵詞,總的維數(shù)為兩篇文獻中所有相異的關(guān)鍵詞的個數(shù),向量中元素的取值為相應(yīng)的關(guān)鍵詞在該文獻的標題、關(guān)鍵詞和摘要中出現(xiàn)的頻數(shù)。這個模型假設(shè),文獻間的相關(guān)程度,可以經(jīng)由比較兩篇文獻(向量)間的夾角偏差程度而得知。
若文獻不是文獻的被引文獻,則令sij=0。
與網(wǎng)頁鏈接相似,引文網(wǎng)絡(luò)中有相當數(shù)量的節(jié)點沒有出度,即論文后沒有相應(yīng)的參考文獻,這種類型的論文基本表現(xiàn)為引文網(wǎng)絡(luò)的根節(jié)點。產(chǎn)生該現(xiàn)象的原因有:
(1)該論文本身沒有參考文獻?;蛘呤且驗檎撐耐耆勺髡擢殑?chuàng),沒有相關(guān)的參考文獻;或者是論文不符合學(xué)術(shù)規(guī)范,沒有如實列出相應(yīng)的參考文獻。
(2)該論文本身具有參考文獻,但由于引文數(shù)據(jù)庫收錄范圍的限制、統(tǒng)計分析年限的限制,使得其參考文獻沒能進入統(tǒng)計分析的范圍。
我們將上述沒有參考文獻的文獻(節(jié)點)稱為懸空點,為了消除懸空點對算法穩(wěn)定性的影響,我們對相似矩陣進行相應(yīng)的修正:用一個n×1列向量a來標識懸空點,如果端點i是懸空點,則ai=1;否則令ai=0。令一個1×n行向量w表示訪問所有端點的某個概率分布(∑wi=1),應(yīng)用最多的是均勻分布,即w=(1/n,1/n,…,1/n)。于是修正后的相似矩陣可表示為
S'=S+aw
當然,這種修正會改變原引文網(wǎng)絡(luò)的結(jié)構(gòu),勢必會影響文獻影響力排序,但這種改變的影響的性質(zhì)、程度還有待進一步研究。在不引起混淆的情況下,我們?nèi)匀挥肧表示文獻的相似矩陣。
下面定義馬氏鏈的轉(zhuǎn)移矩陣,記為P,P中的元素記為pij被定義為
即將相似性矩陣根據(jù)行和進行歸一化。
阻尼因子是評價模型中的重要參數(shù),它能夠確保文獻PageRank值的存在唯一性,并且它的取值會直接影響最終的評價結(jié)果。Bressan和Peserico(2009)研究表明:對于某些網(wǎng)絡(luò)結(jié)構(gòu),隨著阻尼因子的微小變化,前k個節(jié)點的排序可能出現(xiàn)所有種不同的排序結(jié)果。在這種情況下,我們根據(jù)固定的阻尼因子(d=0.85)得出的評價結(jié)果就不再具有重要的參考價值。
為了解決上述問題,F(xiàn)u et al(2006)在阻尼因子的理解上另辟蹊徑,對PageRank算法進行了改進。改進的PageRank算法把阻尼因子當作是一種權(quán)重,重要的文獻應(yīng)得到較大的權(quán)重,不重要的文獻應(yīng)得到較小的權(quán)重,并利用入度與相關(guān)出度的比值作為這種重要性的度量,從而避免了阻尼因子最優(yōu)值的選取。但改進后的模型不再是馬氏鏈模型,使得模型缺乏相關(guān)的理論基礎(chǔ),不利于進一步分析模型收斂和模型敏感度等性質(zhì)。
在這一部分,我們借鑒Fu et.al(2006)對阻尼因子的理解,構(gòu)造相應(yīng)的轉(zhuǎn)移矩陣,建立基于馬氏鏈的文獻評價修正模型。修正模型不僅避免了原有PageRank算法中選取最優(yōu)阻尼因子的問題,而且能夠為進一步分析提供了理論基礎(chǔ)。
我們將阻尼因子定義為如下向量:
其中,di為第i篇文獻所對應(yīng)的阻尼因子,其含義為:在第i篇文獻所影響的文獻中,第i篇文獻所影響的比重。影響的比重越大,則阻尼因子越大;反之,比重越小,則阻尼因子越小。
在上述阻尼因子定義的基礎(chǔ)上,我們提出改進算法,即:利用上述阻尼因子作為權(quán)重,將相似矩陣和均勻矩陣做線性插值得隨機矩陣:
其中,U是所有元素取值為1/N的N×N矩陣。
從上式可以看出,當參考文獻與文章越相似,同類參考文獻數(shù)越少,該參考文獻被閱讀的概率也越大。這一特性是與真實的文獻瀏覽過程相一致的。
在給定轉(zhuǎn)移矩陣的基礎(chǔ)上,對應(yīng)的馬氏鏈也相應(yīng)地確定,文獻的PageRank值即為該馬氏鏈的平穩(wěn)分布,則文獻的PageRank值可通過解下列方程得到:
其中,R是待評文獻的PageRank值,τ是到任意文獻的跳轉(zhuǎn)概率的加權(quán)平均:
至此,基于馬氏鏈的文獻評價修正模型已成功建立,模型的求解仍然可以利用計算PageRank算法的冪法。因為同為計算矩陣的特征向量,修正模型具有與PageRank算法相同的計算復(fù)雜度。
本文主要是針對基于馬氏鏈的文獻評價模型中所存在的問題,提出了基于馬氏鏈的文獻評價修正模型,是在理論模型方面所做的有益嘗試。首先,修正模型創(chuàng)新性地在評價模型中引入了引用動機的概念,在原有引文網(wǎng)絡(luò)的基礎(chǔ)上考慮了文獻的文本信息,根據(jù)文獻間的引用關(guān)系計算馬氏鏈的轉(zhuǎn)移概率矩陣;其次,阻尼因子是根據(jù)文獻的相對重要程度進行選擇,不同的文獻具有不同的阻尼因子,進而給出基于馬氏鏈的文獻評價修正模型。
本文只是一些初步的工作,仍有很多的問題有待解決。首先是對文獻評價方法效果的檢驗,現(xiàn)有的實際應(yīng)用中并沒有行之有效的檢驗方法,也正是因為缺乏行之有效的評價方法,才使得許多優(yōu)秀的評價方法引不起重視、得不到應(yīng)用。在接下來的研究中我們將結(jié)合已有的研究成果(Lehmann et al,2006),對文獻評價方法的效果進行討論,進而檢驗我們提出的修正模型的評價效果。
另外,隨著Internet的發(fā)展,電子期刊、Working paper等形式的出現(xiàn),引文結(jié)構(gòu)也正在逐漸發(fā)生變化,文獻間的相互引用成為可能,對傳統(tǒng)的文獻評價方法提出挑戰(zhàn),結(jié)合新的引文結(jié)構(gòu)進行文獻評價是未來文獻評價的重要方向。
[1]Bressan,M.,Peserico,E.Choose the Damping,Choose the Ranking?[A].Algorithms and Models for the Web-Graph[M].Heidelberg:Springer Berlin,2009.
[2]Brooks,T.A.Evidence of Complex Citer Motivations[J].Journal of the American Society for Information Science,1986,37(1).
[3]Fu,H.H.,Lin,D.K.J.,Tsai,H.T.Damping Factor in Google Page Ranking[J].Appl.Stochastic Models Bus.Ind,2006,22.
[4]Langville,A.N.,Meyer,C.D.Google’s Page Rank and Beyond:The Science of Search Engine Rankings[M].New Jersey:Princeton University Press,2006.
[5]Lehmann,S.,Jackson,A.D.,Lautrup,B.E.Measures for Measures[J].Nature,2006,444(7122).
[6]Lin,Z.,King,I.,Lyu,M.R.Page Sim:A Novel Link-based Similarity Measure for the World Wide Web[C].Paper Presented at the Proceedings-2006 IEEE/WIC/ACM,2007.
[7]Page,L.,Brin,S.,Motwani,R.,Winograd,T.The Page Rank Citation Ranking:Bringing Order to the Web[Z].Technical Report,Stanford Digital Library Technologies Project,1998.
[8]Pinski,G.,Narin,F.Citation Influence for Journal Aggregates of Scientific Publications:Theory,with Application to the Literature of Physics[J].Information Processing and Management,1976,12(2).
[9]Teufel,S.,Siddharthan,A.,Tidhar,D.Automatic Classification of Citation Function[C].In Proceedings of EMNLP-06,2006.
[10]Wang,H.M.,Rajman,M.,Guo,Y.,Feng,B.Q.New PR-combining TFIDF with Pagerank[Z].Lecture Notes in Computer Science(Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)(Vol.4132 LNCS-II).A-thens,2006.
[11]Zhao,P.,Zhang,M.,D.,Tang,S.Finding Hidden Semantics behind Reference Linkages:an Ontological Approach for Scientific Digital Libraries.In The Database Systems for Advanced Applications[C].10thInternational Conference,LNCS,Springer,Beijing,2005.