●俞 青(國家圖書館,北京 100081)
基于文獻(xiàn)計量分析的科研評價,主要可以從數(shù)量和質(zhì)量兩個方面來進(jìn)行。
論文數(shù)量指標(biāo)是指個人或單位在一定時間內(nèi)發(fā)表的論文總數(shù),它主要以一些大型數(shù)據(jù)庫收錄的期刊論文作為統(tǒng)計源,最常用的有SCI(科學(xué)引文索引)、EI(工程索引)和ISTP(會議論文)。論文數(shù)是對科研生產(chǎn)力的直接反映。由于SCI論文絕大部分屬于基礎(chǔ)科學(xué)研究成果,因此為多數(shù)國家所認(rèn)可和使用。但是,僅僅根據(jù)論文數(shù)量無法測度論文的重要性和影響力,而且SCI所收的數(shù)千種學(xué)術(shù)期刊良莠不齊,學(xué)科收錄情況也有較大差距,在期刊收錄地域上也偏重于對歐美國家期刊的收錄,如果片面強(qiáng)調(diào)SCI論文的收錄數(shù)量容易被某些使用者鉆空子或產(chǎn)生不公正。[1]
而引證數(shù)則是直接反映論文影響力的重要指標(biāo)。所謂引證數(shù)即論文被引用次數(shù),是指已發(fā)表論文在發(fā)表后的一段時間內(nèi)被引用的次數(shù)之和。引證數(shù)能夠在很大程度上測度研究成果對科學(xué)發(fā)展所做的貢獻(xiàn),因此比論文數(shù)指標(biāo)更為客觀和準(zhǔn)確。但是,由于各期刊的質(zhì)量和影響力差別較大,使得論文引證數(shù)的分布很不對稱,存在“80/20現(xiàn)象”,即80%的引證數(shù)來自于20%的論文,所以這個現(xiàn)象是這個指標(biāo)的明顯硬傷。
為了克服前兩個指標(biāo)的缺陷,20世紀(jì)60年代后,文獻(xiàn)計量學(xué)又開發(fā)出期刊的“影響因子”指標(biāo)。開發(fā)影響因子的初始目的是作為管理論文集合的一個工具,但是一經(jīng)出現(xiàn),就立刻被用于對科學(xué)研究成果或作者進(jìn)行定量評價,而且一直主宰著文獻(xiàn)計量學(xué)的評價指標(biāo)體系。所謂影響因子,就是先統(tǒng)計出期刊在連續(xù)兩年內(nèi)發(fā)表的論文在隨后一年中被引用的總次數(shù),再用這個總引證數(shù)除以該期刊在這兩年內(nèi)發(fā)表的論文總數(shù),所得結(jié)果即為影響因子。如果一個期刊的影響因子高,則它發(fā)表的論文被引用的平均次數(shù)多,也就表明該期刊的影響力大,在科學(xué)界的地位和受關(guān)注程度也就高。但對影響因子是否能夠完全反映期刊的檔次,科學(xué)界一直存在爭議。如:即使能反映,也不能把期刊的影響力和具體一篇論文的影響力等同起來;一篇發(fā)表在影響因子高的期刊上的論文很少被人引用,而一篇發(fā)表在影響因子低的期刊上的論文被高度引用的情況時有發(fā)生。
2005年赫希提出的h指數(shù)為人們進(jìn)行文獻(xiàn)計量開拓了新的視野,并很好地解決了文獻(xiàn)被引次數(shù)與期刊聲望的關(guān)系問題。該指數(shù)將發(fā)表在“低影響力”期刊上的高引證數(shù)論文納入了評價體系。h指數(shù)是把論文引證數(shù)作為衡量研究工作的內(nèi)在指標(biāo),而數(shù)量作為參考指標(biāo),并在這兩種指標(biāo)之間取一個平衡值。具體算法是:一個人的h指數(shù)就是指他發(fā)表的所有論文中,有h篇論文分別被引用了至少h次。與傳統(tǒng)評價指標(biāo)相比,h指數(shù)的最大優(yōu)勢在于把論文數(shù)與引證數(shù)有機(jī)地聯(lián)系起來,綜合考察論文的數(shù)量和影響力。正因為如此,對于論文數(shù)量多而引證數(shù)不高的研究者,或是只有極少數(shù)高引證論文的作者,其h指數(shù)都不會高。只有論文數(shù)量較多,且多數(shù)論文具有較高引證數(shù)時,才能獲得較高的h指數(shù)。因此,用h指數(shù)評價科研人員的績效,可以遏制片面追求論文數(shù)量的不良傾向。即便如此,h指數(shù)仍存在缺陷,如不適宜對年輕學(xué)者的評價,不適宜對歷史學(xué)者的評價,且指數(shù)與研究領(lǐng)域關(guān)系很大,不適合跨學(xué)科比較。與SCI影響因子相比,h指數(shù)的較大優(yōu)勢就是h指數(shù)不能通過自引來提高。
SCI是傳統(tǒng)的文獻(xiàn)計量工具,也是最常用的綜合性文獻(xiàn)計量工具,由美國科學(xué)信息研究所(ISI)于1964年正式發(fā)行,共收錄期刊3600種左右,涵蓋150多個學(xué)科領(lǐng)域。隨著網(wǎng)絡(luò)的發(fā)展,ISI開始發(fā)行網(wǎng)絡(luò)版SCI,即SCIE。它既是網(wǎng)絡(luò)版,也是擴(kuò)展版,收錄的期刊數(shù)量也上升到6000種以上。它不僅可以從文獻(xiàn)引證的角度評估文章的學(xué)術(shù)價值,還可以迅速地組建研究課題的參考文獻(xiàn)網(wǎng)絡(luò)。發(fā)表的學(xué)術(shù)論文被SCl收錄或引用的數(shù)量,已被世界上眾多科研機(jī)構(gòu)和高校作為評價學(xué)術(shù)水平的一個重要標(biāo)準(zhǔn)。ISI的另一產(chǎn)品JCR(期刊引證分析報告)的影響因子,常與SCIE收錄數(shù)據(jù)一起作為科研評價的參考指標(biāo)。SCI不僅提供13個字段的文獻(xiàn)收錄檢索,而且可以從作者、來源文獻(xiàn)、被引年份等3條線索來查尋文獻(xiàn)被引用的情況。目前SCI只提供期刊文獻(xiàn)的收錄檢索,但引用不限于期刊文獻(xiàn),會議文獻(xiàn)及書等的引用也可查到。[2]
SCI是基于文獻(xiàn)計量的分析工具,可以客觀地對科研進(jìn)行分析評價。對檢索結(jié)果,SCI可以從作者、會議標(biāo)題、國家/地區(qū)、文獻(xiàn)類型、基金資助機(jī)構(gòu)、授權(quán)號、機(jī)構(gòu)名稱、語種、出版年、來源出版物、學(xué)科類別等11個角度對收錄或引用情況進(jìn)行分析,并根據(jù)記錄數(shù)(論文數(shù)量或引用次數(shù))或字段形成明確的百分?jǐn)?shù)及柱狀圖,可方便地了解不同情況下文獻(xiàn)計量的情況。除此之外,還可以提供創(chuàng)建引文報告的功能(10000篇以上文章的檢索不提供此功能),即對收錄的每篇文獻(xiàn)各年的引用情況及所有檢索到的文獻(xiàn)以圖表的形式一目了然地反映出收錄文獻(xiàn)被引用的情況。引文報告首先以柱狀圖的形式反映出每年出版的文獻(xiàn)數(shù)量,然后仍以柱狀圖的形式反映每年的引用情況,最后以表格的方式顯示每篇文獻(xiàn)各年被引用的具體數(shù)量、引用總數(shù)、及每年的平均引用次數(shù)。該表格默認(rèn)以被引頻次進(jìn)行排序,也可按更新日期、第一作者、來源出版物、出版年及會議標(biāo)題進(jìn)行排序。同時顯示被引頻次總計、每項平均引用次數(shù)、h指數(shù)等,還可點(diǎn)擊查看施引文獻(xiàn)和去除自引后的引文報告,去除自引后的引文報告所顯示的實際是不包含作者自引的其它施引文獻(xiàn)。
雖然SCI提供了多角度的分析,但由于收錄檢索時可檢索的字段中沒有學(xué)科分類,因此很難直接反映個人或機(jī)構(gòu)在某學(xué)科的情況。只能通過主題詞來查,但主題詞不能等同于學(xué)科分類,而且SCI不提供規(guī)范的主題詞庫,所謂主題詞,也是人為給出的。另外,用SCIE去除自引,需經(jīng)兩三個步驟方可實現(xiàn),同時檢索時也無第一作者字段,所以對一些特殊要求的檢索不能實現(xiàn)。
Scopus是Elsevier于2004年底推出的號稱世界最大的綜合性文摘和引文(A&I)數(shù)據(jù)庫,所收錄的數(shù)據(jù)包含超過5000余家出版社出版的18000余種學(xué)術(shù)期刊、500余種會議錄(收錄電子工程、計算機(jī)等領(lǐng)域重要論文)、600種商業(yè)出版物,以及超過125種的叢書,收錄總量已經(jīng)達(dá)到4100余萬條。還收錄來自全球5大專利組織的2200萬條專利摘要信息和4億條互聯(lián)網(wǎng)絡(luò)科技資源。Scopus數(shù)據(jù)庫收錄的學(xué)科范圍比SClE廣,而且收錄中國期刊350多種,是SCIE的4-5倍。但引文回溯年限不如SCIE長,一般只到1966年,而SCIE可回溯到1900年。Scopus沒有專門的引文檢索,需要點(diǎn)“Cited By”按鈕來查看具體的引用情況。但Scopus設(shè)置的檢索路徑比較多,一般檢索可從17個線索入手進(jìn)行,在高級檢索選項中,更是提供了極為細(xì)致的65項檢索路徑以供檢索。通過這些細(xì)致的檢索路徑可以較為方便地對某一地區(qū)的某個學(xué)者或機(jī)構(gòu)進(jìn)行學(xué)科分析,也可建立以單篇文獻(xiàn)的“被引頻次”為核心的評價體系,來評價某一作者在特定時間、特定區(qū)域內(nèi)的學(xué)科成績或該篇論文的質(zhì)量。而SCI由于沒有學(xué)科檢索項,只能對已檢索出的結(jié)果進(jìn)行學(xué)科限定,所以無法進(jìn)行像Scopus一樣的特定作者在特定學(xué)科與區(qū)域的檢索與評價,更難進(jìn)行以單篇為評價核心的檢索。同時,Scopus有第一作者檢索,而SCI沒有,只能通過對檢索結(jié)果的肉眼識別來判定。Scopus還可比較方便地對檢索結(jié)果進(jìn)行排除自引,而SCI則需要比較復(fù)雜的過程才能排除自引。其他檢索與引用分析與SCI基本相同。[3]
隨著科研人群的不斷擴(kuò)大及國家和相關(guān)機(jī)構(gòu)對科研成果的日益重視,基于文獻(xiàn)計量的科研評價也越來越多地被引入各種科研評審與考核之中。以往所采用的文獻(xiàn)計量評價,就此兩數(shù)據(jù)庫來說,主要是對論文被收錄數(shù)量(可規(guī)定時段)及論文被引用的頻次來進(jìn)行評價,頂多加上論文所載期刊的影響因子,或在被引頻次中分出他引頻次、第一作者他引頻次等,雖能比較客觀地反應(yīng)具體作者或機(jī)構(gòu)的論文發(fā)表數(shù)量及引用情況,但受學(xué)科及地域影響,數(shù)據(jù)有較大偏差。如針對中國大陸來說,SCIE收錄各學(xué)科的中文期刊不到百種(七八十種),Scopus雖收錄350種左右,但仍不能完全代表各學(xué)科的實際情況。所以引入其他評價指標(biāo)非常必要。現(xiàn)就本館所做過的以文獻(xiàn)計量為依據(jù)進(jìn)行科研評價的兩個實例進(jìn)行介紹和探討。
案例一: SCI特定狀態(tài)下的作者排名
具體內(nèi)容:(檢索報告)
檢索課題:某某2004-2010年發(fā)表學(xué)術(shù)論文在SCI數(shù)據(jù)庫中(diorganotin*or(organotin*)ANDantitumo*主題下的作者排名及在該類文獻(xiàn)總量中所占的百分比
委托單位:××××大學(xué)
委 托 人:×××
檢索工具:ScienceCitation Index Expanded(SCIE)1900-pre
檢索時間:2010年3月3日
檢 索 式:Topic=((diorganotin*)or(organotin*))AND Topic=(antitumo*)ANDYear Published=(2004-2010)
檢索結(jié)果:根據(jù)委托人提供的檢索要求,使用以上檢索式,在SCI數(shù)據(jù)庫中檢索到180篇文獻(xiàn),按作者排序由系統(tǒng)對檢索結(jié)果進(jìn)行分析,在該限定主題下×××共發(fā)表的論文12篇,按文獻(xiàn)記錄數(shù)排名第4,占該主題文獻(xiàn)總量的6.6667%。排名、百分比及12篇文獻(xiàn)的詳細(xì)信息詳見附件。
特此證明!
國家圖書館科技查新中心(蓋章)
2010年3月5日
上面顯示的是檢索報告的主要內(nèi)容,在附件中尚有由SICE中導(dǎo)出的作者排名及文獻(xiàn)數(shù)量的百分比格式。應(yīng)作者要求并附上了作者所發(fā)表的文獻(xiàn)題錄12篇。
從檢索策略與結(jié)果可看出,由于SCIE未提供直接學(xué)科及學(xué)科細(xì)分的檢索,只能按檢索者提供的主題詞來進(jìn)行檢索,而該主題詞是否規(guī)范、有無同義詞等,都會對檢索結(jié)果有較大的影響,因此檢索報告只能進(jìn)行如實描述,對該文獻(xiàn)計量的數(shù)據(jù)及分析對特定作者或機(jī)構(gòu)在特定區(qū)域及學(xué)科或?qū)W科細(xì)類中地位的評判的參考作用就會大打折扣。
案例二:單篇文獻(xiàn)被引頻次的學(xué)科排名
具體內(nèi)容:(檢索報告)
檢索課題:×××2006年發(fā)表的1篇學(xué)術(shù)論文在SCOPUS數(shù)據(jù)庫Earth and Planetary Sciences(地球行星科學(xué))-EART(該主題的數(shù)據(jù)庫代碼) 主題下被引用次數(shù)排名
委托單位:××××研究所
委 托 人:×××
檢索工具:SCOPUS---1847-pre
檢索時間:2009年11月23日
檢索年限:2006-2009年
檢索式:SUBJAREA(eart)ANDAFFILCOUNTRY(china)AND(LIMIT-TO(PUBYEAR,2009)ORLIMIT-TO(PUBYEAR,2008)OR LIMIT-TO(PUBYEAR,2007)OR LIMIT-TO(PUBYEAR,2006))
檢索結(jié)果:根據(jù)委托人提供的論文要求,使用以上檢索式,在SCOPUS數(shù)據(jù)庫中檢索到46984篇文獻(xiàn),其中×××發(fā)表的論文“××××××………”被引用49次,在檢索到的論文中按被引次數(shù)排在第24位(詳見附件1),經(jīng)過對排名前24名論文作者單位的核實,該論文被引情況在第一作者單位為中國大陸地區(qū)的論文中排名第13位(詳見附件2)。
特此證明!
國家圖書館科技查新中心(蓋章)
2009年11月23日
該檢索需求的起因是Scopus在2009年初在中國的“科學(xué)網(wǎng)”上推出的中國大陸各學(xué)科單篇文獻(xiàn)被引次數(shù)排名前20名的活動。檢索委托者的同事被列入大陸地區(qū)某學(xué)科的前20名榜單中,并對績效評估產(chǎn)生了直接的影響。本例檢索所查的主題范圍為數(shù)據(jù)庫提供的規(guī)范主題,以數(shù)據(jù)庫給出的主題代碼作為主要檢索詞,并限定區(qū)域與年限,在高級檢索中進(jìn)行檢索,對檢索結(jié)果采用“Cited By”按鈕進(jìn)行排序,最終得出結(jié)論。同理,可根據(jù)需求設(shè)定不同的檢索策略,得出不同的檢索結(jié)果,由于數(shù)據(jù)庫提供了多達(dá)65個檢索入口,并對每個檢索條件進(jìn)行了說明與舉例,而且重要的檢索條件均進(jìn)行了規(guī)范化,使得檢索結(jié)果更加可信,進(jìn)行的排序的基數(shù)也更大。從上兩例我們不難看出,第一例所設(shè)定的主題在2004到2010年間,只檢出文獻(xiàn)180篇,而第二例檢出的文獻(xiàn)數(shù)是46984篇,且限定了國家為China,第一例則未做此限定。雖然兩例所檢主題范圍相去甚遠(yuǎn),但至少可看到第二例的主題范圍要較第一例的主題范圍大的多,因此,第二例所進(jìn)行的文獻(xiàn)計量在特定主題、特定區(qū)域、特定時段的檢索效果,要好于第一例。當(dāng)然,第一例以一定時段發(fā)表的文獻(xiàn)數(shù)量作為文獻(xiàn)計量評價參數(shù),而第二例則以單篇文獻(xiàn)的引用次數(shù)為文獻(xiàn)計量參數(shù),所以沒有真正的可比性,但從兩例仍可看出檢索及檢索結(jié)果的方便與否。由于Scopus可限定區(qū)域、可對規(guī)范化主題等進(jìn)行檢索,所以也可像第一例一樣以文獻(xiàn)數(shù)量進(jìn)行排序,但屬于自然排序,不具備SCI分析后的正式格式。因此,在對發(fā)表的文獻(xiàn)數(shù)量進(jìn)行分析的功能上,Scopus弱于 SCI。
以文獻(xiàn)計量來評價科研成就,通過對發(fā)表文獻(xiàn)數(shù)量的計量及影響因子來參考評價科研量,通過對發(fā)表文獻(xiàn)的引用情況、引用分析來評定文獻(xiàn)的質(zhì)量,是一般通行的做法。近幾年更是引進(jìn)了h指數(shù)來進(jìn)一步評價科研情況,該指數(shù)把割裂的文獻(xiàn)數(shù)量與引用次數(shù)組合起來給出了綜合性的文獻(xiàn)計量參數(shù)。但目前國內(nèi)通過文獻(xiàn)計量對科研的評價,仍以傳統(tǒng)方法為主,利用具有引文分析的檢索工具除對文獻(xiàn)數(shù)量及引用資料進(jìn)行借鑒外,也同時利用分析數(shù)據(jù)的不多。建議大專院校、科研院所對自身科研人員及機(jī)構(gòu)的文獻(xiàn)評價,不再局限于文獻(xiàn)數(shù)量及引用次數(shù)兩組簡單的數(shù)字上,而應(yīng)把引用分析、文獻(xiàn)數(shù)量排名分析及h指數(shù)等也綜合納入科研評價體系,同時,在特定的時段內(nèi),借鑒并利用構(gòu)筑的以單篇文獻(xiàn)“被引頻次”的評價體系,實際上,Scopus近幾年一直在發(fā)布以單篇文獻(xiàn)被引次數(shù)為主要依據(jù)的“季度熱點(diǎn)文獻(xiàn)”榜,可按學(xué)科查至2004年下半年。
[1]劉輝峰.h指數(shù)與科研評價的新視野[J].中國科技論壇,2008(5):24-27.
[2]傅立云,等.SCIE和Scopus引文功能的評價分析 [J].高校圖書館工作,2009(6):54-56.
[3]張玲,鼻曉鵬.Scopus在情報研究與科研評價中的應(yīng)用[J].數(shù)字圖書館論壇,2009(10).