■嚴(yán)建新
1)廣西大學(xué)馬克思主義學(xué)院,廣西南寧市西鄉(xiāng)塘區(qū)大學(xué)東路100號(hào) 5300042)大連理工大學(xué)科學(xué)學(xué)與科技管理研究所暨WISE實(shí)驗(yàn)室,遼寧省大連市甘井子區(qū)凌工路2號(hào) 116024
目前,初創(chuàng)于1972年的期刊影響因子(Journal Impact Factor,JIF)在許多國(guó)家的科研管理中仍是評(píng)價(jià)期刊、學(xué)者和科研機(jī)構(gòu)的重要指標(biāo)之一[1-3],我國(guó)許多科研機(jī)構(gòu)也將成果發(fā)表期刊的影響因子作為分配科研經(jīng)費(fèi)、晉升職稱和發(fā)放獎(jiǎng)金的主要依據(jù)之一。不少學(xué)者分析了影響因子在時(shí)間窗口、數(shù)據(jù)采集、計(jì)算等方面存在的不足[4],但期刊被引量的偏態(tài)分布對(duì)影響因子評(píng)價(jià)功能所產(chǎn)生的影響仍有待深入探討。
國(guó)內(nèi)外一些學(xué)者對(duì)計(jì)量指標(biāo)分布問(wèn)題的探索頗具啟發(fā)性。毛國(guó)敏等[5]分學(xué)科領(lǐng)域研究中國(guó)學(xué)術(shù)期刊的載文量、總被引量和影響因子在期刊間的分布,發(fā)現(xiàn)這些指標(biāo)呈不均勻分布;俞立平等[6]研究發(fā)現(xiàn),影響因子、被引半衰期、特征因子等7項(xiàng)指標(biāo)在期刊間均為右偏分布,并認(rèn)為指標(biāo)的平均值難以代表各期刊在該指標(biāo)上的平均水平;Weale等[7]和Metze[8]指出,以影響因子評(píng)價(jià)期刊的前提是被引量在載文間呈正態(tài)分布,樣本呈正態(tài)分布時(shí)平均值才有意義;Bornmann等[9]在探討科研評(píng)價(jià)問(wèn)題時(shí)提出,期刊被引量在載文間呈較高偏離程度的偏態(tài)分布時(shí),期刊影響因子是失真的,但未提及具體細(xì)節(jié)及如何修正影響因子的失真。本研究以2011—2015年度7種物理學(xué)綜合期刊為樣本,分析期刊被引量在載文間的分布特征及不均勻程度,在此基礎(chǔ)上提出修正影響因子失真的方法。
影響因子是為表征并橫向比較期刊影響力而設(shè)計(jì)的指標(biāo)。原則上,各期刊被引量與載文間應(yīng)呈均勻分布或正態(tài)分布。當(dāng)分布條件不能充分滿足時(shí),影響因子將會(huì)出現(xiàn)失真。洛倫茲曲線和反映分布不均勻程度的基尼系數(shù)G已被廣泛應(yīng)用于各種指標(biāo)分布差異的研究。既然引用的不均勻分布能導(dǎo)致影響因子失真,可根據(jù)分布的均勻程度(1-G)對(duì)影響因子失真進(jìn)行修正。
根據(jù)科睿唯安SCI-E數(shù)據(jù)庫(kù)的期刊分類和2015年度《期刊引證報(bào)告》(JournalCitationReport,JCR),筆者選擇物理學(xué)綜合類中影響因子不同的7種期刊(表1),按與影響因子相對(duì)應(yīng)的時(shí)間窗口,逐年、逐篇從數(shù)據(jù)庫(kù)中提取各期刊學(xué)術(shù)載文的被引頻次。學(xué)術(shù)載文包括研究論文、綜述論文和會(huì)議論文。影響因子的計(jì)算還涉及少量其他類型文獻(xiàn)的被引頻次,但本研究?jī)H探討此3類文獻(xiàn)的被引量在這些文獻(xiàn)間的分布。為行文方便,筆者將期刊的這3類文獻(xiàn)在某一年度的被引頻次之和簡(jiǎn)稱為總被引量。
表1 2011—2015年7種物理學(xué)期刊的影響因子、載文被引頻次的標(biāo)準(zhǔn)差和引用分布曲線的偏度
以2015年度NatPhys為例。2013—2014年,NatPhys的載文量為253篇,其2015年總被引頻次為4616次。將各載文按被引頻次由低到高排序后進(jìn)行被引頻次和篇數(shù)累積計(jì)算:
(1)
圖1 2015年度Nat Phys的洛倫茲曲線
式中xi和yi分別為載文數(shù)量和總被引頻次的累積坐標(biāo)值,xiN為累積到第i篇載文的篇數(shù),yiC為累積到第i篇載文的被引頻次。以坐標(biāo)值xi和yi繪制出總被引量在載文間分布的洛倫茲曲線L(圖1)。L將正方形對(duì)角線下方的三角形分為A和B兩個(gè)區(qū)域,基尼系數(shù)G為A的面積SA與三角形面積SΔ的比值。因SΔ=1/2,SA=SΔ-SB,SB近似等于各小梯形面積之和,因此基尼系數(shù)G為
(2)
期刊的影響力以其載文影響力為基礎(chǔ)。在紙刊時(shí)代,學(xué)者主要根據(jù)期刊影響力來(lái)有選擇地閱讀期刊并引用其文獻(xiàn);而在網(wǎng)絡(luò)時(shí)代,學(xué)者則主要通過(guò)主題或關(guān)鍵詞檢索文獻(xiàn),并且有選擇地閱讀和引用檢索到的但刊載于不同期刊的文獻(xiàn)。與紙刊時(shí)代相比,網(wǎng)絡(luò)時(shí)代的引用與期刊影響力之間的關(guān)聯(lián)已有所弱化,因此,對(duì)期刊全部載文的影響力進(jìn)行整體評(píng)價(jià)更能客觀反映該期刊的影響力。
接Garfield[1]的定義,某期刊在t年度的影響因子為IJIF(t)=C/D,其中D為該刊t-2年和t-1年的載文篇數(shù),C為該刊在t年的總被引頻次??傮w而言,影響因子以載文篇均被引頻次來(lái)表征期刊影響力。被引量在載文間均勻分布或呈正態(tài)分布是其隱含的默認(rèn)前提,即嚴(yán)格意義上,只有當(dāng)各期刊的被引量在載文間均為均勻分布時(shí),以載文被引頻次表征的期刊影響力才具有真實(shí)性和可比性,即使以篇均被引頻次表征期刊影響力,被引量在載文間也應(yīng)呈正態(tài)分布。如果被引量既非均勻分布也非正態(tài)分布,篇均被引頻次就難以如實(shí)表征期刊的影響力。
通常情況下,學(xué)者主要根據(jù)相關(guān)性和重要性引用他人文獻(xiàn)。假設(shè)期刊M和N在t-2年和t-1年的載文各為100篇,且兩刊在t年總被引頻次各為100次,但M刊的被引量在載文間均勻分布,而N刊的100次被引僅集中于1篇載文。在影響因子的計(jì)算窗口內(nèi),M刊的全部載文在t年都各被引用1次意味著其載文均有引用價(jià)值,而N刊僅有1篇載文被引用則意味著另外99篇沒(méi)有引用價(jià)值。按影響因子定義,期刊M和N的影響因子均為1,兩者影響力相同;而從載文整體影響力評(píng)價(jià),則M刊影響力高于N刊。這一虛擬例子表明,引用分布的均勻程度是期刊評(píng)價(jià)中不可忽略的因素,期刊被引量的非均勻分布將導(dǎo)致以影響因子表征的期刊影響力出現(xiàn)不同程度的失真,被引量分布越不均勻,失真就越嚴(yán)重。
據(jù)2011—2015年度上述7種期刊各載文的被引頻次,可繪制出期刊載文總被引頻次的分布曲線(圖2)。筆者發(fā)現(xiàn),7種期刊中,影響因子較高的RevModPhys和NatPhys均存在由少量高被引載文構(gòu)成的“長(zhǎng)尾”,影響因子較低的4種期刊則均存在由許多低被引載文構(gòu)成的“高頭”,而影響因子居中等水平的PhysRevLett則既有“高頭”又有“長(zhǎng)尾”。圖2所示為2015年度這7種期刊總被引頻次的分布曲線,其中縱向細(xì)線為相應(yīng)期刊的影響因子,細(xì)斜線為分布曲線的“頭頂—末尾”連線,用以標(biāo)示曲線的頭尾位置。
圖2 2015年度7種物理學(xué)期刊總被引量分布
根據(jù)統(tǒng)計(jì)原理,當(dāng)偏度為0時(shí),數(shù)據(jù)呈正態(tài)分布,偏度大于0和小于0時(shí)分別為右偏和左偏分布;標(biāo)準(zhǔn)差越大,數(shù)據(jù)的離散程度越大,平均值的代表性越低。從2011—2015年度這7種物理學(xué)期刊的影響因子、載文被引頻次的標(biāo)準(zhǔn)差和引用分布曲線的偏度(表1)可發(fā)現(xiàn),這些分布曲線的偏度均為正值,共同特征為右偏分布,且曲線偏度與影響因子大小無(wú)關(guān)。此外,影響因子較高,期刊標(biāo)準(zhǔn)差也較大;而影響因子較低,期刊標(biāo)準(zhǔn)差相對(duì)較小。這表明,影響因子較高的期刊,載文篇均被引頻次并不具有充分代表性。
當(dāng)基尼系數(shù)G為0.3~0.4時(shí),分布相對(duì)合理;0.4~0.5為差距較大;0.5以上則為差距懸殊,0.4被視為差距較大的警戒線。2011—2015年度,上述7種物理期刊影響因子IJIF、基尼系數(shù)G及修正后的影響因子IJIFG見(jiàn)表2,其中的G反映被引量分布的不均勻程度。期刊總被引量在載文間分布的另一個(gè)特征是G均高于警戒線0.4,分布差距較大甚至差距懸殊。
圖3~7為2011—2015年度各期刊的總被引頻次在載文間分布的洛倫茲曲線。影響因子計(jì)算窗口內(nèi),如有若干載文未被引用,則其被引頻次累積為0,洛倫茲曲線左端的相應(yīng)部分與橫軸重合,因此,曲線與橫軸的分離點(diǎn)反映了未被引用載文在全部載文中所占的比例,即零被引率。影響因子較低的AmJPhys和MoscUPhysB+各年度G均大于0.68(表2),引用分布不均勻程度較高,其零被引率均在50%以上(圖3~7),影響因子僅由不足半數(shù)的載文支撐。其中,MoscUPhysB+在2011年度的影響力甚至僅由約10%的載文產(chǎn)生,G高達(dá)0.892。雖然AmJPhys和MoscUPhysB+有較小的標(biāo)準(zhǔn)差,但其被引載文不足總量的50%,篇均被引頻次也難以真實(shí)地代表載文的整體影響力。
表2 2011—2015年度7種物理期刊影響因子IJIF、基尼系數(shù)G及修正后的影響因子IJIFG
圖3 2011年度洛倫茲曲線
圖4 2012年度洛倫茲曲線
圖5 2013年度洛倫茲曲線
圖6 2014年度洛倫茲曲線
圖7 2015年度洛倫茲曲線
基于上述期刊樣本可知,被引頻次在載文間既非均勻分布,也非正態(tài)分布,這意味著影響因子存在不同程度的失真,載文被引頻次的標(biāo)準(zhǔn)差越大或者零被引率越高,期刊篇均被引頻次的代表性就越低。
一般認(rèn)為,影響因子越高,總被引頻次在載文間的分布越不均勻[10],基尼系數(shù)越大。由圖8(a)、(b)可知,PhysRevLett的影響因子小于NatPhys,但前者的基尼系數(shù)卻大于后者;在這7種期刊中,RevModPhys、NatPhys和PhysRevLett既是影響因子最大,也是基尼系數(shù)最小的3種期刊。這表明影響因子并不與基尼系數(shù)同向變動(dòng),影響因子的失真程度與影響因子大小無(wú)關(guān)。
綜上所述,總被引量在載文間的非均勻分布導(dǎo)致影響因子存在不同程度的失真,基尼系數(shù)G越小,分布越均勻,影響因子的代表性越高。因此可考慮將表征分布均勻程度的(1-G)作為基尼修正系數(shù)對(duì)影響因子進(jìn)行修正,修正后的影響因子IJIFG可表示為
IJIFG=IJIF×(1-G)。
(3)
就本研究的虛擬案例,M刊的100次被引量均勻分布在100篇載文中,因此G為0,修正后的影響因子IJIFG仍為1。N刊的100次被引量?jī)H集中在1篇載文,G為0.99,修正后的影響因子IJIFG降至0.01。筆者認(rèn)為,基尼修正系數(shù)可有效地修正由于引用的偏態(tài)分布而產(chǎn)生的影響因子失真問(wèn)題。圖8(b)、(c)分別為前述7種期刊修正前、后的影響因子,修正后的影響因子均不同程度變小,具體數(shù)值見(jiàn)表2。其中,RevModPhys、NatPhys和PhysRevLett修正后影響因子的差距明顯縮小。在科研管理中,如果單純根據(jù)期刊影響因子獎(jiǎng)勵(lì)科研人員,則可能因引用的偏態(tài)分布產(chǎn)生激勵(lì)不當(dāng)?shù)膯?wèn)題。
圖8 2011—2015年度7種期刊的基尼系數(shù)與修正前后的影響因子。(a)G;(b)IJIF;(c)IJIFG
期刊影響力源于期刊載文影響力,表征期刊影響力的指標(biāo)應(yīng)充分考慮期刊載文的整體影響力。影響因子所要求的分布條件在現(xiàn)實(shí)中難以保證,當(dāng)被引量呈偏態(tài)分布,尤其大部分被引量集中于少數(shù)載文時(shí),以影響因子表征的期刊影響力則出現(xiàn)失真,從而高估了期刊的影響力。從本研究的7種期刊樣本看,被引量在載文間均呈右偏分布,基尼系數(shù)均在0.4以上,因此對(duì)期刊影響力的評(píng)價(jià)應(yīng)考慮被引量在載文間的分布狀況。筆者認(rèn)為,引入基尼修正系數(shù)對(duì)影響因子進(jìn)行修正,將有助于更真實(shí)地反映期刊的學(xué)術(shù)影響力,但修正后的實(shí)際效果還有待系統(tǒng)的實(shí)證檢驗(yàn)。
[1] Garfield E. The history and meaning of the journal impact factor[J].TheJournaloftheAmericanMedicalAssociation,2006,295(1):90-93.
[2] Martin B R. Editors′ JIF-boosting stratagems: Which are appropriate and which not?[J].ResearchPolicy,2016,45(1):1-7.
[3] Stephan P,Veugelers R,Wang J. Reviewers are blinkered by bibliometrics[J].Nature,2017,544(7651):411-412.
[4] Vanclay J K. Impact factor: Outdated artifact or stepping-stone to journal certification?[J].Scientometrics,2012,92(2):211-238.
[5] 毛國(guó)敏,蔣知瑞,任蕾,等. 期刊信息量和影響力分布的不均勻性分析研究[J]. 中國(guó)科技期刊研究,2012,23(3):377-382.
[6] 俞立平,劉愛(ài)軍. 指標(biāo)數(shù)據(jù)分布與內(nèi)部差距對(duì)學(xué)術(shù)期刊評(píng)價(jià)的影響:以JCR數(shù)學(xué)期刊為例[J]. 圖書情報(bào)工作,2014,58(21):105-110.
[7] Weale A R,Bailey M,Lear P A. The level of non-citation of articles within a journal as a measure of quality:A comparison to the impact factor[J].BMCMedicalResearchMethodology,2004,4(1):14.
[8] Metze K. Bureaucrats,researchers,editors,and the impact factor-a vicious circle that is detrimental to science[J].Clinics,2010,65(10):937-940.
[9] Bornmann L,Mutz R,Neuhaus C,etal. Citation counts for research evaluation: Standards of good practice for analyzing bibliometric data and presenting and interpreting results[J].EthicsinScienceandEnvironmentalPolitics,2008,8(1):93-102.
[10] Stegmann J,Grohmann G. Citation rates,knowledge export and international visibility of dermatology journals listed and not listed in the Journal Citation Reports[J].Scientometrics,2001,50(3):483-502.