■謝維熙 張光耀 王賢文
大連理工大學(xué)科學(xué)學(xué)與科技管理研究所暨WISE實(shí)驗(yàn)室,遼寧省大連市甘井子區(qū)凌工路2號(hào) 116024
同行評(píng)議(本研究只討論學(xué)術(shù)論文發(fā)表同行評(píng)議,不涉及科研項(xiàng)目和獎(jiǎng)項(xiàng)評(píng)審情況)和引文分析是科研評(píng)價(jià)中常用的兩種方法。同行評(píng)議是科技期刊對(duì)論文進(jìn)行評(píng)價(jià)和遴選以保證發(fā)表論文質(zhì)量的過(guò)程,由期刊邀請(qǐng)同行專家對(duì)投稿論文提出修改意見(jiàn)和作出評(píng)判,并將其評(píng)價(jià)作為判斷文章是否能發(fā)表的主要依據(jù)[1]。引文是作者選擇支撐其學(xué)術(shù)研究的理論、觀點(diǎn)、數(shù)據(jù)和方法等研究資料,引文分析則是利用引文與學(xué)術(shù)成果的互依性進(jìn)行學(xué)術(shù)評(píng)價(jià)[2]。同行評(píng)議與引文分析在學(xué)術(shù)評(píng)價(jià)中各有優(yōu)缺點(diǎn),隨著同行評(píng)議數(shù)據(jù)的不斷開(kāi)放,科學(xué)工作者們可以從實(shí)證角度對(duì)同行評(píng)議和文獻(xiàn)計(jì)量間的關(guān)系展開(kāi)研究,但其研究仍受同行評(píng)議數(shù)據(jù)開(kāi)放程度的限制。
本研究旨在開(kāi)放同行評(píng)議的背景下,對(duì)三類論文在評(píng)審得分和被引頻次方面的差異以及論文同行評(píng)議得分與被引頻次的相關(guān)性進(jìn)行分析,探討論文同行評(píng)議結(jié)果與傳統(tǒng)文獻(xiàn)計(jì)量指標(biāo)的關(guān)系,從而驗(yàn)證同行評(píng)議的有效性以及分析同行評(píng)議結(jié)果與傳統(tǒng)文獻(xiàn)計(jì)量指標(biāo)在科研評(píng)價(jià)中的關(guān)系,為提高學(xué)術(shù)評(píng)價(jià)的科學(xué)性以及完善學(xué)術(shù)評(píng)價(jià)體系提供一定的參考。
同行評(píng)議最早可追溯到17世紀(jì),一直以來(lái)在學(xué)術(shù)期刊質(zhì)量控制和科研評(píng)價(jià)方面發(fā)揮著不可替代的作用[3]。傳統(tǒng)的同行評(píng)議在實(shí)施過(guò)程中存在諸多問(wèn)題[4-5],如審稿人和作者之間信任缺失、由個(gè)人利益和喜好導(dǎo)致不公正評(píng)價(jià)等問(wèn)題[6]。
隨著開(kāi)放科學(xué)運(yùn)動(dòng)的不斷推進(jìn)[7],開(kāi)放同行評(píng)議(Open Peer Review,OPR)以其公正、透明的優(yōu)勢(shì)日益受到關(guān)注并在全球多種學(xué)術(shù)期刊上得到實(shí)踐,比如PLoSONE、PeerJ、BMJ等[8],與國(guó)外相比,國(guó)內(nèi)關(guān)于開(kāi)放同行評(píng)議的研究和實(shí)踐仍處于初級(jí)階段。開(kāi)放同行評(píng)議向大眾開(kāi)放審稿信息,包括審稿人和作者身份信息、審稿人的建議、作者的回復(fù)以及評(píng)審結(jié)果等信息[9],評(píng)審過(guò)程的開(kāi)放性使得審稿人在評(píng)審時(shí)會(huì)更加謹(jǐn)慎公正,這對(duì)提高審稿意見(jiàn)的質(zhì)量和客觀公正性、縮短審稿時(shí)間、完善評(píng)議過(guò)程的監(jiān)督機(jī)制以及促進(jìn)知識(shí)交流等都有一定的促進(jìn)作用[10]。關(guān)于同行評(píng)議的開(kāi)放性是否會(huì)對(duì)稿件的被引頻次產(chǎn)生影響,Zong等[10]和Ni等[11]分別對(duì)PeerJ和NatureCommunications的同行評(píng)議數(shù)據(jù)進(jìn)行分析,得出了不一致的結(jié)論:前者認(rèn)為開(kāi)放同行評(píng)議提高了論文被引頻次,而后者則并沒(méi)有發(fā)現(xiàn)這一效果。
Bornmann等[12]以AtmosphericChemistryandPhysics上的1111篇接收論文為研究對(duì)象,并提取論文發(fā)表3年后的被引頻次,結(jié)果發(fā)現(xiàn)論文在各個(gè)數(shù)據(jù)庫(kù)中的被引頻次隨著同行評(píng)議評(píng)分級(jí)別的降低而減少。Ragone等[13]調(diào)研了10本計(jì)算機(jī)領(lǐng)域的會(huì)議論文集,發(fā)現(xiàn)同行評(píng)議評(píng)分等級(jí)與被引頻次呈正向弱相關(guān)。王一華[14]將IF(JCR)、CiteScore(Scopus)、h指數(shù)、SJR值、SNIP值與同行評(píng)議結(jié)果進(jìn)行Spearman非參數(shù)相關(guān)分析,發(fā)現(xiàn)同行評(píng)議結(jié)果與這5個(gè)文獻(xiàn)計(jì)量指標(biāo)的測(cè)量結(jié)果之間呈顯著正相關(guān)。Bornmann[15]研究了PLoS或F1000專家推薦評(píng)審等級(jí)與傳統(tǒng)文獻(xiàn)計(jì)量指標(biāo)的相關(guān)性,結(jié)果發(fā)現(xiàn)FFa(F1000論文因子)與被引頻次之間的正相關(guān)性顯著。
檀旦[16]以醫(yī)學(xué)信息學(xué)和糖尿病為主題,分析F1000與傳統(tǒng)文獻(xiàn)計(jì)量學(xué)指標(biāo)的相關(guān)性后發(fā)現(xiàn)兩者具有一定的正相關(guān)性。萬(wàn)昊等[17]通過(guò)對(duì)120多篇實(shí)證研究進(jìn)行元分析,比較同行評(píng)議與文獻(xiàn)計(jì)量在科研評(píng)價(jià)中的作用,結(jié)果發(fā)現(xiàn)兩者僅存在適度的正相關(guān)性,從而提出建構(gòu)在定量輔助基礎(chǔ)上的知情同行評(píng)議模式。黃明睿[18]基于《2014年版中國(guó)科技期刊引證報(bào)告(核心版)》,采用多種計(jì)量統(tǒng)計(jì)方法研究期刊評(píng)價(jià)指標(biāo)載文量、總被引頻次、影響因子和綜合評(píng)價(jià)總分之間的相互關(guān)系,結(jié)果表明總被引頻次、影響因子、綜合評(píng)價(jià)總分三者之間相互影響,在學(xué)術(shù)評(píng)價(jià)中起主要作用?,F(xiàn)有的大部分實(shí)證研究表明:同行評(píng)議結(jié)果與以被引頻次為基礎(chǔ)的傳統(tǒng)文獻(xiàn)計(jì)量指標(biāo)存在正相關(guān)關(guān)系,而且大部分研究結(jié)果顯示兩者的相關(guān)系數(shù)并不高。
傳統(tǒng)同行評(píng)議背景下,審稿過(guò)程數(shù)據(jù)的封閉狀態(tài)限制了同行評(píng)議實(shí)證研究的開(kāi)展。隨著開(kāi)放同行評(píng)議的推進(jìn),大量的關(guān)于審稿數(shù)據(jù)供科研人員進(jìn)行研究。本研究基于ICLR會(huì)議論文的開(kāi)放同行評(píng)議數(shù)據(jù),使用同行評(píng)議的評(píng)分來(lái)定量測(cè)度同行評(píng)議的結(jié)果,相較于以往的定性研究具有一定的優(yōu)勢(shì),而且ICLR數(shù)據(jù)集除了錄用論文外,還包括拒稿,這使得研究更加充實(shí)和全面。
OpenReview是一個(gè)會(huì)議論文公開(kāi)評(píng)審網(wǎng)站, 其中ICLR(International Conference on Learning Representations)的全稱為“國(guó)際學(xué)習(xí)表征會(huì)議”,是深度學(xué)習(xí)領(lǐng)域影響力最大的頂級(jí)會(huì)議之一,雖然成立較晚(2013年成立),但是其作為深度學(xué)習(xí)的頂級(jí)會(huì)議已經(jīng)得到了學(xué)術(shù)界的廣泛認(rèn)可。ICLR備受關(guān)注的原因不僅是其在學(xué)術(shù)上具有較高的影響力,還在于它采取了開(kāi)放同行評(píng)議制度,其公開(kāi)的同行評(píng)議數(shù)據(jù)有原文題目、作者、摘要、下載鏈接、評(píng)審意見(jiàn)、作者與審稿專家以及參會(huì)人的討論過(guò)程、審稿結(jié)果即評(píng)審得分(Rating)。在ICLR論文審稿中,會(huì)議主席對(duì)其負(fù)責(zé)的投稿作出錄用與否的決策。會(huì)議主席考慮的信息包括審稿專家的評(píng)分、審稿過(guò)程中提供的證據(jù)、作者和審稿專家之間的討論以及自己對(duì)論文的評(píng)估等等(1)①來(lái)源于作者與ICLR項(xiàng)目主席的郵件通信,ICLR項(xiàng)目主席的郵件原文為:“Within the ICLR review process, Area Chairs make an accept recommendation for each submission in their respective batch. Area Chairs are asked to take into account several sources of information, including the reviewer scores and certainty, the evidence provided in the reviews, discussion between authors and reviewers, and the Area Chair′s own assessment of the paper. As such, there is no hard and fast rule on whether a paper will be accepted given a specific score. In addition, the Program Committee work with Area Chairs to calibrate acceptance decisions across Area Chairs, to account for factors such as the fact that some Area Chairs may be more conservative than others in their acceptance decisions. All calibration happens online and asynchronously, i.e., there is no single meeting where decisions are made.”。一些實(shí)證研究已經(jīng)探索了這一數(shù)據(jù)集在研究中的可靠性,如基于ICLR的評(píng)審意見(jiàn)文本數(shù)據(jù),對(duì)審稿意見(jiàn)情感以及評(píng)審中存在的制度偏見(jiàn)進(jìn)行分析,還有學(xué)者提出將融合定性評(píng)價(jià)的論文質(zhì)量評(píng)價(jià)模型用于定性評(píng)價(jià)文本的定量化研究[19-21]。在本研究中,將ICLR系列會(huì)議在OpenReview平臺(tái)中的同行評(píng)議數(shù)據(jù)和文獻(xiàn)計(jì)量指標(biāo)數(shù)據(jù)作為研究數(shù)據(jù),ICLR的公開(kāi)審稿意見(jiàn)(示例)如圖1所示。
圖1 ICLR公開(kāi)的審稿意見(jiàn)示例
本研究選取OpenReview平臺(tái)上ICLR會(huì)議論文集在2018—2019年公布的2220篇論文(排除審稿意見(jiàn)缺失的1篇論文和谷歌學(xué)術(shù)上查詢不到的8篇論文,以及14篇數(shù)據(jù)出現(xiàn)異常的論文)作為研究對(duì)象,包括42篇口頭報(bào)告論文(Oral Presentation Papers,以下簡(jiǎn)稱“OP論文”;難度最大,錄用率約為1.35%)和780篇海報(bào)展示論文(Poster Presentation Papers,以下簡(jiǎn)稱“PP論文”;錄用率約為22.65%)以及1398篇被拒收論文(Rejected Papers,以下簡(jiǎn)稱“RP論文”)。其中,用于數(shù)據(jù)分析的變量主要包括同行評(píng)議過(guò)程中審稿專家對(duì)每篇論文給出的評(píng)分,用來(lái)判斷單篇論文的非共識(shí)程度的得分方差,以及每篇論文發(fā)表至今(2021年6—7月查詢)在谷歌學(xué)術(shù)上的總被引頻次??紤]到會(huì)議論文數(shù)據(jù)集在單個(gè)數(shù)據(jù)庫(kù)中無(wú)法保證檢全,因此選擇谷歌學(xué)術(shù)上的被引頻次作為研究要素。需要說(shuō)明的是,考慮到同行評(píng)議數(shù)據(jù)的完整性以及統(tǒng)計(jì)被引頻次時(shí)保證兩年的被引時(shí)間窗口,本研究只選取2018年和2019年的數(shù)據(jù)作為研究對(duì)象。
為了比較OP論文與PP論文以及RP論文在同行評(píng)議結(jié)果和引文指標(biāo)方面的差異,選取同行評(píng)議得分與論文發(fā)表至今的被引頻次這兩個(gè)指標(biāo)進(jìn)行比較分析,結(jié)果如表1和圖2所示。由表1可知:OP論文的評(píng)審得分和被引頻次均明顯高于PP論文,而PP論文的評(píng)審得分和被引頻次又明顯高于RP論文;單因素方差分析結(jié)果顯示,不同類型論文之間的平均得分與平均被引頻次差異有統(tǒng)計(jì)學(xué)意義。由于數(shù)據(jù)分布不符合正態(tài)分布,使用K-S檢驗(yàn)進(jìn)一步對(duì)三類論文的評(píng)審得分和被引頻次進(jìn)行檢驗(yàn),P值均<0.001,說(shuō)明OP論文、PP論文和RP論文三者之間的評(píng)審得分和被引頻次均存在顯著差異。
表1 OP論文、PP論文與RP論文的評(píng)價(jià)指標(biāo)對(duì)比
圖2 OP、PP與RP論文評(píng)審得分和被引頻次分布(a)評(píng)審得分;(b)被引頻次
經(jīng)過(guò)K-S檢驗(yàn),論文的評(píng)審得分與被引頻次不符合正態(tài)分布,因此采用Spearman秩相關(guān)分析方法對(duì)各類論文的評(píng)審得分與被引頻次進(jìn)行相關(guān)性分析。由表2可知,對(duì)于全部論文(OP、PP和RP論文),相關(guān)系數(shù)為0.625,表現(xiàn)出較高的相關(guān)性;對(duì)于OP論文,相關(guān)系數(shù)為0.134,即評(píng)審得分與被引頻次呈顯著正相關(guān)(P<0.01);對(duì)于PP論文,相關(guān)系數(shù)為0.160,即評(píng)審得分與被引頻次呈顯著正相關(guān);對(duì)于全部錄用論文(OP、PP論文),相關(guān)系數(shù)為0.209,全部錄用論文的評(píng)審得分與被引頻次呈顯著正相關(guān)。
表2 論文評(píng)審得分與被引頻次的相關(guān)性分析結(jié)果
對(duì)評(píng)審得分與被引頻次之間的關(guān)系進(jìn)行進(jìn)一步分析,首先探究全部錄用論文(OP 和 PP 論文)中不同得分水平論文的被引頻次差異是否有統(tǒng)計(jì)學(xué)意義。由于被接收論文中只有一篇低于4分,其余均分布在4~10分范圍內(nèi),因此剔除一篇最低分論文,將821篇論文按得分分到3個(gè)區(qū)間里([4,6)、[6,8)、[8,10]),對(duì)這三組論文進(jìn)行非參數(shù)檢驗(yàn),發(fā)現(xiàn)不同得分水平論文之間的被引頻次差異具有統(tǒng)計(jì)學(xué)意義(P=0.002)。其次,探究對(duì)于不同被引頻次水平的論文評(píng)審得分對(duì)被引頻次的影響規(guī)律。本研究分析了高被引論文和極高被引論文的得分情況,將所有論文按被引頻次降序排列,取前5%為高被引論文,前1%為極高被引論文,結(jié)果如表3所示??梢钥吹?,極高被引論文的評(píng)審得分均值(6.91)>高被引論文的評(píng)審得分均值(6.57)>非高被引論文的評(píng)審得分均值(5.37)。
表3 高被引論文和極高被引論文的平均評(píng)審得分與平均被引頻次的比較
為了更清晰地展示評(píng)審得分與被引頻次的關(guān)系,繪制了全部2220篇論文的評(píng)審得分與被引頻次的散點(diǎn)圖。從圖3(a)可以看出,總體上評(píng)審得分與被引頻次的相關(guān)性并不顯著。本研究同時(shí)考慮了評(píng)審存在分歧的論文即非共識(shí)論文的被引頻次分布情況。國(guó)家自然科學(xué)基金委員會(huì)管理科學(xué)部副主任楊列勛指出,評(píng)審專家在某一項(xiàng)研究項(xiàng)目的評(píng)審上兩種意見(jiàn)幾乎各占一半,且雙方均有一定的論據(jù),那么這項(xiàng)研究就是非共識(shí)研究[22];劉文波和鈕曉鳴[23]認(rèn)為,非共識(shí)研究是指具有不確定性和創(chuàng)新性且在初期評(píng)審專家難以對(duì)研究成果達(dá)成一致意見(jiàn)的研究行為或活動(dòng)。雖然目前學(xué)術(shù)界尚未對(duì)非共識(shí)研究形成統(tǒng)一的界定,但是關(guān)于非共識(shí)研究同樣存在研究?jī)r(jià)值和創(chuàng)新價(jià)值這一觀點(diǎn)已經(jīng)得到學(xué)術(shù)界的廣泛認(rèn)可。本研究使用一篇論文評(píng)審得分的方差來(lái)表示該論文的整體非共識(shí)度,方差越大,表示論文非共識(shí)的離散或者說(shuō)審稿人意見(jiàn)相左的程度越大,即非共識(shí)度越大,或者說(shuō)對(duì)論文評(píng)審結(jié)果的分歧越大[24]。圖3(b)展現(xiàn)了論文非共識(shí)度與被引頻次的關(guān)系,統(tǒng)計(jì)結(jié)果顯示論文非共識(shí)度與被引頻次呈正相關(guān),但兩者的相關(guān)性并不顯著。
圖3 論文評(píng)審得分與非共識(shí)度散點(diǎn)圖(a)所有論文評(píng)審得分與被引頻次散點(diǎn)圖;(b)論文非共識(shí)度與被引頻次散點(diǎn)圖
上述內(nèi)容中的統(tǒng)計(jì)檢驗(yàn)結(jié)果顯示了論文錄用狀態(tài)、評(píng)審得分以及論文非共識(shí)程度和被引頻次之間的關(guān)系?;谏鲜龇治?,本研究擬通過(guò)回歸分析(OLS和mlogit)來(lái)進(jìn)一步檢驗(yàn)論文評(píng)審得分和被引頻次之間的關(guān)系。模型設(shè)定為
Yi=Xiβ+εi
(1)
式中:Yi為論文的被引頻次;Xi為解釋變量;β為回歸系數(shù);εi為誤差項(xiàng)。
Uij=Xiβj+εij
(2)
式中:Uij表示第i篇論文在第j種評(píng)審狀態(tài)下的隨機(jī)效用;βj為不同評(píng)審狀態(tài)下對(duì)應(yīng)的回歸系數(shù);εij為誤差項(xiàng)。變量的描述統(tǒng)計(jì)結(jié)果和相關(guān)系數(shù)矩陣如表4和表5所示,論文評(píng)審得分與被引頻次的回歸結(jié)果如表6所示。
表4 變量的描述統(tǒng)計(jì)結(jié)果
表5 變量的相關(guān)系數(shù)矩陣
表6 論文評(píng)審得分與被引頻次的回歸結(jié)果
為避免極端值的影響,在回歸前將Citations、Rating、Variance在99分位作截尾處理。方差膨脹系數(shù)(Variance Inflation Factor,VIF)最大值為2.24,平均值為1.51,表明不存在嚴(yán)重的共線性。在模型1中加入了所有變量,評(píng)審得分的回歸系數(shù)為正且在0.001水平上顯著相關(guān),錄用論文的系數(shù)在0.001水平上顯著正相關(guān),意味著錄用論文的被引頻次相比于RP論文更高。進(jìn)一步將樣本拆分成兩部分,在模型2中納入RP論文樣本,在模型3中納入全部錄用論文樣本,這兩個(gè)模型的評(píng)審得分系數(shù)仍然為正,且在0.001水平上顯著相關(guān)。從模型3可以看出,PP論文的系數(shù)為負(fù),且在0.05水平上顯著相關(guān),意味著相比于PP論文,OP論文有著更高的被引頻次。模型4~6為使用mlogit估計(jì)的結(jié)果,表6中呈現(xiàn)的是評(píng)審得分的邊際效應(yīng),其中對(duì)于OP和PP論文,評(píng)審得分的邊際效應(yīng)為正,對(duì)于RP論文,評(píng)審得分的邊際效應(yīng)為負(fù)。
上述分析結(jié)果得出被ICLR接收的論文,其Spearman秩相關(guān)系數(shù)r=0.209,因此對(duì)這種弱相關(guān)背后的一些例外情況進(jìn)行分析。運(yùn)用案例分析方法,選取6篇評(píng)審得分低-被引頻次高的論文和6篇評(píng)審得分高-被引頻次低的論文作為案例,對(duì)這兩組案例的評(píng)審得分、被引頻次、得分方差、預(yù)印本(arXiv)存檔以及文獻(xiàn)內(nèi)容進(jìn)行分析,以發(fā)現(xiàn)同行評(píng)議結(jié)果與被引頻次相悖的文獻(xiàn)特征,對(duì)評(píng)審得分低-被引頻次高以及評(píng)審得分高-被引頻次低的論文進(jìn)行統(tǒng)計(jì),結(jié)果如表7所示。
表7 案例論文統(tǒng)計(jì)結(jié)果
在會(huì)議集對(duì)論文做出接收或拒絕的決定之前,有部分論文已經(jīng)發(fā)布到arXiv平臺(tái)上,表7統(tǒng)計(jì)的低得分-高被引論文都在被接收之前發(fā)布在arXiv平臺(tái)上,這就使得這些論文較其他未發(fā)布到arXiv的論文有更長(zhǎng)的被引窗口。以往的研究表明,arXiv論文在許多數(shù)據(jù)庫(kù)中都具有顯著的引用優(yōu)勢(shì)[25]。
由表7可知,這些低得分-高被引論文具有一些共同的特征:評(píng)審專家給分均不高、存在較低分導(dǎo)致平均得分較低、大部分論文都發(fā)布在arXiv平臺(tái)。高得分-低被引論文也具有一些共同的特征:大部分論文并未發(fā)布到arXiv平臺(tái),并且這些論文的評(píng)審得分方差普遍較低,說(shuō)明評(píng)審專家對(duì)這些論文的評(píng)價(jià)分歧較小。分析上述論文的原文和審稿意見(jiàn)后發(fā)現(xiàn):低得分-高被引論文的創(chuàng)新性通常較低,或者屬于綜述性研究;而高得分-低被引論文通常具有較高的創(chuàng)新性,因而得到審稿人的高度認(rèn)可。
論文的評(píng)審得分反映的是審稿人對(duì)研究的主觀評(píng)價(jià),而且大多數(shù)都是定性評(píng)價(jià),被引頻次反映的是學(xué)術(shù)同行對(duì)科研勞動(dòng)成果的認(rèn)可程度,在一定程度上反映了科研產(chǎn)出的質(zhì)量,是一種定量評(píng)價(jià)。上述研究結(jié)果表明用這兩種方法對(duì)科研成果進(jìn)行評(píng)價(jià)得到的結(jié)果并不總是一致的。
ICLR通過(guò)同行評(píng)議決定論文是否錄用以及錄用為口頭匯報(bào)還是海報(bào)展示,通過(guò)對(duì)OP論文、PP論文和RP論文進(jìn)行描述統(tǒng)計(jì)和方差分析,發(fā)現(xiàn)這三類論文的評(píng)審得分和被引頻次是有差異的,進(jìn)行兩兩比較后發(fā)現(xiàn)差異均有統(tǒng)計(jì)學(xué)意義(P<0.05),這個(gè)結(jié)果從一定程度上反映了同行評(píng)議的有效性和同行評(píng)議結(jié)果與傳統(tǒng)計(jì)量指標(biāo)的一致性。
通過(guò)對(duì)論文評(píng)審得分和被引頻次進(jìn)行相關(guān)性分析和回歸分析,發(fā)現(xiàn)PP論文、錄用論文、全部論文的評(píng)審得分與被引頻次存在顯著的正相關(guān)關(guān)系,這一結(jié)果與以往關(guān)于同行評(píng)議結(jié)果和被引頻次的研究結(jié)果類似。本研究結(jié)果表明:雖然同行評(píng)議和被引頻次從不同角度反映科學(xué)研究的學(xué)術(shù)影響力,但是兩者在一定程度上呈正相關(guān),證明了同行評(píng)議和被引頻次在科研評(píng)價(jià)中的有效性和一致性;同行評(píng)議能夠選出具有價(jià)值的論文,并在發(fā)表之后具有更高的影響力,證實(shí)了同行評(píng)議的有效性。
錄用論文的評(píng)審得分與被引頻次的相關(guān)性不高,可能是因?yàn)橥性u(píng)議與傳統(tǒng)計(jì)量指標(biāo)是從不同維度對(duì)文章進(jìn)行評(píng)價(jià),同行評(píng)議具有主觀性和封閉性等特點(diǎn),引用具有偏性和引用動(dòng)機(jī)復(fù)雜性等特點(diǎn)。對(duì)這種弱相關(guān)性背后的一些個(gè)例進(jìn)行統(tǒng)計(jì),對(duì)低得分-高被引和高得分-低被引論文進(jìn)行分析發(fā)現(xiàn),前者是事先發(fā)布到arXiv平臺(tái)的微創(chuàng)新性研究論文或綜述性文章,后者則大多是非共識(shí)度低、但創(chuàng)新程度高的研究論文或?qū)W術(shù)爭(zhēng)議文章。這一結(jié)果從一定程度上反映了以引用為代表的定量指標(biāo)和同行評(píng)議定性評(píng)價(jià)指標(biāo)是相輔相成的,可將定量和定性兩種評(píng)價(jià)工具結(jié)合起來(lái)進(jìn)行相對(duì)有效、全面的科研評(píng)價(jià)。
同行評(píng)議的結(jié)果是從評(píng)審專家的角度來(lái)評(píng)估論文的質(zhì)量,而以被引頻次為基礎(chǔ)的傳統(tǒng)計(jì)量指標(biāo)是從作者的角度來(lái)判斷論文的質(zhì)量及影響力。同行評(píng)議作為科學(xué)研究的“守門人”,雖然存在主觀偏見(jiàn)可能導(dǎo)致結(jié)果有失公允,但是其作為控制科研質(zhì)量的首要機(jī)制,對(duì)科研評(píng)價(jià)體系的建設(shè)起到至關(guān)重要的作用。被引頻次作為傳統(tǒng)文獻(xiàn)計(jì)量評(píng)價(jià)的基礎(chǔ),雖然存在引用的不完備性和有偏性,但是被引頻次可以作為一種定量化工具,在一定程度上反映同行對(duì)研究質(zhì)量及影響力的評(píng)價(jià)。本研究結(jié)果發(fā)現(xiàn)雖然同行評(píng)議結(jié)果與引文度量指標(biāo)之間呈正相關(guān),但是同行評(píng)議和文獻(xiàn)計(jì)量指標(biāo)之間是不可相互替代的:同行評(píng)議仍然是目前科研評(píng)價(jià)體系最重要的一環(huán);相比于同行評(píng)議的精英評(píng)價(jià),文獻(xiàn)計(jì)量指標(biāo)能夠提供更大范圍內(nèi)公開(kāi)的同行評(píng)價(jià)參考。
從期刊評(píng)價(jià)實(shí)踐的角度來(lái)看,文獻(xiàn)計(jì)量指標(biāo)是對(duì)同行評(píng)議的重要補(bǔ)充。期刊評(píng)價(jià)體系應(yīng)該是建立在定性同行評(píng)議的質(zhì)量評(píng)價(jià)基礎(chǔ)上,融合定量文獻(xiàn)計(jì)量指標(biāo),形成一種主客觀相結(jié)合的評(píng)價(jià)模式。
本研究存在一些局限:首先,本研究使用的開(kāi)放同行評(píng)議數(shù)據(jù),其開(kāi)放透明的特點(diǎn)給研究帶來(lái)了極大的便利,但是由于目前采取開(kāi)放同行評(píng)議模式的期刊和會(huì)議集較少,而且開(kāi)放程度也不盡相同,本研究?jī)H選取了公布全部投稿論文的評(píng)審得分?jǐn)?shù)據(jù)的ICLR數(shù)據(jù)集進(jìn)行分析,論文樣本量較小,可能會(huì)限制研究的開(kāi)展;其次,本研究的對(duì)象是計(jì)算機(jī)領(lǐng)域的會(huì)議論文,可能存在學(xué)科差異,結(jié)論外推時(shí)需謹(jǐn)慎;最后,本研究對(duì)同行評(píng)議結(jié)果和文獻(xiàn)計(jì)量指標(biāo)的相關(guān)性進(jìn)行分析,提出應(yīng)將定性、定量?jī)煞N評(píng)價(jià)工具結(jié)合起來(lái)才能進(jìn)行有效的科研評(píng)價(jià),但如何實(shí)現(xiàn)二者的融合評(píng)價(jià)是亟需解決的問(wèn)題,需要后續(xù)進(jìn)一步研究。