匡登輝 王麗婷
(南開大學圖書館,天津 300071)
預印本是一份研究論文的完整草稿,在進行同行評審之前與公眾分享,通常會被分配一個數(shù)字對象標識符(Digital Object Identifier,DOI),以便其他研究論文對其進行引用。這一科學交流形式的出現(xiàn)大大提升了科學交流的效率,預印本顛覆了研究人員對科學發(fā)現(xiàn)和協(xié)作分享的方式[1],適應了開放、免費、共享的學術交流基本要求,推動學術出版進入開放科學的時代。自COVID-19(新型冠狀病毒肺炎)疫情爆發(fā),科學界積極參與應對這一全球公共衛(wèi)生挑戰(zhàn),生產出大量研究成果,并依托預印本得到了及時傳播,對COVID-19的防控決策和政策制定、患者治療方案設計起到了積極作用。而在SARS這一2003年發(fā)生的全球公共衛(wèi)生危機中,據(jù)Peiperl[2]的統(tǒng)計,疫情結束時仍有90%的論文還在審稿中,沒能及時發(fā)表。兩相對比,預印本這一科學交流新方式的價值更加凸顯,由此也引發(fā)了相關領域學者對COVID-19主題預印本文獻的研究興趣。如紐約伊坎醫(yī)學院精密免疫學研究所(PrIISM)的研究人員嘗試將預印本領域的“信號”與“噪聲”分離,描述其對COVID-19研究工作的貢獻[3];Torres-Salinas[4]針對日益增長的COVID-19研究文獻,對比分析數(shù)據(jù)庫與預印本平臺,發(fā)現(xiàn)PubMed Central、medRxiv、SSRN(Social Science Research Network)是預印本領導者,但期刊仍然是科學傳播的核心;Majumder等[5]則論述了有關COVID-19預印本的傳播對全球的影響;在Wellcome基金會的支持下,Nature啟動了關于COVID-19研究的快速科學預審,快速審核與新出現(xiàn)疫情相關的預印本[6]。Chahrour等[7]與Hossain[8]、張龍浩等[9]、李士雪等[10]基于文獻分析,對有關COVID-19的全球研究現(xiàn)狀進行梳理和總結;程冰等[11]就新型冠狀病毒肺炎疫情初期國內外201篇專業(yè)文獻出版情況進行分析,發(fā)現(xiàn)科學研究的專業(yè)文獻主要發(fā)表在預印本文獻平臺和權威期刊上。
綜上,關于COVID-19預印本的相關研究,集中于對預印本文獻的重要性及COVID-19全球研究現(xiàn)狀的綜述等定性研究,完整性、系統(tǒng)性仍有所欠缺。本文擬結合COVID-19科學研究的主題,從多個維度對預印本進行定量研究,全方位評價預印本文獻的影響力,以期為科學研究的社會關注度提升,以及我國的預印本平臺和科技期刊的建設、轉型發(fā)展提供建議。
Dimensions是Digital Science聯(lián)合其六大支柱產品Altmetric、Consultancy、Figshare、ReadCube、Symplectic和UberResearch,以及100多家的合作伙伴于2018年1月推出的新型學術數(shù)據(jù)平臺,收錄了上億條文獻信息,還提供相關的會議、基金項目、專利以及政策文本等數(shù)據(jù)[12];鏈接了重要的科研資源信息,包括開放存取期刊目錄DOAJ、PubMed、巴西科學在線圖書館SciELO、自然系列期刊等;提供發(fā)文量、總被引次數(shù)、篇均被引頻次等常見的重要評價指標,以及學科相對引用率指標FCR、相關引用率RCR、替代計量指標值AAS(Altmetric Attention Score)等優(yōu)化評價指標[13],為科學評價研究提供了廣泛的數(shù)據(jù)來源和新的解決方案。
Dimensions提供了新型冠狀病毒肺炎疫情爆發(fā)以來,有關COVID-19研究的專題文獻數(shù)據(jù),包括文獻的元數(shù)據(jù),以支持全球的科學研究。該數(shù)據(jù)集于2020年3月10日初次上線,可以通過Dimensions平臺和Figshare平臺免費獲取,每24小時更新一次。本文采用的是2020年5月26日發(fā)布的V21(20200526)版本數(shù)據(jù),包含各類文獻數(shù)據(jù)36 833條,預印本數(shù)據(jù)5 639條,占15.3%;具有AAS值的數(shù)據(jù)20 175篇,占54.8%。在數(shù)據(jù)清洗環(huán)節(jié),對于缺失來源的文獻,結合DOI和題錄信息,補充了“Source title”信息。
完成數(shù)據(jù)采集與清洗后,從COVID-19預印本平臺、出版商、論文發(fā)表時間分布、成果開放獲取、預印本文獻的學術和社會影響力等方面進行分析,總結COVID-19預印本的傳播特點和出版情況,提出了我國的科技期刊建設、預印本平臺的發(fā)展路徑。
COVID-19預印本論文的引用指標與AAS指標間的差異較為顯著,如表1所示。總體來說,引用指標完整性較好,均具有相關數(shù)據(jù);具有有效AAS指標數(shù)據(jù)的預印本僅有1 679篇,占總量的29.8%。其中,引文量非零的預印本論文占比為12.9%,AAS非零的論文占比達29.8%。從指標數(shù)值來說,除偏度、峰度外,引文的統(tǒng)計學指標均低于AAS。
表1 COVID-19預印本引用與關注指標描述性統(tǒng)計
數(shù)據(jù)集中涉及多個預印本平臺,包括arXiv、bioRxiv、ChemRxiv、JMR Preprints、Research Square、SSRN Electronic Journal等。論文在平臺間的分布較為分散,發(fā)表論文最多的是SSRN Electronic Journal,發(fā)表文獻1 988篇,占35.25%;其次是Research Square,發(fā)表文獻為993篇,占17.61%;位列第三的是arXiv,發(fā)表文獻247篇,占4.38%。
從類型來看,發(fā)表COVID-19文獻的預印本平臺既有綜合性的預印本平臺,如American Journal Experts(AJE)運營的Research Square;也有面向特定學科領域的預印本平臺,如面向生命科學、醫(yī)學領域的bioRxiv,面向社會科學和人文領域的SSRN Electronic Journal。
根據(jù)COVID-19預印本數(shù)據(jù)集統(tǒng)計結果,支持發(fā)表預印本文獻的出版商主要有American Chemical Society(ACS)、Cold Spring Harbor Laboratory、Cornell University、Elsevier、JMIR Publications、Research Square。更進一步地分析出版商與預印本平臺間的關系,可以看出兩者存在非常密切的關聯(lián),這些出版商均是預印本平臺的擁有者或支持機構,如表2所示。
表2 預印本平臺與出版商關聯(lián)關系(部分)
關于COVID-19的預印本文獻,疫情爆發(fā)的最初幾天是零散出現(xiàn),但自2020年1月26日以后發(fā)文數(shù)量呈增長的態(tài)勢,特別是2020年3月18日之后,預印本論文數(shù)量增長速度進一步加快(如圖1所示),這說明隨著疫情的蔓延,越來越多的科學家加入到新冠病毒的研究當中并選擇通過預印本渠道公開其研究成果,如COVID-19基因組序列、臨床特征、治療效果評價等,不少重要研究成果都是先發(fā)表在bioRxiv或medRxiv預印本系統(tǒng)上,大大加快了知識傳播速度。
圖1 COVID-19預印本文獻發(fā)表時間分布
OA是學術界為實現(xiàn)科研成果快速網(wǎng)絡傳播而采取的行動,預印本作為公開、確鑿的數(shù)據(jù)記錄,除確定研究成果的首發(fā)權,還可以為疫情防控、臨床診療、應急處置、科學決策提供重要的依據(jù)。預印本文獻都是開放獲取的,其中65.16%的稿件遞交到平臺經(jīng)簡單審核后,讀者即可自由免費訪問,34.82%的稿件發(fā)表后即開放獲取。
相關系數(shù)r常用來刻畫兩變量間相關關系的強弱,本文主要分析引文頻次與AAS指標間的相關性。如表1所示,由于引用和AAS指標的偏度值均大于0,說明樣本數(shù)據(jù)不是來自于正態(tài)分布的整體[14],在相關性分析時需要選擇斯皮爾曼相關分析法[15],檢驗結果見表3。
表3 不同類型COVID-19文獻的引文頻次與AAS相關性分析
從表3可知,全部出版物及論文、圖書、預印本等各類型文獻的引文頻次與AAS的斯皮爾曼相關系數(shù)均為正值,說明引文頻次與AAS屬于正相關。僅從數(shù)值來看,引文頻次與AAS相關性最大的是專論,相關性系數(shù)達0.626;預印本文獻次之,相關性系數(shù)為0.447;全部出版物的引文頻次與AAS的相關系數(shù)為0.399,略高于論文的引文頻次與AAS的相關系數(shù)0.398,這幾項數(shù)據(jù)均在0.01水平上顯著相關。圖書或章節(jié)的引文頻次與AAS的相關系數(shù)為負值,表明圖書或章節(jié)的引文頻次的變化趨勢相反,即引文頻次越高,AAS數(shù)值越低。
被引頻次排名前10的COVID-19預印本論文中,9篇來自bioRxiv,1篇來自medRxiv;排名居首論文的主題是新型冠狀病毒種類鑒定及命名,被引頻次高達187。AAS排名前10的論文中,7篇出自bioRxiv,2篇出自SSRN Electronic Journal,1篇出自ChemRxiv;AAS得分居首(14 949)論文的主題是新型冠狀病毒刺蛋白中獨特的插入物與HIV-1 gp120和Gag蛋白不可思議的相似性,總體來看,專門面向生命科學和醫(yī)學領域的bioRxiv體現(xiàn)出更強的影響力;然而,被引頻次前10和AAS得分前10的論文并不完全一致,排名上也差異較大,如AAS得分居首的論文僅被引16次。
另外,從影響力數(shù)據(jù)積累情況看,在論文剛發(fā)表的較短時間內,社交媒體的關注和論文的使用數(shù)據(jù)快速積累,數(shù)據(jù)量在短時間內相當大,遠超這一階段被引頻次。因此,社交媒體指標和使用數(shù)據(jù)在論文剛發(fā)表后不久便可以對論文的影響力展開評價,但論文的被引量通常在論文發(fā)表2~3年之后達到引用峰值,而且更多體現(xiàn)的是其在學術同行中的學術影響力[16]。由此可以看出,被引次數(shù)測度的是論文的長期影響力,反映學術水平,以AAS為代表的社交媒體指標更多地在于反映論文的短期影響力和社會影響力。
開放獲取運動的開展,使得優(yōu)質的科學成果更多、更快地上傳至預印本平臺,越來越多的原創(chuàng)性的最新成果發(fā)表在開放獲取的數(shù)字出版平臺上,通過社交網(wǎng)絡擴散,實現(xiàn)快速傳播,我國需要構建自主可控的預印本系統(tǒng)和開放出版的學術生態(tài)[17]。鑒于預印本已成為重要的開放學術資源,總結分析COVID-19預印本論文,對我國搞好預印本平臺建設,具有重要啟示。
(1)推動分學科預印本平臺文獻資源的集成。研究發(fā)現(xiàn),COVID-19主題的預印本分布在多個生物醫(yī)學領域的預印本平臺(包括bioRxiv、medRxiv、arXiv、PeerJ PrePrints等),以及綜合性預印本平臺、開放獲取網(wǎng)站上(如ChinaXiv、PLOS、BioMed Central、Springer Open等),這充分顯示出學者發(fā)布論文的途徑是多元的。但是,鑒于不同平臺的實力差異,對平臺文獻的內容與形式特征揭示度差異較大;而且文獻的分散分布也不利于用戶的文獻利用。因此,很有必要將這些開放、免費的資源整合起來,根據(jù)研究領域的不同,做成分學科的預印本平臺文獻資源集成系統(tǒng),實現(xiàn)相關預印本信息的一站式檢索、利用,構建科學共同體自治的新型科研成果交流和共享平臺,與傳統(tǒng)的基于期刊的成果發(fā)布方式形成有效互補。
建立學科預印本資源集成,對于出版機構,對接預印本,建立優(yōu)質的稿源倉儲,優(yōu)先篩選優(yōu)質稿件,從而提高期刊的影響力;對于科研院所,可以彰顯機構的學術影響力,促進機構與業(yè)界的學術交流;對于圖書館,可以開放獲取免費、優(yōu)質的學術資源,提高服務能力和資源保障水平;對于基金資助機構,為保護和加快資助的學術成果的廣泛傳播,體現(xiàn)資助效益。因此,鼓勵各類科學研究、學術出版相關機構主動加強與預印本平臺的合作,積極探索協(xié)同互利機制,形成良好生態(tài)。
(2)鼓勵科研院所、學會、學術出版商與預印本平臺加強協(xié)作。本研究發(fā)現(xiàn),發(fā)表COVID-19文獻的預印本平臺與學術研究、出版機構的關系密切,如SSRN的背后是全球最大的學術出版商Elsevier、Research Square背后是美國著名高校Cornell University,并形成了深度合作、多方共贏機制。
(3)積極推動預印本文獻的社會影響力提升。COVID-19預印本文獻的被引頻次與AAS相關性分析表明,兩者存在正相關關系,相關系數(shù)為0.447,為中度相關。因此,預印本文獻發(fā)表后,通過提升其社會影響力,將有助于提升其學術領域的影響力?;诖?,我國的預印本平臺建設時,需要主動接入主流社交媒體,如Facebook、LinkedIn、微博、微信等,借助社交媒體,有效拓寬傳播渠道,擴大信息受眾,增強專業(yè)知識的滲透力[18],提升傳播效率,進而形成高社會影響力提升論文學術影響力。高學術影響力吸引更多學者將更多成果通過預印本平臺發(fā)表的良性循環(huán),進一步提升預印本平臺的影響力。
(4)加強預印本論文質量品控。本文結果顯示,預印本大多不是研究論文的最終形式,應利用CrossRef等基礎信息提供商,從而提升論文的顯示度和引用規(guī)范。據(jù)解賀嘉等[19]對國外預印本平臺的研究,預印本和論文最終發(fā)表版本差異較小。劉靜羽等[20]的研究則認為,當前國際通行做法是由上傳者和作者對研究內容、論文格式完整性、學術性和真實性作出保證。但筆者認為,對不同學科的預印本,其論文品控側重點不同,如醫(yī)學類的論文,實名注冊的作者必須聲明倫理審查、臨床試驗登記、患者知情書、資金來源和利益沖突信息;醫(yī)學編輯決定論文的接收與否,標識“未經(jīng)同行評議”。
(5)優(yōu)化預印本平臺用戶體驗,加強預印本文獻資源的深度開發(fā)與服務利用。預印本作為迅速發(fā)展的學術交流方式,內容可以免費開放獲取。用戶訪問平臺后就可以查看、瀏覽、檢索、下載、評論最新科研成果,形成“投稿→審核→發(fā)布→評審→修改→發(fā)表”各環(huán)節(jié)協(xié)同聯(lián)動的出版新模式,必然要求論文元數(shù)據(jù)規(guī)范準確,支持跨系統(tǒng)傳輸、交換、調用和互認;要求簡化系統(tǒng)的內部操作流程,提供更加符合用戶需求的功能,促進更大范圍內的預印本資源開放和共享。此外,還需要開展針對不同層次的用戶需求,深度開發(fā)和有效利用預印本資源,開展個性化、差異化的用戶互動、信息定制服務,如可以開展基于研究主題或課題組的Alert提醒服務、RSS推送等。對于錄用的稿件,需要進一步加強與期刊的合作,精準關聯(lián)論文的不同版本,對接Dimensions、PubMed、Scopus、Web of Science(WoS)核心合集等數(shù)據(jù)平臺,打通期刊、預印本等資源的有機集成、整合和關聯(lián),發(fā)布每篇文章的相關數(shù)據(jù)(如論文被下載、瀏覽、轉發(fā)、社交媒體提及、開放評論等),支持預印本文獻的自由檢索、獲取、分析、探索預印本可持續(xù)發(fā)展的機制。
COVID-19爆發(fā)后,一些科學家在預印本平臺推出的創(chuàng)新性、爭議性研究成果使得預印本成為全球焦點,頻繁出現(xiàn)在學術新聞和社會新聞中,預印本已然成為國際科研生態(tài)的重要一員,其不僅能夠確認首發(fā)權,而且其透明、多元的評審機制,開放獲取的傳播方式也能夠加快創(chuàng)新成果的傳播速度、提升學術交流的廣度。我國應主動融入國際潮流的新型學術交流模式,借鑒國外預印本平臺建設經(jīng)驗,提升我國的預印本建設水平,保障國家科學交流的主導權,營造開放的、互聯(lián)的、普惠的學術生態(tài)圈,促進學術交流。