陳銳鋒,譚春林
近年來(lái),論文首發(fā)以超短的發(fā)表時(shí)滯為最大優(yōu)點(diǎn)越來(lái)越受到業(yè)界的關(guān)注。對(duì)于成果首創(chuàng)性、熱點(diǎn)研究以及最新發(fā)現(xiàn),無(wú)論是作者還是期刊都希望以最短的時(shí)間將其在線首發(fā)。國(guó)際上作者在投稿時(shí),同時(shí)將稿件在預(yù)印本上發(fā)布[1-3];國(guó)內(nèi)也有不少期刊將已經(jīng)通過(guò)審稿的論文以網(wǎng)絡(luò)首發(fā)的形式刊出[4-6]。中國(guó)知網(wǎng)利用其獨(dú)特的網(wǎng)絡(luò)首發(fā)的正式數(shù)字出版優(yōu)勢(shì),大大縮短論文的出版時(shí)滯,對(duì)新型冠狀病毒肺炎(簡(jiǎn)稱“新冠肺炎”)專題研究起到助推的作用。利用大數(shù)據(jù)挖掘方法代替?zhèn)鹘y(tǒng)手動(dòng)獲取網(wǎng)絡(luò)文本的方法,可以較快速、較全面地對(duì)論文信息進(jìn)行挖掘,已成為期刊編輯從事學(xué)術(shù)研究的一種新途徑[7-8]。本研究基于知網(wǎng)首發(fā)平臺(tái)的新冠肺炎專題論文數(shù)據(jù)[4],利用Python 3.6編寫文本挖掘程序獲取有關(guān)數(shù)據(jù)[9],并在大數(shù)據(jù)視域下進(jìn)行文獻(xiàn)計(jì)量學(xué)分析,了解醫(yī)藥衛(wèi)生期刊界在疫情流行期間的貢獻(xiàn)以及知網(wǎng)首發(fā)的新冠肺炎專題中文論文的特征,以期為醫(yī)藥衛(wèi)生期刊乃至科技期刊的編輯出版工作提供參考。
以2020年1月21日至3月24日中國(guó)知網(wǎng)首發(fā)平臺(tái)上發(fā)表的新冠肺炎專題論文為研究對(duì)象。以“新型冠狀病毒”“肺炎”“病因”“病因?qū)W”“診斷”“治療”“療效”“護(hù)理”“預(yù)后”“預(yù)防”“防疫”為關(guān)鍵詞或主題,在知網(wǎng)首發(fā)平臺(tái)搜索其發(fā)表時(shí)間、下載量、期刊發(fā)文量等數(shù)據(jù)。研究對(duì)象納入標(biāo)準(zhǔn):1)知網(wǎng)首發(fā)新冠肺炎專題文獻(xiàn);2)刊登期刊為醫(yī)藥衛(wèi)生期刊;3)中文文獻(xiàn);4)發(fā)表時(shí)間2020年1月21日至3月24日。剔除標(biāo)準(zhǔn):1)涉及其他肺炎的文獻(xiàn);2)會(huì)議文獻(xiàn);3)外文文獻(xiàn);4)無(wú)法獲取全文的文獻(xiàn)。
1)論文信息文本提取算法。利用Selenium框架(一款用于測(cè)試Web應(yīng)用程序用戶界面的自動(dòng)化測(cè)試框架),模擬工方式自動(dòng)點(diǎn)擊網(wǎng)頁(yè)中的標(biāo)簽頁(yè)、鏈接或按鈕,可實(shí)現(xiàn)論文信息的自動(dòng)化挖掘[9]。本研究基于Selenium自動(dòng)化框架,利用Python的lxml庫(kù),處理目標(biāo)url網(wǎng)頁(yè)的表格中標(biāo)題、作者、發(fā)布時(shí)間、下載次數(shù)的XPath路徑,使用網(wǎng)頁(yè)標(biāo)簽的屬性(如class、id等)來(lái)定位[10],實(shí)現(xiàn)對(duì)目標(biāo)論文信息文本的抽取。論文信息文本提取算法的流程見圖1。
2)文獻(xiàn)計(jì)量學(xué)分析。本研究以上文獲取的數(shù)據(jù)為依據(jù),在大數(shù)據(jù)視域下,采用文獻(xiàn)計(jì)量學(xué)分析方法分析新冠肺炎專題首發(fā)的論文主題分布、論文增長(zhǎng)情況、下載熱度分析、核心載體分布、核心作者分布、第一作者機(jī)構(gòu)分布等情況。
3)科學(xué)文獻(xiàn)增長(zhǎng)模型。常用于描述科學(xué)文獻(xiàn)增長(zhǎng)的模型主要有:線性模型、普賴斯指數(shù)模型、修正冪模型、回歸模型[11]。其中回歸模型表明科學(xué)文獻(xiàn)數(shù)量在最初慢速增長(zhǎng)后,出現(xiàn)近似線性的快速增長(zhǎng)態(tài)勢(shì),在達(dá)到轉(zhuǎn)折點(diǎn)處,增長(zhǎng)速度下降,文獻(xiàn)數(shù)量在這期間達(dá)到最大值?;貧w模型公式如下:
式中,P(t)是在t時(shí)間段里累計(jì)出版的期刊論文數(shù)量,篇;P(t)max是t時(shí)間里文獻(xiàn)數(shù)量的最大值,篇;P(y0)是在t時(shí)間段里初始年的文獻(xiàn)數(shù)量,篇;a為常數(shù),表征持續(xù)增長(zhǎng)率。
評(píng)價(jià)文獻(xiàn)增長(zhǎng)最常用的指標(biāo)是(mean annual publication rate,MAPR)、倍增時(shí)間(doubling time,2T)[11],其公式分別為:
式中:Py、Py-1是分別在第y年以及上一年的論文累積數(shù)量,篇;Pt是在第t年的論文累積數(shù)量,篇;P1是初始年的論文累積數(shù)量,篇。
溫克勒[11]研究表明:目前關(guān)于文獻(xiàn)數(shù)量的時(shí)間函數(shù)只能描述某個(gè)時(shí)間段內(nèi)的文獻(xiàn)數(shù)量變化情況,而不能對(duì)較長(zhǎng)時(shí)間內(nèi)的文獻(xiàn)量變化進(jìn)行分析。鑒于專題首發(fā)論文統(tǒng)計(jì)時(shí)間的特殊性,本文基于Python挖掘程序獲取的專題首發(fā)的論文數(shù)據(jù),設(shè)置統(tǒng)計(jì)時(shí)間段t以星期(w)為單位,應(yīng)用公式(1)~(3)對(duì)專題首發(fā)論文的文獻(xiàn)增長(zhǎng)回歸模型、周均發(fā)文增長(zhǎng)率(mean weekly publication rate,MWPR)和倍增時(shí)間進(jìn)行擬合分析,以分析專題首發(fā)論文的增長(zhǎng)態(tài)勢(shì)。
利用Excel2013軟件建立數(shù)據(jù)庫(kù)并利用其統(tǒng)計(jì)功能進(jìn)行相關(guān)統(tǒng)計(jì)分析。計(jì)數(shù)資料采用構(gòu)成比進(jìn)行描述。
搜索到1 696篇新冠肺炎專題的知網(wǎng)首發(fā)中文論文,按文獻(xiàn)納入標(biāo)準(zhǔn)及剔除標(biāo)準(zhǔn),去除11篇外文文獻(xiàn),符合條件的文獻(xiàn)為1 685篇。從中共提取4 006條關(guān)鍵詞,利用Excel2013軟件去除重復(fù)后得到1 790條關(guān)鍵詞。首發(fā)論文的6個(gè)主題(治療、感染、防控、進(jìn)展、心理、護(hù)理)中,發(fā)文量依次為246、208、180、63、459、52篇。表明在抗疫初期,主要從對(duì)癥治療(搶救)新冠肺炎病人,感染途徑、預(yù)防控制措施等進(jìn)行探索研究。
設(shè)定知網(wǎng)首發(fā)平臺(tái)2020年1月20日為時(shí)間起點(diǎn)(0篇),以天為單位統(tǒng)計(jì)新冠肺炎專題中文論文每天新增和累積發(fā)文量。除起點(diǎn)外,有13天發(fā)文量為零的情況屬于節(jié)假日,前20天的當(dāng)天發(fā)文量增長(zhǎng)緩慢(平均2.4篇/天),第20天以后的每日新增發(fā)文量迅速增加。見圖2。從首發(fā)的第1篇論文開始統(tǒng)計(jì)出各期刊的單刊發(fā)文量,根據(jù)公式(1)對(duì)每周發(fā)文量進(jìn)行回歸模型擬合,繪制出單刊、按周期數(shù)統(tǒng)計(jì)每周累積發(fā)文量的擬合曲線,以了解不同專題論文的累積發(fā)文量隨時(shí)間變化情況(見圖3)。結(jié)果顯示,擬合曲線與實(shí)際發(fā)文量曲線吻合(持續(xù)增長(zhǎng)率a=0.764 2,R2=0.996 7)。近10周來(lái),MWPR=107%,2T=1.028周。其增長(zhǎng)特征表現(xiàn)為初始階段緩慢增長(zhǎng),在中期迅速增長(zhǎng),在末期增長(zhǎng)趨緩。說(shuō)明新冠肺炎專題中文論文知網(wǎng)首發(fā)的發(fā)文量的增長(zhǎng)變化符合大數(shù)據(jù)指數(shù)增長(zhǎng)的特征[12],在一定程度上反映公眾對(duì)新冠肺炎疫情的關(guān)注度。
圖2 知網(wǎng)專題論文的增長(zhǎng)趨勢(shì)
圖3 專題論文累積發(fā)文量隨時(shí)間變化回歸模型擬合曲線及倍增時(shí)間曲線
下載熱度反映某一時(shí)期某一領(lǐng)域?qū)δ呈录难芯繜狳c(diǎn)。為研究每篇新冠肺炎專題首發(fā)論文的下載熱度,分別計(jì)算1 685篇論文中每篇論文的發(fā)表天數(shù)(即統(tǒng)計(jì)日期與發(fā)表日期之差),進(jìn)而計(jì)算日均下載量(即總下載量與發(fā)表天數(shù)之商),根據(jù)日均下載量從高到低排序的前20名(TOP20)論文的發(fā)表天數(shù)以及下載情況(圖4)。TOP20的論文日均下載量都在140次以上。日均下載量排名第一的是《南方醫(yī)科大學(xué)學(xué)報(bào)》近期(發(fā)表天數(shù)為25天)發(fā)表的論文“新型冠狀病毒肺炎疫情下大學(xué)生心理健康狀況及影響因素分析”,其下載量達(dá)到8 821次,日均下載量達(dá)到352.8次/天;排名第二的是《山東大學(xué)學(xué)報(bào)(醫(yī)學(xué)版)》近期(發(fā)表天數(shù)為23天)發(fā)表的論文“新型冠狀病毒肺炎研究進(jìn)展述評(píng)”,其下載量達(dá)到8 034次,日均下載量達(dá)到349.3次/天;排名第三的是《生物信息學(xué)》(首發(fā)平臺(tái)的第一篇,發(fā)表天數(shù)70天)發(fā)表的論文“2019新型冠狀病毒基因組的生物信息學(xué)分析”,其下載量達(dá)到21 651次,日均下載量達(dá)到309.3次/天??傮w上,專題首發(fā)論文的下載量普遍較高,說(shuō)明熱門專題首發(fā)論文具有很高的社會(huì)影響力[13]。
圖4 日均下載量排名TOP20論文的發(fā)表天數(shù)、總下載量及日均下載量
對(duì)1 685篇新冠肺炎專題首發(fā)論文的來(lái)源期刊進(jìn)行分類統(tǒng)計(jì),根據(jù)英國(guó)文獻(xiàn)學(xué)家布拉德福定律[13],將發(fā)表新冠肺炎專題首發(fā)文獻(xiàn)的272種相關(guān)期刊分為3個(gè)區(qū);核心區(qū)、相關(guān)區(qū)、離散區(qū),發(fā)表論文25篇及以上的期刊定為核心區(qū);5~24篇的定為相關(guān)區(qū);少于5篇的定為離散區(qū)。見表1。新冠肺炎專題文獻(xiàn)的核心期刊分布,發(fā)表新冠肺炎專題文獻(xiàn)位于核心區(qū)有13種期刊,發(fā)表新冠肺炎專題首發(fā)中文論文為26~54篇,共發(fā)表文獻(xiàn)450篇,占總文獻(xiàn)數(shù)的26.71%。這些核心期刊在疫情初期探索治療措施,傳播防治經(jīng)驗(yàn)發(fā)揮強(qiáng)有力的作用。
表1 2020年新冠肺炎專題研究知網(wǎng)首發(fā)文獻(xiàn)的期刊分期情況
根據(jù)普賴斯核心作者計(jì)算公式N=0.749(nmax)1/2(式中N為成為核心作者應(yīng)發(fā)文的最少篇數(shù);nmax為發(fā)文最高作者的論文數(shù))進(jìn)行新冠肺炎專題研究的核心作者群分析[14]。假設(shè)本研究中發(fā)文最高作者的論文數(shù)為4篇,則N=0.749×41/2=1.498篇,取最大整數(shù)為2篇,即2篇以上作者視為新冠肺炎專題研究的核心作者。實(shí)際上本研究所搜索到的1 685篇2020年知網(wǎng)首發(fā)新冠肺炎文獻(xiàn)中,發(fā)文量2篇以上的第一作者只有6人(見表2)。占第一作者總?cè)藬?shù)的0.36%,發(fā)表文獻(xiàn)共計(jì)14篇,僅占總文獻(xiàn)量的0.83%,遠(yuǎn)低于普賴斯定律的規(guī)定值50.00%[14]。說(shuō)明在本研究檢索時(shí)間范圍內(nèi),國(guó)內(nèi)有關(guān)新冠肺炎研究領(lǐng)域的核心作者群并未形成??赡芤?yàn)橐咔槌跗?,包括專家學(xué)者、領(lǐng)軍人物在內(nèi)的核心作者專注于病因?qū)W的探索研究、治療手段的醞釀階段,尚未總結(jié)出行之有效的治療經(jīng)驗(yàn),也不排除有些高質(zhì)量論文投與國(guó)外刊物。
1 685篇2020年知網(wǎng)首發(fā)新冠肺炎文獻(xiàn)中,署名1位作者的為114篇,2位作者及以上的共1 571篇,作者合作率為93.23%,說(shuō)明大多數(shù)文獻(xiàn)的研究都是以團(tuán)隊(duì)合作方式進(jìn)行的。
臨床醫(yī)院1 052個(gè)、醫(yī)學(xué)院校研究所(含研究中心、學(xué)會(huì)、醫(yī)藥公司)915個(gè)、中醫(yī)院(含中西醫(yī)結(jié)合醫(yī)院)46個(gè),解放軍醫(yī)療機(jī)構(gòu)(含部隊(duì)醫(yī)學(xué)院、醫(yī)院、疾控中心)140個(gè)、疾病預(yù)防控制中心(含職業(yè)病機(jī)構(gòu))61個(gè)、新冠肺炎診治專家組31個(gè)。說(shuō)明在這次戰(zhàn)疫中,醫(yī)學(xué)相關(guān)學(xué)科機(jī)構(gòu)團(tuán)結(jié)一致,各司其職。專家學(xué)者、領(lǐng)軍人物組成的專家團(tuán)隊(duì)親臨第一線,深入研究病情,提出防治方案,編寫有關(guān)專家共識(shí),為抗疫戰(zhàn)線提供強(qiáng)有力的指導(dǎo)。包括部隊(duì)醫(yī)院在內(nèi)的臨床醫(yī)院,奮戰(zhàn)在抗疫第一線;醫(yī)學(xué)院校研究所在病因?qū)W研究,預(yù)防措施的研究等方面做出應(yīng)有的貢獻(xiàn);疾控中心主要致力于流行病學(xué)調(diào)查、預(yù)防措施;職防機(jī)構(gòu)則負(fù)責(zé)流行病學(xué)調(diào)查、抗疫醫(yī)務(wù)人員職業(yè)接觸感染新冠病毒的職業(yè)防護(hù)(納入《職業(yè)病目錄》)研究。
在知網(wǎng)專題首發(fā)平臺(tái)上,出現(xiàn)“瑞德西韋”等藥物的臨床應(yīng)用的相近論文有10篇;以不同省份或地區(qū)“流行病學(xué)特征”為研究?jī)?nèi)容的相近論文有16篇;以SEIR等模型對(duì)不同省份或地區(qū)的疫情進(jìn)行計(jì)算機(jī)模擬及趨勢(shì)預(yù)測(cè)為內(nèi)容的論文有16篇;對(duì)新冠肺炎相關(guān)研究進(jìn)展的綜述論文有37篇。這些論文均存在研究范圍趨同、研究方法趨同、解決對(duì)策趨同等同質(zhì)化現(xiàn)象[15-16],這種具有內(nèi)容同質(zhì)化論文不僅發(fā)表時(shí)間相近,而且還在不斷出現(xiàn)。對(duì)于專題熱點(diǎn)論文,同質(zhì)化是不可避免的,這也符合大數(shù)據(jù)信息和噪聲并存的特點(diǎn)[12]。但是內(nèi)容的同質(zhì)化論文數(shù)量不能超過(guò)一定限度[17]。在組稿約稿時(shí)需要進(jìn)行查新。知網(wǎng)首發(fā)論文可被認(rèn)定為正式出版,因此首發(fā)論文的編校質(zhì)量需要引起重視。
以上通過(guò)大數(shù)據(jù)的抓取,在大數(shù)據(jù)視域下分析面對(duì)突如其來(lái)的新冠肺炎疫情大流行情況,醫(yī)學(xué)期刊界及時(shí)報(bào)道疫情的相關(guān)研究進(jìn)展,為抗疫戰(zhàn)士譜寫一首首英雄贊歌,結(jié)果顯示,新冠肺炎專題論文知網(wǎng)首發(fā)的發(fā)文量的增長(zhǎng)變化符合大數(shù)據(jù)指數(shù)增長(zhǎng)的特征,在一定程度上反映公眾對(duì)新冠肺炎疫情的關(guān)注度。做好個(gè)人防護(hù)、對(duì)癥治療是控制疫情的首要措施。由于黨中央的英明領(lǐng)導(dǎo),防治措施得當(dāng),如今我國(guó)的疫情基本得到控制。然而,面對(duì)全球疫情全面爆發(fā)當(dāng)今,我國(guó)科技期刊編輯又該如何做呢?以上分析,給我們的啟示有如下幾點(diǎn)。
表2 新冠肺炎專題首發(fā)文獻(xiàn)2篇以上的第一作者發(fā)文情況
從大數(shù)據(jù)視域看,人類是生活在地球村的生命共同體,生死休戚相關(guān)。隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和云計(jì)算技術(shù)的成熟和發(fā)展,全球已進(jìn)入醫(yī)療衛(wèi)生服務(wù)大數(shù)據(jù)時(shí)代[12],為疫情的全球監(jiān)測(cè)、專家遠(yuǎn)程會(huì)診、診療提供技術(shù)支撐。因此。可通過(guò)大數(shù)據(jù)分析、對(duì)疫情進(jìn)行科學(xué)分析與預(yù)測(cè),總結(jié)推廣我國(guó)的成功經(jīng)驗(yàn),結(jié)合國(guó)外數(shù)據(jù),盡快找出行之有效的治療方案,團(tuán)結(jié)一切可以團(tuán)結(jié)的力量,戰(zhàn)勝人類的共同敵人。
從論文增長(zhǎng)情況分析可知,公眾對(duì)突發(fā)性熱點(diǎn)事件高度關(guān)注。對(duì)于醫(yī)藥衛(wèi)生期刊發(fā)展而言,這種熱點(diǎn)首發(fā)論文無(wú)疑會(huì)提高期刊的知名度、公眾認(rèn)可度以及影響力。作為醫(yī)藥衛(wèi)生期刊編輯,在突發(fā)性熱點(diǎn)事件中應(yīng)該有所擔(dān)當(dāng),應(yīng)保持清醒的頭腦和敏銳的嗅覺,跟蹤社會(huì)熱點(diǎn),組織高質(zhì)量的學(xué)術(shù)論文并及時(shí)報(bào)道,這對(duì)有效提高期刊影響力具有重要意義。一方面,面對(duì)災(zāi)難事件不能束手無(wú)策、思想保守而將優(yōu)秀稿件拒之門外;另一方面,要積極應(yīng)對(duì)突發(fā)性熱點(diǎn)事件,對(duì)相關(guān)的科學(xué)問題進(jìn)行策劃,主動(dòng)出擊,第一時(shí)間向取得重大成果的科研團(tuán)隊(duì)組約優(yōu)秀的稿件。
目前,大數(shù)據(jù)影響的深度廣度不斷擴(kuò)大,由于其蘊(yùn)含了各學(xué)科的融合與貫通,導(dǎo)致學(xué)科的邊界已重疊和模糊[12],對(duì)于新冠肺炎疫情這一突發(fā)性熱點(diǎn)事件,醫(yī)藥衛(wèi)生工作或相關(guān)科研活動(dòng)是抗疫主戰(zhàn)場(chǎng),而在主戰(zhàn)場(chǎng)的外圍涉及防控措施實(shí)施與管理的方方面面。在國(guó)內(nèi)疫情取得決定性勝利的當(dāng)前,應(yīng)及時(shí)發(fā)表各領(lǐng)域?qū)氋F的實(shí)踐經(jīng)驗(yàn)和科研成果,為我國(guó)取得全面類戰(zhàn)勝病毒疫情做出重要貢獻(xiàn)。大數(shù)據(jù)時(shí)代呼喚科技期刊融合發(fā)展。因此,在抗擊新冠肺炎這一非常時(shí)期,可否考慮科技期刊的融合發(fā)展呢?比如醫(yī)藥衛(wèi)生期刊與計(jì)算機(jī)類期刊、物理化學(xué)類期刊間的融合,或各類醫(yī)學(xué)期刊(病毒類、遺傳工程、基因工程、臨床醫(yī)學(xué)等)間的融合,以盡早控制疫情。
“內(nèi)容為王,質(zhì)量至上”是期刊的生命力。對(duì)于期刊發(fā)展而言,更要注重?zé)狳c(diǎn)論文的學(xué)術(shù)質(zhì)量,不能因搶時(shí)間發(fā)表熱點(diǎn)而降低稿件的質(zhì)量標(biāo)準(zhǔn)。在應(yīng)對(duì)突發(fā)性熱點(diǎn)事件時(shí),科技期刊編輯可以積極參與到科研團(tuán)隊(duì)中去,積極協(xié)助作者將重大成果形成論文,及時(shí)為作者提供信息咨詢和檢索查新,避免相近或相似的同質(zhì)化研究論文的發(fā)表。在知網(wǎng)首發(fā)的1 685篇專題論文中,不乏優(yōu)秀的科研論文,其中有相當(dāng)部分論文都是在期刊編輯的精心策劃和積極參與下與作者團(tuán)隊(duì)共同創(chuàng)作的作品。