陶文倩 潘云濤 王海燕
關鍵詞:高被引論文;主題演化;動態(tài)情境;模式探索;影響力
科技論文是科學知識、科學問題的重要載體之一,是科研人員活動的一種重要產出成果。高被引論文對科學知識發(fā)展、科研活動有顯著影響作用,被學術界和同行高度關注、重視以及認可,是科技創(chuàng)新活動向前更迭和發(fā)展的源泉與基石。
國家的科技政策以及科研環(huán)境的變化對學術論文影響力的提升提出了更高的要求。我國《國家“十三五”時期文化發(fā)展改革規(guī)劃綱要》指出“增強中國國際話語權”。學術話語權是國家話語權的重要組成部分,是國家軟實力和國家綜合實力的重要標志。2020年12月15日,教育部等三部委聯(lián)合印發(fā)《“雙一流”建設成效評價辦法(試行)》,強調“要突出原始創(chuàng)新與重大突破,不唯數(shù)量、不唯論文、不唯獎項,實行代表作評價,強調成果的創(chuàng)新質量與貢獻”,以及“提高科技創(chuàng)新水平、解決國家關鍵技術‘卡脖子問題、推進科技評價改革的主要舉措”。由此可見,提升我國學術論文影響力與學術話語權仍是我國科技評價研究的重要命題之一。
程剛從高被引論文的內容方面闡述高被引論文的內涵,認為高被引論文一般具有一定的理論深度與理論突破,抓住了本學科研究的關鍵性及本領域普遍關心的問題,對工作實踐有較大的指導意義在理論上有相對的認識超前性。Tahamtan I等將高被引論文影響因素總結為三大類:第一,論文層面因素:質量、主題新穎性和關注度、領域和研究主題特征、方法論、文獻類型、研究設計、結果和討論、論文中的數(shù)據(jù)和附錄、標題摘要特征、參考文獻特征、文獻長度、文獻年齡、早期引用情況、文獻的可訪問性;第二,期刊層面因素:期刊影響因子、語言、范圍和出版形式;第三,作者層面因素:作者數(shù)量、作者聲譽、作者學術排名、自引、作者國家(地區(qū))、作者的國際和國內合作情況、作者生產力、作者性別年齡種族、組織特征和資金等。針對主題相關的特征研究中,Zhang X等在4個不同學科中訓練神經(jīng)網(wǎng)絡模型,對論文被引量使用各種因素建模,發(fā)現(xiàn)各種因素對于論文被引的影響在不同主題下分布差異顯著。Yan R等則使用主題流行排名、主題多樣性表征主題特征,并使用其預測高被引論文得到了較好的效果。
高被引論文的模式與規(guī)律研究一種是從引文現(xiàn)象或者科學界現(xiàn)象出發(fā),發(fā)現(xiàn)重要的模式。RaanA首次命名了一種現(xiàn)象——睡美人模式,即高被引論文中的延遲承認現(xiàn)象。Ye F等將立即承認的高被引論文稱為“時髦女”或者“曇花一現(xiàn)”,并為“時髦女”和“睡美人”建立了統(tǒng)一的測度方式。Zeng C等認為,“睡美人”和“時髦女”都是純粹的統(tǒng)計模式,并沒有揭示科學內容。因此,他將科學發(fā)現(xiàn)與科學計量學結合,發(fā)現(xiàn)了一種新模式,即科學突破中的“黑天鵝”與“白天鵝”,分別比喻突破性發(fā)現(xiàn)的出版物和高被引論文,當“白天鵝”遇到“黑天鵝”會發(fā)生重要的科學進步。另一種是根據(jù)引文曲線、引文擴散、跨學科特征等對高被引論文進行模式總結與分類。Avramescu A總結大量數(shù)據(jù)提出了高、中、低峰值3種經(jīng)典引文曲線、持續(xù)增長的“天才型”曲線以及“曇花一現(xiàn)”型曲線。韓旭等歸納總結出9種引文擴散演變模式。Chen S等則研究了高被引論文的跨學科模式,將其分為跨專業(yè)和跨學科兩類,并研究了此模式在不同學科的分布規(guī)律。
在對高被引論文影響力的形成規(guī)律的探索中,已有一部分學者認識到高被引論文的影響力的形成過程是一個動態(tài)的、復雜的、系統(tǒng)的過程,而不僅僅是某些靜態(tài)的影響因素的作用或者組合作用。Cronin B提出引文的發(fā)生是一種科學社會化下的一種動態(tài)進程。閔超等從引文擴散角度強調了高被引論文是科學知識在科學系統(tǒng)內的傳遞與演化。Bu Y等則通過靜態(tài)合作特征的時序變化,獲得一個動態(tài)合作特征——論文合作關系的持續(xù)性與穩(wěn)定性,研究其對論文影響力的影響,從而幫助研究人員決定在一段時間內合作關系投入的策略。
綜上所述,在當前的背景下,我國科技論文仍需要進一步提升學術影響力與學術話語權,科技論文評價也需要更加科學合理,同時要有能力面向不同學術評價目的、不同學術評價任務實現(xiàn)更精準的評價。這些都需要建立在對動態(tài)、復雜的高被引論文影響力形成機制進行探索與認識的基礎上,而以往對高被引論文的特征和影響因素的相關研究,只是統(tǒng)計兩個時間端點的靜態(tài)數(shù)據(jù)之間的相關關系:出版時的靜態(tài)特征(比如合作者數(shù)量等)與最終影響力結果,顯然已無法滿足進一步提升學術論文影響力和更科學合理的科技論文評價的要求。并且以往的模式研究較分散,往往只是針對某個現(xiàn)象或僅從被引頻次本身進行研究。
因此,本文選取高被引論文作為研究對象,選取過程中“動態(tài)情境”的研究視角,基于主題演化維度對高被引論文影響力的形成模式進行探索,促進對單篇高被引論文影響力形成模式與規(guī)律的科學認識,有助于找到以及提前預判有潛力的高影響力科學成果,促進學術論文影響力評價理論體系的完善。此外,為我國科技論文、科技期刊進一步提升影響力以及提高學術話語權提供一定的借鑒。
1概念界定
1.1高被引論文影響力的形成
學術論文影響力是指論文在傳播過程中因自身學術價值獲得的關注度。本文主要通過引文來體現(xiàn)論文的影響力。與高被引論文影響力的形成相關的表述有:高被引論文的產出、高被引論文的生產、高被引論文(影響力)的產生、高被引論文(影響力)的形成、高被引論文影響力的擴散。其中,“產出”“生產”的分析對象側重于個人、機構等知識生產主體,分析環(huán)節(jié)側重于與該論文有關的科學研究活動的開始到結束:從創(chuàng)意、啟動,到研究、結束、發(fā)布和評價。其中,“產生”“形成”的分析對象側重于高被引論文,分析環(huán)節(jié)則相對寬泛,涉及高被引論文的生產、出版、影響力的累積?!皵U散”的分析對象則可能是高被引論文也可能是科學知識,分析環(huán)節(jié)針對論文發(fā)表后的引文在科學系統(tǒng)中的分布與演進情況。
本文中“高被引論文影響力的形成”的過程指的是高被引論文所處的動態(tài)情境,涵蓋的是一篇高被引論文發(fā)表前、發(fā)表時、發(fā)表后影響力累積的全過程動態(tài)情境。比如從主題演化維度分析一篇高被引論文影響力形成過程時,使用的數(shù)據(jù)信息囊括主題演化在該篇高被引論文發(fā)表前的歷史狀態(tài)、發(fā)表時的狀態(tài)、發(fā)表后影響力演化階段的狀態(tài)的整個過程。
1.2動態(tài)情境
1994年,Schilit B等首次提出了“情境”概念,最早指“位置、人和物體周圍的標識與這些物體的變化”。Schmidt A等認為,情境描述主體所處的態(tài)勢和環(huán)境。之后情境的概念被廣泛運用于心理學、計算機與信息技術領域。在計算機與信息技術領域,基于描述性視角,情境是一種信息,是一種可以觀測和采集的“適當”屬性的集合:基于交互性視角,情境則是一種關聯(lián),情境具有動態(tài)性,情境和活動的關聯(lián)會循環(huán)產生,活動引發(fā)了情境的產生,而情境反過來能影響活動。在心理學領域,情境是指影響事物發(fā)生或對機體產生影響的環(huán)境條件。情境可分為靜態(tài)情境和動態(tài)情境,動態(tài)情境由一系列連續(xù)的靜態(tài)情境構成。
高被引論文的影響力的形成過程是一個處于動態(tài)背景中的復雜、系統(tǒng)的過程,不是孤立縹緲的,也不處于靜態(tài)“環(huán)境”之中,而是處于一種動態(tài)的“環(huán)境”之中,比如領域內主題演化的態(tài)勢與環(huán)境、團隊合作演化的態(tài)勢與環(huán)境等。而這種過程在以往的相關研究中沒有明確的概念予以描述、對應,并且在以往對高被引論文的特征和影響因素的相關研究中是被忽略的。而本文發(fā)現(xiàn)該過程與“動態(tài)情境”概念有許多共通之處:第一,該過程體現(xiàn)了影響高被引論文影響力形成的環(huán)境條件。第二,高被引論文影響力形成過程的“動態(tài)環(huán)境”也是一種信息的集合,可以通過觀測和采集適當?shù)募闲畔砻枋觥?茖W計量學領域在這方面有深厚積累,比如描述、刻畫、計量主題、合作等層面的信息。第三,高被引論文影響力形成過程的“動態(tài)環(huán)境”也是一種關聯(lián)的集合,比如不同維度的影響因素在時序上存在關聯(lián)性。
因此,本研究將“動態(tài)情境”的概念引入,在本研究中定義為對高被引論文影響力形成有關的一系列各維度影響因素在時序上的動態(tài)集合體。
2數(shù)據(jù)來源與動態(tài)情境構建方法
2.1數(shù)據(jù)來源
本文以基因編輯領域為例探索高被引論文影響力形成的模式及規(guī)律。選擇該領域是考慮到該領域是近年來最受關注、最活躍的研究領域之一,領域的科學家屢次上榜Nature年度影響力十大科學家,產生了許多具有影響力的高被引論文。此外,這是一個新興學科領域,知識更迭快,具有較顯著和復雜的主題演化的動態(tài)情境。本文以Web of Science核心合集作為數(shù)據(jù)來源,檢索基因編輯領域所有出版物記錄,不限制出版年份。使用的檢索式如下:該檢索式是圍繞核心關鍵詞“基因編輯”以及主要的核心技術(Meganuclease、ZFN、TALEN、CRISPR)進行編寫的。檢索日期為2022年6月8日,最終得到檢索記錄34992條。采集到論文數(shù)據(jù)后,遴選了基因編輯領域在總被引前1%的高被引論文,得到349篇。
2.2基于主題演化維度的動態(tài)情境構建方法
科學知識圖譜方向的研究已經(jīng)積累了許多如何挖掘主題、如何展示主題分布情況與關聯(lián)情況等相關的技術方法,這類方法適合對特定領域的主題發(fā)展趨勢進行詳細解讀,但注重詳細過程所展示的信息過于龐雜、分散,不便于之后對高被引論文影響力形成進行模式的提取。因此,本文認為可以將主題演化維度的動態(tài)情境根據(jù)粒度由細到粗分為3個層次進行構建。從第一層次到第二層次再到第三層次,是將主題演化情況的特點進行更高層次的概括。
第一層次即為主題演化詳細過程。在動態(tài)情境的第一層次的構建中,本文使用基于時間切片和靜態(tài)主題模型方法相結合的主題演化可視化方法。第二層次為主題局部演化關系。在動態(tài)情境的第二層次的構建中,本文結合Palla G等定義的復雜網(wǎng)絡演化類型以及關鵬等、金心怡、朱光等、熊文靚等根據(jù)知識進化理論和生命周期理論所概括出的主題演化關系,確定新生、消亡、繼承、交叉、分裂5種主題局部演化關系類型及相應的判定方法,對第一層次的主題演化過程進行進一步概括。第三層次為主題演化路徑。在動態(tài)情境的第三層次的構建中,本文提出基于主題局部演化關系類型分布的主題演化路徑概括方法,對第二層次的主題演化過程再進行進一步概括。
2.2.1主題演化動態(tài)情境的第一層次構建
本文使用基于時間切片和靜態(tài)主題模型方法相結合的主題演化可視化方法,即分時間窗口進行LDA主題挖掘,然后基于主題間的余弦相似度將相鄰日寸間片的主題進行關聯(lián),最后得到可視化結果。詳細步驟如下:
1)主題挖掘。結合領域每年發(fā)文量的變化,適當劃分時間窗口。然后對訓練數(shù)據(jù)集進行詞向量化,利用Coherence指標確定最優(yōu)主題數(shù)目,在每個時間窗口下建立LDA主題模型,并輸出主題一詞匯概率分布和文檔一主題概率分布。
2)主題關聯(lián)。通過計算主題間的余弦相似度來表征相鄰時間窗的主題相似度,并與設定的閾值比較,從而關聯(lián)主題。余弦相似度(Cosin Similari-ty,CosSim)計算公式如式(1)所示:
在得到相鄰時間窗下的主題兩兩間的余弦相似度后,將余弦相似度大于所設定閾值的記為一對存在前向和后向關系的主題對,進行主題關聯(lián)。
3)主題演化可視化。使用桑基圖來可視化主題的演化過程。在?;鶊D中,矩形代表主題,兩個時間窗口的矩形之間的曲線塊表示演化過程。
2.2.2主題演化動態(tài)情境的第二層次構建
主題演化動態(tài)情境的第二層次構建是將主題局部演化關系概括為5種類型:新生、消亡、繼承、交叉、分裂,如圖1所示,判定條件如表1所示。在主題關聯(lián)時,相鄰時間片下余弦相似度大于所設定閾值的記為一對存在前向和后向關系的主題對。因此,表1中前向主題是指一對關聯(lián)主題對中前時間片的主題,后向主題是指一對關聯(lián)主題對中后時間片的主題。
2.2.3主題演化動態(tài)情境的第三層次構建
第三層次為主題演化路徑類型,根據(jù)主題演化路徑的跨越時長、5種主題演化局部關系類型的占比,為主題演化路徑打上特征標簽,從而實現(xiàn)分類主題演化路徑類型,如表2所示。具體判別標準可能需要根據(jù)學科領域的具體情況設定、調整。
最終得到3個層次的動態(tài)情境,在后續(xù)的高被引論文影響力形成模式的分析中,第三層次可以幫助模式提取,第一層次、第二層次可以輔助進行深入分析。
3研究結果
3.1動態(tài)情境構建結果
1)第一、第二層次動態(tài)情境。本文基于文獻增長理論,結合文獻數(shù)量分布,將文獻時間跨度劃分為初步探索期1991-2003年,穩(wěn)定發(fā)展期2004-2013年,快速發(fā)展期2014-2022年,如圖2所示。劃分依據(jù)為每個階段文獻數(shù)量:1991-2003年文獻數(shù)量較少,表明該階段仍處于探索期;2004-2013年文獻數(shù)量呈現(xiàn)一定的增長趨勢,表明基因編輯領域處于穩(wěn)定發(fā)展階段;2014-2022年增長率很大,表明處于快速增長階段(2022年數(shù)據(jù)只到6月)。在此基礎上,考慮文獻數(shù)量分布的均衡性和主題識別的語料需求,將以上3個區(qū)間劃分為8個時間窗口:1992-2003年、2004-2007年.2008-2011年、2012-2013年、2014-2015年、2016-2017年、2018-2019年、2020-2022年。
以文獻標題和摘要為分析語料,使用NaturalLanguage Toolkit(NLTK工具包)進行去除停用詞、詞干化處理、英文分詞等操作。對每個時間窗口進行LDA主題提取,并使用Coherence指標選取主題數(shù)量。最終得到主題提取結果,如表3所示。
表3中主題標簽是根據(jù)詞向量情況,取高頻詞進行組合,結合領域內權威期刊綜述文獻以及書籍進行人工篩選判斷得到。根據(jù)基因編輯領域綜述文獻顯示,基因編輯領域公認有三代基因編輯技術,第一代為ZFN(鋅指核酸酶技術),第二代為TALEN,第三代為CRISPR。其中,2013年CRISPR首次被證明可以高效實現(xiàn)基因編輯,之后被廣泛應用于醫(yī)學、植物學等學科,極大促進了基因治療、藥物研究等相關領域的發(fā)展??梢园l(fā)現(xiàn),提取的主題結果與上述情況比較符合。
接下來通過計算主題間的余弦相似度來表征相鄰時間窗的主題相似度,并與設定的閾值0.5比較,從而關聯(lián)主題,并判定領域主題演化類型。最后使用?;鶊D進行可視化,得到結果如圖3所示。
圖3是基因編輯領域主題演化的動態(tài)情境構建結果?;蚓庉嬵I域的研究內容主要分為三大塊:①號區(qū)域:各種基礎性理論性的研究問題,比如內切酶、蛋白質、基因組學等;②號區(qū)域:基因編輯領域的核心的技術方法問題,比如基因編輯的靶向、定位、斷裂等;③號區(qū)域:基因編輯研究較為成熟后的對基因表達的控制和基因編輯技術的應用(人類疾病的基因治療與藥物)相關的研究。
然后對每個主題局部演化關系進行判定,獲得第二層次動態(tài)情境,比如T1-0到T2-0與T2-3即為分裂。
2)第三層次動態(tài)情境。在第二層次的主題局部演化關系判定上,歸納出三大顯著的主題演化路徑類型以及無主題演化關系的孤立路徑。主題狀態(tài)分為穩(wěn)定狀態(tài)和非穩(wěn)定狀態(tài),穩(wěn)定狀態(tài)是指不改變領域內研究主題格局的演化關系,表現(xiàn)為繼承關系。非穩(wěn)定狀態(tài)是指改變領域內研究主題格局的演化關系,包括新生、消亡、分裂、交叉。鑒于所選的時間窗口比較短,且對于一般的學科發(fā)展來說穩(wěn)定發(fā)展才是常態(tài),因此認為“繼承”關系占比50%以上為繼承發(fā)展型,若非穩(wěn)定關系占比50%以上則不認為是繼承發(fā)展型。之后觀察非穩(wěn)定狀態(tài)中哪種占比更大來描述主題演化路徑特征。根據(jù)以上原則,對基因編輯領域內的主題演化路徑進行分類,分類說明如表4所示,分類可視化如圖4所示。
3.2模式提取
通過觀察高被引論文及其引文在第三層次動態(tài)情境的分布情況,發(fā)現(xiàn)其呈現(xiàn)出較明顯的集中性。一是高被引論文主題與第三層次動態(tài)情境的關系。經(jīng)統(tǒng)計發(fā)現(xiàn)可以劃分為以下幾類:高被引論文選題位于長期繼承發(fā)展型主題演化路徑(較大比例,59.74%)、選題位于長期交叉分裂混合型主題演化路徑(較小比例,29.94%)、選題位于新生分裂主導型主題演化路徑(較小比例8.60%)、選題位于孤立型主題演化路徑(極低比例,1.72%)。二是高被引論文影響力演化與第三層次動態(tài)情境的關系。觀察的方式是以主題演化的動態(tài)情境為底圖,畫出高被引論文后續(xù)引文的動態(tài)分布。經(jīng)過觀察總結,發(fā)現(xiàn)引文的演化主要可以包括兩種表現(xiàn)形式,一種是于本身主題演化路徑內繼續(xù)演化,另一種是能夠演化到另外的主題演化路徑,論文演化到另外的主題演化路徑會需要一定時間,略滯后于在本身主題演化路徑的影響力擴散。
在以上觀察的基礎上,本文結合高被引論文選題所切合的路徑類型與高被引論文引文分布最多的路徑類型兩個維度,計算高被引論文選題所屬主題演化路徑類型與引文所屬主題演化路徑類型共現(xiàn)概率,從而提取模式。共現(xiàn)熱力圖如圖5所示。
根據(jù)共現(xiàn)結果,總結出主要模式(模式1)、次要模式(模式2和模式3)和特殊模式(模式4、模式5、模式6),如表5所示。
模式1在高被引論文中分布最為顯著(59%),模式1的特征是選題切合長期繼承發(fā)展型主題路徑,影響力以繼續(xù)在本長期繼承發(fā)展型主題路徑演化為主,以下簡稱為繼承一繼承模式。其次是模式2和模式3。模式2的特征是選題切合長期交叉一分裂混合型主題路徑,以跨徑影響長期繼承發(fā)展型主題路徑為主,以下簡稱混合一繼承模式。模式3的特征是選題切合長期交叉一分裂混合型主題路徑,影響力以繼續(xù)在本長期交叉一分裂混合型主題路徑演化為主,以下簡稱混合一混合模式。
3.3模式分析
1)繼承一繼承模式。繼承一繼承模式代表的是高被引論文的影響力形成的全過程都處于一個長期繼承發(fā)展的動態(tài)情境之中,這種模式是高被引論文最為顯著的模式。長期繼承發(fā)展型的主題路徑在第二層次上表現(xiàn)為跨越時間段長且主題局部演化關系以穩(wěn)定的繼承關系為主,這說明該路徑的研究主題始終保持一個較穩(wěn)定的核心,延續(xù)性極強,研究趨勢也穩(wěn)定發(fā)展,不斷迭新遞進。結合第一層次的主題情況,發(fā)現(xiàn)基因編輯領域的長期繼承發(fā)展主題路徑始終圍繞著基因編輯領域的核心技術方法問題,即基因編輯技術中的靶向、定位、斷裂等問題,符合第二層次情況。因此,繼承一繼承模式的內涵是高被引論文影響力的形成需要選題圍繞領域的核心問題,并且在該問題上實現(xiàn)迭新與遞進性突破從而在本路徑內可累積大量影響力。
以張鋒的高被引論文為例。張鋒是基因編輯領域頂尖科學家之一,是美國麻省理工和哈佛的伯德研究所的生物化學家、神經(jīng)科學家,曾獲有諾獎風向標之稱的蓋爾德納獎、阿爾伯尼獎。張鋒有21篇高被引論文符合繼承一繼承模式,其主題分布如圖6所示。
從圖6中可以看出,張鋒在長期繼承發(fā)展型主題路徑上連續(xù)、較穩(wěn)定產出了許多高被引論文。從T4-1到T7-2,論文的主題依次為“細胞內基因靶向、位點與TALEN”“基因靶向、定位與CRISPR系統(tǒng)”“CRISPR編輯系統(tǒng)、工具與使用”“使用CRISPR的基因編輯及基因工程”??梢钥闯鏊难芯績热荻际菄@基因編輯中的靶向、定位的方法和工具,但又有研究進展的遞進——從TALEN系統(tǒng)到CRISPR系統(tǒng),再逐漸完善工具方法形成可用于基因工程的工具體系。因此,隨著學者在該主題路徑的研究的不斷投入,積累專業(yè)知識與深度,能夠對該主題做出獨特的貢獻或者實現(xiàn)突破,高被引論文產出的連續(xù)性和繼承性就比較明顯,也容易在本路徑內獲得高影響力。
2)混合一繼承模式。混合一繼承模式代表的是高被引論文的選題處于一個長期交叉一分裂混合狀態(tài)的主題情境,但后續(xù)影響力則主要通過“變道”,在長期繼承發(fā)展的主題動態(tài)情境之中演化。這種模式是高被引論文的次要模式之一。長期交叉一分裂混合型主題路徑在第二層次上表現(xiàn)為跨越時間段長且主題局部演化關系持續(xù)以不穩(wěn)定的交叉、分裂關系為主。這說明該路徑的研究主題不斷調整和變化,不斷吸納新知識、新方法、新技術等,并發(fā)掘、衍生新問題。結合第一層次的主題情況,發(fā)現(xiàn)基因編輯領域的長期交叉一分裂混合型主題路徑的研究主題比較多樣,但主要都是基因編輯領域與病毒學、分子生物學、基因組學等領域交叉的基礎性研究,比如蛋白質研究、內切酶研究等,符合第二層次情況。此外,該模式還包括影響力演化的“變道”,跨徑影響長期繼承發(fā)展型研究路徑。說明該模式下的高被引論文顯著影響了領域中核心問題的迭新與遞進性突破,獲得了比本路徑內更大的影響力。因此,混合一繼承模式的內涵是高被引論文影響力的形成可以通過“變道”模式實現(xiàn),選題誕生于長期吸納新知識、衍生新問題、不斷調整變化的主題演化情境,具有促進領域內核心問題突破的潛力,從而實現(xiàn)影響力“變道”,在領域長期繼承發(fā)展的研究路徑中累積大量影響力。
以Jennifer Doudna的高被引論文為例。JenniferDoudna是基因編輯領域的頂尖科學家之一,是美國加州大學伯克利分校的生物化學家,她在CRISPR基因編輯領域進行了開拓性的工作并做出基礎性貢獻,獲得了2020年諾貝爾化學獎。Jennifer Doudna有6篇高被引論文符合混合一繼承模式。
如圖7所示.Jennifer Doudna的研究涉獵相對廣泛,研究主題不斷調整變化,包括CRISPR機制作用、蛋白質剪接、CRISPR系統(tǒng)菌株與噬菌體、植物基因遺傳新技術開發(fā)等。同時可以觀察到,雖然她的研究主題并不固定,但是對于核心問題突破有一定的影響。因此,其高被引論文能夠“變道”,在領域核心研究路徑中積累影響力。本文以JenniferDoudna的一篇諾獎里程碑論文為例展示“變道”過程,如圖8所示,圖中顏色代表引文的分布數(shù)量。該論文2012年發(fā)表于混合路徑的T4-3主題,2013年第一次被繼承路徑的83篇施引文獻引用,其中40%施引文獻也是高被引論文,并在下一個時間窗口就看到了兩類主題演化路徑的交叉(T6-9),持續(xù)對長期繼承發(fā)展主題路徑產生很高的影響,對于新生分裂主導型主題演化路徑后續(xù)也產生了很高的影響。對于該論文來說,影響力的形成關鍵在于“變道”的過程。影響力變道的原動力來自學者在長期吸納新知識、衍生新問題、不斷調整變化的主題演化情境下的研究積淀的“勢能”,當勢能積累到一定程度,即具備了促進領域內核心問題突破的潛力后,可能再加上一些誘變因素的作用,實現(xiàn)了影響力的變道,在變道后獲得比本路徑更大的影響力。
3)混合一混合模式?;旌弦换旌夏J酱淼氖歉弑灰撐挠绊懥Φ男纬商幱谝粋€長期交叉一分裂混合狀態(tài)的主題演化動態(tài)情境。這種模式是高被引論文的次要模式之一?;旌弦换旌夏J降膬群歉弑灰撐挠绊懥Φ男纬煽梢蕴幱陬I域內長期吸納新知識、衍生新問題、不斷調整變化的主題動態(tài)情境中,通過吸納、分化與升華,在后續(xù)衍生的路徑內累積影響力。
以Rodolphe Barrangou為例。Rodolphe Barrangou是北卡羅來納州立大學的食品科學教授,他在細菌的研究中發(fā)現(xiàn)了CRISPR系統(tǒng)的基本機制。RodolpheBarrangou有9篇高被引論文屬于混合一混合模式。
如圖9所示,Rodolphe Barrangou高被引論文選題所集中的區(qū)域,是混合路徑上研究主題的調整變化的關鍵時期。首先在T2時間片,Rodolphe Bar-rangou的1篇高被引論文參與了挖掘新問題“T2-1基因組的重復序列與CRISPR”,之后6篇高被引論文參與了T2-1與“T2-3歸巢核酸內切酶、內含子與真菌及噬菌體”的交叉融合,再之后在分化出的菌株與基因組學的主題方向上產生了相關的高被引論文。因此,其高被引論文選題契合吸納新知識、衍生新問題、不斷調整變化的主題演化動態(tài)情境,之后繼續(xù)在后續(xù)衍生的路徑內累積影響力。
4結語
本文選取高被引論文作為研究對象,選取過程中“動態(tài)情境”的研究視角,基于主題演化維度對高被引論文影響力的形成模式進行探索。
首先,提出一個全新的研究視角——動態(tài)情境,發(fā)現(xiàn)高被引論文的影響力形成過程與“動態(tài)情境”概念有許多共通之處,因此將“動態(tài)情境”的概念引入,在本文中定義為對高被引論文影響力形成有關的一系列各維度影響因素在時序上的動態(tài)集合體。
其次,本文提出將主題演化維度的動態(tài)情境根據(jù)粒度由細到粗分為3個層次進行構建,并詳細設計了各個層次構建的方法。第一層次為主題演化詳細過程,使用基于時間切片和靜態(tài)主題模型方法相結合的主題演化可視化方法。第二層次為主題局部演化關系,使用5種主題局部演化關系類型進行概括。第三層次為主題演化路徑,提出基于主題局部演化關系類型分布的主題演化路徑概括方法。
然后以基因編輯領域為例進行模式探索。構建了該領域3個層次的動態(tài)情境,使用第三層次進行模式提取,第一層次、第二層次輔助進行模式分析。通過實證,提取出一個主要模式和兩個次要模式。
1)主要模式:繼承一繼承模式。指論文選題切合長期繼承發(fā)展型主題路徑,影響力以繼續(xù)在本長期繼承發(fā)展型主題路徑演化為主。繼承一繼承模式代表的是高被引論文的影響力形成的全過程都處于一個長期繼承發(fā)展的動態(tài)情境之中,內涵是高被引論文影響力的形成需要選題圍繞領域的核心問題,并且在該問題上實現(xiàn)迭新與遞進性突破從而在本路徑內可累積大量影響力。
2)次要模式:混合一繼承模式。指論文選題切合長期交叉一分裂混合型主題演化路徑影響力以跨徑影響長期繼承發(fā)展型主題路徑為主?;旌弦焕^承模式代表的是高被引論文的選題處于一個長期交叉一分裂混合狀態(tài)的主題情境,但后續(xù)影響力則主要通過“變道”,在長期繼承發(fā)展的主題動態(tài)情境之中演化。模式的內涵是高被引論文影響力的形成可以通過“變道”實現(xiàn),選題誕生于長期吸納新知識、衍生新問題、不斷調整變化的主題演化情境,具有促進領域內核心問題突破的潛力,從而實現(xiàn)影響力“變道”,在領域長期繼承發(fā)展的主題路徑中累積大量影響力。
3)次要模式:混合一混合模式。指論文選題切合長期交叉一分裂混合型主題發(fā)展路徑,影響力以繼續(xù)在本長期交叉一分裂混合型主題路徑演化為主?;旌弦换旌夏J酱淼氖歉弑灰撐挠绊懥Φ男纬商幱谝粋€長期交叉一分裂混合狀態(tài)的主題演化動態(tài)情境。模式的內涵是高被引論文影響力的形成可以處于領域內長期吸納新知識、衍生新問題、不斷調整變化的主題動態(tài)情境中,通過吸納、分化與升華,從而在后續(xù)衍生的路徑內累積影響力。
綜上所述,本文的研究方法與模式探索結果對于探索、認識動態(tài)的高被引論文影響力形成機制具有一定的理論價值與研究意義。同時,本文探索了一種構建主題演化動態(tài)情境的方法,從第一層次到第二層次再到第三層次,將主題演化情況的特點逐步進行更高層次的概括,提供了關于高被引論文影響力形成過程的更豐富的信息,為我國進一步提升學術論文影響力和改善科技論文評價工作提供一定的啟發(fā)。
本研究選擇基因編輯領域開展實證研究,考慮到它是近年來最受關注、最活躍的研究領域之一,且知識更迭快,具有較顯著和復雜的主題演化的動態(tài)情境。但還應考慮到不同學科的特性,本文所探索的模式不可簡單地泛化,還需要進一步從具有不同特點的學科領域進行對比觀察。本文僅從主題演化維度探索了高被引論文影響力形成的幾種模式,后續(xù)還可以考慮從團隊合作、學者個人成長等多個維度進行探索,并且考慮結合引文網(wǎng)絡進行更深入的分析。