遲培娟,丁潔蘭,冷伏海
(1. 中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心,北京 100190;2. 中國(guó)科學(xué)院科技戰(zhàn)略咨詢研究院,北京 100190)
每一次重大科技革命或高技術(shù)產(chǎn)業(yè)形成都離不開突破性研究成果。突破性論文是一種常見的突破性研究成果,已有研究對(duì)突破性論文的界定較少,王海燕[1]認(rèn)為,高影響力論文是指研究成果、思想、觀點(diǎn)和方法等會(huì)對(duì)本學(xué)科的發(fā)展以及科學(xué)共同體的交流產(chǎn)生重大影響的科技論文。其他學(xué)者大多是對(duì)突破性研究進(jìn)行界定,例如,庫(kù)恩等從研究范式的角度分析了突破性研究可能顛覆或者創(chuàng)建新的研究范式[2-3]或引領(lǐng)新的科學(xué)范式[4-5]。部分學(xué)者從對(duì)本領(lǐng)域或其他領(lǐng)域科學(xué)研究有重大影響這一視角界定了突破性研究的內(nèi)涵[6-8],還有學(xué)者認(rèn)為突破性研究具有創(chuàng)新性或新穎性[9-10]。本研究認(rèn)為,突破性論文是一類具有較高創(chuàng)新性,其理論、研究方法、結(jié)論等對(duì)本領(lǐng)域或其他領(lǐng)域產(chǎn)生了廣泛影響,對(duì)社會(huì)具有重要價(jià)值和影響的基礎(chǔ)研究成果。
突破性論文的識(shí)別對(duì)科技創(chuàng)新的前瞻性布局和科研管理都具有重要意義,當(dāng)前主要依賴專家評(píng)議,廣受認(rèn)可卻效率低下,必須采用其他方法加以輔助?;谖墨I(xiàn)計(jì)量學(xué)的突破性論文識(shí)別研究多圍繞引用特征來進(jìn)行分析,常見的是學(xué)術(shù)影響力特征,還有研究嘗試了從引文路徑、多代引用關(guān)系、引文網(wǎng)絡(luò)、引用文本特征等視角來遴選突破性論文,也有學(xué)者綜合多個(gè)指標(biāo)嘗試突破性論文的早期識(shí)別,下文將對(duì)相關(guān)研究進(jìn)行綜述。
學(xué)術(shù)影響力是學(xué)術(shù)質(zhì)量類指標(biāo),常見的是以被引頻次代表學(xué)術(shù)影響力。突破性論文的高被引特點(diǎn)基本已經(jīng)達(dá)成共識(shí)[1,11-14],但其引用閾值并不明確,有的研究將領(lǐng)域Top 1‰[1]、Top 1%[11]或Top 2%[13]論文作為潛在突破性論文,科睿唯安則將被引頻次超過2000 次的論文作為潛在諾貝爾獎(jiǎng)成果[15]。為了實(shí)現(xiàn)高被引論文的快速識(shí)別,部分研究嘗試?yán)谜撐牡亩唐谝茫ㄕ撐陌l(fā)表后1~5 年)來預(yù)測(cè)未來的高被引論文[16-25],但這些研究的準(zhǔn)確率和召回率依然無法滿足實(shí)用需求。
Huang 等[26]通過分析引文級(jí)聯(lián)變化識(shí)別變革性研究,該方法主要是衡量新的論文在多大程度上破壞了代表既定范式論文引文級(jí)聯(lián)的增長(zhǎng);王海燕等[27]以引文網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn)、研究前沿核心論文和ESI(Essential Science Indicators) 高被引論文作為突破性論文的代表,利用引用強(qiáng)度和技術(shù)生命周期來預(yù)測(cè)論文是否為突破性論文。上述兩項(xiàng)研究適合單篇種子文獻(xiàn)分析,操作較為復(fù)雜。
Wu 等[28-29]利用文獻(xiàn)及其前后向引用關(guān)系來計(jì)算文獻(xiàn)的“顛覆性”得分,顛覆性D的計(jì)算公式為D=(i類施引文獻(xiàn)數(shù)量-j類施引文獻(xiàn)數(shù)量)/所有施引文獻(xiàn)數(shù)量,其中i類施引文獻(xiàn)是指只引用目標(biāo)論文的文獻(xiàn),j類施引文獻(xiàn)引用目標(biāo)論文的同時(shí)引用目標(biāo)論文的參考文獻(xiàn),D值越接近于1,越有可能是顛覆性文獻(xiàn);該研究發(fā)現(xiàn)團(tuán)隊(duì)大小(以文獻(xiàn)的作者人數(shù)來衡量)與論文的顛覆性負(fù)相關(guān),提出小團(tuán)隊(duì)更容易產(chǎn)生顛覆性創(chuàng)新的觀點(diǎn),但并未確定有效的閾值來區(qū)分突破性論文和其他論文。
Schneider 等[13]將各個(gè)領(lǐng)域中Top 2%高被引論文遴選出來,并進(jìn)一步區(qū)分了突破性論文和追隨者論文:如果候選論文B2 引用了候選論文B1,引用B2的論文有一定比例同時(shí)引用B1,那么B2 論文就是追隨者,B1 論文可能是突破性論文;驗(yàn)證結(jié)果發(fā)現(xiàn),11 篇突破性論文中可以識(shí)別出7 篇。
有學(xué)者采用拓?fù)渚W(wǎng)絡(luò)對(duì)領(lǐng)域“關(guān)鍵點(diǎn)”進(jìn)行回顧性識(shí)別。陳超美團(tuán)隊(duì)將科學(xué)網(wǎng)絡(luò)中具有高中介中心性的論文視為科學(xué)轉(zhuǎn)折點(diǎn)[30-31];Min 等[32]認(rèn)為,3個(gè)引文網(wǎng)絡(luò)結(jié)構(gòu)指標(biāo)(平均聚類系數(shù)、網(wǎng)絡(luò)連通性和網(wǎng)絡(luò)密度)對(duì)早期發(fā)現(xiàn)突破性論文可能具有重要意義,但識(shí)別效果未經(jīng)驗(yàn)證??梢暬夹g(shù)也可以在突破性論文識(shí)別過程中發(fā)揮作用。Kleinberg[33]提出了突發(fā)監(jiān)測(cè)算法,根據(jù)詞頻變化率找出某一時(shí)間段內(nèi)的突現(xiàn)詞;陳超美開發(fā)的CiteSpace 中的Burst De‐tection 就是基于類似的算法來監(jiān)測(cè)突現(xiàn)詞[31]。但這些研究針對(duì)的都是研究主題而非單篇論文。
Small 等[34]以生物醫(yī)學(xué)領(lǐng)域?yàn)槔?,提取了引用參考文獻(xiàn)的文本信息或上下文信息,發(fā)現(xiàn)被包含“discover”的語句引用20 次以上的論文中有8%獲得了諾貝爾獎(jiǎng)。楊雪梅等[35]以年度十大科學(xué)突破的關(guān)鍵論文和諾貝爾獎(jiǎng)關(guān)鍵論文作為突破性論文語料數(shù)據(jù)進(jìn)行特征詞提取,通過特征詞識(shí)別F1000 數(shù)據(jù)庫(kù)某些重要文獻(xiàn),其查全率能夠達(dá)到90%以上。
為了實(shí)現(xiàn)突破性論文的早期識(shí)別,Wolcott 等[36]利用隨機(jī)森林模型識(shí)別出6 個(gè)月的被引頻次、期刊影響因子、作者的高被引論文數(shù)量、合著者數(shù)量、合著網(wǎng)絡(luò)點(diǎn)度中心性、本領(lǐng)域的高水平論文數(shù)量等指標(biāo)對(duì)識(shí)別突破性論文的貢獻(xiàn)度較大,采用這些指標(biāo)預(yù)測(cè)論文屬于突破性論文還是屬于對(duì)比數(shù)據(jù)集,預(yù)測(cè)結(jié)果的準(zhǔn)確性可達(dá)0.91,召回率可以達(dá)到77%;該方法的優(yōu)點(diǎn)是及時(shí)性強(qiáng),適合針對(duì)大量文獻(xiàn)的海選,但研究中采用的非突破性論文數(shù)量過少,僅有2500 篇,更換數(shù)據(jù)后的適用性尚有待驗(yàn)證,并且預(yù)測(cè)結(jié)果的召回率偏低。
(1)目前突破性論文識(shí)別采用的大部分指標(biāo)實(shí)用性不強(qiáng)。一是大部分指標(biāo)僅能針對(duì)少量種子文獻(xiàn)進(jìn)行分析,分析方法復(fù)雜,不適合大數(shù)據(jù)量分析,且分析結(jié)論存在普適性問題;二是突破性論文閾值不明確,沒有確切的閾值可以將突破性論文和其他論文區(qū)分開;三是識(shí)別效果還有待于進(jìn)一步提升,召回率偏低;四是缺少有效的即時(shí)性指標(biāo),難以實(shí)現(xiàn)突破性論文的早期識(shí)別。
(2)突破性論文的學(xué)術(shù)影響力特征需要進(jìn)一步明確。盡管許多研究認(rèn)為突破性論文具有高學(xué)術(shù)影響力特征,但不同研究中采用的閾值有差異,沒有明確的閾值來協(xié)助遴選;此外,當(dāng)前引用的觀察窗口基本在5 年以上,如果能夠進(jìn)一步明確突破性論文的短時(shí)間(2~3 年)引用特征,將有助于實(shí)現(xiàn)突破性論文的早期識(shí)別。
(3)當(dāng)前突破性論文的識(shí)別過于依賴文獻(xiàn)引用信息,缺少對(duì)其他特征的進(jìn)一步研究。例如,有學(xué)者提出突破性論文應(yīng)當(dāng)具有創(chuàng)新性和新穎性,還有學(xué)者認(rèn)為變革性研究往往具有延遲認(rèn)可和科學(xué)-技術(shù)交叉(更容易被專利引用)等特征[4]。這些觀點(diǎn)缺乏實(shí)證研究的支持,因此需要進(jìn)行更加深入的研究。
作為一類重要的基礎(chǔ)研究成果,突破性論文在“科學(xué)創(chuàng)造力”方面應(yīng)該優(yōu)于其他論文。為了評(píng)估基礎(chǔ)研究創(chuàng)新的程度和重要性,有學(xué)者將基礎(chǔ)研究的“科學(xué)創(chuàng)造力”分解成“新穎性”和“有用性”兩個(gè)方面[37-41],Piffer[42]強(qiáng)調(diào),“新穎性”和“有用性”是所有層次創(chuàng)造力所共有的。
“新穎性”強(qiáng)調(diào)了創(chuàng)新本身的獨(dú)特性[43],是論文在發(fā)表背景下的自我特征,一經(jīng)出現(xiàn)就已經(jīng)固定。通常情況下,只有具備了“新穎性”的論文才能夠通過同行專家的評(píng)議并發(fā)表,不同論文的新穎性程度可能有差異?!坝杏眯浴钡韧凇坝绊懥Α保瑥?qiáng)調(diào)了創(chuàng)新結(jié)果在使用和傳播過程中是有價(jià)值的,研究成果必須能一定程度上對(duì)后續(xù)基礎(chǔ)研究、技術(shù)開發(fā)或者社會(huì)創(chuàng)新產(chǎn)生啟發(fā)和影響才能體現(xiàn)“有用性”?!坝杏眯浴北仨毥?jīng)過實(shí)踐檢驗(yàn),領(lǐng)域?qū)<铱梢愿鶕?jù)自身的知識(shí)來預(yù)判“有用性”。在知識(shí)傳播的不同階段,基礎(chǔ)研究可以產(chǎn)生不同的“影響力”。一項(xiàng)基礎(chǔ)研究如果對(duì)后續(xù)基礎(chǔ)研究有用,通常會(huì)被本領(lǐng)域或其他領(lǐng)域的科學(xué)家引用,在基礎(chǔ)研究領(lǐng)域就會(huì)產(chǎn)生一定的“學(xué)術(shù)影響力”[44-46]。同時(shí),基礎(chǔ)研究中的科學(xué)知識(shí)大多要擴(kuò)散到學(xué)術(shù)界以外,通過創(chuàng)新鏈向下游傳播啟發(fā)技術(shù)創(chuàng)新[47],產(chǎn)生一定的“技術(shù)影響力”[48-49],并最終實(shí)現(xiàn)其社會(huì)價(jià)值(圖1)。
圖1 基礎(chǔ)研究成果創(chuàng)造力的特征分解
評(píng)價(jià)突破性論文實(shí)際上也是衡量科技論文“科學(xué)創(chuàng)造力”的過程。突破性論文的“科學(xué)創(chuàng)造力”較高,因此在“新穎性”和“有用性”方面可能表現(xiàn)突出,其中“有用性”至少體現(xiàn)在“學(xué)術(shù)影響力”和“技術(shù)影響力”兩個(gè)方面?;谝陨戏治?,本研究提出了突破性論文的三元計(jì)量特征(以下簡(jiǎn)稱三元特征)理論:①具有較高的新穎性,知識(shí)具有獨(dú)特性和異質(zhì)性;②具有高學(xué)術(shù)影響力特征,獲得科研共同體的廣泛認(rèn)可;③一般具有高技術(shù)影響力特征,通過對(duì)技術(shù)開發(fā)產(chǎn)生廣泛而深遠(yuǎn)的影響造福人類社會(huì)(圖2)。
圖2 突破性論文的三元計(jì)量特征
目前已有的計(jì)量研究中,突破性論文的新穎性特征只有少量定性描述[8-10],沒有定量研究的支持;突破性論文具有高學(xué)術(shù)影響力特征已經(jīng)廣受認(rèn)可[1,11-14],但引用閾值和早期引用特征尚不明確;突破性論文的技術(shù)影響力僅有少量研究涉及,例如,杜建等[4]認(rèn)為變革性研究往往具有科學(xué)-技術(shù)交叉(更容易被專利引用)特征。本研究將圍繞新穎性、學(xué)術(shù)影響力、技術(shù)影響力3 個(gè)方面來明確突破性論文的計(jì)量特征。
3.2.1 突破性論文的新穎性測(cè)度方法
當(dāng)前新穎性指標(biāo)算法主要基于知識(shí)組合創(chuàng)新理論,采用的知識(shí)單元包括參考文獻(xiàn)所在期刊和文本內(nèi)容等,還有少量研究基于文本相似性進(jìn)行計(jì)算[50-51],有必要從中遴選更適合的指標(biāo)來測(cè)度突破性論文的特征。相比于期刊[38,44,52-55],基于文本內(nèi)容組合的算法能夠更好地體現(xiàn)論文知識(shí)的創(chuàng)新,如作者關(guān)鍵詞組合[56-57]、主題詞組合[58-59]和MeSH 詞對(duì)[60-63]。其中,MeSH 詞表是由美國(guó)國(guó)立醫(yī)學(xué)圖書館發(fā)布的生物醫(yī)學(xué)領(lǐng)域權(quán)威詞表,經(jīng)過領(lǐng)域?qū)<以O(shè)計(jì)和認(rèn)可,相比于作者關(guān)鍵詞和主題詞更加客觀標(biāo)準(zhǔn)。但是當(dāng)前基于MeSH 詞對(duì)的計(jì)算方法較為簡(jiǎn)單,主要基于MeSH 詞對(duì)出現(xiàn)時(shí)間長(zhǎng)短、出現(xiàn)頻次或者新MeSH 詞對(duì)占比,忽視了隨機(jī)組合概率的影響。
本研究參考Lee 等[38]基于參考文獻(xiàn)期刊對(duì)組合的算法,對(duì)基于MeSH 詞對(duì)的新穎性指標(biāo)[63]進(jìn)行了改進(jìn),考慮了MeSH 詞對(duì)隨機(jī)組合概率的影響,以區(qū)分詞對(duì)組合的難易程度,進(jìn)而揭示組合的新穎程度。具體算法如下:
(1)構(gòu)建目標(biāo)論文數(shù)據(jù)集DOI-MeSH 詞對(duì)應(yīng)關(guān)系表,統(tǒng)計(jì)單篇論文所有MeSH 詞對(duì)組合,將同一年出版論文所有MeSH 詞對(duì)匯總在一起,構(gòu)成當(dāng)年MeSH 詞對(duì)整體數(shù)據(jù)集N。
(2)比較某個(gè)MeSH 詞對(duì)在整體數(shù)據(jù)集實(shí)際出現(xiàn)的概率與其預(yù)期出現(xiàn)概率的比值,這個(gè)比值代表著該詞對(duì)的組合難易程度,即保守性Commonness:
其中,分子表示t1t2組合在整體數(shù)據(jù)集N中實(shí)際出現(xiàn)的概率;分母表示t1t2組合在整體數(shù)據(jù)集N中預(yù)期出現(xiàn)的概率。如果t1t2組合實(shí)際出現(xiàn)概率低于預(yù)期概率,即Commonness<1,說明該知識(shí)組合更困難、更新穎。
(3)列出單篇論文所有MeSH詞對(duì)的Commonness,由小到大排列,取10%處的值作為這篇論文的保守性Commonness,采用對(duì)數(shù)變換來獲得保守性的正態(tài)分布變量,新穎性與保守性相反,因此,
meshnov 值越大,表示知識(shí)組合比預(yù)期組合越少見,新穎性越高。
新穎性指標(biāo)是本研究提出的三元計(jì)量特征的核心指標(biāo),而計(jì)量學(xué)指標(biāo)在應(yīng)用之前有必要驗(yàn)證其能否有效反映其想要衡量的內(nèi)容,以揭示其先進(jìn)性和有效性。Harnad[64]認(rèn)為,指標(biāo)必須根據(jù)其意圖衡量和預(yù)測(cè)的內(nèi)容進(jìn)行驗(yàn)證,驗(yàn)證標(biāo)準(zhǔn)是同行專家評(píng)估。本研究將通過比較本研究改進(jìn)的新穎性指標(biāo)以及已有新穎性指標(biāo)與專家評(píng)議結(jié)果的相關(guān)性,以驗(yàn)證本研究改進(jìn)的新穎性指標(biāo)的優(yōu)越性。
F1000 數(shù)據(jù)庫(kù)是生物醫(yī)學(xué)領(lǐng)域非常有特色的同行評(píng)議數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)收錄的重要文獻(xiàn)應(yīng)該是更具創(chuàng)新性的。因此,本研究將通過logistics 多項(xiàng)回歸模型分析新穎性,結(jié)合論文是否被F1000 推薦,來驗(yàn)證本研究提出的新穎性指標(biāo)與對(duì)比指標(biāo)的收斂效度。對(duì)比指標(biāo)refnov 選擇Lee 等[38]基于參考文獻(xiàn)期刊組合的新穎性算法,該算法常被采用且已有學(xué)者經(jīng)過對(duì)比認(rèn)為較優(yōu)[65]。此外,為了避免期刊影響因子的影響,將5 年期刊影響因子加入了自變量;由于該數(shù)據(jù)庫(kù)對(duì)論文的收錄多在論文發(fā)表后數(shù)月內(nèi)完成,因此未納入被引頻次。
在Stata 軟件中利用多項(xiàng)logistics 回歸模型進(jìn)行分析,logistics 多項(xiàng)回歸公式為
其中,Y為因變量,即是否入選F1000 數(shù)據(jù)庫(kù);X1、X2、X3分別為自變量meshnov、refnov 和JIF(jour‐nal impact factor,期刊影響因子);a、b、c分別表示3 個(gè)自變量與Y的相關(guān)系數(shù)。
為了直觀表示因變量和自變量的相關(guān)程度,進(jìn)一步計(jì)算odds 值,該值表示在指定x條件下,事件為1 或0 的概率比:
本研究并不關(guān)注模型擬合的效果,只關(guān)注自變量的變化如何影響入選F1000 的概率。通過對(duì)比兩種新穎性指標(biāo)與入選F1000 數(shù)據(jù)庫(kù)的關(guān)系來驗(yàn)證哪種指標(biāo)更符合專家意見,并選用更優(yōu)的指標(biāo)來進(jìn)行新穎性測(cè)度。
實(shí)證研究結(jié)果表明,生物醫(yī)學(xué)領(lǐng)域論文的兩種新穎性與是否入選F1000 數(shù)據(jù)庫(kù)的相關(guān)性存在明顯差異。以2008 年為例,本研究改進(jìn)的新穎性指標(biāo)meshnov 與是否入選F1000 數(shù)據(jù)庫(kù)的相關(guān)系數(shù)為0.18,odds=e0.18=1.197,表明meshnov 每增加1 個(gè)單位,入選F1000 的概率上升19.7%;另一個(gè)對(duì)比指標(biāo)refnov 與是否入選F1000 的相關(guān)系數(shù)為-0.08,odds=e-0.08=0.923,也就是說每當(dāng)論文的refnov 增加1個(gè)單位,入選F1000 的概率下降7.7%。期刊影響因子與是否入選F1000 的相關(guān)系數(shù)為0.11,odds=e0.11=1.116,這表明期刊影響因子每增加1 個(gè)單位,入選F1000 的概率上升11.6%(表1)。
表1 新穎性與入選F1000數(shù)據(jù)庫(kù)的關(guān)系分析
分析結(jié)果表明,對(duì)比指標(biāo)refnov 與論文是否入選F1000 負(fù)相關(guān),這與專家的遴選標(biāo)準(zhǔn)是相反的,因此refnov 不能較好地體現(xiàn)專家認(rèn)可的創(chuàng)新性。本研究改進(jìn)的指標(biāo)meshnov 與專家的預(yù)期是一致的,而且與是否入選F1000 數(shù)據(jù)庫(kù)的相關(guān)程度要優(yōu)于期刊影響因子,說明meshnov 更能體現(xiàn)專家認(rèn)可的創(chuàng)新性,因此新穎性指標(biāo)meshnov 比refnov 更適合衡量論文的創(chuàng)新性。
3.2.2 突破性論文的學(xué)術(shù)影響力測(cè)度方法
論文的學(xué)術(shù)影響力分析較為常見,最常使用的指標(biāo)是論文被引頻次。目前,替代計(jì)量學(xué)指標(biāo)也越來越多地被使用,但由于這類指標(biāo)存在覆蓋范圍小[66]、熱點(diǎn)偏離學(xué)術(shù)研究等問題[67],因此,本研究的分析將基于論文被引頻次進(jìn)行。
突破性論文一般需要等待一段時(shí)間才能充分顯示其影響力。諾貝爾獎(jiǎng)?wù)撐耐ǔ0l(fā)表20 年以上才能獲得充分認(rèn)可[68],因此,需要首先考察突破性論文的長(zhǎng)期學(xué)術(shù)影響力特征。已有研究發(fā)現(xiàn)生物學(xué)領(lǐng)域論文發(fā)表5 年之后的被引排名就開始慢慢趨于穩(wěn)定[69],因此8~10 年的觀察窗口可以顯示大部分論文的學(xué)術(shù)影響力特征。本研究統(tǒng)計(jì)了8~10 年前發(fā)表的生物醫(yī)學(xué)領(lǐng)域論文被引頻次,同時(shí),為了消除不同學(xué)科領(lǐng)域引用差異和領(lǐng)域大小的影響,對(duì)同年發(fā)表的同領(lǐng)域論文依據(jù)被引頻次進(jìn)行排名并計(jì)算排名百分比。如果論文屬于多個(gè)領(lǐng)域,選取排名百分比更小的領(lǐng)域作為分析依據(jù)。
表5 兩種早期識(shí)別突破性論文方法的比較
為了實(shí)現(xiàn)突破性論文的早期識(shí)別,有必要對(duì)其短期學(xué)術(shù)影響力特征進(jìn)行分析。采用同樣的方法分別計(jì)算論文發(fā)表后1 年(論文發(fā)表當(dāng)年)、2 年和3年時(shí)間窗內(nèi)的被引頻次領(lǐng)域排名百分比,驗(yàn)證突破性論文的短期學(xué)術(shù)影響力是否具有明顯特點(diǎn)。
3.2.3 突破性論文的技術(shù)影響力測(cè)度方法
技術(shù)影響力主要衡量基礎(chǔ)研究對(duì)技術(shù)開發(fā)的影響程度。專利對(duì)論文的引用是加快技術(shù)創(chuàng)新速度的重要驅(qū)動(dòng)力[70]。多項(xiàng)研究表明,生物等領(lǐng)域的專利更傾向于引用期刊論文[71-72],通過測(cè)量文本相似性發(fā)現(xiàn)大多數(shù)專利引用都可以表明知識(shí)之間的聯(lián)系[73]。因此,基礎(chǔ)科學(xué)向某一特定技術(shù)領(lǐng)域的知識(shí)傳遞,可以用該領(lǐng)域內(nèi)的專利對(duì)科學(xué)論文的引用頻次來定量描述[74-78]。研究發(fā)現(xiàn),專利更傾向引用在自身和其他領(lǐng)域具有較大影響力的論文[79-80];隨著引用論文影響力的增加,施引專利的價(jià)值也在增加[81]。雖然學(xué)術(shù)影響力和技術(shù)影響力有一定的關(guān)聯(lián)性,但二者衡量了論文不同方面的特征,在科學(xué)界和技術(shù)界都被高度引用的論文較少重疊[82]。
目前論文的技術(shù)影響力分析主要集中在國(guó)家[83]、期刊[84-85]、機(jī)構(gòu)[86-87]和單篇論文[4]層面。單篇論文層面,杜建等[4]采用論文是否被專利引用這一指標(biāo)來尋找被延遲認(rèn)可的突破性論文,但是被專利引用的論文比例較高,有的領(lǐng)域超過了10%,直接采用這一指標(biāo)來衡量論文的技術(shù)影響力過于粗略。
如果論文被更多高價(jià)值專利引用,那么論文的技術(shù)影響力也相應(yīng)更高。本研究參考機(jī)構(gòu)層面的評(píng)價(jià)指標(biāo)[86]提出了針對(duì)單篇論文的技術(shù)影響力指標(biāo)計(jì)算方法,同時(shí)考慮了論文被專利引用的次數(shù)和施引專利的家族大小。施引專利家族大小體現(xiàn)了專利的價(jià)值,因?yàn)閷@暾?qǐng)需要花費(fèi)大量的時(shí)間和金錢,申請(qǐng)人會(huì)根據(jù)對(duì)專利價(jià)值的預(yù)判決定向多少個(gè)國(guó)家或地區(qū)進(jìn)行專利申請(qǐng)。本研究構(gòu)建的針對(duì)單篇論文的技術(shù)影響力指標(biāo)為
其中,TI 表示技術(shù)影響力指數(shù);Cp 表示論文被專利引用的次數(shù)(以專利家族為統(tǒng)計(jì)單位);F表示施引專利平均家族大小。
為了消除領(lǐng)域的影響,依據(jù)目標(biāo)論文的技術(shù)影響力指數(shù)進(jìn)行排名并計(jì)算論文的排名百分比,分析其中突破性論文的技術(shù)影響力特點(diǎn)。
生物醫(yī)學(xué)領(lǐng)域是全球重要的戰(zhàn)略方向之一,其基礎(chǔ)研究成果可以快速轉(zhuǎn)化為技術(shù)應(yīng)用,成為驅(qū)動(dòng)經(jīng)濟(jì)發(fā)展的高新技術(shù)產(chǎn)業(yè),各國(guó)紛紛將其納入優(yōu)先發(fā)展領(lǐng)域。如果能實(shí)現(xiàn)該領(lǐng)域突破性論文的識(shí)別,可以更好地進(jìn)行重大研究的前瞻布局和針對(duì)性的科研管理。本研究將以生物醫(yī)學(xué)領(lǐng)域?yàn)槔?,分析突破性論文的三元特征理論是否成立,進(jìn)一步完善重要成果的科研評(píng)價(jià)方法。
4.1.1 標(biāo)準(zhǔn)數(shù)據(jù)遴選
要準(zhǔn)確地揭示突破性論文的計(jì)量特征,標(biāo)準(zhǔn)數(shù)據(jù)的選擇至關(guān)重要。有研究以諾貝爾獎(jiǎng)相關(guān)論文作為突破性論文的標(biāo)準(zhǔn)數(shù)據(jù),但這類論文數(shù)量稀少,難以進(jìn)行計(jì)量分析。近年來,Science雜志每年都會(huì)發(fā)布年度十大科學(xué)突破,其中生物醫(yī)學(xué)領(lǐng)域相關(guān)研究占據(jù)了很大一部分,這些研究獲得了廣泛的認(rèn)可。本研究收集了2008—2010 年發(fā)表并被評(píng)選為年度十大科學(xué)突破的15 篇生物醫(yī)學(xué)領(lǐng)域論文作為標(biāo)準(zhǔn)數(shù)據(jù)。選擇這一時(shí)間段的原因是引用觀察時(shí)間窗在8 年以上,可以充分顯示突破性論文的影響力。同時(shí)還收集了2013 年被評(píng)為年度十大科學(xué)突破的11 篇相關(guān)論文作為驗(yàn)證數(shù)據(jù)。
4.1.2 數(shù)據(jù)范圍
生物醫(yī)學(xué)領(lǐng)域論文數(shù)據(jù)總集:被PubMed 數(shù)據(jù)庫(kù)收錄并標(biāo)注MeSH 詞(3 個(gè)及以上),同時(shí)被Web of Science 數(shù)據(jù)庫(kù)收錄,文獻(xiàn)類型為Article 的論文。
論文被論文引用統(tǒng)計(jì):2008—2010 年論文被引頻次的統(tǒng)計(jì)時(shí)間是2019 年6 月,數(shù)據(jù)來自瑞典皇家理工學(xué)院基于Web of Science 裸數(shù)據(jù)的Bibmet 數(shù)據(jù)庫(kù);2013 年論文被引頻次統(tǒng)計(jì)的截止時(shí)間是2021年3 月。被引頻次均采用他引,排除了目標(biāo)論文所有作者發(fā)表論文的施引。
論文被專利引用統(tǒng)計(jì):依據(jù)2021 年1 月在Lens數(shù)據(jù)庫(kù)檢索的結(jié)果。
4.1.3 學(xué)科領(lǐng)域劃分方法
為了避免學(xué)科差異的影響,本研究后續(xù)分析均在學(xué)科領(lǐng)域內(nèi)進(jìn)行。學(xué)科分類參考Web of Science數(shù)據(jù)庫(kù)的學(xué)科領(lǐng)域。本研究遴選出的突破性論文多來自Science、Nature等綜合性期刊,必須將綜合期刊發(fā)表的論文準(zhǔn)確分配到相關(guān)學(xué)科領(lǐng)域才能保證分析結(jié)果的可靠性。本研究參考了瑞典皇家理工學(xué)院Bibmet 計(jì)量小組采用的基于目標(biāo)論文的參考文獻(xiàn)所在領(lǐng)域來劃分的方法:統(tǒng)計(jì)論文的參考文獻(xiàn)所屬學(xué)科分類,依據(jù)學(xué)科包含的參考文獻(xiàn)數(shù)量降序排列,選取參考文獻(xiàn)數(shù)量最多的學(xué)科C1 作為替換的學(xué)科;如果排名第2 位的學(xué)科領(lǐng)域C2 的參考文獻(xiàn)數(shù)量N2大于等于C1 參考文獻(xiàn)數(shù)量N1 的0.625,則C2 也作為替換的新學(xué)科,否則學(xué)科重新分類終止;按照此規(guī)則繼續(xù)向下循環(huán),直到學(xué)科分類終止或者新學(xué)科分類達(dá)到6 個(gè)。
4.2.1 突破性論文的新穎性特征驗(yàn)證
為了明確突破性論文的新穎性特征,本研究分析了15 篇突破性論文中本研究改進(jìn)的新穎性指標(biāo)meshnov 和對(duì)比新穎性指標(biāo)refnov 的特點(diǎn)。結(jié)果發(fā)現(xiàn),突破性論文的meshnov 領(lǐng)域排名在2.66%~45.13%,全部都在Top 50%以內(nèi),其中有11 篇論文領(lǐng)域排名在20%以內(nèi),可見突破性論文的新穎性是較高的。突破性論文的refnov 領(lǐng)域排名百分比差異非常大,6.68%~87.01%不等,也就是說,突破性論文refnov 在各自領(lǐng)域中的排名并不突出,不符合我們對(duì)突破性論文具有較高創(chuàng)新性的認(rèn)知,也可以從另一個(gè)側(cè)面反映meshnov 是比refnov 更優(yōu)的新穎性指標(biāo)。本研究還發(fā)現(xiàn),突破性論文的meshnov 指標(biāo)不僅在全領(lǐng)域排名Top 50%以內(nèi),在各領(lǐng)域Top 1%高被引論文中,突破性論文的新穎性排名依然可以穩(wěn)定在Top 50%以內(nèi)(圖3)。這說明突破性論文確實(shí)具有較高的新穎性,本研究改進(jìn)的新穎性指標(biāo)可以較好地測(cè)度突破性論文的創(chuàng)新特征。
圖3 突破性論文的兩種新穎性指標(biāo)排名分析
4.2.2 突破性論文學(xué)術(shù)影響力特征驗(yàn)證
本研究分析了生物醫(yī)學(xué)領(lǐng)域突破性論文的長(zhǎng)期學(xué)術(shù)影響力和短期學(xué)術(shù)影響力特征。結(jié)果表明,在8~10 年的長(zhǎng)期觀察窗口下,生物醫(yī)學(xué)領(lǐng)域突破性論文的領(lǐng)域排名百分比在0.011%~0.993%,均在Top 1%以內(nèi)(表2),與此前部分研究采用的Top 1‰、Top 2%等閾值不同,本研究通過實(shí)證認(rèn)為生物醫(yī)學(xué)領(lǐng)域突破性論文的長(zhǎng)期學(xué)術(shù)影響力應(yīng)該排名在領(lǐng)域Top 1%。本研究涉及的學(xué)科領(lǐng)域論文數(shù)量多在1 萬~6 萬篇,對(duì)于更小的領(lǐng)域來說(總論文數(shù)少于1 萬篇),這一閾值可能有變化。本研究?jī)H涉及生物醫(yī)學(xué)領(lǐng)域的突破性論文,尚不清楚其他領(lǐng)域突破性論文的引用排名情況。
表2 生物醫(yī)學(xué)領(lǐng)域突破性論文的學(xué)術(shù)影響力和技術(shù)影響力分析
為了盡早識(shí)別出重要研究,本研究更加關(guān)注短時(shí)間觀察窗口下,突破性論文的學(xué)術(shù)影響力特征。實(shí)證研究發(fā)現(xiàn),在論文發(fā)表后1 年,大部分突破性論文在發(fā)表當(dāng)年的引用頻次排名超過了Top 1%的閾值;2 年的引用頻次排名基本都在Top 1%以內(nèi),只有1 篇論文在排在1.018%(表2),3 年的引用頻次排名全部都在Top 1%以內(nèi),與8~10 年窗口下的總引用排名較為接近,這與Adams[88]之前的研究結(jié)果較為吻合。
由此可見,生物醫(yī)學(xué)領(lǐng)域突破性論文的高學(xué)術(shù)影響力特征在論文發(fā)表后2~3 年時(shí)間就已經(jīng)開始顯現(xiàn),這可能和兩個(gè)原因有關(guān):一是這些突破性論文中并不存在延遲認(rèn)可的情況,二是生物醫(yī)學(xué)領(lǐng)域知識(shí)傳播速度較快,引用頻次可以快速地穩(wěn)定下來。由于延遲認(rèn)可的突破性論文較為少見,因此,可以利用這一特征實(shí)現(xiàn)生物醫(yī)學(xué)領(lǐng)域突破性論文的早期識(shí)別。
4.2.3 突破性論文技術(shù)影響力特征驗(yàn)證
本研究分析了生物醫(yī)學(xué)領(lǐng)域論文的技術(shù)影響力特征,發(fā)現(xiàn)只有少部分論文具有技術(shù)影響力。以2008 年生物化學(xué)與分子生物學(xué)領(lǐng)域?yàn)槔?,僅有22.7%的論文被專利引用過,其中約一半僅被引用1 次(以專利家族為統(tǒng)計(jì)單位,如果一篇論文被同一個(gè)專利家族的多個(gè)專利引用,僅計(jì)數(shù)1 次)。高技術(shù)影響力的論文比較少見,僅有0.31%的論文其技術(shù)影響力超過500。論文的學(xué)術(shù)影響力(被引頻次)和技術(shù)影響力為低度相關(guān)(Pearson 相關(guān)性系數(shù)為0.354),說明二者衡量的是論文不同方面的特征。
15 篇突破性論文的技術(shù)影響力是所在領(lǐng)域平均水平的4~104倍,論文領(lǐng)域排名百分比通常在0.010%~0.73%,均在Top 1%以內(nèi),說明突破性論文具有高技術(shù)影響力特征(表2)。
突破性論文一般屬于Top 1%高被引論文,進(jìn)一步分析發(fā)現(xiàn)突破性論文的學(xué)術(shù)影響力不一定高于Top 1%高被引論文平均水平,但其技術(shù)影響力均高于Top 1%高被引論文平均水平。這說明與其他Top 1%高被引論文相比,突破性論文的技術(shù)影響力更加突出,這體現(xiàn)了突破性論文對(duì)社會(huì)創(chuàng)新的重要貢獻(xiàn)(表3)。唯論文引用的評(píng)價(jià)模式忽視了基礎(chǔ)研究對(duì)技術(shù)開發(fā)的影響,在高被引論文中,突破性論文的技術(shù)影響力表現(xiàn)十分突出,這可以作為進(jìn)一步區(qū)分追隨式高被引論文和突破性論文的重要依據(jù)。
表3 生物醫(yī)學(xué)領(lǐng)域突破性論文和高被引論文的技術(shù)影響力分析
4.2.4 突破性論文三元計(jì)量特征穩(wěn)定性驗(yàn)證
通過以上實(shí)證分析可以發(fā)現(xiàn),突破性論文具有高新穎性、高學(xué)術(shù)影響力和高技術(shù)影響力的特征,本研究提出的突破性論文三元計(jì)量特征理論框架是成立的。本研究通過實(shí)證還進(jìn)一步明確了突破性論文在3 個(gè)指標(biāo)上均存在一個(gè)閾值。為了驗(yàn)證上述計(jì)量特征是否穩(wěn)定,本研究以新的突破性論文數(shù)據(jù)進(jìn)行驗(yàn)證,分析其新穎性、學(xué)術(shù)影響力和技術(shù)影響力三方面計(jì)量指標(biāo)特征是否依然成立。
本研究選擇2013 年入選Science雜志年度十大科學(xué)突破的生物醫(yī)學(xué)領(lǐng)域論文進(jìn)行驗(yàn)證,共篩選到11 篇突破性論文。這些論文主要屬于生物化學(xué)與分子生物學(xué)、神經(jīng)科學(xué)和免疫學(xué)3 個(gè)領(lǐng)域。結(jié)果顯示,這11 篇突破性論文的新穎性、長(zhǎng)期/短期學(xué)術(shù)影響力、技術(shù)影響力領(lǐng)域排名均在Top 50%、Top 1%和Top 1%范圍內(nèi),說明生物醫(yī)學(xué)領(lǐng)域突破性論文的三元計(jì)量特征是穩(wěn)定存在的。
鑒于突破性論文的三元計(jì)量特征是穩(wěn)定存在的,可以嘗試?yán)? 個(gè)指標(biāo)綜合遴選潛在的突破性論文?;诒疚?.2.4 節(jié)的結(jié)論,本研究提出三元指標(biāo)識(shí)別方法,將新穎性領(lǐng)域排名在Top 50%以內(nèi)、長(zhǎng)期學(xué)術(shù)影響力和技術(shù)影響力領(lǐng)域排名均在Top 1%以內(nèi)的論文作為潛在突破性論文。以2013 年生物化學(xué)與分子生物學(xué)、神經(jīng)科學(xué)和免疫學(xué)領(lǐng)域?yàn)槔〝?shù)據(jù)說明見4.1 節(jié)),分別遴選出48 篇、13 篇和20 篇潛在突破性論文。
為了證明該遴選方法的有效性,將其與常規(guī)遴選方法進(jìn)行對(duì)比。對(duì)比方法主要采用當(dāng)前較為常用的被引頻次排名和期刊影響因子兩種指標(biāo)來綜合遴選。Hicks 等[89]認(rèn)為,細(xì)胞生物學(xué)排名較為突出的期刊的影響因子約為30,因此遴選被引頻次入選領(lǐng)域Top 1%,并且發(fā)表在期刊影響因子大于30 的論文作為潛在突破性論文。通過上述對(duì)比方法在生物化學(xué)與分子生物學(xué)、神經(jīng)科學(xué)和免疫學(xué)3 個(gè)學(xué)科領(lǐng)域分別遴選到294 篇、67 篇和65 篇潛在突破性論文(表4)。
表4 兩種突破性論文的遴選方法比較
對(duì)比分析發(fā)現(xiàn),本研究提出的三元指標(biāo)方法和對(duì)比方法召回率均可以達(dá)到100%,即不遺漏突破性論文標(biāo)準(zhǔn)數(shù)據(jù),這對(duì)提高方法的實(shí)用性至關(guān)重要,如果召回率偏低,還需要采用其他方法來補(bǔ)充,失去了提高初篩工作效率的意義。從精準(zhǔn)率來看,三元指標(biāo)方法明顯更優(yōu),精準(zhǔn)率是對(duì)比方法的3~6 倍,可以將單個(gè)領(lǐng)域候選論文數(shù)量控制在50 篇以下,大大降低了專家人工判讀的工作量,提高了初步篩選的工作效率。
突破性論文的早期識(shí)別更具有價(jià)值和意義。本研究提出的新穎性指標(biāo)具有即時(shí)性,一經(jīng)發(fā)表就可以進(jìn)行計(jì)算,短期學(xué)術(shù)影響力等待時(shí)間較短,結(jié)合新穎性和短期學(xué)術(shù)影響力特征有望實(shí)現(xiàn)突破性論文的早期識(shí)別。為了實(shí)現(xiàn)突破性論文的早期識(shí)別,本研究還將加入期刊影響因子這一指標(biāo),雖然有不少學(xué)者和科學(xué)家反對(duì)采用期刊影響因子作為單篇論文的評(píng)價(jià)指標(biāo),但是本研究認(rèn)為,論文是經(jīng)過同行評(píng)議發(fā)表的,不同期刊的評(píng)審標(biāo)準(zhǔn)本身就可以部分體現(xiàn)研究被認(rèn)可的程度,諾貝爾獎(jiǎng)獲得者在Nature、Cell和Science三大頂級(jí)期刊的發(fā)文數(shù)量遠(yuǎn)遠(yuǎn)超過其他期刊[90]。
基于三元計(jì)量特征理論,本研究提出了三元指標(biāo)早期識(shí)別方法,將生物醫(yī)學(xué)領(lǐng)域新穎性領(lǐng)域排名Top 50%以內(nèi),論文兩年引用排名Top 1%以內(nèi),期刊影響因子在30 以上的論文作為潛在突破性論文,并以2013 年3 個(gè)學(xué)科領(lǐng)域?yàn)槔M(jìn)行分析。對(duì)比方法是將兩年引用排名Top 1%以內(nèi),期刊影響因子在30 以上的論文作為潛在突破性論文。
分析結(jié)果表明,兩種早期識(shí)別方法可以涵蓋所有突破性論文標(biāo)準(zhǔn)文獻(xiàn),但是二者在精準(zhǔn)率方面存在很大差異。如表5 所示,對(duì)比方法中,3 個(gè)領(lǐng)域入選的潛在突破性論文分別是333 篇、77 篇和69篇,而三元指標(biāo)早期識(shí)別方法入選的論文數(shù)分別是155 篇、33 篇和41 篇,精準(zhǔn)率是對(duì)比方法的2~3倍,入選的論文數(shù)量壓縮了一半左右。從識(shí)別效果來看,在5 萬篇論文以上的大學(xué)科領(lǐng)域中初篩的潛在突破性論文有155 篇,在評(píng)價(jià)工作中具有實(shí)用性,可以為后續(xù)專家評(píng)議奠定較好的基礎(chǔ)。
通過上述對(duì)比分析可以看出,利用本研究確定的突破性論文計(jì)量特征,不僅可以在較長(zhǎng)時(shí)間窗口下實(shí)現(xiàn)突破性論文的精準(zhǔn)識(shí)別,還可以在較短的時(shí)間窗(2 年)下實(shí)現(xiàn)突破性論文的早期識(shí)別。與已有其他突破性論文的早期識(shí)別研究相比,本研究提出的三元指標(biāo)遴選方法精準(zhǔn)率明顯高于對(duì)比方法,可以將單個(gè)領(lǐng)域潛在突破性論文數(shù)量控制在合理范圍內(nèi),具有良好的實(shí)用價(jià)值。
基于前期工作[91],本研究分析了突破性論文的三元計(jì)量特征,并形成了突破性論文遴選和早期識(shí)別方法,主要研究結(jié)論如下。
(1)突破性論文具有高新穎性、高學(xué)術(shù)影響力和高技術(shù)影響力三元特征。
本研究提出突破性論文的三元特征理論,即突破性論文具有高新穎性、高學(xué)術(shù)影響力和高技術(shù)影響力計(jì)量特征。本研究以生物醫(yī)學(xué)領(lǐng)域?yàn)槔龑?duì)三元計(jì)量特征進(jìn)行驗(yàn)證,結(jié)果發(fā)現(xiàn)突破性論文的新穎性領(lǐng)域內(nèi)排名在Top 50%以內(nèi),學(xué)術(shù)影響力領(lǐng)域內(nèi)排名在Top 1%以內(nèi),技術(shù)影響力領(lǐng)域內(nèi)排名在Top 1%以內(nèi),三元計(jì)量特征理論是成立且穩(wěn)定存在的。這一結(jié)論為突破性論文的高效遴選和早期識(shí)別奠定了基礎(chǔ)。
(2)突破性論文三元指標(biāo)遴選方法和早期識(shí)別方法是有效的。
本研究基于新穎性、學(xué)術(shù)影響力和技術(shù)影響力三元計(jì)量理論構(gòu)建了突破性論文的三元指標(biāo)識(shí)別方法,還將其應(yīng)用于突破性論文的早期識(shí)別。與已有方法相比,本研究提出的新方法具有更高的精準(zhǔn)率,可以將潛在突破性論文數(shù)量控制在合理范圍內(nèi),有效減少后續(xù)專家評(píng)議的工作量;適合針對(duì)大量文獻(xiàn)的批量分析,大大提高了評(píng)議效率。
新穎性特征是本研究提出的突破性論文三元計(jì)量特征理論中的核心要素之一。本研究以MeSH 詞對(duì)作為知識(shí)組合代表,同時(shí)考慮了隨機(jī)組合概率的影響,提高了新穎性對(duì)創(chuàng)新衡量的準(zhǔn)確性。由于新穎性具有即時(shí)性,明確突破性論文的高新穎性特征,為突破性論文的早期識(shí)別提供了一個(gè)很好的工具。本研究改進(jìn)的指標(biāo)適用于生物醫(yī)學(xué)領(lǐng)域,其他領(lǐng)域還缺少類似于MeSH 詞表的權(quán)威知識(shí)代表,后續(xù)可以考慮利用識(shí)別的主題等替代MeSH 詞表優(yōu)化新穎性計(jì)算方法,進(jìn)一步擴(kuò)展研究結(jié)果的適用范圍。
本研究打破了以往只在學(xué)術(shù)范疇探討論文影響力的局限,從論文對(duì)技術(shù)開發(fā)推動(dòng)作用視角剖析了論文的技術(shù)影響力,更加全面地測(cè)度了基礎(chǔ)研究成果的影響力。生物醫(yī)學(xué)領(lǐng)域的基礎(chǔ)研究可以快速轉(zhuǎn)化為技術(shù)應(yīng)用,因此突破性論文同時(shí)具有高學(xué)術(shù)影響力和高技術(shù)影響力特征。突破性論文大多來自一般性基礎(chǔ)研究,一段時(shí)間后可以顯示實(shí)際應(yīng)用價(jià)值,因此本研究提出的三元計(jì)量特征對(duì)于大多數(shù)突破性論文是適用的。但對(duì)于純理論研究和純應(yīng)用研究領(lǐng)域,該方法還需要進(jìn)一步調(diào)整才能使用。純理論研究很難轉(zhuǎn)化為實(shí)際應(yīng)用,如考古和理論物理研究,其重大影響多限于人類認(rèn)知,因此技術(shù)影響力較低。純應(yīng)用研究對(duì)技術(shù)創(chuàng)新的影響較大,但學(xué)術(shù)影響力較低。因此,在純理論研究和純應(yīng)用研究領(lǐng)域,需要考慮突破性論文識(shí)別方法的差異性,賦予三元指標(biāo)不同的權(quán)重,例如,純理論研究論文的技術(shù)影響力指標(biāo)權(quán)重應(yīng)適當(dāng)降低,學(xué)術(shù)影響力權(quán)重應(yīng)該適當(dāng)升高。
突破性論文的早期識(shí)別十分重要。本研究采用的新穎性是一個(gè)非常好的即時(shí)性指標(biāo),而學(xué)術(shù)影響力和技術(shù)影響力考察的是論文在實(shí)際應(yīng)用中的價(jià)值,不經(jīng)過時(shí)間檢驗(yàn)難以預(yù)知,尤其是技術(shù)影響力需要更長(zhǎng)的時(shí)間來檢驗(yàn)。突破性論文的早期識(shí)別應(yīng)遵循科技發(fā)展規(guī)律,盡量減少而非消除時(shí)間滯后性。未來提高突破性論文早期識(shí)別的精準(zhǔn)性和效率,可以從三個(gè)方面入手。一是提高技術(shù)影響力指標(biāo)的時(shí)效性:本研究采用8 年及以上觀察窗口,未來可以嘗試?yán)酶虝r(shí)間(3~5 年)內(nèi)的專利引用、專利權(quán)人重要性等信息來計(jì)算技術(shù)影響力;二是挖掘其他即時(shí)性指標(biāo)的特征:例如,自我評(píng)價(jià)語句文本特征和學(xué)科交叉特征等;三是提高突破性論文評(píng)價(jià)和識(shí)別效率:例如,在本研究的基礎(chǔ)上實(shí)現(xiàn)新穎性和技術(shù)影響力計(jì)算平臺(tái)化。