李賢 楊瑞仙
摘要:[目的/意義]專利的被引頻次是衡量專利影響力的重要指標。由于專利的引用潛力因學科和發(fā)表年份的不同而呈現(xiàn)出巨大差異,因此專利的被引頻次需要標準化之后才可以實現(xiàn)跨學科、跨年份比較。[方法/過程]基于專利向心引用網(wǎng)絡構建一個新的專利被引頻次的標準化指標——NPCN。為了驗證該指標的有效性,從Dimension數(shù)據(jù)庫中獲取2005-2010年3D打印領域已獲授權的專利,將其按照FoR分類進行學科劃分,分析不同學科、不同年份的專利在被引頻次和NPCN分布情況,并采用比均值法、比參考文獻法、Z score、NPCN對比它們與專利被引頻次的相關關系。[結果/結論]3D打印領域的專利在22個FoR學科分類中均有分布,但不同學科、不同年份的專利在被引頻次上差距較大,經(jīng)過NPCN標準化處理之后,不同專利之間差距變小,呈現(xiàn)出明顯的同分布趨勢。在相關性方面,NPCN相對其他標準化指標來說與被引頻次的相關程度低。
關鍵詞:向心引用網(wǎng)絡? ? 專利被引頻次? ? 標準化指標? ? 跨學科比較? ? 跨年份比較
分類號:G304
引用格式:李賢, 楊瑞仙. NPCN:基于向心引用網(wǎng)絡的專利被引頻次標準化方法研究[J/OL]. 知識管理論壇, 2023, 8(1): 40-52[引用日期]. http://www.kmf.ac.cn/p/331/.
1? 引言
專利被引頻次是衡量專利影響力的重要指標,被引頻次高的專利一般有著較高的質量[1]、技術價值[2]、創(chuàng)新程度[3]以及較廣的知識流動方向[4]。但由于不同學科發(fā)表和引用習慣的不同,不同學科專利的被引頻次不能直接進行比較[5]。例如生物醫(yī)學領域專利發(fā)文量大、更新速度快,專利的被引頻次也較高,但數(shù)學、物理學等領域,科研周期較長,引文積累所需要的時間更久,專利被引頻次也普遍低于生物醫(yī)學領域的專利[6]。即使在同一學科中,發(fā)表時間早的專利通常比發(fā)表時間晚的專利有著更高的被引頻次[7]。為了消除這種差異,對不同學科、不同年份專利的影響力進行公平合理的測度和評價,科研工作者往往需要一種標準化的方法對不同專利的被引次數(shù)進行數(shù)學變換,使得標準化后的被引頻次達到近似同分布的效果,以實現(xiàn)專利的跨學科、跨年份比較[8]。專利是技術創(chuàng)新的載體,對不同專利的被引頻次進行合理的比較,對于識別重要專利、探索技術發(fā)展路線以及評估專利價值等具有重要的意義。
引文標準化的基本思想是盡可能消除對引用潛力產生干擾的變量的影響,如學科領域、發(fā)表年份、文獻類型等。早在20世紀80年代,引文標準化的研究引起了科研人員的關注。近年來,越來越多的學者基于不同的理論和模型提出了多種標準化方法。總體來看,引文標準化主要歸納為兩種,分別是從被引端進行標準化和從施引端進行標準化[9]。被引端的標準化是通過固定的學科分類體系來修正不同學科、不同年份之間的引用潛力差異,目前最為常見的方法主要包括基于篇均被引頻次[10]、基于篇均參考文獻數(shù)[11]以及基于百分位數(shù)的標準化[12]3種。施引端的標準化方法對不同學科領域施引專利的引用潛力進行修正,常見的施引端標準化方法有活躍參考文獻[13]、標準化引文分數(shù)[14]、pi指數(shù)[15]等。
筆者在相關研究綜述的基礎上,提出了一種基于專利的向心引用網(wǎng)絡的被引頻次標準化指標。為了驗證該指標的有效性,筆者將3D打印領域2005-2010年期間發(fā)表的專利劃分到不同的學科中,并對發(fā)表在不同學科、不同年份的專利進行標準化處理,最后還選取其他3種標準化指標和NPCN(normalized patent citations based on network)對比分析它們與專利被引頻次間的相關關系。根據(jù)伍軍紅等的研究結果[7],理想的標準法指標可以使不同對象的被引頻次呈現(xiàn)同分布的趨勢,從而可以對它們的影響力進行比較。筆者采用相同的評價標準來判斷向心網(wǎng)絡指標的有效性。
2? 相關研究綜述
已有的標準化方法主要是用來消除不同發(fā)表時間、不同領域的論文在被引頻次上的差異。專利的被引頻次可以用來反映專利的質量,這跟論文被引頻次的作用有一定的相似性[16]。但不同專利之間因發(fā)表年份、技術領域存在著一定的差異[17],因此,將論文標準化方法擴展應用到專利分析中是一個值得開拓的研究內容。
2.1? 參考標準的選擇
目前,被引頻次標準化方法主要是學科標準化,標準化過程中選取的學科參考標準主要是用來表征引用潛力,參考標準的確定為被引頻次標準化奠定了基礎,從而實現(xiàn)對不同學科領域的比較[9]。固定的學科分類體系是常用的參考標準,如Web of Science的JCR分類,但是這種分類會存在主題交叉重疊、多學科期刊論文無法歸入具體的學科等問題[18]。除此之外,基于JCR分類的標準化指標容易受到論文聚類水平的影響,在不同聚類水平可能得出截然不同的結論[19]。因此,研究人員對參考標準的選取進行了許多改進與探索。在對JCR分類體系進行改進的基礎上,W. Glanzer等提出多學科期刊(如Nature或Science)所發(fā)表的論文可以根據(jù)其參考文獻將其配到相應的學科中,解決了很多論文無法分類的問題[20];針對JCR中學科主題交叉重疊問題,N. Rons利用PBFN(partition-based field normalization)方法來獲得更詳細的分類體系,這種辦法可以將所涉及的重疊主題單獨劃為一個獨立主題類來實現(xiàn)被引頻次標準化[21]。另外,使用其他學科分類也是確定參考標準的一種選擇,L. Bornnman等建議采用諸如化學文摘數(shù)據(jù)庫或醫(yī)學主題詞表對某些特定學科的論文進行分類[22]。針對現(xiàn)有參考標準的弊端,有研究人員提出新的學科分類體系,例如,L. Waltman等提出一種基于引用聚類的學科分類體系,這種方法可以覆蓋所有的論文且每篇論文只歸入唯一的學科[23]。R. Kostoff等利用專家意見來確定與特定論文有著相似主題的論文集,并認為只有將待評價論文的引文數(shù)量與相似論文集的引文數(shù)量做比較時,標準化方法才有意義[24]。C. Colliander基于共有的參考文獻和主題詞代替專家意見獲得相似論文集,簡化了數(shù)據(jù)集的獲取流程。除了固定的學科分類體系外,論文的參考文獻、引證文獻或期刊等也可以作為論文的參照標準[25]。A. Schubert等將論文所屬期刊作為參照標準來計算相對影響指標[26];B. I. Hutchins等通過構建論文共引網(wǎng)絡作為論文的參照標準,提出了一種論文學術影響力評價的新指標[27]。
2.2? 被引頻次標準化方法研究
不同學科間的相互比較需要對被引頻次進行標準化處理已經(jīng)成為共識。目前,被引頻次標準化處理主要有兩種方式:從被引端進行標準化以及從施引端進行標準化。從被引端進行標準化的研究由來已久,相對引用指標是最常用的方法,它是指以論文的被引頻次除以論文所在學科的平均被引頻次來進行標準化,論文所在學科的平均被引頻次可以視為論文期望被引頻次[10]。根據(jù)計算順序的不同,相對影響指標可以分為AoR(averages of ratios)和RoA(ratios of averages)兩種。2015年,G. Abramo等提出了FSS指標來評估科學家個人學術影響力,該指標在相對引用指標的基礎上,將作者貢獻率納入考慮范圍,并用此來評估科學家的成就[28];G. Abramo等比較了多種指標,并認為所有只考慮論文比值的指標都是無效的,任何在此基礎上的改進都是徒勞[29]。在諸多有關相對引用指標的討論中,基于百分位數(shù)的標準化指標也被提出?;诎俜治粩?shù)的標準化指標將論文分成若干等級,不再使用數(shù)學平均值的計算方法,而是用分布情況來描述被引頻次。L. Bornmann等認為用分布要優(yōu)于算數(shù)平均值,進而提出將百分位數(shù)指標代替平均值算法的評價方法[11]。在基于百分位數(shù)的標準化指標的研究中,L. Bornmann等還將論文根據(jù)被引頻次分成6個等級并對不同的等級分布賦予不同的權重并對各個百分位分布概率進行加權平均[12]。除此之外,基于篇均參考文獻數(shù)也是一種從被引端進行標準化的方法。E. Garfield等認為衡量某領域論文引用潛力最準確的指標是該領域篇均參考文獻的數(shù)量[30]。2011年,M. Kosmulski提出NSP(number of successful paper)指標,即論文標準化處理可以用論文的被引頻次除以其參考文獻數(shù)[31]。隨后,諸多研究將論文集的平均參考文獻數(shù)代替單篇論文的參考文獻數(shù),相應的標準化指標也隨之而生,如CSNCR(citation score normalized by cited references)、MCSNCR(mean citation score normalized by cited references)、SNCS(source normalized citation score)等[11]。
基于施引端的標準化方法是修正基于不同學科領域施引論文或期刊引用行為的方法。1985年,H. Small等首次應用于共被引分析并以此來平衡不同學科或領域論文共被引值的差異[32]。之后,L. Waltman等借鑒施引端標準化方法的思想提出了標準化引文分數(shù),該方法統(tǒng)計基于單篇施引文獻的參考文獻數(shù)量作為標準化的參考標準,從而跨學科地比較論文的學術影響力[14],標準化引文分數(shù)基于施引文獻的參考文獻數(shù)量來加權引文影響力,但是不同學科的活躍參考文獻數(shù)存在著顯著差異,為了消除學科間的差異,L. Waltman等又引入pi指數(shù)用于降低不同被引密度學科在計量中所產生的差異,類似方法已經(jīng)在實證研究中得到證明[15]。此外,L. Waltman等還將上述兩種指標與SNCS與MNCS(mean normalized citation score)進行比較,結果發(fā)現(xiàn)不同的指標在不同的語境中表現(xiàn)效果不同[33]。
通過對相關的研究進行梳理和總結,我們可以看出現(xiàn)有研究還存在著以下不足:①標準化方法將論文學科平均特征作為其引文潛力的表征,并不是使用目標論文本身的特征;②大多數(shù)標準化方法研究并沒有兼顧論文的被引情況和施引情況;③目前的被引頻次標準化方法尚未拓展到專利分析中。
3? 基于向心引用網(wǎng)絡的指標構建
3.1? 專利向心引用網(wǎng)絡
在網(wǎng)絡理論中,如果將引用網(wǎng)絡的聚焦點放在特定的目標節(jié)點時,我們稱之為向心(或“自我中心”)[34]。在專利的向心引用網(wǎng)絡中,網(wǎng)絡的聚焦點是某篇特定的專利。筆者構建了專利p的向心引用網(wǎng)絡(見圖1),其中網(wǎng)絡的節(jié)點代表著不同的專利,網(wǎng)絡的邊代表的是不同專利之間的引用關系[35]。從p的角度來看,向心引用網(wǎng)絡可以具體分為4個子網(wǎng):CC子網(wǎng)、RC子網(wǎng)、CR子網(wǎng)和RR子網(wǎng)。
CC子網(wǎng)包含所有引用p的專利的施引專利。通過CC子網(wǎng),可以確定專利p在其前向引用網(wǎng)絡中的相對位置,依據(jù)的標準是p及其前向引用專利的被引量,所以筆者只選擇二階引用來構建CC子網(wǎng)。
RC子網(wǎng)包含所有引用p的專利的參考專利。RC子網(wǎng)中的專利與專利p存在“共被引”關系。從專利p的角度來看,RC子網(wǎng)利用專利p的“共被引”關系來測度其作為知識來源對后續(xù)施引專利的影響程度。
CR子網(wǎng)包含所有被p引用的專利的施引專利。CR網(wǎng)絡中的專利與專利p存在著“耦合”關系。從p的視角來看,CR子網(wǎng)通過“耦合”關系測度專利p的知識基礎和技術復雜性。
RR網(wǎng)絡包含所有被p引用的專利的參考專利。從專利p的視角來看,RR子網(wǎng)使用p的“施引”關系來確定其在二代后向引用網(wǎng)絡中的相對位置。
參考文獻和被引頻次從不同的維度反映專利的特征,其中參考文獻反映的是專利的知識基礎和本身的技術復雜性,被引頻次反映專利被其他專利使用的程度[35]。在專利發(fā)表之后,向心引用網(wǎng)絡中的RR子網(wǎng)中的節(jié)點和邊便不再發(fā)生變化,但CR子網(wǎng)、RC子網(wǎng)和CC子網(wǎng)的節(jié)點和邊仍然隨著時間而增加。
3.2? 指標構建
筆者構建了一個全新的網(wǎng)絡指標來標準化專利的被引頻次。該部分以專利p為例詳細介紹網(wǎng)絡指標NPCN,其計算公式如下:
公式(1)
其中,CITp是指專利p的被引頻次,TSI(technological span index)是專利的技術跨度指標。TSI是由X. Hu、R. Rousseau和J. Chen在2012年提出[35],它是測度專利的預期影響力的指標。TSI可以表達為專利的外生指數(shù)(OIp)和專利技術興趣指數(shù)(TII)的乘積,其計算公式如下:
TSI=OIp*TII? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 公式(2)
專利的外生指數(shù)(OIp)反映的是專利p在包含該專利和其參考專利所組成的網(wǎng)絡中的相對位置,它可以表達為:
公式(3)
其中,T(p)指被p所引用的專利數(shù)量。另外,將專利p和其參考專利共同組成一個專利集并將它們按被引頻次倒序進行排列,Rp指專利p在專利集中的順序。
專利的技術興趣指數(shù)(TII)測度的是從參考專利流向專利p的技術知識的創(chuàng)新密度,TII可以用以下的公式進行計算:
公式(4)
其中,CITT(Rp)是專利p所有參考專利的被引頻次之和(見圖1的CR子網(wǎng))。
在實際操作時,p的參考專利有以下3種情況:①無參考專利;②參考專利數(shù)量不為0但均未被引用;③參考專利數(shù)量不為0且至少1篇參考專利被引用過。在前兩種情況下,專利p的TSI指數(shù)為0。因此,在本研究中不考慮前兩種情況。
4? 數(shù)據(jù)來源與學科分類
4.1? 數(shù)據(jù)來源
3D打印技術是20世紀80年代中期開始發(fā)展的一項顛覆性技術[36-37]。它無需任何模具或機械加工,就能直接從計算機圖形數(shù)據(jù)中生成任何形狀的零件,從而極大地縮短產品的研制周期,提高產品的生產率。近些年來,有關3D打印的專利數(shù)量呈現(xiàn)持續(xù)增長的趨勢,目前該技術已廣泛應用于工業(yè)設計和生物技術等領域。因此,對3D打印領域的專利進行合適的標準化處理有助于測度和評價該領域的技術影響力。本研究選取Dimensions數(shù)據(jù)庫作為數(shù)據(jù)來源,Dimensions數(shù)據(jù)庫包含專利、論文以及參考信息和引文信息等,而且提供編程的途徑來批量下載這些信息,這使得Dimensions成為分析專利被引頻次標準化的理想選擇[38-39]?;诖?,本研究制定如下的檢索式:title_abstract_claims:((three dimensional print*) OR (3 dimensional print*) OR (3D print*) OR (3-D print*) OR (additive manufactur*) OR (material increas* manufactur*) OR (rapid manufactur*) OR (rapid prototyp*) OR (layer* manufactur*))??紤]到專利被引頻次分布的情況,筆者要保證專利至少有10年的被引時間以使引文穩(wěn)定可靠[40],同時也消除短時間窗口可能帶來的弊端[41],因此,將專利的出版時間限定在2005-2010年,檢索時間為2022年6月,一共獲得415 827條已授權的專利數(shù)據(jù)。再進一步,筆者利用Dimensions數(shù)據(jù)庫提供的API下載專利的參考專利和施引專利,并逐一構建每條專利的向心引用網(wǎng)絡。
4.2? 學科分類的選取
本研究使用Fields of Research (FoR)分類來界定專利的學科分類。FoR分類是澳大利亞和新西蘭在2008年共同開發(fā)的分類體系,它一共包含22個類目[42]。Dimensions數(shù)據(jù)庫采用機器學習和專家意見相結合的方法將其收錄的專利劃分為最為合適的一到多個FoR類目中[43]。在本研究中,如果專利被劃分為多個不同的類目,則將分別在不同學科對該專利的被引頻次進行標準化[44]。
5? 研究結果
5.1? 描述性統(tǒng)計分析
表1逐年展示了2005-2010年期間專利數(shù)量的描述性統(tǒng)計分析結果。由于使用全計數(shù)法來對專利進行分類[42],所以各學科的專利數(shù)量總數(shù)略大于下載的專利數(shù)量。由表1的統(tǒng)計結果可以看出,在2005-2010年,3D打印領域發(fā)表的專利數(shù)量龐大而且保持在一個相對穩(wěn)定的狀態(tài),而且在22個FoR分類中均有涉及,其中,分布最多的6個類別分別是09 Engineering、03 Chemical Sciences、08 Information and Computing Sciences、02 Physical Sciences、11 Medical and Health Sciences、06 Biological Sciences,由此說明,3D打印技術的發(fā)展與工程、化學、信息技術、物理以及醫(yī)學等領域之間密切相關。
5.2? 不同學科專利被引頻次標準化后的效果
為了驗證NPCN標準化的效果,筆者分別對比不同學科的專利被引頻次和NPCN的平均分布和整體分布情況(見表2)。從平均情況來看,各學科的專利在被引頻次方面差異明顯,例如:13 Education領域的專利被引頻次的平均值和中位數(shù)均最大為46.50,而07 Agricultural and Veterinary Sciences領域的專利被引頻次的平均值和中位數(shù)為6.71,前者是后者的6.93倍之多。由此可見,發(fā)表于不同學科的專利在被引頻次不具有直接可比性。而經(jīng)過標準化處理之后,不同學科的專利NPCN平均值分布范圍變?yōu)閇3, 5.75],中位數(shù)的變化范圍為[2.54, 5.75],由此可以看出專利NPCN平均值最大的學科和最小的學科之間的差異僅為1.92倍,中位數(shù)最大的學科與最小的學科之間的差異為2.26倍。所以無論是平均值還是中位數(shù),專利的NPCN都要比被引頻次的分布更為集中、更加聚攏。因此,從平均分布上來看,NPCN對專利被引頻次的標準化效果較為明顯。
為了進一步分析NPCN的標準化效果,筆者還對比了專利被引頻次和NPCN的整體分布情況。結合圖2和表3可以看出,不同學科的專利在被引頻次上差異明顯,甚至在同一學科中分布也十分離散。經(jīng)過標準化處理之后,不同領域的專利NPCN分布更加集中且差異顯著減小。從平均分布和整體分布上來看,不同學科的專利NPCN呈現(xiàn)出明顯的同分布狀態(tài)。由此說明,NPCN在標準化不同學科專利的被引頻次時有著良好的效果。
5.3? 不同年份專利被引頻次標準化后的效果
為了驗證NPCN對不同年份專利被引頻次的標準化后的效果,筆者仍從平均和整體兩個方面觀察專利被引頻次和NPCN分布情況。表4展示的是不同專利在兩種指標上的平均分布情況。由結果可以看出,2005年的專利篇均被引最高為24.04,而2010年發(fā)表的專利篇均被引頻次最低僅為16.25,前者是后者的1.48倍,而經(jīng)過標準化處理之后,兩者之間的差距降為1.11:1。用中位數(shù)來計算不同年份的專利在平均分布上的差距時,也得到相似的結果。
另外,筆者分析了不同專利在被引頻次和NPCN的整體分布情況,分布結果見圖3。從圖3和表6中可以看出,不同年份發(fā)表的專利在被引頻次上相差很大,而經(jīng)過標準化處理之后,不同專利在NPCN上的差異減小達到了近似同分布的狀態(tài)。結合兩種分布情況來看,NPCN標準化處理可以使不同的專利實現(xiàn)跨年份比較。
5.4? 不同指標與專利被引頻次的相關性分析
該部分旨在分析比均值法(被引頻次/領域篇均被引)、比參考文獻法(被引頻次/參考專利數(shù))、被引頻次的Z score、NPCN指標與專利被引頻次的相關性關系。由于數(shù)據(jù)不符合正態(tài)性分布,所以筆者使用Spearman相關系數(shù)來做相關性分析,根據(jù)相關系數(shù)進行分類:|r|≥0.8為高度相關,0.5≤|r|<0.8為中度相關,0.3≤|r|<0.5為低度相關,|r|<0.3為基本不相關[45]。由圖4可以看出,對于3D打印領域的專利而言,未被標準化的被引頻次與比均值法和Z score標準化的結果呈現(xiàn)顯著的高度正相關(p=0.99,0.97),與比參考文獻法的標準化結果呈現(xiàn)顯著的中度相關(p=0.74),與NPCN的相關系數(shù)僅為0.43,呈現(xiàn)顯著的低度相關。在NPCN和其他標準化指標的相關性分析方面,圖4的結果顯示NPCN和其他3種標準化指標呈現(xiàn)正相關關系,但相關程度較低。由此可以說明,比均值法、Z score和比參考文獻法標準化結果與被引頻次在分布上基本相同,而NPCN與被引頻次以及其他3種指標的低相關性說明NPCN既保留專利間的差異,但在分布上又獨立于被引頻次和其他指標。
6? 結果討論
目前,我國的科學技術評價改革已經(jīng)到了關鍵時刻,專利是技術創(chuàng)新成果的載體,對不同專利的影響力進行合理公平的比較,有助于精準掌握創(chuàng)新態(tài)勢發(fā)展、分配創(chuàng)新資源。筆者構建的NPCN提供了利用向心引用網(wǎng)絡對專利被引頻次進行標準化的分析視角。以下將從兩個方面來討論NPCN指標:
一方面,NPCN使用專利本身的預期影響力來代表專利的引用潛力,而不是專利所在領域的平均特征[35]。專利被引頻次標準化的效果受到很多因素的影響,其中,引文潛力的選擇是影響最大的因素。目前大多數(shù)標準化指標的實現(xiàn)需要將專利放到所在的領域內,但這種指標存在一些不合理之處,例如,領域的平均影響力代表的是專利所在領域的平均水平,并不能完全等同于特定專利的引用潛力[46],而且,專利由于學科分類方案的不同可能會被歸入不同的學科,選擇不同粒度級別的學科分類系統(tǒng)也會對最終的標準化結果產生巨大的影響[8]。
另一方面,NPCN在標準化被引頻次時同時考慮專利的參考情況和施引情況。專利的參考情況用來測度專利的知識來源[4],施引情況則反映目標專利對其他專利的影響程度[47]。因此,相對于單純基于被引端或者基于施引端的標準化方法,NPCN不僅可以對專利的被引頻次進行標準化處理(見表2、表3和圖2、圖3),還可以反映專利中的技術復雜性[35]。
7? 結語
專利的被引頻次作為一種衡量專利影響力的外部指標,無論是衡量專利的影響力,還是作為同行評議的輔助,都具有重要的參考作用。但在實際應用時,由于專利被引頻次因所屬學科、發(fā)表年份存在很大的差異,不同的專利往往不能直接比較。因此,對被引頻次進行標準化處理,使其可以進行跨學科跨年份的比較是科研評價的現(xiàn)實需要。F. Radicchi等指出理想的標準化指標應使得不同學科、不同年份標準化后的引文實現(xiàn)近似同分布[48]。筆者基于向心引用網(wǎng)絡設計NPCN指標,并以Dimensions數(shù)據(jù)庫中3D打印領域2005-2010年期間已獲授權的專利為例來驗證該指標的有效性。研究結果顯示:2005-2010年期間3D打印領域的專利在22個FoR學科中均有涉及,且主要分布在09 Engineering、03 Chemical Sciences、08 Information and Computing Sciences、02 Physical Sciences、11 Medical and Health Sciences、06 Biological Sciences;從專利被引頻次和NPCN分布的對比情況來看,不同學科、不同年份的專利在被引頻次上差異明顯,但經(jīng)過標準化處理之后,不同專利的NPCN差異明顯縮小,分布更加聚攏,呈現(xiàn)出明顯的同分布趨勢;在相關性方面,較比均值法、Z score和比參考文獻法而言,NPCN與專利的被引頻次相關程度低?;谝陨鲜聦?,筆者得出以下結論:本研究提出的NPCN是一種獨立于專利被引頻次的標準化指標,當采用NPCN指標跨學科、跨年份比較時可以有效消除不同專利在被引頻次上的巨大差異,使不同專利的引文呈現(xiàn)出明顯的同分布趨勢。因此,NPCN在標準化不同學科、不同年份的專利被引頻次時效果顯著。
本文還存在著一些不足,如僅選擇3D打印領域的專利來驗證NPCN的有效性。今后,筆者將選取更多的研究領域來考查NPCN對專利的標準化效果。此外,被引頻次標準化指標在短時間引文窗口下是不可靠的,因為引文窗口時間過短,專利的被引頻次還未達到,但如果引文窗口時間過長則不利于及時評估專利的價值。專利引文的同步序列為解決這一問題帶來了思路[49]。因此,未來筆者將借助引文同步序列來改進NPCN,以期實現(xiàn)對專利被引頻次及時公平的標準化測度。
參考文獻:
[1] CHENG Y H, KUAN F Y, CHUANG S C, et al. Profitability decided by patent quality? an empirical study of the U.S. semiconductor industry [J]. Scientometrics, 2010, 82(1): 175-183.
[2] SILVERBERG G, VERSPAGEN B. The size distribution of innovations revisited: an application of extreme value statistics to citation and value measures of patent significance [J]. Journal of econometrics, 2007, 139(2): 318-339.
[3] KE Q. Technological impact of biomedical research: the role of basicness and novelty [J]. Research policy, 2020, 49(7): 15.
[4] GAG C, LE BAS C. Uses without too many abuses of patent citations or the simple economics of patent citations as a measure of value and flows of knowledge[J]. Economics of innovation & new technology, 2005, 14(5): 333-338.
[5] 張志輝, 程瑩, 劉念才. 線性學科標準化方法的效果優(yōu)化及其對科研評價結果的影響——以39所”985工程”大學論文質量排名為例 [J]. 情報學報, 2015, 34(3): 300-312.
[6] LILLQUIST E, GREEN S. The discipline dependence of citation statistics [J]. Scientometrics, 2010, 84(3): 749-762.
[7] 伍軍紅, 肖宏, 任美亞, 等. PCSI:一種單篇論文被引頻次標準化方法[J]. 圖書情報工作, 2020, 64(23): 22-30.
[8] 任元秋, 王興, 鄭欽欽. 不同學科分類方案下不同學科標準化方法效果的比較研究 [J]. 圖書情報工作, 2021, 65(3): 84-92.
[9] 周群, 左文革. 論文被引頻次標準化方法研究進展[J]. 情報科學, 2018, 36(2): 171-176 .
[10] SCHUBERT A, BRAUN T. Cross-field normalization of scientometric indicators [J]. Scientometrics, 1996, 36(3): 311-324.
[11] BORNMANN L, HAUNSCHILD R. Citation score normalized by cited references (CSNCR): the introduction of a new citation impact indicator [J]. Journal of informetrics, 2016, 10(3): 875-887.
[12] BORNMANN L. Towards an ideal method of measuring research performance: some comments to the Opthof and Leydesdorff (2010) paper [J]. Journal of informetrics, 2010, 4(3): 441-443.
[13] ZITT M, SMALL H. Modifying the journal impact factor by fractional citation weighting: the audience factor[J]. Journal of the American Society for Information Science and Technology, 2008, 59(11):1856-1860
[14] WALTMAN L, ECK N J V. A new methodology for constructing a publication-level classification system of science [J]. Journal of the American Society for Information Science and Technology, 2012, 63(12): 2378-2392.
[15] WALTMAN L, ECK N, LEEUWEN T, et al. Some modifications to the SNIP journal impact indicator [J]. Journal of informetrics, 2013, 7(2): 272-285.
[16] NARIN F. Patent bibliometrics [J]. Scientometrics, 1994, 30(1): 147-155.
[17] 萬小麗. 專利質量指標中“被引次數(shù)”的深度剖析[J]. 情報科學, 2014, 32(1):68-73.
[18] VAN ECK N J, WALTMAN L, VAN RAAN A F J, et al. Citation analysis may severely underestimate the impact of clinical research as compared to basic research [J]. Plos one, 2013, 8(4): e62395.
[19] ADAMS J, GURNEY K, JACKSON L. Calibrating the zoom - a test of Zitts hypothesis [J]. Scientometrics, 2008, 75(1): 81-95.
[20] GLNZEL W, SCHUBERT A, CZERWON H J. An item-by-item subject classification of papers published in multidisciplinary and general journals using reference analysis [J]. Scientometrics, 1999, 44(3): 427-439.
[21] RONS N. Partition-based field normalization: an approach to highly specialized publication records [J]. Journal of informetrics, 2012, 6(1): 1-10.
[22] BORNMANN L, MUTZ R, NEUHAUS C, et al. Citation counts for research evaluation: standards of good practice for analyzing bibliometric data and presenting and interpreting results [J]. Ethics in science & environmental politics, 2008, 8(1): 93-102.
[23] WALTMAN L, ECK N J V. A new methodology for constructing a publication-level classification system of science [J]. Journal of the American Society for Information Science and Technology, 2012, 63(12): 2378-2392.
[24] KOSTOFF R, MARTINEZ W. Is citation normalization realistic? [J]. Journal of information science, 2005, 31(1): 57-61.
[25] COLLIANDER C. A novel approach to citation normalization: a similarity-based method for creating reference sets [J]. Journal of the Association for Information Science & Technology, 2015, 66(3): 489-500.
[26] SCHUBERT A, BRAUN T. Reference standards for citation based assessments[J]. Scientometrics, 1993, 26(1):21-35.
[27] HUTCHINS B I, YUAN X, ANDERSON J M, et al. Relative citation ratio (RCR): a new metric that uses citation rates to measure influence at the article level [J]. Plos biology, 2016, 14(9): e1002541.
[28] ABRAMO G, DANGELO C A. A methodology to compute the territorial productivity of scientists: the case of Italy [J]. Journal of informetrics, 2015, 9(4): 675-685.
[29] ABRAMO G, DANGELO C A. A comparison of university performance scores and ranks by MNCS and FSS [J]. Journal of informetrics, 2016, 10(4): 889-901.
[30] GARFIELD E, MERTON R K. Citation indexing: its theory and application in science, technology, and humanities[M]. New York:Wiley New York, 1979:84.
[31] KOSMULSKI M. Successful papers: a new idea in evaluation of scientific output [J]. Journal of informetrics, 2011, 5(3): 481-485.
[32] SMALL H, SWEENEY E. Clustering the science citation index using co-citations [J]. Scientometrics, 1985, 7(3-6): 391-409.
[33] WALTMAN L, ECK N. A systematic empirical comparison of different approaches for normalizing citation impact indicators [J]. Journal of informetrics, 2013, 7(4): 833-849.
[34] ROUSSEAU R. Algebraic structures in the ego article citation network[C/OL]. 13th International Conference of the International Society for Scientometrics and Informetrics, 2011[2022-09-15]. https://www.issi-society.org/publications/issi-conference-proceedings/proceedings-of-issi-2011/.
[35] HU X, ROUSSEAU R, CHEN J. A new approach for measuring the value of patents based on structural indicators for ego patent citation networks [J]. Journal of the American Society for Information Science & Technology, 2012, 63(9): 1834-1842.
[36] HUANG Y, ZHU D, QIAN Y, et al. A hybrid method to trace technology evolution pathways: a case study of 3D printing [J]. Scientometrics, 2017, 111(1): 185-204.
[37] HUANG Y, LI R, ZOU F, et al. Technology life cycle analysis: from the dynamic perspective of patent citation networks [J]. Technological forecasting and social change, 2022,181:121760.
[38] HERZOG C, HOOK D, KONKIEL S. Dimensions: bringing down barriers between scientometricians and data [J]. Quantitative science studies, 2020, 1(9): 1-9.
[39] SINGH V K, SINGH P, KARMAKAR M, et al. The journal coverage of Web of Science, Scopus and Dimensions: a comparative analysis [J]. Scientometrics, 2021(2), 126(6): 5113-5142.
[40] WANG X, ZHANG Z. Improving the reliability of short-term citation impact indicators by taking into account the correlation between short- and long-term citation impact [J]. Journal of informetrics, 2020, 14(2): 101019.
[41] WANG J. Citation time window choice for research impact evaluation [J]. Scientometrics, 2013, 94(3): 851-872.
[42] Australian Bureau of Statistics.Australian and New Zealand Standard Research Classification (ANZSRC) [EB/OL]. [2022-06-13]. https://www.abs.gov.au/Ausstats/abs@.nsf/Latestproducts/4AE1B46AE2048A28CA25741800044242?opendocument
[43] Zhang L, Sun B B, Shu F, et al. Comparing paper level classifications across different methods and systems: an investigation of Nature publications [J]. Scientometrics, 2022, 127(12): 7633-7651.
[44] SIVERTSEN G, ROUSSEAU R, ZHANG L. Measuring scientific contributions with modified fractional counting [J]. Journal of informetrics, 2019, 13(2): 679-694.
[45] 陳斯斯, 劉春麗. 引文歸一化指標RCR與FWCI指標, F1000評分的相關性研究 [J]. 中國科技期刊研究, 2021, 32(1): 110-117.
[46] ZHANG L, ROUSSEAU R, SIVERTSEN G. Science deserves to be judged by its contents, not by its wrapping: revisiting Seglens work on journal impact and research evaluation [J]. Plos one, 2017, 12(3): e0174205.
[47] WANG J C, CHIANG CH, LIN C. Network structure of innovation: can brokerage or closure predict patent quality? [J]. Scientometrics, 2010, 84(3): 735-748.
[48] RADICCHI F, CASTELLANO C. A reverse engineering approach to the suppression of citation biases reveals universal properties of distributions [J]. Plos one, 2012, 7(3): 9.
[49] 胡小君. 基于科技引用網(wǎng)絡結構算法的科學計量新方法研究 [D]. 杭州:浙江大學, 2012.
作者貢獻說明:
李? 賢:數(shù)據(jù)下載、整理和分析以及論文撰寫與修改;
楊瑞仙:構思、撰寫與修改論文。
NPCN: A New Method of Patent Citations Normalization Based on Ego Patent Citation Networks
Li Xian1? Yang Ruixian2,3
1 Medical Information Center, Medical College, Zhejiang University, Hangzhou 310058
2 School of Information Management, Zhengzhou University, Zhengzhou 450001
3 Zhengzhou Data Science Research Center, Zhengzhou 450001
Abstract: [Purpose/Significance] The number of citations received by patents is an important indicator to measure the influence of patents. Since the citation potential of patents varies greatly by disciplines and publication years, the number of citations received by patents needs to be normalized before cross-disciplinary comparison and cross-year comparison. [Method/Process] Based on ego patent citation network, we constructed a new method, NPCN, to normalize patent citations. Besides, we took patents granted from 2005 to 2010 of 3D printing indexed in Dimensions to verify the effective of NPCN. Specially, we divided these patents into different disciplines with Fields of Research (FoR) and compared the distribution of patent citations and NPCN of patents in different disciplines and publication years. Besides, we also selected the mean method、reference patents method、Z-score method and NPCN methods and compared them with each other in correlation with patent citations. [Results/Conclusions] Patents of 3D printing are categorized into 22 FoR. And it is different between patents in the number of citations. After normalized, the difference between patents in different disciplines and publication years is smaller and a normalized citation distribution is shown. In correlation with patent citations, NPCN is less correlated with patent citations than other normalized methods.
Keywords: ego citation networks? ? patent citations? ? normalized indicators? ? cross-disciplines comparison? ? cross-year comparison