石安杰 裘靖文 趙詩雨
摘? 要:采集2014~2018年京津冀科技主體專利合作數(shù)據(jù)并構(gòu)建網(wǎng)絡,分析科技主體間合作網(wǎng)絡結(jié)構(gòu)并利用熵權(quán)法融合網(wǎng)絡鏈路預測指標挖掘合作機會。結(jié)果表明:北京內(nèi)部專利合作次數(shù)遠大于京津冀跨省合作;國企順應國家政策積極參與省際間專利合作,高校參與率較低;合作網(wǎng)絡存在明顯社團結(jié)構(gòu);京津冀地區(qū)電力行業(yè)機構(gòu)合作仍是未來合作的重點;京津冀創(chuàng)新能力差距懸殊,且河北差距最大。
關(guān)鍵詞:鏈路預測;復雜網(wǎng)絡;合作機會預測;社團結(jié)構(gòu);專利合作網(wǎng)絡
中圖分類號:T-18? ? ? 文獻標識碼:A 文章編號:2096-4706(2020)01-0178-06
Abstract:Collect the patent cooperation data of Beijing,Tianjin and Hebei from 2014 to 2018,build the network,analyze the cooperation network structure among the scientific and technological subjects,and use the entropy weight method to integrate the network link prediction indicators to explore cooperation opportunities. The results show that:the number of patent cooperation within Beijing is far greater than that between Beijing,Tianjin and Hebei provinces;state-owned enterprises actively participate in inter provincial patent cooperation in accordance with national policies,and the participation rate of universities is relatively low;there is an obvious community structure in the cooperation network;the cooperation of power industry institutions in Beijing,Tianjin and Hebei region is still the focus of future cooperation. There is a great gap between Beijing,Tianjin and Hebei in innovation capability,and Hebei Province has the largest gap.
Keywords:link prediction;complex network;cooperation opportunity prediction;community structure;patent cooperation network
0? 引? 言
專利作為科技創(chuàng)新的產(chǎn)物具有易獲取的特點,它能提供技術(shù)發(fā)展與創(chuàng)新活動中有價值的信息,其中合作申請的專利常作為衡量創(chuàng)新的一項實證指標[1]。研究專利技術(shù)合作可以挖掘京津冀經(jīng)濟發(fā)展?jié)摿?促進天津、河北科技發(fā)展進步,打造京津冀目標同向、措施一體、優(yōu)勢互補、互利共贏的發(fā)展新格局[2]。根據(jù)《京津冀藍皮書:京津冀發(fā)展報告(2019)》顯示:2017年京津冀地區(qū)發(fā)明專利授權(quán)數(shù)有5.69萬項,占全國的17.4%。如何利用京津冀專利技術(shù)合作信息,挖掘主體間的專利技術(shù)合作機會,對促進京津冀地區(qū)協(xié)同發(fā)展尤為重要。
1? 相關(guān)研究
探究京津冀專利技術(shù)合作的現(xiàn)狀并進行合作潛力預測,實質(zhì)是復雜網(wǎng)絡及鏈路預測的問題。利用復雜網(wǎng)絡,一方面可探究專利合作發(fā)展趨勢與合作模式的演變。高粱洲等人研究京津冀產(chǎn)學研專利數(shù)據(jù),揭示了京津冀地區(qū)高校專利合作網(wǎng)絡結(jié)構(gòu)特征演化的過程[3]。另一方面可以探究網(wǎng)絡變化的影響因素。OLOF等人研究瑞典區(qū)域間專利合作網(wǎng)絡結(jié)構(gòu),對影響區(qū)域空間親和力的主要因素進行了挖掘[4]。
鏈路預測算法可以幫助研究者從理論上揭示復雜網(wǎng)絡演化機制,并在實際應用中探究研究對象之間的內(nèi)在聯(lián)系[5]。劉竟等人從科研合作網(wǎng)絡“小世界現(xiàn)象”和“無標度特性”出發(fā),在發(fā)現(xiàn)路徑相似性基礎上,引入一定權(quán)重的節(jié)點相似性,可達到較好的預測效果[6]。武玉英等人發(fā)現(xiàn)鏈路預測較其他方法具有更高預測精確度,能更全面地挖掘網(wǎng)絡中潛在合作主體及其權(quán)重[7]。
綜上,本文以京津冀專利合作數(shù)據(jù)為對象,構(gòu)建其專利合作網(wǎng)絡,分析專利合作現(xiàn)狀并利用鏈路預測的方法對京津冀科技主體合作潛力進行挖掘,為京津冀地區(qū)的資源配置及相關(guān)政策的制定提供科學的決策支持。
2? 數(shù)據(jù)采集與處理
本文基于incoPat專利數(shù)據(jù)庫,采集2014~2018年京津冀地區(qū)有效專利數(shù)據(jù)。incoPat自動對檢索條件下申請人專利量進行排序,并列出在前200的科技主體。經(jīng)篩選,得到45308條有效數(shù)據(jù)。根據(jù)地區(qū)對200個申請人分類,得到京津冀地區(qū)申請人186個,其中北京地區(qū)有150個,天津地區(qū)有16個,河北地區(qū)有20個;非京津冀地區(qū)申請人14個。對單次合作時涉及多主體的記錄進行拆分:將ABC拆分為AB、AC、BC。統(tǒng)計數(shù)據(jù)占比,得到圖1。
可以看出,2014~2018年京津冀科技主體間以及京津冀科技主體與非京津冀科技主體的專利合作頻率基本維持不變;相較于與非京津冀科技主體進行專利技術(shù)合作,京津冀科技主體更偏好進行區(qū)域內(nèi)合作;北京地區(qū)在維持省內(nèi)專利技術(shù)合作水平不變的情況下,在跨省市專利合作方面,重心逐漸轉(zhuǎn)向京津冀區(qū)域間專利技術(shù)合作。
3? 網(wǎng)絡構(gòu)建與結(jié)構(gòu)研究
3.1? 網(wǎng)絡構(gòu)建及特征分析
本文中,網(wǎng)絡表示為G=(N,E,W)。其中,N為節(jié)點集,E為邊集,W為權(quán)重集。本文側(cè)重于研究網(wǎng)絡主體間現(xiàn)狀及發(fā)生合作的可能性,因此構(gòu)建了無向有加權(quán)無自環(huán)的網(wǎng)絡。整理2014~2018年京津冀科技主體間專利技術(shù)合作網(wǎng)絡矩陣,使用Gephi繪制2014~2018年京津冀科技主體間專利技術(shù)合作網(wǎng)。
依照圖2對網(wǎng)絡演變總體趨勢分析:近五年,京津冀科技主體間專利技術(shù)合作頻次減少。表明國務院2016年印發(fā)的《“十三五”國家知識產(chǎn)權(quán)保護和運用規(guī)劃》提高專利質(zhì)量、減少專利授權(quán)的政策發(fā)揮作用。科技主體間的專利技術(shù)合作具有非均質(zhì)性:部分節(jié)點間存在緊密的專利技術(shù)合作關(guān)系,如北京奇虎科技有限公司和奇智軟件(北京)有限公司在2014~2016年三年間頻繁進行專利技術(shù)合作,而有些節(jié)點間專利技術(shù)合作很少,甚至不存在合作。
(a)2014年專利技術(shù)合作網(wǎng)絡模型
(b)2015年專利技術(shù)合作網(wǎng)絡模型
(c)2016年專利技術(shù)合作網(wǎng)絡模型
(d)2017年專利技術(shù)合作網(wǎng)絡模型
(e)2018年專利技術(shù)合作網(wǎng)絡模型
網(wǎng)絡模型
網(wǎng)絡的結(jié)構(gòu)特征指標利用Gephi測量得到:網(wǎng)絡密度為0.039,說明網(wǎng)絡為稀疏網(wǎng)絡,平均聚類系數(shù)0.227,平均路徑長度3.054,對網(wǎng)絡進行冪律分布檢驗,如圖3所示,說明網(wǎng)絡為無標度網(wǎng)絡。
分別測量2014~2018年的網(wǎng)絡特征值,結(jié)果如表1所示。網(wǎng)絡直徑、整體網(wǎng)密度和平均路徑長度三個指標的大小可以反映網(wǎng)絡建立聯(lián)系的難易程度。近五年,京津冀科技主體專利技術(shù)合作網(wǎng)絡三個指標較低,說明網(wǎng)絡中的科技主體較難建立合作關(guān)系??赡芫┙蚣降貐^(qū)經(jīng)濟發(fā)展失衡問題仍未解決,三地間仍未建立良好合作渠道。聚類系數(shù)用來衡量網(wǎng)絡的聚集程度,網(wǎng)絡的聚類系數(shù)很低,表明京津冀科技主體間聚集程度低,核心科技主體對網(wǎng)絡影響力低。反映出京津冀科技主體間合作較分散,仍有較大合作潛力可以挖掘。
3.2? 網(wǎng)絡社團結(jié)構(gòu)特征研究
社團是一個節(jié)點集合,其中的節(jié)點間存在著某種相似性,即扮演相同角色或擁有相似功能。Newman提出了模塊度Q模型,考慮節(jié)點度的分布情況來衡量社團結(jié)構(gòu)劃分的優(yōu)劣,社團模塊度越大,說明社團劃分質(zhì)量越高[8]。若i、j代指網(wǎng)絡中的節(jié)點,與無向加權(quán)網(wǎng)絡對應的模塊度定義為:
其中,Wij表示節(jié)點i與j之間的聯(lián)接的權(quán)重(緊密程度),式(1)計算網(wǎng)絡總權(quán)重值w。式(2)中,wi表示與節(jié)點i關(guān)聯(lián)的邊的權(quán)值總和,ci指節(jié)點i所在的社團。函數(shù)δ(u,v)用于判斷兩節(jié)點是否處于同一社團,若u=v則函數(shù)值取1,否則取0。
3.2.1? 專利合作網(wǎng)絡社團劃分
利用Gephi軟件結(jié)合模塊度優(yōu)化算法,對2014~2018年京津冀專利合作網(wǎng)絡進行主體社團劃分,得到13個社團時,模塊化Q取到最大值為0.817。其中包含主體最多的社團有37個主體,最少的只有2個主體。如圖4所示是網(wǎng)絡中最大的兩個社團,其專利合作數(shù)據(jù)占網(wǎng)絡的49.64%。
根據(jù)社團渲染圖可看出,這兩個社團在內(nèi)部存在大量專利合作,例如國家電網(wǎng)公司與天津、河北省電力公司間的合作。根據(jù)主體研究方向可知,京津冀地區(qū)電力行業(yè)專利合作在網(wǎng)絡中占據(jù)重要位置。分析其原因,即河北雄安新區(qū)建設項目旨在打造北京非首都功能疏解集中承載地,其建設發(fā)展離不開電力行業(yè)優(yōu)秀技術(shù)的支持,一定程度上促進電力行業(yè)專利技術(shù)合作。
其余11個社團內(nèi)部連接緊密,與外部連接稀疏,符合社團的定義。同為一個社團的主體研究領域或方向一致,例如中海油研究總院、海洋石油工程股份有限公司等5個海洋能源相關(guān)主體;以及航天材料及工藝研究所、北京航天發(fā)射技術(shù)研究所等9個航天技術(shù)相關(guān)主體。此外,屬于同一總部的分公司間專利合作頻繁,但與其余主體合作較少,形成社團。
3.2.2? 社團結(jié)構(gòu)特征變化規(guī)律
一般認為,模塊度Q值越大,社團結(jié)構(gòu)劃分越好。由圖5可知,五年內(nèi)的Q值在2015~2016年最高,達到0.820,說明這兩年的社團強度最強;在2017年至2018年逐漸下降。另外,網(wǎng)絡模塊度值大約分布在0.3~0.8之間,因此五年內(nèi)京津冀科技主體專利合作網(wǎng)絡具有較明顯的社團結(jié)構(gòu)。
3.3? 網(wǎng)絡節(jié)點結(jié)構(gòu)特征
網(wǎng)絡節(jié)點結(jié)構(gòu)特征主要包括點度中心度、中間中心度和接近中心度。利用UCINET分別測量2014~2018年京津冀科技主體的點度中心度及中間中心度,得到以下結(jié)果。
3.3.1? 點度中心度
點度中心度反映一個節(jié)點在網(wǎng)絡中自身的交往能力高低。
如表2所示,三年間,網(wǎng)絡中點度中心度較大的幾個科技主體主要集中在國家電網(wǎng)公司、清華大學、中國電力科學研究院、中國石油大學之間。這幾家與其他科技主體的聯(lián)系在2014年中保持在17左右,2018年則穩(wěn)定在9左右,這意味著科技主體間的專利技術(shù)合作逐漸減少且密切度下降,排名靠前的科技主體在合作網(wǎng)絡中的影響力相對下降。此外,2018年位列前三的科技主體全部屬于北京有兩家屬于企業(yè)而一所屬于大學。相比之下,北京一直占據(jù)著網(wǎng)絡中的核心地位,但占據(jù)核心地位的科技主體性質(zhì)發(fā)生了改變,企業(yè)的影響力上升。
3.3.2? 中間中心度
中間中心度反映一個節(jié)點在網(wǎng)絡中自身的交往能力高低。
如表3所示,三年間國家電網(wǎng)公司一直在網(wǎng)絡中占據(jù)著不可或缺的核心地位。對比位列前三的科技主體,2018年的三家科技主體均屬于北京,而主體性質(zhì)分別為兩家企業(yè),一所大學??芍本┑貐^(qū)在京津冀專利合作中一直處于樞紐地位,控制信息交流;而主體性質(zhì)的變化則較大,大學在網(wǎng)絡中的信息控制能力下降,而企業(yè)上升,后者在網(wǎng)絡中的掌控資源能力逐漸增強。
4? 京津冀科技主體間專利合作預測
網(wǎng)絡中的鏈路預測是指如何通過已知的網(wǎng)絡結(jié)構(gòu)等信息預測網(wǎng)絡中尚未產(chǎn)生連邊的兩個節(jié)點之間產(chǎn)生連接的可能性[9]。以呂琳媛等人得出的鏈路預測指標精度結(jié)果為基礎,本文運用基于網(wǎng)絡結(jié)構(gòu)相似性的方法,選取RA、CN、AA等八個指標,利用MATLAB進行指標計算及精度評測,并用熵權(quán)法進行指標融合[10],得到京津冀科技主體專利合作網(wǎng)絡演化預測結(jié)果。
4.1? 鏈路預測指標選取與精度評估
4.1.1? 基于信息相似性的指標選取
應用節(jié)點間的相似性進行鏈路預測的一個重要前提假設就是兩個節(jié)點之間的相似性(或者相近性)越大,它們之間存在連接的可能性就越大。
本研究使用兩類基于網(wǎng)絡局部信息的指標對專利合作網(wǎng)絡進行鏈路預測分析。首先是基于共同鄰居節(jié)點的鏈路預測算法,包括共同鄰居指標(CN)、Salton指標、Jaccard指標、Sorenson指標。其次是基于節(jié)點度相似性的鏈路預測算法,包括大度節(jié)點有利指標(HPI)、大度節(jié)點不利指標(HDI)、資源分配指標(RA)及Adamic-Adar指標(AA)。表4總結(jié)了以上8種基于局部信息的相似性指標的定義公式。假設對于網(wǎng)絡中的節(jié)點x,定義它的鄰居為Γ(x),k(x)Γ(x)為節(jié)點x的度。
4.1.2? 精度評價方法
本研究選取AUC作為評價指標,從整體上衡量算法的精確度[9]。將網(wǎng)絡中已存在的鏈接集合E按照隨機劃分的方法劃分為訓練集ET和測試集EP兩個集合,每次隨機從EP中選擇一條鏈接(x,y)與隨機從不存在的鏈接集合EO中選擇的鏈接(x′,y′)的測試值比較。對每對沒有連邊的節(jié)點(x,y)對賦予一個分數(shù)Sxy,若Sxy>Sx′y′,則加0.5分,否則加0分。獨立隨機比較n次,記加1分的次數(shù)為n′,加0.5分的次數(shù)為n′′,因此AUC的計算公式定義為:
4.2? 實證結(jié)果與分析
4.2.1? 基于相似性的指標精度
以京津冀地區(qū)2014~2018年科技主體間專利技術(shù)合作數(shù)據(jù)為基礎,基于網(wǎng)絡結(jié)構(gòu)相似性思想進行鏈路預測8個指標分析及精度測評,得到結(jié)果如表5所示。
本文選取精度較高的四種指標,即CN指標、Salton指標、AA指標及HDI指標共同考慮進行京津冀間科技主體專利合作網(wǎng)絡鏈路預測。
CN指標是基于局部信息的最簡單的相似性指標,指兩節(jié)點如果有更多的共同鄰居,則它們更傾向于連邊。Salton指標的算法思想與CN類似,只是在共同鄰居指標的基礎上增加了一個分母,對共同鄰居算法起到一定優(yōu)化作用。AA指標考慮兩節(jié)點共同鄰居的度信息,其思想是度小的共同鄰居節(jié)點的貢獻大于度大的共同鄰居節(jié)點。HDI指標指與度大節(jié)點相連的節(jié)點對的分數(shù)值偏小。
4.2.2? 潛在合作機會探測
根據(jù)指標定義為每一指標分配權(quán)重進行計算,得出結(jié)論如表6所示。
如表6所示,利用MATLAB進行鏈路預測,對選出的四種指標進行分析,按照指標融合值(使用min-max標準化)進行降序排列,表中展示排名前六的節(jié)點對。其中最容易產(chǎn)生連接的是中國電力科學研究院和國網(wǎng)天津市電力公司,其四種指標均位列前茅,且融合值最高。其中,中國電力科學研究院與其他節(jié)點合作共2558次,國網(wǎng)天津市電力公司與其他節(jié)點共合作2052次,兩家公司的相同合作共1958個,分別占其總合作量的76.5%和95.4%,共同鄰居極為相似。此外,排名靠前的15對節(jié)點中,天津和北京存在的潛在合作主體有4對,河北與北京有3對,河北與天津有1對,剩下的均為北京內(nèi)部合作,共7對,可以看出河北與京津冀其他地區(qū)的合作潛力較低,北京在合作網(wǎng)絡中仍占據(jù)主要地位。
5? 結(jié)? 論
本文運用2014~2018年申請專利數(shù)前200的科技主體專利合作數(shù)據(jù),構(gòu)建京津冀科技主體間專利技術(shù)合作網(wǎng)絡。通過分析整體網(wǎng)絡特征、社團結(jié)構(gòu)及節(jié)點特征,得出如下結(jié)論:京津冀科技主體間專利合作頻次較少,聚集程度較弱;河北的創(chuàng)新能力與京津兩地存在較大差距;北京始終處于合作網(wǎng)絡的核心地位;網(wǎng)絡具有明顯的社團結(jié)構(gòu),劃分依據(jù)多為主體的研究領域;企業(yè)在網(wǎng)絡中的影響力逐年上升,網(wǎng)絡中占據(jù)核心地位的主體性質(zhì)逐漸向企業(yè)轉(zhuǎn)變;京津冀地區(qū)電力行業(yè)專利合作在網(wǎng)絡中占據(jù)重要位置,主體間合作將呈現(xiàn)以國家電網(wǎng)公司及其地方公司為核心,輔以企業(yè)與企業(yè)和研究院之間專利技術(shù)合作的模式。原因在于國家電網(wǎng)公司等積極推進高校人才聯(lián)合培養(yǎng),與部分高校簽署戰(zhàn)略合作協(xié)議,豐富了校企合作平臺。
參考文獻:
[1] 高霞,陳凱華.合作創(chuàng)新網(wǎng)絡結(jié)構(gòu)演化特征的復雜網(wǎng)絡分析 [J].科研管理,2015,36(6):28-36.
[2] 陳敬武,段鮮鮮,賈蕓菲.京津冀技術(shù)轉(zhuǎn)移網(wǎng)絡分析——基于專利合作的視角 [J].河北工業(yè)大學學報(社會科學版),2018,10(4):1-7+14.
[3] 高粱洲,唐恒,劉桂鋒.京津冀高校產(chǎn)學研專利合作網(wǎng)絡結(jié)構(gòu)演化特征研究 [J].圖書情報研究,2019,12(1):96-105.
[4] EJERMO O,KARLSSON K. Interregional inventor networks as studied by patent coinventorships [J].Research Policy,2006,35(3):26-29.
[5] 張紅.鏈路預測算法的研究 [D].哈爾濱:黑龍江大學,2018.
[6] 劉竟,孫薇.基于鏈路預測的潛在科研合作關(guān)系發(fā)現(xiàn)研究 [J].情報理論與實踐,2017,40(7):88-92+121.
[7] 武玉英,孫平,何喜軍,等.新能源領域?qū)@D(zhuǎn)讓加權(quán)網(wǎng)絡中主體間技術(shù)交易機會預測 [J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2018,2(11):73-79.
[8] NEWMAN M E J,GIRVAN M. Finding and Evaluating Community Structure in Networks [J].Physical Review E,2004,69(2):26-43.
[9] 呂琳媛.復雜網(wǎng)絡鏈路預測 [J].電子科技大學學報,2010,39(5):651-661.
[10] 梁辰,徐健.社會網(wǎng)絡可視化的技術(shù)方法與工具研究 [J].現(xiàn)代圖書情報技術(shù),2012(5):7-15.
作者簡介:石安杰(1998-),女,漢族,北京人,本科,研究方向:數(shù)據(jù)挖掘;裘靖文(1999-),女,漢族,河南鄭州人,本科,研究方向:數(shù)據(jù)挖掘;通訊作者:趙詩雨(1999-),女,漢族,北京人,本科,研究方向:數(shù)據(jù)挖掘。