易成岐,郭 鑫 ,2,童楠楠,3,竇 悅,陳 東,王建冬
1.國家信息中心 大數(shù)據(jù)發(fā)展部,北京 100045
2.北京大學 信息管理系,北京 100871
3.中國人民大學 信息資源管理學院,北京 100872
當今,世界新一輪科技革命和產(chǎn)業(yè)變革正在加速演進,以互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等為代表的新一輪信息技術(shù)不斷突破,深刻影響著全人類生產(chǎn)方式的進步及思維模式的轉(zhuǎn)變。近年來,我國科學技術(shù)事業(yè)發(fā)展也取得了很大成就,科技創(chuàng)新能力顯著提升。在此背景下,我國既面臨著彎道超車的千載難逢歷史機遇,又面臨著差距繼續(xù)被拉大的嚴峻挑戰(zhàn)。因此,全面把握并精準感知特定領(lǐng)域創(chuàng)新態(tài)勢至關(guān)重要,具有重要戰(zhàn)略意義和指導作用,從國家層面看,能夠有效分析創(chuàng)新領(lǐng)域的戰(zhàn)略布局、對比評估創(chuàng)新態(tài)勢發(fā)展差異、科學制定創(chuàng)新體系提升策略等;從企業(yè)層面看,能夠有效發(fā)現(xiàn)并挖掘創(chuàng)新技術(shù)的空白點、尋找更適合企業(yè)技術(shù)創(chuàng)新發(fā)展的切入點、形成更有針對性的企業(yè)二次創(chuàng)新活力。
專利作為國家自主創(chuàng)新成果的重要載體,是全社會科技創(chuàng)新研究成果和新技術(shù)產(chǎn)品研發(fā)的重要信息來源,專利數(shù)據(jù)分析不僅可以了解特定領(lǐng)域的技術(shù)水平和研發(fā)能力[1],還能對技術(shù)創(chuàng)新態(tài)勢進行全面地研究和評估[2]。因此,如何科學有效地開發(fā)利用專利數(shù)據(jù)并提取出其背后蘊藏的創(chuàng)新態(tài)勢,是產(chǎn)業(yè)界和學術(shù)界共同面臨的熱點問題。
現(xiàn)有的研究成果主要集中在對專利的數(shù)量、引用和關(guān)聯(lián)關(guān)系開展分析[3],其中以專利數(shù)量的統(tǒng)計分析居多,即選取特定領(lǐng)域?qū)@纳暾垥r間分布、地域(例如國別、省份、城市等)分布、技術(shù)領(lǐng)域分布等進行統(tǒng)計,并開展橫向或縱向?qū)Ρ确治鯷4-5]。專利引用分析方法主要源于文獻計量學,即對專利文獻之間的引文關(guān)系進行探索,如Li等對專利引文網(wǎng)絡進行分析,揭示了研究領(lǐng)域、機構(gòu)、國家之間的知識創(chuàng)新轉(zhuǎn)移過程[6]。專利關(guān)聯(lián)分析同樣關(guān)注專利之間的聯(lián)系,但其不局限于引文關(guān)系,還包括學科聯(lián)系、主題聯(lián)系以及專利主體間(例如國家、機構(gòu)、個人等)聯(lián)系等。例如,商琦等以專利主題聯(lián)系為切入點,通過文本聚類得到區(qū)塊鏈的五類技術(shù)主干[7]。胡欣悅等以專利主體聯(lián)系為切入點,通過社會網(wǎng)絡分析方法對華為公司各研發(fā)單元的空間分布及國際化合作網(wǎng)絡進行分析,發(fā)現(xiàn)華為國際化研發(fā)網(wǎng)絡呈現(xiàn)以深圳和美國為中心的“核心—半邊緣”結(jié)構(gòu)[8]。
總體來看,目前對專利數(shù)據(jù)分析的研究主要集中在專利外部基本屬性信息的統(tǒng)計分析,如專利申請時間、所屬機構(gòu)、引用關(guān)系等,而基于專利內(nèi)容層面的研究并不多,且普遍不夠深入。
考慮到專利網(wǎng)絡作為復雜網(wǎng)絡中重要的組成部分,其具有社團結(jié)構(gòu)特性。即專利網(wǎng)絡的整體由若干專利團體組成,團體之間的連接相對稀疏但團體內(nèi)部的連接則相對稠密。因此,本研究擬基于專利文本數(shù)據(jù),深入到專利內(nèi)容層面構(gòu)建專利網(wǎng)絡并引入社團發(fā)現(xiàn)模型[9],提出一種基于復雜網(wǎng)絡的創(chuàng)新態(tài)勢研判算法。該算法能夠有效結(jié)合圖網(wǎng)絡拓撲中所蘊藏的結(jié)構(gòu)性關(guān)系,從專利網(wǎng)絡中解析得到多個子團體及各子團體特征,對創(chuàng)新態(tài)勢分析與研判具有十分重要的意義。
綜上,本文的主要貢獻及創(chuàng)新點主要包含以下三個方面:
(1)利用發(fā)明專利標題和摘要等文本信息,通過測算專利之間的文本相似度,將專利文本數(shù)據(jù)轉(zhuǎn)換成為無向加權(quán)專利網(wǎng)絡圖。其中,為了緩解專利標題和摘要短文本引發(fā)的文本向量稀疏問題,本文引入了非監(jiān)督的稀疏向量稠密化方法。在融合啟發(fā)式社團發(fā)現(xiàn)模型的基礎上,本文提出了一種創(chuàng)新態(tài)勢研判算法。
(2)為了解決專利網(wǎng)絡構(gòu)建過程中的相似度閾值自動化選擇問題,本文通過實驗驅(qū)動的方法,對比分析了專利網(wǎng)絡相似度閾值與專利網(wǎng)絡中常用統(tǒng)計指標的變化關(guān)系,最終選用平均聚類系數(shù)這一指標實現(xiàn)了最優(yōu)相似度閾值的自動化判定,能夠?qū)崿F(xiàn)專利網(wǎng)絡構(gòu)建過程中的實時迭代自反饋效果。
(3)本文抽取了我國數(shù)字中國及大數(shù)據(jù)領(lǐng)域真實發(fā)明專利數(shù)據(jù)進行了數(shù)據(jù)實驗,驗證了方法的有效性并分析了數(shù)字中國及大數(shù)據(jù)領(lǐng)域創(chuàng)新態(tài)勢,同時對實驗結(jié)果進行了闡述及解讀。
基于發(fā)明專利題目和摘要等文本數(shù)據(jù),結(jié)合社團發(fā)現(xiàn)模型分析創(chuàng)新態(tài)勢的基本思路如圖1所示,主要分為三個階段:
圖1 利用社團發(fā)現(xiàn)模型分析創(chuàng)新態(tài)勢的基本思路
首先是專利本體階段,其中,V代表發(fā)明專利節(jié)點,在此初始階段各發(fā)明專利相對獨立,每個發(fā)明專利節(jié)點包含專利申請?zhí)枴@麡祟}、專利摘要、申請日期、公開日期、申請人、發(fā)明人等相關(guān)基本屬性信息。
第二階段為專利網(wǎng)絡構(gòu)建階段,利用發(fā)明專利標題及其摘要等文本信息,通過測算發(fā)明專利之間的文本相似度,可根據(jù)專利之間的相似程度構(gòu)建專利間的相似邊E(下文會詳述專利網(wǎng)絡構(gòu)建方法及過程),因此,在此階段可將孤立專利節(jié)點構(gòu)建成為無向加權(quán)圖G。
第三階段為創(chuàng)新領(lǐng)域分析研判階段,在此階段可利用復雜網(wǎng)絡領(lǐng)域的社團發(fā)現(xiàn)模型和網(wǎng)絡拓撲布局算法對無向加權(quán)專利網(wǎng)絡圖G進行社團結(jié)構(gòu)劃分,其中,社團發(fā)現(xiàn)模型可以更準確地自動化理解專利網(wǎng)絡的組織關(guān)系、拓撲結(jié)構(gòu)與動力學特性。
通過測算發(fā)明專利之間的文本相似度,將特定領(lǐng)域的n條發(fā)明專利數(shù)據(jù)構(gòu)建為一個無向加權(quán)圖G={V,E,W}(|V|≤n)。其中,如果兩個發(fā)明專利的文本相似度超過一定閾值(閾值選擇策略詳見下節(jié)),則認為兩者存在相似性關(guān)系,即兩條專利之間存在一條無向邊,否則無邊。G代表特定領(lǐng)域的發(fā)明專利網(wǎng)絡圖,V代表專利網(wǎng)絡圖G中的發(fā)明專利節(jié)點,E代表發(fā)明專利節(jié)點間的無向邊;W代表發(fā)明專利之間無向邊的權(quán)重,權(quán)重值為文本相似度,取值歸一化至0~1之間。
其中,由于將n條發(fā)明專利轉(zhuǎn)換為無向加權(quán)圖G的時間復雜度為O(n2),為了節(jié)省運算時間成本,本文只考慮利用發(fā)明專利標題和摘要計算文本相似度,為了緩解短文本造成的文本向量稀疏化問題,本文采用一種非監(jiān)督的稀疏向量稠密化方法進行相似度測算[10],區(qū)別于傳統(tǒng)余弦相似度計算方法中將專利標題文本轉(zhuǎn)換為x=(x1,x2,…,xV)T和y=(y1,y2,…,yV)T兩個等長的詞向量(V代表詞表長度),本文首先將每條發(fā)明專利標題重寫為非等長詞向量x={xa1,xa2,…,xanx}和 y={yb1,yb2,…,ybny},其中,ai和bj代表x和y向量中非零權(quán)重詞語的索引項(1≤ai,bj≤V),xai和ybj代表詞匯表中詞語的關(guān)聯(lián)權(quán)重,另外,假設x和y向量中分別存在nx和ny個非零權(quán)重詞語,則余弦相似度計算公式可改寫為:
其主要思想是,為了計算每個詞語之間相似性的平均相似度,可以較大程度地將發(fā)明專利標題稀疏向量進行稠密化處理,其中,?(ai,bj)代表非零權(quán)重詞語ai和bj之間的相似度。關(guān)于詞語稠密化表示方法,本文采用了淺層神經(jīng)網(wǎng)絡模型word2vec方法[11-12],其中,利用2016年1月至2019年4月期間365.3萬條國內(nèi)部分高新技術(shù)領(lǐng)域發(fā)明專利標題及摘要文本數(shù)據(jù),采用默認參數(shù)即窗口大小為5的CBOW(連續(xù)詞袋)模型進行訓練。對于每個詞匯,本文統(tǒng)一映射為200維的詞向量,考慮到RBF(徑向基函數(shù))本質(zhì)是一種相似度的測量,而且是在原始空間的相似度測量方式,因此本文使用RBF核函數(shù)作為后續(xù)實驗中兩個詞向量a和b的相似度計算方法:
在構(gòu)建專利網(wǎng)絡的過程中,對發(fā)明專利相似度閾值δ的選擇尤為關(guān)鍵,會直接影響專利網(wǎng)絡密集或松散的程度,閾值越小代表符合閾值的專利節(jié)點篩選策略越寬松,會導致專利網(wǎng)絡擁有更多的節(jié)點及邊;閾值越大則代表專利節(jié)點篩選策略越苛刻,專利網(wǎng)絡則會擁有更少的節(jié)點及邊。但是由于相似度閾值δ并不是一個常數(shù),而是會受到專利領(lǐng)域分布范圍、專利數(shù)量多少等諸多因素影響,因此,本文擬將專利網(wǎng)絡的相似度閾值與專利網(wǎng)絡中常用統(tǒng)計指標的變化關(guān)系進行對比分析,希望能夠找到一種統(tǒng)計指標實現(xiàn)最優(yōu)相似度閾值δ的自動化判定,從而滿足專利網(wǎng)絡構(gòu)建過程中的實時迭代自反饋效果。
在此階段,本文通過以數(shù)據(jù)實驗為驅(qū)動的方法,對比分析了專利網(wǎng)絡相似度閾值δ與專利網(wǎng)絡平均度、平均路徑長度、平均聚類系數(shù)、網(wǎng)絡密度、介數(shù)中心性、緊密中心性、特征向量中心性、同配系數(shù)等復雜網(wǎng)絡中常用統(tǒng)計指標的變化關(guān)系,分析發(fā)現(xiàn)專利網(wǎng)絡相似度閾值δ與平均聚類系數(shù)|C|的變化呈現(xiàn)線性關(guān)系,其中,部分專利網(wǎng)絡(我國數(shù)字中國領(lǐng)域?qū)@?、北京市西城區(qū)專利、江蘇省高新技術(shù)領(lǐng)域?qū)@?、深圳市高新技術(shù)領(lǐng)域?qū)@⒄憬「咝录夹g(shù)領(lǐng)域?qū)@┫嗨贫乳撝蹬c平均聚集系數(shù)對比關(guān)系如圖2所示。
圖2 部分領(lǐng)域?qū)@W(wǎng)絡相似度閾值與平均聚集系數(shù)對比
因為在復雜網(wǎng)絡中,如果節(jié)點V0與節(jié)點V1相連,節(jié)點V1與節(jié)點V2相連,那么節(jié)點V2有很大概率與V0相連。為了量化該特性,聚集系數(shù)也稱為聚類系數(shù),表示在復雜網(wǎng)絡中與同一節(jié)點相連的節(jié)點們互相連接的程度[13]。節(jié)點Vi的聚集系數(shù)Ci可以表示為:
其中,ki表示與節(jié)點Vi相連接的節(jié)點數(shù)量,ei表示節(jié)點Vi的ki個相連節(jié)點集合V={V1i,V2i,…,Vki}中存在互相連接的邊的數(shù)量。由式(3)可知,對于有向圖,ki個節(jié)點存在互相連接邊的數(shù)量上限為ki(ki-1),而對于類似于專利網(wǎng)絡的無向圖,ki個節(jié)點存在互相連接邊的數(shù)量上限為ki(ki-1)2。
通常平均聚類系數(shù)|C|能夠以全局視角量化復雜網(wǎng)絡中節(jié)點聚集程度[14]。平均聚集系數(shù)|C|定義為所有節(jié)點的聚集系數(shù)的平均值,取值范圍在0至1之間,可表示為:
其中,N代表復雜網(wǎng)絡中節(jié)點的數(shù)量,Ci代表節(jié)點Vi的聚集系數(shù)。
因此,可以在選擇相似度閾值過程中實時反饋專利網(wǎng)絡的平均聚類系數(shù)|C|值,將平均聚類系數(shù)|C|接近平滑時的臨界點所對應的相似度閾值作為專利網(wǎng)絡的最優(yōu)閾值δ。
考慮到Modularity(模塊度)是一種衡量社團發(fā)現(xiàn)質(zhì)量的評價方法[15],Modularity會保證基準網(wǎng)絡與現(xiàn)有網(wǎng)絡有著相同的度分布的前提下,通過對比基準網(wǎng)絡與現(xiàn)有網(wǎng)絡在相同社團劃分后的連接密度來度量社團發(fā)現(xiàn)算法的準確程度,具有很強權(quán)威性,但由于計算Modularity屬于NP-完全問題,因此本文采用一種啟發(fā)式Modularity計算方法作為社團發(fā)現(xiàn)模型[16],具體計算公式為:
其物理意義是計算專利網(wǎng)絡中同一社團內(nèi)部邊的比例與同樣度分布下基準網(wǎng)絡內(nèi)部邊比例的期望值之差。其中,m代表專利網(wǎng)絡中邊的數(shù)量,∑inside代表社團C中內(nèi)部邊的數(shù)量,∑total代表劃入社團C中節(jié)點的邊的數(shù)量,ki代表了與節(jié)點i相關(guān)邊的數(shù)量,ki,inside代表從節(jié)點i連到社團C中節(jié)點的數(shù)量。
該算法主要思想是首先合并社團,并將每個節(jié)點單獨看作一個社團,基于Modularity增量最大化標準決定需要被合并的社團。此外,將上一步驟已發(fā)現(xiàn)的所有社團看成單獨節(jié)點,并且構(gòu)建新的網(wǎng)絡,重復運行上述步驟后直到Modularity不再增長,則得到社團發(fā)現(xiàn)的近似最優(yōu)解,專利網(wǎng)絡最終形態(tài)為G={V,E,C},其中C代表專利節(jié)點V所屬的特定社團。
綜合上述分析,本文融合了稀疏向量稠密化文本相似度測算方法、專利相似度閾值選擇策略和啟發(fā)式社團發(fā)現(xiàn)模型,提出了一種基于專利數(shù)據(jù)的創(chuàng)新態(tài)勢研判算法,如算法1所示。
算法1基于啟發(fā)式社團發(fā)現(xiàn)模型的創(chuàng)新態(tài)勢研判算法
輸入:特定領(lǐng)域?qū)@骷殧?shù)據(jù)V={V1,V2,…,Vn}和初始閾值δ=0.1
輸出:已形成若干社團的專利網(wǎng)絡G={V,E,C}
開始
1.FunctionpatentNetwork(V,δ)do//專利網(wǎng)絡構(gòu)建函數(shù)
2. fori:=1tondo
3. forj:=i+1tondo
4. 利用公式(1)和公式(2)計算Vi和Vj文本相似度sim(i,j);
5. ifsim(i,j)>δthen//判斷相似度是否大于閾值
6.V←Vi,V←Vj;//將Vi和Vj添加至專利網(wǎng)絡
7.E←Eij;//將Vi和Vj之間的邊添加至專利網(wǎng)絡
8. end if
9. end for
10. end for
11. 利用公式(4)計算當前專利網(wǎng)絡的平均聚集系數(shù)|C|;
12.ifisSmoothing(|C|)then//判斷當前|C|是否已平滑
13. 生成專利網(wǎng)絡G={V,E};
14. break;
15. else
16.δ+=0.1;
17.patentNetwork(V,δ);
18.end FunctionpatentNetwork(V,δ)
19. 利用公式(5)對專利網(wǎng)絡進行社團發(fā)現(xiàn)測算;
20. 輸出已形成若干社團的專利網(wǎng)絡G={V,E,C}。
為了驗證上述方法的有效性以及分析研判我國數(shù)字中國及大數(shù)據(jù)領(lǐng)域創(chuàng)新態(tài)勢,本文從國家發(fā)展改革委大數(shù)據(jù)中心已掌握的專利明細數(shù)據(jù)中,抽取了公開日期為2016年1月至2019年4月期間國內(nèi)部分高新技術(shù)領(lǐng)域發(fā)明專利標題及摘要文本數(shù)據(jù)作為基礎專利數(shù)據(jù)(共365.3萬條)?;诖藬?shù)據(jù),利用大數(shù)據(jù)及數(shù)字中國領(lǐng)域關(guān)鍵詞對專利標題及摘要文本進行字符串精準匹配,并將匹配到的專利數(shù)據(jù)利用前文所述基于啟發(fā)式社團發(fā)現(xiàn)模型的創(chuàng)新態(tài)勢研判算法進行專利網(wǎng)絡建模。建模后得到我國數(shù)字中國領(lǐng)域?qū)@W(wǎng)絡共11 622個節(jié)點及81 120條邊,平均度為13.96。其度分布遵循著較好的冪律分布規(guī)律,如圖3所示。
圖3 我國數(shù)字中國領(lǐng)域?qū)@W(wǎng)絡度分布
此外,我國大數(shù)據(jù)領(lǐng)域?qū)@W(wǎng)絡共包含4 721個節(jié)點及47 521條邊,平均度為20.13。如圖4所示,由于大數(shù)據(jù)領(lǐng)域限定范圍相對更小,因此其度分布并沒有呈現(xiàn)十分明顯的冪律分布規(guī)律,更接近于伽馬分布。
圖4 我國大數(shù)據(jù)領(lǐng)域?qū)@W(wǎng)絡度分布
為使我國數(shù)字中國及大數(shù)據(jù)領(lǐng)域創(chuàng)新態(tài)勢顯示效果更直觀,本文利用Gephi[17]開源軟件對其進行了可視化展示,并對社團發(fā)現(xiàn)結(jié)果進行了節(jié)點著色處理,同時采用度分布結(jié)果進行了節(jié)點的大小調(diào)整,并利用Hu[18]提出的算法對其進行了自動化布局。其中每個社團的標簽是利用TF-IDF算法從社團內(nèi)部專利標題文本中提取具有代表性的關(guān)鍵詞所進行的標注,我國數(shù)字中國領(lǐng)域創(chuàng)新態(tài)勢圖譜最終可視化效果如圖5所示。
從圖5可以發(fā)現(xiàn),數(shù)字中國領(lǐng)域技術(shù)創(chuàng)新初步形成了人工智能與機器人、智能家居、數(shù)據(jù)存儲、控制系統(tǒng)、移動終端、物聯(lián)網(wǎng)與傳感器、計算機、數(shù)據(jù)處理等8個創(chuàng)新社團,已形成以生產(chǎn)生活數(shù)字化為內(nèi)核,大數(shù)據(jù)技術(shù)為依托,人工智能(AI)、集成電路(IC)和物聯(lián)網(wǎng)(IOT)等“3I”技術(shù)為核心領(lǐng)域的數(shù)字中國技術(shù)創(chuàng)新格局。
圖5 我國數(shù)字中國領(lǐng)域創(chuàng)新態(tài)勢圖譜
通過計算平均最短路徑來量化社團間的融合程度(平均最短路徑越數(shù)值越小則代表社團間融合度越高),進一步分析顯示,在應用方面的核心領(lǐng)域(智能家居、控制系統(tǒng)、移動終端)與幾大支撐部分(人工智能與機器人、物聯(lián)網(wǎng)與傳感器、計算機與智能硬件、數(shù)據(jù)存儲與數(shù)據(jù)處理)的融合度均有不同。融合度測算對比結(jié)果如圖6所示。
圖6 三大核心領(lǐng)域與其他應用領(lǐng)域的融合度對比
可以發(fā)現(xiàn),三大核心領(lǐng)域與人工智能、數(shù)據(jù)處理、計算機、物聯(lián)網(wǎng)等領(lǐng)域的平均最短路徑長度分別為5.31、5.81、6.01和6.29。其中,與人工智能領(lǐng)域的平均最短路徑長度最小,說明領(lǐng)域間的融合度最高;而與物聯(lián)網(wǎng)領(lǐng)域的平均最短路徑數(shù)值最大,則表示領(lǐng)域間融合度最低,這表明現(xiàn)階段與核心領(lǐng)域數(shù)字產(chǎn)業(yè)化融合較好的領(lǐng)域是人工智能領(lǐng)域,該領(lǐng)域為數(shù)字經(jīng)濟產(chǎn)業(yè)落地注入了強勁的動力。
此外,我國大數(shù)據(jù)領(lǐng)域創(chuàng)新態(tài)勢圖譜如圖7所示,我國大數(shù)據(jù)領(lǐng)域創(chuàng)新呈現(xiàn)出以技術(shù)型專利為中心,逐步向應用型專利擴散態(tài)勢。其中,技術(shù)型專利涵蓋了大數(shù)據(jù)全生命周期的重要鏈條,呈現(xiàn)存儲、安全、檢索、計算、分析“五足鼎立”之勢。同時,大數(shù)據(jù)分析方法創(chuàng)新正逐漸向人工智能方法延伸。另外,從圖7可知我國目前大數(shù)據(jù)采集領(lǐng)域?qū)@员容^匱乏,表明數(shù)據(jù)資源雖為大數(shù)據(jù)領(lǐng)域的重要基石,但目前大數(shù)據(jù)領(lǐng)域公開的采集方法仍相對較少。
圖7 我國大數(shù)據(jù)領(lǐng)域創(chuàng)新態(tài)勢圖譜
本文基于發(fā)明專利文本明細數(shù)據(jù),通過非監(jiān)督的稀疏向量稠密化方法測算專利之間的文本相似度,并將其構(gòu)建成為無向加權(quán)圖,引入社團發(fā)現(xiàn)模型提出一種基于啟發(fā)式社團發(fā)現(xiàn)模型的創(chuàng)新態(tài)勢研判算法。為解決文本相似度計算過程中閾值選擇問題,本文對比分析了專利網(wǎng)絡相似度閾值與復雜網(wǎng)絡中常用統(tǒng)計指標的變化關(guān)系,最終選用平均聚類系數(shù)這一指標實現(xiàn)了最優(yōu)相似度閾值的自動化判定,從而實現(xiàn)專利網(wǎng)絡構(gòu)建過程中的實時迭代自反饋效果?;谏鲜鏊惴▽ξ覈鴶?shù)字中國及大數(shù)據(jù)領(lǐng)域創(chuàng)新態(tài)勢分析發(fā)現(xiàn),我國數(shù)字中國領(lǐng)域創(chuàng)新初步形成了機器人、智能家居、數(shù)據(jù)存儲、控制系統(tǒng)、移動終端、物聯(lián)網(wǎng)、數(shù)據(jù)處理等8個創(chuàng)新社團,并形成了以“3I”技術(shù)為核心領(lǐng)域的數(shù)字中國創(chuàng)新格局,應用層面的智能家居、控制系統(tǒng)、移動終端三大核心領(lǐng)域與人工智能領(lǐng)域的融合度最高(平均最短路徑長度5.31),而與物聯(lián)網(wǎng)領(lǐng)域融合度最低(平均最短路徑長度6.29)。此外,我國大數(shù)據(jù)領(lǐng)域技術(shù)型專利涵蓋了大數(shù)據(jù)全生命周期的重要鏈條,并呈現(xiàn)出以技術(shù)型專利為中心,逐步向應用型專利擴散態(tài)勢。
未來工作中,一方面可以基于專利網(wǎng)絡的時序演化特性研究基于時序變化的創(chuàng)新態(tài)勢預測方法,另一方面,由于當前算法的時間復雜度仍相對較高,面對大規(guī)模發(fā)明專利數(shù)據(jù)時的處理時間仍然較長,可以進一步研究該算法的時間復雜度壓縮方法。