基于啟發(fā)式社團發(fā)現(xiàn)模型的創(chuàng)新態(tài)勢研判算法

2020-08-03 10:05:26易成岐童楠楠王建冬

計算機工程與應用 2020年15期

關(guān)鍵詞：態(tài)勢社團專利

易成岐，郭鑫，2，童楠楠，3，竇悅，陳東，王建冬

1.國家信息中心大數(shù)據(jù)發(fā)展部，北京 100045

2.北京大學信息管理系，北京 100871

3.中國人民大學信息資源管理學院，北京 100872

1 引言

當今，世界新一輪科技革命和產(chǎn)業(yè)變革正在加速演進，以互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等為代表的新一輪信息技術(shù)不斷突破，深刻影響著全人類生產(chǎn)方式的進步及思維模式的轉(zhuǎn)變。近年來，我國科學技術(shù)事業(yè)發(fā)展也取得了很大成就，科技創(chuàng)新能力顯著提升。在此背景下，我國既面臨著彎道超車的千載難逢歷史機遇，又面臨著差距繼續(xù)被拉大的嚴峻挑戰(zhàn)。因此，全面把握并精準感知特定領(lǐng)域創(chuàng)新態(tài)勢至關(guān)重要，具有重要戰(zhàn)略意義和指導作用，從國家層面看，能夠有效分析創(chuàng)新領(lǐng)域的戰(zhàn)略布局、對比評估創(chuàng)新態(tài)勢發(fā)展差異、科學制定創(chuàng)新體系提升策略等；從企業(yè)層面看，能夠有效發(fā)現(xiàn)并挖掘創(chuàng)新技術(shù)的空白點、尋找更適合企業(yè)技術(shù)創(chuàng)新發(fā)展的切入點、形成更有針對性的企業(yè)二次創(chuàng)新活力。

專利作為國家自主創(chuàng)新成果的重要載體，是全社會科技創(chuàng)新研究成果和新技術(shù)產(chǎn)品研發(fā)的重要信息來源，專利數(shù)據(jù)分析不僅可以了解特定領(lǐng)域的技術(shù)水平和研發(fā)能力[1]，還能對技術(shù)創(chuàng)新態(tài)勢進行全面地研究和評估[2]。因此，如何科學有效地開發(fā)利用專利數(shù)據(jù)并提取出其背后蘊藏的創(chuàng)新態(tài)勢，是產(chǎn)業(yè)界和學術(shù)界共同面臨的熱點問題。

現(xiàn)有的研究成果主要集中在對專利的數(shù)量、引用和關(guān)聯(lián)關(guān)系開展分析[3]，其中以專利數(shù)量的統(tǒng)計分析居多，即選取特定領(lǐng)域?qū)＠纳暾垥r間分布、地域（例如國別、省份、城市等）分布、技術(shù)領(lǐng)域分布等進行統(tǒng)計，并開展橫向或縱向?qū)Ρ确治鯷4-5]。專利引用分析方法主要源于文獻計量學，即對專利文獻之間的引文關(guān)系進行探索，如Li等對專利引文網(wǎng)絡進行分析，揭示了研究領(lǐng)域、機構(gòu)、國家之間的知識創(chuàng)新轉(zhuǎn)移過程[6]。專利關(guān)聯(lián)分析同樣關(guān)注專利之間的聯(lián)系，但其不局限于引文關(guān)系，還包括學科聯(lián)系、主題聯(lián)系以及專利主體間（例如國家、機構(gòu)、個人等）聯(lián)系等。例如，商琦等以專利主題聯(lián)系為切入點，通過文本聚類得到區(qū)塊鏈的五類技術(shù)主干[7]。胡欣悅等以專利主體聯(lián)系為切入點，通過社會網(wǎng)絡分析方法對華為公司各研發(fā)單元的空間分布及國際化合作網(wǎng)絡進行分析，發(fā)現(xiàn)華為國際化研發(fā)網(wǎng)絡呈現(xiàn)以深圳和美國為中心的“核心—半邊緣”結(jié)構(gòu)[8]。

總體來看，目前對專利數(shù)據(jù)分析的研究主要集中在專利外部基本屬性信息的統(tǒng)計分析，如專利申請時間、所屬機構(gòu)、引用關(guān)系等，而基于專利內(nèi)容層面的研究并不多，且普遍不夠深入。

考慮到專利網(wǎng)絡作為復雜網(wǎng)絡中重要的組成部分，其具有社團結(jié)構(gòu)特性。即專利網(wǎng)絡的整體由若干專利團體組成，團體之間的連接相對稀疏但團體內(nèi)部的連接則相對稠密。因此，本研究擬基于專利文本數(shù)據(jù)，深入到專利內(nèi)容層面構(gòu)建專利網(wǎng)絡并引入社團發(fā)現(xiàn)模型[9]，提出一種基于復雜網(wǎng)絡的創(chuàng)新態(tài)勢研判算法。該算法能夠有效結(jié)合圖網(wǎng)絡拓撲中所蘊藏的結(jié)構(gòu)性關(guān)系，從專利網(wǎng)絡中解析得到多個子團體及各子團體特征，對創(chuàng)新態(tài)勢分析與研判具有十分重要的意義。

綜上，本文的主要貢獻及創(chuàng)新點主要包含以下三個方面：

（1）利用發(fā)明專利標題和摘要等文本信息，通過測算專利之間的文本相似度，將專利文本數(shù)據(jù)轉(zhuǎn)換成為無向加權(quán)專利網(wǎng)絡圖。其中，為了緩解專利標題和摘要短文本引發(fā)的文本向量稀疏問題，本文引入了非監(jiān)督的稀疏向量稠密化方法。在融合啟發(fā)式社團發(fā)現(xiàn)模型的基礎上，本文提出了一種創(chuàng)新態(tài)勢研判算法。

（2）為了解決專利網(wǎng)絡構(gòu)建過程中的相似度閾值自動化選擇問題，本文通過實驗驅(qū)動的方法，對比分析了專利網(wǎng)絡相似度閾值與專利網(wǎng)絡中常用統(tǒng)計指標的變化關(guān)系，最終選用平均聚類系數(shù)這一指標實現(xiàn)了最優(yōu)相似度閾值的自動化判定，能夠?qū)崿F(xiàn)專利網(wǎng)絡構(gòu)建過程中的實時迭代自反饋效果。

（3）本文抽取了我國數(shù)字中國及大數(shù)據(jù)領(lǐng)域真實發(fā)明專利數(shù)據(jù)進行了數(shù)據(jù)實驗，驗證了方法的有效性并分析了數(shù)字中國及大數(shù)據(jù)領(lǐng)域創(chuàng)新態(tài)勢，同時對實驗結(jié)果進行了闡述及解讀。

2 基于啟發(fā)式社團發(fā)現(xiàn)模型的創(chuàng)新態(tài)勢研判過程及算法

2.1 創(chuàng)新態(tài)勢研判基本思路

基于發(fā)明專利題目和摘要等文本數(shù)據(jù)，結(jié)合社團發(fā)現(xiàn)模型分析創(chuàng)新態(tài)勢的基本思路如圖1所示，主要分為三個階段：

圖1 利用社團發(fā)現(xiàn)模型分析創(chuàng)新態(tài)勢的基本思路

首先是專利本體階段，其中，V代表發(fā)明專利節(jié)點，在此初始階段各發(fā)明專利相對獨立，每個發(fā)明專利節(jié)點包含專利申請?zhí)枴＠麡祟}、專利摘要、申請日期、公開日期、申請人、發(fā)明人等相關(guān)基本屬性信息。

第二階段為專利網(wǎng)絡構(gòu)建階段，利用發(fā)明專利標題及其摘要等文本信息，通過測算發(fā)明專利之間的文本相似度，可根據(jù)專利之間的相似程度構(gòu)建專利間的相似邊E（下文會詳述專利網(wǎng)絡構(gòu)建方法及過程），因此，在此階段可將孤立專利節(jié)點構(gòu)建成為無向加權(quán)圖G。

第三階段為創(chuàng)新領(lǐng)域分析研判階段，在此階段可利用復雜網(wǎng)絡領(lǐng)域的社團發(fā)現(xiàn)模型和網(wǎng)絡拓撲布局算法對無向加權(quán)專利網(wǎng)絡圖G進行社團結(jié)構(gòu)劃分，其中，社團發(fā)現(xiàn)模型可以更準確地自動化理解專利網(wǎng)絡的組織關(guān)系、拓撲結(jié)構(gòu)與動力學特性。

2.2 專利網(wǎng)絡自動化構(gòu)建方法

通過測算發(fā)明專利之間的文本相似度，將特定領(lǐng)域的n條發(fā)明專利數(shù)據(jù)構(gòu)建為一個無向加權(quán)圖G={V,E,W}(|V|≤n)。其中，如果兩個發(fā)明專利的文本相似度超過一定閾值（閾值選擇策略詳見下節(jié)），則認為兩者存在相似性關(guān)系，即兩條專利之間存在一條無向邊，否則無邊。G代表特定領(lǐng)域的發(fā)明專利網(wǎng)絡圖，V代表專利網(wǎng)絡圖G中的發(fā)明專利節(jié)點，E代表發(fā)明專利節(jié)點間的無向邊；W代表發(fā)明專利之間無向邊的權(quán)重，權(quán)重值為文本相似度，取值歸一化至0～1之間。

其中，由于將n條發(fā)明專利轉(zhuǎn)換為無向加權(quán)圖G的時間復雜度為O(n2)，為了節(jié)省運算時間成本，本文只考慮利用發(fā)明專利標題和摘要計算文本相似度，為了緩解短文本造成的文本向量稀疏化問題，本文采用一種非監(jiān)督的稀疏向量稠密化方法進行相似度測算[10]，區(qū)別于傳統(tǒng)余弦相似度計算方法中將專利標題文本轉(zhuǎn)換為x=(x1,x2,…,xV)T和y=(y1,y2,…,yV)T兩個等長的詞向量（V代表詞表長度），本文首先將每條發(fā)明專利標題重寫為非等長詞向量x={xa1,xa2,…,xanx}和 y={yb1,yb2,…,ybny}，其中，ai和bj代表x和y向量中非零權(quán)重詞語的索引項(1≤ai,bj≤V)，xai和ybj代表詞匯表中詞語的關(guān)聯(lián)權(quán)重，另外，假設x和y向量中分別存在nx和ny個非零權(quán)重詞語，則余弦相似度計算公式可改寫為：

其主要思想是，為了計算每個詞語之間相似性的平均相似度，可以較大程度地將發(fā)明專利標題稀疏向量進行稠密化處理，其中，?(ai,bj)代表非零權(quán)重詞語ai和bj之間的相似度。關(guān)于詞語稠密化表示方法，本文采用了淺層神經(jīng)網(wǎng)絡模型word2vec方法[11-12]，其中，利用2016年1月至2019年4月期間365.3萬條國內(nèi)部分高新技術(shù)領(lǐng)域發(fā)明專利標題及摘要文本數(shù)據(jù)，采用默認參數(shù)即窗口大小為5的CBOW（連續(xù)詞袋）模型進行訓練。對于每個詞匯，本文統(tǒng)一映射為200維的詞向量，考慮到RBF（徑向基函數(shù)）本質(zhì)是一種相似度的測量，而且是在原始空間的相似度測量方式，因此本文使用RBF核函數(shù)作為后續(xù)實驗中兩個詞向量a和b的相似度計算方法：

2.3 專利相似度閾值選擇策略

在構(gòu)建專利網(wǎng)絡的過程中，對發(fā)明專利相似度閾值δ的選擇尤為關(guān)鍵，會直接影響專利網(wǎng)絡密集或松散的程度，閾值越小代表符合閾值的專利節(jié)點篩選策略越寬松，會導致專利網(wǎng)絡擁有更多的節(jié)點及邊；閾值越大則代表專利節(jié)點篩選策略越苛刻，專利網(wǎng)絡則會擁有更少的節(jié)點及邊。但是由于相似度閾值δ并不是一個常數(shù)，而是會受到專利領(lǐng)域分布范圍、專利數(shù)量多少等諸多因素影響，因此，本文擬將專利網(wǎng)絡的相似度閾值與專利網(wǎng)絡中常用統(tǒng)計指標的變化關(guān)系進行對比分析，希望能夠找到一種統(tǒng)計指標實現(xiàn)最優(yōu)相似度閾值δ的自動化判定，從而滿足專利網(wǎng)絡構(gòu)建過程中的實時迭代自反饋效果。

在此階段，本文通過以數(shù)據(jù)實驗為驅(qū)動的方法，對比分析了專利網(wǎng)絡相似度閾值δ與專利網(wǎng)絡平均度、平均路徑長度、平均聚類系數(shù)、網(wǎng)絡密度、介數(shù)中心性、緊密中心性、特征向量中心性、同配系數(shù)等復雜網(wǎng)絡中常用統(tǒng)計指標的變化關(guān)系，分析發(fā)現(xiàn)專利網(wǎng)絡相似度閾值δ與平均聚類系數(shù)|C|的變化呈現(xiàn)線性關(guān)系，其中，部分專利網(wǎng)絡（我國數(shù)字中國領(lǐng)域?qū)＠?、北京市西城區(qū)專利、江蘇省高新技術(shù)領(lǐng)域?qū)＠?、深圳市高新技術(shù)領(lǐng)域?qū)＠⒄憬「咝录夹g(shù)領(lǐng)域?qū)＠┫嗨贫乳撝蹬c平均聚集系數(shù)對比關(guān)系如圖2所示。

圖2 部分領(lǐng)域?qū)＠W(wǎng)絡相似度閾值與平均聚集系數(shù)對比

因為在復雜網(wǎng)絡中，如果節(jié)點V0與節(jié)點V1相連，節(jié)點V1與節(jié)點V2相連，那么節(jié)點V2有很大概率與V0相連。為了量化該特性，聚集系數(shù)也稱為聚類系數(shù)，表示在復雜網(wǎng)絡中與同一節(jié)點相連的節(jié)點們互相連接的程度[13]。節(jié)點Vi的聚集系數(shù)Ci可以表示為：

其中，ki表示與節(jié)點Vi相連接的節(jié)點數(shù)量，ei表示節(jié)點Vi的ki個相連節(jié)點集合V={V1i,V2i,…,Vki}中存在互相連接的邊的數(shù)量。由式（3）可知，對于有向圖，ki個節(jié)點存在互相連接邊的數(shù)量上限為ki(ki-1)，而對于類似于專利網(wǎng)絡的無向圖，ki個節(jié)點存在互相連接邊的數(shù)量上限為ki(ki-1)2。

通常平均聚類系數(shù)|C|能夠以全局視角量化復雜網(wǎng)絡中節(jié)點聚集程度[14]。平均聚集系數(shù)|C|定義為所有節(jié)點的聚集系數(shù)的平均值，取值范圍在0至1之間，可表示為：

其中，N代表復雜網(wǎng)絡中節(jié)點的數(shù)量，Ci代表節(jié)點Vi的聚集系數(shù)。

因此，可以在選擇相似度閾值過程中實時反饋專利網(wǎng)絡的平均聚類系數(shù)|C|值，將平均聚類系數(shù)|C|接近平滑時的臨界點所對應的相似度閾值作為專利網(wǎng)絡的最優(yōu)閾值δ。

2.4 啟發(fā)式社團發(fā)現(xiàn)模型

考慮到Modularity（模塊度）是一種衡量社團發(fā)現(xiàn)質(zhì)量的評價方法[15]，Modularity會保證基準網(wǎng)絡與現(xiàn)有網(wǎng)絡有著相同的度分布的前提下，通過對比基準網(wǎng)絡與現(xiàn)有網(wǎng)絡在相同社團劃分后的連接密度來度量社團發(fā)現(xiàn)算法的準確程度，具有很強權(quán)威性，但由于計算Modularity屬于NP-完全問題，因此本文采用一種啟發(fā)式Modularity計算方法作為社團發(fā)現(xiàn)模型[16]，具體計算公式為：

其物理意義是計算專利網(wǎng)絡中同一社團內(nèi)部邊的比例與同樣度分布下基準網(wǎng)絡內(nèi)部邊比例的期望值之差。其中，m代表專利網(wǎng)絡中邊的數(shù)量，∑inside代表社團C中內(nèi)部邊的數(shù)量，∑total代表劃入社團C中節(jié)點的邊的數(shù)量，ki代表了與節(jié)點i相關(guān)邊的數(shù)量，ki,inside代表從節(jié)點i連到社團C中節(jié)點的數(shù)量。

該算法主要思想是首先合并社團，并將每個節(jié)點單獨看作一個社團，基于Modularity增量最大化標準決定需要被合并的社團。此外，將上一步驟已發(fā)現(xiàn)的所有社團看成單獨節(jié)點，并且構(gòu)建新的網(wǎng)絡，重復運行上述步驟后直到Modularity不再增長，則得到社團發(fā)現(xiàn)的近似最優(yōu)解，專利網(wǎng)絡最終形態(tài)為G={V,E,C}，其中C代表專利節(jié)點V所屬的特定社團。

2.5 基于啟發(fā)式社團發(fā)現(xiàn)模型的創(chuàng)新態(tài)勢研判算法

綜合上述分析，本文融合了稀疏向量稠密化文本相似度測算方法、專利相似度閾值選擇策略和啟發(fā)式社團發(fā)現(xiàn)模型，提出了一種基于專利數(shù)據(jù)的創(chuàng)新態(tài)勢研判算法，如算法1所示。

算法1基于啟發(fā)式社團發(fā)現(xiàn)模型的創(chuàng)新態(tài)勢研判算法

輸入：特定領(lǐng)域?qū)＠骷殧?shù)據(jù)V={V1,V2,…,Vn}和初始閾值δ=0.1

輸出：已形成若干社團的專利網(wǎng)絡G={V,E,C}

開始

1.FunctionpatentNetwork(V,δ)do//專利網(wǎng)絡構(gòu)建函數(shù)

2. fori:=1tondo

3. forj:=i+1tondo

4. 利用公式（1）和公式（2）計算Vi和Vj文本相似度sim(i,j)；

5. ifsim(i,j)>δthen//判斷相似度是否大于閾值

6.V←Vi,V←Vj；//將Vi和Vj添加至專利網(wǎng)絡

7.E←Eij；//將Vi和Vj之間的邊添加至專利網(wǎng)絡

8. end if

9. end for

10. end for

11. 利用公式（4）計算當前專利網(wǎng)絡的平均聚集系數(shù)|C|；

12.ifisSmoothing(|C|)then//判斷當前|C|是否已平滑

13. 生成專利網(wǎng)絡G={V,E}；

14. break；

15. else

16.δ+=0.1；

17.patentNetwork(V,δ)；

18.end FunctionpatentNetwork(V,δ)

19. 利用公式（5）對專利網(wǎng)絡進行社團發(fā)現(xiàn)測算；

20. 輸出已形成若干社團的專利網(wǎng)絡G={V,E,C}。

3 我國大數(shù)據(jù)及數(shù)字中國領(lǐng)域創(chuàng)新態(tài)勢分析研判

3.1 大數(shù)據(jù)及數(shù)字中國領(lǐng)域?qū)＠W(wǎng)絡構(gòu)建

為了驗證上述方法的有效性以及分析研判我國數(shù)字中國及大數(shù)據(jù)領(lǐng)域創(chuàng)新態(tài)勢，本文從國家發(fā)展改革委大數(shù)據(jù)中心已掌握的專利明細數(shù)據(jù)中，抽取了公開日期為2016年1月至2019年4月期間國內(nèi)部分高新技術(shù)領(lǐng)域發(fā)明專利標題及摘要文本數(shù)據(jù)作為基礎專利數(shù)據(jù)（共365.3萬條）?；诖藬?shù)據(jù)，利用大數(shù)據(jù)及數(shù)字中國領(lǐng)域關(guān)鍵詞對專利標題及摘要文本進行字符串精準匹配，并將匹配到的專利數(shù)據(jù)利用前文所述基于啟發(fā)式社團發(fā)現(xiàn)模型的創(chuàng)新態(tài)勢研判算法進行專利網(wǎng)絡建模。建模后得到我國數(shù)字中國領(lǐng)域?qū)＠W(wǎng)絡共11 622個節(jié)點及81 120條邊，平均度為13.96。其度分布遵循著較好的冪律分布規(guī)律，如圖3所示。

圖3 我國數(shù)字中國領(lǐng)域?qū)＠W(wǎng)絡度分布

此外，我國大數(shù)據(jù)領(lǐng)域?qū)＠W(wǎng)絡共包含4 721個節(jié)點及47 521條邊，平均度為20.13。如圖4所示，由于大數(shù)據(jù)領(lǐng)域限定范圍相對更小，因此其度分布并沒有呈現(xiàn)十分明顯的冪律分布規(guī)律，更接近于伽馬分布。

圖4 我國大數(shù)據(jù)領(lǐng)域?qū)＠W(wǎng)絡度分布

3.2 大數(shù)據(jù)及數(shù)字中國領(lǐng)域創(chuàng)新態(tài)勢分析

為使我國數(shù)字中國及大數(shù)據(jù)領(lǐng)域創(chuàng)新態(tài)勢顯示效果更直觀，本文利用Gephi[17]開源軟件對其進行了可視化展示，并對社團發(fā)現(xiàn)結(jié)果進行了節(jié)點著色處理，同時采用度分布結(jié)果進行了節(jié)點的大小調(diào)整，并利用Hu[18]提出的算法對其進行了自動化布局。其中每個社團的標簽是利用TF-IDF算法從社團內(nèi)部專利標題文本中提取具有代表性的關(guān)鍵詞所進行的標注，我國數(shù)字中國領(lǐng)域創(chuàng)新態(tài)勢圖譜最終可視化效果如圖5所示。

從圖5可以發(fā)現(xiàn)，數(shù)字中國領(lǐng)域技術(shù)創(chuàng)新初步形成了人工智能與機器人、智能家居、數(shù)據(jù)存儲、控制系統(tǒng)、移動終端、物聯(lián)網(wǎng)與傳感器、計算機、數(shù)據(jù)處理等8個創(chuàng)新社團，已形成以生產(chǎn)生活數(shù)字化為內(nèi)核，大數(shù)據(jù)技術(shù)為依托，人工智能（AI）、集成電路（IC）和物聯(lián)網(wǎng)（IOT）等“3I”技術(shù)為核心領(lǐng)域的數(shù)字中國技術(shù)創(chuàng)新格局。

圖5 我國數(shù)字中國領(lǐng)域創(chuàng)新態(tài)勢圖譜

通過計算平均最短路徑來量化社團間的融合程度（平均最短路徑越數(shù)值越小則代表社團間融合度越高），進一步分析顯示，在應用方面的核心領(lǐng)域（智能家居、控制系統(tǒng)、移動終端）與幾大支撐部分（人工智能與機器人、物聯(lián)網(wǎng)與傳感器、計算機與智能硬件、數(shù)據(jù)存儲與數(shù)據(jù)處理）的融合度均有不同。融合度測算對比結(jié)果如圖6所示。

圖6 三大核心領(lǐng)域與其他應用領(lǐng)域的融合度對比

可以發(fā)現(xiàn)，三大核心領(lǐng)域與人工智能、數(shù)據(jù)處理、計算機、物聯(lián)網(wǎng)等領(lǐng)域的平均最短路徑長度分別為5.31、5.81、6.01和6.29。其中，與人工智能領(lǐng)域的平均最短路徑長度最小，說明領(lǐng)域間的融合度最高；而與物聯(lián)網(wǎng)領(lǐng)域的平均最短路徑數(shù)值最大，則表示領(lǐng)域間融合度最低，這表明現(xiàn)階段與核心領(lǐng)域數(shù)字產(chǎn)業(yè)化融合較好的領(lǐng)域是人工智能領(lǐng)域，該領(lǐng)域為數(shù)字經(jīng)濟產(chǎn)業(yè)落地注入了強勁的動力。

此外，我國大數(shù)據(jù)領(lǐng)域創(chuàng)新態(tài)勢圖譜如圖7所示，我國大數(shù)據(jù)領(lǐng)域創(chuàng)新呈現(xiàn)出以技術(shù)型專利為中心，逐步向應用型專利擴散態(tài)勢。其中，技術(shù)型專利涵蓋了大數(shù)據(jù)全生命周期的重要鏈條，呈現(xiàn)存儲、安全、檢索、計算、分析“五足鼎立”之勢。同時，大數(shù)據(jù)分析方法創(chuàng)新正逐漸向人工智能方法延伸。另外，從圖7可知我國目前大數(shù)據(jù)采集領(lǐng)域?qū)＠员容^匱乏，表明數(shù)據(jù)資源雖為大數(shù)據(jù)領(lǐng)域的重要基石，但目前大數(shù)據(jù)領(lǐng)域公開的采集方法仍相對較少。

圖7 我國大數(shù)據(jù)領(lǐng)域創(chuàng)新態(tài)勢圖譜

4 結(jié)束語

本文基于發(fā)明專利文本明細數(shù)據(jù)，通過非監(jiān)督的稀疏向量稠密化方法測算專利之間的文本相似度，并將其構(gòu)建成為無向加權(quán)圖，引入社團發(fā)現(xiàn)模型提出一種基于啟發(fā)式社團發(fā)現(xiàn)模型的創(chuàng)新態(tài)勢研判算法。為解決文本相似度計算過程中閾值選擇問題，本文對比分析了專利網(wǎng)絡相似度閾值與復雜網(wǎng)絡中常用統(tǒng)計指標的變化關(guān)系，最終選用平均聚類系數(shù)這一指標實現(xiàn)了最優(yōu)相似度閾值的自動化判定，從而實現(xiàn)專利網(wǎng)絡構(gòu)建過程中的實時迭代自反饋效果?；谏鲜鏊惴▽ξ覈鴶?shù)字中國及大數(shù)據(jù)領(lǐng)域創(chuàng)新態(tài)勢分析發(fā)現(xiàn)，我國數(shù)字中國領(lǐng)域創(chuàng)新初步形成了機器人、智能家居、數(shù)據(jù)存儲、控制系統(tǒng)、移動終端、物聯(lián)網(wǎng)、數(shù)據(jù)處理等8個創(chuàng)新社團，并形成了以“3I”技術(shù)為核心領(lǐng)域的數(shù)字中國創(chuàng)新格局，應用層面的智能家居、控制系統(tǒng)、移動終端三大核心領(lǐng)域與人工智能領(lǐng)域的融合度最高（平均最短路徑長度5.31），而與物聯(lián)網(wǎng)領(lǐng)域融合度最低（平均最短路徑長度6.29）。此外，我國大數(shù)據(jù)領(lǐng)域技術(shù)型專利涵蓋了大數(shù)據(jù)全生命周期的重要鏈條，并呈現(xiàn)出以技術(shù)型專利為中心，逐步向應用型專利擴散態(tài)勢。

未來工作中，一方面可以基于專利網(wǎng)絡的時序演化特性研究基于時序變化的創(chuàng)新態(tài)勢預測方法，另一方面，由于當前算法的時間復雜度仍相對較高，面對大規(guī)模發(fā)明專利數(shù)據(jù)時的處理時間仍然較長，可以進一步研究該算法的時間復雜度壓縮方法。