王雪原 孫美霞
(哈爾濱理工大學經濟與管理學院 哈爾濱 150040)
數字化時代,行業(yè)及技術領域固有邊界日益混沌、模糊與液態(tài)化,攜帶異構知識碎片的專利可輕松實現跨膜鏈接,促使現代專利網絡正朝著“網中網”、“群中群”等超級專利網絡模式演化??茖W、有效識別超級網絡子群落,為共性子群落提供管理策略,成為當前研究重點。傳統(tǒng)研究通常依托超級專利網絡整體開展專利布局設計,忽視了不同群落網絡發(fā)展的非平衡性與異質性特征,影響策略精準性與適用性。盡管有研究依據節(jié)點締結關系、所屬技術領域等進行一次性專利群落劃分,探索不同子群落專利特征或未來發(fā)展態(tài)勢,由于識別的子群落數量眾多,難以針對不同專利子群落設計具體管理策略。另外,現有研究未能結合專利網絡文本特征、網絡靜態(tài)與動態(tài)發(fā)展特征等,提出更具契合性、科學性與指導性的技術發(fā)展目標、方式等布局策略,影響現有研究成果的實踐應用價值。
鑒于此,本文基于“專利締結關系—種群網絡特征”整體景觀,設計雙層嵌套聚類方法甄別專利群落;利用文本挖掘技術,客觀確定各群落內技術領域構成,并依據群落多網絡特征集合,提出專利群落技術領域發(fā)展目標與方式布局策略等,形成具有針對性與系統(tǒng)性策略體系。
1.1.1專利群落劃分依據
基于權變思想,不同群落應采取不同技術布局策略,群落的科學劃分是有效布局技術創(chuàng)新的前提與基礎[1]。傳統(tǒng)的一次性專利網絡子群落劃分中,通常單獨依據節(jié)點締結關系劃分網絡子群,或對主題關鍵詞、所屬技術領域(IPC)等進行群落劃分[2],缺乏有效的劃分依據。構型理論認為網絡構型特征是決定網絡行為的依據,網絡構型特征與布局策略適配,才能夠確保網絡實現高質量技術創(chuàng)新。因此,基于種群網絡構型特征識別專利群落更具合理性與依據性。
借鑒學者提出以架構、流程、功能作為構型維度劃分平臺的邏輯,可將網絡結構、關系、表型作為甄別同構型專利種群、搭建專利群落的構型維度框架。具體而言,網絡結構體現網絡節(jié)點位置與分布、網絡關系體現節(jié)點聯(lián)結狀態(tài)、網絡表型體現網絡整體屬性,三維度能更綜合、全面刻畫網絡特征。華連連等以網絡規(guī)模、節(jié)點關系與多元融合性等作為各構型維度下的網絡特征,以識別不同網絡特征安排下的集群式創(chuàng)新供應鏈網絡,并可通過甄別出具備高發(fā)展?jié)摿Φ募菏絼?chuàng)新網絡,為低潛力創(chuàng)新網絡發(fā)展布局提供參照指導[3]。然而,現存的專利群落劃分指標側重單個時間節(jié)點的網絡結構、關系、表型等構型維度下特征的測度,忽視專利網絡種群動態(tài)演化特征,無法全面有效闡釋專利種群網絡特征。如何從三個構型維度,融合靜態(tài)視角與動態(tài)視角,全面、系統(tǒng)刻度網絡特征仍需進一步探索,以提升網絡特征認知科學性。
1.1.2專利群落劃分法——雙層嵌套聚類法
鮮有研究系統(tǒng)構建雙層嵌套聚類體系,即基于專利締結關系實現首層聚類確定專利種群后,依據種群特征開展二層聚類確定專利群落。
a.首層聚類——專利種群識別方法。專利種群識別是合理搭建專利群落的基礎,學者通?;趯@幕驅@诸愰_展單一維度聚類,無法綜合考慮多個維度,實現種群有效聚類劃分。且當專利數據量較大時,關系方陣異常復雜,無法有效反映單個專利節(jié)點的歸屬,影響專利種群劃分的客觀性與有效性。針對目前主流聚類方法存在的問題,國外學者利用IRM并行聚類模型,試圖直接在節(jié)點-屬性二進制矩陣中實現節(jié)點與屬性的并行聚類,以構建節(jié)點集合與屬性類別的內在關聯(lián),Wang等就將“用戶-滿意度”矩陣進行橫縱并行聚類,交集區(qū)塊為能夠產生特定滿意度類別的用戶集合[4]。然而,國內學者未能將IRM靈活應用于社會網絡分析,以彌合現階段研究差距。IRM模型可通過直接定義模型復雜度水平,即自適應參數,以自動適應大型網絡復雜性特征。以往的無限關系模型,多聚焦于節(jié)點屬性數據,而IRM模型能夠自動處理任意二進制關系集合,且每個關系集合可接受多個參數,以獲取最佳聚類數量。IRM模型還可將大量節(jié)點交互的復雜網絡,簡化為少量組間交互,適用于壓縮大型復雜網絡。綜上,本文選擇IRM模型對專利節(jié)點與專利分類代碼開展并行聚類,以精準識別異質專利種群,實現對超級網絡的首層聚類。
b.二層聚類——專利群落確定方法。朱夢菲等將創(chuàng)新網絡特征指標賦予合理權重,綜合形成創(chuàng)新策源能力,并利用SOM聚類算法對各省市創(chuàng)新網絡策源能力評價結果進行聚類,劃分為高、中、低三類區(qū)域集合[5]。囿于單一評價維度存在較大片面性,學者將研究轉向二維、四象限聚類方式,如建立知識引力與創(chuàng)造潛力網絡特征二維測度指標,據此劃分四象限實現創(chuàng)新網絡二層聚類[6];楊青等基于中心度、結構洞等指標,綜合形成網絡基礎性與廣泛性兩個特征維度,據此劃分四象限組合,甄別“高-高”象限下具備共性技術的創(chuàng)新網絡群落[7]。二維、四象限仍存在特征維度與群落數量固定的弊端,且未能具體體現網絡特征指標在群落劃分時的門檻價值。因此,綜合多網絡特征開展靈活聚類,并篩選出不同網絡特征下的代表性種群集合體,成為客觀確定群落特征集、科學搭建專利群落的重要方式。鑒于DSM聚類對樣本量不做具體限制,且基于DSM的聚類結果能有效反映類內指標間的強依賴耦合關系[8],因此采用DSM實現網絡特征指標依賴性聚類,以刻畫各專利群落的準入特征標準集合。
傳統(tǒng)專利布局策略研究主要集中于專利網絡演進熱點、機會空白與融合組合分析等,形成行業(yè)技術領域方向布局策略。Wu等通過量化識別專利網絡核心專利交替演變路徑,提出主導技術快速布局策略[9]。Smojver等采用鏈式預測,識別核心專利技術后,探測與之互補的異領域強鏈接技術組合,從而聚焦異質技術融合,設計技術跨界布局戰(zhàn)略[10]。這些成果僅局限于技術發(fā)展領域與方向布局,忽視技術發(fā)展目標與方式等布局內容研究。
雖有學者嘗試基于專利網絡特征,確定符合網絡特征要求的專利布局策略,但大多研究從網絡整體視角提出統(tǒng)一布局策略,忽視超級網絡內部發(fā)展非均衡性,致使切入點粒度過粗,無法提供精準布局策略。為進一步提升布局策略的精準性,少量學者嘗試將專利網絡細分為多個子群落,制定差異性技術布局策略,如Lai等將專利網絡分割為四部分,分別以核心、邊緣、利基、基礎為特征,提出其具體建設策略[11]。這些研究僅考慮群落單一特征,且群落內具體技術領域構成不明確,影響布局策略全面性與系統(tǒng)性。
針對現有研究不足,本文提出基于雙層嵌套聚類的專利群落搭建與布局策略研究框架。首先,確定檢索策略,并基于德溫特數據庫實現數據采集,形成研究樣本集;其次,基于IRM模型確定專利種群,實現首層聚類;再次,測度專利種群網絡特征值,并利用DSM實現網絡特征指標聚類,將網絡特征作為專利群落準入標準,實現專利群落二層聚類;最后,結合TF-IDF與LDA提取主題詞,明晰各專利群落主要技術領域,依據各群落特征集合,提出專利網絡布局策略體系(如圖1所示)。
IRM模型根植于區(qū)塊模型[12],通過參與者-行為特點雙向聚類,獲得社會結構景觀圖;隨后通過逐漸完善區(qū)塊模型的可并行性與可拓展性,進一步發(fā)展為IRM模型。IRM的基礎模型算法為貝葉斯概率模型,核心思想為將數據和模型參數均視為概率分布。
以網絡結構、關系及表型三維為切入點,從內到外持續(xù)變焦,以全面客觀刻畫專利種群的內置結構、互動關系以及整體表象特征。聚焦網絡特征三維度,并借鑒以往學者研究成果,基于代表性與獨立性原則開展靜態(tài)、動態(tài)特征指標遴選。靜態(tài)網絡特征指標已具備廣泛研究基礎,結合前期研究本文最終確定結構特征—勢差特征與傳遞特征(體現知識體系位勢與集聚結構)、關系特征—離群特征與小世界特征(體現知識聯(lián)結與傳播關系)、表型關系—新穎特征與融合特征(體現知識原創(chuàng)與跨度特性),作為專利種群網絡靜態(tài)特征代表性指標。
囿于系統(tǒng)的專利網絡動態(tài)特征指標體系尚未形成,本文基于網絡特征三維度,提出與其適配的動態(tài)特征指標。結構層面的致密特征,體現隨時間推移與網絡節(jié)點增加,專利節(jié)點間距縮短、網絡內部空隙減少,致使網絡密度呈現增長趨勢,網絡透視圖呈現隨時間推進愈發(fā)密集態(tài)勢[13]。關系層面的收斂特征,反映外部節(jié)點持續(xù)進入、邊緣節(jié)點與中心節(jié)點聯(lián)系逐漸增強,以牽引邊緣節(jié)點向中心區(qū)域聚攏的動態(tài)過程[14]。表型層面的趨勢特征,主要衡量網絡未來實現技術領先、市場占有的概率,在剖析網絡過去動態(tài)演化軌跡基礎上,外推其未來發(fā)展趨勢特征[15]。由此,形成融合靜態(tài)與動態(tài)視角的三維度網絡特征指標,如表1所示。
表1 專利網絡特征測度指標
本文選擇碳纖維技術領域作為實證研究對象,專利來源于德溫特數據庫(DII)。為準確識別與獲取數據庫中碳纖維專利,制定檢索策略為TI=“carbon fiber*”或“carbon fibre*”,進行標題匹配檢索時間跨度為2012—2021年的專利,刪除重復項后,共獲得54100條有效專利,構成碳纖維專利數據集。
采用專利共分類方法,以專利為節(jié)點,通過技術知識關聯(lián)度鏈接專利節(jié)點,以構建專利種群網絡。鑒于德溫特分類代碼(DC)采納適用于所有技術的簡單分類系統(tǒng),并且可對特定技術領域進行細致刻畫,提供技術及其應用領域的全方位圖景。因此,本文選取DC分類號作為專利種群網絡的共分類依據。
篩選碳纖維專利數據集DC字段,確定獨立DC代碼共260個,以構建DC共分類專利種群網絡,最終形成51400*260的0-1二進制碳纖維矩陣。基于IRM模型實現專利節(jié)點與DC代碼并行聚類。將二進制碳纖維矩陣導入MATLAB代碼包,為保證專利種群的最佳劃分,算法運行10次,每次迭代1000次。最終劃分為55個專利種群,62個上級分類代碼集。
將各專利種群0-1矩陣構造Jaccard相似方陣,導入Gephi和UCinet計算各參數。
首先,將專利種群相似方陣導入UCinet,實現對應文件格式轉化,通過工具欄計算各種群勢差特征(中心勢)、傳遞特征(傳遞性)及網絡密度等,并參照致密特征計算公式確定各種群動態(tài)致密特征。
其次,將各種群相似方陣導入Gephi,選擇FruchtermanReingold進行重新布局,通過Gephi右側工具欄計算聚類系數和平均最短路徑以測算小世界特征。當網絡趨于穩(wěn)定,將邊權重閾值設置為0.1進行剪枝,識別離群專利點,并參照相關公式計算離群特征。
再次,基于UCinet以單位時間為切片,計算各種群2012-2021各年核心/邊緣結構值,絕大多數種群的核心/邊緣結構值呈上升趨勢,即邊緣節(jié)點逐漸與中心節(jié)點建立聯(lián)系,被同化為中心節(jié)點,呈現出明顯的收斂特征。
最后,依據文中相關公式,計算新穎特征與融合特征。借鑒PageRank重要性程度算法,確定各年專利種群相對重要程度。將各年份0-1數據進行Jaccard相似性處理后,導入Gephi軟件重新布局,計算各年份下專利節(jié)點Pagerank值,并將其作為沖積流圖各節(jié)點的流值。確定好節(jié)點歸屬的種群后,將各年份文檔轉化為json格式,導入沖積流生成器,自動計算專利節(jié)點歸屬的各專利種群流域趨勢值,確定種群趨勢特征。
基于Gephi、UCinet運行參數結果及文中公式,可獲得專利種群網絡特征指標值,數據校準后利用投影尋蹤法測算各專利種群及網絡特征指標權重,具體如表2所示。
表2 網絡特征對專利種群影響度及其各自權重值
參照表2數據,利用依賴結構矩陣計算模型,可以獲得專利種群特征指標間依賴程度,具體如表3所示。
表3 專利種群網絡特征依賴結構矩陣
將表3網絡特征依賴結構矩陣導入Matlab代碼包,實現網絡特征指標聚類,網絡特征聚為融合突破(勢差特征/小世界特征/融合特征)、迭代成長(收斂特征/趨勢特性/新穎特征)、邊緣搜索(致密特征/傳遞特征/離群特征)三類。
基于表2矩陣篩選出各網絡特征下的代表性專利種群(閾值大于0.5),并通過取交集方式,確定各類網絡特征下代表性專利種群集合及具體專利,以確定專利群落構成,見表4。
表4 專利群落具體構成
a.將各專利群落下專利標題作為文本語料庫,利用python的jieba包對文本語料庫進行分詞,去除停用詞、標點符號等處理,實現數據清洗。結合TF-IDF與LDA,提取各語料庫關鍵詞,設定主題數量為5、每個主題下含5個代表性關鍵詞。經專家團隊討論商榷后,確定各主題名稱,具體如表5所示。
b.技術布局策略設計。結合不同專利群落技術領域特征、專利網絡靜態(tài)與動態(tài)特征等,系統(tǒng)設計不同群落技術領域布局、發(fā)展目標與方式布局策略。
專利群落1—融合突破(勢差特征/小世界特征/融合特征)。此專利群落主要涵蓋碳纖維增強塑料制備技術、碳纖維酸處理技術、碳纖維提升紡織品性能技術、碳纖維應用于連接零部件及應用于電機五大技術領域。這些技術領域專利種群網絡具備多知識層級的小世界特征,能夠不斷吸納不同專利與外部異質性知識,并呈現良好的跨領域專利知識融合態(tài)勢。未來,應注重專利種群新進入異質性專利的知識建設與培育,通過加強種群內不同層級專利技術知識頻繁銜接與互動,實現不同層級知識、資源有效融合,降低知識擴散壁壘,以實現廣泛技術領域知識共享;從而在多元技術共生融合基礎上,逐漸突破壯大,獲取長足發(fā)展優(yōu)勢??梢?,該群落的發(fā)展重點在于不同層級專利知識與技術整合、相關技術擴散與滲透整合、跨領域異質知識與技術整合,從而形成技術融合突破。
專利群落2—迭代成長(收斂特征/趨勢特性/新穎特征)。此專利群落主要包含碳纖維表面處理技術、碳纖維復合樹脂材料制備技術、復合碳纖維織物技術、碳纖維應用于醫(yī)療器械以及應用于加熱電纜五大技術領域。上述技術領域所形成的專利群落網絡收斂特征明顯,即大量邊緣專利進入種群網絡,并逐漸與核心技術構建鏈接,最終演變?yōu)楹诵膶@?,致使專利種群網絡內大量專利進化為領先技術與市場主流技術,為構建可持續(xù)競爭優(yōu)勢、培育專利種群網絡新穎性技術奠定基礎。因此,該群落應當加強技術專業(yè)化研發(fā),在五大技術領域不斷深耕,開展前瞻性技術突破的同時,形成完善的技術梯級儲備,以實現領域技術的持續(xù)引領。這些群落對新技術開發(fā)提出更高原創(chuàng)性要求,應當通過優(yōu)化與完善外圍技術,促使新一代技術不斷成熟;并通過不同代際的技術優(yōu)化,促使領域技術連續(xù)更迭、持續(xù)創(chuàng)新,并始終處于行業(yè)領先地位。
表5 各專利群落技術領域特征關鍵詞
專利群落3—邊緣搜索(致密特征/傳遞特征/離群特征)。此專利群落代表性技術領域為碳纖維陶瓷制備技術、碳纖維耦合劑制備技術、聚氨酯碳纖維制備技術、碳纖維應用于汽車領域以及應用于過濾器五大技術領域。上述技術領域專利群落內,相近專利優(yōu)先依附形成多個封閉的三方組結構,這些緊密連接結構持續(xù)縮短了專利技術與知識交互距離,引致相關專利不斷匯集、網絡密度逐漸增大。然而,由于同組知識元素重組潛力減弱,難以從中攫取高利用價值,同時高度重疊的知識會助長創(chuàng)新惰性造成路徑鎖定,因此為獲取進一步創(chuàng)新發(fā)展空間,應轉向對外圍松散地帶離群專利的高效搜索。通過搜索網絡邊緣弱鏈接的專利節(jié)點或探索互補異領域的離群專利,識別新的適應性機會??梢?,這些群落技術重疊與冗余增多,需要從外圍離群專利中挖掘與發(fā)現技術利基、深挖細分市場、識別顛覆機會并開辟全新市場,從而形成顛覆性創(chuàng)新突破。
科學劃分“群中群”嵌套結構的專利群落,成為差異化、精準化制定行業(yè)技術發(fā)展布局策略體系的關鍵,研究為專利群落劃分與確定提供了有效方法支持,為技術布局策略制定提供全新視角。首先,本文將生物種群與生物群落概念映射于專利網絡,明確專利群落的準入特征標準,為專利網絡分析提供了新視角、新思路;其次,基于IRM模型,合理劃分專利種群,提升異質專利種群劃分的準確性與科學性;立足于網絡結構、網絡關系以及網絡表型三層面,從動靜綜合視角,設計專利種群網絡特征測度指標,豐富專利網絡特征認知;再次,基于DSM實現網絡特征指標聚類,以量化確定各專利群落下專利種群的準入特征標準,最終確定融合突破、迭代成長與邊緣搜索三大專利群落,為專利群落劃分提供參考;最后,結合TF-IDF與LDA,準確識別各專利群落下技術領域主題,并基于各專利群落特征,有針對性地給出不同群落的技術領域未來發(fā)展目標與方式布局策略。
然而,本文也存在一定局限性,結合TF-IDF與LDA方法,雖能準確識別主題領域及其關鍵詞,但在主題與關鍵詞設置數量上存在主觀判斷,未來可進行模型優(yōu)化,實現主題、關鍵詞數量的客觀智慧化確定。另外,本文未開展不同方法下的結果比較研究,未來可通過穩(wěn)健性或差異性分析,進一步體現論文方法合理性與有效性。