孫曉玲 陳娜
摘要:創(chuàng)新驅動發(fā)展戰(zhàn)略下,科學知識與技術創(chuàng)新間關系愈發(fā)的多層面化和高復雜化。從引用科學知識的專利入手,利用表示學習從語義層面上分析專利科學關聯(lián)關系,特別是高價值專利引用何種特征的科學知識,并比較中美兩國專利科學引文主題的異同,從中美兩國產學研合作網絡中關鍵創(chuàng)新主體的演化情況來探索引發(fā)該現(xiàn)象的原因。以人工智能領域為例,研究表明,高價值專利的科學關聯(lián)度更高,生物醫(yī)學領域對高價值專利的支撐作用更為明顯;中國在高價值專利數(shù)量上處于劣勢,且在智能醫(yī)學領域及基礎硬件的技術創(chuàng)新能力較弱,但近年來在電力領域的優(yōu)勢越來越明顯,這離不開國家電網在產學研合作網絡的核心位置。此外,值得關注的是未來人工智能在地震監(jiān)測等新興領域的應用。
關鍵詞:專利科學關聯(lián)度;科學知識;表示學習;專利價值
中圖分類號:G350文獻標識碼: ADOI:10.3969/j.issn.1003-8256.2021.03.002
開放科學(資源服務)標識碼(OSID):
0引言
在知識經濟時代下,全球創(chuàng)新知識基因加速流動,也促進著科學知識和技術知識之間相互影響、相互作用,越來越多的企業(yè)重視和依賴科學創(chuàng)新,科學知識對技術知識的遺傳產生了一定的促進作用[1]、科學與技術網絡間存在著相互影響關系[2]。因此,強大的基礎科學研究是建設世界科技強國的基石,世界主要發(fā)達國家普遍強化基礎研究戰(zhàn)略部署,全球科技競爭不斷向基礎研究前移。經過多年的發(fā)展,我國基礎科學研究取得長足進步,整體水平顯著提高,支撐技術成果產出的作用不斷增強,基礎研究與技術創(chuàng)新之間的關系更加緊密,但與建設知識產權強國要求相比,我國基礎科學研究短板依然突出,基礎研究投入不足、結構不合理、重大原始創(chuàng)新成果缺乏?;诖谁h(huán)境背景下,探究科學與技術間的關聯(lián)關系尤為必要,尤其是掌握基礎科學研究對技術創(chuàng)新價值的影響規(guī)律,增強支撐引領創(chuàng)新驅動發(fā)展的源頭供給能力,以此加快建設科技強國的步伐。
具備哪些特征的科學知識與技術創(chuàng)新聯(lián)系更為緊密?何種領域、何種學科的科學知識更能產生高價值專利?已有研究沒有涉及。而我國專利數(shù)量已領先美國,成為全球專利布局最多的國家[3]。要清醒認識到專利數(shù)量的快速增長與經濟產業(yè)轉型、從要素驅動向創(chuàng)新驅動轉變的國情和各類激勵政策有著緊密的聯(lián)系[4]。我國大量專利申請集中在技術應用方面,缺少重大原創(chuàng)成果,一些關鍵技術與美國等發(fā)達國家仍存在差距[5],因此,探究中美兩國不同等級價值專利在引用科學知識的差別及產生這種差別核心創(chuàng)新主體的演變情況具有重要意義。
基于上述問題,本文從引用科學知識的專利入手,基于文本內容表示學習方法研究促進技術知識流動的科學知識特征,并揭示高價值專利引用科學知識的特征,比較中美兩國各等級專利科學引文主題內容的異同以及關鍵創(chuàng)新主體演化情況對專利科學引文主題內容不同的影響。
1相關研究
科學與技術間的關系猶如一對舞者交相呼應,兩者呈現(xiàn)交叉融合的趨勢[6]。目前科學與技術間關系的研究已成為科學計量學、情報學等領域的熱點研究領域,對于科學與技術關系研究方法呈現(xiàn)百家爭鳴的情景,主要有科學技術哲學法[7]、模型研究法[8]、基于論文和專利分析的文獻計量法[9-15]等。
文獻計量方法成為研究科學與技術關系的熱點方法,而基于專利的論文引文分析法作為文獻計量學研究科學與技術關系常用方法,主要目的是揭示基礎研究對技術創(chuàng)新的推動作用。專利引用的論文作為非專利引文(Non-Patent References,NPR)的一種類型[9],不僅包含申請人引用的科學論文,還包括審查員審查過程中加入的科學文獻,分析專利引用的論文常用來比較不同國家科學與技術間關系的異同,識別與科學知識關系較強的技術領域等[10],如有學者將論文和專利分別視作科學研究成果和技術創(chuàng)新成果的表現(xiàn)形式,采用基于論文和專利分析的文獻計量方法研究科學與技術間的數(shù)量特征[11]和主題內容特征[12]。此外,通過對專利引用的科學文獻進行深入研究,可發(fā)現(xiàn)科學與技術的關聯(lián)關系呈現(xiàn)出學科導向性,生物技術、制藥和有機化學等技術領域與科學知識的關聯(lián)度更高[13],殷媛媛[14]研究了立體顯示領域的專利引用論文時滯、科學關聯(lián)度、專利引用論文國家、專利引用論文種類等。還有學者從納米領域專利科學引文內容角度研究科學與技術主題關聯(lián)度[15],但是,少有學者研究高價值專利科學引文與非高價值專利科學引文的主題內容及新穎性結構有何異同,是否也具備著學科導向性?
何為高價值專利?Innography專利數(shù)據庫結合多種評價指標建立數(shù)學模型評估專利價值,并依次將專利劃分為核心專利、重要專利和一般專利,國內外大多數(shù)學者認為核心專利即為高價值專利[16]。因此,本文依據大多數(shù)專利數(shù)據庫對專利等級的劃分,并結合知識表示學習中的Doc2vec模型將各等級專利科學引文的標題信息表示為低維稠密實值向量,在低維空間中計算各等級專利的科學關聯(lián)度[17]。Doc2vec模型是在經典Word2vec模型[18]基礎上進行改進,能從可變長度的文本(如文檔、段落、句子)中學習固定長度的特征向量表示[19]。
2研究方法
本文從引用科學文獻的專利入手,研究具有何種特征的科學知識更易被高價值專利所引用,中美兩國專利科學引文主題內容有何異同以及從產學研合作網絡演變視角闡釋產生差異的原因,技術路線見圖1。以人工智能領域為例:首先,進行提取專利及科學引文標題、去詞干化、分詞等數(shù)據預處理工作;其次,利用Doc2Vec表示學習方法對專利標題和科學引文標題語義信息進行向量表示,并基于主題聚類算法及向量相似度計算指標挖掘何種主題的科學知識更能支撐高質量專利的產生;最后,對比中美兩國專利的科學引文主題異同,利用中美兩國專利的產學研合作網絡中關鍵創(chuàng)新主體的演化情況來闡釋出現(xiàn)科學引文主題內容不同現(xiàn)象的緣由。
2.1基于表示學習的專利科學引文內容語義表示
本文采用Doc2vec中的PV-DM模型將專利標題及其科學引文標題分別表示為特定維度稠密的語義向量,其表示原理見圖2。首先,從分詞后的標題中滑動采樣固定長度的詞,取其中一個詞(如單詞on)作為預測詞,其他的(如單詞the、cat、sat)作為輸入詞,輸入詞被映射為向量,由矩陣W的某一列表示,該標題也被映射成唯一標識的向量,并由矩陣D的某一列表示;其次,對標題向量與單詞向量求平均或者累加構成一個新的向量,進而使用該向量預測此次窗口內的預測詞,即預測句子中的下一個單詞;最后,迭代上述過程,滑動截取句子中另一小部分詞來訓練,更新矩陣D和W。該模型的優(yōu)點在于訓練過程中標題的ID保持不變,扮演著記憶向量的作用,融合了之前訓練的每個詞向量,同一個標題會有多次訓練,更能明確表達出每個標題的主題。
3專利科學關聯(lián)度的實證分析
3.1數(shù)據來源與處理
本文數(shù)據來源于incoPat科技創(chuàng)新情報平臺,該平臺是一個涵蓋世界范圍海量專利信息的檢索系統(tǒng)。根據新興技術行業(yè)研究公司Venture Scanner對人工智能的分類,借鑒張振剛等[21]、趙蓉英等[22]采用的檢索策略,參考中國《人工智能領域標準化白皮書2018》,并結合專家意見,最終檢索式為:((TIAB=人工智能OR深度學習OR自然語言處理OR語音識別OR計算機視覺OR遙感控制OR智能機器人OR視頻識別OR語音翻譯OR圖像識別OR機器學習)OR(TIAB=("Artificial intelligence*" OR "Depth learning*" OR"Natural language processing*" OR "Speech Recognition*" OR "Computer vision*" OR "Gesture control* " OR "Smart robot*" OR "Video recognition*" OR "Voice translation*" OR "Image Recognition*" OR "Machine learning*")))NOT((IPC-SUBCLASS=("H04M"))OR(IPCSUBCLASS=("A61B"))OR(IPC-SUBCLASS=("G08G"))OR(IPC-SUBCLASS=("G05B"))OR(IPC-SUBCLASS=("G09B"))OR(IPCSUBCLASS=("B60R"))),共檢索到人工智能領域發(fā)明專利總共127246條(檢索時間為2019年6月8日)。人工智能領域專利2000—2018年間的申請量和公開量如圖3所示,本文將其發(fā)展階段分為三個階段來研究,分別是:2000—2008、2009—2013、2014—2018。
IncoPat數(shù)據庫依托其自主研發(fā)的專利價值模型(該模型融合了技術穩(wěn)定性、技術先進性、保護范圍層面等20多個專利分析行業(yè)內最常見和重要的技術指標)對專利價值進行計算,將專利分為1~10分,分數(shù)越高代表專利價值越高,部分評價指標如圖4所示。
本文依此將專利分為三個等級,分別是核心專利(9~10分)、重要專利(4~8分)、一般專利(1~3分)。各等級專利量如表1所示,一般專利、重要專利、核心專利占總專利量分別為8.73%、60.57%、30.71%,有引證科技文獻的專利占比19.03%,其中核心專利引用的科技文獻比例最高,這是否說明核心專利更易引用科技文獻。從中美兩國專利占比率可看出,中國專利量高于美國,但核心專利占比率不足美國的一半。
從中美兩國專利價值度數(shù)量分布情況(圖5),美國核心專利占美國專利總量的比例高達46.6%,其中專利價值度為10的比例為29%;而中國專利價值度為10的占中國專利總量的比例只有1.8%,僅有美國的1/ 16左右??梢姡袊鴮@麛?shù)量領先美國,但高價值專利數(shù)量落后于美國。
引證科技文獻中包含論文、專利文獻、科技報告、政府出版物和產品資料等,本文目的是為了研究專利的科學知識特征,故利用Python代碼提取會議論文、期刊論文和學位論文等科學引文標題。此外,由于論文標題中包含不同語言,故本文統(tǒng)一翻譯為中文語料,其處理流程見圖6所示,對翻譯后的標題進行詞干化、分詞等數(shù)據預處理后導入Doc2vec模型中進行句子向量表示。
3.2基于各等級價值的專利科學關聯(lián)度分析
3.2.1各等級專利科學主題聚類分析
采用K-means++算法對各等級專利標題及其科學引文標題進行主題聚類,最終一般專利被劃分為3類,重要專利和核心專利被劃分為4類,統(tǒng)計每個類別頻次排名前五的關鍵詞(表2)。從表中可見各等級專利均涉及3類,分別是視覺類(關鍵詞有圖像識別、機器視覺等)、語音類(關鍵詞有語音識別、語音采集等)和自然語言處理類(關鍵詞有機器翻譯、文本等),但重要專利和核心專利的科學引文包含蛋白質、基因、細胞、磷酸化等關鍵詞,說明生物醫(yī)學領域的科學知識對重要專利和核心專利的產生具有一定的促進作用,也體現(xiàn)了學科交叉性對于技術創(chuàng)新的促進作用。
3.2.2各等級專利的科學關聯(lián)度分析
從表2可看出,各等級專利的主題類型與其科學引文主題類型大致對應。計算各等級專利的科學關聯(lián)度見圖7,重要專利的科學關聯(lián)度均值最高,一般專利的相似度均值最低,僅有0.258。從誤差線可看出,重要專利的標準差最高,達到了0.241,核心專利的科學關聯(lián)度均值雖低于重要專利,但其誤差最小。由此可見,核心專利和重要專利的科學關聯(lián)度較高。
3.3基于中美兩國專利的科學關聯(lián)度分析
3.3.1不同等級價值專利的科學引文主題聚類分析
通過對中美兩國各等級專利引用科學文獻的主題進行聚類分析,依據CH指標評估分類效果,KMeans++算法最終將中美兩國各等級專利科學引文分類(見表3)。從各等級專利科學引文的主題類別可看出,首先,除了中國的一般專利未出現(xiàn)生物醫(yī)學領域的關鍵詞,中美兩國各等級專利均涉及生物醫(yī)學、視覺類、語音類等熱門領域關鍵詞;其次,中國重要專利和核心專利均出現(xiàn)電力領域的關鍵詞,人工智能應用于電力工程領域值得關注,此外,中國的重要專利還出現(xiàn)了巖石細觀圖像、表征分析等關鍵詞,值得留意人工智能在地震檢測新興產業(yè)領域的應用;最后,美國核心專利涉及傳感器、揚聲器、芯片等關鍵詞,說明美國在基礎硬件方面占據一定的地位。
3.3.2基于社會網絡分析的專利科學引文主題不同緣由分析
研究關鍵創(chuàng)新主體的革新情況,能夠及時準確把握人工智能領域主題走向,對于科研人員及政府機構制定決策具有一定的參考作用。首先,基于中美兩國專利申請人的共現(xiàn)關系構建產學研合作網絡,其中節(jié)點代表申請機構,邊是機構間的合作共現(xiàn)關系,研究產學研合作網絡整體演化情況;其次,利用中介中心性[23]指標識別關鍵創(chuàng)新主體。從整體產學研合作網絡看,2000—2008年,處于核心位置前列的均是美國巨頭企業(yè),如摩托羅拉、IBM等,見圖8。而2009—2013年,國家電網人工智能領域的專利申請量明顯增多,位于產學研合作網絡的中介位置,除此之外,還有美國的英特爾和日本電氣公司(NEC),見圖9。2014—2018年出現(xiàn)了一個最大的中心節(jié)點——國家電網,見圖10。因此,對比中美專利申請人分布情況,可看出2013年以前,美國的企業(yè)占據著產學研合作網絡的中心位置,而2014—2018年國家電網人工智能專利數(shù)量可謂突飛猛進,逐步成為產學研合作網絡中的核心節(jié)點。該現(xiàn)象闡明了為何中國重要專利和核心專利科學引文主題涉及電力領域的關鍵詞,即專利科學引文主題與創(chuàng)新主體具有一定的聯(lián)系。
4結論與建議
專利通過對人工智能領域各等級專利的科學引文主題及專利科學關聯(lián)度進行對比分析,得到以下結論:首先,各等級專利主題及科學引文主題均涉及語音類、視覺類和自然語言類;其次,生物醫(yī)學領域的科學知識更能支撐高價值專利的產生;最后,核心專利和重點專利的科學關聯(lián)度遠高于一般專利,說明核心專利和重點專利引用的科學文獻更相關。
通過對中美兩國人工智能領域專利數(shù)量、科學引文主題及關鍵創(chuàng)新主體的演化情況,得出以下結論:第一,中國專利數(shù)量領先美國,但中國高價值專利數(shù)量未達美國的一半,美國在高價值專利方面遙遙領先;第二,除中國一般專利科學引文未涉及生物醫(yī)學領域,中美兩國專利科學引文主題均涉及生物醫(yī)學、語音類、視覺類;第三,人工智能在電力領域的應用逐漸成為我國的優(yōu)勢,從國家電網在產學研合作網絡中逐漸占據中介位置亦能看出,但我國在基礎硬件方面實力有待加強;最后,值得注意人工智能在地震檢測等新興產業(yè)的應用。
以上結論顯示,語音識別、圖像識別、自然語言處理是各等級專利的熱點研究領域,生物醫(yī)學領域的科學知識與技術知識之間的流動性較為頻繁,更能支撐高價值專利的產生。我國人工智能雖在電力領域的應用處于優(yōu)勢地位,但在基礎硬件領域還有待提高。未來工作將在更多領域中研究基礎研究與技術創(chuàng)新的關聯(lián)性,為國家制定相關科技政策提供決策依據。
參考文獻:
[1]孫曉玲,李冰,楊陽,等.科學知識對技術知識遺傳的影響研究——基于多引用代與語義內容視角[J].科學學與科學技術管理, 2019, 40(2): 3-15.
[2]朱桂龍,李興耀. AI領域基礎科學網絡對技術創(chuàng)新網絡影響研究[J].科學學研究, 2019, 37(3): 135-143.
[3]周伯柱, GUPTAA.基于論文和專利分析的人工智能發(fā)展態(tài)勢研究[J].世界科技研究與發(fā)展, 2019, 41(4): 380-391.
[4]張涵.?中國人工智能發(fā)展報告2018?正式發(fā)布[J].中國國情國力, 2018(8): 80.
[5]黃辛.?中國新一代人工智能發(fā)展報告2019?發(fā)布[N].中國科學報,2019-05-30( 007).
[6]RIP A.Scienceandtechnologyasdancingpartnersin technological development and science in the industrial age[M]. Bakker: Kroes Press, 1992: 231-270.
[7]郭慧志,郭紅燕,施鳳丹.大腦與手:從工業(yè)革命論科學與技術的關系[J].科學學研究, 2007, 25(2): 178-183.
[8]ZHAO Q, GUAN J . Modeling the dynamic relation between science and technology in nanotechnology [J]. Scientometrics, 2012(2) : 561-579.
[9]陳凱,徐峰,程如煙.非專利引文分析研究進展[J].圖書情報工作, 2015, 59(5): 137-144.
[10]劉小玲,譚宗穎,張超星.國內外"科學-技術關系"研究方法述評——聚焦文獻計量方法[J].圖書情報工作, 2015, 59(13): 142-148.
[11] NARINFN.Istechnologybecomingscience?[J]. Scientometrics, 2007, 7(3/6): 369-381.
[12]孫曉玲,丁堃.基于知識基因發(fā)現(xiàn)的科學與技術關系研究[J].情報理論與實踐, 2017, 40(6): 17, 23-26.
[13] GUAN J, HE Y. Patent-bibliometric analysis on the Chinese science—technology linkages [J]. Scientometrics, 2007, 72(3): 403-425.
[14]殷媛媛.基于論文專利引證關系的科學技術互動研究——以立體顯示為實證分析[J].圖書情報工作, 2012, 56(16): 65-70, 74.
[15]張金柱,王玥,胡一鳴.基于專利科學引文內容表示學習的科學技術主題關聯(lián)分析研究[J].數(shù)據分析與知識發(fā)現(xiàn), 2019, 3(12): 52-60.
[16]陸萍,柯嵐馨. Innography在學科核心專利挖掘中的應用研究[J].圖書館工作與研究, 2012(8): 122-125.
[17]劉知遠,孫茂松,林衍凱,等.知識表示學習研究進展[J].計算機研究與發(fā)展, 2016, 53(2): 247-261.
[18] MIKOLOV T , CHEN K , CORRADO G , et al. Efficient Estimation of Word Representations in Vector Space[J]. Computer Science, 2013: 1-12.
[19] LE Q V, MIKOLOV T. Distributed representations of sentences and documents [C]. // 31st International Conference on Machine Learning, ICML , 2014.
[20] ARTHUR D , VASSILVITSKII S . K-means++: the advantages of careful seeding[C].// In Proceedings of the Eighteenth Annual ACM-SIAM Symposium on Discrete Algorithms, New Orleans, SIAM, 2007: 1027-1035.
[21]張振剛,黃潔明,陳一華.基于專利計量的人工智能技術前沿識別及趨勢分析[J].科技管理研究, 2018, 38(5): 36-42.
[22]趙蓉英,李新來,李丹陽.專利引證視角下的核心專利研究——以人工智能領域為例[J].情報理論與實踐, 2019, 42(3): 78-84.
[23] FREEMAN L C.Centrality in social networks conceptual clarification [J]. Social Networks, 1979, 1(3): 215-239.
Analysis of Patent Science Relevance Based on Representation Learning
SUN Xiaoling,CHEN Na(Institute of Science of Science and S.&T. Management, Dalian University of Technology , Dalian 116024,China)
Abstract: Under the innovation-driven development strategy, the relationship between scientific knowledge and technological innovation has become increasingly multi-faceted and highly complex. Starting from patents that cite scientific knowledge, use representation learning to analyze the relationship of patent science from a semantic level, especially the scientific knowledge of which features are cited in high-value patents, and compare the similarities and differences in the subject matter of patent science citations between China and the United States. The evolution of key innovation entities in the domestic university-research cooperation network to explore the reasons for this phenomenon. Taking the field of artificial intelligence as an example, the result has shown that high-value patents are more scientifically related, and the biomedical field has a more obvious supporting role for high-value patents; China is at a disadvantage in the number of high-value patents, and it is in the field of intelligent medicine and the technological innovation capability of basic hardware is relatively weak, but in recent years, the advantages in the power field have become more and more obvious. This is inseparable from the core position of State Grid in the industry-university-research cooperation network. In addition, it is worth paying attention to the application of artificial intelligence in emerging fields such as earthquake monitoring in the future.
Keywords: patent science relevance;scientific knowledge;representation learning;patent value