• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于機器學習的專利可轉(zhuǎn)讓性評估方法研究*

      2023-03-22 04:31:40馬曉迪
      情報雜志 2023年3期
      關(guān)鍵詞:專利權(quán)人機器準確率

      李 欣 馮 野 馬曉迪

      (北京工業(yè)大學經(jīng)濟與管理學院 北京 100124)

      0 引 言

      專利作為科學技術(shù)信息的重要載體,反映了國家或企業(yè)的研發(fā)投入能力與技術(shù)創(chuàng)新水平。通過專利交易實現(xiàn)專利成果轉(zhuǎn)移轉(zhuǎn)化成為我國促進科技創(chuàng)新和產(chǎn)學研高效協(xié)同的重要方式之一。然而,在專利申請量急劇增長的背景下,由于專利信息傳播不暢、缺乏資金投入和專利產(chǎn)品帶來效益難以預期等原因,我國的專利轉(zhuǎn)移轉(zhuǎn)化率卻偏低[1]。因此,篩選出適合交易的高價值專利有助于政府早期識別具有轉(zhuǎn)讓潛力的高價值專利,有助于企業(yè)購買具有市場收益潛力的專利來提升自身競爭力,有利于促進我國專利成果轉(zhuǎn)移轉(zhuǎn)化率的提升。Ko 等首次提出專利可轉(zhuǎn)讓性的概念,即通過交易實現(xiàn)專利價值潛力的可能性[2]。而構(gòu)建專利可轉(zhuǎn)讓性評估方法,從大規(guī)模的專利數(shù)據(jù)中篩選出具有轉(zhuǎn)讓可能性的專利,將有助于推進專利成果轉(zhuǎn)化,提高專利轉(zhuǎn)化率。而如何構(gòu)建專利可轉(zhuǎn)讓性評估方法成為學術(shù)界研究的熱點之一。

      專利的可轉(zhuǎn)讓性與專利價值存在一定的區(qū)別與聯(lián)系。首先,專利可轉(zhuǎn)讓性是指通過交易實現(xiàn)專利價值潛力的可能性[2]。有學者利用專利是否發(fā)生過轉(zhuǎn)讓衡量其可轉(zhuǎn)讓性。專利價值是專利在經(jīng)營過程中給企業(yè)帶來的經(jīng)濟收益和專利對企業(yè)發(fā)展戰(zhàn)略的貢獻在現(xiàn)實市場條件下的表現(xiàn)[3]。許多學者使用專利價值相關(guān)指標作為代理或通過指標加權(quán)計算得分來衡量專利價值。其次,專利可轉(zhuǎn)讓性評估是評估專利是否會發(fā)生轉(zhuǎn)讓的可能性。具有高價值的專利其轉(zhuǎn)讓的可能性更高,但也有部分高價值專利不會發(fā)生轉(zhuǎn)讓[4]。即轉(zhuǎn)讓的專利是有價值的,但一些高價值的專利也未必轉(zhuǎn)讓。

      關(guān)于專利可轉(zhuǎn)讓性評估的研究,目前學者主要是通過構(gòu)建專利可轉(zhuǎn)讓性評價指標體系,并利用機器學習方法進行專利可轉(zhuǎn)讓性評估。Ko等人從專利自身特征的內(nèi)部指標與專利技術(shù)所屬領(lǐng)域特征的外部指標兩個維度,構(gòu)建由23個指標組成的專利可轉(zhuǎn)讓性評價體系,然后構(gòu)建深度神經(jīng)網(wǎng)絡模型評估專利的可轉(zhuǎn)讓性,并通過調(diào)節(jié)模型閾值劃分專利可轉(zhuǎn)讓性等級[2]。武玉英等人構(gòu)建基于技術(shù)與法律維度的內(nèi)部指標和基于專利權(quán)人的外部指標,并使用結(jié)合高階神經(jīng)元的深度神經(jīng)網(wǎng)絡方法進行專利可轉(zhuǎn)讓性評價[5]。然而,這些學者雖然從不同維度構(gòu)建專利可轉(zhuǎn)讓性的評價指標體系,并利用機器學習模型進行專利可轉(zhuǎn)讓性評估,但評價指標之間可能存在冗余,會增大機器學習模型過擬合的風險,降低機器學習模型的泛化能力,影響評價結(jié)果的有效性。

      關(guān)于去除冗余評價指標研究方面,有些學者利用指標約減方法來減少冗余指標。在指標約減的研究中,Trappey等人利用主成分分析從專利價值評價指標體系中提取相互獨立的主成分[6],但該方法存在提取主成分可解釋性模糊以及存在使用不同數(shù)據(jù)提取主成分會導致結(jié)果不一致的問題。慎金花等人利用粗糙集方法約減專利價值評價的冗余指標[1],而粗糙集約減算法沒有直接把機器學習模型性能作為評價標準。邱一卉提出基于CART(Classification and regression tree)的包裹式指標約減算法保留評估專利價值重要指標[7],但原算法存在部分保留指標不會帶來評估模型準確率提升的問題。

      綜上所述,本文將提出一種改進的基于機器學習的專利可轉(zhuǎn)讓性評估方法。該方法將機器學習方法引入指標約減算法中,構(gòu)建基于機器學習的專利可轉(zhuǎn)讓性評估指標約減算法,去除專利可轉(zhuǎn)讓性評估的冗余指標,獲取專利可轉(zhuǎn)讓性評估的重要指標體系,以提升基于機器學習的專利可轉(zhuǎn)讓性評估模型的準確率,并以人工智能領(lǐng)域?qū)@麨槔M行實證研究,驗證該方法的可行性和有效性。

      1 研究方法

      本文提出了一種基于機器學習的專利可轉(zhuǎn)讓性評估方法,如圖1所示。具體思路是:首先,從Derwent Innovation(以下簡稱 DI)專利數(shù)據(jù)庫獲取專利數(shù)據(jù),并提取專利指標,從技術(shù)維度、法律維度、經(jīng)濟維度和主體維度構(gòu)建適用于基于機器學習的專利可轉(zhuǎn)讓性評價指標體系。其次,利用基于機器學習的指標約減算法對構(gòu)建的專利可轉(zhuǎn)讓性評價指標進行約減,去除專利可轉(zhuǎn)讓性評價的冗余指標。之后,通過非參數(shù)檢驗方法對比轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利在各保留指標間的差異,解釋和驗證約減后的評價指標體系的合理性。然后,利用約減后的評價指標數(shù)據(jù)訓練與測試機器學習模型。最后,利用分類評價指標對機器學習模型的性能進行評價,最終得到專利可轉(zhuǎn)讓性評估的最優(yōu)模型。

      具體研究步驟如下:

      1.1 數(shù)據(jù)檢索與獲取

      本文以DI專利數(shù)據(jù)庫為數(shù)據(jù)源收集數(shù)據(jù),使用與研究主題相關(guān)的檢索策略來下載相關(guān)專利數(shù)據(jù),并對其進行數(shù)據(jù)清洗。然后在數(shù)據(jù)清洗后的專利數(shù)據(jù)中提取專利指標。

      1.2 專利可轉(zhuǎn)讓性評價指標體系構(gòu)建與約減

      1.2.1專利可轉(zhuǎn)讓性評價指標體系構(gòu)建

      由于具有價值的專利才會發(fā)生轉(zhuǎn)讓,所以本文在學者們以前關(guān)于專利價值與專利可轉(zhuǎn)讓性影響因素研究的基礎上,構(gòu)建專利可轉(zhuǎn)讓性評估指標體系,并遵循以下原則:①為了全面評估專利可轉(zhuǎn)讓性,指標體系應包括專利可轉(zhuǎn)讓性的技術(shù)、法律、經(jīng)濟和主體四大維度;②指標應在專利授權(quán)后即可獲得,以便對專利可轉(zhuǎn)讓性進行早期評價與識別;③應選取可量化、易獲取的評價指標,以便使用機器學習模型去評估專利可轉(zhuǎn)讓性。因此,本文選取包含技術(shù)、法律、經(jīng)濟和主體四大維度的17個指標,以對專利可轉(zhuǎn)讓性進行全面和準確評價。

      圖1 基于機器學習的專利可轉(zhuǎn)讓性評估研究框架

      a.專利技術(shù)維度反映專利自身的技術(shù)水平。技術(shù)維度指標選取如下:

      科學關(guān)聯(lián)度??茖W關(guān)聯(lián)度是指專利引用科技文獻的數(shù)量,反映了專利技術(shù)與科學研究的聯(lián)系程度[1,8]。在科技導向領(lǐng)域,科學關(guān)聯(lián)度與專利價值呈現(xiàn)顯著相關(guān)關(guān)系[9]。

      引證專利數(shù)。引證專利數(shù)是指專利引用其他專利的數(shù)量,體現(xiàn)技術(shù)之間的知識積累性與連續(xù)性[1]。引證專利數(shù)量越多代表專利越具有堅實的技術(shù)基礎,從而說明其價值也越高[8]。

      IPC數(shù)量。IPC數(shù)量使用4位IPC數(shù)量進行表示,體現(xiàn)了專利的技術(shù)覆蓋范圍[10]。IPC 分類數(shù)量越多說明該專利可應用到更多技術(shù)領(lǐng)域發(fā)揮其價值[8,10]。

      新穎性。新穎性反映了技術(shù)的創(chuàng)新程度,新穎性的計算公式(1)如下:

      (1)

      其中NCp是專利p自身在其申請年之前從未出現(xiàn)的8位IPC組合數(shù),Cp是自身8位IPC的組合數(shù)目;指標得分越高,專利創(chuàng)新程度越高[11]。

      發(fā)明人數(shù)量。發(fā)明人數(shù)量反映了專利的研發(fā)復雜度。研發(fā)復雜度越高,專利的技術(shù)價值也越高[10]。

      專利權(quán)人數(shù)量。專利權(quán)人數(shù)量反映專利研發(fā)資源投入程度及技術(shù)實用性[12]。專利權(quán)人數(shù)越多,專利質(zhì)量越高[13],其專利價值也越高。

      b.專利法律維度反映專利的法律保護程度。法律維度指標選取如下:

      權(quán)利要求數(shù)。權(quán)利要求數(shù)反映專利的保護范圍,越有價值的專利要求保護的權(quán)項數(shù)越多、范圍越廣[8]。

      獨立權(quán)利要求數(shù)。獨立權(quán)利要求數(shù)反映了專利解決技術(shù)難題的技術(shù)創(chuàng)新性和實用性[14]。技術(shù)創(chuàng)新性和實用性越高,專利價值越高。

      從屬權(quán)利要求數(shù)。從屬權(quán)利要求保護的發(fā)明與獨立權(quán)利要求保護的發(fā)明相同,但反映更加具體[15]。從屬權(quán)利要求和獨立權(quán)利要求共同組成專利的權(quán)利要求,其數(shù)量反映專利的價值。

      優(yōu)先權(quán)數(shù)量。優(yōu)先權(quán)數(shù)量反映了專利在多國組合和布局情況,一項專利獲取多國授權(quán)將帶來更大的維持成本[16],所以具有價值的專利才值得專利權(quán)人申請優(yōu)先權(quán)。

      審查時長。審查時長為專利授權(quán)年份與專利申請年份的差值。申請時程越長,表明技術(shù)先進性越強[17],其價值越高。

      c.經(jīng)濟維度反映專利的市場潛力。經(jīng)濟維度指標選取如下:

      專利家族數(shù)。專利家族數(shù)指一項專利所處的一組優(yōu)先權(quán)完全相同的專利家族中專利的個數(shù)[18]。專利家族規(guī)模越大說明形成專利保護網(wǎng)絡越牢固,技術(shù)組合布局越完善,專利家族的價值越高[19]。

      同族國家數(shù)。同族國家數(shù)量是同族專利申請國的數(shù)量,反映了專利的國際競爭力。具有高價值的專利才值得專利權(quán)人在多國申請保護[8]。

      d.主體維度反映專利的主體的技術(shù)實力和轉(zhuǎn)讓傾向。主體維度指標選取如下:

      專利權(quán)人類型。不同類型的機構(gòu)對實施專利轉(zhuǎn)讓的傾向存在差異,科研院所多承擔技術(shù)研發(fā)階段的工作,而企業(yè)注重技術(shù)的市場運營[20]。本文將專利權(quán)人類型為機構(gòu)合作、研究機構(gòu)、企業(yè)、大學、個人,并進行數(shù)字化分別記為5,4,3,2,1。其中,機構(gòu)合作指專利權(quán)人由研究機構(gòu)、企業(yè)和大學中的兩個及以上所組成的情況。

      專利權(quán)人專利數(shù)。所有專利權(quán)人在該領(lǐng)域發(fā)布的專利數(shù)量總和,反映專利權(quán)人開發(fā)專利的努力程度[21]。專利權(quán)人在該領(lǐng)域發(fā)布專利越多,說明其在該領(lǐng)域技術(shù)實力越強,專利價值可能越高。

      第一發(fā)明人專利數(shù)。即第一發(fā)明人在該領(lǐng)域的專利數(shù)量,反映第一發(fā)明人在該領(lǐng)域的發(fā)明能力[22]。發(fā)明能力越強,其專利價值可能越高。

      發(fā)明人專利數(shù)。即所有發(fā)明人在該領(lǐng)域的專利數(shù)量總和,反映所有發(fā)明人的綜合發(fā)明能力。

      1.2.2指標約減

      在獲取專利可轉(zhuǎn)讓性評價指標體系后,為了減少冗余評價指標,本文將對獲取的評價指標進行指標約減。本文將對基于CART的指標選擇方法進行改進[7],提出一種基于機器學習模型預測準確率的指標選擇方法。

      首先,設計計算不同指標組合下基于機器學習的評估模型預測準確率的計算模塊。建立一個10層的循環(huán),然后在每個循環(huán)中設置5折交叉驗證來劃分數(shù)據(jù)集。每次交叉驗證都會根據(jù)相應的循環(huán)設置隨機數(shù),保證每次數(shù)據(jù)集劃分結(jié)果不一樣。

      在每次交叉驗證中,原始數(shù)據(jù)被劃分為訓練集與驗證集。我們使用SMOTE(Synthetic minority oversampling technique)過采樣算法平衡訓練集數(shù)據(jù)。利用平衡后的訓練集去訓練機器學習模型,再利用驗證集去評估機器學習模型,這樣就得到某一次數(shù)據(jù)下模型對于驗證集預測的準確率均值及其方差。

      其次,選擇合適的機器學習模型作為指標約減算法中進行專利可轉(zhuǎn)讓性預測的模型。選取不同的機器學習模型,并利用所有指標下的數(shù)據(jù)訓練模型,得到不同機器學習模型的預測準確率均值及其方差。根據(jù)預測準確率均值及其方差選取最優(yōu)機器學習模型。

      然后,計算指標的影響系數(shù)。定義“影響系數(shù)數(shù)值”如式(2)所示,

      (2)

      利用迭代的方式,采取從指標集中有放回地去除指標的方法逐一計算每個指標的影響系數(shù)。根據(jù)影響系數(shù)值對指標進行升序排序,排名靠前的對模型預測準確率影響較大。

      上述過程得到各指標按照重要程度排序列表。然后我們建立保留指標列表,采取遞歸的方式每次從重要程度列表取出一個指標添加到保留指標列表,然后計算相應保留指標列表下的模型預測準確率均值,當模型預測準確率均值得到提升時,確認將此指標添加到保留指標列表,并將其從重要程度列表移除。否則,繼續(xù)嘗試添加重要程度列表中下一個指標。在每次確認向保留指標列表添加指標時,下一次嘗試添加重要程度列表中指標時都是從頭開始嘗試。當嘗試添加到重要程度列表中最后一個指標到保留指標列表也沒有給模型帶來提升時算法結(jié)束?;蛘咧笜酥匾潭攘斜頌榭諘r,即所有的指標都被添加到保留指標列表,算法停止。最后我們就得到了保留指標列表。

      相比于原指標約減算法,本算法的改進體現(xiàn)在兩個方面。一是,在計算模型準確率均值方面:使用所選數(shù)據(jù)下性能最優(yōu)的機器學習模型來計算預測準確率。同時加入過采樣來平衡數(shù)據(jù)。二是,在確定保留指標的算法方面:采取添加指標使得模型預測準確率均值提升,才將此指標保留的方式。避免了原算法可能出現(xiàn)的添加某指標使得準確率提升,是由于添加的前一個指標使得模型的準確率下降的情況,導致我們保留了冗余指標。

      1.3 指標約減結(jié)果解釋

      本文利用非參數(shù)檢驗U檢驗去檢驗轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利在某一個評價指標下分布是否存在差異。被檢驗存在差異說明有充分理由認為二者來自不同的分布,進而認為機器學習模型可以通過這個指標對轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利進行劃分。并對轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利指標分布進行可視化對比,查看兩個分布在統(tǒng)計量上的特點,進一步從分布統(tǒng)計量角度解釋兩個分布存在哪些差異。最后根據(jù)轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利指標差異性檢驗的結(jié)果,解釋指標約減的結(jié)果。

      以往研究使用預測模型準確率的提升來證明保留指標的合理性。本研究在此基礎上,通過檢驗指標在轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利之間分布上的差異,進一步驗證了保留指標的合理性。同時,通過指標分布可視化比查看具體差異特點,增強了指標約減結(jié)果的可解釋性。

      1.4 評估模型構(gòu)建

      為提高專利可轉(zhuǎn)讓性評估的效率,本文選擇機器學習中應用較為廣泛的全連接神經(jīng)網(wǎng)絡、XGBoost(eXtreme Gradient Boosting)和SVM(Support Vector Machine),并進行性能對比,選擇性能最優(yōu)的模型作為專利可轉(zhuǎn)讓性評價的評估模型。

      全連接神經(jīng)網(wǎng)絡由輸入層、隱藏層和輸出層組成。每層神經(jīng)元之間設置權(quán)重與偏置,并通過反向傳播算法對其進行更新。同時每個神經(jīng)元設置激活函數(shù),這種結(jié)構(gòu)使得全連接神經(jīng)網(wǎng)絡具有良好的非線性擬合能力[23]。

      XGBoost是通常以樹模型為基模型的加法模型。其核心思想是不斷添加樹模型,并且不斷通過特征分裂來生成一棵樹。通過對得到k顆樹進行集成,得到具有良好性能的預測模型[24]。

      SVM的基本思路是尋找一個最優(yōu)分類超平面,使兩類間相鄰最近樣本點間的邊緣最大化。SVM可以通過核函數(shù)進行非線性分類[23]。

      通過對比3個機器學習模型在數(shù)據(jù)集上的性能表現(xiàn),選擇出評估專利可轉(zhuǎn)讓性的最優(yōu)模型?;跈C器學習的專利可轉(zhuǎn)讓評估模型構(gòu)建過程如下:

      首先,構(gòu)建機器學習模型所需數(shù)據(jù)集。將約減后的評價指標數(shù)據(jù)作為機器學習模型的輸入,并從預處理后的專利數(shù)據(jù)中提取專利轉(zhuǎn)讓信息來評估專利可轉(zhuǎn)讓性。將專利至少存在一次機構(gòu)間轉(zhuǎn)讓視為轉(zhuǎn)讓專利[20],將其標簽設置為1;其余專利標簽設置為0。0和1作為機器學習模型對應的輸出。

      其次,并按照時間先后順序,將數(shù)據(jù)劃分為訓練集與測試集。其中訓練集用于訓練模型,測試集用于評估模型的泛化能力。

      然后,使用訓練集訓練全連接神經(jīng)網(wǎng)絡、XGBoost和SVM模型,并利用測試集評估3種機器學習模型的性能。

      最后,對比3種機器學習模型在準確度、精確度、召回率與F1分數(shù)這四個評估指標上的表現(xiàn),選擇泛化能力最優(yōu)的模型作為評估專利可轉(zhuǎn)讓性的最優(yōu)模型。

      2 研究案例

      2.1 數(shù)據(jù)檢索與獲取

      本文以檢索式TAB=(“AI” OR “artificial intelligence*” OR “computer vision*” OR “machine learning*” OR “deep learning*” OR “reinforcement learning*” OR “NLP” OR “natural language processing*” OR “smart robot*” OR “intelligent robot*” OR “speech recognition*” OR “voice recognition*” OR “big data*” OR “cloud computing*”) AND PY>=(2007) AND PY<=(2017)在DI中選擇USPTO專利數(shù)據(jù)庫檢索人工智能技術(shù)相關(guān)授權(quán)專利,共檢索到15 844條專利數(shù)據(jù),并進行數(shù)據(jù)清洗得到13 764條專利數(shù)據(jù)。提取評估專利可轉(zhuǎn)讓性相關(guān)指標后,得到專利指標數(shù)據(jù)集,記為數(shù)據(jù)集1。

      按照年份對數(shù)據(jù)集1劃分,得到2007—2016年的專利(數(shù)據(jù)集2)與2017年專利(數(shù)據(jù)集3)。然后將數(shù)據(jù)集2按照專利是否轉(zhuǎn)讓,劃分為未轉(zhuǎn)讓專利(數(shù)據(jù)集4)與轉(zhuǎn)讓專利(數(shù)據(jù)集5)。數(shù)據(jù)獲取情況如表1所示。

      表1 數(shù)據(jù)獲取情況

      2.2 專利可轉(zhuǎn)讓性評價指標體系構(gòu)建與約減

      首先根據(jù)我們構(gòu)建的專利可轉(zhuǎn)讓性評價指標體系,從專利數(shù)據(jù)集2中提取并計算相應數(shù)據(jù)構(gòu)建符合機器學習模型的數(shù)據(jù)集。

      然后利用基于機器學習的指標約減算法對17個指標進行約減,步驟如下。

      步驟1:確定最佳機器學習模型

      利用全部17個指標數(shù)據(jù)分別對全連接神經(jīng)網(wǎng)絡、XGBoost和SVM模型進行訓練,通過嘗試的方式得到3個機器學習模型最佳的參數(shù)。

      全連接神經(jīng)網(wǎng)絡的超參數(shù)為:設置4個神經(jīng)元個數(shù)為32的隱藏層,每個隱藏層的隨機失活率設置為0.2。優(yōu)化器為SGD,損失函數(shù)為交叉熵損失函數(shù),迭代次數(shù)設置為200;XGBoost模型的最佳參數(shù)為:基模型設置為gbtree,學習率設置為0.1,樹的最大深度為6,n_estimators設置為100;SVM的超參數(shù)為:懲罰系數(shù)設置為1,核函數(shù)為rbf,gamma值設置為0.2。

      在交叉驗證中,4個機器學習模型在驗證集上的預測準確率均值與方差如表2所示。

      表2 驗證集的預測準確率均值與方差

      由表2可以看出,XGBoost的預測準確率均值最高,比排名第2的全連接神經(jīng)網(wǎng)絡高出5.58%。SVM的預測準確率方差最小。預測準確率均值代表模型的性能,方差代表預測的穩(wěn)定性,綜合這兩個因素,選擇XGBoost作為指標約減算法中的機器學習模型。

      步驟2:計算影響系數(shù)

      表3 指標重要程度排序

      步驟3:根據(jù)指標對模型準確率的提升效果確認保留指標

      通過上一步我們得到各指標按照影響系數(shù)值升序排序的指標重要程度列表。然后建立保留指標列表H,用于存放保留指標。

      首先,從指標重要程度列表指標中,按照其重要程度逐個添加至保留指標列表。當指標Ci添加至保留指標列表H中,H與標簽構(gòu)建的XGBoost模型預測準確率均值得到提升,則確認將此指標添加到保留指標列表。然后,繼續(xù)從指標重要程度列表的開始繼續(xù)嘗試向保留指標列表添加指標。當添加指標Ci后的H與標簽L構(gòu)建的XGBoost模型的預測準確率均值沒有得到提升時,則繼續(xù)嘗試向保留指標列表H中添加指標Ci的下一個指標。直至嘗試將指標重要程度列表的最后一個指標添加至保留指標列表時,也沒有使模型的預測準確率均值帶來提升時,算法結(jié)束。最后,我們得到了保留指標結(jié)果如表4所示,為專利權(quán)人專利數(shù)、專利權(quán)人類型、引證專利數(shù)、審查時長、同族國家數(shù)、專利權(quán)人數(shù)量、第一發(fā)明人專利數(shù)、優(yōu)先權(quán)數(shù)量、發(fā)明人專利數(shù)和科學關(guān)聯(lián)度。根據(jù)每次添加保留指標的預測準確率均值,繪制準確率提升曲線圖如圖2所示。

      從表4可以看出,約減后的10個指標中4個來自主體維度,3個來自技術(shù)維度,2個來自法律維度,1個來自經(jīng)濟維度。在對保留指標的遞歸過程中,模型的預測準確率均值由67.19%上升到73.72%,相比于所有指標下預測準確率均值73.16%,提升了0.56%。通過指標約減去除掉評估專利可轉(zhuǎn)讓性的冗余指標,模型的預測準確率得到提升。

      圖2 根據(jù)保留指標遞歸添加的預測準確率提升曲線

      表4 根據(jù)保留指標遞歸添加的預測準確率

      原指標約減算法按照重要程度列表中指標順序逐個添加指標,當添加指標后準確率大于上一次,則保留此指標。按照原算法得到的準確率提升曲線如圖3所示。

      圖3 原算法根據(jù)保留指標遞歸添加的預測準確率提升曲線

      從圖3可以看出,按照原算法保留指標除了本文使用改進后約減算法得到的10個指標外,還包括了IPC數(shù)量和獨立權(quán)利要求數(shù)。而這兩個指標的保留是由于添加上一個指標使得準確率下降導致的。使用原算法得到的保留指標,計算其預測準確率均值為73.56%,低于改進后算法得到保留指標下的預測準確率均值73.72%。所以這兩個指標是冗余的,進而表明改進后的指標約減算法效果更好。

      2.3 指標約減結(jié)果解釋

      為了從指標統(tǒng)計分布的角度探究這些指標被保留的原因。選取保留指標在數(shù)據(jù)集4與數(shù)據(jù)集5中的數(shù)據(jù),然后利用差異檢驗檢驗二者分布是否存在差異。

      由于各約減后指標的分布不全符合正態(tài)分布,所以本文選用非參數(shù)檢驗U檢驗來檢驗不同指標下轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利的數(shù)據(jù)分布是否存在差異。檢驗結(jié)果如表5所示。檢驗p值小于0.05時,被認為存在差異。

      表5 指標差異性檢驗結(jié)果

      由表5可知,保留指標均被U檢驗檢驗為存在分布差異。這些指標被檢驗存在差異,說明有充分理由認為這些指標數(shù)據(jù)集中轉(zhuǎn)讓專利數(shù)據(jù)與未轉(zhuǎn)讓專利數(shù)據(jù)來自不同的分布,進而表明這些指標有助于機器學習模型對轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利進行劃分。

      為了進一步分析保留指標數(shù)據(jù)集下轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利兩個分布存在哪些差異,本文計算分布統(tǒng)計量并進行分布可視化,分析同一指標下兩個分布存在哪些特點。轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利在各個指標下的統(tǒng)計量,結(jié)果如表6所示。

      為對比轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利在同一指標下的分布情況,我們進行了指標分布對比分析,部分指標分布對比結(jié)果如圖4和表7所示。

      圖4 專利權(quán)人專利數(shù)對比圖

      對專利權(quán)人專利數(shù)進行分布可視化后得到圖4。圖4中箱線圖中上面為轉(zhuǎn)讓專利指標箱線圖,下面為未轉(zhuǎn)讓專利指標箱線圖。其中三角點代表均值,圓點為算法檢測的異常點。右邊相對應的為轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利指標分布直方圖。

      表6 轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利各指標統(tǒng)計量對比

      由圖4可知,未轉(zhuǎn)讓專利的中位數(shù)比轉(zhuǎn)讓專利高19,均值高159.57。而轉(zhuǎn)讓專利的上四分位比未轉(zhuǎn)讓專利高208。

      對專利權(quán)人類型中各類型專利權(quán)人的數(shù)量與占比進行統(tǒng)計得到表7。

      表7 專利權(quán)人類型對比

      由表7可知, 轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利中專利權(quán)人為企業(yè)的占比均超過85%。在轉(zhuǎn)讓專利中機構(gòu)合作的占比高于未轉(zhuǎn)讓專利,所占比例超過未轉(zhuǎn)讓專利的2倍。轉(zhuǎn)讓專利中高校和科研機構(gòu)的占比均低于未轉(zhuǎn)讓專利。

      綜上可知,專利權(quán)人專利數(shù)、專利權(quán)人類型、引證專利數(shù)、審查時長、同族國家數(shù)、專利權(quán)人數(shù)量、第一發(fā)明人專利數(shù)、優(yōu)先權(quán)數(shù)量、發(fā)明人專利數(shù)和科學關(guān)聯(lián)度在轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利直接存在差異。被檢測存在差異的指標說明該指標更有助于機器學習模型對轉(zhuǎn)讓專利與未轉(zhuǎn)讓專利進行分類。這些結(jié)果表明,通過指標約減算法,我們?nèi)コ嗽u估專利可轉(zhuǎn)讓性的冗余指標,并從數(shù)據(jù)分布角度驗證了保留指標的合理性。

      已有研究表明,不同類型專利權(quán)人由于其在研發(fā)與經(jīng)營策略上存在不同,使得其專利轉(zhuǎn)讓行為存在差異[20]。本文根據(jù)專利權(quán)人特征與發(fā)明人特征構(gòu)建的專利主體維度指標反映專利主體的技術(shù)實力與轉(zhuǎn)讓傾向。主體維度四個指標均被保留,說明主體維度指標對于評估專利可轉(zhuǎn)讓性是非常重要的,這也與已有研究結(jié)果相一致。已有研究也表明,高價值專利更容易發(fā)生轉(zhuǎn)讓[4],評估專利轉(zhuǎn)移潛力的核心因素之一是對其專利價值的識別[25]。在技術(shù)維度中,已有研究認為引證專利數(shù)與專利價值有顯著正相關(guān)[26],科學關(guān)聯(lián)度被認為是評估專利價值的核心指標[8],專利權(quán)人數(shù)量也多次被用于專利質(zhì)量和價值的評估[27]。在法律維度中,優(yōu)先權(quán)數(shù)量反映了專利組合與布局情況,研究表明實施合理的專利組合與布局策略有利于促進技術(shù)專利轉(zhuǎn)化過程中的價值增值[28]。企業(yè)專利的審查時長被認為與專利價值呈現(xiàn)正相關(guān)關(guān)系[29]。在經(jīng)濟維度中,由于高價值專利才值得在不同地域申請保護[30-31],所以同族國家數(shù)量能夠很好反映專利的經(jīng)濟價值。

      綜上所述,本文約減后得到的專利可轉(zhuǎn)讓性評估指標是有效的,這些指標是專利可轉(zhuǎn)讓性評估的重要指標。

      2.4 評估模型構(gòu)建

      首先,以約減后專利可轉(zhuǎn)讓性評價指標體系為依據(jù),從數(shù)據(jù)集2與數(shù)據(jù)集3中提取并計算相應指標數(shù)據(jù),獲得與約減后專利可轉(zhuǎn)讓性評價指標體系相對應的符合機器學習模型的專利數(shù)據(jù)來構(gòu)建訓練集、驗證集和測試集。其中,數(shù)據(jù)集2為2007—2016年專利數(shù)據(jù),將其按照4∶1的比例隨機劃分為訓練集與驗證集。訓練集用于訓練機器學習模型,驗證集用于調(diào)整模型參數(shù)。數(shù)據(jù)集3為2017年專利數(shù)據(jù),作為測試集來評估模型的泛化能力。

      然后,分別構(gòu)建全連接神經(jīng)網(wǎng)絡、XGBoost和SVM模型評估專利可轉(zhuǎn)讓性。根據(jù)驗證集評估結(jié)果調(diào)整機器學習模型的參數(shù),全連接神經(jīng)網(wǎng)絡的迭代次數(shù)變更為240,XGBoost參數(shù)保持不變,SVM的gamma值變更為0.8,3個模型的其余參數(shù)與指標約減算法中對應模型的參數(shù)保持一致。約減后指標對應數(shù)據(jù)集下各機器學習模型的性能評估結(jié)果如表8所示。

      由表8可知,XGBoost模型在測試集上各評估指標的表現(xiàn)均優(yōu)于全連接神經(jīng)網(wǎng)絡與SVM。使用約減后指標數(shù)據(jù)訓練的XGBoost模型對于測試集的預測準確率為72.36%,總體預測精確度、召回率和F1分數(shù)為72.80%、72.50%和72.29%。綜上,XGBoost為評估專利可轉(zhuǎn)讓性的最優(yōu)模型,具有良好的泛化能力。

      表8 約減后指標對應3種機器學習模型的性能評估結(jié)果

      人工智能領(lǐng)域?qū)@赊D(zhuǎn)讓性評估案例表明,本文構(gòu)建的基于機器學習的指標約減算法能夠去除掉冗余指標,使得模型預測準確率得到提升;基于約減后的指標所構(gòu)建的基于機器學習的專利可轉(zhuǎn)讓性評估模型也是可行和有效的,能夠獲得具有良好泛化能力的最優(yōu)評估模型。

      3 結(jié) 語

      面對日益增加的專利數(shù)據(jù),如何快速、準確地識別出具有可轉(zhuǎn)讓性的專利對于政府部門、大學、科研機構(gòu)和企業(yè)的專利管理決策至關(guān)重要。針對目前專利可轉(zhuǎn)讓性評價研究存在的不足,本文提出了一種基于機器學習的專利可轉(zhuǎn)讓性評價方法,并以人工智能技術(shù)領(lǐng)域?qū)@麨檠芯繉ο?,驗證了該方法的可行性和有效性。案例研究發(fā)現(xiàn):a.專利權(quán)人專利數(shù)、專利權(quán)人類型、引證專利數(shù)、審查時長、同族國家數(shù)、專利權(quán)人數(shù)量、第一發(fā)明人專利數(shù)、優(yōu)先權(quán)數(shù)量、發(fā)明人專利數(shù)和科學關(guān)聯(lián)度對于轉(zhuǎn)讓專利和非轉(zhuǎn)讓專利具有明顯的區(qū)分度。其中,主體維度的指標均被保留,說明主體維度指標對于評估專利可轉(zhuǎn)讓性是非常重要的。b.基于機器學習的專利可轉(zhuǎn)讓性評估模型,使用約減后的評價指標,模型具有較好的泛化能力,模型分類準確率達到72.36%,可以較好地對專利的可轉(zhuǎn)讓性進行評估。

      本文的主要貢獻是提出了一種基于機器學習的專利可轉(zhuǎn)讓性評估方法。首先,將機器學習方法引入指標約減算法中,構(gòu)建基于機器學習的專利可轉(zhuǎn)讓性評估指標約減算法,對專利可轉(zhuǎn)讓性評價指標體系進行指標約減,剔除冗余指標來提升機器學習模型的泛化能力。同時利用非參數(shù)檢驗方法來解釋指標約減結(jié)果的合理性,進而得到一套專利可轉(zhuǎn)讓性評估指標體系。其次,雖然本文是以人工智能領(lǐng)域2007-2017年的歷史專利數(shù)據(jù),驗證了基于機器學習的專利可轉(zhuǎn)讓性評估模型的可行性和有效性,但該模型的輸入指標一經(jīng)專利授權(quán)即可獲取,因此當新專利(2022年授權(quán)的專利)數(shù)據(jù)輸入模型時,模型可對輸入專利的可轉(zhuǎn)讓性進行評估。因此,該模型不僅為人工智能領(lǐng)域?qū)@赊D(zhuǎn)讓性評估提供了可行和有效的方法,也為其它領(lǐng)域的專利可轉(zhuǎn)讓性評估提供方法支持。此外,本文所提出的機器學習模型框架是開放的,可以利用不同的機器學習算法來對某領(lǐng)域歷史的轉(zhuǎn)讓專利和未轉(zhuǎn)讓專利進行分析,并獲取專利特征與專利轉(zhuǎn)讓之間的關(guān)系模式。當該領(lǐng)域新的授權(quán)專利一經(jīng)公開,就可以獲取專利的特征數(shù)據(jù),并可以利用機器學習模型來對其轉(zhuǎn)讓的可能性進行評估,從而為早期識別專利可轉(zhuǎn)讓性提供了可能。因此,基于機器學習的專利可轉(zhuǎn)讓性評估方法為專利可轉(zhuǎn)讓性評估提供了新的研究方法。

      猜你喜歡
      專利權(quán)人機器準確率
      基于動態(tài)博弈的企業(yè)專利訴訟研究:動機與訴訟收益
      機器狗
      機器狗
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
      2015—2017 年寧夏各天氣預報參考產(chǎn)品質(zhì)量檢驗分析
      未來機器城
      電影(2018年8期)2018-09-21 08:00:06
      高速公路車牌識別標識站準確率驗證法
      對標準必要專利權(quán)人拒絕許可行為的反壟斷規(guī)制
      無敵機器蛛
      双牌县| 永定县| 四川省| 清新县| 托里县| 清涧县| 台湾省| 临江市| 梅河口市| 冷水江市| 黄陵县| 德保县| 三台县| 武定县| 刚察县| 新营市| 香港 | 泰安市| 安国市| 遵化市| 安义县| 翁源县| 阿克陶县| 嘉定区| 曲松县| 阳江市| 栖霞市| 绥芬河市| 桃园县| 青田县| 根河市| 珲春市| 泽库县| 汝城县| 陈巴尔虎旗| 华池县| 平度市| 澎湖县| 康保县| 长海县| 枣阳市|