楊美妮 沈 靜 張建軍
(海軍工程大學(xué)理學(xué)院 武漢 430033)
專利作為無形資產(chǎn)的重要組成部分,在國(guó)民經(jīng)濟(jì)中發(fā)揮著重要的作用。專利價(jià)值的評(píng)估,一方面可以使得企業(yè)對(duì)其所擁有的專利有一個(gè)全面的認(rèn)識(shí),便于對(duì)這些專利進(jìn)行有效保護(hù);另一方面可以為專利轉(zhuǎn)讓,專利購(gòu)買等無形資產(chǎn)運(yùn)營(yíng)行為提供重要的價(jià)值參考。專利價(jià)值的主要影響因素包括專利質(zhì)量、市場(chǎng)價(jià)值、技術(shù)可替代性和專利保護(hù)強(qiáng)度四個(gè)方面,在這四個(gè)要素中,專利質(zhì)量是基礎(chǔ)[1]。因此,對(duì)專利質(zhì)量進(jìn)行科學(xué)合理的評(píng)估具有重要的意義。
專利數(shù)據(jù)中蘊(yùn)含著豐富的計(jì)量指標(biāo),這些計(jì)量指標(biāo)和專利質(zhì)量之間存在著密切的聯(lián)系。例如,專利的引用、專利的科學(xué)關(guān)聯(lián)度以及專利的技術(shù)周期可以用來描述專利所代表技術(shù)的先進(jìn)性程度[2];專利的學(xué)科覆蓋程度同專利的訴訟之間存在著一定的聯(lián)系,贏得訴訟的專利通常具有較高的質(zhì)量[3];在本國(guó)以外地區(qū)申請(qǐng)的專利質(zhì)量一定程度上優(yōu)于只在本國(guó)申請(qǐng)的專利[4]等。在對(duì)專利質(zhì)量進(jìn)行分析時(shí),經(jīng)常需要分析處理大量的專利,完全手工分析費(fèi)時(shí)費(fèi)力。在這樣的情況下,可以將專利的計(jì)量指標(biāo)作為輸入特征,建立機(jī)器學(xué)習(xí)的模型對(duì)專利質(zhì)量進(jìn)行自動(dòng)評(píng)估,從而減少專利分析的投入并且加快分析的過程[5~7]。本文分別使用邏輯回歸,支持向量機(jī),神經(jīng)網(wǎng)絡(luò)三種機(jī)器學(xué)習(xí)的方法建立了專利質(zhì)量評(píng)估的模型,并將其運(yùn)用于3D 打印相關(guān)專利的質(zhì)量評(píng)估之中。
不同于以往的工作,首先,本研究所采用的數(shù)據(jù)規(guī)模相對(duì)比較龐大,一共采用了上萬條專利六千多個(gè)專利族作為機(jī)器學(xué)習(xí)模型的樣本,樣本中的測(cè)試集規(guī)模有兩百多個(gè)專利族,研究結(jié)果相對(duì)較為可靠;其次,利用邏輯回歸模型在輸出上的概率解釋特性,對(duì)輸出結(jié)果的準(zhǔn)確率和召回率進(jìn)行了單邊控制,從而使得專利評(píng)估模型能夠滿足某些特定應(yīng)用場(chǎng)合的需求;最后,本文的方法選取了引用專利質(zhì)量評(píng)價(jià)指標(biāo)、權(quán)利保護(hù)范圍專利質(zhì)量評(píng)價(jià)指標(biāo)和區(qū)域保護(hù)范圍專利質(zhì)量評(píng)價(jià)指標(biāo),一共三類指標(biāo)11組計(jì)量特征作為模型估計(jì)專利質(zhì)量的依據(jù),計(jì)量特征的選取相對(duì)比較全面。
對(duì)已標(biāo)注數(shù)據(jù)自動(dòng)分析獲得規(guī)律,并利用規(guī)律對(duì)未知數(shù)據(jù)的標(biāo)注進(jìn)行預(yù)測(cè)是機(jī)器學(xué)習(xí)的一個(gè)重要的研究方向。具體過程可以參見圖1,其中f 是未知的理想目標(biāo)函數(shù),X 為函數(shù)輸入,Y 為函數(shù)輸出,這個(gè)函數(shù)是所有現(xiàn)實(shí)標(biāo)注數(shù)據(jù)產(chǎn)生的依據(jù),機(jī)器學(xué)習(xí)的目標(biāo)就是為了找到一個(gè)能夠近似于f的函數(shù);訓(xùn)練集是一些已經(jīng)被標(biāo)注的數(shù)據(jù),用于給機(jī)器學(xué)習(xí)的算法提供相應(yīng)的支持,其中xi是數(shù)據(jù)特征,yi是該輸入特征所對(duì)應(yīng)的標(biāo)注;學(xué)習(xí)算法A是機(jī)器學(xué)習(xí)的核心,用于從訓(xùn)練集中總結(jié)出相關(guān)的規(guī)律,從假設(shè)空間H 中選取最優(yōu)的假設(shè)函數(shù)g 作為目標(biāo)函數(shù)f 的近似[8]。在對(duì)專利質(zhì)量進(jìn)行評(píng)估的過程中,目標(biāo)函數(shù)f 是理想的專利質(zhì)量評(píng)估公式,使用這個(gè)公式能夠準(zhǔn)確的計(jì)算出專利的質(zhì)量,訓(xùn)練集是已經(jīng)標(biāo)注好專利質(zhì)量的歷史專利質(zhì)量記錄,假設(shè)空間H是可能的專利質(zhì)量估算公式集合,假設(shè)函數(shù)g 則是學(xué)習(xí)算法A 從訓(xùn)練集中學(xué)習(xí)到的可以用于對(duì)未知質(zhì)量的專利進(jìn)行評(píng)估的公式,該公式近似等于f。
圖1 機(jī)器學(xué)習(xí)過程
本研究將專利質(zhì)量的評(píng)估抽象為一個(gè)機(jī)器學(xué)習(xí)的二分類問題,所有待判斷質(zhì)量的專利都將被自動(dòng)劃分為兩類中的一類,如果某個(gè)專利質(zhì)量可能比較高,那么模型將該專利劃歸為一類,否則該專利被劃歸為另一類。
在機(jī)器學(xué)習(xí)建模時(shí),模型的輸入特征必須體現(xiàn)出與模型輸出相關(guān)的信息,輸出表現(xiàn)的是機(jī)器學(xué)習(xí)的目標(biāo),兩者的建立必須和機(jī)器學(xué)習(xí)所要解決的具體問題相對(duì)應(yīng)。
在本文中,所建立的機(jī)器學(xué)習(xí)模型是為了對(duì)專利的質(zhì)量進(jìn)行評(píng)估,參照之前的工作[9],選取了包含引用指標(biāo)、權(quán)利保護(hù)范圍指標(biāo)和區(qū)域保護(hù)范圍指標(biāo)一共三類指標(biāo)11 組計(jì)量信息作為模型的輸入特征,這些計(jì)量信息和專利的質(zhì)量都存在著某種聯(lián)系。具體如表1 所示,表中的專利族列代表這些指標(biāo)來自于專利族還是單條專利。
表1 模型輸入特征列表
專利質(zhì)量是個(gè)比較抽象的概念,在不同的情況中常常表現(xiàn)為不同的形式[6],比如說曾被轉(zhuǎn)讓的專利質(zhì)量通常較高,贏得訴訟的專利質(zhì)量通常較高等等。本文從專利轉(zhuǎn)讓這一角度描述專利質(zhì)量,也就是說,機(jī)器學(xué)習(xí)模型的輸出是專利可能被轉(zhuǎn)讓的情況。
在該研究中,我們分別采用了邏輯回歸模型,支撐向量機(jī)模型,神經(jīng)網(wǎng)絡(luò)模型作為專利質(zhì)量評(píng)估的模型。邏輯回歸模型結(jié)構(gòu)簡(jiǎn)單,輸出具備概率特性,利用這一特點(diǎn),能夠單方面地對(duì)研究結(jié)果的準(zhǔn)確率或者召回率進(jìn)行控制,以滿足特殊的需求。支撐向量機(jī)模型是優(yōu)秀的分類器,參數(shù)數(shù)量少,通常能夠相對(duì)比較容易得到可以接受的結(jié)果。神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)復(fù)雜,參數(shù)數(shù)量多,模型功能非常強(qiáng)大,通常能夠得到優(yōu)秀的實(shí)驗(yàn)結(jié)果,但同時(shí)該模型的操控空間也比較大,容易發(fā)生過擬合,從而影響研究結(jié)果。之所以選取這三個(gè)模型,一方面是想利用邏輯回歸模型輸出的概率特性,另一方面邏輯回歸模型較為簡(jiǎn)單,對(duì)復(fù)雜些的數(shù)據(jù)分布無法進(jìn)行有效的分類,所以引入能夠處理復(fù)雜數(shù)據(jù)分布的支撐向量機(jī)模型和神經(jīng)網(wǎng)絡(luò)模型,用支撐向量機(jī)模型作為神經(jīng)網(wǎng)絡(luò)模型的一個(gè)比對(duì)。
2.3.1 邏輯回歸模型
邏輯回歸模型是機(jī)器學(xué)習(xí)中的一種監(jiān)督式的分類模型,算法相對(duì)簡(jiǎn)單和高效,在實(shí)際應(yīng)用中非常廣泛[10]。在本文的邏輯回歸模型中,輸出變量是一個(gè)介于0 和1 之間的實(shí)數(shù),代表某一專利具備較高質(zhì)量的概率。影響第i 個(gè)專利質(zhì)量的11 個(gè)輸入變量分別為xi1,xi2,…xi11,對(duì)應(yīng)表1中的11組輸入數(shù)值特征,邏輯回歸的模型可表示為
式(1)中,a0,a1,…,a11是模型的系數(shù),可以依據(jù)訓(xùn)練集計(jì)算出來。式(2)中,Pi代表第i 個(gè)專利具備較高質(zhì)量的概率。
2.3.2 支撐向量機(jī)模型
支撐向量機(jī)模型能夠在高維或者無限維空間中尋找出用于分類的間隔最大的超平面,然后使用超平面對(duì)數(shù)據(jù)點(diǎn)進(jìn)行分類。由于能夠?qū)⒌途S空間線性不可分的數(shù)據(jù)映射到高維空間從而使其變成線性可分,所以這種機(jī)器學(xué)習(xí)算法可以處理線性不可分?jǐn)?shù)據(jù)[11-13]。
具體來說,支撐向量機(jī)就是求解如式(3)所示的約束最優(yōu)化問題:
其中(xi,yi)是訓(xùn)練樣本,w,w0是超平面的相應(yīng)參數(shù),C 是懲罰因子,δi是用來允許一定分類錯(cuò)誤的松弛變量。 K(xi,xj)≡φ(xi)Tφ(xj)T是選取的核函數(shù),在本文中,選用的是徑向基核。
2.3.3 神經(jīng)網(wǎng)絡(luò)模型
神經(jīng)網(wǎng)絡(luò)是一種模擬生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能的機(jī)器學(xué)習(xí)模型,由大量的節(jié)點(diǎn)和相互之間的連接構(gòu)成。每個(gè)節(jié)點(diǎn)代表某個(gè)特定的激活函數(shù),節(jié)點(diǎn)之間的連接代表節(jié)點(diǎn)間相應(yīng)的權(quán)重。神經(jīng)網(wǎng)絡(luò)模型通過調(diào)整這些節(jié)點(diǎn)之間的權(quán)重以達(dá)到學(xué)習(xí)數(shù)據(jù)規(guī)律的目的[14]。本文中所使用的前饋神經(jīng)網(wǎng)絡(luò)模型如圖2 所示。由于輸入所對(duì)應(yīng)的是11 個(gè)專利質(zhì)量指標(biāo),所以輸入層一共是12個(gè)節(jié)點(diǎn),包括11個(gè)特征輸入節(jié)點(diǎn)和1 個(gè)偏置節(jié)點(diǎn)。輸出層是2 個(gè)節(jié)點(diǎn),如果第一個(gè)節(jié)點(diǎn)的輸出值較高代表專利質(zhì)量較高,否則代表專利質(zhì)量沒有那么高。通過比較研究,神經(jīng)網(wǎng)絡(luò)的中間層被設(shè)置為6 個(gè)節(jié)點(diǎn),包括5 個(gè)普通節(jié)點(diǎn)和1個(gè)偏置節(jié)點(diǎn)。
圖2 神經(jīng)網(wǎng)絡(luò)模型
從Thomson Innovation 中檢索了與3D 打印技術(shù)相關(guān)的一共14840條專利,7452個(gè)專利族。由于小部分導(dǎo)出的專利數(shù)據(jù)缺少權(quán)利要求字段與專利族字段,這種類型的專利無法提取出機(jī)器學(xué)習(xí)模型的輸入特征,所以被移除,最后參與實(shí)驗(yàn)的是一共6148 個(gè)專利族。從這些專利族中隨機(jī)抽取60%作為訓(xùn)練數(shù)據(jù),20%作為驗(yàn)證數(shù)據(jù),最后余下的20%作為測(cè)試數(shù)據(jù)。訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù)主要用于訓(xùn)練機(jī)器學(xué)習(xí)模型,確定模型的各種參數(shù),測(cè)試數(shù)據(jù)不參與模型的訓(xùn)練,用于對(duì)訓(xùn)練好的模型進(jìn)行評(píng)估以確定其性能。三個(gè)機(jī)器學(xué)習(xí)模型均采用相同的實(shí)驗(yàn)數(shù)據(jù)切分,以便于進(jìn)行比較。
本文將專利質(zhì)量的評(píng)估抽象為機(jī)器學(xué)習(xí)中的二分類問題,所以采用機(jī)器學(xué)習(xí)中常被用于評(píng)價(jià)分類效果的準(zhǔn)確率(Precision),召回率(Recall)和F1值作為實(shí)驗(yàn)的評(píng)估指標(biāo)[15]。準(zhǔn)確率是被分類器判斷為具有較高質(zhì)量的專利中正確的比例,召回率是模型判斷為具有較高質(zhì)量的專利中正確的占全部測(cè)試集具有較高質(zhì)量專利的比例。F1 值則是平等考慮準(zhǔn)確率和召回率,將兩者結(jié)合在一起所產(chǎn)生的綜合指標(biāo)。
假設(shè)有 m 個(gè)專利 patent1,patent2,…patentm,對(duì)應(yīng)的標(biāo)簽為 label1,label2,…labelm,標(biāo)簽代表該專利是否曾被轉(zhuǎn)讓,那么準(zhǔn)確率,召回率,F(xiàn)1 值的計(jì)算方法如式(4)、(5)所示:
其中,Nc是m 個(gè)專利中曾經(jīng)發(fā)生過轉(zhuǎn)讓的數(shù)量;Np是m 個(gè)專利中機(jī)器學(xué)習(xí)方法預(yù)測(cè)可能發(fā)生轉(zhuǎn)讓的專利數(shù)量;Ncp是曾發(fā)生轉(zhuǎn)讓的專利中被機(jī)器學(xué)習(xí)方法預(yù)測(cè)正確的數(shù)量。
三種機(jī)器學(xué)習(xí)模型的研究結(jié)果如表2 所示,從結(jié)果中可以看出邏輯回歸模型的準(zhǔn)確率最高,神經(jīng)網(wǎng)絡(luò)模型的召回率最高,如果同時(shí)考慮準(zhǔn)確率和召回率的綜合指標(biāo)F1 的話,神經(jīng)網(wǎng)絡(luò)模型的效果較好。
表2 三種機(jī)器學(xué)習(xí)模型結(jié)果比較
在使用機(jī)器學(xué)習(xí)的分類問題中,準(zhǔn)確率和召回率兩者通常是相互影響的。理想的情況是兩者都能取到比較高的值。但是一般情況下,如果準(zhǔn)確率較高的話,召回率就可能較低,召回率較高的話,準(zhǔn)確率就可能較低。在這樣的情況下,我們可以對(duì)模型進(jìn)行一定的設(shè)置,對(duì)準(zhǔn)確率或召回率進(jìn)行單邊控制,使得結(jié)果的準(zhǔn)確率較高或者召回率較高。也就是說,可以讓模型輸出少數(shù)幾個(gè)結(jié)果,從而使得結(jié)果中絕大多數(shù)的專利都確實(shí)是高質(zhì)量的專利,也可以讓模型多輸出一些結(jié)果,從而使得所有高質(zhì)量的專利幾乎都在輸出的結(jié)果中。
邏輯回歸模型的輸出為某專利是否具備較高質(zhì)量的概率,利用模型的這一特性可以設(shè)置一定的閾值,只有模型輸出的概率值大于指定的閾值,模型才判定該專利具備較高的質(zhì)量。通過這樣的方式,就能夠?qū)?shí)驗(yàn)的準(zhǔn)確率與召回率進(jìn)行單邊控制。在研究過程中,不同閾值所對(duì)應(yīng)的準(zhǔn)確率和召回率如圖3 所示,縱坐標(biāo)代表召回率,橫坐標(biāo)代表準(zhǔn)確率,圖中點(diǎn)上的數(shù)值代表設(shè)置的閾值。從圖中可以看出隨著閾值的增大,準(zhǔn)確率的整體趨勢(shì)是逐步上升的,召回率的整體趨勢(shì)在逐步下降。比如說,最左側(cè)點(diǎn)設(shè)置的閾值為0.1,代表邏輯回歸的輸出大于0.1 就判定專利質(zhì)量比較高,由于設(shè)置的閾值很低,所以召回率達(dá)到了0.95 的高值,但是相應(yīng)的準(zhǔn)確率只有0.29。再比如說最右側(cè)點(diǎn)設(shè)置的閾值為0.9,代表邏輯回歸的輸出大于0.9就判定為該專利質(zhì)量較高,由于設(shè)置的閾值很高,所以準(zhǔn)確率達(dá)到了0.88 的高值,但是相應(yīng)的召回率也下降至0.03。這樣就可以通過控制閾值以獲得較高準(zhǔn)確率的輸出或者較高召回率的輸出。
圖3 不同閾值下的準(zhǔn)確率和召回率
本文選取了覆蓋引用專利質(zhì)量指標(biāo)、權(quán)利保護(hù)范圍專利質(zhì)量指標(biāo)和區(qū)域保護(hù)范圍專利指標(biāo),一共11 組專利計(jì)量特征作為機(jī)器學(xué)習(xí)模型的輸入,分別構(gòu)建了邏輯回歸、支撐向量機(jī)以及神經(jīng)網(wǎng)絡(luò)三種機(jī)器學(xué)習(xí)模型對(duì)專利質(zhì)量進(jìn)行評(píng)估。在與3D打印相關(guān)的六千多個(gè)專利族所構(gòu)成的數(shù)據(jù)分析上,神經(jīng)網(wǎng)絡(luò)的綜合性能最優(yōu),邏輯回歸模型由于其概率輸出特性,可以用來對(duì)實(shí)驗(yàn)結(jié)果的準(zhǔn)確率和召回率進(jìn)行單邊控制,以滿足某些特定的需求。
分析中將專利被轉(zhuǎn)讓的可能性作為模型的輸出,對(duì)專利的質(zhì)量進(jìn)行判斷是不夠完善的,因?yàn)橥ǔG闆r下專利被轉(zhuǎn)讓只是專利具備較高質(zhì)量的充分條件,而不是必要條件。在未來的工作中,我們將構(gòu)建更為完整的對(duì)專利質(zhì)量的描述作為機(jī)器學(xué)習(xí)模型的輸出,從而提高專利質(zhì)量判斷的準(zhǔn)確程度。