【摘 要】專利分析是現(xiàn)代企業(yè)運行中的一個重要技術(shù)基礎(chǔ)。常見的專利分析方法可分為基于統(tǒng)計、內(nèi)容和數(shù)字挖掘等多種方法,每種方法的目標(biāo)、方法和過程均不同,為了方便科技人員選擇使用,本文對常用的專利分析方法進行綜述。
【關(guān)鍵詞】專利分析;引文分析;數(shù)據(jù)挖掘;內(nèi)容分析
專利作為技術(shù)信息最有效的載體,對于知識產(chǎn)權(quán)戰(zhàn)略的實施和企事業(yè)單位的研發(fā)活動具有重要的意義[1,2]。據(jù)世界知識產(chǎn)權(quán)組織(WIPO)的統(tǒng)計,全世界每年有 95%~98%的發(fā)明創(chuàng)造成果都可以在專利文獻中查到[3]。
隨著世界技術(shù)競爭的日益激烈, 各國企業(yè)紛紛開展專利戰(zhàn)略研究[4], 其核心正是專利分析, 即對專利說明書、專利公報中大量零碎的專利信息進行分析、加工、組合, 并利用統(tǒng)計學(xué)方法和技巧使這些信息轉(zhuǎn)化為具有總攬全局及預(yù)測功能的競爭情報, 從而為企業(yè)的技術(shù)、產(chǎn)品及服務(wù)開發(fā)中的決策提供參考[5]。
通過專利分析,可以了解技術(shù)的發(fā)展現(xiàn)狀和趨勢, 獲知重要的研究機構(gòu)、發(fā)明人,找到核心的技術(shù),為科技創(chuàng)新、知識產(chǎn)權(quán)保護等提供參考。技術(shù)研發(fā)人員可以充分利用專利信息攻克技術(shù)難關(guān)、避免重復(fù)研發(fā),同時還可以進行專利侵權(quán)預(yù)警專利規(guī)避等工作[6~8]。
專利分析不僅是企業(yè)爭奪技術(shù)的前提, 更是企業(yè)發(fā)展其技術(shù)策略, 評估競爭對手的技術(shù)實力的手段[9]。因此, 專利分析已經(jīng)成為企業(yè)戰(zhàn)略與競爭分析中一種獨特而實用的分析方法,已經(jīng)成為企業(yè)競爭情報常用分析方法之一。
本文對各種專利分析方法進行綜述,對情報分析人員根據(jù)具體需要,快速掌握和選擇合適的專利分析方法具有重要意義。
一、基于統(tǒng)計的專利分析
采用統(tǒng)計學(xué)方法分析專利主要有專利信息定量分析法,專利信息定性分析法和專利信息擬定量分析法。
(一)專利信息定量分析
專利信息定量分析是研究專利文獻的重要方法之一[10],是建立在數(shù)學(xué),統(tǒng)計學(xué),運籌學(xué),計量學(xué),計算機等學(xué)科的基礎(chǔ)之上,通過數(shù)學(xué)模型和圖表等方式,從不同角度研究專利文獻中所記載的技術(shù)信息。
定量分析的主要方法有時間序列法、頻次排序法、利用拉布福德文獻分散定律確定核心技術(shù)法和技術(shù)發(fā)展生命周期法。生命周期法是企業(yè)常用的方法,該方法一般可以把技術(shù)發(fā)展過程分為萌芽階段,生長階段,成熟階段和衰老階段四個階段。通過統(tǒng)計學(xué)中的相關(guān)統(tǒng)計參數(shù)對上述各個階段進行定量度量如下[11]。
(1) 技術(shù)生產(chǎn)率γ:γ=■
式中a表示當(dāng)年發(fā)明專利申請數(shù),A表示追溯5年的發(fā)明專利申請累計數(shù)。連續(xù)計算數(shù)年,若γ值遞增,說明該技術(shù)處在萌芽生長階段。
(2)技術(shù)成熟系數(shù)?琢:?琢=■
式中a同上,b表示當(dāng)年實用新型專利申請數(shù),連續(xù)計算數(shù)年,?琢值遞減時,反應(yīng)技術(shù)日趨成熟。
(3)技術(shù)衰老系數(shù)?茁:?茁=■
式中a, b同上,c表示當(dāng)年外觀設(shè)計專利或商標(biāo)申請數(shù),連續(xù)計算數(shù)年,當(dāng)?茁值遞減時,表示該技術(shù)日趨陳舊。
(4)新技術(shù)特征系數(shù)N:N=■
式中γ表示技術(shù)生產(chǎn)率,?琢表示技術(shù)成熟系數(shù)。系數(shù)N表示某項技術(shù)新興和衰老的總和指標(biāo),N值越大,新技術(shù)特性越強,預(yù)示其越具有發(fā)展?jié)摿Α?/p>
(二)專利信息定性分析[6]
專利信息定性分析是指通過對專利文獻內(nèi)在特征,即對專利技術(shù)內(nèi)容進行歸納和演繹,分析與綜合以及抽象與概括等分析,了解和分析某技術(shù)發(fā)展?fàn)顩r的方法。其基本過程為:
圖中的流程并非單向過程,各步驟之間可以循環(huán)和反復(fù)。如,涉及的數(shù)據(jù)挖掘過程如果有新的之前沒有考慮到的問題,則可以重新準備數(shù)據(jù);數(shù)據(jù)挖掘過程中,如發(fā)現(xiàn)數(shù)據(jù)選擇過多,也可以重新數(shù)據(jù)選擇。
(三)專利信息擬定量分析
針對不同的分析目的,分析人員需要采用定量與定性相結(jié)合的分析方法,即擬定量分析方法[12]。本方法通常由數(shù)據(jù)統(tǒng)計入手,然后,進行全面,系統(tǒng)的技術(shù)分類和比較研究,再進行針對性的量化分析,最后,進行高度科學(xué)抽象的定性描述,使整個分析過程由宏觀到微觀。專利信息中比較常見的擬定量分析方法有專利引文分析方法和數(shù)據(jù)挖掘等方法。
專利引文分析:專利引文指在目標(biāo)專利文件被其他專利作為引用文獻列出的情況分析。公開時間早,并且接近本領(lǐng)域的核心技術(shù)的專利,引證率相對較高,因此,引證率高的專利也常常視為本領(lǐng)域內(nèi)核心專利。因此,可以根據(jù)專利的引證關(guān)系,引證時間和技術(shù)族譜等綜合分析專利。
專利數(shù)據(jù)挖掘[13]: 數(shù)據(jù)挖掘是從大量數(shù)據(jù)中挖掘隱含的、未知的、對決策有潛在價值的知識和規(guī)則。這些知識與規(guī)則蘊含了數(shù)據(jù)庫中一組對象之間的特定關(guān)系,揭示的有用信息可為科學(xué)研究、經(jīng)營決策、市場策劃、經(jīng)濟邪測、工業(yè)控制提供依據(jù)。
數(shù)據(jù)挖掘的主要采用關(guān)聯(lián)規(guī)則、聚類分析、序列搖式、分類等。關(guān)聯(lián)規(guī)則是尋找在同一個事件中出現(xiàn)的不同項的相關(guān)性。聚類是把一組個體按照相似性歸成若干類別,其目的是使得屬于同一類別的個體之間的距離盡可能的小,而不同類別的個體間的距離盡可能的大。序列模式和關(guān)聆規(guī)則相似,其目的也是挖掘數(shù)據(jù)之間的聯(lián)系,但序列模式分析的側(cè)重點在于分析數(shù)據(jù)間的前后序列關(guān)系。分類要解決的問題是為一個事件或?qū)ο髿w類。
二、基于自然語言處理的專利分析方法
(一)語義標(biāo)注方法
語義標(biāo)注首先分成按照內(nèi)容的標(biāo)注方法、按照結(jié)構(gòu)的標(biāo)注方法與多策略混合的方法。
1.基于內(nèi)容的方法
以內(nèi)容理解為主, 主要從文檔內(nèi)容入手進行標(biāo)注, 采用基于自然語言處理與機器學(xué)習(xí)技術(shù), 通過各種方法提取句子的模式, 從而進行自然語言處理。通常無結(jié)構(gòu)化文檔,直接采用基于內(nèi)容的方法來進行標(biāo)注[14]。
這種方法主要從內(nèi)容上進行分析、提取與識別出有用的語義信息,并用標(biāo)簽進行標(biāo)注。根據(jù)采取技術(shù)的不同,進一步分為基于自然語言處理的方法和基于機器學(xué)習(xí)的方法。自然語言處理,技術(shù)包括去除停止詞、分詞、取詞根、詞性標(biāo)注、語法分析、句法分析、短語識別、命名實體識別、指代消解和司義消歧等。
2.基于結(jié)構(gòu)的方法
以結(jié)構(gòu)化分析為主, 主要是從文檔結(jié)構(gòu)著手, 結(jié)合文檔的結(jié)構(gòu)特征來進行標(biāo)注[15], 常采用一些結(jié)構(gòu)化分解方案或文檔模板來進行語義標(biāo)注如在word文檔中的文檔結(jié)構(gòu)信息標(biāo)題層次、樣式等。
基于結(jié)構(gòu)的方法主要適用于結(jié)構(gòu)化文檔。多策略混合方法是綜合內(nèi)容和結(jié)構(gòu)兩個層面來標(biāo)注,特別適合半結(jié)構(gòu)化文檔基于內(nèi)容的方法是語義標(biāo)注常用的方法之一。
三、基于文本挖掘的專利分析方法
文本挖掘是指為了發(fā)現(xiàn)知識, 從文本數(shù)據(jù)中抽取隱含的、以前未知的、潛在有用的模式的過程[16]。主要目標(biāo)是獲得文本的主要內(nèi)容涉及的主題、類屬、關(guān)鍵內(nèi)容等,目前具體實現(xiàn)技術(shù)主要有如下幾種[17]:
(一)特征抽取
文本特征分為一般特征和數(shù)字特征,其中一般特征主要包括名詞和名詞短語;數(shù)字特征主要包括日期、時間、貨幣以及單純數(shù)字信息。特征是概念的外在表現(xiàn)形式,特征抽取是識別潛在概念結(jié)構(gòu)的重要基礎(chǔ)。
(二)主題標(biāo)引
利用傳統(tǒng)的關(guān)鍵詞標(biāo)引技術(shù)來標(biāo)引文本,影響文本標(biāo)引的質(zhì)量,導(dǎo)致同義標(biāo)引詞的泛濫,影響檢索的查全率。同時也會影響特征抽取的準確度。利用主題詞標(biāo)引代替關(guān)鍵詞標(biāo)引可以提高標(biāo)引的質(zhì)量,對改善文本的檢索效果十分有益。
(三)文本分類
文本分類的任務(wù)是基于內(nèi)容將自然語言文本自動分配給預(yù)定義的類別。文本分類技術(shù)類似于數(shù)據(jù)庫挖掘中的分類技術(shù),不同之處在于它需要預(yù)先對文本進行特征抽取,它利用文本特征向量對文本進行分類。
(四)文本聚類
聚類就是將一個數(shù)據(jù)對象的集合分組成為多個類或簇。它的分析并不依賴于已知類標(biāo)記的數(shù)據(jù)對象。在通常情況下,聚類的訓(xùn)練數(shù)據(jù)樣本沒有類標(biāo)記,它要劃分的類是未知的,通過聚類可以產(chǎn)生這種類標(biāo)記。文本聚類是對給定的文本集根據(jù)文本相似度進行聚類的方法。
(五)自動摘要
自動摘要是利用計算機分析文章的結(jié)構(gòu),找出文章的主題語句,然后經(jīng)過整理、組合、修飾,構(gòu)成文摘的過程。人工編制復(fù)雜、量大而且費時,隨著互聯(lián)網(wǎng)的發(fā)展,對Web資源信息量巨大,人工編制文摘成本非常高,因此,可以采用軟件進行自動摘要。
自動摘要的前提是計算機能夠找到關(guān)鍵語句,這要求專利書寫嚴格按照格式規(guī)范,要求搜索軟件不斷更新,具有自動學(xué)習(xí)功能等。
四、總結(jié)
隨著科技迅猛的發(fā)展,知識越來越成為經(jīng)濟的重要增長點。專利分析已經(jīng)成為了科技發(fā)展和企業(yè)獲取競爭優(yōu)勢的有效方法。本文對基于統(tǒng)計,自然語言處理,文本挖掘等專利分析方法進行介紹與總結(jié),闡述了專利分析的方法和相關(guān)應(yīng)用。為不同領(lǐng)域科技人員進行專利分析提供了基礎(chǔ)。
作者簡介:顧建紅(1976-),女,民族:漢,籍貫(精確到市):江蘇常州,研究方向:專利。
參考文獻:
[1]覃興.運用專利分析進行競爭對手跟蹤的方法研究[J].產(chǎn)業(yè)與科技論壇,2017,16(03):71-72.
[2]宋巧枝,方曙.專利信息分析方法在企業(yè)戰(zhàn)略制定中的應(yīng)用[J].現(xiàn)代情報,2007,(10):193-195.
[3]董微微.專利分析方法對技術(shù)路線圖制定的支撐作用研究——基于技術(shù)創(chuàng)新視角[J].現(xiàn)代情報,2017,37(02):44-51.
[4]張世玉.技術(shù)層面專利組合分析方法優(yōu)化及其應(yīng)用研究[D].吉林大學(xué),2015.
[5]李向陽,張亞非,基于語義標(biāo)注的信息抽取,解放軍理工大學(xué)學(xué)報自然科學(xué)版,2008
[6]王朝霞,馮培恩,邱清盈專利知識獲取及其支持概念創(chuàng)新設(shè)計的方法研究,浙江大學(xué),2009
[7]彭茂祥,李浩.基于大數(shù)據(jù)視角的專利分析方法與模式研究[J/OL].情報理論與實踐,2016,39(07):108-113.
[8]劉彤,楊冠燦,侯元元.基于多重關(guān)系整合的專利網(wǎng)絡(luò)分析方法研究與應(yīng)用[J/OL].情報理論與實踐,2016,39(02):59-63.
[9]陸勤虎.基于專利分析方法的區(qū)域科技創(chuàng)新能力比較研究[D].天津大學(xué),2009.
[10]李陽.基于專利分析的技術(shù)機會識別方法與應(yīng)用研究[D].北京協(xié)和醫(yī)學(xué)院,2013.
[11]郭婕婷,肖國華.專利分析方法研究[J].情報雜志,2008,(01):12-14+11.
[12]陳卓.論專利信息統(tǒng)計分析技術(shù)及預(yù)測分析方法[J].中國發(fā)明與專利,2015,(10):91-92
[13]李飛.基于內(nèi)容挖掘的專利信息分析的方法體系及應(yīng)用研究[D].南京理工大學(xué),2008.
[14]黎江.基于專利文獻的技術(shù)機會分析方法研究[D].中國科學(xué)院研究生院(文獻情報中心),2008.
[15]劉澎.大數(shù)據(jù)在專利信息分析中的應(yīng)用研究[D].江蘇科技大學(xué),2016.
[16]李飛.基于內(nèi)容挖掘的專利信息分析的方法體系及應(yīng)用研究[D].南京理工大學(xué),2008.
[17]方曙.基于專利信息分析的技術(shù)創(chuàng)新能力研究[D].西南交通大學(xué),2007.