張詩伯
摘 要: 本文結(jié)合IPC和CPC,對CPC在生物信息領(lǐng)域檢索中的應(yīng)用進(jìn)行分析,通過CPC技術(shù)分支的關(guān)聯(lián)性,分析了實際使用過程可能存在的漏檢問題,探索了CPC分類號在生物信息領(lǐng)域檢索的檢索策略。
關(guān)鍵詞: CPC;生物信息學(xué);檢索策略;漏檢
一、引言
CPC分類體系是歐洲專利局和美國專利與商標(biāo)局聯(lián)合開發(fā)的用于專利文件的全球分類系統(tǒng),目前CPC包含約26萬個分類號,分類的細(xì)致程度遠(yuǎn)超其他分類體系,涉及的主題更加具體,從而能夠有效提高專利檢索的效率[1]。然而在實際的檢索中,往往存在符合度較高的分類號卻又有漏檢發(fā)生的情況,主要原因還是在分類時分至了關(guān)聯(lián)性較高的其他分類下。
生物信息領(lǐng)域是在生命科學(xué)的研究中,以計算機(jī)為工具對生物信息進(jìn)行儲存、檢索和分析的科學(xué)。它是當(dāng)今生命科學(xué)和自然科學(xué)的重大前沿領(lǐng)域之一。其研究重點主要體現(xiàn)在基因組學(xué)和蛋白質(zhì)組學(xué)兩方面,具體說就是從核酸和蛋白質(zhì)序列出發(fā),分析序列中表達(dá)的結(jié)構(gòu)功能的生物信息。隨著生物信息學(xué)的不斷深入,生物信息學(xué)產(chǎn)業(yè)進(jìn)入跨越式發(fā)展,IPC和CPC分類表中根據(jù)該類專利設(shè)置了相應(yīng)分類小組G06F19/00下的一點組G06F19/10。
二、G06F19/10下CPC與IPC分類系統(tǒng)
G06F19/10的IPC分類定義為生物信息學(xué),即計算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng),并在附注中指出:本組也包括固有或暗含,但并不明確提及的數(shù)據(jù)處理的生物信息學(xué)系統(tǒng)和方法。CPC中G06G19/10小組下細(xì)分條目與IPC是大體一致的,并無更細(xì)的分類。這里為分析該一點組下各二點組技術(shù)分支的關(guān)聯(lián)性,首先在SIPOABS數(shù)據(jù)庫(2017年6月)得到各個細(xì)分標(biāo)引數(shù)量,并計算得到IPC和CPC檢索的重合度。藉由IPC和CPC的分類思想有明顯區(qū)別,前者偏向于整體上體現(xiàn)發(fā)明構(gòu)思,而后者則試圖從多個維度來描述發(fā)明構(gòu)思。該標(biāo)引數(shù)量和重合度的可以很好的反映出以某項技術(shù)為發(fā)明點的發(fā)明(IPC)和包含該項技術(shù)的發(fā)明(CPC)之間的關(guān)系。
通過對比表1中各二點組的IPC、CPC標(biāo)引量可以明顯的看出,雖然CPC實施時間晚于IPC該小組的實施時間(2011.1),但其標(biāo)引數(shù)量卻已經(jīng)遠(yuǎn)高于IPC。兩者數(shù)量的巨大差異的原因可能是包含某項技術(shù)的發(fā)明本來就是要多于以該項技術(shù)為發(fā)明點的發(fā)明。此外,同一細(xì)分下的IPC和CPC所標(biāo)引的文章重合度也不高,如表1所示,總體上來說在70%左右??梢姡跈z索過程中,直接將其IPC對應(yīng)的CPC分類號進(jìn)行檢索,具有較高的漏檢風(fēng)險。
進(jìn)一步分析,重合度的不高可能由技術(shù)分支存在關(guān)聯(lián)性導(dǎo)致。由于生物信息技術(shù)的分類中相應(yīng)的技術(shù)分支關(guān)聯(lián)性較高,導(dǎo)致易被分至臨近的組中。本文基于IPC和其他CPC分類號之間的重合度,對G06F19/10小組的技術(shù)分支關(guān)聯(lián)性進(jìn)行分析。如,IPC分類號為G06F19/12代表以生物學(xué)/基因模型的為發(fā)明點的發(fā)明,將其與CPC分類號為G06F19/12~G06F19/28進(jìn)行與計算(檢索式:G06F19/12/ic and G06F19/12/cpc),再將與計算的結(jié)果數(shù)除以該IPC分類的結(jié)果數(shù)計算得到跨組重合度。如圖1所示,G06F19/12以生物學(xué)/基因模型領(lǐng)域的發(fā)明,與G06F19/18遺傳學(xué)/基因變異、G06F19/24利用學(xué)習(xí)機(jī)進(jìn)行數(shù)據(jù)分析關(guān)聯(lián)性較高。而G06F19/18遺傳學(xué)/基因變異的發(fā)明則與G06F19/22序列比較、G06F19/24利用學(xué)習(xí)機(jī)進(jìn)行數(shù)據(jù)分析關(guān)聯(lián)。
通過對G06F19/10分類的分析可以得到:(1)CPC分類號標(biāo)引量遠(yuǎn)大于IPC,在檢索時可優(yōu)先根據(jù)其分類號選擇相應(yīng)及關(guān)聯(lián)性大的CPC號進(jìn)行檢索,反之,通過IPC分類號進(jìn)行限制是不合適的;(2)分類號上的關(guān)聯(lián)性體現(xiàn)出在CPC通過該組多個二點組分類號來作為基本檢索要素是需要謹(jǐn)慎的,例如在一個通過神經(jīng)網(wǎng)絡(luò)進(jìn)行序列分析的發(fā)明,G06F19/22和G06F19/24可以很好的表達(dá)出該構(gòu)思,此時考慮G06F19/22和G06F19/24技術(shù)的關(guān)聯(lián)較小,可以采用與計算以提升檢索效率。
三、總結(jié)
生物信息學(xué)作為一項新技術(shù),其專利分類號在具體技術(shù)分支的分類上還有很多不完善的地方。本文分析得到的分類號相應(yīng)技術(shù)分支具有一定程度的關(guān)聯(lián)性,該關(guān)聯(lián)性易導(dǎo)致漏檢,從而給檢索過程中具體分類號的使用增加了難度。所以在該領(lǐng)域CPC分類號的選用應(yīng)充分考慮技術(shù)的關(guān)聯(lián)性,擴(kuò)展關(guān)聯(lián)性高的分類號,采用并集的方式避免漏檢。
參考文獻(xiàn)
[1] 廖佳佳,高菲,呂良,“聯(lián)合專利分類體系研究”[J],現(xiàn)代情報,第34卷第1期,2014年1月.