摘要:借助IPC分類分析算法,對(duì)全文專利文獻(xiàn)結(jié)構(gòu)中幾個(gè)重要單元段落的技術(shù)含量評(píng)估,來(lái)觀測(cè)每個(gè)單元段落其技術(shù)含量對(duì)專利文獻(xiàn)分類的貢獻(xiàn),從而有針對(duì)性地調(diào)整有效的專利自動(dòng)分類分析源。避免專利自動(dòng)分類盲目大數(shù)據(jù)量運(yùn)算導(dǎo)致專利自動(dòng)分類效率降低。本文對(duì)專利自動(dòng)分類選擇何種數(shù)據(jù)源和代價(jià)以及制定算法策略具有指導(dǎo)意義。
關(guān)鍵詞:IPC分類;分類表;TF-IDF;相似度算法;文獻(xiàn)結(jié)構(gòu);技術(shù)分布分析;
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)03-0215-04
筆者從事專利自動(dòng)化項(xiàng)目開發(fā)和維護(hù)廿余年,一直以為對(duì)專利文獻(xiàn)有一定程度的了解,談到專利的技術(shù)構(gòu)成會(huì)未假思索地沿用前人的結(jié)論:專利文獻(xiàn)技術(shù)的構(gòu)成主要由發(fā)明名稱、摘要、技術(shù)領(lǐng)域和權(quán)利要求等重要段落基本可以確定。甚至,對(duì)權(quán)利要求書毫不猶豫推為主選。直至最近通過(guò)筆者的一系列分析研究實(shí)驗(yàn),見到實(shí)驗(yàn)數(shù)據(jù)結(jié)果后,才真正完全徹底地顛覆了從前的認(rèn)識(shí)。筆者公開這一分析與公眾分享,請(qǐng)方家指正,亦即本文的目的。
1 實(shí)驗(yàn)背景及方法
本文在自主完成分詞技術(shù)的研究[1][2]和專利“標(biāo)題+摘要”輔助自動(dòng)分類算法研究[3]的基礎(chǔ)上,對(duì)專利文獻(xiàn)層次結(jié)構(gòu)展開進(jìn)一步單項(xiàng)分析。參見圖1專利文獻(xiàn)層次結(jié)構(gòu)分析流程圖:
1.1 專利文獻(xiàn)的層次結(jié)構(gòu)
專利文獻(xiàn)主要分為專利著錄項(xiàng)目、專利說(shuō)明書和專利的權(quán)利要求書。
其中專利著錄項(xiàng)目包括:專利公布的文獻(xiàn)號(hào)、公布日期、ipc技術(shù)領(lǐng)域分類、發(fā)明名稱、摘要和其他權(quán)利人相關(guān)的信息、在先申請(qǐng)信息等。這里與技術(shù)特征相關(guān)的段落主要是:ipc技術(shù)領(lǐng)域分類、發(fā)明標(biāo)題和摘要。
專利說(shuō)明書包括:發(fā)明名稱、技術(shù)領(lǐng)域、背景技術(shù)、發(fā)明內(nèi)容及其有益效果、實(shí)施方法及其附圖等。筆者將其中發(fā)明內(nèi)容和有益效果被看作發(fā)明內(nèi)容整體來(lái)考慮,且與專利文摘抽象的構(gòu)成要素密切相關(guān)。這里與技術(shù)特征相關(guān)的段落主要是:技術(shù)領(lǐng)域、背景技術(shù)和發(fā)明內(nèi)容。
權(quán)利要求:主要包括獨(dú)立的權(quán)利要求和從屬權(quán)利要求等詳細(xì)描述。當(dāng)發(fā)明內(nèi)容過(guò)于龐雜時(shí)專利文摘的抽象的構(gòu)成要素過(guò)于分散,同時(shí)伴隨的權(quán)利要求書也可能會(huì)非常龐雜,不容易抓出重點(diǎn)。通常專利文摘會(huì)以首個(gè)獨(dú)立的權(quán)利要求構(gòu)成專利文摘的抽象要素,然后輔以其他權(quán)利要求的概括性綜述。亦即,專利自動(dòng)文摘技術(shù)通常是以發(fā)明內(nèi)容或首個(gè)獨(dú)立權(quán)利要求及其他綜述為依據(jù)連同發(fā)明的有益效果等抽象要素構(gòu)成專利文摘。
專利文獻(xiàn)與技術(shù)相關(guān)領(lǐng)域相關(guān)的段落總體可以概括為:Ipc、發(fā)明名稱、摘要、技術(shù)領(lǐng)域、背景技術(shù)、發(fā)明內(nèi)容、權(quán)利要求書。其中發(fā)明內(nèi)容屬于大信息量描述,由多達(dá)200個(gè)段落,個(gè)別段落超過(guò)600漢字的內(nèi)容構(gòu)成超大單元模塊。
1.2 專利文獻(xiàn)的層次結(jié)構(gòu)解析
專利文獻(xiàn)的解析工作主要是從專利文獻(xiàn)電子文檔中獲取層次結(jié)構(gòu)中上述最主要技術(shù)代表的7個(gè)部分。
通常將不包括ipc在內(nèi)的6個(gè)單元模塊連同整個(gè)文獻(xiàn),分別作分詞分解,然后與IPC分類表技術(shù)要素,通過(guò)數(shù)學(xué)模型TF-IDF等算法進(jìn)行要素可計(jì)算性計(jì)算,分別給出ipc分?jǐn)?shù)排名。最后通過(guò)查看專利文獻(xiàn)中的ipc分類在每個(gè)單元段落解析ipc排名中的位置,通常關(guān)注前幾項(xiàng)排名,例如前三項(xiàng)排名,是否命中,來(lái)判斷其收斂性。由于專利文獻(xiàn)的具象復(fù)雜性與專利分類表抽象的術(shù)語(yǔ)之間存在差異,其解決辦法在文獻(xiàn)[3]中,主要采用同義詞庫(kù)上位詞或線索詞來(lái)建立溝通機(jī)制。這樣,就會(huì)大大解決了命中率和收斂性問(wèn)題。但是,這樣也會(huì)掩蓋了技術(shù)要素分類的真實(shí)性。因此,本文拒用同義詞庫(kù)參與實(shí)驗(yàn),目的是盡量還原其原生態(tài)現(xiàn)象,來(lái)觀測(cè)其各個(gè)單元段落部分的技術(shù)構(gòu)成。從而再現(xiàn)所抽樣的文獻(xiàn)的主要技術(shù)分布情況。
2 實(shí)驗(yàn)數(shù)據(jù)分析
限于篇幅,通過(guò)對(duì)參與實(shí)驗(yàn)抽樣得到的22篇專利文獻(xiàn)電子文檔2013***** ***new.xml,進(jìn)行解析,得到各個(gè)單元模塊的ipc細(xì)目(H99Z 9/99),ipc到大組(H99Z 9/),ipc到小類(H99Z)的首度出現(xiàn)排名位置,用{ H99Z 9/99排名,H99Z 9/排名,H99Z排名}表示。其中不以實(shí)際ipc為參照,主要檢測(cè)ipc到大組的排名位置,亦即,H99Z 9/的排名作為命中目標(biāo)的參照。數(shù)據(jù)中排名位置是從0開始的。-1代表沒有找到或者50名位置以后的,表示發(fā)散。例如:{0,0,0}表示三者都排在首位,絕對(duì)命中。參見《技術(shù)分類排名明細(xì)表》表1
分析排名分段分別為:(1)0-2,前三名;(2)3-6,次4名;(3)7-9,后三名。得到《技術(shù)分類排名統(tǒng)計(jì)表》,參見表2。
通過(guò)數(shù)據(jù)分析,已知,發(fā)明內(nèi)容和全文屬于文獻(xiàn)大信息量單元模塊。標(biāo)題、文摘、技術(shù)領(lǐng)域、技術(shù)背景、權(quán)利要求屬于小信息量單元模塊。
排名前三的精確命中依次為:
技術(shù)背景、文摘 > 全文 > 標(biāo)題、發(fā)明內(nèi)容 > 技術(shù)領(lǐng)域、權(quán)利要求
排名前七的模糊命中依次為:
全文>發(fā)明內(nèi)容>文摘、技術(shù)背景>標(biāo)題、技術(shù)領(lǐng)域、權(quán)利要求
排名前十的模糊命中依次為:
全文>技術(shù)背景>發(fā)明內(nèi)容>文摘>技術(shù)領(lǐng)域、權(quán)利要求>標(biāo)題
對(duì)于組合情況而言:
以小數(shù)據(jù)量組合在一起的:發(fā)明名稱、摘要、技術(shù)領(lǐng)域、背景技術(shù)和權(quán)利要求書。其中權(quán)利要求書影響力不大,且被前4項(xiàng)冗余。而前4項(xiàng)之間具有互補(bǔ)性。其中背景技術(shù)以技術(shù)領(lǐng)域作補(bǔ)充;摘要以發(fā)明名稱作補(bǔ)充;背景技術(shù)+技術(shù)領(lǐng)域又以摘要+發(fā)明名稱作補(bǔ)充。其影響力依次為:背景技術(shù)、技術(shù)領(lǐng)域、摘要、發(fā)明名稱。
以大數(shù)據(jù)量組合在一起:全文和發(fā)明內(nèi)容,兩者具有互補(bǔ)。
小信息量組合與大信息量組合進(jìn)行對(duì)比,參見表3小信息量與大信息量段落的組合對(duì)比統(tǒng)計(jì)表:
小信息量組合要強(qiáng)于大信息量組合。請(qǐng)?jiān)僮屑?xì)回看表1,甚至完全覆蓋。
因此,對(duì)于自動(dòng)分類來(lái)說(shuō),選擇文摘和技術(shù)背景為主,標(biāo)題和技術(shù)領(lǐng)域作補(bǔ)充??勺鳛樽顑?yōu)選擇方案。
如果是自動(dòng)分類候選ipc方案,可以采用依次背景技術(shù)、技術(shù)領(lǐng)域、摘要、發(fā)明名稱ipc排名前三名甚至前兩名??晒┻x擇的數(shù)據(jù)量為(3*4=)12個(gè)ipc或(2*4=)8個(gè)ipc,其中或有重復(fù)的ipc。其對(duì)應(yīng)的ipc大組,即H99Z 9/具有(15/22=)68.2%的概率(參見表1),并可出現(xiàn)在其狹小選擇范圍內(nèi)。其選擇的目標(biāo)范圍已經(jīng)大大縮小。其中還有相當(dāng)多的是重復(fù)的和主ipc或者相關(guān)ipc。該算法結(jié)合同義詞庫(kù)或者提供線索詞方法可以大大提高自動(dòng)分類的命中率和收斂范圍。
3 實(shí)驗(yàn)結(jié)論
通過(guò)解析專利文獻(xiàn)結(jié)構(gòu)段落的技術(shù)含量,不難得出這樣一個(gè)結(jié)論:專利文獻(xiàn)技術(shù)的構(gòu)成完全可以通過(guò)小信息量的段落解析運(yùn)算來(lái)進(jìn)行有效地可計(jì)算性判斷??梢员苊馐褂萌幕蛘呷唛L(zhǎng)的發(fā)明內(nèi)容的大數(shù)據(jù)量計(jì)算解析來(lái)獲得判斷。將主要精力依次放在背景技術(shù)、技術(shù)領(lǐng)域、摘要、發(fā)明名稱等小信息量便可容易獲得,其計(jì)算量也不會(huì)太大。
另外,最值得注意的是,一個(gè)顛覆人們習(xí)慣認(rèn)知,即普遍認(rèn)為:專利領(lǐng)域和權(quán)利要求書是用于描述和反映專利技術(shù)特征及其領(lǐng)域的最主要單元模塊,標(biāo)題也非常重要。而在實(shí)際文獻(xiàn)撰寫中發(fā)明人最缺乏表現(xiàn)力的恰恰是人們通常認(rèn)為最重要的那些單元段落部分。事實(shí)完全與人們預(yù)期的截然相反。分析數(shù)據(jù)表明,標(biāo)題、專利領(lǐng)域和權(quán)利要求書,對(duì)判斷文獻(xiàn)技術(shù)領(lǐng)域自動(dòng)分類來(lái)說(shuō),在7個(gè)單元中實(shí)際表現(xiàn)力其實(shí)是最差的三個(gè)單元。這實(shí)在應(yīng)該要引起專利主管部門的注意:每年一度的代理人培訓(xùn)和考試,是否對(duì)代理人提出過(guò)更高的標(biāo)準(zhǔn)要求,在協(xié)助發(fā)明人撰寫專利說(shuō)明書的時(shí)候,是否考慮如何利用這些職能段落來(lái)充分表達(dá)其專利技術(shù)和權(quán)利的訴求,形審部門在形式審查中是否對(duì)文獻(xiàn)有更高的標(biāo)準(zhǔn)要求權(quán)利人撰寫符合足夠要求的文檔,作為形式審查是否合格的判別依據(jù)呢?
參考文獻(xiàn):
[1] 吳宏洲.分詞技術(shù)的研究與應(yīng)用——一種快速分詞的實(shí)現(xiàn)[J].電腦知識(shí)與技術(shù), 2015, 11(6):179-182.
186
[2] 吳宏洲.分詞技術(shù)的研究與應(yīng)用——一種抽取新詞的簡(jiǎn)便方法[J].軟件工程師, 2015,12, 18(12):64-68.
[3] 吳宏洲. IPC自動(dòng)分類技術(shù)的研究與應(yīng)用——輔助自動(dòng)分類的算法實(shí)現(xiàn)[J]. 電腦知識(shí)與技術(shù), 2015(11) (33).