• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      支持技術(shù)創(chuàng)新的專利檢索與分析

      2016-07-18 11:50:50劉斌馮嶺王飛彭智勇
      通信學(xué)報(bào) 2016年3期
      關(guān)鍵詞:短語檢索卷積

      劉斌,馮嶺,王飛,彭智勇

      ?

      支持技術(shù)創(chuàng)新的專利檢索與分析

      劉斌1,2,馮嶺1,王飛1,彭智勇1,2

      (1. 武漢大學(xué)計(jì)算機(jī)學(xué)院,湖北武漢 430072;2. 武漢大學(xué)軟件工程國家重點(diǎn)實(shí)驗(yàn)室,湖北武漢 430072)

      介紹了目前專利檢索和分析的主要研究工作,包括專利的可檢索性、技術(shù)現(xiàn)狀檢索和相關(guān)性檢索方法等,以及專利地圖分析、新穎度分析和PatentDom專利分析框架等分析方法。最后基于深度學(xué)習(xí)的思想,討論了新一代的支持技術(shù)創(chuàng)新的專利檢索方法、專利論文檢索方法以及專利趨勢分析方法。

      專利;專利檢索;專利分析;深度學(xué)習(xí)

      1 引言

      近年來,科學(xué)技術(shù)日新月異,經(jīng)濟(jì)全球化趨勢增強(qiáng),產(chǎn)業(yè)結(jié)構(gòu)調(diào)整步伐加快,國際競爭日趨激烈[1~3]。知識或智力資源(包括專著、專利、商標(biāo)、科技論文、技術(shù)報(bào)告以及科學(xué)實(shí)驗(yàn)數(shù)據(jù)等)的占有、配置、生產(chǎn)和運(yùn)用已成為經(jīng)濟(jì)發(fā)展的重要依托,技術(shù)知識的重要性日益凸現(xiàn)。以知識為基礎(chǔ)的產(chǎn)業(yè)在國內(nèi)經(jīng)濟(jì)所占的比重不斷提高,知識產(chǎn)權(quán)已成為國家之間、企業(yè)之間競爭的焦點(diǎn)。

      專利是最典型的知識產(chǎn)權(quán),也是數(shù)量最大的、增長速度最快的技術(shù)信息來源。美國專利申請始于1790年,中國則開始于1985年。表1反映了美國和中國的專利申請量的增長速度[1~3]。

      表1 專利發(fā)展趨勢

      截至2014年底中國有效發(fā)明專利擁有量共計(jì)66.3萬件,全世界范圍內(nèi)的專利數(shù)量已經(jīng)達(dá)到7 300萬件。根據(jù)世界知識產(chǎn)權(quán)組織的統(tǒng)計(jì),專利文獻(xiàn)中包含了世界上95%的研發(fā)成果。如果能有效地利用專利信息,不僅可以縮短60%的研發(fā)時(shí)間,還能節(jié)省40%的研發(fā)經(jīng)費(fèi)[4, 5]。

      專利蘊(yùn)含著巨大的價(jià)值,吸引許多研究者的注意。2002年開始,日本國立情報(bào)學(xué)研究所在其舉辦的NTCIR會議設(shè)立專門的專利檢索專題討論會,并發(fā)布了若干專利測試數(shù)據(jù)集(如表2所示),其中,NTCIR-3數(shù)據(jù)集包含跨語言檢索任務(wù)。NTCIR-4,5,6數(shù)據(jù)集包含技術(shù)現(xiàn)狀檢索,專利分類等任務(wù)[6~8]。

      CLEF(cross language evaluation forum)是面向歐洲語言的信息檢索開放評測平臺,從2009年開始設(shè)立專門針對專利檢索的主題研討會CLEF-IP,同時(shí)提供大約130萬個英文專利,供研究者下載測試。

      此外,一些重要的國際會議如CIKM、SIGIR等都設(shè)置了相應(yīng)的專利Workshop,供研究人員進(jìn)行交流。

      表2 NTCIR數(shù)據(jù)集

      專利研究目前可以分為3類:1) 專利檢索;2)對專利文本進(jìn)行各種深入分析;3) 與專利相關(guān)的其他研究,如推薦合作者[9]、專利續(xù)費(fèi)等[10]。

      2 專利檢索相關(guān)評價(jià)標(biāo)準(zhǔn)與檢索方法

      2.1 專利檢索評價(jià)標(biāo)準(zhǔn)

      專利檢索作為信息檢索的一個分支,可以采用準(zhǔn)確率和召回率對算法進(jìn)行比較。但是準(zhǔn)確率和召回率互相影響,理想情況下兩者都要高[11]。一般情況下準(zhǔn)確率高時(shí),召回率就低;而召回率高時(shí),準(zhǔn)確率就低。專利檢索側(cè)重于召回率,為了更好地反映算法的全局性能,Magdy等[12]經(jīng)過分析,設(shè)計(jì)專利檢索評價(jià)值(PRES, patent retrieval evaluation score)。

      其中,r是第個相關(guān)專利文檔的排名,是專利文獻(xiàn)集合中相關(guān)專利的數(shù)目,max是用戶最大檢索的專利數(shù)。算法的值越高,則召回率越高,且相關(guān)的文檔排名越靠前。

      專利檢索按照檢索目的可分為:可專利性檢索(patentability search)也叫新穎性檢索(novelty search)、專利技術(shù)現(xiàn)狀檢索(prior art search)、相關(guān)性檢索等。專利的檢索和一般的科技文獻(xiàn)檢索相比,有其特殊性,主要體現(xiàn)在以下4個方面。

      1) 撰寫方式的特殊性。論文撰寫時(shí),作者一般采用大家熟悉的描述方式,這樣可以讓讀者更容易理解作者所要表達(dá)的含義。但是專利撰寫時(shí),申請人為了擴(kuò)大自己所申請專利的保護(hù)范圍和提高專利授權(quán)的可能性,往往使用一些模糊的術(shù)語和表達(dá),甚至創(chuàng)造新的術(shù)語。

      2) 對于專利檢索,召回率比查準(zhǔn)率更重要,因?yàn)槿绻z一條重要的專利,會給企業(yè)帶來重大的損失。

      3) 專利數(shù)據(jù)格式復(fù)雜。專利包含了分類號、權(quán)利聲明等豐富信息。其中,專利分類號用來對專利文獻(xiàn)進(jìn)行分類,充分利用專利分類號等其他信息,可以使檢索結(jié)果更準(zhǔn)確。

      4) 檢索條件長度不同。對于專利申請人和專利審查員,他們更希望提供全文檢索的功能,因此專利檢索文本包含幾百個關(guān)鍵字。而目前現(xiàn)有的一些檢索比如即席檢索(ad hoc search)、Web檢索和文獻(xiàn)檢索的檢索文本長度相對比較短,例如Google搜索的最佳長度為155個英文字符。

      2.2 可專利性檢索

      因?yàn)閷@麢z索的文本長度很大,所以縮短檢索文本是一個簡單可行的方法[13~18]。最常用的方法就是對專利文本各個詞的頻率(TF, term frequency)進(jìn)行統(tǒng)計(jì),選擇Top-高頻詞來代替原有查詢進(jìn)行檢索。信息檢索已有研究結(jié)果表明采用高頻詞來進(jìn)行檢索并不能得到很好的檢索效果,因此提出了IDF(inverse document frequency)指數(shù),并利用TF-IDF來計(jì)算每一個詞的權(quán)重。然而,專利撰寫者往往為了規(guī)避已有的技術(shù),會創(chuàng)造一些新詞,它們的TF-IDF值很高[11]。所以采用TF-IDF方法僅能檢索到少量的相關(guān)專利。Hideo等[13]針對跨庫檢索提出了一種詞過濾的技術(shù),每個詞被賦予一個過濾權(quán)重TDV(term distillation value)。

      其中,表示詞在查詢條件中的重要性,表示詞在目標(biāo)語料庫中的重要性。假設(shè)為詞在查詢條件中出現(xiàn)的概率,為查詢詞在目標(biāo)集合中出現(xiàn)的概率。對于一個詞,概率可以利用標(biāo)題()和摘要(a)中詞的頻率進(jìn)行計(jì)算,計(jì)算方法如式(3)所示。

      或(3)

      其中,n是專利標(biāo)題中包含該詞的專利數(shù)量,n代表專利摘要中包含該詞的專利數(shù)量,N代表集合中的專利總數(shù)量。

      概率利用目標(biāo)集合()和整個專利文檔的詞()的分布進(jìn)行計(jì)算,計(jì)算方法如下

      其中,n是目標(biāo)集合中包含該詞的文章數(shù),N是目標(biāo)集合總的文章數(shù),n是專利中包含該詞的專利數(shù)量,N代表NTCIR-3中專利數(shù)量。

      對于一個檢索詞,論文依據(jù)不同的規(guī)則設(shè)計(jì)了9種計(jì)算的方法,以及5種計(jì)算的方法。采用NTCIR-3的數(shù)據(jù)作為測試集,該算法效果排名第1(如表3所示),表明該方法可以有效地進(jìn)行跨庫檢索。表3中2的含義是一個詞的值等于該詞的頻率。0含義是1,即的值僅依賴于。,和是預(yù)先定義好的常量,P@10為前10個專利準(zhǔn)確率。

      表3 NTCIR-3數(shù)據(jù)集測試結(jié)果

      審查員(或者發(fā)明人)通過輸入待審核專利的權(quán)利聲明(claim),算法自動抽取相關(guān)的關(guān)鍵詞進(jìn)行檢索,返回相應(yīng)的文檔,進(jìn)而判斷權(quán)利范圍要求的合法性。從表3中可以看出,算法的平均準(zhǔn)確率()小于0.3,在排名前10的專利準(zhǔn)確率不超過0.4。這是因?yàn)閷@写嬖诖罅空Z義含混不清的詞,導(dǎo)致詞過濾技術(shù)方法面臨較大的挑戰(zhàn)。

      2.3 技術(shù)現(xiàn)狀檢索

      技術(shù)現(xiàn)狀檢索就是給定一個技術(shù)背景(如一篇專利),找出與其相關(guān)的專利。技術(shù)現(xiàn)狀檢索可以幫助公司掌握最新相關(guān)領(lǐng)域的發(fā)展現(xiàn)狀,輔助公司確定新的開發(fā)領(lǐng)域,合理分配寶貴的資源。檢索條件的抽取是技術(shù)現(xiàn)狀檢索成功的關(guān)鍵,由于專利檢索更注重召回率,采用查詢擴(kuò)展是比較有效的方法,所以尋找有效的擴(kuò)展詞就成為研究的重點(diǎn)。

      2.3.1 第三方知識庫的擴(kuò)展方法

      專利現(xiàn)狀查詢面臨2個挑戰(zhàn):1)由于輸入為一組關(guān)鍵詞,而各個關(guān)鍵詞可能屬于不同的主題,因此無法表達(dá)一個準(zhǔn)確的查詢需求。2)查詢中常常存在歧義詞,如“蘋果”可能表示蘋果公司,也可能表示水果。信息檢索已有研究表明,借助于維基百科這樣的公共知識庫可以提高檢索的準(zhǔn)確率和召回率。IPC分類是國際通用的專利分類方法,它描述該類專利的特點(diǎn)、功能,因此可以把IPC分類描述看成是一種知識庫,借助于IPC可以用來進(jìn)行語義消歧,提高專利檢索的準(zhǔn)確率和召回率。例如,當(dāng)“蘋果”出現(xiàn)在電子分類的IPC下時(shí),它通常指的是蘋果公司,當(dāng)出現(xiàn)在農(nóng)業(yè)和林業(yè)等分類下時(shí),蘋果可以看成是水果[19, 20]。

      Mahdab[17]利用IPC描述作為擴(kuò)展詞典,提出了一種基于位置近鄰的查詢擴(kuò)展方法,并對檢索結(jié)果進(jìn)行重排序,從而提高檢索的準(zhǔn)確率和召回率,算法步驟如下。

      1) 對于被檢索的專利,使用第一條權(quán)利聲明代替整個專利作為查詢條件。

      2) 提取IPC文本中專利特征的相關(guān)性描述,去除專利領(lǐng)域的停用詞,建立候選擴(kuò)展詞表。

      3) 對專利庫中的每一條專利,計(jì)算擴(kuò)展詞和查詢詞的相關(guān)度,選擇Top-個相關(guān)度最高的詞作為查詢擴(kuò)展詞。擴(kuò)展詞和查詢條件相關(guān)度計(jì)算方法如下

      其中,(|t)是查詢詞t在查詢條件中出現(xiàn)的概率;是查詢詞在專利文檔中的位置。(|t)可以采用最常見的詞頻統(tǒng)計(jì)的方法計(jì)算。(|)用來計(jì)算專利文檔中第個位置是擴(kuò)展詞與第個位置是查詢詞的相關(guān)性概率。它的計(jì)算可以采用位置核函數(shù)來進(jìn)行計(jì)算,如高斯距離核函數(shù)、拉普拉斯距離核函數(shù)等。該公式的含義是查詢詞在查詢條件中出現(xiàn)的概率越大,擴(kuò)展候選詞離查詢詞在文中位置越近,它們的關(guān)系就越緊密,則該權(quán)重越大。

      4) 利用查詢擴(kuò)展詞進(jìn)行查詢,并對查詢結(jié)果利用式(6)重新計(jì)算專利相關(guān)度。

      其中,代表專利文檔中詞的總數(shù),(|,)表示第個詞是擴(kuò)展詞的概率。如果第個詞是擴(kuò)展詞,那么它的概率是擴(kuò)展詞所有出現(xiàn)位置總數(shù)的倒數(shù),否則概率為零。

      以CLEF2010作為實(shí)驗(yàn)數(shù)據(jù),該方法效果如表4所示,和其他方法相比,檢索的準(zhǔn)確率有了較大的提高(8%)。主要原因是專利申請人在撰寫專利時(shí)都要參考和使用IPC的描述信息,因此利用IPC作為擴(kuò)展詞可以最大限度地把擴(kuò)展詞的歧義降到最低;此外,計(jì)算相關(guān)度時(shí)將詞的分布和位置結(jié)合起來。

      表4 IPC擴(kuò)展檢索對比

      2.3.2 基于主題的檢索

      專利作為一種文檔,必然包含一定的主題。判斷2個文檔相似性的常規(guī)方法是通過統(tǒng)計(jì)2個文檔中共同出現(xiàn)的單詞數(shù),這種方法沒有考慮到文字背后的語義關(guān)聯(lián),可能存在2個文檔共同出現(xiàn)的單詞很少,但2個文檔是相似的情況。LDA模型可以提高檢索的準(zhǔn)確性,因此在信息檢索和自然語言處理中得到了廣泛的應(yīng)用。

      Krestel等[23]將LDA模型應(yīng)用到專利推薦,提出了基于潛在主題的專利推薦方法。根據(jù)專利的特點(diǎn),將專利分成5個部分:題目(title)、摘要(abstract)、權(quán)利聲明(claims)、概要(summary)和具體實(shí)施(details),利用DMR(dirichlet multinomial regression)對專利和查詢條件進(jìn)行計(jì)算,選擇相似度高的專利進(jìn)行推薦,具體方法如下。

      1) 對于一個給定的專利,利用TF-IDF從專利集合中選取Top-個內(nèi)容相關(guān)的專利,生成初始候選集。

      2) 對于Top-個專利,分析專利引用部分,如果該專利引用了其他專利,將這些被引專利加入到候選集合中。

      3) 對候選集中的每一個專利,按照下面的方法計(jì)算值。

      (8)

      (9)

      式(9)中是專利包含的主題數(shù),取值為專利總數(shù)的開方()。N是每一個部分詞的總數(shù),N是專利包含的總詞數(shù)。和是詞和主題的后驗(yàn)概率估計(jì),可以通過Gipps抽樣的方法進(jìn)行計(jì)算。

      該方法隨機(jī)選擇了2012年12月3日發(fā)布的100個專利,對每一個專利選擇500個相似度最大的專利,加上被引專利得到一個包含27 500個專利的集合。表5是將該方法和BM25、語言模型(LM)進(jìn)行比較的結(jié)果。

      表5 基于LDA的專利檢索對比

      LM主要考慮詞的分布,LM-DMR和LM-LDA方法是用DMR、LDA對語言模型進(jìn)行擴(kuò)展。以LM為基準(zhǔn),可以發(fā)現(xiàn)利用主題可以提高平均準(zhǔn)確率,將語言模型和主題模型進(jìn)一步結(jié)合使檢索結(jié)果更精確,這也符合一般的規(guī)律。

      2.3.3 基于引用關(guān)系的查詢擴(kuò)展方法

      專利申請書還包含了豐富的引用信息。Mahdabi[24]對專利文檔進(jìn)行實(shí)驗(yàn)觀察,發(fā)現(xiàn)2個專利之間的相關(guān)性不僅與兩者的文本相似度相關(guān),而且很大程度上與兩者之間的引用關(guān)系相關(guān),進(jìn)而提出基于時(shí)間感知的加權(quán)PageRank算法AQE-TPR,具體步驟如下。

      1) 查詢專利集合,得到Top-個文本相似度高的專利作為根集合,然后找出所有引用該Top-個專利以及Top-所引用的專利,根據(jù)引用關(guān)系構(gòu)建專利引用網(wǎng)絡(luò)。

      2) 對其中每一個節(jié)點(diǎn)按照式(10)計(jì)算其初始概率。是專利授權(quán)時(shí)間,是時(shí)間間隔因子,專利授權(quán)越早和查詢條件相關(guān)的可能性越低。

      如果專利引用專利,那么和之間就存在一條邊,邊的權(quán)值對應(yīng)于專利和之間的關(guān)聯(lián)程度。AQE-TPR綜合考慮專利和的IPC分類、內(nèi)容相似度,發(fā)布時(shí)間間隔、共同發(fā)明人、共同的專利權(quán)人。當(dāng)組合權(quán)重大于0.5時(shí),a=1,反之a=0。這樣就構(gòu)成一個專利引用網(wǎng)絡(luò)cit,利用PageRank算法計(jì)算每一個專利的值。

      3) 計(jì)算每一個詞的權(quán)重,方法如下

      其中,()對應(yīng)于專利的PageRank值,()是該詞在專利中出現(xiàn)的概率。如果一個專利的PageRank值越大,那么該專利處于核心地位,如果一個詞在很多專利中出現(xiàn),那么該詞非常重要。

      4) 綜合考慮查詢條件orig和專利引用網(wǎng)絡(luò),利用式(12)計(jì)算擴(kuò)展詞的概率,選擇Top-個概率最高的詞作為擴(kuò)展詞,是預(yù)先定義的常數(shù)。

      以CLEF-IP2011的數(shù)據(jù)為實(shí)驗(yàn)對象,比較結(jié)果如表6所示??梢园l(fā)現(xiàn)AQE-TPR方法好于Nijm和Hyder算法,Nijm和Hyder算法在CLEF-IP 2011比賽中排名第一和第二。本方法的貢獻(xiàn)就是通過PageRank算法綜合考慮專利各個部分的信息,從而提高檢索的準(zhǔn)確率和召回率。

      表6 基于引用的專利檢索對比

      此外還有一些方法利用查詢擴(kuò)展提高專利檢索的召回率[25,26]。Bashi[27,28]利用詞語位置計(jì)算語料庫和查詢條件的相關(guān)性,并選擇最相關(guān)的若干文檔,利用偽相關(guān)反饋進(jìn)行查詢擴(kuò)展。Bhatia[26]將專利文獻(xiàn)分割成大小相同的片段(snippet),并將查詢條件分割成較小的句子。將查詢條件和專利文獻(xiàn)進(jìn)行比較,選擇相似度最大的片段,并以此返回相應(yīng)的專利文獻(xiàn),該方法能提高查詢的響應(yīng)時(shí)間。較早的方法有Hironori[25]提出的利用聚類進(jìn)行查詢擴(kuò)展,該方法將專利聚類成一個層次結(jié)構(gòu),在不同的層次上進(jìn)行查詢擴(kuò)展以提高召回率。

      2.4 相關(guān)性檢索

      專利相關(guān)性是指該專利和哪些專利相關(guān)。英文專利包含專利之間的引用關(guān)系。和論文的引用關(guān)系不同,專利對其他專利的引用意味著本專利的權(quán)利聲明受到限制,即本專利的價(jià)值會變得更低,所以專利發(fā)明人在引用其他專利時(shí)會顯得非?!靶狻?,這對已有的專利是非常不公的[29,30]。

      Sooyoung等[29]提出了基于價(jià)值驅(qū)動的專利引用推薦方法CV-PCR。CV-PCR將專利D表示為一個五元組<T,C,V,a,R>,其中,T代表專利的文本內(nèi)容,C代表專利的IPC代碼,V是專利發(fā)明人,a是專利所有權(quán)人,并以此構(gòu)建專利異構(gòu)信息網(wǎng)絡(luò),如圖1所示,網(wǎng)絡(luò)中邊的含義如表7所示。

      表7 網(wǎng)絡(luò)拓?fù)浜x

      對于一個給定的專利D,CV-PCR分為3步推薦相關(guān)的引用。

      1) 采用常規(guī)的專利檢索方法檢索出若干個相關(guān)的專利,并計(jì)算專利相關(guān)度。

      2) 以專利異構(gòu)信息網(wǎng)絡(luò)為基礎(chǔ),根據(jù)式(13)計(jì)算專利的特征值。特征包括:專利之間是否有引用關(guān)系、專利的相似度、專利主分類號、專利次分類號、專利發(fā)明人、專利權(quán)人、專利內(nèi)容。

      其中,分母的含義是對于專利D以及它的特征,有多少專利具備特征;分子的含義是這些專利中同時(shí)引用專利D的數(shù)量。

      給定一個查詢專利D,對網(wǎng)絡(luò)中每一個專利計(jì)算所有特征值的平均值,方法如下。

      3) 對這些專利采用基于監(jiān)督排序?qū)W習(xí)算法(RankSVM)進(jìn)行重新排序。

      CV-PCR和BL1方法和BL2方法進(jìn)行了對比[19,31]。其中,BL1方法是基于排序?qū)W習(xí)的相關(guān)專利檢索,BL2方法是科技論文引文推薦方法,比較結(jié)果如表8所示。通過比較可以發(fā)現(xiàn)該方法在推薦相關(guān)專利方面具有優(yōu)勢。主要原因是該方法不僅考慮了專利的內(nèi)容,而且考慮了專利的其他有用信息。這進(jìn)一步說明了專利檢索有其特殊性,不能簡單地照搬傳統(tǒng)的信息檢索方法。

      表8 專利相關(guān)性檢索對比

      3 專利內(nèi)容擴(kuò)展分析方法

      專利分析是對專利說明書或者專利公報(bào)中大量專利信息進(jìn)行分析、加工、組合,并利用統(tǒng)計(jì)學(xué)的技巧和方法使這些信息轉(zhuǎn)化為具有總攬全局及預(yù)測功能的競爭情報(bào),從而為企業(yè)技術(shù)、產(chǎn)品及服務(wù)研發(fā)提供決策參考。常見的專利分析有:專利地圖、專利價(jià)值計(jì)算、專利新穎性分析等。

      3.1 專利地圖

      專利地圖(patent map)是采用統(tǒng)計(jì)分析方法加以縝密及精細(xì)剖析整理制成的各種可分析解讀的圖表信息,具有類似地圖指向功能。專利技術(shù)功效地圖通常將專利分解成技術(shù)手段和技術(shù)效果2個維度,制作成矩陣或圖表,橫軸代表一項(xiàng)技術(shù),而縱軸代表技術(shù)效果[32, 33]。

      圖2是對手機(jī)領(lǐng)域從2002年~2007年專利申請進(jìn)行劃分得到的專利技術(shù)功效矩陣,從中可看出,每一年手機(jī)功效的發(fā)展趨勢,例如,2002年多媒體技術(shù)、智能化技術(shù)和時(shí)尚外觀設(shè)計(jì)催生了手機(jī)中的照相功能。圖2中包含3個技術(shù)空白區(qū)。如技術(shù)空白區(qū)2表明手機(jī)產(chǎn)業(yè)中外觀設(shè)計(jì)發(fā)明不多,還有很大的發(fā)展空間;空白區(qū)3表明多媒體、智能化和數(shù)據(jù)連接技術(shù)在手機(jī)GPS導(dǎo)航中運(yùn)用還不多[34, 35]。

      其實(shí),從最近幾年手機(jī)的發(fā)展趨勢可以看出,外觀設(shè)計(jì)已經(jīng)成為手機(jī)一個很重要的賣點(diǎn),且目前的手機(jī)都具備GPS導(dǎo)航功能,導(dǎo)航中各種語音提示,以及近乎真實(shí)三維地圖、實(shí)時(shí)路況信息以及周邊相關(guān)的娛樂、餐飲、住宿等信息都已經(jīng)有效地集成到導(dǎo)航中。所以好的專利地圖可以幫助用戶快速了解領(lǐng)域技術(shù)現(xiàn)狀、發(fā)現(xiàn)技術(shù)真空,對指導(dǎo)專利研發(fā)有著重要作用。目前專利地圖的制作仍然采用半人工半自動化的過程。例如對于專利技術(shù)/功效矩陣圖,因?yàn)榧夹g(shù)和功效通常很難區(qū)分,所以提取一篇專利中技術(shù)與功效往往是一件非常難的事情。此外,專利的數(shù)量過于龐大,且所屬的領(lǐng)域具有很大的差異[26]。

      3.2 新穎性分析

      專利新穎性并沒有一個公認(rèn)的定義。一般可以這樣理解專利的新穎性,新穎性是指發(fā)明不屬于現(xiàn)有技術(shù),也沒有任何單位或者個人就同樣的發(fā)明向?qū)@痔岢鲞^申請,并記載在申請日以后(含申請日)公布的專利申請文件或者公告中。

      Hasan等[36]提出了一個利用詞新穎度計(jì)算專利新穎度的方法,并設(shè)計(jì)一個專利排序系統(tǒng)COA (claim originality analysis ),針對專利的價(jià)值(包括專利的新穎性和重要程度),對專利進(jìn)行排序。

      COA方法基于專利的總體貢獻(xiàn)度對專利進(jìn)行排序。總體貢獻(xiàn)度是該專利所有關(guān)鍵短語的貢獻(xiàn)度之和,總體貢獻(xiàn)度越大,代表該專利所具有的價(jià)值越大,具體步驟如下。

      1) 提取專利文本的關(guān)鍵詞,COA采用自然語言處理方法中的元語法(-gram)從專利文本中提取所有短語。在關(guān)鍵短語識別部分,作者構(gòu)建了背景詞典,將出現(xiàn)頻率大于的短語放入背景詞典。通常,這些短語出現(xiàn)頻率較高,但對專利的價(jià)值貢獻(xiàn)較小,所以將這部分短語過濾掉。經(jīng)過以上2個部分,剩下的短語被識別為關(guān)鍵短語。同時(shí),COA引入了時(shí)間窗口的概念,僅考慮最近年內(nèi)新出現(xiàn)的短語,進(jìn)一步減少了關(guān)鍵短語的數(shù)量。

      2) 計(jì)算關(guān)鍵短語貢獻(xiàn)度。在COA中,關(guān)鍵短語的貢獻(xiàn)度基于2個方面:關(guān)鍵短語的頻度和短語出現(xiàn)的時(shí)間長度。貢獻(xiàn)度值的大小與關(guān)鍵短語出現(xiàn)的頻度成正比,與短語出現(xiàn)的時(shí)間長度成反比。

      3) 計(jì)算專利的價(jià)值。COA設(shè)計(jì)了2種專利價(jià)值計(jì)算方法:①對每條專利的所有關(guān)鍵詞的貢獻(xiàn)度進(jìn)行線性累加,得到該條專利的總體貢獻(xiàn)度;②將關(guān)鍵短語的數(shù)量作為專利的價(jià)值。

      該方法以IBM申請的專利為實(shí)驗(yàn)數(shù)據(jù)進(jìn)行效果評估。首先采用領(lǐng)域?qū)<覍γ恳粋€申請的專利人工分為3類:1核心(excellent),2重要(good)和3一般(not-so-good)。作者然后采用COA方法對專利進(jìn)行打分,并和人工分類的結(jié)果進(jìn)行比較,比較結(jié)果如表9所示。從表中可以看出屬于類1專利的COA值遠(yuǎn)遠(yuǎn)大于屬于類3專利的值。

      表9 COA對專利打分結(jié)果

      反過來,當(dāng)一個專利的COA值確定后,可以對專利進(jìn)行分類。基于COA值,作者設(shè)計(jì)了一個線性分類器,分類結(jié)果如表10所示。

      表10 專利分類結(jié)果

      一般來說,一個專利如果被越多的專利引用,則該專利越有價(jià)值。通過實(shí)驗(yàn)發(fā)現(xiàn),COA方法比直接利用引用關(guān)系評估專利價(jià)值準(zhǔn)確率高。

      3.3 PatentDom分析框架

      PatentDom是一個基于網(wǎng)絡(luò)的專利分析框架[37,38],基于該框架設(shè)計(jì)了3個應(yīng)用:PatentLine、PatentTrace和PatentLink。PatentDom引入多視圖專利圖(multi- view patent graph)概念,=(,w,s,s,E,w)。其中,對應(yīng)于每一個專利,每個節(jié)點(diǎn)都有一個權(quán)值,為該專利被引用次數(shù)的倒數(shù),所以權(quán)值越小代表該專利越重要。圖中包含2種類型的邊。如果2個專利的相似度超過一定的權(quán)值,那么它們之間就存在一條無向邊,相似度對應(yīng)于該邊的權(quán)值。如果專利之間存在引用關(guān)系或者2個專利發(fā)布的時(shí)間小于預(yù)先設(shè)定的時(shí)間間隔,那么2個節(jié)點(diǎn)之間存在一個有向邊,每個有向邊的權(quán)重為1。由于該網(wǎng)絡(luò)包含2種類型的邊,因此稱為多視圖專利圖。

      3個應(yīng)用的核心是從圖中選擇個最重要的專利。PatentDom將此問題歸結(jié)為圖論中最小支配集問題,利用貪心算法,選擇起決定性作用的個專利。

      PatentLine主要分析核心專利隨時(shí)間變化的關(guān)系。該框架將問題歸結(jié)為最小代價(jià)的Steiner樹,利用生成樹建立核心專利之間的聯(lián)系。

      PatentTrace用來分析一個給定的專利和最重要的個專利之間的關(guān)系,即分析該專利最大可能和那個重要的專利之間存在關(guān)聯(lián)。PatentTrace采用式(15)計(jì)算節(jié)點(diǎn)的權(quán)值。

      該計(jì)算方法綜合了專利之間文本的相似度和引用關(guān)系。

      PatentLink則利用中心子圖(center-piece)分析2個專利之間潛在的聯(lián)系。

      通過典型案例研究表明,這3種分析方法的結(jié)果是有效的,能夠分析出專利技術(shù)發(fā)展的脈絡(luò)。

      由于3種分析方法都依賴于核心專利的選擇,表11是PatentDom方法、COA[28]方法、PageRank方法以及CorePatent方法檢索結(jié)果的對比。通過對比可以看出,PatentDom在目前已有的方法中對專利價(jià)值的計(jì)算是比較好的。

      表11 核心專利檢索結(jié)果對比

      4 基于深度學(xué)習(xí)的專利檢索與分析

      面對海量的專利數(shù)據(jù),即使是技術(shù)很全面的專利工作者也往往力不從心。由于專利撰寫的特點(diǎn)使專利檢索的召回率和準(zhǔn)確率有待進(jìn)一步的提高[39]。目前,專利檢索與分析主要針對專業(yè)人員,一般人很難利用,因此需要專利檢索與分析更加準(zhǔn)確和智能化,下面本文從專利檢索、專利論文檢索以及專利趨勢分析3個方面舉例說明深度學(xué)習(xí)在專利檢索與分析中的應(yīng)用[40,41]。

      4.1 專利檢索

      圖3是一個基于深度學(xué)習(xí)的專利檢索方法,對于一個待檢索的專利,從專利庫中檢索類似的專利1,2,…,C。該方法分為2步。

      1) 特征提取,將專利語料庫映射到一個維的空間。對于一個給定的專利,利用卷積神經(jīng)網(wǎng)絡(luò)(CovNN,convolutional neural network)將專利文本通過多層卷積,提取其維語義特征[41]。

      一篇專利包含標(biāo)題、摘要、正文(實(shí)施)和權(quán)利聲明等幾個部分。如果一個專利包含圖表,則還有相應(yīng)的關(guān)于圖表的說明。專利每一部分所表達(dá)的內(nèi)容不同,以及申請人在每一部分的撰寫方式不同,因此本文認(rèn)為每一部分存在不同的特征。所以在卷積神經(jīng)網(wǎng)絡(luò)的第一層,本文設(shè)置了4個卷積核1(),2(),3(),4(),對每一個部分進(jìn)行初始特征提取。

      由于專利每一部分的長度不一樣,摘要部分言簡意賅,實(shí)施部分詳細(xì)明了,權(quán)利聲明部分則居于兩者之間,因此需要設(shè)計(jì)每一個卷積函數(shù)的步長,每一次卷積操作可以看成是對步長內(nèi)的文本信息進(jìn)行特征提取。通過第一層卷積神經(jīng)網(wǎng)絡(luò),本文完成專利文本的原始輸入,并提取了初步特征。但這些特征還比較局部,為了進(jìn)一步提取全局特征并降低輸入的維度,需要通過多層卷積神經(jīng)網(wǎng)絡(luò)對第一層卷積神經(jīng)網(wǎng)絡(luò)的輸出進(jìn)行再次卷積。在每一層卷積網(wǎng)絡(luò)中,本文同樣需要設(shè)計(jì)多個卷積核,這樣可以從不同的角度提取專利文本的特征,當(dāng)提取多重特征后,需要設(shè)計(jì)合適的池化(max-pooling)方法對特征進(jìn)行融合。最終對于給定的專利P,本文得到它的維向量,設(shè)為V。

      卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)訓(xùn)練過程可以采用梯度下降的過程進(jìn)行逐層訓(xùn)練。這里再引入一個相似度函數(shù)使提取的特征是有效的。由于提取的是專利的語義特征,本文采用傳統(tǒng)余弦相似度對2個專利進(jìn)行相似度計(jì)算。如果專利PP相似,PP不相似,那么(V,V)>>(V,V)。如果不等式不成立,那么卷積網(wǎng)絡(luò)提取的特征是有偏差的,這樣本文利用相似度作為目標(biāo)函數(shù)去優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)的卷積核。

      2) 利用排序?qū)W習(xí)的方法,對檢索到的專利進(jìn)行排序。這里排序?qū)W習(xí)考慮的因素有專利的語義相似度、專利發(fā)布的時(shí)間、專利的法律狀態(tài)、專利之間的引用關(guān)系等。專利的語義相似度采用余弦相似度進(jìn)行計(jì)算。假設(shè)專利PP的發(fā)布時(shí)間分別是(P)和(P),那么專利之間相對價(jià)值采用式(16)計(jì)算。其含義是優(yōu)先推薦最近的專利。

      專利之間存在引用關(guān)系,這樣就可以構(gòu)造專利引用網(wǎng)絡(luò),根據(jù)專利在網(wǎng)絡(luò)中的相對關(guān)系,采用網(wǎng)絡(luò)的度量指標(biāo)(如距離、跳數(shù))計(jì)算專利在技術(shù)上的關(guān)聯(lián)程度。這樣就可以構(gòu)造一個排序?qū)W習(xí)算法向用戶推薦最相似的專利。

      4.2 專利論文檢索

      4.1節(jié)主要研究在專利文檔集合中檢索相似的專利,同樣論文也是一個很重要的技術(shù)文獻(xiàn)集合,論文中包含了大量的技術(shù)。

      對于一個專利,檢索與之相關(guān)的論文可以幫助專利審查員決定該專利是否新穎,同樣對于一個公司可以幫助公司研發(fā)人員掌握更全面的相關(guān)領(lǐng)域的技術(shù)現(xiàn)狀。因此對于一個專利檢索相似的論文也是一個值得研究的問題。圖4是一個基于深度學(xué)習(xí)的專利論文檢索框架。

      Step1 特征提取。同樣采用卷積神經(jīng)網(wǎng)絡(luò)對論文和專利分別提取其相應(yīng)的特征。由于論文和專利分屬不同的科技文獻(xiàn)種類,因此需要設(shè)計(jì)不同的卷積函數(shù)對其進(jìn)行特征提取。

      Step2 空間變換。由于論文和專利屬于不同類的科技文獻(xiàn),因此可以認(rèn)為提取的特征屬于不同的空間,為了計(jì)算其相似程度需要對它進(jìn)行空間變換。假設(shè)VV分別為專利P和論文A所對應(yīng)的維向量(假設(shè)為列向量)。本文定義存在一個×維的矩陣,使V=MV。它的含義是,如果PA是相似的,那么在向量空間存在某種形式的矩陣變換使向量變換成。

      本文使用目標(biāo)函數(shù)優(yōu)化的方法計(jì)算矩陣,目標(biāo)函數(shù)如式(17),其中,是給定的測試數(shù)據(jù)集中數(shù)據(jù)的個數(shù)。

      目標(biāo)函數(shù)中采用余弦函數(shù),這是因?yàn)槿绻?個向量在線性空間越相似,其余弦值越大,1?cos(,)越小。對目標(biāo)函數(shù)采用梯度下降的算法對其進(jìn)行優(yōu)化,從而得到轉(zhuǎn)換矩陣。

      Step3 利用排序?qū)W習(xí)的方法,對檢索到的專利進(jìn)行推薦。這里排序?qū)W習(xí)考慮的因素有論文的語義相似度、論文發(fā)布的時(shí)間、論文的質(zhì)量以及論文之間的引用關(guān)系等因素。

      4.3 結(jié)合論文的專利趨勢分析

      專利趨勢分析就是分析某個領(lǐng)域現(xiàn)有專利技術(shù)發(fā)展的現(xiàn)狀。正如前面提到科技論文也是一個非常重要的技術(shù)來源,在分析專利發(fā)展趨勢時(shí)必須考慮科技論文。

      在前面已經(jīng)設(shè)計(jì)了卷積神經(jīng)網(wǎng)絡(luò)提取專利和論文的特征,并構(gòu)建了專利和論文之間進(jìn)行特征轉(zhuǎn)換的矩陣,這樣就可以將論文和專利映射到同一個語義空間。

      Step1 利用現(xiàn)有的聚類算法,將專利和科技論文進(jìn)行聚類。

      Step2 對于每一類,利用深度學(xué)習(xí)提取專利和論文中的技術(shù)短語(算法1)。

      Step3 對每一類技術(shù)短語建立Logistic模型,確定其參數(shù),并預(yù)測專利的發(fā)展趨勢。

      此外,專利和論文是從不同的方面反映了技術(shù)發(fā)展的歷程。有的領(lǐng)域論文在先,研究人員開展大量的基礎(chǔ)研究或者理論研究,到達(dá)一定實(shí)用階段時(shí)可以去申請大量的專利。有的領(lǐng)域可能是專利在前面,再有大量的研究,如PageRank算法。類似產(chǎn)品的生命周期,本文將技術(shù)的生命周期分為4個階段:導(dǎo)入期、成長期、成熟期和衰退期。

      在每一類中,分別對論文和專利建立其相應(yīng)的Logistic模型,并分析所處的階段,建立每一個階段論文和專利之間的時(shí)間對應(yīng)關(guān)系,這樣更好地幫助企業(yè)去預(yù)測技術(shù)的發(fā)展。

      算法1 ExtractTechnicalTerm//提取技術(shù)短語

      1) 使用公開的語料庫建立初始的字向量,向量維度為100,迭代100次。

      2) 抽取德溫特專利數(shù)據(jù)庫中人工標(biāo)注的技術(shù)短語作為訓(xùn)練數(shù)據(jù)。

      3) 使用左右各4個字做為上下文,9×100個神經(jīng)元為輸入層,隱藏層為100,輸出層為4,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為[900→100→4],進(jìn)行次迭代,建立深度神經(jīng)網(wǎng)絡(luò)DNN-TM[40,41]。

      4) 用DNN-TM神經(jīng)網(wǎng)絡(luò)抽取專利和論文中的技術(shù)短語。

      這一節(jié)研究了專利檢索、結(jié)合論文的專利檢索方法,均采用了卷積神經(jīng)網(wǎng)絡(luò)提取專利和論文的特征,避免了文本稀疏帶來的“維數(shù)災(zāi)難”。方法的核心就是確定卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu):卷積核的個數(shù)及其參數(shù)、卷積網(wǎng)絡(luò)的層數(shù)。其次,本文設(shè)計(jì)了空間轉(zhuǎn)換矩陣,利用目標(biāo)函數(shù)優(yōu)化的方法實(shí)現(xiàn)了論文和專利之間的語義轉(zhuǎn)換。

      在專利趨勢分析中,本文提出利用深度神經(jīng)網(wǎng)絡(luò)提取技術(shù)短語詞匯,利用生命周期模型,建立論文和專利生命周期之間的對應(yīng)關(guān)系,幫助用戶更好地預(yù)測技術(shù)發(fā)展的趨勢。

      5 結(jié)束語

      國家和企業(yè)越來越重視知識產(chǎn)權(quán)的保護(hù),研究人員提出專利的技術(shù)現(xiàn)狀檢索和相關(guān)性檢索等專利檢索方法,設(shè)計(jì)專利新穎度分析和專利地圖分析等專利分析方法,使企業(yè)用戶可以快速地了解領(lǐng)域的研究現(xiàn)狀,把握技術(shù)趨勢變化,做出合理的企業(yè)決策。

      在專利檢索方面,學(xué)者們已經(jīng)取得了豐碩的成果,提出基于主題的檢索、基于引用的檢索、基于詞庫的擴(kuò)展檢索等多種檢索方法,但是準(zhǔn)確率和召回率仍然有待提高。在專利分析方面,盡管已經(jīng)取得了一定的成果,但對專利數(shù)據(jù)的分析仍然較淺[39]。如專利中包含的引用關(guān)系很少被考慮到,而進(jìn)行專利搜索與分析的研究時(shí),如果能夠結(jié)合引用關(guān)系,會使檢索和分析結(jié)果更加準(zhǔn)確。此外,專利文獻(xiàn)不僅包括中文,還有英文、日文專利等,并且科技論文中同樣包含大量的技術(shù),因此本文必須設(shè)計(jì)新的智能化專利搜索與分析算法,使之能夠適應(yīng)跨語言、跨語料庫的專利檢索和分析,這樣才能夠真正發(fā)揮它們的巨大作用。

      [1] State Intellectual Property Office of PRC. 2014 key IP5 statistical data[EB/OL].http://www.sipo.gov.cn/tjxx/wjndbg/201507/P020150707534432342721.pdf.

      [2] State Intellectual Property Office of PRC. 2013 key IP5 statistical data[EB/OL].http://www.sipo.gov.cn/tjxx/wjndbg/201509/P020150901583608432123.pdf.

      [3] State Intellectual Property Office of PRC. 2012 key IP5 statistical data[EB/OL]. http://www.sipo.gov.cn/tjxx/2012tjbgen.pdf.

      [4] CHEN C. Searching for intellectual turning points: progressive knowledge domain visualization[J]. PNAS, 2004, 1011(Suppll): 5303-5310.

      [5] ERDI P, MAKOVI M, SOMOGYVARI Z, et al. Prediction of Emerging technologies based on analysis of the US patent citation network[J]. Scientometrics, 2013, 95(1): 225-242.

      [6] FUJII A, ISHIKAWA T. NTCIR-3 patent retrieval experiments at ULIS[C]//NII Test Collection for IR Systems-3. c2002: 1-6.

      [7] FUJII A, ISHIKAWA T, KANDO N. Test collections for ptent-to-ptent rtrieval and ptent map generation in NTCIR-4 workshop[C]//The 4th International Conference on Language Resources and Evaluation. c2004: 1643-1646.

      [8] FUJII A, ISHIKAWA T, KANDO N. Overview of the patent retrieval task at the NTCIR-6 workshop[C]//NII Test Collection for IR Systems-6. Tokyo, Japan, c2007: 359-365.

      [9] WU S, SUN J, TANG J. Patent partner recommendation in enterprise social networks[C]//WSDM, Rome, Italy, c2013: 43-52.

      [10] JIN X, SPANGLER S, CHEN Y, et al. Patent maintenance recommendation with patent information network model[C]//ICDM. Vancouver, Canada, c2011: 280-289.

      [11] MANNING C, RAGAVAN P, SCHUTZE H. An introduction to information retrieval[M]. London: Cambridge University Press, 2009.

      [12] MAGDY W, JONES G. PRES: a score metric for evaluating recall-oriented information retrieval applications[C]//SIGIR. Geneva, Switzerland, c2010: 611-618.

      [13] HIDEO I, HIROKO M, YASUSHI O. Term distillation in patent retrieval[C]//The ACL-2003 Workshop on Patent Corpus. c2003: 41-45.

      [14] VERBERNE S,HONDT E D. Prior art retrieval using the claims section as a bag of words[C]//The Cross-language Evaluation Forum Conference on Multilingual Information Access Evaluation: Text Retrieval Experiments. c2009: 497-501.

      [15] VARMA M, VARMA V. Applying key phrase extraction to aid invalidity search[C]//International Conference on Artificial Intelligence and Law. Pittsburgh, PA, c2011: 249-255.

      [16] KONISHI K. Query terms extraction from patent document for invalidity search[C]//NTCIR-5 Workshop Meeting. Tokyo, Japan, c2005.

      [17] MAHDABI P, ANDERSSON L, Keikha M, et al. Automatic refinement of patent queries using concept importance predictors[C]// SIGIR. Portland, USA, c2012: 505-514.

      [18] TAKAKI T, FUJII A, ISHIKAWA T. Associative document retrieval by query subtopic analysis and its application to invalidity patent search[C]//CIKM. Washington, USA, c2004: 399-405.

      [19] ADAMS S. Comparing the IPC and the US classification systems for the patent searcher[J]. World Patent Information, 2001, 23(1): 15-23.

      [20] MAHDABI P, GERANI S, HUANG J X, et al. Leveraging conceptual lexicon: query disambiguation using proximity information for patent retrieval[C]//SIGIR. Dublin, Ireland, c2013: 113-122.

      [21] GANGULY D, LEVELING L, MAGDY W, et al. Patent query reduction based on pseudo-relevant documents[C]//CIKM. Glasgow, Scotland, UK, c2011: 1953-1956.

      [22] MAGDY W, JONES G. A study on query expansion methods for patent retrieval[C]//PAIR. c2011: 19-24.

      [23] KRESTEL R, SMYTH P. Recommending patents based on latent topics[C]//Recommender Systems. c2013: 395-398.

      [24] MAHDABI P, CRESTANI F. Query-driven mining of citation networks for patent citation retrieval and recommendation[C]//CIKM. Shanghai, China, c2014: 1659-1668.

      [25] HIRONORI D, YOHEI S, et al. A patent retrieval method using a hierarchy of clusters at TUT[C]//NTCIR-5 Workshop Meeting. Tokyo, Japan, c2005.

      [26] BHATIA S, HE B, HE Q, et al. A scalable approach for performing proximal search for verbose patent search queries[C]//CIKM. Maui, HI, USA, c2012: 2603-2606.

      [27] BASHIR S, AUBER A. Analyzing document retrievability in patent retrieval settings[C]//DEXA. c2009: 753-760.

      [28] BASHIR S, AUBER A. Improving retrievability of patents in prior-art search[C]//ECIR. Dublin, Ireland, c2010: 457-450.

      [29] SOOYOUNG O, ZHEN L, LEE W C, et al. CV-PCR: a context-guided value-driven framework for patent citation recommendation[C]// CIKM. San Francisco, CA, USA, c2013: 2291-2296.

      [30] HUANG W, KATARIA S, CARAGEA C, et al. Recommending citations: translating papers into references[C]//CIKM. Maui, HI, USA, c2012: 1910-1914.

      [31] XUE X,CROFT W. Automatic query generation for patent search[C]//CIKM. Hong Kong, China, c2009: 2037-2040.

      [32] JUN S H, PARK S, SIK J D. Technology forecasting using matrix map and patent clustering[J]//Industrial Management & Data Systems. 2012, 112(5): 786-806.

      [33] CHEN X, PENG Z, ZENG C. A co-training based method for chinese patent semantic annotation[C]//CIKM. Maui, HI, USA, c2012: 2379- 2382.

      [34] LIU D, PENG Z, LIU B. Technology effect phrase extraction in Chinese patent abstracts[C]//APWeb. Changsha, China, c2014: 141-152.

      [35] DRAZIC M, KUKOLJ D, VITAS M, et al. Technology matching of the patent documents using clustering algorithms[C]//The 14th IEEE International Symposium on Computational Intelligence and Informatics. c2013: 405-408.

      [36] HASAN M A, SPANGLER S, GRIFFIN T, et al. COA: finding novel patents through text analysis[C]//SIGKDD. Paris, France, c2009: 1175-1184.

      [37] ZHANG L H, LI L, LI T, et al. PatentLine: analyzing technology evolution on multi-view patent graphs[C]//SIGIR. Boston, Massachusetts, USA, c2014: 1095-1098.

      [38] ZHANG L H, LI L, LI T, et al. PatentDom: analyzing patent relationships on multi-view patent graphs[C]//CIKM. Shanghai, China, c2014: 1369-1378.

      [39] TADURI S,YU H,LAU G, et al. Developing a comprehensive patent related information retrieval tool[J]. Journal of Theoretical and Applied Electronic Commerce Research. 2001, 6(2): 1-16.

      [40] BNEGIO, Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research. c2009: 1137-1155.

      [41] WANG M X, LU Z D, LI H, et al. GenCNN: a convolutional architecture for word sequence prediction[C]//ACL. c2015.

      Patent search and analysis supporting technology innovation

      LIU Bin1,2, FENG Ling1, WANG Fei1, PENG Zhi-yong1,2

      (1. School of Computer, Wuhan University, Wuhan 430072, China; 2. State Key Laboratory of Software Engineering, Wuhan Uvinersity, Wuhan 430072, China)

      The main research work of patent search and analysis were summarizes. The patent search includes patentability search,prior art search,and query expansion. And the patent analysis includes patent map, novelty analysis, and a new analysis framework named PatentDom. Finally, based on the idea of deep learning, three new methods of patent search and analysis are put forward.

      patent, patent search, patent analysis, deep learning

      TP391.1

      A

      10.11959/j.issn.1000-436x.2016055

      2015-10-10;

      2016-01-20

      彭智勇,peng@whu.edu.cn

      國家自然科學(xué)基金資助項(xiàng)目(No. 61232002);湖北省科技支撐計(jì)劃基金資助項(xiàng)目(No. 2015BAA127);武漢創(chuàng)新團(tuán)隊(duì)計(jì)劃基金資助項(xiàng)目(No. 2014070504020237)

      The National Natural Science Foundation of China( No. 61232002), The Science and Technology Support Program of Hubei Province (No. 2015BAA127), The Wuhan Innovation Team Project (No. 2014070504020237)

      劉斌(1975-),男,江蘇泰興人,博士,武漢大學(xué)講師,主要研究方向?yàn)閺?fù)雜數(shù)據(jù)管理、數(shù)據(jù)挖掘等。

      馮嶺(1986-),男,河南鄭州人,武漢大學(xué)博士生,主要研究方向?yàn)閷@治雠c挖掘等。

      王飛(1989-),男,江蘇連云港人,武漢大學(xué)博士生,主要研究方向?yàn)閷@麢z索、分析和挖掘。

      彭智勇(1963-),男,湖北武漢人,武漢大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)閺?fù)雜數(shù)據(jù)、可信數(shù)據(jù)和Web數(shù)據(jù)管理。

      猜你喜歡
      短語檢索卷積
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      2019年第4-6期便捷檢索目錄
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
      國際標(biāo)準(zhǔn)檢索
      國際標(biāo)準(zhǔn)檢索
      金华市| 凤凰县| 新郑市| 保靖县| 邯郸县| 鹿泉市| 镇安县| 高安市| 年辖:市辖区| 卢氏县| 宝兴县| 图们市| 雷山县| 襄樊市| 长武县| 南开区| 文安县| 峡江县| 丽江市| 霍林郭勒市| 长宁县| 正蓝旗| 吉林市| 聊城市| 沁阳市| 阿巴嘎旗| 贺兰县| 新兴县| 泸溪县| 灯塔市| 图们市| 龙里县| 汝州市| 阿瓦提县| 根河市| 台中市| 湘西| 西贡区| 靖江市| 策勒县| 苗栗市|