曾 鎮(zhèn) 呂學(xué)強(qiáng) 李 卓
(北京信息科技大學(xué)網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室 北京 100101)
?
一種面向?qū)@念I(lǐng)域術(shù)語抽取方法
曾鎮(zhèn)呂學(xué)強(qiáng)李卓
(北京信息科技大學(xué)網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室北京 100101)
專利領(lǐng)域中術(shù)語抽取結(jié)果的好壞決定了本體構(gòu)建的質(zhì)量。提出一種自動(dòng)生成過濾詞典并結(jié)合詞匯密集度等影響因子的術(shù)語抽取方法。首先在分詞和詞性標(biāo)注的基礎(chǔ)上,對(duì)文獻(xiàn)匹配詞性規(guī)則算法生成的模板得到候選長(zhǎng)術(shù)語和單詞型短術(shù)語集合,然后利用文檔一致度生成的過濾詞典過濾部分候選長(zhǎng)術(shù)語集,最后針對(duì)長(zhǎng)術(shù)語的構(gòu)成特點(diǎn),將詞匯密集度、文檔差比、文檔一致度三個(gè)術(shù)語因子加權(quán)平均作為整個(gè)長(zhǎng)術(shù)語的術(shù)語權(quán)重值,并按值高低排序。在8000篇專利摘要文獻(xiàn)的基準(zhǔn)語料上進(jìn)行實(shí)驗(yàn),隨機(jī)選取五組實(shí)驗(yàn)數(shù)據(jù),平均準(zhǔn)確率達(dá)到86%。結(jié)果表明該方法在領(lǐng)域術(shù)語抽取方面是行之有效的。
領(lǐng)域術(shù)語本體構(gòu)建過濾詞典詞匯密集度
專利文獻(xiàn)作為技術(shù)信息的有效載體,涵蓋了全球90%以上的最新技術(shù)情報(bào)[1]。由于70%~80%的發(fā)明創(chuàng)造都只能通過專利文獻(xiàn)的形式發(fā)表,專利文獻(xiàn)本身蘊(yùn)含了巨大的信息價(jià)值。為了增強(qiáng)自身競(jìng)爭(zhēng)力,越來越多的企業(yè)也開始把目光投向了專利文獻(xiàn),一方面通過專利申請(qǐng)來保障自己的發(fā)明成果,另一方面通過專利檢索了解同行的最新技術(shù)進(jìn)展情況,不斷學(xué)習(xí),使自己在激烈的市場(chǎng)競(jìng)爭(zhēng)中保持不敗之地。因此對(duì)于專利信息部門,從專利文獻(xiàn)中抽取有效知識(shí),構(gòu)建一個(gè)基于專利文獻(xiàn)的本體知識(shí)庫,為各企業(yè)、技術(shù)人員提供專利檢索和專利預(yù)警、專利分析的支持是一個(gè)迫切而又有意義的工作。
本體構(gòu)建的首要任務(wù)便是從專利文本中自動(dòng)抽取出概念術(shù)語,且獲得的術(shù)語準(zhǔn)確率的高低直接影響后續(xù)的本體框架。目前很多學(xué)者都開展了這方面的研究,總的來說主要分為基于規(guī)則的方法、基于統(tǒng)計(jì)的方法以及兩者結(jié)合的方法。從總體效果方面來看,規(guī)則與統(tǒng)計(jì)結(jié)合的方法更占優(yōu)勢(shì)。韋小麗[2]等提出采用最大熵模型的機(jī)器學(xué)習(xí)算法來提取領(lǐng)域概念術(shù)語。施水才[3]等運(yùn)用條件隨機(jī)場(chǎng)模型來構(gòu)建合理的特征模板達(dá)到識(shí)別領(lǐng)域術(shù)語的效果。上述方法雖不依賴規(guī)則的制定、且可移植性較強(qiáng),但需耗費(fèi)一定的人力來標(biāo)注訓(xùn)練語料,訓(xùn)練語料的規(guī)模也會(huì)最終影響到實(shí)驗(yàn)結(jié)果。文獻(xiàn)[4-7]使用了互信息、對(duì)數(shù)似然比和C-value這類統(tǒng)計(jì)量在大規(guī)模語料中抽取術(shù)語。該方法很難處理單篇文檔,且互信息容易錯(cuò)誤識(shí)別經(jīng)常搭配的非術(shù)語短語。劉豹[8]嘗試將統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法和規(guī)則結(jié)合起來抽取術(shù)語,雖取得了不錯(cuò)的效果,但缺乏對(duì)體現(xiàn)領(lǐng)域特點(diǎn)的長(zhǎng)術(shù)語的識(shí)別。湯青[9]采用基于術(shù)語部件庫的方法實(shí)現(xiàn)術(shù)語抽取,該方法對(duì)于部件庫的質(zhì)量有著嚴(yán)格的要求,不存在已知部件庫的術(shù)語很難被識(shí)別。徐川[10]分析字符串之間的結(jié)合強(qiáng)度,提出邊界結(jié)合度、串邊結(jié)合度等概念抽取術(shù)語,該方法不易識(shí)別缺乏固定搭配的術(shù)語。文獻(xiàn)[11]集成統(tǒng)計(jì)和規(guī)則的方法,能夠挖掘大規(guī)模新詞術(shù)語,但同時(shí)也引入大量如“供 選擇”這類非術(shù)語固定搭配的噪音詞匯。
上述研究中所抽取出來的術(shù)語從嚴(yán)格意義上來講只能稱為短語,幾乎未能體現(xiàn)術(shù)語的領(lǐng)域特性。針對(duì)上述方法所存在的不足,該文提出一種首先利用詞性規(guī)則模板得到候選的單詞型短術(shù)語和多詞長(zhǎng)術(shù)語集合,然后計(jì)算詞匯密集度權(quán)重參數(shù)來抽取單詞型術(shù)語,最后結(jié)合平衡語料自動(dòng)生成一部過濾詞典,通過過濾詞典和組成該長(zhǎng)術(shù)語的每個(gè)詞的術(shù)語因子篩選出最終的長(zhǎng)術(shù)語的方法。過濾詞典由于利用領(lǐng)域一致度動(dòng)態(tài)生成,且較好的篩選掉部分非術(shù)語常用搭配噪音信息,能很好地跨領(lǐng)域移植。對(duì)構(gòu)成長(zhǎng)術(shù)語的原子詞語賦予其術(shù)語權(quán)重,加權(quán)平均其術(shù)語權(quán)重值,作為整個(gè)長(zhǎng)術(shù)語的術(shù)語度,最后按術(shù)語度對(duì)術(shù)語進(jìn)行排序。排名越靠前其成為術(shù)語的可能性越大, 剩下的非術(shù)語常用搭配由于其組成詞語術(shù)語權(quán)重值均偏低,其排名偏靠后,這種隨可信度分布的術(shù)語詞表可以提供用戶更靈活的選擇。
1.1語料預(yù)處理
專利摘要作為對(duì)整個(gè)專利的介紹說明,是整篇專利文檔核心內(nèi)容,蘊(yùn)含豐富的價(jià)值信息。其內(nèi)容一般涵蓋以下幾部分:對(duì)專利的用途介紹、專利的工作原理闡述、專利的創(chuàng)新改進(jìn)之處,專利的功效矩陣、以及專利的應(yīng)用領(lǐng)域。
對(duì)8 000篇新能源電動(dòng)汽車領(lǐng)域的專利摘要進(jìn)行分詞和詞性標(biāo)注的文檔預(yù)處理。分詞工具選用中科院自主開發(fā)的ICTCLAS,ICTCLAS運(yùn)用隱馬爾科夫模型進(jìn)行分詞,融合了實(shí)體識(shí)別、未登錄詞識(shí)別和詞性標(biāo)注等功能模塊,是市面上十分成熟的一個(gè)分詞軟件。
1.2詞性規(guī)則生成算法
術(shù)語按其組成長(zhǎng)度可劃分為單詞短術(shù)語和多詞長(zhǎng)術(shù)語[12],單詞短術(shù)語由單個(gè)詞匯構(gòu)成,下文簡(jiǎn)稱短術(shù)語,多詞長(zhǎng)術(shù)語一般由2到6個(gè)詞組成。作為某個(gè)領(lǐng)域反復(fù)使用、形勢(shì)較為固定又表達(dá)某特定概念的詞語,術(shù)語的組成結(jié)構(gòu)一般具有詞性特點(diǎn)。單詞短術(shù)語一般為名詞n或動(dòng)名詞vn。多詞型長(zhǎng)術(shù)語的詞性規(guī)則比較復(fù)雜,常見的搭配有n+n、vn+n、b+v+n等。Sui在文獻(xiàn)[11]總結(jié)了2詞-6詞的術(shù)語構(gòu)詞規(guī)則。該規(guī)則比較寬松,對(duì)特定的領(lǐng)域語料并不十分實(shí)用。在大量研究專利文獻(xiàn)的基礎(chǔ)上,發(fā)現(xiàn)標(biāo)題多為體現(xiàn)該專利創(chuàng)新的領(lǐng)域特色的長(zhǎng)術(shù)語,且其嵌套詞組也多為術(shù)語?;谶@個(gè)現(xiàn)象,設(shè)計(jì)一個(gè)針對(duì)實(shí)驗(yàn)文獻(xiàn)自動(dòng)生成詞性規(guī)則的算法。算法流程如下所示:
輸入:標(biāo)題字符串集合T={T1,T2,…T8000},TI=W1,W2,…,Wn(i=1,…,8000)
文本字符串集合D={D1,D2,…,DM},Di=W1,W2,…,Wn(i=1,…,m)
文本字符串以標(biāo)點(diǎn)符號(hào)為分隔符,WI為詞性標(biāo)記
輸出:HashMap,其key為詞性規(guī)則WI,value為規(guī)則頻次
流程:for T1to T800
Begin
IF D包含TI|| D包含Ti的字串Sub(Ti)
IF Ti||Sub(Ti)不存在HashMap中
HashMap.add(Ti||Sub(Ti),1)
Else
從HashMap取得其對(duì)應(yīng)的value
HashMap.put(Ti||Sub(Ti),value++)
Repeat;
長(zhǎng)術(shù)語由于其詞匯繁多,結(jié)構(gòu)復(fù)雜成為術(shù)語抽取的一個(gè)難點(diǎn)。該算法從文獻(xiàn)的實(shí)際特點(diǎn)出發(fā),其生成的長(zhǎng)術(shù)語的構(gòu)詞規(guī)則更符合其在整個(gè)文獻(xiàn)的實(shí)際頻次分布。在HashMap結(jié)果集中取出長(zhǎng)度為2到6且頻次為前三名的詞性規(guī)則,如表1所示。
表1 部分術(shù)語詞性構(gòu)詞規(guī)則
表1中,n表示名詞,vn表示動(dòng)名詞,v表示動(dòng)詞,m表示數(shù)詞,b表示區(qū)分詞,u表示助詞。將上述詞性規(guī)則作為模板在文獻(xiàn)里匹配得到候選多詞長(zhǎng)術(shù)語集。篩選出所有詞性標(biāo)注為名詞或動(dòng)名詞的詞語作為候選短術(shù)語集。本文的規(guī)則自動(dòng)生成算法解決了通用規(guī)則準(zhǔn)確性差和領(lǐng)域適應(yīng)性低的問題。
術(shù)語作為在專有學(xué)科領(lǐng)域內(nèi)具有高流通量的詞匯,其本身含有極強(qiáng)的專業(yè)性,且與日常生活領(lǐng)域交集甚少。某些明顯不含領(lǐng)域?qū)I(yè)信息,卻在日常生活常見的詞匯,如“我們”、“簡(jiǎn)單”、等,可以通過判斷候選術(shù)語是否包含它們篩選出非術(shù)語,從而實(shí)現(xiàn)最終的術(shù)語抽取。這里將其定義為過濾詞,好的過濾詞典能保證抽取術(shù)語質(zhì)量的好壞。現(xiàn)有專利領(lǐng)域內(nèi)往往不存在專業(yè)的過濾詞典,一方面是詞典的構(gòu)建需要耗費(fèi)大量人力,另一方面詞典限制了其他領(lǐng)域的適應(yīng)性,不易移植,對(duì)外部資源依賴性大。本文借鑒領(lǐng)域一致度[13]用在平衡語料上,實(shí)現(xiàn)過濾詞典的自動(dòng)生成。
定義1領(lǐng)域文檔一致度是指某術(shù)語在不同領(lǐng)域類別的文檔分布一致情況。設(shè)有k個(gè)不同領(lǐng)域D={D1,D2,…,Dk},每個(gè)領(lǐng)域的文檔數(shù)為{T1,T2,…,TK}。則候選術(shù)語t的領(lǐng)域文檔一致度定義為:
(1)
其中概率P(t,Dj)可用頻率估計(jì):
(2)
其中,f(t,Dj)表示候選術(shù)語在領(lǐng)域Dj內(nèi)出現(xiàn)的文檔數(shù)。當(dāng)候選術(shù)語t在平衡語料各個(gè)領(lǐng)域內(nèi)出現(xiàn)的文檔分布越均勻時(shí),其文檔一致度H(t)也就越大,說明其很大可能上是過濾詞。專業(yè)的術(shù)語在其他領(lǐng)域內(nèi)并不流通、很少甚至不出現(xiàn),其分布極不平衡,故其領(lǐng)域文檔一致度偏小。依據(jù)式(1)和平衡語料能自動(dòng)生成一部過濾詞典,借助過濾詞典能從候選術(shù)語集篩選出大部分明顯不是術(shù)語的詞組。部分過濾詞如表2所示。
表2 部分過濾詞
觀察專利文檔發(fā)現(xiàn),術(shù)語對(duì)領(lǐng)域依賴性較強(qiáng),作為領(lǐng)域核心知識(shí)的載體,同一術(shù)語往往會(huì)在單篇文檔內(nèi)被反復(fù)提到?;谝陨弦?guī)律,提出詞匯密集度的概念。
定義2候選術(shù)語t在單篇文檔的平均詞頻表示t在領(lǐng)域文檔內(nèi)的密集程度。術(shù)語t的密集程度可以用公式表示為:
(3)
其中,tf(t)表示術(shù)語t在整個(gè)領(lǐng)域內(nèi)的出現(xiàn)頻次,df(t)表示術(shù)語t在領(lǐng)域內(nèi)出現(xiàn)的文檔數(shù)。術(shù)語的密集度并不能有效區(qū)分一些不屬于本領(lǐng)域的基礎(chǔ)術(shù)語和常用詞匯。如“化合物”、“微生物”等詞已延伸到各個(gè)學(xué)術(shù)、生活領(lǐng)域中。通過候選術(shù)語的在領(lǐng)域文檔和平衡文檔的文檔差比來加權(quán)平均,定義一個(gè)綜合指標(biāo)來篩選單詞集中的單詞短術(shù)語。
(4)
其中,DF、PF分別表示領(lǐng)域文檔總數(shù)和平衡文檔總數(shù),權(quán)重α和β表示詞匯密集度和文檔差比各自的貢獻(xiàn)度。df(t)和pf(t)指示候選術(shù)語t在領(lǐng)域文檔的文檔頻次和平衡文檔的文檔頻次。當(dāng)候選術(shù)語t的詞匯密集度較大時(shí),t可能為領(lǐng)域術(shù)語,但也將日常用語如“感覺”、“意識(shí)”、“結(jié)果”等錯(cuò)選為領(lǐng)域術(shù)語。但該類詞語在其他領(lǐng)域也應(yīng)用廣泛,即其領(lǐng)域文檔差比值教小,真正的領(lǐng)域術(shù)語存在在本領(lǐng)域密集分布,平衡領(lǐng)域鮮有出現(xiàn)的現(xiàn)象,最終使得其綜合指標(biāo)D(t)值偏大,而達(dá)到過濾單詞術(shù)語的效果。
一般而言,人們所掌握的詞匯是有限的,如果在構(gòu)建專業(yè)術(shù)語時(shí)大量引入新的詞匯,會(huì)阻礙技術(shù)之間的交流和知識(shí)的普及。這就出現(xiàn)了頻繁使用已有單詞來構(gòu)成新的術(shù)語的現(xiàn)象,正是這種背景下,隨著學(xué)科領(lǐng)域的發(fā)展,出現(xiàn)了大批的詞組型長(zhǎng)術(shù)語,并且詞組型長(zhǎng)術(shù)語在整個(gè)術(shù)語系統(tǒng)中也遠(yuǎn)遠(yuǎn)超過了單詞型術(shù)語的規(guī)模。
詞組型長(zhǎng)術(shù)語一般含有核心詞語來表示其概念內(nèi)容,圍繞在核心詞周圍往往還有很多修飾詞。所以僅憑長(zhǎng)術(shù)語中單個(gè)詞或一兩個(gè)詞很難判定其是否是術(shù)語。本文充分考慮組成長(zhǎng)術(shù)語中的每個(gè)詞對(duì)整體的影響,利用上述提到的式(1)和式(2),設(shè)計(jì)一個(gè)表示單個(gè)詞對(duì)術(shù)語貢獻(xiàn)度大小的術(shù)語權(quán)重因子,最后將每個(gè)詞的術(shù)語權(quán)重因子加和求均值來表示該長(zhǎng)術(shù)語成為術(shù)語的可能性大小。術(shù)語權(quán)重因子公式如下:
(5)
其中,H(t)越小,表示該候選術(shù)語t在平衡語料中分布越不均勻,其越有可能是領(lǐng)域術(shù)語,對(duì)H(t)做了取倒操作來與D(t)的變化保持一致。
本文的實(shí)驗(yàn)語料為專利總局提供的8000篇關(guān)于新能源電動(dòng)汽車領(lǐng)域的專利摘要文獻(xiàn)。專利摘要一般包含專利標(biāo)題、專利分類號(hào)和申請(qǐng)專利說明。平衡語料選用了搜狗實(shí)驗(yàn)室開放的2012年分類語料[14],選取軍事、娛樂、女人、旅游、經(jīng)濟(jì)、房地產(chǎn)等六大類領(lǐng)域語料各1300篇。
4.1實(shí)驗(yàn)步驟
先對(duì)所有文檔進(jìn)行分詞和詞性標(biāo)注。在此基礎(chǔ)上,將規(guī)則自動(dòng)生成算法所生成的候選規(guī)則集,保留其前40條最為最終的術(shù)語篩選構(gòu)詞規(guī)則。采用前向最大匹配算法對(duì)專利文檔處理,得到候選的詞組型長(zhǎng)術(shù)語22 935個(gè),并按詞頻從大到小排序。候選單詞型短術(shù)語集則按名詞或動(dòng)名詞屬性過濾獲取,也按詞頻排序,數(shù)量為13 943。
結(jié)合平衡語料,對(duì)候選單詞型短術(shù)語集進(jìn)行式(1)運(yùn)算,自動(dòng)生成一部過濾詞典,詞匯量大小為1217個(gè)。候選單詞型短術(shù)語集在去除了過濾詞典后,繼續(xù)按式(3)篩選出最終的單詞型短術(shù)語4216個(gè),其中參數(shù)α和β分別設(shè)為0.4和0.6。過濾詞典則用來去除部分候選詞組型長(zhǎng)術(shù)語。在術(shù)語權(quán)重排名階段,式(5)中λ值為max(H(t))。術(shù)語可能性越大的排名越靠前,閾值的選定可以按準(zhǔn)確率和召回率的要求適當(dāng)調(diào)整。
4.2評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)結(jié)果用準(zhǔn)確率、召回率、F值進(jìn)行評(píng)價(jià)。由于語料規(guī)模較大,加上專家知識(shí)有限、很難標(biāo)注出所有術(shù)語,難以計(jì)算實(shí)際的召回率。為此隨機(jī)選取五組語料,每組由5篇專利文獻(xiàn)組成。對(duì)每組文獻(xiàn)單獨(dú)計(jì)算其準(zhǔn)確率和召回率。
定義3單組正確率,即單組文獻(xiàn)中,正確識(shí)別的術(shù)語數(shù)Nt與該組文獻(xiàn)中提取到的術(shù)語數(shù)Tt之比:
(6)
定義4單組召回率,即單組文獻(xiàn)中,正確識(shí)別術(shù)語數(shù)Nt與該組文獻(xiàn)中所有術(shù)語數(shù)At之比:
(7)
4.3結(jié)果分析
本文利用領(lǐng)域文檔一致度公式自動(dòng)生成了過濾詞典。1217個(gè)過濾詞在候選詞組型長(zhǎng)術(shù)語篩選出8215個(gè)非術(shù)語。部分結(jié)果如表3所示。
表3 部分過濾詞篩選出的長(zhǎng)術(shù)語結(jié)果
從表3可以看出,過濾詞確實(shí)很大程度上解決了規(guī)則寬泛所帶來的大量錯(cuò)誤候選長(zhǎng)術(shù)語問題,大大提升了候選長(zhǎng)術(shù)語的質(zhì)量。過濾詞典借助平衡語料自動(dòng)生成,具有跨領(lǐng)域的優(yōu)勢(shì)。但“微生物燃料電池”、“電子散熱元件”等術(shù)語也被錯(cuò)誤地篩選了,這是因?yàn)椤拔⑸铩?、“電子”等基礎(chǔ)學(xué)術(shù)性詞匯早已突破了單個(gè)學(xué)科的限制,融入了人們的日常生活。提高過濾詞的篩選閾值可以部分避免這一現(xiàn)象。
對(duì)剩余候選長(zhǎng)術(shù)語利用詞匯密集度、文檔差比、文檔一致度三個(gè)加權(quán)因素計(jì)算其最終的術(shù)語權(quán)重并對(duì)其排序。排序結(jié)果如表4所示。
表4 候選長(zhǎng)術(shù)語排序結(jié)果
表4中結(jié)果表明該術(shù)語權(quán)重排名方法較為真實(shí)地反映了每個(gè)候選詞組型長(zhǎng)術(shù)語代表領(lǐng)域術(shù)語的真實(shí)程度。排名靠前的長(zhǎng)術(shù)語均是對(duì)新能源電動(dòng)汽車專利領(lǐng)域內(nèi)的核心知識(shí)表述,具有很強(qiáng)的專業(yè)性,集中概括了能源汽車這個(gè)領(lǐng)域知識(shí)體系的重要知識(shí)點(diǎn)。排名靠后的可以明顯判斷出其不屬于術(shù)語范疇,大都是分詞不規(guī)范而滿足一定詞性規(guī)則所遺留下來的短語結(jié)構(gòu)。此外排名靠前的結(jié)果集中如“固體聚合物電解質(zhì)膜燃料電池”這類四詞以上的長(zhǎng)術(shù)語也占了不小的比例,長(zhǎng)術(shù)語的正確識(shí)別,保障了整個(gè)術(shù)語庫的質(zhì)量,體現(xiàn)出領(lǐng)域知識(shí)特點(diǎn)。
以權(quán)重值5為閾值,將大于閾值的長(zhǎng)術(shù)語作為最后的術(shù)語識(shí)別結(jié)果??偣埠I(lǐng)域術(shù)語10 843個(gè)。為了驗(yàn)證該方法在局部專利文獻(xiàn)內(nèi)的識(shí)別效果,選定了5組測(cè)試文檔,每組由5篇專利文獻(xiàn)組成,平均每篇文獻(xiàn)術(shù)語量達(dá)到12個(gè)。人工標(biāo)注出領(lǐng)域術(shù)語,對(duì)照最后的領(lǐng)域長(zhǎng)術(shù)語集和單詞型短術(shù)語,計(jì)算出單組準(zhǔn)確率、單組召回率評(píng)價(jià)指標(biāo)??紤]到文獻(xiàn)[10]的研究方向也是專利文獻(xiàn)的術(shù)語抽取,故選取其最終的實(shí)驗(yàn)結(jié)果作為BaseLine,結(jié)果如圖1所示。
圖1 術(shù)語抽取實(shí)驗(yàn)結(jié)果
從圖中的統(tǒng)計(jì)結(jié)果看出,本文提出的方法取得了不錯(cuò)的實(shí)驗(yàn)效果,五組專利文檔平均準(zhǔn)確率達(dá)到了86%,召回率達(dá)到了82%,相對(duì)于BaseLine80.24%的準(zhǔn)確率和80.61%的召回率,結(jié)果有不小的提高。實(shí)驗(yàn)過程中發(fā)現(xiàn),對(duì)BaseLine中易識(shí)別錯(cuò)誤的動(dòng)賓結(jié)構(gòu)短語,如“發(fā)出 信號(hào)”等詞組,本文生成的過濾詞典往往能涵蓋到那些常用動(dòng)詞,從而有效地避免了這一現(xiàn)象。BaseLine中存在的常用非術(shù)語搭配詞組在本方法中一部分被過濾詞典成功過濾,一部分自動(dòng)排序到術(shù)語詞表末尾處。只剩下分詞粒度過大的非術(shù)語搭配存在誤識(shí)別,如“電動(dòng)汽車 結(jié)構(gòu)簡(jiǎn)單”、“蓄電池 充電狀態(tài)”,這類詞語因符合詞性規(guī)則且反復(fù)出現(xiàn),但由于分詞軟件將“結(jié)構(gòu)簡(jiǎn)單”、“充電狀態(tài)”分為單個(gè)詞,使其在平衡語料中也甚少出現(xiàn),從而出現(xiàn)了誤識(shí)別。如將“結(jié)構(gòu)簡(jiǎn)單”拆分為“結(jié)構(gòu)”、“簡(jiǎn)單”,“充電狀態(tài)”拆分為“充電”、“狀態(tài)”,則能被成功過濾。少量在專利文檔內(nèi)很少出現(xiàn),沒形成統(tǒng)計(jì)規(guī)律的低頻術(shù)語,如“電磁波 衰減 材料”等詞組,其術(shù)語權(quán)重排名靠后,在召回它們的同時(shí)會(huì)帶入大量非術(shù)語。
專利摘要中領(lǐng)域術(shù)語的識(shí)別,對(duì)后期專利知識(shí)庫的構(gòu)建和用戶對(duì)專利信息的語義檢索等方面都有著極為重要的意義。本文從專利文獻(xiàn)獨(dú)有的數(shù)據(jù)特點(diǎn)出發(fā),設(shè)計(jì)了易移植的術(shù)語詞性規(guī)則生成算法,根據(jù)過濾詞在平衡語料內(nèi)分布比較均勻的特點(diǎn),利用文檔一致度熵公式自動(dòng)構(gòu)造過濾詞典,達(dá)到過濾掉一部分候選長(zhǎng)術(shù)語的目的,對(duì)剩下的數(shù)據(jù)集結(jié)合詞匯密集度、文檔差比、文檔一致度三個(gè)針對(duì)領(lǐng)域術(shù)語的分布規(guī)律公式來計(jì)算每個(gè)候選長(zhǎng)術(shù)語的術(shù)語權(quán)重參數(shù),并按值排序,實(shí)現(xiàn)術(shù)語的自動(dòng)抽取。在實(shí)際應(yīng)用階段,如何最大限度準(zhǔn)確抽取無明顯統(tǒng)計(jì)規(guī)律的低頻候選長(zhǎng)術(shù)語,提高它們的術(shù)語權(quán)重排名,是需要進(jìn)一步改進(jìn)的地方。
[1] 專利分析系統(tǒng):專利生命周期評(píng)價(jià)模型[EB/OL].(2011-08-02).[2014-07-02].http://www.iprtop.com/pages/view/fn/fxxt_7/.
[2] 韋小麗,孫涌,張書奎,等.基于最大熵模型的本體概念獲取方法[J].計(jì)算機(jī)工程,2009,35(24):114-116.
[3] 施水才,王鍇,韓艷鏵,等.基于條件隨機(jī)場(chǎng)的領(lǐng)域術(shù)語識(shí)別研究[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(10):147-149.
[4] 胡阿沛,張靜,劉俊麗.基于改進(jìn)C-value方法的中文術(shù)語抽取[J].現(xiàn)代圖書情報(bào)技術(shù),2013,29(2):24-29.
[5] 陳士超,郁濱.面向術(shù)語抽取的雙閾值互信息過濾方法[J].計(jì)算機(jī)應(yīng)用,2011,31(4):1070-1073.
[6] 屈鵬,王惠臨.面向信息分析的專利術(shù)語抽取研究[J].圖書情報(bào)工作,2013,57(1):130-135.
[7] 林磊,孫承杰,張二艷,等.一種基于改進(jìn)似然比的術(shù)語自動(dòng)抽取方法[J].廣西師范大學(xué)學(xué)報(bào):自然科學(xué)版,2010(1):153-156.
[8] 劉豹,張桂平,蔡?hào)|風(fēng).基于統(tǒng)計(jì)和規(guī)則相結(jié)合的科技術(shù)語自動(dòng)抽取研究[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(23):147-150.
[9] 湯青,呂學(xué)強(qiáng),李卓,等.領(lǐng)域本體術(shù)語抽取研究[J].現(xiàn)代圖書情報(bào)技術(shù),2014(1):43-50.
[10] 徐川,施水才,房祥,等.中文專利文獻(xiàn)術(shù)語抽取[J].計(jì)算機(jī)工程與設(shè)計(jì),2013,34(6):2175-2179.
[11] Sui Zhifang,Chen Yirong.The Research on the Automatic Term Extraction in the Domain of Information Science and Technology[C]//Proceedings of the 5th East Asia Forum of the Terminology,2007.
[12] 周浪.中文術(shù)語抽取若干問題研究[D].南京:南京理工大學(xué)計(jì)算機(jī)學(xué)院,2009.
[13] 傅麗鳥,黃利強(qiáng),付春雷.一種改進(jìn)的面向文本的領(lǐng)域概念篩選算法[J].計(jì)算機(jī)科學(xué),2012,39(Z6):253-256.
[14] 搜狗官方實(shí)驗(yàn)室文本分類語料庫.[EB/OL].(2008-06-30).[2014-07-02].http://www.sogou.com/labs/dl/c.html.
A FIELD TERMINOLOGY EXTRACTION METHOD FOR PATENT ABSTRACTS
Zeng ZhenLü XueqiangLi Zhuo
(BeijingKeyLaboratoryofInternetCultureandDigitalDisseminationResearch,BeijingInformationScienceandTechnologyUniversity,Beijing100101,China)
The quality of ontology is determined by the result of terminology extraction in patent field. In this paper we propose a method of terminology extraction, which automatically generates the filtering dictionary and combines the effect of factors such as the intensity of vocabulary terms. First, on the basis of word segmentation and parts of speech tagging, it matches the template generated by the parts of speech rule algorithm on the literatures and gets the candidate long terms set and word-type short terms set. Then it uses the filtering dictionaries generated with documentation coincidence to filter part of the candidate long term set. Finally, in light of the characteristic of long terms constitution, it uses the weighted average of three term factors of word intensity, document discrepancy ratio and document consistency as the term weight of whole long terms, and sorts them from high to low. Experiments were conducted on the benchmark corpus of 8000 patent summary literatures, and we randomly selected five sets of experimental data, the average accuracy rate achieved 86%. Results showed that the method was effective in the aspect of field terminology extraction.
Field terminologyOntology creationFiltering dictionaryWords intensity
2014-07-20。國家自然科學(xué)基金項(xiàng)目(61271304);北京市教委科技發(fā)展計(jì)劃重點(diǎn)項(xiàng)目暨北京市自然科學(xué)基金B(yǎng)類重點(diǎn)項(xiàng)目(KZ201311232037);北京市屬高等學(xué)校創(chuàng)新團(tuán)隊(duì)建設(shè)與教師職業(yè)發(fā)展計(jì)劃項(xiàng)目(IDHT20130519)。曾鎮(zhèn),碩士,主研領(lǐng)域:中文信息處理。呂學(xué)強(qiáng),博士。李卓,研究員。
TP3
A
10.3969/j.issn.1000-386x.2016.03.010