楊雙龍,呂學(xué)強(qiáng),李卓,徐麗萍
(1.北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101;2. 北京城市系統(tǒng)工程研究中心,北京 100089)
中文專利文獻(xiàn)術(shù)語自動(dòng)識(shí)別研究
楊雙龍1,呂學(xué)強(qiáng)1,李卓1,徐麗萍2
(1.北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101;2. 北京城市系統(tǒng)工程研究中心,北京 100089)
中文專利文獻(xiàn)中含有大量領(lǐng)域術(shù)語,對(duì)這些術(shù)語進(jìn)行自動(dòng)識(shí)別是信息抽取、文本挖掘等領(lǐng)域的重要任務(wù)。該文提出了基于專利文獻(xiàn)標(biāo)題的術(shù)語詞性規(guī)則自動(dòng)生成方法以及針對(duì)候選術(shù)語排序的TermRank算法。該方法首先從大量的中文專利文獻(xiàn)標(biāo)題中自動(dòng)生成詞性規(guī)則;然后利用生成的詞性規(guī)則對(duì)中文專利文獻(xiàn)正文部分進(jìn)行規(guī)則匹配獲得候選術(shù)語表;再利用提出的TermRank排序算法對(duì)候選術(shù)語表排序,最終得到術(shù)語列表。通過在9 725篇中文專利文獻(xiàn)數(shù)據(jù)上實(shí)驗(yàn),證實(shí)了該方法的有效性。
術(shù)語自動(dòng)識(shí)別;專利文獻(xiàn);信息抽取;文本挖掘
自動(dòng)術(shù)語識(shí)別(Automatic Term Recognition,ATR)是信息抽取研究領(lǐng)域的重要組成部分。它是指通過無人工干預(yù)或盡量少的人工干預(yù)方法,從自由文本中自動(dòng)識(shí)別出能夠代表某個(gè)專業(yè)領(lǐng)域中一般概念的詞匯串的過程。通過術(shù)語自動(dòng)識(shí)別技術(shù)構(gòu)建的術(shù)語庫(kù)是非常重要的基礎(chǔ)數(shù)據(jù)資源,為中文分詞、本體構(gòu)建、詞典編撰與更新、自動(dòng)標(biāo)引、信息檢索以及機(jī)器翻譯等提供不可或缺的數(shù)據(jù)支持。此外,伴隨著信息技術(shù)的高速發(fā)展,數(shù)字化信息資源與日俱增,對(duì)這些資源進(jìn)行術(shù)語的自動(dòng)識(shí)別對(duì)于及時(shí)把握領(lǐng)域最新發(fā)展?fàn)顩r及未來發(fā)展趨勢(shì)具有十分重要的意義。
中文專利文獻(xiàn)是重要的數(shù)字化信息資源,它們記載著各學(xué)科領(lǐng)域的最新發(fā)明成果,其中存在著大量的專業(yè)術(shù)語。結(jié)合對(duì)中文專利文獻(xiàn)的觀察分析與前人[1-2]的研究,發(fā)現(xiàn)專利文獻(xiàn)中的術(shù)語具有如下幾個(gè)明顯特點(diǎn): (1)專利文獻(xiàn)中的術(shù)語嵌套現(xiàn)象較為常見; (2)專利文獻(xiàn)中的術(shù)語具有較強(qiáng)的領(lǐng)域相關(guān)性,即高頻率出現(xiàn)在某一領(lǐng)域的術(shù)語在另外的領(lǐng)域中低頻出現(xiàn)甚至不出現(xiàn); (3)專利文獻(xiàn)中的術(shù)語具有重復(fù)出現(xiàn)的特點(diǎn),即術(shù)語在整個(gè)專利文獻(xiàn)集中的多篇文獻(xiàn)中出現(xiàn); (4)專利術(shù)語長(zhǎng)度較長(zhǎng),通常由2—5詞構(gòu)成; (5)專利術(shù)語大多是由名詞或復(fù)合名詞構(gòu)成。以上術(shù)語的特點(diǎn)是對(duì)中文專利文獻(xiàn)進(jìn)行術(shù)語自動(dòng)識(shí)別的重要依據(jù)。
本文針對(duì)中文專利文獻(xiàn)中術(shù)語的特點(diǎn),結(jié)合目前主流的術(shù)語自動(dòng)識(shí)別方法,提出了基于專利標(biāo)題的詞性規(guī)則自動(dòng)生成方法,利用這些規(guī)則再?gòu)膶@墨I(xiàn)中匹配出候選術(shù)語。根據(jù)得到的候選術(shù)語,提出TermRank方法對(duì)其進(jìn)行排序,并確定最終術(shù)語表。
目前,國(guó)內(nèi)外研究者在術(shù)語自動(dòng)識(shí)別研究領(lǐng)域,通常采用兩種不同的研究方法。第一種為傳統(tǒng)的規(guī)則與統(tǒng)計(jì)相結(jié)合的術(shù)語識(shí)別方法。在生成候選術(shù)語集的過程中,先對(duì)中文文本進(jìn)行分詞和詞性標(biāo)注處理。通過觀察標(biāo)注好的語料總結(jié)出構(gòu)成術(shù)語的詞性規(guī)則集,利用這些詞性規(guī)則在語料中匹配生成候選術(shù)語集。Frantzi[3]、Dagan[4]等人通過觀察總結(jié)了各自的詞性規(guī)則,如表1所示。
依靠人工編寫詞性規(guī)則的方式雖然識(shí)別精度較高,但對(duì)編寫者的語言學(xué)知識(shí)依賴性太大,不同人對(duì)同一個(gè)語料編寫的詞性規(guī)則并不一致。Yang[5]等人采用去除句子中功能詞的辦法,對(duì)句子進(jìn)行粗切分得到候選術(shù)語集。閆興龍[6]等人對(duì)語料中的句子進(jìn)行切分,得到候選多字集合,并將其作為下一步過濾算法的輸入。雖然在得到候選術(shù)語階段這些方法不需要利用詞性規(guī)則,但是在對(duì)句子進(jìn)行粗切分時(shí)對(duì)外部的資源依賴性太大,外部資源的質(zhì)量往往決定了得到的候選術(shù)語集的質(zhì)量。索紅光[7]等人將文本通過先組織成詞匯鏈,再結(jié)合詞頻、區(qū)域特征等抽取關(guān)鍵詞,該方法在召回率和準(zhǔn)確率方面均有所提高,但是受到知識(shí)庫(kù)質(zhì)量以及分詞準(zhǔn)確率的很大限制。
在對(duì)候選術(shù)語集進(jìn)行排序方面,國(guó)內(nèi)外許多研究者提出了不同的排序算法。其中貢獻(xiàn)最大的是由Frantzi提出的C-value/NC-value[3]算法,它們對(duì)于識(shí)別詞串較長(zhǎng)的術(shù)語取得了較好的效果。但是,C-value/NC-value對(duì)于識(shí)別長(zhǎng)度較短的術(shù)語或者出現(xiàn)頻率較低的術(shù)語并不太理想。因此,許多研究者提出了不同的基于C-value改進(jìn)方法[8-9],改進(jìn)后的方法在一定程度上比原始C-value更具優(yōu)勢(shì)。徐川[10]等人通過計(jì)算候選詞串間的結(jié)合強(qiáng)度,在中文專利文獻(xiàn)中識(shí)別術(shù)語的平均正確率達(dá)到80.24%,但也存在一定的誤識(shí)別率。楊潔[12]等人提出ATF×PDF的術(shù)語權(quán)重計(jì)算方法,該方法綜合考慮了詞頻、詞性以及詞語之間語義相似性等信息,取得了一定的實(shí)驗(yàn)效果,但是對(duì)分詞效果和外部資源依賴較大。目前,術(shù)語自動(dòng)識(shí)別研究領(lǐng)域的主流趨勢(shì)是對(duì)多種排序方法的融合[11-12],融合后的方法具有一定的識(shí)別效果。
第二種識(shí)別術(shù)語的方法是采用近年來在信息抽取領(lǐng)域逐漸趨于研究熱點(diǎn)的機(jī)器學(xué)習(xí)算法。Fethi選擇淺層語言學(xué)知識(shí)作為CRF機(jī)器學(xué)習(xí)模型的特征,在醫(yī)學(xué)領(lǐng)域語料庫(kù)上進(jìn)行術(shù)語自動(dòng)識(shí)別研究。賈美英[13]等選擇了詞本身、詞性、左右信息熵、互信息、TF/IDF等特征,利用CRF機(jī)器學(xué)習(xí)算法對(duì)軍事情報(bào)領(lǐng)域進(jìn)行術(shù)語自動(dòng)識(shí)別研究,證明了CRF的有效性。機(jī)器學(xué)習(xí)算法雖然綜合利用了較多的語言學(xué)知識(shí)和統(tǒng)計(jì)學(xué)參數(shù),較之傳統(tǒng)方法具有其獨(dú)特優(yōu)勢(shì),但是對(duì)訓(xùn)練語料的規(guī)模和質(zhì)量要求較高,并且需要人工標(biāo)注大量數(shù)據(jù),語料的訓(xùn)練也需要花費(fèi)較長(zhǎng)的時(shí)間。
本文提出的方法屬于以上第一種方法的范疇,但是所用到的語言學(xué)詞性規(guī)則并不是通過人工編寫,而是通過對(duì)專利標(biāo)題中的術(shù)語進(jìn)行統(tǒng)計(jì)自動(dòng)生成。此外,針對(duì)目前主流的候選術(shù)語排序算法對(duì)長(zhǎng)度較短術(shù)語識(shí)別不理想的缺點(diǎn),提出對(duì)長(zhǎng)術(shù)語和短術(shù)語都適用的TermRank排序算法。
傳統(tǒng)的術(shù)語識(shí)別方法在對(duì)文本進(jìn)行分詞和詞性標(biāo)記預(yù)處理后,研究者利用人工總結(jié)的詞性規(guī)則進(jìn)行候選術(shù)語的抽取。為了避免人工總結(jié)詞性規(guī)則不完備,本文提出一種能夠從專利文獻(xiàn)標(biāo)題中自動(dòng)生成術(shù)語詞性規(guī)則方法。
3.1 基于專利標(biāo)題的詞性規(guī)則自動(dòng)生成
專利文獻(xiàn)一般是對(duì)發(fā)明、實(shí)用新型、外觀設(shè)計(jì)的記載,其標(biāo)題是對(duì)整個(gè)文獻(xiàn)的高度概括,因此往往會(huì)直接給出所要描述的對(duì)象。
觀察發(fā)現(xiàn),專利文獻(xiàn)的標(biāo)題中都至少包含一個(gè)正確術(shù)語。表2列舉了幾篇經(jīng)ICTCLAS[14]分詞及詞性標(biāo)注處理后的專利標(biāo)題以及其中所包含的術(shù)語。
表2 專利文獻(xiàn)標(biāo)題所含術(shù)語舉例
根據(jù)中文專利標(biāo)題的以上特點(diǎn),將標(biāo)題形式化地表示成如圖1所示。
圖1 中文專利標(biāo)題形式化表示
其中,wi(i=1,2,…n) 表示專利標(biāo)題被ICTCLAS切分出的詞,w1…wa,wc…wd以及wf…wn為標(biāo)題中的術(shù)語,分別表示為CT1CT2CT3 ;wb和we是不屬于任何術(shù)語構(gòu)成部分的詞,本文稱其為停用詞,其構(gòu)建方法在3.2節(jié)介紹。
以停用詞ST1ST2 為分隔符,將子串CT1CT2CT3 的詞性規(guī)則提取出,即可作為下一步生成候選術(shù)語的詞性規(guī)則。例如,專利標(biāo)題: “一/m種/q電動(dòng)/b汽車/n的/ude1 電量/n顯示器/n裝置/n”中包含術(shù)語: “電動(dòng)/b汽車/n”、“電量/n顯示器/n”。提取出它們的詞性規(guī)則: “b+n”、“n+n”,并將它們添加至詞性規(guī)則集中,作為下一步生成候選術(shù)語的詞性規(guī)則。
3.2 停用詞表構(gòu)建
3.1節(jié)提到的停用詞是從專利標(biāo)題中自動(dòng)生成詞性規(guī)則的重要資源。本文選擇手工構(gòu)建停用詞表,而不是直接采用現(xiàn)成的通用停用詞表,是因?yàn)楝F(xiàn)成的通用停用詞表內(nèi)的某些停用詞在專利文獻(xiàn)中有可能是術(shù)語的組成部分。例如,“排/v”在通用停用詞表中存在,但在“全自動(dòng)/b排/v紙/n機(jī)/ng”中,它又是構(gòu)成術(shù)語的一部分,因此不能將其加入停用詞表。類似“排/v”這類在通用停用詞表中存在,但在中文專利文獻(xiàn)中又是構(gòu)成術(shù)語的部分的詞在語料中大量存在。
本文構(gòu)建的停用詞表中的停用詞來源于以下三個(gè)方法。方法一: 對(duì)專利標(biāo)題分詞后進(jìn)行詞頻統(tǒng)計(jì),將出現(xiàn)頻率高于20的停用詞加入停用詞表;方法二: 將明顯不會(huì)出現(xiàn)在術(shù)語中的詞性加入停用詞表,如/vyou、/m、/wkz、/ulr等詞性;方法三: 應(yīng)用方法一和方法二步驟生成的停用詞表對(duì)標(biāo)題進(jìn)行過濾后,對(duì)剩余詞串進(jìn)行人工觀察,若再發(fā)現(xiàn)新的停用詞,也將其加入到停用詞表中。
3.3 候選術(shù)語的生成
對(duì)生成的詞性規(guī)則按照所含詞性的個(gè)數(shù)進(jìn)行分類。由于本文中只識(shí)別2—5詞術(shù)語,故將詞性規(guī)則分為四類: 2—5詞詞性規(guī)則。自動(dòng)生成的詞性規(guī)則數(shù)量較多,無法將它們?nèi)繎?yīng)用到文獻(xiàn)中進(jìn)行術(shù)語匹配,因此需要有選擇地從中挑選出部分詞性規(guī)則。本文對(duì)每一類詞性規(guī)則按照出現(xiàn)頻率降序排列,并只取Top5條規(guī)則應(yīng)用到中文專利文獻(xiàn)的正文部分①進(jìn)行詞性匹配,即可生成候選術(shù)語集合。
抽取出的候選術(shù)語也按照所包含詞的個(gè)數(shù)進(jìn)行分類,即分類為: 2—5詞候選術(shù)語。這樣分類的目的是為了讓每一類長(zhǎng)度的術(shù)語都單獨(dú)構(gòu)成一張候選術(shù)語表,在對(duì)其利用第四節(jié)中的排序算法進(jìn)行排序時(shí)能夠不受其他長(zhǎng)度的術(shù)語的影響,從而排序結(jié)果更公平。
對(duì)候選術(shù)語排序的目的是為了確定最終術(shù)語表。一個(gè)好的排序算法能夠?qū)⒑蜻x術(shù)語列表中分散的正確或錯(cuò)誤的術(shù)語重新排序,使正確的術(shù)語的權(quán)重增大,排名位置盡量靠前,反之亦然。
本文提出的TermRank算法是受Page和Brin提出的PageRank[15]算法思想啟發(fā)。PageRank在Web信息檢索領(lǐng)域應(yīng)用廣泛且效果顯著。Page-Rank的核心思想是: 若有多個(gè)網(wǎng)頁鏈向某一網(wǎng)頁,則表明該網(wǎng)頁質(zhì)量較高,故其PageRank值也高;而某一網(wǎng)頁的PageRank值被其外鏈數(shù)平均分配給它所鏈向的網(wǎng)頁。
統(tǒng)計(jì)發(fā)現(xiàn),中文專利文獻(xiàn)中也存在類似情況: 若某候選術(shù)語來自多篇專利文獻(xiàn),則該候選術(shù)語是真正術(shù)語的可能性也越大。例如,“編程/vn控制器
/n”在163篇專利文獻(xiàn)中出現(xiàn),“液晶/n顯示器/n”在331篇專利文獻(xiàn)中出現(xiàn)。如此高文檔頻率出現(xiàn)表明它們并非偶然出現(xiàn)。
但是也存在并不是正確術(shù)語的候選術(shù)語在多篇文獻(xiàn)中出現(xiàn)。例如,“傳感器/n包括/v”出現(xiàn)在472篇文獻(xiàn)中,但它并不是一個(gè)正確術(shù)語。通過對(duì)此類非術(shù)語的候選術(shù)語分析,發(fā)現(xiàn)其中通常包含一個(gè)或多個(gè)停用詞。因此,當(dāng)發(fā)現(xiàn)候選術(shù)語中存在停用詞時(shí),應(yīng)該降低其排序權(quán)重?;谝陨辖y(tǒng)計(jì)和分析,提出針對(duì)中文專利候選術(shù)語的TermRank排序算法,如式(1)所示。
通過分析式(1)發(fā)現(xiàn),第一項(xiàng)和第二項(xiàng)并不一定在同一數(shù)量級(jí)上,當(dāng)M值較大或者較小時(shí),對(duì)候選術(shù)語的TermRank值影響并不大,因此需要對(duì)它們分別進(jìn)行歸一化處理。本文選擇線性變換歸一化方法,對(duì)其中第一、第二項(xiàng)歸一化,公式分別如式(2)和式(3)所示。
(2)
(3)
由式(1)可知,候選術(shù)語Ti的TermRank不僅被出現(xiàn)在多篇專利文獻(xiàn)中這一現(xiàn)象增強(qiáng),而且還被它在該專利文獻(xiàn)中的詞頻增強(qiáng)。即,若某候選術(shù)語在某篇專利文獻(xiàn)中出現(xiàn)頻率越高,則該候選術(shù)語越有可能是正確術(shù)語。候選術(shù)語Ti的TermRank被其中出現(xiàn)的停用詞所抑制,且若其中出現(xiàn)的停用詞數(shù)量越多,則抑制作用越明顯。對(duì)候選術(shù)語列表中的每一個(gè)候選術(shù)語都按照以上公式計(jì)算其TermRank值,經(jīng)排序后,取Top-N條作為最終術(shù)語表。
5.1 實(shí)驗(yàn)設(shè)計(jì)
本文實(shí)驗(yàn)數(shù)據(jù)由國(guó)內(nèi)某專利公司提供,共有9 725篇專利文獻(xiàn)。去除其中的表格和圖片,保存為純文本后的語料大小為123M。采用ICTCLAS對(duì)專利文獻(xiàn)進(jìn)行分詞及詞性標(biāo)注處理。詞性標(biāo)注采用中科院計(jì)算所二級(jí)詞性標(biāo)注集,可參見《ICTPOS3.0
① 中文專利文獻(xiàn)通常由以下幾部分組成: 專利標(biāo)題、技術(shù)領(lǐng)域、背景技術(shù)、發(fā)明內(nèi)容、附圖說明、具體實(shí)施方式。本文認(rèn)為除“專利標(biāo)題”外,其余部分皆屬于專利文獻(xiàn)正文。
漢語詞性標(biāo)記集》*http://ictclas.org/news_ictclas_files.html。
采用3.2節(jié)介紹的構(gòu)建停用詞表方法,最后構(gòu)建的停用詞表中包含停用詞共246個(gè)。表3列出了其中部分停用詞。
表3 人工構(gòu)建的停用詞表中部分停用詞
5.2 評(píng)價(jià)方法
采用人工方式對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行判斷。為避免人的主觀性和領(lǐng)域知識(shí)的局限性,對(duì)于明顯正確或錯(cuò)誤的術(shù)語直接標(biāo)記相應(yīng)標(biāo)記,而對(duì)于很難辨別正確性的候選術(shù)語則利用Google搜索引擎進(jìn)行判斷。只要符合以下情況的任何一條,則將該候選術(shù)語標(biāo)記為正確術(shù)語,否則標(biāo)記為錯(cuò)誤術(shù)語: 1)在Wikipedia、百度百科、互動(dòng)百科等知識(shí)網(wǎng)站存在對(duì)應(yīng)詞條;2)在專利檢索系統(tǒng)存在此詞條;3)Google搜索引擎未對(duì)候選術(shù)語中任何成分進(jìn)行過濾或打亂次序等處理。
由于實(shí)驗(yàn)結(jié)果集太大,難以對(duì)整個(gè)排序后的列表進(jìn)行整體評(píng)估,因此采用P@N評(píng)價(jià)方法,即判斷最終術(shù)語表中前N條的準(zhǔn)確率(Precision),其計(jì)算公式如式(4)所示。
(4)
5.3 實(shí)驗(yàn)結(jié)果及分析
利用3.1節(jié)所述自動(dòng)生成詞性規(guī)則方法,從專利文獻(xiàn)標(biāo)題中共生成2 832條無重復(fù)詞性規(guī)則。表4列出按照頻率排序后的Top5條。該統(tǒng)計(jì)結(jié)果從實(shí)驗(yàn)數(shù)據(jù)上驗(yàn)證了大部分術(shù)語是由名詞或復(fù)合名詞構(gòu)成的特點(diǎn)。
表4 自動(dòng)生成詞性規(guī)則Top 5條舉例
續(xù)表
表5是對(duì)詞性規(guī)則按照不同長(zhǎng)度分類后,其出現(xiàn)頻次所占總頻次(2 832)百分比的統(tǒng)計(jì)信息。其中長(zhǎng)度為4和5的詞性規(guī)則共占71.5%,驗(yàn)證了專利文獻(xiàn)中術(shù)語長(zhǎng)度偏長(zhǎng)的特點(diǎn)。
表5 不同長(zhǎng)度的詞性規(guī)則比例
這種通過從專利文獻(xiàn)的標(biāo)題中自動(dòng)總結(jié)詞性規(guī)則的方法相對(duì)于傳統(tǒng)的詞性規(guī)則生成方法,具有以下兩方面的優(yōu)勢(shì): 1)大幅度減少冗余信息: 相對(duì)于從專利正文總結(jié)詞性規(guī)則,從標(biāo)題中總結(jié)詞性將大幅度減少冗余的詞性規(guī)則;2)對(duì)分詞和詞性標(biāo)注工具的精度依賴減小: 不管標(biāo)題中的術(shù)語被正確地或錯(cuò)誤地分詞和詞頻標(biāo)注,它的詞性規(guī)則模式都將被加入詞性規(guī)則集中。在抽取候選術(shù)語時(shí),若候選術(shù)語被錯(cuò)誤切分和標(biāo)注,也將被抽取出。
由于自動(dòng)生成的詞性規(guī)則較多,將所有規(guī)則都應(yīng)用到專利文獻(xiàn)中抽取候選術(shù)語并不必要。因此對(duì)于每一類長(zhǎng)度的詞性規(guī)則,按照出現(xiàn)頻次的高低,只取Top 5條。表6是不同長(zhǎng)度詞性規(guī)則的Top 5條。
應(yīng)用表6中列出的詞性規(guī)則,再對(duì)專利文獻(xiàn)正文進(jìn)行抽取。抽取出2詞候選術(shù)語493 286條;3詞候選術(shù)語152 274條;4詞候選術(shù)語31 809條;5詞候選術(shù)語3 966條。表7是抽取出的部分候選術(shù)語及對(duì)應(yīng)匹配的詞性規(guī)則。
利用詞性規(guī)則抽取出的候選術(shù)語質(zhì)量較高,但也存在部分噪音。例如,候選術(shù)語“結(jié)合/v 附圖/n”雖然匹配“V+N”詞性規(guī)則,但本身并不是真正術(shù)語;候選術(shù)語“位移/v 傳感器/n”中的“位移”的詞性應(yīng)該為n,“語音/n 式微/v 型/k 乳腺/n 檢查儀/n”正確的分詞和詞性標(biāo)注應(yīng)該為“語音/n 式/k 微型/a 乳腺/n 檢查儀/n”。雖然這些詞串被錯(cuò)誤地分詞或詞性標(biāo)注,但本身仍然為術(shù)語,且被正確地識(shí)別出來,這正是本文所采用的自動(dòng)生成詞性規(guī)則的優(yōu)勢(shì)之處,即對(duì)分詞和詞性標(biāo)注的精度依賴性較小。
表6 不同長(zhǎng)度詞性規(guī)則Top5條
表7 部分候選術(shù)語及匹配的詞性規(guī)則
將候選術(shù)語按照不同詞長(zhǎng)劃分到不同候選術(shù)語表中,由于本文只識(shí)別長(zhǎng)度為2—5詞術(shù)語,因此得到四張候選術(shù)語表。對(duì)候選術(shù)語的排序是在每一張候選術(shù)語表上單獨(dú)進(jìn)行,是為了避免由于某類長(zhǎng)度的候選術(shù)語識(shí)別較多從而對(duì)整體排序造成不公正的現(xiàn)象出現(xiàn)。為了驗(yàn)證本文提出的TermRank方法的有效性,選取TF和C-Value作為對(duì)比方法。表8為對(duì)最終候選術(shù)語排序結(jié)果采用P@N評(píng)價(jià)方法的統(tǒng)計(jì)信息,其中N依次取值100,200,400,800,1 000。
表8 對(duì)候選術(shù)語排序結(jié)果的P@N評(píng)價(jià)
續(xù)表
由表8中的實(shí)驗(yàn)結(jié)果可以看出,本文提出的TermRank方法對(duì)不同長(zhǎng)度的候選術(shù)語排序效果都顯著優(yōu)于其他兩種排序方法。在P@1000上,Term-Rank 方法對(duì)3詞長(zhǎng)度術(shù)語的識(shí)別正確率均達(dá)到80%以上。從P@100~P@1000上的正確率逐漸遞減的規(guī)律也印證了TermRank具有較好地將術(shù)語和非術(shù)語區(qū)分開的能力。
術(shù)語自動(dòng)識(shí)別研究是信息抽取和文本挖掘等領(lǐng)域的重要研究課題。本文首先利用統(tǒng)計(jì)學(xué)方法從專利標(biāo)題中自動(dòng)學(xué)習(xí)出構(gòu)成術(shù)語的詞性規(guī)則,解決了人工總結(jié)術(shù)語詞性規(guī)則的不足。對(duì)候選術(shù)語集的排序算法的優(yōu)劣反應(yīng)在最終識(shí)別出的術(shù)語的質(zhì)量上,本文提出的TermRank排序方法綜合考慮了專利文獻(xiàn)中語言學(xué)和統(tǒng)計(jì)學(xué)特征,能夠較好的區(qū)分術(shù)語和非術(shù)語,在P@1000級(jí)別上的準(zhǔn)確率驗(yàn)證了其較高的可靠性。文中對(duì)每一類長(zhǎng)度的詞性規(guī)則模板依據(jù)統(tǒng)計(jì)頻率選取Top5條的方式,存在一定的局限性。因此,在下一步的研究工作中,需要設(shè)計(jì)出一種更好的選取詞性模板策略,進(jìn)一步提高自動(dòng)識(shí)別術(shù)語的效果。
致謝
感謝中國(guó)科學(xué)院計(jì)算技術(shù)研究所提供的ICTCLAS分詞及詞性標(biāo)注工具,讓本文實(shí)驗(yàn)得以順利完成。
[1] 游宏梁,張巍,沈鈞毅,等. 一種基于加權(quán)投票的術(shù)語自動(dòng)識(shí)別方法[J]. 中文信息學(xué)報(bào),2011,25(3): 9-16.
[2] 岳金媛,徐金安,張玉潔等.面向?qū)@墨I(xiàn)的漢語分詞技術(shù)研究[J]. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,49(1):159-164.
[3] Frantzi K,Ananiadou S,Mima H. Automatic recognition of multi-word terms: the C-value/NC-value method[J]. International Journal on Digital Libraries,2000,3(2): 115-130.
[4] Dagan I,Church K. Termight: Identifying and translating technical terminology[C]//Proceedings of the fourth conference on Applied natural language processing. Association for Computational Linguistics,1994: 34-40.
[5] Yang Y,Lu Q,Zhao T. Chinese term extraction using minimal resources[C]//Proceedings of the 22nd International Conference on Computational Linguistics-Volume 1. Association for Computational Linguistics,2008: 1033-1040.
[6] 閆興龍,劉奕群,方奇等.基于網(wǎng)絡(luò)資源與用戶行為信息的領(lǐng)域術(shù)語提取[J].軟件學(xué)報(bào),2013,24(9): 2089-2100.
[7] 索紅光,劉玉樹,曹淑英. 一種基于詞匯鏈的關(guān)鍵詞抽取方法[J]. 中文信息學(xué)報(bào),2006,20(6): 25-30.
[8] 李超,王會(huì)珍,朱慕華,等. 基于領(lǐng)域類別信息 C-value 的多詞串自動(dòng)抽取[J]. 中文信息學(xué)報(bào),2010,24(1): 94-98.
[9] 韓紅旗,朱東華,汪雪鋒. 專利技術(shù)術(shù)語的抽取方法[J]. 情報(bào)學(xué)報(bào),2011,30(12): 1280-1285.
[10] 徐川,施水才,房祥等.中文專利文獻(xiàn)術(shù)語抽取[J].計(jì)算機(jī)工程與設(shè)計(jì),2013,34(6): 2175-2179.
[11] 楊潔,季鐸,蔡?hào)|風(fēng),等. 基于聯(lián)合權(quán)重的多文檔關(guān)鍵詞抽取技術(shù)[J]. 中文信息學(xué)報(bào),2008,22(6): 75-79.
[12] 梁穎紅,張文靜,周德富. 基于混合策略的高精度長(zhǎng)術(shù)語自動(dòng)抽取[J]. 中文信息學(xué)報(bào),2009,23(6): 26-30.
[13] 賈美英,楊炳儒,鄭德權(quán),等. 采用 CRF 技術(shù)的軍事情報(bào)術(shù)語自動(dòng)抽取研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2009,45(32): 126-129.
[14] Zhang H P,Yu H K,Xiong D Y,et al. HHMM-based Chinese lexical analyzer ICTCLAS[C]//Proceedings of the second SIGHAN workshop on Chinese language processing-Volume 17. Association for Computational Linguistics,2003: 184-187.
[15] Brin S,Page L. The anatomy of a large-scale hypertextual Web search engine[J]. Computer networks and ISDN systems,1998,30(1): 107-117.
Automatic Recognition of Terms in Chinese Patent Literature
YANG Shuanglong1,LV Xueqiang1,LI Zhuo1,XU Liping2
(1. Beijing Key Laboratory of Internet Culture and Digital Dissemination Research,Beijing Information Science and Technology University,Beijing 100101,China;2.Beijing Research Center of Urban System Engineering,Beijing 100089,China)
Chinese patent literatures contain abundant domain-specific terms, and automatic recognition of terminology is an important task in information extraction and text mining. In this paper, we propose an approach of automatic generation of term formation rules and a novel TermRank algorithm. Firstly, we focus on generating a set of term formation rules automatically through a large number of patent titles and then applied those rules to patent texts for term candidates. Finally, the TermRank algorithm decides the final terms. Experimental results on 9725 Chinese patent literatures demonstrate the effectiveness of the proposed approach.
automatic term recognition; patent literature; information extraction; text mining
楊雙龍(1989—),碩士研究生,主要研究領(lǐng)域?yàn)橹形男畔⑻幚怼⒕W(wǎng)絡(luò)數(shù)據(jù)挖掘。E?mail:yslgoodboy@gmail.com呂學(xué)強(qiáng)(1970—),博士,教授,主要研究領(lǐng)域?yàn)橹形男畔⑻幚?、多媒體信息處理。E?mial:lxq@bistu.edu.cn李卓(1983—),博士,講師,主要研究領(lǐng)域?yàn)榉植际接?jì)算,社交網(wǎng)絡(luò)。E?mial:lizhuo@bistu.edu.cn
2014-03-20 定稿日期: 2014-05-16
所屬課題: 國(guó)家自然科學(xué)基金(61271304);北京市教委科技發(fā)展計(jì)劃重點(diǎn)項(xiàng)目暨北京市自然科學(xué)基金B(yǎng)類重點(diǎn)項(xiàng)目(KZ201311232037);北京市屬高等學(xué)校創(chuàng)新團(tuán)隊(duì)建設(shè)與教師職業(yè)發(fā)展計(jì)劃項(xiàng)目(IDHT20130519)
1003-0077(2016)03-0111-07