基于信息熵和詞頻分布變化的術(shù)語抽取研究

2015-04-25 08:23:58李麗雙王意文黃德根

中文信息學(xué)報 2015年1期

關(guān)鍵詞：字符串詞頻信息熵

李麗雙，王意文，黃德根

(大連理工大學(xué) 計算機學(xué)院，遼寧大連 116023)

基于信息熵和詞頻分布變化的術(shù)語抽取研究

李麗雙，王意文，黃德根

(大連理工大學(xué) 計算機學(xué)院，遼寧大連 116023)

在分別研究了基于信息熵和基于詞頻分布變化的術(shù)語抽取方法的情況下，該文提出了一種信息熵和詞頻分布變化相結(jié)合的術(shù)語抽取方法。信息熵體現(xiàn)了術(shù)語的完整性，詞頻分布變化體現(xiàn)了術(shù)語的領(lǐng)域相關(guān)性。通過應(yīng)用信息熵，即將信息熵結(jié)合到詞頻分布變化公式中進行術(shù)語抽取，且應(yīng)用簡單語言學(xué)規(guī)則過濾普通字符串。實驗表明，在汽車領(lǐng)域的語料上，應(yīng)用該方法抽取出1 300個術(shù)語，其正確率達到73.7%。結(jié)果表明該方法對低頻術(shù)語有更好的抽取效果，同時抽取出的術(shù)語結(jié)構(gòu)更完整。

術(shù)語抽??；信息熵；詞頻分布變化

1 引言

術(shù)語是表達特定學(xué)科領(lǐng)域的基本概念的語言單元，可以是詞或詞組。術(shù)語的定義并沒有統(tǒng)一標(biāo)準(zhǔn)化。馮志偉在《現(xiàn)代術(shù)語學(xué)引論》[1]中給出了術(shù)語的定義，即“通過語音或文字來表達或限定專業(yè)概念的約定性符號，可以是詞也可以是詞組”。梁愛林[2]指出“術(shù)語是指從事特定專業(yè)技術(shù)學(xué)科的人用字、詞語或者字母與數(shù)碼符號等來表示專業(yè)領(lǐng)域中的某一個概念”。馮志偉在《現(xiàn)代術(shù)語學(xué)引論》[1]中研究發(fā)現(xiàn)了術(shù)語的8大特征：準(zhǔn)確性、單義性、系統(tǒng)性、語言的正確性、簡明性、理據(jù)性、穩(wěn)定性、能產(chǎn)性?！吨袊蟀倏迫珪穂3]總結(jié)了術(shù)語的4個特性: 專業(yè)性、科學(xué)性、單義性、系統(tǒng)性。

術(shù)語是在特定領(lǐng)域中使用的、相對固定的詞或短語，是科學(xué)研究和知識交流的有力工具。術(shù)語具有相對完整的結(jié)構(gòu)和完整的領(lǐng)域意義。術(shù)語的自動抽取有利于自然語言處理技術(shù)的發(fā)展，可以應(yīng)用于信息處理的多個方面，例如，信息檢索、機器翻譯、自動索引、知識庫構(gòu)建和信息抽取等領(lǐng)域。由于采用監(jiān)督式的機器學(xué)習(xí)方法需要人工標(biāo)注大量語料，同時人工標(biāo)注語料很可能產(chǎn)生大量錯誤和不一致性，所以，當(dāng)前術(shù)語的自動抽取技術(shù)主要是基于統(tǒng)計學(xué)的方法，并結(jié)合語言學(xué)規(guī)則進行過濾，即采用的是無監(jiān)督的方法。

目前，國內(nèi)外很多研究者都對術(shù)語的自動抽取技術(shù)進行了研究。主要有基于語言學(xué)規(guī)則的方法，基于統(tǒng)計學(xué)的方法以及統(tǒng)計學(xué)和規(guī)則相結(jié)合的方法。其中比較成熟的是統(tǒng)計學(xué)和規(guī)則相結(jié)合的方法。張峰[4]應(yīng)用互信息計算字符串的內(nèi)部結(jié)合強度，去除大量結(jié)構(gòu)不穩(wěn)定的候選短語，接著主要應(yīng)用前綴和后綴信息進一步過濾候選術(shù)語，抽取出的術(shù)語的F值達到74.97%。梁穎紅[5]結(jié)合NC-value參數(shù)和互信息方法用于識別3個字以上的長術(shù)語，獲得了82.2%的F值。何婷婷和張勇[6]提出了一種基于質(zhì)子串分解的術(shù)語自動抽取方法，分別處理簡單術(shù)語和復(fù)雜術(shù)語，使術(shù)語的抽取效果得到提高。游宏梁[7]利用統(tǒng)計指標(biāo)加權(quán)投票方法進行術(shù)語自動識別，表明加權(quán)投票方法比單一指標(biāo)的識別效果更好。劉桃[8]提出了一種基于信息熵的領(lǐng)域術(shù)語抽取方法，該方法考慮了術(shù)語的領(lǐng)域分布特征，并對語料的不平衡性進行了正規(guī)化。潘渭[9]提出了使用分類方法進行專業(yè)術(shù)語定義抽取的方法，該方法將基于實例距離分布信息的過采樣方法和隨機欠采樣方法結(jié)合，并使用BRF(Balanced Random Forest)方法來獲得C4.5決策樹的聚合分類結(jié)果，實驗表明該方法取得的抽取效果優(yōu)于僅使用BRF的方法?；诮y(tǒng)計的方法所需的領(lǐng)域知識較少，且能應(yīng)用于多個語種，具有很好的可移植性。但是，統(tǒng)計學(xué)方法需要大規(guī)模的語料，若語料規(guī)模過小則難以獲得有效的統(tǒng)計信息，很容易獲取到無效的術(shù)語，且低頻術(shù)語通常被過濾掉。為了抽取出低頻術(shù)語，周浪[10]提出了一種利用術(shù)語在語料中詞頻分布變化程度的統(tǒng)計信息來檢測術(shù)語的領(lǐng)域相關(guān)性的方法，同時結(jié)合機器學(xué)習(xí)的方法獲取語言知識，該方法能有效地區(qū)分低頻術(shù)語和高頻普通詞。但是該方法應(yīng)用機器學(xué)習(xí)獲取語言知識的過程中需要大量的人工標(biāo)注或需要有現(xiàn)有術(shù)語可供學(xué)習(xí)，且沒有考慮到術(shù)語的內(nèi)部結(jié)合強度。本文提出的方法主要是對周浪[10]的方法的改進，即在詞頻分布方法的基礎(chǔ)上結(jié)合信息熵方法，在度量術(shù)語的領(lǐng)域分布特性的同時度量術(shù)語的完整性；同時提出邊界判定算法用以進一步判定術(shù)語完整性。通過以上改進提高術(shù)語抽取效果。

2 術(shù)語抽取系統(tǒng)

本文實現(xiàn)的中文術(shù)語抽取系統(tǒng)基于語言學(xué)規(guī)則和統(tǒng)計信息相結(jié)合的方法。系統(tǒng)的流程圖如圖1所示。術(shù)語抽取系統(tǒng)主要由3部分組成：文本切分、基于詞頻分布和信息熵的候選術(shù)語抽取、規(guī)則過濾。

圖1 系統(tǒng)結(jié)構(gòu)圖

文本切分：使用Nihao分詞系統(tǒng)[11]對語料進行分詞處理。該分詞系統(tǒng)使用基于字和詞的條件隨機場(CRFs)的聯(lián)合解碼模型，切分出的詞相對較短，有利于召回術(shù)語。分詞后，用停用詞表將文本切分成詞串。

統(tǒng)計學(xué)抽取候選術(shù)語：對每一個字符串，統(tǒng)計它出現(xiàn)的文檔頻率，在各個文檔中出現(xiàn)的頻率，計算頻率分布信息。結(jié)合字符串的信息熵，計算出字符串的術(shù)語領(lǐng)域相關(guān)程度和術(shù)語完整程度，從而得到候選術(shù)語。

規(guī)則過濾：使用詞性規(guī)則，邊界結(jié)合強度和是否普通詞進行規(guī)則過濾，進一步提高術(shù)語的抽取結(jié)果。

下面將會對以上3部分進行詳細描述，并將結(jié)果與基于詞頻分布的方法進行對比，進行結(jié)果分析。

3 文本切分

當(dāng)前沒有公開和統(tǒng)一的用于術(shù)語抽取方法性能評測的語料，本文使用的語料來源于從“太平洋汽車網(wǎng)”上爬取的394篇網(wǎng)頁。為了得到純文本語料，我們對網(wǎng)頁進行預(yù)處理，主要是去除html標(biāo)簽。我們發(fā)現(xiàn)有些網(wǎng)頁有相互引用，為了消除重復(fù)內(nèi)容對抽取效果的影響，我們進行了簡單的去重操作。經(jīng)過以上操作，得到大小為0.817M的汽車純文本語料，共402 815個字。

對汽車語料進行分詞后，應(yīng)用經(jīng)過人工收集的停用詞，將語料中的每一個句子切分成相對較小的片段。其中，停用詞主要包含標(biāo)點符號、代詞、語氣詞、助詞、連詞等。這些停用詞一般沒有特殊的意義，經(jīng)常搭配別的詞構(gòu)成詞或短語，且術(shù)語一般不會包含這些詞，可以用于切分句子。停用詞示例： “啊”、“它”、“以及”、“并且”、“咦”、“大多數(shù)”、“及時”、“幾乎”、“什么”、“我”、“我們”等。

由于汽車語料中存在英文字母以及英文汽車術(shù)語，將英文字母統(tǒng)一轉(zhuǎn)換成半角，有利于術(shù)語的抽取。經(jīng)過觀察發(fā)現(xiàn)，語料中存在大量的單位計量的短語，如“50千瓦”、“2噸”、“4個”、“100kg”；同時，語料中還有如“如圖1”、“圖a1”、“2010年”、“約為5.3”的短語。以上這些短語不可能是術(shù)語，也不可能構(gòu)成術(shù)語的成分。我們用正則表達式將這些短語去除，將字符串進一步分割，起到相當(dāng)于停用詞的作用。

4 基于統(tǒng)計量的候選術(shù)語抽取

基于統(tǒng)計量的方法需要統(tǒng)計每一個字符串的頻率信息，若采用一般的字符串比較，則系統(tǒng)的效率很低。本文中應(yīng)用Pat-tree[12]作為索引結(jié)構(gòu)，對每一個網(wǎng)頁對應(yīng)的文檔建立Pat-tree，用于統(tǒng)計字符串的頻率信息。

采用基于詞的術(shù)語抽取，這不僅能減少所要統(tǒng)計的字符串的頻率信息，而且能初步過濾掉一些邊界不合理的字符串。例如，對于切分后的字符串“點火/線圈/固定”，只需將“點火”、“線圈”、“固定”、“點火線圈”、“線圈固定”、“點火線圈固定”作為候選術(shù)語，計算相應(yīng)的統(tǒng)計量信息。假如以字為單位組合候選術(shù)語，則會出現(xiàn)類似“點火線”和“火線圈”這樣一些結(jié)構(gòu)不完整的候選術(shù)語，這不僅會使精確率下降，而且會降低效率。

4.1 詞頻分布變化的方法

由于術(shù)語具有領(lǐng)域相關(guān)性，一個術(shù)語在領(lǐng)域間分布不均勻，即一個術(shù)語在相關(guān)領(lǐng)域內(nèi)出現(xiàn)頻率較高，而在不相關(guān)領(lǐng)域內(nèi)很少出現(xiàn)或幾乎不出現(xiàn)。同時，周浪[10]研究表明在同一個領(lǐng)域內(nèi)的不同場景下(文檔中)，術(shù)語的詞頻信息分布也有很大差別。因為在不同的場景中，討論的話題也不同，用到的術(shù)語自然也不同。例如，在汽車語料中術(shù)語“共軌式噴油系統(tǒng)”總共出現(xiàn)了5次，且只在兩個文檔中出現(xiàn)，其中一個文檔中出現(xiàn)了4次。

術(shù)語頻率在各個文檔間的波動變化可以區(qū)分術(shù)語和一般詞，而樣本方差是反映檢驗樣本和總體分布的波動程度的最直接的方法。方差的值越小，表明候選術(shù)語在文檔間的頻率變化越小，是術(shù)語的可能性也越小。周浪[10]提出的詞頻分布公式如式(1)：

其中M為總的文檔數(shù)。

4.2 信息熵的方法

信息論中的信息熵表示單個隨機變量的不確定性。隨機變量越不確定，其熵值越大。當(dāng)信息熵用于術(shù)語抽取時，主要用于計算字符串的邊界不確定性。字符串的邊界越不確定，信息熵越高，且越可能是一個完整的詞。

一般通過計算字符串的左信息熵和右信息熵來衡量字符串的左右邊界的不確定性。在汽車語料中，在“底板上只有一根引出線接在點火線圈上，點火線圈中心有磁性棒，高壓點火線擰緊在點火線圈的木螺釘上?！敝校包c火線圈”出現(xiàn)了3次，它的左鄰接字有“在”和“，”，右鄰接字有“上”、“中”和“的”。在整個語料中，字符串“點火線圈”總共出現(xiàn)了30次，不同的左鄰接字有19個，右鄰接字有21個，可見“點火線圈”的左右搭配詞都很不固定，因此“點火線圈”很有可能是一個完整的詞，進而可能是汽車術(shù)語。而在考察“點火線”是否完整詞時，我們發(fā)現(xiàn)“點火線”在整個語料中出現(xiàn)了33次，其不同的左鄰接字有21個，右鄰接字只有3個，則“點火線”不適合作為一個完整的詞。

左右信息熵的公式[13]如式(4)、式(5)所示。

其中s是候選字符串，ls是s的左鄰接字l和s結(jié)合所構(gòu)成的字符串，p(ls|s)表示語料中出現(xiàn)s的情況下，s的左鄰接字是l的條件概率。sr是s和s的右鄰接字r結(jié)合構(gòu)成的字符串，p(sr|s)表示語料中出現(xiàn)s的前提下，s的右鄰接字為r的條件概率。LE(s)為字符串s的左信息熵，RE(s)為字符串s的右信息熵。LE(s)和RE(s)越大，說明左右鄰接字越不固定，則s獨立成詞的可能性越大。為了綜合評價s獨立成詞的可能性，任禾[13]通過給左、右信息熵設(shè)定相同的閾值來過濾不能獨立成詞的候選詞。即如式(6)所示。

其中Emin為人工設(shè)定的閾值。

4.3 詞頻分布和信息熵相結(jié)合的方法

在基于信息熵的術(shù)語抽取方法中，分別為左、右信息熵設(shè)定閾值存在局限性。不僅在閾值調(diào)節(jié)時會比較繁瑣，而且也不能很好地處理字符串的左、右信息熵的不平衡。假如字符串的左信息熵較低，同時右信息熵較大，字符串仍有可能是候選術(shù)語。例如，術(shù)語“共軌系統(tǒng)”的左信息熵為2.09，右信息熵為3.45；術(shù)語“油壓”的左信息熵為3.53，右信息熵為2.23。在結(jié)合左、右信息熵的同時，綜合考慮左右信息熵的不平衡性，將得到如下信息熵公式，如式(7)所示。

在基于詞頻分布的術(shù)語抽取方法中，詞頻分布只考慮了術(shù)語的領(lǐng)域相關(guān)性，而沒有考慮術(shù)語是否獨立成詞，因此很可能會抽取出一些結(jié)構(gòu)不完整的字符串，比如“手動變速箱系統(tǒng)”，而語料中正確的術(shù)語應(yīng)該是“自手動變速箱系統(tǒng)”。詞頻分布公式中引入了平均詞頻，但用信息熵代替平均詞頻能很好地對術(shù)語是否獨立成詞加以判斷，由此，得到式(8)。

5 規(guī)則過濾

本文使用的規(guī)則主要有詞性規(guī)則、普通詞過濾、邊界判定是否合理、是否在其他語料中出現(xiàn)次數(shù)較多等。只考慮詞頻大于2的候選術(shù)語，且候選術(shù)語的長度小于10。使用的詞性規(guī)則主要是術(shù)語詞性的組合方式。

所采用的規(guī)則說明如下：

(1) 詞性規(guī)則主要有：

① 術(shù)語中不能包含嘆詞、代詞、處所詞、狀態(tài)詞；

② 術(shù)語不能以助詞、連詞、后綴開頭；

③ 術(shù)語不能以前綴、方位詞、連詞、助詞結(jié)尾；

④ 術(shù)語中必須含有名詞、動詞或量詞成分。這些詞性規(guī)則是在周浪[10]的詞性規(guī)則基礎(chǔ)上改進的，以符合汽車術(shù)語的詞性規(guī)律。

(2) 由于絕大多數(shù)的普通詞都不是術(shù)語，我們用分詞字典構(gòu)建了一個普通詞列表，用于過濾候選術(shù)語中的普通詞，例如“上課”、“下雨”、“春天”等。

(3) 雖然應(yīng)用了信息熵，但還是有些候選術(shù)語不能獨立成詞。通過進一步的邊界判定進行過濾，算法過程如圖2所示。

(a)語料經(jīng)過停用詞分割后的字符串集為A；(b)遍歷字符串集A，找出包含候選術(shù)語s的所有字符串B；(c)對B中每一個字符串分詞；(d)ld=0，rd=0，遍歷每一個分詞后的字符串a(chǎn)1a2a3…an，其中s=ai…aj，計算ai-1ai的互信息值MI(ai-1ai)，計算aiai+1的互信息值MI(aiai+1)。若MI(ai-1ai)

(4) 應(yīng)用輔助的計算機語料，若候選術(shù)語在計算機語料中的詞頻超過在汽車語料中的詞頻的一半，則將候選術(shù)語過濾，當(dāng)然這是在同樣規(guī)模的語料的情況下。應(yīng)用計算機輔助語料是為了過濾汽車語料中的部分計算機術(shù)語。

6 實驗結(jié)果與分析

為了得到正確率高的術(shù)語，我們將規(guī)則過濾后的術(shù)語按其DV-entropy值從高到低排序。DV-entropy值越高，是術(shù)語的可能性也越高。由于本文使用的語料較小，只有0.817M，周浪[10]使用的語料大小為1.27M，他主要評價了前2 000個抽取出的術(shù)語，為了與周浪[10]的方法比較，我們只評價前1 300個抽取出的術(shù)語。當(dāng)前，實驗結(jié)果的評價標(biāo)準(zhǔn)主要是正確率、召回率和F值。

(9)

在使用相同的語言學(xué)規(guī)則和語料的情況下，表1對比了詞頻分布變化和改進的方法的術(shù)語抽取性能。在抽取相同的數(shù)量的術(shù)語的前提下，比較術(shù)語的正確率、召回率和F值。分別比較了抽取100，200，500，800，1 000，1 300個術(shù)語時，兩種方法的結(jié)果。

表1 詞頻分布(DV-termhood)和本文方法(DV-entropy)的比較：使用相同的語言學(xué)規(guī)則和語料

表1表明隨著抽取出的術(shù)語數(shù)量的增加，術(shù)語的正確率在降低，召回率在增加，F(xiàn)值也在增加。從總體上看，在抽取出相同數(shù)量的術(shù)語時，DV-entropy方法的正確率、召回率和F值都要比DV-termhood高。由于抽取的術(shù)語相對于語料含有的術(shù)語量較少，DV-entropy和DV-termhood方法的召回率和F值區(qū)分不大，我們將進一步分析正確率。由前100個抽取的術(shù)語的正確率遠高于前1 300個的正確率，可以得出字符串的DV-entropy值越高，則字符串是術(shù)語的可能性越大。再者，從0.817M的語料中抽取出1 300個術(shù)語，術(shù)語相對稀疏，由此可知DV-entropy方法對低頻術(shù)語具有較好的識別能力。由表1可以看出，改進后的方法比基于詞頻分布的方法的正確率要高14%～20%。這是因為改進后的方法能很好地判斷抽取出的術(shù)語是否完整，同時又結(jié)合了術(shù)語的領(lǐng)域分布不平衡特征。周浪[10]的基于詞頻分布的方法會抽取出一些在少數(shù)文檔中出現(xiàn)頻率較高的字符串。例如，“公式下”只出現(xiàn)在一個文檔中，因而其DV值相對較高，從而引入錯誤。信息熵可以度量字符串“公式下”的完整性，因此結(jié)合信息熵和詞頻分布變化的方法可以避免類似的錯誤。

改進后結(jié)果得到了提高，但也存在一些錯誤，例如，

1) 對于文本中那些結(jié)構(gòu)完整，出現(xiàn)頻次高的字符串，其信息熵值一般會隨著頻次的增加而增加。雖然其詞頻分布變化較小，但最終的DV-entropy值會比較高。如“制動時”的頻次為67，信息熵為13.8，其對應(yīng)的方差值為2.0，最終其DV-entropy值高達27.6，而所用的詞性規(guī)則不足以過濾它，因此會引入錯誤。類似的識別的錯誤串有“汽車設(shè)計”、“傳遞動力”、“總質(zhì)量”等。

2) 原本屬于同一個文檔中的內(nèi)容，經(jīng)過分頁后，會存在于多個網(wǎng)頁中，而本文在處理的過程中，并沒有將這些網(wǎng)頁合并。這會使公式中詞頻分布變化部分降低方差值，從而降低DV-entropy值。因此，文檔分頁問題會影響本文提出的方法的性能。在將來的工作中，將針對文檔分頁問題進行研究，以提高系統(tǒng)性能。

7 與其他方法比較

文獻[14]結(jié)合了互信息、信息熵和C-value的方法，在此基礎(chǔ)上使用語言學(xué)規(guī)則進行過濾。文獻[14]中對長度大于3的字符串使用互信息和C-value相結(jié)合的方法，對長度小于等于3的使用信息熵和C-value相結(jié)合的方法。文獻[14]使用的語料和本文所使用的語料完全相同。該語料是從網(wǎng)上爬取的包含汽車術(shù)語的語料，經(jīng)過去除標(biāo)簽和重復(fù)頁面后，大小為0.817M，字數(shù)約為40萬字。表2對比了文獻[14]的方法和本文方法的術(shù)語抽取的結(jié)果，可以看出本文方法的F值比文獻[14]提高了26.5%。實驗表明，本文所使用的DV-entropy方法和規(guī)則能有效地提高術(shù)語識別效果。簡單統(tǒng)計學(xué)的方法不能很好地識別低頻術(shù)語，原因在于汽車語料存在術(shù)語稀疏問題，且簡單統(tǒng)計學(xué)方法不能很好地判斷術(shù)語的完整性，例如“無觸點磁電機”的子串“觸點磁電機”和“無觸點磁電”會被識別為術(shù)語。本文采用的方法則對此進行了有效的改進。

在使用相同的語料和語言學(xué)規(guī)則的情況下，進一步比較DV-entropy方法和基于詞頻分布變化(DV-termhood)的方法，表2中列出了基于詞頻分布變化的統(tǒng)計數(shù)據(jù)。由表中數(shù)據(jù)可知，DV-entropy方法的正確率和召回率都要比DV-termhood方法高，從而F值也比DV-termhood方法高4.38%。從總體上來說，DV-entropy和DV-termhood方法的F值都不高，原因在于所使用的語料中只出現(xiàn)一次的術(shù)語占所有術(shù)語的47.9%，即存在術(shù)語稀疏問題。

表2 其他方法和本文方法比較

8 總結(jié)

詞頻分布變化表示術(shù)語的領(lǐng)域相關(guān)性，信息熵表示術(shù)語的完整性。本文改進了基于詞頻分布變化的術(shù)語抽取方法，在詞頻分布變化中加入信息熵值，并結(jié)合一系列術(shù)語的語言學(xué)規(guī)則，構(gòu)建了一個術(shù)語抽取系統(tǒng)。該方法優(yōu)于當(dāng)前用于低頻術(shù)語識別的基于詞頻分布的方法，對低頻術(shù)語有較好的識別能力。為了排除非汽車術(shù)語，在下一步工作中，將引入百科語料，同時避免降低系統(tǒng)效率。

[1] 馮志偉. 現(xiàn)代術(shù)語學(xué)引論[M]. 北京：語文出版社,1997:1-20.

[2] 梁愛林.論術(shù)語學(xué)概念理論的發(fā)展[J].術(shù)語標(biāo)準(zhǔn)化與信息技術(shù).2003(4):4-10.

[3] 胡喬木等人.中國大百科全書[M].語言卷.術(shù)語.北京：中國大百科全書出版社，2003.

[4] 張鋒，許云，侯艷，等．基于互信息的中文術(shù)語抽取系統(tǒng)[J]．計算機應(yīng)用研究，2005，22(5)： 72-73.

[5] 梁穎紅，張文靜，周德福.基于混合策略的高精度長術(shù)語自動抽取[J]. 中文信息學(xué)報，2009,23(6):26-30.

[6] 何婷婷，張勇．基于質(zhì)子串分解的中文術(shù)語自動抽取[J]．計算機工程，2006，32(23)： 188-190．

[7] 游宏梁,張巍,沈鈞毅,等. 一種基于加權(quán)投票的術(shù)語自動識別方法[J]. 中文信息學(xué)報,2011,25(3): 9-16.

[8] 劉桃，劉秉權(quán)，徐志明，等．領(lǐng)域術(shù)語自動抽取及其在文本分類中的應(yīng)用[J]．電子學(xué)報，2007, 35(2): 328-332.

[9] 潘渭,顧宏斌. 采用改進重采樣和BRF方法的定義抽取研究[J]. 中文信息學(xué)報,2011,25(3): 30-37.

[10] 周浪,張亮,馮沖等.基于詞頻分布變化統(tǒng)計的術(shù)語抽取方法[J].計算機科學(xué),2009,36(5):177-180.

[11] Degen H, Deqin T, Yanyan L. HMM revises low marginal probability by CRF for Chinese word segmentation[C]//Proceedings of CIPS-SIGHAN Joint Conference on Chinese Processing, Beijing, 2010, 216-220.

[12] Gaston H G, Ricardo A B, Tim S. New indices for text: pat trees and pat arrays[C]//Information Retrieval Data Structures & Algorithms, 1992:66-82.

[13] 任禾，曾雋芳．一種基于信息熵的中文高頻詞抽取算法[J]．中文信息學(xué)報．2006，20(5)： 40-43．

[14] 李丹. 特定領(lǐng)域中文術(shù)語抽取[D]. 2011.大連理工大學(xué)碩士學(xué)位論文.

Term Extraction Based on Information Entropy and Word Frequency Distribution Variety

LI Lishuang, WANG Yiwen, HUANG Degen

(School of Computer Science and Technology, Dalian University of Technology, Dalian Liaoning 116023, China)

A term extraction system based on information entropy and word frequency distribution variety is presented. Information entropy can measure the integrality of the terms while word frequency distribution variety can measure the domain relativity of terms. Incorporating with simple linguistic rules as an addition filter，the automatic term extraction system integrates information entropy into word frequency distribution variety formula. Preliminary experiment on the corpus of automotive domain indicates that the precision is 73.7% when 1,300 terms are extracted. The result shows that the proposed approach can effectively recognize the terms with lower frequency and the recognized terms are well of integrality.

term extraction; information entropy; word frequency distribution variety

李麗雙(1967—)，副教授，主要研究領(lǐng)域為自然語言理解、信息抽取與機器翻譯。E?mail：lils@dlut．edu．cn王意文(1988—)，碩士研究生，主要研究領(lǐng)域為信息抽取。E?mail：yeevanewong@gmail．com黃德根(1965—)，教授，主要研究領(lǐng)域為自然語言理解與機器翻譯。E?mail：huangdg@dlut．edu．cn

1003-0077(2015)01-0082-06

2012-08-09 定稿日期： 2013-03-11

國家自然科學(xué)基金(61173101, 61173100)

TP391