• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      《同義詞詞林》在中文實體關(guān)系抽取中的作用

      2014-02-28 03:37:36劉丹丹錢龍華周國棟
      中文信息學(xué)報 2014年2期
      關(guān)鍵詞:小類多義實體

      劉丹丹,彭 成,錢龍華,周國棟

      (蘇州大學(xué) 自然語言處理實驗室,江蘇 蘇州 215006; 蘇州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

      1 引言

      命名實體間語義關(guān)系抽取(簡稱實體關(guān)系抽取,或關(guān)系抽取)是信息抽取中的一個重要研究內(nèi)容,其任務(wù)是從自然語言文本中提取出兩個命名實體之間所存在的語義關(guān)系,例如,短語“美國總統(tǒng) 克林頓 的 平壤 之行”中的兩個實體“克林頓”(PER)和“平壤”(GPE)之間存在的物理位置關(guān)系(PHYS.Located)。作為一項應(yīng)用基礎(chǔ)性研究,實體關(guān)系抽取對自然語言處理的許多應(yīng)用如內(nèi)容理解、問題回答、自動文摘、機器翻譯、文本分類以及信息過濾等都具有重要的意義。

      無論是采用指導(dǎo)性的機器學(xué)習(xí)方法,還是采用無指導(dǎo)的聚類方法,關(guān)系抽取研究的關(guān)鍵問題都是如何有效的表達關(guān)系實例并計算關(guān)系實例之間的相似度?;谔卣飨蛄康姆椒╗1-5]將關(guān)系實例表示成高維特征空間中的一個向量,通過計算向量之間的相似度來表示實例之間的相似度,其特征包含詞匯、組塊、句法和語義等各種信息?;诤撕瘮?shù)的方法則將關(guān)系實例表示成離散結(jié)構(gòu),如實體對所在的成分句法樹[6-10]、依存樹[11]或依存路徑[12-13]等,它通過計算離散結(jié)構(gòu)之間的相似度來表示實例之間的相似度。由于它能探索高維空間中的隱含結(jié)構(gòu)化特征,因此在關(guān)系抽取及自然語言處理的其它任務(wù)中獲得了廣泛的應(yīng)用。在中文實體關(guān)系抽取中,基于特征向量的方法有文獻[14-16]等?;诤撕瘮?shù)的方法采用的離散結(jié)構(gòu)有字符串[17-18]、句法樹[19-20]等。

      眾所周知,語義信息對實體間語義關(guān)系的抽取具有重要的作用。目前關(guān)系抽取中使用到的語義信息主要分為以下三類: 實體類型語義信息、實體詞匯的聚類信息和實體詞匯的語義信息。實體類型語義信息包括實體大類和實體小類信息,無論是從語義關(guān)系的定義,還是實驗結(jié)果來看,這類信息對關(guān)系抽取的性能具有很大的提升作用,因而幾乎所有的關(guān)系抽取系統(tǒng)都使用實體類型信息。不過,目前使用的實體類型信息都是基于手工標(biāo)注的結(jié)果,實際識別出的實體類型,特別是小類信息,肯定含有噪音,從而使得其作用受到一定的影響。文獻[4-5]先采用聚類的方法得到實體詞匯的語義編碼,然后在基于特征向量的關(guān)系抽取中使用該語義編碼,實驗結(jié)果表明其對關(guān)系抽取的性能提高具有一定的促進作用。但由于特征匹配的限制,語義編碼必須截斷后才能使用。在中文關(guān)系抽取中,文獻[17]采用編輯距離核函數(shù)來計算關(guān)系實例的字符串之間的相似度,并考慮了詞匯之間在《同義詞詞林》中的語義相似度,在person-affiliation關(guān)系中取得了較好的結(jié)果。不過,他們沒有單獨比較詞匯語義相似度的貢獻,也沒有考慮對其它類型的關(guān)系抽取的影響。文獻[18]采用字符串核的方法進行ACE語料庫上的三個大類的中文關(guān)系抽取,并在子串比較的時候考慮其詞匯在《知網(wǎng)》中的詞義相似度, 實驗表明語義相似度能提高大部分關(guān)系類型的抽取性能。

      綜上所述,語義信息確實能夠提高關(guān)系抽取的性能, 但目前還沒有一個系統(tǒng)全面的研究來分析語義信息對中文關(guān)系抽取的有效性,如對哪些關(guān)系類型有效,有效程度如何,以及詞匯語義信息和實體類型信息之間的冗余度等。針對這些問題,本文以《同義詞詞林》為例,采用基于樹核函數(shù)的方法來研究語義信息在中文實體語義關(guān)系抽取中的作用,旨在發(fā)現(xiàn)語義信息對哪些關(guān)系類型影響最大。

      本文第2節(jié)介紹了《同義詞詞林》及其編碼方式;第3節(jié)討論《詞林》語義類別信息與結(jié)構(gòu)化信息的結(jié)合;第4節(jié)給出了實驗設(shè)置及結(jié)果分析;最后第5節(jié)是總結(jié)部分。

      2 同義詞詞林

      《同義詞詞林》[21](以下簡稱《詞林》)是一部漢語分類詞典,其中每一條詞語都用一個編碼來表示其語義類別。本文所用的《詞林》為《詞林(擴展版)》,是哈爾濱工業(yè)大學(xué)信息檢索研究室在《同義詞詞林》的基礎(chǔ)上研制的。最終的詞表包含77 492條詞語,其中一詞多義的詞語為8 860個,共分為12個大類,94個中類,1 428個小類,小類下再以同義原則劃分詞群,最細的級別為原子詞群,這樣詞典中的詞語之間就體現(xiàn)了良好的層次關(guān)系。不同級別的分類結(jié)果可以為自然語言處理提供不同顆粒度的語義類別信息。

      《詞林》的12個大類分別用一位大寫英文字母A到L來表示,中類編號在大寫字母后面加一位小寫英文字母表示,小類編號再加兩位十進制整數(shù)表示,詞群編號再加一位大寫英文字母表示,原子詞群編號再加兩位十進制整數(shù)表示,最后一位的標(biāo)記有3種,其中“=”代表“相等”、“同義”; “#”代表“不等”、“同類”,屬于相關(guān)詞語; “@”代表“自我封閉”、“獨立”,它在詞典中既沒有同義詞,也沒有相關(guān)詞。根據(jù)編碼特點,本文沒有使用第八位編碼。具體的標(biāo)記如表1所示。如詞語“公園”的語義編碼為“Bn20A01=”,大類(B)表示“物”,中類(Bn)表示“建筑物”,小類(Bn20)表示“園林”,原子詞群(Bn20A01)表示“園林 公園 花園 莊園 園 苑”,詞群(Bn20A)并沒有賦予專門的名稱。

      表1 《詞林》詞語編碼表

      3 《詞林》語義信息與結(jié)構(gòu)化信息的結(jié)合

      在分析《詞林》語義信息對基于樹核函數(shù)的中文關(guān)系抽取的影響之前,首先需要考慮兩個問題: 一是應(yīng)該加入哪些詞匯的語義信息;二是詞匯的語義信息如何與句法樹中的結(jié)構(gòu)化信息相結(jié)合。

      在表示關(guān)系實例結(jié)構(gòu)化信息的句法樹中,除兩個實體名稱外,還包含其它的詞匯信息,如動詞、形容詞和副詞等。根據(jù)文獻[5]的研究,加入實體名稱的聚類語義信息有利于提高關(guān)系抽取的性能,而其他詞匯的語義信息則沒有效果。鑒于此,本文只考慮關(guān)系實例中的兩個實體詞匯在《詞林》中的語義類別信息。

      3.1 實體詞匯的《詞林》語義類別與結(jié)構(gòu)化信息的結(jié)合

      對實體而言,其語義信息和句法樹中的結(jié)構(gòu)化信息相結(jié)合的方法有兩種: 一是直接將語義類別信息加入到句法樹中;二是通過復(fù)合核函數(shù)的方法將基于結(jié)構(gòu)化信息的樹核函數(shù)和基于語義類別信息的核函數(shù)結(jié)合起來。在ACE RDC 2004 英文語料庫上的實驗表明[9],由于后者能調(diào)整兩種核函數(shù)的貢獻,因此性能比前者略有提高。但本文的重點在于探索語義信息對關(guān)系抽取的作用,為避免復(fù)合系數(shù)的調(diào)整問題,我們采用與文獻[20]相似的方法,將語義信息掛在句法樹的根結(jié)點下面,從而構(gòu)成合一句法和語義關(guān)系樹。

      例如,在關(guān)系實例“臺北 大安森林公園”中,實體“臺北”對應(yīng)的《詞林》“原子詞群”編碼為Cb25A11,“詞群”編碼為Cb25A,“小類”編碼為Cb25,“中類”編碼為Cb,“大類”編碼為C。如果考慮《詞林》“詞群”級別的語義信息,就將其對應(yīng)的語義類別編碼“Cb25A”掛在句法樹的根結(jié)點下,如圖1所示。其中句法樹結(jié)構(gòu)采用最短路徑包含樹(SPT,Shortest Path-enclosed Tree),而SC1、SC2分別表示其子結(jié)點為實體E1和實體E2的詞匯所對應(yīng)的語義編碼,“Bn20A”為“大安森林公園”的中心詞“公園”的詞群編碼。

      圖1 加入實體《詞林》詞群語義類別后的句法樹

      3.2 實體詞匯的一詞多義信息與結(jié)構(gòu)化信息的結(jié)合

      一詞多義是自然語言中的普遍現(xiàn)象,它對自然語言處理的很多任務(wù)都有影響。在ACE 2005中文語料庫上的統(tǒng)計表明,在《詞林》中具有一詞多義的實體詞匯占其總數(shù)的1/5還多,因而實體詞匯的“一詞多義”現(xiàn)象對關(guān)系抽取具有一定的影響。

      在關(guān)系實例中,不同的“一詞多義”的實體詞匯(簡稱為多義實體)所具有的詞義數(shù)是不同的,統(tǒng)計表明詞義數(shù)為2和3的多義實體占所有多義實體的80%左右,而詞義數(shù)7以上的多義實體則非常之少。因此,在考察“一詞多義”對關(guān)系抽取影響的實驗時,我們僅考慮詞義數(shù)為2-6的《詞林》語義信息。例如,當(dāng)詞義數(shù)為2時,圖1中的實體E1 “臺北”在《詞林》中具有2個詞義,其詞群編碼分別“Cb25A”、“Di03B”。把這兩個編碼都掛在具有相同標(biāo)識(即SC1)的父節(jié)點下面,即表示實體1的詞匯具有兩個含義,這樣在計算兩棵樹的相似度時,只要其中任何一個語義編碼匹配,相似度就能得到提高。

      3.3 實體詞匯的《詞林》語義信息的獲取

      為了將實體詞匯的語義信息加入到句法樹中,在生成了關(guān)系實例的SPT樹之后,需從《詞林》中抽取出語義類別信息,并將它插入到句法樹中,其處理流程如下:

      ① 從句法樹中找出實體E1和E2所對應(yīng)的詞匯LEX1和LEX2;

      ② 在《詞林》中查找LEX1和LEX2的語義類別編碼;

      ③ 如果某一詞匯的語義類別編碼不存在,則將該詞匯進行分詞,取分詞后最右邊的詞匯,再在《詞林》中查找相應(yīng)的語義類別編碼。設(shè)得到的語義類別分別為CODE1,CODE2;

      ④ 按照《詞林》的不同語義級別對CODE1,CODE2進行截段,得到最終的編碼分別為C1,C2;

      ⑤ 將C1,C2分別掛在句法樹根結(jié)點下的SC1,SC2結(jié)點下面。

      需要說明的是,第3步中的分詞非常必要,因為很多實體詞匯無法在《詞林》中找到相應(yīng)的語義編碼。據(jù)統(tǒng)計,這一類實體詞匯的數(shù)量超過實體總數(shù)的1/4。其主要原因是,很多實體的名稱都是較少出現(xiàn)的專用名詞,而語義辭典是不收錄頻度較少的專用名詞的,但其中心詞則是普通名詞,通常可以找到其語義類別。例如,在圖1的實例中,“大安森林公園”沒有收錄在《詞林》中,但分詞后的中心詞“公園”卻可以找到語義編碼。另外,在分詞時,對于人名則不作處理,因為人名雖然不能在《詞林》中找到語義編碼,但對其進行分詞卻也沒有意義。

      最后,當(dāng)要處理多義實體的一詞多義時,則需要在執(zhí)行第2步時從《詞林》中同時找出多個含義所對應(yīng)的語義編碼,同時加入到句法樹中。

      4 實驗設(shè)置與結(jié)果分析

      本節(jié)首先給出實驗設(shè)置,包括所使用的語料庫、分詞工具和分類器及性能評估指標(biāo),然后給出實驗結(jié)果,并對其進行分析。

      4.1 實驗設(shè)置

      本文采用ACE 2005中文語料庫作為中文語義關(guān)系抽取的實驗數(shù)據(jù)。該語料庫定義了中文實體之間的6個關(guān)系大類,18個關(guān)系小類,它包含633個文件,其中廣播新聞類298個,新聞專線類238個,微博和其它97個。采用句法分析器進行句法分析,在去除個別句法分析器不能正確處理的句子后,最終得到關(guān)系正例9 147個,關(guān)系負例97 540個。

      本文的分詞工具采用中國科學(xué)院計算技術(shù)研究所研制的基于多層HMM模型的漢語詞法分析系統(tǒng)ICTCLAS[22]。分類器采用支持卷積樹核函數(shù)的SVMLight TK[23]工具包,由于該工具包是一個二元分類器,我們采用一對多的方法將它轉(zhuǎn)換為多元分類器。特別地,相似度計算采用SST(SubSet Tree)核,衰減系數(shù)為0.4。為了充分利用語料庫資源,減少語料庫變化對實驗結(jié)論的影響,本文實驗采用五倍交叉驗證策略,最后取5次平均值作為最終的性能。評估標(biāo)準(zhǔn)采用常用的準(zhǔn)確率(P),召回率(R)和F1指標(biāo)(F1)。

      4.2 實驗結(jié)果與分析

      (1) 《詞林》不同級別的語義信息對中文關(guān)系抽取的影響

      圖2比較了《詞林》的不同級別(即“大類”、“中類”、“小類”、“詞群”、“原子詞群”)的語義信息對大類和小類關(guān)系抽取性能(即F1值)的影響,其中基準(zhǔn)系統(tǒng)是指不加入任何語義信息時SPT樹所取得的性能,每一次實驗分別加入一個級別的語義類別信息,橫坐標(biāo)表示《詞林》語義信息的不同級別,并且從左到右粒度不斷變細,縱坐標(biāo)則為關(guān)系的抽取性能,性能最高的F1值用粗體顯示。

      從圖2可以看出,分別加入《詞林》的“小類”/“詞群”級別的語義信息后大類/小類關(guān)系抽取的性能最佳,分別比基準(zhǔn)系統(tǒng)的F1值提高了4.8/5.9個百分點,這說明《詞林》語義信息能顯著提高中文關(guān)系抽取的性能。

      該圖同時也表明,無論是大類關(guān)系抽取,還是小類關(guān)系抽取,隨著加入《詞林》的語義信息的粒度的細化,F(xiàn)1值都是先升高后降低,且在“小類”/“詞群”級別時,性能達到最大值,這說明過于細化或泛化的語義信息都對關(guān)系抽取不利。

      圖2 《詞林》不同級別的語義信息對中文關(guān)系抽取的性能影響

      由于加入《詞林》的“小類”或“詞群”語義信息,對大類和小類的F1值差別都不大(相差0.2或0.1),因此在后續(xù)實驗中選取“小類”或“詞群”級別的語義原則上都可以。除非特別說明,本文的后續(xù)實驗都選擇 “詞群”級別的語義信息加入到句法樹中。

      (2) 《詞林》語義信息對中文關(guān)系抽取具體類別的影響

      由前面的實驗可以知道,在基準(zhǔn)系統(tǒng)的基礎(chǔ)上,加入“小類”或“詞群”語義信息,關(guān)系抽取的性能最高。表2和表3分別列出了加入“詞群”語義信息后的性能及其同基準(zhǔn)系統(tǒng)之間在各個大類和小類類別上的性能差異,其中P/R/F1為在5個數(shù)據(jù)集上的平均值,△P/△R/△F分別為在5個數(shù)據(jù)集上的P/R/F1的平均變化值,#表示該關(guān)系類別的實例數(shù),%為該類別的實例數(shù)占總數(shù)的百分比,~F為F1值的加權(quán)平均(即△F*%/100),它表明了某個類別上F1值的變化對總體性能變化的貢獻度。每一個性能指標(biāo)的最大值和最小值分別用加粗的雙底劃線和單底劃線標(biāo)出。

      從表3中可以看出,與大類抽取不同的是,加入“詞群”語義信息后,并非所有小類的性能都提高,而是呈現(xiàn)出不同的趨勢,從△F值來看:

      ? F1值增加幅度在3點以上的小類有10個,如Membership(10.0), Business/Subsidiary(8.5)和CRRE(7.9)等。這是由于這些關(guān)系中的專用名詞或其中心詞在《詞林》中具有相同的詞群編碼,因此語義信息的加入增加了樹結(jié)構(gòu)的相似性。例如,在“共產(chǎn)黨 領(lǐng)袖”、“塞爾維亞民主黨 提名 的 候選人”等短語中都存在著Membership關(guān)系,由于詞匯的稀疏性問題,在基準(zhǔn)系統(tǒng)中都被誤識別為Employment關(guān)系,而加入實體E1的詞匯語義編碼(Di07A)后,相似度得到提高;

      ? Near小類幾乎沒有增加,Artifact小類沒有變化,而Founder和Ownership小類則顯著降低。這是由于某些詞匯的分詞錯誤導(dǎo)致了錯誤的語義編碼,造成了關(guān)系的誤識別。例如,關(guān)系實例“雅虎 創(chuàng)辦人”為Founder關(guān)系,但實體 “雅虎”分詞后的中心詞“虎”明顯改變了實體的語義類別,從而導(dǎo)致該關(guān)系實例被錯誤識別。

      表2 “詞群”語義信息對關(guān)系抽取大類類別的性能影響

      表3 “詞群”語義信息對關(guān)系抽取小類類別的性能影響

      續(xù)表

      將表2和表3綜合起來考慮,可以發(fā)現(xiàn):

      ? 由于GEN-AFF大類中的兩個小類均有大幅度提高,且所占比例較高(約20%),因而導(dǎo)致該大類的性能貢獻度~F最大;

      ? ORG-AFF大類中的各個小類表現(xiàn)差別迥異,因而雖然該大類所占比例較高,但總體性能貢獻值卻小于PART-WHOLE 和GEN-AFF兩大類。

      綜上所述,《詞林》語義信息對所有大類關(guān)系抽取的F1值都有不同程度的提高,尤其對ART和GEN-AFF兩大類的影響最大;而對大部分小類關(guān)系抽取的性能也有不同程度的提高,如Membership, Subsidiary, Business和CRRE等提高幅度較大,而對Founder和Ownership等部分小類則明顯降低。

      (3) 《詞林》中實體詞匯的一詞多義現(xiàn)象對關(guān)系抽取性能的影響

      圖3比較了《詞林》中實體詞匯的一詞多義對大類和小類關(guān)系抽取性能(即F1值)的影響,每一次實驗都是在前面實驗的基礎(chǔ)上再加入一個額外的語義信息,橫坐標(biāo)表示詞義數(shù)從1變化到6,縱坐標(biāo)則表示抽取性能的F1值。同樣,最高性能用粗體表示。

      圖3 《詞林》中的實體詞匯的一詞多義對中文關(guān)系抽取的性能影響

      由圖3可以看出,加入一詞多義信息并不能改善關(guān)系抽取的性能,反而隨著多義詞詞義數(shù)的不斷增加,F(xiàn)1值逐漸下降。通過分析,發(fā)現(xiàn)其原因是由于關(guān)系實例中的實體詞匯在ACE新聞類語料庫中的語義通常都是較為常見的一種,考慮一詞多義(即加入該實體不常用的語義)后,反而增加了噪音信息,并且樹的結(jié)構(gòu)更為龐大,從而降低了關(guān)系抽取的性能。

      (4) 《詞林》語義信息與實體類型信息的冗余度

      實體本身也有大類和小類等類別信息,它們和實體詞匯的語義信息之間是否存在冗余呢?我們首先從總體性能上分析了《詞林》語義信息和實體類型信息的性能影響,然后從具體關(guān)系類別上進行比較。

      1. 從總體性能上比較《詞林》語義信息與實體類型信息的影響

      表4比較了在基準(zhǔn)系統(tǒng)的基礎(chǔ)上,加入不同組合的《詞林》詞群語義信息和實體類型信息(實體大類和小類)后中文關(guān)系抽取的總體性能,其中大類和小類關(guān)系抽取的最高性能用粗體表示。

      表4 《詞林》語義信息和實體類型信息的性能比較

      從表4可以看出,同基準(zhǔn)系統(tǒng)相比,加入實體大類、實體小類和《詞林》語義等所有信息后,無論是大類抽取,還是小類抽取都取得了最好的性能,F(xiàn)1值分別為66.8/64.8,且P值和R值同時顯著提高,這說明這些語義信息對中文關(guān)系抽取都有一定的作用。此外,該表還表示:

      ? 單獨加入實體大類、實體小類或詞林詞群等信息之一,實體小類取得了最好的性能提高。這說明實體小類信息能更準(zhǔn)確地刻畫實體的本質(zhì),更好地區(qū)分關(guān)系的類型,而《詞林》詞群語義信息盡管類別更細,但它是針對通用領(lǐng)域的,不一定最適合新聞領(lǐng)域的關(guān)系抽取;

      ? “實體小類+詞林詞群”的大類F1值比“詞林詞群”的大類F1值高出5.4點,而比“實體小類”的大類F1值只高出0.6點,這說明就關(guān)系抽取而言,實體小類覆蓋了詞林詞群中的大部分語義信息,反之則不然。同理,實體大類也覆蓋了詞林詞群中的大部分語義信息,因為“實體大類+詞林詞群”的大類F1值比“詞林詞群”的大類F1值高出5.5點,而比“實體大類”的大類F1值只高出1.3點。

      ? 最后很重要的一點是,在“基準(zhǔn)系統(tǒng)”的基礎(chǔ)上加入“詞林詞群”,大類抽取的F1值提高了4.6點,小類抽取的F1值提高了5.9點,而在“實體大類+實體小類”的基礎(chǔ)上,再加入“詞林詞群”, 大類抽取的F1值只提高了0.4點,小類抽取的F1值也只提高了1.1點??梢钥闯鰧嶓w類型的加入嚴(yán)重削弱了語義信息對抽取性能的提高幅度,那么這是否意味著語義信息對關(guān)系抽取來說意義就不大了呢?答案是否定的。其一,我們現(xiàn)在加入實體類型時,假設(shè)它是完全正確的。在實際的命名實體識別系統(tǒng)中,總會有錯誤產(chǎn)生,尤其是對于實體小類,因而實際應(yīng)用中的實體類型是有噪音的,它對性能的提高不可能有預(yù)期的那么大,而《詞林》語義信息則是從現(xiàn)存的語義辭典《同義詞詞林》中提取的,它不存在這個問題。其二,語義信息對不同關(guān)系類型的抽取性能表現(xiàn)出多樣性,這就是下面的分析所要說明的問題。

      2. 從具體關(guān)系類型的性能上比較“詞群”語義和實體類型的影響

      為了比較《詞林》語義信息和實體類型信息的冗余性對具體關(guān)系類型抽取的影響,表5列出了各個小類關(guān)系的F1值、△F值。其中“詞林詞群-BL”和“實體類型-BL”分別表示在基準(zhǔn)系統(tǒng)的基礎(chǔ)上加入詞林詞群或?qū)嶓w類型(實體大類+實體小類)后的F1值和△F值,“(類型+詞群)-類型”表示在實體類型的基礎(chǔ)上加入詞林詞群后的F1值和△F值,小類關(guān)系按此△F值降序排列。從表5中可以看出:

      表5 實體類型信息與詞林語義在小類關(guān)系上的F1值及其變化

      續(xù)表

      ? 在表格中雙劃線以上的小類關(guān)系,如Business, Lasting-Personal和 Sports-Affiliation等,在實體類型的基礎(chǔ)上再加入《詞林》語義信息時,其性能提高幅度(△F值)都在1點以上。尤其是三個小類關(guān)系(用底劃線表示),Business、Lasting-Personal和 Student-Alum,單獨加入實體類型并不能明顯提高性能(0.9/-10.3/-1.4),甚至降低,但在加入實體類型后,《詞林》語義信息顯示了它更強勁的性能提升作用。這說明對于這些小類關(guān)系而言,實體類型信息和《詞林》語義信息可以相互補充,并且只有這樣才能更好地抽取這些小類關(guān)系;

      ? 在表格中雙劃線以下的小類關(guān)系(除占比例較少的Founder和Artifact小類關(guān)系之外),如Org-Location,Geographical,Located等,實體類型的加入,嚴(yán)重削弱了《詞林》語義信息對抽取性能的提升作用。即單獨加入實體類型就已經(jīng)取得了非常顯著的性能提升,再加入《詞林》語義信息不會明顯提高其性能,特別是對Geographical/Located/UOIM等小類,《詞林》語義信息的加入反而損害了它們的抽取性能,這說明對這些小類關(guān)系而言,實體類型信息已包含了大部分的《詞林》語義信息內(nèi)涵,兩者冗余度較高。

      綜上所述,雖然從總體性能上看,在已知實體類型的前提下,加入《詞林》語義信息的效果不明顯,但是,如果是對某些特定語義關(guān)系的抽取,如Business,Lasting-Personal和 Student-Alum以及Sports-Affiliation,Investor-Shareholder和CRRE等,加入《詞林》語義信息還是非常有用的。

      5 總結(jié)與展望

      本文利用了現(xiàn)有的中文語義資源《同義詞詞林》,探討了《詞林》語義對中文關(guān)系抽取的影響,通過實驗我們發(fā)現(xiàn),《詞林》詞群級別的語義信息能顯著提高中文關(guān)系抽取的性能,但考慮一詞多義卻不能提高抽取性能。另外,《詞林》詞群語義和實體類型信息存在著一定程度的冗余,因此在已知實體類型的前提下加入《詞林》詞群語義時關(guān)系抽取總體性能提高較少,但是對某些特定語義關(guān)系的抽取,如Business,Lasting-Personal等,性能卻有明顯的提升,這說明只有《詞林》語義信息和實體類型信息相互補充,相輔相成,才能更好地提升中文語義關(guān)系抽取的性能。

      下一步的研究工作我們將從以下幾個方面展開,一是通過將詞匯語義相似度嵌入到樹核函數(shù)中的方法來考慮語義信息對關(guān)系抽取的影響,并和本文的方法進行比較;二是考慮實體信息自動標(biāo)注的情況下,實體類型和詞匯語義信息對關(guān)系抽取的影響;三是將中文抽取方面的研究工作推廣到英文關(guān)系抽取中,考察WordNet對關(guān)系抽取的影響。

      [1] Nanda Kambhatla. Combining lexical, syntactic and semantic features with Maximum Entropy models for extracting relations[C]//Proceedings of the ACL. Morristown, NJ, USA, 2004: 178-181.

      [2] Zhou GuoDong, Su Jian, Zhang Jie, et al. Exploring various knowledge in relation extraction[C]//Proceedings of the ACL, 2005:427-434.

      [3] Zhou G D, Qian L H, Fan J X. Tree kernel-based semantic relation extraction with rich syntactic and semantic information[C]//Proceedings of the Information Sciences, 2010:1313-1325.

      [4] Chan Y S, Roth D. Exploiting Background Knowledge for Relation Extraction[C]//Proceedings of the COLING, 2010:152-160.

      [5] Sun A, Grishman R, Sekine S. Semi-supervised Relation Extraction with Large-scale Word Clustering[C]//Proceedings of the ACL, 2011:521-529.

      [6] Zhang M, Zhang J, Su J, et al. A Composite Kernel to Extract Relations between Entities with both Flat and Structured Features[C]//Proceedings of the COLING-ACL. Sydney, Australia, 2006:825-832.

      [7] Zhou G D, Zhang M, Ji D H, et al. Tree Kernel-based Relation Extraction with Context-Sensitive Structured Parse Tree Information[C]//Proceedings of the EMNLP/CoNLL. Prague,Czech, 2007:728-736.

      [8] Zhou G D, Zhu Q M. Kernel-based semantic relation detection and classification via enriched parse tree structure[J]. Journal of Computer Science and Technology. 2011. 26(1):45-56.

      [9] Qian L H, Zhou G D, Kong F, et al. Exploiting constituent dependencies for tree kernel-based semantic relation extraction[C]//Proceedings of the COLING. Manchester, 2008:697-704.

      [10] Qian L H, Zhou G D, Zhu Q M. Employing Constituent Dependency Information for Tree Kernel-based Semantic Relation Extraction between Named Entities[C]//Proceedings of the ACM Transaction on Asian Language Information Processing. 2011. 10(3): Article 15(24pages).

      [11] Culotta A, Sorensen J. Dependency tree kernels for relation extraction[C]//Proceedings of the ACL. Barcelona, Spain, 2004:423-429.

      [12] Bunescu R C, Raymond J M. A Shortest Path Dependency Kernel for Relation Extraction[C]//Proceedings of the EMNLP. Vancover, B.C, 2005:724-731.

      [13] Nguyen T T, Moschitti A, Riccardi G. Convolution Kernels on Constituent, Dependency and Sequential Structures for Relation Extraction[C]//Proceedings of the EMNLP, 2009: 1378-1387.

      [14] 車萬翔, 劉挺, 李生. 實體關(guān)系自動抽取[J]. 中文信息學(xué)報, 2005,19(2): 1-6.

      [15] 董靜, 孫樂, 馮元勇, 黃瑞紅. 中文實體關(guān)系抽取中的特征選擇研究[J]. 中文信息學(xué)報, 2007,21(4): 80-85, 91.

      [16] Li W J, Zhang P, Wei F R, et al. A Novel Feature-based Approach to Chinese Entity Relation Extraction[C]//Proceedings of the ACL. Columbus, Ohio, USA, 2008: 89-92.

      [17] Che W X, Jiang J M, Su Z, et al. Improved-Edit-Distance Kernel for Chinese Relation Extraction[C]//Proceedings of the IJCNLP. 2005: 132-137.

      [18] 劉克彬, 李芳, 劉磊, 韓穎. 基于核函數(shù)中文關(guān)系自動抽取系統(tǒng)的實現(xiàn)[J]. 計算機研究與發(fā)展, 2007,44(8): 1406-1411.

      [19] 黃瑞紅, 孫樂, 馮元勇, 黃云平. 基于核方法的中文實體關(guān)系抽取研究[J]. 中文信息學(xué)報, 2008, 22(5): 102-108.

      [20] 虞歡歡, 錢龍華, 周國棟, 朱巧明. 基于合一句法和實體語義樹的中文語義關(guān)系抽取[J]. 中文信息學(xué)報, 2010,24(5): 17-23.

      [21] 梅家駒, 竺一鳴, 高蘊琦, 殷鴻翔.同義詞詞林(第二版)[M].上海:上海辭書出版社, 1996.

      [22] Zhang H P, Yu H K, Xiong D Y, et al. HHMM-based Chinese Lexical Analyzer ICTCLAS[C]//Proceedings of the 2nd SIGHAN workshop affiliated with 41th ACL. Sapporo Japan, 2003:184-187.

      [23] Moschitti A. A Study on Convolution Kernels for Shallow Semantic Parsing[C]//Proceedings of the ACL. Barcelona, Spain, 2004:335.

      劉丹丹(1987—),碩士研究生,主要研究領(lǐng)域為信息抽取。

      E-mail: liudandan219@163.com

      彭成(1987—),碩士研究生,主要研究領(lǐng)域為信息抽取。

      E-mail: 719864778@qq.com

      錢龍華(1966—),副教授,碩士生導(dǎo)師,主要研究領(lǐng)域為自然語言處理。

      E-mail: qianlonghua@suda.edu.cn

      猜你喜歡
      小類多義實體
      前海自貿(mào)區(qū):金融服務(wù)實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      浙江配電網(wǎng)物資標(biāo)準(zhǔn)化研究與應(yīng)用
      兩會進行時:緊扣實體經(jīng)濟“釘釘子”
      振興實體經(jīng)濟地方如何“釘釘子”
      維吾爾語動詞“t∫iqmap”多義范疇的語義延伸機制
      語言與翻譯(2015年2期)2015-07-18 11:09:55
      一個所謂多義句式的本來面目
      多車道自由流技術(shù)在多義路徑識別領(lǐng)域的應(yīng)用
      俄語動詞隱喻的語義解讀*——兼動詞多義的分析
      小類:年輕人要多努力
      大學(xué)(2008年10期)2008-10-31 12:51:10
      南开区| 酒泉市| 郸城县| 株洲市| 德格县| 宁强县| 油尖旺区| 夏邑县| 宣威市| 洛隆县| 日土县| 咸阳市| 麦盖提县| 天镇县| 威宁| 新疆| 精河县| 应用必备| 汉沽区| 兴安盟| 保定市| 区。| 宜州市| 大悟县| 青田县| 精河县| 西平县| 板桥市| 都江堰市| 邓州市| 宝丰县| 宝坻区| 噶尔县| 康保县| 南溪县| 泰来县| 仁寿县| 长子县| 蒙城县| 册亨县| 张家川|