徐 霞,李培峰,朱巧明
(1. 蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;2. 江蘇省計(jì)算機(jī)信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215006)
一個(gè)半監(jiān)督的中文事件抽取方法
徐 霞1,李培峰2,朱巧明2
(1. 蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;2. 江蘇省計(jì)算機(jī)信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215006)
半監(jiān)督或無(wú)監(jiān)督的事件抽取方法在目前依舊是一個(gè)具有挑戰(zhàn)性的課題。針對(duì)中文本身在表述中存在的固有特點(diǎn),該文提出一種基于雙視圖的事件抽取自舉學(xué)習(xí)方法。該方法以少量種子為基礎(chǔ),從文檔相關(guān)度與語(yǔ)義相似度兩個(gè)視圖出發(fā),進(jìn)行交互過(guò)濾篩選,不斷抽取新的有效事件模板,為事件抽取服務(wù)。在ACE2005中文語(yǔ)料上的測(cè)試表明,和現(xiàn)有方法相比,該方法可以有效地提高中文信息事件抽取系統(tǒng)的性能。
事件抽??;自舉;文檔相關(guān)度;語(yǔ)義相似度
互聯(lián)網(wǎng)時(shí)代如何從海量電子文檔中及時(shí)準(zhǔn)確地找到需要的信息己經(jīng)成為一個(gè)亟待解決的問(wèn)題,信息抽取正是在這樣的背景下產(chǎn)生并發(fā)展起來(lái)的。事件抽取是信息抽取領(lǐng)域一個(gè)重要的研究方向,事件抽取主要把人們感興趣的,用自然語(yǔ)言表達(dá)的事件以結(jié)構(gòu)化的形式呈現(xiàn)出來(lái),如什么人,什么地方,什么時(shí)間,做了什么事等,在數(shù)據(jù)挖掘、文本摘要、自動(dòng)問(wèn)答以及信息檢索等領(lǐng)域有著廣泛的應(yīng)用。
傳統(tǒng)的事件模板獲取方法需要人工對(duì)訓(xùn)練語(yǔ)料進(jìn)行標(biāo)注,然后使用有監(jiān)督的機(jī)器學(xué)習(xí)方法從中學(xué)出相應(yīng)的事件模板,由人工進(jìn)行瀏覽并決定取舍。這種方法依賴于大量標(biāo)注好的語(yǔ)料,訓(xùn)練數(shù)據(jù)的獲取費(fèi)時(shí)費(fèi)力。當(dāng)訓(xùn)練語(yǔ)料發(fā)生變化時(shí),事件模板還需要重新提取,因此代價(jià)很高。
為了進(jìn)一步減少人工標(biāo)注,提高系統(tǒng)的移植性,學(xué)者們已經(jīng)開(kāi)始探索使用半監(jiān)督的方法來(lái)獲取事件模板。Yangarber[1]等人在MUC-6英文語(yǔ)料上實(shí)現(xiàn)了“管理繼承”類型事件的抽取,他們?cè)陬A(yù)定義種子模板(觸發(fā)詞-論元形式)的基礎(chǔ)上應(yīng)用了文檔相關(guān)度方法,利用相關(guān)文檔和特定類型事件強(qiáng)烈相關(guān)這一特性發(fā)現(xiàn)相關(guān)文檔中的模板,取得了準(zhǔn)確率80%和召回率78%的實(shí)驗(yàn)結(jié)果。但是,中文具有和英文不一樣的特點(diǎn)。和英文相比,由于中文詞匯表達(dá)的靈活性,事件觸發(fā)詞個(gè)數(shù)要遠(yuǎn)大于英文觸發(fā)詞。例如,在ACE 2005語(yǔ)料中,描述相同事件個(gè)數(shù)的中英文對(duì)比顯示,中文觸發(fā)詞的個(gè)數(shù)要比英文多30%[2]。從這個(gè)角度來(lái)講,觸發(fā)詞擴(kuò)展是中文半監(jiān)督事件抽取的關(guān)鍵所在,就像英文半監(jiān)督事件抽取更加偏重于區(qū)分同一觸發(fā)詞的真假實(shí)例。所以,英文中的文檔相關(guān)度方法不能直接應(yīng)用到中文中。另一方面,文檔相關(guān)度方法嚴(yán)重依賴種子模板,直接將該方法用在中文事件抽取中會(huì)出現(xiàn)很低的召回率。
很明顯,與種子模板相似度高的模板描述該類型事件的可能性相對(duì)較大。所以,從語(yǔ)義相似度的角度發(fā)現(xiàn)與種子模板相似度高的模板,從而進(jìn)行模板擴(kuò)展是另外一種方法。但是,該方法也存在問(wèn)題,那就是存在大量的無(wú)效模板,會(huì)迅速惡化抽取結(jié)果的準(zhǔn)確率。
為此,本文提出一種利用兩個(gè)視圖彼此交互過(guò)濾的方法,從文檔相關(guān)度與語(yǔ)義相似度兩個(gè)視圖出發(fā),采用半監(jiān)督自舉(Bootstrapping)方法不斷得到新的種子模板,最后抽取出特定類型的事件實(shí)例,有效地提高了中文事件抽取系統(tǒng)的性能。
本文的結(jié)構(gòu)組織如下,第二節(jié)介紹相關(guān)工作;第三節(jié)講述事件抽取基準(zhǔn)系統(tǒng)和存在的問(wèn)題;第四節(jié)基于雙視圖的半監(jiān)督中文事件抽取方法;第五節(jié)是實(shí)驗(yàn)結(jié)果與分析;第六節(jié)為總結(jié)并對(duì)下一步工作進(jìn)行了展望。
目前,涉及半監(jiān)督或無(wú)監(jiān)督的事件抽取研究較少。
在半監(jiān)督方法中,基于文檔相關(guān)度方法是一種常用的方法。該方法把含有大量被選為特定類型模板的文檔稱為相關(guān)文檔,其余稱為不相關(guān)文檔。它假設(shè)相關(guān)文檔可能包含更多的相關(guān)模板,那么從這些相關(guān)文檔中抽取模板是一種高效的方法。Riloff[3]首先指出語(yǔ)料庫(kù)可分為含有特定類型事件和不含有該特定類型事件的兩部分文檔集,可以用出現(xiàn)在相關(guān)文檔和不相關(guān)文檔的頻率來(lái)評(píng)估模板。Yangarber等人[4]用Bootstrapping方法實(shí)現(xiàn)了Riloff的方法,他們不需要手動(dòng)文檔分類或語(yǔ)料注釋,先定義幾個(gè)種子模板,用這些種子模板計(jì)算文檔的相關(guān)度,然后對(duì)模板進(jìn)行打分(根據(jù)其所在文檔的相關(guān)度),將高分的模板加入種子集,循環(huán)此過(guò)程。Surdeanu等人[5]使用了一種混合的方法獲取信息抽取模板,他們使用Co-Training方法,把文檔中出現(xiàn)的詞匯和文檔中出現(xiàn)的模板作為兩種條件獨(dú)立的視角,從這兩個(gè)視角出發(fā)訓(xùn)練出兩個(gè)一致的文檔分類器。當(dāng)兩個(gè)分類器都收斂時(shí),模板的獲取過(guò)程結(jié)束。Stevenson和Greenwood依據(jù)語(yǔ)義相似度為中心[6]提出一種新的模板排序替代方法,使用WordNet[7]來(lái)得到詞語(yǔ)的相似度,然后構(gòu)建模板的矢量,用余弦?jiàn)A角值來(lái)度量模板之間的相似性。Liao 和Grishman[8]提出了一種過(guò)濾排名方法,在文檔相關(guān)度為中心的方法中過(guò)濾語(yǔ)義相似度低的模板。
3.1 基準(zhǔn)系統(tǒng)
本文采用紐約大學(xué)的Exdisco[4]作為基準(zhǔn)系統(tǒng)。該系統(tǒng)對(duì)于一個(gè)特定的事件類型T,要求用戶提供幾個(gè)對(duì)于T有代表性的種子模板,然后以文檔相關(guān)度方法來(lái)評(píng)估模板,學(xué)習(xí)出更多的與T相關(guān)的模板,這些新的模板又被用于下一輪迭代,這樣循環(huán)往復(fù),直到收斂。Exdisco系統(tǒng)的事件模板自動(dòng)獲取過(guò)程如下。
(1) 初始化: 定義幾個(gè)事件抽取模板作為種子模板;
(2) 計(jì)算文檔的相關(guān)度: 系統(tǒng)根據(jù)當(dāng)前的種子模板集來(lái)計(jì)算每個(gè)文檔的相關(guān)度;
(3) 對(duì)候選抽取模板評(píng)估: 依據(jù)候選模板所在文檔集的相關(guān)度,對(duì)候選抽取模板打分;
(4) 產(chǎn)生新的種子模板集: 依據(jù)得分對(duì)候選抽取模板進(jìn)行排序,將分值高的候選抽取模板加入種子模板集;
(5) 返回步驟2,經(jīng)過(guò)一定次數(shù)的迭代或者不再生成新的模板為止;
3.2 中文事件抽取存在的問(wèn)題
通過(guò)對(duì)基準(zhǔn)系統(tǒng)的分析,我們發(fā)現(xiàn)該方法在中文中沒(méi)有像在英文中表現(xiàn)出色,究其原因是因?yàn)檎Z(yǔ)言的差異。與英文相比,漢語(yǔ)語(yǔ)義結(jié)構(gòu)上的復(fù)雜性與多變性以及詞與詞之間無(wú)自然界限、無(wú)詞尾形式標(biāo)志、無(wú)形態(tài)變化等這些現(xiàn)象的存在,給事件抽取帶來(lái)了困難,具體表現(xiàn)在以下四個(gè)方面。
(1) 通過(guò)大量真實(shí)語(yǔ)料的分析發(fā)現(xiàn),對(duì)一類特定事件的描述,中文文本中找到所有表達(dá)該事件的觸發(fā)詞個(gè)數(shù)要遠(yuǎn)大于英文文本中的觸發(fā)詞,難以統(tǒng)計(jì)完全。
(2) 與英語(yǔ)相比,中文句子的結(jié)構(gòu)更靈活,句子元素之間的耦合度更松,在具體的上下文中,各種成分都可以被省略,限制了句法分析的應(yīng)用。
(3) 在語(yǔ)料庫(kù)里存在著一詞多義的現(xiàn)象,有些觸發(fā)詞,如“來(lái)”、“去”等意義過(guò)多,對(duì)詞義消歧要求比較高。
(4) 中文中存在很多詞義相近的觸發(fā)詞,一旦由無(wú)效觸發(fā)詞構(gòu)成的無(wú)效模板增多,越來(lái)越多的非目標(biāo)事件會(huì)被抽取,事件抽取系統(tǒng)的準(zhǔn)確率會(huì)快速下降。
以上問(wèn)題在中文事件抽取表現(xiàn)在: 1)文檔相關(guān)度方法可以在相關(guān)文檔集中識(shí)別出大量事件,但是對(duì)種子模板的要求比較高,中文中表達(dá)特定類型事件的觸發(fā)詞難以全面列出;2)語(yǔ)義相似度方法可以不受文檔的限制,跨文檔發(fā)現(xiàn)與種子模板相似度高的事件模板,可以很好地對(duì)種子模板進(jìn)行擴(kuò)充,但是其存在的致命缺點(diǎn)是準(zhǔn)確率低。所以,為了能夠精確而全面地?cái)U(kuò)展中文事件模板,本文豐富了事件模板的特征信息,提出利用雙視圖相互訓(xùn)練擴(kuò)展事件模板,結(jié)合文檔相關(guān)度和語(yǔ)義相似度的自舉方法,并且各自加入過(guò)濾器提高精度。這種雙視圖彼此交互過(guò)濾,迭代循環(huán)擴(kuò)展事件模板的方法可以很好地抽取中文的事件實(shí)例。
4.1 基本思路
圖1(a)描述了文檔相關(guān)度方法,假設(shè)高相關(guān)度文檔中包含更多相關(guān)模板,重點(diǎn)在每個(gè)相關(guān)文檔中學(xué)習(xí)出與種子模板經(jīng)常重現(xiàn)或同現(xiàn)的同類或相關(guān)類別的事件模板(例如,死亡(Die)類新聞中有大量描述人員死亡、受傷等類別事件)。該方法的缺點(diǎn)是無(wú)法從低相關(guān)度文檔中學(xué)習(xí)那些不常見(jiàn)或和種子模板匹配度低的模板,其性能嚴(yán)重受限于種子模板的覆蓋面。例如,Liao和Grishman[8]使用了34個(gè)種子模板來(lái)抽取攻擊(Attack)事件,就是為了提供盡可能多的種子模板。當(dāng)把該方法應(yīng)用到中文事件抽取時(shí),由于中文句子結(jié)構(gòu)相對(duì)比英文復(fù)雜、結(jié)構(gòu)欠嚴(yán)謹(jǐn),導(dǎo)致種子模板很難具有較好的覆蓋面。
圖1 方法比較
圖1(b)給出語(yǔ)義相似度方法,假設(shè)與種子模板相似度高的模板更可能是事件模板,可以不受文檔的限制,跨文檔地發(fā)現(xiàn)表達(dá)同一事件的模板(例如,不同文檔里出現(xiàn)的“毆打”、“抽打”、“痛打”都同屬一類事件),存在的問(wèn)題是同現(xiàn)模板不易被發(fā)現(xiàn)。而且,由于中文詞語(yǔ)存在的多義性,導(dǎo)致語(yǔ)義相似度方法會(huì)帶來(lái)大量的錯(cuò)誤模板。
圖1(c)是本文針對(duì)中文事件抽取提出了一種雙視圖的方法,結(jié)合文檔相關(guān)度和語(yǔ)義相似度兩個(gè)方法,不僅可以跨文檔發(fā)現(xiàn)同一事件的模板,擴(kuò)大相關(guān)文檔的范圍,而且可以在同一文檔內(nèi)發(fā)現(xiàn)一同出現(xiàn)的事件模板,兩者相互促進(jìn),相輔相成,共同影響中文信息事件抽取系統(tǒng)的性能。
4.2 雙視圖自舉方法
為了提高中文事件抽取系統(tǒng)的性能,必須能夠精確而全面地識(shí)別出中文事件模板,本文的雙視圖自舉方法以文檔相關(guān)度與語(yǔ)義相似度兩個(gè)視圖為基礎(chǔ),形成彼此交互過(guò)濾的有序集,將兩個(gè)有序集中最優(yōu)的模板同時(shí)加入種子模板,不斷循環(huán)此過(guò)程,直到不再產(chǎn)生新的模板為止。算法1給出了基于雙視圖彼此交互過(guò)濾的半監(jiān)督算法的描述。
算法1:雙視圖自舉中文事件模板和事件抽取方法 輸入: 候選事件模板集Candidate 種子觸發(fā)詞集Seed 輸出: 事件模板集Pattern,抽取的事件集Event
算法流程:
1) Pattern ← ?,Event ← ?
2) Pattern ← Candidate中含有Seed中觸發(fā)詞的事件模板集
3) Candidate = Candidate - Pattern
迭代過(guò)程
4) 計(jì)算每個(gè)文檔di的相關(guān)度Rel(di)
5) 計(jì)算每個(gè)候選模板p的得分Score(p),降序形成有序集C1
6) 計(jì)算每個(gè)候選模板p與Pattern之間的每個(gè)模板的相似度均值Sim_ave(p),降序形成有序集C2
7) 過(guò)濾掉C1中觸發(fā)詞相似度低于閾值a的事件模板,過(guò)濾掉C2中得分低于閾值b的事件模板
8) 分別從C1、C2中選擇得分和相似度均值最高的一個(gè)模板p1、p2
9) 把模板p1、p2加入事件模板Pattern,同時(shí)更新候選事件模板Candidate: Pattern = Pattern∪p1∪p2,Candidate = Candidate-{p1∪p2}
10) 不斷循環(huán)過(guò)程4-9,直到不再產(chǎn)生新的模板為止
迭代結(jié)束
11) Event ← Pattern模板可以匹配的所有事件
本文主要實(shí)現(xiàn)上述基于雙視圖彼此交互過(guò)濾的算法,采用Bootstrapping半監(jiān)督的方法不斷擴(kuò)展種子模板,指導(dǎo)中文的事件抽取。在算法1中,需要解決三個(gè)問(wèn)題: 1)模板的定義;2)計(jì)算語(yǔ)義相似度;3)計(jì)算文檔相關(guān)度。
4.3 模板的定義
事件模板用來(lái)指導(dǎo)從中文文本抽取事件。為了更好地計(jì)算模板之間的相似度,在觸發(fā)詞-論元形式上豐富了觸發(fā)詞與論元之間的句法特征,及論元的類別特征。本文從詞法特征、類別/子類別特征、句法結(jié)構(gòu)特征多角度描述模板。其中,詞法特征包括候選事件中的事件觸發(fā)詞(Trigger)、事件觸發(fā)詞的詞性信息(TriggerPOS)和與觸發(fā)詞關(guān)聯(lián)的事件元素(論元Argument);類別/子類別特征包括論元的類別(Enttype)和論元的子類別(Subenttype);句法結(jié)構(gòu)包括觸發(fā)詞與論元之間依存路徑(Path)。
事件觸發(fā)詞、論元及其相關(guān)特征構(gòu)成了事件模板的框架,本文的事件模板組成包括: 觸發(fā)詞、論元、詞性、(子)類別、依存路徑,為模板定義一個(gè)六元組Pattern=(Trigger,TriggerPOS,Arguement,Enttype,Subenttype,Path)。
4.4 計(jì)算文檔相關(guān)度
文檔相關(guān)度可從側(cè)面反映候選模板成為事件模板的可能性,以文檔相關(guān)度方法來(lái)評(píng)估候選模板時(shí),首先對(duì)中文文本進(jìn)行預(yù)處理,多特征角度描述候選模板,預(yù)定義種子模板。本文對(duì)Yangarber等人[4]的方法進(jìn)行了優(yōu)化,得到了如下的計(jì)算方法。
初始化: 種子模板的精確度為1,其它為0,種子模板所在文檔的相關(guān)度為1,其它為0。
在i+1次循環(huán)中,對(duì)每個(gè)模板p計(jì)算其精確度:
(1)
其中,H(p)是模板p所在的文檔集,Reli(d)是第i次循環(huán)文檔d的相關(guān)度。Reli+1(d)的計(jì)算公式如式(2)所示。
(2)
其中,Kd是指文檔d中已被選為種子模板的模板集,Preci+1(Kd)是模板集Kd的精確度。Preci+1(Kd)的計(jì)算公式如式(3)所示。
(3)
其中,H(Kd)是出現(xiàn)了文檔d中被選為種子模板的文檔集。
然后,我們對(duì)每一個(gè)候選模板p進(jìn)行打分:
當(dāng)Sup(p)=0時(shí),Score(p)=0
(4)
式(4)中,“Sup(p)=1”與“Sup(p)=0”都出現(xiàn)Score(p)=0這一情況,為區(qū)別非相關(guān)模板與所在文檔集的相關(guān)度之和為1的相關(guān)模板,對(duì)相關(guān)模板設(shè)定一個(gè)對(duì)Score影響很小的系數(shù)0.1,即當(dāng)Sup(p)=1時(shí),Sup(p)=Sup(p)+0.1。
最后,將最高分值的模板加入種子模板,進(jìn)入下一個(gè)循環(huán),直到不再產(chǎn)生新的種子模板。
4.5 計(jì)算語(yǔ)義相似度
與種子模板相似度高的模板更可能成為該類型的事件模板,本文用語(yǔ)義相似度來(lái)反映它們之間的相似程度。每一個(gè)模板p由觸發(fā)詞f、論元類型t和觸發(fā)詞與論元之間的依存關(guān)系d組成,它們之間的語(yǔ)義相似性取決于這些詞及特征關(guān)系之間的相似性,本文模板之間的語(yǔ)義相似度計(jì)算方法如式(5)所示。
Sim(p1,p2)=maxsim·S1(d1,d2)·S2(t1,t2)
(5)
maxsim指候選模板與種子觸發(fā)詞之間最大的詞匯語(yǔ)義相似度:
(6)
(7)
S2(t1,t2)是指候選模板中論元類型t1與種子模板中論元類型t2之間的差異值,本文用式(8)來(lái)反映不同類別的論元之間的差異性。
(8)
(9)
這樣本文可以計(jì)算出候選模板與種子模板之間的語(yǔ)義相似度,為了更加綜合地衡量模板間的語(yǔ)義相似度,本文對(duì)候選模板的評(píng)估是根據(jù)它們與種子模板之間語(yǔ)義相似度的均值Sim_ave,式(9)更具有合理性和一般性。
5.1 實(shí)驗(yàn)環(huán)境
本文的實(shí)驗(yàn)數(shù)據(jù)是ACE 2005中文語(yǔ)料,該語(yǔ)料將事件的類別主要分為八個(gè)大類及33個(gè)子類。本實(shí)驗(yàn)主要通過(guò)定義的種子模板抽取出其中就有代表性的Injure、Die、Attack三類事件。對(duì)語(yǔ)料庫(kù)中633個(gè)中文文本統(tǒng)計(jì)表明,Injure事件有163個(gè),Die事件有243個(gè),Attack事件有534個(gè)。評(píng)價(jià)指標(biāo)是準(zhǔn)確率P、召回率R和F1值。
實(shí)驗(yàn)中的中文文本以句子為單位,利用蘇州大學(xué)自然語(yǔ)言處理平臺(tái)集成的工具進(jìn)行分詞、詞性標(biāo)注和實(shí)體類別識(shí)別。在此基礎(chǔ)上進(jìn)行句法和依存分析,得到依存和句法分析樹(shù)。將詞性為動(dòng)詞或名詞的詞匯作為觸發(fā)詞,依次與該句中的實(shí)體形成觸發(fā)詞-論元式,并記錄論元的類別、依存關(guān)系等特征,得到本文的候選模板。
對(duì)Injure、Die、Attack三類事件的抽取工作依賴于事件模板,中文事件的的種子模板人工很難詳細(xì)給出。本文是通過(guò)種子觸發(fā)詞得到種子模板,將候選模板中包含種子觸發(fā)詞的模板選為種子模板。這就需要既能代表特定類型事件又有固定語(yǔ)義的詞匯作為種子觸發(fā)詞,本文提供了最少量的觸發(fā)詞,具體如下:
? Injure事件: “傷”
? Die事件: “死”
? Attack事件: “攻擊”、“沖突”、“打”
這樣包含這五個(gè)種子觸發(fā)詞的候選模板就是最初的種子模板。
5.2 實(shí)驗(yàn)結(jié)果
本文提出的基于雙視圖的事件抽取自舉學(xué)習(xí)方法通過(guò)Bootstrapping方式不斷擴(kuò)充種子模板,指導(dǎo)中文事件抽取工作。為了驗(yàn)證雙視圖方法擴(kuò)充種子模板的可行性與有效性,分別用文檔相關(guān)度方法、語(yǔ)義相似度方法和雙視圖的方法評(píng)估候選模板。算法1在具體實(shí)現(xiàn)時(shí),防止雙視圖的方法過(guò)早地引入大量無(wú)效事件模板,需要對(duì)有序集C1過(guò)濾掉maxsim低于閾值a(a取0.7)的模板,對(duì)有序集C2過(guò)濾掉score低于閾值b(b取0.3)的模板。表1顯示了三種方法用來(lái)抽取事件的結(jié)果。表1中本文提出的方法分別比文檔相關(guān)度方法和語(yǔ)義相似度方法提高了F1值7.7%和3.4%,驗(yàn)證了本文方法的效率。另外,可以發(fā)現(xiàn),文檔相關(guān)度方法具有較高的準(zhǔn)確率,而語(yǔ)義相似度方法具有較高的召回率,這和我們前面的分析相符合。而本文的方法,則在準(zhǔn)確率和召回率方面相對(duì)比較均衡,吸收了雙方的優(yōu)點(diǎn)。
表1 中文事件抽取實(shí)驗(yàn)結(jié)果
為了進(jìn)一步分析實(shí)驗(yàn)結(jié)果,本文把在語(yǔ)料庫(kù)中事件能順利對(duì)應(yīng)的觸發(fā)詞稱為有效觸發(fā)詞,否則稱為無(wú)效觸發(fā)詞。能抽取事件實(shí)例的事件模板稱為有效事件模板,否則稱為無(wú)效事件模板。表2顯示了各個(gè)方法新增觸發(fā)詞的個(gè)數(shù)和準(zhǔn)確率,表3顯示了各個(gè)方法抽取事件模板的性能。
表2 新增觸發(fā)詞情況
表3 事件模板情況
用文檔相關(guān)度方法評(píng)估候選模板,種子模板的準(zhǔn)確率是77.2%,同時(shí)識(shí)別事件的準(zhǔn)確率達(dá)到73.7%,但是召回率僅為31.6%,遠(yuǎn)遠(yuǎn)低于英文中的78%。這是因?yàn)橛⑽闹斜磉_(dá)事件的觸發(fā)詞數(shù)量少,人工容易給出,而中文中表達(dá)事件的觸發(fā)詞數(shù)量遠(yuǎn)多于英文,只能通過(guò)最初的種子模板不斷累積。但是文檔相關(guān)度方法只能發(fā)現(xiàn)與種子觸發(fā)詞經(jīng)常一同出現(xiàn)的觸發(fā)詞(例如,“死”與“死亡”、“傷”與“受傷”)。文檔相關(guān)度方法在實(shí)驗(yàn)中有效觸發(fā)詞僅僅增加了“受傷”“死亡”“喪生”這三個(gè)。
語(yǔ)義相似度方法可以跨文檔地?cái)U(kuò)展種子模板,有效觸發(fā)詞的數(shù)量可以增加38個(gè)。例如,“慘死”“毆打”“抽打”“痛打”“殺”“逝世”“過(guò)世”“病逝”“進(jìn)攻”“伏擊”等。語(yǔ)義相似度方法可以很好地?cái)U(kuò)展種子模板,召回率比文檔相關(guān)度方法提高了約11%,但是該方法會(huì)引入大量無(wú)效觸發(fā)詞(61個(gè)),而且一旦引進(jìn)無(wú)效觸發(fā)詞,會(huì)有越來(lái)越多的無(wú)效模板被引入,其抽取的模板的準(zhǔn)確率只有58.5%。
文檔相關(guān)度方法和語(yǔ)義相似度方法,對(duì)中文事件抽取分別帶來(lái)高準(zhǔn)確率和高召回率的優(yōu)勢(shì),本文提出的雙視圖互訓(xùn)練方法,在文檔相關(guān)度與語(yǔ)義相似度兩個(gè)視圖下?lián)駜?yōu)一同影響種子模板,共同發(fā)現(xiàn)目標(biāo)事件,兩者相互影響,相互促進(jìn)。實(shí)驗(yàn)結(jié)果表明,雙視圖方法下事件抽取系統(tǒng)的F1達(dá)到了51.9%,優(yōu)于現(xiàn)有的方法。該方法不僅能擴(kuò)展種子模板而且能有效地抑制無(wú)效模板,有效模板的個(gè)數(shù)達(dá)到399個(gè),遠(yuǎn)遠(yuǎn)高出文檔相關(guān)度方法,事件模板的準(zhǔn)確率達(dá)到74.0%,明顯優(yōu)于語(yǔ)義相似度方法。所以,本文的基于雙視圖的事件抽取自舉學(xué)習(xí)方法對(duì)中文事件抽取的研究取得了一定的進(jìn)步,但是還存在很大的發(fā)展空間。
本文具體分析了文檔相關(guān)度與語(yǔ)義相似度方法的優(yōu)缺點(diǎn)以及中英文之間的差異性,提出了一種基于雙視圖的事件抽取自舉學(xué)習(xí)方法,從文檔相關(guān)度與語(yǔ)義相似度兩個(gè)視圖出發(fā),進(jìn)行交互過(guò)濾篩選,不斷擴(kuò)展新的事件模板,指導(dǎo)中文事件抽取工作。實(shí)驗(yàn)證明,該方法在有效模板獲取上性能較好。
中文語(yǔ)言的復(fù)雜性給事件抽取任務(wù)帶來(lái)挑戰(zhàn),在接下來(lái)的工作中,本文將考慮到中文語(yǔ)言的特點(diǎn),加深對(duì)特殊句式的理解,考慮句子中的句法結(jié)構(gòu)與語(yǔ)義成分,進(jìn)一步改善中文事件抽取工作。
[1] Roman Yangarber, Ralph Grishman, Pasi Tapanainen, Silja Huttunen. Unsupervised discovery of scenario-level patterns for Information Extraction[C]//Proceedings of the 6th Conference on Applied Natural Language Processing. 2000: 282-289.
[2] Peifeng Li, Guodong Zhou, Qiaoming Zhu, et al. Employing compositional semantics and discourse consistency in Chinese event extraction[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. 2012: 1006-1016.
[3] Ellen Riloff. Automatically Generating Extraction Patterns from Untagged Text[C]//Proceedings of the Thirteenth National Conference on Artificial Intelligence. 1996: 1044-1049.
[4] Roman Yangarber, Ralph Grishman, Pasi Tapanainen, Silja Huttunen. Automatic Acquisition of Domain Knowledge for Information Extraction[C]//Proceedings of the 18th Conference on Computational Linguistics.2000: 940-946.
[5] Mihai Surdeanu, Jordi Turmo, Alicia Ageno. A Hybrid Approach for the Acquisition of Information Extraction Patterns[C]//Proceedings of the EACL 2006 Workshop on Adaptive Text Extraction and Mining. 2006.
[6] Mark A. Greenwood, Mark Stevenson. Improving semi-supervised acquisition of relation extraction patterns[C]//Proceedings of the Workshop on Information Extraction Beyond the Document. 2006:29-35.
[7] Ted Pedersen, Siddharth Patwardhan, Jason Michelizzi. WordNet: Similarity—Measuring the Relatedness of Concepts[C]//Proceedings of the Nineteenth National Conference on Artificial Intelligence. 2004: 1024-1025.
[8] Shasha Liao, Ralph Grishman. Filtered Ranking for Bootstrapping in Event Extraction[C]//Proceedings of the 23rd International Conference on Computational Linguistics. 2010: 680-688.
[9] 劉群,李素建. 基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[J]. 計(jì)算語(yǔ)言學(xué)及中文信息處理,2002,7: 59-76.
A Semi-supervised Chinese Event Extraction Method
XU Xia1, LI Peifeng2,ZHU Qiaoming2
(1. School of Computer Science and Technology, Soochow University, Suzhou,Jiangsu 215006,China; 2. Province Key Lab of Computer Information Processing Technology of Jiangsu, Suzhou, Jiangsu 215006, China)
Currently, semi-supervised or unsupervised event extraction remains a challenge. According to the nature of Chinese language, this paper proposes a dual-view-based bootstrapping approach to extract event patterns. According to a small set of seeds, it applies a cross filtering method to two views, document relevance and semantic similarity, and extract new patterns in each iteration. Our experimental results show our system outperforms the existed systems.
event extraction; bootstrapping; document relevance; semantic similarity
徐霞(1989-),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、中文信息處理。E?mail:xuxia1125@163.com李培峰(1971-),博士,教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、中文信息處理、Web信息處理和嵌入式系統(tǒng)。E?mail:pfli@suda.edu.cn朱巧明(1963-),博士,博士生導(dǎo)師,教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、中文信息處理、Web信息處理和嵌入式系統(tǒng)。E?mail:qmzhu@suda.edu.cn
1003-0077(2016)02-0168-07
2013-11-05 定稿日期: 2014-03-28
國(guó)家自然科學(xué)基金(61272260),江蘇省自然基金(BK2011282),江蘇省高校自然科學(xué)重大基礎(chǔ)研究項(xiàng)目(11KIJ520003)
TP
A