吉久明++陳錦輝++李楠++孫濟慶
〔摘要〕事件抽取是指識別文本中描述在某個時間(或時間段),某個地點或地區(qū),由一個或多個角色參與的某動作的事件。首先對我國關(guān)于事件抽取研究的文獻進行了總結(jié),給出事件抽取的主要方法及模型。并針對文獻中對這些事件抽取方法的效果進行統(tǒng)計分析,探討各種事件抽取方法或模型的效果及適用性。經(jīng)過對現(xiàn)有研究文獻的統(tǒng)計,結(jié)論為:當前有關(guān)事件抽取的研究仍在繼續(xù),主要集中于金融資訊、會議信息、突發(fā)事件、個人簡歷等來自網(wǎng)頁、微博微信等自媒體信息或軍事法律等專業(yè)文件的事件抽取,所采用的算法包括SVM、CRF、ME、模式匹配、聚類算法等;CRF算法應(yīng)用與個人簡歷事件抽取效果最好,采用模式匹配算法的有效文獻量相對較多,觸發(fā)詞方法的綜合效果較優(yōu)于模式匹配算法,但較多領(lǐng)域存在觸發(fā)詞算法的查全率較低的問題。
〔關(guān)鍵詞〕中文事件;事件抽??;信息抽?。唤y(tǒng)計分析;情報分析
DOI:10.3969/j.issn.1008-0821.2015.12.001
〔中圖分類號〕G2531〔文獻標識碼〕A〔文章編號〕1008-0821(2015)12-0003-08
當各種新聞充斥著互聯(lián)網(wǎng)時,人們常常容易迷失方向,因此迫切希望能夠直接瀏覽到從新聞中提取出來的簡單直接的結(jié)構(gòu)化的事件以及與之相關(guān)的后續(xù)事件,以備決策分析,而不是一堆辭藻堆砌的信息。事件抽取正是在這樣的背景下產(chǎn)生的,它是信息抽取領(lǐng)域的重要研究方向之一,主要由計算機程序自動識別文本中描述在某個時間(或時間段),某個地點或地區(qū),由一個或多個角色參與的某動作的事件。由于事件抽取涉及命名實體識別、命名實體之間的關(guān)系識別、事件之間的關(guān)系識別等技術(shù),且由于中文具有博大精深的文化含義和語法靈活性,使得中文事件抽取的難度更大,至今仍是ACE(Automatic Content Extract)會議的主要研究目標之一[1]。本文首先介紹中文事件抽取的基本思想及識別效果測評方法,進而介紹幾種常用的事件抽取方法,最后對現(xiàn)有的研究中文事件抽取的重要文獻中設(shè)計的算法效率進行統(tǒng)計分析,以期對中文事件抽取提供一些參考性的意見,促進特殊文本事件提取研究的發(fā)展。
1事件抽取
11基本思想
事件抽取就是要將某句子文本中所描述的非結(jié)構(gòu)化的事件識別出來。其基本流程如圖1所示:
情報分析領(lǐng)域還需對事件類型進行區(qū)分或?qū)⑹录脑剡M一步提取出來進行結(jié)構(gòu)化表示供決策分析用。
信息抽取研究領(lǐng)域(Information Extraction)判斷句子文本是否為事件句的依據(jù)一般為:該句文本中包含時間、地點、人物、動作、主題等基本的事件元素,如“周華健2008年新年倒計時演唱會12月31日在上海舉行”,由事件元素“周華健2008年新年倒計時演唱會”、“12月31日”、“在上?!?、“舉行”構(gòu)成事件句。ACE(Automatic Content)會議則依據(jù)句子文本中是否含有事件觸發(fā)詞和描述事件結(jié)構(gòu)的元素來判斷事件句[2-3],如“毛澤東1893年出生于湖南湘潭”,由事件觸發(fā)詞“出生”及事件元素“毛澤東”、“1893年”、“湖南湘潭”構(gòu)成事件句。表面上看,兩者的主要差別在于是否含有事件觸發(fā)詞,而事件觸發(fā)詞一般以動詞或介詞為主,因此兩種判斷依據(jù)基本一致。
由于語言表達的多樣化及生動性需要,事件句中的事件元素往往存在不同的特征和模式,不同主題事件所包含的事件元素不同(如:識別句子中的場景描述[4]),其識別難度也不同,因此現(xiàn)有的研究一般針對具體的文本或事件主題設(shè)計識別任務(wù),各種任務(wù)采用不同的方法。一般有兩類基本方法:基于規(guī)則的方法或基于統(tǒng)計的方法。
2話題追蹤與事件抽取
話題追蹤(Topic Detection Tricking,TDT)涉及多個相關(guān)事件抽取,任務(wù)的目的是以大規(guī)模新聞流為研究和操作對象,通過監(jiān)控新聞報道描述的話題,發(fā)現(xiàn)某類核心事件并跟蹤其后續(xù)報道事件,由美國國防高級研究計劃局(Defense Advanced Research Projects Agency)于1996年提出[6]。其中,話題包括一個核心事件或活動(一個相互關(guān)聯(lián)的事件集),以及所有與之直接相關(guān)的事件或活動。此處的事件是由某些原因、條件引起,發(fā)生在特定時間、地點,并可能伴隨某些必然結(jié)果的一個特例。這類任務(wù)一般首先將新聞?wù)Z料流切分成獨立的報道,從報道中進一步識別某話題的多個事件子句,除報道切分及話題表示模型技術(shù)外,事件抽取也是關(guān)鍵技術(shù)之一[7]。
13命名實體識別與事件抽取
命名實體是指文本中具有特定意義的實體,主要包括人名(Person)、地名(Location)、機構(gòu)名(Organization)、日期(Data)、時間(Time)、百分數(shù)(Percentage)、貨幣(Money value)[8]及身份、領(lǐng)域?qū)I(yè)特有的術(shù)語,如:物質(zhì)或蛋白質(zhì)名稱、化學分子式、生物化學反應(yīng)、檢測方法、化學儀器、藥品名稱、劑量等。事件的主要構(gòu)成為事件元素,不同的事件識別任務(wù)中事件元素的類別不完全相同,除常用的人名、機構(gòu)名、物質(zhì)名、地點等命名實體外,還有其他的命名實體(演唱會名稱)、事件動作、事件發(fā)生原因及其引起的后果等。因此,一些研究借助命名實體識別事件句[9]。另一方面,由于某些領(lǐng)域事件句具有相對明顯的特征,也有研究將命名實體識別的任務(wù)建立在事件句模板的基礎(chǔ)上,首先識別事件句,進而依據(jù)事件句模板識別其中的命名實體[10-11]。
14效果測評
在事件抽取應(yīng)用中通常采用兩種不同的效果評價方法:基于召回率(記為R)準確率(記為P)的微平均(記為F)值法或基于丟失率(記為L)誤報率(記為M)的錯誤識別代價(記為C)法。其中,
F=2*PR/(P+R)
C=Cmiss*L*Ltar+Cfa*M*(1-Ltar)endprint
Cmiss為一次丟失的代價,Cfa為一次誤報的代價,Ltar為系統(tǒng)作出肯定判斷的先驗概率,通常根據(jù)具體應(yīng)用設(shè)定為常值。上述公式表明,兩種效果測評方法之間不存在簡單的逆反關(guān)系,因此在分析不同評價方法下的兩種不同算法的效果時應(yīng)進行適當?shù)膿Q算。
微平均值法一般多用于單一事件抽取任務(wù)中,如:突發(fā)事件、門戶網(wǎng)站、金融資訊的事件抽取。對于話題追蹤任務(wù)而言,相對于正確率,人們對系統(tǒng)作出的錯誤判斷往往更為敏感,這些錯誤包括:本應(yīng)為是的判斷為否(丟失),本應(yīng)為否的判斷為是(誤報),因此常采用錯誤識別代價作為效果評價方法[6]。另外,事件抽取的各種算法在實際應(yīng)用中,除考慮其識別結(jié)果的正確率外,還應(yīng)該考慮算法的復雜程度及其可實現(xiàn)性。一些抽取效果好的算法往往是以犧牲時間為代價的。一些算法可能由于硬件要求太高,或訓練時間太長而不具備可行性。
鑒于話題追蹤任務(wù)的復雜性,本文主要關(guān)注已有的單個事件抽取算法的效果情況,故本文中所統(tǒng)計的研究文獻均采用微平均值法評價算法的效果。
2幾種常用的事件抽取算法
如前所述,基本的事件抽取方法一般有兩種:基于規(guī)則的方法及基于統(tǒng)計的方法。基于規(guī)則的方法首先建立事件或事件句的模板或本體實現(xiàn)事件抽取,此類方法多應(yīng)用于事件句或事件具有明顯的特征,容易對其進行普遍形式化描述,如演劇院網(wǎng)站上顯示的音樂會或電影院場次信息?;诮y(tǒng)計的方法一般將事件抽取問題轉(zhuǎn)化為句子文本的分類問題,應(yīng)用此類算法抽取事件的句子文本或事件沒有明顯的特征,或者雖然具有一定的特征,但其形式多樣、不斷變化,不易于簡單枚舉,因此使用基于機器學習的統(tǒng)計類算法得出事件句的模式特征,實現(xiàn)事件抽取,主要有HMM、CRF、SVM、ME等方法。
除上述基本方法外,還有基于命名實體抽取的方法。命名實體抽取方法的思路主要有兩種:一是基于領(lǐng)域本體;二是基于事件關(guān)鍵詞及語義知識或領(lǐng)域本體。
為區(qū)分起見,本文將基于建立事件或事件句模板、事件本體的事件抽取方法通稱為模式匹配法,基于領(lǐng)域本體的事件抽取方法通稱為本體方法,基于事件關(guān)鍵詞的事件抽取方法通稱為觸發(fā)詞法。
嚴格意義上,隱馬爾科夫(HMM)、條件隨機場(CRF)、支持向量機(SVM)、最大熵(ME)等機器學習算法也是模式匹配算法,這些算法已經(jīng)被廣泛應(yīng)用于命名實體識別研究,只需將待構(gòu)建模式的對象從較短的文本串調(diào)整為句子文本后,即可進一步推廣至事件抽取應(yīng)用中[12-15],鑒于篇幅的原因本文不再展開此類算法的具體描述,而重點介紹基于模式匹配、基于本體、觸發(fā)詞的事件抽取算法。
21基于模式匹配的事件抽取算法
本文將通過手工或自動構(gòu)建的有關(guān)事件句特征形式化表示的模板指導事件抽取的方法通稱為模式匹配,已有研究中比較典型的事件句模板構(gòu)建方法有兩類:語義角色標注、事件本體法。
211語義角色標注法
語義角色標注法[4]將事件元素與相應(yīng)的語義角色對應(yīng),并對事件元素定義實體、中心詞詞性和關(guān)鍵詞層次的語義約束,匹配中,只要與必要元素對應(yīng)的語義角色全部出現(xiàn),即認為匹配到事件。如:“[運動員(agent)][一周后(tmp)]將要[參加(V)]正式[比賽(patient)]”,這句話中,“參加”是謂詞,“運動員”和“比賽”分別是其“施事者”和“受事者”,“一周后”表示其發(fā)生的時間,如果將這個句子的形式改變?yōu)椤癧一周后(tmp)][運動員(agent)]將要[參加(V)]正式[比賽(patient)]”,句中各部分的語義角色并沒有發(fā)生變化。如果定義事件的必備元素為施事者、受事者、時間和謂詞,該句子文本即為事件句。
語義角色標注法對于語義角色與事件元素映射關(guān)系相對固定且同時實現(xiàn)事件元素提取的事件抽取應(yīng)用比較適合。該方法實施的關(guān)鍵是語義角色標注及構(gòu)建語義角色與事件元素之間的映射,目前已經(jīng)有多個較成熟的系統(tǒng)能實現(xiàn)自動語義角色標注,而語義角色與事件元素之間的映射關(guān)系主要基于標注語料中的事件句的語義角色統(tǒng)計得到,語義角色標注一般基于句法分析及領(lǐng)域知識。
212事件本體法
事件本體法[16]首先定義事件的實體元素組、事件類別及事件之間的關(guān)系,進而獲得事件的特征項構(gòu)建,最后基于事件特征項挖掘事件及事件間的關(guān)系。事件實體元組一般包括活動元(Action),參與者元(Participant),時間元(Time),位置地點元(Location),儀器設(shè)備元(Instrument)and 事物元(good),其中參與者元為施事或受事者。具有相同特征的事件屬于同一類,事件種類因領(lǐng)域不同而不同。事件之間的關(guān)系主要有兩類:類關(guān)系(class-related)或非類關(guān)系(non-class-related),非類關(guān)系又可分為組分(component)關(guān)系、原因結(jié)果(cause-effect)關(guān)系、跟隨(follow)關(guān)系。如網(wǎng)絡(luò)犯罪領(lǐng)域的事件抽取任務(wù)中,主要事件類別有犯罪、搜查、抓捕、審問等,一旦發(fā)生了詐騙事件(因),將引起公安機關(guān)的檢查和搜查事件(果),抓住犯罪嫌疑人后,立即對其審訊(跟隨)。事件特征項的構(gòu)建包括基于本體的特征壓縮與擴充兩項工作,前者主要指同義詞合并,后者主要指基于事件本體補充句子文本中缺失的事件元素特征(如:“審訊”類犯罪事件“他接受了審訊”中,“警察”為事件的主要參與者之一)。
基于本體的特征項壓縮或擴充過程使得事件句子的特征向量的語義完備性和準確性,但擴充特征時應(yīng)結(jié)合上下文的其他事件類,又因其提供事件類別及關(guān)系的定義,因此該方法更適合話題追蹤任務(wù)。
22觸發(fā)詞法
觸發(fā)詞法[9]也稱事件關(guān)鍵詞法,通過對事件句的統(tǒng)計分析后發(fā)現(xiàn),出現(xiàn)某類術(shù)語或詞匯的句子文本中事件句的概率非常高,如:出現(xiàn)“發(fā)生”、“襲擊”、“研制”、“生產(chǎn)”、“舉行”、“舉辦”、“開幕”等動詞匯的句子“今年三月份在地鐵3號線發(fā)生乘客猝死事件”、“周杰倫將于2010年6月11日在臺北小巨蛋舉辦周杰倫超時代演唱會”等基本為事件句,因此通過建立事件觸發(fā)詞詞典進行事件抽取能取得較好的效果。endprint
建立事件觸發(fā)詞詞典的方法一般有兩種:一是由領(lǐng)域?qū)<一陬I(lǐng)域經(jīng)驗手工構(gòu)建,此種方法過于依賴專家經(jīng)驗,適合事件句的觸發(fā)詞量變化不大的應(yīng)用;二是通過已有事件句中詞匯的分析統(tǒng)計,提取事件句觸發(fā)詞,相對手工構(gòu)建,此種方法更容易提高觸發(fā)詞的查全率。系統(tǒng)應(yīng)用觸發(fā)詞字典時也有兩種方法,一是建立觸發(fā)詞庫,由程序自動讀取,此種方法方便靈活,便于維護;二是直接將觸發(fā)詞寫在程序代碼中,此種方法較呆板,一旦需要對觸發(fā)詞進行增減即需要修改程序。
23基于(領(lǐng)域)本體的事件抽取算法
領(lǐng)域本體基于專業(yè)領(lǐng)域概念,定義概念的屬性、方法及概念間的關(guān)系[17]。這些概念并非僅為事件,甚至基本不涉及事件。當研究對象為某領(lǐng)域的事件時,事件即為該領(lǐng)域的概念,而概念間的關(guān)系即為事件間的關(guān)系,但基本不涉及事件實體元素之間的關(guān)系。當前,主要的事件抽取算法基本都需要經(jīng)歷分詞、詞性標注、去噪、特征提取等預處理環(huán)節(jié)。基于領(lǐng)域本體的事件抽取算法,主要利用本體實例庫中的命名實體及其間關(guān)系等豐富的語義信息,去除無用的冗余信息、合并相關(guān)聯(lián)的詞使之成為領(lǐng)域?qū)嶓w、合并同義概念(如:“吸毒者”和“癮君子”)減少特征項,提高預處理的效果,因此領(lǐng)域本體常與模式匹配、觸發(fā)詞、機器學習算法或語義分析算法結(jié)合使用。如:某收購事件中的“收購金額50 000 00 US dollars”一般被切分為“收購”、“金額”、“50”、“000”、“00”、“US”、“dollars”,經(jīng)過本體實例查詢,合并為“收購金額”、“50 000 00”、“US dollars”。
領(lǐng)域本體的語義豐富性決定了基于領(lǐng)域本體的事件抽取方法能夠同時完成事件句識別、事件分類、事件元素提取3項工作,但因構(gòu)建工程復雜,當前成熟的領(lǐng)域本體庫普遍缺乏,實際普及應(yīng)用需要一定的時間。
3事件抽取算法的效果及適用性分析
為了幫助研究者更快更方便地了解各種事件抽取算法的適用性,本文對各個算法的效果做一定的比較分析。使用中文檢索式:題名或關(guān)鍵詞=事件抽取 OR 信息抽取 OR 話題識別,外文檢索式:(Event Extraction)or(Information Extraction),分別在中國知網(wǎng)、Engineering Village中檢索2000年以來的中外文文獻,篩選中文核心期刊及EI收錄的研究事件抽取的論文(即判斷句子文本為事件句),標注事件抽取算法、領(lǐng)域、語料、所選文本特征類型或特點,對各算法進行分析統(tǒng)計結(jié)果如下:
31事件抽取主要算法
2000年以來,對中文進行事件抽取研究主要以基于模式匹配的事件抽取算法和觸發(fā)詞法為主。進一步選擇包含事件(準確率(P)、召回率(R))或效果(F)指標的文獻19篇中文核心期刊或EI收錄文獻(以下簡稱“有效文獻樣本集合”)中使用較多的算法總體情況進行分析,結(jié)果如圖2:
圖2表明,在本文所統(tǒng)計的有效文獻集合中,觸發(fā)詞和模式匹配方法的使用頻率最高。實際上,為了提高事件抽取的效果,實際應(yīng)用中存在將兩個或兩個以上的算法進行組合應(yīng)用,即首先使用某算法(如先使用模式匹配法過濾非事件句后再用SVM法識別事件句,使用KNN算法提取觸發(fā)詞再用觸發(fā)詞法抽取事件)進行處理,再使用其他算法進一步處理以提高事件抽取的準確度。
32事件抽取語料庫分析
本文收集的相關(guān)文獻所使用的語料均為中文語料,其中,中文文獻大多直接選取一定數(shù)量的相關(guān)領(lǐng)域語料,主要涉及特定領(lǐng)域新聞資訊(如金融資訊、突發(fā)事件等)、軍事、個人簡歷等信息,這類語料一般具有很強的領(lǐng)域背景,表明已有研究側(cè)重利用事件抽取算法解決實際應(yīng)用問題。而“有效文獻樣本集合”中的外文文獻的中文語料庫近39%是“ACE 2005 Chinese corpus”,近23%文獻的語料針對新聞,如人民網(wǎng)(www.people.com.cn)、百度新聞等知名新聞類網(wǎng)站,而非某一類具體行業(yè)的網(wǎng)站。
33事件抽取算法效果分析
進一步對“有效文獻樣本集合”文獻中所涉及的不同領(lǐng)域事件抽取算法中表現(xiàn)最優(yōu)的算法以及同一類算法在不同領(lǐng)域抽取事件的效果進行分析統(tǒng)計,結(jié)果見領(lǐng)域最高F值準確率P主算法特征語料
(測/訓)測試
方法文獻號金融資訊0691508783模式匹配+SVM關(guān)鍵詞、事件觸發(fā)詞、上下文6/7開放[21]突發(fā)事件0842608568ME上下文特定位置的語言成分5/5封閉[20]門戶網(wǎng)站
信息0807907859模式匹配概念首義原、句子語言單位8/9開放[4]06820714模式匹配利用樹的平行結(jié)構(gòu)特性抽取表格頁面事件,使用總結(jié)模式抽取詳情頁面事件16/16封閉[26]0704406956SVM刻畫一個事件發(fā)生的有代表性的特征,構(gòu)成候選事件實例表示,構(gòu)造二元分類器對事件實例與非事件實例進行自動識別17/17封閉[27]07307觸發(fā)詞觸發(fā)詞權(quán)重排序,選前3個18/18封閉[5]醫(yī)療領(lǐng)域0531207396觸發(fā)詞上下文信息、蛋白質(zhì)——觸發(fā)詞對特征、根路徑特征10/10封閉[22]軍事領(lǐng)域0814407776模式匹配領(lǐng)域動詞、領(lǐng)域介詞和領(lǐng)域?qū)嶓w11/12開放[23]個人簡歷09730961CRFwho,when,where,what,how3,4/3開放[19]ACE會議0797606641聚類實體類型、各實體間的關(guān)系19/19封閉[28]078400818觸發(fā)詞語義特征、上下文特征、位置特征13/14開放[24]06820699觸發(fā)詞事件觸發(fā)詞內(nèi)部的語義結(jié)構(gòu)和核心詞素20/21開放[29]0778507335模式匹配事件與非事件的特征22/22封閉[30]0623005727觸發(fā)詞+SVM根據(jù)觸發(fā)詞的特征(Information,NE Context,Lexical Context)來識別事件句23/23封閉[31]07020714觸發(fā)詞+ME事件觸發(fā)詞、事件類別24/25開放[32]06815模式匹配根據(jù)句子長度、位置等因素計算出句子SSi值,然后取N-Best的句子作為候選事件句26/26封閉[33]犯罪信息0850模式匹配ICTCLAS30,TF*IDF詞頻選擇文本向量特征詞,特征詞基于犯罪事件本體同義詞合并且補充缺失特征(少于50個字,含有至少3個事件元素)1/1開放[16]法律0842307503觸發(fā)詞事件觸發(fā)詞同義詞詞典2開放[18]交通信息0520303818CRF先構(gòu)建若干特征模板,進行語料訓練后得到合適的CRF特征模型15/15封閉endprint
事實上,語料的質(zhì)量和結(jié)構(gòu)不同都會影響到算法的效果,但本文認為不會產(chǎn)生根本性的影響,但測試模式對算法效果的評價有較大影響,本文的“有效文獻樣本集合”中,采用封閉測試的占5263%,因此實際選擇算法時還應(yīng)考慮測試模式對算法效果的影響。
表1顯示各領(lǐng)域的事件抽取算法準確率最高可達0961[19](利用CRF算法提取個人簡歷中的事件);最低為03818[25](利用CRF算法提取交通領(lǐng)域交通事故事件);召回率最高可達09891[28](利用模式匹配法抽取ACE會議語料中的事件);最低為04144[22](基于觸發(fā)詞算法抽取生物醫(yī)學領(lǐng)域事件)。召回率略高于準確率;綜合指數(shù)F值最高為0973[19],最低為05203[25]。
表2顯示了在所參與調(diào)研的文獻中,各抽取算法表現(xiàn)較好的領(lǐng)域。模式匹配算法在犯罪信息領(lǐng)域抽取事件的準確率P值可達085;觸發(fā)詞算法在法律領(lǐng)域的綜合效果較好,F(xiàn)值可達08423,準確率P值可達07503;CRF、ME、SVM 3個算法中,CRF在個人簡歷領(lǐng)域取得的效果較好,F(xiàn)值可達0973,其次是ME算法在突發(fā)事件領(lǐng)域F值和P值分別可達08426、08568,而SVM算法在金融領(lǐng)域抽取事件時,過濾掉一些明顯非事件句后,進一步識別事件句[21]P值雖然達08783,但召回率較低,F(xiàn)值僅為06915。除突發(fā)事件領(lǐng)域中應(yīng)用最大熵方法(ME)抽取事件為封閉測試外,其余均為開放測試,因此ME算法的開放測試效果可能有所降低。
表3顯示了不同的領(lǐng)域中所采用的各種事件抽取算法中,效果較好的事件抽取算法。從中可以看出,在金融資訊事件抽取領(lǐng)域,將模式匹配算法與SVM算法組合使用取得的綜合效果(F=06915)不及在門戶網(wǎng)站、軍事領(lǐng)域信息中抽取事件的效果好(F=08079、08144),但準確率(P=08783)卻優(yōu)于上述兩個領(lǐng)域的事件抽?。≒=07859、07776),即抽取金融資訊事件的查全率較低,這可能與金融資訊中往往同時報道多個關(guān)聯(lián)事件,部分事件元素缺失影響判別效果的緣故;使用模式匹配方法抽取犯罪信息中的事件雖然也取得了85%的準確率,但因為采用了封閉測試,因此實際開放測試效果有待考證;觸發(fā)詞方法抽取醫(yī)療領(lǐng)域事件的封閉測試綜合效果(F=05312)不及ACE會議[24]及法律事件抽取的開放測試的效果好(F=07840、08423),但準確率的差距不太大(分別為07396、0818、07503),文獻[24]采取了KNN算法提高了觸發(fā)詞的質(zhì)量,所取得的準確率最好,但查全率也不是很好,法律信息中所含有的動詞等觸發(fā)詞相對較明確,因而查全率較高;CRF方法在個人簡歷與交通信息事件抽取的綜合效果及準確率差距都很大,F(xiàn)值分別為0973和05203,這可能是因為個人簡歷事件相比交通事件的特征模板更容易構(gòu)建的緣故;另外,雖然采用最大熵方法(ME)抽取突發(fā)事件信息的封閉測試效果也不錯,但僅略高于觸發(fā)詞法抽取法律信息的開放測試效果,因而其實際效果不一定好。
表4給出了在所參考的文獻中采用的各種抽取算法以及它們所取得的效果值,其中在金融資訊、突發(fā)事件、醫(yī)療、軍事、個人簡歷、犯罪信息、法律、交通信息領(lǐng)域所涉及的“有效文獻”數(shù)分別僅為1篇,所以重點分析以門戶網(wǎng)站信息和ACE會議語料為研究對象的有效文獻。抽取門戶網(wǎng)站事件信息的研究中,已有文獻分別涉及模式匹配、SVM和觸發(fā)詞方法,其中基于概念首義原、句子語言單位的模式匹配方法取得的效果最好(F=08079),但概念首義原的思想與觸發(fā)詞思想有異曲同工之處。ACE會議語料事件抽取的研究中,雖然采用觸發(fā)詞法抽取事件取得的綜合效果(F=0784)僅略高于模式匹配所取得效果(F=07785)、略低于聚類算法的效果(F=07976),但后兩者均為封閉測試。綜合門戶網(wǎng)站及ACE會議語料事件抽取的研究成果,可以發(fā)現(xiàn),觸發(fā)詞方法抽取事件的效果優(yōu)于模式匹配方法。
34算法時間復雜度分析
算法時間復雜度主要指完成某一任務(wù)所需要的時間(也稱所耗費的時間),一般而言,算法越復雜,其時間復雜度越高,推廣應(yīng)用的難度越大。但隨著計算機硬件性能的大幅度提高,算法的時間復雜度似乎變得不太重要。在本文所涉文獻中,大多側(cè)重提高算法的P、R、F值,很少關(guān)注抽取任務(wù)的實際耗時情況。事實上,CRF與SVM方法的特征規(guī)模(向量維度)均會大大影響運行效率[34-35];語義角色標注方法需要句法分析技術(shù)[3],其運行效率因句法分析方法的不同而不同。基本觸發(fā)詞方法由于運算簡單,運行效率相對較高,但若結(jié)合KNN等算法提取觸發(fā)詞,其運行效率將會受到一定的影響[24]。
4研究展望
通過前述分析可以發(fā)現(xiàn),當前中文文本事件抽取的實踐主要集中于金融資訊、會議信息、突發(fā)事件、個人簡歷等來自網(wǎng)頁、微薄或微信等自媒體信息或軍事法律等專業(yè)領(lǐng)域文本的事件抽取,仍采用SVM、CRF、ME、模式匹配(非機器學習類)、聚類等在命名實體識別領(lǐng)域相對較傳統(tǒng)的算法為主,除應(yīng)用CRF抽取個人簡歷類格式規(guī)范的文本中事件取得優(yōu)異的效果外,F(xiàn)值普遍低于09。
統(tǒng)計表明,事件一般含有觸發(fā)詞,前述分析也表明觸發(fā)詞方法的綜合效果較優(yōu)于單純的模式匹配算法。雖然觸發(fā)詞方法的總體準確率不高,但在ACE會議綜合性語料中結(jié)合語義特征、上下文等特征所取得的準確率超過了08,在專業(yè)領(lǐng)域文本中應(yīng)該可以進一步提高。另一方面,從基于ACE會議語料的實踐結(jié)果看,對于綜合性強的領(lǐng)域文本,事件觸發(fā)詞的提取存在查全率不高的問題。筆者對一些專業(yè)領(lǐng)域文本中事件觸發(fā)詞分析后發(fā)現(xiàn),專業(yè)領(lǐng)域文本中的事件觸發(fā)詞的數(shù)量基本有限。此外,觸發(fā)詞方法能夠較大程度地過濾非事件句,大大提高后續(xù)處理的效率。因此,筆者認為,對于專業(yè)領(lǐng)域文本事件抽取問題,優(yōu)先選擇觸發(fā)詞方法。
參考文獻
[1]https:∥www.ldc.upenn.edu/collaborations/past-projects/ace[EB].endprint
[2]高強,游宏梁.事件抽取技術(shù)研究綜述[J].情報理論與實踐,2013,36(4):114-117,128.
[3]趙妍妍,秦兵,車萬翔,等.中文事件抽取技術(shù)研究[J].中文信息學報,2008,22(1):3-8.
[4]楊選選,張蕾.基于語義角色和概念圖的信息抽取模型[J].計算機應(yīng)用,2010,30(2):411-414.
[5]Bao Jiana,Li Tingyu,Yao Tianfang.Event Information Extraction Approach based on ComplexChinese Texts[C]∥IEEE Computer Society.445 Hoes Lane-POBox 1331,Piscataway,NJ 08855-1331,United States:IEEE Computer Society,2012:61-64.
[6]張玨,劉云.話題識別與跟蹤技術(shù)的發(fā)展與研究[J].北京電子科技學院學報,2008,16(2):77-79.
[7]張曉艷.新聞話題表示模型和關(guān)聯(lián)追蹤技術(shù)研究[M].北京:解放軍出版社,2013.
[8]滕青青,吉久明,鄭榮廷,等.基于文獻的中文命名實體識別算法適用性分析研究[J].情報雜志,2010,(9):157-161,169.
[9]丁效,宋凡,秦兵,等.音樂領(lǐng)域典型事件抽取方法研究[J].中文信息學報,2011,25(2):15-20.
[10]Zhang Xiuhong,Gong Zhe.Information extraction based on event driven from template web pages[C]∥Springer Verlag.Tiergartenstrasse 17,Heidelberg,D-69121,Germany:Springer Verlag,2013,211 LNEE:515-523.
[11]Jiang Bo,Zhu Mengxia,Wang Jiale.Ontology-based information extraction of crop diseases on Chinese web pages[J].Academy Publisher,2013,8(1):85-90.
[12]潘超,楊良懷,龔衛(wèi)華,等.模式匹配研究進展[J].計算機系統(tǒng)應(yīng)用,2010,(11):265-277.
[13]Bao Jiana,Li Tingyu,Yao Tianfang.Event Information Extraction Approach based on Complex Chinese Texts[C]∥IEEE Computer Society.445 Hoes Lane-POBox 1331,Piscataway,NJ 08855-1331,United States:IEEE Computer Society,2012:61-64.
[14]黃發(fā)良,鐘智.用于分類的支持向量機[J].廣西師范學院學報:自然科學版,2004,21(3):75-78.
[15]李麗雙,黨延忠,廖文平,等.CRF與規(guī)則相結(jié)合的中文地名識別[J].大連理工大學學報,2012,(2):285-289.
[16]Li Cunhua,Hu Yun,Zhong Zhaoman.An Event Ontology Construction Approach To Web Crime Mining[C]∥IEEE Computer Society.445 Hoes Lane-POBox 1331,Piscataway,NJ 08855-1331,United States: IEEE Computer Society,2010,(5):2441-2445.
[17]吳奇.基于領(lǐng)域本體的Web實體事件抽取問題研究[D].濟南:山東大學,2014.
[18]Ding Xiaoshan,Li Fang,Zhang Dongmo.Causal Relation Recognition between Sentence-based Events[C]∥IEEE Computer Society.445 Hoes Lane-POBox 1331,Piscataway,NJ 08855-1331,United States:IEEE Computer Society,2011:1688-1693.
[19]李勁,張華,辜希武.面向個人簡歷的事件抽取和檢索框架[J].計算機科學,2012,39(7):154-160,174.
[20]韓永峰.網(wǎng)絡(luò)新聞突發(fā)事件信息抽取技術(shù)研究[D].鄭州:中國人民解放軍信息工程大學,2012.
[21]趙小明,朱洪波,陳黎,等.基于多分類器的金融領(lǐng)域多元關(guān)系信息抽取算法[J].計算機工程與設(shè)計,2011,32(7):2348-2351.
[22]徐謙.基于半監(jiān)督方法的生物醫(yī)學事件抽取的研究[D].大連:大連理工大學,2013.
[23]張練.領(lǐng)域信息抽取相關(guān)技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學,2010.
[24]Fu Jianfeng,Liu Zongtian,Zhong Zhaoman,Shan Jianfang.Chinese event extraction based on feature weighting[J].Asian Network for Scientific Information,2010,9(1):184-187.endprint
[25]Xiong Jiaxi,Hao Yonggang,Huang Zheng.Civil Transportation Event Extraction from Chinese Microblog[C]∥IEEE Computer Society.445 Hoes Lane-POBox 1331,Piscataway,NJ 08855-1331,United States:IEEE Computer Society,2013:577-582.
[26]何一鳴.網(wǎng)頁事件信息抽取研究[D].上海:復旦大學,2010.
[27]許旭陽,李弼程,張先飛,等.基于事件實例驅(qū)動的新聞文本事件抽取[J].計算機科學,2011,38(8):232-235.
[28]Lin Ruqi,Chen Jinxiu,Xu Honglei,et al.A multi-information fusion approach to unsupervised Chinese event extraction[C]∥IEEE Computer Society.445 Hoes Lane-POBox 1331,Piscataway,NJ 08855-1331,United States:IEEE Computer Society,2010.
[29]Li Peifeng,Zhou Guodong.Employing morphological structures and sememes for chinese eventextraction[C]∥COLING 2012 Organizing Committee.Powai,Mumbai,400076,India:COLING 2012 Organizing Committee,2012:1619-1634.
[30]Yang Xiaofang,Chen Jinxiu,Lin Ruqi.Event detection and type recognition using self-training[C]∥Springer Verlag.Tiergartenstrasse 17,Heidelberg,D-69121,Germany:Springer Verlag,2011,227 CCIS(PART 4):9-16.
[31]Wang Wei,Zhao Dongyan,Zou Lei,et al.Extracting 5W1H event semantic elements from Chinese online news[C]∥Springer Verlag.Tiergartenstrasse 17,Heidelberg,D-69121,Germany:Springer Verlag,2010,6184 LNCS:644-655.
[32]Li Peifeng,Zhu Qiaoming,Diao Hongjun,Zhou guodong.Joint modeling of trigger identification and event type determination in chinese event extraction[C]∥COLING 2012 Organizing Committee.Powai,Mumbai,400076,India:COLING 2012 Organizing Committee,2012:1635-1652.
[33]Wang Wei,Zhao Dongyan,Wang Dong.Chinese News Event 5W1H Elements Extraction using Semantic Role Labeling[C]∥IEEE Computer Society.445 Hoes Lane-POBox 1331,Piscataway,NJ 08855-1331,United States:IEEE Computer Society,2010:484-489.
[34]馮元勇,孫樂,李文波,等.基于單字提示特征的中文命名實體識別快速算法[J].中文信息學報,2008,22(1):104-110.
[35]李麗雙,黃德根,陳春榮,等.SVM與規(guī)則相結(jié)合的中文地名自動識別[J].中文信息學報,2006,20(5):51-57.
(本文責任編輯:馬卓)endprint