嚴(yán) 倩, 陳 敬, 王禮敏, 李壽山
(蘇州大學(xué) 自然語言處理實驗室 江蘇 蘇州 215006)
基于聯(lián)合學(xué)習(xí)的跨語言事件識別方法
嚴(yán) 倩, 陳 敬, 王禮敏, 李壽山
(蘇州大學(xué) 自然語言處理實驗室 江蘇 蘇州 215006)
事件識別,包括事件觸發(fā)詞識別和分類,是事件抽取任務(wù)中的基礎(chǔ)問題.為了利用較為豐富和完善的英文事件語料庫來幫助完成中文事件抽取任務(wù),提出了一種基于聯(lián)合學(xué)習(xí)的跨語言事件識別方法,即利用源語言的標(biāo)注語料對目標(biāo)語言的測試語料進行事件識別.利用機器翻譯及詞對齊技術(shù)來保持源語言和目標(biāo)語言的語言一致性和標(biāo)注信息一致性.挑選合適的特征組合,使用最大熵分類模型分別實現(xiàn)觸發(fā)詞的識別和分類.通過整數(shù)線性規(guī)劃的聯(lián)合學(xué)習(xí)模型將二者結(jié)合在一起,加之局部約束和全局約束條件,對結(jié)果進行優(yōu)化處理.實驗結(jié)果表明,使用源語言的語料及其翻譯語料疊加的雙語語料時,所用方法可以取得較好的效果.
事件識別; 跨語言; 聯(lián)合學(xué)習(xí); 整數(shù)線性規(guī)劃
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,越來越多的電子文本信息呈現(xiàn)在人們面前.如何從海量信息中準(zhǔn)確迅速地提取出人們所需求的信息就顯得極為重要[1].信息抽取就是在這樣的背景下產(chǎn)生并迅速發(fā)展的.
事件抽取是信息抽取的一個重要研究方向,旨在自動識別特定類型的事件,并抽取相關(guān)的信息.事件抽取任務(wù)可分為兩步:事件的識別,當(dāng)前事件所包含的論元及其角色的識別.其中,事件的識別是事件抽取的基礎(chǔ)和核心任務(wù).事件由觸發(fā)詞和描述事件結(jié)構(gòu)的元素構(gòu)成,其中觸發(fā)詞是直接觸發(fā)事件發(fā)生的詞.因此,對事件的識別可以等價為觸發(fā)詞及其類別的識別.ACE 2005將事件劃分為8個類型,33個子類型.如以下例句:
例1 我的高中同學(xué)前一個月結(jié)婚了.
例2 科什圖尼察搭乘聯(lián)合國直升機在當(dāng)?shù)貢r間星期天下午抵達薩拉熱窩機場.
例3 其實我也全都是為了她著想.
例句1和例句2都包含了事件.如例句1中,“結(jié)婚”作為觸發(fā)詞,觸發(fā)了事件類型Life/Marry.例句2中,“抵達”觸發(fā)了事件Movement/Transport.而例句3中不存在觸發(fā)詞,故也不存在事件.
近年來,隨著對事件抽取研究的不斷深入,基于監(jiān)督學(xué)習(xí)的事件抽取方法越來越占據(jù)主流.基于監(jiān)督學(xué)習(xí)的方法是利用大量的已標(biāo)注樣本作為訓(xùn)練集,通過機器學(xué)習(xí)的方法訓(xùn)練得到模型,再根據(jù)該模型對未標(biāo)注樣本進行預(yù)測.但是標(biāo)注大量的樣本開銷昂貴,需要大量的人力、物力.同時,由于事件類別的多樣化,導(dǎo)致事件抽取的語料相對稀疏.這些現(xiàn)象在各種語言背景下的事件抽取任務(wù)中都存在,但是由于中文本身的表達特點,使得中文事件抽取語料的稀疏問題和難標(biāo)注問題尤為突出.考慮到英文事件抽取任務(wù)起步較早,研究成果豐富,系統(tǒng)性能相對優(yōu)異,語料規(guī)模較大,標(biāo)注體系較為完善,本文提出了一種基于聯(lián)合學(xué)習(xí)的跨語言事件識別方法,即利用英文的事件標(biāo)注語料庫實現(xiàn)中文事件的識別.在具體實現(xiàn)過程中,主要存在兩個問題需要解決:消除語言間的界限,充分利用英文事件語料的信息;有效降低噪聲對實驗性能的影響.本文將使用機器翻譯及詞對齊技術(shù)來使語料統(tǒng)一,將觸發(fā)詞識別和類別識別兩個子任務(wù)結(jié)合,建立整數(shù)線性規(guī)劃的聯(lián)合學(xué)習(xí)模型.
英文事件抽取研究的核心和主流方法是基于統(tǒng)計和機器學(xué)習(xí)的方法.文獻[2]首先在事件抽取的研究中引入最大熵分類器,使用詞特征、命名實體等簡單特征取得了較好的成果.文獻[3]把事件類型識別看成觸發(fā)詞的識別,提出了基于觸發(fā)詞的事件抽取方法,在通過二元分類識別觸發(fā)詞的基礎(chǔ)上,使用多元分類器判斷其所屬的事件類別及子類別,并通過ACE2005的英文語料驗證了所用方法的有效性.為了更好地利用全局信息,文獻[4]提出并構(gòu)建了跨文檔事件抽取系統(tǒng),在當(dāng)前句信息的基礎(chǔ)上考慮了相關(guān)文本的背景知識.文獻[5]進一步利用文檔級的信息提高了事件抽取系統(tǒng)的性能.文獻[6]考慮到實體類型的一致性,實現(xiàn)了跨實體事件抽取.文獻[7]提出了基于結(jié)構(gòu)化感知機的聯(lián)合學(xué)習(xí)模型,同時學(xué)習(xí)并抽取事件觸發(fā)詞和論元,獲得了更優(yōu)異的效果.
目前,中文事件抽取研究重點主要在特征的發(fā)現(xiàn)和選擇以及觸發(fā)詞的擴展上等.文獻[8]使用一種局部特征選擇方法來確保觸發(fā)詞的識別和分類性能.文獻[9]在事件抽取系統(tǒng)中融入了詞匯、句法和語義等特征來提升效果.文獻[10]使用語義詞典同義詞詞林來擴展中文觸發(fā)詞以提高觸發(fā)詞識別性能.文獻[11]利用組合語義學(xué)和篇章一致性信息來推斷觸發(fā)詞,后在此基礎(chǔ)上又提出了一個結(jié)合事件觸發(fā)詞識別和事件類型判別的聯(lián)合模型[12],并在ACE2005的中文語料上測試并得到了更為優(yōu)異的性能.
與單獨的英文或者中文事件抽取不同的是,本文期望通過已標(biāo)注的英文事件語料構(gòu)建中文事件識別系統(tǒng),獲得理想的效果.近年來,跨語言或者雙語的研究方法在很多領(lǐng)域都得到了應(yīng)用[13-14],而在事件抽取領(lǐng)域,只有極少數(shù)的相關(guān)研究.文獻[15]從大量的雙語平行語料中抽取了跨語言的謂詞集,然后利用這些謂詞集分別幫助提升中英文事件抽取的召回率.文獻[16]使用特征疊加的方法將雙語信息融合,同時實現(xiàn)了中英文事件觸發(fā)詞的分類.本文將在文獻[16]的雙語事件抽取系統(tǒng)和文獻[12]聯(lián)合學(xué)習(xí)模型的基礎(chǔ)上,結(jié)合局部特征和全局信息,使用整數(shù)線性規(guī)劃的聯(lián)合學(xué)習(xí)模型,構(gòu)建一種基于聯(lián)合學(xué)習(xí)的跨語言事件識別系統(tǒng).
2.1 概述
根據(jù)事件的定義,事件的識別可以等價為觸發(fā)詞的識別和分類.本文將觸發(fā)詞的識別和分類分別建模為二元分類和多元分類問題.首先通過機器翻譯及詞對齊技術(shù),獲得可用語料,然后選擇合適的特征,分別訓(xùn)練最大熵二元分類器(ME_I)和最大熵多元分類器(ME_D)[17],依次實現(xiàn)觸發(fā)詞的識別和分類.通過建立整數(shù)線性規(guī)劃(ILP)模型,對觸發(fā)詞的識別和分類結(jié)果進行局部和全局最優(yōu)化,得到最終結(jié)果.本文提出的基于聯(lián)合學(xué)習(xí)的跨語言事件識別系統(tǒng)的框架結(jié)構(gòu)如圖1所示.
圖1 基于聯(lián)合學(xué)習(xí)的跨語言事件識別系統(tǒng)框架Fig.1 Framework of cross lingual event recognitionusing joint modeling
2.2 機器翻譯及詞對齊
語言一致性即使得訓(xùn)練語料和測試語料的語言一致,本文借助機器翻譯系統(tǒng)Google Translate(www.google.com)將源語言語料翻譯成另一語言,得到3組可用語料:源英文語料+中文語料的翻譯語料,英文語料的翻譯語料+源中文語料,源英文語料及其翻譯語料+源中文語料及其翻譯語料.
而標(biāo)注信息一致性要求在語料的翻譯過程中,其標(biāo)注信息如觸發(fā)詞、實體等要保持等價.詞對齊是機器翻譯中的一項基礎(chǔ)任務(wù),旨在從雙語文本中自動識別詞一級的翻譯或?qū)?yīng)關(guān)系,即確定源語言文本中哪個(些)詞和目標(biāo)語言文本中哪個(些)詞有對應(yīng)關(guān)系.本文使用已有的詞對齊技術(shù),借助雙語平行語料庫LDC2002E18等[18-19],實現(xiàn)了事件語料和其翻譯語料的詞對齊.圖2為對前述例句1進行的機器翻譯和詞對齊處理的過程.
在機器翻譯和詞對齊處理完畢之后,就可以較準(zhǔn)確的在翻譯語料中定位到標(biāo)注信息.如圖2的例子中,源句是以“結(jié)婚”為觸發(fā)詞的“Life/Marry”事件,從對齊信息“8-4 8-5”中可以得到譯句中對應(yīng)的觸發(fā)詞信息為“got married”.
圖2 機器翻譯和詞對齊處理示例
Fig.2 An example of machine translation and word alignment
2.3 特征概述
對語料處理完畢之后,本文使用機器學(xué)習(xí)算法分別實現(xiàn)觸發(fā)詞的識別和分類兩個子任務(wù),為了保障分類器的性能,選擇有效合理的特征是至關(guān)重要的.
選定一組包含基準(zhǔn)特征、實體特征、句法特征和其他特征的特征組合,如表1所示.除了BV特征是只針對可用語料中的中文部分,其他的特征同時適應(yīng)于中英文.BV特征是根據(jù)文獻[11]針對中文特有的組合語義特性而提出的用于識別觸發(fā)詞的規(guī)則定義而成,其中的觸發(fā)詞基礎(chǔ)詞包括單字動詞觸發(fā)詞,多字觸發(fā)詞中作為動詞的單字成分等.如果語料是單一的語言,那么特征是對應(yīng)語言的特征,如果語料是源語言及其翻譯語言疊加的雙語語料,那么特征組合也須是雙語特征的疊加.
表1 特征描述
2.4 聯(lián)合學(xué)習(xí)模型
文獻[12]為了解決中文事件抽取任務(wù)中低質(zhì)量的事件標(biāo)記語料庫和假事件觸發(fā)詞對于真事件觸發(fā)詞的高比例兩個問題,提出了一個結(jié)合事件觸發(fā)詞識別和事件類型判別的聯(lián)合模型,使用整數(shù)線性規(guī)劃模型驗證了該方法的有效性.本文參考文獻[12]的方法,使用整數(shù)線性規(guī)劃模型將觸發(fā)詞的識別和分類兩個子任務(wù)結(jié)合,盡量降低文本翻譯等導(dǎo)致的噪音對實驗性能的影響.
(1)
(2)
(3)
(4)
(5)
(6)
然后,基于整數(shù)線性規(guī)劃聯(lián)合學(xué)習(xí)模型的事件識別就可以用目標(biāo)函數(shù)來表示,
(7)
其中:D為某一文本中的所有候選詞詞集;Mi為該文本中所有第i個候選詞的集合.
除此之外,為了保證結(jié)果的一致性,本文使用了文獻[12]提出的約束條件中的3個簡單約束,它們同時適用于中英文事件抽取的約束條件,其中包括兩個局部約束和一個全局約束:
1) 局部約束1.如果當(dāng)前詞觸發(fā)了第k類事件(1≤k≤33),那么該詞是真觸發(fā)詞,即
xi,j≥yi,j,k,?i∈D,j∈Mi, 1≤k≤33.
(8)
2) 局部約束2.如果當(dāng)前詞是真觸發(fā)詞,那么它必觸發(fā)某一類事件,即
(9)
3) 全局約束.如果當(dāng)前詞是真觸發(fā)詞,那么同一文本中的該詞都是真觸發(fā)詞,且它們對應(yīng)的事件類型一致,即
xi,j=xi,l, ?i∈D,j,l∈Mi.
(10)
3.1 語料設(shè)置
本文的實驗訓(xùn)練語料來自ACE2005的英文事件語料,測試語料來自ACE2005的中文事件語料,其中與本文相關(guān)的一些語料統(tǒng)計信息如表2所示.
3.2 實驗設(shè)置
本文采用最大熵分類模型作為分類算法,使用2.3小節(jié)中所述的特征組合,聯(lián)合學(xué)習(xí)模型使用整數(shù)線性規(guī)劃模型,用2.4小節(jié)的3個約束條件.本文根據(jù)語料的表達語言為依據(jù),設(shè)計并實現(xiàn)了3組基于聯(lián)合學(xué)習(xí)的跨語言事件識別的對比實驗.
1) 訓(xùn)練語料為英文語料的翻譯語料,測試語料為源中文語料(ET_C).
2) 訓(xùn)練語料為源英文語料,測試語料為中文語料的翻譯語料(E_CT).
3) 訓(xùn)練語料為源英文語料疊加其翻譯語料的雙語語料,測試語料為源中文語料疊加其翻譯語料的雙語語料(E+ET_C+CT).評價指標(biāo)采用P(precision)、R(recall)和F1(f1-measure).
3.3 實驗結(jié)果與分析
針對每一組可用語料,本文首先實現(xiàn)了基于最大熵分類模型的跨語言事件識別,然后在此基礎(chǔ)上實現(xiàn)了基于聯(lián)合學(xué)習(xí)的跨語言事件識別.
3.3.1 基于最大熵分類模型的跨語言事件識別結(jié)果 表3分別給出了基于最大熵分類模型的跨語言事件識別系統(tǒng)在3組可用語料上的結(jié)果.由表3中的數(shù)據(jù)可知,在進行觸發(fā)詞的識別和分類時,使用英文翻譯語料測試源中文語料比使用源英文語料測試中文翻譯語料的效果要好的多,前者的精確率和召回率均高于后者.這可能是因為在中文翻譯成英文的過程中準(zhǔn)確度和匹配度會降低,會損失更多有用的信息.而在源語言語料和翻譯語料疊加以后,會在一定程度上減輕這種損失,進一步平衡并提升系統(tǒng)的性能.使用雙語語料時候的F1值比ET_C在觸發(fā)詞的識別和分類上分別提升了約1.6%和3.3%,比E_CT分別提升了約8.8%和7.1%.
表2 語料信息統(tǒng)計
3.3.2 基于聯(lián)合學(xué)習(xí)的跨語言事件識別結(jié)果
表4給出了基于聯(lián)合學(xué)習(xí)的跨語言事件識別結(jié)果.與基于最大熵的跨語言事件識別結(jié)果類似,ET_C的結(jié)果好于E_CT,而E+ET_C+CT的雙語疊加后的效果好于其余二者,F(xiàn)1值在觸發(fā)詞的識別和分類上比ET_C分別提升了約3%和8.8%,比E_CT分別提升了約3%和10.1%.由此可見,源語言和翻譯語言疊加之后,可以有效地降低翻譯所損失的信息,進一步平衡或提升事件識別系統(tǒng)的性能.
綜合表3和4的結(jié)果,語料的雙語疊加比單獨使用源語言或者翻譯語言的效果要好,而使用基于聯(lián)合學(xué)習(xí)的方法比僅使用最大熵分類模型可以取得更好的觸發(fā)詞分類效果.
表3 基于最大熵分類模型的跨語言事件識別結(jié)果
表4 基于聯(lián)合學(xué)習(xí)的跨語言事件識別結(jié)果
為了能充分利用英文事件語料庫的信息幫助實現(xiàn)中文事件抽取,本文提出了一種基于聯(lián)合學(xué)習(xí)的跨語言事件識別方法.首先使用機器翻譯及詞對齊技術(shù),將語料統(tǒng)一,然后選擇合適的特征,使用最大熵分類模型分別實現(xiàn)觸發(fā)詞的識別與分類任務(wù),最后利用整數(shù)線性規(guī)劃的聯(lián)合學(xué)習(xí)模型將二者統(tǒng)一,結(jié)合局部約束和全局約束對結(jié)果進行優(yōu)化.實驗證明,當(dāng)將源語言語料和翻譯語料進行疊加之后,可以獲得更優(yōu)異的觸發(fā)詞識別和分類效果,而聯(lián)合學(xué)習(xí)模型也使得觸發(fā)詞的分類性能得到了進一步的優(yōu)化提升.
[1] 李保利,陳玉忠,俞士汶.信息抽取研究綜述[J]. 計算機工程與應(yīng)用,2003,39(10):1-4.
[2] CHIEU H L, NG H T. A maximum entropy approach to information extraction from semi-structured and free text[C]//Proceeding Eighteenth National Conference on Artificial Intelligence. Alberta:Edmonton, 2002:786-791.
[3] AHN D. The stages of event extraction[C]//Arte’06 Proceedings of the Workshop on Annotating & Reasoning About Time & Events. Sydney,2006:1-8.
[4] JI H, GRISHMAN R. Refining event extraction through unsupervised cross-document inference[C]//Meeting of the Association for Computational Linguistics. Ohio,2008:254-262.
[5] LIAO S, GRISHMAN R. Using document level cross-event inference to improve event extraction[C]//Proceedings of the Meeting of the Association for Computational Linguistics.Uppsala, 2010:789-797.
[6] HONG Y, ZHANG J, MA B, et al. Using cross-entity inference to improve event extraction[C]//Meeting of the Association for Computational Linguistics: Human Language Technologies.Portland, 2011:1127-1136.
[7] LI Q, JI H, HUANG L. Joint event extraction via structured prediction with global features[C]//Proceedings of the Meeting of the Association for Computational Linguistics. Bulgaria:Sofia,2013:73-82.
[8] TAN H, ZHAO T, ZHENG J. Identification of Chinese event and their argument roles[C]//IEEE, International Conference on Computer and Information Technology Workshops. Sydney,2008:14-19.
[9] CHEN Z, JI H. Language specific issue and feature exploration in Chinese event extraction[C]//Human Language Technologies: Conference of the North American Chapter of the Association of Computational Linguistics.Boulder, 2009:209-212.
[10]QIN B,ZHAO Y Y,DING X, et al. Event type recognition based on trigger expansion[J]. Tsinghua science and technology, 2010, 15(3):251-258.
[11]LI P, ZHOU G, ZHU Q, et al. Employing compositional semantics and discourse consistency in Chinese event extraction[C]//Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Jeju Island,2012:1006-1016.
[12]LI P, ZHU Q, DIAO H, et al. Joint modeling of trigger identification and event type determination in Chinese event extraction[C]// Proceedings of COLING 2012. Mumbai,2012:1635-1652.
[13]WAN X. Using bilingual knowledge and ensemble techniques for unsupervised Chinese sentiment analysis[C]//Conference on Empirical Methods in Natural Language Processing, EMNLP 2008. Hawaii: Honolulu, 2008:553-561.
[14]LI S, WANG R, LIU H, et al. Active learning for cross-lingual sentiment classification[M]. Berlin:Springer Berlin Heidelberg, 2013.
[15]JI H. Cross-lingual predicate cluster acquisition to improve bilingual event extraction by inductive learning[C]//UMSLLS '09 Proceedings of the Workshop on Unsupervised and Minimally Supervised Learning of Lexical Semantics. Boulder,2009:27-35.
[16]ZHU Z, LI S, ZHOU G, et al. Bilingual event extraction: a case study on trigger type determination[C]// ACL 2014, Proceedings of Meeting ofthe Association for Computational Linguistics. Baltimore Maryland, 2014:842-847.
[17]權(quán)聰敏,趙釗,文富安. 基于Lucene的智能答疑系統(tǒng)的研究與實現(xiàn)[J].鄭州大學(xué)學(xué)報(理學(xué)版),2007,39(2):46-49.
[18]OCH F J, NEY H. Improved statistical alignment models.[C]//Proceedings of Meeting of the Association for Computational Linguistics. Hong Kong, 2000:440-447.
[19]LI J, RESNIK P, DAUMé III H. Modeling syntactic and semantic structures in hierarchical phrase-based translation[C]//HLT-NAACL. Atlanta,2013: 540-549.
(責(zé)任編輯:方惠敏)
Cross Lingual Event Recognition Using Joint Modeling
YAN Qian, CHEN Jing, WANG Limin, LI Shoushan
(NaturalLanguageProcessingLab,SoochowUniversity,Suzhou215006,China)
Event recognition is a basic task of event extraction, which include trigger identification and trigger classification. English event corpus is better and more abundant to help Chinese event extraction.A cross lingual event recognition method was proposed to use joint modeling. Specifically, machine translation and word alignment technologies were applied to contain the consistency of corpus language and annotation information. Then a Maxent model was trained to get trigger identification and trigger classification results with appropriate features.Lastly, trigger identification and trigger classification were fused to optimize the results through integer liner programming, with local constraints and global constraints. The results of experiments showed that the proposed method was effective, especially using the bilingual corpus which contained the origin corpus and its translation corpus simultaneously.
event recognition; cross lingual; joint modeling; integer liner programming
2016-10-26
國家自然科學(xué)基金重點項目(61331011);國家自然科學(xué)基金項目(61375073,61273320).
嚴(yán)倩(1993—),女,江蘇鹽城人,碩士研究生,主要從事自然語言處理研究,E-mail: 20154227038@stu.suda.edu.cn.
TP301.6
A
1671-6841(2017)02-0060-06
10.13705/j.issn.1671-6841.2016282