武娟,李茹,2,王智強
(1. 山西大學(xué) 計算機與信息技術(shù)學(xué)院,山西 太原 030006;2. 山西大學(xué) 計算智能與中文信息處理教育部重點實驗室,山西 太原 030006)
漢語篇章中零形式的識別與消解
武娟1,李茹1,2,王智強1
(1. 山西大學(xué) 計算機與信息技術(shù)學(xué)院,山西 太原 030006;2. 山西大學(xué) 計算智能與中文信息處理教育部重點實驗室,山西 太原 030006)
傳統(tǒng)的語義角色標(biāo)注只能為句中顯式表達(dá)的句法論元分配語義角色,但是忽略了一些隱式的語義成分,即零形式。該文基于漢語框架語義研究了零形式的識別及消解。在識別階段,首先使用規(guī)則方法進(jìn)行零形式檢測,然后運用篩選過濾的策略去除部分錯誤識別的零形式;在消解階段,將篇章中顯式表達(dá)的框架元素填充項作為零形式的候選先行語,提出結(jié)合框架元素語義類型與框架關(guān)系的消解方法。在構(gòu)建的164篇中文語料上進(jìn)行實驗,與其他方法相比,該方法能獲得更好的結(jié)果。
漢語框架網(wǎng);零形式識別;零形式消解
語義角色標(biāo)注是對句子中謂詞所支配的句法成分標(biāo)注語義角色,是對句子進(jìn)行淺層語義分析的一種方法。但是,它只能為顯式表達(dá)的句法論元分配語義角色,而忽略了一些未明確表達(dá)的論元,這種未明確表達(dá)的論元稱為零形式(Null Instantiation,NI)。其中有一部分隱式角色能從篇章中推斷出其先行語,而發(fā)現(xiàn)隱式語義角色并為其找到先行語有助于進(jìn)一步理解篇章。
在漢語框架網(wǎng)(Chinese FrameNet)[1]中,這些缺失的語義角色被稱為零形式框架元素[2],簡稱為零形式。按照缺失論元在語義理解上的不同解釋類型,零形式被分為有定的零形式(Definite Null Instantiation,DNI)和無定的零形式(Indefinite Null Instantiation,INI)。INI是指缺省元素的自然類型或語義類型能夠被理解,不需要找回或者建立一個特定的篇章所指。DNI是指缺失的角色一定是在篇章的上下文中已經(jīng)被理解,并且在上下文中能找到對應(yīng)的詞語,如例1所示,目標(biāo)詞“發(fā)現(xiàn)”激起“發(fā)現(xiàn)”框架,該框架包含兩個核心框架元素:Cognizer,Phenomenon,其中僅有Phenomenon被“太陽耀斑的數(shù)量明顯增多,地球的平均氣溫也穩(wěn)定上升”填充,而另一個核心框架元素并沒有在本句中顯式表達(dá),但是可以推斷出Cognizer是由前一句中的“科學(xué)家”所填充,即標(biāo)記為DNI。
例1 [為了確定太陽對全球變暖的影響]Purpose,[科學(xué)家]Agent對太陽耀斑進(jìn)行有意行為了[測量]Activity。
測量后發(fā)現(xiàn)發(fā)現(xiàn),[太陽耀斑的數(shù)量明顯增多,地球的平均氣溫也穩(wěn)定上升]Phenomenon。[Cognizer DNI]
零形式的識別與消解問題可以形式化描述為: 給定篇章D={S1,S2,…,Sn},其中Sk(k∈[1,n])為語篇D的第k句。Sk中能激起框架的目標(biāo)詞集合為Tk={Tk1,Tk2,…,Tkp},F(xiàn)k={Fk1,Fk2,…,Fkp}為對應(yīng)的框架集合。對于某個框架Fki,其核心框架元素集合為Eki={e1,e2,…,em},而框架Fki在Sk中出現(xiàn)的核心框架元素集為Cki,其中Cki?Eki,則未被實現(xiàn)的核心框架元素集Eki-Cki即為缺失的核心框架元素集。因此,我們首先需要判斷Eki-Cki集合中的元素是否屬于零形式;然后確定已識別出的零形式em是否屬于有定的零形式;最后為有定的零形式em在篇章中找到其對應(yīng)的先行語dm。
本文基于框架語義,系統(tǒng)地完成了零形式的識別與消解任務(wù),并為有定的零形式消解任務(wù)提出了基于框架元素語義類型和框架關(guān)系的消解方法。
在針對英文的零形式消解研究方面,國際語言學(xué)會議ACL在2010年舉辦了關(guān)于“Linking Events and Their Participants in Discourse”的語義評測[3],要求參與者在已標(biāo)注語義角色的語料上識別出有定的零形式并在上下文中找到其先行語,評測任務(wù)分別提供了FrameNet和PropBank兩種全文標(biāo)注的語料,但由于任務(wù)過于新穎且難度較大,只有兩支參賽隊伍提交了結(jié)果。
Tonelli等人[4]采用一個曾用于文本蘊涵識別的語義評測系統(tǒng)VENSES,得到與語義角色標(biāo)注相對應(yīng)的謂詞論元結(jié)構(gòu),并根據(jù)目標(biāo)詞的詞性(動詞、名詞)提出了不同的處理策略: 在測試語料中,若激起有定的零形式所屬框架的目標(biāo)詞為動詞,則在訓(xùn)練語料中查找與其相似的謂詞論元結(jié)構(gòu),找到后與其對比得出缺失的論元,若未找到,則查找FrameNet中與該目標(biāo)詞同屬一個框架的其他詞元的謂詞論元結(jié)構(gòu),最后,計算缺失元素與潛在填充項的相似度完成零形式的消解;而對于名詞性目標(biāo)詞,根據(jù)VENSES分析得到的事件、時間、空間等信息,以及建立在ConceptNet2.0[5]上的意義推理模型,判斷某詞語是否可以作為DNI的填充項,最終達(dá)到的準(zhǔn)確率和召回率分別為4.62%和0.86%。在后期的工作中,Tonelli等人[6]認(rèn)為如果一個候選填充項的中心詞在訓(xùn)練語料中多次被標(biāo)記為框架元素,則該詞作為DNI先行語的可能性越高。該工作基于這種思路計算了每個候選填充項與DNI的相關(guān)性得分,最終得到8%的F值。
另一支團(tuán)隊Chen等人[7]將此任務(wù)看成一種特殊的語義角色標(biāo)注任務(wù),選取前三句中的代詞、名詞、名詞短語作為先行語候選詞,統(tǒng)計FrameNet中相應(yīng)框架的例句庫以及訓(xùn)練語料中某候選詞是否被顯式標(biāo)記為該語義角色,若沒有,則系統(tǒng)計算候選填充項與缺失角色的分布相似性。盡管實驗結(jié)果高于VENSES++,F(xiàn)值為5%,但數(shù)據(jù)稀疏仍然是潛在的限制因素。
雷章章等人[8]采用規(guī)則過濾與機器學(xué)習(xí)相結(jié)合的方法,在SemEval2010 task10的語料上實現(xiàn)了有定零形式的識別。Silberer等人[9]將該問題看作一個指代消解任務(wù),將實體鏈作為候選填充項,結(jié)合語義角色標(biāo)注和共指消解的特征,構(gòu)建了有監(jiān)督的機器學(xué)習(xí)模型,同時他們對語料進(jìn)行了擴充,從而解決了數(shù)據(jù)稀疏的問題,最終獲得7.1%的F值。Gorinski等人[10]運用SemEval2010 task10的語料,研究了四個不同類型的DNI語義解析器的性能,最終結(jié)果F值為12%。Wang等人[11]同樣在該評測語料上,統(tǒng)計和規(guī)則相結(jié)合構(gòu)建了一個規(guī)模最小覆蓋范圍最大的候選詞集合,將有定的零形式缺位填充看成一個分類問題,在傳統(tǒng)的特征上引入中心詞信息和框架信息,使用最佳的特征組合最終得到了14.65%的F值。Laparra等人[12]總結(jié)研究了傳統(tǒng)指代消解所使用的特征,并嘗試著將其應(yīng)用到零形式的消解任務(wù)中,最終F值達(dá)到18%。
Gerber等人[13]研究了在新聞專線文本中常出現(xiàn)的十個名詞性目標(biāo)詞,運用NomBank/PropBank標(biāo)注語料,結(jié)合句法、語義和語篇特征,采用實體指代的方法,得到了明顯高于其他團(tuán)隊的結(jié)果,而這很可能是由于語料是基于限定謂詞的,并且每個謂詞包含有120條標(biāo)注實例。
3.1 漢語框架網(wǎng)
漢語框架網(wǎng)(Chinese FrameNet,CFN)[14]是以Fillmore的框架語義學(xué)為理論基礎(chǔ)[15],以加州大學(xué)伯克利分校的FrameNet[16]為參照,以漢語真實語料為依據(jù)的供計算機使用的漢語詞匯語義知識庫。CFN的分析單元是框架,“框架”(Frame)是與一些激活性語境相一致的結(jié)構(gòu)化的范疇系統(tǒng),是儲存在人類認(rèn)知經(jīng)驗中的圖式化情境。激起框架的詞元為目標(biāo)詞。在目標(biāo)詞激起一個框架的同時也激起了一個語義場景,場景中的事件及參與者被稱為框架元素(Frame Element)。其中,框架元素又有核心與非核心之分。核心框架元素是一個框架在概念理解上的必有成分,它們在不同的框架中類型和數(shù)量不同,顯示出框架的個性。非核心框架元素表達(dá)時間、空間、環(huán)境條件、原因、目的等外圍語義成分。
3.2 零形式框架元素及其類型
并非所有的核心框架元素能同時被實現(xiàn),有些框架的核心框架元素是互相排斥的,如例2、例3所示,目標(biāo)詞“像”和“酷似”都激起了“類似”框架,該框架包含四個核心框架元素Entity1、Entity2、Entities和Dimension,其中Entity1、Entity2都與Entities互相排斥,即形成了Excludes關(guān)系。同時,Entity1和Entity2構(gòu)成了Requires關(guān)系,若Entity1在前,則Entity1出現(xiàn)時要求Entity2也出現(xiàn),否則認(rèn)為是論元缺失,但是Entity2出現(xiàn)的時候不一定要求Entity1也必須出現(xiàn)。
CoreSet關(guān)系描述的是其中一個或者多個核心框架元素需要顯式表達(dá),這種關(guān)系比較復(fù)雜,可能在某種情況下,其中的一個核心框架元素缺失時不認(rèn)為是零形式,而對于另外一個則必須標(biāo)記為零形式,這因框架的不同而不相同,如例4所示,“知道”激起的“知道”框架,包含三個核心框架元素Cognizer、Content、Topic,其中表達(dá)相似語義內(nèi)容的元素Content和Topic具有CoreSet關(guān)系,因此,Content的顯式出現(xiàn)使得Topic的缺失不被標(biāo)記為零形式。
例2 [我們的經(jīng)濟(jì)]Entity1就像類似[一棵經(jīng)過長期干旱后的健康植物]Entity2。[DimensionINI]
例3 [兄弟二人相貌]Entities酷似類似。[DimensionINI]
例4 [根據(jù)經(jīng)驗]Evidence,[我]Cognizer知道知道[他會遲到]Content。
另外,如例2、例3所示,實體有相似點的方面Dimension沒有明確表達(dá),但能夠被理解,這種情況被標(biāo)記為INI。
3.3 框架之間的關(guān)系
框架關(guān)系是指語義場景之間的關(guān)系,F(xiàn)rameNet詳細(xì)定義了繼承、使用、總分、透視、先后、因果、起始和參照這八種框架關(guān)系,通過定義這些框架之間的關(guān)系形成了框架的網(wǎng)狀結(jié)構(gòu)。以繼承關(guān)系來說,它使得一個比較普通的框架具體化為一個比較特定的框架。并且它們的框架元素之間也具有相應(yīng)的關(guān)系,每個繼承來的框架元素包含了被繼承框架元素的所有語義特點,也可能增加其他的特點,例如,“付款”框架,繼承自“給予”框架,其中,“付款”的框架元素“買方(Buyer)”繼承于“給予.捐贈者(Donor)”,“賣方(Seller)”繼承于“給予.接受者(Recipient)”,“貨幣(Seller)”繼承于“給予.轉(zhuǎn)移體(Theme)”等。
這些框架之間以及框架元素之間的關(guān)系是本文進(jìn)行有定的零形式消解的一個重要依據(jù)。
零形式的識別與消解研究目的是找出篇章中的隱式角色及其先行語,從而有助于篇章理解,本文將該任務(wù)分為零形式的識別、零形式的分類和有定的零形式消解三個子任務(wù),并根據(jù)各子任務(wù)的不同分別建模。
4.1 零形式的識別
缺失的核心框架元素并不一定就是零形式,而核心框架元素之間存在著3.2節(jié)中所介紹的三種關(guān)系CoreSet、Excludes和Requires,只有充分考慮了這些關(guān)系才能夠判斷缺失的核心框架元素是否屬于零形式。
對于該任務(wù),本文根據(jù)零形式的多樣性特點進(jìn)行了兩級識別。
1) 首先,本文基于文獻(xiàn)[8]提出的檢測規(guī)則進(jìn)行零形式的識別,其中,對于具有CoreSet關(guān)系的核心框架元素,只要其中一個框架元素在句中顯式出現(xiàn),則其他核心框架元素的缺失不被標(biāo)記為零形式。但是,若CoreSet關(guān)系中的核心框架元素在句中都未顯示表達(dá),則將它們都標(biāo)記為零形式,這樣可能就會引入一些錯誤識別的零形式。
2) 本文在第一級識別的基礎(chǔ)上進(jìn)行了第二級識別,即統(tǒng)計每個詞元在訓(xùn)練語料中的框架語義角色標(biāo)注模式*框架語義角色標(biāo)注模式是指標(biāo)注的框架元素,其中也包括被標(biāo)記為零形式的框架元素。,對上一步檢測到的零形式進(jìn)行篩選。以詞元“發(fā)射”為例,表1則是其從訓(xùn)練語料中抽取的框架標(biāo)注模式。在此基礎(chǔ)上,可以有效地去除一些錯誤識別的零形式。
表1 詞元“發(fā)射”在訓(xùn)練語料中的標(biāo)注模式
4.2 零形式的分類模型
并非所有的零形式都能在篇章中找到對應(yīng)的先行語,因此,在進(jìn)行零形式消解之前,需要對子任務(wù)一中識別出的零形式,確定哪些能找到先行語,即哪些屬于DNI。
本文使用最大熵分類模型實現(xiàn)了零形式分類,實驗使用的是張樂博士的最大熵工具包[17]。而特征選擇的優(yōu)劣直接影響模型的性能,本文借鑒雷章章等[8]在英文語料上所使用的特征,并擴展總結(jié)出本文實驗用到的特征,如表2所示。
表2 零形式分類的特征描述
4.3 有定的零形式消解模型
有定的零形式消解旨在為識別出的有定的零形式從篇章上下文中找到其對應(yīng)的先行語。其中,如何確定候選先行語的范圍及候選先行語是首要的問題。然后,本文使用最大熵模型構(gòu)建先行語查找模型。
4.3.1 確定先行語候選集
在語篇中可能作為零形式框架元素先行語的詞即為候選詞。由于語料已進(jìn)行細(xì)粒度的標(biāo)注,我們認(rèn)為,零形式的先行語在篇章中已填充過其他顯式表達(dá)的框架元素,因此,本文將一定窗口內(nèi)所有語句中所有框架元素的填充項作為當(dāng)前零形式先行語的候選集。通過在不同窗口大小的對比實驗,選定最佳的窗口作為候選詞的選擇范圍。
4.3.2 特征選擇
本文深入分析了框架元素的語義類型及框架之間的關(guān)系,為該任務(wù)設(shè)置了如表3所示的特征集。
表3 有定的零形式消解的特征描述
其中,特征F8是指框架元素的語義類型,表4給出了部分框架元素的語義類型。本文認(rèn)為零形式先行語的語義類型與候選詞的語義類型應(yīng)該是趨近相同的。如例1中的有定的零形式框架元素Cognizer,可知其語義類型為Sentient,而其先行語的語義類型應(yīng)該也為Sentient,由于候選詞“科學(xué)家”曾填充框架元素Agent,其語義類型為Sentient,因此為Cognizer找到了先行語“科學(xué)家”。
表4 部分框架元素的語義類型示例
另外,根據(jù)FrameNet中框架之間以及框架元素之間的關(guān)系(已在3.3節(jié)中介紹),本文提取了特征F9,即表示從框架f1到f2之間的框架關(guān)系路徑。
例5 [五十年代]Time,[我國]Agent+Place曾發(fā)起行為開始[把麻雀作為四害來消滅的運動]Activity。
然后,[在麻雀被大量捕殺之后的幾年里]Time,卻出現(xiàn)事件了[嚴(yán)重的蟲災(zāi)]Event。[PlaceDNI]
以例5為例,第一句中的目標(biāo)詞“發(fā)起”激起“行為開始”框架,“五十年代”和“把麻雀作為四害來消滅的運動”分別填充該框架中的Time和Activity框架元素,而“我國”表達(dá)了Agent和Place兩個語義角色,即出現(xiàn)了框架元素融合現(xiàn)象[2]。第二句中的目標(biāo)詞“出現(xiàn)”激起了“事件”框架,其中核心框架元素Place未顯式表達(dá)。在FrameNet關(guān)系網(wǎng)中,框架“行為開始”繼承自“過程開始”框架,而框架“過程開始”又繼承于“事件”框架,這種繼承關(guān)系也存在于框架的部分框架元素之間,即表示為:
根據(jù)這些繼承關(guān)系,為有定的零形式框架元素Place找到了對應(yīng)的先行語,即為前一句中框架元素Place的填充項“我國”。
5.1 實驗語料
實驗語料來源于山西大學(xué)語義計算與漢語框架網(wǎng)研究中心,包括57篇《人民日報》語料及107篇閱讀理解的文章,涉及科技、歷史、醫(yī)保等14個領(lǐng)域。本文使用中國科學(xué)院計算技術(shù)研究所的ICTCLAS進(jìn)行分詞及詞性標(biāo)注,使用斯坦福大學(xué)的語法解析工具Stanford Parser得到短語類型。由于目前漢語自動語義角色標(biāo)注的性能偏低,我們進(jìn)行了人工語義角色標(biāo)注。實驗數(shù)據(jù)的統(tǒng)計結(jié)果如表5所示。
表5 實驗數(shù)據(jù)的統(tǒng)計結(jié)果
本文采取交叉驗證策略,將語料分為五等份,每次取其中四份做訓(xùn)練集,剩余一份做測試集,取五次結(jié)果的平均值作為最終結(jié)果。
5.2 評價指標(biāo)
本文使用準(zhǔn)確率P(Precision)、召回率R(Recall)和F值對實驗結(jié)果進(jìn)行評價。假設(shè)Cp是實驗?zāi)P皖A(yù)測出的個數(shù),Cc是實驗?zāi)P皖A(yù)測正確的個數(shù),Ca是測試集中正確答案的個數(shù),則我們將準(zhǔn)確率、召回率和F值定義如下:
5.3 零形式的識別實驗及結(jié)果分析
本文提出的兩級識別方法在語料集上的實驗結(jié)果如表6所示,可以看出本文改進(jìn)的識別方法達(dá)到了78.84%的F值。作為對比,本文使用文獻(xiàn)[8]的規(guī)則方法在本文語料上進(jìn)行了實驗,其F值為69.34%,顯然低于本文方法的實驗結(jié)果。
表6 零形式識別的實驗結(jié)果
經(jīng)過分析,影響實驗結(jié)果的一個重要因素就是核心框架元素之間存在的CoreSet關(guān)系,以例6來說明。
例6 [他]Suspect[因為入室盜竊]Offense而被逮捕逮捕。[ChargesINI][AuthoritiesINI]
在“逮捕”框架中,
Core: {Authorities,Charges,Offense,Suspect}
CoreSet: {Charges,Offense}
例6中,核心框架元素Suspect和Offense顯式表達(dá),而核心框架元素Charges與Offense存在CoreSet關(guān)系,本文使用的方法在實驗中未將Charges的缺失標(biāo)記為零形式,這種情況就會影響實驗結(jié)果。
5.4 零形式的分類實驗及結(jié)果分析
對于檢測到的零形式,本文使用最大熵模型對零形式的解釋類型(DNI,INI)進(jìn)行了分類,分類結(jié)果如表7所示,其中本文方法的結(jié)果要高于使用文獻(xiàn)[8]所用特征的結(jié)果,驗證了本文提取特征的有效性。
但是分類結(jié)果仍不高,究其原因,一是由于子任務(wù)一中零形式識別結(jié)果的限制,另外,由于零形式框架元素所屬的框架、詞元或語境不同,對零形式的解釋類型就都可能不同,以例7、例8來說,對于框架元素Place,都未在句中顯式表達(dá),但由于其所屬詞元不同,所處語境不同,則解釋類型也不同,即分別為INI和DNI。
表7 零形式分類的實驗結(jié)果
例7 [任何不屬于空氣成分的物質(zhì)大量進(jìn)入空氣之后]Time,[空氣污染]Event就發(fā)生事件了。[PlaceINI]
例8 然而,[在麻雀被大量捕殺之后的幾年里]Time,卻出現(xiàn)事件了[嚴(yán)重的蟲災(zāi)]Event,使農(nóng)業(yè)生產(chǎn)受到巨大的損失。[PlaceDNI]
5.5 有定零形式的消解實驗及結(jié)果分析
為了選擇出最有效的特征組合以及最佳的候選詞范圍,本文首先在正確的有定零形式基礎(chǔ)上進(jìn)行了大量實驗,表8中給出了窗口大小分別為2,3,4的實驗結(jié)果,其中F1~7表示使用表3中的前七個特征,F(xiàn)1~9表示使用表3中的所有特征。
表8 在正確的有定零形式上的實驗結(jié)果
由表8可知,在前七個特征基礎(chǔ)上加入框架元素的語義類型特征(F8)時,消解結(jié)果有一定的提高,但是由于部分框架元素沒有被分配語義類型,因此限制了提升的幅度。在加入框架關(guān)系特征(F9)時,結(jié)果提升,說明了框架關(guān)系的重要性。
當(dāng)同時加入語義類型與框架關(guān)系特征時,實驗結(jié)果顯著提高,并且窗口大小為3時,F(xiàn)值達(dá)到30.05%。
5.6 零形式消解實驗及結(jié)果分析
最后,本文在自動識別零形式、自動零形式分類的基礎(chǔ)上,設(shè)置窗口大小為3,使用特征F1~9進(jìn)行了消解實驗,結(jié)果如表9所示。本文結(jié)合語義類型與框架關(guān)系的方法達(dá)到了21.84的F值,但是與表8結(jié)果對比,F(xiàn)值降低了約9%,這是由于零形式自動識別以及零形式的分類中的錯誤導(dǎo)致。
為了與其他方法進(jìn)行比較,本文使用文獻(xiàn)[11]提出的方法在本文的語料上進(jìn)行了實驗,顯然本文方法的實驗結(jié)果更高,但是由于我們的語料中沒有標(biāo)注中心詞信息,因此該對比實驗所用特征不包含中心詞特征。而目前針對英文零形式消解最好的方法,即文獻(xiàn)[12]提出的方法,其充分運用了共指模型,但是由于我們的語料未標(biāo)注共指信息,因此本文沒有使用該方法在我們的語料上進(jìn)行實驗對比。
表9 自動識別的有定的零形式消解實驗結(jié)果
零形式消解的結(jié)果不是很高,本文認(rèn)為其中一個影響因素是設(shè)置窗口大小為3,即所選候選詞范圍設(shè)定在3句以內(nèi),但本文統(tǒng)計出DNI先行語在3句以外的概率為5.2%,下面給出了類似的情況:
另外,實驗訓(xùn)練語料較少也是影響實驗結(jié)果的一個因素。
零形式的識別與消解是指找到未顯式表達(dá)的語義成分并在篇章中為其找到先行語。本文將該任務(wù)分成三個子任務(wù): 零形式的識別、零形式的分類及有定零形式的消解。對于零形式的識別任務(wù),本文首先使用已有規(guī)則方法進(jìn)行第一級檢測,然后使用提出的篩選方法進(jìn)行第二級識別。對于有定的零形式消解任務(wù),本文將篇章中顯式表達(dá)的框架元素填充項作為有定零形式的先行語候選集,并結(jié)合框架元素的語義類型與框架關(guān)系進(jìn)行先行語查找,最終,實驗結(jié)果驗證了該消解方法的可行性。
零形式的識別與分類是有定的零形式消解的基礎(chǔ),因此提高零形式的識別與分類性能至關(guān)重要。此外,下一步將在擴大語料規(guī)模的同時,結(jié)合HowNet、WordNet等資源獲取語義類型及其上下位關(guān)系,提出更高效的先行語查找方法。
[1] 劉開瑛. 漢語框架語義網(wǎng)構(gòu)建及其應(yīng)用技術(shù)研究[J].中文信息學(xué)報,2011,25(6): 46-52.
[2] 俞士汶,黃居仁. 計算語言學(xué)前瞻[M]. 北京: 商務(wù)印書館,2005: 21-74.
[3] Josef Ruppenhofer,Caroline Sporleder,Roser Morante,Collin Baker,Martha Palmer. SemEval-2010 Task 10: Linking Events and Their Participants in Discourse[C]//Proceedings of the SemEval-2010. Uppsala,Sweden: 15-16 July 2010: 45-50.
[4] Sara Tonelli,Rodolfo Delmonte. VENSES++: Adapting a Deep Semantic Processing System to the Identification of Null Instantiations[C]//Proceedings of SemEval-2010. Uppsala,Sweden: 15-16 July 2010: 296-299.
[5] Hugo Liu,Push Singh. Conceptnet: a practical commonsense reasoning tool-kit[J]. BT technology journal,2004,22(4): 211-226.
[6] Sara Tonelli,Rodolfo Delmonte. Desperately seeking implicit arguments in text[C]//Proceedings of the ACL 2011 workshop on relational models of semantics. 2011: 54-62.
[7] Desai Chen,Nathan Schneider,Dipanjan Das,Noah A. Smith. 2010. SEMAFOR: Frame Argument Resolution with Log-Linear Models[C]//Proceedings of SemEval-2010. Uppsala,Sweden: 15-16 July 2010: 264-267.
[8] 雷章章,王寧,李茹,等. FrameNet中有定的零形式識別[J]. 中文信息學(xué)報,2013,27(3): 107-112.
[9] Carina Silberer,Anette Frank. Casting implicit role linking as an anaphora resolution task[C]//Proceedings of the First Joint Conference on Lexical and Computational Semantics-Volume 1: Proceedings of the main conference and the shared task,and Volume 2: Proceedings of the Sixth International Workshop on Semantic Evaluation. 2012: 1-10.
[10] Philip Gorinski,Josef Ruppenhofer,Caroline Sporleder. Towards weakly supervised resolution of null instantiations[C]//Proceedings of the 10th International Conference on Computational Semantics (IWCS 2013) -Long Papers. 2013: 119-130.
[11] Ning Wang,Ru Li,Zhangzhang Lei,Zhiqiang Wang,Jingpan Jin. Document Oriented Gap Filling of Definite Null Instantiation in FrameNet[C]//Proceedings of Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data,2013,8202: 85-96.
[12] Egoitz Laparra,German Rigau. Sources of evidence for implicit argument resolution[C]//Proceedings of the 10th International Conference on Computational Semantics (IWCS 2013)-Long Papers. 2013: 155-166.
[13] Matthew Gerber,Joyce Y Chai. Beyond nombank: a study of implicit arguments for nominal predicates[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. 2010: 1583-1592.
[14] 李茹. 漢語句子框架語義結(jié)構(gòu)分析技術(shù)研究[D]. 山西大學(xué)博士學(xué)位論文,2012.
[15] Charles J Fillmore. Frame semantics. Linguistics in the morning calm[M]. Seoul,Korea: Hanshin Publishing Company,1982: 111-137.
[16] Collin F Baker,Charles J Fillmore,John B Lowe. The berkeley framenet project[C]//Proceedings of COLING/ACL. 1998.
[17] Zhang Le. Maximum entropy modeling toolkit for python and C++: [OL]http://homepages.inf.ed.ac.uk/lzhang10/maxent_toolkit.html
Null Instantiation Identification and Resolution in Chinese Discourse
WU Juan1,LI Ru1,2,WANG Zhiqiang1
(1. School of Computer & Information Technology,Shanxi University,Taiyuan,Shanxi 030006,China;2.Key Laboratory of Ministry of Education for Computation Intelligence &Chinese Information Processing,Shanxi University,Taiyuan,Shanxi 030006,China)
Semantic Role Labeling is traditionally concerned with searching the fillers of those explicit roles appearing within sentence boundaries, ignoring some implicit arguments called null instantiation. This paper addressed the issue of automatic null instantiation identification based on Chinese FrameNet. We first apply the rule-based approach to detect null instantiation, which is followed by a post filtering to remove errors. Then, to deal with the arguments, we present an approach to combining semantic types of frame elements and frame-to-frame relations. We conduct experiments on 164 Chinese discourses, and compared with some other method, our method can get a better result.
Chinese FrameNet; null instantiation identification; null instantiation resolution
武娟(1991—),碩士研究生,主要研究領(lǐng)域為中文信息處理。E?mail:wujuan_0922@163.com李茹(1965—),通信作者,博士,教授,博士生導(dǎo)師,主要研究領(lǐng)域為自然語言處理。E?mail:liru@sxu.edu.cn王智強(1987—),博士研究生,主要研究領(lǐng)域為社會媒體數(shù)據(jù)挖掘、自然語言處理。E?mail:zhiq.wang@163.com
2014-02-03 定稿日期: 2014-06-05
國家自然科學(xué)基金(61373082);山西省科技基礎(chǔ)條件平臺建設(shè)項目(2014091004-0103);山西省回國留學(xué)人員科研資助項目(2013-015);國家863計劃項目(2015AA015407)
1003-0077(2016)03-0009-07
TP391
A