袁毓林,王明華
(1.北京大學中文系漢語語言學研究中心,北京100871;2.浙江大學國際教育學院,浙江杭州310027)
為了有效地處理自然語言中廣泛存在的同義異形現(xiàn)象,近年來國外一些學者嘗試用“文本蘊涵”(Textual Entailment)來為語言中紛繁復雜的同義表達建立模型。
所謂文本蘊涵,可以定義為一個連貫的文本(Text)T和一個被看作是假設(Hypothesis)的 H之間的一種關系。如果 H的意義(置于 T的語境中解釋時)可以從 T的意義中推斷出來;那么我們說T蘊涵(Entail)H(即H是T的推斷),記作T?H。這種關于“文本蘊涵”的定義,十分全面地抓住了為不同的應用所需的對于語言表達多樣性的推理。拿問答系統(tǒng)來說,它必須鑒別蘊涵了所期望的回答的文本。例如:
(1)a.Who killed Kennedy?
(誰殺死了肯尼迪)
b.the assassination of Kennedy by Oswald
(奧斯瓦德對肯尼迪的暗殺)
c.Osw ald killed Kennedy.
(奧斯瓦德殺死了肯尼迪)
對于給定的問句(1a)來說,文本(1b)蘊涵了句子性假設(1c);因此,(1b)可以作為(1a)的答句。同樣,在信息檢索中,由(非句子性)查詢表達形式所指謂的概念,必須被相關的檢索返回文檔所蘊涵。在多文檔自動文摘中,摘要中省去的冗余句子或表達,應該被摘要中的其他表達所蘊涵。在信息抽取中,蘊涵關系存在于表達相同關系的不同的文本變體中。在指代求解中,先行語通常蘊涵了指代表達。比如,在“IBM will……The com pany……”這樣的語篇中,IBM蘊涵company[3,7,9]。
國外的許多學者積極從事文本蘊涵問題的研究,構造了不同的文本蘊涵的推理模型和識別模型,并且還舉行國際性的競賽和評測[8-9]。為了方便大家的了解,本文介紹幾種文本蘊涵的推理模型和識別模型,供對內容挖掘和語義計算關心的同行參考。
Dagan and G lickman[7]提出了一個逼近文本蘊涵關系的推理模型,借以預測蘊涵關系是否存在于一個給定的“文本—假設”對之間。這種推理模型由帶有推理規(guī)則集的蘊涵型式(Entailment Patterns)知識庫和相關的概率評價構成。上文給出的蘊涵關系的抽象定義是一種決定論式的:對于一個給定的文本T和假設H,人們假定T?H成立與否。而在他們這個推理模型中,他們采用了蘊涵關系的模糊觀念(Fuzzy Notion):通過給一個蘊涵關系的實例標定一個概率得分,來評價蘊涵關系存在于這個特定的“文本—假設”對之間的概率有多大。下面分別介紹這個模型的三個主要的部分。
他們把模板(Temp late)定義為帶有句法分析的語言表達式,其中任選性地帶有可以替換這個結構的某些組成部分的變量。變量可以根據所用的句法表示語言而抽象為某種句法類型,諸如詞類或依存分析中的關系類型。一個蘊涵型式由下列兩個部分構成:
A.型式結構:一個主蘊涵模板(左側,記作LHS)和一個被蘊涵模板(右側,記作 RHS),它們擁有共同的變量域。
B.型式概率:先驗(Prior)概率和語境(即后驗[Posterior])概率。比如:
其中,蘊涵型式指定了:對于任何變量的實例,一個蘊涵LHS的文本也蘊涵RHS的概率P的條件。概率是這樣來估計的:當這個型式用于某個給定的語境中時,其先驗和后驗概率的真組合(Proper Combination)。
設計推理機制,以便用給定的蘊涵型式庫,并組合性地運用概率推理邏輯;從而,達到推斷出更大的表達式之間的蘊涵關系。表1列出了用于該系統(tǒng)的一些核心的推理規(guī)則。
表1 5條核心的推理規(guī)則
續(xù)表
其中,規(guī)則1計算所有匹配性蘊涵型式的最大概率。所以稱這種概率為“公理概率”(Axiom Probability),是因為蘊涵型式是給推理引擎的,而不是被演繹的。規(guī)則3和4描寫前件和后件被組合進更大的表達式之中,而它們之間的蘊涵關系仍然保持不變的兩種方式。為了表示這種組合方式,他們首先為語言表達式定義了一個擴展算子,記作E(T);它把T映射到一個更大的語言表達式,其中T被完全內嵌(T保持著其原來的句法結構)。限制性規(guī)則4在這種情況下運用:前件被擴展,但是沒有破壞它對后件的蘊涵關系。例如:
(1)French p resident?president
當然,不是所有的擴展都能保持表達式原有的意義的。例如:
(2)vice p resident×?p resident單調性規(guī)則3在這種情況下運用:同一種擴展運用于前件和后件,但是沒有改變它們之間的蘊涵關系的有效性。例如:
(3)a.Paris?French
b.visit Paris?visit French
當然,也不是所有的擴展都能表現(xiàn)出這種單調性的。例如:
(4)the population of Paris×?the population of French
最后,傳遞鏈接規(guī)則5說明:完全蘊涵的概率是從文本推導假設的一連串規(guī)則的最大積。
表2展示了下例(5)的推理鏈條,省去了概率:
(5)John bought a novel yesterday.?John purchased a book.
表2 推理鏈條的示例
他們用Prolog式引擎來實現(xiàn)上述的推理模型。這個引擎跟一個給定的語料庫、一個蘊涵型式知識庫和一個推理規(guī)則的實現(xiàn)相關聯(lián)而運作。它拿假設作為輸入,并運用這個推理模型,來發(fā)現(xiàn)語料庫中的蘊涵文本的出現(xiàn)。對于每一個這種文本,該引擎輸出相應的變量實例、蘊涵概率的得分和蘊涵推理的蹤跡。表3展示了這個推理引擎的可能的輸入和輸出。可以通過判斷輸出的正確性,測量精確率和召回率,來評價這個系統(tǒng)。
表3 推理引擎的輸入和輸出示例
像上文介紹的文本蘊涵的工作框架,只是提供了一種識別語言表達多樣性的一般機制。真正要實現(xiàn)這種模型,需要系統(tǒng)能夠獲得推理規(guī)則和蘊涵型式兩個方面的知識。而這些知識的自動學習,目前尚是富有挑戰(zhàn)性的研究課題。下面介紹幾種習得蘊涵型式的方法。
建立上文所涉及的單調性和限制性擴展的經驗模型,是一項全新的工作。而學習蘊涵型式(結構和概率)的工作,可以跟有關應用領域中的自動識別同義互釋相聯(lián)系。比如,Lin and Pantel[16]提出了這樣的方法:利用分布的相似性(Distributional Similarity)來為問題回答系統(tǒng)抽取推理規(guī)則。在問題回答、文本生成、文摘、信息抽取和翻譯等領域,學習同義互釋的更為主要的方法是基于實例(基于句子)[6]。這種方法的思想是:發(fā)現(xiàn)一對(組)看上去是描述大致相同的事實的相匹配的文本片段,并找出共同的詞匯項目作為一組“支撐點”(A nchors)。那些跟已知的支撐點共有相同的關系的相應的成分,被習得為互釋型式(Paraphrase Patterns)。例如:
(1)a.Yahoo bought Overture.
b.Yahoo own Overture.可以從中演繹下面這種蘊涵型式:
(2)X ←subjbuyobj→Y ?X ←subjownobj→Y并把Yahoo和Overture作為支撐點。
Dagan and G lickman[7]把蘊涵型式的習得問題看作是包含了下面兩種類型的任務:(1)無指導的可能的蘊涵型式的習得,和(2)對這些可能的蘊涵型式的概率性二元分類。他們發(fā)展了兩種從無標注的語料中學習蘊涵型式并對蘊涵型式的概率進行經驗評價的方法。下面分別介紹。
像 Barzilay and M cKeown[4]、Shinyama et al.[18]、Barzilay and Lee[5]和 Pang et al.[17]等 ,都嘗試基于識別平行語料庫中的相對應的句子來學習同義互釋;因為研究者事先已經知道這些語料庫中包含了基本對應的文本??杀容^語料庫的主要類型是相同文本的不同翻譯,還有報道大致相同的事件的新聞資料。
但是,在 Glickman and Dagan[10]中,他們提出了一種基于實例的從單一語料庫中習得同義互釋的詞匯形式的算法。顯然,習得一對(組)可比較的語料庫是很不方便的,因為并不是所有的領域都有這種語料庫,事實上也難以收集這樣的語料庫。因此,Glickm an and Dagan等致力于發(fā)展一種在單一語料庫中發(fā)現(xiàn)實際的同義互釋實例的方法。之所以能夠發(fā)現(xiàn)這種同義互釋實例,是因為相關領域的語料庫中往往有對相同事實或事件的重復提及和表述,這種同義形式甚至還能在非常不同的故事中找到。這種方法把統(tǒng)計和語言學過濾結合起來,來產生一種由概率激發(fā)的同義互釋的可能性得分。他們把這種方法跟 Lin and Pantel[16]基于矢量的方法相比較??雌饋?他們的基于實例的方法有助于評價候選的同義形式的可靠性,而這種可靠性恰恰是Lin and Pantel等通過金本位的分布相似性測量方法所難以做到的。
表4展示他們抽取的動詞性同義形式的例子和評分。
表4 從語料庫中抽取的同義動詞及其評分的示例
續(xù)表
Dagan and G lickm an[7]用基于實例的、無指導的方法,從樸素的語料庫和網絡上學習同義互釋的型式;借此達到更為廣泛的覆蓋面,并擬合他們的基于蘊涵的框架的結構。整個學習過程包括兩種主要的工作:(1)識別可靠的支撐點集合,和(2)識別聯(lián)結支撐點并參與蘊涵型式的各種模板。他們遵循一般的共同訓練(Co-Training)方式,用自舉式(Bootstrapping)的方法,來反復地進行這兩種工作。這項工作的一個特別的挑戰(zhàn)是,對于任何給定的詞匯項目,都能搜索到好的蘊涵(同義互釋)型式;而不依賴于事先識別好的特定的支撐點,因而指明了將被識別的蘊涵型式具有同一性。
第一步,為一個給定的詞匯核心詞語(Lexical coreWord or Term)識別可靠的支撐點集合;其實,正是為了這個核心詞語,我們才想要找到同義互釋(蘊涵型式)。一個支撐點集合是這樣一組詞語,它們表明:一個普通事實用多種句子形式來描述,是具有很高的概率的。反復出現(xiàn)的網絡搜索查詢詞語串,可以用來檢索包含核心詞語和相關支撐點的句子。接著,各種統(tǒng)計標準運用到這些檢索到的支撐點候選成分上,來識別有希望的支撐點集合。比如,給定核心詞語murder,接下來找到的支撐點集合是
第二步,從眾多的支撐點集合中,用算法識別出可以在分析過的句子中把支撐點聯(lián)結起來的最一般(最小)的語言結構。通過用變量替換那個語言結構中的支撐點,來得到蘊涵模板。
這種自舉式的體系就是由上述兩種過程的反復執(zhí)行組成的,可以總結如下:
(1)初始化/播種子:對模板核心的一系列候選成分進行初始化。這些候選成分來自某個輸入詞庫,而這個輸入詞庫又是從詞典、WordNet、領域語料庫等資源中抽取出來的。
(2)對于每一個模板核心的候選成分,
a.用查詢工具抽取包含該模板核心詞語的句子,
b.從這些句子中抽取候選的支撐點集合,并測試其在統(tǒng)計上的重要性;
(3)對于每一個抽取出來的支撐點集合,
a.抽取一組包含這些支撐點詞語的句子,
b.從這些句子的相匹配的部分子結構中
抽取候選的模板和核心,并測試其在統(tǒng)計上的重要性;
(4)反復進行(2)和(3),直到滿足習得的要求;
(5)在抽取出來的模板中生成蘊涵型式,并評價其概率。
表5展示了應用這種算法得到的一個初步的輸出。
表5 由自舉式算法得到的輸出的示例
續(xù)表
上述反復地抽取模板的處理過程,可以產生一個反映支撐點集合和模板的頻度的列聯(lián)表,如表6所示。
表6 反映支撐點集合和模板頻度的列聯(lián)表
蘊涵型式及其估計的蘊涵概率可以從這種列聯(lián)表中導出。比如,表6顯示assassinate蘊涵m urder具有很高的概率,而相反方向的蘊涵關系只適合于部分情況。他們計劃研究怎樣從這種表的橫欄上來合理地估計先驗的蘊涵概率。估計蘊涵型式的概率是富有挑戰(zhàn)性的,因為這種語料上沒有標注蘊涵關系方面的標記。
蘊涵模板出現(xiàn)于其中的語境,為相應的蘊涵型式的可用性,確定了一種后驗的語境概率。比如,從表6中學習這種語境:其中 murder蘊涵assassinate,那么人們需要識別適合于左邊兩列的典型語境,即相應的政治性情景;這種情景區(qū)別于右列的非政治性情景。他們認為這種工作跟詞義消歧分類相似。事實上,使用語境概率的主要動機是在碰到有歧義的詞語時,能夠正確地應用蘊涵型式;比如,只有在bank表示金融[機構]的意義時,bank?company才能成立。因此,他們探索怎樣用詞義消歧的表示和學習方法去學習語境概率。最后,另一個富有挑戰(zhàn)性的工作是,在應用蘊涵型式時,怎樣根據語境匹配的程度,合適地把先驗和后驗估計結合起來。
由于文本之間的蘊涵關系并不是一種確定性的關系,并且文本之間的蘊涵關系在一定程度上可以化簡和歸約為兩個文本中所包含的某個詞匯概念之間的蘊涵關系;因而,通過構建詞匯蘊涵的概率模型來逼近文本蘊涵,不失為一種簡捷有效的途徑。下面主要介紹G lickm an et al.[11-12]所報道的這方面的工作。
Glickman et al.[11]注意到蘊涵所指的不確定性和概率性,例如:
(1)a.Wherewas Harry Resoner born?
b.Harry Resoner's birthplace is Iowa.
c.H arry Resoner was born in Iowa.
d.Harry Resoner is returning to his hometown to getmarried.
對于一個問題回答系統(tǒng)來說,可以認為包含(1b)的文本蘊涵了問句(1a)所期望的答句(1c);但是,包含(1d)的文本是否蘊涵了答句形式(1c),就不好確定了。
為此,他們提出了一個文本蘊涵的通用生成概率機制。他們假定:語言資源是在某種事態(tài)語境中生成文本的。這樣,文本是跟對于假設的隱式的真值指派一起生成的。他們定義了相應的概率空間中的兩類事件:
(1)對于假設h,他們用 Trh代表隨機變量,其值就是在生成文本的[可能]世界中賦予h的真值。于是,Trh=1是h被賦予真值1(真)的事件。
(2)對于文本t,他們仍然用t代表生成文本是t的事件。
文本蘊涵關系:如果t增加了h為真的可能性,即P(Trh=1|t)>P(Trh=1);那么可以說t在概率上蘊涵h(huán),記作t?h。
蘊涵置信度(Confidence):他們用點式互信息(Pointw ise M utual Information)來表示由文本提供的用以評價假設的(跟其先驗概率有關的)真值的信息的邊際(最低限度的)量:
上文提出的文本蘊涵生成概率機制,為建立文本蘊涵的概率模型提供了必要的基礎;但是,估計文本蘊涵的成分概率也是十分重要的,因為對于語料庫中的文本的假設的真值指派是無法觀察到的。由于為完整的文本蘊涵問題建立模型是一個長遠的研究目標,因而他們把重點放在詞匯蘊涵(Lexical Entailment)這個子目標上,即識別假設中的某個詞匯觀念能否從特定的文本中推演出來。
在估計蘊涵概率時,他們假定:假設h中的詞項u的真值概率,獨立于h中的其他詞項;于是,得到下列公式:
這樣,蘊涵關系的識別問題便可以看作是一種文本分類工作(Text C lassification task);其中,類別就是對于詞匯表中不同的詞的詞匯真值的抽象的二分概念。首先,他們單純根據各個u在t中是否顯性地出現(xiàn),構造初始的標記添加系統(tǒng)。然后,以無指導的方式運用樸素的貝葉斯方法(Na?ve Bayes),這種方式可以從定義好的概率機制中分析性地導出。
作為一種初步的逼近,他們假定:對于語料庫中的任何文件,詞項u的真值決定于它是否顯性地在這個文件中出現(xiàn)。就某個方面來看,標記添加系統(tǒng)類似于具有下列功能的布爾搜索系統(tǒng)——根據文本性假設中的關鍵詞來進行(無擴展的)布爾搜索,以找到候選的主蘊涵文本。根據貝葉斯假設,他們把概率公式P(Tru=1|t)改寫為:
這樣,就可以根據先驗概率P(v|Tru=1)、詞匯V中的每一個u與v的詞匯概率P(v|Tru=1)與P(v|Tru=0),來估計P(Tru=1|t)。這些概率是比較容易從語料庫中估計的,只要給出初始模型對于真值指派的估計,并假定文件的多項事件模型(M ultinom ial Event M odel)和拉普拉斯平滑(Lap lace Smoothing)。從上面的等式,可以對任意文本t和假設h的P(Trh=1|t)和 P(Trh=1),都有一個精確的概率估計。把概率估計轉換為分類判定的準則,可以從他們提出的關于文本蘊涵的概率機制上分析性地導出。如果P(Trh=1|t)>P(Trh=1),他們就給蘊涵關系作出肯定性的分類;并且,為了劃分等級,給P(Trh=1|t)/P(Trh=1)指派一個置信度得分。事實上,經驗性評價證明,這種解析閾限幾乎是最優(yōu)的。
他們通過人工的方法構建“假設—文本”對集合,用一部分來訓練上述模型,再選取一部分來測試;結果宏觀的平均正確率達70%,平均置信權重得分(ConfidenceWeighted Score,Cw s)達0.54,都超過了用其他方法建造的系統(tǒng)。
Glickman et al.[12]指出,文本理解應用的一項基礎工作是識別語義上等同的文本片段;而大多數(shù)語義匹配工作是在詞匯平面上進行的,目的在于確定:一個文本中的某個詞語的意思,是否在另一個文本中也得到了表達。通常,這種詞匯匹配模型要測量字面上相同的詞匯重疊的程度;當然,也會通過各種詞匯替換標準來擴充詞匯重疊的范圍。這種詞匯替換標準是基于WordNet等資源、或者各種統(tǒng)計文本相似性方法所得到的結果而確立的。也就是說,從單純的詞匯重疊擴展為詞匯所指(Lexical Reference)的相同。比如,Lin[15]提出了著名的測量語義相似性的分布假設:出現(xiàn)在相似語境中的詞語在語義上也相似。利用分布相似性,可以從單一語料庫中識別同義互釋的型式。
因為,假設h中的詞匯概念在給定的文本t中得到表達,這通常是文本蘊涵的必要(而非充分)條件;所以,文本蘊涵的識別可以化簡歸約為:識別假設h中每一個詞語的意義是否被相應文本t中的某些意義所指謂。Glickman et al[12]提議,這個目標可以通過下列定義來抓?。?/p>
如果文本t中的一組詞語顯性或隱性地指謂了詞語w的可能的意義,那么詞語w被文本t詞匯性地指謂了。
可見,詞匯蘊涵應該是更為復雜的蘊涵模型(或語義匹配)系統(tǒng)的一個組成部分。詞匯指稱可以看作是把文本蘊涵自然地延伸到諸如詞語等小于句子的假設(Sub-Sentential Hypotheses)上。這種工作雖然把重心放在詞上,但是可以推廣到詞語復合體和短語上。為此,他們建造了有關的數(shù)據庫,請兩個標注者根據下列規(guī)范對有關的“句子—詞語”對進行標注:
定義給定的句子和目標詞,評定目標詞是(真)否(假)被句子指謂。在下列情況下標定“句子—詞語”對[的詞匯蘊涵關系]為真,在其他情況下一律標定為假:
(1)詞。如果句子中的某個詞,在該句子所構成的語境中,表示了目標詞的意義(如:同義詞、下義詞),或者表示了目標詞的意義的所指(如:blind→see,sight)。
(2)短語。如果句子中幾個詞語組合起來形成獨立的表達形式,表示了目標詞的(相同義項的)意義(如:call off→cancelled,home of→located)。
(3)語境。如果目標詞的意義所指不是由單獨的詞或短語表示,而是由句子中的某個或幾個部分(甚至整個句子)來表示。例如:
通過對標注語料的分析,他們證實了他們的假設:只有當假設h中的所有的實詞的意義被文本t所指謂,它們之間的蘊涵關系才有可能成立。
Glickman et al.[12]指出,有了上述詞匯所指數(shù)據庫,就可以對各種詞匯模型從質和量上進行比較。他們展示五種可用以詞匯所指工作的模型,并對它們的表現(xiàn)進行測試和分析。每一種模型都向給定的一對文本t和目標詞u指派一個[0,1]得分,這個分數(shù)可以解釋為詞語u在文本t中被詞匯性地指稱的置信度。下面分別介紹這五種詞匯指稱模型:
(1)WordNet模型:直接利用WordNet的詞匯信息。首先,對文本和目標詞進行詞目化處理(lemmatize);然后賦分:如果文本包含目標詞的同義詞、下義詞、或者其派生形式,那么賦分1;其他情況下,賦分0。
(2)相似性模型:利用Lin[15]的分布相似性測量方法,對于文本t和目標詞u,他們用下列公式指派最大相似性得分:
其中,sim(u,v)是u和v的相似性得分。
(3)對齊模型:這是一種基于詞語同現(xiàn)統(tǒng)計的詞匯概率模型,它對于文本t和目標詞u作如下的對齊定義:
其中,P(u|v)是簡單的同現(xiàn)概率,即一個句子中既包含v又包含u的概率。
(4)貝葉斯模型:這種模型處理語境指稱問題,而不是詞對詞的匹配。這種模型基于樸素的貝葉斯文本分類方法,語料庫中的句子被當作文檔使用,類別就是目標詞u的所指。包含目標詞u的句子被用作正例,其他句子被當作反例。它對于文本t和目標詞u作如下的指稱關系定義:
其中,n(w,t)是詞w出現(xiàn)在文本t中的次數(shù),P(u)是句子包含詞u的概率,P(v|(u)是不包含詞u的句子包含詞v的概率。為了減少數(shù)據規(guī)模和解釋零概率,他們運用平滑手段和特征選擇信息。
(5)混合模型:把WordNet模型和貝葉斯模型結合起來,以便既很好地識別明顯的詞對詞指稱的例子,又能很好地識別語境隱含的指稱的例子。通過評價兩種模型的樸素的線性插值(簡單地平均這兩種模型的得分),來綜合它們的威力。
為了系統(tǒng)實現(xiàn)的方便,一般的文本蘊涵識別處理往往采用詞匯概率方法。但是,也有人嘗試句法分析或基于句法的語義分析模型,以此更加逼近人類理解蘊涵關系時的心智過程,并進一步提高蘊涵識別的精確率和召回率。下面介紹幾個這方面的有關工作和處理模型。
Vanderwende et al.[19]介紹,他們請兩個熟練的語言學者分析PASCAL文本蘊涵邀請賽的測試語料,離析出那些單純根據句法線索就可以準確地預測“文本—假設”對之間是否具有蘊涵關系的部分;從而,了解用健壯的[句法]分析器可以解決這項工作的多少(比例)。
兩個人工標注者評價測試集中的“文本—假設”對,斷定它們在蘊涵關系方面屬于下面的哪一種類別:
[1]True by Syntax(從句法上看是真的),
[2]False by Syntax(從句法上看是假的),
[3]Not Syntax (不是句法層面上的),
[4]Can't Decide (無法作出判斷)。
結果,發(fā)現(xiàn)37%的測試項目可以通過人工根據句法來判斷;如果允許利用普通的義類詞典(Thesaurus),那么可以提高到49%。
所謂句法線索,主要包括“文本—假設”對之間是常見的句式變換形式(A lternation),和基于句法的論元指派、句內代詞回指求解等。例如:
(1)a.T:The A lameda Central,west of the Zocalo,was created in 1592.
b.H:The A lam eda Central is west of the Zocalo.
(2)a.Schroeder's election→b.Schroeder was elected
(3)a.w here hew as surfing→b.while surfing
(1a)中的同位結構可以提升為(1b)之類的主句結構,(2a)中的名詞化結構可以變換為(2b)之類的帶時制的從句,(3a)中的限定結構可以變換為(3b)之類的非限定結構。
值得注意的是,如果“文本—假設”對在句法結構方面沒有共同之處,那么往往可以斷定它們之間沒有蘊涵關系;當然,要建造一個能夠自動地發(fā)現(xiàn)兩個句子之間缺乏句法重疊的系統(tǒng)是不太可能的。另外,如果兩個句子的主語與動詞都是對齊的(A ligned),但是賓語沒有對齊;那么,它們之間一般沒有蘊涵關系。
Herrera et al[13]介紹,他們參加RTE-1競賽的系統(tǒng)的工作原理是:尋找文本和假設的依存樹之間的匹配關系。該系統(tǒng)主要有以下三個部分:
1)依存分析器:它基于Lin[15]所報道的Minipar。該依存分析器把來自“文本—假設”對語料庫的數(shù)據規(guī)范化,進行依存關系分析;構造出能夠表示這種依存關系的合適的結構,并且記住它們。
2)詞匯蘊涵模塊:它從分析器中獲得信息,返回假設中被文本所蘊涵的節(jié)點。
3)匹配評價模塊:它沿著詞匯蘊涵節(jié)點,搜索進入假設的依存樹的路徑。
其中,不僅同義關系、下義關系等詞匯知識,而且否定關系和反義關系,都對于判斷“文本—假設”對之間的蘊涵關系有用。例如:
(4)a.T:Clinton's new book isnot big seller here.
b.H:Clinton's book isa big seller.
(5)a.T:...m inister says his country w ill not change its p lan...
b.H:South Korea continues to send troops.
可見,蘊涵關系不可能存在于一個詞項跟其否定形式之間,如例(4)所示;但是,可能存在于一個詞項跟其反義詞的否定形式之間,如例(5)所示。
“文本—假設”對之間是否具有蘊涵關系,是根據它們之間的相似性來決定的。而這種相似性被定義為假設中能夠跟文本匹配上的節(jié)點的比例。經過試驗,發(fā)現(xiàn)這種相似性的閾值是50%。也就是說,當假設中能夠跟文本匹配上的節(jié)點的比例達到或超過50%時,可以說它們之間具有蘊涵關系;當這種比例小于 50%時,可以說它們之間不具有蘊涵關系。
為了比較該系統(tǒng)的性能,他們設計了兩個簡單的基線系統(tǒng):
1)基線系統(tǒng)I:單純計算假設中的詞在文本中出現(xiàn)的比例數(shù);
2)基線系統(tǒng)II:單純計算假設中可以被文本中的任何詞所蘊涵的詞的比例數(shù);
這兩個基線系統(tǒng)都取50%作為閾值。
結果顯示,該系統(tǒng)對于RTE-1競賽的測試語料的精確率,比上面兩個基線系統(tǒng)要高。具體地說,基線系統(tǒng)I的總的精確率是54.95%,基線系統(tǒng)II的總的精確率是55.48%,該系統(tǒng)的總的精確率是達56.36%。這說明,兩個句子在詞匯上有較高的重疊,并不意味著它們之間具有蘊涵關系;相反,兩個句子在詞匯上有較低的重疊,并不意味著它們在語義上完全不同。為了確定兩個句子之間有無蘊涵關系,必須分析它們在次結構(Substructure)方面的句法關系;也就是說,必須對句法關系進行深度的(In-dep th)處理。
And reevskaia etal[2]介紹,他們參加RTE-1競賽的系統(tǒng)的工作原理是:用簡單的一般性的啟發(fā)式和知識貧乏的方法來識別同義互釋,用NP同指互參、NP語塊切分、RASP和 Link兩個分析器來給“文本—假設”對中的每一個句子產生謂詞—論元結構(PAS)。例如:
(1)a.Two-thirds of the Scottish police force w ill be dep loyed at the happening.
b.]>
其中,(1b)是句子(1a)的謂詞—論元結構(PAS)表達式。
然后,用WordNet詞匯鏈和一些專門的啟發(fā)式規(guī)則來建立這些PAS中相應成分的語義相似性;最后,為這些相應的PAS的結構相似性和相應詞匯成分的相似性設定閾值,用以判斷“文本—假設”對之間的蘊涵關系是否成立。結果顯示,他們的算法和系統(tǒng)在精確率和召回率方面更加偏向前者而不是后者;具體地說,在精確率方面達到0.55~0.57,但是在召回率方面只有0.15~0.18。這個系統(tǒng),成為他們將來研發(fā)事件同指互參和可比較文檔分析的基線系統(tǒng)。
Akhmatova[1]介紹,他們參加RTE-1競賽的系統(tǒng)的工作原理是:基于句法的語義分析,用原子命題(A tomic Proposition)作為蘊涵識別的主要元素。因為要想知道一個假設H是否被一個文本T所蘊涵,人們必須比較它們的意義。而句子的意義可以表示成包含在句子中的一組原子命題。于是,為了比較句子的意義,先要比較這些原子命題。這樣,通過比較包含在“文本—假設”對句子中的原子命題,來發(fā)現(xiàn)該句子對之間有無蘊涵關系。
原子命題可以定義為其真值為真或假的最小陳述形式,并且,其真值的真或假不依賴于其他命題的真值的真或假。例如:
(2)a.Coffee boosts energy and provides health benefits.
b.Coffee boosts energy.
c.Coffee provides health benefits.
句子(2a)中包含(2b,c)兩個原子命題。把句子分割成原子命題,必須對句子進行基于句法的語義分析,這種深層的句法、語義分析對蘊涵識別是至關重要的。在實現(xiàn)時,他們從分析器Link產生的結果中抽取原子命題,把它們輸入到語義分析器,以推導出用一階謂詞邏輯表示的意義表達式。同時,利用從WordNet數(shù)據庫中拿來的語義知識(比如,詞語之間的同義、蘊涵關系),通過自動演繹系統(tǒng)OTTER來對原子命題進行比較;如果假設中的原子命題能夠跟文本中的原子命題相匹配,那么蘊涵關系成立。現(xiàn)在,該系統(tǒng)可以識別基于語義和句法的蘊涵關系,還有可能利用更多的內部和外部知識來處理復雜的蘊涵現(xiàn)象。
Jijkoun and Rijke[14]介紹,他們參加RTE-1競賽的系統(tǒng)的工作原理是:計算有向的(Directed)句子相似性,即核查“文本—假設”對之間在有向的語義[實在的]詞方面的重疊。他們用基于頻率的詞項權重,結合兩種不同的詞匯相似性測量方法。通過在RTE-1競賽的測試語料上的運行,結果表明該系統(tǒng)的正確率達0.55。
首先,他們把“文本—假設”對中的句子都看作是一組詞語,計算有向的句子相似性的得分;然后,設定閾值來判定“文本—假設”對中的句子之間有無蘊涵關系。這種方法可以用下面這種準算法來實現(xiàn):
其中的要旨是:根據度量詞的相似性wordsim(w1,w2)的需要,對于假設中的每一個詞,都要在文本中尋找最相似的詞。如果這種相似詞存在(maxSim即不為零),就給總的相似性得分加上加權的相似性值。否則,就減去詞的權重,即對假設中那些在文本中沒有匹配詞的詞進行處罰。最終,他們發(fā)現(xiàn)如果不作出過度的擬合,那么他們的系統(tǒng)簡直無法改進;由此說明:需要探索更深層的文本特征。
鑒于淺層的詞匯統(tǒng)計和深層的句法分析都有缺陷,Bos and Markert[6]提出了把兩者結合起來的路子:基于詞匯重疊的淺層方法和利用定理證明的深層方法相結合。再用機器學習的方法把這兩種方法得到的特征結合起來。結果,他們參加RTE-1競賽提交了兩個運行結果:一個只用淺層特征,正確率是0.555 0;另一個利用所有的特征,正確率是0.562 5。他們感嘆:他們的方法面臨的困難是缺少背景知識。
[1] Akhmatova,Elena.Textual Entailment Resolution via A tom ic Proposition[C]//Proceedings of the PASCAL Challenges W orkshop on Recognising Textual Entailment.2005.
[2] Andreevskaia,Alina,Zhuoyan Li and Sabine Berger.Can Shallow Predicate A rgument Structure Determ ine Entailment?[C]//Proceedings of the PASCAL Challenges Workshop on Recognising Textual Entailment.2005:
[3] Bar-Haim,Roy,Idan Szpek tor and Oren Glickman.Definition and Analysis of Intermediate Entailment Levels[C]//Proceeding o f the ACL Workshop on Empirical Modeling of Semantic Equivalence and Entailment.2005:55-60.
[4] Barzilay,Regina and Kathleen M cKeow n(2001)Extracting Paraphrases from a Parallel Corpus[C]//ACL/EACL.2001:50-57.
[5] Barzilay,Regina and Lillian Lee.Learning to Paraphrase:An Unsupervised Approach Using Mu ltiple-Sequence A lignment[C]//Proceeding of the NAACLH LT.2003:16-23.
[6] Bos,Johan and Katja Markert.Combining Shallow and Deep NLP Methods for Recognizing Textual Entailment[C]//Proceedings o f the PASCAL Challenges W orkshop on Recognising Textual Entailment.2005:
[7] Dagan,Ido and O ren G lickman.Probabilistic Textual Entailment:Generic App lied M odeling of Language Variability[C]//PASAL workshop on Learning Methods for Text Understanding and M ining,Grenoble France.2004.
[8] Dagan,Ido,O ren G lickman,Alfio G liozzo,Efrat M armorshtein,Car lo Strapparava.DirectW ord Sense M atching for Lexical Substitution[C]//COLING-ACL'06.2006:
[9] Dagan,Ido,Oren G lickman and Bernado Magnini.The PASCAL Recognising Tex tual Entailment Challenge[J].Lecture Notes in Computer Science,2006,3944:177-190.
[10] G lickman,Oren and Ido Dagan.Identifying Lexical Paraphrases from a Single Corpus:A Case Study for Verbs[C]//Proceedings of Recent Advantages in Natura l Language Processing.2003:
[11] G lickman,Oren,Ido Dagan and Moshe Koppel.A Probabilistic Lexical Approach to Textual Entailment[C]//Proceedings o f the N ineteenth International Joint Conferenceon A rtificial Intelligence.2005:1682-1683.
[12] G lickman,Oren,Eyal Shnarch and Ido Dagan.Lexical Reference:a Semantic M atching Subtask[C]//Proceedings of the 2006 con ference on Empirical M ethods in Natural Language Processing.2006:172-179.
[13] Herrera,Jes s,Anselmo Pe as and Felisa Verdejo.Textual Entailment Recognition on Dependency Analysis and WordNet[C]//Proceedings o f the PASCAL Challenges Workshop on Recognising Textual Entailment.2005:
[14] Jijkoun,Valentin and Maarten de Rijke.Recognizing Textual Entailment Using Lexica l Sim ilarity[C]//Proceedings of the PASCAL Challenges Workshop on Recognising Tex tual Entailment.2005:
[15] Lin,Dekang.Automatic Retrieval and Clustering of SimilarW ords[C]//Proceedings o f the 17thinternational Conference on Com putational Linguistics,Morristow n,NJ,USA.Association for Computational Linguistics.1998:768-774.
[16] Lin,Dekang and Patrick Pantel.Discovery o f Inference Rules for Question Answ ering,Natural Language Engineering 2001,7(4):342-360.
[17] Pang,Bo,Kevin Knight and Daniel M arcu.Syntaxbased A lignmentofM ultip le Translations:Extracting Paraphrases and Generating New Sentences.H LT/NAACL.2003.
[18] Shinyama,Yusuke,Satoshi Sekine,K iyoshi Sudo and Ralph Grishman.Automatic Paraphrase Acquisition from New s A rticles[C]//Proceedings of the Second International Conference on Human Language Technology Con ference[H LT-02].2002:313-318.
[19] Vanderwende,Lucy,Deborah Cough lin and Bill Bolan.What Syntax can Contribute in Entailment Task?[C]//Proceedings of the PASCAL ChallengesW orkshop on Recognising Tex tual Entailment.2005.