基于PDTB體系的隱式篇章關(guān)系識(shí)別

2016-05-03 13:12:11周?chē)?guó)棟

中文信息學(xué)報(bào) 2016年4期

關(guān)鍵詞：特征選擇語(yǔ)料分類(lèi)器

李生，孔芳，周?chē)?guó)棟

(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，江蘇蘇州 215006)

基于PDTB體系的隱式篇章關(guān)系識(shí)別

李生，孔芳，周?chē)?guó)棟

(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，江蘇蘇州 215006)

識(shí)別隱式篇章關(guān)系是篇章分析領(lǐng)域中非常有挑戰(zhàn)的一個(gè)任務(wù)。該文基于PDTB語(yǔ)料提出一個(gè)隱式篇章分析識(shí)別方法，使用傳統(tǒng)的特征如動(dòng)詞，極性和句法推導(dǎo)規(guī)則等，系統(tǒng)分析了它們對(duì)隱式篇章分析的影響。我們利用全部標(biāo)注數(shù)據(jù)構(gòu)建多個(gè)分類(lèi)器并使用加法規(guī)則融合分類(lèi)結(jié)果，此外還通過(guò)前向特征選擇算法確定各分類(lèi)任務(wù)最優(yōu)的特征集。實(shí)驗(yàn)結(jié)果表明該方法能顯著提升隱式篇章分析的性能。

篇章處理；隱式篇章關(guān)系；賓州篇章樹(shù)庫(kù)

1 引言

篇章分析旨在確定文本的內(nèi)在結(jié)構(gòu)，篇章語(yǔ)義關(guān)系識(shí)別是篇章分析的重要組成部分，它對(duì)自然語(yǔ)言處理的其他任務(wù)(如信息抽取，自動(dòng)摘要以及統(tǒng)計(jì)機(jī)器翻譯等[1-3])起著重要的作用，近年來(lái)已逐漸成為研究的熱點(diǎn)之一。篇章語(yǔ)義關(guān)系包含兩類(lèi)：顯式篇章關(guān)系(Explicit Discourse Relation)，即文本單元間存在顯式的篇章連接詞(如because，but，so等等)；隱式篇章關(guān)系(Implicit Discourse Relation)，即文本單元間沒(méi)有顯式的連接詞，它們間的邏輯語(yǔ)義關(guān)系可根據(jù)上下文推理出來(lái)。已有的相關(guān)研究表明，由于篇章連接詞在表達(dá)的邏輯語(yǔ)義上極少有歧義[4]，相對(duì)與隱式篇章關(guān)系的識(shí)別，顯式篇章關(guān)系的識(shí)別要容易的多，性能也更好。例如，在PDTB(Penn Discourse Treebank[5])體系下，僅使用連接詞及其前后一個(gè)詞作為特征，英文顯式篇章關(guān)系識(shí)別在頂層的四大類(lèi)上就取得了96%的F1值。另一方面，沒(méi)有了連接詞的指引，隱式篇章關(guān)系識(shí)別任務(wù)要困難得多?？紤]詞法、句法、語(yǔ)義、依存，以及其他大量上下文統(tǒng)計(jì)信息，PDTB體系下，頂層四大類(lèi)隱式關(guān)系識(shí)別的性能仍然低于50%。但PDTB語(yǔ)料的統(tǒng)計(jì)表明，英文中隱式篇章關(guān)系約占篇章關(guān)系的40%(16224/40600)[4]，顯然，隱式篇章關(guān)系識(shí)別的性能已成為篇章關(guān)系識(shí)別，以及整個(gè)篇章分析的瓶頸。

本文主要關(guān)注PDTB體系下隱式篇章關(guān)系的識(shí)別。借鑒已有的研究成果，首先構(gòu)建了隱式篇章關(guān)系識(shí)別的基準(zhǔn)系統(tǒng)；針對(duì)數(shù)據(jù)分布的不平衡性，將多元分類(lèi)拆解成多個(gè)二元分類(lèi)問(wèn)題，并借助分類(lèi)器融合技術(shù)最大化的使用標(biāo)注語(yǔ)料；考慮不同特征對(duì)多個(gè)二元分類(lèi)的貢獻(xiàn)度不同，使用前向特征選擇算法為不同的二元分類(lèi)選擇最優(yōu)的特征集合；最后依據(jù)最大概率原則，將多個(gè)二元分類(lèi)器融合，形成更加可靠的多元分類(lèi)結(jié)果。PDTB語(yǔ)料上的實(shí)驗(yàn)結(jié)果表明給出的問(wèn)題解決方案能很好地提升隱式篇章關(guān)系識(shí)別的性能。

本文其他部分的組織如下：第二節(jié)簡(jiǎn)單介紹了PDTB體系及標(biāo)注語(yǔ)料；第三節(jié)給出了PDTB體系下隱式篇章關(guān)系識(shí)別的相關(guān)研究；第四節(jié)使用傳統(tǒng)的詞法、句法、語(yǔ)義和上下文信息，構(gòu)建了多元分類(lèi)的隱式篇章關(guān)系識(shí)別基準(zhǔn)系統(tǒng)，并給出了PDTB語(yǔ)料上的實(shí)驗(yàn)結(jié)果；針對(duì)數(shù)據(jù)的不平衡性以及不同類(lèi)別的隱式關(guān)系依賴(lài)不同的特征組合的問(wèn)題，第五節(jié)借助多分類(lèi)器融合技術(shù)和特征選擇算法給出了相應(yīng)的解決方案；最后對(duì)本文的工作進(jìn)行了總結(jié)，并對(duì)下一步工作進(jìn)行了展望。

2 PDTB體系及標(biāo)注語(yǔ)料

近年來(lái)，篇章理論的發(fā)展以及大規(guī)模篇章語(yǔ)料的構(gòu)建，使得篇章級(jí)的分析應(yīng)用越來(lái)越受到研究者的關(guān)注。2008年發(fā)布的最新版的賓州篇章樹(shù)庫(kù)(The Penn Discourse Treebank，PDTB)是一個(gè)在D-LTAG[6]框架下標(biāo)注的篇章級(jí)語(yǔ)料庫(kù)。它以詞法為基礎(chǔ)，標(biāo)注了謂詞論元形式的篇章結(jié)構(gòu)。該語(yǔ)料庫(kù)同時(shí)還和賓州樹(shù)庫(kù)(The Penn Treebank，PTB)[7]進(jìn)行了對(duì)齊，研究者可以很方便的從詞法、句法、語(yǔ)義等多個(gè)視角分析篇章。PDTB語(yǔ)料庫(kù)標(biāo)注了顯式和隱式兩類(lèi)關(guān)系。其中顯式關(guān)系由連接詞觸發(fā)，驅(qū)動(dòng)兩個(gè)論元Arg1和Arg2，形成的關(guān)系都具有明確的語(yǔ)義類(lèi)別。例1是摘自PDTB語(yǔ)料中編號(hào)wsj2100文章中的一個(gè)顯式的Comparison關(guān)系，其中But是該關(guān)系的篇章連接詞。

例1 Arg1: Eventually viewers may grow bored with the technology and resent the cost.

Arg2:But right now programmers are figuring that viewers who are busy dialing up a range of services may put down their remote control zappers and stay tuned.

(Comparison -wsj 2100)

而隱式關(guān)系沒(méi)有連接詞，關(guān)系語(yǔ)義需要從兩個(gè)論元的上下文推出。例2是摘自PDTB語(yǔ)料中編號(hào)wsj0011文章中的一個(gè)隱式的Expansion關(guān)系，其中“And”是標(biāo)注人員從上下文推斷出的最適合表達(dá)該關(guān)系的篇章連接詞。

例2 Arg1: From January to October, the nation’s accumulated exports in- creased 4% from the same period last year to $50.45 billion.

Arg2: [And] Imports were at $50.38 billion, up 19%.

(Expansion -wsj 0011)

此外，PDTB體系還提供了三層篇章語(yǔ)義關(guān)系的分類(lèi)體系，表1給出了前兩層的語(yǔ)義關(guān)系。本文側(cè)重第一層四大類(lèi)語(yǔ)義關(guān)系(即Comparison, Contingency, Expansion, Temporal)的研究。第二層包含16種語(yǔ)義關(guān)系，但類(lèi)別太細(xì)，使得數(shù)據(jù)稀疏和分布不均衡問(wèn)題更加嚴(yán)重。此外，頂層的四大類(lèi)語(yǔ)義信息已經(jīng)能很好的滿(mǎn)足大多數(shù)其他應(yīng)用的需求。

表1 PDTB中篇章語(yǔ)義關(guān)系的上兩層分類(lèi)

3 相關(guān)工作

近年來(lái)，篇章理論的發(fā)展以及大規(guī)模篇章語(yǔ)料庫(kù)的構(gòu)建使得篇章級(jí)的分析受到越來(lái)越多的關(guān)注。識(shí)別隱式篇章關(guān)系的研究可以歸納為三類(lèi)：基于偽隱式篇章關(guān)系語(yǔ)料的研究，基于純隱式篇章關(guān)系語(yǔ)料的研究和基于偽隱式和純隱式的篇章關(guān)系混合語(yǔ)料研究。

基于偽隱式關(guān)系的研究的代表性工作包括： Marcu和Echihabi[8]首次提出使用無(wú)監(jiān)督的方法識(shí)別隱式篇章關(guān)系。他們使用一系列文本模式從網(wǎng)絡(luò)上自動(dòng)獲取語(yǔ)料資源，同時(shí)去除篇章連接詞構(gòu)成一個(gè)偽隱式篇章關(guān)系語(yǔ)料。他們的實(shí)驗(yàn)表明使用詞對(duì)(word-pairs)特征給識(shí)別隱式篇章關(guān)系提供了幫助。Saito等人[9]擴(kuò)展了他們的工作，從文本域中提取短語(yǔ)模式特征，實(shí)驗(yàn)表明同樣有助于提高隱式篇章分析的性能。盡管如此，我們認(rèn)為偽隱式篇章關(guān)系并不能從真正意義上代表純隱式篇章關(guān)系，因?yàn)樗鼈冊(cè)诒硎娟P(guān)系上存在著很多不同，比如隱式關(guān)系的存在表明上下文的聯(lián)系足夠強(qiáng)而不需要使用篇章連接詞來(lái)銜接。

隨著PDTB 2.0的發(fā)布，該語(yǔ)料顯式的區(qū)分了隱式篇章關(guān)系和顯式篇章關(guān)系，并且僅針對(duì)段落內(nèi)相鄰句子間的隱式篇章關(guān)系進(jìn)行標(biāo)注。至此，很多工作開(kāi)始側(cè)重研究純隱式篇章關(guān)系識(shí)別。這方面代表性的工作包括： Pitler等人[10]首次提出使用不同的語(yǔ)言學(xué)特征，比如動(dòng)詞，極性和上下文環(huán)境等，識(shí)別隱式篇章關(guān)系。Lin等人[11]受Pitler等人的啟發(fā)，首次提出使用兩類(lèi)句法特征，即成分句法推導(dǎo)規(guī)則和依存句法推導(dǎo)規(guī)則，來(lái)識(shí)別PDTB中第二層隱式篇章關(guān)系。Park和Cardie[12]使用了貪婪的特征選擇算法確定了識(shí)別隱式篇章關(guān)系的最優(yōu)特征子集。他們的實(shí)驗(yàn)在第一層四大類(lèi)關(guān)系上取得了最好的F1值。

近年來(lái)，一些研究表明樣本不平衡問(wèn)題成為了提高隱式篇章分析性能的重大阻礙。有人提出使用偽隱式和純隱式關(guān)系混合的篇章關(guān)系分析。相關(guān)工作包括： Zhou等人[13]使用語(yǔ)言模型去計(jì)算困惑度來(lái)判斷相鄰句子間插入連接詞的合理性。Biran和McKeown[14]使用聚集詞對(duì)嘗試解決特征稀疏問(wèn)題，但他們的實(shí)驗(yàn)表明性能提升很小。為了解決隱式關(guān)系標(biāo)注樣本缺少的問(wèn)題，Lan等人[15]提出使用多任務(wù)學(xué)習(xí)的方法引入偽隱式篇章關(guān)系來(lái)輔助隱式篇章關(guān)系識(shí)別。周等人[16]提出一種基于信息檢索的無(wú)監(jiān)督方法識(shí)別隱式篇章關(guān)系，他們利用Web上的資源提取大量的偽隱式關(guān)系輔助識(shí)別隱式篇章關(guān)系。

盡管這些研究都表明了隱式篇章分析在一定程度性能得到了提升，但他們的結(jié)果卻很難公平的比較，因?yàn)樗麄兏髯允褂昧瞬煌臄?shù)據(jù)切分方法。基于前人提出的有效特征，本文首先使用PDTB語(yǔ)料構(gòu)建了能進(jìn)行頂層四大類(lèi)語(yǔ)義關(guān)系識(shí)別的基準(zhǔn)系統(tǒng)；針對(duì)數(shù)據(jù)分布的不均衡性，給出了借助多個(gè)二元分類(lèi)間接完成多元分類(lèi)任務(wù)的解決方案，并借助多分類(lèi)器融合技術(shù)，最大化的利用標(biāo)注語(yǔ)料；分析各特征對(duì)不同二元分類(lèi)任務(wù)貢獻(xiàn)度的基礎(chǔ)上，借助前向特征選擇策略，分而治之地為多個(gè)二元分類(lèi)任務(wù)選定了最優(yōu)特征集合，并融合這些二元分類(lèi)器完成了多元語(yǔ)義關(guān)系的識(shí)別任務(wù)。

4 基準(zhǔn)系統(tǒng)：基于最大熵模型的隱式關(guān)系識(shí)別方法

使用前人提出的五類(lèi)有效特征，即動(dòng)詞(Verbs)、極性(Polarity)、情態(tài)(Modality)、First-Last,First3和成分句法推導(dǎo)規(guī)則(Production rule)，本文首先構(gòu)建了一個(gè)對(duì)PDTB頂層四大類(lèi)隱式篇章語(yǔ)義關(guān)系進(jìn)行識(shí)別的基準(zhǔn)系統(tǒng)。本節(jié)詳細(xì)介紹這一基準(zhǔn)系統(tǒng)。

4.1 特征

基準(zhǔn)系統(tǒng)并不關(guān)注特征集合，僅采用了相關(guān)研究中已證實(shí)有效的五類(lèi)特征，它們包括：

1．動(dòng)詞(Verbs)特征：與Pitler等人給出的動(dòng)詞特征類(lèi)似，我們首先提取篇章關(guān)系中兩個(gè)論元包含的動(dòng)詞，并將它們組合形成多個(gè)動(dòng)詞對(duì)(verb-pair)，再統(tǒng)計(jì)動(dòng)詞對(duì)中兩個(gè)動(dòng)詞的Levin verb class[17]的最高類(lèi)別相同的數(shù)目，將其作為一個(gè)特征。此外，我們還引入了兩個(gè)論元中平均動(dòng)詞短語(yǔ)的長(zhǎng)度和兩個(gè)論元的主動(dòng)詞的詞性(本文直接認(rèn)為論元中的第一個(gè)動(dòng)詞作為主動(dòng)詞)這兩個(gè)與動(dòng)詞相關(guān)的特征。統(tǒng)計(jì)表明，類(lèi)別相同的動(dòng)詞對(duì)越多，篇章關(guān)系越有可能是Expansion類(lèi)別。

2．極性(Polarity)特征：直覺(jué)上，篇章關(guān)系中的兩個(gè)論元如果包含了極性相反的詞對(duì)，它們很可能表述Comparison類(lèi)型的篇章關(guān)系。具體地，我們將極性分成積極(positive)、消極(negative)、否定積極(negated positive)和中立(neutral)四類(lèi)，分別統(tǒng)計(jì)兩個(gè)論元中屬于不同極性的詞的數(shù)目。此外這四個(gè)極性的交叉積也被引入作為特征。每個(gè)詞的極性參考MPQA語(yǔ)料[18]提供的極性信息進(jìn)行確定，此外，對(duì)于否定積極(negated positive)，我們使用了General Inquirer Tag語(yǔ)料[19]來(lái)判斷一個(gè)積極(positive)詞的緊鄰的前文是否還有否定詞(negated word)，具體算法可參見(jiàn)文獻(xiàn)[15]。

3．情態(tài)(Modality)特征：情態(tài)詞表達(dá)了可能性，情態(tài)詞的出現(xiàn)暗示了兩個(gè)文本單元間很有可能存在Contingency類(lèi)別的篇章關(guān)系。本文引入了三類(lèi)與情態(tài)相關(guān)的特征：論元中是否有情態(tài)動(dòng)詞，論元中具體的情態(tài)動(dòng)詞的詞頻，以及兩個(gè)論元中不同類(lèi)型情態(tài)詞的詞頻交叉積。

4．First-Last，F(xiàn)isrt3特征：這組特征包括：每個(gè)論元中的第一個(gè)詞，每個(gè)論元中的最后一個(gè)詞，Arg1和Arg2的第一個(gè)詞的組合，Arg1和Arg2的最后一個(gè)詞的組合，Arg1的前三個(gè)詞，以及Arg2的前三個(gè)詞。需要說(shuō)明的是，我們并沒(méi)有對(duì)這些詞做任何預(yù)處理(例如，取詞根)，而是直接參與特征值的計(jì)算。

5．句法推導(dǎo)規(guī)則(Production rule)特征： Lin等人[11]的研究表明，論元中的句法規(guī)則與某些篇章關(guān)系的出現(xiàn)存在一定的相互制約性。本文使用了三個(gè)句法推導(dǎo)規(guī)則，分別是：句法規(guī)則是否出現(xiàn)在Arg1中，句法規(guī)則是否出現(xiàn)在Arg2中和句法規(guī)則是否同時(shí)出現(xiàn)在Arg1和Arg2中。本文舍棄了那些在訓(xùn)練數(shù)據(jù)中出現(xiàn)次數(shù)小于5的句法規(guī)則。

4.2 基于最大熵模型的四元分類(lèi)

PDTB體系關(guān)注的是局部篇章關(guān)系，即相鄰文本單元間的語(yǔ)義關(guān)系，它將隱式篇章關(guān)系分成四大類(lèi)，利用4.1節(jié)給出的五類(lèi)特征，使用最大熵模型，我們構(gòu)建了一個(gè)可對(duì)四類(lèi)語(yǔ)義關(guān)系進(jìn)行識(shí)別的四元分類(lèi)器。

最大熵模型是通過(guò)最大熵原理推導(dǎo)出的，該模型的一個(gè)優(yōu)點(diǎn)是可以加入各種不同的特征，其參數(shù)化的表示形式如式(1)所示。

(1)

其中，

(2)

這里，x∈Rn為輸入，y∈{1,2,…,K}為輸出，w∈Rn為權(quán)值向量即模型參數(shù)，fi(x,y),i=1,2,…,n為任意實(shí)數(shù)值特征函數(shù)，y′∈{1，2，…，k}為可能的輸出類(lèi)別取值。模型學(xué)習(xí)時(shí)在給定訓(xùn)練數(shù)據(jù)條件下對(duì)模型進(jìn)行正則化極大似然估計(jì)，本文采用L1范式的正則化模型來(lái)防止過(guò)擬合，即優(yōu)化如下目標(biāo)函數(shù)，如式(3)所示。

(3)

我們選擇能極大化目標(biāo)函數(shù)L(w)的模型參數(shù)w*，即

(4)

實(shí)際中我們采用L-BFGS梯度優(yōu)化算法尋求最優(yōu)模型參數(shù)，γ可以通過(guò)在開(kāi)發(fā)集上調(diào)參得到最優(yōu)結(jié)果。

4.3 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)設(shè)置

本文所有實(shí)驗(yàn)均使用PDTB2.0語(yǔ)料，將其中的section 02-20作為訓(xùn)練集，section21-22作為測(cè)試集，section 00-01作為開(kāi)發(fā)集。與Zhou等人[13]的實(shí)驗(yàn)設(shè)置一致，本文只關(guān)注隱式篇章關(guān)系的識(shí)別。PDTB語(yǔ)料中將非顯式篇章關(guān)系(non-Explicit)細(xì)分成隱式篇章關(guān)系(Implcit)，實(shí)體關(guān)系(EntRel)，AltLex關(guān)系和沒(méi)有關(guān)系(NoRel)四種，構(gòu)建訓(xùn)練模型時(shí)，僅Implicit類(lèi)型的篇章關(guān)系參與訓(xùn)練實(shí)例的生成，測(cè)試時(shí)則考慮了Implicit和NoRel兩種類(lèi)型。文中所有實(shí)驗(yàn)均使用PTB(Penn Treebank)語(yǔ)料提供的標(biāo)準(zhǔn)句法樹(shù)。Mallet*http://mallet.cs.umass.edu提供的L1正則化的最大熵模型被用于分類(lèi)器的構(gòu)建，所有參數(shù)均采用默認(rèn)值。系統(tǒng)性能的評(píng)測(cè)指標(biāo)采用的是標(biāo)準(zhǔn)的準(zhǔn)確率(Precision)，召回率(Recall)，F(xiàn)1值和正確率(Accuracy)。值得說(shuō)明的是，PDTB語(yǔ)料在進(jìn)行關(guān)系語(yǔ)義類(lèi)別標(biāo)注時(shí)允許出現(xiàn)某一關(guān)系具有多個(gè)語(yǔ)義類(lèi)別的情況，本文統(tǒng)一僅考慮第一個(gè)語(yǔ)義類(lèi)別。

實(shí)驗(yàn)結(jié)果及分析

表2給出了基準(zhǔn)系統(tǒng)的實(shí)驗(yàn)結(jié)果。從實(shí)驗(yàn)結(jié)果我們可以發(fā)現(xiàn)，在四類(lèi)關(guān)系的識(shí)別中，Expansion類(lèi)型的識(shí)別取得了最好的F1性能，為58.50%，而Temporal關(guān)系的識(shí)別性能最差，F(xiàn)1值僅為8.57%。Comparison和Contingency類(lèi)型的關(guān)系識(shí)別性能也只取得了32.41%和32.09%的F1值。但系統(tǒng)的總體正確率卻達(dá)到了43.25%。

表2 四元分類(lèi)的隱式篇章關(guān)系識(shí)別性能

從表3給出的統(tǒng)計(jì)數(shù)據(jù)不難發(fā)現(xiàn)：

1) 四類(lèi)關(guān)系的分布是非常不平衡的。Expansion關(guān)系占到了50%以上，而Temporal關(guān)系僅有5%～6%。因此不難理解四元分類(lèi)結(jié)果中，Expansion關(guān)系的識(shí)別性能最好，而Temporal關(guān)系的識(shí)別性能最差。

2) 雖然基準(zhǔn)系統(tǒng)的整體正確率達(dá)到了43.25%，但如果我們使用多數(shù)原則將所有關(guān)系都標(biāo)注成Expansion類(lèi)型，依據(jù)測(cè)試集的分布，系統(tǒng)的整體正確率為52.5%，高于我們的基準(zhǔn)系統(tǒng)。因此可以看到，篇章分析中系統(tǒng)的整體正確率并不能準(zhǔn)確的衡量系統(tǒng)的性能。

表3 訓(xùn)練集和測(cè)試集各關(guān)系實(shí)例分布情況

5 改進(jìn)系統(tǒng)：基于分類(lèi)器融合的隱式關(guān)系識(shí)別方法

分析基準(zhǔn)系統(tǒng)的性能以及語(yǔ)料分布的情況可以發(fā)現(xiàn)：

1) 數(shù)據(jù)分布的不平衡，使得系統(tǒng)的性能偏向?qū)嵗^多的Expansion類(lèi)型，相對(duì)的，實(shí)例較少的Temporal類(lèi)型的關(guān)系識(shí)別性能極低。

2) 采用統(tǒng)一的特征集識(shí)別所有類(lèi)型的篇章關(guān)系并不合適。例如，直覺(jué)上極性特征對(duì)Comparison類(lèi)型的關(guān)系更有效，而動(dòng)詞特征更利于Expansion類(lèi)型的關(guān)系識(shí)別。

上述問(wèn)題可以借助分類(lèi)器融合技術(shù)進(jìn)行改進(jìn)。針對(duì)第一個(gè)問(wèn)題，我們借鑒LibSVM[20]中將多元分類(lèi)問(wèn)題分解成多個(gè)一對(duì)多分類(lèi)器決策的過(guò)程，將隱式篇章關(guān)系的識(shí)別拆解成四個(gè)二元分類(lèi)問(wèn)題；針對(duì)第二個(gè)問(wèn)題，在拆解成多個(gè)二元分類(lèi)問(wèn)題的基礎(chǔ)上使用前向特征選擇算法[21]為每種篇章關(guān)系識(shí)別任務(wù)選擇不同的最優(yōu)特征子集。下面分別介紹多個(gè)二元分類(lèi)器的構(gòu)建和最優(yōu)特征子集的選擇。

5.1 多個(gè)二元分類(lèi)器的構(gòu)建

多元分類(lèi)可以借助多個(gè)二元分類(lèi)任務(wù)完成，但語(yǔ)料中篇章關(guān)系分布不均衡的狀況仍然存在。例如，構(gòu)建Temporal類(lèi)型的關(guān)系識(shí)別模型時(shí)，訓(xùn)練集中包含665個(gè)Temporal類(lèi)型的篇章關(guān)系(即正例)，11 967個(gè)其他類(lèi)型的篇章關(guān)系(即，1 894個(gè)Comparison類(lèi)型，3 281個(gè)Contingency類(lèi)型和6 792個(gè)Expansion類(lèi)型的篇章關(guān)系，它們都被看作負(fù)例)。對(duì)此，常見(jiàn)的方法在構(gòu)建訓(xùn)練集時(shí)通過(guò)欠采樣(Down-sampling)負(fù)樣本來(lái)構(gòu)建一個(gè)正負(fù)例平衡的分類(lèi)器。但是欠采樣方法的明顯缺點(diǎn)就是舍棄了大量的標(biāo)注樣本，未能重復(fù)利用所有標(biāo)注數(shù)據(jù)，然而標(biāo)注樣本是極其寶貴的資源。因此，本文借助分類(lèi)器融合技術(shù)極大化地利用所有的標(biāo)注數(shù)據(jù)。我們同樣以Temporal類(lèi)型為例。將負(fù)例按照正例的數(shù)目劃分，在我們的例子中負(fù)例被分成17份，每份包含665個(gè)負(fù)例。然后用正例和這17份負(fù)例分別構(gòu)建17個(gè)分類(lèi)器。最后通過(guò)加法規(guī)則去融合多個(gè)分類(lèi)器的結(jié)果來(lái)確定最終的關(guān)系類(lèi)別。加法融合規(guī)則如式(5)所示。

(5)

5.2 最優(yōu)特征子集的選擇

不同的特征對(duì)不同類(lèi)型的篇章關(guān)系識(shí)別的貢獻(xiàn)度并不相同，將多元分類(lèi)問(wèn)題拆解成多個(gè)二元分類(lèi)任務(wù)后，為每個(gè)二元分類(lèi)任務(wù)選定合適的最優(yōu)特征子集是非常自然的。借助開(kāi)發(fā)集，我們針對(duì)每個(gè)二元分類(lèi)任務(wù)采用前向特征選擇算法進(jìn)行了最優(yōu)特征子集的選擇。圖1給出了前向特征選擇算法的流程，從算法流程可以看到，該算法是一個(gè)貪心選擇算法。

5.3 實(shí)驗(yàn)結(jié)果與分析

使用與4.3節(jié)相同的實(shí)驗(yàn)設(shè)置，同樣采用Mallet提供的L1正則化最大熵模型構(gòu)建二元分類(lèi)器，改進(jìn)方法得到了如下實(shí)驗(yàn)結(jié)果。

特征貢獻(xiàn)實(shí)驗(yàn)

我們首先分析了五類(lèi)特征對(duì)多個(gè)二元分類(lèi)任務(wù)的貢獻(xiàn)度。表4給出了具體的實(shí)驗(yàn)結(jié)果，表格最后一列也給出了使用全部五類(lèi)特征得到的分類(lèi)器性能。

從表4的結(jié)果我們可以看到：

1) 對(duì)Comparison關(guān)系，盡管我們認(rèn)為Polarity特征應(yīng)該在Comparison關(guān)系上能獲得較好的性能，但實(shí)驗(yàn)表明Verbs特征和Product特征取得了最好的性能。比較Polarity和Product特征可以看出，Product特征在F1值上高于Polarity特征約9%。

前向特征選擇算法描述:輸入:候選特征集FC,訓(xùn)練集TS,開(kāi)發(fā)集DS;輸出:該任務(wù)的最優(yōu)特征集FS;開(kāi)始:1)將FC中的候選特征按照其對(duì)系統(tǒng)的單獨(dú)貢獻(xiàn)(如F1值)從大到小進(jìn)行排序,即FC_sort={f1,f2,…,fn};2)FS={f1},FR=FC_sort-FS;3)循環(huán)N次:a)將FR里的每個(gè)特征和FS進(jìn)行特征組合,并依次在DS上進(jìn)行測(cè)試;b)對(duì)FR中的特征按照按照a)中的結(jié)果從大到小進(jìn)行排序,如果最好的一個(gè)特征結(jié)果高于僅使用FS中的特征結(jié)果,則將該特征加入到FS中;反之則退出循環(huán);c)FR=FC_sort-FS,若FR=?,則退出循環(huán);4)FS即為該任務(wù)的最優(yōu)特征集。圖1 前向特征選擇算法

2) 對(duì)Contingency關(guān)系，情態(tài)特征Modality表達(dá)了可能性意義，從實(shí)驗(yàn)結(jié)果來(lái)看該特征的確取得了較好的性能，F(xiàn)1值在47.97%。另外，僅使用Product特征下得到了最好的性能F1值為48.95%。

3) 對(duì)Expansion關(guān)系，Expansion關(guān)系在整個(gè)數(shù)據(jù)分布中是比例最多的關(guān)系，我們認(rèn)為動(dòng)詞的特征能夠獲得較好的分類(lèi)性能，實(shí)驗(yàn)中我們發(fā)現(xiàn)First-Last，F(xiàn)irst3特征取得了最好的F1性能66.87%，而相對(duì)應(yīng)的Verbs特征僅有64.19%。

4) 對(duì)Temporal關(guān)系，時(shí)序關(guān)系是分布最少的關(guān)系約5%～6%，這給分類(lèi)造成了一定的難度。實(shí)驗(yàn)中我們發(fā)現(xiàn)僅用Product特征能取得最好的F1性能19.69%。此外Verbs特征和Modality特征也能獲得較好的性能。

表4 每類(lèi)特征對(duì)各任務(wù)的貢獻(xiàn)

總結(jié)各類(lèi)特征對(duì)不同二元分類(lèi)任務(wù)的貢獻(xiàn)度，我們發(fā)現(xiàn)：

1) Product特征在Expansion除外的其他三類(lèi)關(guān)系的識(shí)別中都取得了最好的性能。這一結(jié)論與Park和Cardie的結(jié)論吻合。針對(duì)Expansion關(guān)系的識(shí)別，使用First-Last，F(xiàn)irst3特征可以得到最佳結(jié)果。

2) 每個(gè)分類(lèi)任務(wù)的最優(yōu)性能可能不是由我們直覺(jué)上認(rèn)為合適的特征得到的，需要從實(shí)驗(yàn)數(shù)據(jù)推斷出。以Comparison為例，極性特征Polarity的不如動(dòng)詞特征Verbs的性能好，這說(shuō)明Comparison關(guān)系中并非總是存在Polarity相異的詞。同樣的以Expansion為例，我們的最優(yōu)性能也并非是動(dòng)詞特征Verbs得到的。

3) 每個(gè)分類(lèi)任務(wù)可能存在不同的最優(yōu)特征組合。以Expansion為例，使用單個(gè)特征First-Last，F(xiàn)irst3，系統(tǒng)獲得了最好的F1性能66.87%，但使用全部五類(lèi)特征，系統(tǒng)的F1值僅為60.84%，可以推斷該關(guān)系的最優(yōu)特征組合并不是全部的五類(lèi)特征。

前向特征選擇實(shí)驗(yàn)

在開(kāi)發(fā)集(00-01)上借助前向特征選擇算法進(jìn)行最優(yōu)特征子集的選定，然后使用選定的最優(yōu)特征子集在測(cè)試集上進(jìn)行測(cè)試，我們得到了如表5所示的結(jié)果。

表5 最優(yōu)特征子集下的各二元分類(lèi)任務(wù)的性能

表5的第二列給出了開(kāi)發(fā)集上為各二元分類(lèi)任務(wù)選定的最優(yōu)特征組合?？梢钥吹?，每類(lèi)篇章關(guān)系所選定的最優(yōu)特征子集是不一樣的。使用所有五類(lèi)特征，Comparison關(guān)系的識(shí)別獲得最佳性能；而1&4&5特征的組合，即Verbs特征、First-Last，F(xiàn)irst3特征和Product特征的組合，Contingency類(lèi)別的識(shí)別獲得了最佳性能；Expansion關(guān)系在Modality特征和First-Last，F(xiàn)irst3特征的組合下可以得到最好的F1值；而對(duì)Temporal關(guān)系而言，最優(yōu)特征組合是Modality和Product特征。

選定最優(yōu)特征組合后，借助最優(yōu)特征子集，我們重新對(duì)測(cè)試集進(jìn)行了評(píng)測(cè)，表5中的第3～6列分別給出了系統(tǒng)的Precision、Recall、F1值和Accuracy。對(duì)比表4我們可以發(fā)現(xiàn)，四類(lèi)關(guān)系的識(shí)別性能均有所提升，特別是Comparison類(lèi)型的關(guān)系識(shí)別，提升最為明顯。

與state-of-the-art系統(tǒng)的比較

我們的實(shí)驗(yàn)數(shù)據(jù)的劃分與Zhou等人[13]的研究一致，表6給出了兩個(gè)系統(tǒng)結(jié)果的比較。從比較結(jié)果來(lái)看，在Comparison和Contingency關(guān)系上我們的識(shí)別性能顯著優(yōu)于Zhou等人的系統(tǒng)，在Temporal關(guān)系上我們?nèi)〉昧伺c之可比較的性能，而在Expansion關(guān)系的識(shí)別上，我們系統(tǒng)的性能低于Zhou等人的性能，F(xiàn)1值相差約3%。對(duì)于這一結(jié)果，我們分析了各自方法上的差異。

1) 在每個(gè)二元分類(lèi)任務(wù)中，借助多分類(lèi)器融合技術(shù)，我們使用了全部的標(biāo)注數(shù)據(jù)構(gòu)建多個(gè)分類(lèi)器

進(jìn)行決策，而Zhou等人[13]的系統(tǒng)采用欠采樣負(fù)樣本的方式隨機(jī)選擇了部分?jǐn)?shù)據(jù)構(gòu)建二元分類(lèi)器進(jìn)行實(shí)驗(yàn)，其結(jié)果具有一定的隨機(jī)性。

2) 我們通過(guò)特征選擇算法使用開(kāi)發(fā)集確定了最優(yōu)的特征組合，而Zhou等人[13]的結(jié)果僅使用單個(gè)特征。Zhou等人[13]的最優(yōu)結(jié)果是應(yīng)用了語(yǔ)言模型特征輔助得到的，在沒(méi)有語(yǔ)言模型的情況下，Expansion關(guān)系的識(shí)別F1值僅有65.95%，略低于我們的最優(yōu)結(jié)果。

3) 前向特征算法在Temporal關(guān)系上陷入了局部最優(yōu)解，實(shí)驗(yàn)表明使用全部的五類(lèi)特征，系統(tǒng)F1可達(dá)到20.42%(表4)。

表6 與Zhou等人[13]系統(tǒng)進(jìn)行比較結(jié)果

隱式關(guān)系識(shí)別性能實(shí)驗(yàn)

構(gòu)建生成四個(gè)二元分類(lèi)器后，我們采用類(lèi)似于LibSVM的策略，選取四個(gè)分類(lèi)器中概率最大的語(yǔ)義類(lèi)別最為最終的結(jié)果。表7給出了基于四個(gè)二元分類(lèi)器融合的隱式關(guān)系識(shí)別的性能(括號(hào)中列出了第4.3節(jié)中表2給出的基準(zhǔn)系統(tǒng)的對(duì)應(yīng)結(jié)果)。

表7 一對(duì)多策略的四路識(shí)別性能

分析表7的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)：

1) 通過(guò)一對(duì)多策略，除Expansion關(guān)系外，其他關(guān)系的識(shí)別性能都有所提升，尤其是樣本數(shù)目最少的Temporal關(guān)系的識(shí)別，其F1值提升了約13%。相對(duì)而言，Expansion關(guān)系的性能下降了，這主要是由于系統(tǒng)召回率大幅降低。

2) 雖然除Expansion關(guān)系外，每類(lèi)關(guān)系識(shí)別的性能都有所提升，但隱式篇章分析的整體正確率目前僅有37.30%，還不能有效地應(yīng)用到其他自然語(yǔ)言處理任務(wù)中。

6 總結(jié)

使用傳統(tǒng)的詞法、句法、語(yǔ)義和上下文信息，首先構(gòu)建了多元分類(lèi)的隱式篇章關(guān)系識(shí)別基準(zhǔn)系統(tǒng)；通過(guò)對(duì)實(shí)驗(yàn)結(jié)果和語(yǔ)料中關(guān)系分布不均衡問(wèn)題的分析提出了借助多分類(lèi)器融合技術(shù)和特征選擇算法進(jìn)行系統(tǒng)優(yōu)化的解決方案。PDTB語(yǔ)料上的實(shí)驗(yàn)結(jié)果表明，提出的解決方案方案能有效地提升隱式篇章關(guān)系識(shí)別的性能。目前隱式篇章關(guān)系識(shí)別的總體正確率仍然偏低，還不能很好地服務(wù)于其他自然語(yǔ)言處理任務(wù)，在未來(lái)的工作中，我們將嘗試借助大規(guī)模的未標(biāo)注數(shù)據(jù)來(lái)輔助隱式篇章關(guān)系的識(shí)別。

[1] Lin Z, Liu C, Ng H T, et al. Combining coherence models and machine translation evaluation metrics for summarization evaluation[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. 2012：1006-1014.

[2] Meyer T, Webber B. Implication of discourse connectives in (machine) translation[C]//Proceedings of the Workshop on Discourse in Machine Translation. 2014:19-26.

[3] Ng J P, Kan M Y, Lin Z, et al. Exploiting discourse analysis for article-wide temporal classification[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. 2013:12-23.

[4] PDTB-Group. The Penn Discourse Treebank 2.0 Annotation Manual[OL]. The PDTB Research Group. 2007.

[5] Rashmi Prasad, Nikhil Dinesh, Alan Lee,et al. The Penn Discourse Treebank 2.0[C]//Proceedings of the 6th International Conference on Language Resources and Evaluation. 2008.

[6] Bonnie Webber. D-LTAG: Extending lexicalized TAG to discourse[M]. Cognitive Science, 2004, 28(5):751-779.

[7] Mitchell P Marcus, Beatrice Santorini, Mary Ann Marcinkiewicz. Building a Large Annotated Corpus of English: the Penn Treebank[J]. Computational Linguistics, 1993, 19(2):313-330.

[8] Marcu D, Echihabi A. An unsupervised approach to recognizing discourserelations[C]//Proceedings of 40th Annual Meeting of the Association for Computational Linguistics. 2002:368-375.

[9] Saito M, Yamamoto K, Sekine S. Using phrasal patterns to identify discourse relations[C]//Proceedings of the Human Language Technology Conference of the NAACL. 2006:133-136.

[10] Pitler E, Louis A, Nenkova A. Automatic sense prediction for implicit dis- course relations in text[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. 2009:683-691.

[11] Lin Z, Kan M Y, Ng H T. Recognizing implicit discourse relations in the Penn Discourse Treebank[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. 2009:343-351.

[12] Park J, Cardie C. Improving implicit discourse relation recognition through feature set optimization[C]//Proceedings of the 13th Annual Meeting of the Special Interest Group on Discourse and Dialogue. 2012: 108-112.

[13] Zhou Z M, Xu Y, Niu Z Y, Lan M, et al. Predicting discourse connectives for implicit discourse relation recognition[C]//Proceedings of the Coling 2010: Posters. 2010: 1507-1514.

[14] Biran O, McKeown K. Aggregated word pair features for implicit discourse relation disambiguation[C]// Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. 2013:69-73.

[15] Lan M, Xu Y, Niu Z. Leveraging synthetic discourse data via multi-task learning for implicit discourse relation recognition[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. 2003:476-485.

[16] 周小佩,洪宇,車(chē)婷婷等. 一種無(wú)指導(dǎo)的隱式篇章關(guān)系推理方法研究[J]. 中文信息學(xué)報(bào), 2013,27(02):17-25.

[17] B L. English Verb Classes and Alternations: A Preliminary Investigation[M]. Chicago, IL, 1993.

[18] Wilson T, Wiebe J, Hoffmann P. Recognizing contextual polarity in phrase-level sentiment analysis[C]//Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing. 2005:347-354.

[19] Stone P J, Dunphy D C, Smith M S. The General Inquirer: A Computer Approach to Content Analysis[M]. MIT Press, 1996.

[20] Chih-Chung Chang, Chih-Jen Lin. LIBSVM: a library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology, 2011:1-27.

[21] John G H, Kohavi R, Pfleger K. Irrelevant features and the subset selection problem[C]//Proceedings of the Machine Learning: Proceedings of the Eleventh International. 1994:121-129.

Recognizing PDTB Style Implicit Discourse Relations

LI Sheng, KONG Fang, ZHOU Guodong

(School of Computer Sciences and Technology, Soochow University, Suzhou, Jiangsu 215006, China)

Recognizing implicit discourse relation is a challenging task in discourse parsing. In this paper, we propose an implicit discourse relation recognizing method in the Penn Discourse Treebank (PDTB) considering some traditional features (e.g., verbs, polarity, production rules, and so on), and provide a systematic analysis for our implicit discourse relation method. We apply all labeled data to build multiple classifiers, and use the adding rule to identify final classification result for each instance. We also use forward feature selection method to select an optimal feature subset for each classification task. Experimental results in the PDTB corpus show that our proposed method can significantly improve the state-of-the-art performance of recognizing implicit discourse relation.

discourse processing; implicit discourse relation; PDTB

李生(1989—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理,篇章分析。E-mail:shengli.ls@aliyun.com孔芳(1977—),博士,副教授,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí),自然語(yǔ)言處理,篇章分析。E-mail:kongfang@suda.edu.cn周?chē)?guó)棟(1967—),博士,教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理,篇章理解。E-mail:gdzhou@suda.edu.cn

1003-0077(2016)04-0081-09

2014-05-05 定稿日期： 2015-03-09

國(guó)家自然科學(xué)基金(61472264，61273320,61333018，61331011)；國(guó)家863項(xiàng)目(2012AA011102)

TP391

基于PDTB體系的隱式篇章關(guān)系識(shí)別

1 引言

2 PDTB體系及標(biāo)注語(yǔ)料

3 相關(guān)工作

4 基準(zhǔn)系統(tǒng)： 基于最大熵模型的隱式關(guān)系識(shí)別方法

5 改進(jìn)系統(tǒng)： 基于分類(lèi)器融合的隱式關(guān)系識(shí)別方法

6 總結(jié)

4 基準(zhǔn)系統(tǒng)：基于最大熵模型的隱式關(guān)系識(shí)別方法

5 改進(jìn)系統(tǒng)：基于分類(lèi)器融合的隱式關(guān)系識(shí)別方法