朱珊珊,洪 宇,丁思遠(yuǎn),姚建民,朱巧明
(蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇蘇州215006)
篇章關(guān)系分類研究旨在自動(dòng)推測(cè)同一篇章內(nèi)兩個(gè)文本片段(即“論元”,argument)之間的語(yǔ)義連接關(guān)系。賓州篇章樹(shù)庫(kù)(Penn Discourse Treebank,PDTB)[1-2]是2008年發(fā)布標(biāo)注具體篇章關(guān)系類型的語(yǔ)言學(xué)資源,其將篇章關(guān)系類型分成三層(如圖1所示):Class層、Type層和Subtype層。Class層包括:Expansion(擴(kuò)展關(guān)系)、Contingency(偶然關(guān)系)、Comparison(對(duì)比關(guān)系)和Temporal(時(shí)序關(guān)系);Type層和Subtype層則分別針對(duì)上一層進(jìn)行細(xì)分。
此外,依據(jù)“論元對(duì)”關(guān)系類別的不同識(shí)別方式,PDTB又將篇章關(guān)系分成顯式篇章關(guān)系(Explicit Discourse Relation)和隱式篇章關(guān)系(Implicit Discourse Relation)兩種類型。在顯式篇章關(guān)系類型中,兩個(gè)“論元”之間存在連接詞(例如,連接詞“but”,“because”等),可直接根據(jù)連接詞判定篇章關(guān)系;而在隱式篇章關(guān)系類型中,兩個(gè)“論元”之間缺少連接詞等直觀推理線索,無(wú)法直接判定篇章關(guān)系,須結(jié)合上下文、句子語(yǔ)義結(jié)構(gòu)等其他信息間接推理。在PDTB語(yǔ)言學(xué)資源中,標(biāo)注者通過(guò)在隱式“論元對(duì)”中插入一個(gè)連接詞表示具體的篇章關(guān)系類型。本文主要專注于Class層隱式篇章關(guān)系分類問(wèn)題的研究。例1是從PDTB語(yǔ)料中抽取的具有隱式篇章關(guān)系的文本片段,圖2給出標(biāo)注的連接詞及其對(duì)應(yīng)的篇章關(guān)系類別。
圖1 PDTB篇章關(guān)系體系
例1 [Mrs.Tom was fired and prosecuted under a South Carolina law that makes it a crime to breach test security.]arg1[Implicit=then][In September,she pleaded guilty and paid a$500 fine]arg2[Implicit=but][She never complained to school officials that the standardized test was unfair]arg3[Implicit=therefore][Do I have much sympathy for her]arg4[Implicit=in fact][Not really]arg5.
<譯文:依據(jù)南卡羅來(lái)納法:違反安全測(cè)試是一種違法行為,湯姆小姐被解雇并同時(shí)被起訴。【隨后在九月份,她承認(rèn)罪行并支付了500美金的罰款?!镜恰克龔臎](méi)有向?qū)W校官員抱怨標(biāo)準(zhǔn)化測(cè)試是不公平的?!疽虼恕课彝樗龁??【實(shí)際上】并不是這樣的。>
圖2 例1中各“論元對(duì)”篇章關(guān)系標(biāo)注結(jié)果
關(guān)于篇章關(guān)系分類的研究已開(kāi)展多年,在顯式篇章關(guān)系方面,分類精確率已達(dá)93.09%[3]。而在隱式篇章關(guān)系方面,分類精確率仍然較低。主流研究方法主要采用基于語(yǔ)言學(xué)特征的機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)關(guān)系分類,在這種分類方法中,大多數(shù)研究者都假設(shè)參與分類的正類樣本和負(fù)類樣本的數(shù)量是相等的,通過(guò)隨機(jī)欠采樣等方法保持?jǐn)?shù)據(jù)平衡。然而隨機(jī)欠采樣方法存在一個(gè)明顯的缺點(diǎn)(注:為表述清楚,本文將樣本中數(shù)量較多的一類稱為多數(shù)類,將樣本數(shù)量較少的一類稱為少數(shù)類):欠采樣過(guò)程從多數(shù)類樣本中隨機(jī)選擇與少數(shù)類樣本數(shù)量相等的樣例,致使多數(shù)類樣本中大量有用的樣本被丟棄,在后續(xù)分類過(guò)程中未能發(fā)揮作用,從而影響整體的關(guān)系分類性能。
針對(duì)該問(wèn)題,本文提出一種基于框架語(yǔ)義向量的訓(xùn)練樣本擴(kuò)展方法,旨在充分利用已標(biāo)注的篇章關(guān)系樣本,對(duì)不平衡的訓(xùn)練樣本進(jìn)行擴(kuò)展,解決基于不平衡數(shù)據(jù)的隱式篇章關(guān)系分類問(wèn)題。具體實(shí)現(xiàn)過(guò)程中,該方法借助框架語(yǔ)義知識(shí)庫(kù),將篇章關(guān)系樣本表示成框架語(yǔ)義向量,借助框架語(yǔ)義向量,在外部未標(biāo)注數(shù)據(jù)資源中挖掘篇章關(guān)系樣本,實(shí)現(xiàn)對(duì)訓(xùn)練樣本的擴(kuò)展,從而解決數(shù)據(jù)不平衡問(wèn)題。
本文的組織結(jié)構(gòu)如下:第2節(jié)介紹相關(guān)工作;第3節(jié)描述框架語(yǔ)義知識(shí)庫(kù)及框架語(yǔ)義向量;第4節(jié)給出基于框架語(yǔ)義向量的隱式訓(xùn)練樣本集擴(kuò)展方法;第5節(jié)給出實(shí)驗(yàn)結(jié)果及相關(guān)分析;第6節(jié)總結(jié)全文。
基于全監(jiān)督學(xué)習(xí)的隱式篇章關(guān)系分類是目前的主流研究方法,主要包括:Pilter等[4]首次使用PDTB語(yǔ)言學(xué)資源,抽取論元的情感極性,動(dòng)詞類型及上下文特征進(jìn)行關(guān)系分類,最終獲得優(yōu)于隨機(jī)分類的性能,奠定隱式篇章關(guān)系分類研究的基礎(chǔ)。Zhou等[5]根據(jù)語(yǔ)言模型困惑度在兩個(gè)論元之間插入顯式連接詞,并將該連接詞作為額外的分類特征,進(jìn)一步提高隱式篇章關(guān)系的分類性能。Lin等[6]在Pilter的研究基礎(chǔ)上,增加句法特征及依存特征。隨后,Wang等[7]提出基于樹(shù)核函數(shù)的隱式篇章關(guān)系分類方法,有效提升句法特征之間的區(qū)分能力,最終在PDTB語(yǔ)料上獲得40.0%的關(guān)系分類性能。Park等[8]采用前向選擇算法對(duì)單詞對(duì)、動(dòng)詞、極性、句法特征等八種特征進(jìn)行特征選擇,在每種關(guān)系類型上都獲得一個(gè)最優(yōu)的特征集合。Wang等[9]通過(guò)SCC(single centroid clustering)聚類算法選擇“典型”的訓(xùn)練樣例,減少噪音文本。近期,Rutherford等[10]使用布朗聚類對(duì)特征代替單詞對(duì)特征,Li等[11]通過(guò)改變句法特征的表示方法,有效解決特征表示的稀疏性問(wèn)題。
目前,主流的不平衡數(shù)據(jù)分類方法可分成兩大類:采樣技術(shù)及代價(jià)敏感函數(shù)方法。
其中,采樣技術(shù)應(yīng)用最為廣泛,主要包括隨機(jī)欠采樣(Random Under-sampling)和隨機(jī)重采樣(Random Over-sampling)兩種方法。詳細(xì)而言,隨機(jī)欠采樣方法從多數(shù)樣本中刪除部分樣例使得樣本分布平衡;而隨機(jī)重采樣方法是從少數(shù)類樣本中隨機(jī)選擇部分樣例進(jìn)行復(fù)制,直到多數(shù)類和少數(shù)類樣本數(shù)量相等。Mani等[12]提出基于K近鄰的欠采樣方法,與隨機(jī)欠采樣方法相比,該方法通過(guò)K近鄰算法從多數(shù)類樣本選擇需要?jiǎng)h除的樣例,保留多數(shù)類樣本中有用的分類信息。Lin等[13]將采樣技術(shù)與集成學(xué)習(xí)方法相結(jié)合,從多數(shù)類樣本中抽取子集與少數(shù)類樣本進(jìn)行組合,訓(xùn)練多個(gè)分類器進(jìn)行分類決策。Lin等還提出一種基于平衡-級(jí)聯(lián)算法的不平衡數(shù)據(jù)分類方法,該方法以監(jiān)督學(xué)習(xí)方法為基礎(chǔ),通過(guò)訓(xùn)練多個(gè)分類器選擇多數(shù)類樣本中需要?jiǎng)h除的樣例。此外,Chawla等[14]提出基于少數(shù)類合成的過(guò)采樣技術(shù)(簡(jiǎn)稱SMOTE算法),該方法以少數(shù)類樣本為種子樣例,基于K近鄰算法生成新的少數(shù)類樣例,對(duì)少數(shù)類進(jìn)行擴(kuò)展。Han等[15]對(duì)SMOTE算法進(jìn)行改進(jìn),對(duì)少數(shù)類樣本進(jìn)行歸類,在此基礎(chǔ)上,提出基于邊界-少數(shù)類合成的采樣方法。
上述采樣技術(shù)主要通過(guò)調(diào)整樣本數(shù)量保持?jǐn)?shù)據(jù)平衡,代價(jià)敏感函數(shù)方法則是在分類過(guò)程中改變誤分類的代價(jià)函數(shù)[16],保證在多數(shù)類樣本中分錯(cuò)的代價(jià)大于在少數(shù)類樣本中分錯(cuò)的代價(jià)。在此基礎(chǔ)上,后續(xù)研究者提出代價(jià)敏感決策樹(shù)和代價(jià)敏感神經(jīng)網(wǎng)絡(luò),進(jìn)一步解決不平衡數(shù)據(jù)分類問(wèn)題。
框架語(yǔ)義知識(shí)庫(kù)(FrameNet)①http://framenet.icsi.berkeley.edu/是基于框架語(yǔ)義學(xué)(Frame Semantics)[17]構(gòu)建的權(quán)威英文語(yǔ)義詞匯資源。框架語(yǔ)義學(xué)由Fillmore于1992年提出,它是一種通向理解及描寫(xiě)詞語(yǔ)和語(yǔ)法結(jié)構(gòu)意義的方法。該理論的核心思想是為了理解語(yǔ)言中詞的意義,首先要有一個(gè)概念結(jié)構(gòu),這個(gè)概念結(jié)構(gòu)為詞在語(yǔ)言及言語(yǔ)中的存在和使用提供背景和動(dòng)因。表1給出FrameNet中相關(guān)術(shù)語(yǔ)定義及標(biāo)注示例。從表1中的標(biāo)注示例可以看出,兩個(gè)標(biāo)注示例包含不同的語(yǔ)義信息,但它們具有相同的框架語(yǔ)義,目標(biāo)詞cooks和fry對(duì)應(yīng)的框架語(yǔ)義均為APPLY_HEAT,通過(guò)框架語(yǔ)義信息,可將兩個(gè)具有不同語(yǔ)義信息的文本片段關(guān)聯(lián)起來(lái)。
表1 FrameNet相關(guān)術(shù)語(yǔ)定義及標(biāo)注示例
本文引入框架語(yǔ)義,主要?jiǎng)訖C(jī)在于框架語(yǔ)義有助于“論元”語(yǔ)義一級(jí)的描述,對(duì)于后續(xù)隱式訓(xùn)練樣本的擴(kuò)展,能夠有效提升“論元對(duì)”的挖掘精度與廣度,并提升其分類效率。目前,框架語(yǔ)義學(xué)領(lǐng)域已然形成多種自動(dòng)框架語(yǔ)義分析與識(shí)別工具。本文采用Dipanjan Das等人開(kāi)發(fā)的SEMFOR①http://www.ark.cs.cmu.edu/SEMAFOR/標(biāo)注工具進(jìn)行框架語(yǔ)義標(biāo)注,該工具對(duì)給定的句子進(jìn)行目標(biāo)詞與框架的有效識(shí)別。
本文使用SEMAFOR框架語(yǔ)義分析與識(shí)別工具對(duì)訓(xùn)練樣本進(jìn)行框架語(yǔ)義標(biāo)注。在此基礎(chǔ)上,將“論元”中的所有框架語(yǔ)義進(jìn)行組合形成框架語(yǔ)義向量,利用該向量表示“論元”,實(shí)現(xiàn)“論元”的抽象描述,從而減少隱式篇章關(guān)系分類任務(wù)的復(fù)雜度。例3為標(biāo)注的“論元對(duì)”實(shí)例,Arg1中可識(shí)別出三個(gè)目標(biāo)詞:events,took place和years,其對(duì)應(yīng)的框架語(yǔ)義分別為Event,Event和Measure_duration,將它們組合起來(lái)形成框架語(yǔ)義向量Sf1;同理Arg2中可識(shí)別出has等五個(gè)目標(biāo)詞,將它們對(duì)應(yīng)的框架語(yǔ)義組合起來(lái)形成框架語(yǔ)義向量Sf2。
例3 Arg1:These events took place 35years ago.
<譯文:這些事件發(fā)生在35年前>
Sf1:(Event,Event,Measure_duration)
Arg2:It has no bearingon our work force today.
<譯文:現(xiàn)在它對(duì)工作人員并沒(méi)有什么影響>
Sf2:(Possession,Objective_influence,Working_on,Military,Calendric_unit)
本文采用PDTB標(biāo)注的隱式數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集,共包含13 815個(gè)實(shí)例。表2給出該數(shù)據(jù)集上四種篇章關(guān)系類別的實(shí)例數(shù)量、在語(yǔ)料中的比例以及正負(fù)類別比例。從表中可以看出,四種篇章關(guān)系類別的實(shí)例數(shù)量相差較大,正負(fù)不平衡比例介于0~2。除了Expansion類別,其余三個(gè)關(guān)系類別(Comparison、Contingency和Temporal)的正例樣本數(shù)量均小于負(fù)例樣本數(shù)量。這種情況容易導(dǎo)致在這三個(gè)類別上訓(xùn)練的分類模型更傾向于將測(cè)試實(shí)例判定為負(fù)類,產(chǎn)生較大的誤差,影響隱式篇章關(guān)系分類的整體性能?;诖耍疚慕柚蚣苷Z(yǔ)義知識(shí)庫(kù),對(duì)實(shí)例數(shù)量較少的三個(gè)篇章關(guān)系類別進(jìn)行樣本擴(kuò)展,解決隱式篇章關(guān)系分類過(guò)程中樣本數(shù)據(jù)不平衡的問(wèn)題。
表2 PDTB隱式數(shù)據(jù)集四種篇章關(guān)系分布
本文采用的外部數(shù)據(jù)資源為GIGAWORD紐約時(shí)報(bào)語(yǔ)料,共包含1 298 498篇新聞文本。在進(jìn)行訓(xùn)練樣本擴(kuò)展之前,本文對(duì)GIGAWORD中所有文本進(jìn)行切分,為了驗(yàn)證本文的方法能夠有效地選擇與測(cè)試樣本語(yǔ)義相近的隱式“論元對(duì)”,本文將GIGAWORD樣本分別切分成顯式篇章關(guān)系樣本和隱式篇章關(guān)系樣本,下面詳述這兩種切分方法。
1)顯式篇章關(guān)系樣本切分
該方法以PDTB語(yǔ)言學(xué)資源中的Golden連接詞為基礎(chǔ),從GIGAWORD文本中切分獲得顯式篇章關(guān)系樣本,切分后的文本符合以下兩個(gè)條件:
·以“論元對(duì)”為單元,即包含前置論元Arg1和后置論元Arg2。
·Arg2中的第一個(gè)單詞為Golden連接詞②Golden連接詞:指向某一特定篇章關(guān)系的概率大于96%,例如連接詞“now”唯一地指向Temporal(時(shí)序關(guān)系),PDTB共統(tǒng)計(jì)得出87個(gè)Golden連接詞。,且將Golden連接詞作為未標(biāo)注“論元對(duì)”的先驗(yàn)知識(shí),“論元對(duì)”具有顯式篇章關(guān)系。
按照上述切分條件,本文共獲得2 520 777個(gè)顯式“論元對(duì)”(簡(jiǎn)寫(xiě)為GIGA-Explicit),四種篇章關(guān)系分布比例如圖3所示。圖4為顯式“論元對(duì)”數(shù)量較多的Top10Golden連接詞,從圖中可以看出,包含“or”,“so”,“for”等連接詞的顯式“論元對(duì)”在語(yǔ)料中所占比例較大,導(dǎo)致Expansion篇章關(guān)系類別在語(yǔ)料中的比例最大(如圖3中Expansion在所有挖掘的GIGA-Explicit篇章關(guān)系樣本中的比例為37.06%)。
圖3 GIGA-Explicit顯式樣本四種篇章關(guān)系分布情況
2)隱式篇章關(guān)系樣本切分
與顯式篇章關(guān)系樣本切分方法類似,該方法將GIGAWORD文本切分成隱式篇章關(guān)系樣本,切分后的文本須滿足以下兩個(gè)條件:
·以“論元對(duì)”為單元,即包含前置論元Arg1和后置論元Arg2。
圖4 GIGA_Explicit樣本中顯式“論元對(duì)”數(shù)量較多的Top10Golden連接詞
· “論元對(duì)”中不存在連接詞,即“論元對(duì)”具有隱式篇章關(guān)系。
與顯式篇章關(guān)系樣本切分方法的唯一不同的是,該方法不以Golden連接詞為先驗(yàn)知識(shí),“論元對(duì)”的篇章關(guān)系類別不確定。此外,在文本切分過(guò)程中,本文通過(guò)句法分析確保挖掘到的隱式“論元對(duì)”符合自然語(yǔ)言規(guī)律。本文最終切分獲得908 142個(gè)隱式“論元對(duì)”(簡(jiǎn)寫(xiě)為GIGA-Implicit)。
對(duì)4.2節(jié)構(gòu)建的兩個(gè)篇章關(guān)系樣本GIGA-Explicit和GIGA-Implicit,本文使用SEMFOR語(yǔ)義框架標(biāo)注工具對(duì)所有樣本進(jìn)行標(biāo)注,獲得樣本的框架語(yǔ)義向量。在此基礎(chǔ)上,以PDTB中隱式訓(xùn)練樣本為種子樣例,分別計(jì)算每個(gè)種子樣例的框架語(yǔ)義向量與兩個(gè)篇章關(guān)系樣本中樣例對(duì)應(yīng)的框架語(yǔ)義向量之間的語(yǔ)義相似度,根據(jù)相似度計(jì)算結(jié)果排序,選擇與當(dāng)前種子樣例最相似的TopN“論元對(duì)”作為擴(kuò)展的訓(xùn)練樣本。其中,語(yǔ)義相似度計(jì)算方法如公式(1)所示,Arg1Sim表示前置論元Arg1框架語(yǔ)義向量之間的余弦相似度,Arg2Sim表示后置論元Arg2框架語(yǔ)義向量之間的余弦相似度,特征權(quán)重使用框架語(yǔ)義在論元中的出現(xiàn)頻數(shù)。圖5為基于GIGA-Explicit顯式樣本擴(kuò)展訓(xùn)練樣本方法的實(shí)例化流程圖。
圖5 基于GIGA-Explicit顯式樣本擴(kuò)展訓(xùn)練樣本的實(shí)例化說(shuō)明
特別地,由于顯式“論元對(duì)”和隱式“論元對(duì)”之間存在不同的語(yǔ)義特性,在篇章關(guān)系樣本GIGA-Explicit和GIGA-Implicit中挖掘擴(kuò)展“論元對(duì)”時(shí),存在以下兩點(diǎn)不同之處:
在GIGA-Explicit顯式篇章關(guān)系樣本中,“論元對(duì)”的篇章關(guān)系類別是確定的。在挖掘過(guò)程中,由于存在“噪音”文本,與種子樣例最相似的TopN顯式“論元對(duì)”中可能會(huì)出現(xiàn)篇章關(guān)系類別不一致的情況,即當(dāng)前種子樣例的篇章關(guān)系類別為Rx,挖掘到的“論元對(duì)”的先驗(yàn)篇章關(guān)系類別為Ry,Rx≠Ry。針對(duì)這種情況,本文在選擇擴(kuò)展“論元對(duì)”之前,刪除與種子樣例篇章關(guān)系類別不一致的顯式“論元對(duì)”,在此基礎(chǔ)上,選擇與種子樣例最相似的TopN顯式“論元對(duì)”作為擴(kuò)展樣本。
在GIGA-Implicit隱式篇章關(guān)系樣本中,“論元對(duì)”的篇章關(guān)系類別不確定。根據(jù)Hong等[18]提出的“平行推理機(jī)制”理論,與種子樣例最相似的TopN隱式“論元對(duì)”在關(guān)系上是平行的,即TopN隱式“論元對(duì)”的篇章關(guān)系與種子樣例的篇章關(guān)系相同,可直接將挖掘到的隱式“論元對(duì)”作為擴(kuò)展樣本。
本文使用PDTB隱式數(shù)據(jù)集中Section 02~20作為訓(xùn)練數(shù)據(jù)集,Section 21~22作為測(cè)試數(shù)據(jù)集,Section 00~01作為驗(yàn)證數(shù)據(jù)集。各數(shù)據(jù)集在四種篇章關(guān)系類別上的分布情況如表3所示。本文使用詞向量(Semantic Vector)①http://nlp.stanford.edu/software/lex-parser.shtml作為分類特征,向量維度設(shè)定為100維。
表3 實(shí)驗(yàn)數(shù)據(jù)集四種篇章關(guān)系分布
此外,本文使用LIBSVM(Chang等[19])作為分類器,核函數(shù)選用線性核函數(shù)。針對(duì)每種篇章關(guān)系類別,分別訓(xùn)練一個(gè)二元分類器,計(jì)算獲得每個(gè)篇章關(guān)系類別的分類精確率(Accuracy)(如公式(2)所示),公式(2)中TP和TN分別表示被正確分為正例和負(fù)例的個(gè)數(shù)。整體性能評(píng)價(jià)標(biāo)準(zhǔn)使用精確率的宏平均(Micro-average Accuracy)(如公式(3)所示),其中R={Expansion,Comparison,Contingency,Temporal}。
表4列出參與實(shí)驗(yàn)的各分類系統(tǒng),編號(hào)2~9為基于主流不平衡分類方法的實(shí)驗(yàn)系統(tǒng),編號(hào)10~11為本文提出的基于框架語(yǔ)義向量的不平衡隱式篇章關(guān)系分類系統(tǒng),其中Expand-Explicit系統(tǒng)使用GIGA-Explicit顯式篇章關(guān)系樣本,Expand-Implicit系統(tǒng)使用GIGA-Implicit隱式篇章關(guān)系樣本。
表4 實(shí)驗(yàn)系統(tǒng)
續(xù)表
針對(duì)每個(gè)種子樣例,本文在外部篇章關(guān)系樣本中選擇與其最相似的TopN“論元對(duì)”作為擴(kuò)展樣本,圖6分別給出在Expand-Explicit和Expand_Implicit兩個(gè)實(shí)驗(yàn)系統(tǒng)中參數(shù)N的不同取值對(duì)應(yīng)的整體分類性能變化圖。從圖6中可以看出,N取值分別為3和1時(shí),兩個(gè)實(shí)驗(yàn)系統(tǒng)能夠獲得最優(yōu)的分類性能,且在參數(shù)調(diào)整過(guò)程中,Expand_Implicit實(shí)驗(yàn)系統(tǒng)的整體分類性能均明顯優(yōu)于Expand-Explicit實(shí)驗(yàn)系統(tǒng)。
圖6 N的不同取值對(duì)應(yīng)的整體分類性能
圖7為各實(shí)驗(yàn)系統(tǒng)的實(shí)驗(yàn)性能對(duì)比情況,從圖中可以看出,與Baseline系統(tǒng)對(duì)比,Expand-Explicit實(shí)驗(yàn)系統(tǒng)的實(shí)驗(yàn)性能獲得小幅度的提升,整體分類精確率提升6.75%,Expand_Implicit實(shí)驗(yàn)系統(tǒng)的分類性能提升幅度較大,整體分類精確率提升28.16%。結(jié)合圖6和圖7,分析原因可知,Expand-Explicit實(shí)驗(yàn)系統(tǒng)擴(kuò)展的訓(xùn)練樣本來(lái)自GIGA-Explicit篇章關(guān)系樣本,樣本中的實(shí)例包含連接詞,而待擴(kuò)展的原始訓(xùn)練樣本均不包含連接詞,連接詞的缺失導(dǎo)致兩種篇章關(guān)系樣本在語(yǔ)義上存在差異,隨著擴(kuò)展的訓(xùn)練樣本的增加,實(shí)驗(yàn)系統(tǒng)的分類性能有所下降。而在Expand_Implicit實(shí)驗(yàn)系統(tǒng)中,本文方法借助框架語(yǔ)義向量,從GIGA-Implicit篇章關(guān)系樣本中挖掘隱式“論元對(duì)”加入訓(xùn)練樣本中,在各個(gè)篇章關(guān)系類別上引入了更多的分類信息,有效地提升了篇章關(guān)系分類性能。
從圖7中還可以看出,相較于各主流不平衡數(shù)據(jù)分類方法的實(shí)驗(yàn)系統(tǒng),本文性能較優(yōu)的Expand-Implicit實(shí)驗(yàn)系統(tǒng)有效提升了整體分類精確率,與主流方法性能最優(yōu)的基于代價(jià)敏感函數(shù)的Meta-Cost-Sensitive實(shí)驗(yàn)系統(tǒng)進(jìn)行對(duì)比,整體分類精確率提升5.19%。分析原因可知,各主流不平衡數(shù)據(jù)分類方法側(cè)重通過(guò)采樣或者改變錯(cuò)誤權(quán)重等方法解決訓(xùn)練樣本數(shù)據(jù)不平衡問(wèn)題,這些方法往往局限在有限的數(shù)據(jù)資源中,忽略了不平衡樣本數(shù)據(jù)本身存在信息不充分的問(wèn)題,影響篇章關(guān)系分類性能。針對(duì)這一問(wèn)題,本文借助框架語(yǔ)義向量,利用大規(guī)模外部數(shù)據(jù)資源,挖掘有效的隱式篇章關(guān)系樣本,對(duì)樣例數(shù)量較少的三個(gè)篇章關(guān)系類別進(jìn)行樣本擴(kuò)展,提升了整體篇章關(guān)系分類性能。實(shí)驗(yàn)結(jié)果也證明本文提出的基于框架語(yǔ)義向量的方法能夠從外部數(shù)據(jù)資源中有效地挖掘隱式篇章關(guān)系樣本,從而對(duì)原始訓(xùn)練樣本進(jìn)行擴(kuò)展,輔助篇章關(guān)系分類任務(wù)。
圖7 各實(shí)驗(yàn)系統(tǒng)性能對(duì)比
表5 各隱式篇章關(guān)系推理系統(tǒng)性能
此外,表5給出本文性能最優(yōu)的Expand_Implicit實(shí)驗(yàn)系統(tǒng)以及各主流隱式篇章關(guān)系分類系統(tǒng)的實(shí)驗(yàn)性能對(duì)比,從表中可以看出,本文提出的基于框架語(yǔ)義向量的隱式訓(xùn)練樣本擴(kuò)展方法性能提升明顯,相較于性能較優(yōu)的Park-SYS實(shí)驗(yàn)系統(tǒng),整體分類精確率提升2.73%,這也進(jìn)一步證明了本文基于框架語(yǔ)義向量進(jìn)行訓(xùn)練樣本擴(kuò)展的方法具有一定的有效性和可行性,與主流方法采用的隨機(jī)欠采樣方法相比,能夠獲得更優(yōu)的分類性能。
本文研究隱式篇章關(guān)系分類任務(wù)中的不平衡數(shù)據(jù)分類問(wèn)題,提出一種基于框架語(yǔ)義向量擴(kuò)展訓(xùn)練樣本的分類方法。實(shí)驗(yàn)結(jié)果顯示,本文方法能夠很好地解決隱式篇章關(guān)系分類任務(wù)中數(shù)據(jù)不平衡的問(wèn)題,相較于傳統(tǒng)的基于原始訓(xùn)練樣本的采樣方法以及代價(jià)敏感函數(shù)方法,實(shí)驗(yàn)性能獲得顯著提升。
然而本文方法仍存在不足之處,將論元表示成框架語(yǔ)義向量,可能存在數(shù)據(jù)稀疏問(wèn)題:統(tǒng)計(jì)發(fā)現(xiàn),論元中識(shí)別出的框架語(yǔ)義平均數(shù)量為六個(gè),在某些文本較短的論元中,由于識(shí)別出的框架語(yǔ)義較少,形成的框架語(yǔ)義向量并不能很好的表示該論元,影響后續(xù)訓(xùn)練樣本擴(kuò)展的精確率?;诖?,在未來(lái)工作中,我們將對(duì)本文方法進(jìn)行細(xì)化,根據(jù)論元的框架語(yǔ)義數(shù)量對(duì)論元進(jìn)行篩選,選擇符合要求的“論元對(duì)”,并嘗試采用Stacked Learning、Tri-training等多分類器的學(xué)習(xí)方法實(shí)現(xiàn)隱式篇章關(guān)系分類任務(wù)。
[1] R Prasad,N Dinesh,A Lee,et al.The Penn Discourse TreeBank 2.0[C]//Proceedings of the 6th International Conference on Language Resources and E-valuation(LREC),2008:2961-2968.
[2] E Miltsakaki,L Robaldo,A Lee,et al.Sense Annotation in the Penn Discourse Treebank[C]//Proceedings of the Computational Linguistics and Intelligent Text Processing.Springer Berlin Heidelberg,2008:275-286.
[3] E Pitler,M Raghupathy,H Mehta,et al.Easily Identifiable Discourse Relations[R].Technical Reports(CIS),2008:87-90.
[4] E Pitler,A Louis,A Nenkova.Automatic Sense Prediction for Implicit Discourse Relations in Text[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP(ACL-AFNLP).2009,2:683-691.
[5] Z M Zhou,Y Xu,Z Y Niu,et al.Predicting Discourse Connectives for Implicit Discourse Relation Recognition[C]//Proceedings of the 23rd International Conference on Computational Linguistics(COLING).Posters,2010:1507-1514.
[6] Z H Lin,M Y Kan,H T Ng.Recognizing Implicit Discourse Relations in the Penn Discourse Treebank[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing(EMNLP).2009,1:343-351.
[7] W T Wang,J Su,C L Tan.Kernel Based Discourse Relation Recognition with Temporal Ordering Information[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics(ACL).2010:710-719.
[8] J Park,C Cardie.Improving Implicit Discourse Relation Recognition through Feature Set Optimization[C]//Proceedings of the 13th Annual Meeting of the Special Interest Group on Discourse and Dialogue(SIGDIAL).2012:108-112.
[9] X Wang,S J Li,J Li,et al.Implicit Discourse Relation Recognition by Selecting Typical Training Examples[C]//Proceedings of the 24th International Conference on Computational Linguistics(COLING).2012:2757-2772.
[10] A T Rutherford,N Xue.Discovering implicit discourse relations through brown cluster pair representation and coreference patterns[C]//Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics(EACL).2014:645-654.
[11] J J Li,M Carpuat,A Nenkova.Cross-lingual Discourse Relation Analysis:A corpus study and a semi-supervised classification system[C]//Proceedings of the 25th International Conference on Computational Linguistics(COLING).2014:577-587.
[12] I Mani,J P Zhang.KNN approach to unbalanced data distributions:a case study involving information extraction[C]//Proceedings of Workshop on Learning from Imbalanced Datasets.2003.
[13] X Y Liu,J Wu,Z H Zhou.Exploratory under-sampling for class-Imbalance learning[J].IEEE Transactions on Systems,Man,and Cybernetics,Part B(Cybernetics),2009,2(39):539-550.
[14] N V Chawla,K W Bowyer,L O Hall,et al.SMOTE:synthetic minority over-sampling technique[J].Journal of artificial intelligence research,2002:321-357.
[15] H Han,W Y Wang,B H Mao.Borderline-SMOTE:a new over-sampling method in imbalanced data sets learning[M].Advances in intelligent computing.Springer Berlin Heidelberg,2005:878-887.
[16] C Elkan.The foundations of cost-sensitive learning[C]//Proceedings of the International joint conference on artificial intelligence(IJCAI).Lawrence Erlbaum Association Ltd,2001,17(1):973-978.
[17] C Fillmore.Frame semantics[J].Linguistics in the morning calm,1982:111-137.
[18] Y Hong,X P Zhou,T T Che,et al.Cross-argument inference for implicit discourse relation recognition[C]//Proceedings of the 21st ACM International Conference on Information and Knowledge Management(CIKM).2012:295-304.
[19] C C Chang,C J Lin.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology(TIST),2001,2(3):389-396.