呂國(guó)英,蘇 娜,李 茹,2,王智強(qiáng)
(1. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2. 山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006)
基于CFN的漢語(yǔ)篇章連貫性研究
呂國(guó)英1,蘇 娜1,李 茹1,2,王智強(qiáng)1
(1. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2. 山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006)
篇章連貫性研究是篇章分析領(lǐng)域的重要課題之一?;贑hinese FrameNet(CFN),該文構(gòu)建了漢語(yǔ)篇章連貫性描述體系,該描述體系研究了框架語(yǔ)義與篇章單元的關(guān)系,探討了篇章如何通過(guò)框架與框架之間的語(yǔ)義關(guān)系實(shí)現(xiàn)篇章的連貫,為篇章連貫提供了合適的描寫機(jī)制和計(jì)算基礎(chǔ)。從《人民日?qǐng)?bào)》選取了160篇文章進(jìn)行標(biāo)注實(shí)踐,在篇章結(jié)構(gòu)和篇章關(guān)系兩方面均取得了大于0.8的kappa值,驗(yàn)證了描述體系具有較高的人工標(biāo)注一致性,可作為進(jìn)一步進(jìn)行大規(guī)模篇章標(biāo)注語(yǔ)料構(gòu)建的依據(jù)。
框架;篇章單元;篇章結(jié)構(gòu);篇章關(guān)系;kappa值
篇章連貫性是指篇章中所表達(dá)的各種概念和關(guān)系的彼此關(guān)聯(lián),從而使人們能夠合理推理篇章的深層意義[1]。它在自然語(yǔ)言處理的許多應(yīng)用領(lǐng)域都發(fā)揮了重要作用,如在統(tǒng)計(jì)機(jī)器翻譯(statistical machine translation,SMT)[2]領(lǐng)域,能夠通過(guò)修辭關(guān)系來(lái)提升SMT的性能;在自動(dòng)問(wèn)答系統(tǒng)(question answering,QA)[3]領(lǐng)域,篇章連貫性對(duì)于復(fù)雜的答案確定能起到很大作用。相比英語(yǔ),漢語(yǔ)的篇章連貫性研究工作仍然偏少,這主要是由于適用于漢語(yǔ)自身的篇章連貫性描述體系及其大規(guī)模篇章標(biāo)注語(yǔ)料庫(kù)的缺乏。
目前針對(duì)篇章的連貫性描述體系,從依賴的核心內(nèi)容來(lái)看主要有基于篇章關(guān)系的連貫性和基于話題鏈的連貫性等。在基于篇章關(guān)系的連貫性表示方面, 主要包括以修辭結(jié)構(gòu)理論(rhetorical structure theory,RST)[4]為理論基礎(chǔ)的英語(yǔ)篇章語(yǔ)料庫(kù)(RST discourse Treebank,RST-DT)[5]和以篇章詞匯化樹(shù)型鄰接語(yǔ)法(discourse lexicalized tree adjoining grammar,D-LTAG)[6]為理論基礎(chǔ)的賓州篇章樹(shù)庫(kù)(Penn discourse Treebank,PDTB)[7]。RST理論以篇章中的初級(jí)篇章單元(elemental discourse units,EDUs)為基本單位,依據(jù)篇章單元之間的修辭關(guān)系,自底向上組合形成了二叉或多叉的有層次修辭結(jié)構(gòu)樹(shù)。在國(guó)內(nèi),孫靜[8]等在RST體系上進(jìn)行了改良,構(gòu)建了中文的篇章語(yǔ)料庫(kù)。PDTB選擇篇章連接詞作為“謂詞”,通過(guò)分析連接詞所控制的論元來(lái)分析論元之間的關(guān)系。張牧宇[9]等在PDTB體系上進(jìn)行改良,提出了面向中文的層次化篇章關(guān)系體系,并對(duì)大規(guī)模的漢語(yǔ)新聞?wù)Z料進(jìn)行了篇章關(guān)系標(biāo)注實(shí)驗(yàn)。RST和PDTB因其具有完整的理論體系、很強(qiáng)的可操作性受到了篇章研究者的青睞,但是這種表示方式局限于篇章內(nèi)部的句子關(guān)系分析,忽略了句子內(nèi)部的分析,沒(méi)有考慮其他影響和支配篇章連貫的因素,如情境語(yǔ)境因素、心理認(rèn)知因素等。
在基于話題鏈的連貫性表示方面,周強(qiáng)[10]等認(rèn)為無(wú)論是漢語(yǔ)話題鏈理論研究,還是廣義話題結(jié)構(gòu)分析和實(shí)體鏈、事件鏈上的可計(jì)算性,都初步證明了話題鏈對(duì)篇章連貫性有很大意義。在此基礎(chǔ)上,他們形成了一套以話題鏈為主,融合關(guān)聯(lián)詞語(yǔ)和其他連貫形式的描述機(jī)制,重構(gòu)了現(xiàn)有的連貫關(guān)系描述集。話題鏈具有強(qiáng)大的篇章組織功能,通過(guò)話題之間的相互關(guān)系可以將篇章連接為一個(gè)完整的語(yǔ)義體,這種表示方式在一定程度上既反映了語(yǔ)義內(nèi)容,又反映了結(jié)構(gòu)信息。
隨著認(rèn)知語(yǔ)言學(xué)的迅速發(fā)展,人們開(kāi)始采用認(rèn)知框架的相關(guān)概念,構(gòu)建篇章連貫的認(rèn)知框架模型,來(lái)探索篇章連貫研究的新方法。李天賢[11]從對(duì)形式連貫的批評(píng)出發(fā),側(cè)重探討篇章連貫的認(rèn)知框架因素,考察了篇章語(yǔ)言單位所激活的概念之間的關(guān)系在實(shí)現(xiàn)篇章意圖中的認(rèn)知模式等。鑒于框架語(yǔ)義學(xué)能夠充分考慮篇章的背景知識(shí)、挖掘語(yǔ)言符號(hào)所蘊(yùn)含的語(yǔ)義信息的優(yōu)勢(shì),本文利用山西大學(xué)在Fillmore[12]提出的框架語(yǔ)義學(xué)理論基礎(chǔ)上構(gòu)建的漢語(yǔ)框架網(wǎng)(Chinese Framenet,簡(jiǎn)稱CFN)[13-14],將篇章連貫這個(gè)篇章語(yǔ)言學(xué)中的問(wèn)題轉(zhuǎn)化為一個(gè)可計(jì)算的篇章框架語(yǔ)義結(jié)構(gòu)樹(shù)分析問(wèn)題,建立了方便計(jì)算機(jī)實(shí)現(xiàn)的框架篇章連貫性描述體系。該體系從形式上實(shí)現(xiàn)了篇章語(yǔ)義一級(jí)表示,探討了篇章如何通過(guò)詞語(yǔ)激活框架,以及框架之間的語(yǔ)義關(guān)系,以此實(shí)現(xiàn)篇章的連貫,這既在一定程度上模擬了篇章的語(yǔ)義內(nèi)容,又具有可計(jì)算性。本文在第二節(jié)詳細(xì)闡述了漢語(yǔ)篇章連貫性描述體系;第三節(jié)在描述體系的基礎(chǔ)上進(jìn)行語(yǔ)料標(biāo)注實(shí)踐,并做標(biāo)注一致性檢驗(yàn);第四節(jié)總結(jié)全文,并展望未來(lái)研究工作。
篇章連貫可以從語(yǔ)言表層形式來(lái)體現(xiàn),更重要的則是表層語(yǔ)言形式背后的意義關(guān)系。從框架語(yǔ)義學(xué)角度出發(fā),假設(shè)語(yǔ)言符號(hào)是表達(dá)篇章意義的形式標(biāo)記,通過(guò)它們激活人腦中已存儲(chǔ)的框架,以及在框架語(yǔ)義關(guān)系基礎(chǔ)上形成的篇章框架語(yǔ)義結(jié)構(gòu),從而完成篇章的連貫。依據(jù)此假設(shè),本文將探討如何從形式上來(lái)表示連貫篇章的這種結(jié)構(gòu)形式,即探討什么是篇章的基本構(gòu)成單元、如何將這些基本構(gòu)成單元組合在一起構(gòu)成語(yǔ)義的整體,以及如何表示篇章的單元和篇章整體結(jié)構(gòu)。
2.1 篇章基本構(gòu)成單元與框架語(yǔ)義
篇章作為一個(gè)較復(fù)雜的語(yǔ)言單位,不同的學(xué)派對(duì)其定義也不盡相同。Kinneavy[15]認(rèn)為篇章不僅包括口語(yǔ)和書面語(yǔ)中合乎邏輯而相互關(guān)聯(lián)的內(nèi)容,而且還指為了解各種目的或事件所涉及的言語(yǔ)活動(dòng)。黃國(guó)文[16]則把篇章視為一系列連續(xù)的語(yǔ)段或句子構(gòu)成的語(yǔ)言整體。本文從框架語(yǔ)義學(xué)角度出發(fā),認(rèn)為篇章是框架的載體,篇章中的基本構(gòu)成單元至少對(duì)應(yīng)一個(gè)框架語(yǔ)義結(jié)構(gòu)。
定義2.1框架[13-14]
框架(frame,F(xiàn))提供詞語(yǔ)在語(yǔ)言中使用的背景和動(dòng)因,是人類在理解語(yǔ)言時(shí),儲(chǔ)存在人類認(rèn)知經(jīng)驗(yàn)中的圖式化場(chǎng)境,場(chǎng)景內(nèi)容可以是一個(gè)動(dòng)作、一個(gè)活動(dòng)事件,也可以是一個(gè)實(shí)體、抽象體的狀態(tài)。框架語(yǔ)義學(xué)將具有相同基本意義、支配相同類型語(yǔ)義角色的詞語(yǔ)歸入一個(gè)框架,比如“渴望”框架下的詞語(yǔ)有“渴望”“希望”“盼望”“向往”等,描述的是某個(gè)經(jīng)歷者渴望某個(gè)事件發(fā)生。這些詞語(yǔ)雖然意義不盡相同,但在表述“渴望”框架下的場(chǎng)景意義時(shí)卻是相同或相似的。
定義2.2框架元素[13-14]
框架元素(frame element,F(xiàn)E)是框架語(yǔ)義場(chǎng)景中涉及的語(yǔ)義參與者,如“渴望”框架下,涉及“經(jīng)歷者”“事件”“事件目的”等語(yǔ)義角色。
定義2.3目標(biāo)詞[13-14]
目標(biāo)詞(target,tgt)是指在一個(gè)具體的句子中能夠激起句子所描述框架語(yǔ)義場(chǎng)景的詞語(yǔ),本文所用到的目標(biāo)詞主要是指句子中的謂詞(主要包括動(dòng)詞和形容詞),同時(shí)也包含部分名詞。
框架語(yǔ)義學(xué)能夠在框架語(yǔ)義結(jié)構(gòu)與句子結(jié)構(gòu)之間建立起形式上的映射關(guān)系。形式上,每個(gè)框架對(duì)應(yīng)一個(gè)語(yǔ)義結(jié)構(gòu),反映框架內(nèi)部各框架元素之間的組合關(guān)系;每個(gè)句子對(duì)應(yīng)一個(gè)句法結(jié)構(gòu),反映句內(nèi)各成分之間的關(guān)系。通常情況下,一個(gè)框架語(yǔ)義結(jié)構(gòu)可以通過(guò)不同句法結(jié)構(gòu)形式的句子來(lái)表示。在語(yǔ)言學(xué)中,篇章的基本構(gòu)成單元是小句,大多數(shù)簡(jiǎn)單小句只能激起一個(gè)框架,但漢語(yǔ)真實(shí)文本的小句往往能激起多個(gè)框架。本文將框架與小句的映射關(guān)系具體形式化描述為:
C= {f1(tgt,FE1,FE2,…,FEn),…,
fm(tgt,FE1,FE2,…,FEn)}
其中,C是一個(gè)小句,fx(1≤x≤m)是小句激活的第x個(gè)框架,tgt是目標(biāo)詞,F(xiàn)Ex(1≤x≤n)是小句的某個(gè)句法成分充當(dāng)該框架下的第x個(gè)框架元素。例如, “他希望專家學(xué)者持續(xù)關(guān)注教育實(shí)踐活動(dòng)”是一個(gè)由一個(gè)小句構(gòu)成的句子,由目標(biāo)詞“希望”與“關(guān)注”激起的框架可表示為:S={渴望(tgt(希望),經(jīng)歷者(他),事件(專家學(xué)者持續(xù)關(guān)注教育實(shí)踐活動(dòng))),重視(tgt(關(guān)注),致動(dòng)者(專家學(xué)者),頻率(持續(xù)),考慮事項(xiàng)(教育實(shí)踐活動(dòng)))}。其中,“經(jīng)歷者”和“事件”是“渴望”框架下的兩個(gè)框架元素,“致動(dòng)者”“頻率”和“考慮事項(xiàng)”是“重視”框架下的三個(gè)框架元素。
由上可知,框架語(yǔ)義學(xué)中的框架是以語(yǔ)言符號(hào)為載體的語(yǔ)義系統(tǒng),通過(guò)句中的目標(biāo)詞和其攜帶的框架元素來(lái)表示語(yǔ)義場(chǎng)景,是人們體驗(yàn)和認(rèn)知客觀世界的基本單位。因此,本文將至少包含一個(gè)框架的小句作為篇章的基本構(gòu)成單元,這樣操作可以通過(guò)框架元素與句法成分之間的映射關(guān)系建立起篇章的局部結(jié)構(gòu)關(guān)系,這對(duì)于篇章連貫研究來(lái)說(shuō),可以提高篇章連貫結(jié)構(gòu)分析的計(jì)算模型的局部可操作性。
2.2 框架語(yǔ)義與篇章連貫性描述體系
包含框架的小句作為篇章的基本構(gòu)成單位,那么研究篇章連貫就是研究語(yǔ)言符號(hào)激活的框架所表示語(yǔ)義場(chǎng)景之間的相互語(yǔ)義關(guān)系,并通過(guò)構(gòu)建篇章框架的結(jié)構(gòu)來(lái)表示篇章的整體結(jié)構(gòu)。借鑒徐盛桓的篇章情景組合理論[17],可以將基本構(gòu)成單元形成篇章整體結(jié)構(gòu)的過(guò)程描述為: 篇章中較小的場(chǎng)景之間不斷通過(guò)語(yǔ)義關(guān)系合成稍大的上層語(yǔ)義場(chǎng)景,直至合成篇章最大的語(yǔ)義場(chǎng)景。其中,最小的語(yǔ)義場(chǎng)景是篇章中的小句激起的框架語(yǔ)義場(chǎng)景,每個(gè)合成的稍大場(chǎng)景都由下層較小的場(chǎng)景表示。
人們憑借過(guò)去的經(jīng)驗(yàn),發(fā)現(xiàn)兩個(gè)或多個(gè)框架經(jīng)常結(jié)合在一起,那么這些框架之間就會(huì)存在某種語(yǔ)義關(guān)系。結(jié)合2.1節(jié)框架與語(yǔ)言符號(hào)之間的關(guān)系,發(fā)現(xiàn)框架間的這種語(yǔ)義關(guān)系體現(xiàn)在語(yǔ)言符號(hào)上,與RST理論所探討篇章關(guān)系是相似的。如“造成傷害”框架與“身體感知”框架經(jīng)常結(jié)合在一起出現(xiàn)在人的大腦里,構(gòu)成因果關(guān)系。把這兩個(gè)框架所描述的場(chǎng)景轉(zhuǎn)換成語(yǔ)句時(shí),就會(huì)出現(xiàn)“他受傷了,傷口很痛”這樣的句子。句中“受傷”激起框架“造成傷害”,“痛”激起框架“身體感知”,在人的認(rèn)知中建立起“造成傷害”框架與“身體感知”框架這兩個(gè)場(chǎng)景的因果關(guān)系。同時(shí),在“造成傷害”框架下的其他詞語(yǔ),都能與“身體感知”框架下的詞語(yǔ)建立起因果關(guān)系。由此可知,框架之間的語(yǔ)義聯(lián)系即篇章關(guān)系,與句子之間的搭配是內(nèi)容與形式的關(guān)系。
由上可知,本文可以將框架語(yǔ)義學(xué)下的漢語(yǔ)篇章連貫性描述體系描述為: 一個(gè)篇章由與篇章內(nèi)容相關(guān)的框架集組合而成,其中較小的框架集描述的場(chǎng)景按照篇章關(guān)系組合形成更大的場(chǎng)景,并進(jìn)一步再與相鄰的框架集所描述的場(chǎng)景組合,最終形成一棵具有層次的篇章框架語(yǔ)義結(jié)構(gòu)樹(shù),描述一個(gè)完整的最大的語(yǔ)義場(chǎng)景,結(jié)構(gòu)樹(shù)中的葉子節(jié)點(diǎn)是篇章的基本構(gòu)成單元──包含框架的小句。由于連接詞對(duì)于判定場(chǎng)景間的篇章關(guān)系具有很強(qiáng)的作用,如出現(xiàn)“因?yàn)椤?,所以……”這樣的連詞時(shí),就可判定兩個(gè)場(chǎng)景之間是因果關(guān)系,因此本文將出現(xiàn)連接詞的篇章關(guān)系定義為顯式的,將沒(méi)有出現(xiàn)連接詞的篇章關(guān)系定義為隱式的[7]。
2.2.1 篇章單元的框架表示
針對(duì)漢語(yǔ)篇章由一系列句子構(gòu)成,每個(gè)句子由一系列小句構(gòu)成的特點(diǎn),在分析篇章關(guān)系時(shí),既包括句子之間的關(guān)系,也包括句子內(nèi)各小句的關(guān)系,本文將含一個(gè)段落的篇章(discourse,D)中的句子經(jīng)“,”、“: ”等分割的語(yǔ)義單元定義為初級(jí)篇章單元(primary discourse unit,PDU),一些初級(jí)篇章單元沒(méi)有能激起框架的目標(biāo)詞,也就是說(shuō)不能構(gòu)成篇章的基本構(gòu)成單元,因此將不具有框架的初級(jí)篇章單元與相鄰具有框架的初級(jí)篇章單元合并在一起構(gòu)成一級(jí)篇章單元(first discourse unit,F(xiàn)DU),其他含有框架的PDU直接向上構(gòu)成FDU;經(jīng)“?!?、“?”和“!”等分割的篇章單元定義為二級(jí)篇章單元(second discourse unit,SDU)。從形式上看,一個(gè)篇章由數(shù)個(gè)二級(jí)篇章單元連接構(gòu)成,二級(jí)篇章單元又由數(shù)個(gè)一級(jí)篇章單元連接而成,一級(jí)篇章單元至少對(duì)應(yīng)一個(gè)框架語(yǔ)義結(jié)構(gòu),也就是篇章的基本構(gòu)成單元──至少包含一個(gè)框架的小句。如例1所示,三個(gè)句子構(gòu)成一個(gè)篇章,篇章的每一級(jí)篇章單元都可以由框架進(jìn)行表示,“()”中內(nèi)容為初級(jí)篇章單元,“[]”中內(nèi)容為一級(jí)篇章單元,“{}”中內(nèi)容為二級(jí)篇章單元,斜體字是目標(biāo)詞,黑體字是目標(biāo)詞激起的框架。
例1{[(美國(guó)方面表示表達(dá))PDU1]FDU1,[(美國(guó)將與烏克蘭及歐洲盟友合作合作)PDU2]FDU2}SDU1。 {[(美國(guó)開(kāi)始著手準(zhǔn)備通過(guò)輸歐天然氣管道向?yàn)豕┨峁?PDU1]FDU1,[(以使烏方獲得獲得價(jià)格適中的天然氣)PDU2]FDU2}SDU2。 {[(此外)PDU1,(美國(guó)將采取緊急措施援助協(xié)助烏克蘭)PDU2]FDU1,[(包括包含立即向?yàn)跆峁┨峁┴?cái)政支持)PDU3]FDU2,[(在能源安全和能源改革領(lǐng)域向?yàn)跆峁┨峁┲С?PDU4]FDU3}SDU3。
上述篇章的篇章單元構(gòu)成情況可轉(zhuǎn)換為如圖1所示的篇章單元構(gòu)成圖(注: 圖中篇章單元進(jìn)行框架表示時(shí),由于框架元素較多,本文用…省略表示)。
圖1 篇章單元構(gòu)成圖
從例1和圖1中可以看出,在PDU層級(jí),從每個(gè)初級(jí)篇章單元中識(shí)別出—框架(目標(biāo)詞),其中第三個(gè)句子的“PDU1此外”沒(méi)有能激起框架的目標(biāo)詞,具體表示如下:
SDU1.PDU1={表達(dá)(tgt(表示),信息傳遞者(美國(guó)方面))}
SDU1.PDU2={合作(tgt(合作),合作者(參加座談的同志)),信息交流(tgt(交流),信息傳遞者(參加座談的同志))}
SDU2.PDU1={提供(tgt(供),接收者(烏),轉(zhuǎn)移體(氣),方法(通過(guò)輸歐天然氣管道))}
SDU2.PDU2={獲得(tgt(獲得),認(rèn)知者(各位專家學(xué)者),新觀點(diǎn)(思想觀點(diǎn)、意見(jiàn)建議))}
SDU3.PDU1=?
SDU3.PDU2={協(xié)助(tgt(援助),施助者(美國(guó)),受助者(烏克蘭),方法(緊急措施))}
SDU3.PDU3={包含(tgt(包括),部分(向?yàn)跆峁┴?cái)政支持)),提供(tgt(提供),接收者(烏),轉(zhuǎn)移體(財(cái)政支持))}
SDU3.PDU4={提供(tgt(提供),接收者(烏克蘭),轉(zhuǎn)移體(能源安全和能源改革領(lǐng)域的支持))}
在FDU層級(jí),SDU3下的PDU1沒(méi)有框架,與PDU2合并為FDU1,SDU下其他含有框架的PDU直接向上構(gòu)成FDU;在SDU層級(jí),SDU1包含F(xiàn)DU1和FDU2,SDU2包含F(xiàn)DU1和FDU2,SDU3包含F(xiàn)DU1、FDU2和FDU3;在D層級(jí),D包含三個(gè)SDU,分別是SDU1、SDU2、SDU3。本文主要分析研究一級(jí)篇章單元和二級(jí)篇章單元之間的語(yǔ)義關(guān)系及在其語(yǔ)義關(guān)系上的場(chǎng)景組合。
2.2.2 篇章框架語(yǔ)義結(jié)構(gòu)樹(shù)
在篇章單元的框架表示下,根據(jù)篇章單元激起的框架,通過(guò)框架關(guān)系建立不同語(yǔ)義場(chǎng)景之間的聯(lián)系,從最底層的一級(jí)篇章單元開(kāi)始,自下向上生成一個(gè)具有層級(jí)結(jié)構(gòu)的篇章框架語(yǔ)義結(jié)構(gòu)樹(shù),用三元組表示: Tree=(T(l,p),F(l,p),R,C)。 其中T(l,p)=(T1(l,m),T2(m+1,n),…,Tn(o,p))是n(ngt;0)個(gè)篇章單元范圍為l至q的篇章單元樹(shù),T1(l,m)表示第一個(gè)篇章單元的范圍為l至m,T2(m+1,k)表示第二個(gè)篇章單元的范圍為m+1至k,Tn(o,p)表示第n個(gè)篇章單元的范圍為o至p,F(xiàn)是篇章單元范圍為l至p的框架集合,F(xiàn)(l,p)={f1,f2,…,fq},q(qgt;0),R表示框架集之間的篇章關(guān)系類型,葉子節(jié)點(diǎn)是一級(jí)篇章單元,C表示連接詞,如果出現(xiàn)連接詞,用具體連接詞表示;如果未出現(xiàn)連接詞,用I(Implicit,I)表示。例1的篇章框架語(yǔ)義結(jié)構(gòu)樹(shù)如圖2所示。
如圖2所示,篇章框架語(yǔ)義結(jié)構(gòu)樹(shù)的構(gòu)建過(guò)程如下:
(1) SDU1.FDU1的“表示”激起“表達(dá)”框架,描述信息傳遞者表達(dá)他們的思想、感情或某種態(tài)度(內(nèi)容)的場(chǎng)景,SDU1.FDU2的“合作”激起的“合作”框架是信息傳遞者美國(guó)表達(dá)的內(nèi)容,它們之間構(gòu)成屬于關(guān)系,形成SDU1描述美國(guó)表達(dá)與烏克蘭及歐洲盟友合作的較大場(chǎng)景,在圖2中用T(SDU1.FDU1,SDU1.FDU2)=((SDU1.FDU1,SDU1.FDU2),F(SDU1.FDU1,SDU1.FDU2),屬于關(guān)系)節(jié)點(diǎn)來(lái)表示;
圖2 例1的篇章框架語(yǔ)義結(jié)構(gòu)樹(shù)
(2) SDU2.FDU1的“供”激起“提供”框架,描述供應(yīng)者為接收者提供轉(zhuǎn)移體,用以滿足接收者的需要或目的(接收目的)的場(chǎng)景,SDU2.FDU2的“獲得”激起“獲得”框架,是“提供”框架中接受者的目的——烏方獲得價(jià)格適中的天然氣,它們之間構(gòu)成目的關(guān)系,形成SDU2描述美國(guó)向?yàn)跆峁﹥r(jià)格適中天然氣的較大場(chǎng)景,在圖2中用T(SDU2.FDU1,SDU2.FDU2)=((SDU2.FDU1,SDU2.FDU2),F(SDU2.FDU1,SDU2.FDU3),顯式目的關(guān)系)節(jié)點(diǎn)來(lái)表示;
(3) SDU3.FDU2與SDU3.FDU3的“提供”都激起“提供”框架,SDU3.FDU2的“包括”激起框架“包含”,描述部分包含在整體中,部分指集合體的一部分或簡(jiǎn)單實(shí)體的一個(gè)組成部分的場(chǎng)景,預(yù)示著SDU3.FDU2與SDU3.FDU3的兩個(gè)“提供”框架是一個(gè)整體中的兩個(gè)部分,因此SDU3.FDU2與SDU3.FDU2構(gòu)成平列關(guān)系;SDU3.FDU1的“援助”激起“協(xié)助”框架,描述某施助者通過(guò)某種方法幫助受助者實(shí)現(xiàn)某個(gè)目標(biāo)來(lái)使受助者受益的場(chǎng)景,SDU3.FDU2與SDU3.FDU3的兩個(gè)“提供”框架是SDU3.FDU1的“協(xié)助”框架中施助者采用的兩個(gè)方法,他們之間構(gòu)成總分關(guān)系,形成SDU3具體描述美國(guó)通過(guò)財(cái)政支持和能源安全和能源改革領(lǐng)域支持援助烏克蘭的較大場(chǎng)景,在圖2中用T(SDU3.FDU1,SDU3.FDU3)=((SDU3.FDU1,T(SDU3.FDU2,SDU3.FDU3)),F(SDU3.FDU1,SDU3.FDU3),隱式總分關(guān)系)節(jié)點(diǎn)來(lái)表示;
(4) 在(1)、(2)、(3)一級(jí)篇章單元按照篇章關(guān)系形成的較大場(chǎng)景SDU上,繼續(xù)向上生成篇章結(jié)構(gòu)樹(shù),SDU1場(chǎng)景中的子場(chǎng)景“合作”激起“合作”框架,描述合作者一起從事某項(xiàng)工作的情景,SDU2與SDU3所描述的場(chǎng)景是美國(guó)與烏克蘭這兩個(gè)合作者一起從事的兩項(xiàng)工作,因此SDU2、SDU3之間構(gòu)成平列關(guān)系,SDU1與SDU2、SDU3之間構(gòu)成總分關(guān)系,形成本篇章最大的語(yǔ)義場(chǎng)景,反映在圖2中分別是T(SDU2,SDU3)=((T(SDU2.FDU1,SDU2.FDU3),T(SDU3.FDU1,SDU3.FDU3)),F(SDU2,SDU3),顯式平列關(guān)系)節(jié)點(diǎn)和T(SDU1,SDU3)=((T(SDU1.FDU1,SDU1.FDU2),T(SDU2,SDU3)),F(SDU1,SDU3),隱式總分關(guān)系)節(jié)點(diǎn)。
2.2.3 篇章關(guān)系
由上可知,框架之間的語(yǔ)義關(guān)系在篇章內(nèi)的表現(xiàn)與篇章關(guān)系是相似的,因此本文基于黃伯榮和廖序東的《現(xiàn)代漢語(yǔ)》中關(guān)于復(fù)句及句群之間關(guān)系分類體系[18],建立了三層級(jí)篇章關(guān)系結(jié)構(gòu),如表1所示。
表1 篇章關(guān)系集
在三層級(jí)篇章關(guān)系結(jié)構(gòu)中,第一層級(jí)沿用《現(xiàn)代漢語(yǔ)》根據(jù)篇章單元間意義是否平等將篇章關(guān)系劃分為聯(lián)合關(guān)系和偏正關(guān)系兩大類別。其中,聯(lián)合關(guān)系是指各篇章單元間意義平等,偏正關(guān)系是指各篇章單元間意義不平等。在第二層級(jí)篇章關(guān)系中, 聯(lián)合關(guān)系可分為并列關(guān)系、承接關(guān)系、遞進(jìn)關(guān)系、選擇關(guān)系、解說(shuō)關(guān)系。偏正關(guān)系可分為條件關(guān)系、假設(shè)關(guān)系、因果關(guān)系、目的關(guān)系、轉(zhuǎn)折關(guān)系、屬于關(guān)系。本文在傳統(tǒng)的偏正關(guān)系中加入屬于關(guān)系這一類別,屬于關(guān)系表示篇章的意圖及意圖的所有者的所屬關(guān)系。第三層級(jí)篇章關(guān)系, 根據(jù)前后篇章單元的功能繼續(xù)進(jìn)行細(xì)分。在篇章關(guān)系層級(jí)中,如果無(wú)法區(qū)分篇章單元之間的關(guān)系,將其歸入承接關(guān)系的連貫關(guān)系中。
3.1 標(biāo)注流程
為檢驗(yàn)篇章理論體系的人工標(biāo)注一致性,選擇《人民日?qǐng)?bào)》中160篇新聞體裁的篇章進(jìn)行了標(biāo)注實(shí)踐及研究。在標(biāo)注時(shí),只針對(duì)篇章結(jié)構(gòu)良好且包含較多框架的段落進(jìn)行標(biāo)注,并不進(jìn)行全文標(biāo)注。篇章中,最小的篇章只包含1個(gè)句子,最大的篇章包含5個(gè)句子,平均每個(gè)篇章有2.65個(gè)句子。標(biāo)注流程如圖3所示。
圖3 標(biāo)注流程圖
在確定語(yǔ)料的標(biāo)注格式后,篇章標(biāo)注的具體步驟如下:
(1) 將一個(gè)篇章進(jìn)行初步切分,切分出初級(jí)篇章單元和二級(jí)篇章單元。本文規(guī)定“,”“: ”等作為初級(jí)篇章單元的分隔符,“?!薄??”“!”等作為二級(jí)篇章單元的分隔符;
(2) 在初級(jí)篇章單元中,識(shí)別能激起框架的目標(biāo)詞并標(biāo)注框架名及框架元素,將沒(méi)有框架存在的初級(jí)篇章單元與后面相鄰的含有框架的初級(jí)篇章單元進(jìn)行合并,構(gòu)成一級(jí)篇章單元;
(3) 從一級(jí)篇章單元開(kāi)始,自底向上組合形成篇章框架語(yǔ)義結(jié)構(gòu)。在標(biāo)注篇章關(guān)系時(shí),根據(jù)具有關(guān)聯(lián)的篇章單元之間是否有連接詞,先標(biāo)記其顯隱式,再確定它們具體的篇章關(guān)系類型。
3.2 一致性檢驗(yàn)
3.2.1 標(biāo)注設(shè)置
本次標(biāo)注的語(yǔ)料數(shù)據(jù)集在經(jīng)過(guò)初步切分并標(biāo)注了目標(biāo)詞激起框架的基礎(chǔ)上,三名均具有篇章關(guān)系研究經(jīng)歷的標(biāo)注人員執(zhí)行了篇章框架語(yǔ)義結(jié)構(gòu)生成及篇章關(guān)系識(shí)別的標(biāo)注任務(wù)。本文采用標(biāo)準(zhǔn)kappa 值[19]計(jì)算多名標(biāo)注人員的標(biāo)注一致性,并統(tǒng)計(jì)了多名標(biāo)注者之間結(jié)果完全相同的實(shí)例數(shù)目,如式(1)所示。
式中:P(A)表示多名標(biāo)注者評(píng)定一致的百分比,P(E)表示理論上評(píng)定一致的百分比。
3.2.2 標(biāo)注分析
(1) 標(biāo)注基本情況
在本語(yǔ)料庫(kù)中,初級(jí)篇章單元和二級(jí)篇章單元按照標(biāo)點(diǎn)符號(hào)進(jìn)行切割,篇章中的目標(biāo)詞及目標(biāo)詞所激起的框架是確定的,初級(jí)篇章單元合并后生成的一級(jí)篇章單元是確定的,因此標(biāo)注者在這三個(gè)方面的標(biāo)注幾乎沒(méi)有差異,但是他們形成的篇章框架語(yǔ)義結(jié)構(gòu)及篇章單元之間的篇章關(guān)系,卻會(huì)因?yàn)椴煌睦斫舛a(chǎn)生標(biāo)注差異。本文總共標(biāo)注了 1 241個(gè)目標(biāo)詞,其中968個(gè)目標(biāo)詞能在CFN框架中找到框架,所占比例為78%,涉及的框架總數(shù)共有154個(gè)。篇章標(biāo)注基本情況如表2所示,由表2可以看出,在160個(gè)篇章中,共有1 138個(gè)初級(jí)篇章單元,1 033個(gè)一級(jí)篇章單元,445個(gè)二級(jí)篇章單元。三名標(biāo)注人員在標(biāo)注的關(guān)系總數(shù)方面分別是779、785、783。
隨機(jī)抽取一名標(biāo)注人員的標(biāo)注數(shù)據(jù)進(jìn)行統(tǒng)計(jì),得到了如圖4和圖5所示的結(jié)果。
表2 篇章標(biāo)注基本情況
圖4 一級(jí)篇章單元篇章關(guān)系分布圖
圖5 二級(jí)篇章單元篇章關(guān)系分布圖
從圖5~6可以看出,在160個(gè)篇章中,篇章關(guān)系的分布呈現(xiàn)不均勻的狀況。在一級(jí)篇章單元篇章關(guān)系分布中,并列關(guān)系(LB)、承接關(guān)系(LS)、因果關(guān)系(PY)、屬于關(guān)系(AT)所占比例較大;在二級(jí)篇章單元篇章關(guān)系分布中,并列關(guān)系(LB)、承接關(guān)系(LS)、解說(shuō)關(guān)系(LJ)、因果關(guān)系(PY)、目的關(guān)系(PZ)所占比例較大,選擇關(guān)系(LX)、條件關(guān)系(PT)、假設(shè)關(guān)系(PJ)、目的關(guān)系(PM)、屬于關(guān)系(AT)所占比例為0。
(2) 篇章層次結(jié)構(gòu)的一致性
在確定了各級(jí)篇章單元之后,本文計(jì)算了各個(gè)標(biāo)注者之間的篇章標(biāo)注層次結(jié)構(gòu)的一致性。由于本文只考慮相鄰兩個(gè)篇章單元之間是否具有篇章關(guān)系,因此當(dāng)相鄰數(shù)個(gè)篇章單元發(fā)生關(guān)系時(shí),從左向右依次將相鄰兩個(gè)篇章單元組合,來(lái)考慮它們之間的篇章結(jié)構(gòu)一致性。在計(jì)算篇章層次結(jié)構(gòu)的一致性時(shí),本文參考了Marcu (1999)等人開(kāi)發(fā)的方法[20],下面結(jié)合例2來(lái)介紹操作過(guò)程。
例2[(因?yàn)槎?dāng)?shù)卣Z(yǔ)言)PDU1]FDU1,[(所以主要由我負(fù)責(zé)對(duì)外溝通和會(huì)談)PDU2]FDU2,[(由此認(rèn)識(shí)許多比利時(shí)主流社會(huì)朋友)PDU3,[(并積累不少工作經(jīng)驗(yàn))PDU2]FDU2]FDU3。
在本例中,有4個(gè)一級(jí)篇章單元,經(jīng)兩名標(biāo)注人員標(biāo)注后形成的層級(jí)結(jié)構(gòu)如圖6所示。
圖6 標(biāo)注者標(biāo)注情況
將例2中四個(gè)一級(jí)篇章單元之間可能發(fā)生篇章關(guān)系的篇章單元對(duì)映射到篇章單元層次中。如表3所示,每一組具有篇章關(guān)系的篇章單元對(duì)可以用R([i,m],[m+1,j])來(lái)表示, 其中R表示篇章單元對(duì)具有的篇章關(guān)系,[i,m]表示篇章單元對(duì)中第一個(gè)篇章單元的范圍為i至m,[m+1,j]表示篇章單元對(duì)中第二個(gè)篇章單元的范圍為m+1至j。 針對(duì)每一組篇章單元對(duì),如果標(biāo)注者認(rèn)為它們之間具有篇章關(guān)系則標(biāo)注為Y,不具有篇章關(guān)系則標(biāo)注為N。如果多個(gè)篇章單元之間具有關(guān)系,則將其分解成依次相鄰兩個(gè)篇章單元具有關(guān)系,如R([i,m],[m+1,j],[j+1,k]),可分解為R([i,m],[m+1,j])和R([m+1,j],[j+1,k]),根據(jù)表3列出的篇章單元對(duì),將標(biāo)注者A和標(biāo)注者B的標(biāo)注情況(見(jiàn)圖6)映射到表3中。
依據(jù)表3的情況,對(duì)標(biāo)注者之間的層次結(jié)構(gòu)一致性進(jìn)行kappa計(jì)算,結(jié)果如表4所示,三個(gè)標(biāo)注者分別記為A、B和C。從表4的結(jié)果中可看出,在一級(jí)篇章單元的層次結(jié)構(gòu)、二級(jí)篇章單元的層次結(jié)構(gòu)及整體的層次結(jié)構(gòu)方面,A與B的kappa值都是最高,均大于0.9;三名標(biāo)注者之間的kappa值也均大于0.9,說(shuō)明三名標(biāo)注者在層次結(jié)構(gòu)方面的一致性較好;二級(jí)篇章單元的層次結(jié)構(gòu)的kappa值小于一級(jí)篇章單元的層次結(jié)構(gòu)kappa值,說(shuō)明篇章單元范圍越大,越容易產(chǎn)生層次結(jié)構(gòu)不一致的現(xiàn)象。
表3 標(biāo)注者標(biāo)注示例
表4 篇章結(jié)構(gòu)一致性
(3) 篇章關(guān)系的一致性
在篇章結(jié)構(gòu)一致的基礎(chǔ)上,分別驗(yàn)證了標(biāo)注人員在一級(jí)篇章單元、 二級(jí)篇章單元和整體的篇章關(guān)系方面細(xì)化至第三層關(guān)系的一致性,結(jié)果如表5所示。
表5 篇章關(guān)系一致性
從表5可以看出: 三個(gè)標(biāo)注者在一級(jí)篇章單元、二級(jí)篇章單元及篇章整體關(guān)系方面的kappa值分別為0.897、0.829、0.874,說(shuō)明標(biāo)注者在篇章關(guān)系方面的一致性較好;二級(jí)篇章單元之間的篇章關(guān)系Kappa值小于一級(jí)篇章單元之間的篇章關(guān)系Kappa值,說(shuō)明篇章單元范圍越大,越容易產(chǎn)生不一致;在篇章關(guān)系種類方面,由于二級(jí)篇章單元的選擇關(guān)系、條件關(guān)系、假設(shè)關(guān)系、目的關(guān)系、屬于關(guān)系的實(shí)例數(shù)目很少,導(dǎo)致標(biāo)注者在這幾類關(guān)系方面的相同數(shù)目為0,說(shuō)明一級(jí)篇章單元和二級(jí)篇章單元之間的關(guān)系類型分布具有一定的差異。
通過(guò)以上對(duì)篇章進(jìn)行kappa計(jì)算可知: ①標(biāo)注人員在篇章結(jié)構(gòu)及篇章關(guān)系等方面的一致性都較好,標(biāo)注質(zhì)量穩(wěn)定可靠,可以繼續(xù)后續(xù)的標(biāo)注工作; ②不論篇章結(jié)構(gòu),還是篇章關(guān)系,二級(jí)篇章單元之間的kappa值均小于一級(jí)篇章單元之間的kappa,說(shuō)明隨著篇章單元的范圍擴(kuò)大,標(biāo)注者之間產(chǎn)生的差異性隨之?dāng)U大。
本描述體系以框架概念為基礎(chǔ),探討了篇章連貫的框架表示模型,把篇章連貫這個(gè)篇章語(yǔ)言學(xué)問(wèn)題轉(zhuǎn)化為一個(gè)可計(jì)算的篇章框架語(yǔ)義結(jié)構(gòu)樹(shù)分析問(wèn)題,構(gòu)建了基于框架的篇章連貫性描述體系。描述體系中的篇章框架語(yǔ)義結(jié)構(gòu)樹(shù)的框架含有較多的語(yǔ)義信息,既在一定程度上模擬了篇章的語(yǔ)義內(nèi)容,又具有可計(jì)算性。在此基礎(chǔ)上,選用人民日?qǐng)?bào)的新聞?wù)Z料作為原始的標(biāo)注語(yǔ)料,并采用kappa值來(lái)檢驗(yàn)人工標(biāo)注的一致性。較高的檢驗(yàn)結(jié)果kappa值驗(yàn)證了篇章框架語(yǔ)義連貫性描述體系能夠作為漢語(yǔ)篇章語(yǔ)料標(biāo)注的依據(jù),未來(lái)將依據(jù)篇章描述體系針對(duì)不同領(lǐng)域構(gòu)建一定規(guī)模的篇章標(biāo)注語(yǔ)料,同時(shí)依據(jù)真實(shí)篇章標(biāo)注數(shù)據(jù)開(kāi)展篇章關(guān)系及篇章結(jié)構(gòu)的自動(dòng)識(shí)別工作。
[1] Crystal D.The Cambridge encyclopedia of language [M]. Cambridge: Cambridge University Press, 1987.
[2] Mitkov R. How could rhetorical relations be used in machine translation (and at least two open questions)? [C]//Proceedings of ACL Workshop on intentionality and structure in discourse relations. Morristown: A-ssociation for Computational Linguistics, 1993: 86-89.
[3] Santhosh S. Discourse based advancement on question answering system [J]. International Journal on Soft Computing, 2012: 11.
[4] Mann W C, Thompson S A. Rhetorical structure theory: toward a foundational theory of text organization [J]. Text, 1988,8(3): 243-281.
[5] Carlson L, Marcu D. Building a discourse-tagged corpus in the framework of rhetorical structure theory [C]//Proceedings of the Second SIGdial Workshop on Discourse and Dialogue, 2001.
[6] Forbes K, Mihsakaki E, Prasad R, et al. D-LTAG System: Discourse parsing with a lexicalized treeadjoining grammar [J]. Journal of Logic, Language and Information, 2001, 12(3):261-279.
[7] PDTB Research Group. The Penn discourse treebank 2.0 annotation manual [R]. Philadelphia: University of Pennsylvania, 2008.
[8] 孫靜,李艷翠,周圍棟,等. 漢語(yǔ)隱式篇章關(guān)系識(shí)別[J]. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,50(1):111-117.
[9] 張牧宇,秦兵,劉挺. 中文篇章級(jí)句間語(yǔ)義關(guān)系體系及標(biāo)注[J]. 中文信息學(xué)報(bào),2014,28(2):28-36.
[10] 周強(qiáng),周驍聰. 基于話題鏈的漢語(yǔ)語(yǔ)篇連貫性描述體系[J].中文信息學(xué)報(bào),2014,28(5):102-110.
[11] 李天賢.認(rèn)知框架視角下的語(yǔ)篇連貫研究[D]. 浙江大學(xué)博士學(xué)位論文. 2012.
[12] Fillmore C J. Frame semantics [M]//Linguistics in the Morning Calm, the Linguistic Society of Korea, Seoul: Hanshin. 1982:111-137.
[13] 李茹.漢語(yǔ)句子框架語(yǔ)義結(jié)構(gòu)分析技術(shù)研究[D]. 山西大學(xué)博士學(xué)位論文. 2012.
[14] 郝曉燕,劉偉,李茹,等. 漢語(yǔ)框架語(yǔ)義知識(shí)庫(kù)及軟件描述體系[J]. 中文信息學(xué)報(bào), 2007, 21(5): 96-100.
[15] Kinneavy J L. A Theory of discourse: the aim of discourse [M]. Englewood Cliffs, NJ: Prentice-Hall International, 1971.
[16] 黃國(guó)文. 語(yǔ)篇分析概要[M]. 長(zhǎng)沙: 湖南教育出版社, 1988.
[17] 徐盛桓. 篇章:情景的組合[J]. 外國(guó)語(yǔ)(上海外國(guó)語(yǔ)大學(xué)學(xué)報(bào)), 1990, 6:3-13.
[18] 黃伯榮,廖序東. 現(xiàn)代漢語(yǔ)[M]. 北京: 高等教育出版社, 2011.
[19] 欒建安,王紀(jì)憲,蘇炳華,等. 多類別多評(píng)估者的kappa分析[J]. 中國(guó)衛(wèi)生統(tǒng)計(jì),1995,12(6):20-22.
[20] Daniel M, Estibaliz A, Magdelena R. Experiments in constructing a corpus of discourse trees [C]//Proceedings of the ACL Workshop on Standards and Tools for Discourse Tagging, College Park MD, 1999: 48-57.
呂國(guó)英(1964—),碩士,副教授,碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。
E-mail: english@sxu.edu.cn
蘇娜(1989—),碩士研究生,主要研究領(lǐng)域?yàn)橹形男畔⑻幚怼?/p>
E-mail: 374286185@qq.com
李茹(1963—),博士,教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。
E-mail: lim@sxu.edu.cn
AStudyonChineseDiscourseCoherenceBasedonCFN
LV Guoying1,SU Na1, LI Ru1,2,WANG Zhiqiang1
(1. School of Computer amp; Information Technology, Shanxi University, Taiyuan, Shanxi 030006, China; 2. Key Laboratory of Computation Intelligence and Chinese Information Processing of Ministry of Education, Shanxi University, Taiyuan, Shanxi 030006, China)
The research on discourse coherence is an important issue in discourse analysis. Based on Chinese FrameNet(CFN), this paper presents a coherence description scheme for Chinese discourse. It establishes the relationship between the frames and discourse units, and discusses the ways to achieve the discourse coherence by the frames and semantic relationships between frames. This provides a description mechanism and computation basis for discourse coherence. Annotations of 160 articles are selected from the People's Daily shows a more than 0.8 kappa value in both discourse structure annotation and discourse relation annotation. This proves that the proposed scheme guarantee a high consistent manual annotation, which is crucial to larger-scale discourse annotating.
frame; discourse unit; discourse structure; discourse relation; kappa value
1003-0077(2017)05-0040-10
TP391
A
2015-11-01定稿日期2016-07-25
國(guó)家863計(jì)劃(2015AA015407);國(guó)家自然科學(xué)基金(61373082);山西省回國(guó)留學(xué)人員科研資助項(xiàng)目(2013-015);山西省科技基礎(chǔ)條件平臺(tái)建設(shè)項(xiàng)目(2014091004-0103);中國(guó)民航大學(xué)信息安全測(cè)評(píng)中心開(kāi)放課題基金(CAAC-ISECCA-201402)