譚偉志,廖 濤,方賢進
(安徽理工大學(xué) 計算機科學(xué)與工程學(xué)院,安徽 淮南,232001)
文本表示[1]是自然語言研究領(lǐng)域的基礎(chǔ)問題,它的作用是把我們平時接觸的文本信息轉(zhuǎn)化為能夠用數(shù)學(xué)的方法計算的,便于計算機處理的格式。文本表示的基本要求有兩點:一是最后得到的表示形式可以表示出文本的大致內(nèi)容、結(jié)構(gòu)和主題等,盡量減少信息流失;二是表示后的文本應(yīng)便于自然語言處理的相關(guān)應(yīng)用。在文本表示的研究中,特征項是不可或缺的,傳統(tǒng)的模型一般采用詞作為特征項,其包含的語義信息較少,經(jīng)過處理后的文本會造成語義的缺失,不能夠很好的表達文本信息。
事件[2]這一概念最早來自于認知科學(xué),后來被廣泛應(yīng)用于語言學(xué),人工智能等方面的研究。近年來,隨著事件的研究在計算語言學(xué)、自動文摘、文本分類以及自然語言處理等領(lǐng)域取得了不錯的成果,對于事件的研究已經(jīng)成為熱點并越發(fā)受到學(xué)術(shù)界的重視,其中將事件作為特征來進行文本表示的研究便是熱門方向之一。事件作為一種語義單元,它比概念的粒度要大,是人類知識的基本單元,對于幫助我們理解和記憶文本有著至關(guān)重要的作用。因此,考慮將事件作為研究對象,用事件中的觸發(fā)詞代替事件作為特征項,然后在傳統(tǒng)事件研究的基礎(chǔ)上,深入挖掘事件之間的語義關(guān)聯(lián),并以此為基礎(chǔ)把特征項連接起來作為邊,最終構(gòu)造出一種新的文本表示模型-事件語義網(wǎng)絡(luò)。
網(wǎng)絡(luò)上各種信息急劇增長,而作為信息的載體,針對文本的研究一直都是熱門方向,文本表示便是其中之一。傳統(tǒng)的文本表示模型主要的有:詞袋模型、布爾邏輯模型、基于統(tǒng)計的向量空間模型(vector space model,VSM)。
詞袋模型[3](bag of words,BOW)的構(gòu)造很簡單,它把文檔表示為詞語即特征項的集合,顯而易見這種做法忽略了詞語在文本中語義關(guān)聯(lián),不能很好地保留文本信息。但是由于詞袋模型構(gòu)建較為簡單,一般被用來當做文本表示的預(yù)處理步驟。
布爾模型[4](boolean model)的思想是將文本轉(zhuǎn)化為特征項的集合,然后特征項通過布爾組合構(gòu)成查詢式,最后對文檔進行匹配。其優(yōu)點在于查詢過程簡單,易于理解,但特征項匹配的結(jié)果只有是或否,不能反映出語義信息和在文本中的重要程度。
VSM 是目前使用最廣泛的效果較好的文本表示方法。它通過計算tf-idf[5]值為每個特征項賦予一個實值并記為其權(quán)重,特征項和它的權(quán)重集合就構(gòu)成了向量空間模型。其優(yōu)點在于通過簡單的統(tǒng)計詞頻就可以一定程度地表示文本的信息,但是每一個特征項單獨代表一個語義單元,忽視了特征項在文本中的聯(lián)系。
上面提到的幾個模型雖然都能夠?qū)⑽谋巨D(zhuǎn)化為形式化的結(jié)構(gòu),但是在處理過程中均忽視了詞語在文本中的的聯(lián)系,丟失了文本的結(jié)構(gòu)和語義信息。從文本表示的理想結(jié)果的角度來看,這些模型是有待改進的。圖結(jié)構(gòu)模型的提出,有效地解決了這一不足,成為近年來文本表示研究領(lǐng)域較為熱門的研究方向。Yang[6]等從單詞級別,雙字母組級別和三字母組級別三個角度計算句子之間的相似度值,為每個文檔獲得了三種語義圖,并通過樸素的貝葉斯方式將其集成到一個豐富的語義圖中,最后使用TextRank 算法對句子進行排名。數(shù)據(jù)集分析結(jié)果表明該方法能夠取得很好的摘要效果。Papadakis 等[7]將每個文檔轉(zhuǎn)換為一個圖,使用圖相似性將文檔定位和分類到向量空間中,在文本分類取得了很好的應(yīng)用效果。El-Kassas[8]等提出了一種新穎的基于提取圖的框架“Edge-Summ”。該框架從輸入文檔構(gòu)造一個新的文本圖形模型表示,并通過三種算法篩選出最重要的句子用于單個文檔的自動摘要,效果比同類方法有明顯提升。
隨著事件研究的發(fā)展,有些學(xué)者開始考慮以事件作為文本特征項,單建芳[9]提出用事件網(wǎng)絡(luò)來進行文本表示。把事件做為特征項,特征項的關(guān)系做為邊構(gòu)建事件網(wǎng)絡(luò),采用不同類型的文本進行實驗和分析,結(jié)果表明該模型能夠取得很好的效果。孫佩佩[10]和孫月偉[11]把事件要素做為特征項進行研究,前者認為屬于同一事件的特征項具有關(guān)系,并以此構(gòu)造無向圖,然后通過改進后的圖排序算法計算節(jié)點權(quán)值進行自動文摘,摘要效果有所改進;后者針對特征項缺失進行研究,提出方法對其補充后在此基礎(chǔ)上使用共現(xiàn)規(guī)則構(gòu)造事件要素網(wǎng)絡(luò),實驗證明該方法在自動摘要有著很好的效果。
傳統(tǒng)的圖結(jié)構(gòu)模型[12]大多采用單獨的詞語作為特征項,根據(jù)詞語在文本中的共現(xiàn)規(guī)則構(gòu)造邊,特征項的選擇和邊的構(gòu)建都較為簡單,所保留的文本信息相對有限。針對以上不足之處,本文從圖結(jié)構(gòu)的思想出發(fā),把事件作為研究對象,用事件觸發(fā)詞代替事件作為特征項。并使用多種方法對事件之間存在的語義關(guān)聯(lián)進行了深入研究,給出了事件相關(guān)度的定義,然后以此為基礎(chǔ)構(gòu)造邊,最終建立了事件語義網(wǎng)絡(luò)模型對文本進行表示。
不同的領(lǐng)域?qū)κ录兄灰粯拥亩x,在文本表示的研究應(yīng)用方面,事件在形式上被定義為由六個元素組成的六元組[13]:
式中的每一個字母代表一個事件要素,按照順序依次對應(yīng)動作要素、對象要素、時間要素、環(huán)境要素、斷言和語言表現(xiàn)。其中事件的動作要素作為判斷事件是否發(fā)生的依據(jù),最能夠?qū)κ录M行標識,又被稱為事件的觸發(fā)詞。在事件六元組的基礎(chǔ)上,劉宗田等人[14]提出一種算法計算事件之間的相似度。其思想是計算事件元素之間的相似關(guān)系為其賦值,通過加權(quán)公式得到的結(jié)果判斷事件是否相似。使用該方法構(gòu)造文本表示模型,雖然一定程度上能夠保留文本特征項在原文中的語義關(guān)聯(lián),但是由于其計算方法比較剛性,得到的結(jié)果只有是與否,且并沒有考慮到事件在文中的順序關(guān)系。為了解決此不足,進一步加強特征項的語義關(guān)聯(lián),本文提出事件相關(guān)度的定義。
事件相關(guān)度的計算同樣建立在事件六元組的基礎(chǔ)上,本文選用時間要素,環(huán)境要素,動作要素以及對象要素進行計算,這四個要素在文本中容易獲得并且能夠充分概括文本的語義信息。使用公式(1)計算兩個事件em和en的相關(guān)度R(em,en)。
其中:r(ami,ani)為單個事件要素的相關(guān)度,對于不同的事件要素,充分考慮事件在文本結(jié)構(gòu)和語義信息上的關(guān)聯(lián),采用不同的方法計算其在文中的關(guān)聯(lián)程度。
研究發(fā)現(xiàn),文本敘述在時間和地點上通常具有連續(xù)性,針對這一特點,將語料庫中的這兩種要素提取出來,將不同的時間要素和地點要素作為節(jié)點劃分出時間段和地點區(qū)間,對于處于同一時間段以及地點區(qū)間的事件,其時間和地點要素的相關(guān)度記為r(amT,anT)=1。
對象要素在語料庫中的缺失情況如表1。
表1 對象要素缺失統(tǒng)計
如表1,CEC 語料庫中對象要素缺失率為11%,針對這一問題,廖濤[15]提出了補全方法,但本文目的并不在于補全,而是判斷事件對象之間有無關(guān)聯(lián),相對來說更加簡單。因此根據(jù)本文的需求,對其優(yōu)化后使用基于上下文結(jié)構(gòu)的規(guī)則補全對象要素:對于處于同一句子的事件,若有事件缺失對象要素,則由上一個事件的對象要素補全。以此類推,若位于句首的事件缺失,則向下尋找補全。此外,對極少數(shù)全句缺失對象要素的句子統(tǒng)計后發(fā)現(xiàn),這類句子基本只包含單個事件,且?guī)в幸欢ǖ母攀鲂再|(zhì)。例如:“北京時間五月十二日十四時二十八分,四川汶川縣發(fā)生七點八級地震”和“6 月17 日16 時40 分,某高速公路段發(fā)生一起交通事故”,針對這類特殊句子,其對象要素由全段所有事件補全。
補全后,若事件em和en具有相同的對象要素,則記其相關(guān)度為r(amO,anO)=1,若不同但其在文中的句子距離不大于3 則r(amO,anO)=0.5,反之為0。
事件動作要素包含的信息較大,考慮到其與其他事件要素之間的關(guān)聯(lián),本文以知網(wǎng)劉群[16]的計算詞語相關(guān)度的方法為基礎(chǔ),綜合計算事件動作要素與其他要素的詞語相關(guān)度。單就詞語而言,動作要素與時間和地點要素的關(guān)聯(lián)并不明確,因此本文只計算兩個事件動作要素以及動作與對象要素的關(guān)聯(lián)度分別記為r1,r2,r3,最后輸出的結(jié)果記為r(amA,anA)=(r1+r2+r3)/3。
wi是基于每個要素對事件的語義表達能力給予的權(quán)重。根據(jù)各個要素對事件的概括程度并結(jié)合實驗數(shù)據(jù)調(diào)整后分別設(shè)置為:w1=w2=w3=0.2,w4=0.4。當事件相關(guān)度R(em,en)≥0.65 時,則認為em和en在語義上相關(guān)。
本研究所用的語料庫為CEC[17](Chinese emergency corpus),CEC 語料庫采用XML 語言對文本中的事件以及要素進行標注,文本主要來源于網(wǎng)絡(luò)上的新聞文本,共300 多篇,其中根據(jù)事件的不同類別分為地震,火災(zāi),交通事故,恐怖襲擊,食物中毒5 類。
事件語義網(wǎng)絡(luò)建立在事件和圖模型的基礎(chǔ)上,選擇動作要素作為特征項,每一個特征項對應(yīng)一個事件,其構(gòu)成主要包括三個部分:
(?。┕?jié)點集合D。D={d1,d2,…,di,…,dn},其中每個節(jié)點代表一個特征項。
(ⅱ)邊的集合S。S={Sij|i,j=1,2,…,n},任意一條無向邊Sij對應(yīng)著其兩端的節(jié)點di,dj在文本中對應(yīng)的事件之間的關(guān)系。
(ⅲ)節(jié)點的權(quán)重集合W。W={W1,W2,…,Wn},代表著節(jié)點在圖中的所占的權(quán)重。
首先,對目標文本t,把需要用到的事件及其要素抽取出來,然后將t 表示為觸發(fā)詞集合Et={e1,e2,……},然后以此為基礎(chǔ)構(gòu)建事件語義網(wǎng)絡(luò),具體步驟如下:
(?。┏跏蓟?jié)點,邊和節(jié)點權(quán)重三個集合:Dt=St=Wt=?;
(ⅱ)將Et轉(zhuǎn)化為事件語義網(wǎng)絡(luò)中的節(jié)點集合Dt,對于相同的觸發(fā)詞,把它們合并到第一個出現(xiàn)的觸發(fā)詞上去;
(ⅲ)從Dt中隨機抽取兩個節(jié)點di、dj,用上面事件相關(guān)度的定義對其對應(yīng)的事件進行計算,若最后輸出的結(jié)果為兩個事件是相關(guān)的,那么把di和dj用一條無向邊Sij連接起來。
(ⅳ)重復(fù)步驟(3)得到無向邊的集合St;
(ⅴ)上述步驟結(jié)束后,由節(jié)點和無向邊組成的事件語義網(wǎng)絡(luò)已經(jīng)構(gòu)建完成,最后統(tǒng)計出節(jié)點的權(quán)重集合Wt。
從CEC 語料庫中隨機選取一篇地震類新聞文本進行實驗,該文本t 包含12 個自然段,22 個句子,使用事件語義網(wǎng)絡(luò)的構(gòu)建方法對其進行處理后將其輸入到NetDraw 軟件繪制成圖,最后得到的事件語義網(wǎng)絡(luò)如圖1。如圖1,最終得到的圖包括39 個節(jié)點,96 條無向邊。通過觀察每個特征項的信息以及互相之間的連接情況,不難發(fā)現(xiàn)事件語義網(wǎng)絡(luò)不僅能夠保留特征項所攜帶的信息,節(jié)點之間的邊還能夠反映出特征項之間存在的語義關(guān)系以及文本的結(jié)構(gòu)信息。同時節(jié)點所連接的無向邊越多,權(quán)重就越大,也能夠體現(xiàn)出對應(yīng)的特征項在原文中的重要程度。對實現(xiàn)文本的知識理解有很好的效果。
圖1 文本t 的事件語義網(wǎng)絡(luò)圖
對于事件語義網(wǎng)絡(luò)的應(yīng)用,本文選擇在單文本主題自動摘要方面進行實驗。事件語義網(wǎng)絡(luò)最終得到的結(jié)果是由節(jié)點和邊構(gòu)成的無向圖結(jié)構(gòu),在進行摘要的應(yīng)用時關(guān)鍵在于計算圖中節(jié)點的重要度。經(jīng)典的PageRank[18]算法最初是用于計算網(wǎng)頁的排名,其思想和圖結(jié)構(gòu)有著一些聯(lián)系,網(wǎng)頁可以看作圖結(jié)構(gòu)中的節(jié)點,而網(wǎng)頁的鏈接則對應(yīng)著圖結(jié)構(gòu)中節(jié)點的連接,也就是邊。與本文不同的是其網(wǎng)頁之間的鏈接是有向的,而事件語義網(wǎng)絡(luò)是無向圖;PageRank 算法一開始要給所有網(wǎng)頁賦予一個初始值通過迭代運算得到最終結(jié)果,而事件語義網(wǎng)絡(luò)本身包含大量信息,節(jié)點的權(quán)重可以作為重要的計算數(shù)據(jù)。結(jié)合PageRank 算法的思想,節(jié)點的重要性不僅與自身的權(quán)重有關(guān),還與其所連接節(jié)點的權(quán)重有關(guān),對于目標節(jié)點di,每個與其連接的節(jié)點dj對其貢獻度設(shè)置為1-1/wj(wj為被連接節(jié)點的權(quán)值,j=1,…,n),然后相加得到其重要度摘要的具體步驟如下所示:
(?。└鶕?jù)統(tǒng)計的節(jié)點權(quán)重計算出節(jié)點的重要度,并降序排列。
(ⅱ)根據(jù)節(jié)點的重要度得到特征項所在句子的重要度,并根據(jù)摘要的壓縮比把排名靠前的選擇做為摘要句。
(ⅲ)將所有摘要句按照原文的出現(xiàn)順序依次排出,得到摘要。
從CEC 語料庫中隨機抽取出25 篇文本進行實驗,對比微軟的Word 自動摘要方法。其中,不同類型的文本各選5 篇,摘要的壓縮比設(shè)置為0.3。實驗效果選擇常用的P(準確率)、R(召回率)和F 值來評價。P=(人工摘要句子集∩自動文摘句子集)/自動文摘句子集,R=(人工摘要句子集∩自動文摘句子集)/人工摘要句子集,F(xiàn)=2RP/(R+P)。對比結(jié)果如表2。
從表2 中數(shù)據(jù)可以看出,本文方法所生成的摘要相比較微軟的方法,準確率召回率以及F 值都有顯著的提升,對文本的摘要效果明顯更好一點。上文孫佩佩等人同樣在CEC 語料庫上面向事件針對自動摘要進行了相關(guān)的研究,將其方法與本文方法進行對比,結(jié)果如表3(P、R、F 為平均值)。最后引入柳斌[19]使用的深度學(xué)習(xí)方法:Our(s)+att 作為比較。由于Our(s)+att 模型是基于詞語訓(xùn)練生成摘要,并不能使用原先的評價標準,需要更換為Rouge[20]自動評價方法。本文主要使用Rouge-1 和Rouge-2 評價方法,其計算方法與召回率的計算相似:Rouge-N=(人工摘要N 元詞集∩自動文摘N 元詞集)/人工摘要N 元詞集。同時將生成式摘要的基線方法:ABS system 的效果也一同加入對比,結(jié)果如表4。
表2 本文方法與MS Word 的效果對比
表3 同樣使用CEC 語料庫的方法效果對比
表4 使用Rouge方法評價的三種方法效果對比
由表3 得知,同樣是以CEC 數(shù)據(jù)庫為基礎(chǔ)進行的文本摘要,兩種面向事件的方法摘要的效果都要好于微軟,證明事件作為一種語義單元,它比詞語等概念的粒度要大,所包含的信息更多,對于幫助我們理解文本能夠起到更好的作用。而對比方法雖然是面向事件進行的研究,但其僅僅是針對事件中的事件元素進行濾重之后根據(jù)事件元素是否存在于同一事件構(gòu)造無向圖進行摘要,規(guī)則簡單,保留的文本信息有限。從表4 可以看出,對比深度學(xué)習(xí)的方法,本文方法的Rouge-1 分數(shù)稍低,而Rouge-2 分數(shù)要略高。主要的原因在于Our(s)+att 是針對詞語為單位生成摘要,單個詞語與人工摘要的相似度更高,Rouge-1 評分更具優(yōu)勢。而本文通過對不同事件元素逐一計算其語義關(guān)聯(lián),并最后加權(quán)計算出對應(yīng)事件之間的相關(guān)度,以此構(gòu)造出事件語義網(wǎng)絡(luò)進行自動摘要則更契合Rouge-2 分數(shù)計算詞組相似度的思想。實驗表明,事件語義網(wǎng)絡(luò)能夠很好的地表示出文本信息和語義關(guān)聯(lián),并能夠在自動摘要的應(yīng)用方面取得很好的效果。
本文針對目前基于詞或短語的文本表示模型容易丟失語義信息的問題,從圖結(jié)構(gòu)的思想出發(fā),把事件引入到文本表示的研究中。對事件之間的語義關(guān)系進行了深入挖掘,并以此為基礎(chǔ)構(gòu)建了面向事件的文本表示模型-事件語義網(wǎng)絡(luò)。實驗結(jié)果表明,事件作為人類知識的基本單元,對于我們理解文本有著至關(guān)重要的作用。使用事件及其關(guān)系結(jié)合圖結(jié)構(gòu)建立文本表示模型能夠很好地保留原文的結(jié)構(gòu)和語義信息。通過自動摘要的應(yīng)用,可以驗證該模型的有效性。當然,本文的研究還是存在著一些有待改進的地方:事件相關(guān)度的計算過程能否進一步簡化;語義關(guān)系只定義了是否相關(guān),并沒有對其進行分類。這些問題都有待進一步研究。