吳世鑫,黃德根,張云霞
(大連理工大學 計算機科學與技術學院,遼寧 大連 116000)
現(xiàn)有的文本自動摘要方法主要采取兩種方法,即從文本中抽取現(xiàn)有的若干句子作為文本摘要的抽取式方法和通過對文本進行理解后生成新的句子作為文本摘要的生成式方法[1]。近年來,雖然生成式方法取得了長足進步,但在簡單、快速、可靠地產(chǎn)生語義和語法準確的句子等方面一定程度上不如抽取式方法[2]。多特征融合模型作為一種常用模型在抽取式摘要上表現(xiàn)突出,但目前基于該模型的方法很大程度上還存在特征挖掘不充分的問題。本文提出一種基于多特征融合的自動摘要系統(tǒng)(multi-feature extractive summarization system,MFESS)。選取能夠有效指示文本核心信息的4個特征,即基于句法樹的詞匯特征、句子在篇章中的相對位置特征、句子長度特征和基于平滑逆向頻率句嵌入的句間相似度特征。首先對各個特征進行精細化分析并賦值,然后對4個特征分配權重,將加權求和的分數(shù)作為候選摘要句的得分,最后根據(jù)得分高低選取若干句并進行后處理去除冗余信息。實驗結果表明,該系統(tǒng)可以有效提高摘要生成質量,在評價結果上有了顯著提升。
目前,抽取式方法仍然是自動摘要領域的重點研究方向,基于句子包含關鍵詞比例越高重要性越高的假設,Mahmood Yousefi-Azar使用詞匯的TF-IDF表示作為輸入,通過深度自編碼構建單文檔抽取式摘要模型[3]。Fang等充分挖掘句子與詞之間重要性相互影響的高階信息,構建了基于圖模型的詞-句協(xié)同排序摘要抽取方法[4]。這些抽取式方法考慮使用摘要句的詞匯特征,較大程度地依賴TF-IDF、textrank等工具抽取關鍵詞的質量,具有一定的局限性。張聰?shù)葎t從摘要的語義特征出發(fā),將語義相似度作為圖模型的邊,基于句子間的語義相似度構造圖優(yōu)化算法,實現(xiàn)對微博語料的觀點摘要抽取[5]。Zhang Hui等將詞向量擴展為短語、句子和文本的語義向量表示,然后利用句子和文本間的語義相似度結合貪心算法抽取句子生成摘要[6]。這些方法一定程度上取決于語義相似度計算質量,對語義相似度的計算提出了較高的要求。而且值得注意的是,以上方法都僅利用了摘要句的個別相關特征,雖然取得了一定效果,但是對特征的使用還較為單一。為了充分利用摘要的多個特征,程園等考慮詞頻、標題、句子位置、線索詞和提示性短語等特征,構建特征加權函數(shù)進行摘要句抽取[7]。Liu等選取句子權重、語義相似度、句子位置和長度等特征,對句子進行打分,根據(jù)得分排序抽取摘要句[8]。余珊珊等提出改進的TextRank模型,將標題、段落、特殊句子等特征信息引入到TextRank圖的構造中,提高了摘要抽取的質量[9]。雖然使用特征數(shù)量有所提升,但特征利用的質量還比較粗糙。隨著機器學習方法的更新,龐超等將抽取式摘要轉化為二分類問題,利用摘要句的情感特征、評論質量等特征,結合最大熵模型判斷句子是否為摘要句[10]。有監(jiān)督的機器學習模型均需要帶分類標簽的訓練語料,依賴人工專門構建,且領域可擴展性不強。受神經(jīng)網(wǎng)絡和強化學習等模型的啟發(fā), Nallapati和Cheng等將抽取式摘要概念化為一個序列標記任務,其中每個標記指定是否應該將句子包含在摘要中[11,12]。Wu等利用強化學習模型解決抽取式摘要問題[13]。神經(jīng)網(wǎng)絡和強化學習模型雖然一定程度上可以提高抽取式摘要的質量,但這些模型都是數(shù)據(jù)驅動的,需要龐大的訓練語料。而且復雜模型的引入直接導致計算復雜度和計算量的急速上升,對計算機的硬件提出了很高要求。
前期工作主要集中在使用更多的特征和更復雜的模型,卻很少關注特征利用質量,本文提出的系統(tǒng)細化了特征挖掘過程,充分將特征利用數(shù)量和質量相結合。
這一節(jié)將從系統(tǒng)結構、數(shù)據(jù)預處理、多特征融合模塊以及后處理4部分展開。
本文所提系統(tǒng)主要包括以下3個模塊:預處理模塊,多特征融合模塊,后處理模塊。系統(tǒng)生成摘要的流程如圖1所示。
圖1 MFESS系統(tǒng)流程
數(shù)據(jù)預處理是對訓練數(shù)據(jù)進行的前期處理,主要用以修正不規(guī)范內(nèi)容、去除一些噪音和作數(shù)據(jù)準備等,方便后續(xù)實驗的進行。本文首先對數(shù)據(jù)降噪,然后利用斯坦福分詞器將降噪后的文本進行分詞處理。最后,將新聞內(nèi)容按照子句拆分標點進行分割,分割后的句子即為候選摘要句。
多特征融合模塊是對候選摘要句進行處理,包括通過4個特征(基于句法樹的詞匯特征、句子在篇章中相對位置特征、句子長度特征和基于SIF句嵌入的句間相似度特征[14])計算候選摘要句得分,以及根據(jù)得分排序選出若干候選摘要句合并為所要抽取的摘要句。
2.3.1 基于句法樹的詞匯特征
詞匯特征表示句子包含關鍵詞的情況,核心在于抽取文本的關鍵詞,傳統(tǒng)方法通常是利用TF-IDF、TextRank等獲取關鍵詞。但是這些方法并沒有充分利用語法信息,具有很大的局限性。
事實上,摘要句大都僅使用主要語法成分(如:主謂賓),用詞精煉、包含無關修飾較少?;谝陨峡紤],系統(tǒng)使用主要語法成分作為關鍵詞以提高摘要抽取質量。利用句法樹對句子主要成分進行分析和抽取作為關鍵詞以提高摘要抽取質量。本文使用斯坦福句法分析工具,將以完整句意結束標識符(本文采用“。?!”)分割的句子傳入句法分析器,通過剪除所得句法樹的修飾部分得到句子主要成分。本文僅抽取其中的名詞、動詞、形容詞和副詞作為關鍵詞,并將抽取出的關鍵詞放入文本關鍵詞列表keywords。有了文本的關鍵詞列表利用式(1)對基于句法樹的詞匯特征進行賦值
(1)
其中,lexi是第i個候選摘要句的詞匯特征值;tfw是關鍵詞w的詞頻,計算方式如式(2)所示;nw表示關鍵詞w在候選摘要句中出現(xiàn)的次數(shù)
(2)
其中,mw代表關鍵詞w在文本中出現(xiàn)的次數(shù)。
2.3.2 句子在篇章中相對位置特征
摘要候選句在文本中出現(xiàn)的位置也是一個不可忽視的特征,尤其是新聞文本。事實上,反應新聞主要內(nèi)容的句子一般會在靠近文本的開頭的位置出現(xiàn),而如果有總結概括性的句子則通常會在文本末尾的位置出現(xiàn)。在以往文獻中,基本都直接采用線性函數(shù)對位置特征進行賦值[8,9],這樣做僅僅利用了位置特征的低階信息卻忽略了其高階信息。
針對這一問題,本文通過對位置特征進行統(tǒng)計來獲取位置特征的高階信息。具體統(tǒng)計方法如下:首先將原文本通過句子分割得到候選摘要句,然后根據(jù)最終的評價指標(本文采取ROUGE評價工具)分別計算各個候選摘要句的得分,將得分高的若干(本文選取3個)候選摘要句在篇章中的相對位置作為摘要句特征位置。對句子相對位置進行記錄并計算摘要句出現(xiàn)在相應位置的頻率,將相對位置和頻率分別作為橫坐標和縱坐標??梢暬笕鐖D2所示。
圖2 不同位置候選摘要句出現(xiàn)頻率
顯然,由圖2可知摘要句出現(xiàn)在文本靠前位置的概率要大于靠后位置,且摘要句的位置呈現(xiàn)非線性變化特征。本文選取簡單的二次函數(shù)擬合摘要句所在位置的統(tǒng)計結果,以便利用位置特征非線性變化的高階信息,同時簡化計算。最終選用式(3)對相對位置特征進行賦值
(3)
其中,i表示候選摘要句在篇章中的位置,sen_len表示候選摘要句的總數(shù),θ為調(diào)整因子。
2.3.3 句子長度特征
句子長度一定程度上代表了句子的復雜程度,摘要句特點是簡單精煉,過長的句子一般不合適當摘要句。同時句子長度也會反應信息量的大小,過短的句子信息量一般都很小。假設句子的長度特征權值服從正態(tài)分布,正態(tài)分布的期望為參考摘要的長度,方差近似使用樣本方差,此假設的含義是越接近參考摘要的長度包含的信息量越大,相應的權值就越大。利用式(4)函數(shù)計算句子長度特征權值
(4)
其中,μ代表參考摘要平均長度,xi代表第i個候選關鍵句長度,σ2代表方差,方差可用式(5)進行計算
(5)
其中,n代表句子的數(shù)量。
2.3.4 基于SIF句嵌入的句間相似度特征
句子相似度可以衡量兩個句子之間的語義相似程度,在文本摘要任務中,如果某個候選摘要句與其它的候選摘要句有較高的相似度,則可以表示該候選摘要句最大程度地融合了文本中其它句子的意思,這正是摘要句需要具備的特征。本文采用性能較好的SIF句嵌入方法構造句向量,利用向量夾角余弦距離衡量句子之間的語義相似度。
(1)構造句向量
首先利用數(shù)據(jù)預處理獲得的分詞結果訓練詞向量。然后利用SIF句嵌入方法,以SIF(smooth inverse frequency)為權重,對詞向量進行加權求和得到句向量,再從中去除主成份得到最終的句向量。句向量生成的細節(jié)如偽代碼所示:
# 輸入為分詞后的文本
# 輸出為句向量列表
begin
1) word_vec = word2vec.Word2Vec(file, vec_dim); //訓練詞向量
2) for art in all_doc_list
3) art_vec_list = []
4) for sen in art
5) sen_vec = get_vec(sen,word_vec) //計算句向量
6) art_vec_list.append(sen_vec)
7) end for
8) art_vec_list = remove_pc(aart_vec_list) //去除主成分
9) all_vec_list.append(art_vec_list)
10) end for
end
(2)計算句子相似度
利用句向量的夾角余弦值來衡量兩個句子的相似度,計算方式如式(6)所示
(6)
其中,veci、vecj分別表示第i和第j個候選摘要句的句向量。
(3)句間相似度特征表示
有了相似度公式,接下來將某一候選摘要句與其它所有候選摘要句的相似度之和再除以句子數(shù)量(N)作為該候選摘要句的相似度特征權值,利用式(7)進行計算
(7)
2.3.5 句子抽取
首先通過以上方法得到候選摘要句的4個特征值,然后采用加權求和的方式求取句子最終得分,計算方式如式(8)所示
sen_scorei=λ1lex_scorei+λ2loc_scorei+λ3len_scorei+λ4sim_scorei
(8)
其中,λ1、λ2、λ3、λ4分別代表各項特征的權重。通過上式計算出句子最終得分后,對得分進行排序,最后根據(jù)排序情況選出若干句子作為摘要句。
對抽取出的文本分析發(fā)現(xiàn),存在一些諸如時間表達、各種括號等現(xiàn)象,例如:“陳女士在昆明市龍泉路云南國防技術學院(現(xiàn)已并入云南開放大學)的兩套房子去年6月被學?!挡稹??!边@些信息對最終的摘要來說都是屬于無效信息,本文采用基于規(guī)則的方法,在后處理階段對此類數(shù)據(jù)進行刪除。
實驗的數(shù)據(jù)集為50 000篇NLPCC-2017單文檔摘要評測語料。實驗首先需要解決的問題是確定抽取多少個候選摘要句作為最終的摘要,根據(jù)所用語料中候選子句平均長度的統(tǒng)計結果,候選摘要句平均長度為19.74個字符,摘要句的平均長度為45個字符,故本系統(tǒng)先抽取3句候選摘要句,再進行適當后處理作為最終的摘要。選取的評價工具為Chopra S等[15]所用的ROUGE。實驗中調(diào)整因子θ設定為0.0001;特征權重參數(shù)λ1、λ2、λ3、λ4通過貪婪算法分別確定為2、9、2、4。實驗分為以下3個部分展開:抽取式摘要理論性能上限評估;實驗結果;實驗結果分析。
如果對每一篇測試語料文本都直接利用選定的摘要評價工具抽取最優(yōu)結果,最后就能得到整個測試語料的抽取式方法最優(yōu)結果?;谏鲜黾僭O得到的最優(yōu)結果即為抽取式摘要的理論性能上限。本文對抽取式摘要的理論性能上限的具體評估方法如下:首先參考最終評價指標(如本文采用rouge1、rouge2和rougeL),對單篇文檔的每個候選摘要句計算評價指標的平均F值(mean_f)作為候選摘要句得分;然后根據(jù)得分排序選取其中得分最高的若干句進行簡單合并作為單篇文檔最終的摘要句;最后再對所有文檔抽取出的摘要句進行評價。
本文采用rouge1、rouge2和rougeL作為評價標準,抽取3句候選摘要句作為最終的摘要句,將該實驗標記為TUD(theoretical upper bound),結果如圖3所示。
圖3 抽取式摘要理論性能上限
本文選取3種抽取式摘要的代表性方法作對比,分別是LEAD_3、TextRank和NLP@WUST。LEAD_3是直接抽取文本前三句摘要候選句作為摘要;TextRank是經(jīng)典的圖排序算法,該方法選取句子作為頂點、句子間的相似度作為邊構造圖模型,利用投票機制對句子進行重要性排序,最后根據(jù)重要性得分選取前三句作為摘要。NLP@WUST是在NLPCC-2017評測任務中得分最高的抽取式自動摘要方法。本文所提MFESS系統(tǒng)與以上方法以及理論性能上限比較實驗結果見表1。
本文所提系統(tǒng)與NLP@WUST均是基于多特征的,為了進一步驗證本文對特征的挖掘質量,采用控制變量法將兩者進行對比實驗,實驗結果見表2。
表2中第1列表示選用的評價指標;第2列表示NLP@WUST的實驗結果;第3列our_loc表示將NLP@WUST中的位置特征替換為本文所提表示方法,可以看到結果有了不小提升,說明摘要句的相對位置特征呈現(xiàn)非線性變化的特征,利用非線性計算公式可以有效提高摘要句的抽取效果;第4列our_simi表示將NLP@WUST中的相似度特征替換為本文所提表示方法,可以看到結果也有了提升,說明本文所提基于SIF句嵌入的句間相似度可以更好的指示摘要句;第5列both則表示將兩者均進行替換,最后一列表示本文所提方法的最終結果。通過對比實驗可以發(fā)現(xiàn)本文對摘要特征的挖掘質量要優(yōu)于對比方法。
表1 對比實驗結果
表2 特征挖掘質量對比
從表1實驗結果不難看出,經(jīng)典TextRank算法在Rouge1/r、Rouge2/r和RougeL/r值是所列實驗方法中最高的,也就是召回率最高,原因是TextRank算法是基于語義相似度,通過圖運算會選出文本中與剩余句子語義相似度最高的句子,一般會包含較多的文本主題詞,在這方面與摘要句特征契合。但僅利用語義相似度特征會造成嚴重的信息冗余,必然導致精確率偏低,實驗結果也證實了這一點。從NLP@WUST和NEW-FEA的實驗結果可以看出,綜合利用多個特征可以減少召回率和精確率的單向傾斜,在F值上也較TextRank有所提高。另外,雖然本文所提系統(tǒng)和NLP@WUST均利用了多個特征,但是由于特征挖掘充分、利用質量高,表2的實驗結果顯示rouge1、rouge2和rougeL指標上的召回率、精確率和F值均高于后者。顯而易見,本文提出的系統(tǒng)在所有實驗方法中效果最優(yōu),甚至較評測中抽取式摘要效果最好的NLP@WUST方法在平均F值上提高了近兩個百分點,充分驗證了本文所提方法的可行性和有效性。
本文就單文檔抽取式文本摘要問題,提出了一個基于多特征融合系統(tǒng),該系統(tǒng)綜合了句子抽取和后處理的優(yōu)點,句子抽取通過合理選取4個摘要句特征、科學進行特征分析和表示,最后選取合適的特征權重無監(jiān)督地進行文本摘要抽取。后處理則通過句子壓縮的相關方法進行。實驗結果表明,文本所提系統(tǒng)能夠有效提取文本摘要。
該系統(tǒng)雖然較傳統(tǒng)的基于特征方法和經(jīng)典的圖排序方法有了較大提升,但是離抽取式摘要的最佳性能還存在一定差距,并且文本所挖掘的特征主要針對新聞文本,擴展性有待提高。未來將嘗試挖掘更多的特征加入該模型,擴大特征維度,例如增加篇章級語義特征等。另外,如何將抽取式方法與生成式方法相結合[16],也是未來探索的一個方向。