劉 迪,奚雪峰,崔志明,盛勝利
(1.蘇州科技大學 電子信息與工程學院,江蘇 蘇州 215000;2.蘇州市虛擬現(xiàn)實智能交互及應用重點實驗室,江蘇 蘇州 215000;3.蘇州智慧城市研究院,江蘇 蘇州 215000;4.德州理工大學,得克薩斯州 拉伯克市 79401)
隨著互聯(lián)網的快速發(fā)展,信息儼然成為最具有活力的資源,信息的產量也在成倍增長,如何為用戶從大量的信息數(shù)據(jù)中提取出有用的數(shù)據(jù)成為亟待解決的問題,自動文本摘要技術的出現(xiàn)填補了這一空白。自動文本摘要技術是一種利用計算機及相應規(guī)則、算法和模型完成的信息壓縮技術。旨從給定的文本中快速地提煉出一段簡明、連貫、全面反映文獻核心內容且篇幅少于原文的短文本。早期文本摘要主要依靠人工操作完成,但隨著近年來非結構化文本的變多,利用人工處理此類非結構化文本的工作變得異常繁瑣,而使用自動文本摘要技術可以有效地彌補人工處理的不足,因此,自動文本摘要技術成了自然語言處理研究中的熱點。
按照摘要生成方式的不同,自動文本摘要可分為抽取式、生成式和抽取-生成式三類。抽取式文本摘要技術利用計算機技術并按照一定的規(guī)則計算出詞語或句子的重要程度,直接從原文中抽取原詞或原句組成摘要,常用于數(shù)據(jù)規(guī)模較小的數(shù)據(jù)集。該方法技術實現(xiàn)簡單、摘要貼合主題、方法適應性廣,能盡量地保留文章原有的單元,并且語法上沒有特別明顯的錯誤。其不足之處在于靈活性較差、冗余信息過多、缺少語義理解、無法保障生成語句的連貫性和文本語義信息的完整性。
生成式文本摘要技術要求計算機模仿人類的思維方式理解文本信息,對輸入原文進行概括、轉述并總結成摘要。此方法生成文本理解能力強、靈活性高且語義較為完整。雖然相較于抽取式在生成摘要質量上有了明顯的提高,但其依然存在目標語句表達的主旨不明確、摘要與主題偏離、生成過程缺乏關鍵信息控制與指導、信息編碼不充分等問題。綜合現(xiàn)有的研究成果,針對上述問題,許多研究者將傳統(tǒng)的抽取式文本摘要方法與基于深度學習的生成式摘要方法相結合,提出了基于抽取-生成式的摘要技術。抽取-生成式技術是將摘要生成任務分為兩部分:
(1)利用抽取式摘要技術進行關鍵詞或關鍵句的定位與提取。
(2)采用生成式摘要技術將前一部分定位與提取到的內容改寫生成摘要。
抽取-生成式摘要常用數(shù)據(jù)集如表1所示。
2.1.1 清華新聞(THUCNews)
清華新聞(THUCNews)數(shù)據(jù)集[1]是由清華大學自然語言處理實驗室根據(jù)新浪新聞RSS訂閱頻道2005至2011年間的歷史數(shù)據(jù)整理而成。包含80多萬篇新聞文檔,格式均為UTF-8純文本。作者在原有新浪新聞分類體系的基礎上,將其重新劃分為14個類別:彩票、財經、房地產、股票、家具、教育、科技、社會、時尚、時事政治、體育運動、星座預測、游戲、娛樂。
2.1.2 NLPCC-2017
NLPCC-2017摘要數(shù)據(jù)集[2]是2017年由CCF中文信息技術專委會組織的中文計算會議的比賽發(fā)布的Task3任務中使用的數(shù)據(jù)集。該數(shù)據(jù)集包含標準摘要和不標準摘要數(shù)據(jù)集兩類,共有5萬條樣本。常被用于語義關系分類、情感對話生成、文本摘要等任務中。
2.1.3 LCSTS
LCSTS數(shù)據(jù)集[3]是哈爾濱工業(yè)大學整理,基于中國微博網站新浪微博構建而成的一個大型中文短文本摘要數(shù)據(jù)集。該數(shù)據(jù)集由200多萬篇真實的中文短文本組成,每篇文本作者都給出了簡短的摘要。作者還手動標記了10 666條簡短摘要與其相對應短文本的相關性。
2.1.4 Sogou-News
Sogou News Dataset是由SogouCA和 SogouCS新聞語料庫構成的數(shù)據(jù)集[4],其擁有5個類別共計2 909 551篇文章,每個類別均包含90 000個訓練樣本和12 000個測試樣本,并且這些樣本均以轉換為拼音。
2.1.5 搜狐新聞數(shù)據(jù)集
搜狐新聞數(shù)據(jù)集來自2012年6-7月間搜狐新聞網上國際、體育、社會、娛樂等18個頻道的新聞數(shù)據(jù)。按照不同的文本處理方式,該數(shù)據(jù)集可分別用于文本分類、事件檢測、跟蹤、新詞發(fā)現(xiàn)、命名實體識別、自動文本摘要等任務。該數(shù)據(jù)集包含140萬條新聞正文和新聞標題。
2.2.1 DUC2004
DUC2004數(shù)據(jù)集[5]是只用于測試摘要文檔的數(shù)據(jù)集,由500篇新聞文章組成,每篇文章都配有4篇人工概要。其中包含的500篇新聞文章主要來自紐約時報新聞網(1998-2000)、AP newswire(1998-2000)、新華社(英文版,1996-2000)。該數(shù)據(jù)集多用于多文檔摘要與抽取式文本摘要任務中。
2.2.2 Gigaword
Gigaword是一個由英文新聞文章組成的數(shù)據(jù)集,最早在2003年由Graff等人[6]提出,數(shù)據(jù)來源紐約時報(New York Times)等多個新聞源,其中包括近950萬條數(shù)據(jù)。后經過Rush等人[7]整理,得到了380萬個訓練樣本、19萬個驗證樣本和2 000個測試樣本。
2.2.3 NYTAC
NYTAC數(shù)據(jù)集[8]是由《紐約時報》新聞室、《紐約時報索引服務》和nytime.com的在線制作人員提供,包含從1987年1月1日至2007年6月19日《紐約時報》撰寫和發(fā)表的180多萬篇文章。其中超過150萬篇文章由專業(yè)人員手工標注,標注索引詞包括人員、組織、位置和主題等內容,并且超過27.5萬篇帶有算法標簽的文章被nytime.com在線工作人員驗證。該數(shù)據(jù)集被用于自動文摘與文本分類工作,用于自動文摘時,常將其作為抽取式文摘工作的數(shù)據(jù)集。
2.2.4 CNN/Daily Mail
CNN/Daily Mail數(shù)據(jù)集[9-10]簡稱CNN/DM,其數(shù)據(jù)主要來源于美國有限電視新聞網(CNN)和每日郵報網(Daily Mail)合計大約100萬條新聞報道數(shù)據(jù)。該數(shù)據(jù)集是一個單文本摘要語料庫,在語料庫中含有大量的摘要篇章,每個篇章中又包含了若干個摘要句子,隨后對其進行了簡單的修改,形成了一個用于文本摘要技術的語料庫。將報道每一個重要新聞事件的新聞要點都按在原文材料中所出現(xiàn)時間的時間先后順序來概括寫成這幾句的摘要。在此數(shù)據(jù)集中訓練集大小為286 817條,驗證集大小則為13 368條,測試集大小則為11 487條并且訓練集中平均摘要句子數(shù)3.72個。目前此數(shù)據(jù)集經常被用于自然語言處理的機器閱讀理解以及文本自動摘要任務中。
文本摘要通常使用ROUGE(Recall-Oriented Understudy for Gisting Evaluation)作為評估手段,由Lin和Hovy[11]提出。ROUGE是以文摘中n元詞的共現(xiàn)信息為基礎,對文摘進行評估,是一種面向n元詞召回率的評價方法。ROUGE準則包含一系列的評價方法,如ROUGE-1、ROUGE-2、ROUGE-L等,這里1代表基于1元詞,2代表基于2元詞,L是最長公共子序列的意思。在自動文本摘要研究中,通常會針對特定的研究需求,選取適當?shù)腘元語法ROUGE方法。ROUGE-N與ROUGE-L計算公式如下:
其中,gramn代表n元詞,{Ref}代表之前已經獲得的標準摘要(參考摘要),系統(tǒng)摘要和標準摘要中同時出現(xiàn)n元詞的個數(shù),可用Countmatch(gramn) 表示[12]。
BLEU(Bilingual Evaluation Understudy)指標[13]是在2002年由IBM公司提出的一種以準確度為基礎的相似度量方法。BLEU的取值范圍為0~1,分數(shù)越接近1,說明生成文本的質量越高。BLEU指標不但可以用來對候選譯文和參考譯文中n元組共現(xiàn)程度進行分析,而且可以通過計算生成文本和參考摘要中共同的n-gram用于評價生成摘要的優(yōu)缺點。由于BLEU僅考慮到生成文本與實際真實文本的契合度,因此,對于具有較高語義質量和較大開放性的摘要任務,采用BLEU并不是一個好的選擇。
Vedantm等人提出了專門針對圖像摘要問題的評價指標CIDEr(Consensus-based Image Description Evaluation)[14],采用BLEU和向量空間模型的方法,通過計算TF-IDF向量的余弦夾角得到候選句子和參考句子的相似度,從而實現(xiàn)對候選語句的評價。
21世紀,隨著互聯(lián)網的全面普及,自動文摘技術的應用日益廣泛,受到了越來越多的研究學者重視。目前,實現(xiàn)自動文本摘要任務的方法主要分為抽取式方法、生成式方法與抽取-生成式方法。經過多年來發(fā)展,抽取式和生成式方法已趨近于成熟,而相較于前兩者抽取-生成式方法的出現(xiàn)時間晚了許多。在技術路線研究方面,抽取-生成式主要用于彌補前兩者摘要技術的缺點,如摘要冗余性過高、語法自然性較差等。
目前主流的抽取-生成式摘要技術方法的對比見表2。
表2 抽取-生成式文摘主流技術方法
在抽取-生成式文本摘要中,摘要任務常被解耦為兩個部分,該方法雖能集中重寫過程中的主要信息,但卻使得端到端無法直接訓練。因此,一個很自然的想法就是利用強化學習在兩部分訓練間搭起橋梁。
受分步總結長文本方法的啟發(fā),Yen-Chun Chen與Mohit Bansa[15]提出基于強化學習的摘要方法。首先,通過計算Attention定位突出的句子,然后,抽象地重寫被選出的句子(即壓縮和轉述),最后,由粗到細地生成簡潔的整體摘要。在其優(yōu)化模型過程中還加入句子級策略梯度方法,致使能在確保生成摘要流暢度的同時,以分層方式橋接抽取器與生成器這兩個神經網絡。
生成模塊只采用了最簡單的Seq2Seq模型,因為摘要的質量主要取決于抽取模型中得到的關鍵句的準確率,所以Seq2Seq模型可以滿足生成模塊的要求。
在訓練階段,通過句子級策略梯度方法合并形成可訓練的端到端的計算圖,解決抽取模塊和生成模塊存在的圖融合問題。首先,用ML(機器學習)方法單獨訓練各子模塊,然后,用RL(強化學習)訓練整個模型。值得注意的是,在抽取模塊訓練中,可將模型看成分類任務,關鍵句子即為正類,因為抽取式模型訓練沒有標注語料,因此該方法中采用了簡單的相似度方法來獲取標簽,之后利用最小化交叉熵損失函數(shù)來訓練。最后為了減小生成摘要的冗余度,利用重排機制來消除跨句的重復問題,將解碼獲得的k個句子按照重復的N-gram的數(shù)量進行重排,數(shù)量越小,結果越好。
綜合來說,將抽取與生成相結合,巧妙地引入了強化學習,從而建立了一個與單一通道系統(tǒng)相區(qū)別的端到端模型。一定程度上,加速了訓練與測試解碼速度并提高了摘要的質量,在CNN/Daily Mail數(shù)據(jù)上取得了當年最先進的結果。
信息論是對所有事物的信息量進行描述的一種學說,而摘要則是以盡可能少的信息量來表示原始信息。所以,把信息論引入到摘要任務中是非常恰當?shù)摹?019年,West P等人[16]提出基于信息論的方法使信息瓶頸與文摘任務相結合,利用信息瓶頸(Information Bottleneck)[17]能關注信息壓縮率與壓縮后相關信息保留率的特性,將其作為整個摘要任務的準則。
Algorithm 1:BottleSumExmethod
Require:sentencesand contextsnext
C←{s} ? set of summary candidates
forlin length(s) …1 do
Cl←{s'∈C|len(s')=l}
sortCldescending byp(snext|s')
fors'inCl[1:k] do
l'←length(s')
forjin 1…mdo
foriin 1…(l'-j) do
s''←s'[1:i-1]°s'[i+j:l']
ifp(s'')>p(s') then
C←C+{s''}
Return argmaxp(snext|s'')
s'∈C
在重寫摘要階段,采用GPT-2[18]作為預訓練模型,以抽取階段生成的摘要句為target,從左到右生成摘要。相比較第一階段的抽取摘要,重寫階段產生的摘要更加貼近自然語言的摘要,并在一定程度上更加滿足摘要的相關性和冗余度要求。
整體而言,基于信息論的摘要方法是將無監(jiān)督與自監(jiān)督相結合。雖然結果較傳統(tǒng)的監(jiān)督式略低,但其優(yōu)勢在于無需訓練數(shù)據(jù)并融入信息論的思想,使得模型整體變得簡單、直觀。
在傳統(tǒng)的摘要任務中,生成式產生的摘要主要源于對原文語義的理解。但由于自然語言的復雜度較高,單純的理解和生成是無法滿足用戶需求的。而在抽取式中,因其擅長對有效特征的挖掘、重要句子的抽取恰好能彌補生成式摘要技術的不足。因此,利用抽取式來改進生成式成為了研究熱點。2021年,陳偉等人[19]提出基于指針網絡的方法成功改進了基于Seq2Seq模型[20]的生成式方法,巧妙地融入TextRank算法實現(xiàn)了摘要生成任務。
傳統(tǒng)TextRank算法[21]是將文本分割為若干個以句子或單詞為基礎單元的狀態(tài),將其作為一個個節(jié)點并通過計算節(jié)點間的相似度確定邊和權重值。節(jié)點的權重迭代計算公式如下:
接著,進一步結合節(jié)點的自身權重,將所有節(jié)點的權重值賦為1并計算每個節(jié)點的權重收斂值與每個句子的得分。最后,利用該語句的得分對其進行排序,選出其中最有價值的語句作為候選文摘,并依照相關的要求,將所收集的句子從集合中提取出來,形成文摘。收斂公式如下:
Bi=SMn×n·Bi-1
相較于傳統(tǒng)TextRank算法,改進后算法利用文獻的標題、真實人工摘要往往都涵蓋了豐富的主題信息的特點,將參考摘要信息引進到算法中,在計算句子間相似度的基礎上添加參考摘要與句子相似度計算。通過計算參考摘要與句子間相似度得出的結果獲取向量Tn×1并以此調整上式為:
Bi+1=TMn×1·Bi
同時,在改進過的算法中還考慮了單詞層面的共同包含的特征詞項,規(guī)定當參考摘要中包含特征值時,相應的詞的權值增大,反之,保持原狀態(tài)不變,計算公式如下:
最終計算出權重調整值,根據(jù)其對句子排序并抽取排名靠前的句子形成候選摘要集。
在生成模型部分,基本架構為Seq2Seq模型,編碼器與解碼器分別為單層雙向LSTM與單向LSTM。編碼內容包含上述提到的抽取語義和原文語義,利用兩者間語義向量拼接使得信息融合,融合后的向量經過模型訓練完成摘要任務。在此基礎上,引進指針網絡解決模型中出現(xiàn)的OOV(out of vocabulary)問題,進一步提升摘要質量。
基于神經網絡的生成式摘要能夠獲得較好的輸出結果,但在文本內容選取上,其效果并不理想。為解決此問題,Gehrmann等人[22]提出了Bottom-Up模型,模型將文摘任務分為兩個階段,第一階段采用抽取技術進行序列標注,通過內容選擇器將原文本中應包含在摘要中的一部分短語抽取出來,第二階段使用此技術結合OpenNMT抽象模型[23]完成摘要任務。
在整體框架中,模型做了一個假設,將其視為序列標記問題。令t1,…,tn為每個源字符的二進制標記,如果在目標序列中復制了一個詞,則為1,反之為0。通過使用標準的雙向LSTM模型對序列標注問題進行最大似然訓練。將每個字符wi映射到預訓練單詞嵌入的靜態(tài)通道和預訓練語言模型的上下文嵌入通道中,通過微調上下文嵌入獲得特定于任務的上下文嵌入。接著將兩個嵌入連接為一個向量作為雙向LSTM的輸入,計算出字符wi的表示hi,并使用訓練參數(shù)計算該詞被選中的概率。但由于神經復制模型具有復制句子過長問題,因此,該模型充分利用了在全文中的標準編碼器聚合效果良好的優(yōu)點,將自底向上的步驟限制為注意力掩碼。即,通過在上述所定義的內容選擇器和全部數(shù)據(jù)資料集合中訓練,從而獲得指針生成網絡。在推理過程中,以生成掩碼為目標,利用內容選擇器對原文本中每個標記的選擇概率進行計算。通過選擇概率來修正復制注意力分布,使其僅包括選擇器標識的標記。為了確保聯(lián)合分布概率的準確性,需將字符的注意力與歸一化相乘重新進行歸一化,此處獲得的歸一化分布可用于替換新的復制概率。
總而言之,基于序列標注的方法通過將內容選擇器用于自下而上的注意,充分限制了OpenNMT抽象摘要器從原文本復制詞的能力。在抽象模型不失流暢度的基礎上,提高了摘要的整體質量。
自2018年,谷歌推出無監(jiān)督預訓練模型BERT[24]之后,其就成了完成各類NLP任務的有力工具。特別在文本摘要任務中的應用,通過對大量無標記數(shù)據(jù)集的訓練得出深度模型,大幅度提高了摘要生成質量。
2020年,呂瑞等人[25]提出了基于預訓練的混合式文本摘要模型TSPT,該模型采用抽取式與生成式相結合的方式,并根據(jù)sigmoid函數(shù)和預訓練原文本所得的雙向上下文信息詞向量,計算出句子得分抽取關鍵句。之后,將所選出的關鍵句當作完形填空任務進行改寫并形成摘要。
?抽取階段,首先將輸入序列進行標記嵌入、分段嵌入和定位嵌入,得到預訓練句向量。在此基礎上,采用BERT模型預訓練層所得到的嵌入句向量,作為單層LSTM抽取模型輸入。最后在輸出層通過sigmoid激活函數(shù)計算抽取句子的預測得分并依照分數(shù)由低到高排序,丟棄分數(shù)最低的三個句子,將剩余句子作為候選摘要句集合。
?因受BERT模型中完形填空任務的啟發(fā),摘要生成階段類似于一個完形填空任務。采用BERT預訓練編碼器對抽取的關鍵語句進行處理,得到編碼器的輸出向量,將每個關鍵語句中的詞逐個掩蓋,然后將其輸入到BERT模型中,產生上下文向量,并由2層的Transformer解碼器對最后的摘要進行預測。
相較于呂瑞提出的TSPT模型,2021年譚金源等人[26]提出的BERT-SUMOPN模型充分考慮了語義信息對摘要質量提高的重要性。
?在重寫階段,利用指針生成網絡模型作為生成式模型,將指針網絡與基于注意力機制的序列到序列模型結合起來,使得指針可以直接地指向所產生的單詞。在此基礎上,把從真實標簽列表選擇出來的重要語句作為重寫模型的輸入,并利用這些重要語句中單詞對應的BERT預訓練語言模型向量化結果w注入到指針生成網絡之中,同時也通過coverage機制克服指針網絡生成重復詞的問題。特別是在BERT-SUMOPN模型中,引入了EAC損失函數(shù),以最小化EAC損失函數(shù)為目標,對抽取模型和重寫模型進行端到端訓練。
綜合比較基于預訓練的兩種模型的相同點與不同點。從待解決問題方面看,TSPT模型與BERT-SUMOPN模型都通過BERT預訓練解決傳統(tǒng)摘要模型中摘要語法錯亂、自然性差的問題。從模型整體結構看,TSPT模型基于BERT進行三階段訓練,而BERT-SUMOPN模型的兩階段訓練分別由BERT與指針網絡組成,比較而言BERT-SUMOPN模型相對簡單、易于訓練。從語義豐富程度看,TSPT模型預訓練僅獲取詞向量,而BERT-SUMOPN模型同時獲取詞向量和句子向量語義程度更加豐富。
2018年,Hsu等人[28]提出了基于聯(lián)合注意力的方法,該模型由信息的提取器與摘要的生成器兩部分組成。通過獲取句子的概率輸出調制單詞級別注意力的方式,減少產生較少注意句子中的單詞可能性,從而提高摘要的質量。
信息提取器篩選出原文中具有高信息性的句子,并以重要程度準則打分得出句子的概率分布。提取器的整體結構包含一個提取句子表征的分層雙向GRU和一個預測句子級別特征的分類層。首先,計算出原始文本中各語句與參考摘要之間的ROUGE-L得分,并對每一句話的信息量進行判定。然后,按照信息性由高到低的順序選擇句子,依次添加使已選句子整體信息性更高的新句子。最后,通過獲取的ground-truth label最小化抽取器的損失函數(shù)得出ground-truth sentences,損失函數(shù)公式如下:
在摘要生成器中,采用See等人提出的PGN模型并聯(lián)合信息抽取器。PGN模型包含一個雙向LSTM作為編碼器和一個單項LSTM作為解碼器。將ground-truth label作為生成器的輸入,利用句注意力機制調節(jié)詞級別的注意力權值,然后采用指針生成網絡逐詞生成摘要。
目前,國內學術界對抽取-生成式自動文本摘要技術研究的時間較短、重視程度不夠,普遍缺乏融合前沿技術的深入研究。在未來的工作中,對抽取-生成式摘要技術的改進可從以下幾個方面著手:
(1)尋找更科學、更可行的評價指標。目前常使用ROUGE或BLEU作為評價指標,這類指標的缺點是無法考慮到語義層次上的匹配,導致輸出的文本摘要過于生硬,并且ROUGE、BLEU評價指標較適用于英文摘要任務,在中文任務中效果不太理想。
(2)構建高質量的數(shù)據(jù)集。因為目前質量高且信息量大的數(shù)據(jù)集非常少,中文長文本的數(shù)據(jù)集更少,無法從根本上解決問題,這樣會使得整個摘要的研究過程變得十分困難。
(3)提出簡單的模型架構。目前的抽取-生成式模型多由抽取式和生成式兩部分組成,模型復雜度較高,不易于訓練。因此,提出一個能將抽取與生成任務并行運行的模型十分關鍵,這樣有利于降低模型的復雜度,減少模型的訓練成本。
在未來的發(fā)展中,因抽取-生成式摘要技術擁有高精度、低冗余等特點,將會在以下幾個應用場景中發(fā)揮重要作用:
(1)輿情管控;因互聯(lián)網的快速發(fā)展,短視頻APP層出不窮,對各類負面信息的管控也變得尤為重要。通過抽取-生成式摘要技術能夠快速的過濾垃圾文本,減少人工處理的時間成本,在滿足用戶掌握網絡輿情動態(tài)的前提下,正確引導輿情。
(2)網頁分類;通過對網頁內容的摘要,將網頁分成多種類型,如:電器類網頁、汽車類網頁等。不同于普通的文本摘要,用于網頁分類的摘要需能充分反映網頁的內容,精確捕捉關鍵的句子,抽取-生成式摘要技術高精度的特點能夠滿足此類要求。
(3)電商產品說明書摘要;在經濟全球化的大環(huán)境中,電商行業(yè)變得異?;馃?商家要想在競爭中取得優(yōu)勢,產品說明書的簡潔易懂不可忽視。使用抽取-生成式摘要技術能夠有效地提煉產品賣點,幫助客戶了解產品的詳細特征,促進商家產品的曝光率和銷量。
自20世紀50年代末起,人們對自動文本摘要技術進行了近60年的研究。從開始的抽取式摘要技術到后來的生成式摘要技術在文摘任務中都取得了不錯的成績。近年來,由于抽取-生成式摘要技術的興起,使得以往的摘要技術得到了進一步的發(fā)展。該文對當前自動文本摘要中的抽取-生成式摘要技術進行了綜述,分析、梳理完成該技術所有方法的基本思想、優(yōu)缺點,并對與之相關的數(shù)據(jù)集和評價指標進行了詳細闡述,最后對抽取-生成式摘要技術的挑戰(zhàn)和未來的發(fā)展趨勢做了預測和展望。