王浩男 高揚,3,? 馮俊蘭 胡珉 王惠欣 柏宇
基于細粒度可解釋矩陣的摘要生成模型
王浩男1高揚1,3,?馮俊蘭2胡珉2王惠欣2柏宇1
1.北京理工大學計算機學院, 北京 100081; 2.中國移動通信研究院, 北京 100032; 3.北京市海量語言信息處理與云計算應用工程技術研究中心, 北京 100081; ?通信作者, E-mail: gyang@bit.edu.cn
針對摘要模型中總結并解釋長篇上下文信息存在的困難, 提出一種基于細粒度可解釋矩陣, 先抽取再生成的摘要模型(fine-grained interpretable matrix, FGIM), 提升長文本對顯著度、更新性和相關度的可解釋抽取能力, 引導系統(tǒng)自動生成摘要。該模型通過一個句對判別(pair-wise)抽取器對文章內容進行壓縮, 捕獲文章中心度高的句子, 將抽取后的文本與生成器相結合, 實現(xiàn)摘要生成。在生成端通過可解釋的掩碼矩陣, 控制生成摘要的內容屬性, 在編碼器端分別使用多層 Transformer 和預訓練語言模型 BERT 來驗證其適用性。在標準文本摘要數據集(CNN/DailyMail 和 NYT50)上的實驗表明, 所提模型的 ROUGE 指標和人工評估結果均優(yōu)于當前最好的基準模型。實驗中還構建兩個測試數據集來驗證摘要的更新度和相關度, 結果表明所提模型在可控生成方面取得相應的提升。
生成式摘要; 可解釋抽取; 中心度; 掩碼矩陣; 可控生成
近年來, 神經網絡在抽取式摘要和生成式摘要任務中取得顯著的成功。抽取式摘要是從原文直接選擇可讀性好并與文章相關的句子作為整篇文章的摘要, 生成式摘要[1]是借助機器翻譯衍生出來的編碼-解碼框架生成新的摘要序列。盡管這些方法都取得較大的成功, 但長文本的語義建模以及細粒度信息的獲取仍是文本摘要領域的巨大挑戰(zhàn)。
目前, 有兩種常用方法來解決上述問題。1)基于預訓練的語言模型(如 ELMO[2], OpenAI GPT[3]和BERT[4]), 在表示文本上下文向量的學習過程中非常出色, 并廣泛應用于多個自然語言相關的子任務中(如問答系統(tǒng)[5]和摘要系統(tǒng)[6-7]); 2)結合抽取器與生成器構成混合摘要生成框架, 首先通過抽取器來選擇顯著性高的句子, 然后利用這些句子, 通過生成器進一步生成最終的摘要, 稱為混合摘要模型。混合摘要模型利用抽取器進一步細化信息量與摘要相關內容抽取的效果, 同時利用生成器將其匯總為符合語言表達形式的最終摘要。在訓練抽取器時, 簡單的隱層表示不能完整地表達句子與候選摘要之間的關系, 需要深入地探索復雜的句間關系(即識別語義, 判斷句子是否與文檔相關以及對摘要的貢獻程度)。在做序列生成任務時, 指針-生成模型(pointer-generator)應用比較廣泛, 然而, 長文檔的信息具有多樣性, 且重要內容具有離散的特點, 單一的指針生成模型不能有效地捕捉到文章離散多樣性的特點, 導致生成的摘要局限于文章的某一部分而非整體。按照人類閱讀習慣, 在對一篇文章進行總結時, 往往先根據文章的內容(如顯著度、相關度和更新度)進行總結, 最后基于細粒度信息對整篇文章進行總結。因此, 對于一個可解釋的文本生成模型, 能夠把文章中包含的可解釋的細粒度信息有效地提煉出來, 會使模型更加符合人類摘要的方式, 同時也能保證系統(tǒng)生成的摘要質量更高。模型具備細粒度信息后, 會引導模型在具備該信息的方向上對文章內容進行總結, 比如更新度高的細粒度信息會使系統(tǒng)最終生成的摘要具備多樣性, 類似可控旋鈕。因此, 摘要生成的可控性是文本生成領域內又一重要需求。
針對上述研究現(xiàn)狀, 學者們提出很多方法和模型(如序列生成模型[8]), 但僅依靠序列生成模型, 難以建模長文檔的上下文依賴關系。主要原因是現(xiàn)有模型很難僅通過向量表示準確地理解長文檔的語義信息, 加上基于語言模型的生成網絡是一個“黑盒”, 不能明確辨別所選內容的細粒度信息。
指針-生成模型將注意力作為指針, 以上下文作為條件, 控制選詞或選句的概率。在信息選擇方法中, 詞級別的包括 Zhou 等[9]用軟控門對原文的冗余信息進行過濾, Hsu 等[10]通過句子的重要程度更新詞級別的注意力, Gehrmann 等[11]利用預訓練的方法構建單詞選擇器來約束從源文檔中獲取的詞級別注意力; 句級別的包括 Tan 等[12]采用基于圖的注意力機制增強文章顯著性內容對生成摘要的影響, Li 等[13]通過信息選擇層實現(xiàn)對文章冗余信息的過濾, You 等[14]通過引入高斯聚焦偏差增強信息選擇的能力進一步對文章顯著信息建模。
我們的模型繼承指針生成模型用于選擇和生成的優(yōu)點, 并進一步研究可解釋的選擇文章中的細粒度信息對摘要生成的影響。本文提出基于細粒度可解釋矩陣(Fine-Grained Interpre-table Matrix, FGIM)的模型來建模豐富的句間關系, 通過該交互矩陣對文章中的句子進行決策(是否作為中心句), 通過衡量句子的豐富度和句對間的相似性來構建句子級別的抽取器, 對文章中的句子打分。依據句對的復雜關系, 獲取中心度高的句子, 影響最終摘要的生成。抽取器與生成器通過端到端的方式進行訓練和預測, 同時利用不同的句子特征(相關度和更新度)構建不同的可解釋掩碼矩陣來作用到交互矩陣上, 構造可解釋旋鈕。主要在 CNN/DailyMail 和 NYT50兩個數據集上對模型進行驗證, 同時采用人工評估和機器評估(ROUGE)的方式輔助驗證。
編碼-解碼框架由編碼器和解碼器構成。解碼器具備注意力機制, 幫助模型對輸入的每個部分賦予不同的權重, 抽取出更關鍵、更重要的上下文信息。設輸入序列={1, …,x, …,x}是一個包含個詞匯的序列,為輸入序列索引。輸出序列(摘要)定義為={1, …,y, …,y}, 包含個詞匯。
模型的基本架構基于 Transformer, 由個相同的 Transformer 層堆疊構成, 每層網絡含兩個子層:
式(1)代表第一個子層(自注意(Self Attention)層), 式(2)代表前饋子層。LAYERNORM 是歸一化層, 框架中多頭注意力(multihead attention)的操作為
為第層在第個頭的自注意操作,為可訓練的參數。編碼器的輸出定義為, 在基于 Transfor-mer 的框架中同時采用預訓練的BERT編碼器。
對基于 Transformer 和基于 BERT 的實驗設置, 均采用帶有注意力機制的解碼器, 從而可以考慮輸入文檔的上下文信息, 解碼器由層 Transformer組成。除與編碼器相似的兩個子層外, 解碼器還增加第 3 個子層, 對編碼器的輸出以及上一個時刻解碼器的輸出進行自注意的操作。在每個原位置, 計算解碼器的位置矢量S和編碼器輸出之間的注意力分布。通過式(4), 獲取解碼器在時刻輸入的注意力分布:
解碼器通過式(6)獲取時刻詞表中單詞的分布, 解碼當前時刻的單詞:
圖 1 給出 FGIM 模型的整體框架, 該框架結合抽取器與生成器的特點, 實現(xiàn)端到端的混合摘要模型。模型第一部分是基于句對方法的抽取器, 通過交互矩陣, 對文檔中的句子進行基于文檔中心度的評分; 第二部分是摘要生成, 借助指針生成網絡模型的注意力指針, 利用混合連接部分, 結合抽取器獲得的中心度信息, 影響最終的詞表概率分布; 第三部分利用掩碼矩陣, 實現(xiàn)對抽取器中的交互矩陣的控制, 獲得基于不同屬性的句子中心度, 影響最終摘要的生成, 實現(xiàn)可控生成的目標。
2.1.1 句子交互矩陣(interaction matrix)
由于文檔中的句子均存在復雜的關系(如內容豐富程度、更新度及與文檔的相關度等), 因此通過構建句子交互矩陣(為文檔中句子的數量)來獲取更準確且具備可解釋性的句子中心度。可通過計算句對與的交互關系來構建:
2.1.2 中心度計算
交互矩陣提供文檔中句對之間相互影響程度, 可以協(xié)助抽取器獲取文檔中句子的整體中心度。從句子級別提煉文檔的中心度比從文檔級別提煉的信息損失少, 同時更具備細粒度屬性。目前計算句子中心度均采用無監(jiān)督進行摘要總結, 如基于圖的TextRank[15]和 LexRank 等模型。在 FGIM 模型中,
圖1 FGIM模型結構
可以通過監(jiān)督學習的方法, 利用可學習的參數, 將交互矩陣轉化為基于句子分布的中心度向量=[1, …,c]:
2.1.3 抽取器訓練過程
抽取器的訓練通常被構建為一個分類模型的訓練過程, 將句子編碼為隱層表示向量, 通過分類層預測這些表示是否為摘要句。與抽取的訓練過程類似, 也采用單句判別(point-wise)的學習目標, 但是, 單句判別對交互矩陣的參數學習沒有明顯的作用。因此, 為了更好地反映句子之間的相互作用, 通過新的標簽方法, 使用基于句對方法的目標函數來訓練抽取器的參數, 更好地體現(xiàn)句子間的交互關系。句對[,]的標簽設置見表 1。在監(jiān)督學習框架下, 基于句對方法的目標函數如下:
為句子的個數,r為句子S和句子S的共現(xiàn)概率:
其中,c和c分別對應句對{,}的中心度得分。
在 FGIM 模型架構中, 生成器的實現(xiàn)主要借助指針生成模型?;A的指針生成網絡包含兩個子模塊: 指針網絡和生成網絡。這兩個子模塊共同確定最終生成的摘要中每個單詞的概率?;A的指針生成網絡采用經典的基于 Transformer 的編碼-解碼網絡結構, 在此基礎上, FGIM 集成句子中心度更新指針模塊, 將抽取器獲取的句子中心度信息更新到生成器中, 從而影響最終的摘要生成過程。
2.2.1句子中心度更新模塊
指針網絡使用注意力機制作為指針, 選擇輸入語料中合適的單詞作為輸出。在 FGIM 模型中, 指針生成網絡與抽取器中獲取的句子中心度信息結合, 可以更好地協(xié)助指針生成網絡, 提取文章的突出信息(原始指針生成網絡不考慮句子中心度信息)。為了更好地影響序列生成過程, 句子的中心度信息需要分散到單詞級別上, 影響生成器逐詞的生成過程, 因此, 本文利用混合連接的方式, 結合抽取器和生成器, 實現(xiàn)模塊的無縫連接。
表1 Prair-wise標簽
2.2.2 混合連接(hybrid connector)
利用句子中心度的信息, 更新指針生成網絡中單詞注意分布, 可以使摘要的生成過程可以向抽取器獲取的重點關注的內容靠攏, 從而在單詞級別上更新注意力分布:
生成概率gen的計算公式為
交互矩陣可以捕獲文章中的句間關系, 因此文章整體的中心度能夠反映可解釋摘要的更新度和相關度等屬性。為了探索生成摘要的可解釋性, 模型采用可控制的閾值方法, 對式(7)中的更新度和相關度進行調節(jié), 構造一個包含{0,1}的掩碼矩陣, 對交互矩陣進行更新, 從而使抽取器獲取的中心度信息向更新度或相關度靠攏:
其中, ⊙為元素對應相乘, val 的數值對應式(7)中的(更新度)或(相關度)。
利用基于不同屬性的 val 值, 構建掩碼矩陣(更新度)或(相關度), 通過式(15)達到對矩陣可解釋控制的目的, 使抽取器獲取的文章中心度信息向不同的屬性偏移, 從而影響單詞注意力分布, 最終影響摘要的生成。
FGIM 的模型評估使用兩個基準數據集, CNN/Dailymail[16]和 New York Annotated Corpus (NYT)[17]。CNN/DailyMail 數據集包含新聞文章, 并由人工構建參考摘要, 按照 90266/1220/1093 和 196961/12148/ 10397 的規(guī)模, 將數據集劃分為訓練集/驗證集/測試集。參照文獻[1]進行數據預處理。NYT 數據集包含 110540 篇英文文章和人工摘要, 訓練集和測試集分別含 100834 和 9706 個示列。在上述數據的預處理過程中, 對測試集進行額外的預處理, 刪除少于50 個單詞的人工摘要, 過濾后的測試集稱為 NYT50, 包含 3421 個示例。兩個數據集的分詞分句均采用Stanford Core NLP 分詞工具。使用標準的 ROUGE作為評價指標, 通過計算模型生成的候選摘要與參考摘要之間的重疊詞匯來衡量模型生成摘要的質量, 將 R-1, R-2 和 R-L 值作為評估指標。
為了比較 FGIM 模型的性能, 選取在生成摘要中表現(xiàn)較好的模型作為對比: 指針生成網絡, 基于雙向 GRU 的序列到序列的模型框架; PG+Coverage, 在指針生成網絡的基礎上增加 Coverage 覆蓋機制; Select-Reinforce[18], 利用強化學習方法, 以 ROUGE評價指標為獎勵函數, 對文章中的句子進行抽取; Inconsistency-Loss,構建基于單詞與句子注意力機制的損失函數; Bottom-up, 使用編碼器的作為內容選擇器, 約束生成摘要過程中用到的單詞注意; ExplictSelection, 在原有的序列到序列的模型框架上進行擴展, 加入信息選擇層, 對冗余信息進行過濾; SENECA, 抽取一些具有實體的句子, 然后連接到基于強化學習的摘要系統(tǒng)進行改寫; BERTSUMabs, 基于 BERT 的抽象摘要。
FGIM-Transformer 是基于 Transformer 的模型, 包含 6 層 Transformer, 隱層為 512, 前饋層維度為1024, 采用多頭注意力機制, 包含 8 個頭。在線性層前, dropout 的概率設為 0.2?;?Transformer 的指針生成網絡采用的學習率設為 0.15, 編碼器的批處理大小設為 32, 解碼器束搜索的大小設為 4。模型的輸入將原文檔進行截取, CNN/DailyMail 取文檔中前 400 個單詞的長度作為輸入, NYT50 取文檔中前 800 個單詞長度作為輸入, 在訓練集和驗證集上的目標摘要長度取為 100 個單詞, 在測試集上的目標摘要長度取 120 個單詞。采用早停法和長度懲罰的方法進行模型訓練。
FGIM-BERT 是基于 BERT 的模型, 在文章中每個句子的開頭插入[CLS]標記, 使用間隔符號[EA]和[EB]區(qū)分文檔中的多個句子, 通過[CLS]學習句子的嵌入式表示。在 BERT 模型中, 位置嵌入表示的大小為 512, 采用“bert-base-uncased”的 BERT 預訓練模型版本, 輸入文檔和目標序列均采用 Sub-words 機制標記。Transformer 層的隱層設為 768, 所有的前饋層設為 2048。對于抽取器, 使用一層Transformer獲取句子的表示(式(7)中的h), 該層Transformer 包含 8 個頭, dropout 的概率為 0.1。采用 Trigram block 的方法防止生成重復序列。在CNN/DailyMail 和 NYT50 兩個數據集中分別采用15k 和 100k 的迭代次數, 全連接層的 dropout 概率設為 0.2。解碼器包含 6 個 Transformer 層。對基于BERT 的編碼器和基于 Transformer 的解碼器, 分別采用 0.002 和 0.2 的學習率, 解碼過程與 FGIM-Transformer 的設置相同, 在兩塊 2080Ti GPU 上進行訓練。訓練過程中抽取器占用 24h, 生成器占用48h, 混合的FGIM 模型占用 24h, 模型總的參數量為 1.8 億, 使用交叉驗證的方法選擇超參數。
表 2 為模型在 CNN/DailyMail 和 NYT50 數據集上的實驗結果??梢钥闯? FGIM-BERT 模型的所有指標都超過目前最好的模型。在基準模型中, 均為通過先抽取再生成的框架進行摘要生成, 本文的FGIM-BERT 模型在相同框架的基礎上, 比目前最好的模型(BERTSumAbs)在兩個數據集上均提高1%~6.55%。尤其在 NYT50 數據集上, FGIM-BERT模型在 R-2 指標上增幅最大, 說明在生成模型中引入基于文章的可解釋性細粒度信息是有效的。除使用 BERT 的基準模型外, FGIM-Transfor-mer 的效果普遍略高于現(xiàn)有最優(yōu)模型, 說明 FGIM 框架具有普遍有效性。Transformer 比 BERT 表現(xiàn)差, 也說明通過預訓練模型可以增強模型文本表示的能力,因此更適用于序列生成的任務。
表2 CNN/DailyMail 和 NYT50 數據集的 ROUGE評價結果(%)
說明: “-”表示基準模型沒有使用對應數據集測試; 粗體數字表示最優(yōu)結果。
3.5.1 數據構建
表3 FGIM-BERT可控性能比較(%)
說明: ↑和↓表示在無控制條件下 ROUGE 分數提升或下降。
從體現(xiàn)模型可控性的示例可以看出, 加入相關性控制后(圖 2(a)), 與原始 FGIM 模型相比, FGIM模型能夠生成與參考摘要中相關的內容(灰色), 同時仍能保留原始 FGIM 生成的內容(下劃線); 加入更新度控制后(圖 2(b)), 模型能夠生成與“Talley’s longevity”(下劃線)不一樣主題的摘要句(灰色), 涵蓋原文檔中新的主題, 對文章的全局信息有更好的覆蓋更新。
3.5.2 人工評價
為驗證更新度和相關度可控實驗的準確性, 本文還采用問答和標準排序的方法進行人工評估。
問答方法[20]: 按照問答的模式, 對系統(tǒng)生成摘要進行評估。首先基于參考摘要初始一組問題, 參與者閱讀 FGIM 系統(tǒng)和其他基線模型生成的摘要, 然后按問答的模式對初始問題作答。根據標準答案進行打分(0~5 分), 與標準答案越接近, 得分越高, 說明模型生成摘要的能力越好。
標準排序方法: 為參與者提供整個文檔和針對該文檔的多個匿名系統(tǒng)(包含 FGIM)生成的摘要, 根據特定的標準(信息量、新穎度、相關度和流暢度等)選擇最好和最差的摘要。計算各系統(tǒng)摘要被選為最好(Best, 1)和最差(Worst, -1)摘要次數差值的百分比, 作為每個系統(tǒng)的得分(-1~1)。
表 4 為基于問答和標準排序的人工評估結果, 其中 Gold 為數據集中給定的參考摘要, 作為不同系統(tǒng)之間相互比較的天花板??梢钥闯? FGIM-BERT生成的摘要在問答方法中具有較高的得分, 是模型效果的上限。針對相同問題, 在所有基準模型中, FGIM-BERT 模型給出正確答案的比例最大。在標準排序的第一組排名中, 5 個系統(tǒng)同時進行排名, FGIM-BERT 系統(tǒng)生成摘要的效果更好。第二組排名中選取兩個基于更新度和相關度的可控 FGIM 系統(tǒng), 同時與 Bottom-up 和原始 FGIM-BERT 進行比較, 發(fā)現(xiàn)經過更新度控制后, 系統(tǒng)生成的摘要在多樣性指標中表現(xiàn)更好, 而經過相關度控制后, 生成的摘要在與文章的相關性方面表現(xiàn)更好。
圖2 FGIM模型的實例生成結果
表4 基于問答和標準排序的人工評估
說明: 信息性、多樣性、相關性和流暢性為人工評估的維度。
本文提出一種基于細粒度可解釋矩陣的模型FGIM, 通過建立細粒度的可解釋矩陣抽取重要句子, 引導摘要生成。進一步地, 模型利用可解釋屬性(句子更新度和句子與文章的相關性)來控制模型生成。為考慮句對的影響因素, 在訓練抽取器時, 提出基于句對的優(yōu)化目標。通過可解釋的屬性優(yōu)化文章中句子分布, 并與生成器中的指針相結合。在兩個通用數據集(CNN/DailyMail 和 NYT50)上的實驗結果表明, 本文提出的模型均取得最優(yōu)的模型效果。為了驗證生成摘要所具備的新穎性和相關性的特點, 本文還人工構建兩個測試集, 通過 ROUGE值和人工評估的結果, 可以看到 FGIM 模型在可控生成能力上有顯著的改進。
[1] See A, Liu P J, Manning C D. Get to the point: Summarization with pointer-generator networks // Pro-ceedings of the 55th Annual Meeting of the Associa-tion for Computational Linguistics. Vancouver, 2017: 1073-1083
[2] Peters M E, Neumann M, Iyyer M, et al. Deep contex-tualized word representations [EB/OL]. (2018-03-22) [2020-10-10]. https://arxiv.org/pdf/1802.05365.pdf
[3] Radford A, Narasimhan K, Salimans T, et al. Im-proving language understanding by generative pre-training [EB/OL]. (2019-05-24)[2020-10-10]. https: //s3-us-west-2.amazonaws.com/openai-assets/research- covers/language-unsupervised/language_understanding_ paper.pdf
[4] Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for lan-uage understanding // Proceedings of NAACL-HLT 2019. Minneapolis, 2019: 4171-4186
[5] Xu Hu, Liu Bing, Shu Lei, et al. BERT post-training for review reading comprehension and aspect-based sentiment analysis // Proceedings of NAACL-HLT 2019. Minneapolis, 2019: 2324-2335
[6] Liu Yang and Lapata M. Text summarization with pretrained encoders // Proceedings of the 2019 Con-ference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong, 2019: 3730-3740
[7] Zhang Xingxing, Wei Furu, Zhou Ming. HIBERT: Document level pre-training of hierarchical bidirec-tional transformers for document summarization // Proceedings of the 57th Annual Meeting of the Asso-ciation for Computational Linguistics. Florence, 2019: 5059-5069
[8] Nallapati R, Zhou B, Gulcehre C, et al. Abstractive text summarization using sequence-tosequence RNNs and beyond // Proceedings of the 20th SIGNLL Con-ference on Computational Natural Language Learning. Berlin, 2016: 280-290
[9] Zhou Qingyu, Yang Nan, Wei Furu, et al. Selective encoding for abstractive sentence summarization // Proceedings of the 55th Annual Meeting of the As-sociation for Computational Linguistics. Vancouver, 2017: 1095-1104
[10] Hsu W T, Lin C K, Lee M Y, et al. A unified model for extractive and abstractive summarization using inconsistency loss // Proceedings of the 56th Annual Meeting of the Association for Computational Lin-guistics. Melboume, 2018: 132-141
[11] Gehrmann S, Deng Y, Rush A. Bottom-up abstractive summarization // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Proces-sing. Brussels, 2018: 4098-4109
[12] Tan Jiwei, Wan Xiaojun, Xiao Jianguo. Abstractive document summarization with a graphbased atten-tional neural model // Proceedings of the 55th Annual Meeting of the Association for Computational Lin-guistics. Vancouver, 2017: 1171-1181
[13] Li Wei, Xiao Xinyan, Wang Yuanzhuo, et al. Impro-ving neural abstractive document summarization with explicit information selection modeling // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, 2018: 1787-1796
[14] You Yongjian, Jia Weijia, Liu Tianyi, et al. Improving abstractive document summarization with salient in-formation modeling // Proceedings of the 57th Annual Meeting of the Association for Computational Lin-guistics. Florence, 2019: 2132-2141
[15] Mihalcea R, Tarau P. Textrank: bringing order into text // Proceedings of the 2004 conference on empi-rical methods in natural language processing. Doha, 2014: 404-411
[16] Hermann K M, Kocisky T, Grefenstette E, et al. Tea-ching machines to read and comprehend // Advances in neural information processing systems. Montreal, 2015: 1693-1701
[17] Sandhaus E. The new york times annotated corpus // Linguistic Data Consortium. Philadelphia, 2008, 6(12): e26752
[18] Chen Y C, Bansal M. Fast abstractive summarization with reinforce-selected sentence rewriting // Procee-dings of the 56th Annual Meeting of the Association for Computational Linguistics. Melboume, 2018: 675- 686
[19] Zheng Hao, Lapata M. Sentence centrality revisited for unsupervised summarization // Proceedings of the 57th Annual Meeting of the Association for Computa-tional Linguistics. Florence, 2019: 6236-6247
[20] Clarke J, Lapata M. Discourse constraints for docu-ment compression // Proceedings of the 56th Annual Meeting of the Association for Computational Lin-guistics. Uppsala, 2010, 36(3): 411-441
Abstractive Summarization Based on Fine-Grained Interpretable Matrix
WANG Haonan1, GAO Yang1,3,?, FENG Junlan2, HU Min2, WANG Huixin2, BAI Yu1
1. School of Computer Science and Technology, Beijing Institute of Technology, Beijing 100081; 2. China Mobile Research Institute, Beijing 100032; 3. Beijing Engineering Research Center of High Volume Language Information Processing and Cloud Computing Applications, Beijing 100081; ? Corresponding author, E-mail: gyang@bit.edu.cn
According to the great challenge of summarizing and interpreting the information of a long article in the summary model. A summary model (Fine-Grained Interpretable Matrix, FGIM), which is retracted and then generated, is proposed to improve the interpretability of the long text on the significance, update and relevance, and then guide to automatically generate a summary. The model uses a pair-wise extractor to compress the content of the article, capture the sentence with a high degree of centrality, and uses the compressed text to combine with the generator to achieve the process of generating the summary. At the same time, the interpretable mask matrix can be used to control the direction of digest generation at the generation end. The encoder uses two methods based on Transformer and BERT respectively. This method is better than the best baseline model on the benchmark text summary data set (CNN/DailyMail and NYT50). The experiment further builds two test data sets to verify the update and relevance of the abstract, and the proposed model achieves corresponding improvements in the controllable generation of the data set.
abstractive summarization; interpretable extraction; centrality; mask matrix; controllable
2020-06-08;
2020-08-07
10.13209/j.0479-8023.2020.082
教育部-中國移動科研基金(MCM20170302)資助