• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于語義對齊的生成式文本摘要研究

    2021-02-02 02:50:54吳世鑫黃德根李玖一
    北京大學學報(自然科學版) 2021年1期
    關(guān)鍵詞:解碼器解碼語義

    吳世鑫 黃德根 李玖一

    基于語義對齊的生成式文本摘要研究

    吳世鑫 黃德根?李玖一

    大連理工大學計算機學院, 大連 116023; ?通信作者, E-mail: huangdg@dlut.edu.cn

    針對當前生成式文本摘要模型在解碼時對摘要整體語義信息利用不充分的問題, 提出一種基于語義對齊的神經(jīng)網(wǎng)絡文本摘要方法。該方法以帶注意力、Pointer 機制和 Coverage 機制的 Sequence-to-Sequence 模型為基礎(chǔ), 在編碼器與解碼器之間加入語義對齊網(wǎng)絡, 實現(xiàn)文本到摘要的語義信息對齊; 將獲得的摘要整體語義信息與解碼器的詞匯預測上下文向量進行拼接, 使解碼器在預測當前詞匯時不僅利用已預測詞匯序列的部分語義, 而且考慮擬預測摘要的整體語義。在中文新聞語料 LCSTS 上的實驗表明, 該模型能夠有效地提高文本摘要的質(zhì)量, 在字粒度上的實驗顯示, 加入語義對齊機制可以使Rouge_L值提高5.4個百分點。

    生成式文本摘要; Sequence-to-Sequence模型; 語義對齊網(wǎng)絡

    文本摘要任務指計算機自動生成準確地、全面地反映某一文本中心內(nèi)容的簡潔且連貫短文的過程[1]。文本摘要自動生成技術(shù)應用廣泛, 尤其在提高用戶獲取信息效率和實現(xiàn)文本壓縮存儲方面的作用越來越突出。文本摘要任務的分類方式有很多, 按照摘要生成方法, 可以分為抽取式摘要和生成式摘要。抽取式摘要指從文本中抽取現(xiàn)有的若干句子, 組合成為文本的摘要; 生成式摘要是在綜合分析原文信息后, 通過算法自動生成新句子作為文本的摘要。

    由于生成式方法更貼近人工生成摘要的過程, 且在語法準確度和語義連貫性方面比抽取式方法更有優(yōu)勢, 因此受到越來越多的重視。目前生成式方法通常以序列到序列(Sequence-to-Sequence)深度神經(jīng)網(wǎng)絡模型[2]為基礎(chǔ), 該模型的作用是在編碼器–解碼器框架下, 將源序列轉(zhuǎn)化為目標序列。對文本摘要自動生成任務而言, 就是將文本詞匯序列轉(zhuǎn)化為摘要詞匯序列。

    生成式文本摘要技術(shù)近年來得到長足發(fā)展, 有很多研究者嘗試對編碼端進行改進, 不斷挖掘并細化對文本有效信息的利用程度。Lin 等[3]提出一種基于卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)和自注意力機制的全局編碼門, 增強了對文本詞匯特征和內(nèi)部聯(lián)系的挖掘。Nallapati 等[4]以帶注意力機制的 Sequence-to-Sequence 模型為基礎(chǔ), 利用語言特征構(gòu)造詞向量, 并將其與普通詞向量相結(jié)合, 豐富了編碼器詞嵌入時包含的信息。Chopra等[5]利用卷積工具, 在原詞匯編碼上增加位置和上下文信息, 提出條件循環(huán)神經(jīng)網(wǎng)絡模型。Wang 等[6]在編碼器文本表示部分構(gòu)建檢索、重排序以及BiSET 三個模型, 通過檢索和重排序構(gòu)建文本表示模板, 再利用 BiSET, 結(jié)合模板與文本構(gòu)建編碼器端的文本表示, 提高了文本摘要的質(zhì)量。

    有些研究者將解碼端作為切入點, 通過增強解碼器詞匯預測的準確性來提高摘要的生成質(zhì)量。Gehrmann 等[7]針對解碼器在文本內(nèi)容選擇上的局限性, 提出一種短語粒度的內(nèi)容選擇器作為自底向上的注意力機制, 使解碼器更多地關(guān)注文本中可作為摘要的短語。Song 等[8]在詞向量基礎(chǔ)上擴展詞匯結(jié)構(gòu)特征信息, 并將句子語法結(jié)構(gòu)融入解碼器的注意力機制中, 使結(jié)構(gòu)化的關(guān)鍵詞及其在文本中的語法關(guān)系保留到摘要詞匯預測序列中, 幫助再現(xiàn)事實細節(jié)。See 等[9]為解決解碼器無法生成詞表外詞匯(out of vocabu-lary, OOV)以及預測詞匯重復的問題, 分別提出指針機制和覆蓋機制, 用來提高生成摘要的質(zhì)量。Tan 等[10]提出一種基于圖的注意力機制, 提高解碼器對文本中顯性信息的挖掘程度, 并在解碼階段利用一種分層集束搜索算法來生成多句摘要。Cao 等[11]利用相似句子有相似摘要的假設(shè), 在解碼器中引入由檢索、重排序和重寫 3 個部分組成的軟模板, 首先通過檢索得到相似句, 然后利用重排序進行排序, 最后通過重寫進行摘要詞匯預測。以上對解碼器進行改進的方法均提高了摘要生成的質(zhì)量, 但在解碼時, 解碼器往往僅對已預測的一個或多個詞匯語義進行片段性利用, 未有效地利用預測摘要的整體語義信息。

    針對上述問題, 本文提出一種基于語義對齊的神經(jīng)網(wǎng)絡文本摘要模型, 以帶注意力、Coverage 機制和 Pointer 機制的 Sequence-to-Sequence 模型為基礎(chǔ), 在編碼端與解碼端之間加入語義對齊網(wǎng)絡。通過該語義對齊網(wǎng)絡, 挖掘預測摘要的整體語義信息, 并在解碼端進行詞匯預測時, 將該整體語義信息與上下文向量進行拼接, 從而豐富上下文的向量表示,提高詞匯預測時的準確性。

    1 基于指針網(wǎng)絡和覆蓋機制的生成式文本摘要模型

    1.1 指針網(wǎng)絡(pointer network)

    由于詞表大小的限制, 生成式文本摘要在解碼過程中無法產(chǎn)生 OOV。指針網(wǎng)絡[9]是在注意力機制基礎(chǔ)上的改進, 允許解碼器通過從詞典中生成或復制輸入詞匯兩種方式進行詞匯預測。

    首先, 計算基于注意力機制的詞匯預測概率; 然后, 在給定時刻上下文向量、解碼器隱狀態(tài)和–1 時刻解碼器預測序列–1的條件下計算利用生成方式進行詞預測的概率gen; 最后, 將gen作為開關(guān), 并結(jié)合詞匯預測概率和注意力分布, 計算Pointer 機制下的詞匯預測概率。

    1.2 覆蓋機制(coverage mechanism)

    傳統(tǒng)的基于注意力機制的 Sequence-to-Sequence 模型中, 預測詞匯出現(xiàn)重復是普遍存在的問題。原因是在解碼過程中, 注意力機制的重復關(guān)注造成信息的冗余, Coverage 機制[9]可以用來解決注意力重復問題。

    2 基于語義對齊的生成式文本摘要模型

    本文以帶注意力、Pointer 和 Coverage 機制的Sequence-to-Sequence 模型為基礎(chǔ), 通過添加語義對齊網(wǎng)絡, 構(gòu)造基于語義對齊的神經(jīng)網(wǎng)絡文本摘要模型。模型的輸入為文本詞匯序列, 輸出為摘要詞匯序列, 整體結(jié)構(gòu)如圖 1 所示。

    2.1 編碼端

    編碼端采用兩層長短期記憶(long short-term memory, LSTM)網(wǎng)絡結(jié)構(gòu), 第一層為雙向 LSTM 網(wǎng)絡, 第二層為單向 LSTM 網(wǎng)絡。構(gòu)建過程如下:

    2.2 解碼端

    解碼端采用單層單向 LSTM 網(wǎng)絡結(jié)構(gòu), 構(gòu)建過程如下:

    其中,S表示時刻的解碼隱狀態(tài)。

    1) 注意力機制[9]:

    其中,為輸入序列的長度;,均為可訓練的參數(shù)。

    2) Coverage機制[9]:

    3)語義對齊網(wǎng)絡(semantic alignment network, SAN): 通過文本與摘要之間的語義對齊, 豐富解碼器在預測詞匯時上下文向量的語義信息, 構(gòu)造過程如下:

    4) Pointer機制[9]:

    2.3 損失函數(shù)

    3 實驗結(jié)果與分析

    3.1 語料

    本研究使用 LCSTS[12](A Large Scale Chinese Short Text Summarization Dataset)語料, 內(nèi)容來自新浪微博。語料包括 3 個部分: 第 1 部分為 2400591個文本–摘要序列, 第 2 部分為 10666 個帶人工打分標簽的文本–摘要序列, 第 3 部分為 1106個人工交叉打分一致的文本–摘要序列。本文選取第 1 部分為訓練集, 第 2 部分為驗證集, 第 3 部分為測試集。

    表1 基于詞粒度和字粒度的實驗結(jié)果對比

    說明: RAPC為RNN+Attention+Pointer+Coverage; 粗體數(shù)字表示最優(yōu)結(jié)果, 下同。

    3.2 實驗結(jié)果

    從基于字和基于詞兩個粒度展開實驗, 模型訓練的相關(guān)參數(shù)設(shè)定如下: 輸入和輸出詞(字)維度均為 128, LSTM 網(wǎng)絡隱藏層維度為 256, 學習率為0.1, batchsize 批次大小為 100, beamsize 集束搜索寬度設(shè)定為 4, 詞表大小為 50000; 字典大小為 10723, epoch 為 30, 結(jié)果評價工具采用 Rouge[13]。實驗結(jié)果如表1所示。

    從表 1 可以看出, 在詞粒度上, 基于注意力機制、Pointer 機制和 Coverage 機制的 RAPC 模型實驗結(jié)果總體上比 baseline 好, 在 RAPC 上加入語義對齊網(wǎng)絡后 Rouge_1 提高 0.1 個百分點, Rouge_2 持平, Rouge_L 稍降低 1.3 個百分點。在字粒度上, RAPC在 3 個評價指標上表現(xiàn)均比 baseline 好, 在 RAPC上加入語義對齊網(wǎng)絡后, Rouge_1 提高 1.7 個百分點, Rouge_2 提高 1.7 個百分點, Rouge_L 提高 5.4 個百分點。

    為檢驗語義對齊網(wǎng)絡對 UNK (未登錄詞標識)和詞匯重復問題的影響程度, 選取 RAPC 和RAPC+ SAN 兩個模型, 對測試集 1106 個文本生成摘要中UNK 以及出現(xiàn)重復詞匯句子的數(shù)量進行統(tǒng)計, 結(jié)果如表2所示。

    為檢驗語義對齊網(wǎng)絡對摘要生成質(zhì)量的影響, 對 RAPC 和 RAPC+SAN 兩個模型生成的摘要進行人工評價。首先, 尋找 5 名評價人員(3 名研究生學歷, 2 名本科學歷); 然后, 分別從兩個模型的生成結(jié)果中隨機選取 200 條摘要內(nèi)容進行人工評價, 評價內(nèi)容包括生成摘要與參考摘要的信息吻合度、生成摘要的語言簡潔性和可讀性, 并從 1 到 5 進行打分, 分數(shù)越高代表相應的性能越好; 最后, 對打分結(jié)果取均值。人工評價結(jié)果如表 3 所示。通過兩個例句對摘要生成結(jié)果進行對比, 結(jié)果如表 4 所示。

    表2 加入語義對齊網(wǎng)絡前后出現(xiàn)UNK和重復詞匯情況

    3.3 實驗分析

    從表 1 可以看出, 基于詞粒度的實驗結(jié)果提升不夠明顯, 而基于字粒度的實驗結(jié)果整體上有較大的改進。

    詞粒度實驗方面, 從人工評價結(jié)果(表 3)可以看出, 加入語義對齊網(wǎng)絡后, 生成摘要在信息吻合度、簡潔性和可讀性上均有一定程度的提升, 說明語義對齊網(wǎng)絡能夠改善生成摘要的質(zhì)量。但是, 從UNK 和詞匯重復統(tǒng)計結(jié)果(表 2)可以發(fā)現(xiàn), 加入語義對齊網(wǎng)絡后, UNK 和詞匯重復問題未得到明顯的改善。詞匯重復問題在模型中主要依靠 Coverage機制進行規(guī)避, 而 UNK 問題與詞表大小和 Pointer機制有很大關(guān)系。表 2 中的結(jié)果說明語義對齊網(wǎng)絡并不能很好地解決以上兩個問題, 這在一定程度上影響 Rouge 值的提升, 因此加入語義對齊網(wǎng)絡前后結(jié)果基本上持平(表 1)。摘要生成結(jié)果(表 4)的示例也可以印證上述分析, 加入語義對齊網(wǎng)絡后, 例句 1 中原來的“投行”變成“投行夢”, 例句 2 預測出“江陰再現(xiàn)”, 與原文意思更加貼近, 說明詞匯生成的準確性得到提高。但是, 依然存在大量詞匯重復以及 UNK 的問題, 如例句 1 中加入語義對齊網(wǎng)絡后, 由“投行的“”時代到來了嗎???”變成“投行夢的“”: 投行夢的之路?”, 詞匯重復和UNK 問題并未得到有效的改善。

    表3 人工評價結(jié)果

    表4 摘要生成結(jié)果對比

    字粒度實驗方面, 從人工評價結(jié)果(表 3)可以看出, 加入語義對齊網(wǎng)絡后, 預測摘要在信息吻合度、簡潔性和可讀性上均有較大的提升, 尤其是生成摘要與參考摘要的信息吻合度提升 0.34。究其原因, 基于字粒度的模型在生成摘要序列時使用的是字典, 與固定大小的詞表相比, 能夠顯著地提升詞匯覆蓋度, 有效地規(guī)避 UNK 問題。從 UNK 和詞匯重復統(tǒng)計結(jié)果(表 2)可以看出, 基于字粒度的模型未出現(xiàn) UNK, 在這種情況下, 解碼器預測詞匯時使用的上下文語義信息在句子生成時的作用會更加突出。表 1 和 3 的結(jié)果也表明, 加入語義對齊網(wǎng)絡有效地改善了生成摘要的整體質(zhì)量。在摘要生成結(jié)果(表 5)的示例中, 加入語義對齊網(wǎng)絡后, 例句 1 中“投行夢的年輕人不得不重新檢視自己裁員”比原來的“投行夢的投行夢與投行夢的故事——投行”在可讀性和簡潔性上都有很大的提升, 例句 2 預測出“牽涉 8 億”, 與參考摘要的信息吻合度更高??梢娂尤胝Z義對齊網(wǎng)絡后確實豐富了解碼過程的整體語義, 對提升摘要效果有較大的幫助。

    4 結(jié)論

    本文針對生成式文本摘要模型中解碼器對摘要整體語義利用不充分的問題, 提出一種基于語義對齊的神經(jīng)網(wǎng)絡文本摘要模型。該模型通過構(gòu)造語義對齊網(wǎng)絡, 提高了解碼器在解碼時上下文向量的語義信息表示能力, 使解碼器在預測當前詞匯時, 不僅利用已預測詞匯序列的部分語義, 而且考慮擬預測摘要的整體語義。實驗結(jié)果表明, 基于語義對齊的神經(jīng)網(wǎng)絡文本摘要模型能夠提升生成摘要的準確性和連貫性。

    [1] Gomaa W H, Fahmy A A. A survey of text similarity approaches. International Journal of Computer App-lications, 2014, 68(13): 13–18

    [2] Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks // Advances in Neural Information Processing Systems. Montreal, 2014: 3104–3112

    [3] Lin J, Xu S, Ma S, et al. Global encoding for abstractive summarization // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). Melbourne, 2018: 163–169

    [4] Nallapati R, Zhai F, Zhou B. Summarunner: A re-current neural network based sequence model for extractive summarization of documents // Thirty-First AAAI Conference on Artificial Intelligence. San Francisco, 2017: 3075–3081

    [5] Chopra S, Auli M, Rush A M. Abstractive sentence summarization with attentive recurrent neural net-works // Proceedings of the 2016 Conference of the North American Chapter of the Association for Com-putational Linguistics: Human Language Technolo-gies. San Diego, 2016: 93–98

    [6] Wang K, Quan X, Wang R. BiSET: bi-directional se-lective encoding with template for abstractive sum-marization // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Flo-rence, 2019: 2153–2162

    [7] Gehrmann S, Deng Y, Rush A. Bottom-up abstractive summarization // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, 2018: 4098–4109

    [8] Song K, Zhao L, Liu F. Structure-infused copy me-chanisms for abstractive summarization // Proceedings of the 27th International Conference on Computa-tional Linguistics. Santa Fe, 2018: 1717–1729

    [9] See A, Liu P J, Manning C D. Get to the point: sum-marization with pointer-generator networks. Associa-tion for Computational Linguistics, 2017, 17: 1073–1083

    [10] Tan J, Wan X, Xiao J. Abstractive document summa-rization with a graph-based attentional neural model // Proceedings of the 55th Annual Meeting of the As-sociation for Computational Linguistics (Volume 1: Long Papers). Vancouver, 2017: 1171–1181

    [11] Cao Z, Li W, Li S, et al. Retrieve, rerank and rewrite: soft template based neural summarization // Procee-dings of the 56th Annual Meeting of the Associa- tion for Computational Linguistics (Volume 1: Long Papers). Melbourne, 2018: 152–161

    [12] Hu B, Chen Q, Zhu F. LCSTS: a large scale chinese short text summarization dataset // Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, 2015: 1967–1972

    [13] Chopra S, Auli M, Rush A M. Abstractive sentence summarization with attentive recurrent neural net-works // Proceedings of the 2016 Conference of the North American Chapter of the Association for Com-putational Linguistics: Human Language Technologies. San Diego, 2016: 93–98

    Abstractive Text Summarization Based on Semantic Alignment Network

    WU Shixin, HUANG Degen?, LI Jiuyi

    Dalian University of Technology, Dalian 116023; ? Corresponding author, E-mail: huangdg@dlut.edu.cn

    Aiming at the problem of insufficient utilization of the overall semantic information of abstracts in decoding by the currently abstractive summarization model, this paper proposes a neural network automatic abstract model based on semantic alignment. This model is based on the Sequence-to-Sequence model with attention, Pointer mechanism and Coverage mechanism. A semantic alignment network is added between the encoder and the decoder to achieve the semantic information alignment of the text to the abstract. The achieved semantic information is concatenated with the context vector in decoding, so that when the decoder predicts the vocabulary, it not only uses the partial semantics before decoding, but also considers the overall semantics of the digest sequence. Experiments on the Chinese news corpus LCSTS show that the proposed model can effectively improve the quality of abstractive summarization.

    abstractive summarization; Sequence-to-Sequence model; semantic alignmentnetwork

    10.13209/j.0479-8023.2020.084

    2020–05–15;

    2020–08–12

    國家自然科學基金(U1936109, 61672127)資助

    猜你喜歡
    解碼器解碼語義
    《解碼萬噸站》
    科學解碼器(一)
    科學解碼器(二)
    科學解碼器(三)
    語言與語義
    線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍蜻蜓解碼器
    解碼eUCP2.0
    中國外匯(2019年19期)2019-11-26 00:57:32
    NAD C368解碼/放大器一體機
    Quad(國都)Vena解碼/放大器一體機
    “上”與“下”語義的不對稱性及其認知闡釋
    米脂县| 思茅市| 双流县| 沾益县| 化隆| 佳木斯市| 香河县| 定日县| 五家渠市| 阿拉尔市| 浦城县| 辽宁省| 凤山市| 吉隆县| 定日县| 松原市| 兴宁市| 商城县| 东海县| 浦北县| 鄯善县| 手游| 屏南县| 横山县| 绩溪县| 昌平区| 德州市| 闽侯县| 盘山县| 清原| 平山县| 天祝| 太谷县| 洛南县| 嘉鱼县| 外汇| 武强县| 建瓯市| 武清区| 衢州市| 普安县|