• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    主題關(guān)鍵詞信息融合的中文生成式自動摘要研究

    2019-04-11 12:14:44侯麗微胡珀曹雯琳
    自動化學(xué)報 2019年3期
    關(guān)鍵詞:解碼器注意力向量

    侯麗微 胡珀 曹雯琳

    自動摘要旨在從給定的文本中自動生成能表達原文主題的精簡形式,以緩解信息過載造成的閱讀壓力.自動摘要過程大致可分為抽取式和生成式兩類,抽取式摘要從原文中選取若干重要句子直接組合成摘要,生成式摘要的產(chǎn)生則相對自由靈活,有望生成更接近人工撰寫的流暢摘要,并且在技術(shù)實現(xiàn)上更具挑戰(zhàn)性.

    目前,隨著大數(shù)據(jù)和人工智能技術(shù)的發(fā)展,以及深度學(xué)習(xí)和表示學(xué)習(xí)在各個領(lǐng)域的推廣滲透[1?3],傳統(tǒng)自動摘要方法逐漸從抽取式朝著生成式演化,特別是基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)的編碼器–解碼器模型正成為當前應(yīng)用最廣泛的生成式摘要模型,并在句子級的摘要生成任務(wù)(新聞標題生成、句子壓縮等)中取得了較顯著的效果.近年來,已有學(xué)者如Bahdanau等[4]提出在此模型的解碼器部分加入對輸入序列的注意力機制,用于提取原始文本中豐富的上下文信息以避免信息覆蓋問題,導(dǎo)致該問題的原因是簡單的RNN編碼器–解碼器模型中的編碼器是將信息從前到后一步步壓縮成一個固定長度的上下文語義向量,但這種信息傳遞編碼方式會使得前面的信息被后面的信息覆蓋而失效.此外,因為該機制將注意力均勻分布在文本的所有內(nèi)容上,因而使得全文中的主題信息在摘要的生成過程中并沒有被合理地區(qū)分利用,同時主題關(guān)鍵詞是主題信息常見的表示形式.鑒于此,本文嘗試提出了一種新的融合主題關(guān)鍵詞信息的多注意力機制,并融入到循環(huán)神經(jīng)網(wǎng)絡(luò)的編碼器–解碼器模型中以補充強化原文中的主題信息,從而更好地引導(dǎo)摘要生成.具體而言,先使用無監(jiān)督方法識別文本的主題關(guān)鍵詞,然后綜合主題關(guān)鍵詞注意力機制,輸入序列注意力機制及輸出序列注意力機制三者聯(lián)合輔助最終的摘要生成.在NLPCC 2017的中文單文檔摘要評測任務(wù)上,本文提出的模型的實際摘要效果的ROUGE(Recall-oriented understudy for gisting evaluation)值比參賽隊中第一名成績還顯著提高了2~3個百分點,充分驗證了本文模型的有效性和先進性.

    1 相關(guān)工作

    現(xiàn)有自動摘要方法主要分為抽取式和生成式.抽取式摘要根據(jù)特定的約束條件(如摘要長度)直接從原文中抽取若干重要的句子,這些句子經(jīng)重新排序后組成摘要.生成式摘要往往涉及對原文內(nèi)容的語義理解和重構(gòu),且多采用更靈活的表達方式(如新詞、復(fù)述等)間接凝練出原文的主旨要點.相比于抽取式摘要,生成式摘要更接近人類撰寫摘要的形式.但由于生成式摘要通常需要復(fù)雜的自然語言生成技術(shù),因此過去的研究大多注重抽取式摘要模型設(shè)計或句子打分排序算法的設(shè)計.

    抽取式摘要首先給文本中的每個句子依重要度打分,然后根據(jù)此分數(shù)來對句子排序,進而選出得分最高且冗余小的句子組成摘要.現(xiàn)有方法中,句子重要度計算通常會結(jié)合考慮各種統(tǒng)計學(xué)和語言學(xué)特征,例如句子的位置、詞頻、詞匯鏈等.句子抽取則大致分為無監(jiān)督和有監(jiān)督兩種,其中無監(jiān)督方法主要包括基于質(zhì)心的方法[5]、基于圖模型的方法[6?8]以及基于隱含狄利克雷分布(Latent Dirichlet allocation,LDA)主題模型的方法[9?10]等,有監(jiān)督的方法則包括支持向量回歸[11]和條件隨機場模型[12]等.同時還有研究綜合考慮了各種最優(yōu)化的摘要生成目標函數(shù),例如整數(shù)線性規(guī)劃[13]、子模函數(shù)最大化[14?15]等.除此之外,還有些抽取式摘要研究結(jié)合了主題信息來輔助摘要的生成,例如基于動態(tài)主題模型的Web論壇文檔摘要[16],也有研究提出使用超圖模型來協(xié)同抽取文本關(guān)鍵詞與摘要[17].同時,有研究者還嘗試了結(jié)合圖像、視頻以及文字來聯(lián)合生成多模態(tài)的摘要[18].

    生成式摘要更接近人類自然撰寫摘要的方式,是高級摘要技術(shù)的追求目標.隨著智能技術(shù)的發(fā)展以及數(shù)據(jù)量的不斷增長,當前對生成式摘要的需求和研究越來越多.近幾年,神經(jīng)網(wǎng)絡(luò)模型在生成式摘要的一些具體任務(wù)(如標題生成、單句式單文本摘要生成等)上取得了一定的效果.Rush等[19]在一個大型語料庫上訓(xùn)練了神經(jīng)注意力模型并用于單句式摘要,之后Chopra等[20]在注意力機制的循環(huán)神經(jīng)網(wǎng)絡(luò)模型上擴展了Rush等的工作.Nallapati等[21]在基于循環(huán)神經(jīng)網(wǎng)絡(luò)的序列到序列模型上應(yīng)用各種技術(shù)改善效果,例如在解碼器階段采用的分層注意力機制和詞表限制.Paulus等[22]將輸出信息嘗試融入到輸出的隱藏層向量中,以避免產(chǎn)生重復(fù)的信息,同時提出使用強化學(xué)習(xí)的方式訓(xùn)練模型.Ma等[23]通過最大化原文本和摘要之間的語義相似性,確保生成與原文本在語義上表達一致的摘要.Tan等[24]通過序列到序列模型與傳統(tǒng)的圖模型方法融合,以增加對句子重要度的考慮來生成摘要.Li等[25]提出使用變分自動編碼器(Variational auto-encoder,VAE)提取出生成的摘要中的高維信息,然后讓該信息輔助解碼器對原文本進行注意力提取.還有一些工作在注意力機制、優(yōu)化方法和原文信息的嵌入等方面進行了改進[26?29].然而,值得注意的是以上模型的注意力機制均僅限于均勻考慮整個原文本的所有信息而忽視了原文本中隱藏的重要主題信息的影響.鑒于此,本文提出將原文本中的主題關(guān)鍵詞信息抽取出來,并自然地融入神經(jīng)網(wǎng)絡(luò)中以更好地區(qū)分引導(dǎo)生成摘要,模型中我們具體采用了多種注意力機制的聯(lián)合策略.

    2 背景模型:序列到序列模型和注意力機制

    2.1 序列到序列模型

    序列到序列模型又稱為編碼器–解碼器模型,核心是利用RNN學(xué)習(xí)一個序列的所有信息,并濃縮到一個向量中,再利用另一個循環(huán)神經(jīng)網(wǎng)絡(luò)將此信息解碼出來,進而生成另一個序列.具體結(jié)構(gòu)如圖1所示.

    現(xiàn)有的實踐發(fā)現(xiàn)[30],門控RNN比簡單RNN效果更好,如長短期記憶(Long short-term memory,LSTM),雙向門控RNN比單向RNN效果好.因此,本研究提出的模型在編碼階段采用了雙向LSTM,在解碼階段采用了單向LSTM.

    其中,編碼器作用是將輸入文檔的信息映射為一個上下文語義向量c,每一個表示最新生成的詞是由前i?1個詞聯(lián)合嵌入的上下文語義向量c生成的.具體過程為先對每一個文檔d進行分詞,每個詞w被gensim工具包1http://radimrehurek.com/gensim/中的word2vec訓(xùn)練為一個向量以作為輸入序列.在該階段,每個輸入序列通過LSTM生成一列蘊含高維信息的隱藏層向量.接下來,通過這些隱藏層向量來計算上下文語義向量c,具體計算方式為

    圖1http://radimrehurek.com/gensim/ 序列到序列模型Fig.1 The sequence-to-sequence model

    解碼器的作用是生成輸出序列.在此階段,解碼器利用編碼器壓縮后的語義向量c結(jié)合當前時間點解碼器隱藏層的輸出狀態(tài)以及上一時間點中的輸出詞來生成候選詞,具體的條件概率計算方式為

    上述編碼器–解碼器模型雖然經(jīng)典,但局限性也很明顯.由于解碼器從編碼器中獲取信息的唯一途徑是一個固定長度的上下文語義向量c,因而編碼器需要將整個原文本的信息壓縮到一個固定長度的向量中,由此導(dǎo)致了三個弊端:1)僅靠一個固定長度的上下文語義向量往往無法完整地表示整個文本的全部信息,因而自然會影響解碼器的信息解碼效果;2)由式(2)可知,一般上下文語義向量c是由編碼器最后一個LSTM輸出的隱藏層狀態(tài)向量獲取的,因此在編碼器階段先輸入的內(nèi)容所攜帶的信息會被后輸入的信息稀釋或覆蓋,且輸入序列越長,這個現(xiàn)象越嚴重;3)由圖(1)可見,解碼器在所有時間點上都共享了同一個固定長度的上下文語義向量c,因此解碼器生成的序列信息不足且固化,更合理的情況應(yīng)該是解碼器能根據(jù)輸入序列x中不同部分的不同語義信息來生成不同的輸出結(jié)果y.為了解決上述問題,Bahdanau等[4]提出了在序列到序列的模型中加入注意力機制,該機制能在一定程度上緩解這些問題.

    2.2 注意力機制

    引入注意力機制不僅為了減輕基本序列到序列模型中上下文語義向量 c的信息負擔(dān),還要對后續(xù)生成內(nèi)容有針對性地生成一組對應(yīng)的注意力權(quán)重以改進模型的實際生成效果,具體結(jié)構(gòu)如圖2所示.

    圖2 注意力機制Fig.2 The attention mechanism

    由圖2可知,在解碼過程中,注意力機制使用動態(tài)改變的上下文語義向量來獲取編碼器中的原文語義信息,當生成每一個詞yi的時候,編碼器會動態(tài)產(chǎn)生與之對應(yīng)的語義向量ci.這里的關(guān)鍵是如何定義不同解碼時間的注意力系數(shù)αij,具體為

    其中,η由一個多層感知器實現(xiàn),采用tanh作為激活函數(shù).代表在解碼階段時間i的LSTM 隱藏層向量,代表在編碼階段時間j的LSTM隱藏層向量,w為注意力權(quán)重矩陣.

    通過上述公式計算得到注意力系數(shù)之后,便可結(jié)合編碼器中所有隱藏層向量和注意力系數(shù)生成解碼階段時間i的上下文語義向量ci,具體為

    由于在每個時間點,解碼器會根據(jù)當前解碼器的隱藏層向量來引導(dǎo)編碼器產(chǎn)生的上下文語義向量ci生成對應(yīng)的輸出序列,因此在生成摘要的某個部分時,注意力機制將幫助模型選擇與此部分高度相關(guān)的原文信息,進而有望生成更好的相關(guān)摘要內(nèi)容.

    通常訓(xùn)練好一個序列到序列模型需要較大規(guī)模的數(shù)據(jù),在數(shù)據(jù)量相對較少的情況下可能存在效果欠佳的情況,在文本摘要領(lǐng)域,雖然注意力機制的引入在一定程度上解決了一些問題并提升了模型的效果,但生成的摘要離人類撰寫的摘要還有一定差距,因此如何將文本更深層次的信息有效地嵌入到模型中來生成更好的摘要仍需繼續(xù)研究.為了解決上述問題,本文提出在序列到序列模型中引入主題關(guān)鍵詞信息來優(yōu)化現(xiàn)有生成式摘要模型的效果,并且提出了一種新的融入主題關(guān)鍵詞信息的多注意力序列到序列模型,通過聯(lián)合注意力機制將文本中多維重要信息綜合起來實現(xiàn)對摘要的引導(dǎo)性生成.通過在NLPCC 2017中文單文檔摘要評測數(shù)據(jù)集上的實驗,本文提出的模型非常有效.目前,在生成式摘要領(lǐng)域,融合主題關(guān)鍵詞信息以聯(lián)合注意力方式優(yōu)化摘要生成效果的設(shè)計思路尚未見文獻報道.

    3 提出的模型:主題關(guān)鍵詞信息融合的多注意力序列到序列模型

    在現(xiàn)有模型基礎(chǔ)上,本文提出采用聯(lián)合多注意力融合機制以提升摘要生成效果,模型的具體結(jié)構(gòu)如圖3所示.

    本節(jié)將對圖3中重要標識部分(主題關(guān)鍵詞注意力機制和輸入輸出信息注意力機制)進行詳細介紹,首先介紹主題關(guān)鍵詞抽取,然后對模型中主題關(guān)鍵詞注意力機制進行詳細的說明.最后對模型中的輸入輸出信息注意力機制進行簡要的介紹.

    3.1 主題關(guān)鍵詞注意力機制

    1)主題關(guān)鍵詞抽取

    按照認知科學(xué)的觀點,人類必須先識別、學(xué)習(xí)和理解文本中的實體或概念,才能理解自然語言文本,而這些實體和概念大都是由文本句子中的名詞或名詞短語描述的[31].因此本文通過發(fā)掘文章中的重點實體和概念來輔助模型理解自然語言文本.一個詞在文本中出現(xiàn)的頻率越高,產(chǎn)生的效力就越強,對文本的表達能力也越強,而這些實體或概念就稱為文本的關(guān)鍵詞.文本的主題關(guān)鍵詞表征了文檔主題性和關(guān)鍵性的內(nèi)容,是文檔內(nèi)容理解的最小單位[32].因此本文提出將主題關(guān)鍵詞信息融入到序列到序列模型中以實現(xiàn)在主題信息引導(dǎo)下的摘要生成.

    圖3 主題關(guān)鍵詞信息融合的多注意力序列到序列模型Fig.3 The multi-attention sequence-to-sequence model based on keywords information

    本文使用的主題關(guān)鍵詞抽取方法為HanLP開源工具包提供的主題關(guān)鍵詞提取算法TextRank2http://hanlp.linrunsoft.com/doc/_build/html/extract.html#extract-keyword,并對每個文檔提取出10個最重要的主題關(guān)鍵詞.TextRank[33]是一種基于圖模型的主題關(guān)鍵詞抽取算法,基本思想源自谷歌的PageRank算法,核心是利用投票機制迭代計算圖中每個結(jié)點的全局得分,然后取出得分最高的若干詞作為主題關(guān)鍵詞.與LDA和隱馬爾科夫模型(Hidden Markov model,HMM)等模型不同,TextRank不需要事先對多篇文本進行學(xué)習(xí)訓(xùn)練,因簡潔有效獲得了較廣泛的應(yīng)用.

    2)主題關(guān)鍵詞注意力機制實現(xiàn)

    人類撰寫文章或摘要,都會預(yù)先設(shè)定一些內(nèi)容框架并提取重要的實體信息,然后根據(jù)框架和實體信息構(gòu)建語言.受此啟發(fā),本文通過自動提取文本的主題關(guān)鍵詞組成一個文本的框架,然后將模型對文本的注意力引到這些預(yù)先提取的主題關(guān)鍵詞信息上,由此生成基于主題信息的摘要.

    圖3右半部分對主題關(guān)鍵詞注意力機制的基本結(jié)構(gòu)進行了直觀呈現(xiàn).該機制將提取出的主題關(guān)鍵詞通過注意力機制融入到模型中,通過主題關(guān)鍵詞中蘊含的語義信息來引導(dǎo)模型生成更完善的摘要.

    在編碼階段,由于原文本的輸入形式是使用word2vec訓(xùn)練得到的詞向量,因此為了保持詞嵌入信息的一致性,對從原文中抽取出的主題關(guān)鍵詞,直接利用word2vec訓(xùn)練出的詞向量作為輸入,其中n為主題關(guān)鍵詞的數(shù)量.

    在解碼階段,主題關(guān)鍵詞注意力機制通過解碼器解碼當前輸出的LSTM隱藏層狀態(tài)向量中的信息來獲得對所有主題關(guān)鍵詞信息的不同注意程度.通過此機制,該模型在生成摘要的過程中能自然融入文本中的主題信息來生成基于主題引導(dǎo)式摘要.本文提出的主題關(guān)鍵詞注意力機制中注意力系數(shù)的具體計算方法為

    通過式(7)得到當前解碼器時間點i對主題關(guān)鍵詞的注意力系數(shù)后,便可結(jié)合主題關(guān)鍵詞的嵌入向量生成上下文語義向量,具體為

    其中,n表示主題關(guān)鍵詞個數(shù),kj表示第j個主題關(guān)鍵詞的向量表示.

    3.2 輸入輸出注意力機制

    圖2中的輸入輸出注意力機制是將輸入序列和輸出序列的注意力結(jié)合起來共同嵌入到解碼器當前時間點的輸出序列中,這樣既能考慮輸入序列的信息,又可以通過對輸出序列信息的回顧來避免信息的冗余和重復(fù).

    輸入序列的注意力機制將原文中隱含的信息提取出來嵌入到輸出序列中,其上下文語義向量表示為.

    輸出序列注意力機制與輸入序列注意力機制的實現(xiàn)方式類似,但意義不同,解決的問題也不同.由于注意力機制的序列到序列模型在生成摘要的過程中存在重復(fù)信息的問題,而在該模型中加入對輸出序列的注意力機制可在一定程度上緩解此問題,因此,本模型也一并加入了輸出序列的注意力機制來優(yōu)化摘要的生成結(jié)果,具體實現(xiàn)方法為

    3.3 多種注意力融合

    在獲得主題關(guān)鍵詞注意力和輸入,輸出注意力之后,我們將這兩種注意力聯(lián)合嵌入當前解碼器的輸出向量中以獲得輸出詞的條件概率.通過此方法,輸出向量中不僅包含輸出序列的信息,也自然融入了原文本中的語義信息以及主題關(guān)鍵詞信息,結(jié)合這些信息有望輸出更優(yōu)質(zhì)的摘要.為了不加重網(wǎng)絡(luò)的訓(xùn)練負擔(dān),本文僅采用線性加和的方式將多種注意力機制獲得的上下文語義向量融合到一起,實驗證明該種融合方式有效.具體融合方式為:先利用線性組合將三個注意力機制獲得的上下文語義向量聯(lián)合嵌入到解碼器的第i個時間點隱藏狀態(tài)中,然后使用softmax層得出詞表中詞的輸出概率,具體計算方法為

    其中,L表示線性組合linear,表示解碼器當前時間點i的隱藏層向量,表示文章主題關(guān)鍵詞通過主題關(guān)鍵詞注意力機制計算得出的上下文語義向量,表示之前所有輸出向量通過輸出信息注意力機制計算得出的上下文語義向量,表示輸入向量通過輸入信息注意力機制計算得出的上下文語義向量.

    4 實驗

    4.1 數(shù)據(jù)集

    本研究的實驗語料采用NLPCC 2017的中文單文檔摘要評測數(shù)據(jù)集,此數(shù)據(jù)集是今日頭條提供的公開新聞數(shù)據(jù),包括50000個文本–摘要對,每篇文章的長度從10~10000個中文字符不等,每篇摘要的長度不超過60個中文字符.在實驗中,將其中49500個文本–摘要對作為訓(xùn)練集和驗證集,另外500個作為測試集.

    4.2 評價標準

    評價方法采用自動摘要領(lǐng)域常用的基于召回率統(tǒng)計的摘要評價工具ROUGE(Recall-oriented understudy for gisting evaluation)[34].ROUGE由ISI的Lin和Hovy提出,基于機器摘要和人工標準摘要中的n元詞(即n-gram)匹配情況來生成量化的評價結(jié)果.ROUGE指標由一系列具有細微差別的計算方法組成,包括ROUGE-1,ROUGE-2,ROUGE-3,ROUGE-4,ROUGE-L等.ROUGE-1.5.5工具包已被DUC和TAC等國際著名的文本摘要評測會議作為標準的評價工具采用.

    本實驗使用了ROUGE的五類評價指標,分別為ROUGE-1,ROUGE-2,ROUGE-3,ROUGE-4和ROUGE-L.直觀看,ROUGE-1可以代表自動摘要的信息量,ROUGE-2、ROUGE-3以及ROUGE-4則側(cè)重于評估摘要的流暢性,而ROUGE-L可看成是摘要對原文信息的涵蓋程度的某種度量.其中ROUGE-N的計算方法為

    其中,RS表示參考摘要,該摘要為人工生成的標準摘要.gn表示n元詞,Countm(gn)表示系統(tǒng)生成的摘要和標準摘要中同現(xiàn)的相同n-gram的最大數(shù)量,Count(gn)表示標準摘要中出現(xiàn)的n-gram個數(shù).

    ROUGE為每類評價指標分別計算了準確率P、召回率R和F值(其中,F=2PR/(P+R)),由于F值綜合考慮了評價指標的準確率和召回率,因此本文統(tǒng)一將F值3ROUGE參數(shù):-n 4-U-z SPL-l 60作為實驗的最終結(jié)果匯報.

    4.3 實驗步驟

    在數(shù)據(jù)預(yù)處理過程中,使用jieba4https://pypi.python.org/pypi/jieba/開源分詞工具對文本進行分詞,再用subword模型5https://github.com/rsennrich/subword-nmt對分詞后的數(shù)據(jù)進行更細致的切分.通過這些操作,最終形成包含28193個中文詞的詞典.實驗中采用subword模型可以減小詞表的大小,同時解決序列到序列模型中常遇到的罕見詞問題(即UNK問題).為了使詞內(nèi)信息得到合理的保存,本文使用的subword模型僅對詞內(nèi)信息進行切分和重組而不組合詞間信息,因而先將分詞后的詞語以每個詞為單位切分成字,然后使用subword模型將該結(jié)果使用2-gram的方法抽取出頻率較大的詞內(nèi)組合,將此組合從之前的詞中分離出來獨立變?yōu)橐粋€詞.采用此方法可以極大地減少字典的冗余度,同時保留部分詞信息,最終的分詞結(jié)果為詞組和字的混合文本.

    接下來,利用gensim 工具包中的word2vec對詞典中的每個詞進行詞嵌入訓(xùn)練,訓(xùn)練集為NLPCC 2017的中文單文檔摘要評測任務(wù)分享的全部數(shù)據(jù)集,每個詞的向量維度均設(shè)置為256維,通過預(yù)訓(xùn)練可以在一定程度上優(yōu)化模型的效果.

    本文使用tensor flow實現(xiàn)了基于主題關(guān)鍵詞注意力的序列到序列模型,編碼器層為一層雙向的LSTM,解碼器為一層單向的LSTM.LSTM 隱藏層維度設(shè)為128.在訓(xùn)練階段,本文使用的優(yōu)化函數(shù)為Adam[35],學(xué)習(xí)率設(shè)置為0.001,并在訓(xùn)練過程中利用梯度的一階矩估計和二階矩估計動態(tài)調(diào)整每個參數(shù)的學(xué)習(xí)率,最小學(xué)習(xí)率設(shè)置為0.0001,在訓(xùn)練過程中,損失開始下降很快,訓(xùn)練幾輪后,損失逐漸趨于平穩(wěn),且在幾百個batch內(nèi)損失值固定在1點多的范圍內(nèi),數(shù)值不繼續(xù)降低,模型趨于收斂.

    在測試階段,使用beamsearch方法生成最終的結(jié)果.beamsearch是一種啟發(fā)式搜索算法,是對優(yōu)先搜索策略的一種優(yōu)化,能降低內(nèi)存需求,根據(jù)啟發(fā)式規(guī)則對所有局部解進行排序,以找到與全局解最近的局部解,此方法常應(yīng)用于序列到序列模型中優(yōu)化解的生成.

    4.4 對比模型

    選取5種基準模型與本文提出的模型進行比較,5種方法中的3種方法(即LexPageRank[6],MEAD[36]和Submodular[15])是目前最典型的抽取式摘要方法,由開源工具包PKUSUMSUM[37]提供,另外兩種方法是生成式摘要方法的代表.

    LexPageRank[6]是一個基于圖模型的摘要算法,它將PageRank算法應(yīng)用到文本句子關(guān)系表示及摘要抽取中.

    MEAD[36]方法則通過聯(lián)合考慮句子的4種常用特征來為其打分,包括質(zhì)心、句子的位置、公共子序列及關(guān)鍵詞.

    Submodular[15]方法利用子模函數(shù)的收益遞減特性來挑選重要句子生成摘要.

    UniAttention[20]是基本的注意力序列到序列模型,實現(xiàn)了對原文本輸入信息的注意力機制考慮及摘要生成.

    NLP_ONE[38]是在NLPCC 2017的中文單文檔摘要評測任務(wù)中獲得第一名的參賽模型,包含了輸入序列的注意力機制和輸出序列的注意力機制,但它沒有對主題關(guān)鍵詞信息進行融合考慮.

    pointer-generator[29]是ACL 2017公開發(fā)表的一個最新的同類模型,使用pointer機制解決了輸出信息錯誤和罕見詞的問題.

    4.5 實驗結(jié)果分析

    第4.4節(jié)中的5種模型與本文提出模型的具體實驗結(jié)果比較如表1所示.由表1的結(jié)果可見:

    1)生成式摘要方法在ROUGE的F值比較中比抽取式摘要方法平均高4~10個百分點,這說明在自動生成短文本的摘要任務(wù)中,生成式方法更有效.

    2)由UniAttention模型與本文模型的對比結(jié)果可見,將文本關(guān)鍵詞的注意力信息和輸入輸出序列的注意力信息共同融入到序列到序列模型中可以顯著地提高模型的摘要效果(具體可提升3~4個百分點).

    3)本文對NLP_ONE,pointer-generator和本文模型的實驗數(shù)據(jù)進行了統(tǒng)計顯著性分析,發(fā)現(xiàn)結(jié)合主題關(guān)鍵詞信息和原文本中多維信息來引導(dǎo)摘要生成能有效地提高現(xiàn)有基于RNN注意力機制的生成式摘要模型的摘要效果,充分說明主題關(guān)鍵詞信息在生成式摘要中發(fā)揮了積極的引導(dǎo)作用.

    4)本文所提模型產(chǎn)生其摘要的實際效果舉例如表2所示.表2展示了從3個序列到序列模型生成的摘要中抽取的5例摘要,從表2可以看出,生成式摘要技術(shù)盡力去學(xué)習(xí)和模擬人類撰寫摘要的方法,生成的摘要根據(jù)需要表達的主題信息和語義信息引導(dǎo)詞語組合而成,而不僅僅由抽取的句子簡單拼湊而成,因而在生成短文本摘要時,相比抽取式摘要,生成式摘要的文本流暢性、句間連貫性以及信息豐富性均更勝一籌.

    5)對比表2中的機器自動生成摘要的內(nèi)容可以發(fā)現(xiàn):本文提出的模型在學(xué)習(xí)摘要的生成過程中,更注重內(nèi)容信息的表達,同時也抓住了文本中的關(guān)鍵主題信息,使生成的摘要的信息量更充足.在同等數(shù)據(jù)集的條件下,相比未融入主題信息的序列到序列模型,本文提出的模型效果更優(yōu),因為該模型將更多的主題信息顯式提取出來用于指導(dǎo)摘要的生成,特別是主題關(guān)鍵詞信息協(xié)助模型更有針對性地選擇與主題相關(guān)的詞語來構(gòu)成摘要.

    4.6 存在的問題

    根據(jù)實驗結(jié)果,盡管生成式摘要相比抽取式摘要在中文短文本摘要生成任務(wù)中效果較好,但仍需相對較大的數(shù)據(jù)來協(xié)助訓(xùn)練以生成高質(zhì)量的摘要.通過對實驗數(shù)據(jù)的細致分析可以發(fā)現(xiàn):由于數(shù)據(jù)分布不均勻使得模型對訓(xùn)練樣本較多的內(nèi)容其學(xué)習(xí)效果比數(shù)量較少的內(nèi)容學(xué)習(xí)效果好.雖然主題關(guān)鍵詞的融入在內(nèi)容上對文本的信息進行了補充,使得生成的摘要可以抓住文章的重點信息,但在表達的流暢度方面,樣本量越大往往效果越好.例如表2中原文為天氣和受賄內(nèi)容的生成摘要比其他類型的摘要生成效果好,若訓(xùn)練樣本充足,則生成的摘要和原標準摘要在內(nèi)容和表達上均能達到90%以上的匹配度.因而在訓(xùn)練數(shù)據(jù)量有限的情況下,如何更好地生成擬人式高質(zhì)量摘要仍是需要進一步深入探索的問題.

    表1 摘要評價結(jié)果Table 1 The results of summaries

    表2 生成摘要對比示例Table 2 The examples of the generative summaries

    5 結(jié)束語

    本文提出了一種新的基于神經(jīng)網(wǎng)絡(luò)的生成式中文自動摘要方法,不僅融入了對輸入序列的注意力及輸出序列的注意力的區(qū)分性考慮,還自然嵌入了文本中的關(guān)鍵主題信息下的注意力,最終的實驗及評價結(jié)果證實了引入關(guān)鍵詞信息對提升中文生成式摘要模型的顯著效果.未來尚有很多可以拓展的工作,例如在LCSTS等中文大規(guī)模文摘數(shù)據(jù)集上進行實驗,將神經(jīng)網(wǎng)絡(luò)模型應(yīng)用到多文檔多句子式的生成摘要中,以及如何更有效地提取文本中全局和局部的不同粒度或不同模態(tài)的關(guān)鍵主題信息.

    猜你喜歡
    解碼器注意力向量
    向量的分解
    讓注意力“飛”回來
    科學(xué)解碼器(一)
    聚焦“向量與三角”創(chuàng)新題
    科學(xué)解碼器(二)
    科學(xué)解碼器(三)
    線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍蜻蜓解碼器
    “揚眼”APP:讓注意力“變現(xiàn)”
    傳媒評論(2017年3期)2017-06-13 09:18:10
    A Beautiful Way Of Looking At Things
    向量垂直在解析幾何中的應(yīng)用
    天津市| 祥云县| 重庆市| 晋江市| 密云县| 乌什县| 云龙县| 思茅市| 郸城县| 阿鲁科尔沁旗| 泽库县| 和硕县| 腾冲县| 西林县| 赣州市| 砀山县| 兰考县| 淄博市| 金华市| 麟游县| 齐河县| 福贡县| 正阳县| 大理市| 平舆县| 西平县| 紫金县| 盐源县| 靖宇县| 清水河县| 德令哈市| 博野县| 绥滨县| 米泉市| 鹿泉市| 华阴市| 苏州市| 阿拉善左旗| 山阴县| 台江县| 任丘市|