徐如陽,曾碧卿,韓旭麗,周 武
1(華南師范大學(xué) 計(jì)算機(jī)學(xué)院,廣州 510631)2(華南師范大學(xué) 軟件學(xué)院,廣東 佛山 528225)
文本摘要是應(yīng)對(duì)信息過載的利器,廣泛用于各項(xiàng)自然語言處理任務(wù),例如新聞標(biāo)題生成和多文檔摘要融合[1]等.文本摘要的目標(biāo)是從長(zhǎng)文本中獲得重要的信息,輸出具有代表性且能保留原文主要思想的文本序列.目前文本摘要面臨的主要挑戰(zhàn)是如何評(píng)價(jià)和選擇原文中關(guān)鍵的信息,如何過濾冗余信息,以及如何生成通順可讀的摘要.
早期的文本摘要技術(shù)主要包括手工規(guī)則[2]、以及統(tǒng)計(jì)機(jī)器學(xué)習(xí)技術(shù)[3]、以及語法樹[4]等,這些方法存在3個(gè)缺點(diǎn):1)需要花費(fèi)大量的人力進(jìn)行特征標(biāo)注;2)通用性不足,即生成的摘要通常具有領(lǐng)域局限性;3)不能概括文章的核心思想.隨著大數(shù)據(jù)與人工智能技術(shù)在各個(gè)領(lǐng)域的延伸,使用神經(jīng)網(wǎng)絡(luò)的方法已經(jīng)在文本摘要任務(wù)上取得長(zhǎng)足的進(jìn)步.這些方法使用端到端模型對(duì)原文進(jìn)行編碼,然后將其解碼為一個(gè)摘要[5].自動(dòng)文本摘要方法主要有兩種:抽取式(extractive)和生成式(abstractive).抽取式方法采用特定的評(píng)分規(guī)則和排序方法,從原文本中選取一定數(shù)量重要的句子組成摘要,該方法可以確保輸出句子的語法正確,但是抽取的句子之間通常具有語義獨(dú)立性,因此不利于讀者理解整篇文章的意圖.與抽取式摘要不同,生成式摘要能夠獲取文本的上下文信息,根據(jù)原文的核心思想重構(gòu)摘要,確保生成的摘要具備語義相關(guān)、可讀性強(qiáng)等特點(diǎn),故該文采用生成式方法完成文本摘要任務(wù).
近年來,基于注意力的序列到序列(sequence to sequence,seq2seq)框架[6]在生成式文本摘要任務(wù)上取得了顯著的進(jìn)展,seq2seq的解碼器可根據(jù)編碼器狀態(tài)的注意力得分抽取信息[7].seq2seq框架最早應(yīng)用于機(jī)器翻譯任務(wù)上,但是自動(dòng)摘要與機(jī)器翻譯任務(wù)的主要區(qū)別在于原文本與目標(biāo)輸出之間沒有位置對(duì)齊的關(guān)系,將seq2seq直接用于文本摘要會(huì)導(dǎo)致編碼器的輸出中包含噪聲,影響注意力得分的計(jì)算[8],導(dǎo)致生成的摘要出現(xiàn)語義無關(guān),語句不通順的問題,進(jìn)而會(huì)直接影響讀者理解原文本內(nèi)容,對(duì)讀者具有誤導(dǎo)作用.
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)由于具有良好的序列依賴關(guān)系提取能力,在文本摘要任務(wù)上得到廣泛應(yīng)用,與基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的模型相比,基于RNN的模型在推理階段(即測(cè)試階段)容易出現(xiàn)梯度消失的情況[9].此外,RNN在訓(xùn)練的過程中下一個(gè)時(shí)刻編碼的輸出由上一時(shí)刻真實(shí)輸出的詞嵌入、隱藏狀態(tài)及上下文向量計(jì)算得到,但是在測(cè)試階段,模型并不確定上一時(shí)刻生成真實(shí)詞匯的詞嵌入,而是根據(jù)上一時(shí)刻預(yù)測(cè)的詞作為輸入生成下一個(gè)詞,導(dǎo)致錯(cuò)誤不斷累積,引發(fā)曝光偏差(Exposure Bias)[10]的問題.例如表1中是當(dāng)前廣泛使用的基于RNN的序列到序列模型[11]生成的摘要,該模型生成的摘要不僅存在沒有準(zhǔn)確把握原文核心思想的問題,同時(shí)也存在句內(nèi)重復(fù)和語句不通順的問題,產(chǎn)生的摘要更是扭曲了事實(shí),這種類型的自動(dòng)摘要系統(tǒng)在實(shí)際場(chǎng)景中幾乎毫無用處.
表1 傳統(tǒng)seq2seq生成摘要案例
Table 1 Generating summarization case of traditional seq2seq
Source:UNK and the China meteorological administration Tuesday signed an agreement here on long-and short-term cooperation in pro-jects involving meteorological satellites and satellite meteorology.Reference:UNK China to cooperate in meteorology.Seq2Seq:weather forecast forecast for major China citys.
針對(duì)RNN的缺陷和seq2seq存在的曝光偏差問題,本文在seq2seq的基礎(chǔ)上提出一種基于自注意力卷積門控單元的生成式摘要方法(Convolutional Self-Attention Gated Encoding Model,CSAG),用于更好地提取文本局部特征表示和全局特征表示.為避免部分關(guān)鍵信息經(jīng)過門控機(jī)制時(shí)被視為非關(guān)鍵信息而被過濾的問題,將指針機(jī)制應(yīng)用于CSAG模型,以提升模型捕獲信息的能力,并解決未登錄詞的問題.此外引入強(qiáng)化學(xué)習(xí)方法[12]用于解決曝光偏差的問題.論文的貢獻(xiàn)主要如下:
1)提出了一種自注意力卷積門控單元的編碼過濾方法,使用疊加的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)提取編碼器輸出的局部特征,構(gòu)成當(dāng)前時(shí)刻的句內(nèi)局部特征.利用多端自注意力機(jī)制可以獲取當(dāng)前特征表示和其他特征表示之間的關(guān)系,使得該模型既能學(xué)習(xí)n-gram局部特征,又能從多角度、多層次學(xué)習(xí)全局的特征表示.
2)將自省序列訓(xùn)練用于基于自注意力卷積門控編碼的自動(dòng)摘要模型(Reinforced Convolutional Self-Attention Gated Encoding Model,RL-CSAG)訓(xùn)練之中,將以往工作中使用的最大似然交叉熵?fù)p失和策略梯度強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)相結(jié)合,并利用不可微的摘要度量指標(biāo)ROUGE對(duì)模型進(jìn)行優(yōu)化,從而避免模型出現(xiàn)曝光偏差問題.
3)在Gigaword1http://catalog.ldc.upenn.edu/ldc2012t21數(shù)據(jù)集上的多組對(duì)比實(shí)驗(yàn)結(jié)果表明,本文提出的模型具有較好的特征捕獲能力,在ROUGE-1、ROUGE-2、ROUGE-L三個(gè)度量指標(biāo)上分別提升了2.1%、1.8%和1.2%.通過多組新聞標(biāo)題生成案例研究表明,模型在性能明顯提升的同時(shí),也改善了句內(nèi)重復(fù)和語義無關(guān)問題.
自動(dòng)文本摘要在壓縮原文同時(shí)保留其核心思想,研究人員為解決這項(xiàng)挑戰(zhàn)性的任務(wù)提出了很多的方法,主要分為抽取式方法[13-15]和生成式方法兩大類.Rush等[5]以CNN作為編碼器,神經(jīng)網(wǎng)絡(luò)語言模型(Nerual Network Language Model)作為解碼器,并結(jié)合注意力機(jī)制,在文本摘要任務(wù)上取得了重大突破;Chopra等[7]在Rush等[5]基礎(chǔ)上使用RNN作為編碼器并取得了更好的表現(xiàn);Nallapati等[11]將解碼器用RNN代替形成了完整的RNN seq2seq模型;為解決未登錄詞的問題,Gu等[16]和Zeng等[17]將復(fù)制機(jī)制引入seq2seq模型,該機(jī)制能夠處理未登錄詞的問題,同時(shí)也允許使用更小規(guī)模的詞匯集;Shen等[18]將句子的長(zhǎng)度,句子之間的相似度等信息融入到句子特征向量的計(jì)算中,用于構(gòu)建抽取式自動(dòng)摘要;Gulcehre等[19]提出了使用軟開關(guān)來控制是從原文復(fù)制還是由解碼器生成一個(gè)詞;Ma等[20]通過提高原文和摘要在表達(dá)上的相似性來提升彼此之間的語義相關(guān)性;Vaswani等[21]提出了一個(gè)完全依賴注意力實(shí)現(xiàn)的機(jī)器翻譯模型,引入了自注意力機(jī)制,該機(jī)制可以學(xué)習(xí)模型中的長(zhǎng)期依賴關(guān)系.
與RNN相比,CNN不僅可以通過并行計(jì)算提高訓(xùn)練效率,而且可以避免RNN梯度消失問題.最近,Gehring等[22]提出ConvS2S模型,解碼器和編碼器均由多個(gè)CNN構(gòu)建,在語言建模和機(jī)器翻譯任務(wù)表現(xiàn)優(yōu)于基于RNN模型的最佳效果.因此CSAG模型在編碼部分融合RNN和CNN,充分利用二者在特征提取任務(wù)上各自的優(yōu)勢(shì),以生成高質(zhì)量的摘要.
強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)用于優(yōu)化不可微的語言生成度量指標(biāo),能夠緩解曝光偏差問題.Paulus等[12]將策略梯度強(qiáng)化學(xué)習(xí)應(yīng)用于生成式摘要模型,可直接使用不可微的摘要評(píng)估指標(biāo)ROUGE作為強(qiáng)化學(xué)習(xí)的回報(bào).因此該文結(jié)合強(qiáng)化學(xué)習(xí)提出了RL-CSAG,用于增強(qiáng)模型在訓(xùn)練和測(cè)試階段的一致性,并提升語言的流暢性和穩(wěn)定性.
生成式摘要模型CSAG是基于注意力機(jī)制的RNN seq2seq模型提出的,模型的整體結(jié)構(gòu)如圖1所示.CSAG模型由3個(gè)部分組成:1)雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM)編碼器;2)基于疊加卷積神經(jīng)網(wǎng)絡(luò)的多端自注意力門控單元;3)單向LSTM解碼器.模型首先使用雙向LSTM編碼器讀取輸入序列(x1,x2,…,xn)并構(gòu)建編碼器的狀態(tài)表示.其次,為了獲取每個(gè)編碼步驟的核心信息,在編碼器輸出的頂部加入一個(gè)卷積門控單元,對(duì)所有編碼器輸出進(jìn)行卷積操作.受Vaswani等[21]的啟發(fā),使用多端自注意力機(jī)制(self-attention)鼓勵(lì)模型從多角度、多層次學(xué)習(xí)長(zhǎng)期依賴關(guān)系,獲取編碼器局部-全局的特征表示;在卷積門控單元輸出的頂端,使用單向LSTM作為解碼器.為避免部分關(guān)鍵信息不能通過門控單元,導(dǎo)致摘要中關(guān)鍵信息缺失的問題,模型在解碼階段引入指針機(jī)制[19]來復(fù)制原文中子序列,以輔助解碼輸出,并解決未登錄詞的問題.
圖1 卷積自注意力門控機(jī)制的生成式摘要模型Fig.1 Abstractive summarization model based on convolutional self-attention gated mechanism
(1)
(2)
在基于seq2seq的機(jī)器翻譯模型中,編碼器用于將輸入句子映射到向量序列,解碼器將向量序列解碼為句子[6].之前研究人員同樣將seq2seq框架應(yīng)用于文本摘要[5,7,11]任務(wù)中,但與機(jī)器翻譯不同:1)在文本摘要中除了常見單詞外,輸入句子和輸出摘要之間并沒有對(duì)齊的關(guān)系;2)文本摘要需要保留句子的重要信息,舍棄不重要的信息,而機(jī)器翻譯需要保留輸入輸出文本的所有信息.
(3)
其中fconv函數(shù)表示卷積操作.
長(zhǎng)期依賴關(guān)系可以幫助模型發(fā)現(xiàn)語言中包含一些內(nèi)部特征,如短語結(jié)構(gòu)和句內(nèi)關(guān)系等.受Vaswani等[21]工作的啟發(fā),在卷積模塊輸出層應(yīng)用自注意力(Self-Attention)機(jī)制,在不增加計(jì)算復(fù)雜度的情況下鼓勵(lì)模型學(xué)習(xí)長(zhǎng)期依賴關(guān)系,以捕獲編碼器輸出的全局特征信息.本文采用放縮點(diǎn)積注意力[21](scaled dot-product attention)對(duì)卷積模塊的輸出Q和KT執(zhí)行點(diǎn)積操作,為每個(gè)時(shí)刻的局部特征表示和全局信息之間建立聯(lián)系.考慮到一個(gè)放縮點(diǎn)積注意力無法從不同角度、不同層面捕獲編碼狀態(tài)的特征,所以模型使用多端注意力機(jī)制(Multi-head Attention)充分挖掘特征信息.圖1給出了多端注意力的計(jì)算流程,首先在不共享參數(shù)的情況下對(duì)卷積模塊輸出Q,K,V做線性變換,然后重復(fù)M次放縮點(diǎn)積注意力計(jì)算,將每層的輸出的結(jié)果進(jìn)行拼接.
(4)
headi=Attention(QW1,KW2,VW3)
(5)
MultiAttention=head1⊕head2…⊕headM
(6)
gate=δ(Wg(MutiAttention(Q,K,V))+bg)
(7)
(8)
其中,δ表示sigmoid激活函數(shù),Wg是一個(gè)可學(xué)習(xí)的參數(shù),bg是一個(gè)偏置項(xiàng).
經(jīng)過自注意力卷積門控單元的處理,CSAG利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到全文的n-gram的局部特征表示,利用多端自注意力機(jī)制可以從多角度和多層次學(xué)習(xí)輸入文本的長(zhǎng)期依賴關(guān)系和全局特征信息,使得模型能夠正確理解輸入文本的核心思想,并生成語義相關(guān)、可讀性較好的摘要.通過特征融合、過濾,模型會(huì)有選擇地刪除和保留某些特征信息,且能有效避免由于注意力滯留造成的句內(nèi)重復(fù)的問題.
在多端自注意力卷積門控單元后使用一個(gè)帶有注意力機(jī)制的單向LSTM作為句子的解碼器,以生成原文本的摘要.
st=LSTM(xt-1,ct-1,st-1)
(9)
(10)
其中,Wd是一個(gè)權(quán)重矩陣,bd是一個(gè)偏差向量.
(11)
其中,We是一個(gè)權(quán)重矩陣.
對(duì)相關(guān)性權(quán)重做歸一化處理,得到第i個(gè)詞的注意力權(quán)重,根據(jù)每個(gè)詞的注意力權(quán)重可以得到第t個(gè)目標(biāo)詞的上下文向量:
(12)
(13)
指針機(jī)制[23]是一種有效處理未登錄詞的方法,在解碼過程中,pgen作為一個(gè)軟開關(guān),控制解碼器從詞匯表vocab中生成一個(gè)單詞或從原文拷貝單詞.pgen定義為:
(14)
pvocab(wt)=p(yt|y (15) (16) Teacher forcing算法[24]用于最小化CSAG每個(gè)解碼步驟的最大似然損失Lml: (17) 與摘要評(píng)估指標(biāo)ROUGE相比,最小化公式(17)的目標(biāo)函數(shù)通常不會(huì)產(chǎn)生最優(yōu)的效果. 一方面是由于存在曝光偏差[10].在訓(xùn)練過程中,模型由真實(shí)的輸出序列來預(yù)測(cè)下一個(gè)單詞,而在推理過程中,模型根據(jù)上一時(shí)刻預(yù)測(cè)的單詞作為輸入,生成下一個(gè)單詞.因此,在推理過程中,每一步的誤差會(huì)不斷累積,導(dǎo)致生成的摘要質(zhì)量下降. 另一方面是由于摘要的靈活多樣性.最大似然函數(shù)獎(jiǎng)勵(lì)輸出和參考摘要完全相同的模型,懲罰那些輸出文本與參考摘要不一致的模型,而這些輸出的大多數(shù)文本在意義表達(dá)上是和參考摘要是一致的.雖然給出多個(gè)參考摘要可以緩解這種誤差,但對(duì)給定參考摘要的闡述方式還有多種.最小化公式(17)目標(biāo)函數(shù)恰好忽略了摘要靈活性的本質(zhì).而ROUGE提供了更靈活的評(píng)估方式,讓模型更多的關(guān)注語義,而不是詞級(jí)別的對(duì)應(yīng)關(guān)系. (18) 最后,通過梯度下降算法更新模型的參數(shù). 實(shí)驗(yàn)所用數(shù)據(jù)集為帶注釋的Gigaword,該數(shù)據(jù)集曾被Rush等[5]用于文本摘要任務(wù)的評(píng)估.Gigaword語料庫將新聞文章的第一句話和新聞標(biāo)題配對(duì)產(chǎn)生,即新聞第一句話作為原文本,人工書寫的新聞標(biāo)題作為參考摘要.利用Rush等發(fā)布的腳本(1)http://github.com/facebook/NAMAS構(gòu)建訓(xùn)練集和驗(yàn)證集,該腳本執(zhí)行多項(xiàng)文本規(guī)范化操作,包括詞語切分、字母小寫、將所有的數(shù)字用#代替,并將詞頻小于5的詞用UNK標(biāo)簽標(biāo)記.Gigaword共有3.8M萬對(duì)新聞句子標(biāo)題對(duì)作為訓(xùn)練集,189K對(duì)作為驗(yàn)證集.在測(cè)試階段使用與Rush、Chopra等相同的測(cè)試集,該測(cè)試集包含2000個(gè)句子-標(biāo)題對(duì).Gigaword數(shù)據(jù)集統(tǒng)計(jì)信息如表2所示. 表2 Gigaword數(shù)據(jù)集統(tǒng)計(jì)信息 數(shù)據(jù)集屬性訓(xùn)練驗(yàn)證測(cè)試數(shù)量3.8M189K2000句子的平均長(zhǎng)度31.431.729.7摘要的平均長(zhǎng)度8.38.38.8 自動(dòng)摘要的評(píng)價(jià)采用官方ROUGE(1.5.5)作為度量指標(biāo).通過計(jì)算在參考摘要和候選摘要之間的重疊詞匯單元來衡量生成摘要的質(zhì)量,例如unigram,bigram,LCS(最長(zhǎng)子序列).按照慣例,采用ROUGE-1(unigram),ROUGE-2(bigram),ROUGE-L(LCS)的F1值進(jìn)行評(píng)估.其中,ROUGE-1和ROUGE-2用于衡量生成摘要的信息量,而ROUGE-L用于衡量生成摘要的可讀性. 實(shí)驗(yàn)中使用大小為50k的詞匯表,詞嵌入的維度設(shè)置為256,所有的LSTM的隱藏狀態(tài)維度設(shè)置為512.使用Adam優(yōu)化器,學(xué)習(xí)率的初始值設(shè)置為α=0.03,動(dòng)量參數(shù)設(shè)置為β1=0.9,β2=0.999,=10-8,將Dropout rate設(shè)置為0.5.解碼器部分,設(shè)置集束搜索(beam search)大小為6.為了加快模型訓(xùn)練和收斂的速度,將mini-batch的大小設(shè)置為64.在卷積自注意力門控單元中,多端注意力的M值設(shè)置為8. ABS,ABS+:Rush等[5]首次提出ABS,該模型以CNN作為編碼器,并最先將注意力機(jī)制應(yīng)用于文本摘要任務(wù).ABS+在ABS模型的基礎(chǔ)上加入一些人工規(guī)則,ABS+取得了比ABS更好的效果. Feat2s:Nallapati等[11]使用一個(gè)完整的基于RNN的seq2seq模型,并通過加入詞性,命名實(shí)體識(shí)別等規(guī)則加強(qiáng)編碼器的特征表示. RAS-Elman:Chopra等[7]將單詞和單詞位置作為輸入,使用卷積編碼器來處理源信息,并用RNN做解碼器進(jìn)行基于注意力的序列解碼. DRGD:Li等[26]在傳統(tǒng)seq2seq的模型基礎(chǔ)上,結(jié)合深度循環(huán)生成解碼器學(xué)習(xí)句子內(nèi)部的結(jié)構(gòu),保證生成的摘要具有較高可讀性. SEASS:Zhou等[27]利用編碼器正反向輸出的最后一個(gè)狀態(tài)構(gòu)建句子特征表示,結(jié)合選擇門控機(jī)制控制從編碼器到解碼器的信息流. PCEQ:Guo等[28]改進(jìn)生成式摘要模型,提出了一種多任務(wù)學(xué)習(xí)方法.結(jié)合問題生成和句子語義生成輔助任務(wù),進(jìn)行突出信息檢測(cè)和文檔邏輯推理,并在此基礎(chǔ)上加入了指針覆蓋機(jī)制[23]. Pointer:在基于注意力機(jī)制的序列到序列模型的基礎(chǔ)上加入指針機(jī)制用于解決未登錄詞的問題.該文將Pointer模型作為基線模型. 對(duì)比模型及本文提出模型在Gigaword數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表3所示,CSAG模型是本文提出的基于卷積自注意力門控編碼模型,RL-CSAG是加入強(qiáng)化學(xué)習(xí)后的模型.右上角數(shù)字表示模型提出的年份.表3對(duì)比模型部分,將在ROUGE-1,ROUGE-2,ROUGE-L上表現(xiàn)最佳的結(jié)果加粗顯示. 表3 模型對(duì)比實(shí)驗(yàn)結(jié)果 模型ROUGE-1ROUGE-2ROUGE-LABS201529.611.326.4ABS+201529.811.927.0Feat2s201632.715.630.6RAS-Elman201635.316.632.6DRGD201736.317.633.6SEASS201736.217.533.6PCEQ201836.017.833.6Pointer34.316.432.0CSAG36.418.233.2RL-CSAG36.818.034.1 本文實(shí)現(xiàn)的兩組模型和7個(gè)對(duì)比模型的實(shí)驗(yàn)結(jié)果如表3所示,由表3可知: 1)CSAG模型在性能上優(yōu)于大多數(shù)的對(duì)比模型,且在ROUGE-1上對(duì)比最佳模型DRGD高出0.1%,在ROUGE-2上對(duì)比最佳模型PECQ高出0.4%.加入強(qiáng)化學(xué)習(xí)之后,模型在ROUGE-1和ROUGE-L指數(shù)上得到提升,且這兩個(gè)指標(biāo)均高出對(duì)比模型最佳結(jié)果0.5%.證明該文提出的模型為生成高質(zhì)量摘要做出了一定的貢獻(xiàn). 2)與基線模型Pointer相比,CSAG在3個(gè)度量指標(biāo)上分別高出基線模型2.1、1.8和1.2個(gè)百分點(diǎn),證明CSAG能夠提取出文本中的潛在特征信息,生成更優(yōu)質(zhì)的摘要. 3)加入強(qiáng)化學(xué)習(xí)得到RL-CSAG之后,RL-CSAG模型性能在CSAG基礎(chǔ)上有了進(jìn)一步的提升,在ROUGE-1、ROUGE-L兩個(gè)度量指標(biāo)上,RL-CSAG分別提升了0.4%和0.9%.在ROUGE-L上的大幅提升,說明基于自省序列訓(xùn)練強(qiáng)化學(xué)習(xí)方法能夠幫助模型生成更具可讀性的摘要. 4)從3個(gè)評(píng)估指標(biāo)來看,CSAG模型生成的摘要能夠在多個(gè)維度上準(zhǔn)確領(lǐng)會(huì)輸入文本的核心思想,說明該文提出的卷積自注意力門控單元能模擬人類處理信息的方法.先抓住局部重點(diǎn)信息,在局部信息和全局信息之間建立聯(lián)系,再從全局層面以多角度不同層面進(jìn)行歸納,而不是對(duì)單詞進(jìn)行簡(jiǎn)單的拼湊,故生成的摘要具有較好的連貫性、流暢性和語義相關(guān)性. 為了對(duì)實(shí)驗(yàn)結(jié)果做進(jìn)一步分析,該文將RL-CSAG與Pointer模型生成的摘要進(jìn)行比較,表4中顯示了原文本、參考摘要、模型生成的摘要.從這些案例中可以看出,RL-CSAG可以捕捉到一些與參考摘要相一致的核心信息.例如,案例1生成的摘要“australian fm says dialogue with dprk important”與參考摘要基本一致,但是Pointer只將原文中這件事的場(chǎng)景(“Australia's foreign minister shelve the opening of an embassy in Pyongyang”)給抽取出來,未能真正捕獲文本的核心內(nèi)容,且產(chǎn)生了扭曲的事實(shí).案例中RL-CSAG將“foreign minister”簡(jiǎn)化成“fm”,表明RL-CSAG更好地學(xué)習(xí)了文本中的潛在信息.案例2中RL-CSAG生成的摘要和參考摘要在語義上高度吻合,而Pointer模型雖然有多個(gè)單詞和參考摘要相同,可以在測(cè)試中獲得較高的ROUGE評(píng)分,但是生成的摘要不僅語句不通順,而且存在嚴(yán)重的語法錯(cuò)誤.通過上述案例的對(duì)比分析,說明該文提出RL-CSAG模型具有較好的特征表示捕獲能力,能夠在序列數(shù)據(jù)中從多角度、不同層次提取更有效、更復(fù)雜的潛在信息.因此,RL-CSAG生成的摘要與真實(shí)摘要的內(nèi)容具有較好的一致性.此外RL-CSAG生成的摘要可讀性較好、內(nèi)容重復(fù)度低. 表4 模型生成案例分析 案例1:continued dialogue with the democratic people 's republic of korea is important although australia’s plan to open its embassy in pyongyang has been shelved because of the crisis over the dprk’s nu-clear weapons program,australian foreign minister alexander downer said on friday.參考:dialogue with dprk important says australian foreign ministerPointer:Australia's foreign minister shelve the opening of an embas-sy in Pyongyang.RL-CSAG:australian fm says dialogue with dprk important.案例2:the #### tung blossom festival will kick off saturday with a fun-filled ceremony at the west lake resort in the northern taiwan county of miaoli,a hakka stronghold,the council of hakka affairs-lrb-cha-rrb-announced tuesday.參考:#### tung blossom festival to kick off Saturday.Pointer:tung blossom festival on Saturday at the west lake holiday.RL-CSAG:#### tung blossom festival to kick off in Miaoli. 該文在序列到序列模型的基礎(chǔ)上結(jié)合強(qiáng)化學(xué)習(xí)理論提出卷積多端自注意力編碼過濾模型RL-CSAG,用于生成式自動(dòng)文本摘要研究.CSAG模仿人工書寫摘要的行為,分階段從不同角度概括上下文信息,生成摘要.利用自省序列訓(xùn)練緩解曝光偏差問題,提升模型性能.在開源英文數(shù)據(jù)集Gigaword上實(shí)驗(yàn)結(jié)果表明,RL-CSAG在ROUGE度量指標(biāo)上取得較大提升,同時(shí)模型生成的摘要具有較高的語義相關(guān)性、可讀性. 實(shí)驗(yàn)主要是基于短文本的摘要生成,未來工作中將嘗試在長(zhǎng)文本或多文檔的數(shù)據(jù)集上評(píng)估該文提出的模型,并探索能提升強(qiáng)化學(xué)習(xí)穩(wěn)定性的方法.4 強(qiáng)化學(xué)習(xí)
5 實(shí) 驗(yàn)
5.1 數(shù)據(jù)集
Table 2 Gigaword dataset statistics5.2 評(píng)價(jià)指標(biāo)
5.3 實(shí)驗(yàn)參數(shù)設(shè)置
5.4 對(duì)比模型
Table 3 Performance comparison of models5.5 案例研究
Table 4 Case analysis of generated summarization6 結(jié) 論