田 媛,郝文寧,陳 剛,靳大尉,鄒 傲
(陸軍工程大學(xué) 指揮控制工程學(xué)院,南京 210001)
隨著網(wǎng)絡(luò)信息的爆炸式增長,信息過載成為不可避免的問題,為了幫助用戶從海量數(shù)據(jù)中快速挖掘出有價值的信息,提高獲取和利用信息的效率,自動文本摘要技術(shù)受到越來越多的關(guān)注. 自動摘要技術(shù)是計(jì)算機(jī)通過人為制定的算法和輸入的文章自動生成摘要的技術(shù)[1],其目的是找到輸入文本的概括性關(guān)鍵信息. 自動文本摘要可分為幾種不同的類型,根據(jù)輸入文檔的數(shù)量可將文本摘要分為單文檔摘要和多文檔摘要; 根據(jù)摘要的目的可將其分為一般的文本摘要和面向查詢的文本摘要,一般的文本摘要要求在摘要中包含輸入文檔的全部關(guān)鍵信息,而面向查詢的文本摘要在摘要中僅包含輸入文檔中與特定的用戶查詢相關(guān)的關(guān)鍵信息.
本文研究的對象是一般的多文檔摘要,旨在針對單一主題下的多個文本文檔生成一個簡潔的摘要. 多文檔摘要的方法通常分為兩類: 抽取式和生成式. 生成式方法需要在理解源文檔的基礎(chǔ)上生成新的詞和句子,Fabbri 等人[2]將輸入的多篇文檔拼接成一篇長文檔作為模型的輸入,然后將多文檔摘要轉(zhuǎn)換成一個序列到序列的單文檔摘要任務(wù); 為了避免過長的輸入導(dǎo)致摘要退化的問題,Liu 等人[3]提出了一個層次編碼器,使用注意力機(jī)制表示跨文檔之間的潛在關(guān)系,允許文檔之間共享信息,而不是簡單的將文檔拼接. 生成式的方法相對復(fù)雜,由于自然語言生成技術(shù)的限制,其生成的摘要通常存在語法錯誤、可讀性較差等問題. 抽取式方法是從源文檔中直接抽取出具有代表性的句子構(gòu)成摘要,由于在很大程度上保持了原意,不會出現(xiàn)語法上的錯誤且相對簡單而被廣泛使用,常見的有基于質(zhì)心的方法、基于圖的方法以及有監(jiān)督的方法等. 抽取式摘要的關(guān)鍵問題就是要保證抽取句子的主題覆蓋度以及多樣性,即摘要中包含各個方面的關(guān)鍵信息,且其中重復(fù)內(nèi)容較少.
本文提出一種基于多粒度語義交互的抽取式多文檔摘要模型(multi-granularity semantic interaction extractive multi-document summarization model,MGSI),使用多頭注意力機(jī)制進(jìn)行詞語、句子以及文檔3 種粒度之間的語義交互,使得學(xué)習(xí)到的句子表示能包含不同粒度的關(guān)鍵信息,以保證在計(jì)算句子重要程度時充分考慮其針對主題內(nèi)容的全面性; 同時結(jié)合改進(jìn)的MMR 算法通過排序?qū)W習(xí)對輸入文檔中的各個句子打分,該得分同時考慮句子的主題覆蓋度以及與其他句子之間的重復(fù)度,選取Top-K個句子作為最終的摘要句并按照在原文中的位置對其進(jìn)行排列.
近年來,多文檔摘要技術(shù)已經(jīng)成為了NLP 中的研究熱點(diǎn),其相關(guān)研究能幫助用戶快速篩選出關(guān)鍵信息.由于生成式方法需要理解并重新組織輸入文檔中的信息,相對復(fù)雜,當(dāng)前的主流方法依然是抽取式. Radev 等人[4]將基于質(zhì)心的方法應(yīng)用到多文檔摘要中,將文檔中的重要信息濃縮成幾個關(guān)鍵詞,根據(jù)聚類中心與簇中句子的相似度以及句子的位置信息來識別重要的句子; 文獻(xiàn)[5]在此基礎(chǔ)上進(jìn)行改進(jìn),提出用句向量表示代替詞向量表示,并通過對句子內(nèi)容相關(guān)性、新穎度和位置3 個指標(biāo)的線性結(jié)合來改進(jìn)評分函數(shù). 基于圖的方法可以利用整個文本的信息來進(jìn)行排序,TextRank[6]和LexRank[7]是兩種常見的圖排序算法,Alzuhair 等人[8]提出將多種基于圖的方法相結(jié)合,在計(jì)算邊的權(quán)重時,對4 種不同的相似度計(jì)算方法進(jìn)行線性組合,此外,結(jié)合兩種不同的圖排序算法: PageRank[9]和HITS[10]; 張?jiān)萍兊热薣11]提出了一種聚類和圖模型相結(jié)合的方法,首先使用基于密度的兩階段聚類方法為全部句子劃分主題,然后在各個子主題下建立圖模型完成摘要句的抽取.
深度神經(jīng)網(wǎng)絡(luò)隨著其不斷發(fā)展已經(jīng)被廣泛應(yīng)用于自動文本摘要中,且被證實(shí)能有效提高文本摘要的質(zhì)量,特別地,神經(jīng)抽取式方法關(guān)注學(xué)習(xí)源文檔中句子的向量表示. Cao 等人[12]使用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練文本分類模型,然后將文檔通過分類模型進(jìn)行分布式表示,利用表示向量來連接文本分類和摘要生成,解決了訓(xùn)練數(shù)據(jù)不充足的問題; Yasunaga 等人[13]提出使用圖卷積網(wǎng)絡(luò)獲取句子嵌入,通過句子關(guān)系圖來對句子進(jìn)行重要性評估; Wang 等人[14]構(gòu)建了一個超圖網(wǎng)絡(luò)進(jìn)行摘要抽取,在句子級節(jié)點(diǎn)的基礎(chǔ)上,增加更多的語義單元作為圖中額外的節(jié)點(diǎn)以豐富句子之間的關(guān)系; Cho 等人[15]將行列式點(diǎn)過程(determinantal point process,DPP)應(yīng)用于抽取式多文檔摘要中,并使用膠囊網(wǎng)絡(luò)[16]對DPP 中句子對之間的相似度計(jì)算方法進(jìn)行改進(jìn),以保證摘要中句子的高度多樣性; Narayan等人[17]通過強(qiáng)化學(xué)習(xí)對ROUGE 度量進(jìn)行全局優(yōu)化,完成抽取式摘要模型的訓(xùn)練,在訓(xùn)練期間,將最大似然交叉熵?fù)p失與強(qiáng)化學(xué)習(xí)的獎勵相結(jié)合,直接優(yōu)化與摘要任務(wù)相關(guān)的評估指標(biāo). 上述方法在對句子編碼時,只考慮了句子級的語義信息,缺少對句子中單詞、句子所在文檔等結(jié)構(gòu)化語義整合的研究. 本文通過將不同粒度的語義信息融合,使得獲取的句子表示包含更豐富的語義信息,從而保證抽取出的摘要句包含的關(guān)鍵信息更加全面.
在抽取式多文檔摘要中,文本之間的交互對于關(guān)鍵信息的抽取有著重要影響,為此本文提出一種基于多粒度語義交互的神經(jīng)抽取模型,我們的模型由一個多粒度編碼器和一個改進(jìn)的MMR 模塊構(gòu)成. 整體概述如圖1 所示,首先構(gòu)建單詞、句子和文檔3 種粒度的語義交互圖,在同一文檔的各個句子中使用多頭自注意力機(jī)制self-attention 捕獲語義關(guān)系,句子與句子中的單詞之間使用多頭交叉注意力機(jī)制cross-attention捕獲語義關(guān)系,句子所在文檔的語義信息通過duplicate進(jìn)行傳遞,使用融合機(jī)制將多粒度交互信息融合,從而完成句子表示的更新,使得學(xué)習(xí)到的句向量具有更豐富的特征; 然后使用改進(jìn)的MMR 算法通過排序?qū)W習(xí)對輸入文檔中的全部句子進(jìn)行排序,完成摘要句的抽取.
圖1 多粒度語義交互抽取式多文檔摘要概述圖
使用多粒度編碼器獲取更新的句子表示. 對于輸入的文檔集,首先構(gòu)建多粒度語義交互圖,多粒度編碼器的每一層包含兩個部分: 第1 部分是一個注意力層,使用多頭注意力機(jī)制捕獲句子與句子、以及句子與單詞之間的語義關(guān)系,然后使用一個融合門融合不同粒度之間的語義交互信息; 第2 部分是一個全連接的前饋網(wǎng)絡(luò),完成多粒度語義信息的進(jìn)一步轉(zhuǎn)換.
如圖2 所示,di,i=1,2,···,N表示第i個文檔,sij表示文檔di中的第j個句子,wijk表示文檔di中第j個句子的第k個單詞,si?表示文檔di中的各個句子,wij?表示句sij中的各個單詞,詞wijk的初始向量記為eijk,為了表明輸入單詞的位置信息,我們使用與Transformer[18]中一致的特殊位置編碼,如式(1)所示.
圖2 多粒度編碼器
其中,pos表示位置索引,t表示維度索引,d表示向量的維度. 在我們的多粒度編碼器中,需要考慮3 個位置編碼: 文檔位置編碼PEi、文檔中句子位置編碼PEj和句子中單詞的位置編碼PEk,最終的位置編碼和輸入層的詞向量分別如式(2)、式(3)所示,將初始編碼與位置編碼相加作為單詞級別編碼器的輸入.
輸入層的句子表示h0sij和文檔表示h0di均初始化為零,句向量通過對3 種粒度的語義交互信息融合進(jìn)行更新: 首先是同一文檔中句子之間通過多頭自注意力機(jī)制捕獲的上下文表示,如圖2 中所示通過selfattention 模塊獲取di中各個句向量hsi?之間的交互信息;然后是句子和句中單詞之間通過多頭交叉注意力機(jī)制cross-attention捕獲的詞粒度的語義信息最后是句子所在文檔傳遞的文檔粒度的語義信息,分別如下所示:
hl?1,l=1,2,···,L表示編碼器第l層的輸入,hsi?表示文檔di中各個句子對應(yīng)的向量,hwij?表示句sij中的各個單詞對應(yīng)的向量.MHAtt即為Vaswani 等人[18]提出的多頭注意力機(jī)制,在式(4)中,文檔di中某一句子的輸入向量作為注意力中的query,各個句子的輸入向量則作為keys和values,在式(5)中,同樣作為注意力中的query,而此時keys和values為句中各個單詞的輸入向量.
我們使用兩個融合門將多粒度語義信息融合,從而獲取更新的句子表示,如式(7)所示,首先將句子與單詞之間的交互和句子與文檔之間的交互融合,然后再將其與句子之間的交互進(jìn)行融合,Fusion即表示融合門,原理如式(8)和式(9)所示,其中參數(shù)W∈R2d×1,b∈R2d×1,σ為Sigmoid 激活函數(shù).
MMR 算法最初用于文檔檢索,通過計(jì)算查詢與待檢索文檔之間的相似度以及文檔與文檔之間的相似度對文檔進(jìn)行打分,然后對其排序. Carbonell 等人[19]首次提出將MMR 用于文本摘要中,基于與原文的相關(guān)度和冗余度為候選句打分,根據(jù)得分進(jìn)行排序從而完成句子抽取,目標(biāo)函數(shù)如式(12)所示,其中,R表示所有候選句子集,S表示已經(jīng)選擇了的句子,RS表示未被選擇的句子,Q是查詢,在實(shí)際摘要中,通常使用源文檔或者輸入文檔對應(yīng)的真實(shí)摘要作為這里的查詢,每次選取MMR 得分最高的句子作為摘要句.
直觀上來看,結(jié)合MMR 算法能幫助選擇出與輸入文檔密切相關(guān)且彼此之間重復(fù)內(nèi)容較少的句子,通過多粒度編碼器,我們已經(jīng)獲取了輸入多文檔中各個句子的向量表示hLs(L表示最后一層輸出),由于該向量已經(jīng)包含了輸入的多篇文檔中不同粒度的關(guān)鍵信息,所以對于句子的重要程度,考慮使用基于句子本身的特征的方法代替計(jì)算句子與源文檔之間的相似度,以避免相似度計(jì)算過程中丟失句子的相關(guān)重要信息,改進(jìn)后的MMR得分計(jì)算公式如式(13)所示,式中的前半部分通過一個線性轉(zhuǎn)換層的計(jì)算來表示句子本身的重要性,其中,Ws∈Rd×1,bs∈Rd×1,hLs表示輸入文檔中任意一個句子的向量; 后半部分計(jì)算句s與源文檔中除該句以外的其他所有句子的相似度的最大值,這里使用余弦相似度函數(shù),以保證最終抽取的句子包含盡可能少的重復(fù)信息,其中s′表示源文檔中除s以外的其他所有句子.
然后再添加一個Sigmoid 激活函數(shù)對MMR得分進(jìn)行歸一化處理,如式(14)所示,σ表示Sigmoid 激活函數(shù).
將使用多粒度編碼器獲取的句子特征向量輸入到MMR 模塊中,通過排序?qū)W習(xí)為每個句子打分,得到最終的排序列表,使用交叉熵作為損失函數(shù),如式(15)所示,其中ys為句子的真實(shí)得分.
實(shí)驗(yàn)中分別使用自動評估和人工評估的方法在公開的Multi-News 數(shù)據(jù)集上對提出的基于多粒度語義交互的抽取式多文檔摘要模型進(jìn)行評估,并與一些基準(zhǔn)模型進(jìn)行比較以驗(yàn)證本文的方法的有效性.
Multi-News 數(shù)據(jù)集是用于多文檔摘要的第一個大規(guī)模數(shù)據(jù)集,其中的每個樣本由一個人工摘要及其對應(yīng)的多個源文檔組成,其中,訓(xùn)練集包含44 972 個樣本,驗(yàn)證集和測試集各包含5 622 個樣本. 每個摘要平均有264 個單詞,對應(yīng)的同一主題的源文檔平均有2 103 個單詞,摘要對應(yīng)源文檔個數(shù)的信息如表1 所示.數(shù)據(jù)集中的摘要均為生成式摘要,為了滿足本文抽取式模型的訓(xùn)練,我們使用Jin 等人[20]通過計(jì)算與人工摘要的Rouge-2 得分構(gòu)建的標(biāo)簽序列.
表1 源文檔個數(shù)分布
實(shí)驗(yàn)通過將本文提出的多粒度語義交互抽取式模型與一些經(jīng)典的基準(zhǔn)模型以及近幾年中的一些強(qiáng)基準(zhǔn)模型進(jìn)行比較,來驗(yàn)證其對摘要質(zhì)量改進(jìn)的有效性,本節(jié)對這些基準(zhǔn)模型分別作簡要的介紹.
LexRank 是一種無監(jiān)督的基于圖的抽取式摘要方法,將文檔中的句子作為圖中節(jié)點(diǎn),節(jié)點(diǎn)之間的連線表示句子間的相似度,通過對句子的相似性進(jìn)行投票打分以確定句子的重要程度; TextRank 也是一種無監(jiān)督的基于圖的排序方法,句子的重要性得分通過加權(quán)圖中特征向量的中心性進(jìn)行計(jì)算; MMR 計(jì)算句子與原始文檔的相關(guān)性以及與文檔中其他句子之間的相似度,基于相關(guān)度和冗余度對候選句子打分,根據(jù)得分排名選擇句子生成摘要; PGN[21]是一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的生成式摘要模型,該模型使用注意力機(jī)制,允許通過指針從源文檔中復(fù)制單詞,也允許根據(jù)固定詞匯表生成單詞,有效緩解了未登錄詞(out of vocabulary,OOV)的問題; CopyTransformer[22]對Transformer 進(jìn)行擴(kuò)展,使用一個內(nèi)容選擇器從源文檔中篩選出應(yīng)成為摘要中內(nèi)容的短語,并將該選擇器作為自底向上的注意力機(jī)制步驟來對模型進(jìn)行約束; Hi-MAP 對指針生成網(wǎng)絡(luò)進(jìn)行擴(kuò)展,將其擴(kuò)展成層次網(wǎng)絡(luò),在摘要生成的過程中,結(jié)合MMR 模塊對句子打分.
通過初步實(shí)驗(yàn)對參數(shù)進(jìn)行設(shè)置,將詞匯量設(shè)為50 000,詞向量維度和隱藏層單元數(shù)設(shè)為512,前饋層單元個數(shù)設(shè)為2 048,使用8 頭注意力機(jī)制,輸入時,在不同文檔以及同一文檔的不同句子之間分別引入特殊符號,以便于模型對不同粒度進(jìn)行區(qū)分. 模型訓(xùn)練時,丟棄率[23]設(shè)為0.1,Adam 優(yōu)化器的初始學(xué)習(xí)α=0.0001,動量β1=0.9 ,β2=0.999,權(quán)重衰減 ε=10?5,batch-size 設(shè)為10,超參數(shù)λ=0.5,在抽取句子生成摘要時,按照排序抽取Top-5 個句子作為最終的摘要句.
實(shí)驗(yàn)中首先使用ROUGE 得分[24]對本文的模型以及基準(zhǔn)模型進(jìn)行自動評估,基準(zhǔn)模型中同時包含抽取式模型和生成式模型,通過對比以更好驗(yàn)證本文提出的方法的有效性. ROUGE 基于摘要中n元詞的共現(xiàn)信息來評價摘要,參考Lebanoff 等人[25]的工作,實(shí)驗(yàn)中分別使用ROUGE-1、ROUGE-2 和ROUGE-SU4 得分作為多文檔摘要自動評估的指標(biāo),ROUGE-N 主要統(tǒng)計(jì)N-gram 上的召回率,計(jì)算預(yù)測出的摘要與參考摘要中所共有的N-gram 個數(shù)占參考摘要中總N-gram 個數(shù)的比例; ROUGE-SU4 與ROUGE-N 不同的是它允許跳詞,在對預(yù)測出的摘要與參考摘要進(jìn)行匹配時,不要求gram 之間必須連續(xù),可以跳過幾個單詞,考慮了所有按詞序排列的詞對,能更深入的反映句子級詞序. 實(shí)驗(yàn)結(jié)果如表2 所示,其中MGSI 表示本文提出的基于多粒度語義交互的抽取式多文檔摘要模型.
表2 Multi-News 數(shù)據(jù)集測試評估(%)
對于抽取式基準(zhǔn)模型,三者在Multi-News 數(shù)據(jù)集上的表現(xiàn)相差很小,其中MMR 的ROUGE-1 得分比LexRank 和TextRank 分別高0.5 個百分點(diǎn)和0.33 個百分點(diǎn),而ROUGE-2 和ROUGE-SU4 得分則均低于LexRank 和TextRank. 生成式基準(zhǔn)模型普遍比抽取式基準(zhǔn)模型表現(xiàn)好,我們認(rèn)為這可能是因?yàn)镸ulti-News數(shù)據(jù)集中的參考摘要更傾向于使用新的單詞和短語來對源文檔進(jìn)行總結(jié). 在幾個生成式基準(zhǔn)模型中,Copy-Transformer 比PGN 在ROUGE-1、ROUGE-2 和ROUGE-SU4 三個指標(biāo)上分別提升了近4%、9% 和6%,表明Transformer 框架在文本摘要任務(wù)中優(yōu)于指針網(wǎng)絡(luò); Hi-MAP 則比PGN 在3 個指標(biāo)上分別提升了近4%、15% 和6%,表明在指針網(wǎng)絡(luò)的基礎(chǔ)上添加MMR 模塊能有效提高文本摘要的質(zhì)量.
我們的基于多粒度語義交互的抽取式模型在ROUGE 三個指標(biāo)上的得分分別是43.85、15.98 和19.62,優(yōu)于所有的基準(zhǔn)模型. 與MMR 相比,在ROUGE-1 上提升了13.1%,在ROUGE-2 上提升了33.4%,在ROUGESU4 上提升了52.0%,這說明將多粒度語義交互網(wǎng)絡(luò)與改進(jìn)的MMR 相結(jié)合抽取的摘要相對于僅用MMR模型抽取的摘要有很大的改進(jìn),我們將其歸結(jié)為多粒度交互網(wǎng)絡(luò)的有效性,使用該網(wǎng)絡(luò)能夠捕獲到包含不同粒度關(guān)鍵信息的句子表示,從而提高文本摘要的質(zhì)量; 從表中實(shí)驗(yàn)結(jié)果還可以看出,即使與一些生成式的強(qiáng)基準(zhǔn)模型相比,我們的抽取式多文檔摘要模型表現(xiàn)也不差,比CopyTransformer 在3 個指標(biāo)上分別提升了0.6%、13.9%和13%,比Hi-MAP 分別提升了0.9%、7.3%和12.7%,表明不同粒度之間的語義交互能幫助充分利用全局信息,例如跨文檔、跨句子之間的語義交互,從而使得更新后的句向量包含不同的關(guān)鍵信息,即在多文檔摘要任務(wù)中使用層次編碼框架能夠有效提升摘要的質(zhì)量.
為了對摘要的質(zhì)量做進(jìn)一步評估,我們還進(jìn)行了人工測評. 人工測評要求關(guān)注3 個指標(biāo): 相關(guān)性、非冗余性和語法性. 其中相關(guān)性用來度量摘要是否覆蓋源文檔中的全部關(guān)鍵信息; 非冗余性用來度量摘要是否包含重復(fù)信息; 語法性用來度量摘要的語法是否通順.我們從Multi-News 數(shù)據(jù)集的測試集中隨機(jī)選擇20 個樣本,邀請3 名軟件工程專業(yè)的研究生對每一個樣本對應(yīng)的摘要依照Likert scale 就3 個評估指標(biāo)分別打分,使用五級量表,分值為1–5,1 表示最差,5 表示最好,每個指標(biāo)取所有樣本得分的平均值作為最終結(jié)果.我們從基準(zhǔn)模型中分別選擇一個表現(xiàn)較好的抽取式模型和一個生成式模型作為代表,來與本文提出的MGSI模型進(jìn)行比較.
評估結(jié)果如圖3 所示,本文的MGSI 模型比其他兩種基準(zhǔn)模型在3 種指標(biāo)上表現(xiàn)都好,在相關(guān)性上,達(dá)到了3.50 的最高分,表明多粒度語義交互網(wǎng)絡(luò)確實(shí)能夠挖掘句子的深層語義,從而在計(jì)算句子重要性時能考慮到各個方面的關(guān)鍵信息; 在非冗余度方面,MGSI比LexRank 和Hi-MAP 分別高出了0.91 分和0.69 分,表明結(jié)合改進(jìn)的MMR 算法能夠有效減少摘要中的重復(fù)信息,降低其冗余度; 在語法上,Hi-MAP 模型的得分最低,這可能是因?yàn)樯墒降姆椒ㄐ枰尚碌脑~和句子,往往會造成語法錯誤,而抽取式的方法由于直接從原文中抽取句子,在很大程度上保留了原意,從評估結(jié)果可以看出,MGSI 模型的語法性得分雖然比基準(zhǔn)模型略有提高,但是相對于其他兩個指標(biāo)來說比較低,這可能是因?yàn)槲覀儗Τ槿〉木渥又苯影凑掌湓谠闹谐霈F(xiàn)的位置進(jìn)行排序,沒有進(jìn)一步考慮句子之間的邏輯關(guān)系,導(dǎo)致生成的摘要整體上語義連貫性較差,可讀性不高,這也是后續(xù)研究中需要改進(jìn)的問題.
圖3 人工評估
表3 中展示了本文的MGSI 模型抽取摘要的一個實(shí)例,從抽取出的摘要本身來看,句子之間的重復(fù)內(nèi)容較少,具有較低的冗余度,此外,與人工摘要進(jìn)行對比發(fā)現(xiàn),二者在內(nèi)容上有較高的重疊,表中劃線部分即為本文的模型抽取的摘要與人工摘要中完全重合的部分.這進(jìn)一步說明我們提出的基于多粒度語義交互的抽取式模型能針對多文檔生成一個信息較全面且重復(fù)內(nèi)容少的摘要.
表3 抽取式摘要示例
本文提出了一種基于多粒度語義交互的抽取式多文檔摘要模型,將單詞、句子和文檔3 種粒度的語義關(guān)系圖與MMR 模塊結(jié)合,以解決多文檔摘要中存在的信息主題覆蓋度低、冗余度高的問題. 通過多粒度編碼器獲取同一主題下多個文檔中全部句子的向量表示,然后使用改進(jìn)的MMR 算法通過排序?qū)W習(xí)為這些句子打分,從而完成摘要句的抽取. 在Multi-News 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們的模型優(yōu)于LexRank、TextRank 等基準(zhǔn)模型.
在當(dāng)前的工作中,對于抽取出的句子,我們按照其在文檔中出現(xiàn)的先后順序?qū)ζ溥M(jìn)行排列,但由于抽取的句子來自于不同文檔,往往會導(dǎo)致生成摘要的語義連貫性較差,未來我們將考慮通過學(xué)習(xí)句子的前后邏輯概率對抽取出的句子進(jìn)行進(jìn)一步的排序,而不是簡單按照其在源文檔中出現(xiàn)的順序進(jìn)行排列,以保證最終生成的摘要的語義連貫性,增加其可讀性.