勞南新 王幫海
(廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 廣東 廣州 510006)
在信息爆炸時(shí)代,面對(duì)呈指數(shù)級(jí)增長(zhǎng)的網(wǎng)絡(luò)文本資源,如何精準(zhǔn)而快速地從中提取出重要的內(nèi)容,已經(jīng)是一個(gè)十分迫切而有意義的需求。自動(dòng)文本摘要技術(shù)旨在利用計(jì)算機(jī)強(qiáng)大的計(jì)算能力,從較長(zhǎng)文本中提煉出關(guān)鍵信息,生成簡(jiǎn)潔、通順和凝練的摘要,以幫助用戶快速全面地了解文本關(guān)鍵信息。其在下游任務(wù),如新聞標(biāo)題生成、搜索結(jié)果預(yù)覽和自動(dòng)報(bào)告生成等都有豐富的應(yīng)用場(chǎng)景[1]。
一般而言,自動(dòng)文本摘要技術(shù)從算法思路上可以分為抽取式(Extractive)和生成式(Abstractive)[1]。抽取式自動(dòng)文本摘要技術(shù)的主要思路是根據(jù)一定算法,給每個(gè)句子打分,然后按照分?jǐn)?shù)排序,選取前k個(gè)句子整合作為文本摘要。其優(yōu)點(diǎn)是易于實(shí)現(xiàn)、語句通順度高,不存在事實(shí)性錯(cuò)誤,缺點(diǎn)是靈活性不夠,無法生成原文中不存在的詞句。其代表算法有LexRank[2]和TextRank[3]。LexRank的主要思路是把句子視為節(jié)點(diǎn),句子間相似度作為邊構(gòu)造出標(biāo)量圖,根據(jù)圖模型中節(jié)點(diǎn)的權(quán)重抽取評(píng)分較高的句子組合成摘要。TextRank算法則借鑒了PageRank[4]搜索網(wǎng)頁排序算法,將詞視為“互聯(lián)網(wǎng)上的節(jié)點(diǎn)”,根據(jù)詞之間的共現(xiàn)關(guān)系構(gòu)建圖模型,以馬爾可夫鏈的收斂性質(zhì)作為理論基礎(chǔ),采用投票機(jī)制選取出摘要句。
生成式自動(dòng)文本摘要技術(shù)的進(jìn)步得益于近些年神經(jīng)網(wǎng)絡(luò)的巨大發(fā)展。Rush等[5]將基于注意力機(jī)制的Seq2Seq架構(gòu)引入文本摘要領(lǐng)域,證實(shí)了循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)文本摘要任務(wù)的有效性。Gu等[6]受人類提取信息的模式啟發(fā),首次將復(fù)制機(jī)制引入了文本摘要模型。See等[7]提出的Pointer-Generator網(wǎng)絡(luò)則融合了復(fù)制和生成模式,并引入了覆蓋向量,同時(shí)解決了OOV(Out of Vocabulary)和無意義重復(fù)的問題。Paulus等[8]提出將有監(jiān)督單詞預(yù)測(cè)和強(qiáng)化學(xué)習(xí)結(jié)合,以緩解損失目標(biāo)為交叉熵和以不可導(dǎo)的ROUGE(Recall-Oriented Understudy for Gisting Evaluation)評(píng)分[9]為評(píng)測(cè)目標(biāo)的不一致性問題。Reinforced-Topic-ConvS2S[10]則結(jié)合了強(qiáng)化學(xué)習(xí)、主題感知和卷積Seq2Seq的優(yōu)點(diǎn),在Gigaword、DUC等一系列文本摘要數(shù)據(jù)集上取得了較大的進(jìn)展。
近年來,Elmo[11]、BERT[12]和GPT[13]等預(yù)訓(xùn)練語言模型的提出使得“預(yù)訓(xùn)練+微調(diào)”的架構(gòu)思路提升了一系列自然語言處理任務(wù)的分?jǐn)?shù)。Zhang等[14]提出基于BERT的兩階段摘要生成模型,Liu等[15]提出基于BERT的文檔級(jí)別編碼器,都驗(yàn)證了預(yù)訓(xùn)練語言模型在文本摘要任務(wù)上的可行性與有效性。
在中文文本摘要領(lǐng)域,Hu等[16]構(gòu)建的LCSTS新浪微博新聞數(shù)據(jù)集為較為權(quán)威的中文短文本摘要數(shù)據(jù)集,Chang等[17]提出的混合字詞編碼模型HWC+Transformer首次在LCSTS數(shù)據(jù)集上取得了較大的進(jìn)展。
Peyrard等[18]為自動(dòng)文本摘要任務(wù)定義了系統(tǒng)嚴(yán)謹(jǐn)?shù)睦碚摽蚣?,本?jié)首先討論該框架與ROUGE評(píng)分的關(guān)系,并試圖在其理論框架基礎(chǔ)上,分析中文自動(dòng)文本摘要的信息論特征,并為混合字詞特征的中文文本摘要模型提供理論支持。
一段文本X可以看作是一個(gè)以一定概率分布PX發(fā)射語義單元ω的信源。相關(guān)度(Relevance)定義為摘要和原文檔之間的交叉熵,Rel(S,D)=-CE(S,D)。
(1)
式中:S代表摘要;D代表原文檔;PS為摘要中基于語義單元組合的概率分布;PD為原文檔中基于語義單元組合的概率分布;ωi代表第i個(gè)語義單元。相關(guān)度衡量的是摘要和原文檔之間的相關(guān)程度,相關(guān)度越大,那么摘要就能更好地?cái)M合原文檔的概率分布,摘要和原文檔之間的信息損失就越小,讀者通過閱讀摘要就能更大程度地降低對(duì)原文檔的不確定性。
冗余度(Redundancy)定義為摘要的最大香農(nóng)熵和實(shí)際香農(nóng)熵之間的差值,其計(jì)算式為:
Red(S)=Hmax-H(S)
(2)
式中:Hmax表示在摘要為均勻分布時(shí)的香農(nóng)熵,也即對(duì)全體語義單元的集合Ω來說,?(i,j),PS(ωi)=PS(ωj)。理論上Hmax=log|Ω|可視為常數(shù),因此冗余度也可簡(jiǎn)寫為Red(S)=-H(S)。冗余度越小,表示摘要越簡(jiǎn)短高效,包含的信息覆蓋范圍越全面,重復(fù)冗余信息越少,信息壓縮的效率越高。
設(shè)讀者擁有一個(gè)背景知識(shí)庫K,則信息量(Informativeness)可定義為摘要和背景知識(shí)庫之間的交叉熵,Inf(S,K)=CE(S,K)。
(3)
式中:PK表示背景知識(shí)庫K中基于語義單元組合的概率分布。信息量越大,表示讀者在以背景知識(shí)庫K為基礎(chǔ)的條件下,通過閱讀摘要,獲得的新信息量越大。
綜合以上三個(gè)維度,可定義一個(gè)全面的文本摘要的目標(biāo)函數(shù),其表達(dá)式為:
ΘI(S,D,K)=-Red(S)+αRel(S,D)+βInf(S,K)
(4)
上述文本摘要嚴(yán)謹(jǐn)全面的信息論框架,可以為文本摘要算法模型提供理論指導(dǎo)。但在實(shí)際應(yīng)用計(jì)算中,文本的概率分布難以精確取得,因此,文獻(xiàn)[18]在實(shí)驗(yàn)部分做了以下簡(jiǎn)化假設(shè):
(1) 選擇詞作為語義單元。
(2) 一段文本基于詞的概率分布可由這段文本基于詞的頻率分布近似。
短文本摘要中語義單元的出現(xiàn)頻率大多在0和1之間,因此在實(shí)際工程應(yīng)用中,衡量摘要的優(yōu)劣一般采用ROUGE評(píng)分[9],其主要通過對(duì)比自動(dòng)生成摘要與人工參考摘要的n元詞的共現(xiàn)關(guān)系計(jì)算自動(dòng)生成摘要的分?jǐn)?shù),一般有召回率(Recall)、精確度(Precision)和F值。
(5)
(6)
(7)
為了討論ROUGE指標(biāo)與相關(guān)度、冗余度、信息量和目標(biāo)函數(shù)ΘI的關(guān)系,本文繼續(xù)做出以下假設(shè)。
(4) 由于每位讀者背景知識(shí)庫K都不同,因此假設(shè)一個(gè)一般的背景知識(shí)庫,其概率分布為基于所有語義單元的均勻分布。
綜上所述,在以上一系列理論假設(shè)條件下ROUGE評(píng)分與目標(biāo)函數(shù)ΘI基本正相關(guān),因此后續(xù)用ROUGE評(píng)分來評(píng)價(jià)文本摘要的優(yōu)劣具有一定合理性。
中文文本與英文文本不同,并不存在天然的以空格分隔的單詞,因此對(duì)中文文本自動(dòng)摘要任務(wù)進(jìn)行建模就必須考慮到語義單元的選取問題。一般而言,在讀取與理解一段文本的內(nèi)在涵義上,詞比字能更準(zhǔn)確地捕捉信息,因此本節(jié)提出在提取信息特征的編碼器階段存在著以下關(guān)系。
Rel(FW,D)≥Rel(FC,D)
(8)
式中:FW表示以詞為語義單元的編碼器編碼出的信息特征;FC表示以字為語義單元的編碼器編碼出的信息特征。式(8)表明在編碼器提取文本信息特征階段,以詞為語義單元的編碼器能更準(zhǔn)確地捕獲原文信息,產(chǎn)生的與原文的信息損失更小。
在中文中常常存在著縮寫現(xiàn)象,如“發(fā)展和改革委員會(huì)”常被簡(jiǎn)寫為“發(fā)改委”。設(shè)DW為一語義的全稱,DC為同一語義的簡(jiǎn)寫,則在以常識(shí)背景知識(shí)庫K為前提條件下,通過閱讀簡(jiǎn)寫DC,能以很高的概率推斷出全稱DW,或也可表示為條件熵H(DW|DC,K)≈0。因此在解碼器生成摘要階段,本文認(rèn)為存在以下關(guān)系:
Rel(SW,D)≈Rel(SC,D)
(9)
Red(SW)≥Red(SC)
(10)
Inf(SW,K)≈Inf(SC,K)
(11)
式中:SW表示以詞為語義單元的解碼器生成的摘要;SC表示以字為語義單元的解碼器生成的摘要。式(9)-式(11)表明,在解碼器端,以字為語義單元生成的摘要相比以詞為語義單元生成的摘要,能在保持相關(guān)度和信息量基本不變的同時(shí),減少冗余度,從而優(yōu)化目標(biāo)函數(shù)ΘI。
BERT預(yù)訓(xùn)練模型[12]的提出在一系列NLP任務(wù)上都取得了不錯(cuò)的進(jìn)展,并成為了當(dāng)今NLP領(lǐng)域十分重要的基礎(chǔ)技術(shù)。然而由于谷歌官方發(fā)布的BERT_base_Chinese中文預(yù)訓(xùn)練模型是以字為粒度,遮罩也是以字為粒度,這就導(dǎo)致該模型無法捕捉中文以詞語為語義單元更準(zhǔn)確的信息。全詞遮罩wwm(Whole Word Masking)[19]是BERT的升級(jí)版,其主要改進(jìn)是在預(yù)訓(xùn)練階段,如果一個(gè)詞WordPiece分詞后部分子詞被遮罩,那么同屬該詞的其他部分子詞也會(huì)被遮罩。Cui等[19]為了解決以字為語義單元的谷歌版BERT的缺陷,將全詞遮罩技術(shù)引入中文BERT的訓(xùn)練中,使用中文維基百科和通用數(shù)據(jù)進(jìn)行訓(xùn)練,在一系列中文NLP任務(wù)上都驗(yàn)證了其有效性。
在中文文本摘要任務(wù)上,Chang等[17]提出的混合字詞模型(Hybrid Word-Character Model)首次在中文文本摘要數(shù)據(jù)集LCSTS[16]上取得了突破性的進(jìn)展。在HWC模型中,首先用Jieba分詞算法庫對(duì)原文檔進(jìn)行中文分詞,將分詞編碼成詞向量輸入編碼器,生成中間特征向量,再將該特征向量輸入解碼器,以字為語義單元生成文本摘要。
本文則認(rèn)為,在文本的詞嵌入表示階段,進(jìn)行中文分詞的過程可能存在誤差,而這種在一開始就由分詞造成的誤差,在后續(xù)則難以糾正。因?yàn)閺墓こ虒?shí)踐經(jīng)驗(yàn)來看,每個(gè)領(lǐng)域都有其獨(dú)特的詞語表示,幾乎不存在通用的分詞系統(tǒng)。比如“南京市長(zhǎng)江大橋”,就存在“南京市 | 長(zhǎng)江 | 大橋”和“南京 | 市長(zhǎng) | 江大橋”兩種分詞方案。
同時(shí)由于中文詞組的可能組合非常多,在分詞嵌入階段構(gòu)造的詞表就會(huì)非常大。以字粒度表示的字表只需要記錄1萬左右的字,而以詞粒度表示的詞表記錄數(shù)則往往會(huì)達(dá)到字表的幾十甚至上百倍。這一方面會(huì)使得使用詞表計(jì)算最終詞的生成概率的時(shí)間復(fù)雜度和空間復(fù)雜度遠(yuǎn)遠(yuǎn)大于字表,另一方面假如為了限制詞表的長(zhǎng)度只記錄出現(xiàn)頻率最多的前k個(gè)詞,則容易導(dǎo)致OOV(Out-of-Vocabulary)詞的現(xiàn)象。
因此本文提出在中文文本摘要任務(wù)中,為了避免分詞誤差和使用詞表時(shí)間復(fù)雜度和空間復(fù)雜度過大的問題,不必在一開始就進(jìn)行中文分詞,而是采用全詞遮罩的BERT_wwm中文預(yù)訓(xùn)練語言模型作為編碼器,去提取中文文本的詞語級(jí)別語義特征,BERT的每一個(gè)Transformer[20]子模塊主要包含以下兩個(gè)操作。
(12)
(13)
式中:LN表示層規(guī)范化(Layer Normalization)操作,MHAtt表示多頭注意力機(jī)制操作;FFN表示前饋神經(jīng)網(wǎng)絡(luò)操作(Feed Forward Net);h表示隱藏層特征向量,上標(biāo)l表示層的高度。在BERT的最后一層輸出包含了中文文本豐富的詞語級(jí)別語義信息的特征向量hL,再將該特征向量輸入多層Transformer[20]解碼器中解碼生成最終摘要。
S=Trm(Trm(…Trm(hL)))
(14)
式中:Trm表示Transformer解碼器操作[20]。
本文提出的基于BERT的混合字詞特征中文文本摘要模型如圖1所示。
圖1 基于BERT的混合字詞特征中文文本摘要模型
圖中ID表示原文中每個(gè)字詞通過字詞表映射為對(duì)應(yīng)的ID數(shù)字序號(hào),P表示位置嵌入,T表示最終生成的摘要文本單元,由于本文并未采用下一句預(yù)測(cè)這一預(yù)訓(xùn)練任務(wù),因此模型并沒有使用分段嵌入來標(biāo)記句子。
由于從原始文本生成摘要可以看作一個(gè)所生成摘要文本同原始文本的相關(guān)度不變或稍微減少,而同時(shí)生成文本冗余度減少的過程,相關(guān)度和冗余度的關(guān)系可由KL散度描述。
KL(S‖D)=Red(S)-Rel(S,D)
(15)
相關(guān)度越高,冗余度越小,那么KL散度的數(shù)值就越小,說明模型對(duì)原文進(jìn)行信息提取與壓縮的能力越強(qiáng)。由第1節(jié)的分析,ROUGE評(píng)分可近似綜合體現(xiàn)相關(guān)度和冗余度,因此根據(jù)控制變量法,在解碼器框架不變的條件下,如果ROUGE評(píng)分越高,則說明編碼器提取信息特征的能力越強(qiáng)。由于中文字與字之間的組合情況千差萬別,如果在一開始就對(duì)中文文本進(jìn)行分詞,限定了字與字之間的可能組合,不僅一開始可能因?yàn)榉衷~偏誤引入誤差,而且還無法利用模型強(qiáng)大的信息處理能力對(duì)特定領(lǐng)域的中文文本字與字之間更優(yōu)的組合方式進(jìn)行調(diào)整與學(xué)習(xí)。因此本文的模型基于如下假設(shè),全詞遮罩BERT編碼器能夠在后續(xù)訓(xùn)練中學(xué)習(xí)到更優(yōu)的語義單元組合信息,其提取信息特征的能力強(qiáng)于在起始先分詞后再進(jìn)行編碼的編碼器。假設(shè)編碼器提取出的中間特征能與真實(shí)文本在語義單元上抽象對(duì)應(yīng),那么該假設(shè)可表述為:
KL(FBERT_wwm‖D)≤KL(Fseg‖D)
(16)
式中:FBERT_wwm表示采用全詞遮罩BERT作為編碼器提取出的信息特征,F(xiàn)seg表示先中文分詞再進(jìn)行編碼后提取的信息特征。式(16)含義表示全詞遮罩BERT能通過訓(xùn)練與調(diào)整捕捉到更優(yōu)的字與字之間的組合方式,提取出的中間信息特征具有更高的相關(guān)度,更低的冗余度,從而使得與原文的KL散度更小。
后續(xù)本文分別采用了BERT_base_Chinese、BERT_wwm_Chinese、BERT_wwm_ext_Chinese和RoBERTa_wwm_ext_Chinese四種BERT預(yù)訓(xùn)練語言模型作為編碼器。其中,RoBERTa[21]是BERT的改進(jìn)版,相比BERT,其主要在預(yù)訓(xùn)練過程中采用動(dòng)態(tài)遮罩技術(shù),連續(xù)多句NSP(Next Sentence Prediction),以及采用更大的mini-batch和更多的訓(xùn)練數(shù)據(jù)。
實(shí)驗(yàn)在Intel Core i7- 6800K CPU @ 3.40 GHz×12處理器、24 GB內(nèi)存、250 GB硬盤、Nvidia GeForce GTX 1080/PCIe/SSE2顯卡、8 GB顯存、Ubuntu 18.04.2 LTS 64位操作系統(tǒng)、Python 3.7.3和Pytorch 1.0.1的環(huán)境中運(yùn)行。
本文在較為權(quán)威的中文短文本摘要數(shù)據(jù)集LCSTS[16]上進(jìn)行了實(shí)驗(yàn)。該數(shù)據(jù)集爬取自新浪微博權(quán)威的新聞媒體賬號(hào),其主要由三部分組成。
實(shí)驗(yàn)按中文短文本摘要領(lǐng)域內(nèi)的慣例,采用第I部分進(jìn)行訓(xùn)練,在評(píng)測(cè)時(shí)則以第III部分中相關(guān)度評(píng)分大于等于3的725條數(shù)據(jù)為測(cè)試集。
公開的BERT模型是基于中文維基和通用數(shù)據(jù)進(jìn)行的預(yù)訓(xùn)練,將其應(yīng)用于文本摘要生成任務(wù)有必要針對(duì)性地進(jìn)行預(yù)訓(xùn)練微調(diào)。盡管原始的BERT模型有遮罩預(yù)測(cè)與下一句預(yù)測(cè)兩個(gè)預(yù)訓(xùn)練任務(wù),但根據(jù)文獻(xiàn)[22],去除下一句預(yù)測(cè)任務(wù)且遮罩連續(xù)的片段效果更好,同時(shí)一般摘要句長(zhǎng)度不會(huì)超過原文長(zhǎng)度的1/3,因此本文將原文與摘要句進(jìn)行拼接。
[CLS]原文[SEP]摘要句
接著對(duì)摘要句進(jìn)行整體遮罩,構(gòu)建出如下的數(shù)據(jù)格式來對(duì)BERT模型進(jìn)行遮罩預(yù)測(cè)任務(wù)的預(yù)訓(xùn)練微調(diào)。
[CLS]原文[SEP][MASK][MASK]…[MASK]
第二階段再將微調(diào)好的BERT模型對(duì)原文提取出的文本特征送入Transformer解碼器進(jìn)行文本摘要的生成。
在編碼器端采用BERT預(yù)訓(xùn)練語言模型結(jié)構(gòu),隱藏層數(shù)為12,隱藏層節(jié)點(diǎn)數(shù)為768,注意力頭為12個(gè),注意力層和隱藏層的dropout概率設(shè)為0.1,最大位置編碼為512,隱藏層激活函數(shù)采用高斯誤差線性單元GELU(Gaussian Error Linear Units),表示為:
GLUE(x)=xP(X≤x)=xφ(x)
(17)
式中:φ(x)是高斯正態(tài)分布的累積分布。
在解碼器端采用6層Transformer,隱藏層節(jié)點(diǎn)數(shù)為768,注意力頭為12個(gè),最大目標(biāo)文本長(zhǎng)度為32。
損失函數(shù)采用Label Smoothing,表示為:
(1-ε)H(q,p)+εH(u,p)
(18)
在測(cè)試生成階段采用集束搜索Beam Search,選取出條件概率近似最大的句子,表示為:
…,x
(19)
對(duì)四種BERT模型進(jìn)行預(yù)訓(xùn)練微調(diào)的結(jié)果如圖2所示,可見盡管四種BERT模型在預(yù)訓(xùn)練微調(diào)時(shí)的交叉熵?fù)p失之間差距不超過0.2,但仍能看出原始的BERT_base模型的預(yù)訓(xùn)練微調(diào)效果稍差于其他采用了全詞遮罩的BERT模型,同時(shí)RoBERTa_wwm_ext模型的預(yù)訓(xùn)練微調(diào)交叉熵?fù)p失相較其他模型更優(yōu)。
圖2 BERT預(yù)訓(xùn)練微調(diào)對(duì)比圖
實(shí)驗(yàn)采用自動(dòng)文本摘要領(lǐng)域通用評(píng)價(jià)標(biāo)準(zhǔn)ROUGE[9]作為實(shí)驗(yàn)結(jié)果的評(píng)估方法,n元詞的ROUGE計(jì)算公式已在本文第1節(jié)中敘述。ROUGE-N固定了n元詞的長(zhǎng)度n,對(duì)于文本流暢度的評(píng)估存在不足,而ROUGE-L則是對(duì)比自動(dòng)生成摘要和人工參考摘要的最長(zhǎng)公共子序列來計(jì)算分值的一種方法。
(20)
(21)
(22)
實(shí)驗(yàn)結(jié)果如表2所示,可見相比單純Transformer模型,BERT+Transformer的ROUGE-1、ROUGE-2和ROUGE-L的F1分?jǐn)?shù)都有一定提升,并且采用了全詞遮罩技術(shù)的BERT_wwm效果好于谷歌發(fā)布的以字為遮罩粒度的BERT_base模型。其中RoBERTa_wwm_ext_Chinese+Transformer達(dá)到了最好效果,ROUGE-1、ROUGE-2和ROUGE-L的F1分?jǐn)?shù)分別達(dá)到了44.60、32.33和41.37,效果好于起始先進(jìn)行中文分詞后再進(jìn)行編碼的HWC+Transformer方法,這驗(yàn)證了式(16)的假設(shè)。
表2 ROUGE評(píng)測(cè)的F1分?jǐn)?shù)
訓(xùn)練過程loss值隨時(shí)間的變化情況如圖3所示,可以看出RoBERTa_wwm_ext_Chiinese+Transformer的收斂速度比其他模型快,整體loss曲線也明顯低于其他三種方法,具有更優(yōu)的收斂性質(zhì)。
圖3 loss值隨訓(xùn)練時(shí)間變化的關(guān)系
圖4選取了在測(cè)試時(shí)LCSTS數(shù)據(jù)集的第III部分的部分樣例,可看出,BERT_wwm_Chinese+Transformer的模型能生成原文中并不存在的“透露什么信號(hào)”等詞句,可見其能理解并捕捉原文關(guān)鍵信息并重新用更簡(jiǎn)潔的詞句表達(dá),說明其具有較強(qiáng)的理解與生成能力。但同時(shí)也注意到在Article(2)中,HWC+Transformer和BERT_wwm_ext_Chinese+Transformer生成的摘要有歧義,原文意思是“小米等互聯(lián)網(wǎng)盒子和路由都和我們沒法比”,它們生成摘要的意思卻分別是“小米和路由沒法比”和“互聯(lián)網(wǎng)盒子和路由沒法比”,會(huì)給讀者造成誤導(dǎo)。如何防范摘要對(duì)原文意思過份簡(jiǎn)略而導(dǎo)致歧義,將是文本摘要后續(xù)研究的一大重點(diǎn)。通過對(duì)比也可看出,RoBERTa_wwm_ext_Chinese+Transformer生成的摘要其概括能力、正確度、流暢度與可讀性都顯著強(qiáng)于其他模型,已相當(dāng)接近人類摘要的水平。
Article(1):除了出訪或是參加重要活動(dòng),李克強(qiáng)總理都會(huì)在周三主持召開國務(wù)院常務(wù)會(huì)議。7個(gè)月,23次常務(wù)會(huì)議(20次在星期三),如果將這些會(huì)議的主題用一條紅線串起來,看到的不只是大政方針變化的軌跡,更有本屆政府的執(zhí)政之道、治國之策。Reference:23次常務(wù)會(huì)議透視李克強(qiáng)執(zhí)政之道。Transformer:國務(wù)院常務(wù)會(huì)議的紅線串起來。HWC+Transformer:解讀李克強(qiáng)7個(gè)月23次常務(wù)會(huì)議。BERT_base_Chinese+Transformer:李克強(qiáng)總理周三主持召開國務(wù)院常務(wù)會(huì)議。BERT_wwm_Chinese+Transformer:總理7個(gè)月23次常務(wù)會(huì)議透露哪些信號(hào)?BERT_wwm_ext_Chinese+Transformer:李克強(qiáng)總理7個(gè)月23次常務(wù)會(huì)議透露什么信號(hào)。RoBERTa_wwm_ext_Chinese+Transformer:從國務(wù)院常務(wù)會(huì)議看李克強(qiáng)執(zhí)政之道。Article(2):對(duì)即將改名“中科云網(wǎng)”的湘鄂情,孟凱充滿期待,“外界說我們是做大數(shù)據(jù)玩概念,但我相信升級(jí)改造廣電網(wǎng)絡(luò)的工作,將會(huì)相當(dāng)于給廣電配上核武器?!薄靶∶椎然ヂ?lián)網(wǎng)企業(yè)那些盒子和路由加一起,都和我們沒法比?!盧eference:湘鄂情搞有線電視:小米們加一起都和我們沒法比。Transformer:孟凱:互聯(lián)網(wǎng)盒子和路由加一起都沒法比。HWC+Transformer:湘鄂情董事長(zhǎng)談升級(jí)改造廣電網(wǎng)絡(luò):小米和路由沒法比。BERT_base_Chinese+Transformer:湘鄂情董事長(zhǎng)孟凱:互聯(lián)網(wǎng)公司要改造廣電網(wǎng)絡(luò)。BERT_wwm_Chinese+Transformer:湘鄂情孟凱:改造廣電網(wǎng)絡(luò)相當(dāng)于給廣電配核武器。BERT_wwm_ext_Chinese+Transformer:湘鄂情董事長(zhǎng)孟凱:互聯(lián)網(wǎng)企業(yè)盒子和路由沒法比。RoBERTa_wwm_ext_Chinese+Transformer:湘鄂情孟凱:小米等盒子和路由加一起都和我們沒法比。
本文認(rèn)為文本摘要可視為一個(gè)信息處理過程,可由一套嚴(yán)謹(jǐn)系統(tǒng)的信息論框架描述。首先探討了文本摘要信息論框架與ROUGE評(píng)分標(biāo)準(zhǔn)的關(guān)系,并對(duì)中文文本摘要的詞級(jí)語義單元和字級(jí)語義單元的信息論特征進(jìn)行了分析,根據(jù)文本摘要的相關(guān)度、冗余度和信息量等特征。為了解決在HWC方法在一開始進(jìn)行中文分詞導(dǎo)致引入誤差以及詞表過大造成的時(shí)間復(fù)雜度和空間復(fù)雜度過大的問題,提出采用全詞遮罩BERT_wwm+Transformer的中文文本摘要模型。在LCSTS上的實(shí)驗(yàn)結(jié)果表明,在本文實(shí)驗(yàn)的四種模型中,RoBERTa_wwm_ext_Chinese+Transformer模型效果優(yōu)于當(dāng)前較好的方法,也優(yōu)于在一開始就進(jìn)行中文分詞的HWC+Transformer方法。從測(cè)試集中抽取的樣例顯示,RoBERTa_wwm_ext_Chinese+Transformer模型生成的摘要具有較強(qiáng)的理解能力、抽象能力、正確度、流暢度與可讀性,具有較好的應(yīng)用前景。未來下一步將探究BERT在長(zhǎng)文本摘要上的應(yīng)用。