• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于雙編碼器的中文文本摘要技術(shù)的研究與實(shí)現(xiàn)

    2021-09-16 01:54:22李大舟
    關(guān)鍵詞:解碼器編碼器語(yǔ)義

    高 巍,馬 輝,李大舟,于 沛

    (沈陽(yáng)化工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 沈陽(yáng) 110142)

    0 引 言

    人工生成摘要可以提取文本的有效信息,但是其面臨人工資源不足與低效率的難題。自動(dòng)文摘[1]是自然語(yǔ)言處理領(lǐng)域的重要分支,它是通過(guò)計(jì)算機(jī)對(duì)文本信息進(jìn)行壓縮和提取,生成簡(jiǎn)短的能有效概括文本內(nèi)容的短文或句子。自動(dòng)摘要問(wèn)題可以看成一個(gè)輸入序列到一個(gè)輸出序列的映射過(guò)程,因此可以采用序列到序列模型來(lái)實(shí)現(xiàn)生成式文本摘要。隨著深度學(xué)習(xí)技術(shù)的不斷成熟,研究人員將深度學(xué)習(xí)與Seq2Seq模型相結(jié)合進(jìn)行生成式摘要的研究。目前,該模型通常采用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)來(lái)構(gòu)造編碼器和解碼器。

    1 相關(guān)研究

    隨著深度學(xué)習(xí)的迅速發(fā)展為生成式文本摘要提供了另一種可行性框架,序列到序列模型,基本思想是根據(jù)輸入序列的全局信息得到與之對(duì)應(yīng)的輸出序列,序列到序列模型由編碼器和解碼器兩部分構(gòu)成。Rush等[2]最先將該模型應(yīng)用于生成式摘要,將卷積模型應(yīng)用于對(duì)原文檔進(jìn)行編碼,然后利用上下文之間的注意力前饋神經(jīng)網(wǎng)絡(luò)生成摘要,與之前的生成式方法相比,該模型是在“理解”源文信息的基礎(chǔ)上生成摘要。See等[3]采用BiLSTM和LSTM分別構(gòu)建編解碼器,并采用指針機(jī)制來(lái)緩解未登錄詞問(wèn)題,在確保生成摘要語(yǔ)義通順和精確的基礎(chǔ)上又具有新生單詞的能力。謝鳴元等[4]考慮文本分類(lèi)對(duì)生成式摘要的影響,利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)文檔進(jìn)行分類(lèi),在Seq2Seq基礎(chǔ)上結(jié)合文本類(lèi)別特征生成摘要。侯麗微等[5]用注意力機(jī)制計(jì)算出關(guān)鍵詞語(yǔ)義向量,將其和編碼器語(yǔ)義向量、解碼器語(yǔ)義向量結(jié)合后共同推導(dǎo)下一個(gè)詞項(xiàng)。Bai等[6]提出時(shí)間卷積網(wǎng)絡(luò),并在多個(gè)數(shù)據(jù)集中,TCN都得到了比RNN更為準(zhǔn)確的結(jié)果,TCN是一種新型的可以用來(lái)解決時(shí)間序列預(yù)測(cè)的模型。韓建勝等[7]將TCN網(wǎng)絡(luò)應(yīng)用于中文文本情感分類(lèi),TCN網(wǎng)絡(luò)對(duì)文本特征提取更充分,具有較強(qiáng)的分析文本能力。

    本文提出一種模型TCAtten-GRU來(lái)改善傳統(tǒng)編解碼器存在的語(yǔ)義信息不充分、生成的摘要不連貫和重復(fù)詞匯問(wèn)題。①在編碼器端采用雙編碼結(jié)構(gòu),分別用時(shí)間卷積網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)造兩個(gè)編碼器。時(shí)間卷積網(wǎng)絡(luò)對(duì)源文進(jìn)行編碼得到全文信息,卷積神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)提取文本的高層特征[8],兩個(gè)結(jié)果相融合可以更完整表述源文信息,利用融合后的隱層狀態(tài)值構(gòu)建注意力機(jī)制。②解碼器采用門(mén)控循環(huán)單元[9](gated recurrent unit,GRU)來(lái)構(gòu)建,同時(shí)結(jié)合指針機(jī)制[10]和集束搜索[11]方法。

    2 基于雙編碼器生成式模型的構(gòu)建

    通過(guò)對(duì)近年來(lái)生成式摘要方法進(jìn)行研究后,本文提出一種基于encoder-decoder架構(gòu)的雙編碼器模型。編碼器encoder1采用TCN網(wǎng)絡(luò)(temporal convolutional network,TCN)來(lái)獲取全文的語(yǔ)義信息,編碼器encoder2采用CNN(convolutional neural networks,CNN)網(wǎng)絡(luò)來(lái)更好地提取文本的高層次特征;將CNN提取的特征信息與TCN每一個(gè)隱層狀態(tài)融合后構(gòu)建注意力機(jī)制;解碼器decoder采用單向GRU網(wǎng)絡(luò)進(jìn)行解碼信息,加入指針機(jī)制和集束搜索解決未登錄詞問(wèn)題。TCAtten-GRU模型的框架如圖1所示。

    圖1 TCAtten-GRU模型總框架

    2.1 構(gòu)建輸入層

    在使用雙編碼器對(duì)文本進(jìn)行編碼時(shí),首先構(gòu)建輸入層,雙編碼器采用共同的輸入。先用pkuseg[12]分詞工具將源文本切分成詞,再用Glove預(yù)訓(xùn)練模型對(duì)詞進(jìn)行分布式向量表示。設(shè)文本D切分成詞后可用x={x1,x2,…,xn} 來(lái)表示詞向量,詞向量的維度為m(本文等于256),n為輸入序列的長(zhǎng)度,將輸入序列映射為輸入矩陣Mn×m,輸入層結(jié)構(gòu)如圖2所示,圖中n=105。

    圖2 輸入層結(jié)構(gòu)

    2.2 時(shí)間卷積編碼器

    采用TCN網(wǎng)絡(luò)構(gòu)建編碼器encoder1。傳統(tǒng)的編碼器大多都采用循環(huán)神經(jīng)網(wǎng)絡(luò)或其變體,但是會(huì)存在梯度彌散和梯度爆炸的問(wèn)題。TCN網(wǎng)絡(luò)可以大規(guī)模進(jìn)行并行處理,因此在訓(xùn)練和驗(yàn)證時(shí)網(wǎng)絡(luò)的速度都會(huì)更快;TCN網(wǎng)絡(luò)具有靈活的感受野,在處理歷史信息長(zhǎng)短上更加靈活;TCN網(wǎng)絡(luò)訓(xùn)練時(shí)占用的內(nèi)存更少,尤其是對(duì)于長(zhǎng)序列。該網(wǎng)絡(luò)中,將一維因果卷積[13]和擴(kuò)張卷積[14]相結(jié)合作為標(biāo)準(zhǔn)卷積層,2個(gè)標(biāo)準(zhǔn)卷積層與恒等映射封裝成一個(gè)殘差模塊[15],殘差模塊堆疊成深度網(wǎng)絡(luò),并用全卷積層代替最后幾層的全連接層。dropout層防止網(wǎng)絡(luò)過(guò)擬合,TCN網(wǎng)絡(luò)框架如圖3所示。

    圖3 TCN網(wǎng)絡(luò)框架

    因果卷積目的在于嚴(yán)格按照時(shí)序性對(duì)序列進(jìn)行處理,表現(xiàn)于下一時(shí)刻的輸出只依賴(lài)于上一時(shí)刻及其之前的值。輸入序列x={x1,x2,…,xn} 在t時(shí)刻的輸出為yt,則yt可由式(1)表示

    yt=f(x1,x2,…,xt)

    (1)

    因果卷積構(gòu)建長(zhǎng)期的記憶需要擴(kuò)大感受野,擴(kuò)大感受野需要非常多的層級(jí)數(shù)或很大的卷積核來(lái)實(shí)現(xiàn)。但是卷積層數(shù)的增加會(huì)帶來(lái)訓(xùn)練復(fù)雜、梯度消失以及擬合效果不好等問(wèn)題。擴(kuò)張卷積可以在保持參數(shù)和輸出大小不變的前提下,解決這些問(wèn)題。擴(kuò)張卷積不僅可以擴(kuò)大感受野、降低運(yùn)算量,還可以獲取更多的上下文信息。卷積核F={f1,f2,…,fK},在擴(kuò)張系數(shù)為d處xt的擴(kuò)張卷積F(xt)為式(2)

    (2)

    式中:K為卷積核大小,擴(kuò)張系數(shù)d代表兩個(gè)卷積核之間插入的零值個(gè)數(shù)。xt-(K-k)·d表示為F(xt)采用上一層的元素單元。為了確保卷積核在很長(zhǎng)的歷史信息中覆蓋更多的輸入序列,令擴(kuò)張系數(shù)隨著網(wǎng)絡(luò)深度的變化以2的指數(shù)增大,圖4為擴(kuò)張卷積網(wǎng)絡(luò)結(jié)構(gòu)。

    圖4 擴(kuò)張卷積網(wǎng)絡(luò)結(jié)構(gòu)

    每一次擴(kuò)張卷積運(yùn)算后都用ReLu函數(shù)進(jìn)行非線(xiàn)性變換,式(3)~式(5)為擴(kuò)張卷積的運(yùn)算方式

    ht=Conv(Mt×Fj+bt)

    (3)

    {h1,h2,…,hn}=LayerNorm({h1,h2,…,hn})

    (4)

    {h1,h2,…,hn}=ReLu({h1,h2,…,hn})

    (5)

    其中,ht是t時(shí)刻TCN網(wǎng)絡(luò)得到的狀態(tài)值,Conv表示卷積操作,Mt是t時(shí)刻網(wǎng)絡(luò)計(jì)算的詞的矩陣,F(xiàn)j是第j層的卷積核,bt是偏置。LayerNorm表示每次擴(kuò)大因果卷積結(jié)束后,對(duì)參數(shù)進(jìn)行層級(jí)歸一化,采用ReLu激活函數(shù)進(jìn)行非線(xiàn)性計(jì)算,{h1,h2,…,hn} 是經(jīng)過(guò)一次完整的卷積計(jì)算而得到的狀態(tài)值。

    引入殘差模塊解決因網(wǎng)絡(luò)深度而帶來(lái)的梯度消失問(wèn)題。網(wǎng)絡(luò)越深提取的特征越豐富,得到的語(yǔ)義信息也會(huì)更具體。如果簡(jiǎn)單的加深網(wǎng)絡(luò)層數(shù)會(huì)出現(xiàn)梯度消失或梯度爆炸,通常采用冗余層恒等映射來(lái)解決網(wǎng)絡(luò)退化的問(wèn)題。設(shè)網(wǎng)絡(luò)的輸入為x,期望輸出為H(x),恒等映射函數(shù)可表示為H(x)=x,但是網(wǎng)絡(luò)層學(xué)習(xí)恒等映射非常困難。因此將恒等映射轉(zhuǎn)換為殘差函數(shù)采用F(x)=H(x)-x,當(dāng)F(x)=0就構(gòu)成了恒等映射。為了保持輸入和輸出維度一致,采用全卷機(jī)網(wǎng)絡(luò)代替全連接層,實(shí)現(xiàn)端對(duì)端的序列預(yù)測(cè)效果。每一個(gè)隱藏層維度保持與輸入層維度相同,并通過(guò)填充操作保持和輸出層維度相同。

    2.3 卷積網(wǎng)絡(luò)編碼器

    采用CNN網(wǎng)絡(luò)構(gòu)建編碼器encoder2。卷積神經(jīng)網(wǎng)絡(luò)在圖像處理領(lǐng)域表現(xiàn)的十分出色,近年來(lái),有相關(guān)研究將其應(yīng)用在自然語(yǔ)言處理領(lǐng)域。如2017年,F(xiàn)acebook[16]公司提出基于CNN網(wǎng)絡(luò)的Seq2Seq模型,該模型在機(jī)器翻譯和文本摘要任務(wù)中均表現(xiàn)出色,引起學(xué)者的廣泛關(guān)注。卷積網(wǎng)絡(luò)一方面可以并行運(yùn)算,提高運(yùn)行速度;另一方面它的層次結(jié)構(gòu)可以更好地提取文本特征。卷積網(wǎng)絡(luò)的基本框架如圖5所示。

    圖5 卷積神經(jīng)網(wǎng)絡(luò)

    oi=ReLu(c?xi∶i+h-1+b)

    (6)

    O=o1⊕o2⊕…⊕on

    (7)

    激活函數(shù)ReLu表示對(duì)卷積結(jié)果進(jìn)行非線(xiàn)性映射,b是偏移量,o=[o1,o2,…,on]。oi是當(dāng)前卷積核在輸入矩陣中移動(dòng)一次產(chǎn)生的結(jié)果,o是當(dāng)前卷積核對(duì)輸入矩陣做一次完全卷積后的輸出結(jié)果。將每個(gè)卷積結(jié)果聯(lián)合得到最終卷積結(jié)果O。本文采用3種尺寸的卷積核,每種尺寸的卷積核數(shù)量都是多個(gè),通過(guò)不同的卷積核來(lái)提取文本特征。最后,將這些特征值聯(lián)合作為文本的特征表達(dá),并通過(guò)填充保證卷積網(wǎng)絡(luò)的輸入和輸出的矩陣形狀大小是相同的。

    2.4 注意力機(jī)制

    本文將雙編碼器獲得的全文信息和詞匯特征融入到注意力機(jī)制,改善語(yǔ)義信息不充分等問(wèn)題,增強(qiáng)對(duì)全文的理解。首先對(duì)雙編碼的輸出結(jié)果進(jìn)行融合,如式(8)所示

    (8)

    (9)

    (10)

    (11)

    2.5 解碼器

    解碼器端采用單向GRU網(wǎng)絡(luò)。解碼器的輸入由上一時(shí)刻t-1解碼器的輸出yt-1、上一時(shí)刻t-1解碼器的隱藏狀態(tài)St-1、當(dāng)前時(shí)刻t的上下文語(yǔ)義Ct,這3部分共同構(gòu)成。將雙編碼器的最終隱藏狀態(tài)作為解碼器的第一個(gè)輸入,GRU網(wǎng)絡(luò)結(jié)構(gòu)公式為式(12)~式(15)

    zt=σ(WzSt-1+WzCt+Wzyt-1])

    (12)

    rt=σ(Wr+St-1+WrCt+Wryt-1])

    (13)

    (14)

    (15)

    P(yt|y1,y2,…,yn,Ct)=softmax(St)

    (16)

    St=GRU(St-1,Ct,yt-1)

    (17)

    2.6 指針機(jī)制與集束搜索

    本文采用指針機(jī)制解決未登錄詞問(wèn)題(out of vocabulary,OOV),采用集束搜索降低計(jì)算復(fù)雜度并提高準(zhǔn)確率。

    模型的詞表由文本的高頻詞匯構(gòu)成,不在詞匯表中的詞用UNK表示。指針機(jī)制是指在解碼器端設(shè)置一個(gè)指針開(kāi)關(guān),判斷目標(biāo)詞匯yt是復(fù)制文本詞匯生成還是由GRU網(wǎng)絡(luò)直接生成。當(dāng)解碼器生成OOV的詞,指針開(kāi)關(guān)為復(fù)制模式P,指針指向源文本復(fù)制相應(yīng)詞匯作為目標(biāo)詞;若不是OOV的詞,指針開(kāi)關(guān)模式為生成模式G,由解碼器直接從詞表中生成目標(biāo)詞匯

    P=sigmoid(WsSt+Wyyt-1+WcCt+b)

    (18)

    式中:P可以看成指針控制開(kāi)關(guān),概率值很小時(shí)復(fù)制詞語(yǔ),反之基于詞匯表生成新詞匯。Ws、Wy、Wc這3個(gè)為權(quán)重矩陣。

    傳統(tǒng)的解碼器采用的是貪心搜索,即在概率矩陣中選擇最大的概率去生成目標(biāo)詞。集束搜索是一種啟發(fā)式圖搜索算法,集束搜索選取前q個(gè)最大概率,考慮更多的候選空間,這樣可以獲得更好的生成結(jié)果。本文設(shè)置集束搜索的寬度q為10。

    3 實(shí)驗(yàn)與分析

    3.1 數(shù)據(jù)集

    本文采用由B.Hu等[18]構(gòu)建的中文短文本摘要數(shù)據(jù)集LCSTS,該數(shù)據(jù)集抓取通過(guò)認(rèn)證組織的微博。該數(shù)據(jù)集收集新浪微博上的50個(gè)流行官方組織用戶(hù)作為種子(粉絲超過(guò)100萬(wàn)且具有藍(lán)V標(biāo)志,如人民日?qǐng)?bào)、中國(guó)日?qǐng)?bào)、環(huán)球時(shí)報(bào)等),微博文本涉及政治、經(jīng)濟(jì)、軍事、娛樂(lè)等領(lǐng)域。數(shù)據(jù)集由短文本-摘要構(gòu)成數(shù)據(jù)對(duì),主要分為3部分,見(jiàn)表1。

    表1 LCSTS數(shù)據(jù)集介紹

    第一部分:這部分是數(shù)據(jù)集的主要部分,包含2 400 591個(gè)短文本-摘要對(duì),用來(lái)訓(xùn)練模型。

    第二部分:這部分?jǐn)?shù)據(jù)是從第一部分?jǐn)?shù)據(jù)中隨機(jī)采樣得到的,包含10 666個(gè)人工標(biāo)注的短文本-摘要對(duì),將其作為高質(zhì)量的訓(xùn)練樣本數(shù)據(jù)。用1-5分對(duì)樣本進(jìn)行打分,‘1’表示最不相關(guān),‘5’表示最相關(guān)。

    第三部分:獨(dú)立于第一部分和第二部分,包含1106個(gè)短文本-摘要對(duì),使用‘3’以上作為測(cè)試集。

    本文采用第一部分作為訓(xùn)練集,第三部分作為測(cè)試集。

    3.2 評(píng)價(jià)指標(biāo)

    本文采用自動(dòng)文本摘要任務(wù)中通用的ROUGE分?jǐn)?shù)作為評(píng)價(jià)指標(biāo),ROUGE是面向召回率的摘要評(píng)估輔助工具。該指標(biāo)思想是將模型生成的摘要與參考摘要中的n元詞匯重疊量作為評(píng)價(jià)依據(jù),生成摘要與參考摘要匹配的n(n取值為1,2,3等自然數(shù))元詞語(yǔ)數(shù)量越多,ROUGE的評(píng)分越高,摘要質(zhì)量越好。評(píng)價(jià)指標(biāo)包含ROUGE-N(N取值為1,2,3等自然數(shù)),ROUGE-L等一系列指標(biāo)。ROUGE-N指標(biāo)計(jì)算生成摘要與參考摘要的n-gram召回率。ROUGE-L指標(biāo)計(jì)算生成摘要與參考摘要兩個(gè)文本單元之間的最長(zhǎng)公共子序列(lcs)。本文采用ROUGE-1、ROUGE-2和ROUGE-L評(píng)價(jià)文本摘要質(zhì)量,如式(19)~式(23)所示

    (19)

    (20)

    (21)

    (22)

    (23)

    其中,X表示生成摘要,Y表示參考摘要。Cmatch(1-gram)表示生成摘要和參考摘要1-gram的共現(xiàn)次數(shù),Cmatch(2-gram)表示生成摘要和參考摘要2-gram的共現(xiàn)次數(shù)。LCS(X,Y)表示生成摘要與參考摘要的最長(zhǎng)公共子序列長(zhǎng)度,m表示參考摘要的長(zhǎng)度,n表示生成摘要的長(zhǎng)度。

    3.3 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

    本文實(shí)驗(yàn)環(huán)境見(jiàn)表2。

    表2 實(shí)驗(yàn)環(huán)境

    實(shí)驗(yàn)中,選取50 000個(gè)高頻詞匯構(gòu)建詞匯表。大量的實(shí)驗(yàn)研究表明,詞向量的維度對(duì)模型的表現(xiàn)有著很大的影響。本文通過(guò)PIP損失函數(shù)找到詞向量矩陣偏差與方差的最佳平衡點(diǎn),選取本文的最優(yōu)詞向量為256維,如圖6所示。模型訓(xùn)練的批次大小設(shè)置為64,Adam的學(xué)習(xí)率設(shè)置為0.001。

    圖6 詞嵌入維度最優(yōu)選擇

    TCN網(wǎng)絡(luò)參數(shù)選優(yōu)過(guò)程如圖7所示,擴(kuò)張系數(shù)設(shè)置為2i。圖7(a)代表TCN網(wǎng)絡(luò)Loss值隨卷積層數(shù)變化曲線(xiàn),當(dāng)卷積層數(shù)為4時(shí),Loss值最小,所以擴(kuò)張卷積層數(shù)設(shè)置為4。圖7(b)代表TCN網(wǎng)絡(luò)Loss值隨卷積核大小變化曲線(xiàn),當(dāng)卷積核大小為7時(shí),Loss值最小,所以卷積核大小設(shè)置為7。圖7(c)表示TCN網(wǎng)絡(luò)Loss值隨dropout變化曲線(xiàn),當(dāng)dropout值為0.25時(shí),Loss值最小,所以dropout設(shè)置為0.25。

    圖7 TCN網(wǎng)絡(luò)參數(shù)擇優(yōu)曲線(xiàn)

    CNN網(wǎng)絡(luò)參數(shù)選優(yōu)過(guò)程如圖8所示,CNN網(wǎng)絡(luò)卷積層設(shè)置為3,卷積核個(gè)數(shù)設(shè)置為256個(gè),卷積滑動(dòng)步長(zhǎng)設(shè)置為1。圖8(a)代表CCN網(wǎng)絡(luò)Loss值隨卷積層數(shù)變化曲線(xiàn),當(dāng)卷積層數(shù)為3時(shí),Loss值最小,所以擴(kuò)張卷積層數(shù)設(shè)置為3。圖8(b)代表CNN網(wǎng)絡(luò)Loss值隨卷積核大小變化曲線(xiàn),當(dāng)卷積核大小為1、3、5時(shí),Loss值相較最小,所以卷積核大小設(shè)置為1、3、5。圖8(c)表示CNN網(wǎng)絡(luò)Loss值隨dropout變化曲線(xiàn),當(dāng)dropout值為0.4時(shí),Loss值最小,所以dropout設(shè)置為0.4。

    圖8 CNN網(wǎng)絡(luò)參數(shù)擇優(yōu)曲線(xiàn)

    3.4 實(shí)驗(yàn)過(guò)程與結(jié)果分析

    第一步:數(shù)據(jù)處理、分詞。本文采用pkuseg分詞[12]工具對(duì)文本進(jìn)行分詞,pkuseg是由北京大學(xué)語(yǔ)言計(jì)算與機(jī)器學(xué)習(xí)研究組研制推出的一套全新的中文分詞工具包。該分詞工具支持多領(lǐng)域分詞,分詞準(zhǔn)確率較高。第二步:構(gòu)建詞匯表。將數(shù)據(jù)集中的第一部分作為訓(xùn)練集,對(duì)其進(jìn)行分詞后,從中選取50 000個(gè)高頻詞匯作為詞匯表。構(gòu)建詞向量。采用Glove預(yù)訓(xùn)練模型將分詞表示成分布式向量。第三步:編碼器編碼。雙編碼器共同構(gòu)建上下文向量,TCN網(wǎng)絡(luò)對(duì)全文信息進(jìn)行編碼,CNN網(wǎng)絡(luò)提取文本詞匯特征。將雙編碼器進(jìn)行特征融合得到編碼器端的最終隱層狀態(tài)。第四步:注意力機(jī)制。加入注意力機(jī)制將固定的上下文語(yǔ)義向量轉(zhuǎn)換為不同時(shí)刻結(jié)合解碼器的上下文語(yǔ)義向量。第五步:解碼器解碼。解碼器的輸入為上下文語(yǔ)義向量、上一時(shí)刻的解碼器隱藏狀態(tài)和上一時(shí)刻解碼器的輸出。第六步:生成摘要。第七步:評(píng)價(jià)模型。

    本文采用上述數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),訓(xùn)練集迭代次數(shù)和測(cè)試集迭代次數(shù)與損失值變化如圖9所示。

    圖9 TCAtten-GRU模型訓(xùn)練集和測(cè)試集與損失值變化關(guān)系

    將該模型與4種代表模型進(jìn)行對(duì)比與分析,分別是Hu等在LCSTS數(shù)據(jù)集中提出的兩種模型RNN[18](編解碼器都是RNN,沒(méi)有注意力機(jī)制,編碼器的最后一個(gè)隱藏狀態(tài)作為中間語(yǔ)義向量)和RNN content[18](編解碼器與上一個(gè)模型一致,加入注意力機(jī)制)、MC-LSTM+atten[9](編碼器采用CNN網(wǎng)絡(luò),解碼器為L(zhǎng)STM,加入注意力機(jī)制)以及BiGRU-GRU+atten[3](編碼器采用雙向GRU網(wǎng)絡(luò),解碼器采用GRU,加入注意力機(jī)制)。實(shí)驗(yàn)詳情見(jiàn)表3,每個(gè)模型的評(píng)分隨迭代次數(shù)而改變,模型與3個(gè)評(píng)價(jià)指標(biāo)對(duì)比如圖10所示。

    表3 不同模型的ROUGE評(píng)分對(duì)比

    圖10 不同模型的ROUGE評(píng)分對(duì)比

    從表3中可以看出,TCAtten-GRU(本文)模型的3個(gè)評(píng)分均高于其余4種模型。采用TCN和CNN作為雙編碼器可以更好的對(duì)源文進(jìn)行編碼,得到更為充分的上下文語(yǔ)義向量;加入指針機(jī)制更好地解決了未登錄詞問(wèn)題;集束搜索可以生成更好的摘要。表4為測(cè)試結(jié)果的例子。

    表4 不同模型的生成摘要結(jié)果

    4 結(jié)束語(yǔ)

    本文通過(guò)對(duì)生成式摘要任務(wù)進(jìn)行研究,在傳統(tǒng)Seq2Seq模型的基礎(chǔ)上提出了一種模型TCAtten-GRU。該模型采用雙編碼器結(jié)構(gòu)并融入注意力機(jī)制,解碼器端加入集束搜索和指針機(jī)制。TCN網(wǎng)絡(luò)編碼器對(duì)文本進(jìn)行全文編碼,CNN網(wǎng)絡(luò)編碼器可以更好提取文本特征,將雙編碼的結(jié)果相融合共同構(gòu)建注意力機(jī)制以得到更豐富和準(zhǔn)確的語(yǔ)義信息。加入集束搜索和指針機(jī)制的解碼器可以解決未登錄詞問(wèn)題并得到更準(zhǔn)確的摘要,提高了生成摘要的質(zhì)量。在LCSTS數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)后,從ROUGE指標(biāo)可以看出,本模型與其它4個(gè)模型相比有較好的性能。自動(dòng)摘要根據(jù)文本數(shù)量和大小來(lái)分,可以分為短文本和長(zhǎng)文本、單文檔和多文檔,該模型在處理長(zhǎng)文本和多文檔時(shí)性能還有待提升,所以下一步本模型將進(jìn)一步改進(jìn)來(lái)解決以上問(wèn)題。

    猜你喜歡
    解碼器編碼器語(yǔ)義
    科學(xué)解碼器(一)
    科學(xué)解碼器(二)
    科學(xué)解碼器(三)
    語(yǔ)言與語(yǔ)義
    線(xiàn)圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
    基于FPGA的同步機(jī)軸角編碼器
    基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
    “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
    JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
    電子器件(2015年5期)2015-12-29 08:42:24
    認(rèn)知范疇模糊與語(yǔ)義模糊
    峨眉山市| 贵德县| 汽车| 左贡县| 桦川县| 宜州市| 建阳市| 武邑县| 大关县| 绍兴县| 炉霍县| 霍州市| 天长市| 饶阳县| 晋州市| 静乐县| 蒲城县| 平邑县| 泊头市| 疏勒县| 天峻县| 东乌珠穆沁旗| 贵州省| 昌黎县| 同仁县| 华池县| 安龙县| 贵阳市| 凤庆县| 永州市| 乡宁县| 石渠县| 阿克| 中超| 成安县| 容城县| SHOW| 乳源| 阿拉尔市| 石泉县| 资中县|