• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于指針網(wǎng)絡(luò)生成抽象式新聞?wù)?/h1>
    2020-06-16 10:40:58黃繼風(fēng)宋俊典陳海光
    計算機應(yīng)用與軟件 2020年6期
    關(guān)鍵詞:解碼器指針編碼器

    郭 倩 黃繼風(fēng) 宋俊典 陳海光

    1(上海軟中信息技術(shù)有限公司 上海 200030)

    2(上海師范大學(xué)信息與機電工程學(xué)院 上海 200030)

    0 引 言

    自動文本摘要技術(shù)是自然語言處理的一項重要分支和基礎(chǔ)性研究工作,隨著文本信息的爆發(fā)式增長,從大量文本信息中提取關(guān)鍵信息成為業(yè)界發(fā)展的迫切需求,自動文本摘要技術(shù)的研究對于緩解這項需求有著重要意義。目前,自動文本摘要技術(shù)分為兩大類,抽取式文本摘要和抽象式文本摘要。抽取式文本摘要是指根據(jù)詞頻排序算法,利用統(tǒng)計學(xué)算法從原文本中直接抽取排名靠前的句子,這種方法簡單易實現(xiàn)且生成的摘要基本符合語法結(jié)構(gòu),是目前用的比較多的方法。抽取式文本摘要主要的研究工作有2017年翟飛飛等[2]提出的基于神經(jīng)網(wǎng)絡(luò)的抽取式網(wǎng)絡(luò)模型。

    抽象式文本摘要的研究現(xiàn)狀并不是很成熟。隨著近幾年深度學(xué)習(xí)理論算法的應(yīng)用及開發(fā)框架的不斷成熟,抽象式文本摘要的研究也取得了很大的進(jìn)步。2015年Rush等[4]首次采用神經(jīng)網(wǎng)絡(luò)模型生成抽象式文本摘要。2016年Nallapati等[5]又提出了新的編碼器解碼器結(jié)構(gòu),編碼器采用卷積神經(jīng)網(wǎng)絡(luò),解碼器采用循環(huán)神經(jīng)網(wǎng)絡(luò)(CNN-RNN)模型結(jié)構(gòu)。2017年P(guān)aulus等[6]首次提出基于RNN生成抽象式文本摘要。

    本實驗在加入注意力機制的編碼器解碼器模型的基礎(chǔ)上,引入了指針網(wǎng)絡(luò)來緩解生成的摘要不符合原文的現(xiàn)象。并且利用加入注意力機制的編碼器解碼器模型生成新詞,達(dá)到生成抽象新聞?wù)哪康?。利用指針網(wǎng)絡(luò)從原文中取詞,使得生成的摘要更準(zhǔn)確,能夠更好地符合原文意思。采用指針網(wǎng)絡(luò)生成抽象式文本摘要的工作流程主要包括數(shù)據(jù)集的獲取及預(yù)處理、網(wǎng)絡(luò)模型的搭建、模型的優(yōu)化調(diào)參、實驗結(jié)果的評測等。

    1 實驗前期準(zhǔn)備

    實驗開始前需要對實驗數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理階段是整個實驗的開始,也是非常關(guān)鍵的一步,因為干凈的數(shù)據(jù)集對于實驗結(jié)果的影響至關(guān)重要,本實驗采用搜狐語料庫作為數(shù)據(jù)集,對網(wǎng)絡(luò)模型進(jìn)行驗證。整個實驗的流程如圖1所示。

    圖1 生成新聞?wù)墓ぷ髁鞒?/p>

    實驗所用的開發(fā)環(huán)境為Linux操作系統(tǒng),開發(fā)語言為Python 2.7,開發(fā)框架為TensorFlow 1.0,開發(fā)工具為Pycharm 2017.1與Sublime組合,需要安裝Pyrouge評測工具及NumPy庫,整個模型訓(xùn)練在HP Z440工作站上進(jìn)行。

    1.1 新聞?wù)Z料庫的獲取

    實驗語料庫是從搜狐官網(wǎng)下載的完整版的zip格式的壓縮文件,大小為648 MB。其中包含2012年6月至7月期間國內(nèi)、國際、體育、社會、娛樂等18個頻道的新聞數(shù)據(jù),下載的數(shù)據(jù)包括URL、新聞標(biāo)題和正文信息。

    1.2 數(shù)據(jù)清洗

    具體數(shù)據(jù)清洗的步驟如下:

    (1) 把搜狐語料庫采轉(zhuǎn)換成UTF-8編碼,再去標(biāo)簽提取所需要的正文及摘要部分,然后把語料轉(zhuǎn)換成文本文件。由于轉(zhuǎn)換后的一個文本文件比較大,不易于進(jìn)一步的處理,再把文本文件切分成若干個比較小的文本文件。

    (2) 利用停用詞表對文本語料去除停用詞,再利用中文分詞系統(tǒng)ICTCLAS進(jìn)行中文分詞。對文本語料進(jìn)行標(biāo)準(zhǔn)化處理,去除空行空白字符。

    (3) 為了使文本語料便于進(jìn)一步的處理,對文本語料進(jìn)行進(jìn)一步的切分,使得最終的語料庫轉(zhuǎn)換成一條新聞內(nèi)容對應(yīng)一條摘要的格式,最終,文本語料共包含近130萬條文本語料對,文本格式如表1所示。

    表1 數(shù)據(jù)集清洗后最終文本格式

    1.3 生成文本詞典

    經(jīng)過數(shù)據(jù)清洗后的新聞?wù)獙σ还灿薪?30萬條,把近130萬條的新聞?wù)獙η蟹殖蓡蝹€文本文件,每個文本文件對應(yīng)一對新聞?wù)獙?,一共就生成?30萬個文本文件。用這近130萬個文本文件生成對應(yīng)的詞典,步驟如下:

    (1) 生成130萬個數(shù)字的列表,把列表分成對應(yīng)的訓(xùn)練集、驗證集、測試集三張所對應(yīng)的數(shù)字列表,比例為32∶1∶1,這樣有助于模型的訓(xùn)練。

    (2) 把文本文件對應(yīng)成訓(xùn)練集、驗證集、測試集,然后轉(zhuǎn)換為bin文件。在文本數(shù)據(jù)訓(xùn)練集上生成詞典,為了讓詞典覆蓋到所有的文本數(shù)據(jù),規(guī)定詞典大小為50 000個單詞。詞典生成以后,訓(xùn)練集、驗證集、測試集已經(jīng)對應(yīng)生成,下一步開始訓(xùn)練模型。

    2 指針網(wǎng)絡(luò)模型的構(gòu)建

    2.1 加入注意力機制的編碼器解碼器模型

    引入注意力機制的編碼器解碼器模型,使得解碼器預(yù)測序列的時候可以更多地關(guān)注輸入到隱藏層的信息,這樣解碼器生成的預(yù)測序列就會更準(zhǔn)確。

    在編碼器解碼器模型中,編碼器會將完整句子的輸入整合到一個固定維度的向量中,再把這個向量輸入到解碼器中,解碼器就會根據(jù)這個向量預(yù)測輸出的句子。但是,當(dāng)輸入的句子比較長時,這個固定維度的中間向量難以存儲足夠的信息,這就成為基本的編碼器解碼器模型的瓶頸。針對這個問題,Bahdanau等[7]2015年首次提出了注意力機制(Attention)模型。注意力機制允許解碼器隨時查看編碼器中輸入句子的單詞或片段,這樣就不再需要中間向量存儲所有的信息。

    解碼器在解碼的每一步將隱藏狀態(tài)作為查詢的輸入,輸入到編碼器來查詢編碼器的隱藏狀態(tài),在每個輸入的位置計算一個與查詢相關(guān)程度的權(quán)重,再根據(jù)這個權(quán)重對每個輸入位置的隱藏狀態(tài)求加權(quán)平均,加權(quán)平均后得到的向量稱為語境向量,表示它與當(dāng)前輸出的單詞最相關(guān)的原文信息。在解碼下一個單詞時,將語境向量作為附加的信息輸入到解碼器的循環(huán)神經(jīng)網(wǎng)絡(luò)中,這樣解碼器就可以隨時讀取到與當(dāng)前輸出最相關(guān)的原文信息,而不必完全依賴于上一時刻的隱藏狀態(tài)。

    注意力機制的數(shù)學(xué)定義來自文獻(xiàn)[7]中的計算公式:

    (1)

    (2)

    at=softmax(et)

    (3)

    (4)

    2.2 構(gòu)建指針混合網(wǎng)絡(luò)模型

    基本的編碼器解碼器模型具有生成抽象詞語的能力,而指針網(wǎng)絡(luò)可以從原文中取詞[8],與基本的編碼器解碼器模型的區(qū)別是指針網(wǎng)絡(luò)不會把一個序列轉(zhuǎn)換成另一個序列,而是產(chǎn)生一系列指向輸入序列元素的指針。網(wǎng)絡(luò)結(jié)構(gòu)源于注意力機制,不考慮輸入元素,生成一個指向輸入元素的概率,實際上得到的是輸入信息。指針網(wǎng)絡(luò)混合模型建模過程中所用到的參數(shù)符號說明見表2。

    表2 符號說明

    (5)

    (6)

    圖2 指針網(wǎng)絡(luò)模型的結(jié)構(gòu)示意圖

    通過引入指針網(wǎng)絡(luò)的編碼器解碼器模型生成抽象式新聞?wù)0盐谋据斎氲骄幋a器中訓(xùn)練成詞向量,再通過解碼器接收詞向量,解碼器t時刻的輸入包括t-1時刻解碼器的輸出摘要和編碼器輸出的詞向量。引入指針網(wǎng)絡(luò)從原文中取詞使生成的新聞?wù)鼫?zhǔn)確。解碼器的輸出采用集束搜索算法(beam search),beam的大小為4。

    2.2.1實驗環(huán)境

    實驗環(huán)境為Linux開發(fā)環(huán)境,硬件環(huán)境為HP Z440工作站,內(nèi)存為16 GB,顯卡為GTX1080Ti,顯存為11 GB。開發(fā)語言為Python2.7,模型的搭建采用深度學(xué)習(xí)框架TensorFlow1.0。

    訓(xùn)練語料庫采用中文搜狐新聞?wù)Z料庫,總共有130萬條新聞文本摘要對,把數(shù)據(jù)集劃分為訓(xùn)練集,驗證集和測試集,比例為32∶1∶1。這樣有助于模型的訓(xùn)練。其中在驗證集上調(diào)整參數(shù),測試集上進(jìn)行測試評分。

    2.2.2實驗過程

    (1) 實驗準(zhǔn)備。把下載好的搜狐數(shù)據(jù)集轉(zhuǎn)換成文本文件,去除停用詞,再去除空行、空白字符等。停用詞表如表3所示。再用中文分詞系統(tǒng)ICTCLAS進(jìn)行分詞處理。把分好詞的文本切分成130萬個單個的文本新聞?wù)獙Α0研侣務(wù)獙D(zhuǎn)換成bin文件,包括訓(xùn)練集、驗證集、測試集,生成詞典的大小為50 000個單詞。

    表3 停用詞表

    (2) 模型搭建?;镜木W(wǎng)絡(luò)模型為加入注意力機制的編碼器解碼器模型,其中編碼器的網(wǎng)絡(luò)結(jié)構(gòu)為單層雙向的LSTM網(wǎng)絡(luò),解碼器的網(wǎng)絡(luò)結(jié)構(gòu)選擇單層單向的LSTM網(wǎng)絡(luò)模型。將每條文本的詞條wi逐個輸入到編碼器中,編碼器的隱藏層輸出序列記為hi。在訓(xùn)練階段,解碼器t時刻的輸入為t-1時刻參考摘要的詞向量。在測試階段,解碼器t時刻的輸入為t-1時刻解碼器輸出單詞的詞向量。并且隱藏層的輸出狀態(tài)為st。注意力機制[23]的計算公式為:

    (7)

    (8)

    式中:v、Wh、Ws和battn是模型通過學(xué)習(xí)獲得的參數(shù)。注意力機制可以被看作是在原文本上的概率分布,并且能夠告知解碼器在預(yù)測下一個單詞的時候更關(guān)注輸入到編碼器中的哪個單詞。Softmax函數(shù)可以看作詞典上的概率分布,假設(shè)詞典的大小為k,{wi|i=1,2,…,k},則Softmax函數(shù)可表示為:

    (9)

    注意力機制分布的計算用于和編碼器隱藏狀態(tài)乘積求和,求得的權(quán)重之和稱為語境向量,計算公式為:

    (10)

    語境向量可以被看作當(dāng)前步從編碼器讀取到的原文信息,與解碼器的隱藏狀態(tài)st一起經(jīng)過兩個全連接層生成詞典上的概率分布Pvocab,其計算公式為:

    (11)

    P(w)=Pvocab(w)

    (12)

    式中:V′、V、b和b′是通過學(xué)習(xí)獲得的參數(shù);Pvocab是在整個詞典上的概率分布。損失函數(shù)采用交叉熵函數(shù)。t時刻計算公式為:

    (13)

    整個序列上的損失函數(shù)計算公式為:

    (14)

    根據(jù)反向傳播算法,需要求出損失函數(shù)的梯度,具體步驟如下:

    ① 設(shè)t時刻解碼器的輸出為zi,損失函數(shù)為l。所求的目標(biāo)函數(shù)為:

    ② 求出:

    當(dāng)i=j時:

    當(dāng)i≠j時:

    -P(wi)P(wj)

    ④ 綜合計算得到:

    反向傳播的過程中網(wǎng)絡(luò)模型根據(jù)梯度函數(shù)的變化會不斷更新參數(shù)。

    (3) 引入指針網(wǎng)絡(luò)。指針網(wǎng)絡(luò)[8]是在注意力機制模型上新的應(yīng)用。注意力機制作用在編碼器上,通過解碼器的隱藏狀態(tài)與編碼器的隱藏狀態(tài)構(gòu)建語境向量來向解碼器傳輸輸入到編碼器的信息。在指針網(wǎng)絡(luò)中,通過注意力機制直接生成概率指向編碼器的輸入信息來選擇輸入到編碼器的信息。計算公式為:

    (15)

    p(Ci|C1,C2,…,Ci-1,P)=softmax(ui)

    (16)

    式中:vT、W1、W2為模型訓(xùn)練獲得的參數(shù)。

    在基本的編碼器解碼器模型中引入指針網(wǎng)絡(luò),既可以通過解碼器在詞典上生成新的單詞,又可以通過指針網(wǎng)絡(luò)從編碼器中直接獲取單詞,使生成的摘要更準(zhǔn)確。解碼器的輸出采用集束搜索算法(beam search),beam的大小為4。損失函數(shù)同樣采用交叉熵。

    (4) 模型優(yōu)化。實驗?zāi)P碗[藏單元的個數(shù)設(shè)為256,詞向量的大小為128,訓(xùn)練模型batch size為16,學(xué)習(xí)率從0.1增大到0.15。在HP Z440工作站上訓(xùn)練7天,損失函數(shù)從7.09下降到1.05。

    集束搜索算法是基于寬度優(yōu)先的思想構(gòu)建搜索樹。模型測試階段,采用此算法選取最優(yōu)解生成摘要。beam的值選擇越大生成摘要時就有更多的最優(yōu)解,但常見的一級漢字有3 755個,若beam的值選為5,一次的解碼搜索空間為3 7555個,計算機資源很快就會耗盡。因此綜合考慮beam的大小為4。

    (5) 解碼過程。在測試階段,t時刻的輸入為編碼器輸出的詞向量和t-1時刻解碼器預(yù)測單詞的詞向量,經(jīng)過Softmax層,在詞典上生成概率分布。采用集束搜索算法,具體的實現(xiàn)過程如下:

    ① 設(shè)詞典的大小為k,beam的大小為4,解碼器在生成第一個詞的時候,選擇概率最大的4個單詞,設(shè)為{w1,w2,w3,w4}。

    ② 在預(yù)測輸出第2個單詞時,將{w1,w2,w3,w4}這4個詞語輸入到解碼器中分別與詞表中的單詞組合,再選出概率最大的前4個詞語序列輸出。

    ③ 不斷地循環(huán)②過程,直到遇到結(jié)束符EOS為止,選出概率最大的前4個序列作為最終的輸出。

    3 實驗結(jié)果與數(shù)據(jù)分析

    本實驗旨在對生成的自動文本摘要進(jìn)行評測,評測標(biāo)準(zhǔn)為ROUGE評分機制,采用n-gram機制。為了實現(xiàn)生成抽象摘要的目的,對新詞率的生成率也進(jìn)行了統(tǒng)計。

    3.1 實驗結(jié)果評測

    ROUGE評分機制的原理主要是根據(jù)生成的摘要和參考摘要中共同出現(xiàn)n元詞的個數(shù)決定。生成的摘要中與參考摘要中共同出現(xiàn)的詞語越多,ROUGE得分就會越高?,F(xiàn)階段學(xué)術(shù)界ROUGE評分機制用的主要有ROUGE-1、ROUGE-2、ROUGE-3、ROUGE-4。1、2、3、4分別代表1元詞、2元詞、3元詞以及4元詞。本文對生成的摘要分別用ROUGE-1、ROUGE-2、ROUGE-3、ROUGE-4進(jìn)行了測評。一般會根據(jù)需要選擇適合的ROUGE評分模型。ROUGE評分的計算公式如下:

    (17)

    式中:n-gram表示n元詞;S∈{Ref}表示參考摘要;Countmatch(n-gram)表示生成的摘要中與參考摘要相匹配的n-gram數(shù)量。再用∑對其進(jìn)行計數(shù),分母則表示參考摘要中n-gram的個數(shù)。ROUGE的計算公式是根據(jù)召回率的公式變換的,對生成摘要與參考摘要的匹配程度進(jìn)行數(shù)量上的衡量與比較,相對其他生成的摘要的衡量標(biāo)準(zhǔn)比較準(zhǔn)確。

    實驗的測試集有38 261條新聞測試文本,模型訓(xùn)練收斂耗時7天。測試文本輸入到模型中生成的文本摘要如表4所示。

    表4 測試集生成的文本摘要

    該實驗分別在加入注意力機制的編碼器解碼器模型和引入指針網(wǎng)絡(luò)的模型上進(jìn)行測試,采用ROUGE評分機制評分結(jié)果如表5所示。

    表5 基本模型和指針式網(wǎng)絡(luò)模型ROUGE評分對比

    從表5可以看出,通常未經(jīng)處理的數(shù)據(jù)集比匿名數(shù)據(jù)集能夠得到更高的ROUGE評分,lead-3基本模型在純文本數(shù)據(jù)集上得分更高。一個可能的解釋就是多句子的命名實體能夠?qū)е赂叩闹睾下?。但是,ROUGE評分機制僅能與文獻(xiàn)[5]提出的模型進(jìn)行比較。lead-3的ROUGE評分與最好的指針網(wǎng)絡(luò)模型的ROUGE得分相比高出ROUGE-1評分2.9分,高出ROUGE-2評分1.04分,高出ROUGE-L評分2.15分。并且實驗結(jié)果最好的指針網(wǎng)絡(luò)模型的ROUGE評分比文獻(xiàn)[5]高出ROUGE-1評分1.98分,高出ROUGE-2評分3.36分,高出ROUGE-L評分1.77分??梢怨罍y出,本文最好的網(wǎng)絡(luò)模型超出基本的網(wǎng)絡(luò)模型平均2個ROUGE評分。

    由表4還可以觀察出,基本的編碼器解碼器模型在ROUGE評分上表現(xiàn)很差,即使是在150 k的詞典上表現(xiàn)效果也不是很好。即使是用50 k詞典的基本編碼器解碼器模型最好的表現(xiàn)效果生成的文本摘要也存在幾個普遍的問題,事實細(xì)節(jié)頻繁出錯,經(jīng)常用一個更常見的詞代替詞典中出現(xiàn)但不常用的詞。例如,表6中,基本的編碼器解碼器模型中本應(yīng)該出現(xiàn)“海峽”,但卻出現(xiàn)了“大陸”,導(dǎo)致語義錯誤。更糟糕的是,有的時候模型會生成重復(fù)的無意義的句子,就像表6中基本的模型生成的摘要一樣。并且基本的編碼器解碼器模型也不能夠生成未登錄詞。

    表6 不同模型生成的文本摘要舉例

    3.2 實驗?zāi)P蛯Ρ?/h3>

    從表5可以看出抽取式模型比抽象式模型可以得到更高的ROUGE評分,并且lead-3基本編碼器解碼器模型具有更強的優(yōu)勢,獲得最高的ROUGE評分,即使是最好的抽取式模型的ROUGE得分也低于lead-3基本編碼器解碼器模型。這里給出兩種可能的解釋。

    首先,新聞文章趨向于把重要信息都放在文章的開頭部分。這一點就解釋了為什么lead-3模型會有那么高的ROUGE評分。實際上,實驗證明,僅僅使用文章的前400個詞條,大約20個句子,比使用前800個詞條能夠得到更高的ROUGE評分。

    其次就是自然語言處理任務(wù)和ROUGE評分機制的屬性使得抽取式模型和lead-3基本模型的ROUGE評分很難被超越。參考摘要的選擇也非常主觀,有時會自形成一個完備的參考摘要。有時也會只從文章中選取一些比較感興趣的細(xì)節(jié)作為摘要。測試語料中平均每篇文章有19個句子,利用網(wǎng)絡(luò)模型平均每篇摘要會生成3~4句話。抽象模型引入了更多的參考標(biāo)準(zhǔn),比如選擇措辭、短語,這樣就進(jìn)一步減少了與參考摘要的匹配程度。例如在表6中“衛(wèi)隊海軍副司令官湯西里聲稱敵方侵犯領(lǐng)土”可以作為這段文本的摘要,但與參考摘要卻完全不匹配,ROUGE得分為0。只有一個參考摘要也會加劇ROUGE評分機制的不靈活性。文獻(xiàn)[17]指出與多個參考摘要相比,ROUGE評分機制的可靠性降低。

    因為文本摘要任務(wù)具有主觀性和符合要求摘要的多樣性,ROUGE評分機制會選擇首次出現(xiàn)的內(nèi)容或者保留原始的措辭作為摘要的得分更高。盡管有時參考摘要會偏離這些技術(shù),表現(xiàn)得更主觀,但這些偏差是無法避免的,以至于ROUGE評分機制會選擇更安全的策略,所以更安全的策略能夠獲得更高的平均得分。這就能夠解釋為什么抽取式模型能夠比抽象式文本摘要獲得更高的ROUGE評分,lead-3基本模型的ROUGE評分高于抽取式模型的ROUGE評分。除了ROUGE評分機制,根據(jù)詞根、語義等可以探究更廣泛通用的評分機制,這是個值得進(jìn)一步探索的方向。

    3.3 實驗數(shù)據(jù)分析

    實驗分別對生成的中文摘要做了重復(fù)率檢測,從38 261條生成的摘要與參考摘要進(jìn)行對比,重復(fù)率如圖3所示。

    圖3 不同模型生成摘要的重復(fù)率對比

    從圖3可以觀察到基本的編碼器解碼器模型生成的文本摘要出現(xiàn)的重復(fù)性詞語較多,并且采用1-grams、2-grams、3-grams、4-grams重復(fù)率依次降低,在整個句子上比較,重復(fù)率最低。加入指針模型后生成詞語的重復(fù)率明顯降低,但與參考摘要對比還有一定的差距。

    由于模型生成的是抽象新聞?wù)?,對生成的新詞率要做統(tǒng)計,本文生成的新詞是指在詞典中出現(xiàn)但未出現(xiàn)在原文本中的詞語。不同模型新詞的生成率對比如圖4所示。

    圖4 不同模型生成新詞量的對比

    實驗證明,指針網(wǎng)絡(luò)使生成的抽象文本摘要更可靠,能夠更準(zhǔn)確地拷貝到原文中的細(xì)節(jié)信息,正確地拷貝原文中的信息并不影響生成摘要的抽象性。圖4表明,最終模型生成的文本摘要的n-grams的新詞生成率比參考摘要低,與參考摘要相比,抽象性更低,也低于基本模型?;镜木幋a器解碼器模型生成了更多的新詞,但這些新詞包括所有不正確的詞語,這些詞語一起構(gòu)建成完整的抽象實例。

    圖4表明最終網(wǎng)絡(luò)模型拷貝了整篇文章的38%。通過與參考摘要對比,參考摘要僅拷貝到原文的0.2%,這是模型值得改進(jìn)的一個地方,因為不希望網(wǎng)絡(luò)模型僅僅是簡單的句子抽取,但實驗證明其他62%的句子是依靠抽象模型生成的。文章的句子被截斷以形成語法正確的較短的文本,新生成的句子通過拼接句子片段組成。復(fù)制過來的段落有時會省略不必要的插入、從句和帶括號的短語。

    4 結(jié) 語

    本文利用指針式網(wǎng)絡(luò)模型生成抽象式新聞?wù)?,利用搜狐新聞?wù)Z料庫,先對數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗、分詞,劃分?jǐn)?shù)據(jù)集。在基本的編碼器解碼器的基礎(chǔ)上引入了指針網(wǎng)絡(luò),使得生成的抽象新聞?wù)鼫?zhǔn)確,更符合原文本的意思,采用ROUGE評分機制對生成的抽象摘要文本進(jìn)行評測,實驗結(jié)果證明得到的ROUGE評分平均比基本的編碼器解碼器模型的ROUGE評分高2分。雖然目前采用深度學(xué)習(xí)的方法生成抽象型文本摘要的技術(shù)很多,但還成熟,生成摘要還存在很多問題,譬如不準(zhǔn)確、捏造事實、重復(fù)詞語等。生成摘要的準(zhǔn)確性與重復(fù)率還需要進(jìn)一步優(yōu)化,在未來的研究工作中需要進(jìn)一步努力,以達(dá)到更好的模型效果。

    猜你喜歡
    解碼器指針編碼器
    科學(xué)解碼器(一)
    科學(xué)解碼器(二)
    科學(xué)解碼器(三)
    線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
    偷指針的人
    娃娃畫報(2019年5期)2019-06-17 16:58:10
    基于FPGA的同步機軸角編碼器
    為什么表的指針都按照順時針方向轉(zhuǎn)動
    基于PRBS檢測的8B/IOB編碼器設(shè)計
    JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
    電子器件(2015年5期)2015-12-29 08:42:24
    基于改進(jìn)Hough變換和BP網(wǎng)絡(luò)的指針儀表識別
    電測與儀表(2015年5期)2015-04-09 11:30:42

    同江市| 会东县| 天全县| 台东市| 绵竹市| 清镇市| 黄梅县| 泸溪县| 武安市| 宜城市| 武胜县| 含山县| 新竹县| 门头沟区| 翁牛特旗| 报价| 芷江| 茶陵县| 左云县| 思南县| 宣恩县| 灵山县| 嘉鱼县| 多伦县| 兴海县| 大洼县| 措勤县| 县级市| 克东县| 福清市| 潼南县| 英山县| 兴和县| 石狮市| 凌源市| 五台县| 永济市| 金坛市| 溧水县| 霍林郭勒市| 黑山县|