• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學(xué)習(xí)的生成式自動(dòng)摘要技術(shù)

      2021-01-22 13:40:46陳天池洪沛楊國鋒
      關(guān)鍵詞:解碼語義向量

      陳天池 洪沛 楊國鋒

      (中國電信安徽分公司,安徽合肥 230001)

      0 引言

      互聯(lián)網(wǎng)技術(shù)的高速發(fā)展帶來信息快速增長(zhǎng)的問題,人們?cè)谔幚砗烷喿x文本信息中花費(fèi)大量時(shí)間和精力,精簡(jiǎn)濃縮文本信息的技術(shù)顯得尤為迫切。自動(dòng)摘要技術(shù)是一種能夠從文檔中獲取重要信息的方法,它能緩解信息爆炸時(shí)代給人們帶來的時(shí)間精力問題。

      自動(dòng)摘要技術(shù)按照組成摘要的句子進(jìn)行區(qū)分,可以分為抽取式自動(dòng)摘要和生成式自動(dòng)摘要。抽取式摘要通過考慮原文中句子的位置、詞頻、關(guān)鍵詞[1]等評(píng)估句子重要度,從原文中提取重要度高的句子組成摘要。此外,陸續(xù)有研究將外部知識(shí)引入自動(dòng)摘要任務(wù)中,如TF-IDF、Text Rank[2]等,這些算法可以挖掘語料中隱含的知識(shí)將其融入句子重要度評(píng)估函數(shù)中,提高自動(dòng)摘要效果。抽取式方法雖然能輸出語義完整的句子,但由于語言的復(fù)雜性和靈活性缺乏對(duì)語義的分析,其核心問題在于如何選取更合適的句子來表達(dá)文章的中心思想。深度學(xué)習(xí)技術(shù)的出現(xiàn)推動(dòng)了生成式自動(dòng)摘要技術(shù)的發(fā)展,生成式方法使用了一系列自然語言處理技術(shù)對(duì)原文內(nèi)容進(jìn)行總結(jié),生成更加符合人類摘要思維的句子。當(dāng)前主流的生成式摘要技術(shù)是基于Seq2Seq框架進(jìn)行的[3-4],通過對(duì)輸入的原文檔加以理解將輸入序列表示成向量形式,然后經(jīng)解碼器解碼得到生成的目標(biāo)文本,即摘要。與抽取式摘要相比,生成式的方法能夠從語義層面對(duì)文本進(jìn)行分析,生成更加簡(jiǎn)潔、靈活、多樣的摘要。

      根據(jù)任務(wù)需求,本文將從語義分析角度出發(fā),基于Seq2Seq框架進(jìn)行文本語義信息解析,聯(lián)合注意力機(jī)制將文本中的關(guān)鍵信息與語義信息結(jié)合起來實(shí)現(xiàn)對(duì)摘要的引導(dǎo)生成。

      1 生成式摘要算法模型

      1.1 Seq2Seq框架

      Seq2Seq框架[5]是Google在2014年一篇機(jī)器翻譯的文章上提出來的,將深度學(xué)習(xí)模型用于語言生成,推動(dòng)了自然語言生成領(lǐng)域的發(fā)展。Seq2Seq是一個(gè)Encoder-Decoder結(jié)構(gòu)的網(wǎng)絡(luò),其輸入是一個(gè)序列,輸出也是一個(gè)序列。其中Encoder的任務(wù)是將輸入序列編碼表示成一個(gè)帶有語義信息的中間向量,Decoder則將Encoder產(chǎn)生的中間語義向量作為輸入解碼為目標(biāo)輸出序列。

      圖1 Seq2Seq框架

      其內(nèi)部工作流程如圖1所示,X代表給定的原始文本輸入,Y代表生成的摘要,分別由各自的單詞序列組成:X=,Y=,m

      1.2 注意力機(jī)制(Attention)

      Seq2Seq的Encoder-Decoder結(jié)構(gòu)雖然非常經(jīng)典,但具有一定的局限性。其最大的局限性就在于編碼器要將整個(gè)序列的信息壓縮進(jìn)一個(gè)固定長(zhǎng)度的向量C中去。當(dāng)輸入序列過長(zhǎng)時(shí),一個(gè)向量C可能會(huì)丟失早期攜帶的信息,無法完全表示整個(gè)序列的信息。這就使得在解碼的時(shí)候無法獲得輸入序列足夠的信息,那么解碼的準(zhǔn)確率就會(huì)下降。

      圖2 Attention機(jī)制

      Attention機(jī)制[6]就是為了解決上述問題而提出的。相較于Encoder-Decoder框架,Attention最大的區(qū)別就在于它不要求編碼器將所有輸入信息都?jí)嚎s到一個(gè)固定的向量序列C,而是根據(jù)當(dāng)前要輸出的y進(jìn)行動(dòng)態(tài)調(diào)整,給不同部分賦予不同的權(quán)重,從而有針對(duì)性的對(duì)輸入的全部信息進(jìn)行有效利用,如圖2所示。

      1.3 算法流程

      基于上節(jié)介紹的相關(guān)技術(shù),本文采用的Seq2Seq+Attention生成式自動(dòng)摘要算法的結(jié)構(gòu)如圖3具體操作流程如下:

      1.3.1 詞典構(gòu)建

      考慮到分詞工具容易對(duì)文本分詞產(chǎn)生錯(cuò)分(尤其是未登錄詞),本文選擇直接采用字作為基本輸入進(jìn)行摘要抽取。對(duì)語料中所有字進(jìn)行頻率統(tǒng)計(jì),過濾掉頻率過低的字,結(jié)果作為詞典保存。

      1.3.2 Embedding

      以字為基本單位,對(duì)輸入信息進(jìn)行padding后做Embedding處理,將每個(gè)字轉(zhuǎn)換為固定長(zhǎng)度m的向量,輸入文本即可表示為m×n的矩陣。此處encoder和decoder共享Embedding層的參數(shù),降低模型參數(shù)量。

      1.3.3 Encoder

      把Embedding后的向量輸入encoder將其編碼為中間語義向量,其中Encoder采用雙層雙向LSTM,它可以更好的捕捉雙向的語義依賴。

      1.3.4 Attention + Decoder

      由于decoder在執(zhí)行每一步時(shí)無法提前使用后面步的輸入,因此Decoder采用雙層單向LSTM結(jié)構(gòu)。Attention機(jī)制應(yīng)用在encoder的hidden states上得到context,context一方面作為輸入與目標(biāo)字串聯(lián)作為Decoder端LSTM的輸入,循環(huán)得到hidden states;另一方面可以和Decoder的hidden states連接進(jìn)行softmax計(jì)算輸出概率。

      圖3 Seq2Seq + Attention

      表1 實(shí)驗(yàn)結(jié)果

      表2 摘要示例

      2 實(shí)驗(yàn)結(jié)果及分析

      2.1 數(shù)據(jù)集

      自動(dòng)文本摘要發(fā)展緩慢的原因之一是業(yè)界缺乏大規(guī)模且高質(zhì)量的數(shù)據(jù)集,數(shù)據(jù)集的好壞直接決定了最后摘要生成的質(zhì)量的好壞,本文使用的數(shù)據(jù)集為清華大學(xué)開源的THUCNews[7],該數(shù)據(jù)集包含74萬篇新聞文檔,共14個(gè)類,每條包含新聞標(biāo)題和對(duì)應(yīng)的新聞內(nèi)容,本文將新聞標(biāo)題作為摘要輸入模型進(jìn)行訓(xùn)練。

      2.2 實(shí)驗(yàn)結(jié)果與討論

      摘要結(jié)果評(píng)價(jià)采用了Rouge評(píng)價(jià)體系[8],它是目前公認(rèn)的摘要評(píng)價(jià)標(biāo)準(zhǔn)。Rouge評(píng)價(jià)的思路是分析比較候選摘要集與專家摘要集的相似程度來評(píng)價(jià)摘要質(zhì)量。本文采用Rouge-1,Rouge-2和Rouge-L三種方式分別從字相似度、詞相似度和句子流暢度三個(gè)方面對(duì)模型生成的摘要質(zhì)量進(jìn)行測(cè)試評(píng)價(jià)。

      本文進(jìn)行了兩組實(shí)驗(yàn),實(shí)驗(yàn)1采用抽取式方法Text Teaser,實(shí)驗(yàn)2采用生成式方法Seq2Seq+Attention,實(shí)驗(yàn)結(jié)果如表1所示。

      表2給出了測(cè)試結(jié)果的示例,每個(gè)例子包含原文本、與之對(duì)應(yīng)的專家摘要、Text Teaser抽取的摘要和Seq2Seq+Attention生成的摘要。通過實(shí)驗(yàn)結(jié)果對(duì)比可以看出,Text Teaser抽取出的摘要偏長(zhǎng),且沒有突出文章主題“《我是唱作人》”,而本文設(shè)計(jì)的生成摘要模型能夠準(zhǔn)確識(shí)別出主題關(guān)鍵詞“《我是唱作人》”,同時(shí)引申聯(lián)想到了原文中沒有的“云集”一詞對(duì)文中列舉的明星進(jìn)行概括表達(dá)。對(duì)比實(shí)驗(yàn)結(jié)果可知,抽取式摘要雖然能夠獲得一個(gè)完整通順的句子,但往往難以全面概括文章主題,生成式摘要?jiǎng)t能夠?qū)⑽闹性溥M(jìn)行縮寫、轉(zhuǎn)述等,生成更凝練的摘要,更加符合人的理解。

      3 結(jié)語

      從上述實(shí)驗(yàn)分析結(jié)果來看,本文采用的Seq2Seq+Attention方法能夠在一定程度具有表征、理解、生成文本摘要的能力,滿足提取關(guān)鍵信息的要求。但從實(shí)驗(yàn)結(jié)果來看該方法也存在許多不足,模型在對(duì)人/地名等命名實(shí)體、未登錄詞、重復(fù)詞進(jìn)行處理時(shí),無法準(zhǔn)確識(shí)別這些信息,最終導(dǎo)致摘要生成結(jié)果表述不準(zhǔn)確。因此,在后續(xù)的研究中我們將針對(duì)這一問題作進(jìn)一步研究,為準(zhǔn)確提供用戶AI話術(shù)提供更有力的支撐。

      猜你喜歡
      解碼語義向量
      《解碼萬噸站》
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      語言與語義
      解碼eUCP2.0
      中國外匯(2019年19期)2019-11-26 00:57:32
      NAD C368解碼/放大器一體機(jī)
      Quad(國都)Vena解碼/放大器一體機(jī)
      “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      西和县| 宿迁市| 盐津县| 错那县| 崇仁县| 阜康市| 灵璧县| 昌平区| 贵南县| 灌南县| 玉溪市| 三都| 凤城市| 深圳市| 高雄县| 兴化市| 华亭县| 公主岭市| 寻乌县| 梅州市| 当阳市| 涟水县| 绥江县| 亚东县| 山阳县| 富蕴县| 旬阳县| 巩留县| 耿马| 天水市| 阿克陶县| 榆中县| 海宁市| 邵阳县| 通化市| 松原市| 保德县| 辉县市| 齐河县| 嘉兴市| 通渭县|