• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于查詢的新聞多文檔自動(dòng)摘要技術(shù)研究

      2019-05-24 06:41:36王凱祥
      中文信息學(xué)報(bào) 2019年4期
      關(guān)鍵詞:文檔權(quán)重向量

      王凱祥,任 明

      (中國(guó)人民大學(xué) 信息資源管理學(xué)院,北京 100872)

      0 引言

      在人工智能技術(shù)日新月異、互聯(lián)網(wǎng)技術(shù)飛速發(fā)展、人們信息需求不斷提升的今天,信息傳播渠道豐富多樣,人們每天都會(huì)接收大量的信息,從這些海量信息中找出自己所需信息,需要花費(fèi)大量的時(shí)間和精力。自動(dòng)文本摘要技術(shù)的出現(xiàn),可以幫助人們節(jié)省大量閱讀時(shí)間,在相同的時(shí)間內(nèi)獲取更多的有效信息。基于查詢的自動(dòng)文本摘要技術(shù)可以對(duì)用戶感興趣的、主動(dòng)查詢的內(nèi)容進(jìn)行摘要,更加有針對(duì)性地滿足用戶的信息需求,方便用戶更快更準(zhǔn)確地獲取到所需的內(nèi)容,提高閱讀效率,提升閱讀體驗(yàn)。

      自動(dòng)文本摘要方法主要有兩大類: 生成式(abstractive)和摘取式(extractive),生成式需要在語義理解的基礎(chǔ)上,在詞語級(jí)別上生成摘要。摘取式是通過分析文本統(tǒng)計(jì)特征、潛意語義特征等,在句子或段落級(jí)別上生成摘要。其中摘取式摘要方法從方法技術(shù)上分主要包括基于統(tǒng)計(jì)信息、基于機(jī)器學(xué)習(xí)、基于主題模型、基于圖模型等方法。

      基于查詢的自動(dòng)摘要技術(shù)主要在通用自動(dòng)摘要算法基礎(chǔ)上,針對(duì)面向查詢的特點(diǎn),對(duì)相關(guān)技術(shù)進(jìn)行了適用性改進(jìn)。在基于圖模型的自動(dòng)摘要方法上,使用流排序算法可以計(jì)算加入查詢節(jié)點(diǎn)后,權(quán)重在圖中傳播后的各個(gè)節(jié)點(diǎn)的權(quán)重。Cai和Li在流排序的基礎(chǔ)上,增加了主題層的排序[1]。Canhasi[2]基于PageRank構(gòu)建了在句子、查詢句、段落、文檔、框架五個(gè)層面的圖模型,進(jìn)一步提高了模型效果。超圖模型可以使傳統(tǒng)的圖模型結(jié)構(gòu)連接超過兩個(gè)句子,降低復(fù)雜度。Xiong和Ji[3]結(jié)合主題模型獲得主題分布,使用超圖模型獲得詞與主題、句子與句子的主題分布,通過節(jié)點(diǎn)增強(qiáng)和隨機(jī)游走模型對(duì)句子進(jìn)行排序。Zheng等在此基礎(chǔ)上增加了概念層[4]。在基于聚類的自動(dòng)摘要方法上,在根據(jù)句子或詞語之間的相似度對(duì)句子進(jìn)行聚類時(shí),會(huì)加入語義信息[5]和多種特征[6-7],提高相似度計(jì)算的準(zhǔn)確率和聚類效果,其中聚類方法的改進(jìn)也會(huì)提升摘要效果。Naveen和Nedungadi使用PHA-Clustering Gain與K-Means結(jié)合方法改進(jìn)了聚類方法[8]。Yang[9]基于HLDA并結(jié)合n-gram模型,提出了一種考慮上下文關(guān)系的主題模型。聚類方法與圖模型的結(jié)合在多文檔摘要中表現(xiàn)較好。Sun等[10]在聚類之后構(gòu)建兩層圖模型,通過尋找最優(yōu)路徑的方式提取摘要。

      在基于機(jī)器學(xué)習(xí)的自動(dòng)文本摘要方法上,通常通過提取與查詢語句相關(guān)的特征[11],如句子位置、長(zhǎng)度、與查詢句子的相似度、TF-IDF等特征[12-13],以優(yōu)化摘要結(jié)果。隨著標(biāo)注數(shù)據(jù)的增多和深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)模型在生成式摘要的應(yīng)用上逐漸增多[14-16],但其在語義可讀性上的表現(xiàn)有待提高。

      詞語的向量表示是通過相關(guān)模型將每個(gè)詞語轉(zhuǎn)換成唯一的特征向量,Mikolov等針對(duì)詞語的分布式表示[17],提出了通過神經(jīng)網(wǎng)絡(luò)語言模型獲得其分布式向量表示的Word2Vec方法,可以通過詞之間的距離來判斷它們之間的語義相似度,該方法在詞向量降維、語義分析、相似度計(jì)算等方面均有較好的表現(xiàn)。本文使用Word2Vec的方法計(jì)算詞語之間的相似度,進(jìn)而得出句子相似度。

      句子的選擇通常需要滿足三個(gè)條件: ①所選句子對(duì)文摘信息量的增加貢獻(xiàn)度盡量高;②使文摘的信息冗余度盡量低;③所選句子數(shù)量滿足摘要對(duì)句子或詞語數(shù)量的限制要求。最大邊界相關(guān)法(maximal marginal relevance,MMR)[18]可以從候選摘要句子集中選擇出句子權(quán)重高同時(shí)使摘要集冗余度低的最優(yōu)句子,滿足摘要句選擇的要求[19]。

      1 基于查詢的自動(dòng)文本摘要

      本文基于查詢的新聞多文檔自動(dòng)摘要方法的設(shè)計(jì),從主要流程上包括數(shù)據(jù)集的獲取、文檔預(yù)處理、句子權(quán)重及時(shí)序權(quán)重系數(shù)計(jì)算、句子相似度計(jì)算、句子選擇幾個(gè)部分,具體流程如圖1所示。

      圖1 基于查詢的新聞多文檔自動(dòng)摘要設(shè)計(jì)流程

      1.1 句子相似度計(jì)算

      本文使用gensim工具包中的Word2Vec訓(xùn)練獲取的詞向量計(jì)算句子相似度,由于對(duì)于某個(gè)檢索條件下的新聞文檔集,其各個(gè)文檔及文檔中句子的相似度很高,使用詞向量模型可以更加準(zhǔn)確地區(qū)分各個(gè)詞語之間的語義差別。詞向量模型的訓(xùn)練結(jié)果得到的是每個(gè)詞語的向量值,將這些向量映射到維度空間中,就得到了詞向量的空間模型,詞語之間的相似度值可以使用兩個(gè)詞語在空間模型中的余弦相似度表示[20],如式(1)所示。

      其中:wa、wb表示詞向量,n表示詞向量的維數(shù),wak表示wa向量的第k維的值。wbk表示wb向量的第k維的值。

      句子是由一個(gè)個(gè)詞語組成的,所以句子之間的相似度可以在詞語相似度的基礎(chǔ)上計(jì)算得到。我們知道兩個(gè)句子中相似的詞語越多其相似度應(yīng)該越高,當(dāng)兩個(gè)句子完全一樣時(shí)其相似度為1。同時(shí)為了避免長(zhǎng)句子的相似度過高,減弱長(zhǎng)句子在詞語數(shù)量上的優(yōu)勢(shì),這里采用先求和再求平均數(shù)的方法,計(jì)算詞語相似度的平均值。因此兩句子相似度計(jì)算,如式(2)所示。

      其中,sim(si,sj)表示句子si與句子sj的相似度,wi表示si中的詞語,wj表示sj中的詞語,cos (wi,wj)為wi,wj兩個(gè)詞語的向量空間余弦相似度,Lsi,Lsj為si,sj中包含詞語的數(shù)量。

      1.2 句子權(quán)重的計(jì)算

      本文在句子權(quán)重的計(jì)算中主要考慮以下五部分的因素。

      (1) TF-IDF得分。詞頻(term frequency,TF)指的是某一個(gè)給定的詞語在該文件中出現(xiàn)的頻率。逆向文件頻率(inverse document frequency,IDF)是一個(gè)詞語普遍重要性的度量。其計(jì)算如式(3)所示。

      (3)

      其中,ni,j是該詞wi在文件dj中的出現(xiàn)次數(shù),ND表示語料庫(kù)中的文件總數(shù),N{j:wi∈dj}表示包含詞語wi的文件數(shù)目。在計(jì)算句子的TF-IDF得分時(shí),為了避免長(zhǎng)句子的得分偏高,使用句子所包含詞語的TF-IDF平均值來表示句子的TF-IDF值,如式(4)所示。

      其中,weighttfidf表示句子的TF-IDF得分,Ls表示句子長(zhǎng)度。

      (2) 位置權(quán)重。由于新聞文本結(jié)構(gòu)的倒金字塔特性,整篇新聞的最核心內(nèi)容往往會(huì)放在首段或者首句進(jìn)行說明。通過對(duì)大量新聞文章的調(diào)研發(fā)現(xiàn),新聞文章為了吸引讀者興趣,使用首段首句引出后面所要表達(dá)的核心內(nèi)容,在首段中首句之后的句子仍然表達(dá)的是總結(jié)性的內(nèi)容,所以此權(quán)重計(jì)算如式(5)所示。

      (5)

      (3) 與標(biāo)題的相似度。新聞文章的標(biāo)題通常會(huì)以最凝練的語言概括整篇文章的主要內(nèi)容,所以句子與標(biāo)題的相似度,可以體現(xiàn)出該句子與文章主要內(nèi)容的相關(guān)程度,如式(6)所示。

      其中,s為句子,T為標(biāo)題。

      (4) 與查詢的相似度。查詢語句體現(xiàn)了用戶所要了解的信息范圍,句子與查詢語句的相似度越高表示該句子更有可能是用戶想要閱讀的內(nèi)容,如式(7)所示。

      其中,Q代表查詢。

      (5) 線索詞權(quán)重。線索詞是指“總而言之”“總的來說”等概括性的指示詞語,包含線索詞的句子通常是對(duì)其他文章內(nèi)容的總結(jié),會(huì)包含更多的信息,在權(quán)重設(shè)置上應(yīng)給予更高權(quán)重:

      句子權(quán)重由以上五個(gè)部分組成,為了平衡各部分權(quán)重得分的分布,為每部分權(quán)重引入了權(quán)重系數(shù),該權(quán)重系數(shù)由兩部分組成: 歸一化系數(shù)和經(jīng)驗(yàn)權(quán)重。如式(8)所示。

      其中歸一化系數(shù)ε是通過計(jì)算已知文檔集上五種權(quán)重的分布,對(duì)其進(jìn)行歸一化后得到的系數(shù),經(jīng)驗(yàn)系數(shù)α是根據(jù)實(shí)驗(yàn)分析,調(diào)優(yōu)后的參數(shù)。

      句子最終權(quán)重值為權(quán)重系數(shù)與各部分權(quán)重值得乘積之和,即:

      Wgroup(s)=λtfidfweighttfidf+λposweightpos+

      λtweightt+λqweightq+λxweightx

      (9)

      其中,λ為各部分的權(quán)重系數(shù),Wgroup為句子s五個(gè)權(quán)重要素結(jié)合后的組合權(quán)重值。

      1.3 時(shí)序權(quán)重系數(shù)

      新聞報(bào)道的一大特點(diǎn)是講求時(shí)效性,同時(shí)較新的文章會(huì)包含以前的新聞事件的介紹;用戶在搜索某個(gè)新聞內(nèi)容時(shí)通常也是為了獲得最新的新聞進(jìn)展。所以較新的新聞內(nèi)容更符合用戶的信息需求,在計(jì)算句子權(quán)重時(shí)應(yīng)考慮新聞時(shí)效的影響。

      由于摘要結(jié)果是在句子維度上對(duì)句子進(jìn)行的選擇,所以對(duì)時(shí)間區(qū)分的維度應(yīng)該也在句子維度上,即要確定每個(gè)句子所對(duì)應(yīng)的時(shí)間。通過對(duì)大量新聞文章的句子時(shí)間的分析發(fā)現(xiàn): 新聞文章的段落較短,同一段落的句子往往只表達(dá)一層含義或一個(gè)觀點(diǎn),在未出現(xiàn)時(shí)間標(biāo)識(shí)詞時(shí),往往表示同一時(shí)間。本文提取句子時(shí)序特征的流程如圖2所示。

      圖 2 句子時(shí)序特征提取流程

      由于新聞文章的時(shí)效性,在提取摘要時(shí),距離現(xiàn)在越遠(yuǎn)的句子,其權(quán)重應(yīng)該越低。同時(shí)為了避免因句子間隔時(shí)間不等導(dǎo)致的權(quán)重波動(dòng)問題,這里采用的是相對(duì)時(shí)間,也就是句子在時(shí)間排序上的位次,位次越靠前權(quán)重值越高。λtime為時(shí)序衰減系數(shù)。

      由此,對(duì)文當(dāng)中任意一個(gè)句子s的權(quán)重值如式(10)所示。

      對(duì)比三種形式的衰減函數(shù),在標(biāo)注數(shù)據(jù)上,選擇不同文摘比例上的F值如圖3所示,其中α取默認(rèn)值1。

      圖 3 不同衰減函數(shù)效果對(duì)比

      從圖3中可以看出,三條曲線隨著文摘比例的增大而增大,這是由于人工摘要的句子數(shù)是一定的,當(dāng)摘要比例增大時(shí),機(jī)器摘要的正確句子數(shù)則會(huì)逐漸增加,準(zhǔn)確率和召回率也隨之增加。通過對(duì)比可以發(fā)現(xiàn)指數(shù)型的衰減函數(shù),在時(shí)間序列的處理上有更好的效果。

      在15%文摘比例下,對(duì)于常數(shù)型、線性型、指數(shù)型衰減函數(shù),選擇不同經(jīng)驗(yàn)系數(shù)α取值的F值對(duì)比,如圖4所示。

      圖 4 不同參數(shù)下常數(shù)型、線性型、指數(shù)型衰減函數(shù)F值對(duì)比

      從圖4中可以看出: (1)對(duì)于常數(shù)型衰減函數(shù),其參數(shù)大小對(duì)句子權(quán)重的相對(duì)大小沒有影響,所以F值不隨其變化;(2)對(duì)于線性型、指數(shù)型衰減函數(shù): 當(dāng)系數(shù)α逐漸增大時(shí),F(xiàn)值逐漸變高,這是由于當(dāng)α過小時(shí),衰減函數(shù)的取值與常數(shù)型接近,不能體現(xiàn)出時(shí)序衰減的特性;當(dāng)α繼續(xù)增大時(shí),則會(huì)使時(shí)間較新句子權(quán)重偏大,使摘要集里時(shí)間較新的句子增多,導(dǎo)致F值降低;(3)經(jīng)過調(diào)優(yōu)后可以看出指數(shù)型的最大值要大于線性型的最大值,所以指數(shù)型衰減函數(shù)要優(yōu)于線性衰減函數(shù)。

      2 實(shí)驗(yàn)過程與結(jié)果分析

      2.1 數(shù)據(jù)準(zhǔn)備

      研究的文本對(duì)象是中文新聞文本,研究的主題是基于查詢的自動(dòng)文本摘要,當(dāng)前在中文領(lǐng)域沒有適合本研究主題的標(biāo)注語料集,同時(shí)為了結(jié)合使用的實(shí)際情況,采用基于新聞網(wǎng)站搜索引擎結(jié)合語句查詢的方法,通過爬蟲抓取查詢結(jié)果文檔,組成文檔集。實(shí)驗(yàn)選取的新聞網(wǎng)站為光明網(wǎng),一是由于光明網(wǎng)的搜索結(jié)果中會(huì)包含其他的新聞平臺(tái)的內(nèi)容,檢索結(jié)果更加全面;二是和百度、谷歌等搜索引擎相比又能得到更加純粹的新聞報(bào)道。

      2.2 數(shù)據(jù)預(yù)處理

      數(shù)據(jù)預(yù)處理的過程,主要包括文本數(shù)據(jù)結(jié)構(gòu)化、分詞、去停用詞等步驟。由于抓取的新聞文檔是非結(jié)構(gòu)化的純文本形式,需要將其結(jié)構(gòu)化為包含時(shí)間、位置等屬性信息的標(biāo)題、段落、句子。同時(shí)網(wǎng)頁新聞的開頭通常會(huì)包含報(bào)道來源等信息,在進(jìn)行文檔預(yù)處理時(shí)需要?jiǎng)h除掉這些和新聞內(nèi)容無關(guān)的信息,避免在進(jìn)行語義分析時(shí)產(chǎn)生影響。

      詞向量的預(yù)訓(xùn)練方法采用Python語言中的gensim工具包進(jìn)行訓(xùn)練,由于所使用的訓(xùn)練語料對(duì)模型的訓(xùn)練結(jié)果影響較大,這里選用的是中文維基百科的語料庫(kù)(800MB)和搜狗中文新聞?wù)Z料庫(kù)(1.2 GB),使用的語言模型是CBOW模型,使用5個(gè)詞語構(gòu)成的窗口,構(gòu)建128維詞向量。最后經(jīng)過訓(xùn)練得到每個(gè)詞語對(duì)應(yīng)的128維向量表示,例如,詞語“地鐵”的向量表示為: (0.670 164,0.562 339,…,0.734 66)。

      2.3 句子權(quán)重及權(quán)重系數(shù)計(jì)算

      在句子權(quán)重計(jì)算過程中,根據(jù)預(yù)處理后的結(jié)構(gòu)化文本,計(jì)算每個(gè)句子的五部分權(quán)重,各部分權(quán)重系數(shù)由兩部分組成: 經(jīng)驗(yàn)系數(shù)α和歸一化系數(shù)ε,如式(11)所示。

      各個(gè)權(quán)值的歸一化系數(shù)ε的計(jì)算方法為:首先計(jì)算整個(gè)文檔集中該權(quán)重的平均值,則歸一化系數(shù)ε為平均值的倒數(shù),這樣可以使得經(jīng)驗(yàn)系數(shù)α是與權(quán)重取值范圍和分布無關(guān)的系數(shù),同時(shí)可以通過經(jīng)驗(yàn)系數(shù)α看出各個(gè)權(quán)重的重要程度。

      由于句子權(quán)重包括五種權(quán)值及權(quán)重系數(shù),不能通過單一的F值來優(yōu)化各個(gè)系數(shù),這里采用類梯度下降的方法,人工優(yōu)化確定各個(gè)系數(shù)。以TF-IDF權(quán)重值系數(shù)的確定為例:

      (1) 首先取TF-IDF的權(quán)重系數(shù)為默認(rèn)值1。

      (2) 根據(jù)此系數(shù),生成機(jī)器摘要。

      (3) 計(jì)算機(jī)器摘要所有句子的TF-IDF權(quán)重平均值A(chǔ)和人工摘要的所有句子的TF-IDF權(quán)重平均值B。如果A小于B則調(diào)大權(quán)重系數(shù),反之則調(diào)小。

      (4) 重復(fù)(2)~(3)步驟。

      同理可以調(diào)整優(yōu)化其余參數(shù)的取值。最終得到各個(gè)權(quán)值的系數(shù)。

      2.4 句子選擇及摘要生成

      摘要的核心是要從原文句子中選一個(gè)句子集合,使得該集合在相關(guān)性與多樣性的評(píng)測(cè)標(biāo)準(zhǔn)下得分最高,在句子選擇的過程中,就需要避免選擇包含重復(fù)信息過多的句子,這里采用MMR的方法,如式(12)所示。

      scoreMMR(si)=

      (12)

      其中,si表示第i個(gè)句子,wsi代表的是si的權(quán)重,而sim(si,sj)代表的是冗余性,通過不斷迭代計(jì)算,每次選出一個(gè)最優(yōu)的句子。具體計(jì)算邏輯如下:

      calculate similarity between each sentence

      save the similarity value

      for each sorted sentence

      calculate MMR

      select sentence of the max MMR into summary

      if length of summary enough

      stop

      else

      continue

      在句子排序上,根據(jù)每個(gè)句子所在文檔和在該文檔中的順序,將已選為摘要句的句子按照同一文檔、出現(xiàn)的先后順序進(jìn)行排列。為了增加用戶的可讀性,同一文檔的句子組成一個(gè)段落,同時(shí)根據(jù)文檔時(shí)間對(duì)段落進(jìn)行倒序排列。最終摘要結(jié)果示例如下:

      2.5 實(shí)驗(yàn)結(jié)果分析

      為了保證實(shí)驗(yàn)結(jié)果的穩(wěn)定性,對(duì)于評(píng)測(cè)數(shù)據(jù)中的同一份文檔集摘要,分別由三名專家在句子維度上獨(dú)立標(biāo)注出人工摘要,表1是評(píng)測(cè)數(shù)據(jù)的統(tǒng)計(jì)信息。

      表 1 評(píng)測(cè)數(shù)據(jù)概況

      由于人工摘要是在句子維度上生成的,通過對(duì)每個(gè)句子進(jìn)行編號(hào),人工標(biāo)注數(shù)據(jù)集則可用相應(yīng)數(shù)字表示,表2為各個(gè)數(shù)據(jù)樣本下,對(duì)三份人工摘要進(jìn)行Pearson相關(guān)性檢驗(yàn)結(jié)果,其中S1、S2、S3分別表示三位專家的摘要。

      表2 評(píng)測(cè)數(shù)據(jù)相關(guān)性檢驗(yàn)結(jié)果

      由表2可以看出,三位專家在各個(gè)數(shù)據(jù)樣本上的相關(guān)性均大于0.6,具有較強(qiáng)的相關(guān)性,對(duì)于句子數(shù)量較多的樣本,由于數(shù)量的影響,相關(guān)性較其他數(shù)據(jù)樣本略微低。

      目前對(duì)自動(dòng)文本摘要的評(píng)價(jià)方法主要有兩種: 內(nèi)部評(píng)價(jià)法和外部評(píng)價(jià)法。其中內(nèi)部評(píng)價(jià)法是比較客觀的,將系統(tǒng)生成的自動(dòng)文本摘要與專家摘要采用一定的方法進(jìn)行比較是目前常見的文摘評(píng)價(jià)模式。

      摘要質(zhì)量的評(píng)價(jià)方法采用自動(dòng)摘要領(lǐng)域廣泛使用的ROUGE指標(biāo),ROUGE是一種基于召回率的自動(dòng)評(píng)價(jià)方法,通過比較自動(dòng)文摘中包含的基本語義單元數(shù)目在專家文摘中的數(shù)目多少來衡量[21]。ROUGE有五種不同的評(píng)價(jià)指標(biāo): ROUGE-N,ROUGE-L,ROUGE-W,ROUGE-S,ROUGE-SU。根據(jù)本文的研究?jī)?nèi)容和文本特點(diǎn),選擇ROUGE-2、ROUGE-3、ROUGE-L、ROUGE-SU4四種具體的評(píng)價(jià)指標(biāo)。

      在評(píng)價(jià)過程中,對(duì)比的方法有: (1)ST-SUM: 本文方法生成的結(jié)果;(2)TF-IDF: 基于TF-IDF計(jì)算句子權(quán)重,選擇摘要句的方式;(3)TextRank: 基于圖模型TextRank的方法[22];(4)LDA: 基于LDA主題模型,使用KL散度計(jì)算句子相似度的方法;(5)NY-SUM: 不使用語義相似度;(6)NQ-SUM: 不使用與查詢句相似度權(quán)重;(7)NT-SUM: 不使用時(shí)序權(quán)重系數(shù)生成的系統(tǒng)摘要。

      在每個(gè)評(píng)測(cè)樣本上,對(duì)每種摘要方法分別計(jì)算相應(yīng)的ROUGE得分,圖5為每種摘要方法的ROUGE得分在三份人工摘要上的平均值。

      圖 5 實(shí)驗(yàn)評(píng)測(cè)結(jié)果

      為了驗(yàn)證本文方法與其他方法具有顯著性差異,在ROUGE每個(gè)指標(biāo)上分別進(jìn)行各摘要方法與本文方法的顯著性檢驗(yàn)。表3為檢驗(yàn)結(jié)果的P值。

      表3 各摘要方法與本文方法的顯著性檢驗(yàn)結(jié)果

      續(xù)表

      從以上結(jié)果的分析可以看出: 基于本文的方法在ROUGE-2、ROUGE-3、ROUGE-L、ROUGE-SU4指標(biāo)上均要高于其他方法,得分穩(wěn)定性較高;從顯著性檢驗(yàn)結(jié)果可以看出本文方法與其他幾種方法具有顯著性差異,說明該方法得到的摘要與人工摘要的標(biāo)準(zhǔn)更加接近,質(zhì)量更好。通過與NT-SUM方法的對(duì)比可以看出,本文提出的基于時(shí)序特征的權(quán)重衰減系數(shù)對(duì)于提高摘要質(zhì)量是有效、可行的;通過與NQ-SUM結(jié)果對(duì)比可以看出,本文方法使用的基于查詢的相似度權(quán)重計(jì)算方法,得到的結(jié)果更能符合用戶的查詢需求;通過與NY-SUM、LDA的對(duì)比可以看出,不使用相似度計(jì)算的NY-SUM方法得分要低于本文方法和基于LDA的方法得分,同時(shí)基于LDA的得分仍低于本文方法,可見在文檔集內(nèi)容相似程度比較高的情況下,使用基于Word2Vec的空間余弦相似度計(jì)算方法仍有較好效果。

      3 結(jié)語

      本文針對(duì)用戶日常閱讀需求較高的新聞文本,提出了一種基于查詢的新聞多文檔自動(dòng)摘要方法,該方法同時(shí)考慮了新聞文本的倒金字塔結(jié)構(gòu)、時(shí)效性等特點(diǎn),對(duì)相似度計(jì)算、句子權(quán)重值分布等進(jìn)行改進(jìn),使得摘要質(zhì)量得到提升。同時(shí)結(jié)合用戶在閱讀新聞過程中對(duì)最新事件的關(guān)注度更高的特點(diǎn),對(duì)句子權(quán)重增加了時(shí)間序列上的衰減系數(shù),使得距今時(shí)間越近的句子權(quán)重越高。通過實(shí)驗(yàn)對(duì)比分析,本文提出的方法在人工摘要上的評(píng)分和用戶調(diào)研打分上都有較好的表現(xiàn)。但本文仍存在一些不足,在相似度的計(jì)算中,沒有考慮語義相反的情況,對(duì)于語義相反的句子,其相似度會(huì)高于其他類型的句子。在查詢意圖的分析上,當(dāng)用戶輸入查詢語句查詢時(shí),應(yīng)分析用戶真正的查詢意圖,以使檢索得到的文章、查詢語句與句子相似度的計(jì)算等部分更加準(zhǔn)確。

      猜你喜歡
      文檔權(quán)重向量
      向量的分解
      有人一聲不吭向你扔了個(gè)文檔
      聚焦“向量與三角”創(chuàng)新題
      權(quán)重常思“浮名輕”
      為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
      基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      和田县| 武夷山市| 东兴市| 东丰县| 马边| 中江县| 麟游县| 凌源市| 宁河县| 靖安县| 巨鹿县| 永胜县| 隆昌县| 阿巴嘎旗| 轮台县| 柳河县| 天津市| 华安县| 临夏市| 罗城| 黔西| 景宁| 贡嘎县| 宣威市| 清水县| 长宁县| 韶山市| 淮滨县| 十堰市| 新郑市| 沂南县| 黄山市| 繁峙县| 无锡市| 微博| 班戈县| 博罗县| 胶州市| 孙吴县| 文化| 雷波县|