• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      利用維基百科實(shí)體增強(qiáng)基于圖的多文檔摘要

      2016-05-04 03:10:37陳維政閆宏飛李曉明
      中文信息學(xué)報(bào) 2016年2期
      關(guān)鍵詞:維基百科維基文檔

      陳維政,嚴(yán) 睿,閆宏飛,李曉明

      (北京大學(xué) 信息科學(xué)技術(shù)學(xué)院,北京 100871)

      利用維基百科實(shí)體增強(qiáng)基于圖的多文檔摘要

      陳維政,嚴(yán) 睿,閆宏飛,李曉明

      (北京大學(xué) 信息科學(xué)技術(shù)學(xué)院,北京 100871)

      針對基于圖的多文檔摘要,該文提出了一種在圖排序中結(jié)合維基百科實(shí)體信息增強(qiáng)摘要質(zhì)量的方法。首先抽取文檔集合中高頻實(shí)體的維基詞條內(nèi)容作為該文檔集合的背景知識(shí),然后采用PageRank算法對文檔集合中的句子進(jìn)行排序,之后采用改進(jìn)的DivRank算法對文檔集合和背景知識(shí)中的句子一起排序,最后根據(jù)兩次排序結(jié)果的線性組合確定文檔句子的最終排序以進(jìn)行摘要句的選取。在DUC2005數(shù)據(jù)集上的評測結(jié)果表明該方法可以有效利用維基百科知識(shí)增強(qiáng)摘要的質(zhì)量。

      多文檔摘要;維基實(shí)體;基于圖

      1 引言

      在線信息的快速增長使得自動(dòng)文檔摘要技術(shù)不斷發(fā)展,在過去的六十多年里,從不同的領(lǐng)域和模式出發(fā),自動(dòng)文檔摘要技術(shù)得到了廣泛研究和應(yīng)用。比如,搜索引擎會(huì)對用戶查詢返回的文檔生成一個(gè)短摘要供用戶篩選查詢結(jié)果。雅虎2013年收購了新聞?wù)獞?yīng)用Summly,該應(yīng)用可以將整篇英文新聞文章的內(nèi)容提煉成一個(gè)不到400詞的新聞?wù)?/p>

      自動(dòng)文本摘要可分為普適摘要和面向查詢的摘要。面向查詢的多文檔摘要需要用戶在給出一個(gè)查詢的條件下,針對用戶的信息需求生成與用戶查詢相關(guān)且內(nèi)容冗余度盡量小的摘要。普適摘要?jiǎng)t與查詢無關(guān)。由于自然語言處理技術(shù)的限制,當(dāng)前的摘要生成主要采用抽取式(extractive)的方法,即從原文檔中選取一定數(shù)量的句子組成摘要,本文的方法是一種抽取式的面向查詢的摘要算法。

      抽取式摘要主要需要解決兩個(gè)問題,一是如何對句子進(jìn)行排序,二是由于摘要長度的限制如何對排序后的句子進(jìn)行篩選?;趫D排序的算法是解決面向查詢的多文檔摘要問題的一類經(jīng)典算法。在文檔中,句子與句子、句子與查詢之間的相似度啟發(fā)我們可以用圖來表示文檔。基于圖排序的文本摘要方法的一般思想是把文章分解為若干單元(句子或段落等),每個(gè)單元對應(yīng)一個(gè)圖的頂點(diǎn),單元間的關(guān)系作為邊,最后通過圖排序的算法得出各頂點(diǎn)的得分,并在此基礎(chǔ)上生成文本摘要。在多數(shù)工作中,節(jié)點(diǎn)一般是句子,節(jié)點(diǎn)之間的邊的權(quán)值表示句子之間的相似度,絕大多數(shù)文獻(xiàn)中表明余弦相似度是使用最多的測量標(biāo)準(zhǔn)。

      在多文檔摘要的應(yīng)用中,文檔通常都是和一個(gè)特定的主題或者事件相關(guān)的,這些主題或事件從屬于一個(gè)普遍的知識(shí)結(jié)構(gòu)體系中。以新聞?wù)獮槔?,新聞一般都與特定的人物、機(jī)構(gòu)或者事件相關(guān)。因此基于背景知識(shí)或者本體知識(shí)庫的摘要方法得到了廣泛研究[1-2]。維基百科是當(dāng)前世界上最大的在線百科知識(shí)庫,其內(nèi)容以詞條的的形式進(jìn)行組織,每一個(gè)詞條代表一個(gè)維基實(shí)體。近年來,各種自然語言研究領(lǐng)域陸續(xù)開始使用維基百科。

      本文的出發(fā)點(diǎn)在于從文檔中抽取出高頻維基實(shí)體作為文檔集合的相關(guān)實(shí)體,利用這些實(shí)體的維基詞條內(nèi)容作為摘要生成的背景知識(shí),通過兩次圖排序的方法將背景知識(shí)加入到原文檔句子的排序過程中。在DUC2005評測數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明了本文方法可以有效利用維基知識(shí),并且生成的摘要可以達(dá)到較高的質(zhì)量。

      2 相關(guān)工作

      近年來,抽取式多文檔摘要算法得到廣泛的研究。這些方法的主要思想都在于對原文檔中的句子進(jìn)行打分,并將得分最高的句子組成最后的摘要。四類主流的多文檔摘要算法分別是基于特征的方法、基于聚類的方法、基于圖排序的方法、基于知識(shí)庫的方法。

      首先簡要介紹基于特征和聚類的方法,文檔摘要中常用的文檔特征包括詞頻、特定段落(如首末段)、段落的特定句子(如首末句)等。Luhn在1958 年發(fā)表的論文中[3]指出,頻繁出現(xiàn)的單詞與文章主題有比較大的關(guān)聯(lián),因此可以根據(jù)各單詞出現(xiàn)的頻率給文中的句子打分,以得分最高的幾個(gè)句子組成文章的摘要。聚類的思想在于把相似的對象納入到同一類中。具體而言,對于多文檔摘要問題,這里的聚類對象是句子,類別則代表句子所從屬的類。Radev[4]在2004年首先提出了使用聚類質(zhì)心的多文檔摘要系統(tǒng)MEAD。簇的質(zhì)心是指最能代表這個(gè)簇的tf-idf向量,然后可以用這個(gè)質(zhì)心確定最能代表這個(gè)簇的重要句子,也就是和簇最相關(guān)的句子。

      在多文檔摘要領(lǐng)域經(jīng)常被使用的圖排序模型包括,Kleinberg[5]在1999年提出的HITS算法,Brin和Page提出的著名的PageRank算法[6],這兩種算法的傳統(tǒng)使用領(lǐng)域是在互聯(lián)網(wǎng)鏈接分析和社會(huì)網(wǎng)絡(luò)分析。LexRank[7]和Mihalcea提出的TextRank[8]是將前面的兩種算法應(yīng)用到摘要領(lǐng)域的有效嘗試改進(jìn)。耿煥同[9]等人則利用句子間的共現(xiàn)詞,提出了一種基于詞共現(xiàn)圖的文檔摘要算法,通過詞共現(xiàn)圖形成的主題信息以及不同主題間的連接特征信息自動(dòng)地提取文檔摘要。梅俏竹[10]等在2010年提出了PageRank的一個(gè)變種DivRank,在傳統(tǒng)的Page-Rank 的計(jì)算中,節(jié)點(diǎn)之間的轉(zhuǎn)移概率是固定的,可以看作時(shí)齊的馬爾科夫鏈。而這篇文章提出了針對現(xiàn)實(shí)中存在的“richer get richer”現(xiàn)象,需要在排序中體現(xiàn)出多樣性,這樣節(jié)點(diǎn)之間的轉(zhuǎn)移概率應(yīng)該是變化的,而且應(yīng)該和節(jié)點(diǎn)被訪問的次數(shù)成正比?;趫D排序的摘要算法的核心在于改進(jìn)排序算法。Wan和Yang[11]給文檔間句子鏈接和文檔內(nèi)句子鏈接分配不同的權(quán)重,特別地對文檔間的鏈接分配更高的先驗(yàn)概率。

      基于背景知識(shí)或者本體知識(shí)庫的摘要方法的出發(fā)點(diǎn)在于文檔通常都是對某一特定主題或事件的描述,Khelif[12]的研究表明,本體庫包含了精確概念和豐富的領(lǐng)域相關(guān)信息,有助于獲取隱含的語義信息,特別是對于具體領(lǐng)域新的相關(guān)理解。近年來隨著維基百科成為最大的在線百科全書,多文檔摘要領(lǐng)域與維基百科相關(guān)的工作也越來越多。Ramanatha[13]使用Lucence引擎查找句子中的維基概念,通過統(tǒng)計(jì)概念的句子頻次,將包含高頻概念的句子選為文摘句。Nastase[14]提取查詢中的維基實(shí)體然后查找對應(yīng)維基詞條中的鏈接詞對查詢進(jìn)行擴(kuò)展。

      3 算法流程

      3.1 抽取維基百科知識(shí)

      DUC(DocumentUnderstandingConference)會(huì)議,自2001年起都會(huì)舉辦針對單文檔自動(dòng)摘要和多文檔自動(dòng)摘要的評測任務(wù)。圖1給出DUC2005中面向查詢的多文檔摘要任務(wù)中的主題示例。一個(gè)主題有一個(gè)ID標(biāo)號(hào)即num域,title給出了主題的標(biāo)題,narr域給出了主題對應(yīng)的查詢內(nèi)容。

      圖1 DUC 2005的主題示例

      表1給出了對圖1中的主題d301i抽取出的符合條件的相關(guān)維基實(shí)體,涵蓋了一些國家名以及和毒品犯罪有關(guān)的詞語,和d301i的narr域中的查詢問題是高度對應(yīng)的,也印證了高頻詞與文檔主題有較大的關(guān)聯(lián)性。

      表1 DUC 2005主題的維基實(shí)體示例

      3.2 原文檔句子排序

      3.2.1 基于圖的句子排序算法

      基于圖排序的摘要算法的基本思想是一個(gè)句子的得分與該句子和查詢的相似度以及該句子和文檔集中其它句子的相似度有關(guān)。設(shè)文檔集C={si|i=1,2,...,N},si表示C中的第i個(gè)句子,C中共有N個(gè)句子。對于一個(gè)文檔集C中的句子s,s在給定查詢q下的得分可以表示為:

      (1)

      (2)

      因?yàn)椴樵僸也是一個(gè)句子,句子s和查詢q的相似度sim(s,q)也是通過式(2)給出。我們令sim(s,s)=0以避免一個(gè)句子到其自身的轉(zhuǎn)移。為了給出式(1)的矩陣形式,定義矩陣A=(Aij)N×N,矩陣B=(Bij)N×N,其中:

      (3)

      (4)

      (5)

      則式(1)的矩陣形式為:

      (6)

      3.2.2 查詢擴(kuò)展

      由于在面向查詢的多文檔摘要中原始查詢通常較短,對查詢進(jìn)行擴(kuò)展可以有效補(bǔ)充原始查詢的語義信息。文獻(xiàn)[14]使用WordNet和維基百科詞條的首段鏈接對查詢進(jìn)行擴(kuò)展。文獻(xiàn)[16]提出了一種基于PageRank分?jǐn)?shù)的從原文檔集中選取擴(kuò)展詞的方法,在選取擴(kuò)展詞時(shí)同時(shí)考慮句子本身的重要性以及句子和詞之間的關(guān)系。本文采用該方法對查詢進(jìn)行擴(kuò)展,該方法可以歸納為如下三步。

      1. 計(jì)算矩陣W=(Wij)N×m,用Wij表示詞tj在句子si中的權(quán)重,其中:

      (7)

      式(7)中進(jìn)行了行歸一化,即使得W中每行的和都為1。需要指出的是,這里只考慮名詞、動(dòng)詞、形容詞和副詞,別的詞都不參與查詢擴(kuò)展。

      利用以上算法得到新查詢q′,我們采用3.2.1中的算法重新計(jì)算所有句子的得分,然后按照得分對文檔集中的句子降序排列,從而對每個(gè)句子si得到一個(gè)排序ri1。

      3.3 加入維基百科知識(shí)后排序

      3.1中抽取的維基百科詞條的內(nèi)容給出了一個(gè)話題的背景知識(shí),我們希望選取出的摘要句可以與對應(yīng)的背景知識(shí)相符合,為此下面對文檔集中句子與背景知識(shí)的相關(guān)程度進(jìn)行排序。對一個(gè)文檔集C={si|i=1,2,...,N},其對應(yīng)的維基百科知識(shí)即使用3.1中的方法從C中抽取的維基詞條中的句子所組成的集合,記為K={ki|i=1,2,...,H}。為了表示方便,將C與K的交集記為Q=C∪K={si|i=1,2,...,N,N+1,....,N+H},其中si(1≤i≤n)表示的是原文檔集合C中的句子,si(N+1≤i≤N+H)表示的是維基百科知識(shí)K中的句子。仍然采用基于圖排序的算法對Q中的句子一起排序,但此處的方法與3.2.1中有所不同,一是不再考慮句子與查詢q的相似度,因?yàn)橹皇怯?jì)算原文檔句子與背景知識(shí)的相關(guān)程度;二是原文檔句子之間的相似度都置為0,即對1≤i,j≤N,令sim(si,sj)=0,C與K中句子之間的相似度、K中句子的相似度依然采用3.2.1中方法進(jìn)行計(jì)算。則Q中一個(gè)句子s的得分為:

      (8)

      式(8)中的μ為一個(gè)在[0,1]取值的參數(shù),在本文中取值為PageRank算法中的常用值0.85。為了把式(8)寫成矩陣形式,重新定義矩陣A=(Aij)(N+H)×(N+H),其中

      (9)

      (10)

      多文檔摘要任務(wù)的一個(gè)重要指標(biāo)是多樣性,摘要中的句子表達(dá)的信息應(yīng)該有所差異,即摘要句之間的信息冗余應(yīng)該盡量小。式(10)作為一個(gè)標(biāo)準(zhǔn)的PageRank算法將導(dǎo)致相似的句子擁有十分接近的得分,從而得分靠前句子之間存在很強(qiáng)的相似性。MMR即最大邊緣相關(guān)算法是解決該問題的的經(jīng)典貪心算法,該算法首先將排序中最靠前的句子作為第一個(gè)摘要句,然后迭代地選擇與查詢最相關(guān)且與摘要中現(xiàn)有句子冗余度最小的句子作為摘要句。DivRank算法可以在排序中融入句子的多樣性,使得相似的句子在排序的過程中存在“吸收”作用,而使得其得分的差距被拉大。該算法的思想在于使式(10)中的矩陣A在每次迭代過程中都動(dòng)態(tài)變化而不是保持不變。Yan[17]等在為新聞文檔生成時(shí)間線摘要時(shí)結(jié)合了DivRank算法取得了良好的效果。式(11)給出了A的更新算法。

      (11)

      3.4 排序合并與摘要生成

      現(xiàn)在對C中的每個(gè)句子si我們得到排序ri1和ri2,ri1衡量了si在C中的重要性以及和查詢q的相似度,ri2衡量了si與維基百科知識(shí)的相關(guān)程度。本文用兩次排序次序的線性組合作為句子的最終排序。記si的最終排序?yàn)閞i,則ri如式(12)所示。

      (12)

      式(12)中的λ是在[0,+∞)取值的參數(shù),λ越大則維基百科知識(shí)對排序結(jié)果的影響越大。盡管第一輪排序中使用的PageRank排序算法使得內(nèi)容相似的句子之間的排序十分接近,但第二輪排序時(shí)使用的DivRank算法使得內(nèi)容相似的句子獲得了差異明顯的排序結(jié)果。通過選取合適的λ組合兩輪排序結(jié)果,可以保證最終排序結(jié)果的多樣性。根據(jù)最終排序次序,我們對C中所有句子進(jìn)行升序排列,然后依次選入最終排序最小即最靠前的句子加入到摘要中,直到摘要的長度達(dá)到最大長度限制。

      4 實(shí)驗(yàn)與評測

      4.1 數(shù)據(jù)集

      本文采用DUC2005提供的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。DUC2005數(shù)據(jù)集共包含50個(gè)話題以及50個(gè)相關(guān)的查詢問題,數(shù)據(jù)來源是TREC數(shù)據(jù)集,查詢問題的形式如圖1所示。每個(gè)話題包含25—32篇新聞文檔,對應(yīng)數(shù)篇由專家人工編寫的摘要作為評測答案。任務(wù)目標(biāo)是針對查詢問題對每個(gè)話題分別生成一個(gè)250個(gè)詞的摘要。在本文的實(shí)驗(yàn)中,所有文檔都首先被分割成獨(dú)立的句子,然后進(jìn)行去除停用詞和詞干化等預(yù)處理。

      4.2 評價(jià)標(biāo)準(zhǔn)

      本文使用ROUGE-1.5.5工具包對生成的摘要進(jìn)行自動(dòng)評價(jià),ROUGE[18]標(biāo)準(zhǔn)的全稱是Recall-

      OrientedUnderstudyforGistingEvaluation即面向召回率的要點(diǎn)評估,現(xiàn)在已經(jīng)成為文檔自動(dòng)摘要領(lǐng)域的標(biāo)準(zhǔn)評測方法。在DUC多文檔摘要任務(wù)中,通常被采用的評價(jià)指標(biāo)是ROUGE-1、ROUGE-2以及ROUGE-SU4的召回率,因?yàn)檫@三項(xiàng)指標(biāo)與人工判斷最為相關(guān)。ROUGE-N指標(biāo)比較了兩個(gè)摘要中N-grams(N元詞)的重復(fù)情況,以此評價(jià)兩個(gè)摘要的相似性。用N表示N-gram的長度,RS表示人工編輯的參考摘要,S是RS中的一個(gè)句子,則針對計(jì)算機(jī)生成的摘要CS,ROUGE-N召回率分?jǐn)?shù)的計(jì)算公式為:

      ROUGE-NRecall

      (13)

      式(13)中分母上的Count(N-gram)表示計(jì)算RS中出現(xiàn)的N-gram的總個(gè)數(shù),分子上Countmatch(N-gram)表示計(jì)算在CS里出現(xiàn)的RS中的N-gram的總個(gè)數(shù)。在4.3中我們將報(bào)告本文方法在DUC2005數(shù)據(jù)集上得到ROUGE-1、ROUGE-2以及ROUGE-SU4三項(xiàng)指標(biāo)的召回率。

      4.3 實(shí)驗(yàn)結(jié)果

      圖2給出了參數(shù)λ的取值對最終結(jié)果ROUGE-1、ROUGE-2和ROUGE-SU4三項(xiàng)召回率指標(biāo)的影響,我們實(shí)驗(yàn)了λ在區(qū)間[0.000 1,1 000]中的八個(gè)取值,當(dāng)λ<0.01時(shí)隨著λ增大ROUGE召回率在增大,當(dāng)λ>0.01時(shí)隨著λ增大ROUGE召回率在減小,并且當(dāng)λ>10之后第二輪排序結(jié)果所占比重越來越大,結(jié)果趨于穩(wěn)定。結(jié)果表明λ=0.01時(shí)結(jié)果最好,最終的排序結(jié)果中第一輪排序的結(jié)果占有更大的權(quán)重。

      圖2 不同λ下ROUGE召回率的變化

      取λ=0.01,表2給出了本文方法與DUC2005評測中得分最高的三個(gè)摘要系統(tǒng)的得分比較,例如“S15”表示DUC2005評測中系統(tǒng)標(biāo)號(hào)為15的系統(tǒng),結(jié)果表明本文方法的性能優(yōu)于DUC2005評測中最好的系統(tǒng)。

      表2中PageRank系統(tǒng)對應(yīng)式(12)中λ=0時(shí)得到的結(jié)果,此時(shí)最終排序結(jié)果等價(jià)于第一輪排序結(jié)果,沒有在摘要生成中結(jié)合維基百科知識(shí)。表2中DivRank系統(tǒng)系統(tǒng)以3.3中排序結(jié)果作為最終排序得到的結(jié)果,式(12)中λ取大于10以上的值時(shí)句子的排序與3.3中得到的排序相同??梢钥闯鲋豢紤]句子與維基背景知識(shí)的相關(guān)性生成的摘要質(zhì)量明顯低于其它系統(tǒng)。通過選取合適的λ調(diào)整兩次排序結(jié)果的比重,在λ=0.01時(shí)得到的結(jié)果明顯優(yōu)于不考慮維基百科背景知識(shí)的PageRank系統(tǒng)以及只考慮維基百科背景知識(shí)的DivRank系統(tǒng),從而說明我們提出的基于圖排序的方法可以有效利用維基百科知識(shí)提升摘要質(zhì)量。這主要得益于兩點(diǎn):首先,加入維基百科知識(shí)的排序中使用了DivRank算法保證了最終排序結(jié)果的多樣性,即排序靠前的句子間信息冗余盡量??;其次,和背景知識(shí)相關(guān)度高的句子在最終排序結(jié)果中排序得到了提升,這也說明文檔話題的背景知識(shí)在摘要的生成過程中是一個(gè)值得考慮的重要因素。

      表2 DUC2005上的實(shí)驗(yàn)結(jié)果比較

      5 結(jié)束語

      本文提出了一種在基于圖排序的多文檔摘要算法中融入維基百科知識(shí)的方法,該方法使用兩次圖排序算法結(jié)果的線性組合作為句子的最終排序。DUC2005數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文的方法可以有效利用維基百科知識(shí),并且生成的摘要具有較高的質(zhì)量。由于在定義話題的相關(guān)維基實(shí)體時(shí),只是簡單利用實(shí)體在文檔中的出現(xiàn)的次數(shù)作為判斷標(biāo)準(zhǔn),缺乏深層次的語義分析,使得維基百科知識(shí)會(huì)包含和話題相關(guān)度并不高的內(nèi)容。

      在今后的工作中,我們將進(jìn)一步研究如何更精確地選取維基實(shí)體,以及如何從相關(guān)維基實(shí)體的維基文檔中篩選有效內(nèi)容作為話題的背景知識(shí)。

      [1] Shareha A A A, Rajeswari M, Ramachandram D. Multimodal integration (image and text) using ontology alignment[J]. American Journal of Applied Sciences, 2009, 6(6): 1217-1224

      [2] Nasir S A M, Noor N L M. Automating the mapping process of traditionalmalay textile knowledge model with the core ontology[J]. American Journal of Economics and Business Administration, 2011, 3(1): 191-196.

      [3] Luhn H P. The automatic creation of literature abstracts[J]. IBM Journal of research and development, 1958, 2(2): 159-165.

      [5] Kleinberg J M. Authoritative sources in a hyperlinkedenvironment[J]. Journal of the ACM (JACM), 1999, 46(5): 604-632.

      [6] Brin S, Page L. The anatomy of a large-scale hypertextual Web search engine[J]. Computer networks and ISDN systems, 1998, 30(1): 107-117.

      [7] Erkan G, Radev D R. LexRank: Graph-based lexical centrality as salience in text summarization[J]. J. Artif. Intell. Res. (JAIR), 2004, 22: 457-479.

      [8] Mihalcea R, Tarau P. TextRank: Bringing order into texts[C]//Proceedings of EMNLP. 2004, 4(4).

      [9] Geng H, Cai Q, Zhao P, etal. Research on Document Automatic Summarization Based on Word Co-occurrence[J].Journal of the china society for scientific and technical information,2005,24(6):652.

      [10] Mei Q,Guo J, Radev D. Divrank: the interplay of prestige and diversity in information networks[C]//Proceedings of the 16th ACM SIGKDD international conference on knowledge discovery and data mining. ACM, 2010: 1009-1018.

      [11] Wan X, Yang J. Improved affinity graph based multi-document summarization[C]//Proceedings of the Human Language Technology Conference of the NAACL, Companion Volume: Short Papers. Association for Computational Linguistics, 2006: 181-184.

      [12] Khelif K, Dieng-Kuntz R, Barbry P. An ontology-based approach to support text mining and information retrieval in the biological domain[J]. Universal Computer Science, Special Issue on Ontologies and their Applications, 2007, 13(12): 1881-1907.

      [13] Ramanathan K, Sankarasubramaniam Y, Mathur N, et al. Document summarization using Wikipedia[C]//Proceedings of the First International Conference on Intelligent Human Computer Interaction. Springer India, 2009: 254-260.

      [14] Nastase V. Topic-driven multi-document summarization with encyclopedic knowledge and spreading activation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2008: 763-772.

      [15] Milne D, Witten I H. An open-source toolkit for miningWikipedia[J]. Artificial Intelligence, 2013,194:222-239.

      [16] Zhao L, Wu L, Huang X. Using query expansion in graph-based approach for query-focused multi-documentsummarization[J]. Information Processing & Management, 2009, 45(1): 35-41.

      [17] Yan R, Kong L,Huang C, et al. Timeline generation through evolutionary trans-temporal summarization[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011: 433-443.

      [18] Lin C Y. Rouge: A package for automatic evaluation of summaries. Text Summarization Branches Out[C]//Proceedings of the ACL-04 Workshop. 2004: 74-81.

      Wikipedia Entity to Enhanced Graph-based Multi-document Summarization

      CHEN Weizheng, YAN Rui, YAN Hongfei, LI Xiaoming

      (School of Electronics Engineering and Computer Science, Peking University, Beijing 100871,China )

      This paper presents a novel method to enhance graph-based multi-document summarization by incorporating Wikipedia entities. The Wikipedia contents of high-frequency entities are extracted and arranged as the document collections’ background knowledge. Then the PageRank algorithm is used to sort these sentences in the document collections and an improved DivRank algorithm is applied to sort the sentences both in the document collections and the background knowledge. Finally the summary sentences are chosen based on a liner combination of these two ranking results. Results of experiments on the data of document understanding conference (DUC) 2005 show that the method proposed in this paper can effectively make use of the Wikipedia knowledge to improve the summary quality.

      multi-document summarization; Wikipedia entity; graph-based

      1003-0077(2016)02-0153-07

      2013-10-11 定稿日期: 2014-03-20

      國家自然科學(xué)基金(61272340, 61073082);教育部科技發(fā)展中心“網(wǎng)絡(luò)時(shí)代的科技論文快速共享專項(xiàng)”研究資助課題(FSSP 2012 Grant 2012115)

      TP391

      A

      猜你喜歡
      維基百科維基文檔
      維基百科影響司法
      英語世界(2023年10期)2023-11-17 09:18:46
      維基百科青年
      英語文摘(2021年8期)2021-11-02 07:17:46
      有人一聲不吭向你扔了個(gè)文檔
      愛的最后一課
      基于變長隱馬爾科夫模型的維基詞條編輯微過程挖掘
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      維基解密大爭論:爭論固有焦點(diǎn)和在互聯(lián)網(wǎng)時(shí)代呈現(xiàn)的爭論新特征
      新聞傳播(2015年4期)2015-07-18 11:11:29
      APP
      IBM的監(jiān)視
      意林(2014年2期)2014-02-11 11:09:17
      包头市| 会理县| 呼伦贝尔市| 哈巴河县| 昔阳县| 敖汉旗| 惠来县| 濮阳县| 延边| 三门县| 西畴县| 鲁甸县| 余姚市| 蓝田县| 金乡县| 望谟县| 体育| 天祝| 安阳县| 中宁县| 美姑县| 个旧市| 招远市| 屯留县| 泸水县| 崇仁县| 平果县| 宁远县| 洪泽县| 华容县| 阳信县| 内黄县| 冕宁县| 萨迦县| 临朐县| 夹江县| 安义县| 石泉县| 竹山县| 木兰县| 浏阳市|