• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于圖模型的多文檔摘要生成算法

      2020-08-19 10:42:04張云純徐濟銘袁衛(wèi)平
      計算機工程與應(yīng)用 2020年16期
      關(guān)鍵詞:文檔權(quán)重聚類

      張云純,張 琨,徐濟銘,袁衛(wèi)平,蔡 穎,高 雅

      1.南京理工大學 計算機科學與工程學院,南京 210094

      2.國家計算機網(wǎng)絡(luò)與信息安全管理中心江蘇分中心 互聯(lián)網(wǎng)信息處,南京 210019

      1 引言

      人工文本摘要的形成過程十分復(fù)雜,且十分費時費力。它需要由具有一定專業(yè)知識并經(jīng)過相關(guān)培訓的特定人員,在研習了相關(guān)資料文獻后,概括成可讀性強、質(zhì)量高的摘要。在這個信息超負荷的時代,對于文本摘要的處理,需要滿足時效性強、范圍廣、速度快等特征,這顯然是傳統(tǒng)的人工提取文本摘要所不能滿足的。

      自動文本摘要生成技術(shù)是利用計算機技術(shù)從文章中提取內(nèi)容生成摘要,并以語意連貫的段落乃至篇章的形式展現(xiàn),該技術(shù)能夠幫助人們快速獲取情報信息,輔助國家輿情監(jiān)測部門采取應(yīng)急響應(yīng)措施。它采用機器學習與自然語言處理技術(shù)進行內(nèi)容抽取、分類,并精簡概括全文。出于對信息過載問題的考慮,該技術(shù)在國內(nèi)外正日益受到密切關(guān)注。本文以國外新聞網(wǎng)站的大量新聞文檔為研究對象,利用自然語言處理、機器學習等技術(shù),對新聞文檔進行多文檔摘要的生成。

      2 相關(guān)研究

      自動文本摘要生成技術(shù)是自然語言處理領(lǐng)域中較難的技術(shù),亦是當下的研究熱點。國內(nèi)外學者在自動文本摘要領(lǐng)域做了大量的研究。統(tǒng)計學模型在自然語言處理領(lǐng)域應(yīng)用廣泛,統(tǒng)計技術(shù)也是自動文本摘要最早應(yīng)用的技術(shù)。統(tǒng)計技術(shù)相較于其他技術(shù)而言,數(shù)學模型簡單,實現(xiàn)方便,出現(xiàn)時間也最早。文獻[1]最早提出了自動文本摘要的概念,運用詞頻來衡量句子在一篇文檔中的重要性,即出現(xiàn)越多的單詞越能夠代表文章的主題思想。僅考慮詞頻不夠全面,在實際提取摘要時,統(tǒng)計特征往往會與句子本身的特征結(jié)合使用,來提高權(quán)重的精確度[2-3]。例如在新聞報道中,針對首段內(nèi)容往往凝煉了事件的主體信息,段落中的首句和末句能夠概括段落內(nèi)容等特性,設(shè)計特定的權(quán)重公式來提取摘要句更為恰當。Edmundson[4]設(shè)計了一個經(jīng)典的抽取式摘要系統(tǒng)。他不僅利用詞頻和段落位置等基本特性,還將提示詞、文檔框架特征納入考慮范圍,對語句的重要程度進行評判。

      圖模型算法在自動文本摘要生成領(lǐng)域亦有著廣泛應(yīng)用,最早的工作可見文獻[5]。文獻[6]提出了一種基于親和圖的自動文本摘要生成技術(shù),該方法考慮句子間的相似性,結(jié)合主題信息抽取出高信息性和高獨特性的句子,經(jīng)過冗余削減后生成摘要。文獻[7]利用N-Gram圖抽取文檔中的重要成分。文獻[8]使用WordNet 識別文檔中的概念來構(gòu)建文本圖?;趫D排序算法的自動文本摘要生成技術(shù)是圖模型在該領(lǐng)域應(yīng)用的一類特例,其因為良好的效果以及可擴展性成為本領(lǐng)域的研究熱點。在圖的構(gòu)建方面,除了應(yīng)用最廣泛的余弦相似度度量外,基于關(guān)聯(lián)規(guī)則挖掘[9]、信息論[10]等衡量文本單元相關(guān)性的方法也有所應(yīng)用,以及基于超圖[11]、聚類[12]、WordNet以及維基百科的方法[13-15]也有所應(yīng)用;在圖排序方面,現(xiàn)有的系統(tǒng)大多是對PageRank或HITS(Hyperlink-Induced Topic Search)算法基于所構(gòu)建的文本圖進行相應(yīng)的改進,例如TextRank和GraphSum算法將PageRank算法的權(quán)重傳播做了加權(quán)改進,Biased-LexRank[16]將馬爾科夫鏈轉(zhuǎn)移到自身的概率進行了加權(quán),文獻[15]從加權(quán)HITS算法中獲得啟發(fā);也有方法進一步擴展了現(xiàn)有的圖排序方法,例如文獻[14]用全局排序的結(jié)果對聚類簇做動態(tài)更新,然后利用更新過后的聚類簇對句子進行重新排序。

      多文檔自動文本摘要生成技術(shù)以不同主題的文本集合為研究對象,其目的是生成同一主題下多個文檔的摘要信息,通常在圖模型的基礎(chǔ)上展開研究。目前,研究人員在這一領(lǐng)域也展開了一系列的研究,并取得了階段性成果。文獻[17]提出了一種識別關(guān)鍵主題的方法,以在多個文檔中提取摘要。文獻[18]通過結(jié)合LDA(Latent Dirichlet Allocation)主題模型,提出了一種新的挖掘主題的方法。文獻[19]主要針對多文檔句子重要度排序的問題,設(shè)計了一種通用的解決方案。

      新聞文檔存在時效性強、主題明確的特征,傳統(tǒng)的基于統(tǒng)計學模型和圖模型的自動文本摘要生成方法很難充分考慮這兩個特征,因而生成的摘要存在冗余度高、新穎性不強等缺點?;诖耍疚膶ι鲜鰣D模型算法進行改進,實現(xiàn)對英文文本的多文檔摘要生成。算法采用兩步文本聚類的方法,在提升效率的同時,更好地發(fā)現(xiàn)文檔主題。此外,在摘要的抽取階段,采用了基于特征融合的算法,充分考慮了位置因素和時間因素對文檔、句子的影響,提高了文本摘要的新穎性、時效性和準確性。

      3 基于圖模型的自動文本摘要生成算法

      為提高摘要句抽取的準確度,本文首先對傳統(tǒng)的詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency,TF-IDF)算法進行改進,以對文本中的單詞進行向量表示。在此基礎(chǔ)上,建立圖模型,對多文檔進行基于文檔、句子兩階段的文本聚類算法。最后,基于多特征融合的方式,選取句子重要度高的句子作為摘要句,并按照一定的順序生成最終的摘要。算法流程圖詳見圖1。

      3.1 基于改進的TF-IDF的文本特征向量化算法

      文本特征向量化是文本預(yù)處理中最關(guān)鍵的一步,文本特征向量化的效果將直接影響生成的摘要的質(zhì)量。常見的文本特征向量化有三種,即one-hot、TF-IDF、word2vec。one-hot編碼是將標記轉(zhuǎn)換為向量的最常用、最基本的方法。one-hot 編碼在文本中的應(yīng)用是,將每個詞與一個唯一的整數(shù)索引關(guān)聯(lián),然后將這個整數(shù)索引i轉(zhuǎn)換成長度為N(N是詞典大?。┑亩M制向量,這個向量的特點是只有第i個元素是1,其余元素為0,但它得到的特征往往是離散稀疏的。word2vec不穩(wěn)定,且無法區(qū)分文本中詞匯的重要程度[20]。TF-IDF主要思想是:一個詞的重要度不僅取決于其出現(xiàn)的頻率,還取決于該詞所具有的代表性。TF-IDF 也存在缺點,因為其提取關(guān)鍵字的能力嚴重依賴語料庫,所以對語料庫范圍和質(zhì)量要求較高。逆文本頻率(Inverse Document Frequency,IDF)算法本身是一種抑制噪聲的加權(quán),對文本中頻次較小的詞存在著傾向性,這也影響了TF-IDF 算法的精度。該算法考慮對傳統(tǒng)的TF-IDF 算法進行改進,實現(xiàn)文本特征向量化。具體地,該算法將引入一個熱度系數(shù)Hot,充分考慮到隨著時間的變化,新聞的熱點話題會隨之轉(zhuǎn)移的問題,通過該算法得到的詞權(quán),更能突出實時熱點。文本向量空間模型的表示如式(1)所示:

      圖1 算法流程圖

      式(1)中,tk(k=1,2,…,n)為特征詞,wik為特征詞tk在文本di中的權(quán)重,其具體定義如式(2)所示:

      式(2)中,詞頻tfk為特征詞tk在文檔di中出現(xiàn)的頻率次數(shù),為逆文本詞頻,N為文本集中的文本總數(shù),nk為包含特征詞tk的文本數(shù)量,Hoti(x)表示文檔di的熱度系數(shù),x表示文檔di的報道時間距離當前時間相隔的天數(shù)。

      新聞熱度值的大小取決于兩方面的因素:媒體因素和用戶因素。對于某一新聞,在單位時間內(nèi)與之相關(guān)的報道數(shù)量越多,則表明該新聞受到的媒體關(guān)注越多;同樣地,若參與該新聞評論的人數(shù)越多,則表明該新聞受到的用戶關(guān)注越多。因此,根據(jù)媒體關(guān)注度和用戶關(guān)注度,設(shè)計式(3),計算新聞的熱度。

      其中,sR表示第x天的所有報道數(shù)量,sr表示第x天與新聞di相關(guān)的報道數(shù)量,pr為參與討論新聞di的人數(shù),υ和ν表示權(quán)重調(diào)節(jié)因子,υ=0.9,ν=0.1 。本文針對某一新聞,進行了熱度計算,其熱度系數(shù)Hoti(x)隨天數(shù)變化的示意圖如圖2所示。

      圖2 熱度系數(shù)變化圖

      由圖可知,新聞的熱度將逐漸消退,其變化趨勢與指數(shù)函數(shù)的遞減趨勢類似,前期波動比較大,下降快,后期變化趨于平緩,并大約在30天內(nèi)降為0。這個權(quán)重被稱為基于熱度的詞頻-逆向文件頻率(Heat factor based Term Frequency-Inverse Document Frequency,TF-IDFH)權(quán)重。本算法將選取TF-IDFH 值最大的前γ個詞作為特征詞。文檔集合總體的向量空間模型如表1所示。

      表1 向量空間模型

      3.2 基于文檔、句子兩階段的文本聚類算法

      通過文本聚類,能夠使同一簇內(nèi)的節(jié)點與節(jié)點之間的連接緊密,而簇與簇之間的連接比較稀疏,從而找到相似度較高的集合,降低最后提取的文本摘要的冗余性。文本聚類應(yīng)充分體現(xiàn)高內(nèi)聚、低耦合的特性。通過文本聚類算法,可以將同一主題的句子歸為一個簇。然而,由于多文檔中句子數(shù)量龐大,若直接構(gòu)建句子級的圖模型,勢必會導致運行效率下降。因此,本文采用文檔、句子兩階段的文本聚類算法:首先,構(gòu)建文檔級的圖模型,并進行文本聚類;其次,對得到的簇中文檔的句子,仿照文檔級圖模型的構(gòu)建方法,構(gòu)建出句子級的圖模型,再次進行文本聚類。如圖3所示,C1、C2、C3為文檔級文本聚類算法得到的簇,對C3中文檔的句子構(gòu)建句子級圖模型,并進行文本聚類,得到S1和S2兩個簇。

      3.2.1 文檔級圖模型的構(gòu)建方法

      對于已有的文本集D={d1,d2,…,dm} ,根據(jù)文檔的相似度閾值T1構(gòu)造文檔級的圖模型。在文本向量空間模型的基礎(chǔ)上,利用余弦相似度來表示兩文檔之間的相似度,文檔之間的相似度如式(4)所示:

      圖3 兩階段文本聚類示意圖

      式(4)中,wik為特征詞tk在文本di中的權(quán)重,wjk為特征詞tk在文本dj中的權(quán)重,為兩個向量的長度。如果兩節(jié)點之間的相似度大于文檔的相似度閾值T1,則認為這兩個文檔相似度較高,并將這兩個節(jié)點連接。兩點之間邊的權(quán)重即用相似度Sim(di,dj)來表示,依此構(gòu)建一個文檔級的無向加權(quán)圖。

      3.2.2 句子級圖模型的構(gòu)建方法

      在構(gòu)建了文檔級圖模型后,將通過文檔級文本聚類算法,得到相似度比較高的文檔簇,即子主題的發(fā)現(xiàn)過程。為了對某一主題進行更為細節(jié)性的劃分,考慮仿照3.2.1小節(jié)文檔級圖模型的構(gòu)建方法,構(gòu)建句子級的圖模型。與文檔級不同的是,句子通常比較簡短,因此考慮多個因素來計算句子間的相似度,能夠在不降低算法執(zhí)行效率的基礎(chǔ)上,提升最終抽取的摘要句的準確度。本文考慮將句子長度以及Jaccard相似度結(jié)合的方式來確定句子之間相似度,進而構(gòu)建句子級圖模型。

      (1)句長相似度的計算

      句子的長度往往能夠反映句子之間的相似度,句長的差值與句子相似度成反比,長度相差越小,句子相似的可能性越高。假設(shè)len(si)表示句子si的長度,len(sj)表示句子sj的長度,則si和sj的句長相似度如式(5)所示:

      (2)Jaccard相似度的計算

      句子的相似度往往和句子中相同的詞匯個數(shù)成正比,Jaccard 相似度就是衡量重疊性的一個標準。假設(shè)表示句子si和sj中重疊的詞匯個數(shù),則si和sj的Jaccard相似度如式(6)所示:

      得到的句子相似度如式(7)所示:

      式(6)中,cr為權(quán)重系數(shù),,若兩節(jié)點之間的相似度大于句子的相似度閾值T2,則認為這兩個句子較為相似,并將這兩個節(jié)點連接。兩點之間邊的權(quán)重即用相似度sim(si,sj)來表示,依此構(gòu)建一個句子級的無向加權(quán)圖。

      3.2.3 文本聚類算法

      在聚類方法中,基于距離的K-Means 聚類方法時間開銷很大,對于簇的個數(shù)需要經(jīng)過多次實驗并根據(jù)輪廓系數(shù)來確定,受人工影響較大,且K-Means對于異常點也比較敏感。此外,在數(shù)據(jù)集方面,K-Means方法多適用于凸數(shù)據(jù)集,而文本數(shù)據(jù)一般不具有凸數(shù)據(jù)集的特性。因此,將該方法運用于文本聚類時效果不佳。相比之下,密度聚類不需要規(guī)定簇的個數(shù),對異常點亦不敏感,適用于解決文本這類稠密數(shù)據(jù)集的聚類問題。本文采取基于密度的文本聚類算法,通過該方法可以更好體現(xiàn)數(shù)據(jù)分布,得到非圓形的聚類結(jié)果。通過該方法得到的簇的中心密度很大,圍繞著這個中心的點較多,簇與簇之間的距離較大?;静襟E如下:

      步驟1 根據(jù)相似度值的倒數(shù),確定文檔或句子之間的距離,構(gòu)建文檔級距離矩陣M和句子級距離矩陣N。其中,文檔之間的距離用1/Sim(di,dj)表示;句子之間的距離用1/sim(si,sj)表示。矩陣中第i行、第j列表示di與dj(或si與sj)之間的距離disij。

      步驟2 根據(jù)距離矩陣,計算每個點的密度。點i的密度,參數(shù)disc為邊界閾值,disc的值越小,則會在盡可能小的范圍內(nèi)得到簇。

      步驟3 根據(jù)距離矩陣,計算點i到比其密度更高的其他所有點的最小距離。

      步驟4 選取ρ和δ都較大的點作為簇的中心點。此處,算法通過乘積因子ψ,綜合衡量兩個因素對簇中心的影響。對點i的乘積因子ψi的定義如式(8)所示。

      其中,normρi和normδi都是歸一化后的值。此處歸一化的方法采用離差歸一化,將值映射在[0,1]的區(qū)間范圍內(nèi)。具體地,以normρi為例:

      normδi的計算方法與此類似,不再贅述。ψ越大,表示簇的中心密度越大,且不同簇的中心相互之間的距離越遠。將ψ值從大到小進行排序,選取ψ值較大的點作為簇中心點。由于從非簇中心點過渡到簇中心點,ψ值會大幅度地提升,此處將根據(jù)冪次法則,確定簇的個數(shù)。

      步驟5 對于其余非簇中心的數(shù)據(jù)點,將其分配給離它最近且密度比它高的鄰點所在的簇。

      3.3 基于特征融合的文本摘要單元提取

      基于特征融合的文本摘要單元提取方法基本思想如下:選取句子的若干特征,對其進行加權(quán)求和,得到句子重要度。其關(guān)鍵點在于句子特征的選擇上,本文所采用的算法中,抽取的特征信息主要包括段落及句子的位置信息、句子與標題之間的相似度等。特別地,考慮到報道型文檔時效性強的特征,新聞報道的時間也將作為一個重要因素,融入到權(quán)重的計算中,并賦予較大的權(quán)重。最終句子的得分,將是多種權(quán)重的線性加權(quán)和。

      (1)基于位置信息的句子權(quán)重計算

      句子的重要度受到句子在段落中的位置因素的影響。例如,主旨性的語句放在第一段,且段落首句往往是中心句。根據(jù)人工摘要總結(jié)出的規(guī)律可知,段首句作為摘要句的概率高達85%。此外,新聞領(lǐng)域的文檔多具有段落首尾句重要度更高的特征。因此,結(jié)合新聞領(lǐng)域及余弦函數(shù)的特征,設(shè)計了基于位置的句子權(quán)重的計算方法。其核心思想是突出段落首尾句的重要度。

      定義countPi為第i篇文檔的段落總數(shù),則第i篇文檔中第m個段落的重要度PEim如式(9)所示:

      式中,α和β均為常量,在本文中,α=1,β=2 ,這兩個參數(shù)的意義在于能夠確保PEim的歸一化。

      (2)基于標題相似度的句子權(quán)重計算

      新聞報道中的標題句往往能夠反映文章的主旨,與標題的相似程度也能夠反映句子的重要度。本算法采用余弦相似度,計算句子與標題的相似度?;跇祟}相似度的句子權(quán)重e2如式(10):

      其中,sn為句子向量,ti表示第i篇文章的標題向量。

      (3)基于報道時間的句子權(quán)重計算

      新聞報道最大的特征是時效性強。例如,最新發(fā)布的文章,其重要度一定遠遠大于10 年前發(fā)布的文章。此外,新聞文檔還滿足越接近當下發(fā)表的文章,其重要度波動越大的規(guī)律。10年前的文章和11年前的文章相比,其價值近乎一樣。因此,根據(jù)指數(shù)函數(shù)的特點,設(shè)計了符合新聞時效性特征的句子權(quán)重計算方法。

      假設(shè)currentTime表示當前時間,oldestTime表示某主題內(nèi)最早的一篇報道的發(fā)表時間。TimeLenth表示時間區(qū)間,即TimeLenth=currentTime-oldestTime。定義Timei為第i篇文章的發(fā)表時間。則基于報道時間的句子權(quán)重e3如式(11):

      對上述三種句子權(quán)重的結(jié)果進行加權(quán)求和,得到句子的融合權(quán)重W,即句子重要度,如式(12)所示:

      其中,quo表示權(quán)重系數(shù),。

      4 實驗過程

      4.1 數(shù)據(jù)收集

      本文算法的數(shù)據(jù)集主要由紐約時報、??怂剐侣劇⑷A爾街日報、美國之音等國外著名新聞網(wǎng)站的報道組成,內(nèi)容涉及網(wǎng)絡(luò)、科技、軍事、政治、經(jīng)濟、安全等領(lǐng)域。實驗采用Python及Java語言,利用主題爬蟲對新聞網(wǎng)站進行數(shù)據(jù)的采集,通過對網(wǎng)頁源碼進行正則匹配,得到所需格式的數(shù)據(jù),共計抓取656 篇報道,去除篇幅過長和過短的報道,得到400篇符合要求的文檔。

      4.2 數(shù)據(jù)預(yù)處理

      (1)去除噪聲。該步驟去除對文本分析貢獻度不大的特殊符號、表格等。

      (2)詞干化。此處采用經(jīng)典的波特詞干算法對單詞進行詞干化,該方法速度快,準確度高,目的是刪除單詞的后綴,保留詞根。

      (3)文檔分割。首先,利用正則表達式匹配標點符號,將文檔分割為句子集合。然后,通過去除停用詞和標點符號,將句子表示為詞項集合。

      4.3 過濾句子

      過長或過短的句子不適宜作為摘要的候選句,本實驗考慮將長度系數(shù)CL >0.8 以及CL <0.2 的句子去掉。句子長度系數(shù)的定義如式(13)所示:

      其中,L為句子的長度,LM為最長句子的長度。

      4.4 文本向量化

      通過改進的TF-IDF算法,對單詞進行詞權(quán)的計算,選取詞權(quán)最高的50 個單詞作為特征詞,將文檔轉(zhuǎn)化為50維的向量,用于文檔聚類前的相似度計算。

      4.5 文本聚類

      利用上文提到的基于文檔、句子兩階段的文本聚類算法對多文檔進行二次聚類,先得到文檔中主要的分類方向,繼而得到每個類別下的子主題。

      4.6 摘要句抽取

      利用基于特征融合的方法對摘要進行提取。傳統(tǒng)方法沒有考慮文檔的時效性和新穎性,此處利用余弦函數(shù)及指數(shù)函數(shù)的特性,為句子位置與報道時間這兩個衡量句子重要度的關(guān)鍵因素設(shè)計了特殊的權(quán)重衡量公式。

      4.7 摘要輸出

      將每個子主題中得分高的K個句子按原文順序及報道發(fā)表時間順序輸出,保證生成的摘要的連貫性。K的計算公式如式(14)所示:

      其中,size(topic)表示topic主題下的句子個數(shù),根據(jù)經(jīng)驗,此處的perc取為20%。

      5 結(jié)果分析

      實驗中的主要參數(shù)如表2所示。

      表2 實驗中的主要參數(shù)

      實驗對一階段文本聚類和兩階段文本聚類進行了性能的對比,具體運行時間如圖4所示。由圖4可知,一階段聚類和兩階段聚類的消耗時間均隨著文檔數(shù)量的增加呈現(xiàn)上升的趨勢,其中一階段聚類所消耗的時間增加得更快。隨著數(shù)據(jù)規(guī)模的增大,一階段聚類的時間消耗將會大幅度提升,兩階段文本聚類的優(yōu)勢將逐步顯現(xiàn)。產(chǎn)生這樣的實驗結(jié)果,是因為兩階段文本聚類中的第一階段,已經(jīng)對文本進行了初步的分類,為第二階段的句子級聚類縮小了聚類的范圍,從而減少了不必要的時間開銷。從復(fù)雜度的角度來分析,本文基于密度的聚類方法本身的時間復(fù)雜度為O(n2),若對所有文檔中的n個句子直接進行聚類,則時間復(fù)雜度為O(n2)。本文采用的是兩階段的聚類方法,假設(shè)一階段的聚類將文檔分為m個主題,則兩階段聚類的平均時間復(fù)雜度為,由于m的數(shù)量小于n,因此要小于n2,在主題個數(shù)合理的情況下,兩階段聚類的方法可較大幅度節(jié)省時間開銷。相較于一階段聚類進行主題劃分的算法,本文所采用的兩階段文本聚類進行主題劃分的算法運行效率更高。

      圖4 一階段聚類與兩階段聚類運行效率對比圖

      圖5 展示了在進行文檔級聚類時,ψ值的變化趨勢。由圖可知,由簇中心點到非簇中心點過渡時,ψ值存在較大的變化,本實驗選取ψ≥0.2 的16 個節(jié)點作為簇中心點,共選取了16個主題。

      圖5 ψ 值變化圖

      在本實驗中,對自動摘要效果的評價主要是通過與人工撰寫的摘要進行對比。實驗采用的數(shù)據(jù)均經(jīng)過國家應(yīng)急響應(yīng)中心專業(yè)人員的交叉審核,標準摘要亦由相關(guān)專業(yè)人士標注,準確性和可靠性高。國際上通用的評價指標為查準率P(Precision)、F1 分數(shù)(F1 Score)、查全率R(Recall)。查準率P是指正確摘要的句子占全部摘要句子的百分比,主要衡量摘要表現(xiàn)原文主題信息的準確度。查全率R是指被正確分類的文檔樣本數(shù)量占總文檔樣本數(shù)量的百分比。由于查準率和查準率是兩個不同的指標,它們的關(guān)系是二律背反的。F1 分數(shù)是二者的調(diào)和平均值,一般來說,F(xiàn)1 分數(shù)越高,說明聚類效果越佳。計算公式詳見式(15)~(17):

      本實驗通過對比三種算法,分別為本文所提的算法、TextRank算法以及TextTeaser,計算各算法在每種主題下的準確率P、召回率R及F1 值。由于句子級聚類得到的子主題較多,此處的主題是指文檔級聚類得到的16個分類,其中的值為各分類中子主題的平均值,算法對比結(jié)果詳見表3。

      表3 算法對比結(jié)果

      通過求取平均值對三種算法的三個指標進行對比,算法效率如圖6所示。

      實驗結(jié)果表明,本文算法的平均查準率能達到83%,分別比TextRank 算法和TextTeaser 算法高出24%和18%。與此同時,本文算法的平均查全率為63%,比TextRank 算法高出19%,比TextTeaser 算法高出11%。此外,本文算法的F1 分數(shù)也較高,平均F1 分數(shù)為71%。綜上,本文算法在自動文本摘要生成方面的效果比傳統(tǒng)算法更加優(yōu)化。因為利用改進的TF-IDF文本特征向量化方法,能夠更加突出新聞熱點;基于密度的聚類算法能夠提高運行效率,本文所提密度聚類算法可以自動確定簇中心個數(shù),兩階段的文本聚類,亦使得摘要富有層次性;此外,考慮到新聞時效性強,報道時間及句子位置對句子重要度起關(guān)鍵作用,本文算法利用余弦函數(shù)及指數(shù)函數(shù)的特性,對句子重要度進行運算,使得得到的摘要句更符合新聞文本的特點。

      圖6 算法效率

      6 結(jié)束語

      自動文本摘要技術(shù)應(yīng)需而生,主要運用于新聞領(lǐng)域,旨在幫助群眾快速獲取信息,幫助情報部門快速了解國內(nèi)外動態(tài)。本文算法基于新聞領(lǐng)域時效性強、主題明確的特征,對先前學者的研究進行改進,算法多次將時間因素納入考慮的范圍。實驗表明,本文算法可提升摘要的時效性。此外,兩階段的聚類也在提升效率的同時,使最終生成的摘要更具層次性。然而,本文算法還存在許多局限性,有待深入研究,例如生成摘要時,如何使摘要更加通順、連貫。本文研究的兩階段聚類雖然能夠提升效率,但在多個子主題中抽取摘要容易產(chǎn)生句子不連貫的問題。因此,如何利用語義分析增強摘要的連貫性是未來的研究方向。

      猜你喜歡
      文檔權(quán)重聚類
      有人一聲不吭向你扔了個文檔
      權(quán)重常思“浮名輕”
      當代陜西(2020年17期)2020-10-28 08:18:18
      為黨督政勤履職 代民行權(quán)重擔當
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      基于公約式權(quán)重的截短線性分組碼盲識別方法
      電信科學(2017年6期)2017-07-01 15:44:57
      基于RI碼計算的Word復(fù)制文檔鑒別
      基于改進的遺傳算法的模糊聚類算法
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
      層次分析法權(quán)重的計算:基于Lingo的數(shù)學模型
      河南科技(2014年15期)2014-02-27 14:12:51
      崇左市| 福州市| 武城县| 崇义县| 青铜峡市| 陕西省| 东乡族自治县| 玉溪市| 新和县| 霍林郭勒市| 垦利县| 灵璧县| 吉首市| 内江市| 清镇市| 广元市| 百色市| 南澳县| 岗巴县| 施甸县| 苍梧县| 醴陵市| 荥阳市| 浮梁县| 铁力市| 太仆寺旗| 晋城| 东乌| 谷城县| 岱山县| 探索| 丰顺县| 桐城市| 原平市| 彝良县| 沈丘县| 昌江| 安阳县| 河北省| 鹤壁市| 西峡县|