• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于隱含語義分析的在線新聞話題發(fā)現(xiàn)方法

      2016-03-01 08:59:20武高敏張宇晨韓京宇
      計算機技術與發(fā)展 2016年9期
      關鍵詞:文檔語義聚類

      武高敏,張宇晨,韓京宇,2

      (1.南京郵電大學計算機學院,江蘇南京 210003;2.東南大學計算機網(wǎng)絡和信息集成教育部重點實驗室,江蘇南京 211189)

      基于隱含語義分析的在線新聞話題發(fā)現(xiàn)方法

      武高敏1,張宇晨1,韓京宇1,2

      (1.南京郵電大學計算機學院,江蘇南京 210003;2.東南大學計算機網(wǎng)絡和信息集成教育部重點實驗室,江蘇南京 211189)

      互聯(lián)網(wǎng)的飛速發(fā)展和海量數(shù)據(jù)的不斷增長,使得如何快速、有效地識別當前新聞熱點信息成為迫切需求。在線新聞話題發(fā)現(xiàn)已成為當前研究熱點。對于在線環(huán)境下的新聞文本特征表示,傳統(tǒng)向量空間模型隨著數(shù)據(jù)的增長向量維度不斷增長,使得數(shù)據(jù)稀疏和同名異議問題愈加明顯,導致文本相似度難以準確度量。使用基于特征加權的隱含語義分析將高維、稀疏的詞-文檔矩陣映射到隱藏的k維語義空間,充分挖掘詞、文檔之間的語義信息,以提高同主題文檔間的語義相似度,克服在線環(huán)境下文本稀疏性和同名異議問題。此外,對于不斷增長的大規(guī)模新聞數(shù)據(jù),傳統(tǒng)聚類算法存在時間復雜度過高或者輸入依賴等問題,難以快速、有效地得到理想結果。基于新聞報道在時間上的順序性和相關性,提出改進的Single-pass在線增量聚類算法檢測話題類,并引入話題熱度值的概念來篩選當前關注度較高的熱點話題。實驗結果表明,該方法能夠有效提高話題檢測的準確率,實現(xiàn)基于真實新聞數(shù)據(jù)集的在線話題捕捉。

      話題發(fā)現(xiàn);向量空間模型;隱含語義分析;文本聚類;奇異值分解

      1 概述

      隨著互聯(lián)網(wǎng)技術的飛速發(fā)展,網(wǎng)絡信息呈現(xiàn)爆炸式增長態(tài)勢。據(jù)《第35次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》,截至2014年12月,國內網(wǎng)頁數(shù)量已達1 899億,年增長26.6%。其中,靜態(tài)網(wǎng)頁數(shù)量為1 127億,占網(wǎng)頁總量的59.36%;動態(tài)網(wǎng)頁數(shù)量為772億,占網(wǎng)頁總量的40.64%。如何避免一些重要信息被海量數(shù)據(jù)淹沒而從中快速、有效地獲取當前網(wǎng)絡中的熱點,正成為新聞媒體、行政部門、企業(yè)單位等所關注的焦點。

      在線話題檢測[1](Online Topic Detection,OTD)是話題檢測與追蹤[2](Topic Detection and Tracking,TDT)的一個重要研究課題,關注于對在線環(huán)境下實時到達的新聞報道流在沒有任何先驗知識的情況下,從中識別出新的話題,或是識別已有話題的后續(xù)報道。目前,有關OTD的研究對于文本特征的表示多采用傳統(tǒng)基于詞的向量空間模型(VSM),以獨立的詞作為處理對象,假設詞特征的統(tǒng)計獨立性,根據(jù)每個特征詞在文檔集合中的分布狀況賦予該詞相應的權重,建立原始文檔集合的詞-文檔矩陣。然而,在線環(huán)境下這種簡單基于詞的VSM文本特征表示法會隨著數(shù)據(jù)的不斷增長使得向量的維度越來越高,帶來較大的時間和空間開銷,同時使得數(shù)據(jù)稀疏性和同名異議問題越來越明顯。OTD研究的另一方面關注于不同場景下聚類算法的選擇。傳統(tǒng)基于劃分的聚類算法和基于層次的聚類算法在離線話題檢測研究中效果較為突出,但面對在線環(huán)境這兩者或存在輸入依賴問題,或難以很好地滿足時間上的實時性需求,影響了在線話題發(fā)現(xiàn)的精度和效率。

      考慮到新聞報道的特點,文中提出一種加權文本特征抽取方法構建VSM模型,并以此為基礎利用隱含語義分析對原始詞-文檔矩陣進行主題建模,充分挖掘詞、文檔之間的語義信息,有效解決在線環(huán)境下傳統(tǒng)VSM文本特征表示法因向量維度的不斷增長導致的數(shù)據(jù)稀疏及同義詞問題。此外,結合在線新聞數(shù)據(jù)流的時間性特點,同一話題相關的新聞報道往往聚集在一定的時間段內,話題存在著一定的生存周期。文中在信息采集過程中只選取當天時間范圍內的新聞報道,并基于報道的時間屬性進行排序,利用改進的Single-pass算法實現(xiàn)話題檢測,克服經(jīng)典Single-pass算法的順序依賴性問題,并實現(xiàn)話題簇的周期更新機制。大多數(shù)的 TDT研究均采用由 TREC會議提供的TDT[3]語料,對于OTD研究而言,該語料無法真實、有效地反應在線環(huán)境下的新聞輿情狀況。因此,文中基于實時抓取得到的真實新聞報道開展在線話題檢測的研究,更具有現(xiàn)實意義。

      2 相關工作

      目前,國內外有關話題檢測的研究工作主要集中在兩方面:一是文本特征的表示,涉及特征的選擇和權重的衡量;二是聚類算法的選擇,主要考慮時空效率和結果的有效性。

      對于文本特征的表示,大多數(shù)研究[4-7]以詞為特征,利用TF-IDF模型衡量詞的權重進行特征選擇,從而將每個文本表示成一個基于詞的特征向量,形成VSM模型[8]。再利用聚類技術,基于文檔的VSM模型,將描述同一新聞事件的網(wǎng)頁聚合到同一個類中表示話題。然而,這種以詞為特征的向量表示方法對于在線環(huán)境下的大量新聞網(wǎng)頁數(shù)據(jù)存在以下缺點:

      (1)隨著新數(shù)據(jù)的不斷到來,向量維度將不斷增長,至少上萬維,而每個新聞網(wǎng)頁的詞數(shù)在1 500左右,使得數(shù)據(jù)稀疏性較大;

      (2)基于獨立詞特征的VSM模型忽視了中文詞在不同語境下的同名異議問題,拋開了文本潛在的語義信息,影響文本相似度計算的效果。

      為挖掘文本潛藏的語義信息,克服傳統(tǒng)VSM因高維度帶來的數(shù)據(jù)稀疏問題,Deerwester[9]等提出隱含語義分析(Latent Semantic Analysis,LSA)模型對文本進行主題建模,將文本映射到k維語義空間。k維語義空間相對于傳統(tǒng)VSM不僅向量維度大大減少,避免了數(shù)據(jù)稀疏性問題,而且更好地揭示了詞、文檔之間的語義信息。因此,LSA在信息檢索及自然語言處理領域應用廣泛。Reisinger等[10]利用LSA獲取詞在文檔集合中的語義信息,并基于此度量詞之間的相似度進行詞聚類。Yih等[11-12]基于詞典對同義詞、反義詞加上正負極性,然后利用LSA消除同義詞、反義詞被映射到近似的詞向量空間的問題。Valle-Lisboa等[13]利用LSA對文檔進行語義分析,挖掘文檔潛藏的語義結構,然后基于文檔的語義信息對相似文檔進行聚類。

      在聚類算法的選擇上,Gao等[14]利用報道內容的時間和地點信息度量文檔之間的相似度,基于組平均距離的凝聚層次聚類算法對有關自然災害的大規(guī)模新聞報道進行話題檢測,在離線環(huán)境中雖然效果較好,但層次一旦確定就不能更改。對于在線話題發(fā)現(xiàn),當新的文檔到來時該算法必須重新計算當前整個文檔集,無法滿足實時話題檢測的時間需求。李勝東等[15-16]利用基于劃分的K-means聚類算法實現(xiàn)話題檢測,在離線文檔集合的應用中效率較高,但對于在線網(wǎng)絡話題捕捉,難以事先確定待劃分類簇數(shù)目k,初始聚類中心選擇的隨機性使得算法不能保證聚類結果是最優(yōu)解,而且K-means算法本身對噪聲和離群點數(shù)據(jù)較為敏感。因此,利用K-means算法實現(xiàn)在線新聞流數(shù)據(jù)的話題檢測存在著一定的局限性。馬雯雯等[17]利用LSA對微博數(shù)據(jù)集進行主題建模,將文本映射到k維語義空間,然后采用層次聚類和K-均值聚類相結合的聚類方法實現(xiàn)話題發(fā)現(xiàn)。該聚類算法的組合雖能夠緩解K-means初始聚類中心的隨機性和先驗性導致聚類結果波動的問題,但對層次聚類算法的選擇依賴性較強,聚類結果的不確定性較為明顯。周剛等[18]基于組合相似度計算策略,利用增量型聚類算法Single-pass進行微博數(shù)據(jù)的話題檢測。作為典型的增量聚類算法,Single-pass以其原理簡單、計算速度快的優(yōu)點常用于在線話題的發(fā)現(xiàn),然而該算法易受輸入順序影響,對相同的輸入文檔集,聚類結果會因為輸入順序的不同而不同。稅儀冬等[19]為解決Single-pass的順序敏感性問題,在聚類階段引入“代”的概念,對文檔不再是一次一篇的輸入,而是按批次添加,并且在每一批文檔到來時先進行初步聚類,然后再將初步聚類結果與已有話題類簇進行Single-pass聚類,一定程度上緩解了Single-pass本身的缺點,但初步聚類算法的選擇對于整個聚類結果的影響較大,很容易因為初步聚類的結果影響到最終的聚類效果。

      3 基于隱含語義分析的在線新聞話題發(fā)現(xiàn)

      為克服傳統(tǒng)VSM文本特征表示法存在的不足,文中首先利用隱含語義分析對文本進行主題建模,然后基于新聞報道的時間屬性利用改進的Single-pass算法實現(xiàn)實時新聞話題捕捉,避免傳統(tǒng)Single-pass算法的順序依賴問題。最后,基于新聞話題的群眾參與度、來源渠道的多樣性及相關報道數(shù)綜合評判話題簇的熱度值,篩選出當前關注度較高的多個話題。方法的整體流程如圖1所示。

      3.1 數(shù)據(jù)采集與預處理

      (1)數(shù)據(jù)采集。

      文中基于開源的Scrapy爬蟲框架,對網(wǎng)易、騰訊、新浪三個新聞門戶網(wǎng)站下國內、國際、社會、娛樂四大主題模塊實現(xiàn)基于特定域名規(guī)則和URL正則過濾的在線輿情采集。其中國內、國際、社會三大模塊基于同樣的域名,具體域名規(guī)則見表1,各網(wǎng)站新聞鏈接的URL正則表達式見表2。

      (2)數(shù)據(jù)預處理。

      結合各個門戶網(wǎng)站新聞網(wǎng)頁結構,利用正則表達式匹配提取新聞元數(shù)據(jù),包括:發(fā)表時間、標題、正文、新聞鏈接、來源網(wǎng)站、新聞評論鏈接、新聞評論數(shù)、新聞ID、主題類型。基于抽取得到的新聞元數(shù)據(jù),對新聞正文內容進行降噪處理,去除諸如“***報道”、“編輯”、“***電”等一些主題無關信息,以及微博、微信的推廣信息。

      利用中科院分詞系統(tǒng)NLPIR[20]對新聞網(wǎng)頁正文內容進行分詞,基于停用詞表去掉其中的停用詞并提取實詞。停用詞表從哈工大停用詞表和百度停用詞表中整理而得,共包括2 316個停用詞,實體詞根據(jù)分詞詞性僅提取名詞和動詞。

      3.2 文本特征化表示

      (1)VSM建模。

      TF-IDF模型是特征權重衡量的常用方法,考慮到一個關鍵詞代表文檔的能力不僅受詞頻、文檔頻率的影響,還有可能受位置信息等多種因素的影響。對于新聞報道,標題往往是對核心內容的簡要概括。因此,標題中關鍵詞的重要程度不容忽視。文中將基于關鍵詞的位置信息實現(xiàn)特征加權的TF-IDF值計算。

      定義1:假設D為新聞文檔集合,D中包含的特征詞數(shù)為m,文檔數(shù)為n,m×n的矩陣A記為文檔集D的詞-文檔矩陣,A中每一行代表一個詞特征,每一列代表一個文檔特征。

      定義2:根據(jù)定義1,假設weight_{i,j}為矩陣A 中Aij的值,表示詞i在文檔j中出現(xiàn)的統(tǒng)計度量:

      其中,tf_{i,j}表示第i個詞在文檔j中出現(xiàn)的頻次;ND表示文檔集合D中的文檔數(shù);df_{i}表示特征詞i的文檔頻度,即包含特征詞i的文檔數(shù)。

      基于定義2得到的是特征詞的初始特征權重,此時并未考慮關鍵詞是否曾在新聞標題中出現(xiàn),因此需要基于關鍵詞的位置信息對其權重進行修正。

      定義3:考慮特征詞是否在標題中,若在則對初始TF-IDF值乘上加權因子ε(ε>1)提高其權重,否則不予修正。特征加權后的TF-IDF值計算方法為:

      實驗過程中,文中設定ε的值為3,用以擴大標題中關鍵詞的權重。

      (2)隱含語義分析。

      LSA模型假設在隨機的詞組下,隱藏著語義結構,利用奇異值分解[21](Singular Value Decomposition,SVD)可將原始高維向量空間模型投影到低維正交矩陣,從而獲取隱藏的概念空間。與傳統(tǒng)VSM假設詞特征統(tǒng)計獨立不同的是,該模型假設文本中詞語之間具有緊密聯(lián)系,利用統(tǒng)計學上相關的詞的統(tǒng)一性獲取隱藏的概念空間,連接詞義相近的詞和文檔,來緩解傳統(tǒng)VSM中同義詞、多義詞的問題,提高查詢與文檔間的語義相似度。

      LSA的一般過程可描述如下:

      定義4:假設B表示一個m×n的矩陣,則SVD的過程即將B分解為:

      其中,r為B的秩,r≤min(m,n);Σ=diag(σ1,σ2,…,σr),σi>0,σ1,σ2,…,σr按降序排列,稱為奇異化因子。

      假設k表示Σr×r前k個最大的奇異化因子,則:Bk~B,Bk為B的近似矩陣。

      根據(jù)定義 4,SVD分解過程的時間復雜度為O(min{mn2,nm2}),當數(shù)據(jù)量增大到一定程度,SVD的時間消耗對于在線環(huán)境的話題檢測,顯然無法滿足實時性需求。因此,文中將采用Brand[22]等提出的增量式SVD算法。該算法在新的文檔到來時,不再對新的數(shù)據(jù)集進行分解降維,而是將原始SVD的分解過程表示為,然后利用來分別更新左右子空間U、V以獲取新的矩陣表示。該算法能夠將傳統(tǒng)SVD的時間復雜度降低到O(mnr),其中r≤min(m,n)1/2。

      對于k的選擇,Deerwester最初建議取50~350之間。實際的應用中也發(fā)現(xiàn),若k值取得太小,會導致多個不相關文檔被誤認為屬于同一個主題,增加主題內部噪聲;若k值取得太大,一方面對于一個文檔數(shù)較多的主題可能會被劃分為多個子主題,另一方面對于計算的開銷會變大。文中經(jīng)多次實驗后選取k值為200。

      3.3 Single-pass增量聚類

      Single-pass算法對文檔輸入順序較為敏感,但考慮到在線新聞流數(shù)據(jù)的時間特性:對同一話題來自多方面的相關報道往往呈現(xiàn)出時間上的關聯(lián)性和承接性。因此,若基于時間順序對報道進行排序再聚類,單遍掃描的情況下即避免了順序依賴問題。因此在進行聚類之前,將對新采集的文檔數(shù)據(jù)按時間進行排序并只截取當天時間范圍內的新聞報道作為研究對象,以較早的時間值為小,較新的時間值為大,升序排列。

      考慮到新聞話題的不斷更新,每天都會有新的話題產(chǎn)生,隨著時間的流逝一些舊的話題也漸漸被淡忘。若是對所有的話題簇都在內存中永久保留,不僅有可能干擾聚類結果的精度,也會付出更多不必要的計算開銷和存儲開銷。因此,需要對話題類簇進行有效的舍取。一般而言,新聞話題的熱度持續(xù)時間在7天左右,若7天內某個話題的相關報道數(shù)很低,基本上可認為該話題已無法再得到廣泛關注,可以忽視。文中以天為單位每天進行一次話題聚類,為避免低關注度話題的一直存在所帶來的時間和空間的開銷,對每個話題簇維護一個周期計數(shù)T(初始值為7)和周期內文檔計數(shù)P(初始值為0),每經(jīng)過一次聚類即將T值減1,話題簇內每新到來一篇文檔即將P值加1。當某個話題簇的T值小于1時,考察該話題內新加入的相關文檔總數(shù)P是否低于既定閾值thot,若是則將該話題簇備份到本地數(shù)據(jù)庫并從當前類簇集合中去掉,否則將T值重新設置為7,P值設置為0。

      假設某個話題類簇的結構化形式為Topic=<類簇質心c,周期計數(shù)值T,周期內文檔計數(shù)值P>,則改進的Single-pass算法具體過程如下:

      輸入:新的一批文檔D={d1,d2,…,dn},類簇列表clusters,聚類閾值tc,類簇淘汰閾值thot;

      輸出:話題類簇Topics。

      過程:

      begin:

      //將所有T值為0而P值小于thot的話題簇過濾掉

      //若T值為0而P值不小于thot,則重新設置該話題簇,T= 7,P=0

      //其他情況,將T值減1

      if clusters is not null:

      clusters=update_clusters(clusters,thot)

      D=Sort_D_by_time(D)//將文檔按時間順序排列

      for doc in D:

      if clusters is null:

      //以doc初始化為第一個類中心,并設置T、P的初始值

      clusters.add(doc,7,0)

      doc_lables.add(0)//記錄文檔對應的類索引

      else:

      //初始化記錄doc與每個類簇相似度的列表

      sims_list=list()

      //計算doc與每個類簇的相似度

      for cluster in clusters:

      sim=calculate_similarity(doc,cluster.c)

      sims_list.add(sim)

      //獲取最大相似度及其對應的類簇索引

      max_sim,index=get_max_sim_index(sim_list)

      if max_sim>tc:

      doc_lables.add(index)

      //更新類簇中心

      update_cluster_center(index,doc)

      //更新周期內文檔計數(shù)值P

      update_P(index,++P)

      else:

      doc_lables.add(len(clusters))

      //以doc作為新的類簇,并初始化類中心

      clusters.add(doc,7,0)

      //根據(jù)doc_lables的分布劃分D中文檔到不同的類簇

      Topics=Distribute_docs(doc_lables)

      end

      對一個有m篇文檔的數(shù)據(jù)集,若用Single-pass聚類最終得到k個類簇,則算法的時間復雜度為O(mk),而利用層次聚類將達到O(m3)的時間復雜度,可見Single-pass算法在時間上有很大的優(yōu)越性。另一方面Single-pass也避免了K-means算法輸入依賴的問題。對于類簇淘汰閾值thot的設置,經(jīng)過實驗過程中的比較分析,最終發(fā)現(xiàn)當thot值至少為200時,可認為類簇還存在著潛在的關注度。而聚類閾值tc的設置一般情況下取0.28較為合理。

      3.4 話題熱度評估與篩選

      聚類結果將產(chǎn)生當前新聞流中的話題簇,簇中包含的話題往往較多,而公眾所關注的是當前最新、最熱的話題。對于熱門話題往往群眾參與度較高,新聞媒體也會爭相報道,因此,文中以報道來源數(shù)、群眾參與度、話題簇內報道數(shù)作為影響話題熱度的主要因素綜合量化話題熱度。由于各新聞門戶網(wǎng)站都提供了新聞評論功能,群眾參與度可通過新聞評論數(shù)直接反應。

      首先,基于采集得到的新聞元數(shù)據(jù)統(tǒng)計每個話題簇的總體參與人數(shù)及報道來源數(shù)。然后,結合簇內文檔總數(shù)綜合評估類簇的話題熱度,并將熱度值進行降序排列,取前topN個作為熱點話題簇。

      定義5:假設Topics為聚類產(chǎn)生的話題簇,對于每個話題簇,其熱度定義為:

      Hot_Topic(i)=α*Doc_Counti+β*

      Join_Counti+γ*

      Source_Counti(α+β+γ=1,

      且α,β,γ均大于0)

      其中,Join_Counti=∑j_count,Hot_Topic(i)表示第i個類簇的話題熱度,對類簇中某一新聞文檔,j_ count表示評論的參與人數(shù),Join_Counti即為話題總的參與度;Doc_Counti表示話題類中相關的文檔數(shù); Source_Counti為話題內新聞文檔來源總數(shù),不包括重復值;α,β,γ分別為加權因子。

      4 實驗

      4.1 數(shù)據(jù)描述

      為驗證文中所述話題檢測方法的有效性和準確性,將數(shù)據(jù)集分為兩部分。一部分選取搜狗文本分類語料庫中的部分數(shù)據(jù),主要來源于Sohu新聞網(wǎng)站,共9個話題,17 910篇新聞報道,用以對文中方法的性能進行評估。另一部分,選取基于文中采集規(guī)則實時采集得到的(在“2015-01-04~2015-01-15”時間段內)的2 413篇新聞報道,通過文中方法實現(xiàn)在線話題捕捉,驗證其有效性。

      對于話題熱度的評估,考慮到群眾參與度和報道來源數(shù)是話題熱度最為直觀的反映,而群眾參與度值往往較報道數(shù)和新聞來源數(shù)要高出至少一個數(shù)量級。因此,為使得大部分話題熱度值處于相近的數(shù)量級,利于客觀比較,實現(xiàn)熱點話題的加權評估,文中在多次實驗后最終設置α,β,γ為80,0.4,100。實際過程中,根據(jù)應用場景的不同,最佳的加權系數(shù)可能不一樣。

      4.2 實驗結果分析

      4.2.1 話題檢測方法評測

      (1)評測指標。

      以準確率(Precision,P)、召回率(Recall,R)及F 值(F-measure,F(xiàn))作為評價指標。表3展現(xiàn)了聚類可能出現(xiàn)的幾種情況。

      各度量值公式為:

      根據(jù)上述定義,假設參照話題類Topic_i所含文檔數(shù)為ni,聚類所得話題類Test_j所含文檔數(shù)為nj,則定義關于話題類Topic_i的準確率為:

      其中,nij為參照類與檢測類共有的文檔數(shù)。

      召回率采用相同的方法定義,即:

      (2)實驗結果及分析。

      首先,基于搜狗的文本分類語料對傳統(tǒng)VSM和文中基于改進特征權重計算的LSA方法進行對比分析。利用式(4)所定義的準確率為評判指標,考查不同數(shù)據(jù)規(guī)模下通過同一聚類方法進行話題檢測時VSM和LSA的準確度和時間消耗,見表4。

      表4中,形如“(0.612,1.884)”的數(shù)據(jù)項表示(準確率,消耗時間)。對比表4可發(fā)現(xiàn),基于特征加權的LSA文本表示方法在文本聚類的整體效果上要優(yōu)于傳統(tǒng)VSM的文本表示方法。主要是因為基于特征加權的LSA方法首先充分考慮了新聞標題特征的重要性,去除了文檔中虛詞、助詞的干擾,再者通過SVD分解后獲取的詞-文檔概念空間,充分挖掘了文檔集合中詞、文檔之間的語義信息,從而使得文檔之間的相似度計算相比于傳統(tǒng)VSM受影響較小。而傳統(tǒng)VSM隨著數(shù)據(jù)的不斷增長,數(shù)據(jù)稀疏性和同名異議問題越來越明顯,影響了文本相似度的計算精度,準確率在數(shù)據(jù)規(guī)模超出4 000之后出現(xiàn)降低的趨勢,而且由于維度的增長其所帶來的計算時間開銷也增長較快。

      圖2是經(jīng)過10次重復實驗后,基于組平均距離的層次聚類(HAC)、K-means聚類、改進Single-pass聚類算法的平均性能對比。豎軸表示各性能指標的百分比。

      從圖中可以看出,文中改進的Single-pass算法在準確率和總體F值上表現(xiàn)突出,而此處由于是基于已分類語料,對于K-means算法的初始K值設定即設置為語料類別數(shù)9,并從初始語料的每個類中選取一篇文檔作為初始種子。但在在線環(huán)境下無法準確預計類別數(shù)K,初始種子的選擇也很難具備代表性。因此,文中方法更適用于在線環(huán)境的話題捕捉。

      4.2.2 話題檢測方法有效性驗證

      作為對文中方法有效性的驗證,從新浪微博數(shù)據(jù)中心獲取到“2015年1月微博熱門話題月報”,截取其中關于“2015年1月熱點話題熱議度、熱搜度排名”(以下簡稱“話題參考”)作為參考。對第二部分新聞網(wǎng)頁數(shù)據(jù)進行文本預處理后,基于特征加權的LSA方法將原始詞-文檔矩陣映射到k維語義空間,然后使用改進的Single-pass算法進行話題檢測,根據(jù)定義5對聚類結果進行話題熱度評估,分別抽取的兩個主題模塊下前10個話題如表5、表6所示。

      對比新浪微博數(shù)據(jù)中心話題月報的內容發(fā)現(xiàn),文中方法能夠有效捕獲“何以笙簫默”、“我是歌手”、“重返20歲”等多個話題。同時由新浪新聞中心數(shù)據(jù)排行可發(fā)現(xiàn)這些話題中“上海踩踏事故”、“討薪農(nóng)婦死亡”、“亞航客機殘骸打撈”都是在該段時間內引起廣泛關注的熱點。因此,可以證明該方法能夠有效發(fā)現(xiàn)并篩選出當前熱點話題。

      5 結束語

      隨著移動互聯(lián)網(wǎng)時代的到來,可穿戴設備的盛行及公眾網(wǎng)絡參與度的提高,迅速有效的在線話題發(fā)現(xiàn),對于話題推送、輿情監(jiān)測有著重要意義。文中在傳統(tǒng)VSM的基礎上,利用基于加權特征的隱含語義分析,有效克服了在線環(huán)境下傳統(tǒng)VSM由于維度的不斷增長使得數(shù)據(jù)稀疏和同名異議問題更加突出,從而導致文本相似度計算效果不理想的問題。同時,基于新聞報道的時間特點,提出改進的Single-pass算法,實現(xiàn)在線環(huán)境下的話題捕捉,并對聚類得到的話題簇進行加權熱度評估,篩選出最終的熱點話題。實驗結果表明該方法是切實有效的。

      在未來的工作中,將嘗試通過對新聞主體特征(如人物、時間、地點等)的抽取來對新聞數(shù)據(jù)進行細化、分解,構造有關話題的知識圖譜,尋求從這些特征的相互關系上來量化新聞文本之間的相似度,相信基于這些特征的組合將更有利于話題的發(fā)現(xiàn)。

      [1] Allan J,Papka R,Lavrenko V.On-line new event detection and tracking[C]//Proceedings of the 21st annual international ACM SIGIR conference on research and development in information retrieval.[s.l.]:ACM,1998:37-45.

      [2] Allen J.Topic detection and tracking:event-based information organization[M].[s.l.]:Springer Science&Business Media,2012.

      [3] Connell M,F(xiàn)eng A,Kumaran G,et al.UMass at TDT 2004 [C]//Topic detection and tracking workshop report.[s.l.]: [s.n.],2004.

      [4] Xu R F,Peng W H,Xu J,et al.On-line new event detection using time window strategy[C]//Proc of international conference on machine learning and cybernetics.[s.l.]:IEEE,2011:1932-1937.

      [5] Li C,Sun A,Datta A.Twevent:segment-based event detection from tweets[C]//Proceedings of the 21st ACM international conference on information and knowledge management.[s. l.]:ACM,2012:155-164.

      [6] Abdelhaq H,Sengstock C,Gertz M.Eventweet:online localized event detection from twitter[J].Proceedings of the VLDB Endowment,2013,6(12):1326-1329.

      [7] Zhang K,Zi J,Wu L G.New event detection based on indexing -tree and named entity[C]//Proceedings of the 30th annual international ACM SIGIR conference on research and development in information retrieval.[s.l.]:ACM,2007:215-222.

      [8] Salton G,Wong A,Yang C S.A vector space model for automatic indexing[J].Communications of the ACM,1975,18 (11):613-620.

      [9] Deerwester S C,Dumais S T,Landauer T K,et al.Indexing by latent semantic analysis[J].JASIS,1990,41(6):391-407.

      [10]Reisinger J,Mooney R J.Multi-prototype vector-space models of word meaning[C]//Human language technologies:the conference of the north American chapter of the association for computational linguistics.[s.l.]:[s.n.],2010:109-117.

      [11]Yih W,Zweig G,Platt J C.Polarity inducing latent semantic analysis[C]//Proceedings of the 2012 joint conference on empirical methods in natural language processing and computational natural language learning.[s.l.]:Association for Computational Linguistics,2012:1212-1222.

      [12]Yih W,Toutanova K,Platt J C,et al.Learning discriminative projections for text similarity measures[C]//Proceedings of the fifteen conference on computational natural language learning.Portland,Oregon,USA:[s.n.],2011:247-256.

      [13]Valle-Lisboa J C,Mizraji E.The uncovering of hidden structures by latent semantic analysis[J].Information Sciences,2007,177(19):4122-4147.

      [14]Gao N,Gao L,He Y,et al.Topic detection based on group average hierarchical clustering[C]//Proc of 2013 international conference on advanced cloud and big data.[s.l.]:IEEE Computer Society,2013:88-92.

      [15]李勝東,呂學強,施水才,等.基于話題檢測的自適應增量K -means算法[J].中文信息學報,2014,28(6):190-193.

      [16]柴 松.基于K-means的網(wǎng)絡話題自動檢測技術研究[D].青島:中國石油大學(華東),2011.

      [17]馬雯雯,魏文晗,鄧一貴.基于隱含語義分析的微博話題發(fā)現(xiàn)方法[J].計算機工程與應用,2014,50(1):96-100.

      [18]周 剛,鄒鴻程,熊小兵,等.MB-SinglePass:基于組合相似度的微博話題檢測[J].計算機科學,2012,39(10):198-202.

      [19]稅儀冬,瞿有利,黃厚寬.周期分類和Single-Pass聚類相結合的話題識別與跟蹤方法[J].北京交通大學學報:自然科學版,2009,33(5):85-89.

      [20]劉 群,張華平,俞鴻魁,等.基于層疊隱馬模型的漢語詞法分析[J].計算機研究與發(fā)展,2004,41(8):1421-1429.

      [21] Menon A K,Elkan C.Fast algorithms for approximating the singular value decomposition[J].ACM Transactions on Knowledge Discovery from Data,2011,5(2):161-171.

      [22]Brand M.Fast low-rank modifications of the thin singular value decomposition[J].Linear Algebra&Its Applications,2006,415(1):20-30.

      Online News Topics Extraction Based on Latent Semantic Analysis

      WU Gao-min1,ZHANG Yu-chen1,HAN Jing-yu1,2
      (1.School of Computer Science and Technology,Nanjing University of Posts and Telecommunications,Nanjing 210003,China; 2.Key Laboratory of Computer Network and Information Integration of MOE,Southeast University,Nanjing 211189,China)

      With the rapid development of the Internet and the continuous increasing of massive data,how to identify the current news topic quickly and effectively is becoming an urgent demand,and online hot news topic detection has become an hot area of research.For online news stream,the degree of traditional Vector Space Model(VSM)will grow with the increasing of data,resulting in obvious problem of data sparsity and synonymy,which makes it difficult to quickly and accurately calculate the similarity of texts.The latent semantic analysis based on weighted features is used to map the sparse matrix with high-dimension of words and documents to the hidden k-dimension semantic space,making full use of the semantic information between words and documents to improve the semantic similarity between the same subject documents,overcoming the problems of text sparsity and synonymy in Internet.In addition,traditional clustering algorithm exists the problem of high time complexity and input dependency for increasing massive news data,which is difficult to get the expected result quickly and efficiently.A Single-pass online clustering algorithm is used to detect the topic clusters based on succession and correlation in time for news,and the concept of topic heat is introduced to screen the public attention of news topics.Experiment shows that the method proposed can effectively improve the accuracy of the detection of topics.

      topic detection;vector space model;latent semantic analysis;text clustering;singular value decomposition

      TP181

      A

      1673-629X(2016)09-0001-07

      10.3969/j.issn.1673-629X.2016.09.001

      2015-12-01

      2016-03-08< class="emphasis_bold">網(wǎng)絡出版時間:

      時間:2016-08-01

      國家自然科學基金重點項目(61003040,61100135,61302157)

      武高敏(1990-),女,碩士研究生,CCF會員,研究方向為數(shù)據(jù)管理、知識庫;韓京宇,教授,博士,CCF會員,研究方向為數(shù)據(jù)管理、知識庫。

      http://www.cnki.net/kcms/detail/61.1450.TP.20160801.0909.070.html

      猜你喜歡
      文檔語義聚類
      有人一聲不吭向你扔了個文檔
      語言與語義
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      基于RI碼計算的Word復制文檔鑒別
      “上”與“下”語義的不對稱性及其認知闡釋
      基于改進的遺傳算法的模糊聚類算法
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      一種層次初始的聚類個數(shù)自適應的聚類方法研究
      認知范疇模糊與語義模糊
      自適應確定K-means算法的聚類數(shù):以遙感圖像聚類為例
      阿拉善盟| 美姑县| 方正县| 同江市| 马边| 金山区| 沂水县| 延川县| 新源县| 麟游县| 永顺县| 贵州省| 嘉禾县| 柳河县| 溧水县| 平利县| 南昌市| 宜章县| 金乡县| 青州市| 永春县| 千阳县| 皋兰县| 榆中县| 永善县| 鄂尔多斯市| 三门县| 黎川县| 青铜峡市| 青州市| 贺兰县| 石河子市| 顺昌县| 蒙自县| 承德市| 苗栗市| 临泽县| 琼结县| 滕州市| 锡林浩特市| 云浮市|