陳黎明 黃瑞章 秦永彬 陳艷平 劉麗娟
(1.貴州大學(xué)計算機科學(xué)與技術(shù)學(xué)院 貴陽 550025)(2.貴州省公共大數(shù)據(jù)重點實驗室 貴陽 550025)(3.貴州師范學(xué)院 貴陽 550018)
如今各大新聞網(wǎng)站會對各種各樣的事件進(jìn)行報道,這些大量的新聞報道中既存在著正能量的有利信息,也可能隱藏著負(fù)面或者敏感的信息。一條普通新聞一旦被關(guān)注可在極短的時間傳播開來,往往會從普通事件演變成爆點事件,繼而引發(fā)政府公信力下降等問題。因此,輿情監(jiān)管部門對新聞報道高度重視,要求加強監(jiān)測力度,密切關(guān)注事態(tài)發(fā)展。
話題檢測與跟蹤(Topic Detection and Tracking,TDT)[1]是一種面向新聞信息流的處理技術(shù),旨在自動識別新話題和持續(xù)跟蹤已知話題,其中話題由一個種子事件以及與其直接相關(guān)的事件組成。話題追蹤作為TDT子任務(wù),其目的是依據(jù)給定的新聞集合或描述在后續(xù)辨認(rèn)出話題相關(guān)報道,能夠用于快速獲取話題信息,協(xié)助有關(guān)部門進(jìn)行輿情監(jiān)測和分析。
輿情監(jiān)測的對象為熱點或敏感話題,需要人為介入的機制,因此更傾向于使用一組關(guān)鍵詞來進(jìn)行話題追蹤,方便在追蹤過程中進(jìn)行調(diào)整。根據(jù)關(guān)鍵詞來進(jìn)行特定話題追蹤,有以下難點:1)輿情新聞數(shù)據(jù)容易遺漏。使用關(guān)鍵詞進(jìn)行簡單匹配會引入大量無關(guān)數(shù)據(jù),所以需要衡量詞語在文章中的重要性,常用來衡量詞語重要性的方法難以處理詞語出現(xiàn)頻率較低的情況,這會導(dǎo)致當(dāng)新聞中與話題相關(guān)的信息出現(xiàn)頻率較低時難以追蹤到此類新聞數(shù)據(jù)。2)用戶給定的關(guān)鍵詞可能不全,不足以全面描述話題,造成追蹤結(jié)果不理想。3)隨著時間的變化,話題重心也在變化,會產(chǎn)生話題漂移現(xiàn)象,話題關(guān)鍵詞也隨之變化,初始給定的關(guān)鍵詞需要動態(tài)更新。
為了解決上述問題,本文提出了一種面向輿情監(jiān)測的話題追蹤方法,根據(jù)用戶給出的關(guān)鍵詞監(jiān)督信息進(jìn)行話題追蹤,充分考慮人為介入的應(yīng)用場景;針對輿情新聞數(shù)據(jù)容易遺漏的問題,本文通過對話題關(guān)鍵詞進(jìn)行加權(quán)的TextRank算法來提取有傾向的關(guān)鍵詞作為文本特征表示,進(jìn)而提升追蹤效果;針對關(guān)鍵詞不完全的問題,對輿情數(shù)據(jù)進(jìn)行分析,通過點互信息對話題關(guān)鍵詞進(jìn)行補全;針對話題漂移的現(xiàn)象,在話題追蹤過程中根據(jù)關(guān)鍵詞衰減指數(shù)[2]對話題關(guān)鍵詞進(jìn)行動態(tài)調(diào)整。實驗結(jié)果表明,本文方法在面向輿情監(jiān)測的話題追蹤任務(wù)上取得了較好的效果。
話題追蹤是在后續(xù)新聞報道中辨認(rèn)出已知話題所相關(guān)的新聞報道[3],可以為新聞事件的追蹤及判斷決策提供輔助支持[4]。針對話題追蹤的研究集中在分類或聚類算法的選擇與融合、自適應(yīng)話題追蹤幾個方面。
基于分類的追蹤方法利用訓(xùn)練好的分類器來進(jìn)行話題相關(guān)性分析。文獻(xiàn)[5]使用SVM算法訓(xùn)練了一個是否相關(guān)的分類器,避免了需要類型標(biāo)簽的問題。文獻(xiàn)[6]在改進(jìn)型DF文本特征的基礎(chǔ)上,通過構(gòu)建樸素貝葉斯模型來實現(xiàn)話題追蹤。文獻(xiàn)[7]提出了一種基于改進(jìn)KNN的話題跟蹤算法,解決了由于數(shù)據(jù)不平衡和跟蹤代價較高的問題。雖然分類算法使用廣泛,但需要大量訓(xùn)練數(shù)據(jù)。此外隨著時間的發(fā)展,話題的重心在動態(tài)變化,會產(chǎn)生話題漂移的現(xiàn)象,簡單的分類算法已經(jīng)不能滿足動態(tài)話題追蹤需求。
基于聚類的追蹤方法常見的是SinglePass算法以及K-means算法。文獻(xiàn)[8~10]使用了改進(jìn)的SinglePass算法來進(jìn)行話題追蹤,其主要研究在于選取不同的文本特征來提升聚類效果。雖然這類算法效率較高,但容易受輸入順序的影響。文獻(xiàn)[11]提出了一種改進(jìn)的K-means算法,基于新聞報道相似性選擇初始聚類中心點,保證各新聞話題集群具有很好的區(qū)分度。文獻(xiàn)[12]根據(jù)K-means聚類結(jié)果對子話題向量集進(jìn)行動態(tài)調(diào)整,能夠更精確地對話題繼續(xù)追蹤。但K-means算法又具有其局限性,如對初始中心點的選擇敏感和用戶必須自定義分組K等。
由于話題漂移現(xiàn)象的存在,自適應(yīng)話題追蹤得到了進(jìn)一步發(fā)展。此類算法在話題追蹤時將新特征融入至初始模型并對特征項權(quán)重進(jìn)行實時修正,進(jìn)而改進(jìn)追蹤效果。文獻(xiàn)[13]提出了一種基于詞匯相關(guān)性的自適應(yīng)追蹤方法。文獻(xiàn)[14]利用最小特征平均可信度閾值更新策略來完善話題模型。文獻(xiàn)[15]基于時間的分布屬性調(diào)整特征向量權(quán)重分配,實現(xiàn)話題模型的自適應(yīng)學(xué)習(xí)更新。文獻(xiàn)[16]根據(jù)報道時間特點研究了動態(tài)閾值話題追蹤方法。文獻(xiàn)[17]提出一種基于關(guān)聯(lián)語義網(wǎng)絡(luò)的話題追蹤方法,解決了無法詳細(xì)描述話題追蹤趨勢的問題。文獻(xiàn)[18]利用了主題新穎性和消退概率來追蹤話題。
相比于上述方法,本文方法基于關(guān)鍵詞對特定話題進(jìn)行追蹤,更適用于輿情監(jiān)測的應(yīng)用場景。
本文方法流程如圖1所示。待追蹤新聞由新聞標(biāo)題和正文組成,話題表示為一組關(guān)鍵詞,人為給定的關(guān)鍵詞監(jiān)督信息作為其初始值,用戶可以在追蹤的過程中進(jìn)行介入,修改話題關(guān)鍵詞。在每批待追蹤輿情新聞數(shù)據(jù)到來時,追蹤流程按以下步驟進(jìn)行處理。首先,通過對話題關(guān)鍵詞進(jìn)行加權(quán)的TextRank算法提取新聞關(guān)鍵詞。其次,通過點互信息對話題關(guān)鍵詞進(jìn)行補全。最后,計算每篇新聞文本和話題的關(guān)鍵詞相似度,相似度大于閾值的新聞文本被判定為與話題相關(guān),并對話題關(guān)鍵詞進(jìn)行反饋更新。接下來,將對這些步驟做詳細(xì)介紹。
圖1 話題追蹤方法流程
目前最常見的關(guān)鍵詞抽取算法為TextRank[19],它是一種基于詞匯圖模型的算法,把文檔看作是由詞匯構(gòu)成的圖結(jié)構(gòu),依靠文檔自身的結(jié)構(gòu)關(guān)系,即可實現(xiàn)關(guān)鍵詞抽取,簡單有效,但傳統(tǒng)TextRank算法忽略了詞語本身的重要性信息[20]。當(dāng)在追蹤某個的特定話題時,僅關(guān)心特定的一些詞語,這些詞的重要程度比其他詞語高,比如話題關(guān)鍵詞。因此,本文對傳統(tǒng)TextRank算法進(jìn)行了改進(jìn),對話題關(guān)鍵詞加權(quán),提高話題關(guān)鍵詞在新聞中出現(xiàn)時被作為新聞文本關(guān)鍵詞提取出來的概率。
設(shè)G(V,E)是由給定文本的詞匯構(gòu)成的一個圖結(jié)構(gòu),那么對于該文本中任何一個詞語Vi,其基于加權(quán)TextRank算法的權(quán)值迭代公式為
式(1)中d為調(diào)節(jié)系數(shù),一般取0.85;I n(Vi)表示指向節(jié)點Vi的所有節(jié)點的集合;Out(Vj)表示節(jié)點Vj指向的所有節(jié)點的集合。wji為節(jié)點Vj的詞語重要性影響力傳遞到節(jié)點Vi的權(quán)重,其計算公式如下:
式(2)中I(vi)表示節(jié)點Vi的重要性取值,設(shè)λ為對詞語進(jìn)行加權(quán)的參數(shù),本文中λ取2,則I(vi)賦值如下:
基于式(1)~(4)進(jìn)行迭代運算,當(dāng)式(1)兩次迭代結(jié)果之間的差異非常小時停止迭代運算,該值一般取0.0001。然后按照大小對WS(V)進(jìn)行降序排序,選取前8個候選詞作為新聞文本關(guān)鍵詞。
Jaccard相似度用來比較樣本集之間的相似性,Jaccard系數(shù)值越大,說明相似度越高。設(shè)KT為話題關(guān)鍵詞集合,K N為新聞文本關(guān)鍵詞集合,則Jaccard系數(shù)計算如式(5)所示。
通過式(5)計算追蹤話題和新聞文本之間的相似度,相似度大于閾值α的新聞文本被判定為與話題相關(guān),相似度低于閾值的則判定為與話題不相關(guān)。
為了充分補全話題關(guān)鍵詞,采用點互信息PMI(Pointwise Mutual Information)來挖掘潛在的關(guān)鍵詞。PMI被用來衡量兩個關(guān)鍵詞之間的關(guān)系,PMI的大小代表了它們關(guān)系的強弱。PMI的計算公式如下:
通過式(6)計算出新聞文本關(guān)鍵詞對的PMI,挑選出PMI大于閾值μ的關(guān)鍵詞對。如果一個關(guān)鍵詞和任意兩個話題關(guān)鍵詞的PMI大于閾值,則添加該關(guān)鍵詞到話題關(guān)鍵詞集中,對話題關(guān)鍵詞進(jìn)行補全。
此外,針對話題漂移現(xiàn)象,需要融入新的話題特征,對話題關(guān)鍵詞進(jìn)行更新。當(dāng)一篇新聞被判定為與話題相關(guān)時,采用基于關(guān)鍵詞衰減指數(shù)的算法來對話題關(guān)鍵詞進(jìn)行動態(tài)更新,詳細(xì)描述如算法1所示。設(shè)話題候選關(guān)鍵詞向量為V(K)=(K1:w1,K2:w2,…,Kn:wn),其中K表示話題候選關(guān)鍵詞,w表示候選關(guān)鍵詞權(quán)重。第一次進(jìn)行更新時,V(K)用話題關(guān)鍵詞進(jìn)行初始化,w的初始值為2。
算法1話題關(guān)鍵詞更新算法
輸入:
話題候選關(guān)鍵詞向量V(K)
新聞文本關(guān)鍵詞集合K N
衰減指數(shù)θ
輸出:
更新后的話題關(guān)鍵詞集合K Tupdated
更新后的話題候選關(guān)鍵詞向量Vupdated(K)
1)for每個關(guān)鍵詞Ki∈KNdo
2) ifKi i n V(K)then
3)wi←wi+0.5
4) else在V(K)中添加(Ki,0.5)
5)for每個關(guān)鍵詞Kj i n V(K)do
6) ifKj?KNthen
7)wj←wj*θ
8)輸出Vupdated(K)
9)Vupdated(K)按權(quán)重w大小進(jìn)行排序
10)初始化KTupdated為空
11)forKm i n Vupdated(K)do
12) 在KTupdated中添加Km
13) ifKTupdated的關(guān)鍵詞個數(shù)>8 then
14) break
15)輸出KTupdated
為了驗證所提方法的有效性,本文從新浪、鳳凰、搜狐、網(wǎng)易等新聞網(wǎng)站收集了2018年11月~2019年1月共28125篇新聞作為實驗原始數(shù)據(jù)。從原始數(shù)據(jù)中選取五個話題進(jìn)行追蹤,并對其進(jìn)行標(biāo)注,除五個話題外,其它數(shù)據(jù)均為反例。話題名稱和對應(yīng)的新聞數(shù)量如表1所示。
表1 數(shù)據(jù)集
實驗使用準(zhǔn)確率P、召回率R和兩者綜合性能指標(biāo)F值三個指標(biāo)進(jìn)行量化考察,F(xiàn)值越高,話題追蹤性能越好。設(shè)TP為在追蹤結(jié)果中被判定屬于某話題且實際也屬于該話題的新聞數(shù)量,F(xiàn)P為在追蹤結(jié)果中被判定屬于某話題但實際不屬于該話題的新聞數(shù)量,F(xiàn)N為在追蹤結(jié)果中被判定為其它類別但實際屬于該話題的新聞數(shù)量。則準(zhǔn)確率P、召回率R和F值的計算公式如下:
為了驗證本文方法在話題追蹤上的效果,選取基于SinglePass的追蹤方法和文獻(xiàn)[2]方法作為對比方法。實驗設(shè)置相似度閾值α為0.1,衰減指數(shù)θ為0.8,時間窗口為天,并選取兩篇種子新聞作為對比方法的初始類心,其中基于SinglePass的追蹤方法選取的文本特征表示方法是TF-IDF。實驗結(jié)果如表2所示。
表2 話題追蹤方法實驗結(jié)果
從表2可以看出,本文方法優(yōu)于基于Single-Pass的追蹤方法,原因是選取了有傾向的關(guān)鍵詞作為新聞文本特征表示,而基于SinglePass的方法選取的文本特征表示方法是TF-IDF,當(dāng)新聞中關(guān)鍵詞出現(xiàn)頻率比較低時,其所占權(quán)重較小,導(dǎo)致聚類效果不理想,而有傾向的關(guān)鍵詞加大了重要詞的權(quán)重,能夠提取出關(guān)鍵詞出現(xiàn)頻率低的新聞。此外,本文方法和文獻(xiàn)[2]方法都有反饋更新話題關(guān)鍵詞的機制,然而本文方法在平均F值上比其高出2.32%,主要是因為本文利用PMI對話題關(guān)鍵詞進(jìn)行了補全以及引入了話題關(guān)鍵詞候選向量,在反饋更新策略上做了改進(jìn),從而取得了較為優(yōu)越的結(jié)果。
本文基于關(guān)鍵詞對輿情話題進(jìn)行動態(tài)追蹤,關(guān)鍵詞的變化影響著話題自適應(yīng)追蹤的效果。表3展示了本文方法在追蹤“孟晚舟被捕”話題過程中關(guān)鍵詞的變化。從表中可以看出,話題發(fā)生了漂移現(xiàn)象,重心從“被捕”發(fā)展成為了“保釋”,這表明本文方法能夠有效地應(yīng)對話題漂移現(xiàn)象,對話題進(jìn)行自適應(yīng)追蹤。
表3“孟晚舟被捕”關(guān)鍵詞變化
本文提出了一種面向輿情監(jiān)測的話題追蹤方法,根據(jù)給出的關(guān)鍵詞信息來進(jìn)行特定的話題追蹤,充分考慮到了輿情監(jiān)測需要人為介入的應(yīng)用場景,解決了輿情新聞容易遺漏、關(guān)鍵詞不完整、話題漂移的難點,取得了較好的追蹤效果。在未來的工作中,擬研究如何根據(jù)追蹤到的新聞數(shù)據(jù)梳理話題發(fā)展脈絡(luò)。