楊 靜,周雪妍,2,3,林澤鴻,張健沛,印桂生
(1.哈爾濱工程大學(xué)計算機科學(xué)與技術(shù)學(xué)院,黑龍江哈爾濱150001;2.哈爾濱工程大學(xué)國家大學(xué)科技園,黑龍江哈爾濱150001;3.哈爾濱學(xué)院工學(xué)院,黑龍江哈爾濱150086;4.哈爾濱工程大學(xué)機電工程學(xué)院,黑龍江哈爾濱150001)
基于溯源的虛假信息傳播控制方法
楊 靜1,周雪妍1,2,3,林澤鴻3,4,張健沛1,印桂生1
(1.哈爾濱工程大學(xué)計算機科學(xué)與技術(shù)學(xué)院,黑龍江哈爾濱150001;2.哈爾濱工程大學(xué)國家大學(xué)科技園,黑龍江哈爾濱150001;3.哈爾濱學(xué)院工學(xué)院,黑龍江哈爾濱150086;4.哈爾濱工程大學(xué)機電工程學(xué)院,黑龍江哈爾濱150001)
為了研究微博傳播機制,本文提出一種基于溯源的虛假信息傳播控制方法,根據(jù)微博轉(zhuǎn)發(fā)關(guān)系和主題相關(guān)性得到級聯(lián)集合,并結(jié)合用戶關(guān)系網(wǎng)和信息級聯(lián)關(guān)系網(wǎng)確定微博信息的真正發(fā)起者。通過文本情感分析和信息級聯(lián)關(guān)系迭代計算節(jié)點的影響力指數(shù)和從眾指數(shù),提取微博信息早期重要參與者。綜合發(fā)起者和早期重要參與者確定信息源頭并進(jìn)行評估。通過刪除優(yōu)質(zhì)源頭節(jié)點和全局高影響力節(jié)點來控制虛假信息的傳播。在新浪微博數(shù)據(jù)集上通過實驗驗證了基于所有溯源節(jié)點的虛假信息控制策略效果最優(yōu)。
微博;溯源;虛假信息;影響力指數(shù);早期重要參與者;傳播控制
作為一種新的在線社交媒體平臺,微博已經(jīng)成為互聯(lián)網(wǎng)上民意的集中表達(dá)與反映,在很大程度上影響著社會輿論的走向[1]。各種不良話題開始借助于社區(qū)媒體這種跨地域、跨國界、開放式的通信方式進(jìn)行傳播。特別是反動、不利于社會安定的言論傳播,需要找到話題的源頭,鎖定謠言的散布者以平息謠言。網(wǎng)絡(luò)自身的傳播特點為虛假信息的產(chǎn)生提供了生存的土壤。而且,由于網(wǎng)絡(luò)傳播的匿名即時,很多網(wǎng)民也在無意之中成為了謠言的傳播者??梢?,及時有效地對虛假信息進(jìn)行傳播控制時輿情分析與預(yù)警的關(guān)鍵。現(xiàn)有的虛假信息控制策略主要有兩大類:一種是基于最早時間戳的節(jié)點控制策略,一般應(yīng)用“封號”、“刪除”、“禁言”等方式,這種方式?jīng)]有考慮節(jié)點間交互關(guān)系,治標(biāo)不治本;另一種方式是基于影響力的節(jié)點控制方法,主要應(yīng)用PageRank等排序算法找出高影響力節(jié)點,這類方法大部分是基于不考慮語義的拓?fù)潢P(guān)系進(jìn)行分析,也不適應(yīng)個人意見鮮明表達(dá)的網(wǎng)絡(luò)媒體。因此,如何結(jié)合時間因素、拓?fù)潢P(guān)系以及語義情感分析來進(jìn)行虛假信息控制亟待解決。
基于此,提出一種基于溯源的虛假信息傳播控制方法,可通過刪除優(yōu)質(zhì)源頭節(jié)點和全局高影響力節(jié)點快速控制虛假信息傳播。
對謠言的系統(tǒng)科學(xué)的研究始于二戰(zhàn),Knapp收集整理了1942年間的1000個戰(zhàn)時謠言,根據(jù)謠言的不同目的和內(nèi)容進(jìn)行了分類,這項研究為后來謠言的相關(guān)理論研究奠定了重要基礎(chǔ)。虛假信息傳播有兩類主要模型分別是一般傳播模型和復(fù)雜傳播模型[2]。1)一般傳播模型是從感官的傳染特性將疾病傳播的模型進(jìn)行套用的結(jié)果。著名的D-K模型[3]實際上是借助隨機過程來分析謠言傳播,它把受眾按照謠言傳播效果分成了3類,并假定其中兩類人之間角色轉(zhuǎn)換的概率滿足一定數(shù)學(xué)分布。2)復(fù)雜傳播模型是按照不同的拓?fù)浣Y(jié)構(gòu)應(yīng)用復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)的一類傳播模型。Zanette[4]首先將復(fù)雜網(wǎng)絡(luò)理論應(yīng)用于謠言傳播的研究,在小世界網(wǎng)絡(luò)上建立謠言傳播模型,得出一些包括謠言傳播臨界值在內(nèi)的結(jié)論。文獻(xiàn)[5]認(rèn)為傳統(tǒng)的SIR分析偏向均勻傳播網(wǎng)絡(luò)研究。在線社會網(wǎng)絡(luò)更適合第二類模型,同時其網(wǎng)絡(luò)數(shù)據(jù)龐大,找到虛假信息傳播的局域網(wǎng)絡(luò)是研究的前提條件。
另一方面,針對社會網(wǎng)絡(luò)信息傳播模式的研究很多,相當(dāng)數(shù)量的算法從提取社會網(wǎng)絡(luò)中一組最有影響力的節(jié)點出發(fā),基本思想是把這些節(jié)點作為種子從而使得信息能夠得到更廣泛的傳播,其中包括通過博客信息級聯(lián)的分析進(jìn)行信息傳播預(yù)測等[6-7]。微博信息傳播的速度遠(yuǎn)大于博客,且傳播模式也不同,如Dabeer等[8]分析了影響微博信息傳播的因素,并提出了基于馬爾科夫決策框架來度量信息傳播效果。Lehmann等[9]跟蹤了Twitter網(wǎng)絡(luò)中的HashTag的擴散過程,發(fā)現(xiàn)流行病傳播模式起著重要作用,其信息傳播范圍呈現(xiàn)“核裂變”式的幾何級數(shù)式擴大。Yang等[10]預(yù)測了微博中信息傳播的速度、規(guī)模和范圍。Tsur等[11]結(jié)合博文內(nèi)容與網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),利用線性回歸方法預(yù)測給定時間內(nèi)的信息擴散。王佰玲[12]提出針對網(wǎng)絡(luò)數(shù)據(jù)流中活躍信息進(jìn)行話題相關(guān)數(shù)據(jù)采集與分析方法,并對基于數(shù)據(jù)流的網(wǎng)絡(luò)輿情熱點話題發(fā)現(xiàn)、突發(fā)事件檢測與實時跟蹤等應(yīng)用提供有利的數(shù)據(jù)資源。
而微博作為一個信息交互性極強的平臺受到研究者的青睞,研究微博轉(zhuǎn)發(fā)關(guān)系形成機制有助于了解微博中信息擴散的機理。如Yang等[13]利用微博的網(wǎng)絡(luò)關(guān)系提出了線性影響力模型,預(yù)測信息擴散路徑。Macskassy等[14]研究表明微博中大部分用戶并不一定轉(zhuǎn)發(fā)他們熟知的話題。Pal等[15]以原發(fā)微博數(shù)、參與會話數(shù)和轉(zhuǎn)發(fā)數(shù)作為主要指標(biāo)對用戶的權(quán)威進(jìn)行評估排序。
對微博平臺虛假信息進(jìn)行傳播控制離不開節(jié)點影響力分析,影響力度量算法主要是分為基于個體的上下文角色和基于社會網(wǎng)絡(luò)結(jié)構(gòu)兩類。大部分現(xiàn)有的微博影響力分析算法是傳統(tǒng)算法的改進(jìn)算法,如在Twitter數(shù)據(jù)集中分別利用個體的粉絲數(shù)目、被轉(zhuǎn)發(fā)數(shù)以及被提及數(shù)來衡量個體的影響力。除此之外,微博中影響力分析還可以依靠擴散能力衡量影響力,如Bakshy等[16]在Twitter數(shù)據(jù)集中,根據(jù)URL構(gòu)造傳播級聯(lián)樹,用種子節(jié)點的擴散范圍來衡量其影響力。Steeg等[17]利用轉(zhuǎn)移熵理論刻畫用戶間的信息流,識別Twitter網(wǎng)絡(luò)中有影響力的鏈接等。王永剛等[2]提出了一種社交網(wǎng)絡(luò)虛假信息傳播控制方法Fidic,針對社交網(wǎng)絡(luò)中虛假信息傳播時途經(jīng)的用戶序列,該方法基于PageRank并結(jié)合用戶傳播虛假信息時的指向關(guān)系來對用戶進(jìn)行評級。但以上這些方法大多數(shù)只是從節(jié)點的影響力角度評估,而沒有同時評估節(jié)點容易被其他節(jié)點影響的程度。
2.1 微博中的信息級聯(lián)
微博是一個流行的社交平臺,用戶通過微博來隨時隨地發(fā)表自己的心情和觀點。根據(jù)微博消息傳播機制建立用戶關(guān)系網(wǎng)絡(luò)和微博轉(zhuǎn)發(fā)網(wǎng)絡(luò),其中,關(guān)注關(guān)系對應(yīng)用戶關(guān)系網(wǎng)絡(luò),而轉(zhuǎn)發(fā)關(guān)系對應(yīng)針對特定主題的事件流級聯(lián)關(guān)系網(wǎng)。表1為微博信息級聯(lián)相關(guān)術(shù)語和概念中涉及的符號及含義。
表1 符號簡表Table 1 Symbol profile
2.2 影響力指數(shù)和從眾指數(shù)
影響力指數(shù)是衡量個體影響他人的能力,而從眾指數(shù)是指容易被他人影響的程度。社會網(wǎng)絡(luò)中高影響力通常指那些觀點和意見總是被采納的個體,因此在微博中提取關(guān)鍵人物需要考慮情感因素。微博中的轉(zhuǎn)發(fā)中主要包括肯定和否定兩種情感。一條從a到b的有向邊蘊含著節(jié)點a相信/贊同(或不相信/不贊同)節(jié)點b。其中,贊同含義的邊標(biāo)注為肯定的(+),否則為否定的(-)。研究表明,網(wǎng)絡(luò)信息傳播取決于那些容易被其他人影響者之間的相互影響[9],所以在分析節(jié)點影響力的同時也應(yīng)該量化節(jié)點容易被影響的程度。采用文獻(xiàn)[18]中情感傾向分析方法容易得到標(biāo)注情感的有向圖G(V,E),其中每一條邊按照其表達(dá)的情感信息被標(biāo)注為肯定或否定。信息級聯(lián)串進(jìn)行標(biāo)注后見圖1(a)。
圖1 級聯(lián)信息情感標(biāo)注及迭代計算Fig.1 Cascade after emotional labeling and index calculation
E+={ce,dc}表示正向情感,E-={hd,gc}為否定情感。因此,社會網(wǎng)絡(luò)G(V,E)可以由肯定情感子圖G+(V,E+)和否定情感子圖G-(V,E-)構(gòu)成。G中節(jié)點v的影響力指數(shù)Φ(v)和從眾指數(shù)Ω(v)為
可見,兩個互相依賴指數(shù)應(yīng)通過遞歸循環(huán)進(jìn)行計算。在某主題環(huán)境T下,對于任意v ?V,初始化ΦT(v)=ΩT(v=1),迭代至收斂見圖1(b)。
3.1 微博信息的溯源
網(wǎng)絡(luò)信息的發(fā)起者和早期參與者決定了信息傳遞的規(guī)模,所以準(zhǔn)確鎖定信息的真正發(fā)起者和早期參與者是輿情分析的重要工作。發(fā)起者在微博中指原創(chuàng)博文的用戶,但有人習(xí)慣復(fù)制別人的博文進(jìn)行直接發(fā)布,所以需要結(jié)合用戶關(guān)系網(wǎng)絡(luò)來找出這部分節(jié)點;早期參與者指較早進(jìn)入級聯(lián)且影響力較高的重要節(jié)點。發(fā)起者和早期參與者提取算法的核心思想見算法1。
算法1:溯源算法(KP algorithm)
輸入:社會網(wǎng)絡(luò)G(V,E)
輸出:主題T的溯源節(jié)點結(jié)合KPT,全局高影響力節(jié)點GPT
Begin
C←ExtractCascade(G);//級聯(lián)提取
if級聯(lián)C是基于語義的 then
ζ←ExtractSubgraph(C);//基于主題的子圖提取
else
ζ={C}
對每一個主題T的級聯(lián)集合GT∈ζ do
ITT←ExtractInitiator(GT) //提取真正發(fā)起者ITT
if級聯(lián)集合GT不是情感標(biāo)注網(wǎng)絡(luò)then
EPT←EarlyParticipants(ΦT,ΩT)//提取早期重要參與者EPT
GPT←GlobalParticipants(ΦT,ΩT)//提取全局重要參與者
KPT←(ITT,EPT)//ITT和EPT取并集
End
首先從特定時間段內(nèi)的微博數(shù)據(jù)中提取出轉(zhuǎn)發(fā)級聯(lián)串,按關(guān)鍵詞匹配劃分為若干組同主題級聯(lián)信息;其次,對特定主題T下級聯(lián)集合提取真正的發(fā)起者ITT;再次,進(jìn)行情感標(biāo)注、影響力指數(shù)和從眾指數(shù)計算,從而提取出早期重要參與者EAT;最后,ITT和EAT合并整合為關(guān)鍵人物KT完成微博信息溯源。具體包括級聯(lián)提取、基于主題的子圖提取、發(fā)起者提取、情感標(biāo)注、指數(shù)計算、早期重要參與者提取六個主要部分。下面分別進(jìn)行說明:
1)級聯(lián)提?。‥xtractCascade)主要按照微博中轉(zhuǎn)發(fā)關(guān)系進(jìn)行,E是社會網(wǎng)絡(luò)圖中的邊,也可以理解為一個最短的級聯(lián)。如果兩個現(xiàn)有的級聯(lián)有交集則合并為一個級聯(lián),得到一個較大的級聯(lián)分支。
2)基于主題的子圖提?。‥xtractSubgraph)主要是把相同主題的子圖放到一個集合中?,F(xiàn)在有很多潛在語義挖掘算法在社會網(wǎng)絡(luò)數(shù)據(jù)中有很好的應(yīng)用。而微博中主題信息比較明顯,應(yīng)用關(guān)鍵詞匹配的方法能夠完成基于主題的子圖提取,其核心思想是把出現(xiàn)相同關(guān)鍵詞的級聯(lián)放在一個集合中。如主題T的關(guān)鍵詞為{k1,k2,k3},則同時含有這3個關(guān)鍵詞的所有級聯(lián)構(gòu)成基于主題T的級聯(lián)集合GT。
3)發(fā)起者提取算法(EarlyParticipants)找到所有的源節(jié)點并提取對應(yīng)時間戳來提取真正發(fā)起者。因為部分用戶有直接復(fù)制他人博文發(fā)布的習(xí)慣,所以應(yīng)該結(jié)合用戶關(guān)系網(wǎng)剔除這部分節(jié)點。具體思想是分析所有源節(jié)點之間的關(guān)系,取消晚于好友發(fā)布相同主題信息的節(jié)點作為發(fā)起者的權(quán)利。
4)情感標(biāo)注(EdgeLabel)是為每一條邊加注情感權(quán)值的過程。設(shè)微博轉(zhuǎn)發(fā)邊E={uv}表示u轉(zhuǎn)發(fā)了v,且?E ? ci?GT,如無評論直接轉(zhuǎn)發(fā)則認(rèn)定為正向情感E+,評論部分采用文獻(xiàn)[18]常用情感詞表進(jìn)行匹配計算情感傾向。如果評論中含有多個情感詞,則綜合情感程度為其平均值,當(dāng)其大于0.5時記為正向情感E→E+,否則記為否定情感E→E-。
5)指數(shù)計算(IndexCompute)為每個節(jié)點計算出影響力指數(shù)和從眾指數(shù)(3.2節(jié)),對?v ? ci?GT,初始化Φ(v)=Ω(v)=1,迭代計算并歸一化處理影響力指數(shù)Φ(v)和從眾指數(shù)Ω(v)。
6)早期重要參與者提?。‥arlyParticipants)是找到參與話題時間早且綜合影響力高的節(jié)點。TT= Earliest{Ti|Ti?ci?GT}為GT的發(fā)布時間,?v ? ci?GT,τ=Φ(v)/Ω(v),則提取早期重要參與者v,應(yīng)滿足參與級聯(lián)時間Tv較早,指數(shù)τ較高。
全局重要參與者GPT的節(jié)點集合為綜合影響力τ=Φ(v)/Ω(v)在整個時間周期內(nèi)的TOP-N,主要為控制策略做準(zhǔn)備,不屬于溯源節(jié)點集合。
3.2 微博信息的溯源
微博信息溯源模型是一個通用的模型,只要選定主題的關(guān)鍵詞就可以溯源,因此,虛假信息同樣適用該模型,如虛假信息“吉林發(fā)生嚴(yán)重破壞性地震”的關(guān)鍵詞為{破壞性,嚴(yán)重地震,7級,吉林},謠言“哈爾濱下調(diào)取暖費”的關(guān)鍵詞為{哈爾濱,取暖費,下調(diào),供熱}等,通過級聯(lián)聚合就可以得到對應(yīng)的GT,進(jìn)而得到溯源節(jié)點集合。這些節(jié)點包括了微博中信息的真正發(fā)起者和早期重要參與者。主要控制策略為:
(a)刪除時間戳較早的發(fā)起者ITT/2個;
(b)刪除所有的發(fā)起者ITT個;
(c)刪除綜合影響力較高的早期參與者EPT/2個;
(d)刪除所有的早期重要參與者EPT個;
(e)刪除所有溯源集合內(nèi)的節(jié)點KPT個;
(f)刪除PR值最高的節(jié)點KPT個;
(g)刪除策略(a)和(c)節(jié)點及(KPT-ITT/2-EAT/2)全局綜合影響力指數(shù)τ最大節(jié)點,節(jié)點總數(shù)KPT個。
(h)刪除KPT個全局綜合影響力τ最大的節(jié)點。
其中,選中的節(jié)點的信息被其他用戶轉(zhuǎn)發(fā)所對應(yīng)的直接鏈出邊將被刪除,設(shè)某虛假信息共覆蓋了N個節(jié)點,經(jīng)過傳播控制后所達(dá)到的用戶數(shù)量為NC,則虛假信息傳播覆蓋率δ=Nc/N×100%。δ越小則控制效果越好。實驗部分將比較不同策略對虛假信息的控制效果,包括用PageRank等方法得到和溯源結(jié)果相等數(shù)量的高影響力節(jié)點(策略f),溯源節(jié)點結(jié)合綜合影響力的控制策略(策略g),以及綜合影響力控制策略(策略h),比較的指標(biāo)為信息覆蓋率。
4.1 基于虛假消息的級聯(lián)提取
本文數(shù)據(jù)來自于中國內(nèi)地知名微博網(wǎng)站——新浪微博,新浪微博自2009年10月正式向公眾開放,已經(jīng)有注冊用戶近6億,日均活躍用戶近1億。微博信息的時效性強,大部分完整的話題會在短時間內(nèi)淡出。本文選取2014年上半年部分?jǐn)?shù)據(jù)(涉及博文465 546 132條)進(jìn)行分析,本文算法主要是應(yīng)用信息溯源結(jié)果進(jìn)行虛假信息進(jìn)行傳播控制,所以需要刪除對信息傳播沒有貢獻(xiàn)的孤立節(jié)點。雖然已經(jīng)刪除了對信息傳播沒有貢獻(xiàn)的節(jié)點,級聯(lián)提取結(jié)果中仍然有近76%為不大于3的簡單級聯(lián)。算法在數(shù)據(jù)源中提取出不同的級聯(lián)并按拓?fù)浣Y(jié)構(gòu)分為204個。其中最常見的級聯(lián)為僅一次轉(zhuǎn)發(fā)的級聯(lián),圖2給出了出現(xiàn)頻率較高的12種級聯(lián)形狀。
圖2 出現(xiàn)頻率高的常見級聯(lián)拓?fù)浣Y(jié)構(gòu)Fig.2 Basic high frequency cascade topology structure
對所有數(shù)據(jù)都進(jìn)行分析會增加控制成本,因此應(yīng)用關(guān)鍵詞匹配的方法能夠完成基于主題的子圖提取,其核心思想是把出現(xiàn)相同關(guān)鍵詞的級聯(lián)放在一個集合中。主題T的關(guān)鍵詞為{k1,k2,k3},則同時含有這該集合中若干個關(guān)鍵詞的所有級聯(lián)構(gòu)成基于主題T的級聯(lián)集合GT,如謠言“哈爾濱下調(diào)取暖費”的關(guān)鍵詞為{哈爾濱,取暖費,下調(diào),供熱},則包含其中任何一個關(guān)鍵字的博文構(gòu)成的級聯(lián)都放入一個集合中。因為本文關(guān)注的是突發(fā)事件和虛假信息這類持續(xù)時間相對較短,但是輿論影響較大的微博信息的溯源。表2為精簡后的微博虛假信息集合。微博條數(shù)在本文實驗中為級聯(lián)數(shù)目。
4.2 發(fā)起者
一個新聞事件雖然具有相同的關(guān)鍵詞,但會因為關(guān)注角度不同和時間推移有不同的內(nèi)容側(cè)重。將主題T下級聯(lián)Ci的源點記為Si,尋找真正發(fā)起者的人物是要減少集合S中的元素。主要從兩個方面著手:1)把相似度高的級聯(lián)歸為一個新聞版本,只保留其中時間戳最早的源點;2)排除修改后發(fā)表的源點,結(jié)合用戶關(guān)系排除晚于好友發(fā)布相似度較高信息的源點。由于每條微博最長為140個字且相似的博文大部分字詞并不會改變,因此采用簡單字詞重復(fù)比率來衡量文本相似度。
式中:len(Si)表示源點Si博文的字符數(shù),num(text(Si)∩text(Sj))為源點Si與Sj中重復(fù)字符總數(shù),sim越大表示相似度越高,直接復(fù)制轉(zhuǎn)發(fā)的博文相似度為1。實驗中sim(Si,Sj)大于閾值0.71則認(rèn)為級聯(lián)Ci與Cj為同一博文。表3中給出了10個熱點事件按相似度歸類后的新聞版本數(shù)。
當(dāng)然,微博信息傳播中的一種現(xiàn)象不容忽視,即信息被高影響力節(jié)點轉(zhuǎn)發(fā)后形成的二次爆發(fā),因此,微博信息溯源僅找到信息發(fā)起者還不夠。
表2 事件及主要指標(biāo)Table 2 Events and main index
表3 不同事件級聯(lián)集合變化情況表Table 3 Cascade set of issues
4.3 早期重要參與者
微博信息傳播過程中時間因素很重要,社會網(wǎng)絡(luò)中每個節(jié)點平均新增的邊數(shù)隨時間變化不大,而級聯(lián)邊的產(chǎn)生呈指數(shù)下降的[16]。具體而言,早期重要參與者應(yīng)具有以下特性:1)參與轉(zhuǎn)發(fā)級聯(lián)時間早;2)具有高影響力指數(shù)和低從眾指數(shù)。
4.3.1 綜合影響力評估
情感標(biāo)注采用情感詞表匹配法[18],包含30組否定詞和30組肯定詞,否定詞權(quán)重在0.5~1,越大表示否定情感越強烈;肯定詞的權(quán)重在0~0.5,越小表示越肯定。無評論的直接轉(zhuǎn)發(fā)行為認(rèn)定為正向情感E+,評論部分按常用情感詞表進(jìn)行匹配計算情感傾向。如果評論中含有多個情感詞,則綜合情感程度為其算數(shù)平均值,當(dāng)其大于0.5時記為正向情感E+,否則記為否定情感E-。對?v ? ci?GT,初始化Φ(v)=Ω(v)=1,迭代計算并歸一化處理影響力指數(shù)Φ(v)和從眾指數(shù)Ω(v)。為了衡量用戶話題中用戶的綜合影響力定義τ=Φ(v)/Ω(v),圖3展示了不同話題中用戶τ的分布情況。
4.3.2 參與者提取
微博溯源時間因素尤為重要,早期重要參與者是指較早參與話題的高綜合影響力指數(shù)τ的用戶。定義GT的發(fā)布時間為TT=Earliest{Ti|ci?GT},T?= Latest{Ti|ci?GT},而?v ? ci?GT參與級聯(lián)的時間Tv,則Δt=Tv-TT。為了區(qū)分出Δt小且τ大的早期重要參與者,因為不同主題事件的規(guī)模不同,持續(xù)時間各異,采取分級量化的方法進(jìn)行對比,Δt等級為總時間T?-TT均勻分為10段,再將τ>2的高影響力節(jié)點按參與級聯(lián)的時間投影到不同的Δt等級中去。如虛假信息1有14%的節(jié)點被涉及,圖4給出了其投影分布結(jié)果。
圖3 不同主題綜合用戶影響力分布Fig.3 Comprehensive influence distribution in various topics
從圖4中可以看出,事件的中早期高影響力的用戶節(jié)點分布較多,這里不排除一些為虛假信息造勢而注冊的活躍馬甲賬戶。虛假信息1中第一區(qū)間用戶占比為0.43%,這一較小的數(shù)字有利于進(jìn)行后期虛假信息控制。左側(cè)第一區(qū)間為影響力最高且參與時間最早的人,這部分在所有10個虛假信息中最大值為114,即有效分離出了早期重要參與者。
4.4 溯源結(jié)果評估與確認(rèn)
早期參與者中可能包含部分發(fā)起者,因此兩者應(yīng)取并集。虛假信息溯源結(jié)果見表4,其中“√”表示達(dá)到指標(biāo),“×”表示不滿足該指標(biāo)??梢姡录搭^基本鎖定在129個ID以內(nèi),達(dá)到了挖掘效果。為了對結(jié)果的準(zhǔn)確性進(jìn)行評價,需要從以下幾個方面進(jìn)行考量:(a)是否包含了信息的最早發(fā)布者;(b)節(jié)點之間是否存在好友關(guān)系;(c)人工分析源頭節(jié)點所發(fā)微博與事件是否相關(guān);(d)分析節(jié)點的微博數(shù)、粉絲數(shù)屬性等活躍程度,分析源頭節(jié)點是否都是相對較活躍的節(jié)點。
圖4 虛假信息1中τ>2的用戶節(jié)點參與時間分布圖Fig.4 The participate time distribution of the τ>2 users
所有的事件都達(dá)到了指標(biāo)(a)溯源得到的節(jié)點中都包含了信息的最早發(fā)布者。指標(biāo)(b)分為發(fā)起者(b1)和重要參與者(b2)兩部分:(b1)針對溯源結(jié)果中發(fā)起者之間的關(guān)系,如果有好友關(guān)系的兩個節(jié)點存在于同一級聯(lián)樹中,那么晚于好友發(fā)布同一消息的節(jié)點已經(jīng)被剔除,所以大部分事件的源頭節(jié)點都是已經(jīng)不存在好友關(guān)系孤立節(jié)點。指標(biāo)(b2)主要衡量早期重要參與者是否與其他節(jié)點具有好友關(guān)系,而重要節(jié)點是通過拓?fù)浣Y(jié)構(gòu)分析得到的高影響力節(jié)點,因此理論上都應(yīng)該存在好友關(guān)系。但事件2和6不滿足指標(biāo)(b2)是由于存在某重要節(jié)點,其所在級聯(lián)的發(fā)起者由于晚于好友發(fā)布同一消息已經(jīng)被剔除。指標(biāo)(c)經(jīng)人工識別后發(fā)現(xiàn)所有保留節(jié)點的博文都是與事件相關(guān)的,這一點也是由算法特性決定的,因為經(jīng)關(guān)鍵詞鎖定主題和轉(zhuǎn)發(fā)形成級聯(lián)后,主題漂移的可能性不大。指標(biāo)(d)衡量源節(jié)點是否都為活躍節(jié)點,這里對活躍節(jié)點沒有具體定義,僅認(rèn)為被關(guān)注數(shù)較高并發(fā)微博數(shù)較大的用戶為活躍節(jié)點。綜上所述,本文算法的溯源結(jié)果包含了最早的信息發(fā)布者且都相對活躍,同時剔除了好友關(guān)系使得源頭更準(zhǔn)確,并且控制了主題漂移。
表4 發(fā)起者和重要參與者統(tǒng)計Table 4 The initiator and important participants
4.5 虛假信息控制效果評估
對于同一虛假信息傳播的級聯(lián)集合,應(yīng)用不同的控制策略以進(jìn)行效果比較,如虛假信息1,經(jīng)過溯源得到發(fā)起者59個和早期重要參與者78個,溯源結(jié)果集合取兩者并集共104個。則具體策略為:
(A)刪除時間戳較早的發(fā)起者30個;
(B)刪除所有的發(fā)起者59個;
(C)刪除綜合影響力較高的早期重要參與者39個;
(D)刪除所有的早期重要參與者78個;
(E)刪除所有溯源集合內(nèi)的節(jié)點104個;
(F)刪除PR值最高的節(jié)點104個;
(G)刪除策略(A)和(C)的69個節(jié)點,全局綜合影響力指數(shù)τ最大的35個節(jié)點,共104個。
(H)刪除全局綜合影響力指數(shù)τ最大的節(jié)點104個。
為了對比,設(shè)置策略(F)對同一虛假信息的級聯(lián)集合應(yīng)用PageRank得到影響力最大的104個節(jié)點,溯源結(jié)合綜合影響力的控制策略(G),以及全局綜合影響力策略(策略H)。策略(A)和策略(C)主要為策略(G)提供優(yōu)質(zhì)源頭節(jié)點,可見,優(yōu)質(zhì)源頭節(jié)點主要由溯源節(jié)點集合中時間戳較早的發(fā)起者和綜合影響力較高的早期重要參與者組成。圖5展示虛假信息在不同的控制策略下的傳播覆蓋率。
可見,所有的控制策略都不同程度地降低了虛假信息的覆蓋率。10個虛假信息的控制效果都在策略(G)時最佳,其次為策略(E),策略(E)刪除了所有溯源得到的節(jié)點集合,而策略(G)選擇了溯源節(jié)點中較優(yōu)質(zhì)的一部分,同時,為了更好的控制效果,將綜合影響力擴展到信息傳播的全過程。為了對比,共選取(KPT-ITT/2-EAT/2)個全局綜合影響力指數(shù)τ最大的節(jié)點,使得策略的刪除節(jié)點數(shù)相等??梢?,單純刪除溯源節(jié)點的策略(E)對個別虛假信息的控制效果不如策略(F),如虛假信息7和8,這是因為虛假信息的傳播態(tài)勢不同,信息傳播過程中晚期高影響力節(jié)點多,導(dǎo)致信息二次爆發(fā),此時僅僅刪除溯源節(jié)點控制力不足。通過對比發(fā)現(xiàn),基于溯源的虛假信息傳播控制策略能夠在刪除少量節(jié)點的情況下更好地控制信息傳播的規(guī)模。而實際虛假信息控制經(jīng)常是找到發(fā)表信息時間戳最早的一個用戶并刪除,所刪除節(jié)點僅僅是策略(A)的一個子集,該方法在復(fù)雜微博傳播機制下不能很好地控制信息規(guī)模。
圖5 不同策略下虛假信息傳播覆蓋率Fig.5 False information transmission coverage under different strategies
虛假信息的傳播一般為人為惡意操作,且針對特定人群,所以傳播的速度比一般信息還要快。文章針對虛假信息控制問題展開建模分析得到以下結(jié)論:
1)基于溯源的虛假信息傳播控制策略能夠及時準(zhǔn)確地鎖定信息的源頭;
2)用戶節(jié)點的綜合影響力由影響能力和從眾程度共同決定;
3)基于虛假信息的關(guān)鍵節(jié)點挖掘與僅考慮拓?fù)潢P(guān)系的關(guān)鍵節(jié)點意義不同。綜上所述,本文算法在同等條件下虛假信息控制效果最佳。虛假信息是網(wǎng)絡(luò)輿情分析與預(yù)警的重要對象,虛假信息傳播演化規(guī)律的研究將進(jìn)一步揭示網(wǎng)絡(luò)輿情演化機制,這將是下一步主要研究內(nèi)容。
[1]丁兆云,賈焰,周斌.微博數(shù)據(jù)挖掘研究綜述[J].計算機研究與發(fā)展,2014,51(4):691-706.DING Zhaoyun,JIA Yan,ZHOU Bin.Survey of data mining for Weibos[J].Journal of computer research and development,2014,51(4):691-706.
[2]王永剛,蔡飛志,LUA E K,等.一種社交網(wǎng)絡(luò)虛假信息傳播控制方法[J].計算機研究與發(fā)展,2012,49(S1):131-137.WANG Yonggang,CAI Feizhi,LUA E K,et al.A diffusion control method of fake information in social networks[J].Journal of computer research and development,2012,49(S1):131-137.
[3]DALEY D J,KENDAL D G.Stochastic rumours[J].IMA journal of applied mathematics,1965,1(1):42-55.
[4]ZANETTE D H.Dynamics of rumor propagation on small-world networks[J].Physical review E,2002,65(4 Pt 1):041908.
[5]ZHOU Jie,LIU Zonghua,LI Baowen.Influence of network structure on rumor propagation[J].Physics letters a,2007,368(6):458-463.
[6]LESKOVEC J,MCGLOHON M,F(xiàn)ALOUTSOS C,et al.Patterns of cascading behavior in large blog graphs[C]//Proceedings of the 2007 SIAM International Conference on Data Mining.Minneapolis,Minnesota,USA:SIAM,2007,7:551-556.
[7]LI Hui,BHOWMICK S S,SUN Aixin,et al.Affinity-driven blog cascade analysis and prediction[J].Data mining and knowledge discovery,2014,28(2):442-474.
[8]DABEER O,MEHENDALE P,KARNIK A,et al.Timing tweets to increase effectiveness of information campaigns[C]//Proceedings of the 5th ICWSM.Barcelona,Spain: AAAI,2011:105-112.
[9]LEHMANN J,GON?ALVES B,RAMASCO J J,et al.Dynamical classes of collective attention in twitter[C]//Proceedings of the 21st International Conference on World Wide Web.Lyon,F(xiàn)rance:ACM,2012:251-260.
[10]YANG J,COUNTS S.Predicting the speed,scale,and range of information diffusion in twitter[C]//Proceedings of the 4th International AAAI Conference on Weblogs and Social Media.Washington:AAAI,2010,10:355-358.
[11]TSUR O,RAPPOPORT A.What's in a hashtag?:content based prediction of the spread of ideas in Weiboging communities[C]//Proceedings of the 5th ACM International Conference on Web Search and Data Mining.Seattle,Washington,USA:ACM,2012:643-652.
[12]王佰玲,曲蕓,張永錚,等.基于數(shù)據(jù)流的網(wǎng)頁內(nèi)容分析技術(shù)研究[J].電子學(xué)報,2013,41(4):751-756.WANG Bailing,QU Yun,ZHANG Yongzheng,et al.Research on network-traffic based web traffic computing technology[J].Acta electronica sinica,2013,41(4):751-756.
[13]YANG J,LESKOVEC J.Modeling information diffusion in implicit networks[C]//Proceedings of the 10th International Conference on Data Mining.Sydney,Australia:IEEE,2010:599-608.
[14]MACSKASSY S A,MICHELSON M.Why do people retweet?anti-homophily wins the day?。跜]//Proceedings of the 5th International AAAI Conference on Weblogs and Social Media.California:The AAAI Press,2011:209-216.
[15]PAL A,COUNTS S.Identifying topical authorities in Weibos[C]//Proceedings of the 4th ACM International Conference on Web Search and Data Mining.Hong Kong,China: ACM,2011:45-54.
[16]BAKSHY E,HOFMAN J M,MASON W A,et al.Everyone's an influencer:quantifying influence on twitter[C]//Proceedings of the 4th ACM International Conference on Web Search and Data Mining.Hong Kong,China:ACM,2011:65-74.
[17]VER STEEG G,GALSTYAN A.Information transfer in social media[C]//Proceedings of the 21st International Conference on World Wide Web.Lyon,F(xiàn)rance:ACM,2012:509-518.
[18]ZHOU Xueyan,YANG Jing.A BBS opinion leader mining algorithm based on topic model[J].Journal of computational information systems,2014,10(6):2571-2578.
False information spread control method based on source tracing
YANG Jing1,ZHOU Xueyan1,2,3,LIN Zehong3,4,ZHANG Jianpei1,YIN Guisheng1
(1.College of Computer Science and Technology,Harbin Engineering University,Harbin 150001,China;2.The National University Science Park,Harbin Engineering University,Harbin 150001,China;3.College of Engineering,Harbin University,Harbin 150086,China;4.College of Mechanical and Electrical Engineering,Harbin Engineering University,Harbin 150001,China)
To study the Weibo transmission mechanism,this paper provides a false information spread control method based on source tracing.The cascade sets were built on the basis of the retweeting of a Weibo and its topical relevance,and real initiators were identified by the user relationship and information cascade networks.The influence and conformity indices of every node were then iteratively calculated according to text sentiment analysis,and the information cascades and important early participants were extracted.The real initiators and early participants were combined to ascertain the information source and then evaluated by an experiment.The source tracing nodes and the global high influence nodes were deleted to control the spread of false information.Experimental results verify that the proposed false information control strategy for all source tracing nodes has an optimal effect in a real Sina Weibo dataset.
Weibo;source tracing;false information;influence index;early participants;spread control
10.11990/jheu.201511076
http://www.cnki.net/kcms/detail/23.1390.u.20160928.0936.022.html
TP393
A
1006-7043(2016)12-1691-07
楊靜,周雪妍,林澤鴻,等.基于溯源的虛假信息傳播控制方法[J].哈爾濱工程大學(xué)學(xué)報,2016,37(12):1691-1697.
2015-11-30.
2016-09-28.
國家自然科學(xué)基金項目(61672179,61370083,61402126);高等學(xué)校博士點專項科研基金項目(20122304110012);黑龍江省社科研究規(guī)劃項目(16XWB01、16TQD03);黑龍江省藝術(shù)科學(xué)規(guī)劃課題(2016C030);黑龍江省青年科學(xué)基金項目(QC2016083);黑龍江省博士后基金項目(LBH-Z14071);哈爾濱學(xué)院青年博士科研啟動基金項目(HUDF2016207).
楊靜(1962-),女,教授,博士生導(dǎo)師;
周雪妍(1981-),女,副教授.
周雪妍,E-mail:zhouxueyan_zxy@163.com.
YANG Jing,ZHOU Xueyan,LIN Zehong,et al.False information spread control method based on source tracing[J].Journal of Harbin Engineering University,2016,37(12):1691-1697.