欒 靜
(92493部隊(duì) 葫蘆島 125000)
近幾年來,隨著經(jīng)濟(jì)水平的不斷提升,以及互聯(lián)網(wǎng)技術(shù)的大力發(fā)展,社交網(wǎng)絡(luò)得到了飛速的發(fā)展,已經(jīng)逐漸融入了人們的各項(xiàng)生活當(dāng)中。社交網(wǎng)絡(luò)中,用戶所扮演的角色較之以往發(fā)生了巨大的改變,其不僅僅是網(wǎng)絡(luò)信息的被動(dòng)接受者,而且還可以主動(dòng)地創(chuàng)作、發(fā)布信息,每一個(gè)社交網(wǎng)絡(luò)的用戶都成為了互聯(lián)網(wǎng)信息的提供者,因此,龐大的用戶群體使得社交網(wǎng)絡(luò)中的信息量發(fā)生了爆炸式的增長。社交網(wǎng)絡(luò)具有信息傳播速度快,信息量大等特點(diǎn),其飛速發(fā)展的特點(diǎn)一方面方便了人們的生活,學(xué)習(xí),成為社會(huì)經(jīng)濟(jì)發(fā)展的重要助推力,另一方面,社交網(wǎng)絡(luò)的種種特點(diǎn)為謠言的傳播提供了便利,層出不窮的謠言嚴(yán)重影響了社交的正常秩序,對(duì)社會(huì)穩(wěn)定,經(jīng)濟(jì)建設(shè)造成了重大的危害。較之傳統(tǒng)網(wǎng)絡(luò),現(xiàn)代社交網(wǎng)絡(luò)中的謠言傳播速度更快,覆蓋范圍更廣,謠言源頭更加隱蔽,使得其應(yīng)對(duì)難度更大。研究如何在謠言傳播初期準(zhǔn)確識(shí)別謠言源頭,切斷其傳播路徑,對(duì)于有效地應(yīng)對(duì)此類謠言具有重要的意義,基于網(wǎng)絡(luò)結(jié)構(gòu)的謠言源檢測相關(guān)研究正是為解決此類問題而被提出的。
在社交網(wǎng)絡(luò)謠言狀態(tài)網(wǎng)絡(luò)中,每個(gè)節(jié)點(diǎn)在某一時(shí)刻只有一個(gè)網(wǎng)絡(luò)狀態(tài),即感染狀態(tài)(記作1)或者非感染狀態(tài)(記作0),在同樣的網(wǎng)絡(luò)拓?fù)浣Y(jié)果中,由于每個(gè)節(jié)點(diǎn)的狀態(tài)不同,可導(dǎo)致網(wǎng)絡(luò)具有多種狀態(tài)。本文提出一種網(wǎng)絡(luò)狀態(tài)相似度計(jì)算方法,用以衡量網(wǎng)絡(luò)狀態(tài)的相似度。網(wǎng)絡(luò)由每個(gè)節(jié)點(diǎn)組成,節(jié)點(diǎn)代表著人作為載體進(jìn)行相關(guān)聯(lián)系和運(yùn)行,因?yàn)槿藗冎g一定具有相關(guān)性和聯(lián)系性的特點(diǎn),與陌生人相比,熟悉人具有更多地聯(lián)系,同理,節(jié)點(diǎn)之間也會(huì)具有如此的特性,我們利用節(jié)點(diǎn)的相似性來研究網(wǎng)絡(luò)謠言。
本文中我們選用余弦距離作為我們的網(wǎng)絡(luò)狀態(tài)相似度計(jì)算方式,取值在[-1,1]之間的相似度。高維向量余弦距離公式為
基于網(wǎng)絡(luò)結(jié)構(gòu)的謠言源推斷問題隸屬于網(wǎng)絡(luò)信息源推斷問題,其中網(wǎng)絡(luò)的信息傳播模型非常重要,通?;诰W(wǎng)絡(luò)的信息源推斷需要假定一種底層傳播模型,同樣的謠言源點(diǎn)經(jīng)過不同的信息傳播模型的傳播會(huì)得到不同的網(wǎng)絡(luò)狀態(tài)。在SI模型中,設(shè)定感染概率為p,對(duì)于SI模型中p的取值在(0,1)之間;在LT模型中,設(shè)點(diǎn)u和點(diǎn)v的度為du和dv,則邊 (u,v)感染量為1/dv,邊 (v,u)的感染量為1/du。并且閾值θ根據(jù)所選數(shù)據(jù)集規(guī)模而定:對(duì)于小規(guī)模Karate數(shù)據(jù)集,設(shè)定θ∈[0,0.5]。
假設(shè)已知候選謠言源點(diǎn)集合,為了提高推斷精確度,本文提出基于網(wǎng)絡(luò)狀態(tài)相似度的標(biāo)簽算法用以平滑候選節(jié)點(diǎn)的標(biāo)簽值。該算法的流程具體如下:
1)構(gòu)建初始謠言源集合。候選源節(jié)點(diǎn)k作為初始謠言源集合,進(jìn)行謠言源節(jié)點(diǎn)標(biāo)注。
2)選擇傳播模型。采用SI模型和LT模型兩種模型,每種模型在同一數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。
4)利用余弦距離公式計(jì)算每個(gè)節(jié)點(diǎn)的相似度分?jǐn)?shù)。每個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)狀態(tài)L1和L2和實(shí)際網(wǎng)絡(luò)狀態(tài)L相似度,其中取值越大的點(diǎn)成為謠言源點(diǎn)的可能性越大。
5)生成相似度分?jǐn)?shù)集S'。選取相似度分?jǐn)?shù)值最大的前k個(gè)節(jié)點(diǎn)作為相似度分?jǐn)?shù)集。
基于網(wǎng)絡(luò)狀態(tài)相似度的標(biāo)簽算法的具體細(xì)節(jié)如表1所示,通過此算法主要是計(jì)算出相似分?jǐn)?shù)集合,供平滑方法使用。
表1 基于網(wǎng)絡(luò)狀態(tài)相似度的標(biāo)簽算法
采用平滑公式用以將上一節(jié)中得到的標(biāo)簽迭代分?jǐn)?shù)和上一小節(jié)得到的相似度分?jǐn)?shù)做結(jié)合,以便得到每個(gè)節(jié)點(diǎn)最終的分?jǐn)?shù)(分?jǐn)?shù)越高,該節(jié)點(diǎn)越有可能是謠言源節(jié)點(diǎn)),平滑公式如式(2)所示:
S代表經(jīng)過平滑后每個(gè)節(jié)點(diǎn)的最終分?jǐn)?shù);β表示平滑超參數(shù),可以人為設(shè)定并根據(jù)實(shí)驗(yàn)效果進(jìn)行調(diào)節(jié),s′代表經(jīng)過反向傳播算法計(jì)算后的節(jié)點(diǎn)分?jǐn)?shù)值,因?yàn)閟′是經(jīng)過余弦距離計(jì)算得到的結(jié)果,因此s′的取值范圍在0~1之間;s表示標(biāo)簽傳播算法計(jì)算后每個(gè)節(jié)點(diǎn)的標(biāo)簽值,s的取值范圍大于0。由此可見,s′和s的取值范圍并不相同,為了方便兩種分?jǐn)?shù)結(jié)合,我們需要將s重新映射到區(qū)間[0,1]之間,然后在采用某種方法將其與s′進(jìn)行結(jié)合。
我們需要尋找一種合適的函數(shù)s=f(x),其定義域?yàn)閤∈[0,+∞],其值域?yàn)閟∈[0,1]。滿足上述定義域和值域的函數(shù)有很多,最后決定選擇Sig?moid函數(shù),作為平滑公式轉(zhuǎn)換函數(shù)。
本實(shí)驗(yàn)選取Zachary's karate club數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),選取了三個(gè)針對(duì)社交網(wǎng)絡(luò)結(jié)構(gòu)謠言源檢測的方法作為我們的基準(zhǔn)方法,分別是2015年Zang等提出的方法,2012年P(guān)rakash等提出的方法和2017年Wang等提出的方法,這些方法和本論文提出的方法研究最為實(shí)驗(yàn)驗(yàn)證的對(duì)比數(shù)據(jù)。
圖1 展示了LSMNS方法和對(duì)照的基準(zhǔn)方法在SI模型時(shí)的實(shí)驗(yàn)對(duì)比。圖中,縱坐標(biāo)代表F-Score評(píng)價(jià)指標(biāo),取值范圍為0~0.5,橫坐標(biāo)K表示網(wǎng)絡(luò)中初始謠言源點(diǎn)的數(shù)量,在這里我們分別選用2,3,5作為初始謠言源點(diǎn)數(shù)量,并在這三種情況下分別對(duì)不同方法進(jìn)行了試驗(yàn)。由實(shí)驗(yàn)結(jié)果可以看出,當(dāng)初始謠言源節(jié)點(diǎn)設(shè)置為2、3和5時(shí),本論文提出的方法LSMNS都取得了最高的F-Score值。
圖1 采用SI傳播模型在Karate數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果
圖2展示了LSMNS方法和對(duì)照的基準(zhǔn)方法在LT模型時(shí)的實(shí)驗(yàn)對(duì)比。從圖2實(shí)驗(yàn)結(jié)果我們可以看出,當(dāng)初始謠言源節(jié)點(diǎn)設(shè)置為2、3和5時(shí),LS?MNS取得了最高的F-Score值。
圖2 采用LT傳播模型在Karate數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果
通過兩個(gè)SI和LT兩個(gè)模型實(shí)驗(yàn),可以看出本文提出的LSMNS算法對(duì)于檢驗(yàn)謠言源點(diǎn)都取得了最高值,因此,這個(gè)方法在這四個(gè)比較過程中年也是最可行的方法。
社交網(wǎng)絡(luò)中謠言識(shí)別問題一直以來都是研究者所關(guān)注的熱點(diǎn),有效地識(shí)別謠言源頭并在第一時(shí)間阻止其傳播,可以較大程度減少謠言所帶來的危害。本文研究了社交網(wǎng)絡(luò)謠言源識(shí)別的問題,特別是在特定傳播模型信息的情況下,通過網(wǎng)絡(luò)狀態(tài)進(jìn)行網(wǎng)絡(luò)謠言源識(shí)別問題。在已有相關(guān)工作的基礎(chǔ)上,設(shè)計(jì)了一種基于網(wǎng)絡(luò)相似度的標(biāo)簽聚類算法,通過此算法可以有效地在特定底層傳播模型信息的基礎(chǔ)下,通過網(wǎng)絡(luò)狀態(tài)識(shí)別謠言源頭。在線網(wǎng)絡(luò)謠言檢測近幾年來一直是社交網(wǎng)絡(luò)、信息傳播、以及輿情控制領(lǐng)域所關(guān)注的重點(diǎn)問題,伴隨著社交網(wǎng)絡(luò)數(shù)據(jù)量的飛速增長,謠言類型必將更加多樣,謠言危害性也會(huì)不斷增長,因此,社交網(wǎng)絡(luò)謠言檢測問題在未來仍將成為科研領(lǐng)域的熱點(diǎn)。