王淑琪,王未央
(上海海事大學(xué)信息工程學(xué)院,上海 201306)
網(wǎng)絡(luò)技術(shù)深入千家萬(wàn)戶,互聯(lián)網(wǎng)社交平臺(tái)隨之蓬勃發(fā)展。不管是國(guó)外的Twitter、Facebook,還是國(guó)內(nèi)的微博、QQ,這些社交應(yīng)用已成為每個(gè)互聯(lián)網(wǎng)用戶的必備軟件。在閑暇時(shí),人們登錄社交軟件,或與親朋好友聯(lián)系感情,或觀察網(wǎng)絡(luò)中發(fā)生的各種事件。人們享受于社交平臺(tái)便捷性和及時(shí)性。然而,網(wǎng)絡(luò)水軍的發(fā)展卻使得社交平臺(tái)信息的真實(shí)性發(fā)生轉(zhuǎn)變。網(wǎng)絡(luò)水軍是一群網(wǎng)絡(luò)中針對(duì)特定內(nèi)容發(fā)布特定信息的、被雇傭的網(wǎng)絡(luò)槍手。他們混跡于貼吧、論壇、微博等各個(gè)社交平臺(tái),當(dāng)受到有心人士雇傭,他們便會(huì)偽裝成普通用戶對(duì)目標(biāo)內(nèi)容進(jìn)行回復(fù)、評(píng)論和傳播,以此對(duì)正常用戶產(chǎn)生影響。
社交網(wǎng)絡(luò)平臺(tái)上廣大的用戶群體所隱藏的巨大商機(jī),催生了網(wǎng)絡(luò)水軍這一灰色產(chǎn)業(yè)的發(fā)展。他們利用微博輿論,發(fā)布廣告,傳播虛假信息,劫持熱門話題,更有甚者帶動(dòng)敏感話題,刺激激動(dòng)的網(wǎng)絡(luò)用戶造成惡劣的社會(huì)影響。時(shí)至今日,由網(wǎng)絡(luò)水軍策劃、炒熱的微博事件屢見(jiàn)不鮮。為遏制網(wǎng)絡(luò)水軍的發(fā)展,及時(shí)制止網(wǎng)絡(luò)水軍造成的惡劣影響,識(shí)別出隱藏在數(shù)以萬(wàn)計(jì)的普通用戶中的網(wǎng)絡(luò)水軍已成當(dāng)務(wù)之急。
本文主要對(duì)微博網(wǎng)絡(luò)水軍賬號(hào)的識(shí)別做出研究。網(wǎng)絡(luò)水軍作為大量水軍賬號(hào)構(gòu)成的群體,其基礎(chǔ)就是賬號(hào)本身,故此本文提取出所有微博賬號(hào)信息,劃分出粉絲數(shù)、關(guān)注數(shù)、粉絲關(guān)注比,平均微博數(shù)、信息完整度、勛章數(shù)、陽(yáng)光信用度等七大特征屬性,利用支持向量機(jī)進(jìn)行模型建立,從而將模型用于微博網(wǎng)絡(luò)水軍識(shí)別。
識(shí)別網(wǎng)絡(luò)水軍的方法主要有基于內(nèi)容特征、用戶特征、環(huán)境特征和綜合特征四個(gè)方向的研究。在網(wǎng)絡(luò)水軍發(fā)展早期,網(wǎng)絡(luò)水軍主要利用郵件進(jìn)行運(yùn)作,其產(chǎn)生的郵件內(nèi)容易于識(shí)別、容易處理,主要采用文本分類[2]、文本情感分析[3]以及文本傾向性[4]等方法。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,用戶意識(shí)開(kāi)始提高,傳統(tǒng)的網(wǎng)絡(luò)水軍不再能給網(wǎng)絡(luò)用戶造成影響,新型網(wǎng)絡(luò)水軍開(kāi)始滋生,他們的行為趨向于正常用戶,發(fā)布內(nèi)容不再有顯著特征,這使得傳統(tǒng)的依靠?jī)?nèi)容特征識(shí)別方法不再有效,相關(guān)學(xué)者基于此事實(shí)開(kāi)始對(duì)網(wǎng)絡(luò)水軍的用戶特征進(jìn)行分析。Ghosh等人[5]通過(guò)在Twitter中識(shí)別一組垃圾郵件賬戶并監(jiān)控其鏈接創(chuàng)建策略來(lái)分析當(dāng)前垃圾郵件發(fā)送者在線社交網(wǎng)絡(luò)中采用的策略。除了對(duì)網(wǎng)絡(luò)水軍的用戶特征分析外,相關(guān)學(xué)者另辟蹊徑,從網(wǎng)絡(luò)自身環(huán)境特征來(lái)分析網(wǎng)絡(luò)水軍特點(diǎn)。Las-Casas等人[6]提出了一種在源網(wǎng)絡(luò)中檢測(cè)垃圾郵件發(fā)送者的新方法,使用從巴西寬帶ISP收集的實(shí)際數(shù)據(jù)集采用監(jiān)督分類計(jì)數(shù)來(lái)進(jìn)行水軍識(shí)別?;诰C合特征的網(wǎng)絡(luò)水軍識(shí)別的方法是為了彌補(bǔ)特定類型網(wǎng)絡(luò)水軍識(shí)別方法無(wú)法全面分析而誕生的。
目前,國(guó)內(nèi)對(duì)微博平臺(tái)網(wǎng)絡(luò)水軍的識(shí)別方法研究有限。張良等人[7]利用累計(jì)分布函數(shù)提取用戶特征屬性,利用邏輯回歸算法建立識(shí)別水軍模型。袁旭萍等人[8]使用熵值法確定指標(biāo)權(quán)重,采用綜合指數(shù)和熵值法確立微博水軍自動(dòng)識(shí)別模型。程曉濤等人[9]利用水軍用戶無(wú)法改變與網(wǎng)絡(luò)中正常用戶的鏈接關(guān)系,采用了基于用戶關(guān)系圖特征的微博水軍賬號(hào)識(shí)別方法。諸如以上研究均是從對(duì)用戶賬號(hào)信息的特征屬性提取入手,但其算法對(duì)用戶賬號(hào)信息提取不全面,在網(wǎng)絡(luò)水軍行為逐漸趨于正常用戶的條件下,仍然不能全面識(shí)別微博水軍。
通過(guò)對(duì)以往微博網(wǎng)絡(luò)水軍識(shí)別方法的對(duì)比研究發(fā)現(xiàn),這些研究一般從用戶信息和用戶行為信息兩方面提取特征屬性,用戶信息方面簡(jiǎn)單提取基本信息,用戶行為信息一般提取微博內(nèi)容的URL率和文本自相似度。在特征提取這方面,以往研究用戶信息提取不全,用戶行為信息提取單一,而隨著網(wǎng)絡(luò)水軍運(yùn)轉(zhuǎn)方式轉(zhuǎn)變,不再單純的以發(fā)布廣告和惡意鏈接的方式運(yùn)營(yíng),其賬號(hào)背后有水軍操作而變得越來(lái)越隱藏化、用戶化,提取URL率和文本自相似度這兩條屬性已不再適合。故此,本文將提取出用戶賬號(hào)所具有的全部累計(jì)信息,經(jīng)過(guò)相關(guān)整理篩選得出有效的網(wǎng)絡(luò)水軍特征屬性。
粉絲數(shù):該用戶賬號(hào)被其他用戶賬號(hào)關(guān)注總數(shù)。由于水軍賬號(hào)一般為完成雇主任務(wù)而產(chǎn)生,此賬號(hào)上一般和其他用戶不具有交互性,排除被正常用戶意外關(guān)注,水軍賬號(hào)的粉絲數(shù)一般比正常用戶粉絲數(shù)少。
關(guān)注數(shù):該用戶關(guān)注其他用戶賬號(hào)總數(shù)。網(wǎng)絡(luò)水軍的灰色產(chǎn)業(yè)鏈下存在粉絲數(shù)買賣的情況,即有正常用戶為滿足其高關(guān)注度的要求,購(gòu)買僵尸粉對(duì)自身關(guān)注,從而提高用戶的粉絲數(shù)。另外,由于水軍接受各個(gè)雇主任務(wù),需要關(guān)注各類熱點(diǎn)話題,其本身就要對(duì)大量賬號(hào)進(jìn)行關(guān)注。綜上兩種情況,水軍賬號(hào)的關(guān)注數(shù)要遠(yuǎn)遠(yuǎn)高于正常用戶的關(guān)注數(shù)。
粉絲關(guān)注比:每個(gè)用戶的粉絲數(shù)同其關(guān)注數(shù)的比值。為了排除個(gè)別正常用戶因?yàn)樘貏e需要而產(chǎn)生的低粉絲數(shù)或高關(guān)注數(shù)的情況,采用用戶粉絲數(shù)與關(guān)注數(shù)的比值可以更好地區(qū)分水軍和正常用戶,即粉絲關(guān)注比越高,該用戶越可能是認(rèn)證用戶,粉絲關(guān)注比越低,則可能是水軍賬號(hào)。其公式如下:
微博數(shù):用戶賬號(hào)已經(jīng)發(fā)布的微博總數(shù)。水軍賬號(hào)在進(jìn)行制造和傳播輿論時(shí),會(huì)大量的發(fā)布和轉(zhuǎn)發(fā)相關(guān)微博,而正常用戶一般只會(huì)因?yàn)槟承┦录l(fā)布微博作為傾述或吐槽需要,不會(huì)大量發(fā)布微博,故而水軍用戶的微博數(shù)量比正常用戶要多得多。
平均微博數(shù):自創(chuàng)建微博賬號(hào)起,該用戶賬號(hào)平均每天發(fā)布的微博數(shù)。
資料完善度:此為綜合評(píng)價(jià)指標(biāo),其中包括性別、生日、所在地、QQ、大學(xué)、工作經(jīng)歷六個(gè)基本資料,每個(gè)小指標(biāo)填寫(xiě)則為1,不填寫(xiě)則為0。資料完善度為各小指標(biāo)的加和總值。
是否有簡(jiǎn)介:由用戶手動(dòng)編寫(xiě),方便其他用戶了解該賬號(hào)用戶,具有極強(qiáng)的個(gè)性化。簡(jiǎn)介填寫(xiě)則該指標(biāo)為1,沒(méi)有則為0。
標(biāo)簽數(shù):標(biāo)簽是用戶為讓更多志趣相同之人找到自己的個(gè)性化描述詞語(yǔ),如校園生活、讀書(shū)分享等。標(biāo)簽數(shù)多少則反應(yīng)該用戶興趣廣泛程度和其活躍度。
微博等級(jí):微博等級(jí)是用戶活躍和榮譽(yù)的見(jiàn)證。隨著用戶在微博上的探索和成長(zhǎng),等級(jí)會(huì)隨之增加。
勛章個(gè)數(shù):勛章是用戶參與微博上各類活動(dòng)所授予的圖標(biāo)。其個(gè)數(shù)能反應(yīng)該用戶的活躍程度。
會(huì)員信息:用戶為獲得微博特權(quán)服務(wù)而付費(fèi)開(kāi)通的標(biāo)志,微博會(huì)員等級(jí)為1-7級(jí)。
陽(yáng)光信用:微博陽(yáng)光信用致力于成為自然人網(wǎng)絡(luò)身份的一個(gè)固有價(jià)值屬性。它結(jié)合了用戶的發(fā)言歷史、活躍度、違規(guī)記錄、商業(yè)記錄、實(shí)名以及社交關(guān)系等行為,是微博用戶在網(wǎng)絡(luò)上陽(yáng)光討論、積極表達(dá)、理性交流的衡量標(biāo)尺。陽(yáng)光信用劃分為5個(gè)等級(jí),等級(jí)越高信用極好,等級(jí)越低信用極低。
網(wǎng)絡(luò)水軍識(shí)別實(shí)際上是一個(gè)二分類問(wèn)題,以微博平臺(tái)所有用戶為一個(gè)大集合,所有用戶的行為模式基本類似,因此對(duì)單個(gè)用戶賬號(hào)的判別只有兩種情況,一種是網(wǎng)絡(luò)水軍,一種不是網(wǎng)絡(luò)水軍。設(shè)U為微博用戶集合,Uy為網(wǎng)絡(luò)水軍集合,Un為非網(wǎng)絡(luò)水軍集合,則U={Uy,Un}。設(shè) x為用戶特征向量,則 x={x1,x2,…,xi,…,xn},其中xi表示上一節(jié)提到的各個(gè)用戶特征屬性。存在一個(gè)目標(biāo)函數(shù)F,使得,即目標(biāo)函數(shù) F→{0,1}的映射。當(dāng)F(x)=1時(shí),表示該特征向量標(biāo)志的用戶信息屬于水軍集合,反之,F(xiàn)(x)=0,則表示屬于正常用戶集合。
支持向量機(jī)是由Corinna Cortes和Vapnik在1995年提出的一種前饋類型網(wǎng)絡(luò)的傳統(tǒng)機(jī)器學(xué)習(xí)分類算法,它以訓(xùn)練誤差作為優(yōu)化問(wèn)題的約束條件,以置信范圍值最小化作為優(yōu)化目標(biāo),即SVM是一種結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則的學(xué)習(xí)方法。
SVM的工作原理便是將原始數(shù)據(jù)通過(guò)變換映射到高緯度特征空間,這樣即使數(shù)據(jù)不是線性可分,也可以對(duì)數(shù)據(jù)點(diǎn)進(jìn)行分類,然后使用變換后的新數(shù)據(jù)進(jìn)行預(yù)測(cè)分類。
從線性可分模式分類角度來(lái)理解,SVM的主要思想是建立一個(gè)最優(yōu)決策超平面,使得該平面兩側(cè)平面最近的兩類樣本之間的距離最大化,從而對(duì)分類問(wèn)題提供良好的泛化能力。
定義1最優(yōu)超平面有n個(gè)線性可分樣本{(x1,y1),(x2,y2),…,(xn,yn)},對(duì)于任意輸入樣本 xi,期望輸出 yi=±1(代表兩類類別標(biāo)志)。用于分類的超平面方程為wTx+b=0,其中,x為輸入向量,w為權(quán)值,b為偏置,則有wTx+b>0,y=+1;wTx+b<0,y=-1。
超平面與最近的樣本點(diǎn)之間的間隔成為分離邊緣,支持向量機(jī)的目標(biāo)是找到一個(gè)分離邊緣最大的超平面,即最優(yōu)超平面,也就是要確定分離邊緣最大時(shí)w和b的值。這樣,分離邊緣最大化等價(jià)于使權(quán)值向量范數(shù)‖w‖最小化。通過(guò)對(duì)一個(gè)復(fù)雜的最優(yōu)化問(wèn)題的求解簡(jiǎn)化為對(duì)原有樣本數(shù)據(jù)的內(nèi)積運(yùn)算。在d(wTx+b)≥1的約束下,可得最小化代價(jià)函數(shù):
該約束優(yōu)化問(wèn)題的代價(jià)函數(shù)是w的凸函數(shù),且關(guān)于w的約束條件是線性,因此可用langrange系數(shù)方程解決約束最優(yōu)問(wèn)題。
而對(duì)于復(fù)雜的模式分類問(wèn)題非線性地投射到高位特征空間可能是線性可分的,因此只要特征空間的維數(shù)足夠高,則原始模式空間能變換為一個(gè)新的高位特征空間,使得在特征空間中模式以較高的概率為線性可分的,這樣就可以解決非線性可分?jǐn)?shù)據(jù)的分類問(wèn)題。
然而,如何將低位空間向量集映射到高位空間?這邊涉及到SVM的關(guān)鍵,核函數(shù)的選擇。核函數(shù)可以巧妙地解決計(jì)算復(fù)雜度的問(wèn)題,只要選用適當(dāng)?shù)暮撕瘮?shù),就可以得到高維空間的分類函數(shù),采用不同的核函數(shù)得到不同的SVM算法。常見(jiàn)的核函數(shù)類型有以下幾種:
(1)線性核函數(shù):K(x,xi)=x·xi
(2)多項(xiàng)式核函數(shù):K(x,xi)=((x·xi)+1)d
(4)Sigmoid 核函數(shù):K(x,xi)=tanh(κ(x,xi)-δ)
其中,RBF核主要用于線性不可分的情形,適用于參數(shù)多,分類結(jié)果非常依賴于參數(shù)的實(shí)際問(wèn)題。根據(jù)微博數(shù)據(jù)特征屬性特點(diǎn),本文選擇RBF核解決數(shù)據(jù)分類問(wèn)題。
為獲取實(shí)驗(yàn)相關(guān)數(shù)據(jù),需要對(duì)大量用戶數(shù)據(jù)進(jìn)行收集處理。新浪微博用戶信息可以利用新浪微博開(kāi)放的API進(jìn)行,但是考慮到使用API調(diào)用的用戶信息不夠全面,且新浪微博API調(diào)用防非法操作措施,通過(guò)API調(diào)用獲取數(shù)據(jù)并不能滿足實(shí)驗(yàn)數(shù)據(jù)要求。本文選擇采用爬取程序從新浪微博開(kāi)放平臺(tái)采集微博用戶信息。由于支持向量機(jī)本身在解決小樣本識(shí)別中表現(xiàn)出特有的精確優(yōu)勢(shì),故而使用爬取程序獲取用戶信息1036條。經(jīng)過(guò)對(duì)數(shù)據(jù)有效性篩選,獲得934條正常用戶信息數(shù)據(jù)。通過(guò)網(wǎng)絡(luò)購(gòu)買水軍的方式,手動(dòng)獲取到200條水軍用戶信息數(shù)據(jù)。
對(duì)上述獲得的數(shù)據(jù)信息進(jìn)行預(yù)處理:
數(shù)據(jù)清理:填寫(xiě)少量缺失值、光滑噪聲數(shù)據(jù)、刪除離群點(diǎn)。
數(shù)據(jù)變化:對(duì)某些字段進(jìn)行規(guī)范化,使其適用于SVM。本文采用IBM SPSS Modeler作為本實(shí)驗(yàn)的軟件工具。SPSS自身集成SVM功能,且提供了可視化的操縱方便,界面友好,操作方便。
(1)創(chuàng)建基本流,建立模型
圖1
(2)模型測(cè)試結(jié)果圖
從圖2實(shí)驗(yàn)結(jié)果我們可以看出,基于支持向量機(jī)的微博水軍賬號(hào)識(shí)別精確度達(dá)到94.22%,同文獻(xiàn)[7]實(shí)驗(yàn)結(jié)果比較,本文實(shí)驗(yàn)結(jié)果精確度基本高于文[7]精確獻(xiàn)度,說(shuō)明相較于采用邏輯回歸算法作水軍檢測(cè),采用支持向量機(jī)模型具有更高的識(shí)別精確率,更加有效。
圖2
網(wǎng)絡(luò)技術(shù)日新月異,越來(lái)越多的用戶加入到互聯(lián)網(wǎng)大軍中,網(wǎng)絡(luò)水軍這一灰色產(chǎn)業(yè)產(chǎn)生了巨大的利益誘惑,要及時(shí)遏制網(wǎng)絡(luò)水軍造成的輿論誤導(dǎo)、熱點(diǎn)綁架等影響,就要從源頭抓起,揪出隱匿在微博用戶群體中的水軍賬號(hào)。本文采用了一種基于支持向量的水軍賬號(hào)檢測(cè)模型,針對(duì)目前水軍行為特征趨向正常用戶的混同表現(xiàn),收集代表用戶的全部客觀信息作為檢測(cè)依據(jù),實(shí)驗(yàn)結(jié)果表明本文的模型可以更精確的識(shí)別出網(wǎng)絡(luò)水軍。在今后的研究中,可以對(duì)支持向量機(jī)做出優(yōu)化,使其能適應(yīng)各種不同平臺(tái)的水軍檢測(cè)。
參考文獻(xiàn):
[1]莫倩,楊珂.網(wǎng)絡(luò)水軍識(shí)別研究[J].軟件學(xué)報(bào),2014,25(7):1505-1526.http://www.jos.org.cn/1000-9825/4617.html
[2]Sriram B,Fuhry D,Demir E,Ferhatosmanoglu H,Demirbas M.Short Text Classification in Twitter to Improve Information Filtering.In:Crestani F,Marchand-Maillet S,Chen HH,eds.Proc.of the 33rd Int'l ACM SIGIR Conf.on Research and Development in Information Retrieval(SIGIR 2010).New York:ACM Press,2010:841-842.
[3]Zhao YY,Qin B,Liu T.Sentiment Analysis.Ruan Jian Xue Bao.Journal of Software,2010,21(8):1834-1848(in Chinese with English abstract).http://www.jos.org.cn/1000-9825/3832.html.
[4]Liu B.Sentiment Analysis And Subjectivity.In:Indurkhya N,Damerau FJ,eds.Handbook of Natural Language Processing.Boca Raton:CRC Press,2010:627-666.
[5]Ghosh S,Korlam G,Ganguly N.Spammers'Networks Within Online Social Networks:A Case-study on Twitter.In:Sadagopan S,Ramamritham K,Kumar A,Ravindra MP,Bertino E,Kumar R,eds.Proc.of the 20th Int’l Conf.on World Wide Web(WWW 2011).New York:ACM Press,2011:41-42.
[6]Las-Casas PHB,Guedes D,Almeida JM,Ziviani A,Marques-Neto HT.SpaDeS:Detecting Spammers at the Source Network.Computer Networks,2012,57(2):526-539.
[7]張良,朱湘,李愛(ài)平,等.一種基于邏輯回歸算法的水軍識(shí)別方法[J].信息安全與技術(shù),2015(4):57-62.
[8]袁旭萍,王仁武,翟伯蔭.基于綜合指數(shù)和熵值法的微博水軍自動(dòng)識(shí)別[J].情報(bào)雜志,2014(7):176-179.
[9]程曉濤,劉彩霞,劉樹(shù)新.基于關(guān)系圖特征的微博水軍發(fā)現(xiàn)方法[J].自動(dòng)化學(xué)報(bào),2015,41(9):1533-1541.
[10]張艷梅,黃瑩瑩,甘世杰,等.基于貝葉斯模型的微博網(wǎng)絡(luò)水軍識(shí)別算法研究[J].通信學(xué)報(bào),2017,38(1):44-53.
[11]楊臻,張明慧,肖漢.基于多特征的網(wǎng)絡(luò)水軍識(shí)別方法[J].激光雜志,2016(12):110-113.
[12]謝忠紅,張穎,張琳.基于邏輯回歸算法的微博水軍識(shí)別[J].微型機(jī)與應(yīng)用,2017(16):67-69.
[13]韓忠明,許峰敏,段大高.面向微博的概率圖水軍識(shí)別模型[J].計(jì)算機(jī)研究與發(fā)展,2013,50(s2):180-186.