范純龍,肖 昕,余 玲,徐 蕾
(沈陽航空航天大學(xué)計(jì)算機(jī)學(xué)院,沈陽 110136)
目前,網(wǎng)絡(luò)輿情的研究多數(shù)建立在輿情自發(fā)傳播的前提下,集中在提取輿情話題分析和輿情傾向性分析等上面[6]。網(wǎng)絡(luò)社區(qū)的研究主要集中在博客[7]、學(xué)術(shù)網(wǎng)絡(luò)等特定人際關(guān)系分析方面[1,8]。對(duì)于以干擾輿情傳播為目標(biāo)的網(wǎng)絡(luò)行為研究則只見于特定輿情事件的證據(jù)追蹤上或簡單的帖文分析[2,9]。
網(wǎng)絡(luò)組織是由網(wǎng)絡(luò)上的系列活性結(jié)點(diǎn)構(gòu)成,具有群體行為特征的有機(jī)組織系統(tǒng)。網(wǎng)絡(luò)組織的主要形式有網(wǎng)絡(luò)水軍、搜索引擎優(yōu)化[10]及興趣社團(tuán)等。其中,網(wǎng)絡(luò)水軍主要從事的話題炒作、事件營銷等干擾輿情傳播的危害性行為,日益受到社會(huì)各方面的關(guān)注,對(duì)其特征和行為開展深入研究已成為一個(gè)新的研究方向。
本文以特定網(wǎng)絡(luò)論壇數(shù)據(jù)為研究分析對(duì)象,網(wǎng)絡(luò)論壇是人們發(fā)布信息和傳播輿情的重要途徑,CNNIC統(tǒng)計(jì)報(bào)告指出網(wǎng)絡(luò)論壇用戶占到網(wǎng)民用戶的28.2%[11]。且論壇用戶產(chǎn)生的數(shù)據(jù)呈現(xiàn)高度組織性和集中性,信息論壇已成為網(wǎng)絡(luò)水軍等盈利性組織的重要信息發(fā)布平臺(tái)。文中首先抽取論壇上某活躍板塊的帖文和評(píng)論回復(fù),然后提取發(fā)帖人、回復(fù)人、在線時(shí)長等統(tǒng)計(jì)信息并分析其特征,最后通過定義反映網(wǎng)絡(luò)組織成員間聯(lián)系程度的賬戶間關(guān)聯(lián)指標(biāo),利用社區(qū)劃分算法進(jìn)一步對(duì)水軍的組織結(jié)構(gòu)進(jìn)行研究。實(shí)驗(yàn)表明,特定論壇板塊中,水軍性質(zhì)的網(wǎng)絡(luò)組織占據(jù)論壇社團(tuán)總數(shù)的90%以上,水軍帖數(shù)約占總帖數(shù)的95%;在發(fā)帖人群中,水軍賬戶占比接近74%;說明論壇信息傳播嚴(yán)重偏離了自發(fā)傳播這一通常的輿情傳播研究前提。
水軍組織的網(wǎng)絡(luò)行為具有明確的群體性目的,多數(shù)以經(jīng)濟(jì)利益為目標(biāo),以擴(kuò)大輿情影響為內(nèi)容,因此在受眾較廣的論壇上,普遍存在各種水軍組織。我們選取了某大型論壇的IT傳聞吧作為分析目標(biāo),通過主動(dòng)參與的方式確認(rèn)該論壇上有水軍組織,并了解到若干帖文的炒作過程情況。
商周刊[12]的調(diào)查中,指出具有穩(wěn)定收入的水軍成員,每天的工作量較大,需要大量發(fā)帖或回復(fù),并且需要按照組織者的要求控制發(fā)帖周期并提交發(fā)帖證據(jù)鏈接,因此水軍的工作模式和工作過程應(yīng)該體現(xiàn)在論壇信息發(fā)布的時(shí)間分布上。
我們收集了IT吧中的帖文和回復(fù)共11402條,每一條記為1個(gè)發(fā)帖人次,采用24小時(shí)制,提取每一條信息發(fā)布時(shí)間中的小時(shí)數(shù)據(jù),則可以統(tǒng)計(jì)出每個(gè)小時(shí)時(shí)間段內(nèi)的發(fā)帖人次,記錄為A1,A2…A24;另外,利用論壇頁面中顯示的在線人數(shù),收集論壇每天的人數(shù)變化,記錄每個(gè)小時(shí)的在線人數(shù)B1,B2…B24。為了比較發(fā)帖人數(shù)與用戶在線人數(shù)間的關(guān)系,對(duì)兩組數(shù)據(jù)進(jìn)行如下變換:首先設(shè)=(∑∈{1..24}Xi)/24為一組數(shù)據(jù)的平均值,然后對(duì)每組數(shù)據(jù)進(jìn)行如下變化yi=Xi/,從而觀察兩組數(shù)據(jù)對(duì)均值的偏離程度,計(jì)算結(jié)果如圖1所示。
圖1 人數(shù)均值時(shí)間分布
從圖1可以看出如下兩點(diǎn)直觀結(jié)論:(1)理想狀態(tài)下,由采樣定理可知,發(fā)帖人次的時(shí)間分布與在線人數(shù)的時(shí)間分布相同,故兩條曲線應(yīng)該高度近似。但圖1卻說明,二者的分布規(guī)律明顯背離,二者的方差分別為0.81和0.35,即發(fā)帖情況對(duì)均值的偏離遠(yuǎn)大于在線人數(shù)對(duì)均值的偏離。其原因是發(fā)帖行為并不與論壇的整體在線人數(shù)分布一致,而是受水軍人數(shù)和其發(fā)帖行為影響的,在線人數(shù)中的大部分則是水軍帖文的影響受眾。
(2)信息發(fā)布行為具有明顯的工作周期特點(diǎn)。在發(fā)帖人分布對(duì)應(yīng)的曲線上可見明顯的3個(gè)大的波峰和3個(gè)大的波谷,這些波峰和波谷的時(shí)間分布與人們工作時(shí)間的分布一致,12點(diǎn)、19點(diǎn)為典型的就餐休息時(shí)間,24點(diǎn)至早8點(diǎn)為睡眠和早餐時(shí)間。另外21點(diǎn)的波峰明顯低于10點(diǎn)和16點(diǎn)的波峰,通過實(shí)際參與水軍發(fā)帖過程了解得知,因?yàn)樗姲l(fā)帖的鏈接提交時(shí)間一般為15點(diǎn)、18點(diǎn)或20點(diǎn)左右,許多水軍在完成任務(wù)后會(huì)休息或?qū)ふ倚碌娜蝿?wù),因此波谷明顯降低,而15點(diǎn)小波谷的形成也是源于這個(gè)原因。
為更加準(zhǔn)確的認(rèn)定源自于水軍行為的數(shù)據(jù),對(duì)IT吧中采集的數(shù)據(jù)進(jìn)行人工鑒別。首先對(duì)水軍帖及水軍給出了簡單的判定規(guī)則,水軍帖判定原則為具有電話號(hào)碼等明顯廣告特征或廣告性描述的發(fā)帖。水軍判定原則為下述三點(diǎn):(1)個(gè)人廣告帖發(fā)布數(shù)大于人均廣告帖數(shù);(2)設(shè)用戶i的平均發(fā)帖時(shí)間間隔小于相關(guān)發(fā)帖的快速瀏覽時(shí)間,快速瀏覽時(shí)間計(jì)算為發(fā)帖相關(guān)的文本總數(shù)/快速閱讀時(shí)的速度,快速閱讀速度閾值取400字/分鐘;(3)若存在賬戶 i、j,其發(fā)帖集合為 Pi、Pj,則 |Pi∩Pj|/|Pi∪Pj|反映了兩個(gè)賬戶間的行為一致性程度,通過觀察隨機(jī)抽取的20對(duì)用戶關(guān)系發(fā)現(xiàn),該值≥0.73時(shí),賬戶i和j性質(zhì)相同概率為100%,這作為同類型賬戶集合的擴(kuò)展原則。
表1 水軍帖分布表
在整個(gè)水軍組織分析實(shí)驗(yàn)中我們共采集帖文1183個(gè),抽取評(píng)論10216條,提取賬戶5595個(gè)。通過人工識(shí)別,帖文和賬戶的分析結(jié)果見表1、2。
表2 水軍賬戶分布表
從表1可以看出,在IT吧論壇中,水軍帖占發(fā)帖總數(shù)的比例為94.9%,說明IT吧中的信息基本已經(jīng)被有明確利益目的的發(fā)帖行為占據(jù)。從評(píng)論回復(fù)數(shù)區(qū)間的水軍帖分布情況看,回復(fù)數(shù)為0個(gè)和20個(gè)左右的帖子中,水軍帖占比甚至接近99%。而且其回復(fù)數(shù)區(qū)間偏低,這與兩種水軍行為相對(duì)應(yīng),一種是在各種論壇上發(fā)帖,保證帖文在網(wǎng)絡(luò)上大范圍的可見性;另一種是在發(fā)帖后,會(huì)在特定的時(shí)間段內(nèi)保持該帖盡可能出現(xiàn)在首頁或靠近首頁,擴(kuò)大帖文在網(wǎng)站上的影響力。
從表2可以看出,IT吧中的水軍賬戶占全部賬戶的比例為73.9%,明顯低于水軍帖占帖文的比例,說明許多正常用戶對(duì)水軍行為是有反應(yīng)的,這也是水軍發(fā)帖效果的一個(gè)直觀體現(xiàn)。另外,隨發(fā)帖量的增加,水軍賬戶在賬戶人群中的所占比例逐漸增高至接近90%。說明長期盤踞在論壇上的賬戶中,水軍比例是非常高的,通過實(shí)際參與發(fā)現(xiàn),這種大量信息發(fā)布者多是水軍團(tuán)隊(duì)的核心賬戶。
水軍的行為多數(shù)是由中介進(jìn)行組織和協(xié)調(diào),中介指定發(fā)帖的內(nèi)容、方式、數(shù)量及完成后的驗(yàn)證和支付,從而形成一個(gè)事實(shí)意義上的具有實(shí)際組織結(jié)構(gòu)的網(wǎng)絡(luò)社團(tuán)或網(wǎng)絡(luò)組織,因此水軍人員的網(wǎng)絡(luò)行為,應(yīng)該能夠部分反映這種組織及其實(shí)施過程的部分特征。文中利用采集的實(shí)驗(yàn)數(shù)據(jù),通過構(gòu)建賬戶間關(guān)系網(wǎng)絡(luò),然后利用復(fù)雜網(wǎng)絡(luò)分析中的社區(qū)發(fā)現(xiàn)技術(shù),分析水軍組織的結(jié)構(gòu)特征。
復(fù)雜網(wǎng)絡(luò)分析主要用于研究復(fù)雜網(wǎng)絡(luò)的拓?fù)涮卣鳌?dòng)態(tài)演化等,以發(fā)現(xiàn)復(fù)雜網(wǎng)絡(luò)中有意義的行為和規(guī)律[13]。社區(qū)發(fā)現(xiàn)技術(shù)是利用復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)間的緊密程度,通過聚類等算法將其化為若干個(gè)節(jié)點(diǎn)較少,結(jié)構(gòu)較簡單的子網(wǎng)絡(luò),從而利用這些子網(wǎng)絡(luò)代表不同的網(wǎng)絡(luò)社團(tuán)或組織[14]。目前,Newman等人提出了基于網(wǎng)絡(luò)模塊度GN算法[3]及其優(yōu)化算法 FN[4],CNM[5]等,已成為社區(qū)發(fā)現(xiàn)的基準(zhǔn)算法。在國內(nèi)黃健斌提出了TRAVEL的算法[15],林友芳等人針對(duì)基準(zhǔn)算法提出的以邊穩(wěn)定及完全信息圖模型的算法[16]。而本文將采取FN算法分析水軍的社團(tuán)組織情況。
水軍的組織行為體現(xiàn)在水軍成員間發(fā)帖和回帖過程中的相互配合上,因此水軍組織關(guān)系網(wǎng)絡(luò)是一個(gè)以賬戶為節(jié)點(diǎn),以賬戶間行為一致性的度量為邊權(quán)的復(fù)雜網(wǎng)絡(luò),文中采用同帖率 SPR(Same Post Rate)值來描述網(wǎng)絡(luò)中賬戶間的邊權(quán)值。設(shè)網(wǎng)絡(luò)賬戶集合為U,賬戶i和j參與發(fā)帖或回復(fù)的帖文集合分別為Pi和Pj,則與eij對(duì)應(yīng)的同帖率SPR(i,j)定義為:
eij為連接從i團(tuán)體到j(luò)團(tuán)體中的頂點(diǎn)的邊。該定義反映了兩個(gè)賬戶的共同發(fā)帖數(shù)占總發(fā)帖數(shù)的比例,并且利用網(wǎng)絡(luò)中的共同發(fā)帖數(shù)的最大值對(duì)該比值進(jìn)行了規(guī)范化,降低類似“兩個(gè)人僅同時(shí)參與了一個(gè)帖子的發(fā)布”這種情況的影響。
FN算法是基于局部搜索的快速復(fù)雜網(wǎng)絡(luò)聚類算法,其優(yōu)化目標(biāo)是極大化網(wǎng)絡(luò)模塊度評(píng)價(jià)函數(shù)(又稱Q函數(shù))。Q函數(shù)定義為簇內(nèi)實(shí)際邊權(quán)和與隨機(jī)情況下簇間期望邊權(quán)和之差,可以定量刻畫社團(tuán)結(jié)構(gòu)的優(yōu)劣,計(jì)算形式如下:
其中,m表示網(wǎng)絡(luò)邊權(quán)總和,kv=∑j∈Vevj,Avw=evw,當(dāng) i=j時(shí),δ(cv,cw)=1,當(dāng) i≠j時(shí),δ(cv,cw)=0。
FN算法的思想是迭代的選擇并合并兩個(gè)現(xiàn)有的社區(qū)。從將所有節(jié)點(diǎn)定義為一個(gè)獨(dú)立社區(qū)的初始解開始,每次迭代中,F(xiàn)N算法選擇使ΔQ值最大化的社區(qū)合并操作,直到Q值取到最大值。Newman等人發(fā)現(xiàn)在實(shí)際運(yùn)用中,一般好的社區(qū)結(jié)構(gòu)對(duì)應(yīng)大的Q值,當(dāng)Q值大于0.3時(shí)就表示網(wǎng)絡(luò)具有較好的社區(qū)結(jié)構(gòu)。
實(shí)驗(yàn)需要完成論壇信息采集、評(píng)論抽取、賬戶關(guān)系網(wǎng)構(gòu)建、社區(qū)劃分和網(wǎng)絡(luò)組織判定五個(gè)步驟,具體實(shí)驗(yàn)數(shù)據(jù)參見表1。其中,網(wǎng)絡(luò)組織需要在前文的人工篩選水軍結(jié)果數(shù)據(jù)的基礎(chǔ)上,依據(jù)如下原則判定:(1)孤立節(jié)點(diǎn)不計(jì)入社區(qū)數(shù)和網(wǎng)絡(luò)組織數(shù);(2)對(duì)于一個(gè)給定的社區(qū),如果其中水軍賬戶數(shù)超過社區(qū)人數(shù)的73.9%(前文的水軍賬戶占比),則認(rèn)定該社區(qū)為網(wǎng)絡(luò)組織。
表3 特征統(tǒng)計(jì)值
表3的Q值說明該網(wǎng)絡(luò)中存在非常明顯的社區(qū)組織結(jié)構(gòu),并且網(wǎng)絡(luò)組織活躍的特征明顯。首先,最大的社區(qū)就是最大的網(wǎng)絡(luò)組織,且網(wǎng)絡(luò)組織的平均人數(shù)高于社區(qū)的平均人數(shù),說明確實(shí)有水軍結(jié)成網(wǎng)絡(luò)組織并通過協(xié)同工作來達(dá)成引導(dǎo)輿情的目的;另外,網(wǎng)絡(luò)組織數(shù)與社區(qū)總數(shù)的比值約80%,則清晰的指明在當(dāng)前輿情環(huán)境下,特定論壇上的水軍組織極度活躍;最后,從圖2這個(gè)最大網(wǎng)絡(luò)組織的關(guān)系圖可以看出,在該圖中存在明顯的中心節(jié)點(diǎn),網(wǎng)絡(luò)也具有較為清晰的層次結(jié)構(gòu),符合網(wǎng)絡(luò)組織目前的組織結(jié)構(gòu),即一個(gè)水軍通常屬于特定的一個(gè)或若干個(gè)群體,由少量的組織者負(fù)責(zé)信息發(fā)布的過程組織和實(shí)施。
圖2 最大網(wǎng)絡(luò)組織
本文以特定網(wǎng)絡(luò)論壇數(shù)據(jù)為分析對(duì)象,抽取論壇上特定板塊的帖文、回復(fù)和賬戶信息,通過相關(guān)指標(biāo)和算法了解論壇上活躍的水軍行為及其特征。利用信息發(fā)布和在線人數(shù)的時(shí)間分布,從統(tǒng)計(jì)意義上指出了網(wǎng)絡(luò)組織存在的證據(jù),進(jìn)而通過人工分析,初步了解水軍帖、水軍賬戶在該論壇的總體情況,明確了論壇上因?yàn)樗姷拇嬖冢W(wǎng)絡(luò)信息已經(jīng)嚴(yán)重偏離了自發(fā)傳播的前提。最后,利用能夠體現(xiàn)水軍組織關(guān)系的同帖率指標(biāo),構(gòu)建了賬戶關(guān)系網(wǎng)絡(luò),并采用網(wǎng)絡(luò)社區(qū)分析算法和網(wǎng)絡(luò)組織判定原則,簡要分析了網(wǎng)絡(luò)組織的總體情況和最大網(wǎng)絡(luò)組織的基本結(jié)構(gòu),確認(rèn)了水軍具有典型組織結(jié)構(gòu)特點(diǎn)這一結(jié)論。
結(jié)合已有的分析,后續(xù)研究將主要集中在水軍組織結(jié)構(gòu)的詳細(xì)分析,與網(wǎng)絡(luò)上其他論壇的水軍活躍情況比對(duì),水軍組織行為在多個(gè)論壇上的協(xié)同分析等方面。
[1] Bo Yang,Zhihui Liu,Joseph A.Meloche,et al.Visualization of the Chinese academic web based on social network analysis[J].Journal of Information Science,2010,36(2):131 -143.
[2] C Chen,K Wu,V Srinivasan,et al.Battling the internet water army:Detection of hidden paid posters[DB/OL].http://arxiv.org/pdf/1111.4297.pdf.下載時(shí)間:2011-01-12.
[3] Newman MEJ,Girvan M.Finding and evaluating community structure in networks[J].Physical Review E,2004,69(2):02113.
[4] Newman MEJ.Fast algorithm for detecting community structure in networks[J].Physical Review E,2004,69(6):0633.
[5] Clauset A,Newman M.E.J,Moore C.Finding community structure in very large networks.Physical Review E,2004,70(6):66 -111.
[6]中科天璣.輿情關(guān)鍵技術(shù)的研究與應(yīng)用[R/OL].2009.5,http://www.golaxy.cn/Article_View.asp?id=22.
[7]楊宇航,趙鐵軍,于浩,等.Blog研究[J].軟件學(xué)報(bào),2008,11(4):912 -924
[8]張玉峰,王志芳.基于內(nèi)容相似度的論壇用戶社會(huì)網(wǎng)絡(luò)挖掘[J].情報(bào)雜志,2010,29(8):125 -130.
[9]張壽華,從帥,尚開雨,等.網(wǎng)絡(luò)輿情追蹤中熱點(diǎn)關(guān)鍵詞的提?。跩].河北大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,32(3):311 -315.
[10]馬曉玲,吳永和.對(duì)于搜索引擎優(yōu)化(SEO)的研究[J].情報(bào)雜志,2005(12):119 -121.
[11]中國互聯(lián)網(wǎng)絡(luò)信息中心.中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R/OL].2012 - 4.http://www.cnnic.net.cn/gywm/ndbg/201204/P020120507358937384891.pdf.
[12]商周刊編輯.“水軍”橫行[J].商周刊,2010(25):104-106.
[13]楊博,劉大有,LiuJM,等.復(fù)雜網(wǎng)絡(luò)聚類方法[J].軟件學(xué)報(bào),2009,20(1):54 -66.
[14]薄輝.社區(qū)發(fā)現(xiàn)技術(shù)的研究與實(shí)現(xiàn)[D].北京:北京交通大學(xué),2009.
[15]黃健斌,孫鶴立,DustinBORTNER,等.從鏈接密度遍歷序列中挖掘網(wǎng)絡(luò)社圖的層次結(jié)構(gòu)[J].軟件學(xué)報(bào),2011,22(5):951 -961.
[16]林友芳,王天宇,唐銳,等.一種有效的社會(huì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)模型和算法[J].計(jì)算機(jī)研究與發(fā)展,2012,49(2):337-345.
沈陽航空航天大學(xué)學(xué)報(bào)2012年5期