王雷 陳大文
(江蘇金盾檢測(cè)技術(shù)有限公司 江蘇省南京市 210042)
隨著互聯(lián)網(wǎng)的發(fā)展與應(yīng)用,人們邁進(jìn)Web2.0 的時(shí)代,使人們由信息的接收者轉(zhuǎn)向信息貢獻(xiàn)者和信息創(chuàng)造者,大眾之間的虛擬交流變的更加頻繁。在各大網(wǎng)絡(luò)平臺(tái),用戶(hù)注冊(cè)數(shù)量不端攀升,根據(jù)之前微博的財(cái)報(bào)顯示,目前微博的月活躍用戶(hù)已經(jīng)超過(guò)3.76 億,美國(guó)點(diǎn)評(píng)網(wǎng)站Yelp 擁有超過(guò)1.08 億條評(píng)論信息,評(píng)論年增長(zhǎng)超過(guò)0.18 億[1]。隨著阿里巴巴、郵件服務(wù)、網(wǎng)絡(luò)論壇等眾多領(lǐng)域都取得了飛速發(fā)展[2],大量不法分子發(fā)現(xiàn)了其中的巨大利益,利用網(wǎng)絡(luò)賬號(hào)發(fā)布謠言,欺騙公眾,造成了市場(chǎng)的混亂和社會(huì)的不穩(wěn)定。網(wǎng)絡(luò)水軍指那些由商業(yè)利益驅(qū)動(dòng),為達(dá)到不正當(dāng)目的,通過(guò)操縱水軍賬號(hào),在互聯(lián)網(wǎng)中制造、傳播虛假信息和垃圾意見(jiàn)等網(wǎng)絡(luò)垃圾意見(jiàn)生產(chǎn)者的總稱(chēng)[3],在電商平臺(tái)中則是營(yíng)銷(xiāo)水軍。
在網(wǎng)絡(luò)上購(gòu)物時(shí),用戶(hù)留下的評(píng)論信息可以直接影響消費(fèi)者的購(gòu)買(mǎi)意愿。購(gòu)買(mǎi)者對(duì)商品留下的評(píng)論信息往往具有重要的參考價(jià)值,可以了解到商品的真實(shí)情況。由于利益的驅(qū)動(dòng),一些商家會(huì)雇傭水軍為自己的商品散布一些不真實(shí)的正面評(píng)論以提高銷(xiāo)量,或是發(fā)布關(guān)于其他商家商品的負(fù)面評(píng)價(jià)。這些營(yíng)銷(xiāo)水軍的存在嚴(yán)重影響了電商平臺(tái)的正常競(jìng)爭(zhēng)機(jī)制。因此如何通過(guò)相關(guān)技術(shù)手段來(lái)識(shí)別這些網(wǎng)絡(luò)水軍已經(jīng)成為了一個(gè)日益迫切的問(wèn)題。
網(wǎng)絡(luò)水軍識(shí)別主要運(yùn)用Web 信息挖掘技術(shù),定義高區(qū)分度特征及行為模式發(fā)現(xiàn)隱藏的網(wǎng)絡(luò)水軍[4]。由于早期網(wǎng)絡(luò)環(huán)境并不復(fù)雜,獲得郵箱的途徑便捷且代價(jià)很小,所以傳統(tǒng)網(wǎng)絡(luò)水軍多是通過(guò)用戶(hù)郵箱來(lái)進(jìn)行欺詐活動(dòng),其數(shù)量規(guī)模也不大,隱蔽性也不高,垃圾信息也較為單一,因而識(shí)別方法主要基于垃圾信息內(nèi)容分析,例如郵件內(nèi)容分析[5]來(lái)檢測(cè)水軍。而面對(duì)Web2.0 時(shí)代的新型網(wǎng)絡(luò)水軍,傳統(tǒng)的檢測(cè)方法已無(wú)法滿(mǎn)足要求,需要結(jié)合新的技術(shù)來(lái)解決問(wèn)題。
表1:傳統(tǒng)水軍識(shí)別與新型水軍識(shí)別的比較
國(guó)內(nèi)外網(wǎng)絡(luò)水軍識(shí)別研究取得了很大的進(jìn)展,但是還是存在很多問(wèn)題需要解決。從最早集中于郵件內(nèi)容的研究,到如今針對(duì)各大網(wǎng)絡(luò)平臺(tái)上水軍的識(shí)別研究,出現(xiàn)了很多有效的技術(shù)和識(shí)別方法。
Niu、Chen 等人[6]從論壇網(wǎng)站,用戶(hù)瀏覽行為和論壇水軍這幾個(gè)角度分析后,提出了基于內(nèi)容特征來(lái)識(shí)別水軍制造的垃圾信息。劉鴻宇、趙妍妍等人[7]對(duì)評(píng)論內(nèi)容進(jìn)行了對(duì)象抽取和傾向性判斷,從而識(shí)別區(qū)別于正常用戶(hù)的水軍。
Husna 等人[8]分析了郵件機(jī)器人的行為特征,例如內(nèi)容長(zhǎng)度、垃圾郵件到達(dá)時(shí)間、垃圾郵件頻率等,還計(jì)算了郵件水軍的相似性對(duì)其聚類(lèi)分析。Lim 等人[9]捕捉了Amazon 中幾種具有代表性的網(wǎng)絡(luò)水軍行為,并設(shè)計(jì)了基于商品評(píng)價(jià)偏離的識(shí)別方法。Sawaya、Kubota 等人[10]首次發(fā)現(xiàn)了移動(dòng)服務(wù)商骨干網(wǎng)絡(luò)中的水軍有嚴(yán)格的時(shí)間序列特征和發(fā)送模式,并利用這些特征對(duì)其進(jìn)行聚類(lèi)分析。
Uddin 等人[11]利用邊緣路由器IP 沖突記錄,通過(guò)網(wǎng)絡(luò)流量來(lái)得到水軍的網(wǎng)絡(luò)級(jí)別行為特征。Schatzmann 等人[12]提出了從網(wǎng)絡(luò)核心部分分析網(wǎng)絡(luò)水軍行為,以實(shí)現(xiàn)復(fù)雜網(wǎng)絡(luò)水軍的探測(cè)。Las-Casas 等人[13]提出從網(wǎng)絡(luò)水軍產(chǎn)生源頭進(jìn)行識(shí)別的方法,即基于水軍產(chǎn)生時(shí)的網(wǎng)絡(luò)特征識(shí)別。
在Web 2.0 時(shí)代,網(wǎng)絡(luò)環(huán)境的劇烈變化而引發(fā)的新問(wèn)題早已超出了傳統(tǒng)方案解決的能力。早期的傳統(tǒng)營(yíng)銷(xiāo)水軍模式單一,行為復(fù)雜度不高,而今的營(yíng)銷(xiāo)水軍通過(guò)多種手段和渠道進(jìn)行欺詐,散布謠言等活動(dòng),其行為模式也更為隱蔽,使其加大了對(duì)營(yíng)銷(xiāo)水軍識(shí)別的難度。如表1 所示。
目前網(wǎng)絡(luò)上營(yíng)銷(xiāo)水軍的運(yùn)作模式還是以散布廣告,虛假文本信息為主,例如,在我們熟知的新浪微博中,首先會(huì)有一個(gè)主管人向水軍用戶(hù)發(fā)布相關(guān)任務(wù),每個(gè)水軍得到大致任務(wù)后,再根據(jù)具體要求向其他正常用戶(hù)發(fā)送信息。這其中,有的水軍可能會(huì)被分配向那些擁有很多粉絲的大咖發(fā)送營(yíng)銷(xiāo)文案,另外一部分可能會(huì)被安排向較為活躍的普通用戶(hù)發(fā)送廣告,這些不同的用戶(hù)群體構(gòu)成了不同的圈子,組織者會(huì)根據(jù)不同圈子的特點(diǎn)來(lái)組織水軍進(jìn)行營(yíng)銷(xiāo),其內(nèi)容也會(huì)根據(jù)不同用戶(hù)而改變。營(yíng)銷(xiāo)水軍組織形式如圖1 所示。
不管每個(gè)水軍的行為模式和組織團(tuán)體如何變化,它們?cè)诰W(wǎng)絡(luò)中與正常用戶(hù)的關(guān)系結(jié)構(gòu)是大致相同的,即每個(gè)營(yíng)銷(xiāo)用戶(hù)都會(huì)與大量正常用戶(hù)節(jié)點(diǎn)產(chǎn)生信息交流。假設(shè)網(wǎng)絡(luò)中的所有用戶(hù)為節(jié)點(diǎn),用戶(hù)之間產(chǎn)生的聯(lián)系為邊,則可以構(gòu)建如圖2 的分布特性。
因?yàn)樗娦枰l(fā)布大量的信息給不同用戶(hù),基于這個(gè)性質(zhì)可以發(fā)現(xiàn)水軍基本上會(huì)和大量用戶(hù)產(chǎn)生關(guān)聯(lián)關(guān)系。從上圖中來(lái)看,營(yíng)銷(xiāo)水軍的出度普遍要大于入度,而普通用戶(hù)并沒(méi)有這一規(guī)律。出度為本節(jié)點(diǎn)向另外的節(jié)點(diǎn)發(fā)送信息,入度為本節(jié)點(diǎn)接收來(lái)自其他節(jié)點(diǎn)的信息。
網(wǎng)絡(luò)營(yíng)銷(xiāo)水軍在各大電商平臺(tái)的涌現(xiàn),也隨之帶來(lái)了大量的營(yíng)銷(xiāo)信息,這些營(yíng)銷(xiāo)信息多是在商品評(píng)論區(qū)作為載體進(jìn)行散布。正是因?yàn)檫@些信息具有不符合實(shí)際的因素,從而可以被稱(chēng)為虛假評(píng)論。這些虛假評(píng)論鼓吹和夸大商品特點(diǎn),影響用戶(hù)正確的選擇和消費(fèi)行為。如何在網(wǎng)絡(luò)平臺(tái)中識(shí)別這些虛假評(píng)論一直是國(guó)內(nèi)外研究的重點(diǎn)。
目前虛假評(píng)論的識(shí)別研究技術(shù)主要是在兩個(gè)方面:基于評(píng)論內(nèi)容的方法和基于評(píng)論者行為的方法。為了增加營(yíng)銷(xiāo)信息發(fā)布的范圍和傳播速度,水軍做出的評(píng)論一般都具有高重復(fù),形式單一等特點(diǎn),基于評(píng)論內(nèi)容的方法主要通過(guò)自然語(yǔ)言處理的相關(guān)技術(shù)來(lái)識(shí)別評(píng)論中的顯著特征,以此來(lái)判斷評(píng)論真假。Stringhini 和Kruegel 等人[14]在幾個(gè)主流社交網(wǎng)站上使用自己的“誘捕器”收集了水軍的行為數(shù)據(jù),發(fā)現(xiàn)了與正常用戶(hù)的不同之處。例如,水軍集中性的發(fā)布評(píng)論會(huì)給網(wǎng)絡(luò)帶來(lái)異常流量,所以它們會(huì)故意避開(kāi)工作時(shí)間段發(fā)布信息。
圖3 展示了一般的虛假評(píng)論檢測(cè)方法框架,第一步是選擇使用的數(shù)據(jù)集,早期使用的數(shù)據(jù)以評(píng)論文本為主,往后又加入了評(píng)論者的行為數(shù)據(jù)以提高檢測(cè)精度。然后經(jīng)過(guò)數(shù)據(jù)預(yù)處理階段過(guò)濾無(wú)效樣本,下一步中,通過(guò)特征工程來(lái)選取與任務(wù)最相關(guān)的特征,這也是影響最終結(jié)果關(guān)鍵的一步,一旦確定了特征之后即可將相關(guān)特征送入機(jī)器學(xué)習(xí)模型,通過(guò)計(jì)算后得出判斷結(jié)果。
從目前的研究來(lái)看,現(xiàn)有的方法仍然有不少不足之處。使用行為特征的檢測(cè)模型是基于營(yíng)銷(xiāo)水軍的行為與正常用戶(hù)不同這一假設(shè)而來(lái),但是隨著網(wǎng)絡(luò)環(huán)境的復(fù)雜化,用戶(hù)意識(shí)到大量水軍的存在并加強(qiáng)了對(duì)水軍的警惕性,導(dǎo)致?tīng)I(yíng)銷(xiāo)水軍不斷調(diào)整營(yíng)銷(xiāo)策略。這樣一來(lái)營(yíng)銷(xiāo)水軍的行動(dòng)更為隱蔽,一般的行為識(shí)別機(jī)制已無(wú)法探測(cè)。另外,作為營(yíng)銷(xiāo)手段的營(yíng)銷(xiāo)文案也有越來(lái)越多樣化的趨勢(shì),不同于直接復(fù)制發(fā)送的單一形式,現(xiàn)有的評(píng)論還會(huì)加入圖片,表情等多種元素,導(dǎo)致模型難以進(jìn)行有效的檢測(cè)。
本文針對(duì)電商平臺(tái)上的營(yíng)銷(xiāo)水軍識(shí)別從三個(gè)方面入手,首先對(duì)用戶(hù)的行為特征進(jìn)行重新選取,考慮每個(gè)特征與實(shí)驗(yàn)的相關(guān)性,選擇最佳的行為特征作為整個(gè)模型輸入的一部分。其次,擴(kuò)展對(duì)評(píng)論文本的分析范圍,不僅考慮評(píng)論的重復(fù)性,最長(zhǎng)公共子串的長(zhǎng)度和語(yǔ)義分析,還增加了詞匯多樣性檢測(cè),表達(dá)形式豐富性統(tǒng)計(jì)等,進(jìn)一步提高檢測(cè)準(zhǔn)確度。此外,還加入了水軍的網(wǎng)絡(luò)結(jié)構(gòu)特征進(jìn)行分析,因?yàn)樗姆€(wěn)定性,不會(huì)輕易被用戶(hù)行為所影響,營(yíng)銷(xiāo)水軍也不能掩飾他們?cè)诰W(wǎng)絡(luò)上的結(jié)構(gòu)特征,甚至還可以發(fā)現(xiàn)水軍團(tuán)體。營(yíng)銷(xiāo)水軍模型框架如圖4 所示。
針對(duì)電商平臺(tái)上的用戶(hù)行為特征,經(jīng)過(guò)計(jì)算我們挑選了6 個(gè)特征:用戶(hù)評(píng)論數(shù)量,用戶(hù)好評(píng)數(shù)量,用戶(hù)差評(píng)數(shù)量,用戶(hù)評(píng)論頻繁程度,用戶(hù)購(gòu)買(mǎi)商品數(shù)量,此外還引入了用戶(hù)極端性評(píng)論數(shù)量。然后通過(guò)K 均值聚類(lèi)算法基于行為對(duì)用戶(hù)聚類(lèi),K 均值算法會(huì)先選取K 個(gè)聚類(lèi)質(zhì)心點(diǎn)(μ1,μ2,μ3,…,μk)∈Rn,然后初始化簇C={C1,C2,…,Ck},計(jì)算樣本xi和各個(gè)質(zhì)心點(diǎn)μj(j=1,2,…k)的距離,根據(jù)樣本到質(zhì)心點(diǎn)的距離來(lái)對(duì)樣本進(jìn)行簇類(lèi)劃分,當(dāng)劃分完畢后重新計(jì)算每個(gè)簇的質(zhì)心點(diǎn)μj,重復(fù)上述步驟直到質(zhì)心點(diǎn)不再更新或更新很小。距離公式和質(zhì)心點(diǎn)更新公式如(1)(2)所示。
營(yíng)銷(xiāo)水軍散布的文案中一般都會(huì)使用單一的詞匯或詞性,比起正常評(píng)論帶有豐富的情感和詞匯,虛假評(píng)論就會(huì)顯得較為機(jī)械性。所以我們利用評(píng)論中形容詞和副詞數(shù)量占整個(gè)總詞匯量的比例來(lái)表示詞匯多樣性。公式如(3)所示。
這里的rei為第i 個(gè)評(píng)論,Nadj為形容詞數(shù)量,Madv為副詞數(shù)量,total(review)為評(píng)論詞匯數(shù)量。
另外對(duì)于評(píng)論帶有的非文本因素也給予了考量,作為表達(dá)形式豐富性進(jìn)行量化。假設(shè)評(píng)論中帶有圖片,表情,視頻,文字這四種形式,若第i 個(gè)評(píng)論中的第j 個(gè)圖片為Pij,第k 個(gè)表情為Eik,第s個(gè)視頻為Vis,則有以下公式(4)來(lái)表示形式豐富性。
利用用戶(hù)網(wǎng)絡(luò)關(guān)系拓?fù)浣Y(jié)構(gòu)圖可以分析營(yíng)銷(xiāo)水軍在網(wǎng)絡(luò)中的“足跡”,傳播模式和影響力等重要性質(zhì),故而在文本中加入網(wǎng)絡(luò)結(jié)構(gòu)特征進(jìn)一步提高水軍識(shí)別能力。用戶(hù)結(jié)構(gòu)圖以G(V,E)表示,其中節(jié)點(diǎn)數(shù)n=|V|,Vi代表節(jié)點(diǎn)i,eij代表節(jié)點(diǎn)i 和節(jié)點(diǎn)j 之間的邊,aij為鄰接矩陣的元素。我們用節(jié)點(diǎn)的出度和入度,節(jié)點(diǎn)中心度作為水軍在網(wǎng)絡(luò)結(jié)構(gòu)中的特征因子。
公式(5)為節(jié)點(diǎn)中心度的計(jì)算方程,主要用來(lái)衡量網(wǎng)絡(luò)節(jié)點(diǎn)對(duì)其鄰居的影響力。公式(6)和公式(7)為節(jié)點(diǎn)的入度和出度的計(jì)算公式,與用戶(hù)相關(guān)行為的指標(biāo)可以用它來(lái)表示,例如點(diǎn)贊數(shù),評(píng)論數(shù),回帖數(shù)等。
通過(guò)對(duì)評(píng)論內(nèi)容,用戶(hù)行為和用戶(hù)網(wǎng)絡(luò)結(jié)構(gòu)的綜合分析,可以取長(zhǎng)補(bǔ)短,提高模型對(duì)營(yíng)銷(xiāo)水軍識(shí)別的綜合能力。特別是對(duì)新型營(yíng)銷(xiāo)水軍大肆泛濫的今天,通過(guò)單一方面的檢測(cè)已經(jīng)很難達(dá)到滿(mǎn)意的效果,融合多種不同場(chǎng)景的特征分析可以勝任更艱巨的任務(wù)。
本文基于電商平臺(tái)上的用戶(hù)評(píng)論、行為和網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行研究,分析了目前營(yíng)銷(xiāo)水軍的行為特點(diǎn),在網(wǎng)絡(luò)平臺(tái)上的組織結(jié)和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),在虛假評(píng)論檢測(cè)模型中引入了新的特征,對(duì)用戶(hù)行為進(jìn)行聚類(lèi),提出了結(jié)合虛假評(píng)論檢測(cè),用戶(hù)行為識(shí)別和用戶(hù)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)分析的模型框架,為網(wǎng)絡(luò)營(yíng)銷(xiāo)水軍識(shí)別提供了新思路和可靠方案。