曹東偉,李邵梅,陳鴻昶
1.鄭州大學(xué) 中原網(wǎng)絡(luò)安全研究院,鄭州 450000
2.中國人民解放軍戰(zhàn)略支援部隊(duì)信息工程大學(xué),鄭州 450000
互聯(lián)網(wǎng)與電子商務(wù)的迅速崛起改變了眾多消費(fèi)者的消費(fèi)模式,線上消費(fèi)所占比例日益增加。線上消費(fèi)的在線評(píng)論成為影響商家與消費(fèi)者進(jìn)行決策的重要因素。真實(shí)的用戶評(píng)論能夠引導(dǎo)消費(fèi)者做出正確的消費(fèi)決策,然而由于商業(yè)利益、個(gè)人偏見等原因發(fā)布的不符合產(chǎn)品真實(shí)特性的虛假評(píng)論則會(huì)干擾用戶的消費(fèi)決策,對(duì)商家信譽(yù)造成不良影響。因此,尋找有效的檢測方法,準(zhǔn)確檢測出點(diǎn)評(píng)網(wǎng)站的虛假評(píng)論對(duì)提升用戶體驗(yàn)、維護(hù)良好的市場秩序具有重要意義。
自Jindal等[1]首次提出垃圾評(píng)論識(shí)別之后,虛假評(píng)論作為垃圾評(píng)論檢測任務(wù)中最困難的一類,一直是學(xué)者研究的熱點(diǎn)。目前,該研究方向主要還沿用Jindal的檢測原理,認(rèn)為檢測虛假評(píng)論可以轉(zhuǎn)化為檢測復(fù)制的評(píng)論,例如,同一評(píng)論多次用于評(píng)論不同的商品或同一商品存在多條類似評(píng)論,將具有此類特點(diǎn)的評(píng)論歸為虛假評(píng)論。
虛假評(píng)論檢測的本質(zhì)是文本分類問題,為此,隨著自然語言處理技術(shù)的發(fā)展,很多新的文本分類方法,如基于圖卷積網(wǎng)絡(luò)[2-3]的文本分類方法也被引入進(jìn)行虛假評(píng)論檢測[4]。
Li等[5]利用GCN對(duì)閑魚網(wǎng)站中的虛假評(píng)論進(jìn)行檢測,通過商品、用戶、評(píng)論異質(zhì)網(wǎng)絡(luò)圖及評(píng)論與評(píng)論同質(zhì)圖[6-7]相結(jié)合,提出閑魚虛假評(píng)論檢測模型GAS(GCNbased anti-spam),基于閑魚網(wǎng)站評(píng)論數(shù)據(jù)與GBDT(gradient boost regression tree)、CNN等模型相比較,檢測效果均優(yōu)于其他模型。Wang等[8]研究發(fā)現(xiàn),虛假用戶的行為越來越復(fù)雜,并且跨平臺(tái)評(píng)論的特點(diǎn)使得檢測更加困難。因此,作者提出基于GCN的半監(jiān)督檢測模型,首先在大量節(jié)點(diǎn)中找出可疑度較高的節(jié)點(diǎn)作為種子節(jié)點(diǎn),利用GCN網(wǎng)絡(luò)中節(jié)點(diǎn)之間信息相互傳播,找出與種子節(jié)點(diǎn)相似度高的節(jié)點(diǎn),實(shí)現(xiàn)虛假評(píng)論檢測。Manaskasemsak等[9]針對(duì)現(xiàn)有檢測方法往往需要耗費(fèi)大量成本來標(biāo)記訓(xùn)練數(shù)據(jù)這一現(xiàn)象,提出了基于用戶圖的檢測方法,與文獻(xiàn)[8]類似,首先提取一組特征,然后通過連接共同擁有這些特征的用戶構(gòu)建用戶圖,通過子圖逐次迭代擴(kuò)散發(fā)現(xiàn)更多與其相似度大的節(jié)點(diǎn),在Yelp數(shù)據(jù)集上證明其具有效性。這些方法有的需要用到評(píng)論外的商品信息或者用戶行為信息,有的需要指定種子節(jié)點(diǎn),而開源的虛假評(píng)論數(shù)據(jù)集通常難以滿足上述需求。
為此,本文借鑒文獻(xiàn)[10]中首次提出的基于圖卷積神經(jīng)網(wǎng)絡(luò)文本分類模型Text-GCN(text-graph convolution networks),對(duì)基于評(píng)論內(nèi)容的虛假評(píng)論檢測展開研究。文獻(xiàn)[10]的作者在構(gòu)建圖過程中,連邊信息只考慮了詞匯間的共現(xiàn)關(guān)系,很明顯該方法對(duì)詞匯重合度較高的評(píng)論文本有更好的檢測效果,但是實(shí)際應(yīng)用中,水軍可以通過變換詞匯或模板的方法規(guī)避檢測,所以該方法具有一定的局限性[11]。為了彌補(bǔ)該不足,本文提出一種融合語義信息的虛假評(píng)論檢測方法Sem-GCN(sematic-graph convolution networks),在構(gòu)建詞匯-詞匯之間的連邊時(shí),不僅考慮基于窗口的共現(xiàn)關(guān)系而且也考慮詞匯之間的語義相似性關(guān)系。通過構(gòu)建融合共現(xiàn)關(guān)系和詞匯相似度的詞匯-評(píng)論異質(zhì)網(wǎng)絡(luò)圖將虛假評(píng)論檢測問題轉(zhuǎn)化為節(jié)點(diǎn)分類問題,利用GCN可以很好地捕捉節(jié)點(diǎn)與節(jié)點(diǎn)之間高階特征信息的特點(diǎn)[12],從而提高虛假評(píng)論檢測的效果。在同一數(shù)據(jù)集上與K均值聚類方法、CNN、LSTM及Text-GCN進(jìn)行實(shí)驗(yàn)對(duì)比,驗(yàn)證了本文方法的有效性。
圖神經(jīng)網(wǎng)絡(luò)是一種多層神經(jīng)網(wǎng)絡(luò),利用譜聚類的思想,將傳統(tǒng)的離散卷積應(yīng)用在圖結(jié)構(gòu)數(shù)據(jù)上,在對(duì)特征學(xué)習(xí)時(shí)綜合考慮了來自鄰居實(shí)體的所有信息[13]。圖結(jié)構(gòu)可以用G=(V,ε)表示,其中節(jié)點(diǎn)v∈V,邊e∈ε。節(jié)點(diǎn)初始特征X=H0∈Rd0,其中d0代表節(jié)點(diǎn)的特征維度。模型中節(jié)點(diǎn)v第l層的隱藏向量可表示為H l∈Rd l,其中dl代表第l層的向量的維度。
GCN學(xué)習(xí)方式遵循逐層學(xué)習(xí),所有節(jié)點(diǎn)同步更新[14]。每層學(xué)習(xí)過程可分解為兩個(gè)步驟:聚合與合并,其過程可以表示為式(1):
A表示節(jié)點(diǎn)的鄰接矩陣,D為鄰接矩陣的度矩陣,形式如式(2)所示,W l為第l層訓(xùn)練得到的矩陣。
Yao等[10]首次使用標(biāo)準(zhǔn)圖卷積網(wǎng)絡(luò)進(jìn)行文本分類,以文檔和文檔中的詞作為節(jié)點(diǎn),構(gòu)建異構(gòu)文本圖,將每個(gè)詞及文本表示為One-hot向量作為圖卷積網(wǎng)絡(luò)的輸入。其中包含詞與詞,詞與文檔兩類連邊,兩類連邊的構(gòu)建方式如下:
(1)詞與文檔間連邊構(gòu)建方法
根據(jù)詞在某個(gè)文檔中出現(xiàn)與否建立詞-文檔之間的邊。文獻(xiàn)[10]中針對(duì)的是普通的文本分類任務(wù),在本文的應(yīng)用中文檔為評(píng)論文本。評(píng)論與詞之間連邊的權(quán)重可以由TF-IDF特征值所表示,TF(term frequence)是詞在文檔中出現(xiàn)的次數(shù),IDF(inverse document frequence)是指對(duì)評(píng)論總數(shù)除以包含該詞的評(píng)論數(shù)所得的商取對(duì)數(shù)。
(2)詞與詞間連邊構(gòu)建方法
文獻(xiàn)[10]通過統(tǒng)計(jì)在給定長度為γ的時(shí)間窗口內(nèi),詞共現(xiàn)數(shù)作為詞與詞之間的權(quán)重。利用點(diǎn)互信息(PMI)來描述這種信息。例如節(jié)點(diǎn)wi與節(jié)點(diǎn)w j之間邊的權(quán)重計(jì)算可以由式(4)~(6)表示:
p(wi,w j)表示在時(shí)間窗口λ內(nèi)詞wi與w j共現(xiàn)的概率,由式(5)所得,W(wi,w j)是評(píng)論集合在給定時(shí)間窗口內(nèi)詞對(duì)(wi,w j)共現(xiàn)的數(shù)目,W是評(píng)論集合在給定時(shí)間窗口內(nèi)所有詞的總數(shù)目。p(wi)是在時(shí)間窗口下wi出現(xiàn)的概率,W(wi)是整個(gè)評(píng)論集在時(shí)間窗口下wi出現(xiàn)的數(shù)目。
文本圖構(gòu)建完成后,送入GCN網(wǎng)絡(luò)進(jìn)行訓(xùn)練學(xué)習(xí),學(xué)習(xí)過程如式(7)所示:
本文借鑒文獻(xiàn)[10]描述的Text-GCN網(wǎng)絡(luò)進(jìn)行虛假評(píng)論檢測,其中本文中的虛假評(píng)論對(duì)應(yīng)上一章中的每個(gè)文檔。作者在構(gòu)建圖過程中,連邊信息只考慮詞匯間的共現(xiàn)關(guān)系,但是評(píng)論文本具有的不規(guī)范性與詞匯多樣性導(dǎo)致檢測效果降低,所以該方法具有一定的局限性。此外,虛假評(píng)論具有很強(qiáng)的迷惑性,僅利用每條文本所含信息進(jìn)行檢測,效果并不良好,而挖掘出每條評(píng)論在整個(gè)評(píng)論集中的全局信息更有助于提升檢測效果[15]。因此,為了提高對(duì)虛假評(píng)論的檢測效果,本文對(duì)Text-GCN進(jìn)行改進(jìn),提出了基于Sem-GCN的檢測方法。與CNN、LSTM學(xué)習(xí)模型相比,Sem-GCN通過多種方法建立連邊使模型具有更好的捕獲全局信息的能力,構(gòu)建詞與詞之間的連邊時(shí),不僅利用詞間共現(xiàn)信息,還引入基于詞嵌入的相似性信息[16]。通過文本圖中連邊間信息迭代更新,每個(gè)節(jié)點(diǎn)不僅攜帶自身信息,還攜帶鄰域節(jié)點(diǎn)信息。如圖1所示。Sem-GCN在構(gòu)建詞-詞的連邊時(shí)融入了詞之間的語義信息,語義信息又通過文本異質(zhì)圖中詞與評(píng)論間的連接傳遞到評(píng)論與評(píng)論之間,有助于更好地得到每條評(píng)論在整個(gè)評(píng)論集合中的全局性特征信息。
圖1 Sem-GCN框架圖Fig.1 Sem-GCN frames
其中,圖1中基于語義相似度的邊權(quán)重計(jì)算方法如下。
(1)利用BERT預(yù)訓(xùn)練詞向量分別得到兩個(gè)詞wi與w j的詞向量表示。
(2)對(duì)wi與w j兩個(gè)詞的向量表示計(jì)算余弦相似度,當(dāng)相似度超出既定閾值時(shí),則認(rèn)為兩個(gè)詞之間存在語義關(guān)系,即建立連邊。本文選取閾值為0.8,邊的權(quán)重計(jì)算如式(8)所示:
其中,Ssem(wi,w j)表示單詞wi與w j之間邊的權(quán)重,Usem(wi,w j)表示在整個(gè)數(shù)據(jù)集的所有評(píng)論中wi與w j兩個(gè)單詞存在語義關(guān)系的數(shù)目。Utotal(wi,w j)是在整個(gè)評(píng)論集合中wi與w j在同一條評(píng)論中出現(xiàn)的次數(shù)。
本文提出的Sem-GCN進(jìn)行虛假評(píng)論檢測的流程如下。
首先對(duì)所有評(píng)論中的詞進(jìn)行統(tǒng)計(jì)并刪去重復(fù)詞構(gòu)成一個(gè)詞匯表;基于詞匯表中的詞,每個(gè)詞視為一個(gè)節(jié)點(diǎn),同時(shí)將每條評(píng)論也視為一個(gè)節(jié)點(diǎn);然后,文本圖中建立連邊時(shí)遵循以下規(guī)則:若某條評(píng)論涵蓋詞匯表中的詞,則該條評(píng)論與詞建立連邊;設(shè)定固定大小的窗口,若在該窗口內(nèi),同時(shí)出現(xiàn)在窗口內(nèi)的詞則分別建立連邊;計(jì)算每條評(píng)論中詞之間的語義相似度,若大于閾值則建立連邊。最后,評(píng)論信息轉(zhuǎn)化為圖中的節(jié)點(diǎn),評(píng)論文本圖如圖2所示,其中R表示評(píng)論,W表示詞,可以看出詞與評(píng)論之間存在一種連邊,而詞與詞之間除基于窗口共現(xiàn)關(guān)系外,還存在基于語義相似度所建的連邊。圖2可以表示為式(9):
圖2 評(píng)論異質(zhì)文本圖Fig.2 Review heterogeneous text map
其中,N={n1,n2,…,n n},代表評(píng)論與詞共有n個(gè)節(jié)點(diǎn)。邊集合由E={e1,e2,…,e s},節(jié)點(diǎn)ni與n j之間的連邊可以表示為eij=E(n i,n j)。邊的權(quán)重分為兩種,一種是詞匯與評(píng)論之間的權(quán)重αrw,另一種是詞匯與詞匯之間的權(quán)重αww。αrw由1.2節(jié)中公式(3)計(jì)算。
最終詞與詞之間連邊的權(quán)重值由1.2節(jié)中式(4)計(jì)算的PMI與式(8)計(jì)算的Ssem共同決定,如式(10)所示。當(dāng)基于窗口與語義相似度兩種方法都存在連邊時(shí),則權(quán)重αww為兩個(gè)權(quán)重值相加。僅基于時(shí)間窗口存在連邊時(shí)權(quán)重αww=PMI(wi,w j)。僅基于語義相似度存在連邊時(shí)αww=Ssem(wi,w j)。
實(shí)驗(yàn)數(shù)據(jù)為Ott等人利用眾包平臺(tái)獲取的標(biāo)準(zhǔn)數(shù)據(jù)集,這也是唯一公開可用的虛假評(píng)論數(shù)據(jù)集。Ott等人雇傭人員為20個(gè)旅館進(jìn)行評(píng)論,共收集400條虛假評(píng)論。此后,Ott等及Li等基于此數(shù)據(jù)又進(jìn)行擴(kuò)充,內(nèi)容涵蓋酒店、餐飲等領(lǐng)域。數(shù)據(jù)總量為1 600條評(píng)論數(shù)據(jù),其中真實(shí)評(píng)論與虛假評(píng)論各800條。實(shí)驗(yàn)中按7∶2∶1比例將這些數(shù)據(jù)分為訓(xùn)練集、測試集、驗(yàn)證集三類。
本文實(shí)驗(yàn)結(jié)果評(píng)價(jià)指標(biāo)采用精確率(P),召回率(R)與F1值。
精確率表示測試數(shù)據(jù)中被正確預(yù)測的評(píng)論數(shù)占所有評(píng)論的比例。計(jì)算方法如公式(11)所示。式中,TP表示被正確預(yù)測的評(píng)論數(shù),F(xiàn)P表示被錯(cuò)誤預(yù)測為真實(shí)的評(píng)論數(shù)。
召回率表示測試評(píng)論中被正確預(yù)測的評(píng)論數(shù)占所有真實(shí)評(píng)論數(shù)的比例,由公式(12)可以得出。其中,F(xiàn)N為被錯(cuò)誤預(yù)測為虛假+評(píng)論的數(shù)量。
F1值用來綜合評(píng)價(jià)算法,由召回率與精確率計(jì)算,如公式(13)所示:
3.3.1 實(shí)驗(yàn)1
本文實(shí)驗(yàn)環(huán)境為系統(tǒng)版本Ubuntu16.04,硬件環(huán)境為TITAN XP處理器,模型包括兩層GCN網(wǎng)絡(luò),每一層GCN隱藏層大小設(shè)置為200,窗口大小設(shè)置為15,學(xué)習(xí)率為0.01,訓(xùn)練50輪次,訓(xùn)練結(jié)果如圖3所示。
圖3 訓(xùn)練結(jié)果Fig.3 Training result
在epoch=10以前,模型訓(xùn)練還未達(dá)到最優(yōu)。分析原因是對(duì)于Sem-GCN網(wǎng)絡(luò),節(jié)點(diǎn)信息需要進(jìn)行圖內(nèi)傳播,當(dāng)達(dá)到10輪左右,圖的全局信息在訓(xùn)練過程中充分傳播,檢測效果明顯提升。模型訓(xùn)練時(shí)長為24 s,其中構(gòu)建評(píng)論文本圖耗費(fèi)20 s,文本圖訓(xùn)練耗費(fèi)4 s。訓(xùn)練時(shí)間如圖4所示。
圖4 訓(xùn)練時(shí)間/輪次Fig.4 Training time/epoch
因?yàn)橛?xùn)練開始,鄰域信息需要在評(píng)論圖中聚合傳播,所以訓(xùn)練時(shí)間波動(dòng)較大,同樣可以看出在經(jīng)過10輪左右,每一輪次的訓(xùn)練時(shí)間趨于穩(wěn)定,證明在訓(xùn)練10輪左右文本圖中全局信息充分傳播。評(píng)論檢測結(jié)果如圖5所示,標(biāo)簽0代表真實(shí)評(píng)論,標(biāo)簽為1代表虛假評(píng)論。
圖5 分類結(jié)果Fig.5 Classification result
3.3.2 實(shí)驗(yàn)2
為了更好驗(yàn)證該方法的有效性,在標(biāo)準(zhǔn)數(shù)據(jù)集上,本文與基線模型K均值聚類,CNN、LSTM模型以及文獻(xiàn)[10]中的Text-GCN方法進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表1所示。其中,K均值聚類方法為任亞峰[17]在Ott等人合成的標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行檢測的方法。實(shí)驗(yàn)表明,與CNN、LSTM等深度學(xué)習(xí)模型相比,本文方法的準(zhǔn)確率均得到不同程度的提升,并且處理效率也優(yōu)于LSTM。本文認(rèn)為主要原因是Sem-GCN將評(píng)論文本轉(zhuǎn)化為以詞匯為節(jié)點(diǎn)構(gòu)圖,不僅利用節(jié)點(diǎn)的文本信息,還將評(píng)論與評(píng)論之間通過詞匯關(guān)聯(lián)起來,更好地利用節(jié)點(diǎn)之間的鄰域信息,彌補(bǔ)評(píng)論不規(guī)范的特性,緩解數(shù)據(jù)的稀疏性。值得強(qiáng)調(diào)的是,本文提出的Sem-GCN的檢測效果優(yōu)于Text-GCN,證明本文提出的模型在構(gòu)建文本圖過程中引入語義信息的有效性,融入語義信息后,在評(píng)論中某些表達(dá)含義相近的詞在基于語義相似度的方法下同樣也會(huì)建立連邊,有效緩解連邊信息只考慮詞匯間的共現(xiàn)關(guān)系,因評(píng)論文本不規(guī)范,詞匯多樣性導(dǎo)致檢測效果降低的狀況。
表1 實(shí)驗(yàn)結(jié)果對(duì)比Table 1 Comparison of experimental results
此外,實(shí)驗(yàn)發(fā)現(xiàn)本文提出的Sem-GCN在訓(xùn)練樣本數(shù)較少時(shí)也可具有很好的效果,為了研究Sem-GCN在小樣本情況下的檢測性能,相同的實(shí)驗(yàn)環(huán)境下,采用訓(xùn)練數(shù)據(jù)集的40%進(jìn)行模型訓(xùn)練,觀測其檢測效果,結(jié)果如圖6所示。在訓(xùn)練樣本數(shù)降到40%,訓(xùn)練評(píng)論數(shù)只有448條的條件下,準(zhǔn)確率也可達(dá)到87%;相同條件下,CNN和LSTM的準(zhǔn)確率分別只有79%與82%。實(shí)驗(yàn)結(jié)果表明GCN可以很好地將特征信息傳播到整個(gè)圖上,具有捕獲全局信息的能力,在小樣本條件下相對(duì)于其他模型的檢測效果優(yōu)勢更明顯。
圖6 40%訓(xùn)練數(shù)據(jù)效果Fig.6 40%training data effect
本文基于GCN網(wǎng)絡(luò)對(duì)虛假評(píng)論檢測進(jìn)行研究,提出利用文本圖來捕獲上下文語義信息,基于共現(xiàn)關(guān)系的上下文信息及評(píng)論與評(píng)論之間的關(guān)系信息,并對(duì)圖中的連邊賦予不同的權(quán)重。在Ott等人利用眾包平臺(tái)獲取的標(biāo)準(zhǔn)數(shù)據(jù)集上與LSTM、CNN等模型進(jìn)行比較,檢測準(zhǔn)確率均有不同程度的提升,證明了在順序上下文信息的基礎(chǔ)上融入語義信息,檢測效果有一定程度的提升。同時(shí),證明了在小樣本情況下,本文提出的Sem-GCN模型同樣可以達(dá)到較好效果。未來的工作中,還可以融合用戶行為特征,構(gòu)建多類型異質(zhì)網(wǎng)絡(luò),豐富節(jié)點(diǎn)信息,提高檢測效果。