張伊揚(yáng),錢(qián)育蓉,陶文彬,冷洪勇,李自臣,馬夢(mèng)楠
1.新疆大學(xué) 軟件學(xué)院,烏魯木齊 830046
2.新疆大學(xué) 新疆維吾爾自治區(qū)信號(hào)檢測(cè)與處理重點(diǎn)實(shí)驗(yàn)室,烏魯木齊 830046
3.北京理工大學(xué) 計(jì)算機(jī)學(xué)院,北京 100081
4.廣東水利電力職業(yè)技術(shù)學(xué)院 大數(shù)據(jù)與人工智能學(xué)院,廣州 510635
在互聯(lián)網(wǎng)及通信技術(shù)高速發(fā)展的背景下,信息的交互、影響以及人與人之間的關(guān)聯(lián)變得更加密切,這種相互關(guān)系以及自身的屬性信息以網(wǎng)絡(luò)的形式所呈現(xiàn),并表達(dá)為屬性圖結(jié)構(gòu)存在于各種場(chǎng)景中,其中包括交通網(wǎng)絡(luò)、引文網(wǎng)絡(luò)、通信網(wǎng)絡(luò)以及社交網(wǎng)絡(luò)等。為了利用圖結(jié)構(gòu)數(shù)據(jù)解決實(shí)際問(wèn)題,近年來(lái)各種圖分析任務(wù)引起研究者極大的興趣,例如鏈路預(yù)測(cè)[1-2]、異常檢測(cè)[3-4]、社區(qū)檢測(cè)[5]和節(jié)點(diǎn)分類(lèi)[6-7]。在上述任務(wù)中,基于屬性圖的異常檢測(cè)任務(wù)是最重要的研究方向之一,其充分考慮到各個(gè)節(jié)點(diǎn)之間的相互依賴(lài)性,利用圖中所包含的結(jié)構(gòu)信息和屬性信息識(shí)別數(shù)據(jù)中不符合期望的異常行為模式,為金融欺詐、電信詐騙、網(wǎng)絡(luò)入侵等多個(gè)領(lǐng)域的欺詐與異常行為識(shí)別提供了重要幫助。
早在1996年,Staniford-Chen等人[8]就開(kāi)始通過(guò)面向圖的方法實(shí)現(xiàn)網(wǎng)絡(luò)入侵檢測(cè),Akoglu等人[9]對(duì)當(dāng)時(shí)已有的圖異常檢測(cè)檢測(cè)技術(shù)進(jìn)行了全面的總結(jié)。在早期的工作中,傳統(tǒng)方法已經(jīng)可以對(duì)圖結(jié)構(gòu)數(shù)據(jù)的異常個(gè)體進(jìn)行識(shí)別,然而其嚴(yán)重依賴(lài)于領(lǐng)域?qū)<以O(shè)計(jì)構(gòu)建的手工特征和統(tǒng)計(jì)模型[10],并且利用淺層機(jī)制,缺乏捕獲對(duì)象之間非線性特征的能力,無(wú)法高效處理屬性圖中包含的拓?fù)浣Y(jié)構(gòu)和屬性信息。深度學(xué)習(xí)作為一種強(qiáng)大的工具,能夠有效學(xué)習(xí)屬性圖數(shù)據(jù)的復(fù)雜性[11],提高了檢測(cè)未知異常的能力,尤其是隨著圖神經(jīng)網(wǎng)絡(luò)[12]的發(fā)展,進(jìn)一步豐富了深度學(xué)習(xí)在圖數(shù)據(jù)挖掘中的能力,在提取圖數(shù)據(jù)潛在的復(fù)雜模式中表現(xiàn)出良好的性能,因此,基于深度學(xué)習(xí)的屬性圖異常檢測(cè)方法層出不窮。
本文主要總結(jié)現(xiàn)有的基于深度學(xué)習(xí)的屬性圖異常檢測(cè)方法,分析各個(gè)模型的特點(diǎn)、優(yōu)勢(shì)以及存在的問(wèn)題,并對(duì)后續(xù)研究進(jìn)行展望,本文的貢獻(xiàn)可歸納如下:
(1)概述普通圖異常檢測(cè)與屬性圖異常檢測(cè)的特點(diǎn)及區(qū)別,整理了經(jīng)典的屬性圖表示學(xué)習(xí)方法。
(2)歸納總結(jié)靜態(tài)屬性圖和動(dòng)態(tài)屬性圖異常檢測(cè)中的深度學(xué)習(xí)方法,并對(duì)部分經(jīng)典靜態(tài)屬性圖異常檢測(cè)算法的實(shí)驗(yàn)結(jié)果進(jìn)行分析。
(3)討論屬性圖異常檢測(cè)的應(yīng)用場(chǎng)景、存在的問(wèn)題以及未來(lái)可能研究的方向,為后期研究提供參考。
異常檢測(cè)是一種數(shù)據(jù)挖掘過(guò)程,旨在識(shí)別數(shù)據(jù)集中偏離大多數(shù)數(shù)據(jù)的異常模式[13-14]。為了解決異常檢測(cè)問(wèn)題,過(guò)去的幾十年里出現(xiàn)大量方法,尤其是在非結(jié)構(gòu)化數(shù)據(jù)點(diǎn)集中發(fā)現(xiàn)異常值,但是未考慮到數(shù)據(jù)之間的依賴(lài)性。圖數(shù)據(jù)提供一種強(qiáng)大的機(jī)制,可以有效捕獲數(shù)據(jù)對(duì)象之間的長(zhǎng)期相關(guān)性,在異常檢測(cè)領(lǐng)域頗受關(guān)注?;趫D的異常檢測(cè)是將原始網(wǎng)絡(luò)用圖模型表達(dá),結(jié)合圖數(shù)據(jù)挖掘技術(shù)以及相關(guān)知識(shí)找到罕見(jiàn)圖形對(duì)象的過(guò)程。本章對(duì)普通圖、屬性圖的異常檢測(cè)以及圖表示學(xué)習(xí)方法進(jìn)行簡(jiǎn)要概述。
早期的圖異常檢測(cè)方法大多是針對(duì)普通圖進(jìn)行的,對(duì)于給定的普通圖,它的唯一信息是圖的結(jié)構(gòu),因此針對(duì)普通圖的異常檢測(cè)方法利用圖的結(jié)構(gòu)信息來(lái)發(fā)現(xiàn)異常模式,可大致分為四類(lèi):基于特征的、基于鄰近性的、基于聚類(lèi)的和基于社區(qū)檢測(cè)的方法。
(1)基于特征的檢測(cè)方法:利用圖形表示來(lái)提取以圖/節(jié)點(diǎn)為中心的結(jié)構(gòu)特征,用來(lái)構(gòu)造特征空間的異常檢測(cè),如ODDBALL[10]、GBKD-Forest[15]等。
(2)基于鄰近性的檢測(cè)方法:利用圖的結(jié)構(gòu)信息測(cè)量圖中對(duì)象的接近度,捕捉對(duì)象之間的相關(guān)性,近鄰對(duì)象被認(rèn)為可能屬于同一類(lèi),如SimRank[16]、ASCOS[17]等。
(3)基于聚類(lèi)的檢測(cè)方法:此類(lèi)方法的主要思想是,將復(fù)雜圖數(shù)據(jù)表示成低維特征向量,然后將其劃分成不同簇,通過(guò)對(duì)象距離簇中心的距離識(shí)別異常,如INCAD[18]、文獻(xiàn)[19]方法等。
(4)基于社區(qū)檢測(cè)的方法:此方法依賴(lài)于在圖中找到密集連接的鄰近節(jié)點(diǎn)組,并找出跨社區(qū)連接的節(jié)點(diǎn)或邊,如Embed[20]、CADA[21]等。
普通圖異常檢測(cè)方法往往只利用單一的圖結(jié)構(gòu)信息進(jìn)行檢測(cè),而生活中許多場(chǎng)景存在更豐富的圖形表示。屬性圖中包含大量的屬性特征,可以提供更多細(xì)節(jié)來(lái)描述網(wǎng)絡(luò)中的每個(gè)元素。對(duì)屬性圖進(jìn)行異常檢測(cè)不僅要考慮到復(fù)雜的拓?fù)浣Y(jié)構(gòu),還要考慮其含有的豐富屬性,根據(jù)現(xiàn)有的方法可以將屬性圖異常檢測(cè)方法分為基于傳統(tǒng)的檢測(cè)方法和基于深度學(xué)習(xí)的檢測(cè)方法,下面分別對(duì)其分類(lèi)進(jìn)行介紹。
1.2.1 基于傳統(tǒng)的屬性圖異常檢測(cè)分類(lèi)
傳統(tǒng)的屬性圖異常檢測(cè)方法根據(jù)現(xiàn)有文獻(xiàn)可分為基于社區(qū)分析的方法、基于殘差分析的方法和基于子空間選擇的方法。
(1)基于社區(qū)分析的方法:通過(guò)觀察同一社區(qū)內(nèi)對(duì)象的屬性值,或者根據(jù)變化的社區(qū)找出具有顯著差異的對(duì)象來(lái)識(shí)別異常,如AMEN[22]、CODA[5]等。
(2)基于子空間選擇的方法:首先探索屬性子空間,然后在已經(jīng)學(xué)習(xí)到的子空間中發(fā)現(xiàn)異常,如FocusCO[23]、ConSub[24]、GOutRank[25]等。
(3)基于殘差分析的方法:通過(guò)矩陣分解方法系統(tǒng)模擬殘差信息來(lái)識(shí)別異常,如Rader[26]、Anomalous[27]等。
這三類(lèi)方法已有不少研究,但仍存在以下不足:(1)可能會(huì)受到子空間選擇和淺層學(xué)習(xí)過(guò)程中相關(guān)過(guò)度開(kāi)銷(xiāo)計(jì)算的影響;(2)忽略了節(jié)點(diǎn)表示和屬性之間的關(guān)系;(3)忽略了正常數(shù)據(jù)和異常數(shù)據(jù)之間的不平衡性。為了解決這些問(wèn)題,基于深度學(xué)習(xí)的方法應(yīng)運(yùn)而生。
1.2.2 基于深度學(xué)習(xí)的屬性圖異常檢測(cè)分類(lèi)
本文對(duì)基于深度學(xué)習(xí)的屬性圖異常檢測(cè)方法進(jìn)行分類(lèi),首先根據(jù)其是否隨著時(shí)間演化分為靜態(tài)屬性圖和動(dòng)態(tài)屬性圖兩類(lèi),靜態(tài)圖可以表示為動(dòng)態(tài)圖在某一時(shí)間戳的快照,動(dòng)態(tài)圖也可以被視為由一序列圖快照所構(gòu)成。其次在靜態(tài)圖和動(dòng)態(tài)圖中分為基于深度神經(jīng)網(wǎng)絡(luò)的方法和基于圖神經(jīng)網(wǎng)絡(luò)的方法兩大類(lèi),如圖1所示。
圖1 基于深度學(xué)習(xí)的屬性圖異常檢測(cè)分類(lèi)Fig.1 Classification of attribute graph anomaly detection based on deep learning
面向靜態(tài)屬性圖異常檢測(cè):給出靜態(tài)屬性圖,查找“少且不同”或與大部分觀察到數(shù)據(jù)模式顯著不同的節(jié)點(diǎn)/邊/子圖。
面向動(dòng)態(tài)屬性圖異常檢測(cè):動(dòng)態(tài)屬性圖的結(jié)構(gòu)或?qū)傩噪S時(shí)間不斷發(fā)生變化,可能更改包括插入和刪除頂點(diǎn)、邊、子圖以及修改屬性[28]。其異常檢測(cè)旨在給定一個(gè)屬性圖序列,從中找出:(1)對(duì)應(yīng)變化事件的時(shí)間戳;(2)對(duì)變化貢獻(xiàn)最大的top-k個(gè)節(jié)點(diǎn)/邊/子圖。
基于深度學(xué)習(xí)的屬性圖異常檢測(cè)方法使用深度學(xué)習(xí)技術(shù),分別針對(duì)靜態(tài)圖和動(dòng)態(tài)圖達(dá)到識(shí)別其中異常對(duì)象的目的。其通過(guò)圖表示學(xué)習(xí)方法將屬性圖映射到潛在空間的低維向量,獲得高質(zhì)量的嵌入以充分支持屬性圖異常檢測(cè)任務(wù)。
對(duì)圖進(jìn)行異常檢測(cè)的關(guān)鍵前提是如何對(duì)其進(jìn)行合理的表示學(xué)習(xí),圖表示學(xué)習(xí)方法是將原始圖結(jié)構(gòu)數(shù)據(jù)壓縮為低維向量,同時(shí)保留圖的信息[29]?;趯傩詧D的表示學(xué)習(xí)方法,其學(xué)習(xí)到的嵌入應(yīng)該最大限度保留結(jié)構(gòu)和屬性?xún)煞N類(lèi)型信息。根據(jù)已有文獻(xiàn),可以將現(xiàn)有方法大致分為三類(lèi):基于矩陣分解的方法、基于圖神經(jīng)網(wǎng)絡(luò)的方法以及基于編解碼的方法。本節(jié)對(duì)最經(jīng)典的屬性圖表示學(xué)習(xí)方法進(jìn)行分類(lèi)總結(jié),如表1所示[30-37]。
表1 經(jīng)典的屬性圖表示學(xué)習(xí)方法Table 1 Classical attribute graph representation learning method
基于深度學(xué)習(xí)的屬性圖異常檢測(cè)方法經(jīng)常使用深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)和圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)模型來(lái)探索屬性圖的非線性和異常的無(wú)監(jiān)督或半監(jiān)督識(shí)別。本章從靜態(tài)屬性圖異常檢測(cè)和動(dòng)態(tài)屬性圖異常檢測(cè)兩方面,分別介紹基于DNN及GNN的異常檢測(cè)新方法。
2.1.1 基于深度神經(jīng)網(wǎng)絡(luò)的方法
近年來(lái),DNN在異常檢測(cè)領(lǐng)域得到廣泛應(yīng)用,其通過(guò)多層抽象來(lái)學(xué)習(xí)表示特征,能夠針對(duì)復(fù)雜的模式[38]進(jìn)行建模,為學(xué)習(xí)數(shù)據(jù)表示提供了堅(jiān)實(shí)的基礎(chǔ)。
Liang 等人[39]通過(guò)部分標(biāo)記的屬性圖訓(xùn)練模型SEANO。模型由一個(gè)雙輸入雙輸出深度神經(jīng)網(wǎng)絡(luò)來(lái)歸納學(xué)習(xí)頂點(diǎn)嵌入,在頂點(diǎn)異常的情況下會(huì)淡化頂點(diǎn)屬性輸入,更多依賴(lài)鄰域特征來(lái)預(yù)測(cè)。SEANO 可以通過(guò)結(jié)合鄰域信息以及自適應(yīng)學(xué)習(xí)聚合權(quán)重減輕異常值帶來(lái)的噪聲影響,并在表示學(xué)習(xí)同時(shí)檢測(cè)檢測(cè)異常節(jié)點(diǎn)。但是其通過(guò)標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練,通常獲取有標(biāo)記的數(shù)據(jù)即困難又昂貴。
為了減輕異常標(biāo)記數(shù)據(jù)帶來(lái)的困擾,研究者進(jìn)行了大量工作。生成性對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)通過(guò)輪流訓(xùn)練判別器和生成器,令其相互對(duì)抗,來(lái)從復(fù)雜概率分布中采樣,在捕捉數(shù)據(jù)分布方面體現(xiàn)了強(qiáng)大的有效性。
Chen 等人[40]提出了一種生成性對(duì)抗屬性圖異常檢測(cè)框架GAAN,生成器從高斯噪聲中生成假圖節(jié)點(diǎn),判別器準(zhǔn)確地學(xué)習(xí)真實(shí)的數(shù)據(jù)分布,經(jīng)過(guò)多輪迭代訓(xùn)練,從而有效提高判別器的識(shí)別能力。Ding 等人[41]同樣應(yīng)用GAN 的思想,提高了對(duì)未知數(shù)據(jù)異常的鑒別能力。為了考慮到多跳鄰居信息,模型利用圖差分網(wǎng)絡(luò)從任意順序鄰域中學(xué)習(xí)異常節(jié)點(diǎn)表示。該模型架構(gòu)如圖2 所示,使用部分可觀測(cè)的圖進(jìn)行訓(xùn)練,并以前饋的方式直接檢測(cè)新圖上的異常,有效解決了歸納式學(xué)習(xí)的問(wèn)題,能夠處理新的數(shù)據(jù)而無(wú)需重新訓(xùn)練模型。以上基于GAN 的方法通過(guò)對(duì)抗生成思想從復(fù)雜數(shù)據(jù)分布中采樣,緩解了數(shù)據(jù)不平衡問(wèn)題,但是難以訓(xùn)練,其訓(xùn)練優(yōu)化過(guò)程穩(wěn)定性較差。
圖2 AEGIS模型結(jié)構(gòu)Fig.2 Framework of AEGIS model
Bandyopadhyay 等人[42]則采用無(wú)監(jiān)督學(xué)習(xí)方法,將兩個(gè)平行自編碼器分別用于節(jié)點(diǎn)的連接結(jié)構(gòu)和屬性,通過(guò)最小化重構(gòu)誤差訓(xùn)練,并利用同質(zhì)性原則進(jìn)行異常檢測(cè)。此外,還專(zhuān)門(mén)設(shè)計(jì)了異常感知函數(shù)來(lái)量化節(jié)點(diǎn)的異常得分。該模型可以從每個(gè)節(jié)點(diǎn)全局、結(jié)構(gòu)、社區(qū)三方面角度測(cè)量異常分?jǐn)?shù),但是其將屬性和結(jié)構(gòu)信息分開(kāi)考慮,忽略了彼此之間的交互關(guān)系。
2.1.2 基于圖神經(jīng)網(wǎng)絡(luò)的方法
圖神經(jīng)網(wǎng)絡(luò)是用于圖結(jié)構(gòu)化數(shù)據(jù)的深度學(xué)習(xí)框架,因其聚合來(lái)自節(jié)點(diǎn)鄰域信息的能力受到高度認(rèn)可,包括圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)和圖注意力網(wǎng)絡(luò)(graph attention network,GAT)等,在屬性圖異常檢測(cè)任務(wù)中均取得不錯(cuò)的效果?;贕NN的屬性圖異常檢測(cè)普遍的通用框架如圖3 所示,將GNN 圖表示學(xué)習(xí)方法用于異常檢測(cè)任務(wù)中,通過(guò)重構(gòu)誤差識(shí)別異常對(duì)象。
圖3 基于GNN異常檢測(cè)通用框架Fig.3 General framework for anomaly detection based on GNN
Ding 等人[43]使用GCN 進(jìn)行節(jié)點(diǎn)的嵌入學(xué)習(xí),對(duì)拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)屬性信息進(jìn)行無(wú)縫建模,通過(guò)嵌入節(jié)點(diǎn)重建原圖來(lái)進(jìn)行異常檢測(cè),其采用編碼器、屬性和結(jié)構(gòu)解碼器三網(wǎng)絡(luò)架構(gòu),與只使用單一編碼器模塊相比會(huì)增加梯度反向傳播時(shí)間,且僅僅使用GCN提取特征,沒(méi)有考慮到不同節(jié)點(diǎn)的貢獻(xiàn)程度以及GCN的過(guò)度平滑問(wèn)題。
為了緩解GCN 的過(guò)平滑問(wèn)題,更好地區(qū)分異常與正常節(jié)點(diǎn)的邊界,Zhu 等人[44]提出DeepAE 組合嵌入模型,在嵌入過(guò)程中引入拉普拉斯銳化放大正常節(jié)點(diǎn)和異常節(jié)點(diǎn)之間的差異[45];文獻(xiàn)[46]中利用屬性圖中社區(qū)結(jié)構(gòu)信息來(lái)緩解不同類(lèi)型異常節(jié)點(diǎn)表示帶來(lái)的過(guò)平滑問(wèn)題;文獻(xiàn)[47]中則采用了殘差注意力機(jī)制防止異常節(jié)點(diǎn)過(guò)度平滑。
上述方法利用GCN將圖結(jié)構(gòu)和節(jié)點(diǎn)屬性信息綜合考慮,但其只能通過(guò)簡(jiǎn)單卷積運(yùn)算將鄰居節(jié)點(diǎn)的信息平均聚合到目標(biāo)節(jié)點(diǎn)中,使目標(biāo)節(jié)點(diǎn)無(wú)法獲得鄰居中最相關(guān)的信息。GAT 的出現(xiàn)取代傳統(tǒng)的圖卷積,側(cè)重提取鄰居節(jié)點(diǎn)的重要信息,接下來(lái)對(duì)使用GAT 的方法進(jìn)行介紹。
AnomalyDAE[48]采用雙自動(dòng)編碼器聯(lián)合學(xué)習(xí)節(jié)點(diǎn)潛在表示,將GAT 用于結(jié)構(gòu)編碼器中以學(xué)習(xí)節(jié)點(diǎn)與其鄰居節(jié)點(diǎn)之間的重要性,從而訪問(wèn)較重要的結(jié)構(gòu)模式。該模型旨在利用圖的拓?fù)浣Y(jié)構(gòu)和屬性相似度檢測(cè)單個(gè)節(jié)點(diǎn)級(jí)異常,無(wú)法同時(shí)檢測(cè)出異常子圖。文獻(xiàn)[49]則將節(jié)點(diǎn)和子圖實(shí)例表示學(xué)習(xí)過(guò)程集成到統(tǒng)一的GAT中,并設(shè)計(jì)自注意力機(jī)制用于捕獲節(jié)點(diǎn)與子圖自身及之間的關(guān)系信息,提高最終的檢測(cè)效率,可以同時(shí)檢測(cè)節(jié)點(diǎn)異常和子圖異常,但是異常節(jié)點(diǎn)與異常子圖的相互影響,以及子圖異常類(lèi)型不確定性仍給檢測(cè)帶來(lái)很大挑戰(zhàn)。
在針對(duì)多視圖圖進(jìn)行異常檢測(cè)時(shí),Wang 等人[50]提出了一種半監(jiān)督異常檢測(cè)框架SemiGNN用于檢測(cè)交易平臺(tái)異常的用戶(hù)。該模型采用層級(jí)注意力機(jī)制以自動(dòng)學(xué)習(xí)不同視圖的重要性,集成多視圖的嵌入表示。其節(jié)點(diǎn)級(jí)注意力機(jī)制有效聚合各視圖內(nèi)節(jié)點(diǎn)信息,視圖級(jí)注意力機(jī)制整合每個(gè)視圖信息。SemiGNN還分別設(shè)計(jì)了針對(duì)標(biāo)記數(shù)據(jù)與無(wú)標(biāo)記數(shù)據(jù)的損失函數(shù)共同優(yōu)化模型。另一個(gè)最新的基于多視圖異常檢測(cè)模型AnomMAN[51]可以在無(wú)異常實(shí)例的情況下檢測(cè)異常,采用圖自編碼器克服了圖卷積操作帶來(lái)的低通性,并通過(guò)注意力機(jī)制融合來(lái)自不同視圖的潛在表示。以上兩種方法很好的解決了多視圖屬性圖的異常檢測(cè)問(wèn)題,但是忽略了多視圖中所包含的豐富信息及視角之間的不一致性,視圖之間的關(guān)系對(duì)異常檢測(cè)也起到至關(guān)重要的作用。
在針對(duì)屬性圖跨域異常檢測(cè)時(shí),主要存在兩個(gè)問(wèn)題:如何對(duì)來(lái)自不同領(lǐng)域的任意結(jié)構(gòu)屬性圖進(jìn)行建模以及如何同時(shí)檢測(cè)出目標(biāo)圖中的共享及非共享異常。為此,文獻(xiàn)[52]通過(guò)共享的GAT編碼器學(xué)習(xí)源圖及目標(biāo)圖的節(jié)點(diǎn)表示,使用標(biāo)記的原圖訓(xùn)練域自適應(yīng)分類(lèi)器檢測(cè)共享異常,同時(shí)使用屬性解碼器保證了對(duì)非共享異常的檢測(cè)。該模型在跨域檢測(cè)中展現(xiàn)出優(yōu)越的性能,但是不同領(lǐng)域之間的差異會(huì)導(dǎo)致模型性能降低,所以對(duì)于跨域異常檢測(cè)還存在極大挑戰(zhàn)。
上述基于深度學(xué)習(xí)的方法大都受到自動(dòng)編碼器體系結(jié)構(gòu)的限制,以最小化圖的重構(gòu)誤差為目標(biāo)。這些誤差會(huì)受到潛在噪聲節(jié)點(diǎn)影響,同時(shí)存在正常數(shù)據(jù)和異常數(shù)據(jù)之間過(guò)擬合的問(wèn)題。此外,由于全圖訓(xùn)練機(jī)制,無(wú)法擴(kuò)展到大規(guī)模屬性圖中。為了解決此類(lèi)問(wèn)題,很多學(xué)者采用基于關(guān)系學(xué)習(xí)的方法或?qū)Ρ茸员O(jiān)督學(xué)習(xí)的方法,均體現(xiàn)出良好性能,接下來(lái)對(duì)其中具有代表性的方法進(jìn)行介紹。
基于關(guān)系學(xué)習(xí)的方法通常將異常檢測(cè)轉(zhuǎn)化成分類(lèi)問(wèn)題,Wang等人[53]提出模型OCGNN,如圖4所示,GNN自動(dòng)提取圖上信息,超球?qū)W習(xí)通過(guò)訓(xùn)練標(biāo)記的正常數(shù)據(jù)獲得一個(gè)緊湊的超球邊界,來(lái)分離正常和異常數(shù)據(jù)。該模型預(yù)測(cè)并不需要存儲(chǔ)數(shù)據(jù),所以具有較低的內(nèi)存復(fù)雜度。與文獻(xiàn)[53]不同,Zhang 等人[54]通過(guò)結(jié)構(gòu)超球?qū)W習(xí)的和屬性超球?qū)W習(xí)分別從結(jié)構(gòu)和屬性的角度測(cè)量異常,擁有比OCGNN更強(qiáng)的性能,但是其網(wǎng)絡(luò)規(guī)模明顯大于OCGNN,且時(shí)間復(fù)雜度較高。這兩種方法將GNN強(qiáng)大的表示能力和經(jīng)典超球?qū)W習(xí)組合,其特征表示直接針對(duì)異常檢測(cè)任務(wù)構(gòu)建,與特征表示后進(jìn)行傳統(tǒng)分類(lèi)的集成檢測(cè)方法大不相同。
圖4 OCGNN模型結(jié)構(gòu)Fig.4 Framework of OCGNN model
基于對(duì)比自監(jiān)督的方法中,Liu 等人[55]通過(guò)實(shí)例對(duì)采樣,充分利用屬性圖中的局部信息捕獲節(jié)點(diǎn)和相鄰子結(jié)構(gòu)之間的關(guān)系,并采用基于GCN 的對(duì)比學(xué)習(xí)方法學(xué)習(xí)節(jié)點(diǎn)表示。Zheng等人[56]聯(lián)合使用生成性和對(duì)比性?xún)煞N自監(jiān)督學(xué)習(xí)策略,通過(guò)生成性屬性重構(gòu)和多視圖級(jí)對(duì)比學(xué)習(xí)機(jī)制,充分利用屬性信息以及上下文信息捕獲多視圖中的異常模式。隨后,Zheng 等人[57]又同時(shí)在補(bǔ)丁和上下文兩個(gè)級(jí)別通過(guò)對(duì)比學(xué)習(xí)對(duì)多視圖進(jìn)行異常檢測(cè),并且在此基礎(chǔ)上進(jìn)一步擴(kuò)展,利用標(biāo)記的小樣本異常數(shù)據(jù)進(jìn)行訓(xùn)練,使檢測(cè)結(jié)果更加精確。這類(lèi)基于對(duì)比自監(jiān)督的模型通過(guò)學(xué)習(xí)對(duì)比復(fù)雜的無(wú)標(biāo)簽實(shí)例對(duì),可以從無(wú)標(biāo)記數(shù)據(jù)本身獲取監(jiān)督信號(hào)訓(xùn)練網(wǎng)絡(luò),不需要對(duì)數(shù)據(jù)進(jìn)行大量標(biāo)注。此外,這類(lèi)模型的空間復(fù)雜度與節(jié)點(diǎn)數(shù)無(wú)關(guān),避免將整個(gè)大規(guī)模圖輸入GCN 模型導(dǎo)致爆炸性的空間復(fù)雜性,相反,此類(lèi)模型將大圖劃分成實(shí)例對(duì),只需要調(diào)整批量大小或子圖大小以滿(mǎn)足內(nèi)存約束,適合用于數(shù)據(jù)量大、缺乏標(biāo)記數(shù)據(jù)的場(chǎng)景。
2.1.3 小結(jié)
基于DNN及GNN的深度學(xué)習(xí)方法,能夠更高效地對(duì)圖數(shù)據(jù)中豐富且復(fù)雜的信息進(jìn)行表示,但是相比傳統(tǒng)方法較為復(fù)雜,導(dǎo)致時(shí)間和計(jì)算資源成本增加。基于深度學(xué)習(xí)的屬性圖異常檢測(cè)方法通常采用自編碼器、GNN 和GAN 等模型作為特征提取器來(lái)學(xué)習(xí)屬性圖中穩(wěn)健的特征,并使用殘差分析的方法通過(guò)重構(gòu)誤差定義異常分?jǐn)?shù)來(lái)檢測(cè)圖中的異常模式?;陉P(guān)系學(xué)習(xí)的方法通過(guò)端到端的學(xué)習(xí),可以聯(lián)合訓(xùn)練深層神經(jīng)網(wǎng)絡(luò),同時(shí)優(yōu)化輸出空間中包含超球面的數(shù)據(jù),但是對(duì)于高維數(shù)據(jù),訓(xùn)練時(shí)間和模型更新時(shí)間可能更長(zhǎng)?;趯?duì)比自監(jiān)督學(xué)習(xí)的方法通常將圖拆分為獨(dú)立的輕量級(jí)實(shí)例對(duì),而非全圖訓(xùn)練,可以靈活適用于大規(guī)模屬性圖。依據(jù)本節(jié)的模型介紹,表2中對(duì)各類(lèi)基于深度學(xué)習(xí)的靜態(tài)屬性圖異常檢測(cè)方法進(jìn)行了分析與總結(jié)。
表2 基于深度學(xué)習(xí)的靜態(tài)屬性圖異常檢測(cè)方法對(duì)比Table 2 Comparison of deep learning based attribute graph anomaly detection methods
2.2.1 基于深度神經(jīng)網(wǎng)絡(luò)的方法
動(dòng)態(tài)屬性圖因其靈活和不斷變化的特性,檢測(cè)異常并非易事?,F(xiàn)有的圖表示學(xué)習(xí)方法多數(shù)都是針對(duì)靜態(tài)圖而設(shè)計(jì),無(wú)法捕捉到動(dòng)態(tài)圖的演化趨勢(shì)。為此,Yu等人[58]提出NetWalk模型,對(duì)不斷變化的圖進(jìn)行表示學(xué)習(xí),以達(dá)到動(dòng)態(tài)檢測(cè)異常值的目的。該模型為了更好處理動(dòng)態(tài)圖中不斷更新的節(jié)點(diǎn)和邊,專(zhuān)門(mén)設(shè)計(jì)了一個(gè)reservior sampling方法來(lái)更新節(jié)點(diǎn)表示,維護(hù)每個(gè)節(jié)點(diǎn)大小不變的reservoir,最后通過(guò)動(dòng)態(tài)聚類(lèi)的方法識(shí)別異常節(jié)點(diǎn)。模型泛化能力較強(qiáng),但當(dāng)圖動(dòng)態(tài)變化時(shí),模型需全面更新所有游走路徑并重新訓(xùn)練新的路徑,且根據(jù)頂點(diǎn)或邊表示的維度動(dòng)態(tài)更新聚類(lèi)中心,導(dǎo)致時(shí)間復(fù)雜度較高。
NetWalk 方法在一定程度上做到了動(dòng)態(tài)檢測(cè),但只是更新邊的表示,沒(méi)有考慮到時(shí)序因素,無(wú)法持續(xù)對(duì)動(dòng)態(tài)數(shù)據(jù)流進(jìn)行實(shí)時(shí)性檢測(cè)。長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)在1997 年被提出[59],適用于處理與時(shí)間序列高度相關(guān)的問(wèn)題,在異常檢測(cè)方面被廣泛應(yīng)用。
Yuan等人[60]提出一種多源長(zhǎng)短期記憶網(wǎng)絡(luò)M-LSTM用來(lái)檢測(cè)維基百科中的異常用戶(hù),其采用多個(gè)LSTM捕捉用戶(hù)編輯行為的不同方面,并進(jìn)一步使用注意力機(jī)制動(dòng)態(tài)學(xué)習(xí)每個(gè)方面的重要性。該模型不需要啟發(fā)式規(guī)則也不需要手工設(shè)計(jì)的特征,通過(guò)編輯序列自動(dòng)學(xué)習(xí)用戶(hù)嵌入,并在帶有標(biāo)記的數(shù)據(jù)集上進(jìn)行訓(xùn)練,但實(shí)際上異常用戶(hù)的數(shù)據(jù)十分稀少,手動(dòng)標(biāo)記大量異常數(shù)據(jù)很繁瑣。
Zheng 等人[61]提出將GAN 和LSTM 混合使用來(lái)檢測(cè)異常的方法,用來(lái)解決異常數(shù)據(jù)不足的問(wèn)題。模型先采用LSTM 自編碼器將正常用戶(hù)編碼到隱藏空間得到正常用戶(hù)表示,其次訓(xùn)練一個(gè)改進(jìn)的互補(bǔ)GAN,其中生成器生成良性用戶(hù)的互補(bǔ)樣本與惡意用戶(hù)具有相同的分布,訓(xùn)練后可以通過(guò)鑒別器檢測(cè)出惡意用戶(hù)。該模型避免了手動(dòng)添加異常用戶(hù)的繁瑣步驟,適用于檢測(cè)不同類(lèi)型的異常用戶(hù),并且經(jīng)過(guò)訓(xùn)練后用戶(hù)一旦提交新的動(dòng)作,就會(huì)自適應(yīng)地更新用戶(hù)表示,可實(shí)時(shí)預(yù)測(cè)異常用戶(hù)。
2.2.2 基于圖神經(jīng)網(wǎng)絡(luò)的方法
為了更好地捕獲動(dòng)態(tài)圖中長(zhǎng)時(shí)和短時(shí)特征,許多研究者將GNN 和LSTM 或門(mén)控循環(huán)單元(gated recurrent unit,GRU)[62]結(jié)合進(jìn)行動(dòng)態(tài)圖異常檢測(cè)。郭嘉琰等人[63]使用LSTM 獲取每一時(shí)刻的全局信息,結(jié)合GCN 提取整個(gè)動(dòng)態(tài)圖的結(jié)構(gòu)和屬性特征進(jìn)行異常檢測(cè),該模型關(guān)注圖的全局信息,并以無(wú)監(jiān)督方式學(xué)習(xí)。
文獻(xiàn)[64]提出半監(jiān)督模型AddGraph,如圖5 所示,在GCN 的基礎(chǔ)上使用基于上下文注意力的GRU 模型以支持時(shí)間信息,GCN 從每個(gè)時(shí)間戳的圖形快照生成節(jié)點(diǎn)嵌入,隨后GRU 從節(jié)點(diǎn)嵌入以及之前時(shí)刻的隱藏狀態(tài)中學(xué)習(xí)當(dāng)前的隱藏狀態(tài),用于計(jì)算每條邊的異常概率。該模型可以從每個(gè)圖快照之間的依賴(lài)關(guān)系中捕獲更具代表的結(jié)構(gòu)信息,同時(shí)結(jié)合屬性還有時(shí)間特征靈活地檢測(cè)異常邊,并通過(guò)負(fù)采樣和邊際損失策略緩解了異常數(shù)據(jù)不足的問(wèn)題。
圖5 AddGraph模型結(jié)構(gòu)Fig.5 Framework of AddGraph model
與AddGraph 中檢測(cè)異常邊不同,LRGCN 方法[65]對(duì)時(shí)間演化網(wǎng)絡(luò)中的路徑分類(lèi)問(wèn)題進(jìn)行研究,以檢測(cè)故障路徑。該模型利用節(jié)點(diǎn)之間和時(shí)間快照之間對(duì)時(shí)間的依賴(lài)性關(guān)系進(jìn)行建模,獲得每個(gè)節(jié)點(diǎn)的隱藏表示,并提出一種新的路徑表示方法SAPE,將圖中任意長(zhǎng)度的路徑編碼成固定長(zhǎng)度的表示向量來(lái)進(jìn)行異常路徑預(yù)測(cè)。此方法解決了路徑分類(lèi)問(wèn)題并可以預(yù)測(cè)異常,具有較高的可解釋性,但模型設(shè)計(jì)復(fù)雜,實(shí)際應(yīng)用性不高。
上述模型中的方法側(cè)重于學(xué)習(xí)良好的節(jié)點(diǎn)表示,而忽略了動(dòng)態(tài)圖中與目標(biāo)節(jié)點(diǎn)相關(guān)的子圖結(jié)構(gòu)變化。文獻(xiàn)[66]通過(guò)挖掘不尋常的子圖結(jié)構(gòu)來(lái)檢測(cè)異常邊緣,為了表示特定的子圖結(jié)構(gòu)信息,模型引入節(jié)點(diǎn)標(biāo)記函數(shù)為每個(gè)節(jié)點(diǎn)生成標(biāo)簽,分析給定時(shí)間窗口的標(biāo)記子圖來(lái)預(yù)測(cè)目標(biāo)邊的類(lèi)別。該模型不需要對(duì)節(jié)點(diǎn)進(jìn)行表示學(xué)習(xí),并且靈活性高,任何捕捉時(shí)間信息的網(wǎng)絡(luò)都可以用于該模型。
在對(duì)動(dòng)態(tài)圖進(jìn)行時(shí)空特征提取時(shí),多數(shù)模型[64,66]分別使用兩個(gè)獨(dú)立模塊如:GCN模塊獲取空間知識(shí),GRU模塊捕獲時(shí)間信息進(jìn)行建模,容易導(dǎo)致捕捉耦合信息能力不足的問(wèn)題。Liu等人[67]中提出一種基于Transformer的動(dòng)態(tài)圖異常檢測(cè)框架TADDY,設(shè)計(jì)綜合的節(jié)點(diǎn)編碼方法來(lái)覆蓋足夠的時(shí)間與空間信息,并通過(guò)一個(gè)單一Transformer 變換器進(jìn)行耦合。其中節(jié)點(diǎn)編碼綜合全局空間、局部空間以及時(shí)間信息等多種知識(shí),可以對(duì)不斷演化的節(jié)點(diǎn)角色進(jìn)行高質(zhì)量的表示學(xué)習(xí)。
2.2.3 小結(jié)
與靜態(tài)圖不同,動(dòng)態(tài)圖隨時(shí)間變化不斷更新,其中不僅包含豐富的圖上屬性,還包含其時(shí)間屬性?,F(xiàn)有針對(duì)動(dòng)態(tài)圖進(jìn)行異常檢測(cè)的方法,基本都是將動(dòng)態(tài)圖看作一序列時(shí)間快照進(jìn)行處理,主要采用自編碼器、GNN、LSTM、GRU等深度學(xué)習(xí)模型考慮每個(gè)圖快照在不同時(shí)間戳中所包含的時(shí)間與空間信息,大多數(shù)情況下時(shí)空信息是耦合的,需要同時(shí)捕獲,現(xiàn)有的解決方案如文獻(xiàn)[64,66]普遍使用時(shí)間模塊和空間模塊疊加的混合模型,分別用于捕獲時(shí)間及空間信息,但是可能會(huì)丟失一些交叉信息,耦合性能較弱。其次,動(dòng)態(tài)圖隨時(shí)間演化,部分演化較慢的異常難以區(qū)分,而且對(duì)動(dòng)態(tài)圖表示學(xué)習(xí)方法的設(shè)計(jì)以及對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)檢測(cè)也是難點(diǎn)所在。
依據(jù)本節(jié)的模型介紹,表3 從模型、發(fā)表年份、機(jī)制、優(yōu)勢(shì)和局限性以及適用場(chǎng)景等多方面比較總結(jié)了部分動(dòng)態(tài)屬性圖中的異常檢測(cè)方法,不同的方法都有其自身的優(yōu)勢(shì)和局限性,在具體的應(yīng)用中應(yīng)該根據(jù)其構(gòu)造的屬性圖以及可能產(chǎn)生的異常類(lèi)型選取合適的檢測(cè)方法。
表3 基于深度學(xué)習(xí)動(dòng)態(tài)屬性圖方法對(duì)比Table 3 Comparison of deep learning based dynamic attribute graph anomaly detection methods
基于屬性圖的異常檢測(cè)研究具有多種類(lèi)型模式,對(duì)于不同的模式需選擇不同數(shù)據(jù)集以及評(píng)價(jià)指標(biāo)。本章主要對(duì)部分靜態(tài)屬性圖異常檢測(cè)方法的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比分析。首先介紹三個(gè)實(shí)驗(yàn)所用的公開(kāi)數(shù)據(jù)集的基本情況,為了驗(yàn)證深度學(xué)習(xí)方法在靜態(tài)屬性圖異常檢測(cè)中的有效性,通過(guò)經(jīng)典的深度學(xué)習(xí)方法與傳統(tǒng)方法在3個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果進(jìn)行分析。
(1)數(shù)據(jù)集
本實(shí)驗(yàn)使用的3 個(gè)數(shù)據(jù)集為BlogCatalog、Flickr 和ACM。表4對(duì)這3個(gè)數(shù)據(jù)集的信息進(jìn)行相關(guān)總結(jié)。
表4 數(shù)據(jù)集信息Table 4 Datasets information
(2)評(píng)價(jià)指標(biāo)
屬性圖異常檢測(cè)通常用準(zhǔn)確率、召回率、AUC進(jìn)行衡量,選取的評(píng)價(jià)指標(biāo)需要視具體情況而定。例如數(shù)據(jù)不平衡,異常數(shù)據(jù)很少時(shí),學(xué)習(xí)到的模型對(duì)任意一個(gè)樣例預(yù)測(cè)基本都是正常的,模型會(huì)得到非常高的準(zhǔn)確率,但是該模型基本無(wú)法檢測(cè)到異常,不能代表此模型有很強(qiáng)的性能。AUC 值從統(tǒng)計(jì)角度來(lái)看,表示隨機(jī)選擇異常實(shí)例比正常實(shí)例更高的概率,所以在大多數(shù)文獻(xiàn)中,這種評(píng)價(jià)指標(biāo)來(lái)衡量模型性能是最常用的,本節(jié)采用AUC值對(duì)模型的性能進(jìn)行對(duì)比。
本節(jié)展示并分析在BlogCatalog、Flickr、ACM 數(shù)據(jù)集上不同算法的結(jié)果,各個(gè)算法在3個(gè)不同數(shù)據(jù)集上的AUC指數(shù)如表5所示。
表5 實(shí)驗(yàn)結(jié)果對(duì)比Table 5 Comparison of experimental results
其中,LOF 是經(jīng)典的基于密度的方法,檢測(cè)密度較低且只考慮屬性信息的異常,SCAN方法基于結(jié)構(gòu)相似度對(duì)頂點(diǎn)進(jìn)行聚類(lèi),只考慮結(jié)構(gòu)層面的異常,這兩類(lèi)方法只通過(guò)單一的模態(tài)信息進(jìn)行異常檢測(cè),沒(méi)有充分利用屬性圖上的信息,取得AUC 值較低。AMEN 使用結(jié)構(gòu)和屬性信息從自我網(wǎng)絡(luò)角度識(shí)別鄰域異常,此方法只能識(shí)別鄰域異常并高度依賴(lài)于觀察到的節(jié)點(diǎn)交互,但是在屬性圖中,圖結(jié)構(gòu)可能非常稀疏,而且學(xué)習(xí)能力有限,導(dǎo)致效果也并不太好。Rader和Anomalous通過(guò)計(jì)算殘差和識(shí)別異常來(lái)區(qū)分原始數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù),該類(lèi)型方法對(duì)屬性信息和結(jié)構(gòu)信息進(jìn)行聯(lián)合建模,較以上3種方法取得不錯(cuò)的性能,但其在處理屬性網(wǎng)絡(luò)稀疏性、數(shù)據(jù)非線性和復(fù)雜模態(tài)交互問(wèn)題時(shí)仍受淺層機(jī)制限制。Dominant使用深度學(xué)習(xí)方法通過(guò)GCN聚合鄰居特征學(xué)習(xí)節(jié)點(diǎn)良好的表示,GCN 可以處理具有多層非線性變換的高階節(jié)點(diǎn)交互,有效緩解網(wǎng)絡(luò)稀疏性問(wèn)題,但是只使用單個(gè)GCN 編碼器,無(wú)法聯(lián)合捕捉兩個(gè)模態(tài)信息之間的復(fù)雜交互。AnomalyDAE 使用兩個(gè)獨(dú)立自編碼器分別從兩個(gè)角度學(xué)習(xí)屬性和結(jié)構(gòu)之間的跨模態(tài)交互,并引入圖注意力機(jī)制有針對(duì)性聚合鄰居信息,達(dá)到比較好的結(jié)果。根據(jù)上述實(shí)驗(yàn)結(jié)果及分析表明:基于深度學(xué)習(xí)的方法在屬性圖異常檢測(cè)中具有良好的效果。
屬性圖異常檢測(cè)廣泛應(yīng)用于社會(huì)中的各個(gè)領(lǐng)域。在金融欺詐檢測(cè)、入侵檢測(cè)、電信欺詐交易檢測(cè)以及虛假新聞檢測(cè)等領(lǐng)域發(fā)揮著至關(guān)重要的作用。
(1)金融欺詐檢測(cè)
網(wǎng)上金融服務(wù)給人們提供便利的同時(shí),也產(chǎn)生許多金融欺詐,例如電信交易欺詐、保險(xiǎn)欺詐等,用戶(hù)之間豐富的交互形成一個(gè)大型網(wǎng)絡(luò)。早在2010年,Li等人[70]開(kāi)始使用基于子圖的結(jié)構(gòu)來(lái)檢測(cè)交易網(wǎng)絡(luò)中的潛在欺詐案件。Liu等人[71]提出一種用于惡意賬戶(hù)檢測(cè)的圖神經(jīng)網(wǎng)絡(luò),Wang等人[50]從多個(gè)視圖進(jìn)行欺詐檢測(cè),都展現(xiàn)出不錯(cuò)的效果。在后續(xù)應(yīng)用中,可以多加關(guān)注實(shí)時(shí)檢測(cè)或者預(yù)測(cè)欺詐的發(fā)生,如Hu 等人[72]使用基于元路徑的圖嵌入方法預(yù)測(cè)用戶(hù)的現(xiàn)金流出,使用戶(hù)避免遭受巨大損失。
(2)虛假評(píng)論檢測(cè)
淘寶、京東、亞馬遜等許多購(gòu)物網(wǎng)站成為垃圾評(píng)論所處的平臺(tái)。欺詐的評(píng)論者受到利益驅(qū)使編造撰寫(xiě)虛假評(píng)論,分別不真實(shí)地提升或者損害商家聲譽(yù),導(dǎo)致用戶(hù)對(duì)商家產(chǎn)生不公正的看法。針對(duì)虛假評(píng)論檢測(cè),最開(kāi)始使用行為分析和語(yǔ)言文本分析[73-74]例如提取如評(píng)論長(zhǎng)度、發(fā)表時(shí)間、評(píng)論時(shí)間等特征,并基于規(guī)則挖掘發(fā)現(xiàn)可疑評(píng)論,隨后,Akoglu 等人[75]提出利用關(guān)系分析和網(wǎng)絡(luò)效應(yīng),從欺詐評(píng)論家之間的聯(lián)系來(lái)檢測(cè)虛假評(píng)論,Wang等人[76]使用一種新的傳播算法捕捉評(píng)論者、評(píng)論和商鋪之間的關(guān)系,定義誠(chéng)實(shí)可信度分?jǐn)?shù)來(lái)檢測(cè)垃圾評(píng)論。
(3)拍賣(mài)欺詐檢測(cè)
雅虎、eBay等購(gòu)物網(wǎng)站是拍賣(mài)欺詐最多的平臺(tái),在2008 年美國(guó)聯(lián)邦互聯(lián)網(wǎng)犯罪中心就接到拍賣(mài)投訴約占總投訴25%,網(wǎng)上拍賣(mài)活動(dòng)中,賣(mài)家不將購(gòu)買(mǎi)商品交付給買(mǎi)家的“不交付欺詐”約占33%之多[77]。文獻(xiàn)[78]最早提出基于圖數(shù)據(jù)的拍賣(mài)欺詐檢測(cè)方法,通過(guò)對(duì)eBay 數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)拍賣(mài)過(guò)程中的欺詐者。文獻(xiàn)[79]開(kāi)發(fā)了一個(gè)基于RMN 的關(guān)系分類(lèi)模型,用來(lái)捕獲節(jié)點(diǎn)屬性包括誠(chéng)實(shí)、同謀、欺詐者之間的復(fù)雜關(guān)聯(lián),并使用LBP進(jìn)行推理。
(4)電信欺詐檢測(cè)
電信詐騙問(wèn)題給用戶(hù)造成大量財(cái)產(chǎn)損失,2017年電信欺詐造成損失高達(dá)292 億美元,占全球估計(jì)收入的1.69%。大量電信欺詐檢測(cè)方法涌現(xiàn),Cortes等人[80]通過(guò)每個(gè)電信賬戶(hù)構(gòu)建子圖,動(dòng)態(tài)衡量不同賬戶(hù)之間的通話頻率和時(shí)間,根據(jù)觀察到的知識(shí)來(lái)檢測(cè)欺詐賬號(hào)。Liu等人[81]提出一種用于電信欺詐的圖表示模型,建立用戶(hù)和通信關(guān)系圖,通過(guò)注意力機(jī)制自適應(yīng)的組合其聯(lián)系人來(lái)決定賬戶(hù)的表示,在識(shí)別欺詐電話方面取得不錯(cuò)的效果。
(5)虛假新聞檢測(cè)
虛假新聞包括娛樂(lè)、經(jīng)濟(jì)、政治等領(lǐng)域的多種不實(shí)新聞,擾亂社會(huì)秩序和穩(wěn)定,給人們思想以及生活帶來(lái)不小的影響。針對(duì)新聞發(fā)表用戶(hù)、內(nèi)容、評(píng)論等可以構(gòu)建圖模型進(jìn)行異常檢測(cè),識(shí)別虛假新聞以及傳播者。Shu 等人[82]采用基于上下文的方法,利用從用戶(hù)社交媒體資料中獲得用戶(hù)元信息作為檢測(cè)虛假新聞的特征,Mishra等人[83]用GNN學(xué)習(xí)其他用戶(hù)特征例如濫用政治觀點(diǎn)和立場(chǎng)進(jìn)行假新聞的檢測(cè)任務(wù),文獻(xiàn)[84]將新聞和新聞發(fā)布者建模為圖,提出了一種新的圖神經(jīng)網(wǎng)絡(luò),利用社交媒體用戶(hù)的信息轉(zhuǎn)播行為檢測(cè)虛假新聞。
隨著圖數(shù)據(jù)的研究與發(fā)展,屬性圖被越來(lái)越多地應(yīng)用于復(fù)雜系統(tǒng)進(jìn)行建模,特別是對(duì)現(xiàn)實(shí)世界產(chǎn)生的屬性網(wǎng)絡(luò)進(jìn)行異常檢測(cè),逐漸得到國(guó)內(nèi)外學(xué)者的廣泛關(guān)注,將深度學(xué)習(xí)引入屬性圖異常檢測(cè)問(wèn)題,取得明顯的優(yōu)勢(shì)。本文總結(jié)了近年來(lái)最新的屬性圖異常檢測(cè)模型,比較分析各個(gè)模型的特點(diǎn)與差異。雖然基于深度學(xué)習(xí)的屬性圖異常檢測(cè)方法在解決圖數(shù)據(jù)稀疏性、數(shù)據(jù)非線性以及結(jié)構(gòu)信息和屬性信息的交互等方面表現(xiàn)優(yōu)異,但也面臨著一些亟待解決的問(wèn)題。
(1)模型效率與泛化性:面對(duì)現(xiàn)實(shí)世界中復(fù)雜任務(wù)形成的大規(guī)模網(wǎng)絡(luò),其中甚至包含數(shù)以百萬(wàn)的節(jié)點(diǎn)、邊及其屬性信息,基于大規(guī)模網(wǎng)絡(luò)形成的圖數(shù)據(jù)具有海量高維的特征?,F(xiàn)有的異常檢測(cè)模型中,需要將圖數(shù)據(jù)作為輸入進(jìn)行分析,而深度學(xué)習(xí)技術(shù)不僅對(duì)硬件要求高,同時(shí)需要較長(zhǎng)的訓(xùn)練時(shí)間,因此圖規(guī)模的不斷擴(kuò)大會(huì)直接導(dǎo)致算法耗時(shí)過(guò)長(zhǎng)、內(nèi)存消耗急劇增加。其次,大多數(shù)異常檢測(cè)方法都針對(duì)特定領(lǐng)域建模,對(duì)異常的定義各不相同,導(dǎo)致算法普適性較低,泛化能力弱。
(2)動(dòng)態(tài)性與實(shí)時(shí)性:動(dòng)態(tài)屬性圖不斷變化的結(jié)構(gòu)和屬性信息給異常檢測(cè)帶來(lái)極大挑戰(zhàn),例如為了檢測(cè)動(dòng)態(tài)屬性圖中的異常,將其按時(shí)間戳劃分成時(shí)間快照的方法無(wú)法精確地捕捉到圖中對(duì)象的演化模式特征;其次在整個(gè)動(dòng)態(tài)演化過(guò)程中重復(fù)利用靜態(tài)圖表示學(xué)習(xí)方法進(jìn)行學(xué)習(xí),會(huì)耗費(fèi)極大的代價(jià),降低模型的運(yùn)行效率,且動(dòng)態(tài)圖中對(duì)異常的實(shí)時(shí)檢測(cè)也是難點(diǎn)之一。
(3)異常罕見(jiàn)性:現(xiàn)實(shí)世界中由于異常的罕見(jiàn)特性,異常對(duì)象的數(shù)量遠(yuǎn)小于正常對(duì)象,且深度學(xué)習(xí)模型依賴(lài)于訓(xùn)練數(shù)據(jù),這種數(shù)據(jù)不均衡現(xiàn)象將導(dǎo)致模型捕捉正常和異常數(shù)據(jù)差異的能力降低,并可能導(dǎo)致異常數(shù)據(jù)過(guò)擬合,成為檢測(cè)異常的一大障礙。
(4)可解釋性:模型的可解釋性是一種較為主觀的性質(zhì),目前可解釋性差也是深度學(xué)習(xí)最大的缺陷之一。基于圖數(shù)據(jù)的異常檢測(cè)技術(shù)的可解釋性有助于幫助更好地理解異常以及異常分?jǐn)?shù),使分析人員從模型中獲取更多的有用信息,對(duì)后續(xù)異常處理過(guò)程至關(guān)重要,但現(xiàn)有的工作通常缺乏可解釋能力。
隨著大數(shù)據(jù)技術(shù)的發(fā)展,屬性圖數(shù)據(jù)因其海量、高維、動(dòng)態(tài)、異構(gòu)且具有豐富屬性信息等特點(diǎn)給異常檢測(cè)帶來(lái)了極大挑戰(zhàn),綜上所述,后續(xù)研究可以分為以下幾個(gè)方面。
(1)大規(guī)模屬性圖異常檢測(cè):針對(duì)此問(wèn)題可以從3個(gè)方面著手。首先可以研究更有效的網(wǎng)絡(luò)表示方法,在最大程度保留原始圖結(jié)構(gòu)的基礎(chǔ)上進(jìn)行降維,得到高維數(shù)據(jù)的特征表示。其次可以采用模型壓縮的方法,例如剪枝處理去除冗余參數(shù)。此外,還可以采用分布式并行處理的方法,降低模型復(fù)雜度,充分利用現(xiàn)有資源。隨著數(shù)據(jù)量的不斷增大,基于大規(guī)模高維屬性圖數(shù)據(jù)異常檢測(cè)方法的研究是未來(lái)的重點(diǎn)之一。
(2)不平衡屬性圖異常檢測(cè):為了解決屬性圖數(shù)據(jù)的不平衡性,可以在屬性圖異常檢測(cè)中可以考慮采用對(duì)抗生成的思想解決異常數(shù)據(jù)缺少的問(wèn)題,或在采用圖神經(jīng)網(wǎng)絡(luò)時(shí)多考慮其過(guò)度平滑問(wèn)題所帶來(lái)的影響,也可以在數(shù)據(jù)集中通過(guò)異常注入生成合成數(shù)據(jù)集來(lái)驗(yàn)證方法的有效性。
(3)動(dòng)態(tài)屬性圖異常檢測(cè):為了更好地適應(yīng)于動(dòng)態(tài)數(shù)據(jù),可設(shè)計(jì)用于動(dòng)態(tài)圖的表示學(xué)習(xí)方法,獲得演化時(shí)刻的特征表示;其次可以采用時(shí)間窗口來(lái)提取特征或計(jì)算正常的節(jié)點(diǎn)活動(dòng),但如何選擇合適的時(shí)間窗口以檢測(cè)不同類(lèi)型的異常仍舊是一個(gè)開(kāi)放性問(wèn)題。
(4)異構(gòu)屬性圖異常檢測(cè):異構(gòu)屬性圖是一種特殊的圖,其包含不同類(lèi)型的節(jié)點(diǎn)和邊,現(xiàn)有的方法大多只針對(duì)于同構(gòu)圖,忽略了對(duì)異構(gòu)圖中不同類(lèi)型圖對(duì)象的異常檢測(cè)。對(duì)此,設(shè)計(jì)針對(duì)于異構(gòu)屬性圖的異常檢測(cè)方法也是很有前景的研究方向。
(5)統(tǒng)一檢測(cè)框架與評(píng)價(jià)指標(biāo):現(xiàn)有模型的普適性較低,沒(méi)有通用的異常檢測(cè)框架,在評(píng)估模型性能的時(shí)候通常根據(jù)不同領(lǐng)域進(jìn)行分析選取合適的評(píng)價(jià)指標(biāo)。因此,在未來(lái)的研究中,可以構(gòu)建一個(gè)應(yīng)用于不同類(lèi)型異常檢測(cè)的統(tǒng)一框架模型,同時(shí)捕獲各個(gè)類(lèi)型的異常,并建立統(tǒng)一的衡量異常的評(píng)價(jià)算法指標(biāo)。
(6)屬性圖異常檢測(cè)可解釋性:目前,對(duì)各種方法的可解釋工作十分缺少,后續(xù)針對(duì)此問(wèn)題的研究,可以設(shè)計(jì)專(zhuān)門(mén)的解釋機(jī)制,集成到異常檢測(cè)框架中,進(jìn)行準(zhǔn)確、穩(wěn)定、合理的解釋。也可以通過(guò)圖表、對(duì)比圖等形式進(jìn)行輔助,可視化呈現(xiàn)出異常與正常數(shù)據(jù)之間的差異,給出可解釋的結(jié)果。
計(jì)算機(jī)工程與應(yīng)用2022年19期