于千城 ,於志文 ,王 柱
1.西北工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,西安 710072
2.陜西省嵌入式系統(tǒng)技術(shù)重點(diǎn)實(shí)驗(yàn)室(西北工業(yè)大學(xué)),西安 710072
從社區(qū)結(jié)構(gòu)這一中觀層面對社交網(wǎng)絡(luò)進(jìn)行研究對人們準(zhǔn)確理解社交網(wǎng)絡(luò)的特性有十分重要的意義,既能夠彌補(bǔ)宏觀層面粒度過粗所造成的很多網(wǎng)絡(luò)特性無法觀察到的缺陷,又避免了微觀層面粒度過細(xì)所帶來的丟失共性并且計(jì)算復(fù)雜度高等問題。為了避免社區(qū)發(fā)現(xiàn)算法中手工預(yù)先設(shè)置社區(qū)個(gè)數(shù),采用非參數(shù)貝葉斯層次模型來生成帶重疊社區(qū)結(jié)構(gòu)的網(wǎng)絡(luò),假設(shè)在無限可交換觀測序列中可能存在無限多個(gè)社區(qū),從而允許社區(qū)個(gè)數(shù)和模型參數(shù)的個(gè)數(shù)會(huì)隨著觀測數(shù)據(jù)的增多而增加。
本文主要關(guān)注計(jì)數(shù)值社交網(wǎng)絡(luò)中的重疊社區(qū)分析問題,通過將無限潛特征模型[1]推廣應(yīng)用到關(guān)系型數(shù)據(jù),提出了一個(gè)非參數(shù)貝葉斯層次模型[2]作為網(wǎng)絡(luò)生成模型的重疊社區(qū)檢測方法,采用負(fù)二項(xiàng)過程對似然分布進(jìn)行描述,采用印度自助餐館過程(Indian Buffet Process,IBP[3)]作為社區(qū)隸屬指派矩陣Z的先驗(yàn)。采用馬爾可夫鏈蒙特卡羅方法(Markov Chain Monte Carlo,MCMC[4)]對模型進(jìn)行后驗(yàn)推理。
對關(guān)系型無限潛特征模型(rILFM)進(jìn)行MCMC 后驗(yàn)推理后,得到的社區(qū)隸屬指派矩陣Z的后驗(yàn)結(jié)果是一個(gè)N×K列的0、1 矩陣上的概率分布。對于單變量模型參數(shù),很容易進(jìn)行后驗(yàn)推理結(jié)果總結(jié)和推理質(zhì)量評估[5-6]。然而,如何對這種帶結(jié)構(gòu)的多變量參數(shù)的后驗(yàn)推理結(jié)果進(jìn)行總結(jié)和推理質(zhì)量評估,目前尚未有比較好的方法。本文提出了一種基于對抗樣本訓(xùn)練圖分類器來進(jìn)行推理結(jié)果總結(jié)和推理質(zhì)量估計(jì)。通過將對抗樣本和正常樣本一起訓(xùn)練,提高了圖分類器的穩(wěn)定性。
令G=(V,E) 表示一個(gè)有向圖,Gt=(Vt,Et) 表示t時(shí)刻某一特定時(shí)間段對應(yīng)的網(wǎng)絡(luò)快照。結(jié)點(diǎn)集合Vt={v1,v2,…,vn},結(jié)點(diǎn)個(gè)數(shù)|Vt|=n,邊集合Et,每一條邊eij關(guān)聯(lián)一個(gè)計(jì)數(shù)值mij表示該時(shí)間段內(nèi)由結(jié)點(diǎn)vi發(fā)起的與結(jié)點(diǎn)vj的交互次數(shù)。對于每個(gè)網(wǎng)絡(luò)快照對應(yīng)的計(jì)數(shù)值鄰接矩陣M,定義在其上的是一個(gè)負(fù)二項(xiàng)分布mij~NB(rij,p)。對M進(jìn)行泊松因子分解[7],可以得到M=ZΛZT。綜上所述,網(wǎng)絡(luò)生成模型的生成過程如下:
由可交換性假設(shè)可知,網(wǎng)絡(luò)中的每條邊都是條件獨(dú)立同分布的,因此得到式(1);式(2)~(4)由負(fù)二項(xiàng)因子分解[7]得到,式(3)表示對于結(jié)點(diǎn)i和j的每一個(gè)可能的社區(qū)隸屬對<zik1=1,zjk2=1 >所導(dǎo)致的結(jié)點(diǎn)間交互次數(shù)計(jì)數(shù)值為;式(5)表示Z的先驗(yàn)是一個(gè)IBP,其參數(shù)是n和α;式(6)表示社區(qū)兼容矩陣Λ中的K×K個(gè)值獨(dú)立同分布于伽馬分布;網(wǎng)絡(luò)生成模型所對應(yīng)的概率圖模型如圖1所示。
圖1 網(wǎng)絡(luò)生成模型所對應(yīng)的概率圖模型
直接采用了SBM(Stochastic Block Model,隨機(jī)塊模型[8])的基本原理,即結(jié)點(diǎn)間連邊的概率由結(jié)點(diǎn)所隸屬的社區(qū)所決定,并且假定社區(qū)隸屬是促進(jìn)結(jié)點(diǎn)連邊的。
IBP作為先驗(yàn)時(shí),對應(yīng)的CRMW通常只有不含原子的非負(fù)隨機(jī)質(zhì)量全體Wf,只有當(dāng)給出觀測數(shù)據(jù)后才會(huì)將含固定原子的非負(fù)隨機(jī)質(zhì)量全體Wr引入到后驗(yàn)中。對于Wf,因?yàn)閃?是齊次NRMI,所以隨機(jī)位置獨(dú)立同分布采樣自μ0,隨機(jī)質(zhì)量與[S,∞)上的具有指數(shù)傾斜強(qiáng)度測度ρ′(ds)=e-Usρ(ds)的泊松隨機(jī)測度同分布,可以采用Ogata等提出的adaptive thinning方法進(jìn)行采樣[9]。
Thinning是Lewis和Shedler[10]提出的從一個(gè)泊松隨機(jī)測度進(jìn)行采樣的方法,分為兩步:首先從一個(gè)提議分布(一個(gè)比目標(biāo)分布強(qiáng)度更高的泊松隨機(jī)測度)采樣出一些點(diǎn),然后以提議分布和目標(biāo)分布的強(qiáng)度之比作為概率接受或拒絕每個(gè)采樣。如圖2所示,在Adaptive thinning 算法中,從提議分布中采樣點(diǎn)時(shí),從截?cái)嗉墑eS出發(fā)從左向右迭代進(jìn)行,令ν′(s)是ρ′(ds)在 Lebesgue 測度下的密度,對于任意的t∈?+,存在一個(gè)函數(shù)wt(s)滿足wt(t)=ν′(t)和wt(s)≥wt′(s)≥ν′(s)(對于任意的s,t′≥t)。
圖2 從一個(gè)泊松隨機(jī)測度進(jìn)行采樣時(shí)采用的漸進(jìn)界限
算法1通過截棍過程構(gòu)造IBP
3.返回N(N就是對強(qiáng)度為ν′的IBP 在[S,∞)進(jìn)行的有限采樣)
由于社區(qū)隸屬指派矩陣Z的每個(gè)元素zik指明了結(jié)點(diǎn)i是否隸屬于社區(qū)k,因此網(wǎng)絡(luò)重疊社區(qū)檢測結(jié)果就可以從矩陣Z的后驗(yàn)分布中采樣得到。由貝葉斯公式可知P(zik|?)∝P(M|Z,r,p)P(zik|Z-ik) ,其中Z-ik表示Z中除zik之外的其他元素。
IBP是嚴(yán)格穩(wěn)定分布天然的指數(shù)族分布,采用指數(shù)傾斜可以在求解貝葉斯估計(jì)的近似公式時(shí)不涉及似然函數(shù)的條件最大值,求解過程更穩(wěn)定,并且顯著減少了所需要的計(jì)算時(shí)間[11]。將嚴(yán)格穩(wěn)定分布與指數(shù)傾斜相結(jié)合已經(jīng)被證明在很多應(yīng)用(例如:重要性采樣、罕見事件的模擬、保險(xiǎn)精算等)中非常有效。
算法2Gibbs采樣過程
對于rILFM模型而言,對觀測到的網(wǎng)絡(luò)數(shù)據(jù)和預(yù)測出的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行比較,可以看作是一個(gè)判斷圖相似的問題。采用基于圖卷積神經(jīng)網(wǎng)絡(luò)的圖分類算法來進(jìn)行圖的相似性比較是一種比較理想的方案,若兩個(gè)圖能夠被分到同一個(gè)類別中,則意味著它們的表征向量是向量空間中兩個(gè)相近的點(diǎn),即它們具有很大的相似性。給定一組圖G1,G2,…,Gn構(gòu)成的集合G,和對應(yīng)的一組標(biāo)簽y1,y2,…,yn構(gòu)成的集合Y,圖分類是指得到一個(gè)學(xué)習(xí)模型能夠?qū)W習(xí)出整個(gè)圖的表征向量hG,使得yG=g(hG),這里g是一個(gè)由表征向量得到圖標(biāo)簽的映射。圖卷積神經(jīng)網(wǎng)絡(luò)利用圖結(jié)構(gòu)和結(jié)點(diǎn)的特征向量Xv來學(xué)習(xí)結(jié)點(diǎn)的表征向量hv:采用遞歸地對鄰居結(jié)點(diǎn)的特征向量進(jìn)行聚集的模式來得到結(jié)點(diǎn)的表征向量,第一層卷積對結(jié)點(diǎn)的直接鄰居(跳數(shù)為1的鄰居)進(jìn)行了聚合,第二個(gè)卷積層對結(jié)點(diǎn)的跳數(shù)為2 的鄰居進(jìn)行聚合,…,經(jīng)過第k個(gè)卷積層的聚集后,結(jié)點(diǎn)的表征向量已經(jīng)充分捕獲了其k跳鄰居所體現(xiàn)的網(wǎng)絡(luò)結(jié)構(gòu)信息。整個(gè)圖的表征向量hG可以通過圖級別的池化層得到[15]。
對抗樣本是指在數(shù)據(jù)集中通過故意引入細(xì)微的干擾所形成輸入樣本,引入干擾之后的輸入樣本會(huì)高概率得出錯(cuò)誤輸出。引入對抗樣本提供了一個(gè)修正深度模型的機(jī)會(huì),因?yàn)榭梢岳脤箻颖緛硖岣吣P偷目垢蓴_能力。對抗訓(xùn)練就是將對抗樣本和正常樣本一起訓(xùn)練,是一種有效的正則化技術(shù),可以提高模型的準(zhǔn)確度,同時(shí)也能有效降低對抗樣本的攻擊成功率。
為什么在不考慮對抗樣本的情況下來訓(xùn)練分類器有可能會(huì)導(dǎo)致學(xué)習(xí)效果不好,有人懷疑是因?yàn)樯疃壬窠?jīng)網(wǎng)絡(luò)模型的非線性性,也許再加上不充分的模型平均和不充分的正則化(即過擬合)[16]。Tramer 認(rèn)為這些猜測都是不必要的,相反,他認(rèn)為模型在高維空間中的線性性是對抗樣本存在的[17]。下面從一個(gè)線性模型入手,舉例來解釋對抗樣本的存在性問題:在很多問題當(dāng)中,一個(gè)輸入的特征的取值精度通常是有限制的,這就意味著當(dāng)在特征的取值上做一個(gè)微小的擾動(dòng)(在精度范圍內(nèi)),分類器不應(yīng)該返回不同的結(jié)果。比如現(xiàn)在有一個(gè)樣本和一個(gè)對抗輸入,當(dāng)擾動(dòng)足夠小的時(shí)候,分類器對正常樣本和對抗樣本的響應(yīng)應(yīng)該是一樣的。考慮一個(gè)權(quán)值向量,對抗擾動(dòng)使得激發(fā)增長了。顯然,可以通過加入對抗樣本來使得激發(fā)增長。對于有限的k個(gè)維度,如果在每個(gè)維度上增加擾動(dòng),那么激發(fā)可以增加最大。因?yàn)榕c維度無關(guān),而激發(fā)增加量隨維度線性增長,那么在高維問題中,可以很大程度改變輸出,但是在輸入上只需要做極小的改動(dòng)。這個(gè)例子說明,如果維度足夠的話,一個(gè)簡單的線性模型同樣存在對抗樣本的問題。過去對對抗樣本的那些牽扯到神經(jīng)網(wǎng)絡(luò)的性質(zhì)的解釋,比如誤認(rèn)它們具有高度的非線性,可能都不對?;诰€性的假設(shè)更簡單,并且能夠解釋softmax 回歸也對對抗樣本很脆弱的事實(shí)。因此,基于線性,對抗樣本很容易生成。
顯然,需要一個(gè)在引入對抗樣本的情況下依然能夠得到較好的分類結(jié)果的圖分類器來進(jìn)行圖相似性判斷,Zhang等人[18]提出的圖卷積神經(jīng)網(wǎng)絡(luò)框架DGCNN恰好符合本文的需求。因此,基于DGCNN訓(xùn)練了一個(gè)多類別的圖分類器。
采用了一種兩階段樣本收集策略:在第一階段,運(yùn)行了一條MCMC 鏈,從這條鏈上收集到的樣本用作下一階段的種子樣本,包含三個(gè)步驟:
如果有K值的標(biāo)準(zhǔn)答案,就用這個(gè)標(biāo)準(zhǔn)答案來作為的值;否則,采用從MCMC 鏈?zhǔn)占降臉颖镜腒s值的眾數(shù)作為的值。
(2)確定總結(jié)范圍K
當(dāng)確定了的值,那么總結(jié)范圍就是范圍跨度意味著當(dāng)進(jìn)行參數(shù)后驗(yàn)推理結(jié)果總結(jié)時(shí),只考慮三類樣本,即1 這三類樣本。也可以將范圍跨度的值設(shè)置成5,以保留更多的樣本。
(3)選擇種子樣本
從MCMC 鏈?zhǔn)占降淖詈髱讉€(gè)樣本中,選擇三個(gè)滿足Ks∈K的樣本作為種子樣本。
在第二階段中,運(yùn)行了三條MCMC鏈,以每一個(gè)種子樣本作為每條鏈的起始位置,從每條鏈進(jìn)行maxIter次采樣,收集maxIter-burning個(gè)樣本,并且令作為該條鏈采樣出的樣本的Ks真值,這樣從不同鏈上采樣到具有同一Ks值的樣本,在對應(yīng)真值的鏈上就是正樣本,在其他鏈上就是負(fù)樣本,這樣就引入了對抗樣本。在第二階段中,通過以下五個(gè)步驟來準(zhǔn)備DGCNN模型的訓(xùn)練數(shù)據(jù):
(1)生成作為訓(xùn)練樣本的圖
將保留下來的樣本作為參數(shù),用提出的網(wǎng)絡(luò)生成模型生成圖結(jié)構(gòu)數(shù)據(jù)。
(2)給生成的圖打標(biāo)簽
若Ks=,則圖對應(yīng)的標(biāo)簽ys=1(正樣本),否則ys=0(負(fù)樣本)。
(3)重新給生成的圖打標(biāo)簽
采用以下規(guī)則重新給生成的圖打標(biāo)簽,若ys=1,則最終,生成的圖就有了四種標(biāo)簽,即正樣本有三類標(biāo)簽。
(4)為每一個(gè)圖賦結(jié)點(diǎn)屬性
社區(qū)隸屬指派矩陣Zs作為結(jié)點(diǎn)特征向量構(gòu)成的矩陣。DGCNN 模型要求結(jié)點(diǎn)的特征向量具有相同的長度,因此對長度不足的部分用0做了填充。
(5)將訓(xùn)練樣本數(shù)據(jù)寫入文本文件
將所有的正樣本和負(fù)樣本按采樣順序?qū)懭胼斎霐?shù)據(jù)文件。圖3 展示了在模擬數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)時(shí)的輸入數(shù)據(jù)文件片段。
利用所提出的生成模型產(chǎn)生了一個(gè)有30 個(gè)結(jié)點(diǎn)的計(jì)數(shù)值網(wǎng)絡(luò)。將超參數(shù)的初始值設(shè)置為a=0.2 ,b=1,c=8,d=1/HN,e=0.5,f=0.8,λ~gamma(a,b),p~beta(e,f),α~gamma(e,f),得到的實(shí)際超參數(shù)值是α=1.765 8,HN=3.994 98,λ=0.387 2,p=0.28。30個(gè)結(jié)點(diǎn)產(chǎn)生了666條連邊。在第一階段,運(yùn)行了一條MCMC鏈,已知Kˉ=8,因此K={7,8,9},采樣得到了三個(gè)種子樣本作為第二階段運(yùn)行的3 條MCMC 鏈(分別稱之為chain1、chain2、chain3)的起始位置,對于每一條鏈,都設(shè)定maxIter=10 000,burning=4 000,因此從每條鏈?zhǔn)占? 000個(gè)樣本。表1列出了從每條鏈?zhǔn)占降臉颖局蠯s取值的分布,Ks的取值范圍是整數(shù)區(qū)間[4,14],3條鏈的眾數(shù)都是Ks=8。
圖3 在模擬數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)時(shí)的輸入數(shù)據(jù)文件片段
表1 從3條鏈?zhǔn)占降臉颖局?,Ks 值的分布情況
表2 在測試數(shù)據(jù)上,訓(xùn)練樣本的標(biāo)簽分布情況
為了保持各類別的樣本均衡[19],隨機(jī)扔掉了一些負(fù)樣本。表2 中最后一列是保留下的負(fù)樣本數(shù)。生成了5 768個(gè)訓(xùn)練樣本,其中有2 072個(gè)圖的類標(biāo)簽是ys=8,1 022 個(gè)圖的類標(biāo)簽是ys=9 ,1 311 個(gè)圖的類標(biāo)簽是ys=7,1 433 個(gè)圖的類標(biāo)簽是ys=0。相應(yīng)地,有5 840個(gè)測試樣本。
表3 記錄了圖分類器在測試數(shù)據(jù)上的部分預(yù)測結(jié)果??梢钥吹皆诘?回合結(jié)束后,訓(xùn)練準(zhǔn)確率是tAcc=0.431 6,所有5 840 個(gè)測試樣本都被錯(cuò)分了。Go和Gp預(yù)測出的分類標(biāo)簽都是0(表示沒有被分到標(biāo)簽ys=7或ys=8 或ys=9 的任何一個(gè)類中);從第275 個(gè)回合開始,訓(xùn)練準(zhǔn)確率便達(dá)到99%,測試準(zhǔn)確率達(dá)到0.93,四個(gè)類中都只有少量測試樣本被錯(cuò)分,由此可見訓(xùn)練出的圖分類器能夠比較準(zhǔn)確地對測試數(shù)據(jù)進(jìn)行分類。
表3 圖分類器在測試數(shù)據(jù)上的部分預(yù)測結(jié)果
圖4 展示了圖分類器在模擬數(shù)據(jù)集上的實(shí)際運(yùn)行結(jié)果,其中圖(a)通過折線圖的方式展現(xiàn)了在每個(gè)訓(xùn)練測試回合中測試數(shù)據(jù)被正確分類和錯(cuò)誤分類的樣本個(gè)數(shù);圖(b)通過折線圖的方式展現(xiàn)了每個(gè)訓(xùn)練測試回合中訓(xùn)練數(shù)據(jù)集上的準(zhǔn)確率、損失函數(shù)值和曲線下的面積;圖(c)通過折線圖的方式展現(xiàn)了在圖深度神經(jīng)網(wǎng)絡(luò)的每個(gè)訓(xùn)練測試回合中落入標(biāo)簽ys=7 或ys=8 或ys=9 的任何一個(gè)類中的樣本個(gè)數(shù)以及未被正確分類的樣本個(gè)數(shù)。
LESMIS 網(wǎng)絡(luò)是由 D.Knuth 于 1993 年整理出的,描述了維克多·雨果的著作《悲慘世界》中的人物共現(xiàn)關(guān)系。在第一階段選擇從MCMC鏈(令超參初始值a=0.2,b=1,c=8,d=1/HN,e=0.5,f=0.8,λ~gamma(a,b),p~beta(e,f),α~gamma(e,f))采樣到樣本的Ks值的眾數(shù)Ks=15 作為的值,因此K={14,15,16}。得到了三個(gè)種子樣本作為第二階段運(yùn)行的3條MCMC鏈(分別稱之為chain1、chain2、chain3)的起始位置,從每條鏈?zhǔn)占? 000個(gè)樣本。如表4所示,Ks的取值范圍是整數(shù)區(qū)間[13,19],3條鏈的眾數(shù)都是Ks=15。
依據(jù)樣本收集策略,保留了滿足條件的樣本,并以這些樣本作為參數(shù),通過生成模型生成圖,依據(jù)圖標(biāo)簽策略為這些圖打標(biāo)簽(如表5所示)。
為了保持各類別的樣本均衡,隨機(jī)扔掉了一些負(fù)樣本,表5中最后一列是保留下的負(fù)樣本數(shù)。生成了5 751個(gè)訓(xùn)練樣本,其中有1 284 個(gè)圖的類標(biāo)簽是ys=14,2 020 個(gè)圖的類標(biāo)簽是ys=15,1 206 個(gè)圖的類標(biāo)簽是ys=16,1 241個(gè)圖的類標(biāo)簽是ys=0。相應(yīng)地,有5 753個(gè)訓(xùn)練樣本,圖5展示了在真實(shí)數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)的輸入數(shù)據(jù)文件片段。
圖4 圖分類器在模擬數(shù)據(jù)集上的運(yùn)行結(jié)果
表4 從兩條鏈?zhǔn)占降臉颖镜腒s 取值的出現(xiàn)頻次
表5 在真實(shí)數(shù)據(jù)上,訓(xùn)練樣本的標(biāo)簽分布情況
在真實(shí)網(wǎng)絡(luò)數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)時(shí),有5 753 個(gè)測試樣本。表6 記錄了圖分類器在測試數(shù)據(jù)上的部分預(yù)測結(jié)果。可以看到在第1回合結(jié)束后,訓(xùn)練準(zhǔn)確率是tAcc=0.428 9,所有5 753個(gè)測試樣本都被錯(cuò)分了,Go和Gp預(yù)測出的分類標(biāo)簽都是0(表示沒有被分到標(biāo)簽ys=14 或ys=15 或ys=16 的任何一個(gè)類中);從第278 個(gè)回合開始,訓(xùn)練準(zhǔn)確率變成99%,測試準(zhǔn)確率達(dá)到0.923。
圖5 在真實(shí)數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)時(shí)的輸入數(shù)據(jù)文件片段
圖6展示了測試分類預(yù)測結(jié)果的內(nèi)容片段,可以看到在第104 個(gè)回合,預(yù)測出Go的分類標(biāo)簽是ys=0,預(yù)測出Gp的分類標(biāo)簽是ys=15,測試樣本有1 124 個(gè)被分類到y(tǒng)s=14,有1 754個(gè)被分類到y(tǒng)s=15,有1 012個(gè)被分類到y(tǒng)s=16,有505 個(gè)被分類到y(tǒng)s=0,有1 358 個(gè)沒有被準(zhǔn)確分類,列出了沒有被準(zhǔn)確分類的樣本。
表6 圖分類器在真實(shí)數(shù)據(jù)上的部分預(yù)測結(jié)果
圖7 展示了圖分類器在真實(shí)數(shù)據(jù)集上的實(shí)際運(yùn)行結(jié)果,圖(a)通過折線圖的方式展現(xiàn)了在每個(gè)訓(xùn)練測試回合中測試數(shù)據(jù)被正確分類和錯(cuò)誤分類的樣本個(gè)數(shù);圖(b)通過折線圖的方式展現(xiàn)了每個(gè)訓(xùn)練測試回合中訓(xùn)練數(shù)據(jù)集上的準(zhǔn)確率、損失函數(shù)值和曲線下的面積;圖(c)通過折線圖的方式展現(xiàn)了在圖深度神經(jīng)網(wǎng)絡(luò)的每個(gè)訓(xùn)練測試回合中落入標(biāo)簽ys=14 或ys=15 或ys=16 的任何一個(gè)類中的樣本個(gè)數(shù)。
在沒有引入對抗樣本的情況下來訓(xùn)練圖分類器的時(shí)候,圖卷積網(wǎng)絡(luò)的訓(xùn)練準(zhǔn)確率和測試準(zhǔn)確率都會(huì)快速達(dá)到0.99 以上,然而當(dāng)繼續(xù)增加訓(xùn)練回合時(shí),發(fā)現(xiàn)分類器的測試準(zhǔn)確率會(huì)忽上忽下,極不穩(wěn)定。引入了對抗樣本后,盡管圖卷積網(wǎng)絡(luò)的訓(xùn)練準(zhǔn)確率和測試準(zhǔn)確率需要很多回合后才能達(dá)到0.99 以上,但是當(dāng)繼續(xù)增加訓(xùn)練回合時(shí),會(huì)發(fā)現(xiàn)分類器的測試準(zhǔn)確率一直是穩(wěn)定提升的。
圖6 圖分類器在真實(shí)數(shù)據(jù)集上的測試分類預(yù)測結(jié)果片段
圖7 圖分類器在真實(shí)數(shù)據(jù)集上的運(yùn)行結(jié)果
當(dāng)采用只有圖結(jié)構(gòu)沒有結(jié)點(diǎn)屬性矩陣的訓(xùn)練數(shù)據(jù)來訓(xùn)練圖分類器,結(jié)果將變得非常差,訓(xùn)練準(zhǔn)確率始終在40%至50%之間徘徊,即使訓(xùn)練150 個(gè)回合后,訓(xùn)練準(zhǔn)確率也沒有超過51%。這樣的結(jié)果是可以理解的,因?yàn)橹挥袌D結(jié)構(gòu)信息,沒有結(jié)點(diǎn)特征信息,無法讓深度圖卷積神經(jīng)網(wǎng)絡(luò)計(jì)算出結(jié)點(diǎn)的結(jié)構(gòu)角色,從另外一個(gè)側(cè)面證明了社區(qū)結(jié)構(gòu)的重要性。