崔彩霞 王 杰 龐天杰 梁吉業(yè)
圖數(shù)據(jù)分析挖掘在服務(wù)經(jīng)濟(jì)和社會(huì)發(fā)展中具有基礎(chǔ)性作用,有效感知、挖掘、利用圖數(shù)據(jù),可為相關(guān)產(chǎn)業(yè)的發(fā)展提供巨大的助推力.圖數(shù)據(jù)分析挖掘任務(wù)包括節(jié)點(diǎn)分類[1]、鏈路預(yù)測(cè)[2]、推薦系統(tǒng)[3]等,節(jié)點(diǎn)分類作為其中一項(xiàng)重要的任務(wù)受到越來(lái)越多的關(guān)注.例如:在社交網(wǎng)絡(luò)中識(shí)別用戶是人類用戶還是機(jī)器人用戶[4];在蛋白質(zhì)互作用網(wǎng)絡(luò)中預(yù)測(cè)蛋白質(zhì)功能類型[5];在引文網(wǎng)絡(luò)中識(shí)別文檔主題[6]等.
近年來(lái),圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks,GNNs)[7-10]因其對(duì)非歐數(shù)據(jù)強(qiáng)大的表示學(xué)習(xí)能力,在節(jié)點(diǎn)分類任務(wù)上表現(xiàn)出良好的性能.然而,現(xiàn)有圖神經(jīng)網(wǎng)絡(luò)的研究大多基于不同類節(jié)點(diǎn)平衡的假設(shè),即不同類標(biāo)記節(jié)點(diǎn)數(shù)量大致是相同的.而在一些實(shí)際問(wèn)題中,收集到的標(biāo)記節(jié)點(diǎn)往往是不平衡的,某些類的標(biāo)記節(jié)點(diǎn)數(shù)量遠(yuǎn)大于其它類別.同時(shí)由于標(biāo)注代價(jià)較高、涉及個(gè)人隱私等原因,節(jié)點(diǎn)分類任務(wù)也面臨只有少部分的節(jié)點(diǎn)被標(biāo)注而大量的節(jié)點(diǎn)沒(méi)有標(biāo)注的問(wèn)題.例如,在社交網(wǎng)絡(luò)虛假賬號(hào)識(shí)別[11]中,正常賬號(hào)遠(yuǎn)多于虛假賬號(hào),數(shù)量嚴(yán)重失衡,而且由于賬號(hào)涉及隱私等原因,只有少部分賬號(hào)被標(biāo)注,而大量的賬號(hào)是無(wú)標(biāo)記的.因此,監(jiān)督信息缺乏和節(jié)點(diǎn)不平衡給節(jié)點(diǎn)分類任務(wù)帶來(lái)巨大的挑戰(zhàn).
已有一些研究將傳統(tǒng)的重采樣[12]、重加權(quán)[13]、集成學(xué)習(xí)[14]等不平衡處理技術(shù)應(yīng)用到不平衡節(jié)點(diǎn)分類問(wèn)題上,使其分類性能得到一定程度的提升.
在重采樣方面,Zhao等[15]和Qu等[16]利用上采樣技術(shù)改善節(jié)點(diǎn)的不平衡問(wèn)題.具體來(lái)說(shuō),Zhao等[15]提出GraphSMOTE,將SMOTE(Synthetic Mino-rity Over-sampling Technique)上采樣算法[17]推廣到圖上,通過(guò)插值方式在潛在空間合成少數(shù)類節(jié)點(diǎn),再使用一個(gè)預(yù)訓(xùn)練的邊緣生成器預(yù)測(cè)合成節(jié)點(diǎn)與原節(jié)點(diǎn)之間的連通性.通過(guò)這種方式,使不同類節(jié)點(diǎn)達(dá)到平衡,提升節(jié)點(diǎn)分類的性能.Qu等[16]提出ImGAGN(Imbalanced Network Embedding via Generative Ad-versarial Graph Networks),利用生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)生成少數(shù)類節(jié)點(diǎn),實(shí)現(xiàn)對(duì)少數(shù)類的上采樣,使標(biāo)記節(jié)點(diǎn)達(dá)到平衡,提升不平衡節(jié)點(diǎn)二分類的性能.
在重加權(quán)方面,Chen等[18]提出ReNode,根據(jù)標(biāo)記節(jié)點(diǎn)對(duì)類邊界的相對(duì)位置自適應(yīng)地重新加權(quán),緩解節(jié)點(diǎn)不平衡對(duì)分類性能的影響,然而該方法依賴類邊界,在監(jiān)督信息缺乏時(shí)確定的類邊界可能不準(zhǔn).
在集成學(xué)習(xí)方面,Sun等[19]提出AdaGCN(Ada-boosting Graph Convolutional Network),以圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)[7]為基分類器,利用前一個(gè)GCN的誤差更新下一個(gè)GCN的樣本權(quán)值,以此糾正錯(cuò)分樣本,提高分類性能.Shi等[20]提出Boosting-GNN,使用GNN作為基分類器進(jìn)行Boosting集成,即在每次提升訓(xùn)練時(shí),為前一次未正確分類的訓(xùn)練樣本設(shè)置更高的權(quán)重,從而提高分類精度和可靠性.
綜上所述,現(xiàn)有方法側(cè)重于使用重采樣、重加權(quán)或集成學(xué)習(xí)的方式處理節(jié)點(diǎn)的不平衡問(wèn)題,未同時(shí)考慮監(jiān)督信息缺乏與節(jié)點(diǎn)不平衡這兩個(gè)問(wèn)題,從而不能保證節(jié)點(diǎn)分類性能的提升.
自監(jiān)督學(xué)習(xí)[21]可在不依賴標(biāo)簽的情況下,從數(shù)據(jù)本身信息學(xué)習(xí)到數(shù)據(jù)的有效表示,已成功應(yīng)用到計(jì)算機(jī)視覺(jué)[22-23]、自然語(yǔ)言處理[24-25]、圖數(shù)據(jù)分析挖掘[26-30]等領(lǐng)域.根據(jù)模型結(jié)構(gòu)與目標(biāo)的不同,自監(jiān)督學(xué)習(xí)通常分為兩類[31]:基于生成的自監(jiān)督學(xué)習(xí)與基于對(duì)比的自監(jiān)督學(xué)習(xí).基于生成的自監(jiān)督學(xué)習(xí)的目的是恢復(fù)輸入數(shù)據(jù)中缺失的部分,通過(guò)重構(gòu)誤差學(xué)習(xí)表示,如自編碼器[32]、BERT(Bidirectional En-coder Representations from Transformers)[24]等.基于對(duì)比的自監(jiān)督學(xué)習(xí)(即對(duì)比學(xué)習(xí))通過(guò)對(duì)比正負(fù)樣本的相似度,拉近正樣本,推開負(fù)樣本,構(gòu)建有效表示,如MoCo(Momentum Contrast)[22]、SimCLR[23]等.
類似地,圖自監(jiān)督學(xué)習(xí)也分為基于生成的圖自監(jiān)督學(xué)習(xí)與基于對(duì)比的圖自監(jiān)督學(xué)習(xí).基于生成的圖自監(jiān)督學(xué)習(xí)關(guān)注節(jié)點(diǎn)/邊特征或鄰接矩陣的重構(gòu)問(wèn)題,如經(jīng)典的圖自編碼器(Graph Auto-Encoder, GAE)[33]與GraphMAE[34].基于對(duì)比的圖自監(jiān)督學(xué)習(xí)旨在最大化輸入圖在不同視圖上的表示一致性,如GraphCL(Graph Contrastive Learning)[26]、DGI(Deep Graph Infomax)[29]等.特別地,自監(jiān)督學(xué)習(xí)也應(yīng)用到不平衡分類研究中.Yang等[35]和Liu等[36]探索自監(jiān)督學(xué)習(xí)在不平衡圖像分類上的應(yīng)用,通過(guò)實(shí)驗(yàn)分析得出自監(jiān)督學(xué)習(xí)可增強(qiáng)圖像數(shù)據(jù)的表達(dá)能力,提升分類性能.
因此,本文將自監(jiān)督學(xué)習(xí)這一有效工具引入不平衡節(jié)點(diǎn)分類問(wèn)題中,提出基于自監(jiān)督學(xué)習(xí)的不平衡節(jié)點(diǎn)分類算法(Imbalanced Node Classification Algorithm Based on Self-Supervised Learning, ImSSL).一方面借助自監(jiān)督學(xué)習(xí)擴(kuò)充監(jiān)督信息,另一方面增強(qiáng)節(jié)點(diǎn)的表達(dá)能力.此外,在交叉熵?fù)p失和自監(jiān)督對(duì)比損失的基礎(chǔ)上,設(shè)計(jì)語(yǔ)義約束損失(Semantic Constraint Loss, SCL),以此保持圖數(shù)據(jù)增強(qiáng)中語(yǔ)義的一致性.在3個(gè)真實(shí)的圖數(shù)據(jù)集上執(zhí)行的大量實(shí)驗(yàn)表明,ImSSL性能較優(yōu).
本文研究的問(wèn)題是半監(jiān)督不平衡節(jié)點(diǎn)分類,即在有標(biāo)記節(jié)點(diǎn)集D中,一些類的節(jié)點(diǎn)數(shù)遠(yuǎn)多于另一些類.
假設(shè)圖G的節(jié)點(diǎn)有m個(gè)類C1,C2,…,Cm,|Ci|表示屬于第i個(gè)類的標(biāo)記節(jié)點(diǎn)的數(shù)目,則不平衡比(Imbalance Ratio, IR)定義如下:
(1)
為了彌補(bǔ)監(jiān)督信息的不足,同時(shí)學(xué)習(xí)對(duì)少數(shù)類分類有利的特征表示,本文提出基于自監(jiān)督學(xué)習(xí)的不平衡節(jié)點(diǎn)分類算法(ImSSL).算法總體框架如圖1所示,包括數(shù)據(jù)增強(qiáng)模塊、圖神經(jīng)網(wǎng)絡(luò)編碼模塊與綜合損失模塊.
圖1 ImSSL總體框架圖Fig.1 Framework of ImSSL
圖數(shù)據(jù)增強(qiáng)[26]的目的是在不改變語(yǔ)義的情況下,通過(guò)一定的變換,創(chuàng)建新的、異于原圖的、合理的圖數(shù)據(jù).目前有如下一些常用方法.
1)基于節(jié)點(diǎn)丟棄的方法.對(duì)于給定圖,通過(guò)隨機(jī)丟棄一定比例的節(jié)點(diǎn)及其相關(guān)聯(lián)的邊生成原圖的新視圖.此方法基于一個(gè)假設(shè):丟棄部分節(jié)點(diǎn)不會(huì)影響圖的語(yǔ)義,每個(gè)節(jié)點(diǎn)的丟棄概率遵循某一分布,例如相同的均勻分布或其它分布.
2)基于邊擾動(dòng)的方法.對(duì)于給定圖,隨機(jī)增加或丟棄一定比例的邊,產(chǎn)生原圖的新視圖.此方法基于這樣的假設(shè):圖的語(yǔ)義信息對(duì)邊有一定的魯棒性.
3)基于節(jié)點(diǎn)屬性掩碼的方法.對(duì)于給定圖,隨機(jī)對(duì)節(jié)點(diǎn)屬性掩碼進(jìn)行一定比例的更改,更改其屬性值.選擇掩碼比例要考慮這種改動(dòng)不會(huì)對(duì)模型的預(yù)測(cè)造成太大影響.
4)基于子圖的方法.對(duì)于給定圖,通過(guò)隨機(jī)游走采樣圖的子圖,前提是假設(shè)圖的語(yǔ)義在它的局部結(jié)構(gòu)中可得到較大程度的保留.
本文使用基于節(jié)點(diǎn)屬性掩碼的增強(qiáng)方法,框架具有一般性,也可使用其它圖增強(qiáng)方法.
本文采用經(jīng)典的圖卷積網(wǎng)絡(luò)(GCN)[7]作為圖編碼器.一個(gè)兩層的圖卷積網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果為:
(2)
其中:W(0)∈RF×S表示第0層的參數(shù);W(1)∈RS×m表示第1層的參數(shù);
ReLU(·)=max(0,·).
嵌入矩陣
zi表示Z的第i行,
第i個(gè)視圖的預(yù)測(cè)結(jié)果為:
(3)
其中X(i)表示第i個(gè)視圖的特征矩陣.
第i個(gè)視圖的嵌入矩陣為:
在ImSSL中,GCN學(xué)習(xí)不同視圖的嵌入表示時(shí)權(quán)重是共享的,可減少計(jì)算量.值得注意的是,本文所提框架具有一般性,也可適應(yīng)于其它的GNN模型.
ImSSL的損失函數(shù)包含3部分:分類損失LCE、語(yǔ)義約束損失LSCL和自監(jiān)督對(duì)比損失LSSL,則
L=λ1LCE+λ2LSCL+λ3LSSL,
(4)
其中,λ1、λ2和λ3表示權(quán)衡參數(shù).
本文采用交叉熵?fù)p失函數(shù)計(jì)算分類損失,則
(5)
在進(jìn)行圖數(shù)據(jù)增強(qiáng)時(shí),本文希望能保證圖語(yǔ)義的一致性,即不能因?yàn)閿?shù)據(jù)增強(qiáng)使其預(yù)測(cè)標(biāo)簽發(fā)生大的變化.為此,設(shè)計(jì)語(yǔ)義約束損失,用于衡量不同視圖下類分布與原圖語(yǔ)義接近程度,則
(6)
(7)
其中,
sim(·)表示度量?jī)晒?jié)點(diǎn)的相似度,τ表示溫度系數(shù),
表示節(jié)點(diǎn)u與同一視圖其它節(jié)點(diǎn)的相似度之和,
表示節(jié)點(diǎn)u與不同視圖的節(jié)點(diǎn)間的相似度之和.
算法1基于自監(jiān)督學(xué)習(xí)的不平衡節(jié)點(diǎn)分類算法
輸入圖G的特征矩陣X,鄰接矩陣A,標(biāo)記集Y,
訓(xùn)練集D,驗(yàn)證集V,測(cè)試集U,
最大迭代次數(shù)MaxIter,溫度系數(shù)τ,
權(quán)衡參數(shù)λ1、λ2、λ3
輸出測(cè)試集U的預(yù)測(cè)結(jié)果
2.FORi= 1 TOMaxIterDO
編碼,得到V個(gè)節(jié)點(diǎn)嵌入表示Z(1),Z(2),…,Z(V);
4. 利用式(5)計(jì)算交叉熵?fù)p失LCE;
5. 利用式(6)計(jì)算語(yǔ)義約束損失LSCL;
6. 利用式(7)計(jì)算自監(jiān)督對(duì)比損失LSSL;
7. 利用式(4)計(jì)算綜合損失函數(shù)L;
8. 應(yīng)用梯度下降法最小化L,更新參數(shù).
9.END FOR
10.利用式(2)計(jì)算測(cè)試集U的預(yù)測(cè)標(biāo)簽.
11.RETURNU的預(yù)測(cè)結(jié)果.
算法1的計(jì)算復(fù)雜性包括3階段:數(shù)據(jù)增強(qiáng)階段(第1行)、學(xué)習(xí)階段(第2~9行)和預(yù)測(cè)階段(第10行).
在數(shù)據(jù)增強(qiáng)階段,數(shù)據(jù)增強(qiáng)算法的時(shí)間復(fù)雜度為O(NF),生成V個(gè)視圖執(zhí)行數(shù)據(jù)增強(qiáng)的時(shí)間復(fù)雜度為O(VNF).
在學(xué)習(xí)階段,時(shí)間復(fù)雜度如下:GCN編碼的時(shí)間復(fù)雜度為
O(|ε|FS+|ε|Sm),
對(duì)V個(gè)視圖進(jìn)行GCN編碼的時(shí)間復(fù)雜度為
O(V(|ε|FS+|ε|Sm)),
注意到m 在預(yù)測(cè)階段(第10行),計(jì)算U個(gè)未標(biāo)記樣本的預(yù)測(cè)標(biāo)簽的時(shí)間復(fù)雜度為O(Um)=O(N). 綜上所述,算法1的時(shí)間復(fù)雜度為 O(V|ε|FS+VN3). 本文選用3個(gè)廣泛使用的引文網(wǎng)絡(luò)數(shù)據(jù)集Cora、CiteSeer和PubMed(https://linqs.soe.ucsc.edu/data)作為實(shí)驗(yàn)對(duì)象. Cora數(shù)據(jù)集由2 708篇來(lái)源于Cora數(shù)據(jù)庫(kù)上的機(jī)器學(xué)習(xí)相關(guān)論文組成, 論文之間的文獻(xiàn)引用鏈接有5 229條.這些文獻(xiàn)分別屬于機(jī)器學(xué)習(xí)理論、概率方法、基于案例的機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)、規(guī)則學(xué)習(xí)、遺傳算法和增強(qiáng)學(xué)習(xí)這7種類別.這些論文經(jīng)過(guò)提取詞語(yǔ),去掉停用詞,再選擇文檔中出現(xiàn)頻次小于10的詞語(yǔ)作為文獻(xiàn)特征,最終得到1 433個(gè)特征詞.數(shù)據(jù)集上每個(gè)節(jié)點(diǎn)使用1 433維0-1向量作為該節(jié)點(diǎn)的特征. CiteSeer數(shù)據(jù)集由3 327部來(lái)源于CiteSeer數(shù)據(jù)庫(kù)的計(jì)算機(jī)相關(guān)的科學(xué)出版物組成,文獻(xiàn)引用鏈接有4 732條.這些文獻(xiàn)分別屬于人工智能、數(shù)據(jù)庫(kù)、信息檢索、機(jī)器學(xué)習(xí)、智能體和人機(jī)交互這6個(gè)類別.特征提取模式同Cora數(shù)據(jù)集一樣,最終數(shù)據(jù)集上每個(gè)節(jié)點(diǎn)使用3 703維的0-1向量作為節(jié)點(diǎn)特征信息. PubMed數(shù)據(jù)集由19 717部來(lái)源于PubMed數(shù)據(jù)庫(kù)的與糖尿病有關(guān)的科學(xué)出版物組成,文獻(xiàn)引用鏈接有44 338條.這些文獻(xiàn)根據(jù)研究的糖尿病種類分為3類:實(shí)驗(yàn)性糖尿病、1型糖尿病和2型糖尿病.文獻(xiàn)特征由500個(gè)單詞組成,每篇文獻(xiàn)對(duì)應(yīng)一個(gè)詞頻-逆文檔頻率向量(Term Frequency-Inverse Document Frequency, TF-IDF),因此,數(shù)據(jù)集上的每個(gè)節(jié)點(diǎn)均使用500維向量作為節(jié)點(diǎn)特征. 本文沿用文獻(xiàn)[7]和文獻(xiàn)[38]的半監(jiān)督節(jié)點(diǎn)分類設(shè)置及文獻(xiàn)[18]中的不平衡設(shè)置進(jìn)行分析和實(shí)驗(yàn).具體地,在3個(gè)基準(zhǔn)數(shù)據(jù)集上,每類 20個(gè)標(biāo)記節(jié)點(diǎn)用于訓(xùn)練,500個(gè)節(jié)點(diǎn)用于驗(yàn)證,1 000個(gè)節(jié)點(diǎn)用于測(cè)試.在此基礎(chǔ)上,選訓(xùn)練集上一些類作為少數(shù)類,每個(gè)少數(shù)類中隨機(jī)選取20/IR個(gè)節(jié)點(diǎn),不平衡比IR設(shè)為10.數(shù)據(jù)集的詳細(xì)信息如表1所示. 表1 實(shí)驗(yàn)數(shù)據(jù)集Table 1 Experimental datasets 為了測(cè)試本文算法的性能,選擇如下半監(jiān)督不平衡節(jié)點(diǎn)分類中的算法進(jìn)行對(duì)比. 1)GraphSMOTE[15].SMOTE在不平衡圖數(shù)據(jù)上的擴(kuò)展. 2)ReNode[18].以拓?fù)洳黄胶饨嵌妊芯坎黄胶夤?jié)點(diǎn)分類問(wèn)題的方法,根據(jù)拓?fù)湮恢脤?duì)標(biāo)記節(jié)點(diǎn)重加權(quán). 3)AdaGCN[19].Adaboost與圖神經(jīng)網(wǎng)絡(luò)結(jié)合的集成學(xué)習(xí)模型,在Adaboost訓(xùn)練中以GCN作為基分類器. 4)DR-GCN[39].雙正則圖卷積網(wǎng)絡(luò),解決圖數(shù)據(jù)中類不平衡學(xué)習(xí)問(wèn)題. 在ImSSL中,最大迭代次數(shù)設(shè)為500,模型參數(shù)τ=0.5.在每個(gè)訓(xùn)練階段使用全批次訓(xùn)練ImSSL.采用Adam(Adaptive Moment Estimation)優(yōu)化器,在PyTorch上運(yùn)行.對(duì)于基線算法,使用原始文獻(xiàn)中的代碼.所有算法運(yùn)行實(shí)驗(yàn) 5次,取平均值作為最終結(jié)果. 借鑒不平衡多分類的常用評(píng)價(jià)方法[15,40-41],使用如下3個(gè)評(píng)價(jià)指標(biāo):Accuracy,AUC和Macro_F.這些評(píng)價(jià)指標(biāo)建立在多分類的混淆矩陣上,如表2所示,表中Nij表示分類為Cj類但實(shí)際上屬于Ci類的樣本數(shù)量. 表2 多分類的混淆矩陣Table 2 Confusion matrix for multi-class classification 第i類的查準(zhǔn)率 第i類的查全率 由Pi和Ri計(jì)算平均值,可得到宏查準(zhǔn)率 宏查全率 宏F(Macro_F)為: Accuracy表示正確分類的樣本數(shù)量與測(cè)試樣本總數(shù)的比率,廣泛應(yīng)用于評(píng)估分類器的性能.然而,在不平衡學(xué)習(xí)的情況下,Accuracy可能會(huì)忽略少數(shù)類.因此,除了Accuracy,本文還選擇AUC和Macro_F,這兩個(gè)指標(biāo)專門用于不平衡分類.對(duì)每個(gè)類分別計(jì)算AUC和Macro_F,再進(jìn)行非加權(quán)平均,這樣可更好地反映少數(shù)類的分類效果. 為了驗(yàn)證ImSSL的有效性,首先與4種基線算法進(jìn)行對(duì)比,結(jié)果如表3所示.由表可看出,相比基線方法,ImSSL的所有指標(biāo)值都最優(yōu),可提高少數(shù)類的識(shí)別率.由此可得出:在監(jiān)督節(jié)點(diǎn)極度受限且不平衡時(shí),采用解決不平衡問(wèn)題的常規(guī)辦法,不論是重采樣、重加權(quán)還是集成學(xué)習(xí),沒(méi)有同時(shí)考慮監(jiān)督信息缺 表3 各算法在3個(gè)數(shù)據(jù)集上的性能對(duì)比Table 3 Performance comparison of different algorithms on 3 datasets % 乏與節(jié)點(diǎn)不平衡這兩個(gè)問(wèn)題,不能保證節(jié)點(diǎn)分類的性能.而ImSSL有效利用自監(jiān)督學(xué)習(xí)能挖掘數(shù)據(jù)內(nèi)在的結(jié)構(gòu)獲得監(jiān)督信息的特點(diǎn),彌補(bǔ)半監(jiān)督不平衡節(jié)點(diǎn)分類中監(jiān)督信息的不足,同時(shí)能學(xué)習(xí)有益于少數(shù)類分類的表示,提高分類性能. 下面研究ImSSL損失函數(shù)(式(4))中約束損失與自監(jiān)督對(duì)比損失的貢獻(xiàn),定義如下對(duì)比算法. 1)w/oLSCL.移除約束損失. 2)w/oLSCLLSSL.移除約束損失與自監(jiān)督對(duì)比損失. 在不平衡比為10的Cora數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn).取各自設(shè)置下5次實(shí)驗(yàn)的平均結(jié)果,3種算法的消融實(shí)驗(yàn)結(jié)果如表4所示.由表可見,相比w/oLSCLLSSL,增加自監(jiān)督對(duì)比損失后,w/oLSCL的3個(gè)指標(biāo)值皆有大幅提升,這說(shuō)明通過(guò)自監(jiān)督方式訓(xùn)練可學(xué)習(xí)數(shù)據(jù)內(nèi)在結(jié)構(gòu)特征,是解決不平衡節(jié)點(diǎn)分類的有效手段.對(duì)比w/oLSCL和ImSSL可知,增加約束損失是有必要的,約束損失可以從語(yǔ)義上對(duì)數(shù)據(jù)增強(qiáng)進(jìn)行指導(dǎo),彌補(bǔ)圖數(shù)據(jù)上數(shù)據(jù)增強(qiáng)中語(yǔ)義的一致性. 表4 各算法在Cora數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Table 4 Ablation experiment results of different algorithms on Cora dataset % 下面對(duì)比GCN與ImSSL在不同不平衡比下的性能,評(píng)估不同不平衡比對(duì)ImSSL的影響.以Cora數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集,IR分別設(shè)置為1,2,5,10,20.每次實(shí)驗(yàn)進(jìn)行5次,平均結(jié)果如圖2所示.由圖可得,ImSSL在各種不平衡比下都能達(dá)到最優(yōu)值.隨著不平衡程度的加劇,ImSSL的改善越發(fā)顯著.下面進(jìn)一步驗(yàn)證自監(jiān)督學(xué)習(xí)對(duì)不平衡節(jié)點(diǎn)分類任務(wù)的有效性. 隨著參數(shù)λ1、λ2、λ3的取值變化,ImSSL在Cora數(shù)據(jù)集上不平衡節(jié)點(diǎn)的分類結(jié)果如圖3所示.λ1、λ2、λ3的取值都在[0,1]內(nèi)變化,取值間隔為0.2. (a)Accuracy (b)Macro_F (c)AUC圖2 不平衡比不同時(shí)ImSSL與GCN的性能對(duì)比Fig.2 Performance comparison of ImSSL and GCN with different imbalance ratios 由圖3可得到如下結(jié)論. 1)當(dāng)λ1=0時(shí),由于沒(méi)有交叉熵?fù)p失監(jiān)督指導(dǎo)優(yōu)化方向,導(dǎo)致隨機(jī)分類,表明在節(jié)點(diǎn)分類中交叉熵?fù)p失是不可或缺的. 2)當(dāng)λ1> 0時(shí),在交叉熵?fù)p失指導(dǎo)下分類效果明顯提升,但當(dāng)λ2=0,λ3=0時(shí)表現(xiàn)最差,這是由于當(dāng)λ1> 0,λ2=0,λ3=0時(shí)等同于GCN,不適合不平衡節(jié)點(diǎn)分類. 3)對(duì)于每個(gè)圖(對(duì)應(yīng)固定的λ1取值)來(lái)說(shuō),當(dāng)λ2取值為0.8或1且λ3取值為0.8時(shí),性能相對(duì)最好,這表明自監(jiān)督對(duì)比損失和語(yǔ)義約束損失在訓(xùn)練中起到重要作用,可促使不平衡節(jié)點(diǎn)分類獲得更優(yōu)效果. (a)λ1=0 (b)λ1=0.2 (c)λ1=0.4 為了考察參數(shù)λ1對(duì)分類結(jié)果的影響,選取結(jié)果相對(duì)較優(yōu)的λ2、λ3的取值,即λ2=0.8、λ3=0.8,AUC值變化如圖4所示.由圖可看到,當(dāng)λ1從0開始變大時(shí),性能提升,當(dāng)λ2達(dá)到0.2時(shí),性能最優(yōu),之后呈現(xiàn)下降趨勢(shì). 圖4 λ1對(duì)分類性能的影響Fig.4 Effect of λ1 on classification performance 上述分析表明,交叉熵?fù)p失、自監(jiān)督對(duì)比損失和語(yǔ)義約束損失三者共同作用才能獲得較優(yōu)的不平衡節(jié)點(diǎn)分類結(jié)果. 監(jiān)督信息不足與節(jié)點(diǎn)不平衡是圖數(shù)據(jù)分析挖掘中面臨的一個(gè)重要問(wèn)題.本文提出基于自監(jiān)督學(xué)習(xí)的不平衡節(jié)點(diǎn)分類算法(ImSSL).一方面通過(guò)自監(jiān)督學(xué)習(xí)擴(kuò)充監(jiān)督信息,另一方面通過(guò)自監(jiān)督學(xué)習(xí)增強(qiáng)節(jié)點(diǎn)的表達(dá)能力.通過(guò)對(duì)比實(shí)驗(yàn)驗(yàn)證本文算法在不平衡節(jié)點(diǎn)分類問(wèn)題上的優(yōu)勢(shì).在下一步的研究工作中,將針對(duì)圖數(shù)據(jù)的動(dòng)態(tài)性,開展不平衡節(jié)點(diǎn)分類問(wèn)題的研究.3 實(shí)驗(yàn)及結(jié)果分析
3.1 實(shí)驗(yàn)數(shù)據(jù)集
3.2 對(duì)比算法
3.3 參數(shù)設(shè)置與評(píng)價(jià)指標(biāo)
3.4 實(shí)驗(yàn)結(jié)果
4 結(jié) 束 語(yǔ)