魯軍豪 許云峰
摘要:網(wǎng)絡(luò)表示學(xué)習(xí)方法將信息網(wǎng)絡(luò)表示為低維稠密攜帶網(wǎng)絡(luò)節(jié)點(diǎn)特征信息的實(shí)數(shù)向量,應(yīng)用于下游機(jī)器學(xué)習(xí)任務(wù)的輸入,隨著機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的發(fā)展,網(wǎng)絡(luò)表示學(xué)習(xí)擁有強(qiáng)大的建模能力且應(yīng)用廣泛。對(duì)網(wǎng)絡(luò)表示學(xué)習(xí)方法、應(yīng)用進(jìn)行了歸納總結(jié)。首先,對(duì)當(dāng)前國(guó)內(nèi)外網(wǎng)絡(luò)表示學(xué)習(xí)方法進(jìn)行梳理歸類,分為傳統(tǒng)方法、基于網(wǎng)絡(luò)結(jié)構(gòu)的嵌入、融入屬性信息的嵌入,以及基于譜域的圖卷積、基于空間的圖卷積和圖attention網(wǎng)絡(luò),按類別對(duì)各類模型詳細(xì)闡述,對(duì)比模型之間的適用性和方法特點(diǎn);其次,介紹了網(wǎng)絡(luò)表示學(xué)習(xí)的相關(guān)應(yīng)用,包括推薦系統(tǒng)領(lǐng)域、生物醫(yī)藥領(lǐng)域等,整理常用的數(shù)據(jù)集、開(kāi)源實(shí)現(xiàn)的表示學(xué)習(xí)模型和強(qiáng)大的圖深度學(xué)習(xí)庫(kù)供研究者參考調(diào)用;最后,對(duì)網(wǎng)絡(luò)表示學(xué)習(xí)的發(fā)展趨勢(shì)進(jìn)行了總結(jié)與展望。未來(lái)可在深層的圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)、動(dòng)態(tài)和異構(gòu)網(wǎng)絡(luò)的表示、網(wǎng)絡(luò)模型的泛化能力等方面繼續(xù)開(kāi)展研究。
關(guān)鍵詞:計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò);網(wǎng)絡(luò);表示學(xué)習(xí);圖神經(jīng)網(wǎng)絡(luò);圖卷積;圖深度學(xué)習(xí)庫(kù)
中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A doj:10.7535/hbkd.2020yxO2004
網(wǎng)絡(luò)是表達(dá)實(shí)體與實(shí)體之間聯(lián)系的一種數(shù)據(jù)形式,廣泛存在于人們的生活中,例如:人們與周邊人形成的社交網(wǎng)絡(luò);論文作者之間形成的引文網(wǎng)絡(luò);生物醫(yī)藥中的蛋白質(zhì)網(wǎng)絡(luò)和藥物網(wǎng)絡(luò);甚至人臉掃描的點(diǎn)云網(wǎng)絡(luò)等。網(wǎng)絡(luò)表示學(xué)習(xí)是銜接網(wǎng)絡(luò)與原始數(shù)據(jù)與網(wǎng)絡(luò)應(yīng)用任務(wù)的橋梁,如圖1所示,網(wǎng)絡(luò)表示學(xué)習(xí)方法從復(fù)雜的信息網(wǎng)絡(luò)中學(xué)習(xí)每個(gè)實(shí)體的特征信息,將其表示為低維稠密的實(shí)數(shù)向量,以應(yīng)用于下游的機(jī)器學(xué)習(xí)任務(wù)。
網(wǎng)絡(luò)中蘊(yùn)含豐富信息,對(duì)社會(huì)生產(chǎn)中的信息網(wǎng)絡(luò)進(jìn)行分析與研究具有非常高的學(xué)術(shù)與應(yīng)用價(jià)值。例如,在電子商務(wù)中,一個(gè)基于信息網(wǎng)絡(luò)的學(xué)習(xí)系統(tǒng)能夠利用用戶和產(chǎn)品之間的交互做出準(zhǔn)確推薦;在化學(xué)研究中,分子被建模為圖網(wǎng)絡(luò),它們的生物活性需要被識(shí)別,以發(fā)現(xiàn)藥物;在社交網(wǎng)絡(luò)中,對(duì)網(wǎng)絡(luò)進(jìn)行社區(qū)劃分與鏈路預(yù)測(cè),可對(duì)客戶人群進(jìn)行分組與推薦。神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)在歐幾里德數(shù)據(jù)上取得了很大成功,但信息網(wǎng)絡(luò)屬于不規(guī)則的非歐幾里德數(shù)據(jù),如何進(jìn)行有效地信息提取成為一個(gè)值得研究的課題。最初的網(wǎng)絡(luò)表示學(xué)習(xí)方法受到經(jīng)典降維技術(shù)的影響,主要集中在矩陣分解方法上,隨后受到Word2vec技術(shù)和DeepWalk的啟發(fā),涌現(xiàn)出許多利用隨機(jī)游走產(chǎn)生節(jié)點(diǎn)序列并輸人給skip-gram模型生成節(jié)點(diǎn)嵌人的表示方法。隨著深度學(xué)習(xí)的興起,許多研究者將卷積與self-attention機(jī)制引入網(wǎng)絡(luò)表示中,在網(wǎng)絡(luò)的譜域與空間域進(jìn)行端到端的網(wǎng)絡(luò)計(jì)算,取得了優(yōu)異的任務(wù)效果。
目前對(duì)包括圖神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)表示學(xué)習(xí)綜述數(shù)量有限,BRONSTEIN等給出了非歐幾里德領(lǐng)域的深度學(xué)習(xí)方法的概述,包括圖和流形,但忽略了幾個(gè)重要的基于空間的方法。WU等給出圖神經(jīng)網(wǎng)絡(luò)領(lǐng)域的模型介紹,但缺少了對(duì)傳統(tǒng)方法以及基于隨機(jī)游走方法的介紹。涂存超等的綜述中僅簡(jiǎn)單提到譜域的圖卷積模型,缺少對(duì)基于空間的圖卷積以及圖atten-tion網(wǎng)絡(luò)的介紹。本文系統(tǒng)并詳細(xì)地介紹了網(wǎng)絡(luò)表示學(xué)習(xí)相關(guān)方法模型,將其分為2大類,分別為網(wǎng)絡(luò)節(jié)點(diǎn)嵌入方法和圖神經(jīng)網(wǎng)絡(luò)方法,細(xì)分為6個(gè)類別,分別是傳統(tǒng)方法、基于網(wǎng)絡(luò)結(jié)構(gòu)的嵌人、融人屬性信息的嵌入,以及基于譜域的圖卷積、基于空間的圖卷積和圖attention網(wǎng)絡(luò),并對(duì)比各模型的適用性和優(yōu)缺點(diǎn),為網(wǎng)絡(luò)表示學(xué)習(xí)領(lǐng)域的學(xué)者提供全面的綜述參考。同時(shí),本文整理了開(kāi)源實(shí)現(xiàn)的表示學(xué)習(xí)模型和圖深度學(xué)習(xí)庫(kù),以及常用的數(shù)據(jù)集供研究者參考使用。網(wǎng)絡(luò)表示學(xué)習(xí)方法類別如圖2所示。
本文給定了表示學(xué)習(xí)方法公式中常見(jiàn)的符號(hào)定義,對(duì)網(wǎng)絡(luò)表示學(xué)習(xí)方法進(jìn)行詳細(xì)的闡述,整理對(duì)比了各模型的適用性與優(yōu)缺點(diǎn),給出了基礎(chǔ)數(shù)據(jù)集和開(kāi)源實(shí)現(xiàn)的表示學(xué)習(xí)模型和圖深度學(xué)習(xí)庫(kù),對(duì)網(wǎng)絡(luò)表示學(xué)習(xí)的應(yīng)用進(jìn)行了介紹,并對(duì)網(wǎng)絡(luò)表示學(xué)習(xí)的未來(lái)進(jìn)行了展望。
1網(wǎng)絡(luò)表示學(xué)習(xí)的基本定義
網(wǎng)絡(luò)表示學(xué)習(xí)公式中常見(jiàn)的符號(hào)及其含義如表1所示。
2網(wǎng)絡(luò)表示學(xué)習(xí)方法
網(wǎng)絡(luò)表示學(xué)習(xí)方法將非歐幾里德結(jié)構(gòu)的網(wǎng)絡(luò)節(jié)點(diǎn)表示為低維稠密的特征向量,供下游機(jī)器學(xué)習(xí)任務(wù)使用,是一項(xiàng)特征工程任務(wù)。隨著近年來(lái)深度學(xué)習(xí)的興起,圖神經(jīng)網(wǎng)絡(luò)成為網(wǎng)絡(luò)表示學(xué)習(xí)領(lǐng)域研究的熱點(diǎn)。與網(wǎng)絡(luò)節(jié)點(diǎn)的嵌入表示不同,圖神經(jīng)網(wǎng)絡(luò)多為端到端的訓(xùn)練框架。
2.1網(wǎng)絡(luò)節(jié)點(diǎn)嵌入方法
2.1.1傳統(tǒng)方法
早期的網(wǎng)絡(luò)表示學(xué)習(xí)方法被作為降維技術(shù)的一部分,將網(wǎng)絡(luò)節(jié)點(diǎn)嵌入到低維空間的思想是讓互相連接的節(jié)點(diǎn)在嵌入后的低維向量空間中彼此保持更近的距離。LLE(locally linear embedding)算法認(rèn)為每一個(gè)數(shù)據(jù)點(diǎn)都可以由其近鄰點(diǎn)的線性加權(quán)組合得到。該方法先尋找每個(gè)樣本點(diǎn)的是個(gè)近鄰點(diǎn),由每個(gè)樣本點(diǎn)的近鄰點(diǎn)計(jì)算出該樣本點(diǎn)的局部重構(gòu)權(quán)重矩陣,然后用局部權(quán)重矩陣和其近鄰點(diǎn)計(jì)算出該樣本點(diǎn)的輸出值,LLE算法的目標(biāo)函數(shù)表示為
2.1.2基于網(wǎng)絡(luò)結(jié)構(gòu)的嵌入方法
Google在2013年推出一個(gè)用于獲取詞向量的工具包Word2vec,它的簡(jiǎn)單高效引起了很多人的關(guān)注,同時(shí)也給網(wǎng)絡(luò)表示學(xué)習(xí)提供了很好的思路。Word2vec是根據(jù)大量語(yǔ)料庫(kù)中詞語(yǔ)的共現(xiàn)關(guān)系來(lái)得出每個(gè)單詞的向量嵌入,有CBOW和skip-gram兩種模型。前者根據(jù)上下文預(yù)測(cè)中心詞,后者是根據(jù)中心詞預(yù)測(cè)上下文,這里只介紹skip-gram模型,如圖3所示。
用核心詞w與其上下文context(w)組成訓(xùn)練樣本,skip-gram模型用核心詞w預(yù)測(cè)上下文context(W),通過(guò)大量語(yǔ)料庫(kù)的詞語(yǔ)共現(xiàn)關(guān)系來(lái)不斷更新詞語(yǔ)的向量表示,用負(fù)采樣來(lái)加快訓(xùn)練速度,最終得到每個(gè)詞語(yǔ)的向量表示。在Word2vec被提出之后,研究者在其基礎(chǔ)上提出了大量基于隨機(jī)游走的網(wǎng)絡(luò)表示學(xué)習(xí)方法,如DeepWalk,Node2vec等,這些方法利用隨機(jī)游走產(chǎn)生的節(jié)點(diǎn)序列作為skip-gram的輸入,從而生成節(jié)點(diǎn)的低維向量表示。
PEROZZI等觀測(cè)到節(jié)點(diǎn)在短隨機(jī)游走中的分布和詞語(yǔ)在自然語(yǔ)言中的分布都滿足冪律分布,并在游走的過(guò)程中獲取了節(jié)點(diǎn)的局部結(jié)構(gòu)信息,從而將Word2vec模型引入網(wǎng)絡(luò)表示學(xué)習(xí),提出DeepWalk算法,利用節(jié)點(diǎn)截?cái)嚯S機(jī)游走產(chǎn)生的類似語(yǔ)料中句子的序列,借助詞向量模型生成節(jié)點(diǎn)的嵌入向量,使得效果有了較大的提升。Deep-Walk對(duì)Karate數(shù)據(jù)集的嵌入效果如圖4所示。
GROVER等將BFS與DFS融人節(jié)點(diǎn)的隨機(jī)游走,提出了Node2vec算法。相比于DeepWalk算法中節(jié)點(diǎn)的隨機(jī)游走,加入BFS和DFS策略的Node2vec可以更好地挖掘網(wǎng)絡(luò)中的拓?fù)湫畔?,如圖5所示。
需要注意的是在嵌入向量的更新計(jì)算中,DeepWalk采用分層Softmax來(lái)計(jì)算歸一化因子,使用二叉樹(shù)結(jié)構(gòu)加速計(jì)算,而Node2vec算法則采用負(fù)采樣方法,每個(gè)訓(xùn)練樣本只更新部分模型權(quán)重,從而提高嵌入的訓(xùn)練速度。
DeepWalkEls3和Node2vecEzz]利用隨機(jī)或有偏隨機(jī)游走來(lái)獲得節(jié)點(diǎn)的鄰域信息,從而生成嵌入向量,使在網(wǎng)絡(luò)結(jié)構(gòu)中相連和距離較近的節(jié)點(diǎn)在對(duì)應(yīng)的低維空間中也具有相近的距離。但是在網(wǎng)絡(luò)中存在結(jié)構(gòu)一致性(structural identify)節(jié)點(diǎn),如圖6所示,頂點(diǎn)u與頂點(diǎn)v的度數(shù)分別是5和4,分別連接3個(gè)和2個(gè)三角形網(wǎng)絡(luò)結(jié)構(gòu),并通過(guò)2個(gè)頂點(diǎn)(d,e;x,w)與外界相連,這樣的節(jié)點(diǎn)雖然沒(méi)有直接相連也沒(méi)有共同鄰域,但具有空間結(jié)構(gòu)一致性。RIBERIO等觀察到DeepWalk和Node2vec等算法構(gòu)造的節(jié)點(diǎn)序列不能識(shí)別相隔較遠(yuǎn)的具有結(jié)構(gòu)一致性的節(jié)點(diǎn),為了解決此問(wèn)題,提出Struc2vec算法。
TANG等提出了LINE算法,使得在小時(shí)范圍內(nèi)單機(jī)學(xué)習(xí)百萬(wàn)級(jí)頂點(diǎn)網(wǎng)絡(luò)表示成為了可能。LINE算法提出了一階相似度與二階相似度,一階相似度描述了直接相連的節(jié)點(diǎn)之間的相似度,如圖8中節(jié)點(diǎn)6和節(jié)點(diǎn)7直接相連,兩節(jié)點(diǎn)相似度為邊的權(quán)重;二階相似度描述為一對(duì)節(jié)點(diǎn)之間的接近程度和鄰居網(wǎng)絡(luò)結(jié)構(gòu)之間的相似性,如圖8中節(jié)點(diǎn)5與節(jié)點(diǎn)6之間沒(méi)有直接的邊關(guān)系,但有共同的網(wǎng)絡(luò)鄰居。
一個(gè)網(wǎng)絡(luò)中的邊關(guān)系往往是非常稀疏的,所以有必要進(jìn)一步刻畫二階相似度關(guān)系來(lái)考慮雖然并不直接相連但是共同鄰居較多的節(jié)點(diǎn)對(duì),從而對(duì)第一階相似度的信息予以補(bǔ)充。LINE算法適用于大規(guī)模網(wǎng)絡(luò),并且網(wǎng)絡(luò)的邊不限制是否有向和是否帶權(quán),在節(jié)點(diǎn)分類等任務(wù)中表現(xiàn)出不錯(cuò)的效果。
GraRep算法在LINE定義的一階和二階相似性的啟發(fā)下,將這種相似性推廣到更高階,定義了k階相似性。GraRep中也使用了像LINE中一樣將高階的圖中的相似關(guān)系在低維向量空間中用條件概率表示,并且使用了負(fù)采樣優(yōu)化的策略。
2.1.3融入屬性信息的嵌入方法
上述方法模型只利用了網(wǎng)絡(luò)中拓?fù)浣Y(jié)構(gòu)的相似性來(lái)生成節(jié)點(diǎn)嵌入向量,真實(shí)世界的網(wǎng)絡(luò)通常在節(jié)點(diǎn)和邊上附屬有標(biāo)簽文本等豐富的屬性信息,若能充分利用網(wǎng)絡(luò)中的屬性信息,會(huì)得到更好的嵌入效果。
TU等提出的CANE算法在兼顧網(wǎng)絡(luò)結(jié)構(gòu)相似性的同時(shí),利用attention機(jī)制自適應(yīng)計(jì)算節(jié)點(diǎn)文本內(nèi)容的相似性。圖10為CANE方法的框架示意圖,該方法利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)一條邊上2個(gè)節(jié)點(diǎn)的文本信息進(jìn)行編碼。在文本表示生成的過(guò)程中,利用相互注意力機(jī)制,選取2個(gè)節(jié)點(diǎn)彼此最相關(guān)的卷積結(jié)果構(gòu)成最后的文本表示向量。
文獻(xiàn)[29]中將文本也轉(zhuǎn)化為特殊的節(jié)點(diǎn),形成兩種連接的邊,即節(jié)點(diǎn)一節(jié)點(diǎn)和節(jié)點(diǎn)一文檔,對(duì)兩種邊一起建模嵌入得到節(jié)點(diǎn)表示。針對(duì)屬性網(wǎng)絡(luò)的表示學(xué)習(xí)方法有ANRL,SIGNet,TransNet和SANE,它們結(jié)合網(wǎng)絡(luò)結(jié)構(gòu)和節(jié)點(diǎn)的屬性信息使學(xué)習(xí)到的嵌入表示具有更多的信息性。BiasedWalk則考慮兼顧有偏隨機(jī)游走的優(yōu)勢(shì)以及網(wǎng)絡(luò)節(jié)點(diǎn)的屬性信息,以學(xué)習(xí)到信息更加豐富的網(wǎng)絡(luò)嵌入表示。
當(dāng)信息網(wǎng)絡(luò)中的節(jié)點(diǎn)或邊類型數(shù)量n≥2時(shí),這種網(wǎng)絡(luò)被稱為異構(gòu)網(wǎng)絡(luò)。針對(duì)異構(gòu)網(wǎng)絡(luò)的表示學(xué)習(xí)方法也有大量研究者做出很多探索,典型的方法有metapat2vec,HIN2Vec,Tri-DNR,HNEE,HEBE,EOE,以及基于Attention機(jī)制的HAN等。
2.2圖神經(jīng)網(wǎng)絡(luò)方法
2.2.1基于譜域的圖卷積
BRUNA等首先提出了在圖網(wǎng)絡(luò)中基于譜域的卷積方法,函數(shù)卷積的傅里葉變換等于函數(shù)傅里葉變換的乘積,表達(dá)式如下:
3應(yīng)用
網(wǎng)絡(luò)表示學(xué)習(xí)在社會(huì)生產(chǎn)中有非常廣泛的應(yīng)用。本文給出了網(wǎng)絡(luò)表示學(xué)習(xí)模型適用性與特點(diǎn)的比較,以及研究中可能會(huì)用到的數(shù)據(jù)集及其分類統(tǒng)計(jì)信息,整理了部分模型的實(shí)現(xiàn)鏈接和已開(kāi)源的圖深度學(xué)習(xí)庫(kù),方便研究者快速?gòu)?fù)現(xiàn)驗(yàn)證并掌握模型,討論了網(wǎng)絡(luò)表示學(xué)習(xí)的應(yīng)用方向和實(shí)例。
3.1模型對(duì)比與數(shù)據(jù)集及開(kāi)源實(shí)現(xiàn)
表2對(duì)比了網(wǎng)絡(luò)表示學(xué)習(xí)模型的適用性和方法特點(diǎn),包括模型是否支持帶權(quán)圖、有向圖以及屬性圖,并給出了模型的時(shí)間復(fù)雜度和模型特點(diǎn),可供研究者參考使用。表3給出了眾多測(cè)試算法性能的數(shù)據(jù)集,數(shù)據(jù)集包括3類,分別是引文網(wǎng)絡(luò)、社交網(wǎng)絡(luò)和化學(xué)生物網(wǎng)絡(luò)。對(duì)應(yīng)于每個(gè)數(shù)據(jù)集,表中給出了數(shù)據(jù)集來(lái)源,分別統(tǒng)計(jì)了該數(shù)據(jù)集的子圖數(shù)、節(jié)點(diǎn)數(shù)、邊數(shù)、特征數(shù)和標(biāo)簽類別數(shù)量,方便研究者選擇適合模型的數(shù)據(jù)集。
開(kāi)源實(shí)現(xiàn)的模型總結(jié)如表4所示,圖深度學(xué)習(xí)開(kāi)源庫(kù)總結(jié)如表5所示。在表4與表5中整理出了一些具有代表性模型的開(kāi)源實(shí)現(xiàn),以及強(qiáng)大的圖深度學(xué)習(xí)庫(kù),可供研究者快速學(xué)習(xí)或復(fù)現(xiàn)驗(yàn)證模型效果。其中在表5中列出的Euler,PGL,Plato圖深度學(xué)習(xí)庫(kù)支持分布式計(jì)算,使得更大規(guī)模的網(wǎng)絡(luò)計(jì)算成為可能。
3.2實(shí)際應(yīng)用
網(wǎng)絡(luò)表示學(xué)習(xí)可以應(yīng)用到許多實(shí)際任務(wù)中??梢詫挿旱貙?yīng)用分為4類,即節(jié)點(diǎn)分類、社區(qū)發(fā)現(xiàn)、鏈接預(yù)測(cè)和網(wǎng)絡(luò)可視化。
1)節(jié)點(diǎn)分類節(jié)點(diǎn)分類是網(wǎng)絡(luò)節(jié)點(diǎn)表示為向量后最常見(jiàn)的任務(wù),一般屬于半監(jiān)督的學(xué)習(xí)任務(wù),即初始數(shù)據(jù)中數(shù)據(jù)標(biāo)簽只占一部分,學(xué)習(xí)已有標(biāo)簽的數(shù)據(jù)信息來(lái)標(biāo)記其余數(shù)據(jù)的標(biāo)簽。常見(jiàn)的半監(jiān)督學(xué)習(xí)任務(wù)有視頻文檔網(wǎng)頁(yè)的類別標(biāo)記、蛋白質(zhì)生物功能的學(xué)習(xí)標(biāo)記或者社交網(wǎng)絡(luò)中預(yù)測(cè)部分用戶的標(biāo)簽信息。通常先抽取節(jié)點(diǎn)的屬性或結(jié)構(gòu)特征來(lái)為節(jié)點(diǎn)生成嵌入信息,然后應(yīng)用邏輯回歸等分類器為對(duì)應(yīng)節(jié)點(diǎn)預(yù)測(cè)標(biāo)簽。最近的研究評(píng)估表明這些模型對(duì)節(jié)點(diǎn)標(biāo)簽的預(yù)測(cè)或分類有很高的精度。其中GcN為代表的圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)節(jié)點(diǎn)的分類精度要高于傳統(tǒng)方法,但它們都是對(duì)靜態(tài)圖進(jìn)行嵌入分類。HAMILTON等提出歸納式學(xué)習(xí)模型Graphsage,利用鄰域信息學(xué)習(xí)聚合函數(shù),以便對(duì)動(dòng)態(tài)網(wǎng)絡(luò)中的新增節(jié)點(diǎn)進(jìn)行嵌入和分類。
2)社區(qū)發(fā)現(xiàn)社區(qū)發(fā)現(xiàn)是在給定網(wǎng)絡(luò)中,將物理對(duì)象或抽象對(duì)象的集合分組為類似對(duì)象組成的多個(gè)社區(qū)。社區(qū)發(fā)現(xiàn)是無(wú)監(jiān)督的聚類,即對(duì)大量未知標(biāo)注的數(shù)據(jù)集按數(shù)據(jù)的內(nèi)在相似性將數(shù)據(jù)劃分成多個(gè)類別,使得類別內(nèi)數(shù)據(jù)相似度較大而類別間的數(shù)據(jù)相似度較小。與節(jié)點(diǎn)分類不同的是社區(qū)發(fā)現(xiàn)不需要任何標(biāo)記信息,可應(yīng)用范圍更廣,節(jié)省數(shù)據(jù)標(biāo)記成本。在實(shí)際應(yīng)用中,社區(qū)發(fā)現(xiàn)可以為藥物網(wǎng)絡(luò)劃分社區(qū),幫助推測(cè)相似藥物,依據(jù)蛋白質(zhì)網(wǎng)絡(luò)中節(jié)點(diǎn)的聯(lián)系將蛋白質(zhì)自動(dòng)分類。
3)鏈接預(yù)測(cè)網(wǎng)絡(luò)由實(shí)體間的交互信息構(gòu)成,但在實(shí)體之間這種交互信息往往會(huì)缺失或者會(huì)在未來(lái)出現(xiàn),在生物網(wǎng)絡(luò)分析中驗(yàn)證節(jié)點(diǎn)之間是否存在鏈接需要復(fù)雜的實(shí)驗(yàn)測(cè)試和高昂的代價(jià),因此網(wǎng)絡(luò)的鏈接預(yù)測(cè)顯得尤為重要。鏈接預(yù)測(cè)在推薦系統(tǒng)中應(yīng)用廣泛,例如WANG等和OU等預(yù)測(cè)了來(lái)自公共協(xié)作和社交網(wǎng)絡(luò)上的節(jié)點(diǎn)鏈接。另外,鏈接預(yù)測(cè)在生物網(wǎng)絡(luò)分析中也非常普遍,利用鏈接預(yù)測(cè)方法給出一個(gè)可能存在鏈接的序列是非常經(jīng)濟(jì)有效的。
4)網(wǎng)絡(luò)可視化網(wǎng)絡(luò)表示學(xué)習(xí)為節(jié)點(diǎn)生成嵌入向量和網(wǎng)絡(luò)降維可視化提供了新方法。每一個(gè)節(jié)點(diǎn)都被表示為一個(gè)低維稠密的向量,可以方便地利用已有的降維可視化算法如t-SNE,LargeVis等生成網(wǎng)絡(luò)的二維或三維圖形,這對(duì)于發(fā)現(xiàn)網(wǎng)絡(luò)社區(qū)和其他隱藏結(jié)構(gòu)有很大幫助。例如,Deepwalk的作者利用降維可視化嵌入的空手道俱樂(lè)部網(wǎng)絡(luò)來(lái)展現(xiàn)DeepWalk方法的優(yōu)越之處。Line的作者利用LargeVis可視化DBLP作者網(wǎng)絡(luò),表明LINE能夠?qū)⒑献髯髡呔奂谕粋€(gè)領(lǐng)域。
4總結(jié)與展望
本文介紹了現(xiàn)有的網(wǎng)絡(luò)表示學(xué)習(xí)方法,將其分為兩類并細(xì)分為6個(gè)類別,分別是傳統(tǒng)方法、基于網(wǎng)絡(luò)結(jié)構(gòu)的嵌入、融人屬性信息的嵌入,以及最近非常流行的基于譜域的圖卷積、基于空間的圖卷積和圖attention網(wǎng)絡(luò)。本文還對(duì)比了模型的適用性與算法特點(diǎn),給出網(wǎng)絡(luò)表示學(xué)習(xí)中的經(jīng)典數(shù)據(jù)集,整理了常用模型的開(kāi)源實(shí)現(xiàn)項(xiàng)目以及8個(gè)開(kāi)源的圖深度學(xué)習(xí)庫(kù)。最后還介紹了網(wǎng)絡(luò)表示學(xué)習(xí)的應(yīng)用。網(wǎng)絡(luò)表示學(xué)習(xí)發(fā)展迅速,不斷取得成果,但在以下方面仍面臨挑戰(zhàn)。
1)深層的圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)不同于圖像分類任務(wù),實(shí)驗(yàn)表明,隨著網(wǎng)絡(luò)層數(shù)增加,相鄰節(jié)點(diǎn)的嵌人表示將會(huì)逐漸靠近直至收斂到一個(gè)點(diǎn),圖神經(jīng)網(wǎng)絡(luò)模型性能會(huì)急劇下降。
2)動(dòng)態(tài)和異構(gòu)網(wǎng)絡(luò)的表示真實(shí)世界中存在大量的異構(gòu)網(wǎng)絡(luò)并且隨時(shí)間動(dòng)態(tài)變化,大多方法模型將網(wǎng)絡(luò)簡(jiǎn)化為同構(gòu)的靜止不變的網(wǎng)絡(luò)去處理?,F(xiàn)有的解決動(dòng)態(tài)異構(gòu)網(wǎng)絡(luò)表示的模型仍有很大的提升空間。
3)網(wǎng)絡(luò)模型的泛化能力實(shí)際場(chǎng)景中的網(wǎng)絡(luò)往往復(fù)雜且差異較大,現(xiàn)有的網(wǎng)絡(luò)模型設(shè)計(jì)都是針對(duì)某一種簡(jiǎn)化的網(wǎng)絡(luò),設(shè)計(jì)一個(gè)能泛化到大量網(wǎng)絡(luò)的模型是一個(gè)值得深入研究的問(wèn)題。