• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于圖卷積集成的網(wǎng)絡(luò)表示學(xué)習(xí)

    2022-06-19 03:24:04常新功王金玨
    智能系統(tǒng)學(xué)報(bào) 2022年3期
    關(guān)鍵詞:同質(zhì)集上異質(zhì)

    常新功,王金玨

    (山西財(cái)經(jīng)大學(xué) 信息學(xué)院,山西 太原 030006)

    近年來,基于網(wǎng)絡(luò)數(shù)據(jù)結(jié)構(gòu)的深度學(xué)習(xí)十分流行,廣泛應(yīng)用于學(xué)術(shù)領(lǐng)域和工業(yè)領(lǐng)域。網(wǎng)絡(luò)包括節(jié)點(diǎn)和邊,其中節(jié)點(diǎn)表示實(shí)體,邊表示節(jié)點(diǎn)之間的關(guān)系。現(xiàn)實(shí)世界中很多數(shù)據(jù)都可以表示為網(wǎng)絡(luò),例如社交網(wǎng)絡(luò)[1-2]、生物-蛋白網(wǎng)絡(luò)[3]等。利用網(wǎng)絡(luò)分析挖掘有價(jià)值的信息備受關(guān)注,因?yàn)楦咝У木W(wǎng)絡(luò)分析不僅處理節(jié)點(diǎn)分類[1]、鏈路預(yù)測(cè)[2]、網(wǎng)絡(luò)可視化[4-5]等下游任務(wù)時(shí)有著很好的效果,而且在金融欺詐、推薦系統(tǒng)等場(chǎng)景下都有實(shí)際的應(yīng)用價(jià)值。例如,在社交網(wǎng)絡(luò)中通過節(jié)點(diǎn)分類可以對(duì)不同的用戶推薦不同的物品;在生物網(wǎng)絡(luò)中,可以通過分析已知的疾病與基因關(guān)系預(yù)測(cè)潛在的致病基因等。

    由于網(wǎng)絡(luò)數(shù)據(jù)的非歐幾里得結(jié)構(gòu),大多數(shù)傳統(tǒng)的網(wǎng)絡(luò)分析方法不適合使用機(jī)器學(xué)習(xí)技術(shù)解決。網(wǎng)絡(luò)表示學(xué)習(xí)[6-8]很好地解決了上述問題,通過將節(jié)點(diǎn)映射到低維空間中,節(jié)點(diǎn)用學(xué)習(xí)生成的低維、稠密的向量重新表示,同時(shí)盡可能保留網(wǎng)絡(luò)中包含的結(jié)構(gòu)信息。因此,網(wǎng)絡(luò)被映射到向量空間中就可以使用經(jīng)典的機(jī)器學(xué)習(xí)技術(shù)處理很多網(wǎng)絡(luò)分析問題?,F(xiàn)有的網(wǎng)絡(luò)表示學(xué)習(xí)方法主要分為以下3 類:

    1)基于矩陣分解的網(wǎng)絡(luò)表示學(xué)習(xí)。Roweis 等[9]提出的局部線性表示算法(locally linear embeding,LLE)假設(shè)節(jié)點(diǎn)和它的鄰居節(jié)點(diǎn)都處于同一流形區(qū)域,通過它的鄰居節(jié)點(diǎn)表示的線性組合近似得到節(jié)點(diǎn)表示;He 等[10]提出的保留局部映射算法(locality preserving projections,LPP)通過對(duì)非線性的拉普拉斯特征映射方法進(jìn)行線性的近似得到節(jié)點(diǎn)表示;Tu 等[11]提出的圖形分解算法(max margin deep walk,MMDW)通過對(duì)鄰接矩陣分解得到節(jié)點(diǎn)表示。Cao 等[12]提出的GraRep 算法通過保留節(jié)點(diǎn)的k階鄰近性保留全局網(wǎng)絡(luò)結(jié)構(gòu)。

    2)基于淺層神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)表示學(xué)習(xí)。Perozzi等[13]提出的DeepWalk 算法通過隨機(jī)游走遍歷網(wǎng)絡(luò)中的節(jié)點(diǎn)得到有序的節(jié)點(diǎn)序列,然后利用Skip-Gram 模型預(yù)測(cè)節(jié)點(diǎn)的前后序列學(xué)習(xí)得到節(jié)點(diǎn)的向量表示;Grover 等[14]提出的Node2Vec 改進(jìn)了DeepWalk 的隨機(jī)游走過程,通過引進(jìn)兩個(gè)參數(shù)p和q控制深度優(yōu)先搜索和廣度優(yōu)先搜索;Tang等[15]提出的Line 算法能夠處理任意類型的大規(guī)模網(wǎng)絡(luò),包括有向和無向、有權(quán)重和無權(quán)重,該算法保留了網(wǎng)絡(luò)中節(jié)點(diǎn)的一階鄰近性和二階鄰近性。

    3)基于深度學(xué)習(xí)的網(wǎng)絡(luò)表示學(xué)習(xí)。Wang 等[16]提出的SDNE 算法利用深度神經(jīng)網(wǎng)絡(luò)對(duì)網(wǎng)絡(luò)表示學(xué)習(xí)進(jìn)行建模,將輸入節(jié)點(diǎn)映射到高度非線性空間中獲取網(wǎng)絡(luò)結(jié)構(gòu)信息。Hamilton 等[17]提出的GraphSAGE 是一種適用于大規(guī)模網(wǎng)絡(luò)的歸納式學(xué)習(xí)方法,通過聚集采樣到的鄰居節(jié)點(diǎn)表示更新當(dāng)前節(jié)點(diǎn)的特征表示。Wang 等[18]提出的Graph-GAN 引入對(duì)抗生成網(wǎng)絡(luò)進(jìn)行網(wǎng)絡(luò)表示學(xué)習(xí)。上述研究方法大多是設(shè)計(jì)一種有效的模型分別應(yīng)用不同的數(shù)據(jù)集學(xué)習(xí)得到高質(zhì)量的網(wǎng)絡(luò)表示,但是單一模型的泛化能力較弱。為了解決此問題,目前有學(xué)者提出使用集成思想學(xué)習(xí)網(wǎng)絡(luò)表示,Zhang等[19]提出的基于集成學(xué)習(xí)的網(wǎng)絡(luò)表示學(xué)習(xí),其中stacking 集成分別將GCN 和GAE 作為初級(jí)模型,得到兩部分節(jié)點(diǎn)嵌入拼接后作為節(jié)點(diǎn)特征,其與原始圖數(shù)據(jù)構(gòu)成新數(shù)據(jù)集,最后將三層GCN 作為次級(jí)模型處理新數(shù)據(jù)集,使用部分節(jié)點(diǎn)標(biāo)簽進(jìn)行半監(jiān)督訓(xùn)練。

    本文引入了stacking 集成方法學(xué)習(xí)網(wǎng)絡(luò)表示。集成方法是對(duì)于同一網(wǎng)絡(luò)并行訓(xùn)練多個(gè)較弱的個(gè)體學(xué)習(xí)器,每個(gè)個(gè)體學(xué)習(xí)器的輸出都是網(wǎng)絡(luò)表示,然后采用某種結(jié)合策略集成這些輸出進(jìn)而得到更好的網(wǎng)絡(luò)表示。stacking 集成方法是集成方法的一種,結(jié)合策略是學(xué)習(xí)法,即選用次級(jí)學(xué)習(xí)器集成個(gè)體學(xué)習(xí)器的輸出。次級(jí)學(xué)習(xí)器的選擇是影響結(jié)果的重要因素,現(xiàn)有工作證明Kipf 等[20]提出的圖卷積神經(jīng)網(wǎng)絡(luò)[21](graph convolutional network,GCN)在提升網(wǎng)絡(luò)分析性能上有著顯著的效果,GCN 通過卷積層聚合網(wǎng)絡(luò)中節(jié)點(diǎn)及鄰居的信息,根據(jù)歸一化拉普拉斯矩陣的性質(zhì)向鄰居分配權(quán)重,中心節(jié)點(diǎn)及鄰居信息加權(quán)后更新中心節(jié)點(diǎn)的特征表示。

    綜上所述,本文的貢獻(xiàn)有以下幾點(diǎn):

    1)提出了基于stacking 集成學(xué)習(xí)的網(wǎng)絡(luò)表示學(xué)習(xí),并行訓(xùn)練多個(gè)較弱的初級(jí)學(xué)習(xí)器,并將它們的網(wǎng)絡(luò)表示拼接,選用GCN 作為次級(jí)學(xué)習(xí)器,聚合中心節(jié)點(diǎn)及鄰居信息得到最終的網(wǎng)絡(luò)表示,這樣可得到更好的網(wǎng)絡(luò)表示。

    2)利用網(wǎng)絡(luò)的一階鄰近性設(shè)計(jì)了損失函數(shù);

    3)設(shè)計(jì)了評(píng)價(jià)指標(biāo)MRR、Hit@1、Hit@3、Hit@10,分別評(píng)價(jià)初級(jí)學(xué)習(xí)器和集成后的網(wǎng)絡(luò)表示,驗(yàn)證了提出的算法具有較好的網(wǎng)絡(luò)表示性能,各評(píng)價(jià)指標(biāo)平均提升了1.47~2.97 倍。

    1 問題定義

    定義1給定網(wǎng)絡(luò)G=,其中V表示節(jié)點(diǎn)集合,E表示節(jié)點(diǎn)之間的邊集合,記vi∈V表示一個(gè)節(jié)點(diǎn),ei,j=(vi,vj)∈E表示一條邊,由E構(gòu)建鄰接矩陣A∈Rn×n表示網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),n=|V|,若ei,j∈E,則Ai,j>0,若ei,j?E,則Ai,j=0。

    定義2[6]給定網(wǎng)絡(luò)G,每個(gè)節(jié)點(diǎn)的屬性特征是m維,G有n個(gè)節(jié)點(diǎn),則網(wǎng)絡(luò)G對(duì)應(yīng)的節(jié)點(diǎn)特征矩陣H∈Rn×m。網(wǎng)絡(luò)表示學(xué)習(xí)的目標(biāo)是根據(jù)網(wǎng)絡(luò)中任意節(jié)點(diǎn)vi∈V學(xué)習(xí)得到低維向量Z∈Rn×d,其中d?n。學(xué)習(xí)到的低維向量表示可客觀反映節(jié)點(diǎn)在原始網(wǎng)絡(luò)中的結(jié)構(gòu)特性。例如,相似的節(jié)點(diǎn)應(yīng)相互靠近,不相似的節(jié)點(diǎn)應(yīng)相互遠(yuǎn)離。

    定義3一階鄰近性[15]。網(wǎng)絡(luò)中的一階鄰近性是指兩個(gè)節(jié)點(diǎn)之間存在邊,若節(jié)點(diǎn)vi和vj之間存在邊,這條邊的權(quán)重wi,j表示vi和vj之間的一階鄰近性,若節(jié)點(diǎn)vi和vj之間沒有邊,則vi和vj之間的一階鄰近性為0。

    定義4二階鄰近性[15]。網(wǎng)絡(luò)中一對(duì)節(jié)點(diǎn)vi和vj之間的二階鄰近性是指它們的鄰域網(wǎng)絡(luò)結(jié)構(gòu)之間的相似性,令li=(wi,1,wi,2,···,wi,|V|)表示節(jié)點(diǎn)vi與其他所有節(jié)點(diǎn)的一階鄰近性,vi和vj的二階鄰近性由li和lj的相似性決定。

    定義5集成學(xué)習(xí)[22]。集成學(xué)習(xí)是構(gòu)建多個(gè)個(gè)體學(xué)習(xí)器 ?1,?2,…,?n,再用某種結(jié)合策略將它們的輸出結(jié)合起來,結(jié)合策略有平均法、投票法和學(xué)習(xí)法。給定網(wǎng)絡(luò)G,定義2 中的網(wǎng)絡(luò)表示學(xué)習(xí)方法可作為個(gè)體學(xué)習(xí)器,其結(jié)構(gòu)如圖1。若個(gè)體學(xué)習(xí)器是同種則是同質(zhì)集成,否則是異質(zhì)集成。

    圖1 集成學(xué)習(xí)結(jié)構(gòu)Fig.1 Structure of ensemble learning

    定義6stacking 集成學(xué)習(xí)[22]。stacking 集成學(xué)習(xí)的結(jié)合策略是學(xué)習(xí)法,對(duì)于同一網(wǎng)絡(luò)通過k個(gè)初級(jí)學(xué)習(xí)器 ?1,?2,…,?k學(xué)習(xí)得到k部分節(jié)點(diǎn)嵌入的特征向量z0,z1,…,zk?1,其嵌入維度均為d維,然后按節(jié)點(diǎn)將zi,i∈[0,k?1]對(duì)應(yīng)拼接得到嵌入z,其嵌入維度是k×d維,最后使用次級(jí)學(xué)習(xí)器?得到最終的嵌入z',為了方便對(duì)比設(shè)置其嵌入維度也是d維。

    2 基于GCN 集成的網(wǎng)絡(luò)表示學(xué)習(xí)方法

    本文將stacking 集成思想引入網(wǎng)絡(luò)表示學(xué)習(xí),對(duì)于同一網(wǎng)絡(luò)數(shù)據(jù)基于3 個(gè)初級(jí)學(xué)習(xí)器生成3 部分嵌入并將其拼接,然后選取GCN 作為次級(jí)學(xué)習(xí)器得到最終的嵌入,最后使用評(píng)價(jià)指標(biāo)進(jìn)行評(píng)價(jià),具體流程如圖2 所示。

    圖2 基于GCN 集成的網(wǎng)絡(luò)表示學(xué)習(xí)結(jié)構(gòu)Fig.2 Network representation learning structure based on GCN ensemble method

    2.1 初級(jí)學(xué)習(xí)器

    初級(jí)學(xué)習(xí)器選擇DeepWalk[13]、Node2Vec[14]和Line[15]。DeepWalk[13]發(fā)現(xiàn)在短的隨機(jī)游走中出現(xiàn)的節(jié)點(diǎn)分布類似于自然語言中的單詞分布,于是采用廣泛使用的單詞表示學(xué)習(xí)模型Skip-Gram模型學(xué)習(xí)節(jié)點(diǎn)表示;Node2Vec[14]認(rèn)為DeepWalk的表達(dá)能力不足以捕捉網(wǎng)絡(luò)中連接的多樣性,所以設(shè)計(jì)了一個(gè)靈活的網(wǎng)絡(luò)鄰域概念,并設(shè)計(jì)隨機(jī)游走策略對(duì)鄰域節(jié)點(diǎn)采樣,該策略能平滑地在廣度優(yōu)先采樣(BFS)和深度優(yōu)先采樣(DFS)之間進(jìn)行插值;Line[15]是針對(duì)大規(guī)模的網(wǎng)絡(luò)嵌入,可以保持一階和二階鄰近性。圖3 給出了一個(gè)說明示例,節(jié)點(diǎn)6 和節(jié)點(diǎn)7 之間邊的權(quán)重較大,即節(jié)點(diǎn)6 和節(jié)點(diǎn)7 有較高的一階鄰近性,它們?cè)谇度肟臻g的距離應(yīng)很近;雖然節(jié)點(diǎn)5 和節(jié)點(diǎn)6 沒有直接相連的邊,但是它們有很多共同的鄰居,所以它們有較高的二階鄰近性,在嵌入空間中距離也應(yīng)很近。一階鄰近性和二階鄰近性都很重要,一階鄰近性可以用兩個(gè)節(jié)點(diǎn)之間的聯(lián)合概率分布度量,vi和vj的一階鄰近性如式(1):

    圖3 網(wǎng)絡(luò)簡(jiǎn)單示例Fig.3 Simple example of network

    二階鄰近性通過節(jié)點(diǎn)vi的上下文節(jié)點(diǎn)vj的概率建模,即

    條件分布意味著在上下文中具有相似分布的節(jié)點(diǎn)彼此相似,通過最小化兩種分布和經(jīng)驗(yàn)分布的KL 散度,可以得到既保持一階鄰近性又保持二階鄰近性的節(jié)點(diǎn)表示。

    2.2 次級(jí)學(xué)習(xí)器

    引入stacking 集成方法學(xué)習(xí)網(wǎng)絡(luò)表示,選擇DeepWalk[13]、Node2Vec[14]和Line[15]作為初級(jí)學(xué)習(xí)器。若初級(jí)學(xué)習(xí)器是同種的則為同質(zhì)集成,否則為異質(zhì)集成。3 個(gè)初級(jí)學(xué)習(xí)器學(xué)習(xí)得到的嵌入分別是z1、z2、z3,且維數(shù)均設(shè)為d,并將z1、z2、z3拼接得到嵌入z',維數(shù)為3×d。這個(gè)過程中不使用節(jié)點(diǎn)的輔助信息,僅利用網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)學(xué)習(xí)節(jié)點(diǎn)的特征表示。選用GCN 圖卷積網(wǎng)絡(luò)模型[21]作為stacking 的次級(jí)學(xué)習(xí)器,學(xué)習(xí)得到最終的嵌入z,維數(shù)是d。

    GCN 模型的輸入有兩部分,若網(wǎng)絡(luò)G有N個(gè)節(jié)點(diǎn),則一部分是嵌入z',每個(gè)節(jié)點(diǎn)有H維,其大小為N×H,另一部分是網(wǎng)絡(luò)G的鄰接矩陣A,其大小為N×N。首先,通過計(jì)算得到歸一化矩陣∈Rn×n,如式(2):

    圖4 拉普拉斯矩陣示例Fig.4 Example of Laplacian matrix

    然后,GCN 的整體結(jié)構(gòu)如圖5 所示,用式(3)、(4)描述:

    圖5 圖卷積集成網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.5 Structure of GCN ensemble model

    2.3 損失函數(shù)

    利用網(wǎng)絡(luò)的一階鄰近性設(shè)計(jì)損失函數(shù),根據(jù)噪聲分布對(duì)邊采樣負(fù)邊,任意邊的損失函數(shù)為

    式中:第一項(xiàng)是根據(jù)觀測(cè)到的邊即正例的loss;第二項(xiàng)是為正例采樣的負(fù)例的loss;K是負(fù)邊的個(gè)數(shù);σ(x)=1/(1+exp(?x))是 sigmoid 函數(shù);設(shè)置Pn(v)∝,其在文獻(xiàn)[23]中提出,dv是節(jié)點(diǎn)v的出度。

    邊采樣根據(jù)邊的權(quán)重選用alias table[15]方法進(jìn)行,從alias table 中采樣一條邊的時(shí)間復(fù)雜度是O(1),負(fù)采樣的時(shí)間復(fù)雜度是O(d(K+1)),d表示出度,K表示K條負(fù)邊,所以每步的時(shí)間復(fù)雜度是O(dK),步數(shù)的多少取決于邊的數(shù)量 |E|,因此計(jì)算損失的時(shí)間復(fù)雜度為O(dK|E|),與節(jié)點(diǎn)數(shù)量N無關(guān)。此邊采樣策略在不影響準(zhǔn)確性的情況下提高了效率。

    2.4 評(píng)價(jià)指標(biāo)

    通過2.3 節(jié)損失函數(shù)影響模型的訓(xùn)練學(xué)習(xí),得到最終的網(wǎng)絡(luò)嵌入表示z,對(duì)于網(wǎng)絡(luò)表示學(xué)習(xí)的無監(jiān)督性,設(shè)計(jì)評(píng)價(jià)指標(biāo)[24]評(píng)價(jià)網(wǎng)絡(luò)表示學(xué)習(xí)的好壞。對(duì)于節(jié)點(diǎn)vi和vj之間的邊即一個(gè)正例,由一對(duì)節(jié)點(diǎn)(vi,vj)表示,一個(gè)正例對(duì)應(yīng)采樣K條負(fù)邊,即采樣K個(gè)點(diǎn)(n1,n2,···,nk),其中i,j?(1,K),構(gòu)成負(fù)例集合{(vi,n1),(vi,n2),···,(vi,nk)}。

    衡量一對(duì)節(jié)點(diǎn)的相似度可計(jì)算它們網(wǎng)絡(luò)表示的內(nèi)積,正例(vi,vj)的相似度s=,負(fù)例的相似度sp=,p=(1,2,···,K),相似值越大越好,所以將sp的值由大到小排序,記錄s插入{sp}的索引ranking,索引是從0 開始的,衡量指標(biāo)需要的是排名位置,所以令ranking=ranking+1,ranking 越小說明網(wǎng)絡(luò)表示學(xué)習(xí)的嵌入越有效。

    上文針對(duì)一個(gè)正例計(jì)算得到了一個(gè)ranking,對(duì)于整個(gè)網(wǎng)絡(luò)設(shè)計(jì)指標(biāo)如表1 所示。

    表1 評(píng)價(jià)指標(biāo)Table 1 Evaluating indicator

    評(píng)價(jià)數(shù)據(jù)邊的數(shù)量為 |E’|,時(shí)間復(fù)雜度為O(K|E’|)。

    2.5 算法描述

    基于圖卷積集成的網(wǎng)絡(luò)表示主要包括3 個(gè)步驟,首先得到初級(jí)學(xué)習(xí)器的網(wǎng)絡(luò)表示,然后用stacking 集成,其中次級(jí)學(xué)習(xí)器選用GCN。對(duì)于網(wǎng)絡(luò)表示學(xué)習(xí)的無監(jiān)督性在GCN 模型中設(shè)計(jì)了損失函數(shù),也設(shè)計(jì)了其測(cè)試指標(biāo),相關(guān)算法如算法1所示。

    訓(xùn)練階段進(jìn)行模型計(jì)算和損失計(jì)算,所以訓(xùn)練階段的時(shí)間復(fù)雜度是O(|E|HTF+dK|E|),測(cè)試階段的時(shí)間復(fù)雜度是O(K|E′|),其中H是特征輸入維數(shù)384,T為中間層維數(shù)256,F(xiàn)為輸出層維數(shù)128,數(shù)據(jù)邊的數(shù)量是 |E|,測(cè)試數(shù)據(jù)邊的數(shù)量是 |E′|。綜上所述,總體時(shí)間復(fù)雜度是O(|E|HTF+dK|E|)。

    3 實(shí)驗(yàn)和結(jié)果分析

    在6 個(gè)數(shù)據(jù)集上分別對(duì)比DeepWalk、Node 2Vec、Line 這3 個(gè)經(jīng)典的網(wǎng)絡(luò)表示學(xué)習(xí)方法和stacking 集成后的實(shí)驗(yàn)效果,驗(yàn)證GCN 作為stacking 集成次級(jí)學(xué)習(xí)器的有效性。實(shí)驗(yàn)環(huán)境為:Windows10 操作系統(tǒng),Intel i7-6 700 2.6 GHz CPU,nvidia GeForce GTX 950M GPU,8 GB 內(nèi)存。編寫Python 和Pytorch 實(shí)現(xiàn)。

    3.1 實(shí)驗(yàn)設(shè)定

    1)數(shù)據(jù)集

    實(shí)驗(yàn)使用6 個(gè)真實(shí)數(shù)據(jù)集,即Cora、Citeseer、Pubmed、Wiki-Vote、P2P-Gnutella05 和Email-Enron,詳細(xì)信息見表2。Cora 是引文網(wǎng)絡(luò),由機(jī)器學(xué)習(xí)論文組成,每個(gè)節(jié)點(diǎn)代表一篇論文,論文根據(jù)論文的主題分為7 類,邊代表論文間的引用關(guān)系。Citeseer 也是引文網(wǎng)絡(luò),是從Citeseer 數(shù)字論文圖書館中選取的一部分論文,該網(wǎng)絡(luò)被分為6 類,邊代表論文間的引用關(guān)系。Pubmed 數(shù)據(jù)集包括來自Pubmed 數(shù)據(jù)庫(kù)的關(guān)于糖尿病的科學(xué)出版物,被分為3 類。Wiki-Vote 是社交網(wǎng)絡(luò),數(shù)據(jù)集包含從Wikipedia 創(chuàng)建到2008 年1 月的所有Wikipedia 投票數(shù)據(jù)。網(wǎng)絡(luò)中的節(jié)點(diǎn)表示W(wǎng)ikipedia 用戶,從節(jié)點(diǎn)i到節(jié)點(diǎn)j的定向邊表示用戶i給用戶j的投票。P2P-Gnutella05 是因特網(wǎng)點(diǎn)對(duì)點(diǎn)網(wǎng)絡(luò),數(shù)據(jù)集是從2002 年8 月開始的Gnutella 點(diǎn)對(duì)點(diǎn)文件共享網(wǎng)絡(luò)的一系列快照,共收集了9 個(gè)Gnutella 網(wǎng)絡(luò)快照。節(jié)點(diǎn)表示Gnutella 網(wǎng)絡(luò)拓?fù)渲械闹鳈C(jī),邊表示Gnutella 主機(jī)之間的連接。Email-Enron 是安然公司管理人員的電子郵件通信網(wǎng)絡(luò),覆蓋了大約50 萬封電子郵件數(shù)據(jù)集中的所有電子郵件通信,這些數(shù)據(jù)最初是由聯(lián)邦能源管理委員會(huì)在調(diào)查期間公布在網(wǎng)上的,網(wǎng)絡(luò)的節(jié)點(diǎn)是電子郵件地址,邊表示電子郵件地址之間的通信。

    表2 數(shù)據(jù)集信息Table 2 Dataset information

    2)參數(shù)設(shè)定

    對(duì)于stacking 集成方法中的GCN 模型,使用RMSProp 優(yōu)化器更新訓(xùn)練參數(shù),學(xué)習(xí)率設(shè)為0.001,訓(xùn)練次數(shù)設(shè)為200,卷積層為2 層。對(duì)于Deep-Walk 和Node2Vec 共同參數(shù),節(jié)點(diǎn)游走次數(shù)設(shè)為10,窗口大小設(shè)為 10,隨機(jī)游走的長(zhǎng)度設(shè)為40。Node2Vec 的超參數(shù)p=0.25、q=4。對(duì)于Line,負(fù)采樣數(shù)設(shè)為10,學(xué)習(xí)率設(shè)為 0.025。為了方便比較,上述方法的節(jié)點(diǎn)表示維度均設(shè)為128。

    3.2 異質(zhì)集成實(shí)驗(yàn)結(jié)果

    實(shí)驗(yàn)選擇4 個(gè)領(lǐng)域的數(shù)據(jù)集,包括Cora、Citeseer、Pubmed、Wiki-Vote、P2P-Gnutella05 和Email-Enron。對(duì)于同一數(shù)據(jù)集,對(duì)比各初級(jí)學(xué)習(xí)器、GCN和stacking 異質(zhì)GCN 集成的特征表示的質(zhì)量。GCN的參數(shù)設(shè)定同stacking 集成方法中的GCN 模型參數(shù)。GCN 集成過程中僅使用網(wǎng)絡(luò)結(jié)構(gòu),GCN 使用網(wǎng)絡(luò)結(jié)構(gòu)和數(shù)據(jù)集的屬性特征,數(shù)據(jù)集沒有的使用單位陣代替屬性特征。圖6 展示了各數(shù)據(jù)集上的評(píng)價(jià)指標(biāo)MRR、Hit@1、Hit@3、Hit@10 的比較,各評(píng)價(jià)指標(biāo)平均提升了1.47~2.97 倍。

    圖6 各數(shù)據(jù)集異質(zhì)集成評(píng)價(jià)指標(biāo)結(jié)果Fig.6 Heterogeneous integration of evaluation index results of all datasets

    實(shí)驗(yàn)結(jié)果顯示,在各數(shù)據(jù)集上stacking 集成后的效果明顯優(yōu)于各初級(jí)學(xué)習(xí)器,僅使用網(wǎng)絡(luò)結(jié)構(gòu)的GCN 集成與使用網(wǎng)絡(luò)結(jié)構(gòu)和屬性特征的GCN效果相當(dāng)。這一方面歸功于初級(jí)學(xué)習(xí)器的“好而不同”,即初級(jí)學(xué)習(xí)器有一定的網(wǎng)絡(luò)表示學(xué)習(xí)能力,并且學(xué)習(xí)器之間具有差異性,會(huì)有互補(bǔ)作用;另一方面歸功于GCN 作為stacking 集成次級(jí)學(xué)習(xí)器的有效性,GCN 根據(jù)對(duì)稱歸一化拉普拉斯矩陣的性質(zhì)為鄰居分配權(quán)重,然后聚合鄰居信息。

    3.3 損失函數(shù)有效性驗(yàn)證

    本文根據(jù)網(wǎng)絡(luò)的一階鄰近性設(shè)計(jì)了損失函數(shù),通過設(shè)計(jì)使用損失函數(shù)和未使用損失函數(shù)的實(shí)驗(yàn)來驗(yàn)證損失函數(shù)的有效性。表3 展示了各數(shù)據(jù)集評(píng)價(jià)指標(biāo)的比較,圖中數(shù)據(jù)集名稱的表示未使用損失函數(shù),數(shù)據(jù)集名稱中的“-loss”表示使用了損失函數(shù)。實(shí)驗(yàn)結(jié)果表明,使用損失函數(shù)的評(píng)價(jià)指標(biāo)與未使用損失函數(shù)的相比平均提升了0.44~1.79 倍,驗(yàn)證了本文損失函數(shù)的有效性。

    表3 損失函數(shù)有效性驗(yàn)證指標(biāo)結(jié)果Table 3 Results of validation index of loss function

    3.4 同質(zhì)集成實(shí)驗(yàn)對(duì)比

    本節(jié)對(duì)比算法分別進(jìn)行同質(zhì)stacking,對(duì)比設(shè)計(jì)如表4 所示,第1~3 行是同質(zhì)集成,第4 行是3.2 節(jié)的實(shí)驗(yàn)設(shè)定。圖7 展示了Cora、Citeseer和P2P-Gnutella05 數(shù)據(jù)集同質(zhì)、異質(zhì)集成及3 個(gè)初級(jí)學(xué)習(xí)器對(duì)比的實(shí)驗(yàn)結(jié)果。

    表4 對(duì)比算法設(shè)計(jì)Table 4 Design of contrast algorithms

    圖7 各數(shù)據(jù)集同質(zhì)/異質(zhì)集成對(duì)比Fig.7 Comparison of homogeneous/ heterogeneous integration among datasets

    實(shí)驗(yàn)結(jié)果表明,在不同數(shù)據(jù)集上不同的同質(zhì)集成各評(píng)價(jià)指標(biāo)的表現(xiàn)不同。但是同質(zhì)集成效果均明顯優(yōu)于初級(jí)學(xué)習(xí)器的效果,平均提升了1.46~1.91 倍,所以異質(zhì)集成的效果平均優(yōu)于同質(zhì)集成。在Cora 數(shù)據(jù)集上,DeepWalk 和Node2Vec 同質(zhì)集成的效果略差于異質(zhì)集成,Line 同質(zhì)集成略好于異質(zhì)集成;在Citeseer 數(shù)據(jù)集上,DeepWalk 同質(zhì)集成效果與異質(zhì)集成相當(dāng),Line 和Node2Vec同質(zhì)集成略好于異質(zhì)集成;在P2P-Gnutella05 數(shù)據(jù)集上,Line 同質(zhì)集成效果與異質(zhì)集成相當(dāng),Node-2Vec 和DeepWalk 同質(zhì)集成略好于異質(zhì)集成。因?yàn)閿?shù)據(jù)集網(wǎng)絡(luò)結(jié)構(gòu)具有多樣性和復(fù)雜性,所以在不同數(shù)據(jù)集上表現(xiàn)效果不同,有的同質(zhì)集成效果略優(yōu)于異質(zhì)集成。GCN 不僅可以作為集成器,本身也是學(xué)習(xí)器,有一定的學(xué)習(xí)能力。

    3.5 參數(shù)敏感性分析

    本節(jié)進(jìn)行參數(shù)敏感性實(shí)驗(yàn),主要分析不同特征維度對(duì)性能的影響。實(shí)驗(yàn)選用Cora 數(shù)據(jù)集,圖8 分別展示了MRR 和Hit@1、Hit@3、Hit@10 的實(shí)驗(yàn)結(jié)果。

    圖8 參數(shù)敏感性分析Fig.8 Parametric sensitivity analysis

    實(shí)驗(yàn)結(jié)果表明,節(jié)點(diǎn)特征向量維度增加到128 時(shí),初級(jí)學(xué)習(xí)器的效果沒有明顯提升;但是GCN 異質(zhì)集成的效果卻沒有大幅受節(jié)點(diǎn)特征向量維度的影響,說明節(jié)點(diǎn)特征維度不是實(shí)驗(yàn)結(jié)果的重要影響因素。

    4 結(jié)束語

    在網(wǎng)絡(luò)表示學(xué)習(xí)中,如何設(shè)計(jì)算法學(xué)習(xí)到高質(zhì)量的節(jié)點(diǎn)表示仍是一個(gè)重要的研究課題。本文引入了stacking 集成方法學(xué)習(xí)網(wǎng)絡(luò)表示。首先并行訓(xùn)練多個(gè)簡(jiǎn)單的初級(jí)學(xué)習(xí)器,并將它們的嵌入拼接,選用GCN 作為次級(jí)學(xué)習(xí)器,聚合得到最終的網(wǎng)絡(luò)表示,然后對(duì)網(wǎng)絡(luò)表示學(xué)習(xí)的無監(jiān)督性,利用網(wǎng)絡(luò)的一階鄰近性設(shè)計(jì)損失函數(shù);最后改進(jìn)了評(píng)價(jià)指標(biāo)MRR、Hit@1、Hit@3、Hit@10,分別測(cè)試初級(jí)學(xué)習(xí)器和集成后的節(jié)點(diǎn)特征向量表示,驗(yàn)證了提出算法具有較好的網(wǎng)絡(luò)表示性能。

    在6 個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),在各數(shù)據(jù)集上stacking 集成后的效果明顯優(yōu)于各初級(jí)學(xué)習(xí)器,因?yàn)镚CN 作為stacking 異質(zhì)集成次級(jí)學(xué)習(xí)器的有效性及初級(jí)學(xué)習(xí)器的“好而不同”。對(duì)比算法選擇stacking 同質(zhì)集成進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明同質(zhì)集成的效果均明顯優(yōu)于初級(jí)學(xué)習(xí)器,且異質(zhì)集成的效果平均優(yōu)于同質(zhì)集成,有的數(shù)據(jù)集同質(zhì)集成效果由于異質(zhì)集成是由于GCN 不僅是集成器,更是學(xué)習(xí)器,有一定的學(xué)習(xí)能力。對(duì)于參數(shù)敏感性分析,實(shí)驗(yàn)結(jié)果表明節(jié)點(diǎn)向量維度不是實(shí)驗(yàn)結(jié)果的重要影響因素。

    未來研究工作包括探索其他算法作為初級(jí)學(xué)習(xí)器、次級(jí)學(xué)習(xí)器對(duì)集成的影響和探索如何提高不同網(wǎng)絡(luò)結(jié)構(gòu)的適應(yīng)性去處理歸納性任務(wù)。

    猜你喜歡
    同質(zhì)集上異質(zhì)
    Cookie-Cutter集上的Gibbs測(cè)度
    鏈完備偏序集上廣義向量均衡問題解映射的保序性
    復(fù)扇形指標(biāo)集上的分布混沌
    “形同質(zhì)異“的函數(shù)問題辨析(上)
    同質(zhì)異構(gòu)交聯(lián)法對(duì)再生聚乙烯的改性研究
    隨機(jī)與異質(zhì)網(wǎng)絡(luò)共存的SIS傳染病模型的定性分析
    淺談同質(zhì)配件發(fā)展歷程
    汽車零部件(2015年1期)2015-12-05 06:40:20
    Ag2CO3/Ag2O異質(zhì)p-n結(jié)光催化劑的制備及其可見光光催化性能
    聚焦國(guó)外同質(zhì)配件發(fā)展歷程
    MoS2/ZnO異質(zhì)結(jié)的光電特性
    门头沟区| 巩义市| 商洛市| 武乡县| 奉新县| 上栗县| 桂林市| 和田市| 宁国市| 香河县| 黄骅市| 四会市| 中卫市| 台东县| 永川市| 连城县| 榆林市| 蓝山县| 宜宾市| 江源县| 吴桥县| 会东县| 大安市| 仪征市| 息烽县| 延庆县| 同仁县| 增城市| 隆安县| 咸宁市| 鄂托克前旗| 西乌珠穆沁旗| 石景山区| 金华市| 饶平县| 阿合奇县| 芜湖县| 仪陇县| 方山县| 安仁县| 兴海县|