• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      保持聚類結(jié)構(gòu)的異質(zhì)網(wǎng)絡(luò)表示學(xué)習(xí)

      2021-04-12 05:18:38張蝶依尹立杰
      計算機工程與應(yīng)用 2021年7期

      張蝶依,尹立杰

      河北地質(zhì)大學(xué) 信息工程學(xué)院,石家莊 050031

      異質(zhì)信息網(wǎng)絡(luò)(Heterogeneous Information Network,HIN)是具有實際意義且應(yīng)用較為廣泛的邏輯網(wǎng)絡(luò),具有大規(guī)模、異質(zhì)性等特點[1]。HIN 為數(shù)據(jù)挖掘提供了新的機遇與挑戰(zhàn),并且它已廣泛應(yīng)用于聚類、分類、節(jié)點相似性判定、鏈路預(yù)測、推薦等任務(wù)。異質(zhì)網(wǎng)絡(luò)表示學(xué)習(xí)旨在將網(wǎng)絡(luò)中的節(jié)點轉(zhuǎn)化為低維稠密的實數(shù)向量,使得結(jié)構(gòu)相似的節(jié)點在低維空間中表示向量相似。

      異質(zhì)網(wǎng)絡(luò)表示學(xué)習(xí)方法可分為4類:基于網(wǎng)絡(luò)分解的方法、基于矩陣分解的方法、基于深度神經(jīng)網(wǎng)絡(luò)的方法和基于隨機游走的方法。(1)基于網(wǎng)絡(luò)分解的方法,如PTE[2]、LSHM[3]、HERec[4]等,將異質(zhì)信息網(wǎng)絡(luò)按照節(jié)點類型分解成多個子網(wǎng)絡(luò),分別對子網(wǎng)絡(luò)進行表示學(xué)習(xí),得到網(wǎng)絡(luò)中不同類型節(jié)點的向量表示。(2)基于矩陣分解的方法,如CMF[5]、HeteroMF[6]、DSR[7],通過構(gòu)建節(jié)點間的關(guān)系矩陣,然后對關(guān)系矩陣進行矩陣分解得到網(wǎng)絡(luò)表示。(3)基于深度神經(jīng)網(wǎng)絡(luò)的方法,如HNE[8],使用深度架構(gòu)捕獲異構(gòu)組件之間的復(fù)雜交互,將異構(gòu)網(wǎng)絡(luò)中不同類型的節(jié)點映射到相同的低維空間中。(4)基于隨機游走的方法,如Metapath2vec[9]、HIN2Vec[10]、TriDNR[11],采用隨機游走的方式得到游走序列,并通過預(yù)測鄰居節(jié)點間的特定關(guān)系學(xué)習(xí)異質(zhì)網(wǎng)絡(luò)中節(jié)點的低維表示。盡管這些表示學(xué)習(xí)方法以不同的策略保持了異質(zhì)網(wǎng)絡(luò)原有的局部或全局拓撲結(jié)構(gòu),但都沒有考慮異質(zhì)網(wǎng)絡(luò)自身存在的聚類結(jié)構(gòu)。依據(jù)網(wǎng)絡(luò)分解的思想,異質(zhì)網(wǎng)絡(luò)是由若干同質(zhì)網(wǎng)絡(luò)組合而成。對于既定網(wǎng)絡(luò),同質(zhì)網(wǎng)絡(luò)的個數(shù)和網(wǎng)絡(luò)規(guī)模是已知的。那么,在將節(jié)點表達映射成低維空間的向量表示時,保持每一組同質(zhì)信息網(wǎng)絡(luò)固有的聚類結(jié)構(gòu)特征,將獲得更豐富的結(jié)構(gòu)信息和語義信息。保持異質(zhì)網(wǎng)絡(luò)聚類結(jié)構(gòu)的表示學(xué)習(xí)就是在不改變網(wǎng)絡(luò)拓撲結(jié)構(gòu)的前提下,保持異質(zhì)網(wǎng)絡(luò)中每一組同質(zhì)網(wǎng)絡(luò)自身的聚類結(jié)構(gòu)特征,將節(jié)點表達映射成低維空間的向量表示。

      在低維向量表示方法中,隨機游走表示學(xué)習(xí)方法比深度學(xué)習(xí)保留了更多的原始網(wǎng)絡(luò)拓撲結(jié)構(gòu)信息。2017年,Dong 等[9]提出基于元路徑進行隨機游走的Metapath2vec模型,利用skip-gram模型學(xué)習(xí)異質(zhì)網(wǎng)絡(luò)中節(jié)點的低維嵌入。Metapath2vec++模型在此基礎(chǔ)上對softmax函數(shù)進行改進,針對不同類型的節(jié)點分別進行歸一化,使得在神經(jīng)網(wǎng)絡(luò)的輸出層將異質(zhì)網(wǎng)絡(luò)分解成若干同質(zhì)網(wǎng)絡(luò)。但是Metapath2vec 和Metapath2vec++模型都只考慮了節(jié)點的近鄰?fù)負浣Y(jié)構(gòu),學(xué)習(xí)到的表示不能很好地保持網(wǎng)絡(luò)中自身的聚類結(jié)構(gòu),導(dǎo)致在節(jié)點聚類任務(wù)上效果不佳。Rozemberczki 等提出的GEMSEC[12]模型是以保持同質(zhì)網(wǎng)絡(luò)中拓撲結(jié)構(gòu)和聚類結(jié)構(gòu)為目標(biāo),學(xué)到的表示能很好地表示同質(zhì)網(wǎng)絡(luò)自身的聚類結(jié)構(gòu),但是該方法不能直接應(yīng)用于異質(zhì)網(wǎng)絡(luò)。

      針對Metapath2vec、Metapath2vec++及GEMSEC 模型自身存在的缺陷,本文提出兩種既能保持異質(zhì)網(wǎng)絡(luò)中的拓撲結(jié)構(gòu),又能保持網(wǎng)絡(luò)聚類結(jié)構(gòu)的異質(zhì)網(wǎng)絡(luò)表示學(xué)習(xí)模型:HINSC 及其擴展模型HINSC++。模型按照規(guī)定的元路徑獲取節(jié)點近鄰序列,依據(jù)游走策略選擇目標(biāo)節(jié)點,將其作為前饋神經(jīng)網(wǎng)絡(luò)輸入,經(jīng)過隱層學(xué)習(xí)節(jié)點的低維表示,在輸出層保持節(jié)點的近鄰?fù)負浣Y(jié)構(gòu)和聚類結(jié)構(gòu)。在AMiner、DBLP兩個真實異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)上的實驗結(jié)果表明,相比Metapath2vec 和Metapath2vec++,本文提到的兩個模型在聚類任務(wù)上NMI 值提高12.46%~26.22%,在分類任務(wù)上Macro-F1、Micro-F1 值提高9.32%~17.24%。

      1 相關(guān)定義

      定義1(異質(zhì)信息網(wǎng)絡(luò)[13])給定一個網(wǎng)絡(luò)G=(V,E,T,φ,φ),其中:V是網(wǎng)絡(luò)中的節(jié)點集合,E是網(wǎng)絡(luò)中邊的集合。T=(TV,TE) ,TV和TE分別代表節(jié)點和邊類型的集合。每個節(jié)點v∈V和每條邊e∈E的類型由映射函數(shù)確定,即φ(v):V→TV,φ(e):E→TE。若|TV|+|TE|>2,給定的有向網(wǎng)絡(luò)G就是異質(zhì)信息網(wǎng)絡(luò)。否則為同質(zhì)網(wǎng)絡(luò)。

      定義2(元路徑)給定一個網(wǎng)絡(luò)G=(V,E,T,φ,φ),元路徑Vl,即元路徑是定義在關(guān)系R下的節(jié)點序列,R=R1°R2…°Rl-1,°代表組合類型操作,Ri∈TE,Vi是第i種類型的節(jié)點集合,l為序列長度。

      異質(zhì)信息網(wǎng)絡(luò)的元路徑是不同類型的節(jié)點通過邊關(guān)系建立的組合關(guān)系。以包含作者(A)、論文(P)、會議(V)三種節(jié)點類型的學(xué)術(shù)網(wǎng)絡(luò)為例,存在論文-作者(P-A)、論文-會議(P-V)兩種類型的邊。如圖1(a)所示的學(xué)術(shù)網(wǎng)絡(luò)模型中,作者a1和a2之間存在多條路徑,路徑a1→p1→a2可以看作元路徑“APA”的一個實例,路徑a1→p1→ACL→p2→a2 可以看作元路徑“APVPA”的一個實例。從實例中可以看出兩條元路徑所表達的是兩種不同的語義關(guān)系,其中,“APA”表示兩位作者在同一篇論文上的合著關(guān)系,“APVPA”表示兩位作者在同一個會議上發(fā)表論文[14]。按照指定的元路徑進行隨機游走可以保持異質(zhì)網(wǎng)絡(luò)語義信息下的結(jié)構(gòu)特征。

      圖1 異質(zhì)學(xué)術(shù)網(wǎng)絡(luò)及其元路徑

      定義3(異質(zhì)網(wǎng)絡(luò)表示學(xué)習(xí))給定一個異質(zhì)信息網(wǎng)絡(luò)G=(V,E,T,φ,φ),異質(zhì)網(wǎng)絡(luò)表示學(xué)習(xí)是將網(wǎng)絡(luò)中的節(jié)點v∈V投影到一個潛在低維表示空間?d中,學(xué)習(xí)一個映射函數(shù)fG:V→?d,其中d≤|V| ,同時保留網(wǎng)絡(luò)原有的結(jié)構(gòu)信息和語義關(guān)聯(lián)。

      2 基于元路徑的隨機游走

      大多數(shù)基于隨機游走的網(wǎng)絡(luò)表示學(xué)習(xí)方法只考慮同種類型的節(jié)點和關(guān)系,無法直接應(yīng)用于異質(zhì)網(wǎng)絡(luò)表示學(xué)習(xí),并且鄰居節(jié)點間的轉(zhuǎn)移過程僅考慮了網(wǎng)絡(luò)上的局部結(jié)構(gòu)信息,具有一定的盲目性。在異質(zhì)信息網(wǎng)絡(luò)中,按照預(yù)定義的元路徑指導(dǎo)隨機游走,能夠根據(jù)節(jié)點間的語義關(guān)系控制游走方向,并捕獲不同類型節(jié)點之間的語義和結(jié)構(gòu)相關(guān)性。

      給定一個異質(zhì)信息網(wǎng)絡(luò)G=(V,E,T,φ,φ) 和元路徑,如果下一類節(jié)點和當(dāng)前節(jié)點之間有邊連接,且節(jié)點類型符合元路徑模式所規(guī)定的下一節(jié)點類型,從當(dāng)前節(jié)點的鄰居節(jié)點中以一定的概率選擇一個節(jié)點進行游走。第i步的節(jié)點轉(zhuǎn)移概率為:

      其中,vit∈Vt且vit是第i步類型為t的一個節(jié)點(v∈V);Nt+1(vit)表示節(jié)點vti類型為t+1 的鄰居節(jié)點,vi+1∈Vt+1。

      在當(dāng)前節(jié)點如何進行下一步的游走取決于預(yù)先定義好的元路徑,元路徑通常以對稱的方式使用,即它的第一個節(jié)點類型V1與最后一個節(jié)點類型Vl相同[15]:

      基于元路徑的隨機游走策略將不同類型節(jié)點整合到skip-gram 模型中,有效捕獲網(wǎng)絡(luò)節(jié)點間的多種語義關(guān)系。圖1(a)中的節(jié)點a1分別按元路徑“APA”、“APVPA”隨機游走到達節(jié)點a4的游走序列,如圖2所示。

      圖2 基于元路徑的隨機游走實例

      3 異質(zhì)網(wǎng)絡(luò)的skip-gram模型

      在自然語言處理領(lǐng)域中,skip-gram 模型能夠根據(jù)單詞上下文之間的關(guān)系學(xué)習(xí)單詞的分布式表示,并且取得了很好的效果,將文本語料庫中的上下文概念映射到網(wǎng)絡(luò)中,通過構(gòu)建skip-gram模型,可以得到網(wǎng)絡(luò)中節(jié)點的低維表示。

      給定同質(zhì)網(wǎng)絡(luò)G=(V,E) ,使用skip-gram模型學(xué)習(xí)網(wǎng)絡(luò)中節(jié)點的低維嵌入,其目的是在保持網(wǎng)絡(luò)局部結(jié)構(gòu)的基礎(chǔ)上最大化網(wǎng)絡(luò)概率:

      其中,Nv為網(wǎng)絡(luò)G中節(jié)點v的鄰居節(jié)點集合,p(ct|f(v);θ)是在給定節(jié)點v的前提下最大化上下文節(jié)點ct的條件概率。

      給定異質(zhì)網(wǎng)絡(luò)G=(v,E,T,φ,φ),并且|TV|>1 或者|TE|>1,保持網(wǎng)絡(luò)近鄰結(jié)構(gòu)的目標(biāo)是最大化節(jié)點v的異質(zhì)鄰居,對應(yīng)的目標(biāo)函數(shù)為:

      Nt(v)表示隨機游走序列中節(jié)點v的第t種類型的鄰居節(jié)點集合,如圖3所示。

      圖3 異質(zhì)skip-gram模型

      4 保持聚類結(jié)構(gòu)的異質(zhì)網(wǎng)絡(luò)表示學(xué)習(xí)

      采用元路徑隨機游走策略學(xué)得的節(jié)點表示可以保持原有的拓撲結(jié)構(gòu)和語義信息。如果能在此基礎(chǔ)上進一步保持網(wǎng)絡(luò)自身特有的聚類結(jié)構(gòu),即保持同一集群下節(jié)點間的距離更近這一特性,使得學(xué)到的節(jié)點表示更準(zhǔn)確,提高后續(xù)任務(wù)的精度。因此,本文提出模型HINSC及其改進模型HINSC++。

      4.1 HINSC模型

      HINSC模型考慮網(wǎng)絡(luò)的拓撲結(jié)構(gòu),按照規(guī)定的元路徑隨機游走,得到的游走序列作為神經(jīng)網(wǎng)絡(luò)的輸入,以保持網(wǎng)絡(luò)的拓撲結(jié)構(gòu)和聚類結(jié)構(gòu)為目標(biāo),利用隨機梯度下降算法學(xué)習(xí)異質(zhì)網(wǎng)絡(luò)節(jié)點的低維嵌入表示。

      前饋神經(jīng)網(wǎng)絡(luò)包含輸入層、隱層和輸出層,模型按照規(guī)定的元路徑進行隨機游走,對游走序列選中的節(jié)點進行one-hot編碼,將其作為神經(jīng)網(wǎng)絡(luò)的輸入,經(jīng)過隱層的非線性變換,輸出得到每個節(jié)點的低維嵌入向量。輸出層的表示由兩部分構(gòu)成,一部分利用隱層的輸出最大化當(dāng)前節(jié)點與鄰居節(jié)點的鏈接概率,保持網(wǎng)絡(luò)中節(jié)點的近鄰結(jié)構(gòu);另一部分利用隱層的輸出最小化當(dāng)前節(jié)點到距離其最近簇中心的距離,保持網(wǎng)絡(luò)自身的聚類結(jié)構(gòu)。通過對這兩部分進行聯(lián)合優(yōu)化,即同時保持網(wǎng)絡(luò)局部近鄰結(jié)構(gòu)和全局聚類結(jié)構(gòu),保留節(jié)點更多的全局性特征,使得學(xué)到的節(jié)點表示更準(zhǔn)確。

      為了保持網(wǎng)絡(luò)的拓撲結(jié)構(gòu)和聚類結(jié)構(gòu),其聯(lián)合優(yōu)化目標(biāo)函數(shù)如式(5)所示:

      其中,Lt為保持網(wǎng)絡(luò)拓撲結(jié)構(gòu)的目標(biāo)函數(shù),Lc為保持網(wǎng)絡(luò)聚類結(jié)構(gòu)的目標(biāo)函數(shù),γ為聚類代價權(quán)重系數(shù)。γ的取值將直接影響節(jié)點集群的歸屬,若γ較大將導(dǎo)致節(jié)點可能向最近的聚類中心移動,但其中不包含節(jié)點v的鄰居節(jié)點,使得算法不可能同時產(chǎn)生有效的網(wǎng)絡(luò)節(jié)點表示和簇中心低維表示[11]。所以一般給定較小的初始值γ(0)∈( 0,1] ,采用指數(shù)退火策略控制γ的變化,使得γ隨著迭代次數(shù)h的增加逐漸增大到1,如式(6)所示,并通過實驗驗證了γ控制策略的準(zhǔn)確性,結(jié)果如圖4所示:

      圖4 h 對聚類系數(shù)γ 的影響

      (1)保持網(wǎng)絡(luò)的拓撲結(jié)構(gòu)

      給定異質(zhì)網(wǎng)絡(luò)G=(v,E,T,φ,φ),并且|TV|>1 或者|TE|>1,采用skip-gram 框架(如圖3 所示)學(xué)習(xí)網(wǎng)絡(luò)中節(jié)點的有效表示,其目標(biāo)是在已知源節(jié)點v的條件下最大化異質(zhì)鄰居節(jié)點Nt(v),t∈TV的對數(shù)似然:

      其中,Nt(v)表示節(jié)點v的類型為t的鄰居節(jié)點集合,p(ct|f(v);θ)是在給定節(jié)點v的前提下最大化上下文節(jié)點ct的條件概率,通常用softmax函數(shù)表示[16]:

      f(v)是節(jié)點v的低維嵌入表示。

      通過式(7)和(8),可以重寫目標(biāo)函數(shù):

      (2)保持網(wǎng)絡(luò)的聚類結(jié)構(gòu)

      為了更好地保持網(wǎng)絡(luò)自身存在的聚類結(jié)構(gòu),模型引入k-means損失。同類型節(jié)點間具有相似的鄰域,而具有相似鄰域的節(jié)點對應(yīng)的向量表示應(yīng)該更接近。通過添加一個k-means 聚類函數(shù)對網(wǎng)絡(luò)中節(jié)點的表示進行集群化,進而保持網(wǎng)絡(luò)中存在的聚類結(jié)構(gòu),對應(yīng)的目標(biāo)函數(shù)如下:

      其中,c為簇的個數(shù);μc為簇c的簇中心,在嵌入空間中用d維向量表示。

      Mikolov在文獻[17]首次提出負采樣時表示該方法很大程度上降低運算復(fù)雜度并提高了節(jié)點表示的準(zhǔn)確性。因此,采用負采樣[17]的優(yōu)化策略來降低式(9)的計算復(fù)雜度:

      其中,M為負采樣的個數(shù)

      4.2 HINSC++模型

      HINSC模型在神經(jīng)網(wǎng)絡(luò)的輸出層進行softmax歸一化時沒有考慮節(jié)點的類型,因此HINSC++模型在softmax函數(shù)上對不同類型的節(jié)點分別進行歸一化:

      其中,Vt是網(wǎng)絡(luò)中第t種類型節(jié)點的集合。

      考慮到式(12)的復(fù)雜度為O(|V|2),不適合大規(guī)模網(wǎng)絡(luò),因此采用負采樣優(yōu)化策略來降低計算復(fù)雜度:

      采用隨機梯度下降算法進行迭代訓(xùn)練,假設(shè)μc是距離f(v)最近的簇中心,則f(v)的梯度為:

      假設(shè)所有的簇中心都是不同的,屬于簇中心c的節(jié)點集合為Vc,則簇中心μc的梯度為:

      根據(jù)節(jié)點嵌入表示f(v)和簇中心嵌入表示μc的梯度,給出HINSC++模型的算法描述,如算法1所示。

      算法1HINSC++

      輸入:異質(zhì)信息網(wǎng)絡(luò)G=(v,E,T,φ,φ),元路徑Θ,節(jié)點游走次數(shù)k,游走長度g,向量維度d,窗口大小ω,聚類目標(biāo)權(quán)重系數(shù)γ,學(xué)習(xí)率η,迭代次數(shù)h,負采樣個數(shù)M。

      輸出:節(jié)點嵌入向量f(v),v∈V

      簇中心嵌入向量μc,c∈C

      1. 初始化所有模型參數(shù)

      2. 按照給定的元路徑生成隨機游走序列

      3. 從隨機游走序列中生成訓(xùn)練樣本{(vi,vj)}

      4. foriter=1 tohdo

      5. for (vi,vj)∈訓(xùn)練樣本do

      6. 根據(jù)式(5)、(10)和(13)來計算L

      7. 根據(jù)式(6)增大γ

      8. 根據(jù)式(14)更新f(v)

      9. 根據(jù)式(15)更新μc

      5 實驗與結(jié)果分析

      5.1 數(shù)據(jù)集

      AMiner Computer Science[18]是一個學(xué)術(shù)社交網(wǎng)絡(luò),包括論文(P)、作者(A)、會議(V)共3種類型的節(jié)點,實驗選取了來自8個研究領(lǐng)域共131個會議上發(fā)表的論文來構(gòu)建異質(zhì)網(wǎng)絡(luò)。

      DBLP[19]是一個關(guān)于計算機類英文文獻的書目信息網(wǎng)絡(luò)。本文從中選取了來自4 個研究領(lǐng)域共20 個會議上發(fā)表的論文[10]。DBLP書目信息網(wǎng)絡(luò)包含論文(P)、作者(A)、會議(V)共3種類型的節(jié)點,論文-作者(P-A)、論文-會議(P-V)兩種類型的邊,使用研究領(lǐng)域作為網(wǎng)絡(luò)中節(jié)點對應(yīng)的標(biāo)簽。為了學(xué)得異質(zhì)網(wǎng)絡(luò)中3 種類型節(jié)點的低維表示,實驗選擇APVPA元路徑進行隨機游走。

      5.2 比較方法

      為了驗證本文提出的HINSC和HINSC++模型的有效性,在AMiner 和DBLP 數(shù)據(jù)集上和幾個具有代表性的網(wǎng)絡(luò)表示學(xué)習(xí)方法進行對比。

      DeepWalk[20]/Node2vec[21]:DeepWalk 方法首先通過隨機游走得到一個序列,然后利用skip-gram 模型預(yù)測每個節(jié)點的鄰居節(jié)點,最終得到每個節(jié)點的低維表示。Node2vec 方法在此基礎(chǔ)上進行改進,通過設(shè)置參數(shù)p和q,將BFS和DFS隨機游走相結(jié)合來獲取節(jié)點的近鄰序列,既保證了網(wǎng)絡(luò)結(jié)構(gòu)的等價性,又保證了網(wǎng)絡(luò)中節(jié)點間的同質(zhì)性。對于相同的隨機路徑輸入(在node2vec中p=1 和q=1),發(fā)現(xiàn)在層次softmax(DeepWalk)和負采樣(Node2vec)之間進行選擇不會產(chǎn)生顯著差異[9]。

      LINE[22]:把網(wǎng)絡(luò)中的節(jié)點根據(jù)關(guān)系的疏密程度映射到向量空間中去,該算法同時考慮了網(wǎng)絡(luò)中節(jié)點的一階(1st-)和二階(2nd-)相似性,很好地保留了網(wǎng)絡(luò)的局部結(jié)構(gòu)和全局結(jié)構(gòu)。

      GEMSEC:以保持網(wǎng)絡(luò)聚類結(jié)構(gòu)為目標(biāo),學(xué)到的表示能很好地保持同質(zhì)網(wǎng)絡(luò)的聚類結(jié)構(gòu)。

      Metapath2vec:基于元路徑進行隨機游走,通過skip-gram 模型學(xué)習(xí)異質(zhì)網(wǎng)絡(luò)中節(jié)點的嵌入表示,但是學(xué)到的表示只考慮了網(wǎng)絡(luò)的拓撲結(jié)構(gòu)。

      Metapath2vec++:在Metapath2vec 的基礎(chǔ)上考慮節(jié)點的類型,使得不同類型的節(jié)點得以區(qū)分開來。

      為保證公平,所有的算法都采用相同的參數(shù),原始模型metapath2vec、metapath2vec++采用的是隨機梯度下降算法,為了在同等條件下分析改進模型和原始模型的對比效果,HINSC 及其擴展模型HINSC++采用隨機梯度下降算法更新參數(shù),參數(shù)設(shè)置如下:每個節(jié)點隨機游走次數(shù)k=100 ,隨機游走長度g=50 ,向量維度d=32,負采樣個數(shù)M=5,窗口大小ω=7。

      5.3 聚類任務(wù)實驗結(jié)果分析

      采用k-means算法進行聚類,并根據(jù)標(biāo)準(zhǔn)化互信息(NMI)對聚類結(jié)果進行評估,進行獨立重復(fù)實驗10次,取10 次實驗的平均值作為最終結(jié)果。如表1 為各算法在AMiner、DBLP數(shù)據(jù)集上的聚類結(jié)果。

      表1 AMiner和DBLP各數(shù)據(jù)集上的聚類結(jié)果

      從表1 可以看出,本文提出的HINSC、HINSC++模型在2個數(shù)據(jù)集中的聚類效果均優(yōu)于對比方法。與聚類效果較好的對比模型Metapath2vec 和Metapath2vec++比較,在AMiner 數(shù)據(jù)集上,HINSC、HINSC++模型在author 聚類任務(wù)上的NMI 值仍提高12.46%~26.66%,在venue 聚類任務(wù)上的NMI 值提高7.91%~14.72%,在DBLP數(shù)據(jù)集上,HINSC、HINSC++模型在author聚類任務(wù)上的NMI 值仍提高14.88%~26.8%,在venue 聚類任務(wù)上的NMI 值提高8.17%~12.49%,這說明考慮網(wǎng)絡(luò)聚類結(jié)構(gòu)能夠保持同類節(jié)點間的相似性,對學(xué)習(xí)異質(zhì)網(wǎng)絡(luò)節(jié)點表示有很重要的意義。

      5.4 分類任務(wù)實驗結(jié)果分析

      分類算法采用SVM,評價指標(biāo)采用Macro-F1 和Micro-F1,采用10 折交叉驗證,取所有節(jié)點的嵌入表示的90%作為訓(xùn)練集,剩下的10%作為測試集,重復(fù)實驗10 次,取平均值作為最終分類結(jié)果,如表2 是各算法在AMiner和DBLP數(shù)據(jù)集上的分類結(jié)果。

      從表2可以看出,在venue分類任務(wù)中,HINSC++模型在兩個數(shù)據(jù)集中的分類效果均略高于對比方法。對于author分類任務(wù),以Macro-F1指標(biāo)為例,HINSC++模型比對比算法中最優(yōu)的Metapath2vec++分別高17.24%、12.08%,在Micro-F1 指標(biāo)上,HINSC++模型比對比算法中的最優(yōu)值分別高9.32%、9.41%。這在一定程度上表明考慮網(wǎng)絡(luò)中的聚類結(jié)構(gòu)能夠?qū)W到更好的節(jié)點表示,加入聚類結(jié)構(gòu)目標(biāo)學(xué)到的表示進一步保持了異質(zhì)網(wǎng)絡(luò)的結(jié)構(gòu)相似性。

      表2 AMiner和DBLP各數(shù)據(jù)集上的分類結(jié)果

      5.5 參數(shù)敏感性分析

      HINSC++模型在優(yōu)化目標(biāo)中有一個超參數(shù)聚類目標(biāo)權(quán)重系數(shù)γ,通過實驗分析超參數(shù)γ對聚類結(jié)果造成的影響,本文分別在AMiner和DBLP兩個數(shù)據(jù)集上對參數(shù)進行測試(如圖5),除了需要測試的參數(shù)外,其他參數(shù)均保持默認值。

      圖5 γ 對聚類NMI值的影響

      這里的γ均為初始值,隨著迭代次數(shù)h的增加逐漸增大到1,在AMiner 和DBLP 數(shù)據(jù)集上,隨著γ取值的減小,NMI值先增加后減少,AMiner數(shù)據(jù)集在0.01處取得最優(yōu)值,DBLP數(shù)據(jù)集在0.1處取得最優(yōu)值。從圖5中可以看出,保持網(wǎng)絡(luò)聚類結(jié)構(gòu)對異質(zhì)網(wǎng)絡(luò)表示學(xué)習(xí)有很大的幫助,當(dāng)聚類權(quán)重系數(shù)γ設(shè)置較大或者較小都會降低表示學(xué)習(xí)的效果。因此,本文實驗超參數(shù)γ在AMiner 數(shù)據(jù)集上設(shè)置為0.01,在DBLP 數(shù)據(jù)集上設(shè)置為0.1。

      6 結(jié)束語

      本文提出保持聚類結(jié)構(gòu)的異質(zhì)網(wǎng)絡(luò)表示學(xué)習(xí)模型HINSC 和HINSC++,兩種模型均以網(wǎng)絡(luò)拓撲結(jié)構(gòu)信息作為輸入,在輸出層保持節(jié)點的近鄰結(jié)構(gòu)和聚類結(jié)構(gòu),從而更好地學(xué)到網(wǎng)絡(luò)的聚類信息。聚類和分類任務(wù)在兩個真實網(wǎng)絡(luò)數(shù)據(jù)上測試均取得較好的效果,實驗結(jié)果表明,HINSC 和HINSC++模型學(xué)到的表示確實有效地提高了網(wǎng)絡(luò)嵌入的質(zhì)量。

      現(xiàn)實世界網(wǎng)絡(luò)具有動態(tài)性,節(jié)點、鏈接關(guān)系會不斷發(fā)生變化,如何設(shè)計出保持聚類結(jié)構(gòu)的在線異質(zhì)網(wǎng)絡(luò)表示學(xué)習(xí)算法,將成為下一步的主要研究方向。

      绥宁县| 镇康县| 兴国县| 浪卡子县| 蓬安县| 和平区| 云南省| 和顺县| 铜山县| 蓝田县| 普兰县| 云霄县| 寻乌县| 余庆县| 屏南县| 蒙山县| 新源县| 宝兴县| 靖西县| 城固县| 敖汉旗| 文水县| 临沂市| 弥渡县| 汝州市| 安丘市| 台江县| 肇州县| 遵义市| 乌鲁木齐县| 县级市| 新沂市| 都安| 芷江| 米脂县| 靖边县| 扶沟县| 徐水县| 齐河县| 万安县| 赞皇县|