劉星宏,王英,王鑫,蘭書梅
1.吉林大學計算機科學與技術學院,吉林長春130012
2.吉林大學軟件學院,吉林長春130012
3.吉林大學符號計算與知識工程教育部重點實驗室,吉林長春130012
4.長春工程學院計算機技術與工程學院,吉林長春130012
隨著互聯(lián)網和移動互聯(lián)網的快速發(fā)展,互聯(lián)網和移動互聯(lián)網上的數(shù)據(jù)也呈現(xiàn)出爆炸性增長的態(tài)勢。這些具有多類型、多形態(tài)且普遍存在聯(lián)系等特征的數(shù)據(jù),構成了結構復雜、規(guī)模宏大的相互連接的信息網絡,因此信息網絡的表征學習就成為信息網絡分析的一個重要分支。已有研究大多屬于同質信息網絡的表征學習,無法適用于現(xiàn)實生活中由多種類型的節(jié)點和不同類型的關系組成的絕大多數(shù)信息網絡。為此,文獻[1]提出異質信息網絡并發(fā)布相關數(shù)據(jù)集,供研究者分析異質信息網絡中多類型、多形態(tài)的節(jié)點及節(jié)點間形成的具有豐富語義信息的連接。
如今,許多信息網絡研究者致力于異質信息網絡的分析,特別是聚類[2]、分類[3]、鏈路預測[4]等任務。異質信息網絡中往往含有大量的網絡結構信息和豐富的語義信息,如何利用這些大量而又復雜的信息就成為信息網絡研究者關注的問題。然而,異質信息網絡的傳統(tǒng)表示方法存在高維稀疏性的缺點。為了彌補這一缺點,許多網絡表征學習研究者致力于將異質信息網絡的高維頂點嵌入低維空間而表示為低維稠密的向量形式,并且保留了高維空間中的網絡結構信息和語義信息。低維稠密向量在異質信息網絡的表征學習方面已經展現(xiàn)出了一定的潛力。
異質信息網絡的表征學習模型大致可分為兩類:
1)生成器模型
將異質信息網絡中觀察到的節(jié)點對及節(jié)點間關系作為模型的輸入訓練模型,使模型能夠學習信息網絡內潛在的分布。
2)鑒別器模型
采用負采樣或隨機游走等方法獲取異質信息網絡中的負樣本,選擇信息網絡中真實存在的節(jié)點對及對應關系作為正樣本,再將負樣本和正樣本作為模型的輸入訓練模型。
生成對抗網絡[5]則將生成器模型和鑒別器模型有效地結合起來,被譽為機器學習有史以來最好的無監(jiān)督學習技術。生成對抗網絡實際上就是一個最大最小值博弈問題,博弈優(yōu)化終止于一個最低點。這個最低點視實際情況的不同有可能為全局最小值點、局部最小值點或是鞍點。該最低點的散度對于生成器G來說是最小的,對于鑒別器D來說是最大的,此時模型處于納什均衡狀態(tài)。文獻[6]提出了基于生成對抗網絡的圖表征學習(graph representation learning with generative adversarial nets,GraphGAN)模型。
受到生成對抗網絡的啟發(fā),本文提出了基于生成對抗網絡的異質網絡表征學習(heterogeneous network representation learning based on generative adversarial network,HNRL-GAN)模型和改進后的基于生成對抗網絡的增強版異質網絡表征學習(heterogeneous network representation learning based on generative adversarial network plus plus,HNRLGAN++)模型,主要包括以下三方面的工作:
1)首先提出HNRL-GAN模型,將負采樣技術和生成對抗網絡中的生成器模型結合后產生的負樣本作為生成器模型的輸入;然后針對不同的情形使用不同的策略梯度訓練生成器以實現(xiàn)生成器的迭代,并將生成器模型的輸出作為負樣本;接著從真實網絡中提取正樣本,即從給定的異質信息網絡中提取真實存在的兩個節(jié)點及節(jié)點間的關系作為正樣本;最后將負樣本和正樣本作為鑒別器的輸入訓練鑒別器,實現(xiàn)了鑒別器的迭代。
2)針對HNRL-GAN模型存在的缺點,即每次更新均涉及網絡中所有存在的節(jié)點以及生成器G所生成的樣本受限于異質信息網絡中現(xiàn)有節(jié)點和未引入節(jié)點間的關聯(lián)度,提出了改進后的HNRL-GAN++模型。HNRL-GAN++模型能學習異質信息網絡中潛在的真實分布,而不再受原有網絡中所存在的節(jié)點束縛,產生出異質信息網絡中原本不存在的節(jié)點,從而為鑒別器提供更好的負樣本進行訓練;同時為節(jié)點間的邊引入了權重,使得邊的權重對模型的訓練也能產生影響。
3)在DBLP、Yelp和AMiner的真實數(shù)據(jù)集上應用HNRL-GAN模型和HNRL-GAN++模型,并與其他模型進行比較以展現(xiàn)HNRL-GAN++模型的優(yōu)良性能。
自異質信息網絡被提出以來,異質信息網絡的表征學習開始迅速發(fā)展。關于異質信息網絡的表征學習模型可分為3類:基于隨機游走的模型、基于網絡嵌入的模型和基于機器學習的模型。
文獻[7]基于隨機游走方法提出了在異質信息網絡中針對給定元路徑的表征學習模型--向量元路徑(metapath to vector,Metapath2vec)模型。在此基礎上,作者將不同類型的節(jié)點嵌入不同空間以深化不同類型的節(jié)點間差異,進一步提出了改進后的Metapath2vec++模型。
文獻[8]基于網絡嵌入方法提出相似性搜索模型,將信息網絡中稀疏的高維節(jié)點嵌入稠密的低維空間進行相似度搜索。將一組給定的元路徑集合作為輸入使元路徑實例的概率最大化,實現(xiàn)異質信息網絡的表征學習。
耦合異質網絡的聯(lián)合嵌入(embedding of embedding,EOE)模型[9]則將異質信息網絡拆分成兩個同質信息網絡,在兩個同質信息網絡內分別優(yōu)化節(jié)點的低維嵌入,使得同一網絡內相互連接的節(jié)點有相近的embedding。給跨網絡的、有邊連接的節(jié)點對引入一個矩陣,使得該節(jié)點對也有相近的embedding。反之,若節(jié)點對不存在邊,則有較遠的embedding。借鑒上述思路,EOE模型實現(xiàn)了異質信息網絡的表征學習。
在機器學習方面,文獻[10]在異質信息網絡表征學習中引入了隱含層,提出了異質信息網絡向量映射(heterogeneous information network to vector,HIN2Vec)模型。將輸入層節(jié)點對的one-hot向量X,Y及任意關系的one-hot向量R轉變?yōu)殡[含層向量W′X x、W′Y y、W′Rr、其中WX、WY、WR為|V|×d的矩陣;再以隱含層向量的元素乘積之和作為sigmoid函數(shù)的輸入,從而將節(jié)點間的多分類問題轉變?yōu)槎诸悊栴},大大減少了模型的計算量。
符號異質信息網絡嵌入[11](signed heterogeneous information network embedding,SHINE)模型用多層自動深度編碼機將異質信息網絡中的高維稀疏節(jié)點映射到低維稠密的特征空間中,先獲得情感網絡嵌入、社會網絡嵌入和資料網絡嵌入,再將低維嵌入信息進行融合,獲得了異質信息網絡的嵌入式表示。
定義1 信息網絡
信息網絡是有向圖Ggraph={V,Eedge},其中V為節(jié)點集合,Eedge為邊集合。在信息網絡中,有節(jié)點類型映射函數(shù)φ:V→A和邊類型映射函數(shù)ψ:Eedge→R。若信息網絡中節(jié)點類型數(shù)目|A|=1或邊類型數(shù)目|R|=1,則該信息網絡可稱為同質信息網絡;若|A|>1或|R|>1,則該信息網絡可稱為異質信息網絡。
定義2 網絡模式
網絡模式是由信息網絡的節(jié)點類型集合A和邊類型集合R構成的有向圖,可表示為有向圖Tgraph={A,R},它是信息網絡Ggraph={V,Eedge}的一個元模板。每個節(jié)點v∈V屬于一個特定節(jié)點類型Ai,即φ(v)∈Ai;每條邊e∈Eedge屬于一個特定邊類型Rj,即ψ(e)∈Rj。
定義3 信息網絡表征學習
給定信息網絡G={V,Eedge},對網絡中節(jié)點進行表征學習可以將網絡中高維節(jié)點v∈V映射到低維空間Rd中,即有映射函數(shù)V→Rd和vc→ec,其中d代表R的維度且滿足d?|V|。
定義4 節(jié)點對權值矩陣
給定異質信息網絡,對其網絡模式的關系進行加權而形成節(jié)點對權值矩陣。例如在圖1的網絡模式中,將(organizer,conference)的關系權值設為2,將(reporter,conference)關系權值設為1,則可以獲得節(jié)點對權值矩陣。
圖1 具有多關系的異質信息網絡Figure 1 Heterogeneous information network with multiple relationships
定義5 關聯(lián)度
對于給定的節(jié)點對權值矩陣來說,節(jié)點對(vil,vjk)之間的關聯(lián)度可定義為
式中:節(jié)點v屬于其對應的節(jié)點類型,即φ(vil)∈Ai,φ(vjk)∈Aj。w(vil,vjk)表示節(jié)點對(vil,vjk)在節(jié)點對權值矩陣中對應的權值,∑表示節(jié)點vil的所有相鄰節(jié)點的權值之和。
定義6 生成器
生成器G(·|vc,·,θG)根據(jù)信息網絡中的節(jié)點和邊來擬合信息網絡中潛在的真實分布Ptrue,其中θG為鑒別器的參數(shù)。
定義7 鑒別器
鑒別器D(·|vc,·,θD)判斷給定的樣本是否為正樣本,其輸出為一個標量。若鑒別器認為此樣本為正樣本,則輸出的標量應當接近1;反之則應當接近0。
本文借鑒生成對抗信息網絡的思路,提出了針對異質信息網絡表征學習的最大最小博弈函數(shù)
式中:E1=Evt~Ptrue(vc,rt)logD(vt|vc,rt,θD),E2=Ern~Ptrue(vc,vt)log(1?D(rn|vc,vt,θD)),E3=Erg~PG(vc,vt,θG)log(1?DθD(rg|vc,vt,θD))。
在式(2)的基礎上,對函數(shù)V(G,D)交替使用最大最小值博弈理論,可以得到生成器G和鑒別器D的最佳參數(shù)。在每次迭代中,首先從真實網絡提取真實存在指定關系rt的節(jié)點對(vt,vc)及關系rt作為正樣本;若節(jié)點對(vt,vc)不存在另一指定關系rn,則選取(vt,vc)與rn作為負樣本,將節(jié)點對(vt,vc)生成器G生成的關系rg也作為負樣本。然后用策略梯度更新鑒別器D的參數(shù)θD,并在鑒別器D的指導下以策略梯度更新生成器G的參數(shù)θG。重復上述步驟,通過生成器G和鑒別器D之間的競爭促進兩者的優(yōu)化,直至鑒別器D無法區(qū)分生成器G生成的負樣本與真實網絡中存在的正樣本。例如在圖2中,鑒別器D將真實網絡中存在的(a2,p2)及作者關系作為正樣本,將(a2,p2)與讀者關系作為負樣本,將(a2,p2)及生成器G生成的關系rg也作為負樣本來更新自身參數(shù)θD。接著生成器G在鑒別器D的指導下最小化V(G,D)函數(shù),從而實現(xiàn)生成器參數(shù)θG的更新。多次重復上述步驟,使迭代后的模型能夠提取出異質信息網絡的表征。本文將此模型命名為HNRL-GAN。
圖2 由文獻數(shù)據(jù)構建的異質信息網絡Figure 2 Heterogeneous information network constructed from literature data
針對HNRL-GAN模型的深入研究,本文進一步提出了以下3個問題:
1)對于生成器G來說,HNRL-GAN每次更新都需要涉及網絡中所有存在的節(jié)點。在小型異質信息網絡中,更新生成器G的參數(shù)θG所需計算時間不多;但在大型異質信息網絡中,生成器每更新一次θG所需的計算代價過于高昂,計算效率過低。
2)HNRL-GAN的生成器G受限于異質信息網絡中被觀測到的節(jié)點,無法真正地擬合信息網絡中潛在的真實分布以生成更好的負樣本。例如在圖2中,若真實網絡中有潛在的的、與p3相似、與a4具有邊類型為作者的節(jié)點p4,那么生成器G通過學習生成p4這一更為真實的負樣本即可增強生成器G和鑒別器D的性能[12-16]。
3)HNRL-GAN未引入節(jié)點間的關聯(lián)度。節(jié)點間的關聯(lián)度可以增強模型在聚類和分類方面的性能,因此下文探討了如何利用異質信息網絡中的樞紐節(jié)點以增強表征學習模型在聚類和分類方面的性能。
實驗數(shù)據(jù)集如表1所示。
表1 實驗數(shù)據(jù)集Table 1 Experimental dataset
本文的HNRL-GAN++模型將Embedding的維度設置為64,采用均勻分布U(?1,1)初始化節(jié)點和關系的Embedding矩陣。生成器G的線性變換次數(shù)設置為2;模型的batch size設置為64;正則化系數(shù)設置為10?4;Adam優(yōu)化器的學習率在生成器G上設置為0.00015,在鑒別器D上設置為0.00010;epoch設置為30;每次迭代中生成器G和鑒別器D的訓練次數(shù)nG和nD設置為15和5。
為了驗證HNRL-GAN++模型的有效性,主要考慮與以下6種經典模型進行對比。
1)Deepwalk
在信息網絡中進行截斷的隨機游走以生成一個網絡的社會表示。
2)LINE
利用信息網絡中的一階鄰近性和二階鄰近性。
3)GraphGAN
將GAN模型中的最大最小博弈應用于信息網絡。
4)HIN2Vec
利用神經網絡模型學習節(jié)點及元路徑的潛在表征,獲得異質信息網絡的語義信息。
5)Metapath2vec
基于元路徑進行隨機游走,以便在低維空間中保存異質信息網絡的語義信息。
6)HeGAN
利用生成對抗學習網絡保存高維空間中的異質信息網絡語義信息模型。
根據(jù)K-Means算法進行節(jié)點聚類,并使用歸一化互信息(normalized mutual information,NMI)評估節(jié)點聚類的結果。
使用邏輯回歸分類器進行節(jié)點分類,將80%的節(jié)點作為訓練集,其余20%的節(jié)點作為測試集。對于多分類任務,以Macro-F1和Micro-F1作為評比指標。
在基于Yelp公共數(shù)據(jù)庫的實驗中,HNRL-GAN和HNRL-GAN++模型生成器與鑒別器的損失值曲線如圖3所示。
圖3 HNRL-GAN和HNRL-GAN++模型生成器與鑒別器的損失值曲線Figure 3 Loss curve of generators and discriminators in HNRL-GAN and HNRL-GAN++models
由圖3可以得到以下結論:
HNRL-GAN++模型生成器G的損失值能保持一個較低的水平,說明該模型的魯棒性良好。鑒別器D的損失值也呈現(xiàn)一個下降的趨勢。HNRL-GAN++模型未出現(xiàn)模式崩塌的問題,因此該模型較為穩(wěn)定。
基于NMI,得到信息網絡表征學習各模型的節(jié)點聚類結果如表2所示。
由表2可以得出以下結論:
表2 信息網絡表征學習各模型的節(jié)點聚類Table 2 Node clustering of information network representation learning models
1)HNRL-GAN++模型在基于DBLP、Yelp和Aminer公共數(shù)據(jù)庫的節(jié)點聚類實驗中,表現(xiàn)出了比其他信息網絡表征學習模型更好的性能,這說明了HNRL-GAN++模型在異質信息網絡表征學習中的有效性。
2)Metapath2vec在節(jié)點聚類的實驗中相較于其他模型表現(xiàn)出了不俗的性能,說明了信息網絡節(jié)點嵌入在異質信息網絡表征學習和語義信息保留方面的潛力。
3)相較于HNRL-GAN模型,改善后的HNRL-GAN++模型具有更好的性能,可以使模型擬合真實分布,利用真實網絡中潛在的、未被觀測到的節(jié)點生成更好的負樣本以增強在異質信息網絡表征學習方面的性能。
在基于Yelp公共數(shù)據(jù)庫的實驗中,HNRL-GAN與HNRL-GAN++模型的NMI曲線如圖4所示。
圖4 HNRL-GAN與HNRL-GAN++模型生成器與鑒別器的NMI曲線Figure 4 NMI curves of generators and discriminators in HNRL-GAN and HNRL-GAN++models
由圖4可以看出,HNRL-GAN模型存在模式崩潰問題。即對于任意輸入,生成器G都傾向于輸出有限的特定負樣本給鑒別器D有限的特定負樣本,以致無法增強模型的性能。因此,HNRL-GAN模型的性能隨著迭代次數(shù)的增加反而下降了,而HNRL-GAN++模型在對抗模式崩潰方面的表現(xiàn)更為優(yōu)秀。
在節(jié)點分類任務中,得到的Micro-F1、Macro-F1測試結果如表3所示。
表3 信息網絡表征學習各模型的節(jié)點分類Table 3 Node classif ication of each model of information network representation learning
從表3中可以看出,HNRL-GAN++模型在DBLP、Yelp和Amnier數(shù)據(jù)集中的總體表現(xiàn)最優(yōu)。
在基于Yelp公共數(shù)據(jù)庫的實驗中,HNRL-GAN與HNRL-GAN++模型的Micro-F1曲線如圖5所示。
圖5 HNRL-GAN與HNRL-GAN++模型生成器與鑒別器的Micro-F1曲線Figure 5 Micro-F1 curves of generators and discriminators in HNRL-GAN and HNRLGAN++models
本文首先提出了基于生成對抗網絡的異質信息網絡表征學習模型,即HNRL-GAN和HNRL-GAN++模型,然后通過實驗證明了HNRL-GAN和HNRL-GAN++模型的有效性??偟膩碚f,本文提出的模型使用了網絡嵌入,實現(xiàn)了異質信息網絡的語義信息保留和結構信息保留,并根據(jù)生成對抗網絡的最大最小博弈理論對其進行增強。