范 偉 劉 勇
(黑龍江大學計算機科學技術學院 哈爾濱 150080)
隨著社交網絡應用的日益普及,社交網絡分析已經成為數據挖掘領域的一個主要研究方向.目前,許多研究人員正通過對歷史信息傳播數據進行建模來探索信息傳播機制,預測信息傳播過程.信息傳播過程預測在謠言檢測[1]、流行病學[2]、病毒式營銷[3]、媒體廣告[4]、新聞和模因[5]等領域具有廣泛的應用.
傳統的信息傳播預測方法試圖從信息傳播數據中學習信息傳播模型.但這些方法通常依賴于網絡結構、時間信息[6]、用戶特征[7]、信息內容[8]和用戶間的交互[9]等顯式特征來構建傳播模型.雖然這些特征工程方法能提高預測的性能,但它需要大量的人力和廣泛的領域知識,缺乏泛化性,在不同的社交網絡平臺中效果不穩(wěn)定.
近年來,隨著深度學習的快速發(fā)展,許多工作都試圖用神經網絡來解決信息傳播預測問題,并取得了良好的效果[10-11].現有大部分研究或者利用信息傳播序列,或者利用社交網絡進行信息傳播預測,傳播序列能反映信息傳播趨勢.基于這個觀點,許多研究(例如DeepDiffuse[10],Topo-LSTM[11],CYAN-RNN[12]和SNIDSA[13])學習信息傳播序列的鏈式結構,并使用RNN對生成的有向無環(huán)圖的傳播結構進行建模.社交關系能加速信息傳播過程,因為人們普遍會和他們的朋友有著一致的興趣愛好,并且人們會有更高的概率轉發(fā)或評論他們朋友所發(fā)布的消息.基于這個觀點,許多研究[7,14-15]利用用戶在社交網絡中的相互影響來預測信息傳播過程.
然而,現有工作仍存在3個方面問題:1)現有的研究要么僅利用信息傳播序列,要么僅利用社交網絡,很少同時利用這2個重要因素,導致難以捕獲傳播過程的復雜性;2)現有研究通常使用RNN或其變體來進行信息傳播預測,但它們捕捉信息相關性的能力不強,導致預測準確率不高;3)現有研究通常將時序特征和結構特征進行簡單拼接,難以對信息傳播過程中的時空特征進行有效建模.
為解決上述問題,我們提出了一種基于時空Transformer(spatial-temporal transformer, STT)的社交網絡信息傳播預測模型.該模型能將信息的社交網絡圖和動態(tài)傳播圖結合起來進行信息傳播預測.對于問題1,我們構建了一個由社交網絡圖和動態(tài)傳播圖組成的異構圖,然后使用GCN來獲取用戶的結構特征;對于問題2,我們使用改善的Trans-former[16]模型來進行序列任務預測,來改善捕捉信息相關性能力;對于問題3,我們將時序特征作為Transformer的Query集,將結構特征作為Key和Value集來有效融合時序特征和結構特征,從而捕獲用戶的時空特征.
此外,在實驗中我們發(fā)現Transformer中原有的殘差網絡融合的效果并不理想,所以我們提出了一個新的殘差融合方法,進一步融合用戶的時序特征和結構特征,改善融合效果.
本文工作的主要貢獻有4個方面:
1) 提出了一種新的基于時空Transformer的神經網絡(STT)用于社交信息傳播預測;
2) 使用由社交圖和傳播圖組成的異構圖來聯合建模社交關系和信息傳播關系;
3) 將Transformer模型應用到信息傳播預測領域,并提出了一種新的時空特征融合方式,用Transformer模型的Query,Key和Value集將時序特征和結構特征進行融合,同時提出了一個新的殘差融合方法來進一步改善融合效果;
4) 在3個真實數據集上的實驗結果表明:所提出的STT模型能顯著改善預測效果.
可以下載本文的源碼(1)https://github.com/DHGPNTM/STT.
本節(jié)主要從2個方面介紹相關工作,1)信息傳播預測方法;2)Transformer及其應用.
1.1.1 基于傳播序列的方法
基于傳播序列的方法根據觀察到的傳播序列來解釋用戶之間的影響.早期的一些工作假設在信息傳播過程中存在著一個先驗傳播模型,如獨立級聯模型[17]或線性閾值模型[18].雖然這些模型[17-19]刻畫了用戶之間的隱式影響,但這些方法的有效性依賴于先驗信息傳播模型的假設,而且這些假設很難驗證.
隨著神經網絡的發(fā)展,一些研究[20-22]應用深度學習從信息傳播序列中自動學習底層傳播序列的表示來進行傳播預測.例如,Topo-LSTM[11]構建了由傳播序列組成的動態(tài)有向無環(huán)圖(DAG),并使用基于拓撲感知的節(jié)點嵌入擴展了LSTM機制以學習有向無環(huán)圖的結構.CYAN-RNN[12]將傳播序列建模為樹型結構,并采用了編碼器-解碼器框架來捕獲傳播序列中的交叉依賴.DeepDiffuse[10]為了能利用用戶轉發(fā)信息的時間戳,采用了注意力機制和嵌入方法,根據之前觀察到的傳播序列來預測何時以及何人將轉發(fā)信息.
大多數基于傳播序列的方法都將傳播預測問題視為一個序列預測任務,其目的是按順序預測傳播用戶,并根據歷史傳播序列來研究如何影響未來的傳播趨勢.這些方法在對傳播過程建模時往往忽略了用戶之間的社交關系及其相互作用.此外,這些方法也忽略了信息傳播的全局影響.因此,如果只考慮傳播序列很難準確地預測信息傳播過程.
1.1.2 基于社交網絡的方法
人們和他們的朋友會有一些共同的興趣,如果他們的朋友轉發(fā)了一條推特或者微博,那么他們也會有很大的概率去轉發(fā)它.基于這種假設,最近的一些研究[14,23-24]利用社交網絡解釋人際關系對傳播預測的影響并且用來提高信息傳播預測的效果.例如,文獻[7]嘗試利用用戶社會角色之間的相互作用及其對信息傳播的影響,提出了一種基于角色感知的信息傳播模型.該模型將社會角色識別和傳播序列預測結合到一個框架中.文獻[13]利用社交網絡中鄰居之間的結構特征和具有順序性質的局部結構模式,并采用基于循環(huán)神經網絡(recurrent neural network, RNN)的框架對傳播序列進行建模.文獻[15]提出多尺度信息傳播預測模型.在微觀視角下他們使用RNN和強化學習共同預測下一個轉發(fā)信息的用戶,在宏觀視角下使用基于多任務的學習框架在傳播序列中評估轉發(fā)信息用戶的總數量大小.
然而,大多數這些方法都過度關注于當前的信息傳播序列,忽略了其他信息的傳播序列對當前信息傳播的影響,這不能捕獲全局信息的轉發(fā)關系,所以它們不足以模擬信息傳播過程中的復雜關系.與只基于社交網絡的模型不同,我們通過構建由社交網絡圖和動態(tài)傳播圖來共同學習信息傳播的全局結構,可以顯著提高模型預測的準確性.
在Transformer出現之前,seq2seq任務主要做法是使用RNN及其變體或者CNN構成的編碼器解碼器框架.但RNN具有無法并行運算和計算復雜度高等缺點,因此自Transformer模型提出以來,很多NLP問題嘗試使用Transformer來解決.文獻[25]提出了Transformer-XL,通過遞歸機制和一種新型相對位置編碼方案來捕捉更長距離的上下文依賴,解決上下文碎片問題.文獻[26]提出了一個預訓練的語言表征模型,不再采用傳統的單向語言模型進行預訓練,而是生成深度的雙向語言表征.Transformer在計算機視覺領域中也有很多的應用.例如:文獻[27]盡可能使用原始Transformer結構,用self-attention機制完全替代CNN,對于輸入圖像進行切片,每個切片之間沒有重疊,將切片結果作為Transformer的序列輸入.
目前在信息傳播預測任務中,主要使用RNN及其變體LSTM[28]和GRU[29].RNN及其變體在訓練時必須是對數據進行順序處理即逐個用戶進行處理,因此無法并行訓練.此外RNN及其變體對用戶的編碼僅在下一個時間步被保留,這意味著當前用戶的編碼僅強烈影響下一個用戶的表示,在幾個時間步長之后其影響很快消失. 而Transformer模型可以避免遞歸,允許并行計算減少訓練時間,并減少由于長期依賴性而導致的性能下降,而且相對于RNN及變體,其結構靈活性和通用性更強,可以捕捉信息相關性的范圍更廣.此外,在NLP領域中Transformer對句子的處理是非順序的,句子是整體處理的,而不是逐字處理.Transformer不依賴于過去的隱藏狀態(tài)來捕獲對先前單詞的依賴性,而是整體上處理一個句子,所以不存在丟失或忘記過去信息的風險.基于以上諸多優(yōu)勢,本文嘗試將Transformer應用到信息傳播預測任務中.
本節(jié)我們將要介紹用到的符號,并闡述要解決的信息傳播預測任務.
定義1.靜態(tài)社交圖.靜態(tài)社交圖定義為有向圖G=(V,E),其中V和E分別表示用戶集和邊集.如果用戶u關注了用戶v,那么eu,v=1.
定義2.信息傳播序列.信息i的傳播序列被表示為一系列的帶有時間戳的轉發(fā)行為,即xi={(vi,1,ti,1),(vi,2,ti,2),…,(vi,Nc,ti,Nc)},其中(vi,j,ti,j)元組表示用戶vi,j在第i個信息傳播過程中在時間ti,j轉發(fā)信息,Nc表示信息被轉發(fā)的最大數量.轉發(fā)信息的用戶通常按照時間進行排序,因此ti,j-1 定義3.動態(tài)傳播圖.信息i的有向動態(tài)傳播圖表示為Gxi=(Vxi,Exi),其中Vxi?V表示轉發(fā)或評論信息i的所有用戶.如果用戶u轉發(fā)或評論了用戶v發(fā)布的信息,則ev,u=1.給定一個信息級聯集合X={x1,x2,…,xM},對應的動態(tài)傳播圖集合表示為GX={Gx1,Gx2,…,GxM}. 本文研究問題定義:給定信息i的傳播序列xi={(vi,1,ti,1),(vi,2,ti,2),…,(vi,Nc,ti,Nc)},預測下一個轉發(fā)信息的用戶vi,Nc+1.具體來說,根據觀測到的歷史信息傳播序列集合,學習一個信息傳播預測模型Ψ.當遇到一個新的傳播序列xi={(vi,1,ti,1),(vi,2,ti,2),…,(vi,Nc,ti,Nc)}時,使用模型Ψ計算下一時刻每個用戶u轉發(fā)信息的條件概率P(u|{(vi,1,ti,1),(vi,2,ti,2),…,(vi,Nc,ti,Nc)}). 本節(jié)我們詳細描述所提出的STT模型.該模型的框架如圖1所示.首先,我們構造了一個由社交圖和動態(tài)傳播圖構成的異構圖;然后使用GCN從異構圖上學習用戶的結構特征;再將用戶的時序特征和結構特征分別添加位置嵌入,把添加位置嵌入后的時序特征作為Transformer的Query集,把添加位置嵌入后的結構特征分別作為Transformer的Key和Value集;最后用Transformer預測下一個轉發(fā)信息的用戶. Fig. 1 The structure of spatial-temporal Transformer neural network圖1 時空Transformer神經網絡的結構 實驗中我們發(fā)現Transformer原有的殘差網絡融合效果并不理想,所以提出了一個新的殘差融合方式,能夠有效融合用戶的時序特征和結構特征. 異構圖的構建過程如圖2所示.我們利用用戶之間的社交關系來構建一個用戶社交圖G=(V,E),這是一個有向無權圖.同時使用信息傳播級聯集合X={x1,x2,…,xM}對應的動態(tài)傳播圖集合GX={Gx1,Gx2,…,GxM},這是一個有向圖集合.我們將動態(tài)異構圖定義為GH=(V,EH),其中EH=E∪EX,EX為動態(tài)傳播圖集合GX的邊集. 在構建動態(tài)異構圖GH的過程中,不同的動態(tài)傳播圖之間可能存在著相同的邊.例如:在圖2中,在消息1的動態(tài)傳播圖中有邊v2→v3,在消息M的動態(tài)傳播圖中也有邊v2→v3.在異構圖中,我們需要為每條邊分配相應的權重.我們用傳播圖中某條邊出現的次數作為異構圖中該邊的權重.例如:在圖2的異構圖中,邊v2→v3的權重為2. Fig. 2 The construction process of dynamic heterogeneous graph圖2 動態(tài)異構圖的構建過程 如圖1右下角所示,異構圖有2種類型的邊關系:關聯關系和轉發(fā)關系.我們利用用戶節(jié)點和2種邊關系構造鄰接矩陣D∈|V|×|V|,|V|表示用戶的數量.我們使用圖卷積網絡(GCN)從異構圖中學習用戶節(jié)點的表示.GCN對鄰居節(jié)點信息聚合方式定義為 H(l+1)=σ(DH(l)W(l)), (1) 其中,H(0)∈|V|×d是通過正態(tài)分布隨機初始化的用戶嵌入,W(l)∈d×d是可學習的參數,d是用戶嵌入的維度,l是GCN的層數,σ(·)是一個激活函數. 設圖卷積網絡的層數為L,則使用GCN學習到的節(jié)點表示HL隱含包括了節(jié)點的結構特征. 通過異構圖神經網絡學習后,我們獲得了異構圖中所有節(jié)點的結構特征表示HL.因此我們可以利用HL直接獲取消息i中每個用戶的結構特征Hi={hi,1,hi,2,…,hi,Nc}∈NC×d,其中Nc表示所有消息中被轉發(fā)的最大數量,hi,j∈d是第i個消息中第j個用戶的結構特征表示.如果某個消息轉發(fā)數量小于Nc,則用零向量補齊. 值得注意的是,在不同消息中出現的相同用戶,他們的結構特征也相同.例如:如果某個用戶是第2個轉發(fā)消息1的用戶,同時也是第3個轉發(fā)消息2的用戶,那么該用戶在不同消息中的結構特征表示h1,2和h2,3也是相同的.因此,不相同的結構特征數量最多是全體用戶數.通過這種方式,我們獲取到的結構特征是用戶全局的結構特征,可以捕獲用戶全局的轉發(fā)行為. 因為用戶轉發(fā)或評論消息的時間戳對預測效果也起著至關重要的作用,所以我們也需要獲取用戶的時序特征.為了方便表示用戶的時序特征,我們把整個時間分成n個時間間隔,把每個用戶轉發(fā)消息的時間戳映射到這n個時間間隔中的一個,就可以得到消息i中每個用戶的時序特征Ti={ti,1,ti,2,…,ti,Nc}∈NC×d,其中ti,j∈d表示第i個消息中第j個用戶的時序特征表示. 值得注意的是,如果兩用戶之間的轉發(fā)或評論時間很接近,那么這2個用戶很可能被劃分到同一個時間間隔中,則他們的時序特征也是相同的.因此,在用戶時序特征T中只有n個不相同的時序特征. 因為相對位置信息可以反映用戶轉發(fā)或評論消息的先后順序, 所以在得到用戶的時序特征和結構特征表示之后,我們使用位置嵌入分別與時序特征和結構特征進行結合.具體地來,我們?yōu)橄⒌拿總€位置j定義一個位置嵌入pj,pj∈d是可學習的參數, 用來表示相對位置信息.結構特征hij添加位置嵌入后變?yōu)闀r序特征tij添加位置嵌入后變?yōu)樵O為消息i中用戶結構特征添加位置嵌入后所得到的用戶結構特征,為消息i中用戶時序特征添加位置嵌入后所得到的時序特征.顯然,我們有Nc×d. Transformer 中的decoder層如圖3所示.我們將N個decoder層進行疊加,來進行最后的序列任務預測,其中帶有掩碼的多頭注意力層定義為 Fig. 3 Transformer decoder layer圖3 Transformer中的decoder層 (2) Ai=[ai,1:ai,2:…:ai,Head]WQ, (3) 在經過多頭注意力層之后,會使用殘差網絡來強化用戶特征,但是原有的殘差網絡連接在實驗中效果并不理想,因為它只是將2個特征進行簡單的相加.所以我們提出了一個新的特征融合方式來代替原有的殘差網絡連接,能夠有選擇性地集成用戶的時序特征和結構特征,同時摒棄掉冗余的信息.然后我們將時空特征跟時序特征進行殘差融合,再進入層歸一化,緊接著進入2層全連接網絡,之后再進行殘差連接跟層歸一化,詳細過程定義為 (4) (5) Outputi=LayerNorm(Fusion(FFNi,Fi)), (6) 其中,W1,W2∈Nc×d都是可學習的權重參數,Fi,FFNi,Outputi∈Nc×d,LayerNorm(·)是層歸一化函數,Relu(·)是一個激活函數,Fusion(·)函數是我們新提出的殘差融合方式,能夠有選擇性地集成用戶的時序特征和結構特征,具體定義為 Fusion(f1,f2)=g⊙f1+(1-g)⊙f2, (7) (8) 在獲得消息i中每個用戶最后的特征表示Outputi∈Nc×d之后,使用2層全連接網絡和Softmax函數來計算消息i中每個節(jié)點被激活的概率 (9) 我們使用交叉熵損失函數作為消息i的損失函數,具體定義為 最后,使用所有消息的損失函數作為模型總的損失函數,具體定義為 根據文獻[13,15]的研究,我們在3個公共可用的數據集上進行了實驗對提出的模型進行評估.詳細的統計數據如表1所示.#Users表示社交網絡中用戶數量,#Links表示社交網絡中用戶之間關聯關系的數量,#Cascades表示數據集中信息傳播序列的數量,Avg.Length表示信息傳播序列的平均長度. Table 1 Datasets Statistics表1 實驗數據描述 1) Twitter數據集[30]記錄了2010年10月期間包含URL的所有推文,每個URL都被解釋為一個在用戶之間傳播的信息項. 2) Douban數據集[31]是從豆瓣的社交網站上收集的,用戶可以更新他們的圖書閱讀狀態(tài),并可以關注其他用戶的狀態(tài).每本書或電影都被認為是一個信息項,如果2個用戶參與同一討論超過20次,他們將被視為朋友. 3) Memetracker數據集[5]是從在線網站上收集的數百萬篇新聞和博客文章,并追蹤最常見的引用和短語即模因,以分析模因在人們之間的遷移.每個模因被視為一個信息項,每個網站的URL被視為一個用戶.值得注意的是,這個數據集沒有潛在的社交圖. 按照之前的研究[13,15],我們隨機抽取80%的數據進行訓練,10%用于驗證,剩余10%用于測試. 為了驗證提出的STT效果,我們與最新的信息傳播預測深度學習方法進行比較,具體方法為: 1) Topo-LSTM[11].將信息傳播序列建模為動態(tài)有向無環(huán)圖,并擴展標準的LSTM模型,學習具有拓撲感知的用戶嵌入進行信息傳播預測. 2) DeepDiffuse[10].使用嵌入技術和注意力機制處理轉發(fā)時間戳信息.該模型可以根據之前觀察到的級聯序列來預測社交網絡中何時及何人將轉發(fā)信息. 3) NDM[22].建立一個基于自注意力機制和卷積神經網絡的微觀級聯模型,可以緩解長期依賴問題. 4) SNIDSA[13].是一個對信息傳播具有結構關注的序列神經網絡.采用遞歸神經網絡框架對序列信息進行建模,結合注意力機制來捕獲用戶之間的結構依賴關系,并開發(fā)一種門控機制來整合序列和結構信息. 5) FOREST[15].是一種基于強化學習的多尺度信息傳播預測模型.該模型將宏觀傳播范圍信息納入了基于RNN的微觀傳播模型中,它是最新的序列模型并取得了較好的實驗效果. 6) DyHGCN[32].利用動態(tài)異構圖卷積神經網絡和自注意力機制來獲得用戶表示.據我們所知,該模型目前在信息傳播預測方面取得了最好的實驗效果. 根據觀察到的信息傳播序列來評估下一個轉發(fā)用戶,這個預測任務通常被認為是一個檢索問題,在所有用戶的輸出概率中,下一個實際轉發(fā)信息的用戶將得到更高的概率.我們利用2個廣泛使用的排名指標Map@k和Hits@k進行評估. 對比方法的超參數與原論文中的設置相同.我們的模型是由PyTorch實現的,這些參數由Adam優(yōu)化器進行更新,學習速率設置為1E-3,批處理大小batch=16,用戶的各個特征維度大小d=64,Transfomer中的decoder層數N=2,時間間隔n=8,最后將Transfomer中多頭注意力的頭數Head=8. 我們在3個公共數據集上比較了STT模型與基線模型,實驗結果如表2~4所示.我們提出的STT模型在3個數據集上的指標Map@k和Hits@k均優(yōu)于所有基線模型.值得注意的是粗體字體表示最高數值,由于Memetracker數據集中缺乏社交關系,因此我們在Memetracker數據集中沒有給出Topo-LSTM和SNIDSA模型的實現結果. Table 3 Result of Douban Dataset Information Diffusion Prediction表3 Douban數據集信息傳播預測結果 Table 4 Result of Memetracker Dataset Information Diffusion Prediction表4 Memetracker數據信息集傳播預測結果 STT模型與Topo-LSTM,DeepDiffuse和NDM相比,在Map@k和Hits@k指標上取得了明顯的優(yōu)勢.這些基線方法只將傳播路徑建模為一個序列,它們不使用社交網絡,然而社交網絡可以反映用戶間的關聯關系,促進用戶間的信息流動.實驗結果表明,用戶間的社交網絡對信息傳播預測有著重要的影響. STT模型與SNIDSA和FOREST相比,在Map@k和Hits@k方面也有著較大的改進.雖然SNIDSA和FOREST利用用戶之間的社交關系來預測信息的傳播,但它們只將傳播路徑視為一個序列,而沒有考慮傳播路徑中所包含的結構信息.因此SNIDSA和FOREST不能充分建模信息傳播過程導致性能較差.STT模型不僅利用社交網絡信息,而且還利用傳播圖來建模信息傳播行為,顯著提高了預測性能. STT模型與DyHGCN模型相比也有明顯的改善.為了量化改善的程度,我們計算了STT模型相對于DyHGCN模型改善的百分比,如表5所示.從表5可以看出,STT模型在Douban數據集的Map@k指標上均提高超過20%,由此可看出STT模型的有效性.雖然DyHGCN同時使用社交網絡圖和傳播圖來建模傳播行為,但它沒有有效地利用用戶的時序特征和結構特征.因此DyHGCN將在一定程度上降低信息傳播預測的性能.在STT模型中,我們使用Transformer模型把用戶時序特征和結構特征進行有效結合來獲取用戶時空特征,同時我們使用新提出的殘差融合方式來替代Transformer中原有的殘差融合方式來進一步改善融合效果.因此STT模型在Map@k和Hits@k方面都優(yōu)于DyHGCN. Table 5 Percentage Increase of STT Model Compared with DyHGCN Model表5 與DyHGCN模型相比STT模型提高的百分比 % 為了研究STT模型中各個組成部分所起的作用,我們對模型的不同組成部分進行了一系列的消融實驗.消融實驗結果如表6和表7所示,我們沒有給出Memetracker數據集的消融實驗,因為這個數據集沒有社交網絡.STT模型及其變體模型定義為: Table 6 Ablation Study on Twitter Dataset表6 在Twitter數據集上的消融實驗 Table 7 Ablation Study on Douban Dataset表7 在Douban數據集上的消融實驗 1) STT-S.這個模型移除掉了社交網絡圖. 2) STT-D.這個模型移除掉了信息傳播圖. 3) STT-H.這個模型移除掉了動態(tài)異構圖,并且隨機初始化用戶的特征表示. 4) STT-T.這個模型移除掉了用戶的時序特征,Transformer中Query集用用戶的結構特征代替. 5) STT-TRM.這個模型移除掉了Transformer,并用循環(huán)神經網絡RNN代替. 6) STT-F.這個模型移除掉了Transformer中新提出的殘差融合方式,用原有的殘差連接方式代替. 從表6和表7可以看出,當移除掉社交網絡圖時,與STT模型相比,實驗效果有所下降.而當移除掉信息傳播圖時,也可以看到相同的現象.實驗結果表明,STT模型中社交關系和轉發(fā)關系對信息傳播預測都是十分重要的. 當移除掉動態(tài)異構圖時,與移除了社交網絡圖或信息傳播圖相比,預測效果進一步降低.實驗結果表明,這2種信息特征可以互補,將它們聯合使用有助于提高預測效果. 當移除掉用戶的時序特征時,與STT模型相比.實驗效果有很大程度的下降.實驗結果表明,時序特征對信息傳播預測起著至關重要的作用.將時序特征和結構特征進行有效結合,獲取到用戶的時空特征對信息傳播預測有著積極的作用. 當移除掉Transformer模型,并用循環(huán)神經網絡RNN代替時,與STT模型相比,實驗效果有很大程度的下降,特別是在Twitter數據集上效果下降更為嚴重.實驗結果表明,Transformer模型應用到信息傳播預測領域效果非常顯著,這說明Transformer模型內部的多頭注意力可以大大提升實驗效果. 當移除掉Transformer模型中新提出的殘差融合方式,用原有的殘差連接方式代替時,與STT模型相比,實驗效果有很大程度的下降.實驗結果表明,我們提出的新殘差融合方式比原有的殘差連接方式更有效,這是因為新的殘差融合方式采用了融合門的機制,能夠有選擇性地集成用戶的時序特征和結構特征. 我們在Twitter數據集上進行了一些超參數敏感性實驗,研究了超參數的不同選擇對模型性能的影響. 1) 時間間隔n.時間間隔n從{1,2,4,8,16}中選擇,其不同值的選擇在Twitter數據集上的表現如表8所示.隨著時間間隔n的增加,STT模型的效果逐漸提高,但是當時間間隔n>8時Map@k和Hits@k沒有進一步改進反而下降.這是因為隨著時間間隔n的增加,用戶的時序特征表示越準確,而增加到一定數值時, 學習的時序特征過多容易導致過擬合反而會使實驗效果下降.因此,我們在本文中將時間間隔n=8. Table 8 Effect of Time Interval n on Twitter Dataset表8 時間間隔n在Twitter數據集上的影響 2) Transfomer中decoder層數N.層數N從{1,2,3,4,5,6}中選擇,其不同值的選擇在Twitter數據集上的表現如表9所示.從表9中的數據可以看出,當層數N=2時,實驗的效果達到最優(yōu),并且隨著層數N的增加,實驗效果在逐漸下降.這是因為神經網絡的層數增加到一定數值時,學習的信息過多導致過擬合反而會使實驗效果下降.因此,我們在本文中將Transfomer中decoder的層數N=2. Table 9 Effect of the Number of Decoder Layers N on Twitter Dataset表9 decoder的層數N在Twitter數據集上的影響 3) 多頭注意力的頭數Head.頭數Head從{1,2,4,8,16}中選擇,其不同值的選擇在Twitter數據集上的表現如表10所示.從表10中的數據可以看出,隨著多頭注意力的頭數Head增加,實驗效果在逐漸變好,當Head=8時實驗效果達到最優(yōu),當Head繼續(xù)增加時效果有些下降.這是因為隨著多頭注意力的頭數Head增加,學到的不同空間維度信息也就越多,而增加到一定數值時學習的冗余信息過多將會導致實驗效果下降.因此,我們在本文中將多頭注意力的頭數Head=8. Table 10 Effect of the Number of Heads of Multi-head Attention Head on Twitter Dataset表10 多頭注意力的頭數Head在Twitter數據集上的影響 4) 用戶特征表示的維度d.維度d從{16,32,64,128,256}中選擇,其不同值的選擇在Twitter數據集上的表現如表11所示.從表11中的數據可以看出,隨著維度d的增加,實驗效果逐漸變好,但是當維度d超過64時,實驗效果開始下降.這是因為隨著用戶特征表示的維度d增加,用戶特征所蘊含的信息也就越多,而增加到一定數值時用戶特征蘊含的冗余信息過多將會導致實驗效果下降.因此,我們在本文中將用戶特征表示的維度d=64. Table 11 Effect of Dimension Size of User Embedding d on Twitter Dataset表11 用戶嵌入維度d在Twitter數據集上的影響 本文研究了信息傳播預測問題,提出了一種基于時空Transformer神經網絡的模型STT來預測傳播過程.在STT模型中,我們通過由社交圖和動態(tài)傳播圖組成的動態(tài)異構圖來學習用戶的結構特征,然后利用Transformer模型將用戶的時序特征和結構特征相結合來學習用戶的時空特征,并設計了一個新的殘差融合方式來進一步改善融合效果.在3個數據集上的實驗結果表明,我們提出的模型STT顯著優(yōu)于基線模型.未來我們準備加入用戶屬性特征和消息文本特征來嘗試改善預測性能.3 基于時空Transformer的社交網絡信息傳播預測模型
3.1 異構圖構建
3.2 異構圖神經網絡
3.3 時空Transformer神經網絡
3.4 信息傳播預測
4 實驗結果及分析
4.1 實驗數據
4.2 對比方法
4.3 評價指標和參數設置
4.4 實驗結果
4.5 消融實驗
4.6 參數分析
5 結 論