張德秀 ,毛 煜 ,張思凡 ,程雨軒 ,史春雨
(1.閩南師范大學(xué)計(jì)算機(jī)學(xué)院,福建漳州 363000;2.阿里巴巴AE技術(shù)部推薦算法團(tuán)隊(duì),浙江杭州 310000)
近年,隨著教育水平的快速提高,論文學(xué)術(shù)資源呈指數(shù)型增長(zhǎng)趨勢(shì),其論文質(zhì)量也參差不齊,如何從這些海量的學(xué)術(shù)資源中獲取高質(zhì)量、有價(jià)值、具有潛在影響力的論文成為新的挑戰(zhàn).對(duì)于科研人員來(lái)說(shuō),優(yōu)質(zhì)的學(xué)習(xí)資源能提供科學(xué)有效的依據(jù),使科研人員盡快掌握科研前沿動(dòng)態(tài)、提高學(xué)習(xí)效率和加速科研成果的研究進(jìn)度[1].
對(duì)于學(xué)術(shù)論文,論文主題越熱門(mén),那么該論文的影響力就越大,引用量也越多.然而隨著逐年論文發(fā)表量的疊加,論文語(yǔ)料庫(kù)也呈爆炸式增長(zhǎng),導(dǎo)致論文主題-詞的概率分布離散化,無(wú)法更精確表達(dá)論文的主題特征.同時(shí)對(duì)于領(lǐng)域?qū)<襾?lái)說(shuō),其論文通常容易被關(guān)注,專(zhuān)家權(quán)威性越高,被關(guān)注度就越高,論文被引的概率也越高.但是同一作者在不同的研究領(lǐng)域權(quán)威性是不同的,當(dāng)作者跨領(lǐng)域發(fā)表論文時(shí),先前的權(quán)威性將不足以衡量其在新領(lǐng)域的權(quán)威.傳統(tǒng)的論文引用量預(yù)測(cè)方法不能細(xì)粒度的對(duì)這種作者特性進(jìn)行整體分析,這給論文特征表示方向的研究帶來(lái)了新的挑戰(zhàn)[2].因此,提出一種能準(zhǔn)確有效預(yù)測(cè)論文引用量的方法具有重要的研究意義.如今,論文主題的不斷動(dòng)態(tài)演變、論文語(yǔ)料庫(kù)的不斷更新、主題流行度以及論文作者權(quán)威性的變動(dòng)、論文的文本特征、作者相關(guān)特征、論文發(fā)表的期刊以及它們之間的關(guān)系網(wǎng)等諸多動(dòng)態(tài)因素都對(duì)論文引用量預(yù)測(cè)造成了很大的困難.針對(duì)目前論文引用預(yù)測(cè)出現(xiàn)的這些問(wèn)題,本文考慮多方面的因素,提出一種基于多任務(wù)學(xué)習(xí)的論文影響力預(yù)測(cè)模型.
對(duì)于論文引用量預(yù)測(cè),目前學(xué)術(shù)界提出了一些相關(guān)方法,例如被引量、H-Index、g-Index、影響因子等,其中被引量是學(xué)術(shù)界廣泛應(yīng)用的一項(xiàng)學(xué)術(shù)影響力評(píng)價(jià)指標(biāo),H-Index、g-Index、影響因子是基于被引量延伸出的學(xué)術(shù)影響力預(yù)測(cè)方法,這些方法計(jì)算簡(jiǎn)單且具有普適性的優(yōu)點(diǎn),但其缺點(diǎn)在于引用數(shù)量可被人為操控,導(dǎo)致無(wú)法通過(guò)引用量準(zhǔn)確客觀的評(píng)估學(xué)術(shù)影響力.并且這些方法只能在學(xué)術(shù)成果發(fā)表一段時(shí)間后的論文引用量,無(wú)法及時(shí)反應(yīng)當(dāng)前的學(xué)術(shù)水平.除了使用基于引用量的方法之外,傳統(tǒng)的方法還有網(wǎng)頁(yè)排序算法HITS和PageRank[3],這兩種方法考慮了學(xué)術(shù)網(wǎng)絡(luò)的不同結(jié)構(gòu),其優(yōu)勢(shì)在于能充分利用學(xué)術(shù)數(shù)據(jù)和關(guān)系,從網(wǎng)絡(luò)連接的角度來(lái)對(duì)論文引用量的預(yù)測(cè).但該排序方法只能對(duì)作者整體權(quán)威性與影響力進(jìn)行了粗粒度的表示,而對(duì)于論文主題資源無(wú)法充分表達(dá),造成特定作者對(duì)于不同主題的權(quán)威性效果欠佳,同時(shí)該方法無(wú)法得出新論文的引用量評(píng)估,存在新論文引用量冷啟動(dòng)問(wèn)題[4].針對(duì)該問(wèn)題,Chakraborty等[5]使用支持向量機(jī)(support vector machine,SVM)來(lái)進(jìn)行論文引用預(yù)測(cè),該方法首先將論文進(jìn)行分類(lèi),然后使用支持向量回歸方法對(duì)引用量呈增加趨勢(shì)的論文引用進(jìn)行預(yù)測(cè).Shen等[6]首先使用論文發(fā)表之后信息作為訓(xùn)練集,最后通過(guò)自增強(qiáng)泊松過(guò)程方法進(jìn)行論文引用量的預(yù)測(cè),利用同樣的訓(xùn)練方法,Xiao等[7]使用自觸發(fā)模型預(yù)測(cè)論文引用量.雖然這些預(yù)測(cè)方法取得了一定的效果,但是局限于傳統(tǒng)方法自身的缺點(diǎn),這些預(yù)測(cè)方法效果并不理想.
隨著機(jī)器學(xué)習(xí)在各個(gè)領(lǐng)域的廣泛使用,研究者們也將該方法運(yùn)用到論文引用量預(yù)測(cè)領(lǐng)域中.Abrishami等[8]根據(jù)論文以往的被引量預(yù)測(cè)未來(lái)的引用量,在預(yù)測(cè)準(zhǔn)確性上取得了顯著的效果.Pobiedina等[9]提出了一種基于頻繁圖模式的引用量預(yù)測(cè)方法,首先構(gòu)建引文網(wǎng)絡(luò),然后在該網(wǎng)絡(luò)中引入頻繁圖模式挖掘方法,提高了引用量預(yù)測(cè)的準(zhǔn)確性.針對(duì)論文、作者以及研究領(lǐng)域引用網(wǎng)絡(luò)中的鏈接預(yù)測(cè)問(wèn)題,Daud 等[10]通過(guò)樸素貝葉斯、決策樹(shù)、支持向量機(jī)對(duì)引文網(wǎng)絡(luò)中的相互鏈接預(yù)測(cè)進(jìn)行分析對(duì)比.Bütün等[11]通過(guò)每位科研人員發(fā)表論文的被引用次數(shù),以預(yù)測(cè)該論文未來(lái)的影響;將科研人員的未來(lái)被引次數(shù)預(yù)測(cè)問(wèn)題形式化為動(dòng)態(tài)引文網(wǎng)絡(luò)的鏈接預(yù)測(cè)問(wèn)題,基于不同的數(shù)量變化趨勢(shì)引入動(dòng)態(tài)指標(biāo),然后使用各節(jié)點(diǎn)的動(dòng)態(tài)臨近度量來(lái)預(yù)測(cè)被引次數(shù).這些研究方法通過(guò)論文被引量和論文本身的特征來(lái)對(duì)論文未來(lái)引用量進(jìn)行預(yù)測(cè),雖取得了一些成效,但并未將論文自身特征和作者與論文關(guān)系、論文與期刊的關(guān)系等進(jìn)行有效融合,使得預(yù)測(cè)模型的性能有待進(jìn)一步的提高.
近年,由于多任務(wù)學(xué)習(xí)方法不僅能有效優(yōu)化多個(gè)目標(biāo)函數(shù),得出最優(yōu)解,且能通過(guò)輔助任務(wù)改善自身任務(wù)的學(xué)習(xí)性能,從而提高模型的泛化能力,使該方法成為新的研究熱點(diǎn).本文為了解決論文建模表示困難的挑戰(zhàn),提出一種基于多任務(wù)學(xué)習(xí)的論文影響力預(yù)測(cè)模型,模型首先預(yù)處理論文相關(guān)數(shù)據(jù),獲取論文的網(wǎng)絡(luò)拓?fù)涮卣骱臀谋咎卣鳎ㄟ^(guò)一個(gè)帶有注意力機(jī)制的圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)和Transformer[12]分別處理這兩種特征.然后,為了使模型能夠獲取對(duì)于被引量更重要的內(nèi)在特征,在預(yù)測(cè)目標(biāo)論文被引量的基礎(chǔ)上,通過(guò)采樣對(duì)比論文樣本,引入額外的論文被引量差值預(yù)測(cè)任務(wù).這兩個(gè)任務(wù)共享部分網(wǎng)絡(luò)架構(gòu),且針對(duì)后者,設(shè)計(jì)了對(duì)應(yīng)的交互網(wǎng)絡(luò)提取中間特征從而完成預(yù)測(cè).
為了讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到更好的論文表示,以精準(zhǔn)地預(yù)測(cè)論文的被引量,提出基于多任務(wù)學(xué)習(xí)的框架.本節(jié)將從以下四個(gè)方面進(jìn)行介紹:模型預(yù)處理、論文被引量預(yù)測(cè)、論文被引量差值預(yù)測(cè)和聯(lián)合學(xué)習(xí).
針對(duì)待預(yù)測(cè)的論文x,首先通過(guò)數(shù)據(jù)預(yù)處理構(gòu)建它的輸入特征,包含網(wǎng)絡(luò)拓?fù)涮卣鱃x和文本特征Dx.其中,文本特征Dx可以通過(guò)論文x相關(guān)文本(標(biāo)題、摘要)的分布式表示方法獲取,例如Doc2vec[13];網(wǎng)絡(luò)拓?fù)涮卣鱃x=(E,R,T)主要描述論文實(shí)體與其他類(lèi)實(shí)體之間的相互關(guān)系,例如論文x發(fā)表于某期刊v,其中E、R、T分別表示實(shí)體集合、關(guān)系集合、邊集合.形式化地,本文定義了如表1所示的實(shí)體類(lèi)型和關(guān)系類(lèi)型.
表1 實(shí)體和關(guān)系類(lèi)型Tab.1 Entity and relationship types
以上的方式將科研論文及相關(guān)的實(shí)體通過(guò)不同類(lèi)型的關(guān)系構(gòu)成一個(gè)異構(gòu)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)G(類(lèi)似于知識(shí)圖譜),每個(gè)論文節(jié)點(diǎn)及其鄰居構(gòu)成其網(wǎng)絡(luò)拓?fù)涮卣?對(duì)于論文x,在進(jìn)行預(yù)測(cè)時(shí),本文在G中抽取以x為中心節(jié)點(diǎn)的k階子圖作為x的網(wǎng)絡(luò)拓?fù)涮卣鱃x.為了在神經(jīng)網(wǎng)絡(luò)的輸入表示中初步具備網(wǎng)絡(luò)拓?fù)涮卣?,本文使用TransR[14]算法首先對(duì)G進(jìn)行預(yù)處理得到每個(gè)節(jié)點(diǎn)及關(guān)系的初始表示.
對(duì)于論文x,為了讓模型能夠獲取到對(duì)預(yù)測(cè)被被引量更全面的潛在表示,本模型引入對(duì)比論文y來(lái)進(jìn)行多任務(wù)學(xué)習(xí),模型的整體架構(gòu)圖如圖1 所示.其中L1表示神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)x被引量的損失,L2是額外的多任務(wù)損失,表示預(yù)測(cè)x與y被引量之差的損失.L2通過(guò)神經(jīng)網(wǎng)絡(luò)處理x與y的交互實(shí)現(xiàn),而并不單是通過(guò)兩者的最終表示,這樣會(huì)讓模型能夠在每個(gè)階段都受到多任務(wù)學(xué)習(xí)的引導(dǎo),進(jìn)而產(chǎn)生更加精準(zhǔn)、更加魯棒性的預(yù)測(cè)結(jié)果.
圖1 基于多任務(wù)學(xué)習(xí)的被引量預(yù)測(cè)模型的整體框架Fig.1 The framework of a citation prediction model based on multi-task learning
對(duì)于論文x,模型首先通過(guò)網(wǎng)絡(luò)拓?fù)涮卣鱃x和文本特征Dx預(yù)測(cè)其被引量.具體地,分別使用圖卷積神經(jīng)網(wǎng)絡(luò)GCN 和Transformer 處理Gx和Dx.Gx作為關(guān)于x的k階多關(guān)系異構(gòu)圖,其中每個(gè)節(jié)點(diǎn)和關(guān)系的初始化表示通過(guò)TransR獲得,后續(xù)處理時(shí),它們的更新遵循GCN的迭代消息傳遞模式.其第k+1層的表示由第k的表示通過(guò)注意力消息傳遞方式計(jì)算得到.
整體來(lái)說(shuō),針對(duì)目標(biāo)節(jié)點(diǎn)u的第k層表示,其第k+1 層的表示由和其鄰居節(jié)點(diǎn)v的表示通過(guò)轉(zhuǎn)換加和得到,分別表示兩者的轉(zhuǎn)換矩陣.N(u)表示節(jié)點(diǎn)u的鄰居節(jié)點(diǎn)-關(guān)系對(duì)集合,表示節(jié)點(diǎn)u和其鄰居節(jié)點(diǎn)-關(guān)系對(duì)(v,r)的注意力得分,它決定了在消息傳遞時(shí),周?chē)従颖辉鰪?qiáng)或者抑制的程度,通過(guò)這種方式增強(qiáng)有益信息傳遞,并削弱噪聲信息的影響.具體地如式(2)和式(3)所示.
式(3)表示首先通過(guò)鄰居節(jié)點(diǎn)-關(guān)系對(duì)及目標(biāo)節(jié)點(diǎn)的表示向量計(jì)算注意力得分,并通過(guò)softmax進(jìn)行歸一化.其中表示注意力計(jì)算時(shí)的轉(zhuǎn)移矩陣.通過(guò)以上的方式,處理x的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),在經(jīng)過(guò)l層的GCN迭代之后,其網(wǎng)絡(luò)特征表示為所有節(jié)點(diǎn)表示的平均.具體如式(4)所示.
對(duì)于文本特征Dx,本文使用Transformer 進(jìn)行處理.Transformer 使用多頭的self-attention 處理序列輸入.具體如式(5)所示.
其中:Q、K、V分別表示查詢、鍵、值,本文計(jì)算目標(biāo)被引量時(shí),三者都為序列中單詞的表示.同樣地,經(jīng)過(guò)l層的處理之后,通過(guò)平均池化得到論文x的文本表示特征.論文x的最終表示X及其被引量預(yù)測(cè)損失通過(guò)式(6)和式(7)計(jì)算.
該損失為均方誤差損失,F(xiàn)F1為前饋神經(jīng)網(wǎng)絡(luò),用于將論文表示X計(jì)算得到預(yù)測(cè)值,lx為真實(shí)被引量,n為樣本總量.
為了使模型能夠獲取對(duì)于被引量更重要的特征,同時(shí)增強(qiáng)模型的泛化能力,本文在預(yù)測(cè)目標(biāo)論文x被引量的基礎(chǔ)上,引入論文被引量差值預(yù)測(cè)的額外任務(wù).具體思路是:對(duì)于目標(biāo)論文x,在數(shù)據(jù)集中采樣對(duì)比樣本y,通過(guò)神經(jīng)網(wǎng)絡(luò)的中間過(guò)程計(jì)算兩者的交互特征,并基于此預(yù)測(cè)兩者的被引量差值.這樣,被引量的差距預(yù)測(cè)能夠有效指導(dǎo)神經(jīng)網(wǎng)絡(luò)的中間計(jì)算過(guò)程,進(jìn)而影響被引量預(yù)測(cè)模型,使其具有更高的預(yù)測(cè)能力和泛化性.
對(duì)于x、y的網(wǎng)絡(luò)特征Gx、Gy,使用GCN進(jìn)行處理,進(jìn)而能夠獲得它們?cè)诿繉拥谋硎?對(duì)于文本特征,除了使用Transformer分別處理得到文本表示之外,本文通過(guò)它們之間的交互來(lái)增強(qiáng)表示,如圖2所示.
圖2 文本特征融合示意圖Fig.2 The text feature fusion
將3.2 節(jié)中經(jīng)Transformer 處理后的文本表示矩陣分別表示為(用于后續(xù)論文被引量預(yù)測(cè)),之后計(jì)算兩者之間的交互.具體來(lái)說(shuō),在式(5)所示的self-attention 中,將Q進(jìn)行彼此替換,其他設(shè)置保持不變,這樣相當(dāng)于對(duì)x、y的文本進(jìn)行逐詞對(duì)比,期望獲取文本差異對(duì)于被引量的影響因素.基于此,得到兩者對(duì)應(yīng)的交互表示,進(jìn)而將兩者進(jìn)行平均池化并加和得到x、y在第k層的文本交互表示Dk.綜上,論文被引量差值的特征表示可通過(guò)式(8)計(jì)算為:
類(lèi)似地,其損失函數(shù)也可通過(guò)式(9)均方誤差損失函數(shù)計(jì)算為:
其中:lx、ly分別表示x、y的真實(shí)被引量;m表示總的對(duì)比樣本對(duì)數(shù);FF2為計(jì)算被引量差值的前饋神經(jīng)網(wǎng)絡(luò).
基于論文被引量預(yù)測(cè)和被引量差值預(yù)測(cè)的損失,設(shè)計(jì)了如下的聯(lián)合損失函數(shù)來(lái)進(jìn)行統(tǒng)一的多任務(wù)聯(lián)合訓(xùn)練:
其中,λ是用于權(quán)衡模型對(duì)于被引量預(yù)測(cè)和被引量差值預(yù)測(cè)損失的權(quán)重.
通過(guò)網(wǎng)絡(luò)爬蟲(chóng)采集了2010—2019 年間在交通領(lǐng)域30 本期刊上發(fā)表的相關(guān)論文,包含論文標(biāo)題、摘要、作者、發(fā)表地、機(jī)構(gòu)、年份和實(shí)際被引量等,相關(guān)數(shù)據(jù)統(tǒng)計(jì)如表2所示.在進(jìn)行實(shí)驗(yàn)時(shí),2010—2018年的論文作為訓(xùn)練集,2019年度發(fā)表的論文作為測(cè)試集.
表2 數(shù)據(jù)集相關(guān)統(tǒng)計(jì)Tab.2 Dataset related statistics
為了驗(yàn)證本文基于多任務(wù)學(xué)習(xí)模型的有效性,實(shí)驗(yàn)設(shè)置了如下的神經(jīng)網(wǎng)絡(luò)對(duì)比模型.
神經(jīng)網(wǎng)絡(luò)模型(NN)[15].通過(guò)帶有隱藏層的前饋神經(jīng)網(wǎng)絡(luò)處理論文的相關(guān)特征,最后相加融合來(lái)進(jìn)行論文被引量預(yù)測(cè).
基于神經(jīng)網(wǎng)絡(luò)的被引量預(yù)測(cè)(NNCP)[8].一種基于編碼-解碼框架的深度神經(jīng)網(wǎng)絡(luò)模型,其將論文發(fā)表后某個(gè)時(shí)間段內(nèi)的被引量作為輸入,之后某時(shí)間段內(nèi)的被引量作為輸出.
基于圖卷積嵌入與特征交叉(GCN-FC)[16].一種考慮論文關(guān)鍵詞、作者、機(jī)構(gòu)和國(guó)家等相關(guān)因素,使用GCN進(jìn)行特征提取,并利用循環(huán)神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制來(lái)挖掘被引量與論文特征之間的關(guān)聯(lián).
混合LSTM 注意力模型(Hy-LSTM-Att)[17].構(gòu)建論文相關(guān)的異構(gòu)數(shù)據(jù),包含圖結(jié)構(gòu)、時(shí)序數(shù)值和文本等,初始化后通過(guò)雙向注意力LSTM處理,將最終的表示通過(guò)前饋網(wǎng)絡(luò)計(jì)算預(yù)測(cè)被引量.
在實(shí)驗(yàn)過(guò)程中,首先將圖結(jié)構(gòu)通過(guò)TransR 方法進(jìn)行預(yù)處理,得到128維的向量表示;并將論文的標(biāo)題和摘要文本通過(guò)Doc2vec處理,也表示為128 維的向量.從總圖結(jié)構(gòu)G中抽取目標(biāo)論文的k階子圖時(shí),k默認(rèn)設(shè)置為3.在進(jìn)行訓(xùn)練時(shí),對(duì)于目標(biāo)論文x,隨機(jī)采樣同一年度發(fā)表的論文y作為對(duì)比進(jìn)行多任務(wù)學(xué)習(xí);模型最大層數(shù)l設(shè)置為5,每層嵌入的維度都默認(rèn)設(shè)置為128,模型使用學(xué)習(xí)率為0.001 5的Adam算法[18]進(jìn)行優(yōu)化,最大迭代次數(shù)設(shè)置為15.在整體的損失函數(shù)中,權(quán)重λ被設(shè)置為0.2.模型測(cè)試時(shí),僅僅使用論文被引量預(yù)測(cè)部分,論文被引量差別預(yù)測(cè)部分不進(jìn)行計(jì)算.
本文使用回歸任務(wù)常用的均方誤差(mean square error,MSE)和平均絕對(duì)誤差(mean absolute error,MAE)作為主要評(píng)價(jià)指標(biāo),它們都用來(lái)衡量預(yù)測(cè)值與真實(shí)值之間的差距,MSE 與MAE 越小,說(shuō)明模型的預(yù)測(cè)更準(zhǔn)確.它們的計(jì)算方式如式(11)和式(12)所示.
其中:E(X)表示隨機(jī)變量X的數(shù)學(xué)期望;r>0表示兩個(gè)隨機(jī)變量呈正相關(guān),且絕對(duì)值越大,說(shuō)明其相關(guān)程度越高.
不同模型在各個(gè)指標(biāo)上的得到的結(jié)果如表3所示.可以看出,提出的基于多任務(wù)學(xué)習(xí)的模型取得了最好的預(yù)測(cè)效果.其中NN模型表現(xiàn)最差,MSE與MAE較本文模型分別差34.26和1.65,這是因?yàn)樗鼉H通過(guò)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)處理原始論文數(shù)據(jù);NNCP、GCN-FC 和Hy-LSTM-Att 都取得了良好的效果,這是由于它們都挖掘了論文相關(guān)數(shù)據(jù)的對(duì)應(yīng)特征,并設(shè)計(jì)了特定的方法進(jìn)行建模;在之前最優(yōu)模型Hy-LSTM-Att 的基礎(chǔ)上,本文的模型在三個(gè)指標(biāo)上分別獲得了3.49、0.44和0.02的提升,這說(shuō)明本模型的先進(jìn)性,顯示出通過(guò)挖掘論文預(yù)測(cè)相關(guān)任務(wù)并進(jìn)行多任務(wù)聯(lián)合學(xué)習(xí)對(duì)于提升論文被引量預(yù)測(cè)的潛力.
表3 各模型的性能對(duì)比Tab.3 Performance comparison of each model
為了驗(yàn)證模型中各個(gè)模塊的作用,進(jìn)行了消融實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如表4所示(w/o表示消融某個(gè)模塊).
表4 各模塊的消融實(shí)驗(yàn)結(jié)果Tab.4 Ablation experiment results of each module
其中w/o L2表示模型去掉論文被引量差值預(yù)測(cè)部分.從顯示的結(jié)果可以看出,隨著論文被引量差值預(yù)測(cè)部分的去除,各項(xiàng)指標(biāo)都會(huì)大大降低.這表明論文被引量差值預(yù)測(cè)在整個(gè)模型中具有積極的作用,其原因在于該差值可以有效地挖掘文獻(xiàn)之間的隱性關(guān)聯(lián)特征,并且可以對(duì)模型中神經(jīng)網(wǎng)絡(luò)的中間計(jì)算過(guò)程進(jìn)行正確的引導(dǎo).
w/o Inter則表示在論文被引量差值預(yù)測(cè)部分,去掉論文對(duì)的交互表示計(jì)算,僅保留本身的Transformer 計(jì)算.由表4 可知,該模塊也會(huì)影響模型的性能,但是較L2的程度低,這是因?yàn)镮nter 事實(shí)上是L2計(jì)算的一部分,并不能完全體現(xiàn)被引量差值的功能,因此對(duì)模型的影響力相較L2部分較弱一些.
另外,w/o GCN 和w/o GCN-Att分別表示去掉整個(gè)GCN 計(jì)算和去掉GCN 計(jì)算中的注意力機(jī)制.前者在預(yù)測(cè)時(shí)僅僅使用TransR 的嵌入結(jié)果,從結(jié)果可以看出,去掉整個(gè)GCN 計(jì)算后各項(xiàng)指標(biāo)均大幅下降.這表明圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)模型的預(yù)測(cè)結(jié)果具有積極的作用.而僅僅去掉GCN 計(jì)算中的注意力機(jī)制雖然影響效果不如去掉整個(gè)GCN 計(jì)算模塊,但還是會(huì)產(chǎn)生一定的影響.這表明模型中注意力機(jī)制的引入能夠很好地挖掘出被引量與論文特征之間的關(guān)聯(lián),從而更好的對(duì)文獻(xiàn)被引量進(jìn)行預(yù)測(cè).
基于多任務(wù)學(xué)習(xí)的思想,針對(duì)論文被引量預(yù)測(cè)任務(wù),提出了額外的被引量差值預(yù)測(cè)方法來(lái)增強(qiáng)模型的建模能力,進(jìn)而提升了模型的預(yù)測(cè)性能和泛化性.在多任務(wù)學(xué)習(xí)中,兩個(gè)任務(wù)共享部分模型架構(gòu),對(duì)于被引量差值預(yù)測(cè),使用額外的神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,使得模型整體上既有耦合的部分,又有分散的部分.實(shí)驗(yàn)結(jié)果證明本模型取得了優(yōu)異的性能,且本文提出的模塊對(duì)于預(yù)測(cè)結(jié)果都具有積極作用.這顯示通過(guò)構(gòu)造相關(guān)的任務(wù),并使用多任務(wù)學(xué)習(xí)框架來(lái)提升論文被引量預(yù)測(cè)的巨大潛力.