• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      邊信息嵌入的學術(shù)論文推薦算法研究

      2022-11-20 13:57:32沈小烽劉柏嵩吳俊超錢江波
      計算機工程與應用 2022年22期
      關(guān)鍵詞:權(quán)重向量輔助

      沈小烽,劉柏嵩,吳俊超,錢江波

      寧波大學 信息科學與工程學院,浙江 寧波 315211

      隨著網(wǎng)絡的不斷發(fā)展和網(wǎng)絡上數(shù)據(jù)量的不斷增加,用戶獲得信息的方式也在發(fā)生著變化。推薦系統(tǒng)作為一種有效的信息過濾方式,有效緩解了信息爆炸的問題。目前,在電影、音樂、電商等領(lǐng)域,推薦系統(tǒng)是一個的研究熱點。但是,在數(shù)據(jù)量十分龐大的論文學術(shù)領(lǐng)域,對推薦系統(tǒng)的研究卻相對較少。研究人員每天都需要花費許多時間進行論文檢索,以找到與他們研究興趣相關(guān)的學術(shù)論文。然而在這一過程中需要過濾大量論文,從而導致了低效的論文信息獲取,同時也容易錯過對自己有幫助的論文。個性化論文推薦系統(tǒng)通過理解研究人員與論文的交互,對論文進行深度分析,來預測學者感興趣的論文。這對于緩解學者用戶花費大量時間和經(jīng)驗進行文獻搜索具有重要作用。在過去的幾年里,對個性化論文推薦的模型和算法的研究取得了一定的進展。

      以前的研究利用不同的推薦技術(shù)為學術(shù)論文提供個性化的推薦。目前的論文推薦可分為四種類型,基于內(nèi)容的推薦、協(xié)同過濾推薦、基于圖的推薦和混合推薦?;趦?nèi)容的過濾方法通常提取論文內(nèi)容來創(chuàng)建項目之間的關(guān)系,但是由于版權(quán)限制,學術(shù)論文的所有內(nèi)容不能自由獲取。此外,由于自然語言的模糊性,基于內(nèi)容的過濾不能恰當?shù)夭蹲接脩襞d趣。協(xié)同過濾是一種經(jīng)典的推薦方法,在學術(shù)論文推薦系統(tǒng)中得到廣泛應用。它創(chuàng)建論文引用矩陣來查找學術(shù)論文之間的關(guān)系。然而,數(shù)據(jù)稀疏性和冷啟動問題是其中的兩大難題。為了避免這些陷阱,在現(xiàn)有的方法中引入了基于圖的方法,該方法利用引文網(wǎng)絡中的鏈接信息,通過依賴于引用模式、計數(shù)的聯(lián)合強度和引文耦合來進行度量[1]。但是,這些方法通常不考慮研究論文的內(nèi)容以及用戶行為,缺少個性化的推薦?;旌贤扑]通過結(jié)合其中的幾種方法,利用它們的優(yōu)點來彌補單一方法的不足,這樣可能會產(chǎn)生比較好的推薦效果,但同時也會帶來較高的時間復雜度和較差的可擴展性。目前在論文推薦領(lǐng)域中,混合推薦分為模型的混合與方法的混合。Sakib等人[2]為了解決冷啟動和版權(quán)限制的問題,提出了一種混合方法的推薦,有效地合并了基于內(nèi)容的推薦模塊和基于協(xié)同過濾的推薦模塊,提高了推薦的準確性。Zhao等人[3]為了提高用戶隱含評分預測的準確性,結(jié)合傳統(tǒng)的潛在因子模型(latent factor model,LFM)和雙向門控遞歸單元神經(jīng)網(wǎng)絡模型(bidirectional gated recurrent unit,BiGRU),提出了一種混合模型。該模型深入挖掘文本非結(jié)構(gòu)化內(nèi)容中的潛在語義,生成更準確的評分矩陣。

      近年來,不同的網(wǎng)絡表示方法被提出,這些方法利用不同的論文信息構(gòu)成網(wǎng)絡,將網(wǎng)絡中的節(jié)點編碼到低維空間中,從而生成論文推薦。冪律分布特性表明[4],網(wǎng)絡中的大多數(shù)節(jié)點與少量的邊相關(guān)聯(lián)。因此,對于信息有限的節(jié)點,很難找到有效的表示方法。為了提高少數(shù)節(jié)點的嵌入程度,許多學者采用了不同的方法。常用的方法是利用研究論文的引用信息和相關(guān)的輔助信息源,即作者、地點、標簽和論文,來產(chǎn)生更好的推薦效果。流行度作為論文本身自帶的屬性,具有天然的推薦效果,因此許多文獻利用流行度屬性進行論文推薦。Yadav等人[5]提出了一個混合推薦模型RecCite,它將論文的流行度與語義相似度進行結(jié)合來生成推薦,并且通過社區(qū)檢測算法大幅度降低了模型運行時間。與之相似的是,Liu等人[6]提出了一種基于無方向論文引用圖的關(guān)鍵字驅(qū)動和流行度推薦方法,利用用戶查詢的關(guān)鍵字和論文的受歡迎程度來有效地推薦出一組令人滿意的論文。但是他們只是將流行度作為前期數(shù)據(jù)處理的方式,在生成論文嵌入向量表示的時候并沒有包含流行度信息。而根據(jù)應用的網(wǎng)絡不同,可以將網(wǎng)絡表示分為同構(gòu)網(wǎng)絡表示和異構(gòu)網(wǎng)絡表示,同構(gòu)網(wǎng)絡通常由引文網(wǎng)絡構(gòu)成。Tanner等人[7]提出了一個應用方法來提取引文網(wǎng)絡圖中的權(quán)重,根據(jù)原始論文引用參考論文的次數(shù)來定義引用關(guān)系,并利用這種引用關(guān)系來衡量論文之間關(guān)系的強弱,最后在不同的方法中進行了實踐,該模型的問題在于具有顯著的長尾效應和冷啟動問題,只有十分熱門的論文才會具有強關(guān)聯(lián)性,并且最新出版的論文會與低被引論文遭遇相同的處理。因此,Paudel等人[8]針對推薦的多樣性,提出了一個帶有擦除的隨機游走方式,通過不同定義的擦除矩陣,使頂點擁有不同的概率分布,提高了游走的靈活性,從而避免過多地推薦高被引論文。而在異構(gòu)圖中,Li等人[9]提出了一種基于異構(gòu)網(wǎng)絡的個性化論文推薦方法PRHN,通過研究網(wǎng)絡中的元路徑以獲取用戶偏好,通過將不同元路徑上的推薦分數(shù)與個性化權(quán)重相結(jié)合來計算全局推薦分數(shù),同時PRHN也沒有很好地處理論文的冷啟動問題。

      圖嵌入作為網(wǎng)絡表示的一個重要方向,能夠?qū)⒄撐膬?nèi)容與論文結(jié)構(gòu)嵌入到低維向量空間中。伴隨節(jié)點屬性的圖嵌入增加了節(jié)點嵌入信息,有利于緩解物品冷啟動問題,因此十分適合圖的鏈路預測,不少學者將它應用到推薦中。Ali等人[10]為了充分利用論文輔助信息,針對冷啟動和數(shù)據(jù)稀疏問題提出了一種加權(quán)概率論文推薦模型PR-HNE。該模型通過將來自六個信息網(wǎng)絡的信息編碼到一個聯(lián)合潛在空間中來聯(lián)合學習研究者和論文的動態(tài)。為了進一步挖掘輔助信息,Zhao等人[11]充分利用用戶與物品之間的潛在關(guān)系,提出了一種基于異構(gòu)網(wǎng)絡嵌入的推薦方法,稱為HetNERec。它整合了從相關(guān)異構(gòu)網(wǎng)絡中提取的各種類型的信息,以提高推薦的性能。這兩個模型都試圖利用論文的輔助信息來緩解論文冷啟動問題。同時,針對這個問題,研究者也從上下文信息入手。Xie等人[12]提出了一種專注于項目推薦的元圖嵌入方法,即HINs中的AMERec,并利用用戶、物品及其基于元圖的上下文之間的低維和高維交互信息進行推薦。為了學習用戶和項目的嵌入表示,Wu等人[13]提出了一個協(xié)同推薦的共生嵌入正則化度量學習模型CRML,將共生嵌入應用到協(xié)同過濾推薦中,并利用軟參數(shù)共享策略來優(yōu)化模型參數(shù)。在圖嵌入過程中,也有研究者通過挖掘文章之間的關(guān)系來緩解冷啟動問題。Chen等人[14]提出了一種新的基于引文趨勢的論文推薦算法CIRec,該算法在網(wǎng)絡嵌入過程中更深入地了解了文章之間的潛在關(guān)系。CIRec的問題在于它拋棄了引文信息,只是將引文作為一種文章之間的關(guān)系進行處理。因此,Zhang等人[15]提出了一種新的嵌入算法DocCit2Vec,將引文信息與引文內(nèi)容直接嵌入作為一個文檔的嵌入信息。Kong等人[16]通過對引文網(wǎng)絡中的論文進行向量表示學習,提出了VOPRec模型。它利用文本和網(wǎng)絡表示學習的最新研究成果進行無監(jiān)督特征設計。在將文本信息和結(jié)構(gòu)同一性與引用網(wǎng)絡聯(lián)系起來之后,可以通過網(wǎng)絡嵌入來學習論文的向量表示。為了在圖嵌入中使物品的嵌入包含更多的信息,阿里巴巴的Wang等人[17]提出了EGES模型,通過構(gòu)造增強的邊信息嵌入,使嵌入向量包含更豐富的邊信息,以此解決冷啟動問題。

      當前許多文獻都在利用論文本身包含的復雜信息來緩解冷啟動問題,可是大多數(shù)模型只是利用了其中的一種或幾種,使得部分更有益的輔助信息被忽略。與此同時,目前并沒有一種方法能夠判斷哪些信息對于緩解冷啟動問題是有效果的,哪些信息是無效的,缺少定量的判斷。目前的論文推薦算法也很少考慮到論文本身的質(zhì)量對推薦的影響?;谝陨系姆治?,本文提出了一種基于輔助信息嵌入的論文推薦算法CERec,它考慮到在論文推薦中存在的兩個現(xiàn)實問題:一是推薦的論文本身的質(zhì)量問題,具體體現(xiàn)在論文的影響因子、作者、出版刊物等;另一個問題是如何定量地利用論文輔助信息來緩解新出版的論文面臨推薦冷啟動問題。由于新出版的論文極少會被其他論文引用,導致了新論文很難擁有較高的推薦排名,但是高質(zhì)量的新論文往往是學者所需要被推薦的論文類型之一。因此,本文推薦算法中設計了一篇論文影響力分數(shù)作為一篇論文的質(zhì)量高低的體現(xiàn),并且將這個分數(shù)作為引文網(wǎng)絡中邊的權(quán)重,以此來決定在隨機游走中,每篇論文被選中的概率。在論文的圖嵌入中,加入多個不同的論文輔助信息,利用注意力機制對不同的輔助信息附加不同的權(quán)重,組成最終的論文表示向量。這不僅增加了嵌入向量本身的信息量,提高了推薦效果,同時具有相似輔助信息的新論文更有可能擁有較高的推薦排名。

      1 學術(shù)論文推薦框架

      1.1 構(gòu)建影響力網(wǎng)絡

      對于學術(shù)論文推薦,論文本身的質(zhì)量和作者的聲譽以及發(fā)表論文的期刊質(zhì)量是需要考慮的重要方面,統(tǒng)稱為論文的影響力。雖然現(xiàn)有方法基于作者和期刊的相似性進行推薦,但它們無法確保質(zhì)量高和相關(guān)性強的論文可以被優(yōu)先推薦。在大多數(shù)的學術(shù)論文推薦中,時間越近的論文有著更好的推薦效果,也更加接近學術(shù)前沿。同時,論文本身的影響力隨著時間的推移而慢慢減弱。利用論文出版時間戳和當前時間戳的差值作為影響論文的一個重要變量,這樣做的目的是防止舊論文權(quán)重過大而影響推薦的效果。

      假設c是對引用次數(shù)有顯著影響的變量集,cn為論文的第n個特征變量,每個特征變量的維數(shù)為m,則。對C進行主成分分析(principal component analysis,PCA),通過線性變換將原始數(shù)據(jù)變換為一組各維度線性無關(guān)的表示,用于提取數(shù)據(jù)的主要特征分量。對C進行零均值化后求出它的協(xié)方差矩陣C′。

      將協(xié)方差矩陣對應的特征值按照從小到大排序,在實際計算過程中,將特征值的閾值設置為1,得到m個主成分值,其公式為:

      其中,F(xiàn)i為第i個主成分值。將主成分值進行線性組合,得到一個節(jié)點的影響力值。

      其中,系數(shù)αi是在計算主成分時Fi的方差與總方差的比例。

      使用上述方法得到的影響力分數(shù)Y來構(gòu)建影響力網(wǎng)絡。從目標節(jié)點得分中減去源節(jié)點得分,其差值ω被定義為邊的權(quán)重。假設有一條有向邊A→B,那么:

      其中,Y表示節(jié)點的影響力分數(shù)。這種分配策略主要是為了在網(wǎng)絡節(jié)點隨機游走時,邊權(quán)重將作為組成游走概率的一部分,與權(quán)重大的邊相連節(jié)點將會有更大的概率被選擇為鄰居節(jié)點。此外,這種邊權(quán)重的分配允許在保留引用信息的同時包含論文的影響力。

      1.2 圖嵌入方法

      給定一個源節(jié)點u,假設對影響力網(wǎng)絡進行固定長度1的隨機漫步,a0是起始點,即a0=u,ai是隨機走到的第i個點,則走到ai的概率由以下公式生成:

      其中,πvk是從點v走到點k的概率,A是標準化常數(shù)。

      在進行偏置隨機游走時,當πvk=ωvk,且常數(shù)A為頂點v的出度權(quán)重之和。當,其中N+()v表示出度鄰居的集合,即i到中的所有節(jié)點都有的邊,這樣就變成了deepwalk[18]的游走方式。雖然deepwalk可以充分發(fā)揮權(quán)重的優(yōu)勢,但是沒有充分考慮引用的同質(zhì)性和結(jié)構(gòu)等價性。本文采用Node2vec[19]算法,將影響力權(quán)重作為隨機游走中偏置值的一部分進行計算。與EGES模型相比,帶有偏置的隨機游走考慮到了論文的質(zhì)量屬性對論文關(guān)系的影響,使得權(quán)重較大的節(jié)點更容易被選為鄰居節(jié)點,從而形成帶有屬性影響的論文序列。

      假設一個隨機游走從點u走到了點v,當決定下一個點k時,轉(zhuǎn)移概率如下:

      其中,duk表示節(jié)點u和k之間的最短路徑距離。ωvk是影響力網(wǎng)絡中計算得出的邊權(quán)重,權(quán)重越大,轉(zhuǎn)移的概率也就越大。通過調(diào)節(jié)參數(shù)q,使具有相似主題的論文緊密嵌入在一起,調(diào)節(jié)參數(shù)p將優(yōu)先考慮具有相似引用的論文組成論文序列。由于權(quán)重ω的性質(zhì),使得高質(zhì)量的論文有更高的概率被選中,因此在向量空間中,高質(zhì)量論文之間的距離更短。

      假設f:V→Rd是從頂點到向量空間的映射函數(shù)。其中d是向量空間表示的維數(shù),f是一個參數(shù)矩陣,大小為||V×d。對于源節(jié)點u∈V,將N(u)∈V定義為通過隨機游走得到的鄰域節(jié)點。將Skip-gram算法應用到論文序列,通過f最大化論文u與N()u的對數(shù)概率,得到論文u的嵌入表示:

      1.3 帶有輔助信息的圖嵌入方法

      在學術(shù)論文推薦系統(tǒng)的上下文中,輔助信息包括論文作者、出版期刊(社)、學科分類等論文內(nèi)容以外的信息。在論文圖嵌入的過程中加入輔助信息,可以豐富論文嵌入的信息量。當具有較少被引用的新論文與用戶感興趣的論文具有相似的輔助信息時,它們在嵌入空間中更為接近?;谶@個假設,提出了如圖1所示的帶有輔助信息的圖嵌入方法。其中Sn表示輔助信息,S0表示由圖嵌入得到的論文嵌入,αn為不同輔助信息的不同權(quán)重。

      假設W表示論文或輔助信息的嵌入矩陣。Wu表示論文u的嵌入,Wiu表示附加到論文u的第i種類型的輔助信息的嵌入。當d為嵌入維數(shù)時,W0uW1u…Wnu∈Rd。因此,對于具有n種輔助信息的論文v,共有n+1個向量。當在嵌入過程中集成不同種類的輔助信息時,不同種類的輔助信息對論文的貢獻程度是不同的,比如同一個作者的論文比同一出版社出版的論文相關(guān)性更大。利用注意力機制來聚合與項目相關(guān)的輔助信息的嵌入,給定一個節(jié)點u,設A∈R||u×()n+1為權(quán)重矩陣。結(jié)合不同輔助信息的加權(quán)平均層定義如下:

      其中,Mu是論文u的聚合嵌入,aiu為第u項第i類輔助信息的權(quán)重。以這樣的方式合并,讓論文的嵌入包含更多的信息,使得具有相似輔助信息的論文在嵌入空間中更接近。

      假設節(jié)點u是節(jié)點v的上下文節(jié)點,通過負采樣后,帶有輔助信息的圖嵌入的目標函數(shù)變?yōu)椋?/p>

      其中,σ()為sigmod函數(shù)y是正負樣本的標簽,正樣本為1,負樣本為0。

      基于以上分析,算法1給出了帶有輔助信息的圖嵌入算法的詳細步驟。

      算法1帶有輔助信息的圖嵌入算法

      輸入:影響力網(wǎng)絡G=( )

      V,E,W,每個節(jié)點的游走次數(shù)t,每次游走長度l,窗口長度k,游走參數(shù)q和p,輔助信息S,嵌入維數(shù)d。

      輸出:論文的加權(quán)嵌入向量M和權(quán)重矩陣A。

      1.初始化嵌入向量M和權(quán)重矩陣A

      2.fori=1→t:

      3. forv∈V:

      4.PL=node2vecWalk( )

      G,v,l,p,q

      5. forj=1→l:

      6.v′=PL()

      j

      7. for()

      0,l遍歷窗口k:

      8.u=NegativeSampling()

      V

      9. update(M,A)→L(v′,u,y)

      10. end for

      11. end for

      12. end for

      13.end for

      14.return( )

      M,A

      1.4 推薦生成

      在圖嵌入中,推薦問題將轉(zhuǎn)化成鏈路預測問題,兩個節(jié)點的相似性越高表明其鏈接的可能性越高。由于論文的數(shù)據(jù)量十分龐大,每次計算論文的嵌入向量將會耗費大量時間,一般采用離線計算。將用戶交互過或感興趣的論文作為目標論文,計算與其他論文的距離,來獲得推薦論文。當獲得論文嵌入向量后,使用余弦相似度來計算論文之間的距離。假設兩篇論文表示為d維向量Θ(u)=( x1,x2,…,xd)以及Θ(v)=( y1,y2,…,yd),其相似度計算公式如下:

      2 實驗及分析

      2.1 數(shù)據(jù)集

      實驗采用公開可用的ArnetMiner學術(shù)論文數(shù)據(jù)集,該數(shù)據(jù)集的內(nèi)容包括論文信息、論文引用信息、作者信息和作者協(xié)作信息,其中包含2 092 356篇論文以及相關(guān)的8 024 869條引用信息,1 712 433位作者和4 258 615條作者之間的合作關(guān)系信息。數(shù)據(jù)集還包含了每個作者的論文發(fā)表數(shù)量、H指數(shù)、P指數(shù)、合著者信息和研究興趣等信息,能夠?qū)ψ髡哌M行全方位的評估。根據(jù)以上數(shù)據(jù),實驗使用論文以及引用關(guān)系創(chuàng)建了包含29 813個節(jié)點的引用圖,其中有71 403條邊以及等量的權(quán)重數(shù)值。

      2.2 評估指標

      為了評估這些比較方法的有效性,實驗選擇了兩個不同的指標,分別是召回率和NDCG(normalize discounted cumulative gain),用于評估論文推薦結(jié)果的好壞。Recall@N是指為每篇目標論文推薦N篇候選論文時的召回率。對于論文推薦問題,召回率越高的同時N越小,推薦效果越好。

      Recall@N:召回率用于衡量出現(xiàn)在前N名推薦列表中的原論文的百分比。該比率表示每個目標論文的總召回率除以所有目標論文的大小。該指標定義為:

      其中,Q為目標論文數(shù),N為推薦數(shù)。對于每篇目標論文,Ru是基于一篇目標論文u推薦的前N名論文列表。Tu是引用目標論文u的論文集。

      NDCG@N:推薦系統(tǒng)的有效性對相關(guān)論文的排名很敏感,相關(guān)度越高的論文應該排名越高,因此這不僅僅需要召回率來表示,還需要NDCG來進行評估。實驗使用NDCG來衡量推薦的排名列表。排名列表在特定位置的NDCG值計算如下:

      其中,Q為目標論文數(shù),N為前N項的推薦數(shù)。ri是排名列表中第i篇論文的評級,如果ri=1則表示論文相關(guān),如果ri=0則表示論文不相關(guān)。IDCG@N是一個理想排名分數(shù),如果NDCG@N=1則表示這是一個理想的排名,即最相關(guān)的論文排第一,依次往下。

      2.3 基準方法

      (1)Node2vec[19]:對有向無環(huán)子圖進行抽樣的圖嵌入方法。它在deepwalk基礎(chǔ)上進行了改進,增加兩個權(quán)重參數(shù)來尋找廣度優(yōu)先搜索和深度優(yōu)先搜索之間的平衡,獲得的序列通過skip-gram算法進行嵌入。

      (2)Doc2vec[20]:一種眾所周知的排名方法,用于測量基于文本的匹配文檔與查詢的相關(guān)性。它使用神經(jīng)網(wǎng)絡模型將可變長度的文本映射成固定長度的分布式向量。

      (3)EGES[16]:帶有輔助信息的圖嵌入方法。從用戶的行為歷史中構(gòu)建一個項目圖,并學習圖中所有項目的嵌入。項目嵌入用于計算所有項目之間的成對相似性,然后進行推薦。

      (4)RecCite[5]:將論文的受歡迎程度與語義相似性相結(jié)合,以獲得相關(guān)性的論文推薦方法。同時從更通用和更大的網(wǎng)絡中過濾論文到與SIG(特殊興趣小組)相關(guān)的社區(qū)中,解決了可伸縮性方面的問題。

      (5)PGRec[21]:引入了pregraph,作為面向排名推薦系統(tǒng)中數(shù)據(jù)的圖形表示的一種新的結(jié)構(gòu),并且開發(fā)了一種在異構(gòu)用戶-項目數(shù)據(jù)圖中嵌入節(jié)點的新方法。它使用基于CNN的圖嵌入技術(shù)來微調(diào)由NMF從用戶-項目交互矩陣中最初提取的特征向量。

      2.4 實驗結(jié)果

      實驗分別進行了召回率的對比和NDCG指標的對比。召回率主要凸顯了推薦結(jié)果的精準度,NDCG主要凸顯了排名的準確度。在進行Top-N推薦時,N分別取25、50、75、100進行實驗。實驗中CERec算法的隨機行走長度是10,每個節(jié)點的行走次數(shù)是20次,上下文窗口長度為5,向量的維數(shù)被設置為64。

      表1表明了在ArnetMiner數(shù)據(jù)集上各算法的性能和推薦效果。與其他表示學習算法相比,CERec在不同的Top-N值下都取得了更好的推薦效果。隨著Top-N的增大,各個算法的Recall也在增大。當N值為25時,在召回率指標中,CERec分別比Doc2vec和Node2vec兩種經(jīng)典嵌入方法提高了0.078 3和0.128 2,其中召回率提升比較大的主要原因是CERec添加了論文的多種輔助信息,豐富了論文的最終嵌入,使嵌入向量包含了更多信息。對比最新的嵌入模型,CERec比EGES在召回率上提高了0.030 0,其中召回率提升的主要原因是CERec模型在圖嵌入過程中,考慮到了論文屬性對論文關(guān)系,也就是兩個節(jié)點的邊的影響。在N增大的過程中,CERec在召回率指標中的表現(xiàn)也比其他5個模型的表現(xiàn)要好。

      表1 不同圖嵌入方法的實驗結(jié)果比較Table 1 Comparison of experimental results of different graph embedding methods

      從表1可以看出,在NDCG指標的對比中,當N的值為25時,CERec分別比Doc2vec和Node2vec兩種經(jīng)典嵌入方法提高了0.059 4和0.111 3。實驗說明融合了輔助信息的嵌入向量能有效得提升嵌入向量的信息量,從而提高推薦結(jié)果的準確性。其中一部分原因是CERec加入了論文影響力的考慮,使得高質(zhì)量論文更容易被推薦,這也影響了推薦論文的最終排序,使得在NDCG中擁有更好的表現(xiàn)。在與最新的兩種嵌入方法的對比中,CERec分別比EGES、RecCite和PGRec三種嵌入方法提高了0.046 4、0.029 9和0.015 3。其中相對于EGES模型的提升比較明顯,主要原因是EGES模型在聚合輔助信息時,對每種輔助信息的權(quán)重都是一樣的,沒有進行區(qū)分,導致不同輔助信息有了相同權(quán)重的嵌入,不利于最終的論文排名。

      圖2和圖3分別標明了不同算法在不同Top-N下的實驗指標結(jié)果。可以看到CERec模型無論在召回率指標還是NDCG指標都有著不錯的表現(xiàn)。并且當N值增大時,CERec與兩種經(jīng)典嵌入算法在召回率上的差距也在增大,原因是帶有輔助信息的嵌入向量增加了論文相似度的區(qū)分,使得推薦效果更好。

      參數(shù)p和q的作用是根據(jù)不同的節(jié)點距離設置轉(zhuǎn)移概率。參數(shù)p控制再次訪問被訪問過的節(jié)點的概率,參數(shù)q控制游走偏向于內(nèi)節(jié)點游走還是外節(jié)點游走。兩個參數(shù)的本質(zhì)作用是在形成論文序列時,鄰接節(jié)點的選取偏向于相似引用的論文作為鄰居還是相似主題的論文作為鄰居。因此對于最終形成的論文向量嵌入具有很大的影響。圖4是模型在不同p值和q值下召回率的折線圖,雖然越低的q值鼓勵引用相似性的探索,但是同時較低的p值保證了節(jié)點不會探索得太遠。

      3 結(jié)束語

      學術(shù)論文推薦系統(tǒng)越來越受到科學界的關(guān)注,它極大地促進了研究工作者對特定領(lǐng)域的深入了解。在目前階段,論文推薦主要是基于引文鏈接的方法,然而在處理引文信息網(wǎng)絡過程中,隨機游走并沒有考慮到論文屬性對論文關(guān)系的影響,同時忽略了論文的輔助信息的作用。文本提出了一種基于輔助信息嵌入的論文推薦方法,考慮到論文本身的質(zhì)量是影響推薦結(jié)果的一個重要因素,因此利用與論文質(zhì)量相關(guān)的變量來構(gòu)建影響力網(wǎng)絡,提高了論文質(zhì)量對推薦結(jié)果的影響。同時,在論文嵌入向量中加入論文輔助信息,緩解了新論文的冷啟動問題。由于在圖嵌入技術(shù)中,普遍缺少對用戶興趣的考量,在下一步工作中,會將用戶興趣考慮到推薦模型中,生成更具個性化的推薦結(jié)果。

      猜你喜歡
      權(quán)重向量輔助
      向量的分解
      小議靈活構(gòu)造輔助函數(shù)
      倒開水輔助裝置
      聚焦“向量與三角”創(chuàng)新題
      權(quán)重常思“浮名輕”
      當代陜西(2020年17期)2020-10-28 08:18:18
      為黨督政勤履職 代民行權(quán)重擔當
      人大建設(2018年5期)2018-08-16 07:09:00
      基于公約式權(quán)重的截短線性分組碼盲識別方法
      電信科學(2017年6期)2017-07-01 15:44:57
      減壓輔助法制備PPDO
      向量垂直在解析幾何中的應用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      英德市| 临桂县| 桂林市| 万盛区| 荔浦县| 宜阳县| 祁阳县| 驻马店市| 南乐县| 尤溪县| 科技| 文昌市| 汉川市| 靖宇县| 台安县| 宁国市| 横峰县| 禹州市| 防城港市| 溧阳市| 通化县| 临海市| 田东县| 历史| 房产| 德庆县| 清原| 平乡县| 嘉黎县| 镇平县| 泸西县| 青神县| 绩溪县| 扶绥县| 桃园市| 高要市| 贵州省| 吉首市| 壤塘县| 沧州市| 鲁山县|