摘 要:針對(duì)農(nóng)產(chǎn)品電商平臺(tái),產(chǎn)品季節(jié)性強(qiáng)、地域性強(qiáng)、用戶行為多變,導(dǎo)致推薦效果不理想的問題,提出了一種融合表征的農(nóng)產(chǎn)品推薦算法。首先,用長(zhǎng)短期記憶網(wǎng)絡(luò)和注意力網(wǎng)絡(luò)相結(jié)合組成深度興趣網(wǎng)絡(luò),以此來捕獲物品的潛在特征;其次,構(gòu)建用戶-商品二部圖;再次,利用圖神經(jīng)網(wǎng)絡(luò)提取圖數(shù)據(jù)的連接信息對(duì)每個(gè)節(jié)點(diǎn)的影響,并更新節(jié)點(diǎn)的嵌入式表示,以獲取用戶的潛在特征;最后,將兩種潛在特征通過多層感知機(jī)得到待推薦農(nóng)產(chǎn)品的購(gòu)買概率,進(jìn)一步提取和利用了用戶行為序列中的用戶深度興趣,并將其融合深度興趣網(wǎng)絡(luò)進(jìn)行推薦。實(shí)驗(yàn)結(jié)果表明:融合表征的農(nóng)產(chǎn)品推薦算法相較于原有模型AUC指標(biāo)提高9%以上,準(zhǔn)確率和召回率提高約6%以上;相較于不考慮節(jié)點(diǎn)嵌入式表示的情況,AUC和準(zhǔn)確率、召回率也均有提高。
關(guān)鍵詞:圖神經(jīng)網(wǎng)絡(luò);深度興趣網(wǎng)絡(luò);推薦系統(tǒng);農(nóng)產(chǎn)品;用戶行為;二部圖
DOI:10.15938/j.jhust.2024.03.003
中圖分類號(hào): TP301.6
文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 1007-2683(2024)03-0020-08
An Agricultural Product Recommendation
Algorithm Based on Fusion Representation
HUANG Yinglai1, JI Yuchao1, LIU Zhenbo2
(1.College of Information and Computer Engineering, Northeast Forestry University, Harbin 150040, China;
2.Material Science and Engineering College, Northeast Forestry University, Harbin 150040, China)
Abstract:This paper proposes a kind of recommendation algorithm for agricultural commodities with fusion representation, in response to the issue of unexpected results on agricultural product e-commerce platforms due to the strong seasonality and regionality of products, as well as the variable user behaviors. Firstly, it integrates Long Short-Term Memory Networks and Attention Network to make up Deep Interest Network. This step aims to catch the potential feature of the item. Secondly, it builds up user-product bipartite graph. Then, it uses Graph Neural Network to abstract the impacts that connection information of graph data has on each node. And it also updates the embedded presentation of the node to catch the potential feature of user. Last, the two potential features are fed into a Multilayer Perceptron to get the order rate of the to-be-recommended agricultural commodities. This step combines the user′s deep interests derived from their behavior sequence with deep interest network to generate personalized recommendations. The results of experiment have shown that, compared with the previous model, the AUC target of recommendation algorithm for agricultural commodities with fusion representation has increased over 9%. Compared with the situation without taking the embedded presentation of the node into consideration, the AUC, Accuracy and Recall have all increased.
Keywords:graph neural network; deep interest network; recommendation system; agricultural commodities; user behavior; bipartite graph
0 引 言
現(xiàn)代電商平臺(tái)普遍使用了推薦系統(tǒng),推薦系統(tǒng)是為了解決信息過載而產(chǎn)生的一種信息過濾工具,通常包括收集用戶信息和分析用戶偏好、構(gòu)建用戶興趣模型、確定推薦算法并推薦實(shí)施等部分[1]。推薦系統(tǒng)能提高用戶的忠誠(chéng)度和黏著性,同時(shí)也可以帶來經(jīng)濟(jì)效益。在初期,推薦系統(tǒng)主要是對(duì)用戶的喜好進(jìn)行預(yù)測(cè),并根據(jù)這些信息來決定該用戶是否購(gòu)買此農(nóng)產(chǎn)品。但是,其不足之處在于,早期的農(nóng)產(chǎn)品數(shù)量和種類都比較少,不能準(zhǔn)確的向用戶推薦適合自己的農(nóng)產(chǎn)品。與此同時(shí),由于農(nóng)產(chǎn)品的季節(jié)性特點(diǎn),在農(nóng)產(chǎn)品淡季的時(shí)候,用戶很少會(huì)對(duì)農(nóng)產(chǎn)品進(jìn)行搜索。因此,他們購(gòu)買的可能性很?。?]。關(guān)于推薦系統(tǒng),雖然在此之前,已經(jīng)有不少人對(duì)其提出了各種各樣的算法和應(yīng)用實(shí)現(xiàn)方案,但是還有很多問題沒有解決,譬如冷啟動(dòng)問題、數(shù)據(jù)稀疏問題等就是較為典型的問題,而且是普遍存在的問題[3]。
傳統(tǒng)的個(gè)性化推薦方法主要有基于內(nèi)容、基于協(xié)同過濾和混合推薦等。其中,協(xié)同過濾(collaborative filtering,CF)是在實(shí)際的電商網(wǎng)站中應(yīng)用最為廣泛的推薦技術(shù)[4-5]。Chu[6]主要對(duì)顧客是否會(huì)購(gòu)買定期存款預(yù)測(cè),將類免疫系統(tǒng)與協(xié)同過濾方法結(jié)合,通過實(shí)驗(yàn)發(fā)現(xiàn),這種方法可以有效解決存在的冷啟動(dòng)問題,但是卻沒有將顧客的儲(chǔ)蓄意愿是隨時(shí)間以及經(jīng)濟(jì)條件而改變的這一情況考慮進(jìn)去。Li等[7]針對(duì)推薦系統(tǒng)中的用戶冷啟動(dòng)提出了運(yùn)用決策聚合理論的算法,將現(xiàn)有用戶的行為信息聚集成為群體決策集合,并將該群體決策集合向新的用戶推送,由新的用戶按照自己的喜好進(jìn)行選擇。Gandhi[8]提出,僅有協(xié)同過濾和內(nèi)容過濾的推薦算法并不能保證推薦質(zhì)量。關(guān)聯(lián)規(guī)則挖掘后的推薦,支持度和置信度都有很大的提高。所以,這是一種可以實(shí)現(xiàn)精準(zhǔn)推薦的技術(shù)。即使在沒有足夠數(shù)據(jù)的情況下,利用內(nèi)容過濾和關(guān)聯(lián)規(guī)則挖掘相結(jié)合的方式進(jìn)行精準(zhǔn)推薦。Yu等[9]通過對(duì)傳統(tǒng)協(xié)同過濾算法進(jìn)行改進(jìn),提出一種顯隱式結(jié)合的農(nóng)產(chǎn)品推薦方法,在傳統(tǒng)的用戶主觀評(píng)分的基礎(chǔ)上并考慮了用戶瀏覽的時(shí)間來查詢最近鄰,從而得到一個(gè)新的、更高的推薦精度和更好的推薦結(jié)果。Jiang 等[10]提出一個(gè)作者主題協(xié)同過濾(author topic collaborative filtering,ATCF)的新算法,實(shí)現(xiàn)了面向社會(huì)媒體用戶的綜合性興趣點(diǎn)(points of interest,POI s)推薦。Xu等[11]利用用戶相似度解決冷啟動(dòng)問題,同時(shí)基于時(shí)間評(píng)分、逆向最大匹配中文分詞和 TF-IDF方法建立了用戶在網(wǎng)絡(luò)上的興趣特性,并通過對(duì)該特性的分析,得到了最接近的鄰域,以彌補(bǔ)該特性的不足,實(shí)現(xiàn)了對(duì)農(nóng)業(yè)資源的個(gè)性化需求。Guo[12]提出了一個(gè)基于農(nóng)產(chǎn)品的語義檢索系統(tǒng),通過該系統(tǒng),用戶可以獲得與農(nóng)產(chǎn)品有關(guān)的知識(shí),并將該系統(tǒng)中已有的關(guān)于農(nóng)產(chǎn)品的知識(shí)推薦給用戶。CTR(click-through-rate),即點(diǎn)擊率預(yù)估,是計(jì)算廣告領(lǐng)域最重要的算法之一[13]。它是通過預(yù)測(cè)用戶是否點(diǎn)擊某樣商品,來實(shí)現(xiàn)最大化平臺(tái)收益的目的。DIN(deep interest network)[14]使用 Attention機(jī)制從用戶歷史行為序列信息中抽取用戶的顯式(隱式)興趣信息(如評(píng)分、行為)進(jìn)行建模。例如在線商品。
在已經(jīng)提出的基于深度學(xué)習(xí)的模型中,它們遵循類似嵌入向量與多層感知機(jī)結(jié)合的方式。在這些方法中,大規(guī)模稀疏輸入特征首先被映射到低維嵌入向量,然后以分組方式轉(zhuǎn)換為固定長(zhǎng)度的向量,最后連接在一起以饋入多層感知機(jī)以學(xué)習(xí)之間的非線性關(guān)系特征。這樣,無論候選商品是什么,用戶特征都被壓縮成一個(gè)固定長(zhǎng)度的表示向量,固定長(zhǎng)度向量也就意味著不能捕獲到興趣愛好之間的動(dòng)態(tài)進(jìn)化性。深度興趣網(wǎng)絡(luò)可以解決此問題,它通過設(shè)計(jì)一個(gè)局部激活單元來自適應(yīng)地從歷史行為中學(xué)習(xí)用戶興趣的表示。這種表示向量隨不同的商品而變化,極大地提高了模型的表達(dá)能力。但在將其應(yīng)用于推薦任務(wù)時(shí),卻缺少用戶和商品之間的關(guān)聯(lián)信息,所以并不能有效地處理用戶或商品的稀疏行為。
因此本文主要研究的是通過深度興趣模型與圖神經(jīng)網(wǎng)絡(luò)融合,以此來處理用戶和商品的稀疏行為。
1 問題描述
因?yàn)檗r(nóng)產(chǎn)品具有一定的季節(jié)性,所以在農(nóng)產(chǎn)品淡季的時(shí)候,人們很少會(huì)去搜索農(nóng)業(yè)產(chǎn)品。本文通過農(nóng)產(chǎn)品的特殊性研究,在深度興趣模型的基礎(chǔ)之上進(jìn)行改進(jìn)。
首先,當(dāng)用戶在農(nóng)產(chǎn)品電商平臺(tái)中進(jìn)行商品瀏覽時(shí),會(huì)在一定程度上表現(xiàn)出了自身的興趣偏好,用戶更傾向于選擇適合自己、符合自身喜好的農(nóng)資產(chǎn)品,偏好程度越高,瀏覽該農(nóng)產(chǎn)品的頻率越高,并且瀏覽產(chǎn)品頁面的時(shí)間越長(zhǎng),在推薦的過程中,用戶接受推薦的可能性就越大。其次,不同的用戶之間瀏覽或者購(gòu)買的相同農(nóng)資產(chǎn)品越多,用戶之間的相似度就越高。最后,在用戶訪問產(chǎn)品的時(shí)間差中,可以看出他們對(duì)商品的興趣差異。通常來說,在最近一段時(shí)間內(nèi),用戶所訪問過的農(nóng)產(chǎn)品,對(duì)其推薦產(chǎn)生的影響是非常大的,而在此之前,已經(jīng)瀏覽過或購(gòu)買過的農(nóng)產(chǎn)品,對(duì)推薦產(chǎn)生的影響是非常小的,這就說明,不同的農(nóng)產(chǎn)品,對(duì)于不同的用戶,其權(quán)重是不一樣的。
而現(xiàn)有的比較流行的模型大多為多層感知機(jī)通過池化不同分組的特征獲得固定長(zhǎng)度的興趣表示向量,然而,并非所有的歷史行為對(duì)于表征用戶興趣都起著同等重要的作用。長(zhǎng)短期記憶網(wǎng)絡(luò)與注意力網(wǎng)絡(luò)相結(jié)合組成的深度興趣模型,它的輸入融合了用戶畫像特征和歷史行為,利用用戶歷史行為序列信息,使用Attetion機(jī)制動(dòng)態(tài)構(gòu)建用戶興趣Embeeding,使模型能夠捕獲用戶興趣。
圖神經(jīng)網(wǎng)絡(luò)可以根據(jù)聚合網(wǎng)絡(luò)中多層鄰居節(jié)點(diǎn)對(duì)當(dāng)前節(jié)點(diǎn)的影響,更新節(jié)點(diǎn)的嵌入式表示,然后用更新的嵌入式表示完成后續(xù)工作,比如:節(jié)點(diǎn)的分類和鏈接預(yù)測(cè)[15]。
本文在深度興趣模型的基礎(chǔ)上融合圖神經(jīng)網(wǎng)絡(luò)完成混合推薦。混合推薦是指利用多個(gè)推薦模型來解決單個(gè)推薦模型可能存在的問題或者提升模型的整體推薦效果[16]。而在工業(yè)場(chǎng)景下,用戶的點(diǎn)擊行為除了會(huì)受用戶特征影響之外,還可能受到地理位置信息、時(shí)間信息、狀態(tài)信息等多種外界因素的干擾,因此混合推薦是工業(yè)界主流的推薦方案。阿里 ESSM(entireSpace multi-task model)[17]模型通過引入輔助任務(wù)預(yù)測(cè) pCTR(post-view click-through rate)pCTCVR(post-view click-through & conversionrate)來解決傳統(tǒng) CTR 中的樣本偏差和數(shù)據(jù)稀疏問題;DUPN(deep user perception network)[18]使用共享的4層結(jié)構(gòu)來減小模型規(guī)模,并預(yù)測(cè)了 CTR 指標(biāo)之外的用戶價(jià)格偏好、用戶達(dá)人偏好等下游任務(wù)。但是現(xiàn)有的傳統(tǒng)推薦算法不能完全適用于農(nóng)產(chǎn)品推薦,往往會(huì)造成推薦精度不高,不能很好地捕捉到用戶興趣。因此找出一種高效精準(zhǔn)的農(nóng)產(chǎn)品推薦方法,對(duì)于創(chuàng)造農(nóng)產(chǎn)品的經(jīng)濟(jì)效益具有重要意義。
2 DGNN-PR算法與實(shí)現(xiàn)
2.1 模型架構(gòu)
本文提出深度圖神經(jīng)網(wǎng)絡(luò)-商品推薦算法(deep graph neural networks-preference recommenda,DGNN-PR),其結(jié)構(gòu)圖如圖1所示。
該結(jié)構(gòu)由兩部分組成:①圖神經(jīng)網(wǎng)絡(luò),用來提取圖數(shù)據(jù)中各個(gè)節(jié)點(diǎn)的嵌入式表示;②將基于深度興趣模型得到的行為序列的表示和基于圖得到的用戶和商品之間關(guān)聯(lián)的表示做融合,也就是融合表征,完成混合推薦。從而,預(yù)測(cè)一對(duì)用戶-商品的購(gòu)買概率。
2.2 節(jié)點(diǎn)嵌入式表示層
該網(wǎng)絡(luò)也是用圖神經(jīng)網(wǎng)絡(luò)提取節(jié)點(diǎn)嵌入式信息的主要方法。
2.2.1 嵌入層
推薦系統(tǒng)的輸入數(shù)據(jù)由兩部分組成,分別是用戶集U={u1,u2,…,un} 和項(xiàng)目集I={i1,i2,…,im},其中n是用戶數(shù)量,m是項(xiàng)目數(shù)量,每個(gè)樣本中的屬性數(shù)量不相同。
將每個(gè)用戶(農(nóng)產(chǎn)品)的特征都通過Embedding映射為一個(gè)d維的嵌入向量。用戶集U的嵌入向量表示為PU={eU1,eU2,…,eUf},eUf∈d ,f為用戶的特征數(shù)量;項(xiàng)目集I的嵌入向量表示為PI={eI1,eI2,…,eIa},eIa∈d,a為項(xiàng)目的特征數(shù)量。在用戶圖中將特征作為節(jié)點(diǎn),特征間的聯(lián)系作為邊,當(dāng)兩個(gè)特征同時(shí)出現(xiàn)在一個(gè)樣本中時(shí)定義為這兩個(gè)特征是有聯(lián)系的。利用用戶-商品的交互信息構(gòu)建用戶-商品二部圖,如圖2所示。該二部圖的主要作用,是為了表示用戶和商品之間的關(guān)聯(lián)信息。比如一樣農(nóng)產(chǎn)品可以有多個(gè)分類,當(dāng)兩個(gè)屬性同時(shí)出現(xiàn)在一個(gè)樣本中,將定義為這兩個(gè)屬性是有聯(lián)系的。以用戶特征圖為例,頂點(diǎn)集合為VU={eU1,eU2,…,eUf},將用戶特征作為節(jié)點(diǎn)構(gòu)成的圖表示為GU={VU,EU},利用GNN的信息聚合和消息傳遞機(jī)制,學(xué)習(xí)每一個(gè)節(jié)點(diǎn)的向量。
2.2.2 GNN層
用戶特征交互圖包含了用戶各個(gè)特征之間的聯(lián)系,對(duì)用戶特征進(jìn)行交叉運(yùn)算可以更好地學(xué)習(xí)用戶的向量表示。將原始數(shù)據(jù)處理好之后輸入到GNN層中。在 GNN 消息傳遞機(jī)制中鄰居節(jié)點(diǎn)信息的聚合方法有求和、取平均和取最大值,這里采用取平均的方法來聚合鄰居節(jié)點(diǎn)的信息,以最大限度的保留各個(gè)鄰居節(jié)點(diǎn)對(duì)當(dāng)前節(jié)點(diǎn)的影響。GNN 的消息傳遞機(jī)制表示為
x(k)i=γ(k)(x(k-1)i,fj∈N(i)φ(k)(x(k-1)i,x(k-1)j,ej,i))(1)
其中: f為一種可微的、且置換不變的函數(shù);γ和φ均為可微分的函數(shù),γ函數(shù)性質(zhì)類似于常見的非線性激活函數(shù)。此機(jī)制相當(dāng)于把一個(gè)節(jié)點(diǎn)的領(lǐng)域節(jié)點(diǎn)特征聚合到該節(jié)點(diǎn)。聚合的信息主要有兩部分組成,第一部分主要是上一層中該節(jié)點(diǎn)自身的特征信息,第二部分是上一層中該節(jié)點(diǎn)和鄰居節(jié)點(diǎn)相連邊上所傳遞傳遞信息。當(dāng)前節(jié)點(diǎn)表示為
hi=δ(W·Aggregate{ej,j∈N(i)}+b)(2)
其中:Aggregate可以為Mean、Sum、Max等函數(shù);δ為激活函數(shù);N(i)為節(jié)點(diǎn)i在圖中的鄰居節(jié)點(diǎn)集合;ej為節(jié)點(diǎn)i的鄰居節(jié)點(diǎn);W和b為權(quán)重和偏置。目的是利用 GNN 的消息傳遞機(jī)制學(xué)習(xí)特征之間的聯(lián)系,也就是用戶和產(chǎn)品之間的關(guān)聯(lián)信息,得到用戶(商品)的嵌入向量表示。利用通過GNN得到的用戶(商品)的嵌入式表示與深度興趣模型得到的行為序列的表示進(jìn)行融合,這樣可以有效處理用戶或商品的稀疏行為。
2.3 使用深度興趣模型推薦
深度興趣的模型結(jié)構(gòu)如圖3所示。深度興趣模型中對(duì)于不同的候選商品,
通過目標(biāo)注意力機(jī)制來進(jìn)行用戶興趣的表示。模型中注意力機(jī)制是計(jì)算候選物品和用戶歷史行為中物品的相關(guān)性權(quán)重,與候選商品具有更高相關(guān)性的行為會(huì)獲得更高的激活權(quán)重并主導(dǎo)用戶興趣的表示。所以用戶的興趣表示矢量不再是統(tǒng)一的權(quán)重。即權(quán)重大小代表用戶歷史行為對(duì)候選商品的相關(guān)程度。計(jì)算公式如下:
Vu=f(Va)=∑Mi=1wi·Vi=∑Mi=1g(Vi,Va)·Vi(3)
其中:Vi為用戶u行為序列中第i次行為物品的嵌入向量;Va為候選商品的嵌入向量;Vu為用戶行為序列中所有行為物品的嵌入向量的加權(quán)和,以此表示用戶興趣;wi為Vi的權(quán)重,其含義為行為序列中的行為物品(Vi)與當(dāng)前候選商品(Va)對(duì)用戶表示(Vu)的貢獻(xiàn)程度。權(quán)重wi的計(jì)算通過使用激活函數(shù)計(jì)算得出,通過Dice激活函數(shù)輸出,表示為g(V,Vai)。通過這種計(jì)算方式,用戶的興趣向量Vu會(huì)隨著候選商品Va的變化而變化。深度興趣網(wǎng)絡(luò)通過給定候選商品的歷史行為來自適應(yīng)地計(jì)算用戶興趣的表示向量。通過引入注意力機(jī)制,深度興趣網(wǎng)絡(luò)通過搜索歷史行為的相關(guān)部分來關(guān)注相關(guān)的用戶興趣,并采用加權(quán)和池化來獲得用戶對(duì)候選商品的興趣表示。與候選商品具有更高相關(guān)性的行為會(huì)獲得更高的權(quán)重并主導(dǎo)用戶興趣的表示。
這樣,在不同的商品中,用戶興趣的表示向量是不同的,這提高了模型在有限維度下的表達(dá)能力,使得深度興趣模型能夠更好地捕捉用戶的多樣化興趣。
2.4 DGNN-PR學(xué)習(xí)過程
首先,將一對(duì)更新后的用戶和活動(dòng)的嵌入式表示進(jìn)行銜接,再將其融合深度興趣網(wǎng)絡(luò),最后輸入到MLP層,利用 sigmoid函數(shù)計(jì)算這對(duì)用戶和待推薦商品的購(gòu)買概率。計(jì)算如下:
uicj=sigmoid(xk)(4)
其中:xk為經(jīng)過k層MLP后,銜接向量的表示;uicj為DGNN-PR輸出的ui和cj之間存在邊的概率。
由于用戶和商品的交互只存在兩種情況,用戶決定購(gòu)買和選擇不購(gòu)買,因此隱式反饋的方式可以定義用戶的真實(shí)選擇,即如果ui選擇參加cj,則yuicj為1,反之為0。yuicj表示真實(shí)情況下ui是否購(gòu)買cj。為了計(jì)算yuicj和uicj的差距,使用二元交叉熵作為損失函數(shù),如式(5)所示:
L=-∑(ui,cj)∈Y∪Y--yuicjlogyuicj+(1-uicj)log(1-uicj)(5)
式中:Y為所有用戶的真實(shí)選擇;Y-為部分負(fù)交互的集合。
具體地,對(duì)于Y中每一對(duì)用戶-購(gòu)買的農(nóng)產(chǎn)品,通過均勻采樣的方式得到一對(duì)用戶-未購(gòu)買的農(nóng)產(chǎn)品,以通過這種方法獲得在訓(xùn)練過程中的均衡負(fù)例。本文使用Adam作為優(yōu)化器,并利用反向傳播誤差的方法迭代更新模型中的參數(shù)。
3 實(shí)驗(yàn)結(jié)果及分析
3.1 實(shí)驗(yàn)數(shù)據(jù)集選取和參數(shù)設(shè)置
由于該方面的公共數(shù)據(jù)集較少,所以本文主要選擇了從農(nóng)產(chǎn)品平臺(tái)抓取近兩年的數(shù)據(jù),這些數(shù)據(jù)是本文所有研究工作的基礎(chǔ),挖掘的深度越大,區(qū)域越廣,能夠挖掘用戶的歷史數(shù)據(jù)就越多,推薦效果就越好。而惠農(nóng)網(wǎng)(https://www.cnhnb.com/)則是專業(yè)的線上農(nóng)產(chǎn)品批發(fā)交易市場(chǎng),該數(shù)據(jù)集共有90938條數(shù)據(jù),它們包含了用戶ID、商品類別、購(gòu)買月份、用戶行為(如購(gòu)買次數(shù)、瀏覽、點(diǎn)贊、評(píng)論數(shù)、詢價(jià)數(shù))、購(gòu)買數(shù)量,如表1所示。
其中購(gòu)買月份為用戶最后一次購(gòu)買商品的時(shí)間。從而來驗(yàn)證所提出方法的性能,模型參數(shù)配置如表2所示。
3.2 實(shí)驗(yàn)結(jié)果及評(píng)估指標(biāo)
3.2.1 模型評(píng)價(jià)指標(biāo)
推薦場(chǎng)景中常使用AUC、準(zhǔn)確率(Precision)、召回率(Recall)、作為模型的評(píng)價(jià)指標(biāo),AUC被定義為 ROC 曲線下的面積。這是一種衡量模型預(yù)估結(jié)果與真實(shí)結(jié)果之間絕對(duì)差距的標(biāo)準(zhǔn)。AUC值越大表示模型的概率分布越合理,即模型的效果越好。
準(zhǔn)確率是指命中的商品數(shù)量與為用戶所推薦的商品數(shù)量的比率:
Precision=1N∑Nu=1|Ru∩Tu|n(6)
召回率表示命中的商品數(shù)量與被預(yù)測(cè)用戶實(shí)際訪問過的商品數(shù)量的比率:
Recall=1N∑Nu=1|Ru∩Tu||Tu|(7)
3.2.2 實(shí)驗(yàn)結(jié)果與討論
本實(shí)驗(yàn)在抓取的數(shù)據(jù)集上與經(jīng)典的推薦模型進(jìn)行了對(duì)比,作者在惠農(nóng)網(wǎng)農(nóng)產(chǎn)品電商平臺(tái)抓取的農(nóng)產(chǎn)品的數(shù)據(jù)集上,將以下幾種算法做對(duì)比,實(shí)驗(yàn)結(jié)果如表3所示。
從實(shí)驗(yàn)結(jié)果上可見,DGNN-PR的AUC為0.8307比于DIN提高了9%。這說明構(gòu)建圖神經(jīng)網(wǎng)絡(luò)對(duì)于推薦準(zhǔn)確率的提升產(chǎn)生了積極影響。而Wide & Deep和Deep FM相比于DIN分別降低了5%、3%。說明了固定長(zhǎng)度向量并不能很好的適應(yīng)捕用戶興趣愛好的動(dòng)態(tài)進(jìn)化型NGCN的準(zhǔn)確率和召回率分別為0.7238和0.2637,相比DIN,AUC提升了5%;GC-MC 的準(zhǔn)確率和召回率分別為0.7016和0.2549,相比于DIN算法AUC提升了3%;DIEN算法的AUC提升了1%,而本文提出的算法AUC,與 NGCF、GC-MC、DIEN、DIN、DeepFM、BaseModel和Wide&Deep相比分別提升4%、6%、8%、9%、10%、13%和14%。具體分析會(huì)在圖5中詳細(xì)說明。
圖4給出了8種算法在數(shù)據(jù)集上的AUC值的對(duì)比結(jié)果。由圖可見,BaseModel的性能最差,因?yàn)槠湫枰?xùn)練的參數(shù)規(guī)模大,所以不能在較少的迭代次數(shù)內(nèi)達(dá)到收斂,Cheng等[19]提出的Wide&deep和Guo[20]等人提出的DeepFM兩個(gè)模型都是通過池化的方式把用戶行為序列變成固定長(zhǎng)度的向量,這就導(dǎo)致了模型不能很好的適應(yīng)用戶興趣愛好的動(dòng)態(tài)進(jìn)化型。數(shù)據(jù)集上DeepFM的性能優(yōu)于Wide&deep,原因是Wide&deep模型結(jié)構(gòu)相對(duì)簡(jiǎn)單,其本質(zhì)是線性回歸的學(xué)習(xí)方式。DeepFM模型實(shí)現(xiàn)了特征之間的交互,而這種特征之間的交互通常能夠提高模型的學(xué)習(xí)能力。Zhou等[21]提出的DIN模型要優(yōu)于DeepFM模型,是因?yàn)镈IN可以解決固定長(zhǎng)度向量表征多樣用戶興趣不足的問題。但是卻缺少用戶和商品之間的關(guān)聯(lián)信息,所以并不能有效地處理用戶或商品的稀疏行為。Berg等[22]提出的GC-MC 和Wang等[23]提出的NGCF同為使用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行提取節(jié)點(diǎn)嵌入式表達(dá)的技術(shù),NGCF的性能明顯優(yōu)于GC-MC,原因是GC-MC只考慮一層鄰居的影響。而且NGCF的提取節(jié)點(diǎn)嵌入式表示過程中,聚合操作使用了銜接的方式,使得更新后節(jié)點(diǎn)的嵌入式表示的維度是原嵌入式表示的維度乘以聚合層數(shù),從而保留更多的鄰居信息結(jié)果在數(shù)據(jù)集上。具體鄰居層數(shù)對(duì)推薦性能的影響會(huì)在下一個(gè)實(shí)驗(yàn)中詳細(xì)說明。
對(duì)比實(shí)驗(yàn)說明:相較于之前的Wide&deep、BaseModel、DeepFM、DIN、DIEN算法,DGNN-PR由于學(xué)習(xí)到了用戶-商品之間的關(guān)系與用戶興趣愛好是動(dòng)態(tài)進(jìn)化的,能表現(xiàn)出更好的性能;和同樣使用圖神經(jīng)網(wǎng)絡(luò)提取節(jié)點(diǎn)嵌入式表示的GC-MC 和 NGCF 相比,DGNN-AR的AUC 和準(zhǔn)確率和召回率都有所提升;和同樣使用用戶行為序列變成固定長(zhǎng)度的向量的Wide&Deep和DeepFM模型相比AUC和準(zhǔn)確率和召回率都有所提升。
3.3 消融實(shí)驗(yàn)
本小節(jié)通過消融實(shí)驗(yàn)來檢驗(yàn)DGNN-PR模型的有效性。設(shè)計(jì)了3個(gè)試驗(yàn)進(jìn)行驗(yàn)證:A1:去除DGNN-PR算法中的Attention單元;A2:去除DGNN-PR算法中的GNN模型;A3:去除DGNN-PR算法中的深度興趣模型。
表4給出了DGNN-PR和3個(gè)實(shí)驗(yàn)的推薦性能。A1算法去掉了Attention單元,缺少了計(jì)算候選物品和用戶歷史行為中物品的相關(guān)性權(quán)重。A2算法相比A1明顯增加了Attention單元,但是卻去掉了GNN模型,缺少了用戶與商品之間關(guān)聯(lián)信息的學(xué)習(xí),其性能低于DGNN-PR算法。A3算法去掉了深度興趣模型,缺少了學(xué)習(xí)候選商品相關(guān)聯(lián)的歷史行為。這也說明了將基于深度興趣模型得到的行為序列的表示和基于圖得到的用戶和商品之間關(guān)聯(lián)的表示做融合,對(duì)模型效果的提升是有效的。
3.4 多層鄰居的影響
在農(nóng)產(chǎn)品數(shù)據(jù)集上,本文分別測(cè)試不考慮鄰居(DGNN-AR-0),考慮一層DGNN-AR-1)、兩層(DGNN-AR-2)、三層(DGNN-AR-3)、四層(DGNN-AR-4)鄰居的情況,實(shí)驗(yàn)結(jié)果如表5所示。
隨著鄰居層數(shù)的增加,AUC和 Precision、Recall均在逐漸增加,當(dāng)鄰居層數(shù)為3時(shí),都呈現(xiàn)為最好的測(cè)量值。這表明適當(dāng)增加鄰居層數(shù)能使更多鄰居對(duì)節(jié)點(diǎn)的嵌入式表示產(chǎn)生影響,從而對(duì)推薦模型的學(xué)習(xí)有正向作用。當(dāng)鄰居層數(shù)為4時(shí),AUC和Precision、Recall均小于鄰居層數(shù)為3的情況。其原因可能是在模型學(xué)習(xí)過程中考慮的鄰居層數(shù)過多,致使節(jié)點(diǎn)的嵌入式表達(dá)中含有大量的噪音信息,并由此導(dǎo)致了模型過擬合,使得在測(cè)試中出現(xiàn)性能下降。因此,基于用戶行為序列預(yù)測(cè)的混合推薦可以在多特征推薦系統(tǒng)中可以充分捕捉用戶信息并起到一定的輔助作用。
4 結(jié) 論
本文在經(jīng)典的深度興趣模型的基礎(chǔ)上進(jìn)行了改進(jìn),融合了圖神經(jīng)網(wǎng)絡(luò)模型。提出了DGNN-PR模型,從而解決原算法對(duì)用戶稀疏行為或物品稀疏行為無法處理的問題。首先,將數(shù)據(jù)集中的用戶和商品形式化成圖數(shù)據(jù);然后,通過圖神經(jīng)網(wǎng)絡(luò)提取圖數(shù)據(jù)中每個(gè)結(jié)點(diǎn)的嵌入式表示;最后將需要預(yù)測(cè)的一對(duì)用戶-商品的嵌入式表示輸入到深度興趣模型中,得到購(gòu)買概率。實(shí)驗(yàn)結(jié)果表明,該模型相比于深度興趣模型有較明顯的效果提升。相比于從同類使用圖神經(jīng)網(wǎng)絡(luò)提取節(jié)點(diǎn)嵌入式表達(dá)的算法,更適用于大規(guī)模稀疏網(wǎng)絡(luò);本文提出的模型對(duì)農(nóng)產(chǎn)品推薦任務(wù)更有效果。
參 考 文 獻(xiàn):
[1] 王睿,李鵬,孫名松.一種時(shí)間加權(quán)的網(wǎng)絡(luò)結(jié)構(gòu)推薦算法[J].哈爾濱理工大學(xué)學(xué)報(bào),2019,24(6):104.
WANG Rui, LI Peng, SUN Mingsong. A Network Structure Recommendation Algorithm Based on Time Weighting[J].Journal of Harbin University of Science and Technology,2019,24(6):104.
[2] 李建軍,付佳,楊玉等.基于用戶興趣的農(nóng)產(chǎn)品推薦技術(shù)研究[J].計(jì)算機(jī)科學(xué),2020,47(S1):521.
LI Jianjun. Research on Agricultural Products Recommendation Technology Based on User Interest[J].Computer Science,2020,47(S1):521.
[3] 王衛(wèi)兵,張立超,徐倩.一種基于受限波爾茲曼機(jī)的推薦算法[J].哈爾濱理工大學(xué)學(xué)報(bào),2020,25(5):62.
WANG Weibing,ZHANG Lichao,XU Qian. A Recommendation Algorithm Based on Restricted Boltzmann Machine[J].Journal of Harbin University of Science and Technology, 2020,25(5):62.
[4] LENGYJ,L U Q,Collaborative Filtering Recom-mendation Technology Review[J].Pattern Recognition and Arti-Ficial Intelligence,2014 (8): 50.
[5] MOU J J,LUO G K,XIONG Z B.Collaborative Filtering Algo-rithm Applied to the Recommendation of Attractions[J].Soft-ware Guide,2017(11):186.
[6] CHU X Q.Research on Financial Product Recommendation Basedon Collaborative Filtering and Immune-like Algorithms[D].Nan-chang:Nanchang University,2015.
[7] LI L,TANG X J.Research on Cold Start Problem of Recommendation System Based on Decision Aggregation Model[J].Journal of Hubei University( Philosophy and Social Sciences),2016,43(2):41.
[8] GANDHI MONALI.An Enhanced Approach Towards Tourism Recommendation System with Hybrid Filtering and Association[J]. National Journal of System and Information Technology,2015(8):1.
[9] YU M Y,ZHI H C.Design of a Hybrid Collaborative Filtering Method Based on Agricultural Product Recommendation[J].Automation Technology and Application,2017,36(2):82.
[10]JIANG S H,QIAN X M,SHEN J L,et al.Travel Recommendation Via Author Topic Model Based Collaborative Filtering[J].International Conference on Multimedia Modeling,2015:392.
[11]XU B B,WANG W S,GUO L F.Application of Improved Collaborative Filtering Algorithm in Agricultural Materials E-commerce Website[J].Jiangsu Agricultural Sciences,2018,46(16):197.
[12]GUO W G.The Framework of Semantic Retrieval Recommendation System Based on Agricultural Ontology[J].Computer Knowledge and Technology,2019,15(17):191.
[13]顏金堯,張海龍,蘇毓敏.計(jì)算廣告中的點(diǎn)擊率和轉(zhuǎn)化率預(yù)測(cè)研究[J].中國(guó)傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,28(2):54.
YAN Jinyao, ZHANG Hailong, SU Yumin. Recent Research on the Click-through Rate and Conversion Rateprediction in Computational Advertising[J].Journal of Communication University of China(Science and Technology),2021,28(2):54.
[14]ZHOU G,ZHU X,SONG C,et al.Deep Interest Network Forclick-through Rate Prediction[C]. London:Proceedings of the Twenty-fourth ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, ACM,2018.
[15]HAMILTON W L, YING R, LESKOVEC J. Representationlearning on Graphs: Methods and Applications[J]. arX-iv:1709. 05584, 2017: 1.
[16]魏曉輝,孫冰怡,崔佳旭.基于圖神經(jīng)網(wǎng)絡(luò)的興趣活動(dòng)推薦算法[J].吉林大學(xué)學(xué)報(bào)(工學(xué)版),2021,51(1):278.
WEI Xiaohui, SUN Bingyi, CUI Jiaxu, Interest Activity Recommendation Algorithm Based on Graph Neural Network[J]. Journal of Jilin University (Engineering and Technology Edition), 2021,51(1):278.
[17]MA X,ZHAO L,HUANG G,et al.Entire Space Multi-task Model: An Effective Approach for Estimating Post-click Conversion Rate[C]// Ann Arbor:Proceedings of the Forty-first International ACM SIGIR Conference,2018.
[18]NI Y,OU D,LIU S,et al.Perceive Your Users in Depth:Learning Universal User Representations from Multiple Ecommerce Tasks[C]// London:Proceedings of the Twenty-fourth ACM SIGKDD International Conference, 2018.
[19]CHENG H T, KOC L, HARMSEN J, et al. Wide & Deep Learning for Recommender Systems[J].ACM, 2016.
[20]GUO H, TANG R, YE Y, et al. Deep FM: A Factorization-Machine Based Neural Network for CTR Prediction[J].2017.
[21]ZHOU G, SONG C, ZHU X, et al.Deep Interest Network for Click-Through Rate Prediction[J].2017.
[22]BERG R V D, KIPF T, WELLING M. Graph Convolution-almatrix Completion[C] ∥Proceedings of the 24th ACM SIGKDD International Conference on Knowl-edge Discovery and Data Mining, London, UK,2018.
[23]WANG X, HE X, WANG M, et al. Neural Graph Collab-orative Filtering[C]∥Proceedings of the 42nd Interna-tional ACM SIGIR Conference on Research and De-velopment InInformation Retrieval, Paris, France,2019:165.
(編輯:溫澤宇)