朱妮
[提要] 本文基于隱形反饋數(shù)據(jù)集提出區(qū)分用戶長期興趣和短期興趣的推薦模型DYLSI,該模型主要考慮到用戶興趣、項目流行度隨時間的變化以及長短期興趣的不同,針對數(shù)據(jù)稀疏、用戶興趣刻畫不細(xì)致等問題提出解決方案。實驗結(jié)果表明:與傳統(tǒng)的遺忘曲線、時間窗口和基于矩陣分解的協(xié)同過濾相比,本模型在F1-Score評價指標(biāo)上展現(xiàn)出更加優(yōu)越的性能。同時,本文計算用戶興趣偏好時,提取長短期興趣集合、用戶活躍度、項目流行度相關(guān)指標(biāo),可為用戶自動打標(biāo)簽,為后續(xù)研究用戶興趣的動態(tài)演化過程或者網(wǎng)站功能擴(kuò)展提供更多選擇。
關(guān)鍵詞:興趣漂移;動態(tài)推薦;長短期興趣;隱式反饋
中圖分類號:F724.6 文獻(xiàn)標(biāo)識碼:A
收錄日期:2020年3月10日
一、引言
在互聯(lián)網(wǎng)時代,用戶和項目數(shù)量均以指數(shù)級迅速增長,帶來海量信息的同時也引發(fā)了信息過載。Media Research(艾媒咨詢)數(shù)據(jù)顯示,截至2019年,中國移動電商用戶規(guī)模將突破7億人。各大電商平臺正在尋求一種個性化推薦的服務(wù)模式,對不同的用戶提供不同的服務(wù)策略和服務(wù)內(nèi)容,其中,用戶興趣建模的準(zhǔn)確性是個性化推薦系統(tǒng)的關(guān)鍵。
在目前用戶興趣建模的研究成果梳理中發(fā)現(xiàn),針對用戶興趣遷移問題,經(jīng)典的解決方法為時間窗口和遺忘曲線,而這些算法往往將用戶興趣衰減同等對待,沒有考慮到用戶興趣類型的不同。通常長期興趣較穩(wěn)定,而短期興趣不穩(wěn)定,但具有很高的實時性。另外,推薦領(lǐng)域的絕大多數(shù)文獻(xiàn)都側(cè)重于處理顯式評分?jǐn)?shù)據(jù),然而在許多實際情況下,特別是在電商商務(wù)推薦系統(tǒng)需要以隱式反饋為中心。針對以上問題,本文基于隱性反饋數(shù)據(jù)集提出了區(qū)分用戶長期興趣和短期興趣的用戶動態(tài)推薦模型DYLSI,通過對用戶興趣進(jìn)行追蹤和建模,提取出用戶的長短期興趣模式,捕捉用戶興趣漂移,并得到用戶興趣分布,進(jìn)一步豐富用戶畫像。
二、文獻(xiàn)綜述
(一)國外研究現(xiàn)狀。在基于長短期興趣混合的動態(tài)興趣模型中,Shtykh和Jin采用多層次的動態(tài)文件結(jié)構(gòu)來反映用戶興趣的波動性,其中包含表示長期興趣的層次和短期興趣的層次,并強(qiáng)調(diào)了長期興趣的穩(wěn)定性。Lee等人提出一種新的正態(tài)分布密度曲線遺忘函數(shù),并將用戶模型定義為長短期興趣相結(jié)合的混合興趣模型,短期模型使用滑動窗口算法進(jìn)行更新,長期模型采用正態(tài)漸進(jìn)遺忘算法進(jìn)行更新。Li等人在新聞個性化推薦中結(jié)合了長期興趣和短期興趣,首先根據(jù)用戶長期興趣的配置文件來區(qū)分用戶可能喜歡的新聞組,然后在每個長期興趣對應(yīng)的推薦列表中根據(jù)短期興趣進(jìn)行推薦。Bennett將用戶興趣劃分為長期興趣、短期興趣和除去短期興趣的長期興趣,實驗結(jié)果表明結(jié)合這三種興趣模式的檢索準(zhǔn)確率最高。
(二)國內(nèi)研究現(xiàn)狀。在基于長短興趣融合的動態(tài)興趣模型中,馮永等人提出一種攜帶歷史元素的循環(huán)神經(jīng)網(wǎng)絡(luò)推薦模型負(fù)責(zé)用戶短期動態(tài)興趣建模,基于前饋神經(jīng)網(wǎng)絡(luò)推薦模型對用戶長期興趣建模。黃敦賢將用戶興趣分為長期興趣、短期興趣和偶然興趣,分析三類興趣對用戶未來興趣預(yù)測的影響,構(gòu)建用戶動態(tài)興趣模型。在呂學(xué)強(qiáng)等人的研究中,將用戶興趣分為短期興趣集合和長期興趣集合,通過滑動時間窗口來控制和判斷。在伍大清等人的研究中,將用戶興趣分為長期興趣和短期興趣,對短期興趣采用滑動窗口處理更新,對長期興趣采用最少使用淘汰算法。在王曉春等人的研究中,設(shè)計一種長短興趣結(jié)合的通用方法,將短期歷史近似定義為與測試查詢時間距離最近的n次的記錄,并根據(jù)不同n的取值計算短期興趣。
三、用戶長短期興趣識別算法
現(xiàn)有的協(xié)同過濾算法在計算推薦過程中將用戶訪問過的每個資源同等對待,這顯然是不合理的。一般來說,用戶近期訪問過的資源對推薦該用戶未來可能感興趣的資源起比較重要的作用,而早期的訪問記錄對生成推薦影響相對較小,這是因為用戶的興趣隨時間的推移不斷變化,而在較短的一段時間內(nèi)用戶的興趣是相對穩(wěn)定的,因此一個用戶感興趣的資源最可能是他近期訪問過的相似資源。
傳統(tǒng)推薦算法只考慮用戶間的相似性或項目間的相似性,而忽略了用戶興趣的動態(tài)變化,從而導(dǎo)致推薦精度會隨時間推移而下降。本文將用戶興趣分為短期興趣集合S和長期興趣集合L,通過時間窗口來控制和判斷,當(dāng)時間窗口內(nèi)對商品類別p的訪問次數(shù)超過閾值,將p加入短期興趣集合S。在時間窗口外,將訪問次數(shù)大于所有商品類別平均訪問次數(shù)的加入長期興趣集L。剩余的標(biāo)識為無興趣。具體操作步驟如下:(1)設(shè)定時間窗口T的大小;(2)計算用戶u對商品類別i的訪問次數(shù)c;(3)設(shè)定短期興趣判斷閾值α,在時間窗口內(nèi),當(dāng)c>α?xí)r,將商品類別i加入用戶u的短期興趣集合S中;(4)在時間窗口外,計算用戶u對所有商品類別的平均訪問次數(shù)avg_c,當(dāng)c>avg_c時,將商品i加入到用戶u的長期興趣集合S中;(5)根據(jù)長短興趣集合中的商品在“雙十一”當(dāng)天用戶購買集合中的命中率,來確定參數(shù)T,α;(6)基于長短期興趣列表進(jìn)行TOP N推薦。
四、實驗與分析
(一)實驗設(shè)計
1、實驗數(shù)據(jù)。本文實驗數(shù)據(jù)采用的是來自廈門大學(xué)數(shù)據(jù)庫實驗室的淘寶2015年雙11交易數(shù)據(jù)集,包括了用戶id、商品id、商品類別、用戶操作行為類型(包括點擊、加購物車、購買和關(guān)注商品)和操作時間。
2、評估指標(biāo)。精準(zhǔn)率指分類正確的正樣本個數(shù)占分類器判定為正樣本的樣本個數(shù)的比例,召回率指分類正確的正樣本個數(shù)占真正的正樣本個數(shù)的比例,F(xiàn)1 score是精準(zhǔn)率和召回率的調(diào)和平均數(shù),見式(1)。
(1)
(二)實驗結(jié)果與分析
1、長短興趣劃分。通過用戶歷史數(shù)據(jù)來提取用戶的長短期興趣列表,然后對比預(yù)測日當(dāng)天用戶的實際購買行為,來獲取預(yù)測的準(zhǔn)確性。根據(jù)長短興趣提取規(guī)則,時間窗口大小T和短期興趣判斷閾值α能影響實驗結(jié)果,因此根據(jù)時間窗口T和短期興趣判斷閾值α的不同取值進(jìn)行對比實驗。(圖1)
由圖1可知,時間窗口相同的情況下,隨著α值增大,F(xiàn)1-score呈現(xiàn)先增長后減小的趨勢。在相同α取值下,隨著時間窗口增大,F(xiàn)1-score呈現(xiàn)先增大后減小的趨勢。本文實驗中,當(dāng)T=11,α=1時,長短期興趣提取規(guī)則的F1-score最高。
2、基于長短期興趣列表的TOP N推薦。根據(jù)用戶長短興趣區(qū)分及用戶興趣模式研究,可以得到長期興趣列表和短期興趣列表,在對用戶進(jìn)行TOP N推薦時,需要考慮推薦列表中元素的排序問題。首先考慮不區(qū)分長短興趣的排序問題,即將長期興趣推薦列表中元素和短期興趣推薦列表中元素混合,然后根據(jù)用戶u對項目i的操作頻次降序排列,選取頻次最高的前N個元素進(jìn)行推薦。
根據(jù)實驗結(jié)果,對于短期興趣推薦列表,精準(zhǔn)率為42.54%,召回率為20.11%,F(xiàn)1-Score為27.21%;對于長期興趣推薦列表,精準(zhǔn)率為17.08%,召回率為25.56%,F(xiàn)1-Score為20.47%。故短期興趣推薦列表中的精準(zhǔn)率遠(yuǎn)高于長期興趣推薦列表,而召回率略小于長期興趣推薦列表。綜合來看,短期興趣推薦列表的F1-Score值比長期興趣推薦列表高6%左右,因此短期推薦列表的推薦效果更好,基于長短期興趣列表的TOP N推薦中,應(yīng)區(qū)分長短期興趣,優(yōu)先推薦短期興趣、然后推薦長期興趣,不足N個時用最高頻次的無興趣列表中元素補(bǔ)充。
為了比較本文提出的算法與傳統(tǒng)算法之間捕捉用戶興趣漂移的效果,將本文的混合模型與傳統(tǒng)應(yīng)對興趣漂移的遺忘曲線、時間窗口和基于矩陣分解的協(xié)同過濾算法進(jìn)行對比。(圖2)
圖2給出了不同TOP N推薦數(shù)目N對推薦F1-Score的影響,其中N分別取值5、10、15、20、25。比較本文模型與基于矩陣分解的協(xié)同過濾、遺忘曲線和時間窗口算法,在不同N取值下本文模型的F1-Score均高于遺忘曲線和時間窗口,說明了本文模型在捕捉用戶興趣漂移的良好效果。
五、結(jié)論
用戶的興趣隨著時間的變化是不斷變化的,用戶興趣模式可以分為長期興趣和短期興趣,通常來說,長期興趣比較穩(wěn)定,而短期興趣不穩(wěn)定。本文首先通過用戶長短期興趣模式的區(qū)分和識別研究,得到用戶長期興趣列表和短期興趣列表。針對長短期興趣推薦排序問題,通過對比試驗結(jié)果,基于長短期興趣列表的TOP N推薦應(yīng)區(qū)分長短期興趣,并優(yōu)先推薦短期興趣、其次推薦長期興趣。對比于時間窗口、遺忘曲線和基于矩陣分解的協(xié)同過濾算法,本文算法在F1-score上獲得更好的效果。
本文基于用戶描述文件計算用戶興趣偏好時,結(jié)合長短期興趣模型,優(yōu)化了推薦中隨時間變化的興趣漂移問題,同時提取了長短期興趣集合、用戶活躍度、項目流行度相關(guān)指標(biāo),可為用戶自動打標(biāo)簽,為后續(xù)研究或者網(wǎng)站功能擴(kuò)展提供更多選擇。同時,細(xì)分用戶長短期興趣之后,可以持續(xù)追蹤用戶長短興趣之間的演化機(jī)制,進(jìn)一步研究用戶興趣的動態(tài)演化過程,具有很強(qiáng)的現(xiàn)實意義和應(yīng)用價值。
主要參考文獻(xiàn):
[1]艾媒新零售產(chǎn)業(yè)研究中心.2019中國電商半年度發(fā)展全景報告[EB/OL].艾媒網(wǎng),2019.
[2]Shtykh R Y,Jin Q.Dynamically constructing user profiles with similarity-based online incremental clustering[J].International Journal of Advanced Intelligence Paradigms,2009.1(4).
[3]Lee S K,Cho Y H,Kim S H.Collaborative filtering with ordinal scale-based implicit ratings for mobile music recommendations[J].Information Sciences,2010.180(11).
[4]Li L.,Zheng L.,Yang F.,et al.Modeling and broadening temporal user interest in personalized news recommendation[J].Expert Systems with Applications,2014.41(7).
[5]Bennett P.Modeling the Impact of Short- and Long-Term Behavior on Search Personalization[C].International Acm Sigir Conference on Research & Development in Information Retrieval.ACM,2012.
[6]馮永,張備,強(qiáng)保華,張逸揚,尚家興.MN-HDRM:長短興趣多神經(jīng)網(wǎng)絡(luò)混合動態(tài)推薦模型[J].計算機(jī)學(xué)報,2018.
[7]黃敦賢.推薦系統(tǒng)中的用戶動態(tài)興趣模型研究[D].華南理工大學(xué),2018.
[8]呂學(xué)強(qiáng),王騰,李雪偉,董志安.基于內(nèi)容和興趣漂移模型的電影推薦算法研究[J].計算機(jī)應(yīng)用研究,2018.35(3).
[9]伍大清,陽小華,馬家宇,胡東,吳取勁.基于隱式反饋的用戶興趣漂移方法[J].計算機(jī)應(yīng)用與軟件,2010.27(9).
[10]王曉春,李生,楊沐昀,趙鐵軍.一種長短期興趣結(jié)合的個性化檢索模型[J].中文信息學(xué)報,2016.30(3).