• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于隱式數(shù)據(jù)的改進LFM-SGD 協(xié)同過濾推薦算法

      2023-05-24 09:06:12李志豪李仁港蔣小菲
      智能計算機與應用 2023年5期
      關(guān)鍵詞:梯度物品協(xié)同

      李志豪,李仁港,蔣小菲

      (貴州大學 大數(shù)據(jù)與信息工程學院,貴陽 550025)

      0 引言

      隨著科技時代爆炸式的發(fā)展速度,“人工智能+大數(shù)據(jù)”引爆了時代熱點,處于大數(shù)據(jù)時代中心的人們,將面臨眼花繚亂的篩選。一方面既要花費大量時間進行數(shù)據(jù)的篩選,又很難從大量的數(shù)據(jù)中找出自己感興趣的部分;另一方面也會使大量冗余信息成為網(wǎng)絡中的“隱信息”[1-2],無法被普通用戶索取。個性化推薦模型能夠根據(jù)用戶的歷史行為以及對物品的行為信息,向目標用戶提供符合其興趣的物品和信息。個性化推薦中使用的主流技術(shù)包括關(guān)聯(lián)規(guī)則、深度學習、神經(jīng)網(wǎng)絡、知識圖譜、聚類算法、協(xié)同過濾算法[3]等等。其中,協(xié)同過濾算法是目前推薦算法領(lǐng)域內(nèi)應用最多的一類。

      推薦算法的研究始于上世紀90 年代初期,經(jīng)過30 多年的積累和沉淀,雖然已形成了較為成熟穩(wěn)定的體系,但并沒有形成統(tǒng)一的分類標準。2019 年,Serhii Chalyi 等人[4]提出了一種利用時間約束,在推薦系統(tǒng)冷啟動情況下建立推薦的方法。該方法在時間約束的幫助下,雖然對興趣周期性變化的“冷”用戶,可以提高相應推薦的準確性,但相對來講不夠靈活,不能采用更多的信息進行預測計算。2021 年,Nam Le Nguyen Hoai 等人[5]提出了一種基于用戶記憶的協(xié)同過濾推薦算法。該算法通過對目標函數(shù)的優(yōu)化,雖然在一定程度上解決了冷啟動的問題,但無法對數(shù)據(jù)稀疏性有更好的幫助。2022 年,吳錦昆等人[6]提出了一種基于改進相似度的協(xié)同過濾算法。該算法由改進皮爾遜相似度公式計算用戶相似度,針對不同用戶具有不同評價體系存在一定偏差問題,從引入用戶差異因子來提高推薦的精度,取得了一定的效果,但該算法在用戶評價數(shù)據(jù)規(guī)模較大的情況下,效果并不明顯。

      針對用戶的評價數(shù)據(jù)規(guī)模大、數(shù)據(jù)稀疏、傳統(tǒng)的矩陣分解算法響應緩慢、推薦精度和準確度低,以及冷啟動等問題,本文在傳統(tǒng)協(xié)同過濾和模型訓練等推薦算法的基礎上,結(jié)合矩陣分解[7]的思想,對隱式數(shù)據(jù)[8-9]進行調(diào)整,提出改進后的LFM-SGD 協(xié)同過濾推薦算法。采用改進后的矩陣分解思想,用隨機梯度下降的思想來獲得最優(yōu)路徑,通過隱式數(shù)據(jù)維度降低原始評分數(shù)據(jù)索引,對目標用戶推薦其感興趣且未接觸過的物品,可以有效提高推薦算法的準確度。

      1 協(xié)同過濾推薦算法

      1.1 基于用戶的協(xié)同過濾推薦算法(UserCF)

      基于用戶的協(xié)同過濾算法[10]是通過對隱式信息反饋,來預測用戶對該物品的興趣大?。煌ㄟ^對所有用戶興趣的瀏覽行為,來計算用戶之間的相似性;對用戶相似度進行排序,取相似度最高的前K個用戶作為目標用戶的鄰域,根據(jù)鄰域內(nèi)的前K個用戶的相似性特征,來預測目標用戶對未訪問過的物品的喜好程度;最后按照物品集合中的預測評分排列順序,完成對目標用戶的推薦。模型實現(xiàn)過程如下:

      (1)用戶-物品矩陣

      假設有M個用戶,N個項目,用戶對項目評過分的歷史行為設為1,未評過分的項目設為0,用戶-物品矩陣如下:

      其中,Rjk表示用戶j對物品k是否有評分行為。

      (2)為減少計算量,將用戶-物品矩陣轉(zhuǎn)化為統(tǒng)計有共同評分的倒排表,物品-用戶倒排表如下:

      其中,Wuv表示用戶u與用戶v共同評過分的物品數(shù)量。

      (3)采用Jaccard 公式計算用戶的相似度,如式(3)所示:

      其中,Wuv含義同上所述;N(u)表示用戶u評過分的物品集合;N(v)表示用戶v評過分的物品集合;最終得到用戶的相似度矩陣W。

      (4)用戶u對物品i的感興趣程度用式(4)進行預測:

      其中,S(u,K)表示與用戶u相似度最接近的K個用戶的集合;N(i)是對物品i有過評分行為的用戶集合(即在對物品i有過評分行為的用戶集合中找出與用戶u相似度最接近的K個用戶集合);Wuv是用戶u與用戶v的相似度;Rvi表示用戶v對物品i的評分行為。由于采用的是單一行為的隱式反饋數(shù)據(jù),故令Rvi的值等于1。

      (5)當所有預測完成后,對P(u,i)的結(jié)果進行降序排序,取前N個物品推薦給用戶。

      1.2 基于物品的協(xié)同過濾推薦算法(ItemCF)

      基于物品的協(xié)同過濾算法是通過對隱式信息反饋來預測用戶對該物品的興趣大小,通過對所有物品的被瀏覽行為來計算物品之間的相似性,對物品相似度進行排序,取相似度最高的前K個物品并結(jié)合用戶的行為,預測目標用戶對未訪問過的物品的喜好程度,最后按照物品集合中的預測評分完成對目標用戶的推薦。模型實現(xiàn)過程如下:

      (1)用戶-物品矩陣

      假設有M個用戶,N個項目,用戶對項目評過分的歷史行為設為1,未評過分的項目設為0,用戶-物品矩陣如式(1)。

      (2)為減少計算量,將用戶-物品矩陣轉(zhuǎn)化為統(tǒng)計有共同愛好的倒排表,物品-用戶倒排表如下:

      其中,Cij表示物品i和物品j共同被喜歡的用戶數(shù)量。

      (3)采用Jaccard 公式(式(6))計算物品i與物品j的相似度,并用Wij表示用戶的相似度矩陣。

      其中,Cij表示物品-用戶倒排表中記錄的物品i與物品j被共同評過分的用戶集合;N(i)表示物品i被評分過的用戶集合;N(j)表示物品j被評分過的用戶集合;最終得到用戶的相似度矩陣W。

      (4)用戶u對物品j的感興趣程度用式(7)進行預測。

      其中,S(j,K)表示與物品j相似度最接近的K個物品的集合;N(u)是對用戶u有過評分行為的物品集合;Wij是物品i與物品j的相似度;Rui表示用戶u對物品i的興趣。由于采用單一行為的隱式反饋數(shù)據(jù),故當用戶u對物品i有過評分行為時Rui =1。

      (5)當所有預測完成后,對P(u,j)的結(jié)果進行降序排序,取前N個物品推薦給用戶。

      2 LFM 與SGD 算法

      2.1 LFM 推薦算法

      隱語義模型[11-12](Latent Factor Model,LFM)推薦算法采用用戶的歷史行為數(shù)據(jù)來對用戶進行相關(guān)內(nèi)容推薦,是協(xié)同過濾(Collaborative Filtering,CF)推薦算法的一種。在協(xié)同過濾算法中,當用戶或項目內(nèi)容數(shù)量過多時,會導致用戶-項目矩陣維度過大,且相關(guān)矩陣是稀疏的。LFM 算法的核心思想是矩陣分解(Matrix Factorization),其引入了一個隱式特征,將稀疏的用戶-項目矩陣分解成相對稠密的用戶-特征矩陣與特征-項目矩陣,極大的減少了空間復雜度。LFM 算法矩陣分解[13]原理如圖1 所示。

      圖1 LFM 矩陣分解原理Fig.1 LFM matrix decomposition schematic

      如圖1 所示,假設R是一個M ×N的用戶-項目評分矩陣,LFM 算法的思想是要找到兩個低維矩陣P、Q,同時引入一個隱式特征參F,如公式(8)所示,將用戶-物品評分矩陣RM×N分解成用戶-特征矩陣PM×F與特征-物品矩陣QF×N。

      將被推薦用戶記為u,推薦物品為i,則LFM 算法可通過公式(8)來預測用戶u對物品i的感興趣程度:

      式中:F為隱式特征參數(shù),Puf表示用戶u與隱特征f的貢獻度,Qfi表示隱特征f對物品i的貢獻度,根據(jù)Predict(u,i)值的大小,從用戶u對物品i的感興趣程度排序高低,向用戶推薦其感興趣且未瀏覽過的物品。

      2.2 SGD 算法

      梯度下降[13-15]是迭代算法的一種,常用于求解最小二乘問題。在求解機器學習的模型參數(shù),即無約束優(yōu)化問題時,梯度下降是最常采用的方法之一。梯度下降的原理是通過對其求解損失函數(shù)的最小值,使用迭代的思想來求解,通過迭代得到最小化的損失函數(shù)和模型參數(shù)值。

      假設有m個樣本,其回歸方程如式(9)、樣本的損失函數(shù)如式(10):

      其中,hθ(xi)代表樣本的實際值,yi表示對樣本的預測值。分別對θ0和θ1求偏導:

      得到兩個變量的偏導數(shù)(即梯度后),根據(jù)負梯度的方向更新參數(shù)。重復更新的公式為:

      其中,α為學習率。

      假設一個用戶-物品評分矩陣R是一個m × n矩陣,根據(jù)矩陣分解的思想,將一個大的稀疏矩陣分解成兩個相對稠密的矩陣乘積,即矩陣R可以近似表示為P與Q的乘積:Rm×n =Pm×F ×QF×n。

      將梯度下降的思想應用于矩陣當中,使用原始的用戶-物品矩陣R(m,n)與預測評分矩陣R'(m,n)之間的誤差平方作為損失函數(shù),即

      其中,α是梯度下降的學習率。

      2.3 改進的LFM-SGD 算法

      2.3.1 算法設計

      本文將隱式數(shù)據(jù)結(jié)合協(xié)同過濾推薦算法,利用隱語義模型(LFM)將原始的用戶-物品矩陣分解成兩個低維且數(shù)據(jù)稀疏性小的矩陣相乘,且將原始的用戶-物品評分矩陣簡化為沒有用戶評分的矩陣,即用戶物品矩陣Ru×i中,用戶u對物品i有過評分行為設為1,否則設為0。通過隨機梯度下降(SGD)算法,預測用戶對未接觸過的物品喜好程度,取前N個物品進行推薦。該算法能有效緩解評分矩陣數(shù)據(jù)稀疏性的問題,在一定程度上提高了推薦的準確度。算法原理如圖2 所示。

      圖2 整體算法原理圖Fig.2 Overall algorithm schematic

      2.3.2 SGD 優(yōu)化算法

      為優(yōu)化算法擬合的結(jié)果,在求解最優(yōu)解的同時防止過擬合,在損失函數(shù)式(15)中引入一個懲罰因子λ,將式(15)優(yōu)化為

      結(jié)合梯度式(13)、式(14),并按梯度方向更新向量式(16)、式(17),得到最終公式如下:

      3 驗證與分析

      本文驗證數(shù)據(jù)來源于美國Minnesota 大學GroupLens 網(wǎng)站提供的MovieLens-latest-small 數(shù)據(jù)集,數(shù)據(jù)集沒有相關(guān)的電影內(nèi)容簡介。該數(shù)據(jù)集囊括100 836 條評分數(shù)據(jù),610 個用戶,9 724 部電影,3 683個標簽。每個用戶至少對20 部電影進行過評分,評分采用5 分制,以0.5 分為增量。測試集與訓練集數(shù)量比例為1:6,且不采用顯示評分數(shù)據(jù)。將用戶有過行為的電影設置為1,沒有則為0。

      3.1 算法評估指標

      本文采用準確率(Precision)、召回率(Recall)、覆蓋率(Coverage)作為算法的評估指標。其中,準確率表示推薦項目列表中含有測試集中的數(shù)量與所有推薦項目數(shù)的比率;召回率表示用戶推薦數(shù)量與測試集中用戶有過行為的項目數(shù)的比率;覆蓋率表示所有推薦項目數(shù)與總項目數(shù)的比率。假設A是正確預測的樣本數(shù)量,B是測試集得到的所有用戶的推薦樣本數(shù),C是測試集中所有用戶有過歷史行為的樣本數(shù),D是整個數(shù)據(jù)集中的樣本數(shù),則指標計算公式如下:

      3.2 實驗與結(jié)果分析

      實驗1分析模型超參數(shù)學習率α、正則化懲罰因子λ、隱式特征參數(shù)F、迭代數(shù)η對算法評估指標的影響。

      由圖3 可以看出,評估指標呈現(xiàn)先增大后減小的趨勢。當學習率α為0.01 時Precision為20.915%,Recall為9.888%,Coverage為6.582%;由圖4 可以看出,指標呈現(xiàn)先增大后平緩減小的趨勢。當懲罰因子λ為0.01 時,Precision為20.015%,Recall為9.655%,Coverage為6.438%;當α、λ大于0.01 時,整體評估效果開始下降。

      圖3 學習率α 對評估指標的影響Fig.3 Influence of learning rate α on evaluation index

      圖4 懲罰因子λ 對評估指標的影響Fig.4 Influence of penalty factor λ on evaluation index

      從圖5 可以看出,隱式特征參數(shù)F的取值對整體評估的影響并不明顯。當F =95 時,3 個指標取得局部最大值,Precision為20.401%,Recall為9.887%,Coverage為6.592%;而從圖6 得知,隨著迭代數(shù)η的增加,3 條曲線呈現(xiàn)緩慢上升隨后平緩下降的過程。當?shù)鷶?shù)η =30 時,Precision為20.066%,Recall為9.456%,Coverage為6.674%。

      圖5 隱式特征參數(shù)F 對評估指標的影響Fig.5 Influence of F on evaluation index

      圖6 迭代數(shù)η 對評估指標的影響Fig.6 Influence of η on evaluation index

      綜上所述,模型最終超參數(shù)設定為:α =0.01,λ =0.01,F(xiàn) =100,η =30。

      實驗2固定模型超參數(shù),比較3 種算法的性能指標差異。

      由圖7 可知,融合LFM 的SGD 算法3 個指標均比基于用戶(UserCF)和基于物品(ItemCF)的協(xié)同過濾推薦算法效果好。其覆蓋率、召回率、準確率分別比UserCF 提高了0.761%、1.131%和3.175%,比ItemCF 提高了0.154%、1.388%、和3.898%。

      圖7 三種算法差異對比Fig.7 Comparison of the differences between the three algorithms

      實驗3將融合后的算法分別在ml-latestsmall 和ml-1m 數(shù)據(jù)集上驗證。

      從圖8 可以看出,在更大規(guī)模的ml-1m 數(shù)據(jù)集上驗證算法指標效果比小規(guī)模數(shù)據(jù)集更好。在一定程度上,改進的LFM-SGD 算法對大規(guī)模數(shù)據(jù)集效果更為顯著。

      圖8 不同大小的數(shù)據(jù)集對比效果Fig.8 Comparison of data sets of different sizes

      4 結(jié)束語

      本文研究了基于隱語義模型的協(xié)同過濾推薦算法,使用了隨機梯度下降預測對目標用戶的推薦。通過隱式數(shù)據(jù)信息,并結(jié)合矩陣分解的思想,既優(yōu)化了傳統(tǒng)協(xié)同過濾推薦算法中冷啟動的問題,也克服了數(shù)據(jù)規(guī)模大且稀疏的問題。實驗結(jié)果驗證了本文提出的算法較之其他算法的優(yōu)勢,改進的LFM&SGD 算法的準確率、召回率、覆蓋率均有顯著提升,在緩解數(shù)據(jù)稀疏性、提高推薦精度方面取得了一定的成效。

      猜你喜歡
      梯度物品協(xié)同
      稱物品
      一個改進的WYL型三項共軛梯度法
      “雙十一”,你搶到了想要的物品嗎?
      蜀道難:車與路的協(xié)同進化
      科學大眾(2020年23期)2021-01-18 03:09:08
      一種自適應Dai-Liao共軛梯度法
      誰動了凡·高的物品
      “四化”協(xié)同才有出路
      汽車觀察(2019年2期)2019-03-15 06:00:50
      一類扭積形式的梯度近Ricci孤立子
      三醫(yī)聯(lián)動 協(xié)同創(chuàng)新
      找物品
      石台县| 邳州市| 兰溪市| 侯马市| 大同县| 阳信县| 隆子县| 屏山县| 大石桥市| 肇庆市| 福贡县| 锡林郭勒盟| 潼南县| 同仁县| 隆昌县| 柏乡县| 高青县| 惠州市| 龙江县| 灵璧县| 吉首市| 县级市| 崇文区| 沁源县| 来凤县| 渑池县| 丘北县| 富源县| 息烽县| 晋江市| 宁德市| 龙江县| 乐安县| 广州市| 荣昌县| 洛隆县| 长宁县| 新竹县| 武隆县| 内江市| 阳山县|