• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合用戶興趣分布變化和特征差異的協(xié)同過濾推薦算法

      2019-02-13 01:36:06畢孝儒
      計算機(jī)時代 2019年1期

      畢孝儒

      摘? 要: 針對傳統(tǒng)協(xié)同過濾算法沒有考慮由時間引起的用戶興趣分布變化、致使其推薦精度不高的問題,提出了融合用戶興趣分布變化和特征差異的協(xié)同過濾推薦算法。采用窗方法估計用戶在整個項目空間上的興趣分布,設(shè)計時間遺忘曲線因子用以確定用戶興趣分布變化函數(shù),最后結(jié)合興趣分布變化相對熵和用戶特征差異計算用戶相似程度并進(jìn)行項目推薦。實驗結(jié)果表明,該算法能夠有效追蹤用戶對項目興趣變化,提高了數(shù)據(jù)稀疏情況下的推薦精度。

      關(guān)鍵詞: 協(xié)同推薦; 興趣分布變化; 相對熵; 特征差異

      中圖分類號:TP311? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ?文章編號:1006-8228(2019)01-71-04

      Abstract: Aiming at the problem that traditional collaborative filtering recommendation algorithm failed to consider user interest change of distribution to cause poor recommending precision, a collaborative filtering recommendation algorithm combined with user interest change of distribution and characteristic difference is proposed in this paper. Window estimation method is applied to get user interest distribution in total item space, and the factor of time forgetting curve is designed to define the function of user interest change of distribution. Finally, by combining Kullback-Leibler divergence of user interest change of distribution and characteristic difference, user similarity is calculated to finish the item recommendation. Experimental result shows that the algorithm can effectively trace the interest change of distribution and raise the recommendation precision.

      Key words: collaborative filtering recommendation; user interest change of distribution; Kullback-Leibler divergence; characteristic difference

      0 引言

      隨著云計算和大數(shù)據(jù)技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)上海量數(shù)據(jù)資源導(dǎo)致的信息過載問題日益突出。作為解決該問題的有效方法,推薦技術(shù)隨之誕生。其中,協(xié)同過濾推薦技術(shù)作為主流推薦技術(shù),已經(jīng)成功應(yīng)用到各個行業(yè),比如:亞馬遜、天貓、淘寶等電子商城的個性化購物推薦、旅游行業(yè)景點精準(zhǔn)推薦、餐飲行業(yè)的餐飲商家推薦等。目前,隨著數(shù)據(jù)規(guī)模急劇增加,協(xié)同過濾推薦技術(shù)存在冷啟動、數(shù)據(jù)稀疏性等問題[1]。

      針對以上問題,郝雅嫻[2]提出了K-近鄰矩陣分解推薦系統(tǒng)算法,其通過將高維的稀疏評分矩陣降維,挖掘原始數(shù)據(jù)中用戶和項目的潛在特征,來補(bǔ)全矩陣中的缺失值,以預(yù)測用戶對未評分項目的實際評分,雖然該算法緩解了數(shù)據(jù)稀疏性問題,但也存在計算量大的不足。Deshpande[3]、Degemmis[4]通過矩陣填充技術(shù)解決冷啟動和數(shù)據(jù)稀疏問題,但該技術(shù)在填充缺失數(shù)據(jù)的同時也引入了新誤差。王鵬[5]在估計用戶在項目空間興趣分布的基礎(chǔ)上計算用戶相似度,實現(xiàn)對目標(biāo)用戶推薦,較好地解決了評分矩陣稀疏性問題,但該方法存在以下兩點不足,一是未考慮時間引起的用戶興趣分布變化,二是在計算用戶相似性時未引入用戶特征差異性。

      本文提出了融合用戶興趣分布變化和特征差異的協(xié)同過濾推薦算法(Collaborative Filtering Recommendation Algorithm of Combined with User Interest Change of Distribution and Characteristic Difference,ICD-CF)。實驗結(jié)果表明,該算法能夠有效追蹤用戶對項目興趣變化,提高了數(shù)據(jù)稀疏情況下的推薦精度。

      1 基于用戶的協(xié)同過濾推薦算法

      1.1 用戶評分?jǐn)?shù)據(jù)

      推薦系統(tǒng)中存儲的用戶評分?jǐn)?shù)據(jù)中一般包括用戶id、項目id和用戶對項目的評分信息。設(shè)有m個用戶和n個項目,表示用戶集,表示項目集,則用戶評分?jǐn)?shù)據(jù)可采用一個m×n階的用戶-項目評分矩陣表示。

      1.2 用戶相似性計算

      具有代表性的相似性度量方法有Pearson相關(guān)系數(shù)和修正余弦相似性。設(shè)為用戶Ui評過分的項目集合,為用戶Ui產(chǎn)生的評分均值。則Pearson相關(guān)系數(shù)計算用戶Ui與Uj相似性方法如式⑴所示:

      修正余弦相似性計算用戶相似性方法如式⑵所示:

      1.3 評分預(yù)測

      根據(jù)用戶間的相似度可以獲取目標(biāo)用戶的最近鄰居集合,并將其相似性作為權(quán)重預(yù)測目標(biāo)用戶對未評分項目的評分,故目標(biāo)用戶ui對項目i的評分預(yù)測如式⑶所示:

      式⑶中,為用戶ut的評分均值,為用戶ut的K最近鄰居集。

      2 融合用戶興趣分布變化和特征差異的協(xié)同過濾推薦算法

      2.1 用戶興趣分布估計

      在傳統(tǒng)的用戶相似算法中,僅考慮由共同評分的那些項目,而實際上,用戶對于尚未評分的哪些項目也有自己的喜好。因而,若能估計用戶在整個項目空間上的興趣密度分布,再計算兩用戶興趣分布的相似性更為符合實際情況??紤]到用戶興趣的多模性(即有多個局部極大值),ICD-CF算法采用統(tǒng)計學(xué)中的密度估計方法進(jìn)行用戶興趣分布估計[5]。設(shè)是獨立分布樣本一組采樣值,則任意一個采樣值x的密度函數(shù)f(x)的核密度估計定義為:

      式⑷中,為核函數(shù),h為核函數(shù)的窗寬。常用的核函數(shù)有三角核函數(shù)、均勻核函數(shù)、高斯核函數(shù)等,本文中選用應(yīng)用廣泛的高斯函數(shù)作為核函數(shù),如式⑸所示:

      則用高斯核估計用戶u興趣分布Qu公式為:

      其中,是項目i,j之間的距離。

      2.2 用戶興趣分布變化函數(shù)

      德國心理學(xué)家EBBINGHAUS H研究并揭示了人類記憶的遺忘規(guī)律,指出人類記憶的遺忘過程呈現(xiàn)先快后慢的變化規(guī)律。在記憶過后的初始階段遺忘速度是最快的,而后逐步減慢,最后以非常緩慢的速度衰減。本文根據(jù)人類遺忘曲線和用戶興趣分布自身特點,提出了一種指數(shù)型遺忘因子如下:

      其中,t是用戶對某一感興趣商品訪問的時間間隔,,α為衰減因子,其值越大,衰減速率越大,本文中定義α=0.8,可根據(jù)實際情況調(diào)整。由式⑺可知,該函數(shù)的值域為[1,1/e],單調(diào)遞減,符合人類記憶遺忘曲線特性。當(dāng)訪問時間間隔t逐漸增大時,函數(shù)值會非線性隨之減小,表示興趣衰減度隨之增大。

      ICD-CF算法將遺忘因子引入到用戶興趣分布估計函數(shù),則得到用戶興趣分布隨時間變化函數(shù)為:

      式⑻表明,用戶興趣分布是時間間隔t的函數(shù),將隨著時間間隔的變化而動態(tài)變化。因此能夠準(zhǔn)確追蹤用戶對項目興趣分布變化。

      2.3 用戶相似性計算

      ICD-CF算法采用相對熵計算用戶相似性[5]。設(shè)、分別為t時間間隔用戶興趣分布變化,則用戶Ui、Uj散度定義為:

      由于KL散度不具有對稱性,因而一般采用式⑽計算用戶間興趣變化相似度:

      同時,考慮到用戶各個特征(性別、年齡、學(xué)歷背景、職業(yè)等)對其興趣分布變化的持久影響。算法引入了用戶Ui與Uj的特征相似度:

      其中,ai,j為用戶Ui的第j個屬性的取值。設(shè)為雙向蘊(yùn)涵運(yùn)算,即用戶Ui與Uj的第j個屬性相同時值為1,否則為0。上式表明兩用戶屬性相似度取值在[0,1]之間,即取值越接近1,表明兩用戶屬性相似度越高,否則相似度越低。

      綜上分析,ICD-CF算法將用戶興趣變化相似度與特征相似度相結(jié)合,形成最終的用戶相似性度量方法如下:

      其中,為調(diào)節(jié)因子。該用戶相似度計算方法不僅考慮了用戶興趣分布變化,而且嵌入了用戶特征之間相似度。

      2.4 算法描述

      輸入:用戶-項目評分矩陣;

      輸出:用戶Ui對項目Ij的預(yù)測評分。

      step 1 依據(jù)式⑹估計所有用戶興趣在項目空間上的分布;

      step 2 根據(jù)式⑺確定遺忘因子;

      step 3 依據(jù)式⑻計算每一用戶興趣分布變化;

      step 4 根據(jù)式⑼計算兩用戶間興趣變化相似度;

      step 5 依據(jù)式⑾計算兩用戶間特征相似度;

      step 6 根據(jù)式⑿計算兩用戶之間最終相似度;

      step 7 采用式⑶做出預(yù)測。

      3 實驗與分析

      3.1 用戶實驗數(shù)據(jù)集

      實驗采用GroupLens研究小組提供的MovieLens數(shù)據(jù)集(http://movieslens.umn.edu),它包括943個用戶對1682個項目(影片)的10萬條投票記錄。其中用戶特征有年齡、性別和職業(yè)三個。實驗把數(shù)據(jù)集按70%和30%的比例劃分為訓(xùn)練集和測試集。

      3.2 評價指標(biāo)

      實驗將正確率(Accurany_rate)和平均絕對誤差(Mean Absolute Error,MAE)作為算法性能評價標(biāo)準(zhǔn)。設(shè)預(yù)測的用戶評分集為,對應(yīng)實際評分集為,則MAE計算公式如式⒀所示:

      3.3 實驗環(huán)境

      實驗硬件環(huán)境為Intel inside CORE-i5系列CPU、2.2GHz主頻、2GB內(nèi)存;實驗軟件環(huán)境為Windows7操作系統(tǒng)、Microsoft Visual Studio 2010集成環(huán)境、SQL Server 2010數(shù)據(jù)庫。

      3.4 不同核函數(shù)下窗寬估計

      實驗分析了不同核函數(shù)下窗寬對用戶興趣分布估計影響,令,對每一個h取值測試其Accurany_rate與MAE。核函數(shù)分別選擇高斯函數(shù)、三角函數(shù)和均勻函數(shù)。實驗結(jié)果如圖1、圖2。

      由圖1、圖2實驗結(jié)果可知,在窗寬h=0.3時,ICD-CF算法的推薦準(zhǔn)確率高且MAE較低。因此,后續(xù)實驗中核函數(shù)的窗寬設(shè)置為0.4。

      實驗利用人工蜂群算法,分別對式⑿中的兩個參數(shù)λ進(jìn)行了尋優(yōu)實驗,其適應(yīng)度函數(shù)為式⒀,得到最優(yōu)參數(shù)值λ=0.63。

      在同等數(shù)據(jù)集下,實驗將基于修正余弦(Cosine)相似度的協(xié)同過濾算法,基于Pearson相似度的協(xié)同過濾算法,基于核方法的協(xié)同過濾(KU-CF)算法,以及ICD-CF算法進(jìn)行了實驗比較,由圖⑶、⑷可以看出,在不同鄰居數(shù)目下,ICD-CF算法較其他三種算法有較高的推薦準(zhǔn)確率和較低的MAE,這表明DUID-CF算法有更高的推薦精度。

      4 結(jié)束語

      本文在考慮用戶評分時間因素的基礎(chǔ)上,提出了融合用戶興趣分布變化和特征差異的協(xié)同過濾推薦算法。通過設(shè)計時間遺忘曲線因子,確定了用戶興趣分布變化函數(shù);最后結(jié)合興趣分布變化相對熵和用戶特征差異計算用戶相似程度進(jìn)行項目推薦。實驗結(jié)果顯示,該算法能夠有效追蹤用戶對項目興趣變化,提高了數(shù)據(jù)稀疏情況下的推薦精度。

      參考文獻(xiàn)(References):

      [1] HERLOCKER J. Clustering items for? collaborative filtering[C]//Proceedings of ACM SIGIR Workshop on Recommender Systems, New York, USA, ACM Press,1999:1-4

      [2] 郝雅嫻,孫艷蕊.K-近鄰矩陣分解推薦系統(tǒng)算法[J],小型微型計算機(jī)系統(tǒng),2018.4(24):755-758

      [3] Deshpande M,Karypis G. Item-Based top-N recommen-dation algorithms. ACM Trans on InformatioSystems,2004.22(1):147-177

      [4] Degemmis M,Lops P,Semeraro G. A content-collaborative recommender that exploits wordnet-based user profiles for neighborhood formation. Journal? of User Modeling and User-Adapted Interaction,2007.17(3):217-255

      [5] 王鵬,王晶晶,俞能海.基于核方法的User-Based協(xié)同過濾推薦算法.計算機(jī)研究與發(fā)展,2013.50(7):1444-1451

      洪泽县| 石台县| 崇左市| 寿光市| 镇坪县| 德令哈市| 桂东县| 防城港市| 潜江市| 开鲁县| 噶尔县| 商河县| 广宁县| 耒阳市| 惠水县| 贵溪市| 特克斯县| 溧水县| 尼勒克县| 延安市| 桐梓县| 昌乐县| 洪湖市| 桂东县| 开平市| 潜江市| 察雅县| 延津县| 嫩江县| 班戈县| 古田县| 德惠市| 乐都县| 宽城| 武山县| 富民县| 丘北县| 简阳市| 林芝县| 吴旗县| 八宿县|