王中友,肖 鷹,吳哲夫
(浙江工業(yè)大學(xué)信息學(xué)院,浙江 杭州 310023)
?
基于用戶喜好的個性推薦系統(tǒng)優(yōu)化
王中友,肖鷹,吳哲夫
(浙江工業(yè)大學(xué)信息學(xué)院,浙江 杭州 310023)
摘要:采用協(xié)同過濾方式的傳統(tǒng)推薦系統(tǒng)具有一定實用性,但也存在未考慮用戶個性喜好的問題。為提高推薦精度,特別針對用戶個性化特點(diǎn)和需求,提出了采用改進(jìn)相似度計算和回歸分析方法對協(xié)同過濾推薦進(jìn)行系統(tǒng)優(yōu)化。實驗結(jié)果表明,優(yōu)化算法可明顯改善系統(tǒng)的推薦效果,并加強(qiáng)基于協(xié)同過濾推薦的有效性。
關(guān)鍵詞:個性化;推薦系統(tǒng);回歸分析
0引言
推薦系統(tǒng)是21世紀(jì)應(yīng)用最廣泛和成功的機(jī)器學(xué)習(xí)系統(tǒng),一直受到電子商務(wù)應(yīng)用、廣告等行業(yè)的特別關(guān)注和研究。從歷史交易數(shù)據(jù)中挖掘用戶購物偏好并進(jìn)行個性化商品推送是商務(wù)推薦系統(tǒng)最直接的應(yīng)用。當(dāng)前基于協(xié)同過濾方式的推薦主要分為基于記憶的推薦和基于模型的推薦兩類[1]。基于記憶的推薦是通過計算用戶或物品間的相似性,并根據(jù)最近鄰居和推薦商品個數(shù)的實際需求進(jìn)行用戶潛在興趣商品的推薦,包括以用戶和以物品為目標(biāo)兩種方式;基于模型的推薦方式是通過用戶對商品的歷史評分?jǐn)?shù)據(jù)建立模型并通過模型進(jìn)行推薦,較常用的模型有矩陣分解、分類、聚類、回歸分析模型等??傮w上,現(xiàn)有的協(xié)同過濾推薦可以在很大程度上挖掘出用戶潛在的興趣物品[2],但有時推薦結(jié)果往往并非令人滿意,特別是對具有特定喜好的用戶群,甚至?xí)鹉愁愄厥馊巳旱姆锤?,造成客戶的流失。因此,在實際應(yīng)用場景下滿足個性化個人和群體的有效推薦問題一直都是基于協(xié)同過濾推薦方式的研究熱點(diǎn)。本文從用戶喜好角度出發(fā),通過改進(jìn)相似度計算方法,采用回歸分析方式優(yōu)化基于協(xié)同過濾的推薦系統(tǒng),從應(yīng)用的實際效果上改善和提高針對個性化人群的推薦質(zhì)量。
1設(shè)計思路
基于用戶喜好的個性化協(xié)同過濾優(yōu)化算法的設(shè)計流程如圖1所示。一般來說,電商的所有商品都有上架類別,如電器、圖書等,用戶可根據(jù)喜好進(jìn)入相應(yīng)區(qū)域進(jìn)行選購。這些商品類別或標(biāo)簽屬性可應(yīng)用于個性化推薦[3-4],添加標(biāo)簽屬性的方式相當(dāng)于是一個三維矩陣(U—I—T),其中U代表USER,I代表ITEM,T代表TAG。使用三維矩陣可以鎖定用戶或特定人群的個性喜好,方便系統(tǒng)根據(jù)用戶個人喜好進(jìn)行相關(guān)推薦。
圖1 用戶喜好推薦系統(tǒng)設(shè)計流程圖
將收集到的用戶—物品的歷史評分?jǐn)?shù)據(jù)與物品的所屬個性類別標(biāo)簽數(shù)據(jù)進(jìn)行用戶之間的相似度計算。收集兩個矩陣信息如下:
(1)
矩陣A為用戶—物品—評分矩陣,a11表示用戶1對物品1的評分信息;矩陣B為用戶—標(biāo)簽信息矩陣,b11表示用戶1在標(biāo)簽1的物品類別上產(chǎn)生興趣,1表示有興趣,0表示無興趣。原始的鄰居相似度計算一般有兩種方式[4]。
1)皮爾遜相似度(pearson):
(2)
2)余弦相似度(cosine):
(3)
式中,Rak、Rbk分別表示用戶a和用戶b對商品k的評分。為了改進(jìn)相似度,盡可能考慮用戶的個性喜好,引入?yún)?shù)Pak表示用戶a對某類標(biāo)簽商品k的喜好指數(shù):
(4)
式中,sumak和suma分別表示用戶a已經(jīng)購買了某類k標(biāo)簽商品數(shù)和已購買的所有商品總數(shù)。通過喜好指數(shù)可以計算出用戶之間的相似度,方法和余弦相似度的計算類似,這里用喜好指數(shù)P來計算:
(5)
因為并不是所有用戶都有明確的個性喜好,針對這種情形可引入權(quán)重λ,改進(jìn)后的鄰居相似度為:
sim*(a,b)=λsimp(a,b)+(1-λ)sim(a,b)
(6)
式中,λ∈(0,1),simp(a,b)表示用戶喜好相似度,sim(a,b)為原始相似度,sim*(a,b)為加權(quán)后的相似度。
2λ的選擇
λ是計算用戶喜好度的權(quán)重指標(biāo),如何合理有效地選擇參數(shù)λ是整個相似度優(yōu)化推薦系統(tǒng)的關(guān)鍵。雖然可以通過設(shè)定不同的λ值來進(jìn)行迭代校驗來選取最優(yōu)值,但通過Logistic回歸來確定最優(yōu)λ值不失為一個合適的方法。
Logistic回歸是一種基于預(yù)測變量為離散型的概率模型,通過采集更多有關(guān)用戶個性喜好的數(shù)據(jù)信息(離散型、連續(xù)型均可)來進(jìn)行分析,典型的如用戶的個人信息、是否觀看過某類別標(biāo)簽商品等。假設(shè)收集用戶對某類標(biāo)簽商品的信息如表1所示。
表1 收集某類標(biāo)簽商品信息
通過Logistic回歸對用戶興趣度進(jìn)行建模prob(interest)=β1×age+β2×inspect+β3×time。
3實驗及分析
實驗采用的一個電影評分?jǐn)?shù)據(jù)集為Movielens-100k[5]。該開源數(shù)據(jù)集抽樣了針對近兩千部電影的十萬個匿名評分,而且評分用戶大多是資深電影人,數(shù)據(jù)可信度較高。評分范圍為[0,5]整數(shù)區(qū)間,其中5分最高,l分最低,0分表示未給出評分。同時,數(shù)據(jù)集中還包含了評分用戶的諸多個性特征,如用戶的性別、年齡、職業(yè)等,以及電影的相關(guān)屬性,如上映時間、風(fēng)格等。實驗采用Movielens數(shù)據(jù)集是因為其數(shù)據(jù)量大,可以充分利用模型進(jìn)行驗證。數(shù)據(jù)集中包含用戶特征屬性、物品標(biāo)簽信息等滿足實驗需求的信息,其中部分?jǐn)?shù)據(jù)用于構(gòu)建推薦系統(tǒng)模型,即訓(xùn)練集;其余則用于驗證該模型的實際效果,即測試集。
(7)
另外均方根誤差(Root mean squared error,RMSE)也是推薦系統(tǒng)的一個評估指標(biāo)。MAE和RMSE指標(biāo)數(shù)值越小,則推薦商品和用戶實際購買商品集間的差異越小,即系統(tǒng)推薦質(zhì)量越高。
為了驗證改進(jìn)后的相似度和原始相似度計算下的推薦系統(tǒng)質(zhì)量,算法通過設(shè)置不同的鄰居數(shù)來對比兩個評估指標(biāo),實驗對比結(jié)果如圖2、圖3所示。
圖2 不同相似度計算時的MAE比較
圖3 不同相似度計算時的RMSE比較
從圖2、圖3中可以看出,隨著鄰居數(shù)的增加,3種相似度計算的推薦質(zhì)量都有所提高,但代價是增加了數(shù)據(jù)集處理的計算量。同時,使用改進(jìn)相似度優(yōu)化后的推薦系統(tǒng)相比其他兩種原先的相似度系統(tǒng),MAE和RMSE指標(biāo)都有一定程度的降低,平均大約降低了5%,從而提高了推薦系統(tǒng)的個性化推薦效果。主要原因是在改進(jìn)的相似度計算中充分考慮到了用戶興趣度,通過用戶個性喜好度權(quán)重指標(biāo)λ選擇和引入回歸分析有效地改善了推薦系統(tǒng)相似度計算和判定。
4結(jié)束語
本文從用戶的個性喜好角度出發(fā),對商品添加標(biāo)簽的方式進(jìn)行個性化分類,通過改進(jìn)協(xié)同過濾方式相似性度量算法,提出的改進(jìn)推薦系統(tǒng)不僅可以有效地解決處理用戶個性喜好的問題,同時避免了推薦出用戶偏差商品的問題,從而有效地提升了系統(tǒng)的推薦質(zhì)量。實驗結(jié)果表明,本文所提出的改進(jìn)推薦算法相比傳統(tǒng)系統(tǒng)的推薦質(zhì)量有一定程度的提高。在此基礎(chǔ)上,如何改進(jìn)相似度計算復(fù)雜度和進(jìn)行個性化屬性分類權(quán)重參數(shù)的多粒度選擇是下一步的工作重點(diǎn)。
參考文獻(xiàn)
[1] 楊博,趙鵬飛.推薦算法綜述[J].山西大學(xué)學(xué)報(自然科學(xué)版),2011,34(3):337-350.
[2]楊興耀,于炯.融合奇異性和擴(kuò)散過程的協(xié)同過濾模型[J].軟件學(xué)報,2013,24(8):1868-1884.
[3]郭磊,馬軍,陳竹敏,等.一種結(jié)合推薦對象間關(guān)聯(lián)關(guān)系的社會化推薦算法[J].計算機(jī)學(xué)報,2014,37(1):219-228.
[4]陳洪濤,肖如良,倪友聰,等.融合推薦潛力的個性化趨勢預(yù)測的混合推薦模型[J].計算機(jī)應(yīng)用,2014,34(1):218-221.
[5]GroupLens.Social Computing Research at the University oF Minnesota MovieLens[EB/OL].[2014-10-11].http://Files.grouplens.org/datasets/movielens/ml-100k.zip.
[6]Hu L,Song G H,Xie Z Z,et al.Personalized recommendation algorithm based on preFerence Features[J].Tsinghua Science and Technology,2014,19(3):293-299.
Personalized Recommendation System Based on User PreFerences
Wang Zhongyou, Xiao Ying, Wu ZheFu
(CollegeoFInFormationEngineering,ZhejiangUniversityoFTechnology,HangzhouZhejiang310023,China)
Abstract:The traditional recommendation systems generally use collaborative Filtering but merely consider the personality and individual preFerence. To enhance the recommendation quality, this paper proposed an approach to optimize the existing collaborative Filtering recommendation system by adding the similarity calculation and regression analysis. The experimental results show the algorithm can signiFicantly improve the quality oF recommendation system and the collaborative Filtering eFFiciency.
Key words:personalization; recommendation system; regression analysis
中圖分類號:TP391
文獻(xiàn)標(biāo)識碼:A
文章編號:1001-9146(2015)03-0056-04
通信作者:
作者簡介:王中友(1973-),男,浙江杭州人,在讀研究生,通信數(shù)據(jù)網(wǎng)絡(luò).吳哲夫副教授,E-mail:wzF@zjut.edu.cn.
基金項目:浙江省自然科學(xué)基金資助項目(LY13F010011)
收稿日期:2014-11-06
DOI:10.13954/j.cnki.hdu.2015.03.011