[摘要] 隨著因特網(wǎng)普遍使用和電子商務(wù)迅猛發(fā)展,推薦系統(tǒng)已成為重要研究領(lǐng)域,人們對推薦技術(shù)作了廣泛的研究。個性化的推薦系統(tǒng)以個性化方式向用戶推薦商品,幫助用戶找到他們所需要的商品,并便捷地完成購買過程。介紹了電子商務(wù)系統(tǒng)中的協(xié)同過濾推薦技術(shù),詳細分析了基于用戶的協(xié)同過濾推薦算法,同時指出了它的優(yōu)點和缺點。
[關(guān)鍵詞] 電子商務(wù) 協(xié)同過濾 推薦系統(tǒng) 推薦技術(shù)
當前,電子商務(wù)系統(tǒng)迅猛發(fā)展,隨之而來地出現(xiàn)了電子商務(wù)系統(tǒng)中的信息“超載”現(xiàn)象。海量的物品信息無疑增加了用戶購買所需物品的難度,使得用戶很難迅速準確地找到自己真正中意的商品。為此,許多電子商務(wù)網(wǎng)站引入了推薦系統(tǒng),以提高用戶的點擊率,變網(wǎng)站的瀏覽者為購買者,提高用戶購買成功率和交叉銷售能力,進而提升網(wǎng)站的美譽度和用戶對網(wǎng)站的忠誠度。所謂電子商務(wù)推薦系統(tǒng)是在了解和學(xué)習(xí)用戶的需求與喜好的基礎(chǔ)上為用戶提供商品信息和建議,模擬商家向用戶推薦其可能感興趣的商品,幫助用戶完成購買過程。提供個性化服務(wù)已經(jīng)成為進一步提高網(wǎng)絡(luò)內(nèi)容服務(wù)質(zhì)量急需解決的重要課題之一,也是未來網(wǎng)絡(luò)內(nèi)容服務(wù)的一個發(fā)展方向。目前,幾乎所有著名電子商務(wù)網(wǎng)站,諸如亞馬遜、CDNOW、eBay、淘寶網(wǎng)等都采用了各式各樣不同個性化水平的推薦系統(tǒng)。推薦系統(tǒng)中最核心和關(guān)鍵的是所采用的推薦技術(shù),它決定了推薦系統(tǒng)性能的好壞。因此,加強對電子商務(wù)系統(tǒng)個性化推薦技術(shù)研究具有非常重要的實際意義。現(xiàn)在,主要的推薦技術(shù)有:基于內(nèi)容推薦、協(xié)同過濾推薦、基于關(guān)聯(lián)規(guī)則推薦、基于效用推薦、基于知識推薦和組合推薦。其中,協(xié)同過濾推薦是應(yīng)用最早和最為成功的技術(shù)之一,而基于用戶的協(xié)同過濾推薦又是最容易理解的一種技術(shù)。
一、協(xié)同過濾推薦
協(xié)同過濾推薦技術(shù)在個性化推薦系統(tǒng)中應(yīng)用最廣,主要的可分為基于用戶和基于項目的協(xié)同過濾算法。它一般采用最近鄰技術(shù),利用用戶的歷史喜好信息計算用戶之間的距離,然后利用目標用戶的“最近鄰居”對商品評價的加權(quán)評價值來預(yù)測目標用戶對特定商品的喜好程度,系統(tǒng)從而根據(jù)這一喜好程度來對目標用戶進行推薦。協(xié)同過濾最大優(yōu)點是對推薦對象沒有特殊的要求,能處理如音樂、電影等這樣非結(jié)構(gòu)化的復(fù)雜對象。
協(xié)同過濾是基于這樣的假設(shè):為一用戶找到他真正感興趣的內(nèi)容的好方法是首先找到與此用戶有相似興趣的其他用戶,然后將他們感興趣的內(nèi)容推薦給此用戶。基于協(xié)同過濾的推薦系統(tǒng)可以說是從用戶的角度來進行相應(yīng)推薦的,而且是自動的,即用戶獲得的推薦是系統(tǒng)從購買模式或瀏覽行為等隱式獲得的,不需要用戶努力地找到適合自己興趣的推薦信息,如填寫一些調(diào)查表格等。
協(xié)同過濾推薦的一般步驟是:
交易數(shù)據(jù)庫→測量用戶間相似性→尋找相似用戶→計算商品的購買可能性→根據(jù)購買可能性推薦商品。
二、基于用戶的協(xié)同過濾推薦
1.算法
基于用戶的協(xié)同過濾是到目前為止實際應(yīng)用中最為成功的個性化推薦技術(shù),算法的基本思想是將具有相同愛好的用戶感興趣的項目推薦給目標用戶。假如目標用戶對項目的評價與他的“最近鄰居”相似,而目標用戶對某個項目的評價可以從他的“最近鄰居”的評價中綜合得到。
基于用戶的協(xié)同過濾推薦算法主要包括三個過程:
(1)表示:建立一個用戶-項目評價矩陣描述用戶對項目的評價。用戶的判斷和偏好明確地表示為一個m*n的用戶-項目評價矩陣R,這里m是用戶數(shù),n是項目數(shù),R=(rij),元素rij表示用戶i對項目j的評價。在電子商務(wù)推薦系統(tǒng)中,元素rij既可表示用戶是否購買商品(例如0或者1),也可表示用戶對商品的偏好程度(例如評分從1到10)。
(2)生成“鄰居”:通過計算所有用戶對之間的相似度形成“鄰居”。計算系統(tǒng)中目標用戶與其他所有用戶的相似度,以找出K個最相似用戶集—“最近鄰居”。K-“最近鄰居”依相似度排序。
(3)產(chǎn)生推薦:通過加權(quán)目標用戶“鄰居”對目標項目的評價產(chǎn)生推薦。根據(jù)“最近鄰居”集,可計算目標用戶對項目的預(yù)測評價值,進而產(chǎn)生推薦。假定用戶i的“最近鄰居”集為Si,用戶i對項目x的預(yù)測評價值為Pi,x,用戶i和用戶j的相似度為sim(i,j),用戶i和用戶j的平均評價值分別為和,那么有:
2.相似度計算方法
計算兩個用戶之間相似度的方法主要有三種:余弦相似度、相關(guān)相似度以及修正的余弦相似度,分述如下:
(1)余弦相似度:每個用戶的評分作為n維項目空間中的一個向量。如果某個用戶沒有對一個項目評價,則其默認評價值設(shè)為0。兩個用戶i和j之間的相似性通過計算兩個向量和夾角的余弦得到,記為sim(i,j),計算公式如下:
(2)相關(guān)相似度:在余弦相似度計算中沒有考慮不同用戶之間評價范圍的差別。相關(guān)相似度通過減去用戶對項目平均評價值來克服上述缺陷。兩個用戶i和j之間的相似性通過計算Pearson相關(guān)性得到。假定用戶i和用戶j共同評價的項目集合為,那么相關(guān)相似度計算公式如下:
其中:Ri,x為用戶i對項目j的評價值,和分別為用戶i和用戶j的平均評價值。
(3)修正的余弦相似度:在相關(guān)相似度計算公式中,如果同時考慮用戶i和用戶j的評價項目集合,那么得到修正的余弦相似度計算公式如下:
其中:Ii和Ij分別為用戶i和用戶j的評價項目集合。
3.算法優(yōu)點和缺點
基于用戶的協(xié)同過濾算法很容易理解,與其他眾多實際應(yīng)用中的推薦算法相比顯示出較高的推薦精度,它具有如下一些優(yōu)點:
(1)能夠過濾難以進行機器自動內(nèi)容分析的信息,如藝術(shù)品,音樂等。
(2)共享其他人的經(jīng)驗,避免了內(nèi)容分析的不完全和不精確,并且能夠基于一些復(fù)雜的,難以表述的概念(如信息質(zhì)量、個人品味)進行過濾。
(3)有推薦新信息的能力??梢园l(fā)現(xiàn)內(nèi)容上完全不相似的信息,用戶對推薦信息的內(nèi)容事先是預(yù)料不到的,可以發(fā)現(xiàn)用戶潛在的但自己尚未發(fā)現(xiàn)的興趣偏好。
(4)能夠有效的使用其他相似用戶的反饋信息,較少用戶的反饋量,加快個性化學(xué)習(xí)的速度。
雖然基于用戶的協(xié)同過濾作為一種典型的推薦技術(shù)有其相當?shù)膽?yīng)用,但隨著電子商務(wù)系統(tǒng)規(guī)模的不斷擴大,用戶空間和項目空間急劇增長,該算法也存在以下缺點:
①稀疏性:在一個大型電子商務(wù)系統(tǒng)中,用戶涉及的信息量相當有限,用戶評價項目數(shù)少于總項目數(shù)的10%,造成評價矩陣數(shù)據(jù)相當稀疏,難以找到相似用戶集,導(dǎo)致推薦效果大大降低。
②冷開始:這個問題可看作是極端嚴重的稀疏性問題。一方面,它很難向新用戶提供個性化推薦服務(wù);另一方面,在這種情況下,僅有少量評價數(shù)據(jù)不可能產(chǎn)生精確推薦。
③擴展性:基于用戶的協(xié)同過濾算法的計算量隨著用戶和項目的增加而急劇增加,其最壞情況下的計算復(fù)雜度為O(mn)。對于一個典型的具有成百上千萬用戶和項目的電子商務(wù)系統(tǒng),算法將遭遇到嚴重的擴展性問題。
三、結(jié)論
基于用戶的協(xié)同過濾雖是一種較為成功的推薦技術(shù),但也存在著稀疏性、冷開始、擴展性和精確性問題。為了解決這些問題,目前常用聚類分析的方法,它或者將“最近鄰居”搜索對象限制在最相近的聚類中,或者用聚類的質(zhì)心提取推薦結(jié)果,但并不能從根本上解決以上問題,這些都有待進一步研究。
參考文獻:
[1]趙亮胡乃靜張守志:個性化推薦算法設(shè)計[J].計算機研究與發(fā)展,2002,(8)
[2]趙智時兵:改進的個性化推薦算法[J].長春大學(xué)學(xué)報,2005,(6)
[3]潘宇林鴻飛楊志豪:基于用戶聚類的電子商務(wù)推薦系統(tǒng)[J].計算機應(yīng)用與軟件,2008,(4)
[4]宋真真王浩楊靜:協(xié)同過濾技術(shù)在個性化推薦中的運用[J].合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版) ,2008,(7)