摘要:本文針對基于協(xié)同過濾的電子商務(wù)推薦做出一定研究。通過對電子商務(wù)個性化推薦模型的設(shè)計,在K-Means聚類算法的基礎(chǔ)上針對基于用戶的協(xié)同過濾算法、基于聚類優(yōu)化后的協(xié)同過濾推薦算法以及基于內(nèi)容的協(xié)同過濾推薦算法做出一定的研究,最后通過實驗驗證得出最適合個性化推薦的一種推薦算法。
關(guān)鍵詞:個性化推薦;K-Means聚類;協(xié)同過濾
隨著現(xiàn)代科技的發(fā)展,大眾對電子商務(wù)的需求越來越大。當(dāng)電子商務(wù)的發(fā)展跟不上大眾信息化的需求,會導(dǎo)致用戶難獲得需要的信息。因此,在信息化背景下,如何加強(qiáng)對用戶的精準(zhǔn)推薦,是電子商務(wù)發(fā)展關(guān)注的重點。但傳統(tǒng)的協(xié)同推薦算法存在一定的弊端,如數(shù)據(jù)的稀疏性導(dǎo)致推薦精度不高。因此,針對該問題,人們提出很多解決方案,如通過對稀疏數(shù)據(jù)進(jìn)行填充,但效果都不理想。而聚類具有易收斂、運(yùn)行時間短、效率高的優(yōu)點,因此本文結(jié)合聚類算法的優(yōu)點,提出一種基于聚類改進(jìn)數(shù)據(jù)稀疏性的協(xié)同過濾算法,并通過試驗進(jìn)行驗證。
1 基本方法
1.1 K-Means聚類
K-Means聚類算法是將輸入的用戶及商品數(shù)據(jù)進(jìn)行劃分,將分解出來的簇分為有效和無效兩個部分,并且將無效部分過濾刪除。這樣就極大的降低了數(shù)據(jù)集所需的空間規(guī)模,提高了數(shù)據(jù)集的質(zhì)量。具體步驟為:給定數(shù)據(jù)集,選擇初始質(zhì)心K。選定K后,可用誤差平方和來計算訓(xùn)練樣本到初始質(zhì)心的距離。待計算得出結(jié)果以后,判斷是否可以將訓(xùn)練樣本加入到簇中。再運(yùn)行一次后,再對新樣本進(jìn)行劃分,重新選擇質(zhì)心。重復(fù)以上步驟,直到所有的簇達(dá)到最大的迭代次數(shù),或者是所有簇都不會發(fā)生變化,即樣本到聚類中心的距離平方和J(C)最小。詳細(xì)步驟如圖l所示。
如圖1所示,在進(jìn)行K-Means聚類算法的時候,需要先選定一個數(shù)據(jù)空間中的K個對象為初始的聚類中心,這K個對象都代表著每一個分組的中心。選好以后再利用歐氏距離公式來進(jìn)行分組計算,根據(jù)計算的結(jié)果重新選擇分組中心J(C)值,最后利用J(C)值判斷算法終止條件。具體流程如下:
1.2基于用戶的協(xié)同過濾推薦
基于用戶的協(xié)同過濾可以根據(jù)需求的不同分為不同的類型。分別是在用戶的基礎(chǔ)上、在算法的基礎(chǔ)上以及在項目的基礎(chǔ)上做出研究。本文主要的研究方向是基于用戶的協(xié)同過濾對商品個性化推薦系統(tǒng)設(shè)計,特點是能通過公式(3)計算出用戶對商品喜愛程度,然后根據(jù)用戶的喜好做出最適合的推薦,讓用戶能夠快速有效的找到自己喜歡的商品。
通過公式(4)就能夠得到其他相似用戶對該商品的綜合評分,在根據(jù)計算出來的結(jié)果給用戶做出針對性的推薦,節(jié)省了時間,提高了用戶選擇商品的效率。這里要特別的說明的一點是,這種方式只針對他們評論的交集部分,所以能夠大程度的減少某些用戶對商品過分的評分因素。
2 模型構(gòu)建
2.1 個性化推薦模型構(gòu)建思路
個性化推薦指的是以用戶的基本信息、上網(wǎng)行為等作為基礎(chǔ),從而在海量的用戶中找到相似用戶,然后通過這些相似用戶對商品的評價,來預(yù)測其他用戶對該商品的喜好程度?;诰垲惖膮f(xié)同推薦就是在相似的用戶中,通過聚類的方法將相似用戶分類,從而合并為新的簇,并篩選出新的用戶作為簇類代表,加入到協(xié)同推薦中,并按照協(xié)同推薦的計算步驟進(jìn)行預(yù)測。
本文提出的基于聚類的協(xié)同過濾算法分為兩步驟:一是通過聚類改進(jìn)數(shù)據(jù)的稀疏性;二是提出基于用戶的協(xié)同過濾。聚類優(yōu)化采用K-Means聚類,該聚類方法的特點是先利用歐氏距離公式將用戶的相似度計算出來,然后在運(yùn)用K-Means聚類將相似的用戶特征分在同一個簇內(nèi),形成一個完整的簇?;谟脩舻膮f(xié)同過濾指的是通過計算目標(biāo)用戶與分解出來的簇之間的距離,然后得出距離最近的簇信息,計算出簇信息以后再運(yùn)用基于用戶協(xié)同過濾推薦算法進(jìn)行評分計算,最后根據(jù)評分的結(jié)果生成展示列表。
2.2 基于聚類的協(xié)同過濾推薦構(gòu)建
圖2為基于聚類的協(xié)同過濾算法流程。由圖2可以看出,相對于傳統(tǒng)的協(xié)同過濾算法,優(yōu)化過程主要是加快了聚類距離的計算時間以及簇的更新時間。假設(shè)聚類距離Du是一個NxN的矩陣,距離計算時間復(fù)雜度為O(N2),隨著不斷進(jìn)行迭代重復(fù),提取出來的數(shù)據(jù)也越來越精簡,提取出來簇的數(shù)量也是越來越少,由此,時間的復(fù)雜度也會有所減小,設(shè)立為O(N),這時候設(shè)立的聚類距離的整個計算時間復(fù)雜度為O(N2)。雖然在理論上看起來比較復(fù)雜,但是這些過程都可以在離線情況下進(jìn)行,也就是如果將這個方式應(yīng)用到整體上,對在線推薦效果時間影響很小。所以需要先利用K-Means聚類算法將選定的數(shù)據(jù)集進(jìn)行劃分,劃分以后再利用協(xié)同推薦算法進(jìn)行計算,以此來降低個性化推薦的時間消耗,達(dá)到高效效果。
通過分析得知,基于聚類優(yōu)化的協(xié)同過濾推薦優(yōu)點在于在離線模式下,將輸入的模型用戶和商品數(shù)據(jù)集劃分成很多個數(shù)據(jù)子集,對個性化推薦算法的運(yùn)行時間不產(chǎn)生影響。將劃分好的數(shù)據(jù)子集用基于用戶的協(xié)同過濾推薦算法進(jìn)行推薦,很大程度的降低了數(shù)據(jù)計算復(fù)雜度,提升運(yùn)行效率。
3 實驗驗證
3.1 評價指標(biāo)
為了得到最適合的個性化推薦模型,針對以上的方法做出一定的實驗驗證。為了得到最準(zhǔn)確的結(jié)果,此次采用的是平均絕對誤差MAE(Mean Absolute Error)的方式對實驗結(jié)果進(jìn)行驗證。平均絕對誤差均方誤差指的是絕對誤差的平均值。利用公式(5)計算出最適合的結(jié)果,能夠很好的反應(yīng)出設(shè)立的預(yù)測值誤差的真實情況。
3.2 試驗對比結(jié)果
通過對聚類的協(xié)同過濾編程,得到圖3的對比結(jié)果。
通過圖3對各個推薦算法的比較可以得知,基于聚類優(yōu)化后的協(xié)同過濾推薦算法相較于基于內(nèi)容的協(xié)同過濾推薦算法以及基于用戶的協(xié)同過濾推薦算法都有更高效的作用,是比較適合個性化推薦的一種推薦算法。
4 結(jié)語
隨著電子商務(wù)的發(fā)展,大眾對于電子商務(wù)信息化的需求逐步提高,為了滿足大眾的需求,本文通過對個性化推薦模型算法設(shè)計,分別針對基于用戶的協(xié)同過濾推薦算法、基于聚類優(yōu)化后的協(xié)同過濾推薦算法以及基于內(nèi)容的協(xié)同過濾推薦算法做出一定的研究.最后通過一系列的計算,得出最適合當(dāng)代用戶需求的個性化推薦算法。不僅減少了計算的難度,縮短了線上計算的時間,還能夠通過計算目標(biāo)用戶與相似用戶對商品的評分,快速高效的根據(jù)用戶的需求給他們推薦適合他們喜好的商品,提高了用戶對電子商務(wù)使用的效率,是非常有必要性的一項研究。
參考文獻(xiàn)
[1]翟麗麗,邢海龍,張樹臣.基于情境聚類優(yōu)化的移動電子商務(wù)協(xié)同過濾推薦研究[J].情報理論與實踐,2016,39 (08):106-110.
[2]李菲,基于關(guān)聯(lián)規(guī)則優(yōu)化的個性化推薦系統(tǒng)[J].內(nèi)蒙古師范大學(xué)學(xué)報(自然科學(xué)漢文版),2016,45 (04):515-520.
[3]蘭艷,曹芳芳,面向電影推薦的時間加權(quán)協(xié)同過濾算法的研究[J].計算機(jī)科學(xué),2017,44 (04):295-301+322.
[4]田磊,任國恒,王偉,基于聚類優(yōu)化的協(xié)同過濾個性化圖書推薦[J].圖書館學(xué)研究,2017 (08):75-80.
[5]盛先鋒.基于聚類優(yōu)化的數(shù)字圖書館協(xié)同過濾個性化推薦服務(wù)研究[J].中國中醫(yī)藥圖書情報雜志,2019,43 (03):37-40.
[6]翟爍.基于用戶興趣和雙重聚類融合的協(xié)同過濾算法的優(yōu)化研究[J].無線互聯(lián)科技,2015 (05):124-127.
作者簡介
陶建強(qiáng)(1978-),男,德州職業(yè)技術(shù)學(xué)院,講師,電子商務(wù)專業(yè)。