2練林明郭芷柔
(1.廣西大學(xué)計(jì)算機(jī)與電子信息學(xué)院, 廣西南寧530004;2.廣西多媒體通信與網(wǎng)絡(luò)技術(shù)重點(diǎn)實(shí)驗(yàn)室, 廣西南寧530004)
個(gè)性化推薦主要通過(guò)預(yù)測(cè)用戶(hù)對(duì)產(chǎn)品的喜好程度進(jìn)而為用戶(hù)推薦最合適的產(chǎn)品,幫助用戶(hù)在海量信息中高效準(zhǔn)確地做出決策,提高用戶(hù)滿(mǎn)意度。目前常見(jiàn)的推薦算法有基于內(nèi)容的推薦算法、基于協(xié)同過(guò)濾的推薦算法、混合推薦算法等[1]。其中,基于協(xié)同過(guò)濾的推薦算法[2]主要依據(jù)特定的機(jī)器學(xué)習(xí)算法得到較好的推薦效果,其核心思想是利用用戶(hù)和產(chǎn)品之間的互動(dòng)信息進(jìn)行推薦,多數(shù)情況下為用戶(hù)評(píng)分矩陣。但在現(xiàn)實(shí)應(yīng)用中,往往出現(xiàn)只有少數(shù)用戶(hù)會(huì)對(duì)產(chǎn)品進(jìn)行評(píng)分的情況,推薦算法無(wú)法為那些評(píng)分信息甚少或者沒(méi)有的新產(chǎn)品進(jìn)行推薦,因此協(xié)同過(guò)濾算法存在新產(chǎn)品冷啟動(dòng)[3]、數(shù)據(jù)稀疏性等問(wèn)題。對(duì)此,本文提出了一種融合譜聚類(lèi)[4]和矩陣分解的混合推薦算法。首先使用基于隨機(jī)梯度下降優(yōu)化求解的矩陣分解方法,將原始矩陣分解為較低維的用戶(hù)特征矩陣和特征產(chǎn)品矩陣[5],然后使用譜聚類(lèi)算法根據(jù)產(chǎn)品外部屬性信息對(duì)產(chǎn)品進(jìn)行聚類(lèi)獲得聚類(lèi)簇以及簇內(nèi)產(chǎn)品的相似度,最后根據(jù)相似產(chǎn)品及其相似度,以及相似產(chǎn)品的特征向量之間的關(guān)系,計(jì)算新產(chǎn)品的特征向量,進(jìn)而完善原有的特征產(chǎn)品矩陣。
在基于矩陣的協(xié)同過(guò)濾推薦研究方面,矩陣分解最初采用的是奇異值分解(singular value decomposition, SVD)[6],但是由于這種分解方式需要預(yù)先對(duì)評(píng)分矩陣中的缺失值進(jìn)行補(bǔ)填,評(píng)分矩陣因此會(huì)由稀疏矩陣變成稠密矩陣,且計(jì)算復(fù)雜度高,故其實(shí)用性不強(qiáng)。后來(lái)提出了Funk SVD算法[7]等改進(jìn),其基本思想是將原始矩陣分解為兩個(gè)低維的特征矩陣,并采用均方根誤差(root mean square error, RMSE)衡量原始矩陣和分解后的矩陣的誤差,若可得到最小的RMSE差值即可以找到最接近原始矩陣的分解矩陣,由此矩陣分解問(wèn)題則轉(zhuǎn)化為求最小誤差的問(wèn)題。常用的矩陣分解方法如交替最小二乘法(alternating least squares, ALS),其優(yōu)點(diǎn)是求解過(guò)程中需要優(yōu)化的參數(shù)易于并行,在非稀疏數(shù)據(jù)集上的求解速度較快,不足是求解過(guò)程中的逆矩陣計(jì)算在當(dāng)樣本數(shù)量特別大的時(shí)候需要消耗大量的時(shí)間。因此,這方面的工作關(guān)注如何選擇合適方法進(jìn)行誤差函數(shù)的優(yōu)化。另一方面,個(gè)性化推薦算法往往需要采用聚類(lèi)算法,通過(guò)不同的聚類(lèi)思想,將數(shù)據(jù)劃分為多個(gè)部分,使得每個(gè)部分內(nèi)部的數(shù)據(jù)相似性[8]最高。
而融合聚類(lèi)和矩陣分解的協(xié)同過(guò)濾算法已有相關(guān)研究。文獻(xiàn)[9]提出一種基于用戶(hù)和產(chǎn)品雙聚類(lèi)的協(xié)同過(guò)濾推薦算法,雖可改善數(shù)據(jù)稀疏性帶來(lái)的影響,但對(duì)于初始矩陣中不存在的新產(chǎn)品無(wú)法進(jìn)行合理的推薦。文獻(xiàn)[10]提出首先利用KMeans聚類(lèi)對(duì)產(chǎn)品、用戶(hù)分別聚類(lèi),然后將對(duì)原始評(píng)分矩陣的分解轉(zhuǎn)變?yōu)閷?duì)由相似用戶(hù)和已評(píng)價(jià)的產(chǎn)品及其相似產(chǎn)品組成的評(píng)分矩陣的分解計(jì)算。李改等[11]提出使用KNN算法對(duì)產(chǎn)品的特征和屬性進(jìn)行映射,然后綜合相似產(chǎn)品和相似度填充產(chǎn)品特征矩陣。董立巖等[12]首先利用ALS算法對(duì)矩陣進(jìn)行分解,然后再利用改進(jìn)的k-均值聚類(lèi)算法對(duì)補(bǔ)全好的矩陣建立聚類(lèi)模型進(jìn)行推薦。它們可在一定程度上解決產(chǎn)品冷啟動(dòng)問(wèn)題,但其都是針對(duì)產(chǎn)品屬性元素較少的產(chǎn)品進(jìn)行分類(lèi)或者聚類(lèi),而對(duì)于屬性元素較多的產(chǎn)品來(lái)說(shuō),KNN和KMeans在計(jì)算復(fù)雜度上較高、計(jì)算時(shí)間較長(zhǎng)。填充評(píng)分值雖然可以緩解評(píng)分矩陣的稀疏性,但不能準(zhǔn)確體現(xiàn)用戶(hù)對(duì)未知產(chǎn)品的喜愛(ài)程度,而且回填后的評(píng)分矩陣由稀疏變得稠密,對(duì)系統(tǒng)的存儲(chǔ)空間提出較高要求,也不利于對(duì)評(píng)分矩陣后續(xù)的預(yù)測(cè)處理。
本文在聚類(lèi)和矩陣分解的協(xié)同過(guò)濾算法的改進(jìn)思路為:首先使用基于隨機(jī)梯度下降優(yōu)化求解的矩陣分解方法,將原始矩陣分解為較低維的用戶(hù)特征矩陣和特征產(chǎn)品矩陣,進(jìn)而預(yù)測(cè)用戶(hù)對(duì)產(chǎn)品評(píng)分的近似值,上述過(guò)程解決了數(shù)據(jù)稀疏性和求解速度問(wèn)題,但是沒(méi)有考慮到由于用戶(hù)對(duì)新產(chǎn)品不存在歷史評(píng)分行為而產(chǎn)生的冷啟動(dòng)問(wèn)題,故引進(jìn)產(chǎn)品外部屬性信息,使用譜聚類(lèi)算法根據(jù)產(chǎn)品外部屬性信息對(duì)產(chǎn)品進(jìn)行聚類(lèi)獲得聚類(lèi)簇以及簇內(nèi)產(chǎn)品的相似度,最后根據(jù)相似產(chǎn)品及其相似度,以及相似產(chǎn)品的特征向量之間的關(guān)系,計(jì)算新產(chǎn)品的特征向量,最后填充特征產(chǎn)品矩陣。算法的基本過(guò)程如下:
① 初始化用戶(hù)特征矩陣U和特征產(chǎn)品矩陣V;
② 對(duì)用戶(hù)特征矩陣U和特征產(chǎn)品矩陣V進(jìn)行迭代更新,每次更新使用訓(xùn)練集中的一條數(shù)據(jù)。當(dāng)?shù)螖?shù)足夠多或者最近兩輪迭代的RMSE誤差變化范圍小于設(shè)定閾值時(shí)結(jié)束迭代;
③ 通過(guò)譜聚類(lèi)算法得到每個(gè)新產(chǎn)品對(duì)應(yīng)的相似產(chǎn)品;
④ 得到新產(chǎn)品的特征向量并回填通過(guò)步驟②得到的特征矩陣;
⑤ 根據(jù)矩陣U、V獲得預(yù)測(cè)評(píng)分矩陣R,其中R=U×VT;
⑥ 針對(duì)不同用戶(hù)根據(jù)評(píng)分的TopN原則進(jìn)行推薦。
其中,主要過(guò)程主要包括分解原始矩陣、譜聚類(lèi)求解產(chǎn)品特征向量、填充特征—產(chǎn)品矩陣等步驟。
基于矩陣分解的協(xié)同過(guò)濾推薦算法是將矩陣分解問(wèn)題轉(zhuǎn)化為求最小誤差的問(wèn)題。設(shè)將具有m個(gè)用戶(hù)、n個(gè)產(chǎn)品的用戶(hù)—產(chǎn)品評(píng)分矩陣記為Rm×n,其中,R(i,j)表示用戶(hù)ui對(duì)產(chǎn)品vj的打分情況。假設(shè)將矩陣Rm×n分解為矩陣Um×k和Vk×n,要使得矩陣Um×k和Vk×n的乘積能夠近似接近評(píng)分矩陣,即滿(mǎn)足:
(1)
假設(shè)用P代表U中的元素,用Q代表V中的元素,則矩陣R的元素的值為:
(2)
如果可得到這樣的矩陣U、V,使得對(duì)于已知評(píng)分的估計(jì)誤差最小,便可以通過(guò)矩陣U、V預(yù)測(cè)未知的產(chǎn)品評(píng)分,此時(shí)誤差即為:
(3)
則得誤差函數(shù)如下:
(4)
對(duì)誤差函數(shù),先對(duì)U矩陣中的點(diǎn)進(jìn)行隨機(jī)梯度下降算法求解:
(5)
其中,Puk是矩陣U上的數(shù)據(jù)點(diǎn)。
繼續(xù)化簡(jiǎn)得到:
(6)
(7)
同理得:
(8)
式(7)、式(8)即為目標(biāo)函數(shù)在矩陣U和矩陣V上的梯度。假設(shè)學(xué)習(xí)率為η,則可得到更新后的Puk和Qki的值為:
Puk=Puk-η(-2euiQki)=Puk+2ηeuiQki,
(9)
Qki=Qki-η(-2euiPuk)=Qki+2ηeuiPuk。
(10)
在得到基本的更新函數(shù)后,本文需要考慮模型是否會(huì)出現(xiàn)過(guò)擬合現(xiàn)象。為了避免產(chǎn)生過(guò)擬合,需要對(duì)誤差函數(shù)加入正則化項(xiàng),即:
(11)
則可以根據(jù)按梯度負(fù)方向更新得到Puk和Qki的值為:
Puk=Puk+2η(euiQki-λPuk),Qki=Qki+2η(euiPuk-λQki),
(12)
其中,η為學(xué)習(xí)率,eui為當(dāng)前預(yù)測(cè)誤差,λ為防止過(guò)擬合系數(shù)。
譜聚類(lèi)求解產(chǎn)品特征向量基本過(guò)程如下:
① 使用高斯核函數(shù)對(duì)引進(jìn)的產(chǎn)品外部特征矩陣進(jìn)行處理,獲得相似矩陣S;
② 構(gòu)建相似矩陣S的鄰接矩陣W和度矩陣D,其中鄰接矩陣和度矩陣都是對(duì)稱(chēng)矩陣;
③ 構(gòu)建拉普拉斯矩陣L,L=W-D;
④ 采用基于權(quán)重的NCut切圖方式[13],將圖分割為k個(gè)子圖,單個(gè)子圖的NCut公式表示為:
(13)
對(duì)于k個(gè)子圖,可以表示為:
(14)
其中,tr(HTLH)為矩陣的跡,且有HTDH=I。
接下來(lái)采用維度規(guī)約近似求解H,將圖的切割轉(zhuǎn)換成求解拉普拉斯矩陣特征值(向量)的問(wèn)題,并計(jì)算其各自對(duì)應(yīng)的特征向量f,k個(gè)特征向量組成n×k維的特征矩陣,即為所需要的H。
(15)
⑤ 將由k個(gè)特征向量組成的特征矩陣H采用式(16)按行標(biāo)準(zhǔn)化,獲得n×k維的特征矩陣F:
(16)
⑥ 取F中的每一行作為一個(gè)k維的樣本子集,一共有n個(gè)這樣的子集。通過(guò)K均值聚類(lèi)對(duì)新樣本集進(jìn)行聚類(lèi),聚類(lèi)數(shù)為k2。
⑦ 獲得最終的簇劃分C=(c1,c2,c3,…,ck2)。
使用譜聚類(lèi)算法對(duì)產(chǎn)品聚類(lèi),然后根據(jù)相似產(chǎn)品及其相似度權(quán)重回填特征產(chǎn)品矩陣,其中相似性度量采用標(biāo)準(zhǔn)的余弦公式[14]?;靥钪迪嚓P(guān)計(jì)算公式如下:
(17)
(18)
其中,φf(shuō)(xvi)表示的新產(chǎn)品i的第f個(gè)特征值,xvi代表新產(chǎn)品i的屬性向量,sim(xvi,xvj)則表示與新產(chǎn)品i相似的已知產(chǎn)品j之間的相似度,由式(17)計(jì)算得到,而hij則為已知產(chǎn)品j的第f個(gè)特征值,通過(guò)隨機(jī)梯度下降算法得到。
本文以智慧旅游應(yīng)用中的景點(diǎn)推薦作為場(chǎng)景進(jìn)行實(shí)驗(yàn),使用的數(shù)據(jù)主要來(lái)源于使用八爪魚(yú)數(shù)據(jù)采集器獲得的“去哪兒網(wǎng)”旅游網(wǎng)站(https://piao.qunar.com)中的數(shù)據(jù),其中包括用戶(hù)對(duì)旅游景點(diǎn)的評(píng)分?jǐn)?shù)據(jù)以及旅游景點(diǎn)信息介紹。由于爬蟲(chóng)爬取的數(shù)據(jù)往往含有不完整、不正確或不相關(guān)的臟數(shù)據(jù),本文在采集數(shù)據(jù)后對(duì)相似重復(fù)數(shù)據(jù)進(jìn)行了數(shù)據(jù)清洗[15]。對(duì)于景點(diǎn)評(píng)分?jǐn)?shù)據(jù),理論上來(lái)說(shuō),用戶(hù)評(píng)分越高,其對(duì)該景點(diǎn)越為喜愛(ài),即用戶(hù)對(duì)景點(diǎn)的評(píng)分是對(duì)景點(diǎn)喜愛(ài)程度的直接體現(xiàn)。數(shù)據(jù)集的基本信息如表1所示。
表1 用戶(hù)—景點(diǎn)評(píng)分?jǐn)?shù)據(jù)集Tab.1 User-attraction rating data set
由表1可知,用戶(hù)—景點(diǎn)評(píng)分?jǐn)?shù)據(jù)集的數(shù)據(jù)稀疏性達(dá)到0.064,由數(shù)據(jù)稀疏性的定義可以得到,大部分用戶(hù)對(duì)景點(diǎn)的評(píng)分?jǐn)?shù)據(jù)都為空,所以這個(gè)數(shù)據(jù)集是非常稀疏的。本文從數(shù)據(jù)集中隨機(jī)抽取80 %的數(shù)據(jù)作為訓(xùn)練集,剩下20 %的數(shù)據(jù)作為測(cè)試集,訓(xùn)練集包括全部用戶(hù)對(duì)1 631個(gè)景點(diǎn)的評(píng)分,測(cè)試集中包括29個(gè)訓(xùn)練集中未出現(xiàn)的新景點(diǎn),且每個(gè)新景點(diǎn)在測(cè)試集中至少有一條評(píng)分?jǐn)?shù)據(jù),所有新景點(diǎn)的評(píng)分?jǐn)?shù)據(jù)為34條。
引進(jìn)的產(chǎn)品外部屬性信息為景點(diǎn)文本信息,主要包括1 660個(gè)文檔,每個(gè)文檔描述了對(duì)應(yīng)景點(diǎn)的相關(guān)信息,通過(guò)利用jieba中文分詞、TF-IDF算法,可以將景點(diǎn)文本信息轉(zhuǎn)換為景點(diǎn)特征矩陣,該矩陣是一個(gè)高維稀疏矩陣。
實(shí)驗(yàn)采用均方根誤差RMSE和平均絕對(duì)誤差MAE作為評(píng)價(jià)指標(biāo),主要通過(guò)計(jì)算實(shí)際評(píng)分與預(yù)測(cè)評(píng)分之間的誤差衡量混合推薦算法的準(zhǔn)確性,即誤差值越小,推薦算法的準(zhǔn)確度越高,預(yù)測(cè)評(píng)分越接近真實(shí)評(píng)分,推薦結(jié)果越能符合用戶(hù)真實(shí)興趣。實(shí)驗(yàn)環(huán)境為PC機(jī)(Intel Core i5-7500處理器,8 GB內(nèi)存,500 GB硬盤(pán));Windows10操作系統(tǒng);編程語(yǔ)言為Python 2.7。
首先,比較通過(guò)融合不同聚類(lèi)算法解決協(xié)同過(guò)濾算法的冷啟動(dòng)問(wèn)題,將K均值聚類(lèi)算法和本文使用的譜聚類(lèi)算法進(jìn)行比較,對(duì)使用K均值聚類(lèi)算法與本文協(xié)同過(guò)濾算法在聚類(lèi)時(shí)間、準(zhǔn)確度等性能上進(jìn)行對(duì)比。SGD_KMeans由于在譜聚類(lèi)算法的實(shí)現(xiàn)過(guò)程中,選取高斯核函數(shù)求解特征矩陣的相似矩陣,所以需要進(jìn)行調(diào)優(yōu)的參數(shù)包括高斯核函數(shù)中的gamma值和聚類(lèi)簇?cái)?shù)(本文對(duì)于分割圖數(shù)k1和聚類(lèi)簇?cái)?shù)k2取值相同)。實(shí)驗(yàn)證明,gamma在取值為1.0,聚類(lèi)簇?cái)?shù)k取值為15時(shí),譜聚類(lèi)算法性能趨于穩(wěn)定;聚類(lèi)簇?cái)?shù)k取值為15時(shí),K均值聚類(lèi)算法性能趨于穩(wěn)定,且聚類(lèi)簇?cái)?shù)對(duì)算法性能影響較小。由于譜聚類(lèi)算法在聚類(lèi)過(guò)程中利用了降維操作,因此相比較KMeans聚類(lèi)算法,譜聚類(lèi)對(duì)于高維度的稀疏數(shù)據(jù)具有很好的適用性,計(jì)算復(fù)雜度相對(duì)較低,特別適合文本聚類(lèi)情況下使用,如表2所示。
表2 不同聚類(lèi)算法的優(yōu)化性能對(duì)比Tab.2 Comparisons of optimal performance of different clustering algorithms
表2中,SGD_KMeans算法使用K均值聚類(lèi),SGD_SC算法使用譜聚類(lèi)。由表2可以看出,在高維度的景點(diǎn)特征矩陣下,KMeans的聚類(lèi)時(shí)間要遠(yuǎn)遠(yuǎn)大于譜聚類(lèi)所需要的時(shí)間,幾乎是譜聚類(lèi)算法聚類(lèi)所需時(shí)間的10倍;在推薦算法的準(zhǔn)確率上,譜聚類(lèi)算法與K均值聚類(lèi)的準(zhǔn)確率相差不大。由此可以看出,在基于聚類(lèi)和矩陣分解的個(gè)性化旅游景點(diǎn)推薦技術(shù)中,使用譜聚類(lèi)的優(yōu)化效果要優(yōu)于傳統(tǒng)的K均值聚類(lèi)。后文實(shí)驗(yàn)中,主要采用基于譜聚類(lèi)算法優(yōu)化的協(xié)同過(guò)濾推薦算法進(jìn)行性能對(duì)比。
基于矩陣分解的協(xié)同過(guò)濾算法的核心思想是將原始矩陣通過(guò)降維技術(shù),分解為兩個(gè)低維度的特征矩陣,其中特征矩陣的特征數(shù)對(duì)算法整體性能具有影響:特征數(shù)太小,影響推薦算法的準(zhǔn)確率;特征值過(guò)大,又需要大量的存儲(chǔ)空間來(lái)存儲(chǔ)特征矩陣。因此選擇合適的特征數(shù)對(duì)推薦算法具有直接的影響。通過(guò)對(duì)比不同特征數(shù)下未優(yōu)化的協(xié)同過(guò)濾推薦算法、使用均值填充和使用譜聚類(lèi)算法進(jìn)行優(yōu)化后的算法性能變化情況,其中原始協(xié)同過(guò)濾算法標(biāo)記為SGD[16],使用譜聚類(lèi)算法進(jìn)行優(yōu)化的協(xié)同過(guò)濾算法標(biāo)記為SGD_SC,使用均值填充的改進(jìn)協(xié)同過(guò)濾算法標(biāo)記為SGD_AVG,圖1和圖2分別展示了3種算法的RMSE、MAE值。
圖1 不同特征值數(shù)下各算法的RMSE誤差對(duì)比Fig.1 Comparisons of RMSE of each algorithm under different characteristic values
圖2 不同特征值數(shù)下各算法的MAE誤差對(duì)比Fig.2 Comparisons of MAE of each algorithm under different characteristic values
圖3 不同新景點(diǎn)評(píng)分點(diǎn)數(shù)量下模型誤差變化情況對(duì)比Fig.3 Comparisons of model error changes under different number of new attractions
由圖1和圖2可以看出,特征值數(shù)取45時(shí)算法性能基本達(dá)到穩(wěn)定。與未優(yōu)化的原始算法對(duì)比,使用均值填充進(jìn)行優(yōu)化的協(xié)同過(guò)濾算法和使用譜聚類(lèi)算法進(jìn)行優(yōu)化的協(xié)同過(guò)濾算法都在一定程度上降低了模型誤差,提高了算法性能,且使用譜聚類(lèi)算法進(jìn)行改進(jìn)的效果更加明顯。隨著特征值數(shù)量的不斷增大,SGD_AVG算法、SGD_SC算法和原始的SGD算法性能均趨于穩(wěn)定。
根據(jù)新景點(diǎn)的數(shù)量不同,對(duì)比使用本文算法和原始協(xié)同過(guò)濾算法的在解決冷啟動(dòng)問(wèn)題的效果變化情況,對(duì)比5組數(shù)據(jù)(data_1~data_5),結(jié)果如圖3所示。
其中新景點(diǎn)的數(shù)量以及對(duì)應(yīng)的評(píng)分點(diǎn)數(shù)量情況如表3所示。
表3 新景點(diǎn)以及對(duì)應(yīng)的評(píng)分點(diǎn)數(shù)量情況表Tab.3 New attractions and corresponding score points
根據(jù)測(cè)試集中所包含的新景點(diǎn)數(shù)量及其評(píng)分?jǐn)?shù)量的不同,對(duì)原始數(shù)據(jù)集進(jìn)行5次不同的數(shù)據(jù)分配,具體分配情況如表3所示。由圖3和表3可以看出,新景點(diǎn)數(shù)量越多時(shí),使用譜聚類(lèi)優(yōu)化的協(xié)同過(guò)濾推薦算法與原算法之間的預(yù)測(cè)誤差對(duì)比越明顯,即推薦模型的改進(jìn)效果越好。
本文提出的融合譜聚類(lèi)算法的改進(jìn)協(xié)同過(guò)濾算法,可以有效地解決新景點(diǎn)冷啟動(dòng)問(wèn)題。與傳統(tǒng)的采用K均值聚類(lèi)改進(jìn)的協(xié)同過(guò)濾算法相比,譜聚類(lèi)的聚類(lèi)時(shí)間更短,更適合旅游景點(diǎn)文本聚類(lèi);與使用均值填充改進(jìn)的協(xié)同過(guò)濾算法相比,基于譜聚類(lèi)的協(xié)同過(guò)濾算法準(zhǔn)確度更高。
本文提出了一種基于譜聚類(lèi)的改進(jìn)個(gè)性化協(xié)同過(guò)濾推薦算法,針對(duì)推薦系統(tǒng)存在的數(shù)據(jù)稀疏性和冷啟動(dòng)問(wèn)題,采用基于矩陣分解的協(xié)同過(guò)濾方法作為基礎(chǔ)方法,將譜聚類(lèi)算法與其相融合,并根據(jù)對(duì)比實(shí)驗(yàn)分析證明改進(jìn)后的算法與傳統(tǒng)基于K均值聚類(lèi)改進(jìn)的協(xié)同過(guò)濾算法等相比能有效提高推薦結(jié)果的準(zhǔn)確率,較好地解決新產(chǎn)品的冷啟動(dòng)問(wèn)題。下一步工作改進(jìn)思路主要包括考慮通過(guò)對(duì)原始評(píng)分矩陣中的用戶(hù)和產(chǎn)品進(jìn)行聯(lián)合聚類(lèi),進(jìn)一步緩解數(shù)據(jù)稀疏性和減小矩陣分解計(jì)算量;增大對(duì)比實(shí)驗(yàn)力度,提升算法適用性。