王磊 陸瑞雪
摘要:針對電商平臺考研資料推薦問題,提出采用項目評分預(yù)測的協(xié)同過濾推薦方法,即采用余弦相似度計算項目的相似度,在此基礎(chǔ)上通過TOP-N方法確定相似的圖書資料集合,最終預(yù)測未知圖書的評分,產(chǎn)生推薦?;贛ovielens數(shù)據(jù)集的數(shù)據(jù)實驗驗證了本文方法的有效性。
關(guān)鍵詞:項目評分;協(xié)同過濾;考研資料;推薦
1 引言
隨著考研熱的到來,各類電商平臺考研復(fù)習(xí)資料的種類日益龐大,相同種類的復(fù)習(xí)資料也有多種不同作者編寫的版本,考生們在面臨如此繁多的考研復(fù)習(xí)資料時,通常很難選擇[1]。
本文在個性化推薦的研究背景下,運用目前最為流行的協(xié)同過濾推薦技術(shù)開展考研資料推薦研究[2]。在一個考研資料電商平臺,系統(tǒng)中的用戶數(shù)量會不斷增長,使得評分矩陣更加稀疏,但是考研資料數(shù)量相對穩(wěn)定,因此本文基于項目評分預(yù)測,采用基于項目(物品)的協(xié)同過濾算法,以應(yīng)對考研資料推薦問題,為考生在考研的各個階段提供較為可靠的考研資料的選擇的參考。
2 推薦方法
基于項目的協(xié)同過濾算法是于2001年被提出,其基本思想是根據(jù)用戶的歷史興趣偏好記錄向用戶推薦與用戶所偏好的物品相似的物品。該算法的一個假設(shè)前提是:用戶一般情況下都會更喜歡與他之前所購買物品相似的物品[3]。
在一個考研資料推薦系統(tǒng)中,用戶數(shù)量不斷增長。如果采用基于相似用戶的推薦方法,將導(dǎo)致系統(tǒng)在每次推薦時需要重新在線的計算用戶之間的相似度,這樣就使得推薦方法的時間復(fù)雜度和計算復(fù)雜度變高。而物品的變化相比較而言是比較穩(wěn)定的,所以在實際的應(yīng)用中,基于項目的協(xié)同過濾中項目間相似度的計算可以離線進行,節(jié)省了產(chǎn)生推薦的時間,提高了推薦效率[4-5]。
用戶對于考研資料的類型有非常明確的要求,由于基于項目的協(xié)同過濾會為用戶推薦同類型的物品,因此,基于項目的協(xié)同過濾算法在考研資料推薦系統(tǒng)中會有較好的推薦效果?;陧椖康膮f(xié)同過濾在本系統(tǒng)中的原理是:根據(jù)用戶的評分記錄建立評分矩陣,計算目標(biāo)圖書(考研資料)與其他圖書之間的相似度,找到目標(biāo)圖書的最近鄰居集合,最后根據(jù)目標(biāo)用戶對最近鄰居集合中的圖書的歷史評分?jǐn)?shù)據(jù),預(yù)測目標(biāo)用戶對目標(biāo)圖書的評分。最后,將預(yù)測值進行降序排列,并將對應(yīng)的圖書推薦給目標(biāo)用戶。
設(shè)i和j分別表示圖書i和圖書j在對象空間上的評分向量,在考研資料推薦系統(tǒng)中,本文采用余弦相似度方法進行項目間的相似度計算:
(1)
公式(1)中,分子為兩種圖書的評分向量的內(nèi)積,分母為向量的模的乘積。
在此基礎(chǔ)上,采用Top-N法,將得到的圖書的相似度數(shù)據(jù)進行從大到小的降序排列后選擇前N個圖書作為目標(biāo)圖書的鄰居參與后續(xù)的推薦工作。
獲取目標(biāo)圖書的鄰居后,將目標(biāo)圖書i的鄰居集合設(shè)為NBSi,目標(biāo)用戶為用戶a。則用戶a根據(jù)目標(biāo)圖書的鄰居的評分記錄計算預(yù)測評分,最后將得出的預(yù)測結(jié)果按照從高到低的降序排列把對應(yīng)的圖書(考研資料)推薦給用戶a。預(yù)測評分的計算如下:
(2)
在公式(2)中,Pa,i為用戶a對于目標(biāo)圖書i的預(yù)測評分,n為圖書i的鄰居,、分別為目標(biāo)圖書i和鄰居n的評分的算數(shù)平均值,為圖書i與鄰居n的相似度,Ra,n為目標(biāo)用戶a對于目標(biāo)圖書n的評分。
3 實驗分析
本文對傳統(tǒng)的基于用戶的協(xié)同過濾與基于項目評分預(yù)測的協(xié)同過濾的推薦質(zhì)量進行實驗對比。其中傳統(tǒng)的基于用戶的協(xié)同過濾中用戶間相似度計算方法選擇了余弦相似度和Pearson相關(guān)系數(shù)作為對照組,基于項目評分預(yù)測的協(xié)同過濾方法作為實驗組,本實驗的目的是調(diào)查不同推薦方法的性能。本實驗開發(fā)環(huán)境的硬件配置的CPU為Intel(R)Core(TM)i5 2.40GHZ,內(nèi)存為4.00GB,軟件配置中操作系統(tǒng)為Windows10,編程語言為Java。
本實驗采用公開可用的Movielens數(shù)據(jù)集。本文從MovieLens數(shù)據(jù)集中隨機選擇部分?jǐn)?shù)據(jù),開展實驗,其中包括100個用戶和100部電影。在評分矩陣中非零元素為2691個,零元素為7309個,數(shù)據(jù)集的稀疏度為26.91%。為了方便進行實驗,將矩陣中用戶未評分電影的分值預(yù)設(shè)為零。將整個數(shù)據(jù)集的90%用作訓(xùn)練集,10%用作測試集。
本文采用平均絕對誤差MAE(Mean Absolute Error)和均方根誤差RMSE(Root Mean Square Error)來考慮推薦精度。平均絕對偏差公式如下:
(3)
其中,pi為預(yù)測出的用戶評分,qi為用戶的實際評分,N為實際值和預(yù)測值的數(shù)量。
均方根誤差的計算方法為:
(4)
其中,pi為預(yù)測出的用戶評分,qi為用戶的實際評分,N為實際值和預(yù)測值的數(shù)量。
本文與傳統(tǒng)的基于用戶的協(xié)同過濾中的余弦相似度和Pearson相關(guān)系數(shù)方法進行比較,其中,本文的方法鄰居數(shù)量N值設(shè)定為40。計算三種算法的平均絕對偏差MAE,RMSE,鄰居個數(shù)從4增加至20,間隔為4,并對結(jié)果進行比較。
由圖1可見,在各個鄰居數(shù)量的實驗條件下,與傳統(tǒng)的協(xié)同過濾推薦算法相比,基于項目評分預(yù)測的協(xié)同過濾算法均具有最小的MAE和RMSE值,即推薦結(jié)果更準(zhǔn)確。
4 總結(jié)
本文基于協(xié)同過濾方法,采用余弦相似度計算物品的相似度,在此技術(shù)上,設(shè)計了基于項目項目評分預(yù)測的推薦方法。實驗結(jié)果驗證了本文方法的有效性。本文所提出的方法能夠拓展個性化推薦技術(shù)的運用范圍,對圖書銷售類電商網(wǎng)站具有參考價值。
參考文獻:
[1]章偉.基于協(xié)同過渡算法的學(xué)習(xí)資源個性化推薦系統(tǒng)設(shè)計與實現(xiàn)[D].天津師范大學(xué),2017.
[2]Tewari A S,Barman A G.Collaborative book recommendation system using trust based social network and association rule mining[C]//International Conference on Contemporary Computing and Informatics.IEEE,2017:85-88.
[3]鄧愛林,朱揚勇,施伯樂.基于項目評分預(yù)測的協(xié)同過濾推薦算法[J].軟件學(xué)報,2003,14 (9):1621-1628.
[4]劉玲.基于Topsis思想的內(nèi)容推薦算法研究[J].數(shù)學(xué)的實踐與認(rèn)識,2012,42 (16):113-119.
[5]李娜.基于混合協(xié)同過濾的用戶在線學(xué)習(xí)資源系統(tǒng)個性化推薦方法研究[J].計算機光盤軟件與應(yīng)用,2015,18 (02):1-2.