陳雪婷
(貴州師范大學(xué),貴州 貴陽(yáng) 550025)
在電子商務(wù)領(lǐng)域中,基于協(xié)同過(guò)濾的推薦算法核心概念是:對(duì)于相似用戶而言,在興趣愛(ài)好上同樣存在一定的相似性??梢試L試通過(guò)對(duì)目標(biāo)用戶興趣相似用戶進(jìn)行搜尋的方式,根據(jù)最鄰近用戶的評(píng)分對(duì)目標(biāo)用戶相對(duì)于某項(xiàng)目商品的評(píng)分制進(jìn)行預(yù)測(cè),并將預(yù)測(cè)評(píng)分最高的部分商品面向目標(biāo)用戶進(jìn)行推薦。在當(dāng)前技術(shù)條件支持下,大量國(guó)內(nèi)外研究學(xué)者嘗試對(duì)協(xié)同過(guò)濾推薦算法的應(yīng)用思路與操作步驟就那些改進(jìn)與優(yōu)化,提出了包括基于神經(jīng)網(wǎng)絡(luò)、基于矩陣降維以及基于聚類(lèi)的協(xié)同過(guò)濾操作方法。以下嘗試將分層聚類(lèi)準(zhǔn)則引入電子商務(wù)領(lǐng)域的協(xié)同過(guò)濾個(gè)性化推薦算法中,對(duì)該算法操作思路進(jìn)行研究與分析,并通過(guò)對(duì)實(shí)驗(yàn)數(shù)據(jù)的應(yīng)用驗(yàn)證該算法應(yīng)用于電子商務(wù)領(lǐng)域的可行性與可靠性。
當(dāng)前技術(shù)條件支持下,電子商務(wù)領(lǐng)域中基于分層聚類(lèi)原則的協(xié)同過(guò)濾推薦算法的將數(shù)據(jù)集劃分為層次數(shù),所涉及到的常見(jiàn)形式包括兩大類(lèi),第一類(lèi)為凝聚,第二類(lèi)為分裂。其中,前者是指在數(shù)據(jù)集中,每個(gè)數(shù)據(jù)均可遵循從下至上基本原則合并形成相似類(lèi),直至滿足一定條件完成合并為止;后者則是指在數(shù)據(jù)集中所涉及到的相關(guān)對(duì)象均屬于同一個(gè)類(lèi),在此基礎(chǔ)之上遵循自上而下的原則進(jìn)行分類(lèi),形成若干小類(lèi),所有小類(lèi)均包含一定元素。但在電子商務(wù)領(lǐng)域?qū)f(xié)同過(guò)濾個(gè)性化推薦算法進(jìn)行實(shí)際應(yīng)用的過(guò)程當(dāng)中發(fā)現(xiàn),傳統(tǒng)意義上基于分層聚類(lèi)原則的個(gè)性化推薦算法存在一定的不足,主要體現(xiàn)在兩個(gè)方面:第一,在基于分層聚類(lèi)原則的個(gè)性化推薦算法應(yīng)用中,沒(méi)有通過(guò)數(shù)學(xué)計(jì)算的方式確定個(gè)性化推薦所依賴的聚類(lèi)準(zhǔn)則,加之分層過(guò)程具有不可逆的特點(diǎn),這也就意味著一旦對(duì)聚類(lèi)的選取出現(xiàn)誤差,則無(wú)法退回上一步驟重新進(jìn)行選取,且后續(xù)操作中無(wú)法進(jìn)行彌補(bǔ),最終對(duì)推薦效果產(chǎn)生一定程度上的影響;第二,在基于分層聚類(lèi)原則的個(gè)性化推薦算法中,對(duì)聚類(lèi)中心的選擇考慮數(shù)據(jù)集相鄰區(qū)域,導(dǎo)致個(gè)性化推薦效果缺乏整體性。
以下以對(duì)電影影片的推薦為例,對(duì)經(jīng)過(guò)改進(jìn)后的基于分層聚類(lèi)的協(xié)同過(guò)濾個(gè)性化推薦算法流程進(jìn)行簡(jiǎn)要闡述:假定對(duì)于用戶1#而言,需要系統(tǒng)面向其喜好推薦5部影片,且該用戶當(dāng)前有10條歷史觀看記錄。該情況下,可以嘗試與其他系統(tǒng)用戶進(jìn)行對(duì)比,將觀看電影數(shù)量相同這一條件作為分層標(biāo)準(zhǔn),引入聚類(lèi)概念,即對(duì)于2#用戶而言,歷史觀看記錄中有8條與1#用戶相同,對(duì)于3#用戶而言,歷史觀看記錄中有6條與1#用戶相同,則可以基于用戶1#構(gòu)建聚類(lèi)中心,并基于2#以及3#用戶向外進(jìn)行分層,以沒(méi)有與用戶1#存在相同觀看記錄為停止標(biāo)準(zhǔn)。但此情況下,并不意味著與1#用戶相同觀看記錄以外的其他影片都需要面向其做推薦,在進(jìn)行影片推薦前還需要滿足圍合數(shù)的概念。在此過(guò)程中對(duì)最大圍合數(shù)的基本定義為:通過(guò)當(dāng)前所有比對(duì)用戶數(shù)量與當(dāng)前所有比對(duì)層數(shù)和相除的方式,將其作為確定數(shù),直至某部影片出現(xiàn)次數(shù)高于確定數(shù),此情況下確定將所對(duì)應(yīng)影片推薦給用戶1#。換句話來(lái)說(shuō),在分層聚類(lèi)協(xié)同過(guò)濾個(gè)性化推薦的過(guò)程當(dāng)中,對(duì)于第1層而言,在推薦影片數(shù)量不足5部的情況下則需要轉(zhuǎn)移至第2層進(jìn)行比對(duì)。對(duì)于3#用戶而言,剩余4部影片有一定機(jī)會(huì)被推薦給用戶1#。在個(gè)性化推薦算法中,此情況下還需要引入基數(shù)計(jì)算方法,即將第1層影片數(shù)量與第2層影片數(shù)量相加,得到當(dāng)前比對(duì)的所有電影數(shù)量,并與所有層數(shù)相除,所得到的結(jié)果進(jìn)行根號(hào)處理,在算值低于3的情況下的,僅對(duì)第2層電影數(shù)量進(jìn)行計(jì)算。換言之,此情況下對(duì)于3#用戶而言,若剩余4部影片中有3部電影的出現(xiàn)次數(shù)高于前一步驟中所計(jì)算的最大圍合數(shù)結(jié)果,則將這3部影片推薦給1#用戶。在尚未推薦完畢的情況下,其他步驟按照相同方法進(jìn)行處理。
各相關(guān)行業(yè)領(lǐng)域?qū)f(xié)同過(guò)濾技術(shù)的應(yīng)用一直備受業(yè)內(nèi)人士的關(guān)注與重視。但由于協(xié)同過(guò)濾算法自身存在一定的局限性,即在數(shù)據(jù)信息相對(duì)稀疏且冷啟動(dòng)的情況下會(huì)對(duì)個(gè)性化推薦效果產(chǎn)生一定程度上的影響。因此,相關(guān)人員開(kāi)始嘗試基于分層聚類(lèi)準(zhǔn)則,對(duì)常用分層聚類(lèi)算法存在的問(wèn)題進(jìn)行改進(jìn),將優(yōu)化改進(jìn)后的分層聚類(lèi)協(xié)同過(guò)濾個(gè)性化推薦算法應(yīng)用于電子商務(wù)個(gè)性化推薦實(shí)踐中,實(shí)現(xiàn)了基于用戶推薦與基于項(xiàng)目推薦的良性融合,體現(xiàn)了協(xié)同過(guò)濾個(gè)性化推薦算法的整體性以及組合性特點(diǎn),并通過(guò)對(duì)一系列實(shí)驗(yàn)數(shù)據(jù)的應(yīng)用證實(shí),經(jīng)改進(jìn)分層聚類(lèi)準(zhǔn)則優(yōu)化后的協(xié)同過(guò)濾電子商務(wù)個(gè)性化推薦算法能夠更加精確的把握相似性,達(dá)到顯著提升推薦效果的目的。
以GroupLens 項(xiàng)目組收集MovieLens 為本次實(shí)驗(yàn)基礎(chǔ)數(shù)據(jù),用于對(duì)改進(jìn)分層聚類(lèi)準(zhǔn)則條件下協(xié)同過(guò)濾個(gè)性化推薦算法質(zhì)量水平的驗(yàn)證實(shí)驗(yàn)。基礎(chǔ)數(shù)據(jù)共100000條,納入研究的評(píng)分用戶評(píng)價(jià)電影條數(shù)高于20條。實(shí)驗(yàn)過(guò)程中評(píng)分標(biāo)準(zhǔn)為MAE,以該參數(shù)代表用戶1#相對(duì)于已經(jīng)給出評(píng)分向項(xiàng)目的偏差度量,所關(guān)聯(lián)的系數(shù)包括項(xiàng)目數(shù)、預(yù)測(cè)評(píng)分、實(shí)際評(píng)分,MAE 值可用于對(duì)評(píng)分結(jié)果準(zhǔn)確性的預(yù)測(cè),將該參數(shù)作為標(biāo)準(zhǔn),在該值偏小的情況下意味著具備良好的推薦效果,在該值偏大的情況下的則意味著個(gè)性化推薦效果不理想。
實(shí)驗(yàn)結(jié)果如下所示:
在系數(shù)取值0.1的情況下,所對(duì)應(yīng)的MAE值為0.7272;
在系數(shù)取值0.2的情況下,所對(duì)應(yīng)的MAE值為0.7228;
在系數(shù)取值0.3的情況下,所對(duì)應(yīng)的MAE值為0.7199;
在系數(shù)取值0.4的情況下,所對(duì)應(yīng)的MAE值為0.7186;
在系數(shù)取值0.5的情況下,所對(duì)應(yīng)的MAE值為0.7188;
在系數(shù)取值0.6的情況下,所對(duì)應(yīng)的MAE值為0.7205;
在系數(shù)取值0.7的情況下,所對(duì)應(yīng)的MAE值為0.7238;
在系數(shù)取值0.8的情況下,所對(duì)應(yīng)的MAE值為0.7286;在系數(shù)取值0.9的情況下,所對(duì)映的MAE值為0.7349。以上數(shù)據(jù)反應(yīng)了系數(shù)取值相對(duì)于MAE 值得影響,結(jié)合以上數(shù)據(jù)可見(jiàn),在系數(shù)取值為0.4的情況下,基于改進(jìn)分層聚類(lèi)準(zhǔn)則的協(xié)同過(guò)濾個(gè)性化推薦算法推薦效果達(dá)到最佳狀態(tài)。在此基礎(chǔ)之上,與傳統(tǒng)協(xié)同過(guò)濾算法以及傳統(tǒng)聚類(lèi)協(xié)同過(guò)濾算法就推薦效果進(jìn)行對(duì)比,對(duì)比結(jié)果同樣顯示:基于改進(jìn)分層聚類(lèi)準(zhǔn)則的協(xié)同過(guò)濾個(gè)性化推薦算法MAE 值始終維持在較低水平,以此種方式驗(yàn)證經(jīng)改進(jìn)后的個(gè)性化推薦算法具備更為理想的推薦效果。
本文上述分析中基于最大限度降低個(gè)性化推薦偏差,提升個(gè)性化推薦效果的目的,對(duì)基于分層聚類(lèi)的分層準(zhǔn)則進(jìn)行改進(jìn)與優(yōu)化,以彌補(bǔ)傳統(tǒng)意義上分層聚類(lèi)算法在個(gè)性化推薦方面存在的不足。經(jīng)改進(jìn)后的協(xié)同過(guò)濾個(gè)性化推薦算法實(shí)現(xiàn)了對(duì)基于用戶推薦以及基于項(xiàng)目推薦兩種模式與思路的融合,以經(jīng)過(guò)改進(jìn)的分層聚類(lèi)住著呢為基本原則。通過(guò)對(duì)相關(guān)實(shí)驗(yàn)數(shù)據(jù)的分析發(fā)現(xiàn),經(jīng)改進(jìn)分層聚類(lèi)住著呢的協(xié)同過(guò)濾個(gè)性化推薦算法在推薦準(zhǔn)確度方面得到了明顯的提升,在MAE 值方面明顯優(yōu)于傳統(tǒng)協(xié)同過(guò)濾推薦算法以及聚類(lèi)準(zhǔn)則協(xié)同過(guò)濾算法,提示后續(xù)工作中可以嘗試將該算法實(shí)踐應(yīng)用于電子商務(wù)推薦系統(tǒng)中,并對(duì)推薦效果做進(jìn)一步觀察。