摘要:文章深入研究了基于協(xié)同過濾與內(nèi)容的推薦算法在電影推薦系統(tǒng)中的融合與應用。首先,詳細闡述了兩種推薦算法的基本原理及優(yōu)缺點,并對相似度計算方法進行了深入的分析與針對性的優(yōu)化。隨后,文章探討了協(xié)同過濾和內(nèi)容推薦算法有效融合策略和方法。最后,采用MovieLens數(shù)據(jù)集進行實驗驗證,證明了融合算法在提升推薦系統(tǒng)性能方面的有效性,并討論了未來可能的研究方向。
關鍵詞:協(xié)同過濾推薦算法;內(nèi)容推薦算法;電影推薦系統(tǒng);融合
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2025)01-0079-03 開放科學(資源服務) 標識碼(OSID) :
0 引言
隨著互聯(lián)網(wǎng)技術的飛速發(fā)展和數(shù)據(jù)量的爆炸式增長,用戶面臨著前所未有的信息過載問題。如何從海量數(shù)據(jù)中高效、準確地為用戶推薦個性化的內(nèi)容,已成為互聯(lián)網(wǎng)企業(yè)提升用戶體驗、增強用戶黏性的關鍵因素。電影作為一種重要的娛樂形式,其數(shù)量呈爆炸性增長。面對海量的電影資源,用戶往往難以在眾多選擇中找到符合自己興趣和偏好的電影。推薦系統(tǒng)是一種學習用戶偏好,實現(xiàn)個性化推薦的系統(tǒng)化應用技術[1]。在信息過載的時代,推薦系統(tǒng)成為重要工具,有效地引導用戶發(fā)現(xiàn)他們感興趣的信息[2]。電影推薦系統(tǒng)通過分析用戶的歷史行為數(shù)據(jù)、電影的內(nèi)容特征等信息,為用戶提供個性化的電影推薦,從而提升了用戶的觀影體驗。
在眾多的推薦算法中,最為常見且有效的兩種是基于協(xié)同過濾和基于內(nèi)容的推薦算法。本文旨在探討電影推薦系統(tǒng)中這兩種算法的融合研究。通過分析和比較現(xiàn)有算法,本文提出了一種混合推薦算法,并通過實驗驗證了其有效性。本文的研究不僅有助于提升電影推薦系統(tǒng)的推薦精準度和用戶體驗,同時也為其他領域的推薦系統(tǒng)提供了有益的參考和借鑒。
1 基于協(xié)同過濾的推薦算法研究
基于協(xié)同過濾的推薦算法(Collaborative Filtering,CF) 作為一種成熟的推薦算法,已在電商、文本信息等推薦領域得到廣泛應用[3]。協(xié)同過濾算法主要通過計算用戶與用戶之間或者物品與物品之間的相似度,來向用戶推薦物品[4]。
基于協(xié)同過濾的推薦算法主要分為基于用戶的協(xié)同過濾和基于物品的協(xié)同過濾兩種。在電影推薦系統(tǒng)中,協(xié)同過濾推薦算法會收集包括電影評分、觀看記錄和搜索記錄等用戶歷史行為數(shù)據(jù),并以此作為后續(xù)計算的依據(jù)。隨后,算法會利用常用的相似度計算方法來計算用戶之間的相似度或電影之間的相似度。對于基于用戶的協(xié)同過濾算法,系統(tǒng)會找到與目標用戶品位相似的鄰居用戶,并根據(jù)這些鄰居用戶喜歡且目標用戶未觀看過的電影來生成推薦列表;而對于基于物品的協(xié)同過濾算法,系統(tǒng)則會根據(jù)目標用戶喜歡的電影,找到與其相似的其他電影進行推薦。最后,推薦系統(tǒng)會通過準確率等指標對推薦算法的效果進行評估,并根據(jù)評估結果對算法進行不斷的調(diào)整和優(yōu)化,以提升推薦的準確性和用戶滿意度。
協(xié)同過濾推薦算法的優(yōu)勢在于能夠深入挖掘用戶的興趣和偏好,從而為用戶提供高度個性化的電影推薦服務。然而,該算法也面臨一些挑戰(zhàn),如冷啟動問題,即對于新用戶或新電影,由于歷史數(shù)據(jù)的缺乏,推薦算法可能難以給出準確建議;數(shù)據(jù)稀疏性問題也是一個難題,當用戶評分矩陣過于稀疏時,會直接影響推薦的準確性和覆蓋范圍;此外,在大規(guī)模系統(tǒng)中,實時計算用戶或物品間的相似度對計算資源要求較高,這也是需要克服的一個挑戰(zhàn)。
2 基于內(nèi)容的推薦算法研究
基于內(nèi)容的推薦算法是通過分析用戶過去的行為和電影的內(nèi)容(如類型、導演、演員等) 來推薦類似的電影,它是一種基于項目特征的推薦方法。內(nèi)容推薦算法的優(yōu)勢在于能夠捕捉用戶的個性化需求,但其劣勢在于過于依賴電影的特征描述,而忽略了用戶行為的多樣性。在電影推薦系統(tǒng)中,算法首先會從電影的元數(shù)據(jù)中提取電影的關鍵特征,并將這些特征進一步處理并轉換成數(shù)值向量的形式,以便后續(xù)進行相似度計算。與此同時,系統(tǒng)也會根據(jù)用戶的觀影歷史、評分記錄等多元數(shù)據(jù),構建一個反映用戶興趣偏好的模型。隨后,算法會利用相似度的計算方法,計算出用戶興趣向量與候選電影特征向量之間的相似度。最后,根據(jù)計算出的相似度得分,對所有候選電影進行排序,并挑選出相似度最高的若干部電影呈現(xiàn)給用戶作為推薦結果。
基于內(nèi)容的推薦算法在電影推薦中具有顯著優(yōu)勢,它能夠根據(jù)用戶自身的觀影歷史和電影特征,為用戶提供極具個性化的推薦結果。即使對于新用戶或電影數(shù)量較少的情況,該算法也能提供較為準確的推薦。然而,算法的效果對于電影特征提取的質量依賴程度很高,如果特征提取不準確或不全面,就可能會影響到推薦的準確率。此外,該算法主要基于用戶已知的觀影歷史和影片特征進行推薦,因此在一定程度上限制了其推薦范圍的廣度,挖掘用戶的潛在興趣可能存在一定困難。
3 相似度計算方法研究
相似度計算是推薦系統(tǒng)中用于衡量不同實體(如用戶、商品、電影等) 之間相似性的一個關鍵技術。在協(xié)同過濾算法中,相似度評估是協(xié)同過濾推薦算法的核心[5]。相似度計算方法包括余弦相似度、杰卡德相似系數(shù)、皮爾遜相關系數(shù)等,這些方法各有特點,適用于不同的場景和需求。
3.1 余弦相似度
余弦相似度通過計算兩個向量之間的夾角的余弦值來衡量它們之間的相似度。在基于用戶的協(xié)同過濾(User-CF) 中,余弦相似度用于計算用戶之間的相似度。余弦相似度計算公式如式(1) 所示:
式(1) 中:ru為用戶u 的評分向量;rv為用戶v 的評分向量。
相似度值越高,表示用戶u 和v 的興趣越相似。在用戶相似度計算的過程中,由于許多用戶間無交集(即分子為0) ,這些計算是不必要的。因此,針對稀疏數(shù)據(jù),應優(yōu)化算法以避免無效計算。
為了避免在不相關用戶上浪費時間,文章提出以下策略:首先,通過構建物品到用戶的倒排表T,明確每個物品被哪些用戶互動過。接著,利用這個倒排表T來建立用戶相似度矩陣W,該矩陣代表余弦相似度公式中的分子部分。最終,通過除以相應的分母,可以準確計算出任意兩個用戶之間的興趣相似度。
當系統(tǒng)中存在熱門商品時,由于熱門商品出現(xiàn)頻率過高,傳統(tǒng)的余弦相似度計算方法可能導致推薦結果過于偏向這些熱門商品。在計算相似度時熱門商品因為被大量用戶喜歡或購買會對計算產(chǎn)生較大影響。為了懲罰熱門商品在推薦系統(tǒng)中的影響,即減少它們在相似度計算中的權重,對余弦相似度計算公式進行改進,引入懲罰因子。將熱門商品出現(xiàn)次數(shù)的倒數(shù)作為懲罰因子來降低其在相似度計算中的權重,熱門商品在計算相似度時的影響就會被削弱。通過引入懲罰因子或采取其他改進措施,可以有效懲罰熱門商品在推薦系統(tǒng)中的影響,提高推薦結果的多樣性和精準性。
文章中的推薦系統(tǒng)使用基于協(xié)同過濾的算法在計算用戶相似度或物品相似度時,引入熱門物品權重系數(shù),用以懲罰熱門物品對計算用戶相似度時的影響。如此一來,即使兩個用戶對熱門商品都有興趣,在計算的相似度時這種興趣也不會占據(jù)過大的比重,從而對用戶之間更細微、更個性化的相似點進行挖掘會有很大幫助。
3.2 杰卡德相似系數(shù)
杰卡德相似系數(shù)是用于比較兩個樣本集合相似性的一種指標。杰卡德相似系數(shù)的計算方法為J(A,B)=|A∩B|/|A∪B|,其中,|A∩B|表示集合A與B的交集元素數(shù)量,|A∪B|表示集合A與B的并集元素數(shù)量。
在推薦系統(tǒng)中,杰卡德相似系數(shù)可以用于計算用戶或物品之間的相似度。余弦相似度適合于衡量向量在方向上的相似度,適用于數(shù)值型數(shù)據(jù)的相似度計算;而杰卡德相似系數(shù)更適合于衡量集合之間的相似度,適用于布爾型數(shù)據(jù)的相似度計算。文中在基于內(nèi)容的推薦算法時使用杰卡德相似系數(shù)來衡量兩個物品之間的相似度。
4 基于協(xié)同過濾與內(nèi)容的推薦算法融合策略
基于協(xié)同過濾的推薦算法在面臨用戶數(shù)據(jù)稀疏性和冷啟動問題時可能表現(xiàn)不佳,而基于內(nèi)容的推薦算法則可能過于依賴電影的特征描述,從而忽略了用戶的個性化需求。為了克服這兩個算法的上述缺陷,可以將它們進行融合,形成混合推薦算法?;旌贤扑]算法結合了兩者的優(yōu)勢,能夠更準確地捕捉用戶的興趣和偏好,提供更加個性化的推薦服務。
常見的融合策略包括:
加權融合:根據(jù)具體場景和需求,為推薦結果分配不同的權重,然后加權求和得到最終的推薦列表。
串行融合:先使用一種算法生成初步推薦列表,然后再使用另一種算法對初步推薦列表進行優(yōu)化和調(diào)整。
文章中的融合策略采用基于用戶的協(xié)同過濾和基于物品的協(xié)同過濾進行加權融合得到推薦列表,權重通?;谒惴ㄔ隍炞C集或測試集上的性能表現(xiàn)來確定,最后將加權融合后的推薦列表與基于內(nèi)容的推薦列表進行串行融合得到最終的推薦列表。融合策略如圖1所示。
5 基于協(xié)同過濾與內(nèi)容推薦的算法融合實驗
5.1 實驗數(shù)據(jù)
基于協(xié)同過濾與內(nèi)容推薦的算法在推薦系統(tǒng)中的融合研究是一個熱門且富有成效的領域。研究借助MovieLens數(shù)據(jù)集來進行實證分析。MovieLens數(shù)據(jù)集是由GroupLens Research團隊提供的一個公開數(shù)據(jù)集,MovieLens數(shù)據(jù)集包含多個版本(如100K、1M、10M等) ,各版本數(shù)據(jù)集根據(jù)規(guī)模不同包含數(shù)量不等的用戶對電影評分記錄。文章中的實驗采用1M版本,包含超過一百萬條評分數(shù)據(jù)。該數(shù)據(jù)集通常由用戶信息文件、電影信息文件和用戶-電影評分文件3 個主要部分組成,分別記錄了用戶的詳細信息、電影的基本信息及用戶對電影的評分和時間戳。MovieL?ens數(shù)據(jù)集廣泛應用于推薦算法的性能驗證和評估,特別是在協(xié)同過濾、內(nèi)容過濾和混合推薦系統(tǒng)等領域發(fā)揮著重要作用。
5.2 評價指標
本實驗選取的評估準則為準確率(Precision) ,準確率越高,表示系統(tǒng)推薦的物品與用戶實際興趣匹配度越高,用戶滿意度和參與度也可能隨之提升。準確率的公式通常定義為正確推薦的項目數(shù)除以推薦的總項目數(shù)。用數(shù)學符號表示,準確率的計算公式如式(2) 所示:
p = TP/TP + FP (2)
式(2) 中:TP(True Positives) 表示真正例,即推薦系統(tǒng)中被正確推薦且用戶實際感興趣的項目數(shù);FP(False Positives) 表示假正例,即推薦系統(tǒng)中被錯誤推薦而用戶實際上不感興趣的項目數(shù)。
5.3 實驗結果與分析
使用混合推薦算法與傳統(tǒng)的基于用戶的協(xié)同過濾推薦算法和基于物品的協(xié)同過濾推薦算法進行實驗。分別以MovieLens 1M數(shù)據(jù)集進行比較測試,權重采用預設的0.7(User-CF推薦) 和0.3(Item-CF推薦) ,計算3種方法的準確率,結果如表1所示。
根據(jù)表1中的數(shù)據(jù)可知,采用的混合推薦算法在指定推薦個數(shù)的情況下準確率均優(yōu)于單個的推薦方法。權重確定不是一次性的任務,而應隨著數(shù)據(jù)變化、用戶需求變化等因素進行持續(xù)優(yōu)化。未來還將繼續(xù)收集用戶對推薦結果的反饋,如點擊率、觀看時長、評分等。根據(jù)用戶反饋來動態(tài)調(diào)整不同推薦算法的權重,以優(yōu)化用戶體驗,提高推薦效果,實現(xiàn)個性化的推薦。由于協(xié)同過濾和內(nèi)容推薦算法基于不同的原理生成推薦結果,為了能夠增加推薦列表的多樣性,滿足用戶的不同需求。最后將加權融合后的推薦列表與基于內(nèi)容推薦列表進行串行融合得到最終的推薦列表。
6 結束語
文章深入探討了基于協(xié)同過濾和內(nèi)容的推薦算法在電影推薦系統(tǒng)中的融合研究。通過對這兩種算法和相似度計算的研究以及對相似度計算方法進行針對性的優(yōu)化與改進,創(chuàng)新性地提出了一種算法融合的策略。經(jīng)過在MovieLens數(shù)據(jù)集上實驗證明,融合后的算法成功提升了推薦系統(tǒng)的推薦性能。相于僅使用單一算法的推薦系統(tǒng),融合了多種算法的推薦系統(tǒng)具有顯著優(yōu)勢:它不僅結合了協(xié)同過濾和內(nèi)容推薦等技術,更全面地捕捉用戶興趣與物品特征,從而提升了推薦的準確性;同時,通過靈活運用多種推薦算法,有效緩解了數(shù)據(jù)稀疏性帶來的挑戰(zhàn),增強了系統(tǒng)的數(shù)據(jù)利用能力;此外,混合推薦系統(tǒng)還能提供更多樣化的推薦選擇,避免了推薦結果的單一化;并且,由于融合了多種算法,系統(tǒng)的魯棒性和穩(wěn)定性也得到提升,降低了單一算法失效對整體性能的影響。研究為電影推薦系統(tǒng)的優(yōu)化提供了新的思路和方法,也為提升用戶體驗和滿足用戶個性化需求提供了有力的支持。未來,隨著大數(shù)據(jù)和人工智能技術的不斷發(fā)展,推薦系統(tǒng)的算法研究將繼續(xù)深入,為用戶提供更加智能化、個性化的推薦服務。
參考文獻:
[1] 劉華玲,馬俊,張國祥.基于深度學習的內(nèi)容推薦算法研究綜述[J].計算機工程,2021,47(7):1-12.
[2] 徐文濤,王誠.基于降低數(shù)據(jù)稀疏度的協(xié)同過濾算法[J].計算機技術與發(fā)展,2024,34(5):170-174.
[3] 王小林.基于協(xié)同過濾算法的信息技術課程資源推薦系統(tǒng)設計與應用[J].信息與電腦(理論版),2024,36(5):254-256.
[4] 董慧慧.基于XGBoost的協(xié)同過濾算法在民宿推薦系統(tǒng)中的應用[J].電腦知識與技術,2024,20(24):67-69.
[5] 錢澤俊,劉潤然.融合電影流行性與觀影時間的協(xié)同過濾算法[J].網(wǎng)絡安全與數(shù)據(jù)治理,2024,43(2):54-63.
【通聯(lián)編輯:代影】