讓 冉,邢林林,張龍波,蔡紅珍
(1 山東理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 淄博 255000;2 山東理工大學(xué) 農(nóng)業(yè)工程與食品科學(xué)學(xué)院,山東 淄博 255000)
推薦系統(tǒng)(Recommendation System,RS)[1]主要是數(shù)據(jù)挖掘、預(yù)測算法、機(jī)器學(xué)習(xí)等多種學(xué)科結(jié)合而形成的一個新的研究領(lǐng)域,旨在通過向用戶提供相關(guān)建議,幫助用戶發(fā)現(xiàn)互聯(lián)網(wǎng)上的用戶興趣。如今,推薦系統(tǒng)已經(jīng)成為在線用戶體驗(yàn)中普遍存在的一部分,充當(dāng)信息過濾器的作用,為用戶提供符合需求的個性化的信息。建立推薦系統(tǒng)的技術(shù)很多,一般可以分為基于內(nèi)容的推薦系統(tǒng)[2]、基于協(xié)同過濾的推薦系統(tǒng)[3]和基于混合的推薦系統(tǒng)[4]。基于內(nèi)容的推薦方法,利用交互數(shù)據(jù)以及輔助信息,推薦與用戶過去偏好相似的項(xiàng)目;基于協(xié)同過濾的方法是通過用戶以往的交互信息,直接預(yù)測用戶的興趣,并從過去有類似興趣和偏好的其他用戶向用戶推薦項(xiàng)目;混合方法結(jié)合了基于內(nèi)容和基于項(xiàng)目的方法。推薦系統(tǒng)能根據(jù)用戶的興趣偏好為用戶進(jìn)行個性化推薦,為用戶提供新的、感興趣的內(nèi)容,并且能為用戶推薦關(guān)注領(lǐng)域的最新進(jìn)展、歷史脈絡(luò)以及有價(jià)值信息,這對于消除信息壁壘,增加信息價(jià)值起到重要作用。
最近,無論學(xué)術(shù)界還是工業(yè)界都對于推薦系統(tǒng)應(yīng)用于實(shí)際場景中的研究興趣大增。目前推薦系統(tǒng)模型的研究主要利用Movielens[5]、Yelp[6]等公開數(shù)據(jù)集,但在實(shí)際應(yīng)用場景中,推薦效果會受到數(shù)據(jù)規(guī)模[7]、領(lǐng)域的獨(dú)特性、上下文信息[8]等多種因素的影響。因此,依照公開數(shù)據(jù)集開發(fā)的模型,使用在特定領(lǐng)域?qū)嶋H應(yīng)用場景中,往往導(dǎo)致用戶對于推薦結(jié)果滿意度較低的現(xiàn)象。
從近年來構(gòu)建新領(lǐng)域?qū)嶋H應(yīng)用場景中推薦系統(tǒng)的相關(guān)研究來看,新領(lǐng)域推薦系統(tǒng)的方法領(lǐng)域限定性強(qiáng),并且推薦效果依賴于數(shù)據(jù)的質(zhì)量以及領(lǐng)域特征,針對在新領(lǐng)域從零構(gòu)建高質(zhì)量推薦系統(tǒng)受到的多方面困難和阻礙進(jìn)行總結(jié)分析[9]。
在此背景下,本文通過討論現(xiàn)階段技術(shù)研究現(xiàn)狀以及領(lǐng)域內(nèi)的限制,詳細(xì)闡述了現(xiàn)在新領(lǐng)域[10]推薦系統(tǒng)實(shí)際應(yīng)用場景中最緊迫的挑戰(zhàn)。雖然在技術(shù)研究、領(lǐng)域限制等問題上,許多研究人員利用公開數(shù)據(jù)集進(jìn)行了大量的研究,但是本文討論的重點(diǎn)在于模型在新領(lǐng)域中實(shí)際場景的應(yīng)用。由于無法全面包含所有實(shí)際應(yīng)用場景中的局限與挑戰(zhàn),本文將重點(diǎn)放在新領(lǐng)域推薦系統(tǒng)實(shí)際應(yīng)用場景中的冷啟動問題以及數(shù)據(jù)稀疏性高等問題的研究上。
新領(lǐng)域非特指某些領(lǐng)域的集合,而是強(qiáng)調(diào)在某領(lǐng)域中需要從零構(gòu)建一個有效的推薦系統(tǒng)[10]。對于推薦系統(tǒng)應(yīng)用而言,此領(lǐng)域?yàn)橐粋€全新的領(lǐng)域。
1.1.1 新領(lǐng)域構(gòu)建推薦系統(tǒng)特點(diǎn)
(1)新穎性。新穎性包括領(lǐng)域新穎以及數(shù)據(jù)新穎。領(lǐng)域的新穎性在一定程度上阻礙著推薦方法的應(yīng)用,但是存在推薦模型如協(xié)同過濾[11]、基于內(nèi)容[12]等模型無需領(lǐng)域知識,領(lǐng)域新穎并不能成為影響推薦效果的重要因素。數(shù)據(jù)新穎,即是在此領(lǐng)域內(nèi)的數(shù)據(jù)沒有構(gòu)成完成推薦系統(tǒng)模型建立適合的數(shù)據(jù)形式,需要人工進(jìn)行數(shù)據(jù)處理。
(2)分散性。分散性主要表現(xiàn)在兩個方面:一是數(shù)據(jù)沒有固定獲取方式[13]。新領(lǐng)域的數(shù)據(jù)獲取需要多渠道收集數(shù)據(jù),除了網(wǎng)絡(luò)、圖書館書籍資料、新聞、雜志等媒體的信息,還需關(guān)注統(tǒng)計(jì)局、行業(yè)協(xié)會、研究機(jī)構(gòu)的數(shù)據(jù)或者直接做市場調(diào)研;二是數(shù)據(jù)的零散分布,需要邏輯相互關(guān)聯(lián)。初步獲取到的數(shù)據(jù),都是零散的,需要充分利用數(shù)據(jù),尋找數(shù)據(jù)的關(guān)聯(lián)性[14]。
(3)再創(chuàng)性。再創(chuàng)性指的是新領(lǐng)域中能得到的信息只是一組組數(shù)據(jù)或是一種現(xiàn)象和啟示。研究人員需要充分研究利用新領(lǐng)域推薦中的有限數(shù)據(jù)[15],發(fā)現(xiàn)推薦目標(biāo)與被推薦對象之間復(fù)雜的交互關(guān)系,進(jìn)一步分析構(gòu)造更為高效的推薦模型,從而獲得更準(zhǔn)確的推薦結(jié)果。
1.1.2 面向新領(lǐng)域構(gòu)建推薦系統(tǒng)框架
如圖1 所示,面向新領(lǐng)域推薦系統(tǒng)的一般構(gòu)建框架主要包括數(shù)據(jù)采集、數(shù)據(jù)處理、推薦方法、模型評估4 個方面。
圖1 面向新領(lǐng)域推薦實(shí)施框架Fig.1 Recommendation framework for new domains
(1)數(shù)據(jù)采集:面向新領(lǐng)域進(jìn)行推薦所需要的數(shù)據(jù),主要根據(jù)所研究領(lǐng)域的特殊性進(jìn)行獲取。若在此階段領(lǐng)域內(nèi)有較完備的數(shù)據(jù)庫,則數(shù)據(jù)環(huán)節(jié)重點(diǎn)將放在數(shù)據(jù)處理上,否則,需要構(gòu)建領(lǐng)域數(shù)據(jù)庫體系,則需要多方面獲取資源數(shù)據(jù)。
(2)數(shù)據(jù)處理:數(shù)據(jù)處理階段是影響推薦效果最主要的環(huán)節(jié)。主要包括上下文信息融合、用戶偏好獲取、用戶行為跟蹤、信息反饋、額外信息等方面[15]。
(3)推薦方法:推薦方法需要結(jié)合領(lǐng)域特點(diǎn)、交互數(shù)據(jù)、輔助信息,建立高效的推薦系統(tǒng),旨在為用戶進(jìn)行個性化推薦。
(4)模型評估:推薦系統(tǒng)為用戶生成推薦結(jié)果后,通過評價(jià)指標(biāo)對推薦方法逐步優(yōu)化,提高推薦結(jié)果質(zhì)量。
目前,推薦系統(tǒng)模型的建立及優(yōu)化主要聚焦在公開數(shù)據(jù)集下進(jìn)行研究,而且大部分模型在應(yīng)用需求領(lǐng)域的限定性強(qiáng),而本文則就新領(lǐng)域從零開始構(gòu)建推薦系統(tǒng)將會受到的多方面困難和挑戰(zhàn)進(jìn)行分析。
1.2.1 數(shù)據(jù)預(yù)處理。
眾多推薦模型需要在已經(jīng)形成完備結(jié)構(gòu)的數(shù)據(jù)集基礎(chǔ)上進(jìn)行模型訓(xùn)練。但是對于新領(lǐng)域而言,沒有較全面的推薦目標(biāo)與被推薦目標(biāo)的數(shù)據(jù)信息,更多的數(shù)據(jù)信息需要數(shù)據(jù)采集、數(shù)據(jù)處理。數(shù)據(jù)預(yù)處理方法需根據(jù)數(shù)據(jù)集自身特點(diǎn)分析、模型類型分析、以及問題種類分析[15]等方面進(jìn)行。
1.2.2 領(lǐng)域?qū)I(yè)因素
現(xiàn)階段大部分推薦系統(tǒng)的研究主要為:電影、音樂、新聞等領(lǐng)域,但更多的新領(lǐng)域?qū)嶋H應(yīng)用推薦涉及新領(lǐng)域問題。電影領(lǐng)域中,用戶通常不喜歡被重復(fù)推薦相同的電影;但是在音樂領(lǐng)域,用戶可能在稍后的時(shí)間希望再次被推薦相同的音樂片段。不同的領(lǐng)域具有獨(dú)特的屬性[16]。在不同領(lǐng)域中進(jìn)行推薦,要結(jié)合領(lǐng)域相對應(yīng)的特殊性[17]。不同領(lǐng)域用戶所處交互環(huán)境不同,影響推薦效果的因素也有所區(qū)別。
1.2.3 冷啟動
冷啟動問題是新領(lǐng)域推薦系統(tǒng)實(shí)現(xiàn)過程中面臨的挑戰(zhàn)之一。
冷啟動主要分為3 大類:
(1)用戶冷啟動:新的用戶注冊到系統(tǒng),為新用戶進(jìn)行個性化推薦。
(2)項(xiàng)目冷啟動:新項(xiàng)目被添加到系統(tǒng)中,將新項(xiàng)目推薦給可能對其感興趣的用戶。
(3)系統(tǒng)冷啟動:向新用戶個性化推薦新項(xiàng)目,在新領(lǐng)域上進(jìn)行推薦(沒有用戶,也沒有用戶行為,只有一些項(xiàng)目的信息),設(shè)計(jì)個性化推薦系統(tǒng)。
一般的推薦系統(tǒng)需要根據(jù)用戶的歷史交互信息來預(yù)測用戶未來的行為,因此需要用戶的大量歷史交互數(shù)據(jù)信息。但是對新用戶和新項(xiàng)目來說,沒有相對應(yīng)的歷史交互,數(shù)據(jù)的缺失直接導(dǎo)致用戶與用戶、項(xiàng)目與項(xiàng)目之間無法計(jì)算相似性,無法預(yù)測評分,進(jìn)而無法向新用戶進(jìn)行高質(zhì)量推薦,新項(xiàng)目無法被推薦[18]。
1.2.4 數(shù)據(jù)稀疏
數(shù)據(jù)稀疏是指用戶與項(xiàng)目之間、用戶與用戶的交互信息在交互矩陣中所占的比例過小,即大多數(shù)事件/項(xiàng)目只有少數(shù)參與者,使用戶-項(xiàng)目矩陣出現(xiàn)極端稀疏性,導(dǎo)致推薦效果不理想。為了減少數(shù)據(jù)稀疏帶來的影響,一些算法僅應(yīng)用評分或簽到數(shù)據(jù)作為數(shù)據(jù)源進(jìn)行推薦。為了提高推薦性能,改進(jìn)算法考慮了添加額外信息(商品屬性以及用戶信息)或利用遷移學(xué)習(xí),嘗試從源域?qū)W習(xí)知識應(yīng)用到目標(biāo)域來實(shí)現(xiàn)更好的推薦[19]。
本節(jié)主要介紹面向新領(lǐng)域推薦方法,以及結(jié)合方法分析所適用的領(lǐng)域,并且將推薦系統(tǒng)中的主流方法進(jìn)行對比。
基于內(nèi)容的協(xié)同過濾,是根據(jù)項(xiàng)目或內(nèi)容的元數(shù)據(jù),發(fā)現(xiàn)項(xiàng)目或內(nèi)容的相關(guān)性,然后基于用戶以前的喜好記錄給用戶推薦相似的項(xiàng)目。圖2 是以電影推薦系統(tǒng)為例的基于內(nèi)容推薦方法示意。
圖2 基于內(nèi)容推薦方法Fig.2 Content-based recommendation method
Guo 等[20]在2019 年提出了采用TF-IDF 結(jié)合LDA 主題模型來解決用戶興趣和行為標(biāo)簽的缺失。此模型側(cè)重于根據(jù)司法案件內(nèi)容進(jìn)行推薦的方法,將中文自身的特殊性考慮進(jìn)模型,使用"jieba"文本分割來預(yù)處理案例。
Chang[21]等在2021 年將推薦系統(tǒng)應(yīng)用在寄宿家庭推薦中,提出利用大量用戶對于寄宿家庭的評論數(shù)據(jù),建立一個中文分詞語料。使用word2vec 培訓(xùn)語料庫來獲取寄宿家庭標(biāo)簽特征,然后利用TFIDF 對標(biāo)簽特征進(jìn)行矢量化,通過余弦相似度計(jì)算特征向量的相似度值,得到新用戶的推送值。
Ana 等人[22]在相似性分析的上下文中比較距離測量值,并通過Minkowski、Euclidea、Manhattan 距離、Bray-curtis 相似性等4 個指標(biāo)來衡量音樂的相似性,確定適合古典音樂相似性分析背景的特征提取和工程方法,并確定所選距離指標(biāo)之間的性能差異,以考慮音樂的多維性質(zhì),為古典音樂構(gòu)建推薦系統(tǒng)?;趦?nèi)容推薦方法的優(yōu)缺點(diǎn)分析詳見表1。
表1 基于內(nèi)容的推薦方法優(yōu)缺點(diǎn)分析Tab.1 Analysis of the advantages and disadvantages of contentbased recommendation methods
協(xié)同過濾推薦技術(shù)是推薦系統(tǒng)中應(yīng)用最早、最為成功的技術(shù)之一。采用最近鄰技術(shù),利用用戶的歷史喜好信息計(jì)算用戶之間的距離,通過目標(biāo)用戶的最近鄰居用戶對商品評價(jià)的加權(quán)評價(jià)值,來預(yù)測目標(biāo)用戶對特定商品的喜好程度,系統(tǒng)則根據(jù)這一喜好程度對目標(biāo)用戶進(jìn)行推薦。
2.2.1 基于內(nèi)存的協(xié)同過濾
基于內(nèi)存的協(xié)同過濾[23],分為基于用戶和基于項(xiàng)目。基于用戶的協(xié)同過濾推薦算法首先輸入項(xiàng)目的用戶評分?jǐn)?shù)據(jù)矩陣,使用統(tǒng)計(jì)技術(shù)計(jì)算用戶之間的相似度,尋找與目標(biāo)用戶相似的鄰居集,然后根據(jù)目標(biāo)用戶的鄰居集中選擇鄰居集中得分最高的項(xiàng)目集合,生成目標(biāo)用戶的TOP-N 推薦?;驹砭褪抢糜脩粼L問行為的相似性來互相推薦用戶可能感興趣的資源,如圖3 所示。
圖3 基于用戶的協(xié)同過濾推薦方法Fig.3 User-based collaborative filtering recommendation method
基于項(xiàng)目的協(xié)同過濾推薦[11]基本思想,是根據(jù)所有用戶對項(xiàng)目或者信息的評價(jià),發(fā)現(xiàn)項(xiàng)目和項(xiàng)目之間的相似度,然后根據(jù)用戶的歷史偏好信息,將相似度較高的項(xiàng)目作為推薦結(jié)果推薦給該用戶,如圖4 所示。
圖4 基于項(xiàng)目的協(xié)同過濾推薦方法Fig.4 Item-based collaborative filtering recommendation method
2020 年Musa[11]等提出了兩種不同的方法來計(jì)算這些相似性權(quán)重的項(xiàng)目,并選擇最好的項(xiàng)目來建立模型。為新領(lǐng)域進(jìn)行基于協(xié)同過濾算法的推薦,不可避免存在數(shù)據(jù)稀疏、冷啟動和推薦不準(zhǔn)確問題。為了克服這些問題,可以參考2020 年Ullah 等[23]提出的基于集成積分的矩陣分配協(xié)同過濾方法。
在新領(lǐng)域?qū)嶋H推薦應(yīng)用中,用戶的興趣常隨著時(shí)間而變化。Hui 等人[24]在2020 年提出了改進(jìn)基于用戶興趣擴(kuò)散的用戶綜合相似度計(jì)算方法,計(jì)算用戶興趣的直接相似度和用戶興趣擴(kuò)散的相似度,通過參數(shù)調(diào)整,得到用戶興趣的綜合相似度。針對用戶興趣隨時(shí)間變化的情況,將時(shí)間相關(guān)函數(shù)應(yīng)用于用戶之間的相似度計(jì)算。然而該算法依然存在推薦效率低,以及啟動時(shí)間長等問題。2021 年Wu 等人[25]根據(jù)用戶的屬性信息,采用基于用戶屬性特征優(yōu)化的K 平均聚類算法進(jìn)行聚類,生成多個聚類,結(jié)合每個聚類中的用戶屬性特征,建立一個新的相似度計(jì)算模型,通過聚類中搜索最近鄰,生成推薦列表來實(shí)現(xiàn)推薦。
若面向的是非社交的新領(lǐng)域進(jìn)行推薦,領(lǐng)域中內(nèi)容之間的關(guān)聯(lián)將是推薦的一個重要原則,基于內(nèi)容將比基于相似用戶的推薦原則更加有效。相反,若是社交領(lǐng)域中構(gòu)建推薦系統(tǒng),協(xié)同過濾方法將優(yōu)于基于內(nèi)容的方法,同時(shí)協(xié)同過濾加上社會網(wǎng)絡(luò)信息,可以增加用戶對推薦解釋的信服程度?;谟脩襞c基于項(xiàng)目的協(xié)同過濾方法對比結(jié)果見表2。
表2 基于用戶與基于項(xiàng)目的協(xié)同過濾方法對比Tab.2 Comparison of user-based and Item-based collaborative filtering methods
2.2.2 基于模型的協(xié)同過濾
基于模型的協(xié)同過濾推薦方法,是通過用戶與項(xiàng)目的交互數(shù)據(jù)訓(xùn)練推薦模型,預(yù)測未知項(xiàng)目評分進(jìn)行結(jié)果推薦。主流方法包括:關(guān)聯(lián)算法[32]、聚類算法[33]、分類算法、回歸算法、矩陣分解[34]、神經(jīng)網(wǎng)絡(luò)[35]、圖模型[36],以及隱語義模型等等。在新領(lǐng)域推薦常伴隨著在冷啟動以及數(shù)據(jù)稀疏的情況下,在現(xiàn)有的大多數(shù)工作中,用戶聚類被直接用來識別目標(biāo)用戶的相似用戶,并向其推薦。
Zhang 等[37]利用用戶聚類來重建用戶-項(xiàng)目二分網(wǎng)絡(luò),使網(wǎng)絡(luò)密度顯著提高。針對冷啟動,其中大部分的方法采用在數(shù)據(jù)層面[38]上解決此問題。早期的方法通常將輔助信息[39]作為用戶或項(xiàng)目特征。
2020 年Lu 等[40]提出MetaHIN 模型。該模型由語義增強(qiáng)任務(wù)構(gòu)造器以及協(xié)同適應(yīng)元學(xué)習(xí)器組成。語義增強(qiáng)任務(wù)構(gòu)造器利用語義上下文的語義序列,對任務(wù)進(jìn)行多方面的語義編碼,以增加支持和查詢集的用戶任務(wù)與異構(gòu)的語義上下文,在一定程度上緩解了數(shù)據(jù)稀疏和冷啟動帶來的問題。基于模型的協(xié)同過濾方法分析結(jié)果詳見表3。
表3 基于模型的協(xié)同過濾方法分析Tab.3 Analysis of model-based collaborative filtering methods
2021 年Zhu[36]利用PV-DM 模型為每篇論文的標(biāo)題生成數(shù)字特征,通過結(jié)構(gòu)化和文本表示相結(jié)合的“作者-文本查詢”場景,構(gòu)建了一個雙向的RNN。以用戶的身份為基礎(chǔ),通過現(xiàn)場查詢獲取學(xué)者以前的寫作和引用偏好,將異構(gòu)知識嵌入的注意遞歸神經(jīng)網(wǎng)絡(luò)應(yīng)用于科技論文推薦中。
混合推薦方法是指同時(shí)使用多種推薦技術(shù)產(chǎn)生推薦,從而通過結(jié)合加權(quán)、變換、混合、特征組合、層疊、特征擴(kuò)充、元級別等混合策略、彌補(bǔ)算法不足,獲得更好的推薦效果。
Walek 與Fojtik[4]在2020 年提出了預(yù)測單片混合推薦系統(tǒng),此系統(tǒng)利用SVD 算法的合作式推薦系統(tǒng)、基于內(nèi)容的系統(tǒng)來構(gòu)建推薦模型,模糊專家系統(tǒng)組成的推薦系統(tǒng)用于最終的排序建議?,F(xiàn)有的大多數(shù)的協(xié)同過濾方法嚴(yán)重依賴顯式反饋數(shù)據(jù),當(dāng)數(shù)據(jù)稀疏性時(shí),這種協(xié)同過濾方法的效果不明顯。Feng等[41]結(jié)合面向評分的概率矩陣分解和面向成對排序的貝葉斯個性化排序,提出了新的CF 排序模型。以上討論的方法多是基于合作學(xué)習(xí)技術(shù),部分使用基于內(nèi)容或混合過濾技術(shù)。Riyahi[42]提出了基于內(nèi)容、協(xié)作和混合過濾的新CF,使用wordnet 詞法數(shù)據(jù)庫提取標(biāo)簽的語義相關(guān)性,并根據(jù)標(biāo)簽的語義相關(guān)性,將標(biāo)簽組織成層次結(jié)構(gòu)?;趦?nèi)容的過濾部分,采用層次結(jié)構(gòu)搜索相關(guān)帖子,使用相關(guān)語義標(biāo)簽擴(kuò)展用戶查詢。通過相似性度量,計(jì)算合作對象的隱含評分,最后將兩部分結(jié)合到推薦系統(tǒng)的混合過濾部分。各種推薦系統(tǒng)方法對比結(jié)果詳見表4 。
表4 推薦系統(tǒng)方法對比Tab.4 Comparison of recommended system methods
表5 整理了不同的推薦技術(shù)在音樂、社交、新聞、電影、視頻、旅游6 個典型領(lǐng)域的應(yīng)用,并列舉了近年來相關(guān)領(lǐng)域較典型模型技術(shù),以及需要的數(shù)據(jù)類型和數(shù)據(jù)集,并對模型的特點(diǎn)進(jìn)行了歸納總結(jié)。
表5 各領(lǐng)域推薦方法對比Tab.5 Comparison of recommended methods by domain
不同領(lǐng)域推薦任務(wù)使用的評價(jià)指標(biāo)往往不同,就是希望推薦的結(jié)果都是用戶感興趣的結(jié)果,即用戶感興趣的信息比例要高。因?yàn)橥ǔ=o用戶展示的窗口有限,所以更要推薦給用戶真正感興趣的信息[19]?,F(xiàn)階段模型的評級指標(biāo)更多的側(cè)重計(jì)算查準(zhǔn)率、召回率等能體現(xiàn)模型優(yōu)勢的數(shù)值,而忽視了以用戶角度評價(jià)模型推薦結(jié)果優(yōu)劣的實(shí)驗(yàn)測試。
領(lǐng)域中評分預(yù)測任務(wù)需要預(yù)測準(zhǔn)確度,TOP-N推薦任務(wù)需要計(jì)算查準(zhǔn)率、查全率等準(zhǔn)確度指標(biāo),以及以用戶角度為衡量標(biāo)準(zhǔn)的覆蓋率、多樣性、新穎性、驚喜度、實(shí)時(shí)性、健壯性等非準(zhǔn)確度指標(biāo)。
(1)查準(zhǔn)率:查準(zhǔn)率是指所有預(yù)測為正類的結(jié)果中,真正的正類的比例。查準(zhǔn)率可以表示推送給用戶的內(nèi)容用戶是否感興趣。計(jì)算公式如下:
(2)召回率:召回率也被稱作查全率,是指所有正類中被分類器找出來的比例。公式如下:
(3)F1 分?jǐn)?shù):查準(zhǔn)率和召回率是矛盾統(tǒng)一的兩個指標(biāo),為了提高精確率,分類器會把準(zhǔn)確度更高的樣本預(yù)測為正樣本,但往往因?yàn)檫^于保守而漏掉正樣本,導(dǎo)致召回率降低,F(xiàn)1 分?jǐn)?shù)可以看作精確性和召回的結(jié)合。其計(jì)算公式如下:
式中:R(u)表示推薦給u的項(xiàng)目列表,T(u)表示真實(shí)用戶u的項(xiàng)目列表,U表示所有用戶合集。
(4)多樣性:推薦多樣性類型包括個體多樣性、系統(tǒng)多樣性、時(shí)序多樣性。個體多樣性從單個用戶的視角衡量推薦的多樣性,衡量系統(tǒng)能夠找到用戶喜歡的冷門項(xiàng)目的能力;系統(tǒng)多樣性強(qiáng)調(diào)不同用戶推薦的不同;時(shí)序多樣性指用戶興趣的動態(tài)變化,即與過去推薦相比,新的推薦所體現(xiàn)的多樣性。設(shè)Sim(i,j)∈[0,1]為項(xiàng)目i和項(xiàng)目j的相似性。則用戶u的推薦列表R(u)的多樣性可定義為
(5)新穎性:新穎性指推薦系統(tǒng)向用戶推薦與其相似度低的項(xiàng)目的能力。一般來說,系統(tǒng)所推薦的項(xiàng)目中,用戶之間的相似度越低,新穎度則越高。
(6)穩(wěn)定性:穩(wěn)定性指推薦系統(tǒng)的預(yù)測結(jié)果在短期內(nèi)變化較小,這樣才能被用戶所信任。假設(shè)已知用戶評分集合R1,對應(yīng)的預(yù)測評分集合為P1,經(jīng)過一段時(shí)間,用戶對未評分的項(xiàng)目進(jìn)行評分,再對P1 中的項(xiàng)目進(jìn)行預(yù)測評分,得到預(yù)測評分集合P2,則系統(tǒng)穩(wěn)定性可以表示為
在當(dāng)前的互聯(lián)網(wǎng)時(shí)代,大量新領(lǐng)域下的推薦需求應(yīng)運(yùn)而生。如何在新領(lǐng)域下應(yīng)用推薦技術(shù)已經(jīng)引起研究人員的關(guān)注。涌現(xiàn)出大量新領(lǐng)域下為用戶進(jìn)行個性化推薦的需求,也會成為此領(lǐng)域研究動力。如何在新領(lǐng)域中進(jìn)行高質(zhì)量推薦,減少數(shù)據(jù)稀疏、冷啟動的影響以及模型遷移領(lǐng)域限制問題研究解決都將成為未來繼續(xù)的研究點(diǎn)。
通過討論面向新領(lǐng)域推薦系統(tǒng)現(xiàn)階段技術(shù)研究現(xiàn)狀以及領(lǐng)域內(nèi)的限制,詳細(xì)的闡述了現(xiàn)在新領(lǐng)域推薦系統(tǒng)實(shí)際應(yīng)用場景中最緊迫的挑戰(zhàn)。并且對比了現(xiàn)有推薦系統(tǒng)模型的優(yōu)缺點(diǎn),并融入了不同模型能夠克服新領(lǐng)域推薦系統(tǒng)出現(xiàn)的問題以及進(jìn)行了總結(jié),最后本文討論了不同領(lǐng)域?qū)嶋H應(yīng)用場景中模型評估方法,并對新領(lǐng)域推薦系統(tǒng)的未來發(fā)展做了展望,希望能對在面向新領(lǐng)域推薦感興趣的研究人員提供幫助。