楊倩 梁艷 王艷娥 司海峰 張拓
摘要:隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)信息也呈指數(shù)級增長,用戶面臨著信息過載(information overload)的難題。如何能夠從海量信息中幫助用戶找到有價(jià)值的信息,這使得個(gè)性化推薦系統(tǒng)具有越來越重要的作用。本文首先簡要概述了用戶偏好,然后分析了用戶偏好的建模過程及方法,最后對基于用戶偏好的個(gè)性化推薦算法進(jìn)行了重點(diǎn)分類闡述,并分析了不同推薦算法的優(yōu)勢與不足,對推薦系統(tǒng)更好地挖掘用戶的興趣偏好,提升個(gè)性化用戶服務(wù)起到促進(jìn)作用。
關(guān)鍵詞:推薦系統(tǒng);用戶偏好;用戶偏好建模;個(gè)性化推薦算法
中圖分類號:TP391.3 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2020)13-0279-02
1引言
如今,我國的域名規(guī)模已超過千萬,網(wǎng)頁數(shù)量數(shù)以億計(jì),互聯(lián)網(wǎng)應(yīng)用在生活中的方方面面,如QQ,微信方面的通信服務(wù);直播、短視頻等娛樂服務(wù);滴滴、共享單車等外出服務(wù);各種手機(jī)支付的金融服務(wù)等。那么對于用戶來說,如何在能夠快速地找到自己所需要的信息,這是一個(gè)非常重要的問題,也是近年來學(xué)術(shù)界的研究熱點(diǎn)。以往解決信息過載有兩種方法:第一種是分類目錄展示,第二種是搜索引擎。但是操作非常耗時(shí),且效果不理想。而個(gè)性化推薦系統(tǒng)是一種解決信息過載的有效方法。它將傳統(tǒng)的“人找信息”變?yōu)椤靶畔⒄胰恕?,對人?shí)現(xiàn)了“按需服務(wù)”。通過對用戶的行為數(shù)據(jù)進(jìn)行分析和整理,進(jìn)而能對用戶的偏好進(jìn)行定位,最終滿足對用戶的需求。對于提取用戶偏好是來說,方法是不一樣的,有的是根據(jù)統(tǒng)計(jì)學(xué)理論相關(guān)知識,有的根據(jù)關(guān)聯(lián)規(guī)則的挖掘知識,有的是根據(jù)聚類相關(guān)數(shù)據(jù)挖掘技術(shù)。盡管方法各式各樣,但思想基本是相同的:都是通過收集整理用戶以往的行為數(shù)據(jù),再對數(shù)據(jù)進(jìn)行預(yù)處理操作后,進(jìn)而找到用戶的偏好信息,為用戶提供更快速精準(zhǔn)的體驗(yàn)。
2相關(guān)研究
個(gè)性化服務(wù)系統(tǒng)的關(guān)鍵問題是用戶偏好提取技術(shù),用戶體驗(yàn)質(zhì)量的好壞取決于它。于歡研究了用戶偏好模型和用戶偏好提取技術(shù),并且對基于用戶偏好特征的驚喜度評估準(zhǔn)則和推薦策略問題進(jìn)行了分析。何慧嘲針對目前推薦算法中的數(shù)據(jù)稀疏性問題,基于商品類別屬性和用戶評分矩陣,建立了一種混合推薦算法。陳云峰從顯式(用戶的評論)和隱式(用戶的瀏覽行為)來分析用戶的偏好,進(jìn)而給用戶提供所需信息。姜書浩針對不同人對多樣性偏好的不同,提出一種能夠在尋優(yōu)精度和多樣性之間權(quán)衡的個(gè)性化多樣性優(yōu)化方法。胡川根據(jù)傳統(tǒng)的用戶偏好融合方法,提出另一種融合方法,此方法不但包含了用戶偏好融合方法,同時(shí)也包含了推薦融合與模型融合的特點(diǎn)。這些研究成果,對本文研究基于用戶偏好的個(gè)性化推薦系統(tǒng)具有良好的指導(dǎo)作用。
3用戶偏好概述
用戶偏好也就是相比較而言用戶更喜歡某一個(gè)事物,這是一種心理傾向,和用戶的興趣、思維等有很大的關(guān)系。近年來對用戶偏好的研究已經(jīng)滲入到經(jīng)濟(jì)學(xué)、計(jì)算機(jī)科學(xué)等領(lǐng)域。如當(dāng)當(dāng)網(wǎng)等網(wǎng)絡(luò)平臺通過收集用戶的瀏覽和購買記錄,進(jìn)而給用戶推薦圖書;美團(tuán)推薦服務(wù)基于用戶評分記錄,向用戶推薦所需的商品。這些都是根據(jù)收集和分析用戶的偏好信息,給用戶推薦所需商品,既提高了用戶的購買效率,也為公司帶來更大的利益。而用戶偏好并非是一成不變的,它伴隨著時(shí)間而發(fā)展變化,類似于拋物線的變化關(guān)系,可將用戶偏好分為兩類,一類是長期偏好,另一類是短期偏好。而短期偏好在一定的條件下會發(fā)展為長期偏好。如當(dāng)用戶由于某種原因?qū)σ患挛锂a(chǎn)生了偏好,這種由于一定刺激產(chǎn)生的偏好為短期偏好,此時(shí)其處于活躍狀態(tài),用戶會連續(xù)收集與此事物相關(guān)的信息,因此短期偏好會慢慢地發(fā)展為長期偏好。
4偏好建模方法
用戶偏好建模是通過對收集到用戶行為信息進(jìn)行分析,構(gòu)建出數(shù)據(jù)偏好模型的過程,目的是為了了解用戶的需求。它是一種利用數(shù)據(jù)來表達(dá)用戶不同偏好的模型,并且此模型會根據(jù)用戶偏好的變化而更新。建模過程分為兩個(gè)階段:第一階段:獲取用戶信息。用戶有大量的數(shù)據(jù),包括顯式數(shù)據(jù)和隱式數(shù)據(jù)。顯式數(shù)據(jù)一般指用戶在系統(tǒng)中注冊或者提交的數(shù)據(jù)信息;隱式數(shù)據(jù)不是用戶主動(dòng)提交的信息,比如瀏覽痕跡、購買記錄等。第二階段:建立用戶偏好模型:根據(jù)收集到的用戶信息,分析并研究其偏好,并且將數(shù)據(jù)用適當(dāng)?shù)慕Y(jié)構(gòu)模型來表示,并且根據(jù)用戶的數(shù)據(jù)變化而更新模型。
建模方法可分為兩種:定性分析和定量分析。所謂定性分析是指通過構(gòu)建候選集的排序關(guān)系來構(gòu)建用戶偏好模型;而定量分析是指用賦予各個(gè)候選項(xiàng)一個(gè)確定的數(shù)值來構(gòu)建用戶的偏好模型。用戶偏好是一種用戶的個(gè)人感受,讓計(jì)算機(jī)能夠感知并了解用戶的情感,從而做出相應(yīng)的操作,進(jìn)而使用戶獲得自己所需要的東西,提升個(gè)性化服務(wù)水平。
5用戶偏好的個(gè)性化推薦分析
個(gè)性化服務(wù)系統(tǒng)的代表就是推薦系統(tǒng),它根據(jù)收集到的用戶行為數(shù)據(jù),分析用戶的偏好,生成能夠供其選擇的信息排列。這種過濾系統(tǒng)與傳統(tǒng)的檢索系統(tǒng)的區(qū)別是:其所有的結(jié)果都是根據(jù)用戶偏好而產(chǎn)生的,同時(shí)根據(jù)反饋結(jié)果快速更新。由于不同的推薦策略,所以對應(yīng)不同的推薦算法,大致可分為三類:
(1)根據(jù)內(nèi)容進(jìn)行推薦的算法
根據(jù)內(nèi)容推薦也稱為基于內(nèi)容的過濾系統(tǒng)(Content-BasedFiltering,CBF)。其思想是:對某個(gè)個(gè)人而言,對以前感興趣的事物會表現(xiàn)出更大的興趣偏向。它主要是衡量備選內(nèi)容與個(gè)人偏好的相近程度,進(jìn)而預(yù)測用戶對備選內(nèi)容偏好的程度,二者采用一致的方式,可以是向量空間、貝葉斯模型或者神經(jīng)網(wǎng)絡(luò)模型。根據(jù)內(nèi)容進(jìn)行推薦的模型,方法簡易,并且結(jié)果的解釋性較強(qiáng),但是由于用戶偏好模型和項(xiàng)目模型的表征具有局限性,因此產(chǎn)生某種效果后不會有提升的空間,所以用戶新的偏好就很難被收集到,也很難產(chǎn)生新的推薦信息。
(2)協(xié)同過濾推薦算法
協(xié)同過濾推薦算法(Collaborative Filtering,CB)是一種非常通用的方法。它基于“物以類聚,人以群分”的觀點(diǎn),認(rèn)為:如果興趣一致的用戶都選擇了某個(gè)商品,那么和大家興趣一致的用戶大概也可能會對該商品有較強(qiáng)的偏好;如果用戶對某個(gè)商品產(chǎn)生了一定的興趣,那么他也會更傾向于選擇和該商品相近的商品。協(xié)同過濾推薦有不同的實(shí)現(xiàn)方式,因此分為:根據(jù)用戶產(chǎn)生、根據(jù)項(xiàng)目產(chǎn)生和基于模型產(chǎn)生。
根據(jù)用戶產(chǎn)生指的是:給定一個(gè)用戶,評分?jǐn)?shù)據(jù),評分項(xiàng)目。有的項(xiàng)目用戶沒有產(chǎn)生評分,而此時(shí)可以利用和該用戶有相近的其他用戶的評分結(jié)果來進(jìn)行預(yù)測。如用戶a和用戶b的相似度用函數(shù)表示為:
根據(jù)項(xiàng)目產(chǎn)生的算法思路和根據(jù)用戶產(chǎn)生的思路是相同的。但隨著時(shí)間的推遲,用戶偏好會發(fā)生相應(yīng)的變動(dòng),所以根據(jù)用戶的算法會產(chǎn)生推薦結(jié)果不精確。而根據(jù)項(xiàng)目的相似性算法則有較高的準(zhǔn)確度,并且較穩(wěn)定。當(dāng)獲得相似性時(shí),由于每個(gè)用戶的思維不用,評價(jià)標(biāo)準(zhǔn)也不同,有的傾向于打較高的分?jǐn)?shù),有的則打的分?jǐn)?shù)較低,所以根據(jù)項(xiàng)目的算法利用余弦相似性來進(jìn)行分析,項(xiàng)目a和項(xiàng)目b的相似性計(jì)算如下:
根據(jù)用戶產(chǎn)生的算法和根據(jù)項(xiàng)目產(chǎn)生的算法,都會采用選近鄰的方法。通常根據(jù)用戶的算法和根據(jù)項(xiàng)目的算法計(jì)算量都較大,但是評分只來自其中一小部分,因此又導(dǎo)致了數(shù)據(jù)稀疏問題,使準(zhǔn)確度非常低,效果非常差。再者如果有新的用戶進(jìn)來,但是之前沒有相應(yīng)的評分,所以無法使用根據(jù)近鄰的方法進(jìn)行處理,這就是所謂的“冷啟動(dòng)”,這個(gè)問題也會影響推薦結(jié)果。而根據(jù)模型的算法則利用和根據(jù)近鄰的算法不同的思想,根據(jù)內(nèi)存中原來的評分,采用公式計(jì)算、預(yù)估評分進(jìn)而得出結(jié)果,這屬于全局推薦。它利用離線計(jì)算收集用戶一項(xiàng)目的評分結(jié)果,然后用此模型對候選項(xiàng)目實(shí)施預(yù)測。但需消耗大量的資源進(jìn)行訓(xùn)練,而且要經(jīng)常對模型進(jìn)行更新。
(3)混合推薦算法
不同的推薦算法都有其優(yōu)缺點(diǎn)?;旌夏P蛣t是一種融合了內(nèi)容過濾方法和協(xié)同過濾方法的優(yōu)點(diǎn),如果有大量數(shù)據(jù)的前提下,混合模型的推薦結(jié)果更好。它的設(shè)計(jì)形式可以分為三種,分別是整體混合、并行混合及流水線混合。其中,整體混合又包含特征組合混合和特征補(bǔ)充混合兩種方法,并行式混合設(shè)計(jì)又包含交叉混合、加權(quán)混合和切換混合,流水線混合設(shè)計(jì)又包含串聯(lián)混合和分級混合。這些都是不同的混合算法,在不同的情況下,采用不同的方法。
6結(jié)束語
本文首先對用戶偏好作了簡要概述,然后分析了用戶偏好的建模過程及方法,最后重點(diǎn)對基于用戶偏好的個(gè)性化推薦算法進(jìn)行了分類闡述,并分析了不同推薦算法的優(yōu)勢與不足,幫助推薦系統(tǒng)更好地挖掘用戶的興趣偏好,對提升個(gè)性化用戶服務(wù)起到促進(jìn)作用。