李 超, 周 濤, 黃俊銘,程學(xué)旗,沈華偉
(1. 電子科技大學(xué) 互聯(lián)網(wǎng)科學(xué)中心,四川 成都 611731; 2. 北京百分點(diǎn)信息科技有限公司,北京 100080; 3. 中國科學(xué)院 計算技術(shù)研究所,中國科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190)
基于用戶相似性傳遞的跨平臺交叉推薦算法
李 超1,2, 周 濤1,2, 黃俊銘3,程學(xué)旗3,沈華偉3
(1. 電子科技大學(xué) 互聯(lián)網(wǎng)科學(xué)中心,四川 成都 611731; 2. 北京百分點(diǎn)信息科技有限公司,北京 100080; 3. 中國科學(xué)院 計算技術(shù)研究所,中國科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190)
個性化推薦系統(tǒng)在電子商務(wù)領(lǐng)域中的廣泛應(yīng)用帶來了巨大的經(jīng)濟(jì)效益和良好的用戶體驗(yàn)。由于用戶數(shù)據(jù)往往分布在多個不同的網(wǎng)站,單個網(wǎng)站的推薦系統(tǒng)受制于數(shù)據(jù)稀疏性的限制,難以獲得準(zhǔn)確的推薦效果。該文提出了一種基于傳遞相似性的交叉推薦系統(tǒng)算法,可以利用多個網(wǎng)站平臺數(shù)據(jù)計算不同網(wǎng)站中的用戶的相似度,從而很大程度上克服了推薦系統(tǒng)中的數(shù)據(jù)稀疏性以及冷啟動問題。結(jié)果顯示,該交叉推薦算法與傳統(tǒng)的針對單個數(shù)據(jù)集的推薦算法相比,推薦的精確性有一至兩倍的提高。
個性化推薦系統(tǒng);協(xié)同過濾;多源數(shù)據(jù);稀疏性;冷啟動
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,用戶在互聯(lián)網(wǎng)上可接觸到的信息也與日俱增,用戶不得不花費(fèi)大量的時間在信息海洋里挑選出對自己有用的信息,這種現(xiàn)象被稱之為信息過載。個性化推薦系統(tǒng)旨在幫助用戶走出這一困境,在為用戶提供良好體驗(yàn)的同時,也可以為電子商務(wù)帶來更多的經(jīng)濟(jì)效益。目前,個性化推薦系統(tǒng)已經(jīng)被廣泛地部署并應(yīng)用在各個互聯(lián)網(wǎng)領(lǐng)域[1],例如,Amazon的推薦系統(tǒng)將用戶可能感興趣的商品推薦給用戶,Amazon的35%的銷售額均來自推薦系統(tǒng)[2]。MovieLens是一個基于研究目的發(fā)布的電影推薦系統(tǒng),根據(jù)用戶的歷史信息提供其可能喜歡的電影[3]。其他的推薦系統(tǒng)還包括Last.fm音樂推薦系統(tǒng),Jester[4]笑話推薦系統(tǒng)等等。
主流推薦系統(tǒng)都使用用戶歷史數(shù)據(jù)預(yù)測用戶隱藏的興趣分布,其性能對用戶數(shù)據(jù)規(guī)模敏感。事實(shí)上,大部分實(shí)際使用的推薦系統(tǒng)都面臨數(shù)據(jù)缺失的問題,只觀測到用戶的一小部分歷史行為,從而難以作出準(zhǔn)確的推薦預(yù)測。數(shù)據(jù)缺失通常表現(xiàn)為數(shù)據(jù)稀疏[5]和冷啟動[6]。前者指單個用戶只能對系統(tǒng)中的海量物品中的一小部分做出瀏覽、購買、評價等行為,后者指新注冊用戶的行為記錄較少。
數(shù)據(jù)缺失的一個重要原因是網(wǎng)站的多樣化與細(xì)分性導(dǎo)致用戶行為數(shù)據(jù)分散在不同網(wǎng)站中。例如,一個用戶對電影的偏好只記錄在豆瓣網(wǎng)上,而其購買軟件的行為只記錄于蘋果App Store。因?yàn)槊總€網(wǎng)站都只能利用用戶的一部分?jǐn)?shù)據(jù),而傳統(tǒng)推薦算法只能利用單一數(shù)據(jù)源的用戶歷史行為估計用戶興趣,因此其準(zhǔn)確性深受稀疏數(shù)據(jù)困擾。雖然利用電子郵件地址匹配等簡單技術(shù)已經(jīng)可以在不侵犯隱私的前提下識別多個網(wǎng)站中的同一用戶,但若直接將多個網(wǎng)站數(shù)據(jù)簡單合并,擴(kuò)大的物品空間將導(dǎo)致更嚴(yán)重的數(shù)據(jù)稀疏問題。如何有效地利用多個網(wǎng)站的用戶行為數(shù)據(jù)克服數(shù)據(jù)稀疏性,準(zhǔn)確估計用戶的興趣,獲得更優(yōu)質(zhì)的推薦效果,這一問題具有重要的學(xué)術(shù)意義和應(yīng)用價值。
我們提出了一種利用多個網(wǎng)站數(shù)據(jù)的推薦系統(tǒng)算法,其核心思想是采用一種傳遞策略計算不同網(wǎng)站的用戶之間的相似度。具體來說,對于網(wǎng)站A的一個新用戶u,我們希望計算他與網(wǎng)站A中現(xiàn)有用戶的相似度,以便利用協(xié)同過濾算法估計他的興趣并推薦物品。如果該網(wǎng)站中任一用戶在任一其他網(wǎng)站上均與u沒有交集,則傳統(tǒng)算法無法計算其與用戶u的相似度。我們尋找一組中間用戶,他們與u存在交集可計算相似度,同時亦與網(wǎng)站A中某些用戶存在交集可計算相似度。根據(jù)社會平衡理論,我們可以通過中間用戶與u的相似度及其與網(wǎng)站A用戶的相似度的傳遞關(guān)系推斷u與網(wǎng)站A用戶的相似度。從而可以利用協(xié)同過濾算法對u在網(wǎng)站A上的興趣作出估計。這一算法具有理論上的收斂性和實(shí)證上的高效性。實(shí)驗(yàn)發(fā)現(xiàn),這一算法能比較準(zhǔn)確地推斷隱藏的用戶相似度,有效地提高協(xié)同過濾算法對于冷啟動和稀疏用戶的推薦性能。
本文余下部分包括:第二部分介紹推薦系統(tǒng)及其數(shù)據(jù)缺失問題的相關(guān)工作,第三部分是算法描述,第四部分介紹所采用的評價指標(biāo),第五部分介紹實(shí)驗(yàn)結(jié)果及分析,第六部分總結(jié)探討該算法的有效性和不足并建議未來工作方向。
推薦系統(tǒng)的任務(wù)是為用戶提供相關(guān)商品的推薦,一般被形式化成為矩陣填充或矩陣缺失值預(yù)測問題。協(xié)同過濾[1]是應(yīng)用較早的推薦算法,假設(shè)相似的用戶會有相同的偏好,利用相似的行向量來進(jìn)行缺失值的填充。協(xié)同過濾這一類基于歷史記錄信息[7]的推薦算法會受到數(shù)據(jù)稀疏性和冷啟動問題的困擾,數(shù)據(jù)過于稀疏的話,不能有效地進(jìn)行相似度的計算,新的用戶登錄到推薦系統(tǒng)中來,由于其歷史記錄信息為零,所以無法利用協(xié)同過濾來對其進(jìn)行推薦。
另外一種較為常見的推薦算法是基于矩陣分解[8-11]的推薦算法,假設(shè)用戶和商品都有自己特定的潛在特征向量,將目標(biāo)用戶與目標(biāo)商品的特征向量進(jìn)行點(diǎn)積運(yùn)算得到的值即為該用戶對該商品的評分。基于隱變量[12-13]和矩陣分解的推薦算法雖然在評分預(yù)測的準(zhǔn)確性[14]上效果較好,但是由于其計算和實(shí)現(xiàn)的復(fù)雜性和缺乏可解釋性,該類算法并不適用于大規(guī)模數(shù)據(jù)上的實(shí)際應(yīng)用。
關(guān)于數(shù)據(jù)缺失問題,遷移學(xué)習(xí)[15]是一種較為有效的解決方式,遷移學(xué)習(xí)利用不同領(lǐng)域之間共同的部分來相互促進(jìn)各個領(lǐng)域內(nèi)的學(xué)習(xí)任務(wù)。面對將遷移學(xué)習(xí)應(yīng)用到推薦系統(tǒng)[16-19]中的數(shù)據(jù)缺失問題時,一般也是采用矩陣分解技術(shù),從隱變量的層面來建立起不同學(xué)習(xí)任務(wù)之間的聯(lián)系,從而提高不同領(lǐng)域內(nèi)的推薦準(zhǔn)確度。例如,文獻(xiàn)[16]在數(shù)據(jù)較為稀疏的情況下,利用書籍和電影之間的潛在的共同主題來相互促進(jìn)各自的推薦準(zhǔn)確度。在將遷移學(xué)習(xí)應(yīng)用到推薦系統(tǒng)中的數(shù)據(jù)缺失和稀疏性問題時,與普通的基于隱變量和矩陣分解的方法一樣,計算復(fù)雜度較高,難以應(yīng)用到大規(guī)模數(shù)據(jù)的實(shí)際應(yīng)用中。另外,不同領(lǐng)域之間,知識的可遷移程度是不同的,一種遷移方案難以滿足不同領(lǐng)域之間知識遷移的需求,需要針對各個領(lǐng)域的具體情況來進(jìn)行遷移方案的設(shè)計[17]。
本文提出一種基于用戶傳遞相似性的跨電商交叉推薦算法,利用系統(tǒng)已經(jīng)獲得的目標(biāo)用戶在目標(biāo)電商外的歷史行為信息,來解決目標(biāo)用戶在目標(biāo)電商網(wǎng)站初次登錄無法進(jìn)行推薦的冷啟動問題,以及在目標(biāo)電商網(wǎng)站中的歷史行為較少的數(shù)據(jù)稀疏性問題。
下面以兩個電商為例對該算法進(jìn)行說明,不失一般性,該算法可以推廣到兩個以上的多電商交叉推薦情形。
假設(shè)有兩個電商x1和x2,我們將只在電商x1中有過歷史行為的用戶集合定義為U1,只在電商x2中有過歷史行為的用戶集合定義為U2,類似U1,U2這種在且只在其中某一家電商有過歷史行為的用戶,我們稱之為非交叉用戶。將在x1,x2兩個電商中均有過歷史行為的用戶集合定義為交叉用戶,用Uc表示。用戶行為矩陣如圖1所示。
圖1 評分矩陣示例
將普通的UCF(User-based Collaborative Filtering)算法[20]應(yīng)用到圖1所示的交叉推薦的情形時,由于非交叉用戶U1只能通過自身在電商x1中的行為信息(圖1中1_x1部分)和交叉用戶Uc在電商x1中的行為信息(圖1中c_x1部分)來與交叉用戶UC建立相似性的聯(lián)系,所以我們只能利用交叉用戶Uc的歷史行為信息來對非交叉用戶U1推薦電商x2中的商品。同理,也只能利用交叉用戶Uc對非交叉用戶U2推薦電商x1中的商品。直觀地來看,U1與U2之間是沒有相似性聯(lián)系的,因?yàn)樗麄冎g沒有任何的歷史行為的交集。
在實(shí)際情況中,非交叉用戶的數(shù)量是遠(yuǎn)遠(yuǎn)高于交叉用戶的,傳統(tǒng)的UCF算法只能利用所占比例較少的交叉用戶的歷史行為信息對所占比例較大的非交叉用戶進(jìn)行推薦,由于數(shù)據(jù)稀疏性問題,傳統(tǒng)的UCF很難提供較為理想的推薦結(jié)果。
我們提出基于用戶傳遞相似性的推薦算法,利用所占比例較少的交叉用戶的歷史行為信息作為紐帶,將兩個不同電商的非交叉用戶U1和U2建立起相似性上的聯(lián)系,從而達(dá)到交叉推薦的目標(biāo)。
3.1 傳統(tǒng)的協(xié)同過濾推薦算法(UCF)
傳統(tǒng)的基于用戶的協(xié)同過濾算法,假設(shè)用戶之間是有相似性的,相似的用戶對于同一個商品會有同樣的喜好程度。用戶之間的相似性是根據(jù)各自的歷史行為信息的相似程度來定義的。
將系統(tǒng)中所有用戶的歷史行為信息看作一個矩陣,每一行代表一個用戶,每一列代表一個商品。該用戶對應(yīng)的那一行即為該用戶的行為向量u。定義用戶行為向量之間的相似性,即為用戶之間的相似性。
本文采用的相似性為Jaccard相似性:
(1)
UCF對目標(biāo)用戶u進(jìn)行推薦時,首先找到與目標(biāo)用戶u最為相似的若干個用戶Nu,Nu被稱之為目標(biāo)用戶的鄰居,鄰居用戶Nu對該目標(biāo)商品i的評分進(jìn)行加權(quán)平均作為用戶u對商品i的預(yù)測評分,鄰居用戶Nu對目標(biāo)商品i的評分的權(quán)值即為Nu與目標(biāo)用戶的相似性。然后將預(yù)測評分按從大到小排排序,選擇預(yù)測評分最高的前若干個商品作為最終的推薦列表。
UCF中,計算目標(biāo)用戶u對于目標(biāo)商品i的預(yù)測評分公式為式(2)。
(2)
3.2 基于用戶傳遞相似性的交叉推薦算法(TSUCF)
協(xié)同過濾算法認(rèn)為用戶的偏好信息都體現(xiàn)在其對應(yīng)的行為向量中,如圖1所示,非交叉用戶U1和U2之間是無法直接計算相似性的。但是,U1和U2分別均在各自行為所發(fā)生的電商與Uc有相似性。我們將交叉用戶Uc作為紐帶來建立U1與U2之間的相似性。
交叉用戶不僅體現(xiàn)出了其在電商x1中的行為偏好信息,因此,也體現(xiàn)出了其在電商x2中的行為偏好信息。那么交叉用戶則可以用來建立用戶在兩個電商x1和x2中的行為偏好聯(lián)系。我們認(rèn)為交叉用戶的數(shù)量達(dá)到一定的比例后,其在電商x1中的行為和在電商x2中的行為可以體現(xiàn)出一種潛在的模式關(guān)聯(lián),即在電商x1中有某些特定的購物行為模式后,也會在電商x2中有類似的購物行為模式,反之亦然。在對用戶U1推薦電商x2中的商品時,我們建立U1與Uc之間的相似性,然后計算Uc與U2之間的相似性,然后以Uc用戶的行為向量所體現(xiàn)出的行為模式來建立起U1與U2之間的相似性。
如圖2所示,S1-S10分別是U1與Uc,Uc與U21、U22之間的相似性。下面以圖2為例說明傳遞相似性的計算過程。計算U1與U21的傳遞相似性,找到Uc中與U1和U21均有相似性的用戶UC1,UC2,UC4,則U1與U21的傳遞相似性即為:S1S5+S2S6+S4S7。計算U1與U22的傳遞相似性,找到Uc中與U1和U22均有相似性的用戶UC2,UC3,UC4,則U1與U22的傳遞相似性即為:S2S8+S3S9+S4S10。
圖2 相似性的傳遞
U1和U2之間的傳遞相似性計算可以形式化為式(3):
(3)
SU1U2表示U1和U2之間的傳遞相似性矩陣[21],SU1Uc表示U1和Uc之間的相似性矩陣,SUcU2表示Uc和U2之間的相似性矩陣。
得到傳遞相似性矩陣SU1U2之后,我們就可以利用式(2)來進(jìn)行評分預(yù)測和推薦了。
表1 TSUCF推薦算法
評價指標(biāo)[22]我們采用準(zhǔn)確率(Precision)和召回率(Recall)[23]:
(4)
(5)
其中,對于用戶u來說,Ru是推薦列表中的商品集合,Tu是測試集中用戶u選過的商品集合,U是測試用戶數(shù)。
5.1 數(shù)據(jù)集及劃分方式
我們采用百分點(diǎn)推薦引擎提供的兩個電商x1和x2中的交叉用戶數(shù)據(jù),共有27 899個交叉用戶,28 617個商品,其中電商x1中有8 372個商品,電商x2中有20 245個商品。由于交叉用戶的測試集合只能從交叉用戶中選取,所以我們只在這些交叉用戶的數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)時,分別屏蔽掉對應(yīng)用戶在電商x1中或電商x2中的行為,分別以此來仿真模擬電商x2中的非交叉用戶和電商x1中的非交叉用戶。
下面以對用戶U1推薦電商x2中的商品為例,說明交叉推薦的實(shí)驗(yàn)方案。
如圖1所示,1_x2是我們要進(jìn)行推薦的部分,我們目前的任務(wù)是利用2_x2部分的信息來填充1_x2部分的信息。在預(yù)測用戶U1對1_x2部分的評分時,我們將2_x1部分的數(shù)據(jù)屏蔽掉,以此來模擬真實(shí)情況下的非交叉用戶,即U2。在對U2推薦x1中的商品時,采用同樣的方案。
我們采用傳統(tǒng)的UCF算法,利用交叉用戶Uc中的行為信息來對1_x2以及2_x1部分進(jìn)行預(yù)測,作為我們提出的交叉推薦算法的測試基準(zhǔn)。
5.2 實(shí)驗(yàn)結(jié)果
我們分別考察推薦列表長度(RL),鄰居數(shù)目(NS),以及交叉用戶所占比例(PCD, Percent of Cross Data)對推薦precision 和recall的影響。
關(guān)于交叉用戶占比PCD,我們分別取PCD=10,20,30,40,50;當(dāng)PCD=10時,即Uc占所有用戶比例的10%,U1U2的比例相等均為45%,其他PCD取值時,U1U2的比例以此類推。UCF算法只利用Uc部分的用戶數(shù)據(jù)進(jìn)行推薦。TSUCF為我們提出的算法。
給定鄰居數(shù)目NS=50的情況下,推薦列表長度RL以及不同的交叉用戶占比PCD對Precison, Recall兩個指標(biāo)的影響。以下各圖中1_x2表示將圖1所示的1_x2部分作為測試集,2_x1表示將圖1所示的2_x1部分作為測試集。
圖3 準(zhǔn)確率1_x2為測試集
圖4 準(zhǔn)確率2_x1為測試集
圖3、圖4分別是測試集為1_x2和2_x1時,測試結(jié)果的Precision指標(biāo),圖5、圖6分別是測試集為1_x2和2_x1時,測試結(jié)果的Recall指標(biāo)。由以上評價指標(biāo)的測試結(jié)果可以得出結(jié)論,TSUCF算法較之于傳統(tǒng)的UCF在準(zhǔn)確率和召回率上均有巨大的提高。在推薦列表長度在50以內(nèi)時,無論交叉用戶的所占比例如何,TSUCF的準(zhǔn)確性均要好于UCF。隨著交叉用戶數(shù)量的逐漸增加(TSUCF PCD=10, 20, 30, 40, 50),TSUCF的準(zhǔn)確性也逐步提高, 這說明我們的TSUCF算法對于交叉用戶的數(shù)量有一定程度上的依賴。
圖5 召回率1_x2為測試集
圖6 召回率2_x1為測試集
在一般的推薦系統(tǒng)應(yīng)用場景中, 推薦列表長度一般最大取20就可以滿足需要了,接下來的實(shí)驗(yàn)我們考察在推薦列表固定為20的時候,鄰居數(shù)目NS對于UCF和TSUCF的影響。
給定推薦列表長度RL=20的情況下,鄰居數(shù)目NS以及不同的交叉用戶占比PCD對Precison, Recall兩個指標(biāo)的影響。以下各圖中1_x2表示將圖1所示的1_x2部分作為測試集,2_x1表示將圖1所示的2_x1部分作為測試集。
圖7、圖8分別是測試集為1_x2和2_x1時,測試結(jié)果的Precision指標(biāo),圖9、圖10分別是測試集為1_x2和2_x1時,測試結(jié)果的Recall指標(biāo)。由以上評價指標(biāo)的測試結(jié)果同樣可以得出與上一小節(jié)相同的結(jié)論,TSUCF算法較之于傳統(tǒng)的UCF在準(zhǔn)確率和召回率上均有巨大的提高。在鄰居數(shù)目大于30的時候,無論交叉用戶的所占比例如何,TSUCF的準(zhǔn)確性均要好于UCF。在鄰居數(shù)目小于30時,TSUCF在交叉用戶比例較少(如TSUCF PCD=10)而UCF算法中的訓(xùn)練集Uc部分占比較高(如UCF PCD=50)的情況下,表現(xiàn)會不如普通的UCF。這說明我們的TSUCF算法在鄰居數(shù)目大于30的時候會取得更好的效果。
圖7 準(zhǔn)確率1_x2為測試集
圖8 準(zhǔn)確率2_x1為測試集
我們提出了一種基于用戶傳遞相似性的跨電商交叉推薦算法,在百分點(diǎn)推薦引擎提供的兩個電商的交叉用戶數(shù)據(jù)上,驗(yàn)證了該算法的有效性。該算法與傳統(tǒng)的UCF相比,在推薦準(zhǔn)確性上有巨大的提高,在不同的參數(shù)(推薦列表長度,鄰居數(shù)目,交叉用戶占比)配置下能得到1至2倍的提高。
我們算法對于交叉用戶的比例有一定程度上的依賴。這也與實(shí)際情況較符合,因?yàn)橹挥挟?dāng)交叉用戶達(dá)到一定數(shù)量的情況下,交叉用戶在不同電商之間行為模式的關(guān)聯(lián)才能夠有效地體現(xiàn)出來, 交叉用戶的行為作為非交叉用戶相似性之間的紐帶才能夠足以健壯,從而建立起更加可信的傳遞相似性。
圖10 召回率2_x1為測試集
未來相關(guān)的工作可以在如下方面展開,如挑選出可信度較高的交叉用戶,來作為更加優(yōu)質(zhì)的相似性傳遞的紐帶;從隱變量和數(shù)據(jù)降維的角度來考慮相似性的傳遞,可能會有更好的推薦效果。
[1] Adomavicius G, Tuzhilin A, Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions[J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17(6): 734-749.
[2] Linden G, Smith B, York J, Amazon.com Recommendations Item-to-Item Collaborative Filtering[J]. IEEE Internet Computing, 2003, 7(1): 76-80.
[3] Dahlen B J, Konstan J A, Herlocker J L, et al. Jumpstarting movielens: user benefits of starting a collaborative filtering system with “dead data”[R]. TR 98-017. University of Minnesota, March 1, 1998.
[4] Goldberg K, Roeder T, Gupta D,et al. A Constant time collaborative filtering algorithm[J]. Information Retrieval, 2001, 4(2): 133-151.
[5] Huang Z, Chen H, Zeng D. Applying associative retrieval techniques to alleviate the sparsity problem in collaborative filter[J]. IEEE Trans Information Systems. 2004, 22(1): 116-142.
[6] Zhang ZK, Liu C, Zhang YC,et al. Solving the Cold-Start Problem in Recommender Systems with Social Tags[J]. EPL. 2010, 9228002.
[7] Su X, Khoshgoftaar T. A Survey of Collaborative Filtering Techniques[J]. Advances in Articial Intelligence, 2009.
[8] Hofmann T. Latent semantic models for collaborative filtering[J]. ACM Trans Inf. Syst, 2004, 22: 89-115.
[9] Koren Y.Collaborative filtering with temporal dynamics[J]. Commun. ACM, 2010, 53: 89-97.
[10] Koren, Y, Bell R, Volinsky C. Matrix factorization techniques for recommender systems[J]. IEEE Computer, 2009, 42: 30-37.
[11] Srebro N, Rennie JDM, Jaakkola, T. Maximum-margin matrix factorization[C]//Proceedings of the 17th Advances in Neural Information Processing Systems (NIPS’04), 2004: 1329-1336.
[12] Salakhutdinov R, Mnih A, Probabilistic matrix factorization[C]//Proceedings of the 21st Advances in Neural Information Processing Systems(NIPS’08), 2008: 1257-1264.
[13] Salakhutdinov R, Mnih, A. Bayesian probabilistic matrix factorization using markov chain monte carlo[C]//Proceedings of the 25th International Conference on Machine Learning. New York, NY, USA: ACM, ICML ’08, 2008: 880-887.
[14] Y Zhou, et al.,Large-Scale Parallel Collaborative Filtering for the Netflix Prize[C]//Proceedings of 4th International Conference on Algorithmic Aspects in Information and Management, LNCS 5034, Springer, 2008: 337-348.
[15] S J Pan, Q Yang. A survey on transfer learning[C]//Proceedings of the IEEE Transactions on Knowledge and Data Engineering, 2010: 22(10):1345-1359.
[16] B Li, Q Yang, X Xue. Can movies and books collaborate? cross-domain collaborative filtering for sparsity reduction[C]//Proceedings of the 21st International Joint Conference on Artificial Intelligence (IJCAI’09), 2009: 2052-2057.
[17] B Li. Cross-Domain Collaborative Filtering-A Brief Survey[C]//Proceedings of 23rd IEEE International Conference on Tools with Artificial Intelligence, 2011.
[18] W Pan, E W Xiang, N N Liu, et al. Transfer learning in collaborative filtering for sparsity reduction[C]//Proceedings of the 26th in AAAI,2010: 230-235.
[19] B Li, Q Yang, X Xue. Transfer learning for collaborative filtering via a rating-matrix generative model, in ICML, 2009, pp. 617-624.
[20] Resnick P, Iacovou N, Suchak M, et al, GroupLens: An Open Architecture for Collaborative Filtering of Netnews[C]//Proceedings of the 1994 ACM conference on Computer Supported Cooperative Work. New York, ACM, 1994: 175-186.
[21] Duo Sun, Tao Zhou, Jian-Guo Liu, etal. Information filtering based on transferring similarity[J]. Phys. Rev. E, 2009, 80, 017101.
[22] 劉建國,周濤,郭強(qiáng),等. 個性化推薦系統(tǒng)的評價方法綜述[J]. 復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2009,6(3): 1-8.
[23] George K. Evaluation of item-based top-n recommendation algorithms[C]//Proceedings of the 10th International Conference on Information and Knowledge Management ACM, New York, 2001:247-254.
Transfer with Shared Users: A Cross-platform Recommender System with Transferred Similarity
LI Chao1,2, ZHOU Tao1, HUANG Junming3, CHENG Xueqi3, SHEN Huawei3
(1. University of Electronic Science and Technology of China, Chengdu, Sichuan 611731, China; 2. Beijing Baifendian Information Technology Co., Ltd. Beijing 100080, China; 3. CAS Key Lab of Network Data Science and Technology, Institute of Computing Technology,Chinese Academy Sciences, Beijing 100190, China)
The widely use of personalized recommender systems on online shopping websites results in great profits and enhanced user experiences. However, since a user’s behaviors usually scatter cross multiple different websites, it becomes difficult to provide accurate recommendations when a recommender system sees a section of his behaviors on a single website. We propose a new recommendation algorithm that transfers behaviors across different websites to calculate similarities between users on different websites. Our algorithm overcomes the sparsity and cold-start problem in recommender systems with a significant accuracy improvment, outperforming traditional algorithms that applied on a single website only.
personalization recommender systems; collaborative filtering; multiple source datasets; sparsity; cold-start problem
李超(1988—),碩士,主要研究領(lǐng)域?yàn)樯缃幻襟w分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)。E?mail:xunhuan.lc@gmail.com周濤(1982—),博士,教授,主要研究領(lǐng)域?yàn)榻y(tǒng)計物理與復(fù)雜性科學(xué)。E?mail:zhutou@ustc.edu黃俊銘(1984—),博士,主要研究領(lǐng)域?yàn)樾畔鞑ァ⑸缃痪W(wǎng)絡(luò)分析。E?mail:mail@junminghuang.com
1003-0077(2016)02-0090-09
2013-09-15 定稿日期: 2014-01-28
國家基礎(chǔ)研究發(fā)展計劃(973)(2012CB316303,2013CB329602);國家自然科學(xué)基金(61232010,61202215)
TP391
A