王茜,王艷明
(重慶大學(xué)計(jì)算機(jī)學(xué)院,重慶 400044)
一種改進(jìn)的協(xié)同過(guò)濾推薦算法
王茜,王艷明
(重慶大學(xué)計(jì)算機(jī)學(xué)院,重慶 400044)
在協(xié)同過(guò)濾推薦系統(tǒng)中,商品被視為特征,用戶(hù)提供他們對(duì)購(gòu)買(mǎi)的商品的評(píng)分。通過(guò)對(duì)用戶(hù)評(píng)分的學(xué)習(xí),推薦系統(tǒng)可以向用戶(hù)推薦他們可能需要的產(chǎn)品。然而電子商務(wù)通常有相當(dāng)多的產(chǎn)品,如果在推薦前要對(duì)每一個(gè)商品都進(jìn)行考慮,推薦系統(tǒng)將是非常低效的。提出一種改進(jìn)的ItemRank方法,應(yīng)用自構(gòu)建聚類(lèi)算法來(lái)減少商品數(shù)量相關(guān)的維度,然后直接在聚類(lèi)上運(yùn)行推薦算法。最后,對(duì)推薦聚類(lèi)進(jìn)行變換得到推薦商品列表推薦給不同的用戶(hù)。所提出的方法在計(jì)算推薦商品時(shí)所需的時(shí)間大大減少。實(shí)驗(yàn)結(jié)果表明,在不影響推薦質(zhì)量的前提下,推薦系統(tǒng)的效率得到了提高。
協(xié)同過(guò)濾推薦系統(tǒng);ItemRank
隨著網(wǎng)絡(luò)的快速發(fā)展,網(wǎng)絡(luò)商店中商品的數(shù)量、種類(lèi)變得越來(lái)越多,網(wǎng)絡(luò)購(gòu)物的人群也越來(lái)越多,從如此數(shù)量眾多、種類(lèi)繁雜的商品中選擇適合自己的商品也變得越來(lái)越困難。因此,推薦系統(tǒng)應(yīng)運(yùn)而生,以幫助人們?cè)诰W(wǎng)上找到他們感興趣的商品,節(jié)約他們的檢索時(shí)間[1]。對(duì)于用戶(hù)來(lái)說(shuō),推薦系統(tǒng)可以通過(guò)他們的購(gòu)買(mǎi)、瀏覽記錄分析出他們的喜好,從而把他們感興趣的商品推薦給他們。在過(guò)去的幾年中,推薦系統(tǒng)得到了快速的發(fā)展,在本質(zhì)上,他們可以分為兩類(lèi),基于內(nèi)容和協(xié)同過(guò)濾,雖然近幾年來(lái)混合系統(tǒng)[2]趨勢(shì)不斷增長(zhǎng)。
基于內(nèi)容的推薦系統(tǒng)根據(jù)產(chǎn)品的類(lèi)別和其他屬性等內(nèi)容向用戶(hù)推薦商品。通過(guò)一些技術(shù)分析這些數(shù)據(jù),如貝葉斯模型[3],基于內(nèi)容的推薦系統(tǒng)向用戶(hù)推薦那些最有吸引力的商品。一般來(lái)說(shuō)基于內(nèi)容的推薦系統(tǒng)需要商品和用戶(hù)的詳細(xì)信息,它可以向用戶(hù)推薦新商品,但是它需求的信息是巨大的,而且很難獲取所有用戶(hù)和商品的屬性及其他信息。此外收集代表用戶(hù)或商品的唯一屬性也很難。
協(xié)同過(guò)濾推薦系統(tǒng)[4-8]不需要用戶(hù)或商品屬性的詳細(xì)信息。相反,它通過(guò)用戶(hù)和商品之間的交互信息向用戶(hù)推薦商品,通常交互信息表示為用戶(hù)對(duì)購(gòu)買(mǎi)的商品的評(píng)分。通過(guò)對(duì)用戶(hù)項(xiàng)目評(píng)分矩陣的分析,系統(tǒng)可以向他們推送和他們有相同興趣用戶(hù)購(gòu)買(mǎi)的而且他們還沒(méi)有購(gòu)買(mǎi)的商品??傮w來(lái)說(shuō)協(xié)同過(guò)濾系統(tǒng)更易實(shí)現(xiàn)和高效。
然而網(wǎng)絡(luò)商店中通常有相當(dāng)多的產(chǎn)品,如果在推薦前要對(duì)每一個(gè)商品都進(jìn)行考慮,推薦系統(tǒng)將是非常低效的。降維技術(shù)已經(jīng)在面對(duì)大規(guī)模數(shù)據(jù)產(chǎn)生快速、高效推薦系統(tǒng)中得到了廣泛的應(yīng)用。K-means的一種變形B-Kmeans[9]算法已經(jīng)應(yīng)用在對(duì)用戶(hù)進(jìn)行不同的劃分中。通過(guò)分析給定用戶(hù)所屬的分區(qū)中用戶(hù)的鄰域,向用戶(hù)推薦商品。Ba Q[10]等人將用戶(hù)按照性別、年齡、職業(yè)等屬性分組,然后用戶(hù)項(xiàng)目評(píng)分矩陣重組后再計(jì)算兩個(gè)用戶(hù)之間的相似度。CAI[11]等人用模糊聚類(lèi)方法運(yùn)用到用戶(hù)上對(duì)用戶(hù)進(jìn)行聚類(lèi),利用用戶(hù)組特征向量代表用戶(hù),對(duì)用戶(hù)代表的維度降維。Sarwat[12]等人在一個(gè)框架內(nèi)使用三種類(lèi)型的基于位置的評(píng)級(jí)的分類(lèi)法產(chǎn)生推薦,利用用戶(hù)劃分和旅行點(diǎn)向查詢(xún)用戶(hù)推送跟接近的候選人。在PRM2[13]算法中,個(gè)人興趣、人際關(guān)系相似性和人際影響被融合成一個(gè)統(tǒng)一的個(gè)性化推薦模型,并且使用奇異值分解(SVD)來(lái)對(duì)原始的用戶(hù)項(xiàng)目評(píng)分矩陣進(jìn)行降維。ICCRS[14]算法是一種迭代評(píng)分算法,它對(duì)有偏見(jiàn)的評(píng)價(jià)者有很大的魯棒性,與之前的迭代方法不同,它不是基于將提交的評(píng)分與最終評(píng)分的近似進(jìn)行比較,而是完全將評(píng)分評(píng)估的可信度與排名本身分離,這使得它比先前的迭代過(guò)濾算法對(duì)復(fù)雜的攻擊有更強(qiáng)的魯棒性。
上述基于維度降低的推薦系統(tǒng)具有一些缺點(diǎn)。一些系統(tǒng)[10,12]需要關(guān)于用戶(hù)或商品的額外屬性來(lái)將用戶(hù)或商品進(jìn)行聚類(lèi),而這些屬性通常是很難在實(shí)際應(yīng)用中得到的。另一些系統(tǒng)[11,15]需要預(yù)先給出聚類(lèi)的數(shù)量,這對(duì)用戶(hù)來(lái)說(shuō)是很難確定的,只能通過(guò)重復(fù)訓(xùn)練,這是一個(gè)很大的負(fù)擔(dān)。此外,使用降維的推薦系統(tǒng)在計(jì)算相似性的時(shí)候僅僅考慮聚類(lèi)的中心,忽略聚類(lèi)的方差可能導(dǎo)致推薦結(jié)果的不精確。
在本文中,我們提出了一種改進(jìn)的ItenRank方法,應(yīng)用自構(gòu)建聚類(lèi)算法來(lái)減少商品的維度,創(chuàng)建出商品聚類(lèi)之間相互關(guān)系的相關(guān)圖。然后執(zhí)行一系列的隨機(jī)游動(dòng),為每個(gè)用戶(hù)生成商品聚類(lèi)的推薦列表。最后執(zhí)行將商品聚類(lèi)推薦列表轉(zhuǎn)換成單個(gè)商品的推薦列表。利用我們提出的方法,不需要搜集用戶(hù)和商品的額外屬性信息,而且不需要用戶(hù)提供預(yù)定的聚類(lèi)數(shù)量。此外,在計(jì)算相似性的時(shí)候我們不僅考慮聚類(lèi)中心,還應(yīng)用聚類(lèi)方差等因素。由于商品數(shù)量維度的減少,我們提出推薦商品的處理時(shí)間也大大減少。
假設(shè)一個(gè)有N個(gè)用戶(hù)的集合ui,1≤i≤N,一個(gè)有M個(gè)商品的集合pj,1≤i≤M。用戶(hù)ui通過(guò)對(duì)商品pj的評(píng)分ri,j(ri,j為一個(gè)正整數(shù))來(lái)表達(dá)自己對(duì)商品的喜好程度。通常,評(píng)分越高表明用戶(hù)對(duì)商品的喜好程度越高。如果用戶(hù)ui未提供對(duì)商品pj的評(píng)分,ri,j=0。這些信息用一個(gè)用戶(hù)項(xiàng)目評(píng)分矩陣來(lái)表示R:
此矩陣為N×M矩陣,把Ri記為Ri=[ri1ri2…riM],1≤i≤N。矩陣R的每一行代表一個(gè)用戶(hù),每一列代表一個(gè)商品。協(xié)同過(guò)濾推薦系統(tǒng)的目標(biāo)是給定用戶(hù)項(xiàng)目評(píng)分矩陣,預(yù)測(cè)用戶(hù)對(duì)商品的喜好程度,向用戶(hù)推薦商品。
ItemRank[16-17]是協(xié)同過(guò)濾推薦的基本方法之一。它應(yīng)用基于圖模型的推薦算法,通過(guò)項(xiàng)目(商品)節(jié)點(diǎn)來(lái)構(gòu)圖,形成項(xiàng)目間的關(guān)聯(lián)關(guān)系圖并計(jì)算得到用戶(hù)的偏好向量,然后利用隨機(jī)游走算法預(yù)測(cè)用戶(hù)對(duì)項(xiàng)目的預(yù)測(cè)評(píng)分,最后向用戶(hù)推薦生成的Top-K商品。在關(guān)聯(lián)關(guān)系圖創(chuàng)建步驟中,每個(gè)節(jié)點(diǎn)都是一個(gè)商品,商品節(jié)點(diǎn)pi與pj之間的連線(xiàn)wi,j具有的權(quán)重是同時(shí)購(gòu)買(mǎi)商品pi和pj的數(shù)量。構(gòu)建完關(guān)聯(lián)關(guān)系圖后得到矩陣W:
此矩陣為M×M矩陣,然后對(duì)矩陣W的每一列進(jìn)行歸一化。在隨機(jī)游走算法中,假設(shè)用戶(hù)ui,1≤i≤N,設(shè)Si(0)=[1/M 1/M…1/M]T,然后執(zhí)行Si(t+1)= αWSi(t)+(1-α)RiT操作,t=0,1,2,…,直至達(dá)到收斂。α∈[0,1]是用戶(hù)定義的一個(gè)常數(shù),通常α取0.85,在執(zhí)行20次迭代后達(dá)到收斂效果。設(shè)Si為收斂后的向量,即用戶(hù)ui的預(yù)測(cè)偏好列表。然后可以根據(jù)Si中元素的大小順序向用戶(hù)ui推薦商品。
電子商務(wù)中可能包含數(shù)量巨大的商品,這使得ItemRank在生成項(xiàng)目節(jié)點(diǎn)圖的矩陣W時(shí)耗時(shí)較長(zhǎng),導(dǎo)致ItemRank不適合處理大規(guī)模數(shù)據(jù)。本文中,我們主要是針對(duì)ItemRank算法的改進(jìn)。首先我們用自構(gòu)建聚類(lèi)(SCC)算法[18-19]為用戶(hù)分配類(lèi)標(biāo)簽,其次用自構(gòu)建聚類(lèi)(SCC)算法對(duì)商品進(jìn)行聚類(lèi)以降低維度,然后創(chuàng)建項(xiàng)目關(guān)聯(lián)圖,隨后利用隨機(jī)游走算法預(yù)測(cè)用戶(hù)對(duì)項(xiàng)目聚類(lèi)評(píng)分,最后進(jìn)行聚類(lèi)轉(zhuǎn)換到商品個(gè)體對(duì)用戶(hù)進(jìn)行推薦商品。結(jié)果表明ItemRank的效率可以大大提高。
2.1 自構(gòu)建聚類(lèi)(SCC)算法
假設(shè)X集合有n個(gè)模式X1,X2,…,Xn,其中Xi=xi1,xi2,…,xip,1≤i≤n,SCC算法目的是將這些模式分配到不同的聚類(lèi)中。假設(shè)現(xiàn)在存在K個(gè)聚類(lèi),分別是G1,G2,…,Gk,每個(gè)聚類(lèi)Gj(1≤j≤k)的平均值為mj=mj1,mj2,…,mjp,標(biāo)準(zhǔn)差為σj=σj1,σj2,…,σjp,Gj的大小為sj,即Gj含有的模式個(gè)數(shù)。最初我們沒(méi)有聚類(lèi),K=0,我們計(jì)算每個(gè)模式Xi對(duì)聚類(lèi)Gj的隸屬度μGj(Xi),
如果隸屬度不小于預(yù)定義的閾值,μGj(Xi)≥ρ, 0≤ρ≤1,我們就說(shuō)Xi通過(guò)了聚類(lèi)Gj的相似度檢測(cè)。較大的ρ導(dǎo)致較小的聚類(lèi),較小的ρ導(dǎo)致較大的聚類(lèi)。此時(shí)可能有兩種情況。一種情況為Xi沒(méi)有通過(guò)對(duì)現(xiàn)存的任何聚類(lèi)Gj的相似度檢測(cè)。這種情況下我們創(chuàng)建一個(gè)新聚類(lèi)Gh,h=K+1,mh=xi,σh=σ0,σ0=σ0,σ0,…,σ0是用戶(hù)定義的一個(gè)常數(shù)向量。此時(shí)聚類(lèi)的數(shù)目增加了1,聚類(lèi)Gh的大小初始化為1,即K=h,s1=1。第二種情況Xi通過(guò)了某些現(xiàn)存的聚類(lèi)相似度檢測(cè),設(shè)最大隸屬度的聚類(lèi)為Gt,此時(shí)把Xi歸入到聚類(lèi)Gt中,更新聚類(lèi)Gt的均值和標(biāo)準(zhǔn)差,這種情況下K不改變。該過(guò)程一直跌到所有的模式被處理完,最終得到K個(gè)聚類(lèi)。
2.2 標(biāo)記用戶(hù)類(lèi)標(biāo)簽
為了有效的降低維數(shù),我們用SCC算法對(duì)用戶(hù)進(jìn)行聚類(lèi),標(biāo)記用戶(hù)類(lèi)標(biāo)簽,而且不需要用戶(hù)輸入聚類(lèi)個(gè)數(shù)。為了消除用戶(hù)評(píng)分的尺度不同,我們對(duì)用戶(hù)評(píng)分進(jìn)行歸一化:
設(shè)Xi=xi1,xi2,…,xiM,1≤i≤N,X={Xi│1≤i≤N},我們對(duì)X運(yùn)用SCC算法,假設(shè)得到z個(gè)聚類(lèi),G1,G2,…,Gz,每個(gè)聚類(lèi)當(dāng)做一個(gè)類(lèi)標(biāo)簽,分別標(biāo)記為c1,c2,…,cz。對(duì)所有屬于聚類(lèi)Gj的用戶(hù)我們標(biāo)記類(lèi)標(biāo)簽為cj。此時(shí)我們將原始數(shù)據(jù)集合R擴(kuò)展為R+,(R1,y1),(R2,y2),…(RN,yN),yi∈{c1,c2,…,cz},1≤i≤N。
2.3 降維
這個(gè)步驟中我們使用Jiang[19]等提出的類(lèi)似方法降低商品維數(shù)。對(duì)于每件商品pj,1≤j≤M,我們構(gòu)造一個(gè)特征模式Xj=xj1,xj2,…,xjz,其中:
因此我們有M個(gè)特征模式X1,X2,…,XM,每個(gè)具有z個(gè)分量。設(shè)Y={Xi│1≤i≤M}。
然后我們?cè)赮上應(yīng)用SCC算法,假設(shè)我們獲得q個(gè)聚類(lèi)G1,G2,…,Gq,同一聚類(lèi)中的商品相似。由于有q個(gè)聚類(lèi),用戶(hù)對(duì)商品評(píng)價(jià)的維度由M降維到q,得到矩陣T:
然后我們把高維的N×M矩陣R降維成低維矩陣B:
我們將B中的每一列稱(chēng)為一個(gè)商品類(lèi),因此我們有q個(gè)商品類(lèi),記為g1,g2,…,gq。由此,原來(lái)具有M個(gè)商品評(píng)分的用戶(hù)記錄降維成具有q個(gè)商品組評(píng)分。ItemRank算法運(yùn)行在R矩陣上,我們的算法將運(yùn)行在降維后的B矩陣上。
2.4 創(chuàng)建關(guān)聯(lián)關(guān)系圖
此步驟中我們創(chuàng)建一個(gè)相關(guān)圖,顯示q個(gè)商品類(lèi)之間的關(guān)聯(lián)關(guān)系。由于我們使用的是B,我們以不同的方式派生關(guān)聯(lián)關(guān)系圖。每個(gè)商品類(lèi)被視為一個(gè)節(jié)點(diǎn),我們有q個(gè)節(jié)點(diǎn)。節(jié)點(diǎn)gi和gj之間的權(quán)重為wij,1≤i,j≤q,計(jì)算方式如下:
如果wij太大,則某些商品類(lèi)可能占主導(dǎo)地位,并且妨礙一些商品被劃分到其他商品組,因此我們對(duì)wij設(shè)置上限為1。當(dāng)關(guān)聯(lián)關(guān)系圖完成后,我們得到如下矩陣:
然后我們對(duì)W矩陣的列進(jìn)行歸一化。
2.5 隨機(jī)游走
在隨機(jī)游走步驟中,執(zhí)行一系列隨機(jī)游走。任一用戶(hù)ui,1≤i≤N,設(shè):
然后執(zhí)行如下步驟,直至vi收斂。
其中W是根據(jù)公式(14)得到的,Bi是根據(jù)公式(11)得到的。假設(shè)Vi為收斂后的向量,則Vi是為用戶(hù)ui生成的推薦商品組。
2.6 再轉(zhuǎn)換
在上面步驟中,我們得到q個(gè)商品類(lèi),為用戶(hù)ui推薦的商品類(lèi)包含q個(gè)商品。但是,最終我們不是向用戶(hù)推薦商品類(lèi),而是向用戶(hù)推薦單個(gè)商品,因此,我們要將Vi轉(zhuǎn)化成包含單個(gè)商品列表的Si。根據(jù)公式(9),我們得到xj對(duì)商品聚類(lèi)G1,G2,…,Gq的隸屬度分別為tj1= μG1(Xj),tj2=μG1(Xj),…,tjq=μGq(Xj)。首先我們對(duì)公式(8)中的矩陣T的列進(jìn)行歸一化:
對(duì)每一行進(jìn)行如下計(jì)算:
Si[j]是Si的第j個(gè)分量,Vi[k]是Vi的第k個(gè)分量。tjk是商品pj對(duì)商品類(lèi)gk的貢獻(xiàn)值,Vi[k]表示用戶(hù)ui對(duì)商品類(lèi)gk的喜好程度。因此tjkVi[k]表示用戶(hù)ui在商品類(lèi)gk中對(duì)商品pj的喜好程度,累加得出用戶(hù)ui對(duì)商品pj的喜好程度。最終,我們得到用戶(hù)ui的推薦商品列表Si。
3.1 時(shí)間復(fù)雜度分析
在標(biāo)記用戶(hù)類(lèi)標(biāo)簽步驟時(shí),我們必須計(jì)算每個(gè)用戶(hù)和每個(gè)現(xiàn)有聚類(lèi)之間的相似性,N為用戶(hù)數(shù),M為商品數(shù),每個(gè)用戶(hù)向量有M個(gè)分量,z為類(lèi)標(biāo)簽個(gè)數(shù),所以這步驟復(fù)雜度為O(NzM)。在降維步驟中,我們需要計(jì)算特征模式和現(xiàn)有聚類(lèi)之間的相似性,特征模式為M,商品類(lèi)為q,每個(gè)特征模式包含z個(gè)分量,所以這步驟復(fù)雜度為O(Mqz)。在關(guān)聯(lián)關(guān)系圖步驟中,兩點(diǎn)之間的權(quán)重wij都需要計(jì)算,所以這步驟復(fù)雜度為O(q2)。在隨機(jī)游走算法中,公式(16)必須要進(jìn)行迭代,每次的跌倒需要q q2次運(yùn)算,對(duì)所有用戶(hù)(N個(gè))的復(fù)雜度為O(Nq2)。最后,對(duì)一個(gè)用戶(hù)來(lái)說(shuō),公式(19)需要進(jìn)行M次運(yùn)算,每次涉及q次乘法和q-1次加法,所以此步復(fù)雜度為O(NqM)。所以,總共的時(shí)間復(fù)雜度為O(NzM)+O(Mqz)+O(q2)+O(Nq2)+O(NqM)。
3.2 實(shí)驗(yàn)結(jié)果分析
本文用了四個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),分別是Movie-Lens,BookCrossing和Epinions。這三個(gè)數(shù)據(jù)集的特征如表1所示。通過(guò)與ItemRank算法,PRM2算法,BiFu算法和ICRRS算法進(jìn)行比對(duì)。ItemRank算法不采用任何降維技術(shù),PRM2算法應(yīng)用奇異值分解(SVD)方法來(lái)降維,BiFu算法應(yīng)用K-means算法進(jìn)行聚類(lèi)降維,ICCRS算法將評(píng)分估計(jì)的可信度與排名本身分離。因?yàn)镵-means需要預(yù)先輸入聚類(lèi)數(shù)目,所以我們先運(yùn)行本文的方法得到聚類(lèi)數(shù)目,然后把聚類(lèi)輸入應(yīng)用到BiFu算法中。
表2顯示了本文方法(IRSCC)和BiFu中涉及的用戶(hù)項(xiàng)目聚類(lèi)數(shù)。表3顯示了算法之間絕對(duì)平均誤差(MAE)的比較。對(duì)MAE來(lái)說(shuō),獲得的值越小,方法越好。可以看出對(duì)于三個(gè)數(shù)據(jù)集來(lái)說(shuō),ItemRank和IRSCC在MAE方面表現(xiàn)相當(dāng)好。表4顯示了不同方法之間的執(zhí)行時(shí)間(以秒為單位)的對(duì)比。我們可以看出IRSCC運(yùn)行速度要比其他方法好很多。
表1 數(shù)據(jù)特征
表2 聚類(lèi)數(shù)目
表3 不同方法的MAE比較
表4 不同方法執(zhí)行時(shí)間比較
因?yàn)镮temRank算法設(shè)計(jì)的維數(shù)是商品的數(shù)量,例如,對(duì)于BookCrossing數(shù)據(jù)集來(lái)說(shuō)ItemRank要處理一個(gè)9846×9846矩陣,所以ItemRank在BookCrossing上運(yùn)行9121.29s。相反,IRSCC應(yīng)用自構(gòu)建聚類(lèi)以降低維度,把9846個(gè)商品聚類(lèi)到56個(gè)聚類(lèi)中。所以在公式(16)中使用的關(guān)聯(lián)關(guān)系矩陣減小到56×56,所以IRSCC運(yùn)行的很快。BiFu通過(guò)K-means進(jìn)行降維,這是非常耗時(shí)的,所以BiFu也比IRSCC算法慢很多。
為本算法選擇一個(gè)合適的ρ仍然是一個(gè)難題,還是經(jīng)受一些試驗(yàn)和錯(cuò)誤。在第3節(jié)中指出ρ的選擇直接影響算法的效果。當(dāng)ρ選擇的較大時(shí),聚類(lèi)較小,生成的聚類(lèi)數(shù)目就較多,這將導(dǎo)致算法運(yùn)行時(shí)間增加。
在協(xié)同過(guò)濾系統(tǒng)中,商品被視為特征。然而,涉及電子商務(wù)時(shí),通常有相當(dāng)多的商品,如果每一個(gè)商品在推薦前都要考慮的話(huà),推薦效率將是非常低效的。我們提出了一種應(yīng)用自構(gòu)建聚類(lèi)算法來(lái)降維,以達(dá)到效率的提高。實(shí)驗(yàn)結(jié)果表明,推薦系統(tǒng)的效率大大提高,而且不損害推薦質(zhì)量。
[1]Marko Balabanovic,Yoav Shoham.Content-Based Collaborative Recommendation.Communications of the ACM.March 1997.Pages 66-72.
[2]Gatzioura,A.,Sànchez-Marrè,M.A Case-Based Recommendation Approach for Market Basket Data.IEEE Intell.Syst.30(1),2014. Pages20-27.
[3]Rish,I.An Empirical Study of the Naive Bayes Classifier.In:International Joint Conferences on Artificial Intelligence(IJCAI)Workshop on Empirical Methods in AI,pp.41-46.
[4]Cui,H.,Zhu,M.Collaboration Filtering Recommendation Optimization with User Imp licit Feedback.J.Comput.Inf.Syst.10(14),5855-5862,2014.
[5]Guo,G.,Zhang,J.,Thalmann,D.,Yorke-Smith,N.Leveraging Prior Ratings for Recommender Systems in E-Commerce.Electron. Comm.Res.Appl.13,440-455,2014.
[6]Nikolakopoulos,A.N.,Kouneli,M.,Garofalakis,J.A Novel Hierarchical Approach to Ranking-Based Collaborative Filtering.Commun.Comput.Inf.Sci.384,50-59,2013.
[7]Jiang,M.,Cui,P.,Liu,R.,Yang,Q.,F(xiàn)ei,W.,Zhu,S.Yang,Social Contextual Recommendation.In:21st ACM International Conference on Information and Knowledge Management,pp.45-54,2012.
[8]Porcel,C.,Tejeda-Lorente,A.,Martinez,M.,Herrera-Viedma,E.A Hybrid Recommender System for the Selective Dissemination of Research Resources in a Technology Transfer Office.Inf.Sci.184,1-19,2012.
[9]Sarwar,B.M.,Karypis,G.,Konstan,J.,Riedl,J.,Recommender Systems for Large-Scale E-Commerce:Scalable Neighborhood Formation Using Clustering.In:5th International Conference on Computer and Information Technology,2002.
[10]Ba Q,Li X,Bai Z.Clustering Collaborative Filtering Recommendation System Based on SVD Algorithm[C].Software Engineering and Service Science(ICSESS),2013 4th IEEE International Conference on.IEEE,2013:963-967.
[11]Cai Y,Leung H,Li Q,et al.Typicality-Based Collaborative Filtering Recommendation[J].IEEE Transactions on Know ledge and Data Engineering,2014,26(3):766-779.
[12]Sarwat M,Levandoski J J,Eldawy A,et al.LARS*:An Efficient and Scalable Location-Aware Recommender System[J].IEEE Transactions on Knowledge and Data Engineering,2014,26(6):1384-1399.
[13]Qian X,F(xiàn)eng H,Zhao G,et al.Personalized Recommendation Combining User Interest and Social Circle[J].IEEE Transactions on Knowledge and Data Engineering,2014,26(7):1763-1777.
[14]A llahbakhsh M,Ignjatovic A.An Iterative Method for Calculating Robust Rating Scores[J].IEEE Transactions on Parallel and Distributed Systems,2015,26(2):340-350.
[15]Xue,G.-R.,Lin,C.,Yang,Q.,Xi,W.,Zeng,H.-J.,Yu,Y.,Chen,Z.Scalable Collaborative Filtering Using Cluster-Based Smoothing.In:ACM SIGIR Conference,2005.
[16]范家兵,王鵬,周渭博,等.在推薦系統(tǒng)中利用時(shí)間因素的方法[J].計(jì)算機(jī)應(yīng)用,2015,35(5):1324-1327.
[17]Pucci,A.,Gori,M.,Maggini,M.A Random-Walk Based Scoring A lgorithm Applied to Recommender Engines,Lecture Notes in Computer Science-Advances in Web Mining and Web Usage Analysis 4811(2007):127-146.
[18]Lee,S.-J.,Ouyang,C.-S.A Neuro-Fuzzy System Modeling with Selfconstructing Rule Generation and Hybrid SVD-Based Learning. IEEE Trans.Fuzzy Syst.11(3),341-353,2003.
[19]Jiang,J.-Y.,Liou,R.-J.,Lee,S.-J.,2011.A Fuzzy Self-Constructing Feature Clustering Algorithm for Text Classification.IEEE Trans.Knowl.Data Eng.23(3),335-349.
Improved Collaborative Filtering Recommendation Algorithm
WANG Qian,WANG Yan-ming
(College of Computer Science,Chongqing University,Chongqing 400044)
In collaborative filtering recommender systems,products are regarded as features and users are requested to provide ratings to the products they have purchased.By learning from the ratings,such a recommender system can recommend interesting products to users.However,there are usually quite a lot of products involved in E-commerce and itwould be very inefficient if every product needs to be considered beforemaking recommendations.Proposes an improved approach based ItemRank which applies a self-constructing clustering algorithm to reduce the dimensionality related to the number of products,Recommendation is then donewith the clusters.Finally,re-transformation is performed and a ranked list of recommended products is offered to each user.With the proposed approach,the processing time formaking recommendations ismuch reduced.Experimental results show that the efficiency of the recommender system can be improved without compromising the recommendation quality.
王茜(1970-),女,重慶人,教授,研究方向?yàn)榫W(wǎng)絡(luò)安全、電子商務(wù)、數(shù)據(jù)挖掘
2017-03-14
2017-05-10
1007-1423(2017)15-0008-06
10.3969/j.issn.1007-1423.2017.15.002
王艷明(1990-),男,河北邯鄲人,碩士,研究方向?yàn)閿?shù)據(jù)挖掘
Collaborative Filtering Recommender System;ItemRank