融合標簽相似度的k近鄰Slope One算法

2016-08-06 01:58:29葛小青

重慶郵電大學(xué)學(xué)報(自然科學(xué)版) 2016年4期

關(guān)鍵詞：協(xié)同過濾推薦系統(tǒng)

張　鵬，葛小青

(1. 中國科學(xué)院遙感與數(shù)字地球研究所，北京 100094；2. 中國科學(xué)院大學(xué)，北京 100049)

融合標簽相似度的k近鄰Slope One算法

張鵬1，2，葛小青1

(1. 中國科學(xué)院遙感與數(shù)字地球研究所，北京 100094；2. 中國科學(xué)院大學(xué)，北京 100049)

摘要：Slope One協(xié)同過濾算法被廣泛應(yīng)用于個性化推薦系統(tǒng)中。標簽是一種描述項目特性的重要形式，針對Slope One算法推薦精度不足的問題，將標簽信息融合到Slope One算法當(dāng)中。同時參考k近鄰算法思想，選取閾值過濾后的k近鄰項目參與平均評分偏差計算，提高計算效率的同時增加預(yù)測精度。使用評分相似度和標簽相似度作為權(quán)重修正線性回歸模型。通過線性加權(quán)融合預(yù)測結(jié)果，進一步提升推薦質(zhì)量。將算法應(yīng)用于MovieLens數(shù)據(jù)集，與傳統(tǒng)加權(quán)Slope One算法相比，平均絕對偏差下降4.8%，召回率和準確率分別提高32.1%和26.3%。

關(guān)鍵詞：協(xié)同過濾；推薦系統(tǒng)；標簽相似度；k近鄰；Slope One算法

0引言

隨著信息資源的超載式增長，用戶對個性化服務(wù)需求逐步提高，推薦系統(tǒng)在電子商務(wù)、社交網(wǎng)絡(luò)和新聞推薦等領(lǐng)域已成為不可或缺的技術(shù)[1]。個性化推薦系統(tǒng)中，協(xié)同過濾(collaborative filtering，CF)是應(yīng)用最成功、最廣泛的技術(shù)之一[2]，主要包括基于內(nèi)存(memory-based)的協(xié)同過濾推薦和基于模型(model-based)的協(xié)同過濾推薦[3]。而基于內(nèi)存的協(xié)同過濾又包括基于用戶的協(xié)同過濾算法[4]和基于項目的協(xié)同過濾算法[5]。為了提高效率及實時性，LEMIRE等[6]提出了基于簡單線性回歸模型的Slope One算法。因其參數(shù)更新查詢速度快、維護擴展性好、抗冷啟動和數(shù)據(jù)稀疏能力強等特點，在推薦系統(tǒng)領(lǐng)域得到了廣泛應(yīng)用。

Slope One算法本質(zhì)是基于項目的協(xié)同過濾推薦，然而它并未深入挖掘項目之間的內(nèi)在聯(lián)系，在部分項目的預(yù)測上會產(chǎn)生較大誤差。杜茂康[7]等以項目間相似度作為權(quán)重計算項目評分偏差。WANG[8]等對Slope One算法填充后的評分矩陣使用基于用戶的協(xié)同過濾算法進行評分預(yù)測。林德軍等[9]使用奇異值分解(singular value decomposition，SVD)對項目-評分矩陣進行填充后，使用動態(tài)近鄰項目進行Slope One評分預(yù)測。

標簽是一種描述項目特性的重要形式，為信息檢索和個性化推薦提供了重要數(shù)據(jù)來源，豐富了推薦方法的多樣性。TSO-SUTTER等[10]將標簽數(shù)據(jù)與項目評分矩陣相結(jié)合，擴展了傳統(tǒng)協(xié)同過濾算法。GUAN等[11]利用標簽信息提出了一種基于圖的推薦學(xué)習(xí)算法。SEN等[12]根據(jù)用戶標簽喜好建立了貝葉斯模型預(yù)測用戶項目喜好。

上述論文或單從評分角度[7-9]或單從標簽角度[10-12]考慮推薦問題，忽略了項目的綜合特異性，很難取得較高準確度。對推薦模型進行算法融合是當(dāng)今推薦系統(tǒng)領(lǐng)域的一種研究趨勢[13]，本文通過預(yù)先設(shè)置的相似度閾值對項目進行篩選，將k近鄰協(xié)同過濾算法(k-nearest neighbor algorithm，KNN)和Slope One算法進行融合，分別使用評分相似度和標簽相似度作為權(quán)重修正預(yù)測評分，最后通過線性加權(quán)融合2種預(yù)測結(jié)果，進一步提高推薦精度。

1相關(guān)研究

1.1Slope One算法模型

Slope One算法是一種經(jīng)典評分預(yù)測算法，是對一元線性模型f(v)=v+b的線性回歸預(yù)測[6]，v為用戶u對項目i的評分，b為項目j相對于項目i的平均評分偏差。Slope One算法原理如圖1所示，用戶c對項目j的預(yù)測評分為rc,j=rc,i+(ra,j-ra,i)=2+(1.5-1)=2.5。

定義同時對項目j和項目i完成評分的集合為Sj,i(χ)，card(x)表示集合x中的元素個數(shù)。則目標項目j相對于項目i的平均評分偏差devj,i為

(1)

對所有預(yù)測結(jié)果取平均值，得到用戶u對項目j的預(yù)測評分為

(2)

(2)式中，Rj表示與目標項目j同時被評分的項目集合。

圖1　Slope One算法原理Fig.1　Basis of Slope One algorithm

Weighted Slope One算法是Slope One算法應(yīng)用最廣泛的實現(xiàn)方式。由于不同用戶數(shù)量平均得到的devj,i置信度不同，故將用戶數(shù)量作為項目評分偏差的權(quán)重，定義同時評價過項目j和項目i的用戶數(shù)量為cj,i，得到最終預(yù)測評分[6]為

(3)

1.2Tag Genome模型

基因標簽組(TagGenome)模型是VIG等[14]提出的一種與傳統(tǒng)布爾型標簽不同的數(shù)據(jù)結(jié)構(gòu)。TagGenome模型使用監(jiān)督學(xué)習(xí)方法，建立了廣義線性分層回歸模型，計算得到一個0-1之間的連續(xù)型數(shù)值，用以表示標簽和項目的關(guān)聯(lián)強度。整個訓(xùn)練過程如圖2所示[14]。

圖2　計算標簽基因組的過程Fig.2　Process of calculating Tag Genome

TagGenome模型從項目內(nèi)容、項目屬性、用戶標簽使用情況及用戶評分、評論中提取特征作為后續(xù)學(xué)習(xí)模型的輸入，主要特征[14]見表1。

表1　Tag Genome模型主要特征

采用(4)式的sigmoidal函數(shù)對特征值的加權(quán)結(jié)果進行變換，使得最終結(jié)果為0-1間的連續(xù)型數(shù)，達到歸一化效果。

(4)

最終標簽和項目的相關(guān)性表示為

(5)

一旦通過模型擬合計算出相關(guān)參數(shù)，上述模型就可以用來預(yù)測任意項目的標簽基因組組成。

1.3相似度計算

相似度計算是協(xié)同過濾中的關(guān)鍵步驟，k近鄰算法中近鄰項目集合的選擇通常依賴于相似性的度量。常用的相似性計算方法有：

1)修正的余弦相似性[4]：

(6)

2)相關(guān)相似性(Pearson相關(guān)性系數(shù))[5]：

(7)

3)標簽相似性[14]：

tsim(i,j)=

(8)(8)式中，wt=log(popularity(t))/doc-freq(t)，popularity(t)表示所有使用過標簽t的用戶數(shù)量，代表標簽t的流行度，doc-freq(t)表示所有與標簽t相關(guān)性系數(shù)大于0.5的項目的個數(shù)，反應(yīng)了標簽t的特異性。

2本文算法

傳統(tǒng)SlopeOne算法推薦精度較低。k近鄰協(xié)同過濾算法抗稀疏能力差且無法給出推薦理由?；跇撕灥耐扑]可信度更高，但目前在推薦系統(tǒng)中應(yīng)用較少。為克服上述弊端，本文提出了融合標簽相似度的k近鄰SlopeOne算法，通過權(quán)值修正、閾值過濾、近鄰選擇、算法融合等方法提高算法準確性，取得更好的推薦效果。

2.1融合標簽相似度的k近鄰Slope One算法

1)閾值過濾：

SlopeOne算法忽略了項目間的差異性，有時會選取與目標項目完全無關(guān)的項目參與計算，降低了預(yù)測精度。為了避免將無關(guān)項目納入計算，我們設(shè)置了評分相似度閾值λr和標簽相似度閾值λt，只有相似度大于閾值的項目才并入計算，從而過濾掉不相關(guān)項目，在減少計算量的同時提高計算精度。

2)近鄰選擇：

除了使用閾值對無關(guān)項目進行過濾外，同時參考k近鄰協(xié)同過濾算法思想，通過相似度近鄰選擇的方法進一步篩選相關(guān)項目。定義rsim(i,j)為使用(6)式計算的評分相似度，則評分相似度大于閾值λr且最大的k近鄰項目形成的集合可定義為

定義tsim(i,j)為使用(8)式計算的標簽相似度，則標簽相似度大于閾值λt且最大的k近鄰項目形成的集合可定義為

3)權(quán)重修正：

利用項目-評分矩陣和項目-標簽基因組矩陣計算相似度，分別使用評分相似度和標簽相似度修正預(yù)測評分結(jié)果。

使用評分相似度計算的修正結(jié)果為

Prwso(u)j=

(9)

我們將評分數(shù)量cj,i融合到評分相似度權(quán)重中，是由于這種融合方法計算結(jié)果更加精確[13]。

使用標簽相似度計算的修正結(jié)果為

(10)

4)算法加權(quán)融合:

將2種預(yù)測方法進行加權(quán)融合，進一步提高推薦質(zhì)量。最終所使用的預(yù)測評分公式為

(11)

(11)式中，參數(shù)α起到了加權(quán)調(diào)和的目的，當(dāng)α為0時，公式(11)退化為基于評分相似度的k近鄰SlopeOne算法[7]，當(dāng)α為1時，公式(11)退化為基于標簽相似度的k近鄰SlopeOne算法。α需通過仿真實驗確定最終取值大小。

2.2融合標簽相似度的k近鄰Slope One算法步驟

在本文算法當(dāng)中，首先分別計算評分相似度和標簽相似度，然后利用2種相似度作為測度，分別選取與目標項目相似度最大的k個已評分項目，求得項目平均評分偏差，以相似度作為權(quán)重進行SlopeOne算法評分預(yù)測，最后對2種算法所得結(jié)果進行加權(quán)融合得到最終預(yù)測評分，進行TOP-N推薦。具體的推薦過程如下。

輸入：用戶-項目評分矩陣Rm×n，標簽-項目基因組矩陣Th×n，當(dāng)前活躍用戶u，目標項目j，評分相似度閾值λr，標簽相似度閾值λt，最近鄰項目數(shù)k，推薦列表長度N,融合權(quán)重α。

輸出：長度為N的推薦列表。

步驟1對于項目-評分矩陣Rm×n，使用(6)式計算項目間的評分相似性矩陣RSn×n；

步驟2對于項目-基因組矩陣Th×n，h為標簽個數(shù)，使用(8)式計算項目間的相似性矩陣TSn×n；

步驟3從用戶已評分項目中，選擇評分相似度大于λr且最大的k個項目作為St(uj)，選擇標簽相似度大于λt且最大的k個項目作為Sr(uj)；

步驟4利用(1)式計算St(uj)與Sr(uj)中的項目與目標項目j的評分偏差devj,i；

步驟5利用(11)式計算對項目j的預(yù)測評分，若St(uj)為空則取α為1，若Sr(uj)為空則取α為0，若St(uj)與Sr(uj)都為空，則以用戶u對其他項目的評分均值作為預(yù)測評分；若用戶u未對任何項目進行過評分，則以項目j的平均評分作為預(yù)測評分；

步驟6從預(yù)測評分中選擇最大的N個，形成推薦列表，推薦給用戶u。

2.3算法復(fù)雜度分析

算法復(fù)雜度是評定算法優(yōu)劣的基本標準，直接影響算法實際應(yīng)用時的效率和性能。本文所描述的融合標簽相似度的k近鄰SlopeOne算法的計算時間由離線處理和線上推薦兩部分組成。

線下離線計算主要包括計算項目-標簽基因組矩陣，計算項目間的評分相似度矩陣和計算項目間的標簽基因組相似度矩陣3部分。①計算項目-標簽基因組矩陣雖然需要進行深度學(xué)習(xí)的復(fù)雜迭代計算，但是項目的性質(zhì)一般比較穩(wěn)定，僅需定期離線計算即可，并不會影響推薦速度[15]。②假設(shè)整個推薦系統(tǒng)中，用戶數(shù)量為m，項目數(shù)量為n。計算項目間的評分相似度矩陣時間復(fù)雜度為O(n2m)。③項目間的標簽基因組相似度矩陣時間復(fù)雜度為O(n2m)。

線上實時更新僅需針對當(dāng)前用戶，使用候選近鄰進行評分預(yù)測即可，時間復(fù)雜度為O(kmn)。

綜上所述，算法的時間復(fù)雜度為O(n2m+ n2m+kmn)=O(n2m)。

在空間復(fù)雜度上，算法主要存儲項目-標簽基因組矩陣的復(fù)雜度為O(nh)，項目-評分矩陣的復(fù)雜度為O(nm)，項目標簽基因組相似度矩陣的復(fù)雜度為O(n2)和項目評分相似度矩陣的復(fù)雜度為O(n2)，故算法的總的空間復(fù)雜度為O(nh+nm+n2+ n2)。在用戶數(shù)量m遠大于項目數(shù)量n的系統(tǒng)中，近似等于O(nm)，在項目數(shù)量n遠大于用戶數(shù)量m的系統(tǒng)中，近似等于O(n2)。

3實驗結(jié)果與分析

3.1實驗數(shù)據(jù)集

實驗部分采用GroupLens研究小組(http:∥www.grouplens.org)提供的電影評分數(shù)據(jù)集作為算法測試數(shù)據(jù)集。MovieLens100k數(shù)據(jù)集[16]，提供了來自943位用戶對1 682部電影的10萬評分記錄。評分等級采用5分制策略，代表偏愛程度由低到高。數(shù)據(jù)稀疏度(未知評分在數(shù)據(jù)集中所占比例)為1-100000/(943×1682)=0.937 0。

同時，從MovieTuner提供的MovieLensTagGenome數(shù)據(jù)集[17]中，抽取MovieLens100k數(shù)據(jù)集對應(yīng)的1 682部電影的標簽基因組信息(共1 128個標簽)形成項目-標簽基因組矩陣。

3.2推薦質(zhì)量評價指標

評價推薦系統(tǒng)常用度量標準有統(tǒng)計準確度和決策支持度兩類[5]。其中統(tǒng)計準確度中最常用的方法為預(yù)測準確度和分類準確度。

為評估算法預(yù)測評分的準確性，本文采用預(yù)測評分和實際評分的平均絕對偏差[5](meanabsoluteerror，MAE)作為預(yù)測準確度評價標準。MAE值和推薦精準程度之間呈反比關(guān)系，MAE值越小，推薦越準確。定義pi為對項目i的預(yù)測評分，qi為對項目i的實際評分，Nt為測試數(shù)據(jù)集的大小，則MAE可表示為

(12)

TOP-N推薦中最常用的分類準確度方法有召回率和準確率2種[18]。

召回率反映了待推薦項目被推薦的比率為

(13)

(13)式中：R(u)為被推薦項目集合；T(u)為用戶在測試集上的行為列表。

準確率表示算法推薦成功的比率為

(14)

3.3實驗結(jié)果

將MovieLens100k數(shù)據(jù)集按照80%和20%的比例劃分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集兩部分。為降低隨機性對預(yù)測結(jié)果的干擾，將數(shù)據(jù)平均分為5份，使用5折線交叉驗證(5-foldcrossvalidation)的方法[18]進行評分預(yù)測，取5次結(jié)果均值作為測試結(jié)果。

3.3.1融合參數(shù)α對算法的影響

為驗證加權(quán)參數(shù)α對實驗結(jié)果的影響，我們固定近鄰項數(shù)量為k=10，k=20，k=40，k=80，使融合權(quán)重系數(shù)α從0增加至1.0，間隔為0.1，實驗結(jié)果如圖3所示。從圖3中不難分析出，對于同一近鄰數(shù)，平均絕對偏差MAE隨著α先下降后上升，在0.3-0.6達到最小值。同時也證明了融合算法比單一使用項目相似度評分相似度的k近鄰SlopeOne算法(α=1.0)或基于標簽相似度的k近鄰SlopeOne算法(α=0.0)的推薦質(zhì)量都要高。

3.3.2近鄰數(shù)量k對算法的影響

為驗證近鄰項目數(shù)量對實驗結(jié)果的影響，我們固定融合參數(shù)為α=0.3，α=0.4，α=0.5，α=0.6，使最近鄰數(shù)k從10增加至100，間隔為10，實驗結(jié)果如圖4所示。從圖4中我們不難分析出，在最近鄰數(shù)從5增加至20時，MAE值不斷減小，推薦精度不斷提高，在k=20時取得最小值，此后隨著k增大，引入計算的項目和目標項目的相關(guān)性逐漸減小，噪聲增加，MAE值曲線平緩增加。4條曲線當(dāng)中，α=0.4，k=20取得最小MAE值，因此后續(xù)采用此參數(shù)進行對比試驗。

圖3　本文算法在不同α下MAE的對比Fig.3　Effect of α on MAE

圖4　本文算法在不同近鄰數(shù)k下MAE的對比Fig.4　Effect of k on MAE

在實際推薦系統(tǒng)中應(yīng)根據(jù)系統(tǒng)中項目數(shù)量，按照上述方法選取融合參數(shù)α和近鄰數(shù)k，確保將實際相似項目納入計算，達到最佳推薦效果。

3.3.3預(yù)測準確度分析

為進一步驗證算法預(yù)測準確度，我們采用對比試驗的方法，結(jié)果如圖5所示。其中Item-CF代表基于項目的協(xié)同過濾算法[5]，WSO代表WeightedSlopeOne算法[6]，KNNSO代表基于近鄰項目的SlopeOne算法[7]，SVDSO代表SVDSlopeOne算法[9]，HSO代表本文的HybridSlopeOne算法。

圖5　不同推薦算法MAE比較Fig.5　Comparisons of MAE between different algorithms

分析圖5可知，任意最近鄰數(shù)目下，HSO算法都取得了最小MAE值，與傳統(tǒng)WSO算法相比下降4.8%，與其他算法相比下降2.33%—5.33%。并且k=20時就達到最小MAE值，比其他算法取得最小MAE所需的最近鄰數(shù)量減少20—60個。

3.3.4分類準確度分析

不同算法召回率的比較結(jié)果如圖6所示，傳統(tǒng)WSO算法召回率最低，HSO算法召回率比其他4種算法的召回率有21.1%—41.7%的提高，平均情況下召回率比傳統(tǒng)WSO算法有32.1%的提高。并且召回率隨推薦列表長度的增加，提升速度更加明顯。

圖6　不同算法的召回率比較Fig.6　Comparison of the recall of different algorithms

不同算法準確率比較結(jié)果如圖7所示，HSO算法準確率比其他4種算法準確率提高6.7%—26.9%，平均情況下準確率比傳統(tǒng)WSO算法有26.3%的提高。并且準確率與其他算法相比，受推薦列表長度的影響更小。

圖7　不同算法的準確度比較Fig.7　Comparison of the precision of different algorithms

上述結(jié)果表明，融合標簽相似度的k近鄰SlopeOne算法較傳統(tǒng)加權(quán)SlopeOne算法有效提高了分類準確度，同時適應(yīng)性也得到大幅度增強。

3.3.5算法運行時間分析

為分析算法運行時間是否符合預(yù)期，驗證前文對算法復(fù)雜度的分析結(jié)果，采用java語言實現(xiàn)該算法，并在處理器為酷睿I5、主頻3.1GHz、內(nèi)存4GByte的電腦上求解算例。將5種算法在不同近鄰數(shù)k下的運行時間進行對比(10次運行取平均值)，對比結(jié)果見表2，時間單位為秒。

表2　不同算法運行時間比較

分析表2可知，傳統(tǒng)WSO算法與近鄰數(shù)無關(guān)，時間恒定。SVDSO算法由于需要進行SVD矩陣分解因此運行時間最長。Item-CF，KNNSO和HSO3種算法運行時間隨近鄰數(shù)k增加逐步增長。本文提出的算法運行時間與KNNSO算法運行時間相近，與理論時間復(fù)雜度分析的結(jié)果一致。算法實際運行效率較高，可運用于實際推薦系統(tǒng)中。

4結(jié)束語

本文提出的融合標簽相似度的k近鄰SlopeOne算法同時使用了評分相似度和標簽相似度作為權(quán)重，考慮了項目之間的內(nèi)在聯(lián)系，解決了算法對項目本身針對性不強的問題，增強了算法合理性，針對評分預(yù)測問題給出了一種有效的求解思路和方法。最終實驗表明，與傳統(tǒng)加權(quán)SlopeOne算法相比，平均絕對誤差MAE值下降4.8%，召回率提高32.1%，準確率提高26.3%，算法運行時間也在合理范圍內(nèi)。加權(quán)融合的方法以及對參數(shù)調(diào)優(yōu)的討論，對于推薦系統(tǒng)的實際應(yīng)用有一定的指導(dǎo)意義。

參考文獻：

[1]KARDA A, EBRAHIMI M. A novel approach to hybrid recommendation systems based on association rules mining for content recommendation in asynchronous discussion groups[J].Information Sciences,2013,219:93-110.

[2]RICCI F,ROKACH L,SHAPIRA B,et al.Recommender systems handbook[M].New York:Springer,2011:145-186.[3]許海玲,吳瀟,李曉東，等. 互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J]. 軟件學(xué)報, 2009, 20(2): 350-362.

XU Hailing, WU Xiao, LI Xiaodong, et al. Comparison study of internet recommendation system[J].Journal of Software,2009,20(2):350-362.

[4]BREESE J S, HECKERMAN D, KADIE C. Empirical analysis of predictive algorithms for collaborative filtering[C]∥Proceedings of the fourteenth conference on Uncertainty in Artificial Intelligence. Morgan New York: Kaufmann Publishers Inc,1998:43-52.

[5]SARWAR B, KARYPIS G, KONSTAN J, et al. Item-based collaborative filtering recommendation algorithms[C]∥Proceedings of the 10th international conference on World Wide Web (WWW’10). New York: ACM, 2001:285-295.

[6]LEMIRE D, MACLACHLAN A. Slope One predictors for online Rating-based Collaborative Filtering[C]∥SIAM. Proceedings of the SIAM data mining conference. California: SIAM,2005:21-23.

[7]杜茂康,劉苗,李韶華,等．基于鄰近項目的Slope One協(xié)同過濾算法[J]. 重慶郵電大學(xué)學(xué)報:自然科學(xué)版,2014,26(3):421-426.

DU Maokang, LIU Miao, LI Shaohua, et al. Slope One Collaborative Filtering recommendation algorithm based on neighbor[J]. Journal of Chongqing University of Posts and Telecommunications: Natural Science Edition, 2014, 26(3):421-426.

[8]WANG Pu, YE Hongwu. A personalized recommendation algorithm combining Slope One Scheme and User Based Collaborative Filtering[C]∥IEEE. 2009 International conference on Industrial and Information Systems．Haikou: IEEE Press, 2009:152-154．

[9]林德軍,孟祥武. 基于奇異值分解的Slope One算法[J]．新型工業(yè)化, 2012, 2(11):12-17.

LIN Dejun, MNEG Xiangwu. Slope One algorithm based on Single Value Decomposition[J] Journal of New Industrialization, 2014, 2(11):12-17.

[10] TSO-SUTTER K H L, MARINHO L B, SCHMIDT-THIEME L. Tag-aware recommender systems by fusion of Collaborative Filtering algorithms[C]∥ACM. Proceedings of ACM symposium on applied computing(SAC’08). New York: ACM Press, 2008: 1995-1999.

[11] GUAN Ziyu,WANG Can,BU Jiajun,et al.Document recommendation in social tagging services[C]∥ACM. Proceedings of the 19th international conference on World Wide Web(WWW’10).New York:ACM,2010:391-400.

[12] SEN S, VIG J, RIEDL J. Tagommenders: connecting users to items through tags[C]∥ACM. Proceedings of the 18th international conference on Word Wide Web (WWW’09). New York: ACM,2009:671-680.

[13] 項亮.推薦系統(tǒng)實踐[M].北京:人民郵電出版社,2012

XIANG Liang. Recommendation system practice[M]. Beijing: Posts and Telecom Press, 2012.

[14] VIG J, SEN S, RIEDL J. The Tag Genome: encoding community knowledge to support novel interaction[J]. ACM Transactions on Interactive Intelligent Systems, 2012, 2(3):1-44.

[15] 冷亞軍,陸青,張俊嶺. 結(jié)合類別偏好信息的item-based協(xié)同過濾算法[J]. 計算機應(yīng)用研究, 2016,33(3):669-672.

LENG Yajun, LU Qing, ZHANG Junling. Improved item-based collaborative filtering algorithm combined with class preference information[J].Application Research of Computers, 2016,33(3):669-672.

[16] GroupLens Research Lab. MovieLens datasets[EB/OL].(1998-04) [2016-01-14]. http:∥grouplens.org/datasets/movielens/100k/.

[17] GroupLens Research Lab. MovieLens Tag Genome Dataset[EB/OL].(2012-03) [2016-01-14]. http:∥grouplens.org/datasets/movielens/tag-genome/.

[18] SYMEONIDIS P, NANOPOULOS A, PAPADOPOULOS A N, et al. Collaborative recommender systems: Combining effectiveness and efficiency[J]. Expert Systems with Applications, 2008,34(4):2995-3013.

DOI：10.3979/j.issn.1673-825X.2016.04.012

收稿日期：2016-01-22

修訂日期：2016-04-05通訊作者：葛小青gexq@radi.ac.cn

中圖分類號：TP391

文獻標志碼：A

文章編號：1673-825X(2016)04-0518-07

作者簡介：

張鵬(1990-)，男，河北邢臺人，碩士研究生。研究方向為個性化推薦算法，信號與信息處理，地面站任務(wù)規(guī)劃。E-mail: zhangpengtzy@163.com。

葛小青(1965-)，男，浙江東陽人，高級工程師。研究方向為信號與信息處理，遙感數(shù)據(jù)處理與系統(tǒng)。E-mail: gexq@radi.ac.cn。

(編輯：魏琴芳)

K-nearest neighbor hybrid Slope One algorithm combined with tag similarity

ZHANG Peng1,2， GE Xiaoqing1

(1. Institute of Remote Sensing and Digital Earth, Chinese Academy of Sciences, Beijing 100094，P. R. China;2. University of Chinese Academy of Sciences, Beijing 100049，P. R. China)

Abstract:Slope One Collaborative Filtering algorithm is widely used in personalized recommendation system. Label is an important form to describe the characteristics of the items. To overcome its deficiency in rating prediction accuracy, this paper proposes a new hybrid algorithm combined with tag information. With reference to the k-nearest neighbor Collaborative Filtering algorithm, we select neighbors of the target item to participate in the calculation of the average rating deviation, which ensures computational efficiency and improves the prediction accuracy. The algorithm defines rating similarities and tag similarities as weight to revise the linear regression model. To achieve further improvement of the recommendation quality, the algorithm adopts a linear weighted fusion method to combine the results. Experimental results on the Movielens data sets indicated that, compared with the traditional weighted Slope One algorithm, mean average absolute error declined 4.8%, while recall rate and precision rate respectively increased 32.1% and 26.3%.

Keywords：collaborative filtering; recommendation system; tag similarity; k-nearest neighbor; Slope One