宋威,劉朋
(1.北方工業(yè)大學(xué) 計算機學(xué)院,北京 100144;2.大規(guī)模流數(shù)據(jù)集成與分析技術(shù)北京市重點實驗室,北京 100144)
基于頻繁項集與協(xié)同過濾的混合推薦方法
宋威1,2,劉朋1
(1.北方工業(yè)大學(xué) 計算機學(xué)院,北京 100144;2.大規(guī)模流數(shù)據(jù)集成與分析技術(shù)北京市重點實驗室,北京 100144)
為解決協(xié)同過濾方法存在的評分稀疏及用戶喜好程度區(qū)分能力不足的問題,提出一種基于頻繁項集與協(xié)同過濾的混合推薦方法RFICF(Recommendation based on Frequent Itemset and Collaborative Filtering)。在頻繁項集的基礎(chǔ)上,分別給出了補充評分和增強評分的定義,擴充了評分的數(shù)量,細(xì)化了評分的數(shù)值。在此基礎(chǔ)上,分別使用基于頻繁項集的推薦方法和協(xié)同過濾方法,并按一定比例展現(xiàn)結(jié)果。將提出的方法分別與協(xié)同過濾、基于頻繁項集的推薦方法及相關(guān)的混合推薦方法進行了實驗比較,結(jié)果表明,RFICF方法在覆蓋率、準(zhǔn)確率以及綜合測度3個參數(shù)上的整體效果良好。
推薦系統(tǒng);頻繁項集;協(xié)同過濾;評分修訂
作為解決信息超載問題的重要手段,推薦系統(tǒng)[1-2]已成為當(dāng)前多領(lǐng)域交叉的熱點研究內(nèi)容,在社交網(wǎng)絡(luò)[3-4]、現(xiàn)代教育[5-6]等諸多領(lǐng)域有著廣泛的應(yīng)用。不但各大社交網(wǎng)站、大型電子商務(wù)系統(tǒng)都不同程度地使用了各種形式的推薦系統(tǒng),而且推薦系統(tǒng)的應(yīng)用平臺也由原來的PC機向智能手機等移動終端發(fā)展[7-8]。
作為應(yīng)用最廣泛的推薦技術(shù)之一,協(xié)同過濾[9]根據(jù)相似歷史評分將有可能評分最高的若干項目推薦給目標(biāo)用戶。根據(jù)相似度計算對象的不同,協(xié)同過濾一般可以分為基于用戶的方法[10]和基于項目的方法[11]。最近還出現(xiàn)了一些同時綜合考慮用戶與項目的混合推薦方法[12]。
盡管學(xué)者們提出了多種方法,但現(xiàn)有的協(xié)同過濾方法依然存在如下兩方面的問題:從評分?jǐn)?shù)量上講,用戶評分?jǐn)?shù)據(jù)稀少,造成了相似性計算的依據(jù)不足,影響了推薦質(zhì)量。從評分形式上講,多數(shù)網(wǎng)站的評分都是使用1至5這5個整數(shù),使得計算得到的評分結(jié)果對用戶喜好程度的區(qū)分能力有限。
為解決這兩個問題,提出了一種基于頻繁項集與協(xié)同過濾的混合推薦方法。使用頻繁項集來發(fā)現(xiàn)大多數(shù)用戶共同喜好的項目,進行評分修訂:一方面,補充缺失評分,豐富相似性的計算依據(jù);另一方面,細(xì)化用戶喜好程度的評分,提高推薦結(jié)果的個性化程度。此外,將基于頻繁項集的推薦結(jié)果作為協(xié)同過濾的補充,構(gòu)建了混合推薦方法。實驗結(jié)果表明,提出的方法能有效提高推薦質(zhì)量。
1.1 整體流程
提出的基于頻繁項集與協(xié)同過濾的推薦方法RFICF的整體流程示意如圖1所示。
Fig.1 Overall flow of RFICF圖1 RFICF方法的總體流程
如圖1所示,RFICF方法首先從原始數(shù)據(jù)中挖掘頻繁項集,然后將頻繁項集與用戶的評分向量做匹配,并分已匹配項目和未匹配項目兩種情況做評分修訂處理。這種處理使得一般只有5個整數(shù)的評分分值更加細(xì)化,不但可以在一定程度上解決協(xié)同過濾的數(shù)據(jù)稀疏問題,而且修訂后的分值可以作為基于頻繁項集推薦方法的結(jié)果排序標(biāo)準(zhǔn)。最后,按比例將協(xié)同過濾和基于項集的方法的結(jié)果推薦給用戶。
1.2 基于頻繁項集的評分修訂
為解決協(xié)同過濾方法存在的評分稀疏及用戶喜好程度區(qū)分能力不足的問題,提出了基于頻繁項集的評分修訂方法。一方面,基于多數(shù)用戶的評分情況可以補充用戶對未評分項目的評分,使得協(xié)同過濾的計算依據(jù)更加充分;另一方面,針對用戶已評分的項目,將5個整數(shù)值的評分細(xì)化為實數(shù)值,從而更好地區(qū)分用戶的喜好程度。此外,這種處理方式能夠得到更長的用戶評分向量,有利于解決冷門項目推薦中的長尾效應(yīng)問題[13]。
設(shè)I={i1, i2, …, ip}是項的集合,集合X?I稱作項集。數(shù)據(jù)庫D={T1, T2, …, Tq}是事務(wù)的集合,其中每條事務(wù)Tj(1≤j≤q)是項集[14]。頻繁項集主要由支持度(support)來評價,其定義如下:
(1)
由式(1)可知,項集X的支持度即為數(shù)據(jù)庫中包含X的事務(wù)的數(shù)量。給定最小支持度閾值min-sup,頻繁項集挖掘就是發(fā)現(xiàn)那些支持度不低于min-sup的全部項集。
對推薦系統(tǒng)而言,全部項目的集合即為I,而用戶的評分向量的集合則構(gòu)成了D,通過使用常用的頻繁項集挖掘算法[14-15]即可得到用于推薦的頻繁項集。
針對目前常用的用1-5這5個整數(shù)來表達(dá)用戶喜好程度的數(shù)據(jù)集,本節(jié)討論的評分修訂分兩種情況:一種是補充評分,另一種是增強評分。這兩種情況均建立在匹配項集集合的基礎(chǔ)上。
定義1 假設(shè)USt是目標(biāo)用戶ut的評分向量,FI是全體頻繁項集的集合,USt的匹配項集集合定義為MS(ut)={S | S∈FI∧ USt? S}.
由定義1可知,匹配項集集合是由包含目標(biāo)用戶評分向量的頻繁項集所組成的集合。
由于頻繁項集是全體用戶中超過一定比例的用戶的共性選擇,因此目標(biāo)用戶選擇存在于能夠與其評分向量相匹配的頻繁項集中未評分的項目的概率也較大,故補充這些項目的評分,可以為協(xié)同過濾提供更加充分的依據(jù)。
(2)
其中:α(ut, ik)稱為ut對ik的補充評分系數(shù),定義為:
(3)
根據(jù)定義2,我們可以為與目標(biāo)用戶相匹配的頻繁項集中的未評分項目,補充一個(3, 5)區(qū)間內(nèi)的實數(shù)評分,從而豐富目標(biāo)用戶的評分向量,為協(xié)同過濾提供更充分的依據(jù)。
對目標(biāo)用戶已評分的不低于3分的項目,可以認(rèn)為是用戶較喜歡的,做評分增強處理,用實數(shù)來取代整數(shù),使這種喜好程度更加細(xì)化。
定義3 給定目標(biāo)用戶ut及其評分向量USt,項集X∈MS(ut),項目ik∈USt,若ut對ik的評分3≤Rt,k≤5,則ut對ik的增強評分定義:
(4)
其中:β(ut, ik)稱為ut對ik的增強評分系數(shù),定義為:
(5)
由定義3可知,通過計算用戶較喜歡的評分的增強評分,可以把原來的3、4、5這3個喜好程度細(xì)化到(3, 5]區(qū)間內(nèi)的實數(shù)值,從而更加精細(xì)的表達(dá)用戶的喜好。
1.3 協(xié)同過濾
協(xié)同過濾方法假設(shè)具有相似評分歷史的用戶的喜好也相似,一般由用戶-項目評分矩陣Rm×n描述,如表1所示。
表1中,每一行代表1個用戶對不同項目的評分,每一列代表不同用戶對1個項目的評分,每個元素Rp,q代表該行對應(yīng)的用戶up對該列對應(yīng)項目iq的評分,體現(xiàn)了用戶對項目的喜好程度。
表1 用戶-項目評分矩陣
用戶ua與目標(biāo)用戶ut的相似程度由Pearson相似性計算。
(6)
給定目標(biāo)用戶ut,根據(jù)式(6)計算使sim(ua,ut)值最大的前K個用戶,構(gòu)成ut的鄰居集合NN(ut),目標(biāo)用戶ut對項目ik的預(yù)測評分為:
(7)
最后,協(xié)同過濾方法將根據(jù)式(7)計算得到的預(yù)測評分最高的一組項目推薦給目標(biāo)用戶。
1.4 基于頻繁項集的推薦
在推薦方法RFICF中,頻繁項集不但可以作為協(xié)同過濾的評分修訂方法,還可以與協(xié)同過濾一樣,作為推薦方法之一。
1.5 算法描述
算法1描述了推薦方法RFICF的流程。需要說明的是,RFICF方法最終的推薦結(jié)果由協(xié)同過濾和基于頻繁項集的推薦結(jié)果按比例組成,假設(shè)δ(0≤δ≤1)是協(xié)同過濾結(jié)果的推薦比例,則基于頻繁項集結(jié)果的推薦比例為(1-δ)。
算法1RFICF推薦方法輸入用戶?項目評分矩陣Rm×n,目標(biāo)用戶ut及其評分向量USt,最小支持度閾值min-sup,最近鄰居數(shù)K,推薦結(jié)果的個數(shù)N,協(xié)同過濾結(jié)果的推薦比例δ輸出推薦項目集合1挖掘D中的全部頻繁項集FI;2根據(jù)定義1計算ut的匹配項集集合MS(ut);3forMS(ut)中的每個頻繁項集Xdo4 for集合X-USt∩X()()中每個項目ikdo5 根據(jù)式(2)計算補充評分;6 endfor7 forUSt中的每個項目ikdo8 根據(jù)式(4)計算增強評分;9 endfor10endfor11在經(jīng)過評分修訂后的用戶?項目評分矩陣R′m×n上做協(xié)同過濾,得到結(jié)果集合SCF;12基于頻繁項集做推薦,得到結(jié)果集合SFI;13取SCF中前N×δ個項目,SFI中前N×(1-δ)個項目推薦給ut.
2.1 實驗數(shù)據(jù)與評測方法
使用MovieLens(http:∥grouplens.org/datasets/movielens)和豆瓣圖書評分(http:∥www.datatang.com/data/42832)兩個數(shù)據(jù)集驗證提出的方法。MovieLens數(shù)據(jù)集包含1 000個用戶對1 700部電影的評分記錄,每條記錄包括4個字段:用戶ID、電影ID、1-5評分、時間戳。豆瓣圖書評分?jǐn)?shù)據(jù)集包括382 033個用戶對89 908本書籍的評分記錄,每條記錄包括3個字段:用戶ID、圖書ID、1-5評分。每個數(shù)據(jù)集選擇80%的數(shù)據(jù)作為訓(xùn)練集,其余20%的數(shù)據(jù)作為測試集,訓(xùn)練集和測試集數(shù)據(jù)的特性如表2所示。
表2 訓(xùn)練集與測試集數(shù)據(jù)的特性
我們使用平均絕對偏差(MeanAbsoluteError,MAE)、覆蓋率(Coverage)、準(zhǔn)確率(Precision)以及綜合測度(F-measure)4個參數(shù)來評價算法的性能,其定義分別如下:
(8)
其中:{p1, p2, …, pN}是計算得到的用戶評分集合,{q1, q2, …, qN}是用戶實際的評分集合,N表示評分項目的數(shù)量。
(9)
(10)
(11)
其中:US為用戶喜好的項目集合,RS為推薦的項目集合。
由于RFICF推薦方法中使用了支持度sup、鄰居數(shù)量K和協(xié)同過濾結(jié)果的推薦比例δ這3個需要人為設(shè)定的參數(shù),通過實驗確定了MovieLens數(shù)據(jù)集上這3個參數(shù)使用的具體值,結(jié)果如表3至表5所示。
表3 MovieLens數(shù)據(jù)集上不同支持度下MAE的變化情況
由表3可以看出,在支持度由50增加到175的過程中,MAE值在支持度取100時,達(dá)到了最低值0.921 2,故在MovieLens數(shù)據(jù)集上RFICF方法的支持度取100。
表4 MovieLens數(shù)據(jù)集上不同鄰居數(shù)量下MAE的變化情況
表4給出了MAE值隨鄰居數(shù)變化而變化的情況??梢钥闯?在最近鄰數(shù)量由5增加到45的過程中,MAE值呈現(xiàn)出波動的趨勢,當(dāng)最近鄰數(shù)量為10時,達(dá)到了最低值0.889 1,故在MovieLens數(shù)據(jù)集上RFICF的鄰居數(shù)量K取10。
2.4 兩組患者治療前后凝血功能指標(biāo) 治療前,兩組PLT比較,差異無統(tǒng)計學(xué)意義(P>0.05),治療后,治療組PLT顯著下降(P<0.05),對照組PLT無明顯降低,兩組間比較差異無統(tǒng)計學(xué)意義(P>0.05);兩組治療前后PT、APTT比較,差異無統(tǒng)計學(xué)意義(均P>0.05)。見表4。
表5 MovieLens數(shù)據(jù)集上不同協(xié)同過濾結(jié)果的推薦比例下MAE的變化情況
表5給出了MAE值隨RFICF中協(xié)同過濾結(jié)果的推薦比例的變化而變化的情況。可以看出,當(dāng)協(xié)同過濾結(jié)果占全部結(jié)果的70%時,MAE取最小值0.878 2,故在MovieLens數(shù)據(jù)集上RFICF的δ取70%。
采用同樣的方法,驗證了在豆瓣圖書評分?jǐn)?shù)據(jù)集上,3個參數(shù)的取值分別為:sup=60,K=25,δ=80%。
2.2 與協(xié)同過濾方法的比較
將提出的RFICF推薦方法與經(jīng)典的協(xié)同過濾方法[16]進行了比較,結(jié)果如表6和表7所示。
表6 MovieLens數(shù)據(jù)集上RFICF與協(xié)同過濾方法的比較結(jié)果
表6給出了推薦不同數(shù)量的結(jié)果時,RFICF推薦方法與經(jīng)典的協(xié)同過濾方法的性能比較結(jié)果,其中:最后1列的“精度提高”的數(shù)值由公式(12)計算得到:
(12)
其中:AR和AC分別代表RFICF和對比方法的覆蓋率或準(zhǔn)確率或綜合測度。
表7至表11中最后一列的精度提高同樣是由式(12)計算得到的。
表7 豆瓣圖書數(shù)據(jù)集上RFICF與協(xié)同過濾方法的比較結(jié)果
由表7可以看出,豆瓣圖書數(shù)據(jù)集上兩種方法的覆蓋率依然隨著推薦結(jié)果數(shù)量的增加而提高,這點可以由公式(9)得到解釋,即推薦的結(jié)果越多,其中用戶喜好的項目也越多。但與表6的結(jié)果不同,綜合測度不再滿足這樣的規(guī)律。盡管兩種方法的3個參數(shù)的結(jié)果低于MovieLens數(shù)據(jù)集上的相應(yīng)參數(shù)的結(jié)果,但RFICF推薦方法的性能依然都優(yōu)于協(xié)同過濾方法。由此也可以看出,使用基于頻繁項集的推薦方法作為協(xié)同過濾方法的補充,的確可以有效提高推薦質(zhì)量。
2.3 與基于頻繁項集的推薦方法的比較
將提出的RFICF推薦方法與經(jīng)典的基于頻繁項集的推薦方法[17]進行了比較,結(jié)果如表8和表9所示。
表8 MovieLens數(shù)據(jù)集上RFICF與基于頻繁項集的方法的比較結(jié)果
由表8可以看出,在MovieLens數(shù)據(jù)集上,RFICF推薦方法的推薦效果要明顯優(yōu)于基于頻繁項集的推薦方法,如:當(dāng)推薦結(jié)果數(shù)量為15時,RFICF的準(zhǔn)確率比基于頻繁項集的推薦方法的準(zhǔn)確率高93.46%。產(chǎn)生這一現(xiàn)象的主要原因在于,盡管基于頻繁項集的推薦方法使用了一定比例之上用戶的共同選擇,但沒有考慮用戶對不同項目的不同喜好程度,從而導(dǎo)致了其推薦結(jié)果的個性化程度有限。
表9 豆瓣圖書數(shù)據(jù)集上RFICF與基于頻繁項集的方法的比較結(jié)果
由表9可以看出,在豆瓣圖書數(shù)據(jù)集上,當(dāng)推薦結(jié)果數(shù)量為10和20時,基于頻繁項集的推薦方法的覆蓋率優(yōu)于RFICF方法。這主要是由于,相對于MovieLens數(shù)據(jù)集,豆瓣圖書數(shù)據(jù)集的評分非常稀疏,使得協(xié)同過濾方法中相似性計算的依據(jù)不足,而由2.1節(jié)可知,RFICF方法中80%的結(jié)果恰恰是由協(xié)同過濾得到的。盡管如此,表9的結(jié)果也可以證實RFICF方法在準(zhǔn)確率和綜合測度兩項指標(biāo)上,還是明顯優(yōu)于基于頻繁項集的方法。
2.4 與其它基于關(guān)聯(lián)規(guī)則和協(xié)同過濾的混合推薦方法的比較
將提出的RFICF推薦方法與其它基于關(guān)聯(lián)規(guī)則和協(xié)同過濾的混合推薦方法[18]進行了比較,結(jié)果如表10和表11所示。為說明問題方便,我們將比較方法記為RARCF。
由表10可以看出,提出的RFICF推薦方法的覆蓋率、準(zhǔn)確率和綜合測度均優(yōu)于基于關(guān)聯(lián)規(guī)則與協(xié)同過濾的混合推薦方法RARCF,而且隨著推薦結(jié)果數(shù)量的增加,綜合測度的精度提高也越來越大。其原因在于,RARCF方法中,關(guān)聯(lián)規(guī)則的評價依然是基于支持度、置信度和興趣因子3個參數(shù)計算得到的,這3個參數(shù)體現(xiàn)的是全體數(shù)據(jù)的一般統(tǒng)計規(guī)律,依然無法反映推薦結(jié)果的個性化程度。而提出的RFICF推薦方法則通過補充評分降低了數(shù)據(jù)的稀疏程度,通過增強評分細(xì)化了評分?jǐn)?shù)值,能夠有效提高推薦結(jié)果的個性化程度。
表10 MovieLens數(shù)據(jù)集上RFICF與RARCF方法的比較結(jié)果
表11 豆瓣圖書數(shù)據(jù)集上RFICF與RARCF方法的比較結(jié)果
由表11可以看出,當(dāng)推薦結(jié)果數(shù)量為10時,對比的RARCF的性能優(yōu)于RFICF方法。這主要是由于豆瓣數(shù)據(jù)集不但比較龐大,而且較為稀疏,因此在推薦結(jié)果數(shù)量較少時,RFICF方法中基于頻繁項集的評分修訂的效果不夠明顯。由2.1節(jié)可知,豆瓣數(shù)據(jù)集上RFICF的10條推薦結(jié)果中有2條是基于頻繁項集產(chǎn)生的,而這2條的效果影響了RFICF方法的整體性能。而當(dāng)推薦結(jié)果數(shù)量為15和20時,RFICF方法則全面優(yōu)于RARCF方法。此外,豆瓣圖書數(shù)據(jù)集上的結(jié)果還表明,RFICF方法的綜合測度在推薦結(jié)果數(shù)量為15時達(dá)到最優(yōu)。其原因在于,豆瓣圖書數(shù)據(jù)集上用戶間評分向量的長度差別比較大,導(dǎo)致推薦數(shù)量過多或過少都會影響推薦質(zhì)量。
提出了一種基于頻繁項集與協(xié)同過濾的混合推薦方法。針對評分缺失及評分程度過粗的問題,使用頻繁項集分別定義了補充評分和增強評分,用于修訂原始用戶-項目評分矩陣的值。分別描述了協(xié)同過濾與基于頻繁項集的推薦方法,并給出了混合方法的算法描述。通過在公開的數(shù)據(jù)集上與相關(guān)工作的實驗比較分析,驗證了方法的有效性。
[1]JannachD,ZankerM,FelfernigA,et al.RecommenderSystems:AnIntroduction[M].Cambridge:CambridgeUniversityPress,2010.
[2] 楊博,趙鵬飛.推薦算法綜述[J].山西大學(xué)學(xué)報(自然科學(xué)版),2011,34(3):337-350.DOI:10.13451/j.cnki.shanxi.univ(nat.sci.).2011.03.001.
[3]LiuY,ZhaoP,ShengVS,et al.RPCV:RecommendPotentialCustomerstoVendorsinLocation-BasedSocialNetwork[C]∥Proceedingsofthe16thInternationalConferenceonWeb-AgeInformationManagement,2015:272-284.DOI:10.1007/978-3-319-21042-1-22.
[4]JiangS,QianX,MeiT,et al.PersonalizedTravelSequenceRecommendationonMulti-SourceBigSocialMedia[J].IEEETransactionsonBigData,2016,2(1):43-56.DOI:10.1109/TBDATA.2016.2541160.
[5]DascaluMI,BodeaCN,MihailescuMN,et al.EducationalRecommenderSystemsandTheirApplicationinLifelongLearning[J].Behaviour & IT,2016,35(4):290-297.DOI:10.1080/0144929X.2015.1128977.
[6]Hoic-BozicN,DlabMH,MornarV.RecommenderSystemandWeb2.0ToolstoEnhanceaBlendedLearningModel[J].IEEETransactionsonEducation,2016,59(1):39-44.DOI:10.1109/TE.2015.2427116.
[7]BecchettiL,BergaminiL,ColesantiUM,et al.ALightweightPrivacyPreservingSMS-BasedRecommendationSystemforMobileUsers[J].KnowledgeandInformationSystems,2014,40(1):49-77.DOI:10.1007/s10115-013-0632-z.
[8]GongY,WeiL,GuoY,et al.OptimalTaskRecommendationforMobileCrowdsourcingWithPrivacyControl[J].IEEEInternetofThingsJournal,2016,3(5):745-756.DOI:10.1109/JIOT.2015.2512282.
[9]NajafabadiMK,MahrinMN.ASystematicLiteratureReviewontheStateofResearchandPracticeofCollaborativeFilteringTechniqueandImplicitFeedback[J].ArtificialIntelligenceReview,2016,45(2):167-201.DOI:10.1007/s10462-015-9443-9.
[10]LiY,ZhaiCX,ChenY.ExploitingRichUserInformationforOne-ClassCollaborativeFiltering[J].KnowledgeandInformationSystems,2014,38(2):277-301.DOI:10.1007/s10115-012-0583-9.
[11]WangW,YangJ,HeL.AnImprovedCollaborativeFilteringBasedonItemSimilarityModifiedandCommonRatings[C].Proceedingsofthe2012InternationalConferenceonCyberworlds,2012:231-235.DOI:10.1109/CW.2012.40.
[12] 宋威,陳利娟.基于直接評分與間接評分的協(xié)同過濾算法[J].計算機工程與設(shè)計,2015,36(5):1228-1232.DOI:10.16208/j.issn1000-7024.2015.05.022.
[13] 印桂生,張亞楠,董紅斌,等.一種由長尾分布約束的推薦方法[J].計算機研究與發(fā)展,2013,50(9):1814-1824.
[14]AgrawalR,SrikantR.FastAlgorithmsforMiningAssociationRulesinLargeDatabases[C]∥Proceedingsofthe20thInternationalConferenceonVeryLargeDataBases,1994:487-499.
[15]SongW,YangBR,XuZY.Index-BitTableFI:AnImprovedAlgorithmforMiningFrequentItemsets[J].Knowledge-BasedSystems,2008,21(6):507-513.DOI:10.1016/j.knosys.2008.03.011.
[16]SchaferJB,FrankowskiD,HerlockerJ,et al.CollaborativeFilteringRecommenderSystems[M].TheAdaptiveWeb,Springer-Verlag,2007:291-324.
[17]ChoYS,MoonSC.WeightedMiningFrequentItemsetsUsingFP-TreeBasedonRFMforPersonalizedU-CommerceRecommendationSystem[C]∥FTRA4thInternationalConferenceonMobile,Ubiquitous,andIntelligentComputing,2013:441-450.DOI:10.1007/978-3-642-40675-1-66.
[18] 郭曉波,趙書良,牛東攀,等.一種解決稀疏數(shù)據(jù)和冷啟動問題的組合推薦方法[J].中國科學(xué)技術(shù)大學(xué)學(xué)報,2015,45(10):804-812.DOI:10.3969/j.issn.0253-2778.2015.10.002.
Hybrid Recommendation Method Based on Frequent Itemset and Collaborative Filtering
SONG Wei1,2,LIU Peng1
(1.SchoolofComputerScienceandTechnology,NorthChinaUniversityofTechnology,Beijing100144,China;2.BeijingKeyLaboratoryonIntegrationandAnalysisofLarge-ScaleStreamData,Beijing100144,China)
There are two problems in the field of collaborative filtering,among which one is rating sparsity, and the other is the poor ability to reflect users' different preference. To solve these two problems, a hybrid recommendation method based on frequent itemset and collaborative filtering, named RFICF, is proposed. Based on frequent itemset, complement rating and enhanced rating are defined, which expanding the number of rating and detailing the rating score. Then, recommendation method based on frequent itemset and collaborative filtering are exploited respectively, and their results are displayed according to certain portion.The proposed method is compared with collaborative filtering, frequent itemset-based recommendation and related hybrid recommendation methods.The experimental results show that the overall performance of RFICF is good on the three parameters of coverage, precision andF-measure.
recommender system;frequent itemset;collaborative filtering;rating revision
10.13451/j.cnki.shanxi.univ(nat.sci.).2017.01.006
2016-11-20;
2016-12-03
北京市自然科學(xué)基金(4162022);北京市科技計劃項目(D161100005216002);北京市優(yōu)秀人才青年拔尖個人項目(2015000026833ZK04)
宋威(1980-),男,遼寧撫順人,教授,博士,主要研究方向為數(shù)據(jù)挖掘、推薦系統(tǒng),E-mail:songwei@ncut.edu.cn
TP393
A
0253-2395(2017)01-0035-09