時(shí)念云,張 蕓,馬 力
(中國石油大學(xué)(華東)計(jì)算機(jī)與通信工程學(xué)院,青島 266580)
基于綜合相似度和社交標(biāo)簽的推薦算法①
時(shí)念云,張 蕓,馬 力
(中國石油大學(xué)(華東)計(jì)算機(jī)與通信工程學(xué)院,青島 266580)
針對(duì)傳統(tǒng)個(gè)性化推薦方法所面臨的冷啟動(dòng)、數(shù)據(jù)稀疏等問題,本論文結(jié)合了項(xiàng)目組的前期研究,在綜合考慮用戶特征和用戶信任度的基礎(chǔ)上,引入了用戶興趣,形成綜合相似度.針對(duì)目前推薦系統(tǒng)中評(píng)分?jǐn)?shù)據(jù)較少的問題,論文結(jié)合了社交標(biāo)簽,豐富了推薦數(shù)據(jù).首先利用綜合相似度,找到用戶的相似近鄰,并將相似近鄰所標(biāo)注的標(biāo)簽形成一個(gè)標(biāo)簽集.其次利用基于標(biāo)簽的推薦算法,產(chǎn)生最終的推薦列表.實(shí)驗(yàn)結(jié)果表明,該算法能夠有效提高推薦的準(zhǔn)確率和召回率.
用戶特征; 信任度; 冷啟動(dòng); 用戶興趣; 社交標(biāo)簽
隨著互聯(lián)網(wǎng)與信息技術(shù)的高速發(fā)展,人們已逐漸從信息匱乏時(shí)代進(jìn)入到信息過載時(shí)代[1].推薦系統(tǒng)[2]的出現(xiàn)使人們能夠快速找到自己感興趣的資源.然而目前的推薦系統(tǒng)多是根據(jù)用戶對(duì)資源或商品的評(píng)分進(jìn)行相關(guān)推薦.研究顯示在商業(yè)推薦系統(tǒng)中,用戶的評(píng)分密度小于1%,造成可用于推薦的數(shù)據(jù)較稀疏,致使推薦的準(zhǔn)確率大大降低[3].同時(shí),大部分推薦系統(tǒng)需要通過分析用戶歷史數(shù)據(jù),預(yù)測(cè)用戶興趣進(jìn)行相關(guān)推薦,而對(duì)于新用戶,推薦系統(tǒng)沒有其歷史數(shù)據(jù),因此無法預(yù)測(cè)其興趣,即推薦系統(tǒng)存在冷啟動(dòng)問題[4,5].可以說數(shù)據(jù)稀疏和冷啟動(dòng)是影響當(dāng)前推薦系統(tǒng)準(zhǔn)確率的兩個(gè)重要因素[6].
隨著Web2.0的發(fā)展,社交網(wǎng)站進(jìn)入人們的生活,如微博和QQ等,同時(shí)也產(chǎn)生了豐富的標(biāo)簽數(shù)據(jù)和其他特征信息數(shù)據(jù),將標(biāo)簽應(yīng)用到推薦系統(tǒng)已成為新的研究方向.標(biāo)簽可以作為聯(lián)系用戶興趣和物品的重要媒介,通過將標(biāo)簽集這個(gè)含有大量特征信息的數(shù)據(jù)應(yīng)用到推薦系統(tǒng)中,在一定程度上緩解了用戶物品評(píng)分矩陣的數(shù)據(jù)稀疏問題,提高了推薦質(zhì)量[7].
近些年,為了解決目前推薦系統(tǒng)面臨的上述問題,學(xué)者們提出了各種解決方法如:混合推薦、信任機(jī)制等.文獻(xiàn)[8,9]中,利用了社交標(biāo)簽、信任關(guān)系等來做社會(huì)化推薦,以緩解目前推薦系統(tǒng)所面臨的數(shù)據(jù)稀疏問題.文獻(xiàn)[10-12]中,針對(duì)推薦系統(tǒng)中存在的冷啟動(dòng)問題,利用了簡(jiǎn)單的用戶和項(xiàng)目的屬性信息,為新用戶和新項(xiàng)目進(jìn)行預(yù)測(cè)推薦.文獻(xiàn)[13,14]只考慮了用戶或項(xiàng)目間的相似性,忽略了用戶的興趣相似性.文獻(xiàn)[15]針對(duì)用戶評(píng)分?jǐn)?shù)據(jù)較少的問題,提出了利用協(xié)同過濾與社交網(wǎng)絡(luò)相結(jié)合的混合推薦算法,充分利用了標(biāo)注書簽和朋友關(guān)系信息,在一定程度上解決了數(shù)據(jù)稀疏問題.在文獻(xiàn)[16]提出的算法中,利用用戶已聲明的信任用戶來構(gòu)建信任網(wǎng)絡(luò),并結(jié)合用戶評(píng)分相似度產(chǎn)生推薦,提高了推薦的準(zhǔn)確率.文獻(xiàn)[17]針對(duì)傳統(tǒng)基于標(biāo)簽的推薦存在的覆蓋率不足問題,提出了利用用戶信任度和社交用戶標(biāo)注動(dòng)機(jī)相結(jié)合的推薦算法.該算法考慮了用戶標(biāo)注動(dòng)機(jī),在一定程度上提高了推薦的覆蓋率.文獻(xiàn)[18]針對(duì)傳統(tǒng)協(xié)同過濾算法存在的冷啟動(dòng)問題,提出了引入人口統(tǒng)計(jì)特征和信任機(jī)制的協(xié)同過濾推薦算法.該算法充分利用了用戶的人口統(tǒng)計(jì)特征信息和信任關(guān)系,在一定程度上緩解了冷啟動(dòng)問題.
這些算法雖然在一定程度上緩解了數(shù)據(jù)稀疏和冷啟動(dòng)問題,但仍存在一定的不足,如文獻(xiàn)[15]沒有考慮用戶間信任關(guān)系,準(zhǔn)確率不高.文獻(xiàn)[16]和文獻(xiàn)[18]仍然存在評(píng)分?jǐn)?shù)據(jù)稀疏問題.文獻(xiàn)[17]沒有考慮冷啟動(dòng)問題和用戶興趣相似問題.而且這些算法沒有充分利用含有豐富特征信息的標(biāo)簽數(shù)據(jù),同時(shí),缺乏對(duì)用戶興趣和用戶信任度等的綜合考慮.事實(shí)上,在現(xiàn)實(shí)生活中,來自朋友的推薦有時(shí)會(huì)具有更高可信度,并且與自己背景相同的人興趣相似的可能性更大,而這種現(xiàn)實(shí)關(guān)系通常也體現(xiàn)在社交網(wǎng)絡(luò)中.
用戶特征含有豐富的用戶信息,且社交標(biāo)簽數(shù)據(jù)較為豐富,增大了用于推薦的數(shù)據(jù)量,本文提出的算法將兩者合理結(jié)合,有效緩解了冷啟動(dòng)和數(shù)據(jù)稀疏問題.同時(shí),將用戶信任關(guān)系和用戶興趣考慮進(jìn)來,有助于準(zhǔn)確找到用戶信任且與其興趣相同的用戶,提高推薦的準(zhǔn)確率,減少盲目性.
基于綜合相似度和社交標(biāo)簽的推薦算法步驟如下.(1)計(jì)算用戶特征、用戶信任度和用戶興趣相似度,作為綜合相似度.(2)根據(jù)綜合相似度找到相似近鄰,并利用相似近鄰的標(biāo)簽形成標(biāo)簽集.(3)與社交標(biāo)簽相結(jié)合,利用基于標(biāo)簽的推薦算法產(chǎn)生推薦列表.
用戶特征即指人的年齡、性別、工作、學(xué)歷、居住地和國籍等,即一般情況下用戶注冊(cè)時(shí)需要填寫的信息[19].而這些特征對(duì)預(yù)測(cè)用戶興趣有很重要的作用,比如男性和女性的興趣不同,不同年齡的人興趣不同.Krulwhich設(shè)計(jì)了一個(gè)AB實(shí)驗(yàn),其中一組利用用戶特征推薦,而另一對(duì)照組則是利用完全隨機(jī)推薦.實(shí)驗(yàn)結(jié)果顯示,前者的用戶點(diǎn)擊率為89%,而隨機(jī)算法的點(diǎn)擊率只有27%.實(shí)驗(yàn)證明,利用用戶特征推薦相對(duì)隨機(jī)推薦能夠獲得更好的推薦效果[20].
本文中用到的Last.fm數(shù)據(jù)集包含了較多的用戶特征,包括用戶的性別、年齡和國籍等.據(jù)統(tǒng)計(jì)該數(shù)據(jù)集中男性用戶約占3/4.數(shù)據(jù)集中用戶年齡分布主要集中在20~25歲,而在0~13歲和60~100的用戶相加不足1%,為提高推薦效率,我們暫不考慮.該數(shù)據(jù)集中用戶主要集中在美國、德國和英國.
本文只對(duì)Last.fm數(shù)據(jù)集中用戶的年齡、性別和國家等用戶特征進(jìn)行用戶相似度度量.由于數(shù)據(jù)集中用戶信息大多不是數(shù)值型,因此要對(duì)用戶特征進(jìn)行量化或轉(zhuǎn)化為數(shù)值型,以方便計(jì)算[19].其中對(duì)國籍量化方法如下.
數(shù)據(jù)集中用戶分布較多的有30個(gè)國家.這30個(gè)國家約占了用戶的98%.將這30個(gè)國家分為30類,并利用1-30的數(shù)字作為量化值.
通過以上對(duì)數(shù)據(jù)集中用戶的用戶特征進(jìn)行量化,形成了用戶-特征矩陣,如表1所示.
表1 用戶-特征矩陣
其中Ui為第i個(gè)用戶,Fj為第j個(gè)用戶特征.Pij表示第i個(gè)用戶的第j個(gè)用戶特征值.用戶特征相似度計(jì)算方法公式如下.
因?yàn)椴煌脩籼卣鲗?duì)用戶興趣的影響程度不同,所以本文賦予特征相似度不同權(quán)值.公式如下:
其中SFp(a,b)為用戶a與用戶b的性別特征相似度,SFq(a,b)為用戶a與用戶b的年齡特征相似度,SFr(a,b)為用戶a與用戶b的國家特征相似度.其中,α∈[0,1],β∈[0,1],θ∈[0,1],且α+β+θ=1.
在社交網(wǎng)絡(luò)中,用戶興趣相似度對(duì)推薦準(zhǔn)確率影響較大.例如,我們每個(gè)人大都和自己的父母很熟悉,但是很多時(shí)候我們發(fā)現(xiàn)自己和父母的興趣卻極不相似,那么他們喜歡的物品就與我們有很大不同.因此在度量用戶的綜合相似度時(shí)還需要考慮用戶興趣相似度,而用戶興趣相似度跟兩個(gè)用戶喜歡物品集合的重合度有關(guān).物品集合的重合度越高,則說明兩個(gè)用戶的興趣相似度越高.
傳統(tǒng)的用戶興趣相似度算法對(duì)于熱門物品的影響沒有處理.為了減小熱門物品對(duì)推薦的影響,以減小用戶u和用戶v共同興趣以及列表中熱門物品對(duì)他們相似度的影響.本文采用了John S.Breese[21]提出的用戶興趣相似度計(jì)算公式,公式如下:
N(u)為用戶u喜歡的物品集,N(v)為用戶v喜歡的物品集,N(i)為用戶u和用戶v共同喜歡的物品集.
本文將以上用戶特征相似度與用戶興趣相似度相結(jié)合,計(jì)算公式如下:
信任關(guān)系指在社交網(wǎng)站中,用戶通過綜合考慮自身與其他目標(biāo)用戶的歷史記錄及表現(xiàn),主觀判斷其他目標(biāo)用戶在網(wǎng)絡(luò)上所推薦信息和分享的資源是否真實(shí)安全,為用戶自身購物提供一定的實(shí)際參考價(jià)值.用戶對(duì)不同目標(biāo)用戶這種信任程度即信任度.信任度也是信任關(guān)系的量化.信任度又分為全局信任度和局部信任度[22].
全局信任度即指在整個(gè)系統(tǒng)中所有其他用戶對(duì)某一用戶的總體信任程度.在推薦系統(tǒng)中,用戶越活躍且信任他的用戶越多即信譽(yù)值越高,那么他在系統(tǒng)中的全局信任度則越高.本文將用戶活躍度和用戶信譽(yù)值作為全局信任度.
在社交標(biāo)簽系統(tǒng)中,用戶活躍度與用戶所標(biāo)注標(biāo)簽個(gè)數(shù)成正相關(guān),用戶在系統(tǒng)中,所標(biāo)注標(biāo)簽越多則其活躍度越高[23].用戶活躍度公式如下:
其中,Act∈[0,1],q為用戶對(duì)所有項(xiàng)目所標(biāo)注標(biāo)簽數(shù)量,閾值Q為小于最活躍用戶的標(biāo)簽數(shù)量和.
用戶信譽(yù)值即用戶在社交網(wǎng)絡(luò)中,其他用戶對(duì)該用戶的整體信任值表現(xiàn)為用戶節(jié)點(diǎn)的度[24].
其中,fi為節(jié)點(diǎn)i的度,fmax為信任網(wǎng)絡(luò)中節(jié)點(diǎn)的最大度,且 Ucti∈[0,1].
用戶活躍度Act和用戶信譽(yù)值Ucti綜合計(jì)算公式如下:
本文采用基于節(jié)點(diǎn)相似性方法中的Jaccard系數(shù)作為局部信任度度量方法[25].基于節(jié)點(diǎn)相似性方法大部分來源于復(fù)雜網(wǎng)絡(luò)的鏈接預(yù)測(cè),該類方法把共同鄰居或兩端節(jié)點(diǎn)度作為考慮屬性,其中較著名的有共同鄰居法和Jaccard系數(shù)法,共同鄰居方法(CN)公式如下:
Jaccard系數(shù)方法通過對(duì)兩個(gè)用戶物品集進(jìn)行操作,消除了物品集大小程度對(duì)用戶相似性的影響.
用戶在系統(tǒng)中的信任度是其全局信任度和局部信任度加權(quán)之和,公式如下:
將上述得到的用戶相似度和用戶信任度進(jìn)行融合[18],公式如下:
通過利用以上方法計(jì)算出綜合相似度后,找到目標(biāo)用戶的相似近鄰,并利用他們所使用的標(biāo)簽形成標(biāo)簽集,其次利用TF-IDF公式進(jìn)行推薦.TF-IDF是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù),這個(gè)公式利用用戶的標(biāo)簽向量對(duì)用戶興趣進(jìn)行建模,其中每個(gè)標(biāo)簽都被用戶使用過,而標(biāo)簽權(quán)重是用戶使用該標(biāo)簽的次數(shù)[26].這種建模方法的缺點(diǎn)是給熱門標(biāo)簽過大的權(quán)重,從而不能反映用戶的個(gè)性化興趣.因此,為了減小熱門標(biāo)簽的權(quán)重,對(duì)熱門物品進(jìn)行了懲罰,推薦公式如下:
其中nu,b是用戶u打過標(biāo)簽b的次數(shù),nb,i是物品i被打過標(biāo)簽b的次數(shù),記錄了物品i被多少個(gè)不同用戶打過標(biāo)簽.本文算法記為TFI-TP.
本文總的算法思想為:通過計(jì)算綜合相似度找到目標(biāo)用戶信任且用戶特征和興趣相同的相似近鄰,并利用他們對(duì)歌唱藝術(shù)家所打標(biāo)簽形成標(biāo)簽集,通過利用標(biāo)簽推薦方法將目標(biāo)用戶可能喜歡的歌手形成最終推薦列表,推薦給目標(biāo)用戶.
本文使用的數(shù)據(jù)來源于Last.fm數(shù)據(jù)集,該數(shù)據(jù)集包含了2100個(gè)用戶的18萬條信息,18745名歌手,11947個(gè)標(biāo)簽.平均每個(gè)用戶有12.5個(gè)朋友,有13個(gè)標(biāo)簽.Last.fm是一個(gè)著名的音樂網(wǎng)站.為了更好地服務(wù)用戶,在不進(jìn)行復(fù)雜音頻分析的情況下獲取音樂內(nèi)容,并為用戶快速找到其可能喜歡的歌手,Last.fm引入了UGC標(biāo)簽系統(tǒng),方便用戶利用標(biāo)簽標(biāo)記歌手.實(shí)驗(yàn)將隨機(jī)選取數(shù)據(jù)集的90%作為訓(xùn)練集,10%作為測(cè)試集.
本文采用推薦系統(tǒng)常用的評(píng)測(cè)指標(biāo)即準(zhǔn)確率和召回率[27].準(zhǔn)確率是檢索出相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)的查準(zhǔn)率.召回率是指檢索出的相關(guān)文檔數(shù)和文檔庫中所有相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng)的查全率.
因?yàn)橐陨瞎胶形粗獏?shù),所以應(yīng)先確定未知參數(shù)的值.在計(jì)算用戶特征相似度時(shí)即公式(2),出現(xiàn)了α,β,θ等三個(gè)未知參數(shù),用來衡量特征權(quán)重.因?yàn)棣?β+θ=1,所以只需確定α、β的值.取鄰居用戶 N 為5時(shí),λ為0.6時(shí),α以步長(zhǎng)為0.1,β步長(zhǎng)為0.2進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如下.
由圖1可知,當(dāng)α為0.1,β為0.3時(shí)準(zhǔn)確率最高.從α、β值可以得出,當(dāng)預(yù)測(cè)用戶對(duì)音樂的興趣時(shí),用戶性別對(duì)用戶的喜好影響較小,而用戶年齡對(duì)用戶影響稍大,用戶國籍對(duì)用戶的影響比用戶年齡和性別特征影響都大.這也證實(shí)了語言不同,文化背景不同,用戶對(duì)音樂的喜好不同.例如中國的年輕人和美國的年輕人所喜愛的音樂有很大差異.
圖1 不同α、β值下的準(zhǔn)確率
全局信任度和局部信任度對(duì)用戶信任度的影響程度確定即λ的確定,其中λ的取值為[0,1].本文將λ的值以步長(zhǎng)0.1進(jìn)行取值,實(shí)驗(yàn)結(jié)果如圖2.
圖2 λ取不同值時(shí)的準(zhǔn)確率和召回率
由圖2可知當(dāng)λ取0.6時(shí),準(zhǔn)確率達(dá)到最高,而此時(shí)的召回率比λ取0.5時(shí)有所下降.為了提高準(zhǔn)確率,本文選取λ為0.6.其中λ為0時(shí)為沒有考慮全局信任度得情況,而λ為1時(shí)為沒有考慮局部信任度的情況.
由于向目標(biāo)用戶推薦的標(biāo)簽集是由用戶近鄰標(biāo)簽所組成,因此近鄰的個(gè)數(shù)也將影響推薦效率.為此我們?nèi)〗弬€(gè)數(shù)N為不同值,實(shí)驗(yàn)結(jié)果如圖3.
圖3 近鄰數(shù)量N取不同值時(shí)的實(shí)驗(yàn)結(jié)果
由圖3可知,當(dāng)N小于5時(shí)準(zhǔn)確率和召回率都在逐漸升高,而當(dāng)近鄰數(shù)量大于5時(shí)準(zhǔn)確率和召回率,則越來越低.這是由于標(biāo)簽集數(shù)量過大,使得準(zhǔn)確找到能夠預(yù)測(cè)用戶興趣的標(biāo)簽的難度也隨之增大.
為了對(duì)比改進(jìn)前后算法的效率,將基于用戶特征相似度的社交標(biāo)簽推薦算法標(biāo)記為F-TP,將基于用戶信任度的社交標(biāo)簽推薦算法標(biāo)記為T-TP,將基于興趣相似度的社交標(biāo)簽推薦算法標(biāo)記記為I-TP,將基于用戶信任度和用戶特征的社交標(biāo)簽推薦算法標(biāo)記為TFTP,本文算法記為TFI-TP.算法效果對(duì)比圖如下.
圖4 不同算法的實(shí)驗(yàn)結(jié)果對(duì)比圖
通過對(duì)以上實(shí)驗(yàn)結(jié)果分析可以得出以下結(jié)論:傳統(tǒng)只考慮用戶興趣的I-TP算法準(zhǔn)確率較低.而考慮用戶特征的F-TP推薦算法準(zhǔn)確率和召回率都較I-TP有了提高,這是因?yàn)樘卣飨嗤挠脩?所喜愛的音樂相似性較大.而考慮用戶信任度的T-TP算法相較于前兩個(gè)算法有了提高,這與日常生活中人們比較相信有較好信譽(yù)的人有關(guān),這也體現(xiàn)在網(wǎng)絡(luò)中[28].而融合了用戶特征和用戶信任度的TF-TP算法,在準(zhǔn)確率和召回率上比前三個(gè)算法都有所提高,這是因?yàn)橛脩舯容^信任那些來自與自己特征相似度和信任度都較高的用戶的推薦.同時(shí),實(shí)驗(yàn)結(jié)果顯示,本文提出的TFI-TP推薦算法較其他算法推薦效果更佳.
本文提出的TFI-TP算法其準(zhǔn)確率和召回率都有所提高的原因在于同時(shí)考慮了用戶特征信息和社交標(biāo)簽,使得冷啟動(dòng)問題和數(shù)據(jù)稀疏問題得到了緩解.由于傳統(tǒng)推薦系統(tǒng)對(duì)無任何歷史記錄的新用戶的推薦是盲目的,這大大降低了推薦準(zhǔn)確率,而冷啟動(dòng)問題的解決將有效提高推薦準(zhǔn)確率.豐富的社交標(biāo)簽數(shù)據(jù)為推薦系統(tǒng)提供了足夠的數(shù)據(jù)集用于分析用戶興趣,解決了由于評(píng)分?jǐn)?shù)據(jù)稀疏而帶來的準(zhǔn)確率低的問題.同時(shí),TFI-TP算法將用戶信任度考慮進(jìn)來,提高了用戶對(duì)推薦資源的信任度,而將用戶興趣考慮進(jìn)來,減少了推薦的盲目性,提高了推薦召回率.
本文提出的TFI-TP算法引入了用戶特征信息、用戶信任度和用戶興趣,利用用戶特征和用戶興趣所形成的相似度,并結(jié)合信任度形成綜合相似度確定鄰居用戶,利用鄰居用戶的標(biāo)簽集結(jié)合標(biāo)簽推薦方法,進(jìn)而產(chǎn)生最終的推薦結(jié)果.實(shí)驗(yàn)結(jié)果表明,用戶特征和用戶信任度的引入過濾掉了不符合用戶興趣且用戶不太信任的資源,緩解了冷啟動(dòng)問題,提高了推薦的質(zhì)量.將用戶興趣考慮進(jìn)來,使得目標(biāo)用戶的興趣更加明確,提高推薦準(zhǔn)確率.將社交標(biāo)簽引入到TFI-TP算法中來,充分地利用了豐富的標(biāo)簽數(shù)據(jù),緩解了數(shù)據(jù)稀疏問題.實(shí)驗(yàn)結(jié)果說明,本文提出的TFI-TP能夠有效緩解冷啟動(dòng)問題和數(shù)據(jù)稀疏問題.
社會(huì)的進(jìn)步發(fā)展,人們對(duì)于推薦系統(tǒng)的要求更高.如根據(jù)用戶情感變化、地理位置、時(shí)間因素等進(jìn)行相關(guān)推薦,這也是以后研究的方向.另外,本文沒有考慮用戶標(biāo)注標(biāo)簽時(shí)間,希望以后有機(jī)會(huì)能在這方面繼續(xù)學(xué)習(xí)和探索.
1易明,鄧衛(wèi)華.基于標(biāo)簽的個(gè)性化信息推薦研究綜述.情報(bào)理論與實(shí)踐,2011,34(3):126–128.
2Resnick P,Iacovou N,Suchak M,et al.GroupLens:An open architecture for collaborative filtering of netnews.Proc.of the 1994 ACM Conference on Computer Supported Cooperative Work.New York,NY,USA.1994.175–186.
3Gunawardana A,Meek C.Tied boltzmann machines for cold start recommendations.Proc.of the 2008 ACM Conference on Recommender Systems.New York,NY,USA.2008.19–26.
4Gunawardana A,Meek C.A unified approach to building hybrid recommender systems.Proc.of the 3rd ACM Conference on Recommender Systems.New York,NY,USA.2009.117–124.
5Park ST,Chu W.Pairwise preference regression for coldstart recommendation.Proc.of the 3rd ACM conference on Recommender systems.New York,NY,USA.2009.21–28.
6李春,朱珍民,葉劍,等.個(gè)性化服務(wù)研究綜述.計(jì)算機(jī)應(yīng)用研究,2009,26(11):4001–4005,4009.[doi:10.3969/j.issn.1001-3695.2009.11.001]
7Kim HN,Ji AT,Ha I,et al.Collaborative filtering based on collaborative tagging for enhancing the quality of recommendation.Electronic Commerce Research and Applications,2010,9(1):73–83.[doi:10.1016/j.elerap.2009.08.004]
8Wang D,Ma J,Lian T,et al.Recommendation based on weighted social trusts and item relationships.Proc.of the 29th Annual ACM Symposium on Applied Computing.New York,NY,USA.2014.254–259.
9Wu L,Chen EH,Liu Q,et al.Leveraging tagging for neighborhood-aware probabilistic matrix factorization.Proc.of the 21st ACM International Conference on Information and Knowledge Management.New York,NY,USA.2012.1854–1858.
10Agarwal D,Chen BC.Regression-based latent factor models.Proc.of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Paris,France.2009.19–28.
11Sarwar B,Karypis G,Konstan J,et al.Item-based collaborative filtering recommendation algorithms.Proc.of the 10th International Conference on World Wide Web.New York,NY,USA.2001.285–295.
12Kim BM,Li Q,Kim JW,et al.A new collaborative recommender system addressing three problems.Proc.of the 8th Pacific Rim International Conference on Artificial Intelligence.Auckland,New Zealand.2004.495–504.
13李聰,梁昌勇,董珂.基于項(xiàng)目類別相似性的協(xié)同過濾推薦算法.合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,31(3):360–363.
14Xia WW,He L,Ren L,et al.A new collaborative filtering approach utilizing item’s popularity.Proc.of IEEE International Conference on Industrial Engineering and Engineering Management.Singapore.2008.1480–1484.
15李琦.基于社交網(wǎng)絡(luò)好友信任度的個(gè)性化推薦系統(tǒng)研究[碩士學(xué)位論文].哈爾濱:哈爾濱工業(yè)大學(xué),2014.
16任磊.推薦系統(tǒng)關(guān)鍵技術(shù)研究[博士學(xué)位論文].上海:華東師范大學(xué),2012.
17何波.基于社交用戶信任度和標(biāo)注動(dòng)機(jī)的標(biāo)簽推薦系統(tǒng)研究[碩士學(xué)位論文].重慶:重慶大學(xué),2015.
18時(shí)念云,葛曉偉,馬力.基于用戶人口統(tǒng)計(jì)特征與信任機(jī)制的協(xié)同推薦.計(jì)算機(jī)工程,2016,42(6):180–184.
19布海喬.基于用戶評(píng)分和用戶特征的混合協(xié)同過濾算法研究[碩士學(xué)位論文].天津:天津師范大學(xué),2015.
20項(xiàng)亮.推薦系統(tǒng)實(shí)踐.北京:人民郵電出版社,2015:44–60.
21Breese JS,Heckerman D,Kadie C.Empirical analysis of predictive algorithms for collaborative filtering.Proc.of the 14th Conference on Uncertainty in Artificial Intelligence.Madison,Wisconsin,USA.1998.43–52.
22Ziegler CN,Lausen G.Spreading activation models for trust propagation.Proc.of the 2004 IEEE International Conference on e-Technology,e-Commerce and e-Service.Washington,DC,USA.2004.83–97.
23吳慧,卞藝杰,趙喆,等.基于信任的協(xié)同過濾算法.計(jì)算機(jī)系統(tǒng)應(yīng)用,2014,23(7):131–135.
24劉迎春,鄭小林,陳德人.信任網(wǎng)絡(luò)中基于角色信譽(yù)的信任預(yù)測(cè).北京郵電大學(xué)報(bào),2013,36(1):72–76.
25張富國.基于社交網(wǎng)絡(luò)的個(gè)性化推薦技術(shù).小型微型計(jì)算機(jī)系統(tǒng),2014,35(7):1470–1476.
26Social Media.Social media accounts for 22% of time spent online.http://www.webpronews.com/social-networks-blogsaccount-for-22-of-time-spent-online-2010-06/.[2016-05-10].
27Herlocker JL,Konstan JA,Terveen LG,et al.Evaluating collaborative filtering recommender systems.ACM Trans.on Information Systems,2004,22(1):5–53.[doi:10.1145/963770]
28Sinha R,Swearingen K.Comparing recommendations made by online systems and friends.Proc.of the DELOS-NSF Workshop on Personalization and Recommender Systems in Digital Libraries.Dublin,Ireland.2001.1–6.
Recommendation Algorithm Based on Synthetic Similarity and Social Tag
SHI Nian-Yun,Zhang Yun,MA Li
(College of Computer and Communication Engineering,China University of Petroleum,Qingdao 266580,China)
The traditional methods of personalized recommendation are faced with the problems of sparse data and cold start.This paper combines the previous research of the project team and introduces the user interest to form the comprehensive similarity,based on the comprehensive consideration of user characteristics and user trust degree.At the same time,this paper uses the social tags which enrich the recommendation data to solve the problem of sparse data in current recommendation system.Firstly,the similarity degree is used to find the similar neighbors of the users and form a tag set by labeling the similar neighbors.Secondly,a tag-based recommendation algorithm is used to generate the final recommendation list.The experimental results show that the proposed algorithm can effectively improve the accuracy of recommendation and the recall rate.
user characteristics; trust degree; cold start; user interest; social tag
時(shí)念云,張蕓,馬力.基于綜合相似度和社交標(biāo)簽的推薦算法.計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(10):178–183.http://www.c-s-a.org.cn/1003-3254/6025.html
2017-01-16; 采用時(shí)間:2017-02-26