黃立威,李德毅
(1.解放軍理工大學(xué)指揮自動化學(xué)院,江蘇南京 210007;2.中國電子系統(tǒng)工程研究所,北京 100141)
社交媒體中的信息推薦
黃立威1,李德毅2
(1.解放軍理工大學(xué)指揮自動化學(xué)院,江蘇南京 210007;2.中國電子系統(tǒng)工程研究所,北京 100141)
近年來社交媒體越來越流行,可以從中獲得大量豐富多彩的信息的同時(shí),也帶來了嚴(yán)重的“信息過載”問題.推薦系統(tǒng)作為緩解信息過載最有效的方法之一,在社交媒體中的作用日趨重要.區(qū)別于傳統(tǒng)的推薦方法,社交媒體中包含大量的用戶產(chǎn)生內(nèi)容,因此在社交媒體中,通過結(jié)合傳統(tǒng)的個(gè)性化的推薦方法,集成各類新的數(shù)據(jù)、元數(shù)據(jù)和清晰的用戶關(guān)系,產(chǎn)生了各種新的推薦技術(shù).總結(jié)了社交推薦系統(tǒng)中的幾個(gè)關(guān)鍵研究領(lǐng)域,包括基于社會化標(biāo)注的推薦、組推薦和基于信任的推薦,之后介紹了在信息推薦中考慮時(shí)間因素時(shí)的情況,最后對社交媒體中信息推薦有待深入研究的難點(diǎn)和發(fā)展趨勢進(jìn)行了展望.
信息推薦;信息過載;推薦系統(tǒng);社交媒體
隨著Web 2.0的應(yīng)用以及各種類型的社交媒體的流行,在線用戶的行為已經(jīng)發(fā)生了巨大的變化,正如Rosa等[1]在其報(bào)告中描述的那樣:“在線行為已經(jīng)不能僅僅用搜索或?yàn)g覽來概括,其正在演化為交互、迅速的內(nèi)容創(chuàng)建和分享”,Web 2.0讓任何人都可以通過互聯(lián)網(wǎng)進(jìn)行分享和交互,并最終涌現(xiàn)出群體智能[2].
新一代的Web應(yīng)用不再僅僅是只讀的,Web用戶也不僅僅是信息的消費(fèi)者,他們成為了信息的生產(chǎn)者.用戶積極參與到社交網(wǎng)絡(luò)中,上傳個(gè)人照片,分享他們的書簽,寫博客,發(fā)微博,對他人提供的信息進(jìn)行注釋和評論.他們不僅提供信息,而且提供“自己”,在社交網(wǎng)站上建立詳細(xì)的個(gè)人檔案并分享這些信息,與成千上萬的網(wǎng)絡(luò)用戶建立虛擬的朋友關(guān)系,大量的用戶在這些社交媒體上每天花費(fèi)大量的時(shí)間,并且產(chǎn)生了大量的信息;但與此同時(shí)也帶來了一個(gè)巨大的挑戰(zhàn):信息過載,即過量信息同時(shí)呈現(xiàn)使得用戶很難從中獲取對自己有用的部分,信息使用效率反而降低.現(xiàn)有的很多網(wǎng)絡(luò)應(yīng)用,比如門戶網(wǎng)站、搜索引擎和專業(yè)數(shù)據(jù)索引本質(zhì)上都是幫助用戶過濾信息.然而這些工具只滿足主流需求,沒有個(gè)性化的考慮,仍然無法很好地解決信息過載的問題.變被動搜索為主動推薦,社會推薦系統(tǒng)(social recommender system)作為解決信息過載問題的重要手段,是當(dāng)前解決社交媒體中信息超載問題的最有效的方法之一.推薦系統(tǒng)由于能夠提高服務(wù)的使用者數(shù)量,并且提升用戶的滿意度和忠誠度,可以更加理解用戶的需求,因此越來越受到各種服務(wù)供應(yīng)商的重視[3].
文獻(xiàn)[4]給出了推薦系統(tǒng)的一般的形式化定義:設(shè)C是所有用戶(user)的集合,S是所有可以推薦給用戶的對象(item)的集合.在實(shí)際情況下,C和S集合的規(guī)模都非常大.用效用函數(shù)u計(jì)算對象s對用戶c的推薦度,即u:C×S→R,R是一個(gè)全序集合(在一定范圍內(nèi)非負(fù)的整數(shù)或?qū)崝?shù)),推薦要研究的問題就是對每一個(gè)用戶c∈C,找到推薦度u最大的對象s'∈S,如式(1):
用戶和對象都可以通過一組不同的屬性和特征來表示.推薦算法研究的核心問題在于效用度u通常并非定義在整個(gè)C×S空間上,而是在其中的一個(gè)子空間上,這就意味著必須對u外推(extrapolation)到整個(gè)空間上.例如,通常推薦度被定義為用戶對對象的評分,因?yàn)橛脩糁粚Σ糠謱ο筮M(jìn)行了評分,所以在從所有對象中選擇推薦度最高的對象推薦給用戶之前,必須先基于已經(jīng)評分的對象來預(yù)測用戶對未評分對象的評分,從已知的評分到未知的評分的預(yù)測,就是外推的過程.對未評分對象的評分可以采用不同的方法進(jìn)行預(yù)測,例如機(jī)器學(xué)習(xí)、近似理論和各種啟發(fā)式的方法.對推薦方法的分類通常是依據(jù)預(yù)測方法的不同,傳統(tǒng)的推薦方法基本包括以下幾種:基于內(nèi)容的推薦(content-based recommendation)[5]、協(xié)同過濾推薦(collaborative filtering recommendation)[6]、基于知識的推薦 (knowledgebased recommendation)[7]和混合推薦(hybrid recommendation)[8].
1)基于內(nèi)容的推薦:是指根據(jù)用戶已經(jīng)選擇的對象,推薦其他內(nèi)容上類似的對象作為推薦,屬于Schafer劃分中[9]的 Item-to-Item Correlation 方法.該方法首先由系統(tǒng)隱式獲取或者由用戶顯式給出用戶對項(xiàng)目屬性的偏好,然后通過計(jì)算已知用戶偏好的對象和等待預(yù)測偏好的對象之間內(nèi)容上的匹配度(或相似度),最后按照偏好排序結(jié)果向用戶推薦其可能感興趣的對象,可分為啟發(fā)式方法和基于模型的方法[4].
2)協(xié)同過濾推薦:類似于現(xiàn)實(shí)世界中自動傳播口碑(word-of-mouth)的過程,根據(jù)已知的用戶偏好,計(jì)算用戶之間的相似度,從而推薦相似用戶的偏好給當(dāng)前用戶.其基本思想非常易于理解,在日常生活中,人們往往會利用好朋友的推薦來進(jìn)行一些選擇.協(xié)同過濾正是把這一思想運(yùn)用到推薦系統(tǒng)中來,即基于其他用戶對某一內(nèi)容的評價(jià)向目標(biāo)用戶進(jìn)行推薦.又可以分為啟發(fā)式方法和基于模型的方法[4]:前者需要計(jì)算用戶(或者推薦對象)之間的相似度,后者利用已知用戶偏好學(xué)習(xí)一個(gè)模型為活動用戶或者活動項(xiàng)目進(jìn)行偏好預(yù)測.協(xié)同過濾主要包括2項(xiàng)主要技術(shù)[10]:鄰域方法(neighborhood approach)和隱因子建模(latent factor models).
3)基于知識的推薦:在某種程度上可以看成是一種推理(inference)技術(shù).它不是建立在用戶需要和偏好的基礎(chǔ)上推薦的,而是利用針對特定領(lǐng)域制定規(guī)則(rule)來進(jìn)行基于規(guī)則和實(shí)例的推理(casebased reasoning).效用知識(functional knowledge)是一種關(guān)于一個(gè)對象如何滿足某一特定用戶的知識,能夠解釋需求和推薦的關(guān)系,因此用于推薦系統(tǒng).效用知識在推薦系統(tǒng)中必須以機(jī)器可讀的方式存在(ontology本體知識庫).
4)混合推薦:混合推薦一個(gè)最重要原則就是通過組合后應(yīng)能避免或彌補(bǔ)各自推薦技術(shù)的弱點(diǎn),按照不同的混合策略(如加權(quán)、切換、混合呈現(xiàn)、特征組合、串聯(lián)、特征擴(kuò)充、元層次混合等)將不同推薦類型或推薦算法進(jìn)行組合并生成推薦.
社交媒體中,能夠獲得的用戶數(shù)據(jù)不僅僅包含用戶人口信息(user demographic information),用戶生成的內(nèi)容(user generated content)如評論(comments)、標(biāo)簽(tags)、微博(如 tweets)等,其內(nèi)容也越來愈豐富,其中蘊(yùn)含的巨大價(jià)值也越來越被大家認(rèn)識到.通過數(shù)據(jù)挖掘和信任管理等技術(shù)對這些數(shù)據(jù)進(jìn)行分析,可以得到更加準(zhǔn)確和詳細(xì)的用戶數(shù)據(jù)(user profile),其不僅包含用戶對特定對象的偏好信息,而且包含用戶的主題興趣和用戶之間的信任關(guān)系等,可以將所有的這些用戶信息稱為增強(qiáng)的用戶數(shù)據(jù)(enhanced user profile),基于這些數(shù)據(jù),往往能夠產(chǎn)生更加可靠和高質(zhì)量的推薦.因此在社交媒體中,通過結(jié)合傳統(tǒng)的個(gè)性化的推薦方法,集成社交媒體中新的數(shù)據(jù)、元數(shù)據(jù)和清晰的用戶關(guān)系,產(chǎn)生了各種新的推薦技術(shù)[11].
由于在社交媒體中可以獲得更加多樣和豐富的數(shù)據(jù),包括標(biāo)簽、用戶的社交關(guān)系等,促使社交媒體中的推薦模式(recommendation mode)[12]不再單一,推薦的內(nèi)容更加多樣,除了包括一般的資源,如視頻、新聞等,還包括標(biāo)簽和人的推薦;而且推薦的對象也更加多樣,不僅僅對單個(gè)用戶,還可能是一群用戶,即組推薦(group recommendation).由于人們在現(xiàn)實(shí)生活中更容易聽取來自于朋友的建議,因此基于信任的推薦(trust-based recommendation)也非常重要.此外在推薦過程中時(shí)間往往對推薦的效果會產(chǎn)生至關(guān)重要的影響,這是必須考慮的因素.因此本文將重點(diǎn)對目前社交媒體的信息推薦中以上幾個(gè)重要研究領(lǐng)域進(jìn)行介紹.
最近10年,社會化標(biāo)注(social tagging)的出現(xiàn),已經(jīng)在產(chǎn)業(yè)界得到了廣泛應(yīng)用,出現(xiàn)了Delicious、Flickr、Youtube、LibraryThing、Last.fm、Connotea、CiteUlike、Technorati等眾多新的應(yīng)用與體驗(yàn).由于允許任意用戶可以對感興趣的網(wǎng)絡(luò)資源進(jìn)行基于自身理解的無約束標(biāo)注,并且所有用戶的標(biāo)注都互為可見,這種開放、共享的模式以及反映用戶真實(shí)的理解和觀點(diǎn)的標(biāo)注為信息資源組織、檢索和共享帶來了一種全新理念,它是一種大眾群體智慧的體現(xiàn).標(biāo)簽與以往推薦系統(tǒng)所能獲得的信息的本質(zhì)區(qū)別是:標(biāo)簽作為用戶所選擇的關(guān)鍵詞,體現(xiàn)了用戶對資源的理解,并且成為了用戶之間聯(lián)系和交流的紐帶.可以說,標(biāo)簽既表達(dá)了信息資源的主要特征,同時(shí)又涵蓋了用戶與資源之間、以及用戶與用戶之間的關(guān)系,兼具內(nèi)容與關(guān)聯(lián)的特征.將標(biāo)簽作為推薦技術(shù)的數(shù)據(jù)來源,便有可能開發(fā)出同時(shí)具備內(nèi)容過濾和協(xié)同過濾優(yōu)越性的推薦技術(shù),形成基于社會化標(biāo)注的推薦[13-14].
大眾分類法(folksonomy)是社會化標(biāo)注系統(tǒng)的
基本結(jié)構(gòu),在社會化標(biāo)注系統(tǒng)中,大眾分類法形式上可以由一個(gè)四元組表示,即F=(U,T,R,Y),U、T、R分別代表用戶、標(biāo)簽和資源的集合,Y是它們之間的一個(gè)三元關(guān)系的集合,即Y?U×T×R,其中的每個(gè)元素稱為標(biāo)簽分配關(guān)系(tag assignments)[15].大眾分類法的數(shù)據(jù)一般可以通過2種方式表示:1)用A、A'、A″分別表示 user-item、user-tag 和 tag-item 關(guān)系的鄰接矩陣;2) 用三維矩陣(third-order tensors)[16-17]或超圖(hypergraphs)[18]表示,將Y分別用三維矩陣Z=(zu,t,r) ∈R|U|×|T|×|R|和三分無向超圖G=(V,E),V=U∪T∪R,E={{u,t,r}|(u,t,r)∈Y}來表示.由于傳統(tǒng)的推薦方法是基于user-item的二分關(guān)系,通過存在的值來預(yù)測缺失的值,而大眾分類法的數(shù)據(jù)本質(zhì)上卻是一個(gè)三元關(guān)系,如果在社會化標(biāo)注系統(tǒng)中進(jìn)行推薦,要么將三元關(guān)系降維為二元關(guān)系,然后采用傳統(tǒng)推薦方法進(jìn)行推薦,這樣在維度約減過程中必然會丟失一些信息,要么基于三維矩陣或超圖采用新的方法來進(jìn)行推薦.目前很多研究者在這2個(gè)方面都做了很多工作,下面將介紹比較重要的幾類方法.
1)協(xié)同過濾方法:采用傳統(tǒng)的協(xié)同推薦方法進(jìn)行推薦.Marinho等[19]先將三維空間投影到2個(gè)二維空間,即用戶-標(biāo)簽空間和用戶-資源空間,然后使用傳統(tǒng)的協(xié)同過濾推薦方法,進(jìn)行標(biāo)簽推薦和資源推薦.Tso-Sutter等[20]同樣是將三維空間降維到用戶-資源空間,但他們通過將標(biāo)簽作為偽用戶和偽資源得到2個(gè)不同的用戶-資源矩陣,然后采用傳統(tǒng)的協(xié)同過濾推薦方法進(jìn)行資源推薦,得到了更好的結(jié)果.
2)基于排序的推薦:這種方法思想來源于web排序,這種方法的共同點(diǎn)是利用大眾分類法數(shù)據(jù)結(jié)構(gòu)的頻譜特征來對推薦的資源等進(jìn)行打分,依據(jù)分?jǐn)?shù)高低進(jìn)行推薦.該方法主要包括基于三維矩陣的因式分解進(jìn)行排序的方法[16-17,21]以及 Hotho 等[22]基于pagerank的思想提出的folkrank算法.基于排序的推薦方法是對標(biāo)簽進(jìn)行排序,其核心思想是重要的標(biāo)簽由重要的用戶提供.
3)基于內(nèi)容的推薦:前面2類方法都沒有考慮推薦對象的內(nèi)容,實(shí)際上推薦的內(nèi)容在推薦過程中也可能發(fā)揮很大的作用,很多研究者研究了基于文本[23]、圖 片[24]和音 頻[25]內(nèi) 容 的 推 薦 方 法.Illig等[26]對基于不同內(nèi)容的標(biāo)簽推薦方法進(jìn)行了比較.
事實(shí)上,雖然目前對基于社會化標(biāo)注的推薦研究已經(jīng)取得了不錯的成果,但仍然還面臨很大的挑戰(zhàn),如標(biāo)簽本身存在語義上的一詞多意、同義、模糊性等,噪聲標(biāo)簽問題,如何提供實(shí)時(shí)推薦的問題,以及如何結(jié)合社會網(wǎng)絡(luò)進(jìn)行推薦的問題等,這些問題的存在也為研究者提供了新的方向.
目前大部分的推薦系統(tǒng)都是面向單個(gè)用戶,而面向一組用戶的推薦還較少.但事實(shí)上很多時(shí)候可能必須面對一組用戶進(jìn)行推薦,例如,向一群朋友推薦旅行安排,向一個(gè)家庭推薦電視節(jié)目,向一群同事推薦出差時(shí)的住宿地點(diǎn)等.目前也有一些組推薦系統(tǒng),如MUSICFX[27]、POLYLENS[28]、INTRIGUE[29]等.
組推薦的目的是為每個(gè)要推薦的對象給出一個(gè)打分,打分必須反映組內(nèi)各成員的興趣和偏好,然后根據(jù)打分進(jìn)行組推薦.組推薦區(qū)別于個(gè)人推薦的最大不同在于:通常組內(nèi)各成員對同一對象的感興趣程度是不同的,最后必須針對組內(nèi)所有成員的偏好給出一個(gè)一致的推薦.目前對組推薦的研究主要是通過集成所有單個(gè)組成員來產(chǎn)生組推薦,主要包括2 種方法[30-32]:一種是集成模型(aggregated models),這種方法將所有用戶的組看成一個(gè)虛擬用戶,通過集成組內(nèi)用戶的信息得到虛擬用戶的信息(包括偏好信息等),然后對虛擬用戶進(jìn)行個(gè)人的推薦;另一種是集成預(yù)測(aggregated predictions),這種方法通過研究單個(gè)用戶的歷史偏好數(shù)據(jù),產(chǎn)生單個(gè)用戶對推薦對象的預(yù)測分?jǐn)?shù),然后集成這些分?jǐn)?shù)產(chǎn)生組推薦.由于集成預(yù)測方法更加靈活[33],本文主要介紹這種方法,另外對集成模型的相關(guān)研究可以參考文獻(xiàn)[27,34-35].
Masthoff在文獻(xiàn)[34]中給出了11種集成策略,包括主投票(plurality voting)、最小傷害(least misery)、公平性(fairness)、打分平均值(average)、乘法(multiplicative)、Borda計(jì)數(shù)(borda count)、Copeland規(guī)則(Copeland rule)、贊成投票(approval voting)、最開心(most pleasure)、不考慮傷害平均(average without misery)、最受尊敬的人(most respected person),還有研究者將個(gè)人模型線性組合為一個(gè)組模型(group modeling),文獻(xiàn)[35]通過實(shí)驗(yàn)分析了各種集成策略的優(yōu)劣,而事實(shí)上這些策略的好壞更多地可能決定于實(shí)際的應(yīng)用需求,取決于人們的推薦想實(shí)現(xiàn)的目的.
組推薦是一個(gè)較新的領(lǐng)域,目前仍然存在很多挑戰(zhàn),需要進(jìn)一步研究,Masthoff在文獻(xiàn)[36]中總結(jié)了若干個(gè)方向,例如如何解決數(shù)據(jù)稀疏問題;如何根據(jù)用戶的動態(tài)信息提供動態(tài)的推薦,為組提供連續(xù)推薦;如何處理信息中的不確定性,為組推薦提供更合理的解釋;如何在推薦中加入?yún)f(xié)商機(jī)制等.
在傳統(tǒng)的推薦中,往往并沒有考慮用戶的社交關(guān)系,而事實(shí)上關(guān)聯(lián)的用戶之間更可能有相同或相似的興趣,另外用戶也容易被自己信任的朋友所影響,更容易接受朋友的推薦,因此當(dāng)考慮用戶社交關(guān)系進(jìn)行推薦時(shí)會更加準(zhǔn)確.有研究也已經(jīng)指出當(dāng)面對來自朋友的推薦和來自相似但陌生的用戶的推薦時(shí),用戶更傾向于接受來自朋友的推薦[37].目前有很多比較典型的包含用戶信任關(guān)系的社交媒體,如Epinions.com.
基于信任的推薦與傳統(tǒng)的推薦技術(shù)最大的不同在于推薦時(shí)考慮了用戶之間的信任關(guān)系,而這種信任關(guān)系可以用信任網(wǎng)絡(luò)(trust network)來表示,除了考慮用戶之間的信任關(guān)系,還有很多研究也同時(shí)考慮了用戶之間的不信任關(guān)系.信任度量和推薦技術(shù)是基于信任的推薦的2個(gè)支撐技術(shù)[38].信任度量是基于信任網(wǎng)絡(luò)來度量網(wǎng)絡(luò)中任意2個(gè)用戶之間的信任關(guān)系,通常這種信任關(guān)系是有向的,也就是非對稱的.信任度量涉及到3個(gè)關(guān)鍵技術(shù):1)信任模型(trust model):如何表示用戶之間的信任和不信任;2)信任傳播(trust propagation):如何通過網(wǎng)絡(luò)路徑計(jì)算不相鄰用戶之間信任的傳遞;3)信任集成:如何集成多條路徑所傳播的信任.本文主要對基于信任的推薦技術(shù)進(jìn)行介紹,目前已經(jīng)有很多關(guān)于信任度量的研究,具體參考文獻(xiàn)[39-41].
文獻(xiàn)[38]根據(jù)信任網(wǎng)絡(luò)中用戶之間的信任值獲取的方式,將基于信任的推薦大致分為了2類:具有清晰的信任關(guān)系(explicit trust)的推薦和含蓄的信任關(guān)系(implicit trust)的推薦.前者的信任值通過讓用戶直接對其朋友進(jìn)行信任值打分獲得;后者的信任值不需要用戶直接對朋友進(jìn)行信任值打分,而是通過一些其他信息自動計(jì)算得來.
1)基于清晰的信任關(guān)系的推薦中,集成值得信任的用戶對目標(biāo)資源的打分,來給目標(biāo)用戶進(jìn)行推薦,最普遍的方法主要有2種:加權(quán)平均和協(xié)同過濾.a)加權(quán)平均是通過信任值超過一定閾值的用戶對目標(biāo)資源打分,然后對這些評分進(jìn)行加權(quán)平均,預(yù)測得到目標(biāo)用戶對目標(biāo)資源的打分,依據(jù)打分高低對用戶進(jìn)行推薦,其中方法的關(guān)鍵在于如何度量用戶之間的信任值.Golbeck等[42]提出的TidalTrust算法通過考慮用戶之間最短和信任值最高的路徑,度量不相鄰用戶之間的信任值.b)協(xié)同過濾的方法利用協(xié)同過濾機(jī)制,將信任值代替相似值,預(yù)測得到目標(biāo)用戶對目標(biāo)資源的打分.Massa等[43]提出的Mole-Trust算法是另一個(gè)度量不相鄰用戶之間信任值的算法.
2)基于含蓄的信任關(guān)系的推薦中,最著名的是O’Donovan等在文獻(xiàn)[44]提出的算法,從Profile和Item 2個(gè)方面度量用戶之間的信任值,將信任值融入傳統(tǒng)的協(xié)同過濾框架中,得到更高的準(zhǔn)確度.另外在文獻(xiàn)[45]中,Ma等還同時(shí)考慮了用戶之間的信任關(guān)系和傳統(tǒng)推薦中的相似關(guān)系,將信任網(wǎng)絡(luò)的鄰接矩陣和user-item矩陣進(jìn)行概率矩陣因式分解,然后進(jìn)行集成產(chǎn)生推薦,實(shí)驗(yàn)結(jié)果表明此方法具有很高的可擴(kuò)展性,預(yù)測的準(zhǔn)確度比當(dāng)前流行的方法都要高.
基于信任的推薦在一定程度上可以緩解傳統(tǒng)推薦中的數(shù)據(jù)稀疏和冷啟動問題,但同時(shí)也面臨很多其他的挑戰(zhàn),通過直接讓用戶打分或用戶的個(gè)人和交互信息建立起始的信任網(wǎng)絡(luò),都不能保證得到準(zhǔn)確或全面的信任關(guān)系,如何更好地建立起始的信任網(wǎng)絡(luò)是一個(gè)重要的問題,而事實(shí)上目前還存在的最大的困難之一是可以獲得的數(shù)據(jù)集太少,不利于研究的深入展開[38].
大部分的推薦系統(tǒng)都忽視了時(shí)間因素,用戶和資源的信息會發(fā)生變化,新的用戶和資源會加入,舊的用戶和資源會退出,尤其是在像Twitter、Facebook這種社交媒體中,這種變化可以說是實(shí)時(shí)的,這些都會影響用戶興趣的變化,因此如何建模時(shí)間因素的影響來為用戶提供更加準(zhǔn)確的推薦成為了一個(gè)重要的研究課題.本文主要介紹2個(gè)時(shí)間因素:時(shí)間動力學(xué)(temporal dynamic)和時(shí)間多樣性(temporal diversity).
推薦過程中最大的問題是預(yù)測用戶當(dāng)前的興趣,而用于挖掘的數(shù)據(jù)則來源于不同的時(shí)間,因此所反映的用戶興趣如何盡量符合當(dāng)前的事實(shí),這是一個(gè)巨大的挑戰(zhàn).Koren[46]基于協(xié)同過濾的2種方法,在因子模型中建模用戶偏差(user biases)、對象偏差(Item biases)和用戶興趣(User preferences)的時(shí)間變化,目的是從數(shù)據(jù)中提取一些影響用戶偏好的長期因素,在鄰域模型中也建模了用戶偏差(user biases)、對象偏差(Item biases)的時(shí)間變化,還考慮了用戶打分的時(shí)間不同的情況,目的是發(fā)現(xiàn)一些更加基本的對象關(guān)聯(lián)關(guān)系,通過這2種模型在Netflix的數(shù)據(jù)中進(jìn)行實(shí)驗(yàn),得到的結(jié)果都比不考慮時(shí)間影響的情況有了顯著提高.Dror等[47]利用Koren在文獻(xiàn)[46]中提出的方法進(jìn)行更細(xì)分辨率的時(shí)間動力學(xué)建模,在Yahoo音樂的數(shù)據(jù)集上實(shí)驗(yàn),得到了更好的結(jié)果.Xiang等[48]分別對用戶的長期和短期偏好進(jìn)行建模,將用戶某一時(shí)刻之前的選擇作為長期偏好,將用戶這一時(shí)刻的會話(session)選擇作為短期偏好,集成長期和短期偏好形成推薦,實(shí)驗(yàn)結(jié)果表明此方法取得了更高的準(zhǔn)確率.
另外在推薦過程中,往往還需要考慮是否對用戶進(jìn)行重復(fù)的推薦,因?yàn)橹貜?fù)推薦可能讓用戶對推薦系統(tǒng)失去興趣.Lathia等[49]通過對Netflix數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)目前的CF推薦方法具有較低的多樣性,即在時(shí)間上容易產(chǎn)生相同的推薦,他們還提出了3種不同方法,在沒有降低推薦的準(zhǔn)確性的前提下,顯著提高了多樣性.
目前關(guān)于在推薦的過程中考慮時(shí)間因素的研究還較少,如何更好地在時(shí)間上對用戶興趣進(jìn)行建模,在推薦過程中考慮推薦的時(shí)間多樣性,避免產(chǎn)生重復(fù)的推薦,都是值得研究的問題.
在互聯(lián)網(wǎng)迅猛發(fā)展的今天,各類信息的日益膨脹,信息過載問題愈來愈嚴(yán)重,推薦系統(tǒng)被認(rèn)為是緩解此難題的最有效的方法之一.然而,現(xiàn)有的推薦算法仍然存在傳統(tǒng)推薦方法中的特征提取、冷啟動、過擬合、數(shù)據(jù)稀疏等問題,需要不斷完善和解決.同時(shí)隨著社交媒體的興起,用戶產(chǎn)生的內(nèi)容也越來越豐富,必然使得用戶獲得有用數(shù)據(jù)的難度也越來越大.將推薦系統(tǒng)應(yīng)用于處理社交媒體中的信息過載,近年來已經(jīng)成為學(xué)術(shù)界和工業(yè)界的一個(gè)研究熱點(diǎn),取得許多研究成果,同時(shí)由于社交媒體具有自身的特點(diǎn),也使得人們面臨一些新的挑戰(zhàn),但也為未來的研究指明了更多的方向:
1)可擴(kuò)展性問題.如何將線下的推薦算法推廣到線上,使其能夠處理好這些大量的動態(tài)數(shù)據(jù).
2)用戶隱私的保護(hù).大量的用戶數(shù)據(jù)被獲取,可能讓用戶擔(dān)心隱私問題,必須確保用戶的數(shù)據(jù)不會被惡意用戶利用.
3)推薦的多樣性和奇異性(serendipity).用戶往往希望獲取更多類型的推薦,而在每次會話中可以獲得不同的推薦,同時(shí)也希望得到一些意想不到的推薦.
4)跨領(lǐng)域推薦.推薦過程中容易遇到數(shù)據(jù)稀疏的問題,通過集成不同領(lǐng)域的數(shù)據(jù),可以同時(shí)為用戶提供更多領(lǐng)域、更加準(zhǔn)確的推薦.
5)基于移動計(jì)算的推薦.采用移動設(shè)備,可以更好地感知用戶的情境,可以根據(jù)用戶的位置、時(shí)間等情境信息,提供更加個(gè)性化的推薦.
社交媒體發(fā)展到今天,所能利用的數(shù)據(jù)是海量的,但目前研究者提出的眾多方法中,實(shí)際上被應(yīng)用到大型系統(tǒng)發(fā)揮作用的卻不多,而被應(yīng)用最多的往往是最簡單的技術(shù),誠然這有部分原因是由于算法的可擴(kuò)展性不夠,但事實(shí)上更多的原因可能是研究者們僅僅將注意力放在了算法上,而忽視了數(shù)據(jù)這部分的考慮和研究.目前很少有研究分析過是否推薦中需要用到所有的數(shù)據(jù),筆者認(rèn)為對于一個(gè)用戶而言,往往關(guān)心的是自己所處的小眾,可能對于需求極其個(gè)性化的單個(gè)用戶而言,需要的數(shù)據(jù)只是能夠獲得的海量數(shù)據(jù)中的極少的一部分;因此利用剛好足夠的數(shù)據(jù)來進(jìn)行推薦,也許會為提高各種推薦技術(shù)的實(shí)用性提供一條新的思路.
伴隨著這些問題的逐漸解決,推薦系統(tǒng)必將在社交媒體中發(fā)揮更大的作用.筆者將該領(lǐng)域的研究進(jìn)展和趨勢進(jìn)行歸納總結(jié),非常希望能夠提供一些有用的信息,以鼓勵學(xué)者繼續(xù)在該領(lǐng)域中開拓更多更深的研究.
[1]ROSA C D,HAVENS J C A,HAWK J,et al.Sharing,privacy and trust in our networked world[R/OL]. [2012-01-05].http://www.oclc.org/reports/sharing/default.htm.
[2]LIU Yuchao,ZHANG Haisu,MA Yutao,et al.Collective intelligence and uncertain knowledge representation in cloud computing[J].China Communications,2011,8(6):58-66.
[3]RICCI F,ROKACH L,SHAPIRA B.Introduction to recommender systems handbook[M]//Recommender Systems Handbook.New York,USA:Springer,2011:1-35.
[4]ADOMAVICIUS G,TUZHILIN A.Toward the next generation of recommender systems:a survey of the state-of-the-art and possible extensions[J].IEEE Transactions on Knowledge and Data Engineering,2005,17(6):734-749.
[5]MOONEY R J,ROY L.Content-based book recommending using learning for text categorization[C]//Proceedings of 5th ACM Conference on Digital Libraries.San Antonio,USA,2002:195-204.
[6]BREESE J S,HECKERMAN D,KADIE C.Empirical analysis of predictive algorithms for collaborative filtering[C]//Proceedings of the 14th Conference on Uncertainty in Artificial Intelligence.San Francisco,USA,1998:43-52.
[7]BURKE R.Knowledge-based recommender systems[J].Encyclopedia of Library and Information Systems,2000,69(32):180-200.
[8]BALABANOVIC M,SHOHAM Y.Fab:content-based,collaborative recommendation[J].Communications of the ACM,1997,40(3):66-72.
[9]SCHAFER J B,KONSTAN J,RIEDL J.Recommender systems in e-commerce[C]//Proceedings of the 1st ACM Conference on Electronic Commerce.Denver,USA,1999:158-166.
[10]YEHUDA K,BELL R.Advances in collaborative filtering[M]//RICCI F,ROKACH L,SHAPIRA B.Recommender Systems Handbook.New York,USA:Springer,2011:145-186.
[11]GUY I,CARMEL D.WWW 2011 tutorial on social recommender systems[EB/OL]. [2012-01-05].http://sysrun.haifa.il.ibm.com/hrl/srs2011/index.html.
[12]MARINHO L B,NANOPOULOS A,SCHMIDT-THIEME L,et al.Social tagging recommender systems[M]//RICCI F,ROKACH L,SHAPIRA B.Recommender Systems Handbook.New York,USA:Springer,2011:615-644.
[13]ZHANG Zike,ZHOU Tao,ZHANG Yicheng.Tag-aware recommender systems:a state-of-the-art survey[J].Journal of Computer Science and Technology,2011,26(5):767-777.
[14]GUY I,ZWERDLING N,RONEN I,et al.Social media recommendation based on people and tags[C]//Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval.Geneva,Switzerland,2010:194-201.
[15]DOUGLAS E,LAMERE P,BERTIN-MAHIEUX T,et al.Automatic generation of social tags for music recommendation[C]//Proceedings of the Twenty-First Annual Conference on Neural Information Processing Systems.Vancouver,Canada,2007:241-250.
[16]SYMEONIDIS P,NANOPOULOS A,MANOLOPOULOS Y.Tag recommendations based on tensor dimensionality reduction[C]//Proceedings of the 2008 ACM Conference on Recommender Systems.Lausanne,Switzerland,2008:43-50.
[17]RENDLE S,MARINHO L B,NANOPOULOS A,et al.Learning optimal ranking with tensor factorization for tag recommendation[C]//Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Paris,F(xiàn)rance,2009:727-736.
[18]ZLATIC V,GHOSHAL G,CALDARELLI G.Hypergraph topological quantities for tagged social networks[J].Physical Review E:Statistical, Nonlinear, and Soft Matter Physics,2009,80(3):036118-036126.
[19]MARINHO L B,SCHMIDT-THIEME L.Collaborative tag recommendations[C]//Proceedings of the 31st Annual Conference of the Gesellschaft fur Klassifikation(GfKl).Freiburg,Germany,2007:533-540.
[20]TSO-SUTTER K H L,MARINHO L B,SCHMIDT-THIEME L.Tag-aware recommender systems by fusion of collaborative filtering algorithms[C]//Proceedings of the 2008 ACM Symposium on Applied Computing.Fortaleza,Brazil,2008:1995-1999.
[21]XU Yanfei,ZHANG Liang,LIU Wei.Cubic analysis of social bookmarking for personalized recommendation[C]//Frontiers of WWW Research and Development:APWeb 2006,8th Asia-Pacific Web Conference.Harbin,China,2006:733-738.
[22]HOTHO A,JASCHKE R,SCHMITZ C,et al.Information retrieval in folksonomies:search and ranking[C]//Proceedings of the 3rd European Conference on The Semantic Web:Research and Applications.Budva,Montenegro,2006:411-426.
[23]SONG Yang,ZHUANG Ziming,LI Huajing,et al.Realtime automatic tag recommendation[C]//Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Singapore,2008:515-522.
[24]ABBASI R,GRZEGORZEK M,STAAB S.Using colors as tags in folksonomies to improve image classification[C]//Proceedings of the Third International Conference on Semantics and Digital Media Technologies.Koblenz,Germany,2008:13-34.
[25]CELMA O.Music recommendation and discovery in the long tail[D].Barcelona,Spain:Universitat Pompeu Fabra,2008:45-60.
[26]ILLIG J,HOTHO A,JASCHKE R,et al.A comparison of content-based tag recommendations in folksonomy systems[C]//Proceedings of the International Conference on Knowledge Processing in Practice.Paris,F(xiàn)rance,2009:56-78.
[27]MCCARTHY J,ANAGNOST T.MusicFX:an arbiter of group preferences for computer supported collaborative workouts[C]//Proceedings of the ACM Conference on Computer Supported Cooperative Work.Seattle,USA,1998:363-372.
[28]O’CONNER M,COSLEY D,KONSTAN J A,et al.PolyLens:a recommender system for groups of users[C]//Proceedings of the European Conference on Computer-Supported CooperativeWork. Bonn, Germany,2001:199-218.
[29]ARDISSONO L,GOY A,PETRONE G,et al.Tailoring the recommendation of tourist information to heterogeneous user groups[M].Berlin,Germany:Springer-Verlag,2002:280-295.
[30]BALTRUNAS L,MAKCINSKAS T,RICCI F.Group recommendations with rank aggregation and collaborative filtering[C]//Proceedings of the 4th ACM Conference on Recommender Systems.Barcelona,Spain,2010:119-126.
[31]CANTADOR I,CASTELLS P.Extracting multilayered communities of interest from semantic user profiles:application to group modeling and hybrid recommendations[J].Computers in Human Behavior,2011,27(4):1321-1336.
[32]SENOT C,KOSTADINOV D,BOUZID M,et al.Analysis of strategies for building group profiles[C]//Proceedings of the 18th International Conference on User Modeling,Adaptation,and Personalization.Big Island,USA,2010:40-51.
[33]JAMESON A,SMYTH B.Recommendation to groups[M]//BRUSILOVSKY P,KOBSA A,NEJDL W.The Adaptive Web:Methods and Strategies of Web Personalization.Berlin/Heidelberg, Germany:Springer-Verlag,2007:596-627.
[34]MASTHOFF J.Group modeling:selecting a sequence of television items to suit a group of viewers[J].User Modeling and User-Adapted Interaction,2004,14(1):37-85.
[35]YU Zhiwen,ZHOU Xingshe,HAO Yanbin,et al.TV program recommendation for multiple viewers based on user profile merging[J].User Modeling and User-Adapted Interaction,2006,16(1):63-82.
[36]MASTHOFF J.Group recommender systems:combining individual models[M]//RICCI F,ROKACH L,SHAPIRA B.Recommender Systems Handbook.New York,USA:Springer,2011:677-702.
[37]SINHA R,SWEARINGEN K.Comparing recommendations made by online systems and friends[C]//Proceedings of the DELOS-NSF Workshop on Personalization and Recommender Systems in Digital Libraries.Dublin,Ireland,2001:34-54.
[38]VICTOR P,DE COCK M,CORNELIS C.Trust and recommendations[M]//RICCI F,ROKACH L,SHAPIRA B.Recommender Systems Handbook.New York,USA:Springer,2011:645-676.
[39]ARTZ D,GIL Y.A survey of trust in computer science and the semantic web[J].Journal of Web Semantics,2007,5(2):58-71.
[40]GOLBECK J.Computing with social trust[M].London,UK:Springer,2009:259-285.
[41]MCEVILY B,TORTORIELLO M.Measuring trust in organizational research:review and recommendations[J].Journal of Trust Research,2011,1(1):23-63.
[42]GOLBECK J,MANNES A.Using trust and provenance for content filtering on the semantic web[C]//Proceedings of the Workshop on Models of Trust for the Web.Edinburgh,UK,2006:23-35.
[43]MASSA P,AVESANI P.Trust metrics on controversial users:balancing between tyranny of the majority and echo chambers[J].International Journal on Semantic Web and Information Systems,2007,3(1):39-64.
[44]O’DONOVAN J,SMYTH B.Trust in recommender systems[C]//Proceedings of the 10th International Conference on Intelligent User Interfaces.San Diego,USA,2005:167-174.
[45]MA Hao,KING I,LYU M R.Learning to recommend with explicit and implicit social relations[J].ACM Transactions on Intelligent Systems and Technology,2011,2(3):29-46.
[46]KOREN Y.Collaborative filtering with temporal dynamics[C]//Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Paris,F(xiàn)rance,2009:447-456.
[47]DROR G,KOENIGSTEIN N,KOREN Y.Yahoo!Music recommendations:modeling music ratings with temporal dynamics and item taxonomy[C]//Proceedings of the Fifth ACM Conference on Recommender Systems.Chicago,USA,2011:19-26.
[48]XIANG Liang,YUAN Quan,ZHAO Shiwan,et al.Temporal recommendation on graphs via long- and short-term preference fusion[C]//Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Washington,DC,USA,2010:723-732.
[49]LATHIA N,HAILES S,CAPRA L,et al.Temporal diversity in recommender systems[C]//Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval.Geneva,Switzerland,2010:210-217.
黃立威,男,1985年生,博士研究生,主要研究方向?yàn)樯鐣W(wǎng)絡(luò)分析、推薦系統(tǒng)等.
李德毅,男,1944年生,研究員,博士生導(dǎo)師,中國工程院院士,國際歐亞科學(xué)院院士,國家和全軍信息化專家咨詢委員會委員,中國人工智能學(xué)會理事長,中國電子學(xué)會副理事長,中國電子學(xué)會云計(jì)算專家委員會主任委員.主要研究方向?yàn)橛?jì)算機(jī)工程、人工智能和指揮自動化.先后獲得國家科技進(jìn)步獎等獎項(xiàng)17項(xiàng)、國家發(fā)明專利7項(xiàng),曾被授予國家首屆優(yōu)秀回國留學(xué)人員、國家有突出貢獻(xiàn)的中青年專家,2005年獲得何梁何利獎基金科學(xué)與技術(shù)進(jìn)步獎,2006年獲得中國人民解放軍專業(yè)技術(shù)重大貢獻(xiàn)獎.發(fā)表學(xué)術(shù)論文百余篇,出版專著5部、英文專著3部,主編技術(shù)叢書7種.
A review of information recommendation in social media
HUANG Liwei1,LI Deyi2
(1.Institute of Automatic Commanding,PLA University of Science and Technology,Nanjing 210007,China;2.Institute of Electronic System Equipment Engineering,Beijing 100141,China)
Social media has become tremendously popular in recent years,and much rich information can be derived from it.However,the massive amount results in a serious“information overload”problem.As one of the most effective methods to ease the“information overload”problem,recommender systems play an important role in social media.Social media contains a large amount of user-generated content.Through the aggregation of all types of new data,metadata,and clear relationships between users and by combining the traditional method of personalized recommendations,a variety of new technologies emerge in recommender systems.This paper summarizes several key research areas in social recommender systems,including recommendations based on social tagging and group recommendations,as well as the recommendations based on trust.It then introduces several temporal aspects that affect social recommender systems,and finally proposes that the research difficulty be tackled while laying out the expectations for future development trends in the information recommendation system in social media.
information recommendation;information overload;recommendation systems;social media
TP391
A
1673-4785(2012)01-0001-08
10.3969/j.issn.1673-4785.201201004
http://www.cnki.net/kcms/detail/23.1538.TP.20120218.1622.002.html
2012-01-10. 網(wǎng)絡(luò)出版時(shí)間:2012-02-18.
國家自然科學(xué)基金資助項(xiàng)目(61035004).
黃立威.E-mail:huangliwei.1985@gmail.com.