陳偉 卜慶凱
摘要:隨著移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,日益增長的用戶數(shù)據(jù)帶來了嚴(yán)重的信息過載問題,而推薦系統(tǒng)是解決信息過載中比較有效的解決方案。推薦系統(tǒng)是一種個(gè)性化信息服務(wù)系統(tǒng),能夠很好地充當(dāng)用戶和信息資源之間的橋梁。通過闡述推薦系統(tǒng)的基本概念和形成,探討了幾種常見的比較優(yōu)秀的互聯(lián)網(wǎng)推薦系統(tǒng),即基于近鄰的推薦、基于內(nèi)容的推薦以及基于情境感知的推薦。
關(guān)鍵詞:信息過載;推薦系統(tǒng);互聯(lián)網(wǎng);近鄰;情境感知
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)11-0029-03
A Review of the Research on Mobile Internet Recommendation System
CHEN Wei, BU Qing-kai
(College of Electronic Information, Qingdao University, Qingdao 266071, China)
Abstract: With the rapid development of mobile Internet, the increasing user data has brought serious information overload. Recommender system is a more effective solution to information overload. The recommendation system is a personalized information service system, which can serve as a bridge between users and information resources. After describing the basic concept and formation of recommender system, this paper discusses several kinds of excellent Internet recommendation systems, which are neighbor based recommendation, content based recommendation and context aware recommendation.
Key words: information overload;recommender system;internet;a near neighbor;situational perception
1 研究背景
隨著網(wǎng)絡(luò)信息技術(shù)和互聯(lián)網(wǎng)大數(shù)據(jù)的快速崛起,用戶已經(jīng)從一個(gè)信息匱乏的時(shí)代逐步走向信息過載(Information Overload)的時(shí)代。在這個(gè)日益增長的信息時(shí)代里,信息的消費(fèi)者和創(chuàng)造者都面臨著一種迷茫的狀態(tài),消費(fèi)者面臨收集信息的困難,創(chuàng)造者面臨創(chuàng)造信息的困難。盡管目前有搜索引擎及對(duì)應(yīng)的門戶網(wǎng)站可以為用戶提供信息的檢索和查找功能,但仍然無法很高效的解決信息過載問題。而推薦系統(tǒng)(Recommendation System,簡稱RS)是目前解決網(wǎng)絡(luò)信息資源的重要方法,也是解決信息過載的重要手段。
推薦系統(tǒng)和搜索引擎一樣,也是一種幫助用戶快速發(fā)現(xiàn)有用信息的工具。其任務(wù)就是關(guān)聯(lián)用戶和數(shù)據(jù),幫助用戶發(fā)現(xiàn)對(duì)自己有價(jià)值的信息。由于信息過濾的特殊屬性,推薦系統(tǒng)可以應(yīng)用在任何規(guī)模的電子商務(wù)網(wǎng)站中,并為這些網(wǎng)站提供了海量的推薦結(jié)果。
1.1 推薦系統(tǒng)概念及定義
推薦系統(tǒng)最早源于Xerox公司在1992年使用Tapestry系統(tǒng)來解決研究中心郵件信息過載的問題,而真正有針對(duì)性的研究是1994年GroupLens研究組開發(fā)的GroupLens推薦系統(tǒng)[1]。推薦系統(tǒng)的形式化定義為[2]:
式中[C]是所有用戶[c]的集合,[S]是所有可推薦對(duì)象[s]的集合,通常集合[C]和[S]的數(shù)量很大。設(shè)效用函數(shù)[u( )]可用來計(jì)算對(duì)象[s]對(duì)用戶[c]的推薦度,即[u:C×S→R],[R]是一定范圍內(nèi)的全序的非負(fù)實(shí)數(shù)集合,推薦系統(tǒng)研究的問題是找到推薦度[u]最大的對(duì)象[S*]。
推薦系統(tǒng)由三個(gè)重要的模塊組成:用戶模型、推薦對(duì)象模型和推薦算法模塊。常見的推薦系統(tǒng)基本流程模型如圖 1所示[3]。
2 互聯(lián)網(wǎng)推薦系統(tǒng)分類
2.1 基于內(nèi)容的推薦
基于內(nèi)容的推薦給定用戶過去喜歡的相似物品,通過一系列已評(píng)分物品的描述,從而建立特征模型。推薦的主要處理過程是將用戶信息和內(nèi)容對(duì)象相匹配,結(jié)果就是用戶對(duì)某個(gè)對(duì)象感興趣程度的評(píng)價(jià)[4]。如果用戶興趣模型準(zhǔn)確地反映了用戶的偏好,信息訪問的過程則會(huì)帶來巨大的優(yōu)勢(shì)。
推薦給用戶的對(duì)象可以表示成一系列的特征(也可稱為屬性),比如在電影推薦系統(tǒng)中,描述一部電影的特征有主演、導(dǎo)演、類型、主題等[5]。在大多數(shù)基于內(nèi)容過濾的推薦系統(tǒng)中,對(duì)象是從Web網(wǎng)頁、電子郵件、新聞或產(chǎn)品描述中提取的文本特征。
在Web推薦系統(tǒng)領(lǐng)域中,關(guān)于內(nèi)容的比較著名的推薦系統(tǒng)有Letizia、Syskill&Webert;和ifWeb等。Letizia[6]是一個(gè)網(wǎng)頁瀏覽器的擴(kuò)展,通過跟蹤用戶瀏覽行為以及依據(jù)和用戶興趣相關(guān)的關(guān)鍵詞進(jìn)行個(gè)性化建模,該系統(tǒng)是通過隱式反饋的方式來推斷用戶的喜好。Syskill&Webert;通過使用128個(gè)最有代表性的詞來表示文檔。ifWeb采用高級(jí)的將信息表示成一定形式帶權(quán)重的語義網(wǎng),并且在顯式反饋的基礎(chǔ)上給用戶興趣加了時(shí)間衰減機(jī)制。
在其他基于內(nèi)容的推薦系統(tǒng)應(yīng)用領(lǐng)域,LIBRA[7]利用從Amazon在線電子商店獲取的關(guān)于產(chǎn)品描述的網(wǎng)頁做了一個(gè)書籍推薦系統(tǒng),實(shí)現(xiàn)了一個(gè)樸素貝葉斯文本分類方法。Citeseer通過使用文字信息和分析論文中的共同引文來協(xié)助用戶搜索學(xué)術(shù)文獻(xiàn)。Movies2GO通過在用戶評(píng)分系統(tǒng)中加入投票功能來學(xué)習(xí)用戶偏好。
而在對(duì)過去20年來主流推薦系統(tǒng)的發(fā)展分析中可以發(fā)現(xiàn),同時(shí)對(duì)物品和用戶信息采用基于關(guān)鍵詞的表示,再通過足夠多的信息證明用戶興趣可用后,可以準(zhǔn)確預(yù)測(cè)用戶的行為。
2.2 基于近鄰的推薦
基于近鄰算法由于其算法簡單、高效,且能夠提供準(zhǔn)確個(gè)性化推薦的優(yōu)勢(shì)廣泛應(yīng)用于協(xié)同推薦系統(tǒng)中。協(xié)同過濾算法克服了基于內(nèi)容推薦的一些局限,在物品內(nèi)容不完全或者難以獲得的時(shí)候,依然可以通過其他用戶的反饋來推薦給用戶。
在文獻(xiàn)[8]中將協(xié)同過濾方法大致分為兩類:基于近鄰方法和基于模型方法,而基于近鄰的方法可以提供基于用戶和基于物品的推薦來實(shí)現(xiàn)。常見的基于用戶的推薦系統(tǒng)有GroupLens[9]、Bellcorevideo[10]和Ringo[11],通過利用對(duì)物品[i]評(píng)價(jià)并且和用戶[u]有相似評(píng)價(jià)習(xí)慣的其他用戶(近鄰)來評(píng)估用戶[u]對(duì)物品[i]的感興趣程度?;谖锲贩椒ㄊ怯脩鬧u]給相似于[i]的物品評(píng)分來預(yù)測(cè)用戶[u]對(duì)物品[i]的評(píng)分。
基于近鄰?fù)扑]系統(tǒng)是在預(yù)測(cè)中直接使用已有數(shù)據(jù)預(yù)測(cè),而基于模型的方法是使用這些評(píng)分來學(xué)習(xí)預(yù)測(cè)模型?;谀P屯扑]方法在刻畫用戶喜好方面有突出優(yōu)勢(shì),在電影推薦系統(tǒng)中可以斷定用戶是喜劇或愛情電影的影迷,且無須準(zhǔn)確區(qū)分喜劇和愛情兩個(gè)維度。而基于近鄰方法能夠捕捉數(shù)據(jù)之間的關(guān)聯(lián),其電影推薦系統(tǒng)很有可能給用戶推薦與他平常品味不一樣或不知名的電影,只要他的近鄰用戶給了這部電影很強(qiáng)的評(píng)分。
基于近鄰?fù)扑]方法直接而且容易實(shí)現(xiàn),在計(jì)算過程中只需要用于預(yù)測(cè)的近鄰數(shù)目這一個(gè)參數(shù)需要調(diào)整,并且可以預(yù)先通過離線計(jì)算近鄰。對(duì)新增項(xiàng)目的受影響程度小,在高效率的同時(shí)提供近乎即時(shí)的推薦結(jié)果。此外這種近鄰存儲(chǔ)占用的內(nèi)存較少,適用于擁有大量的用戶和物品的應(yīng)用。在基于近鄰?fù)扑]系統(tǒng)的實(shí)現(xiàn)中有三個(gè)非常重要的因素:評(píng)分標(biāo)準(zhǔn)化、相似度權(quán)重計(jì)算、近鄰的選擇,這些因素對(duì)推薦系統(tǒng)的準(zhǔn)確性、效率和推薦質(zhì)量具有重要的影響。
當(dāng)用戶對(duì)物品評(píng)分的時(shí)候,不同的用戶有自己的評(píng)分標(biāo)準(zhǔn)。即使定義每個(gè)評(píng)分的意義,有些用戶依然會(huì)不情愿給他們喜歡的物品評(píng)高分或給他們不喜歡的物品評(píng)低分,而通過評(píng)分標(biāo)準(zhǔn)化機(jī)制可以將個(gè)人評(píng)分標(biāo)準(zhǔn)轉(zhuǎn)換為整體的評(píng)分標(biāo)準(zhǔn)。
相似度權(quán)重在基于近鄰的推薦方法中扮演雙重角色:一是可以選擇可信的近鄰用于預(yù)測(cè)評(píng)分;二是給予不同近鄰在預(yù)測(cè)中的權(quán)重。計(jì)算相似度權(quán)重也是基于近鄰?fù)扑]系統(tǒng)中最重要的一個(gè)方面,它可以直接影響推薦系統(tǒng)的準(zhǔn)確性和性能。常用的計(jì)算權(quán)重的方法包括皮爾遜相關(guān)系數(shù)、夾角余弦相似度以及均方差等。
近鄰數(shù)量的選擇及其規(guī)則對(duì)于推薦系統(tǒng)的質(zhì)量同樣會(huì)產(chǎn)生重要影響。首先使用全局過濾保持最有可能的近鄰,其次在預(yù)測(cè)每一步中需要選擇最合適的近鄰作推薦預(yù)測(cè)。預(yù)選近鄰數(shù)通過減少存儲(chǔ)相似度權(quán)重?cái)?shù)量來限制,常用的幾種方法有:Top-N過濾、閾值過濾、負(fù)值過濾,這三種方法相互之間不互斥,且可以根據(jù)推薦需要結(jié)合在一起使用。
2.3基于情境感知的推薦
目前的推薦系統(tǒng)研究領(lǐng)域大多數(shù)只是關(guān)注把最相關(guān)的物品推薦給用戶,卻忽略了相關(guān)情境信息,比如時(shí)間、地點(diǎn)、人物等,即傳統(tǒng)的推薦系統(tǒng)只適用于兩類實(shí)體——用戶和物品,并沒有將它們放入某種情境中考慮。例如推薦一個(gè)旅行套餐、個(gè)性化網(wǎng)站或某部電影,只考慮用戶和物品是遠(yuǎn)遠(yuǎn)不夠的。旅行系統(tǒng)在考慮了溫度因素后,系統(tǒng)在不同季節(jié)會(huì)推薦不同的度假地;個(gè)性化網(wǎng)站會(huì)在工作日推薦實(shí)時(shí)新聞、股票信息等,而在周末則會(huì)推薦購物商品信息等,消費(fèi)者的決策行為與當(dāng)時(shí)的情境相關(guān)。
情境在不同的學(xué)科具有不同的研究,并在每門學(xué)科的基礎(chǔ)上具有不同的定義。Bazire和Brezillon[12]找到并分析了不同領(lǐng)域共計(jì)150種情境的定義,這些情境的定義概念具有復(fù)雜性和多面性的特點(diǎn)。在數(shù)據(jù)挖掘中,情境被定義為能夠標(biāo)識(shí)用戶生活各階段可改變個(gè)人愛好、狀態(tài)和商業(yè)價(jià)值的特征性事件[13]。在電子商務(wù)領(lǐng)域,Palmisano等人[14]通過用戶的購買意向作為一個(gè)情境來建立檔案,并利用檔案建立顧客模型,分析預(yù)測(cè)購買行為。
在文獻(xiàn)[15]中作者說明了情境信息在推薦系統(tǒng)中的重要性,并提出了一個(gè)多維的方法,在傳統(tǒng)的推薦基礎(chǔ)上進(jìn)行情境信息提供推薦。而Adomavic等也通過距離說明了情境信息對(duì)推薦系統(tǒng)的影響,在一定的情況下,情境信息可以提高推薦的質(zhì)量。實(shí)踐表明,情境感知的方法在推薦精度和用戶滿意度上明顯優(yōu)于相同的非情境感知系統(tǒng)。
傳統(tǒng)的推薦系統(tǒng)是通過評(píng)分函數(shù)[R]給未評(píng)分的[user,item]評(píng)分:
[user]和[item]分別代表用戶和物品的取值空間,這種為每個(gè)用戶推薦評(píng)分最高物品的系統(tǒng)稱為傳統(tǒng)或二維(2D)系統(tǒng),因?yàn)橥扑]時(shí)只考慮用戶和物品兩個(gè)維度。但是這種推薦方法在給用戶做推薦時(shí)并沒有考慮額外的情景信息,比如時(shí)間、地點(diǎn)和陪伴人等。因此,需要探究情景感知推薦系統(tǒng)(CARS),該系統(tǒng)通過將已有的情景信息作為附加數(shù)據(jù)類型整合到推薦流程中,來處理對(duì)用戶興趣和偏好的建模以及預(yù)測(cè)問題。這種長期的偏好和興趣通常以評(píng)分來標(biāo)識(shí),其對(duì)應(yīng)的模型不僅是物品和用戶的函數(shù),也是情境信息的函數(shù),其評(píng)分函數(shù)可定義為:
與傳統(tǒng)的評(píng)分函數(shù)定義不同的是多了[Context]維度,該維度聲明了與之相關(guān)的情境信息。例如在一個(gè)電影推薦系統(tǒng)中,用戶和電影的關(guān)系描述包含以下屬性:
1) 電影:包括所有被推薦的電影集合,可被定義為Movie(MovieID、標(biāo)題、導(dǎo)演、類型等)。
2) 用戶:獲得電影推薦的用戶,定義為User(UserID、姓名、年齡、職業(yè)等)。
以及包括以下情境信息的屬性:
3) 時(shí)間:電影放映時(shí)間,定義為Time。
4) 劇院:放映電影的劇院,定義為Theater(TheaterID、名稱、容量、地址等)。
5) 同伴:代表和用戶一起去看電影的人,定義為Companion。
在該電影推薦系統(tǒng)中,情境信息中的[Context]可以有不同的類型,每種類型定義了情境的一個(gè)方面,比如時(shí)間、地點(diǎn)、同伴等。此外每個(gè)情境的類型都可能反映了情境信息的復(fù)雜性,這種復(fù)雜性有不同的表現(xiàn)形式,常見的表現(xiàn)形式是樹狀的層次結(jié)構(gòu)。
情境信息有時(shí)會(huì)以一種潛在的形式隱藏在數(shù)據(jù)里,我們并不一定要顯式地獲得信息,可以直接隱式地使用這些信息,從而獲得對(duì)未知情形更加準(zhǔn)確的評(píng)分。Dourish[16]提出將情境定義為一組預(yù)先定義的情境屬性,其結(jié)構(gòu)不隨時(shí)間變化。而在推薦結(jié)果之前,需要識(shí)別和獲取情境信息。不管情境信息是通過哪種方式獲取,也要作為整體數(shù)據(jù)收集過程中一個(gè)不可分割的執(zhí)行部分。因此,這些情境信息是互相相關(guān)的,在設(shè)計(jì)時(shí)就要明確需要收集的信息,這樣在后來的實(shí)際推薦中才會(huì)有更加合理的應(yīng)用。
3 總結(jié)與展望
在信息過載的互聯(lián)網(wǎng)背景下,推薦系統(tǒng)在各個(gè)領(lǐng)域的數(shù)字化過程中的作用越發(fā)重要。自從人們開發(fā)出被稱為推薦系統(tǒng)的第一批算法和系統(tǒng)以來,新的技術(shù)和改進(jìn)層出不窮,算法也變得更有擴(kuò)展性。不過,從行為科學(xué)的角度來看,我們還需要付出更多的努力才能發(fā)展更加完善的推薦系統(tǒng)。此外還需要一種規(guī)范性理論引導(dǎo)專業(yè)人員,告訴我們?cè)谀男╊I(lǐng)域和情況下適合應(yīng)用哪種推薦算法。
參考文獻(xiàn):
[1]ResIlickP., lacovou N., eIa1.CroupLens:An 0penArchitecIurefor Collaborative Filtering ofNetnews[C]//Proceedings of ACM Conference on Computer SupportedCooperative Work,CSCW,1994:175-186.
[2]Adomavicious G.,Tuzhilin A. Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions[J]. IEEE Transaction on Knowledge and Data Engineering, 2005,17(6):734-749.
[3]許海玲. 互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J]. 軟件學(xué)報(bào),2009,20(2):350-362.
[4]Mladenic,D. Text-learing and Related Intelligent Agents: A survey. IEEE Intelligent Systems,1999,14(4):44-54.
[5]Pazzani,M.J., Billsud,D., Content-Based Recommendation Systems. In:P.Brusilovsky,A.Kobsa,W. Nejdl(eds) The Adaptive Web, Lecture Notes in Computer Science,vol.4321,pp.325-341(2007).
[6]Lieberman,H.,Letizia:an Agent that Assists Web Browsing. In: Proceedings of the International Joint Conference on Artificial Intelligence,pp.924-929.Morgan Kaufmann(1995).
[7]Mooney,R.J., Roy,L.,Content-Based Book Recommending Using Learning foe Text Categorization. In:Proceedings of the 5th ACM Conference on Digital Librariew,pp.195-204.ACM Press, New York,US,SanAntonio,us(2000).
[8]Deshpande,M., Karypis, G. Item-based top-N recommendation algorithms. ACM Transaction on Information Systems,2004,22(1):143-177.
[9]Konstan,J.A., Miller,B.N., Maltz,D., Herlocker,J.L.,Gordon,L.R., Riedl,J.:GroupLens:applying collaborative filtering to usenet news. Communications of the ACM 1997,40(3):77-87.
[10]Hill,W., Stead, L., Rosenstein,M., Furnas,G.:Recommending and evaluating choices in a virtual community of use. In:CHI95:Proc. Of the SIGCHI Conf. on Human Factors in Computing Systems,pp.194-201.ACM Press/Addison-Wesley Publishing Co.,NewYork,NY,USA(1995).
[11]Shardanand,U., Maes,P.:Social information filtering:Algorithmsfor antomating“word of mouth”.In:CHI95:Proc.of the SIGCHI Conf.on Human factors in Computing Systems,pp.210-217.ACM Press/Addison-Wesley Publishing Co.,NewYork,NY,USA(1995).
[12]Bazire,M.,andP.Brezillon. Understanding context before using it. In Dey,A., and et al., editors, Proceedings of 5th International Conference on Modeling and Using Context.Springer-Verlag,2005.
[13]Berry,M.J., and Linoff, G., Data mining techniques:for marking,sales,and customer support. John Wiley & Sons, Inc. New York,NY,USA,1997.
[14]Palmisano,C., Tuzhilin,A., and Gorgoglione, M., Using context to improve predictive modeling of customers in personalization applications. IEEE Transaction on Knowledge and Data Engineering,2008,20(11):1535-1549.
[15]Adomavicius,G., Sankaranarayanan,R., Sen, S., and Tuzhilin, A., Incorporation contextual information in recommender systems using a multidimensional approach. ACM Transactions on Information Systems(TOIS),2005,23(1):103-145.
[16]Dourish,P., What we talk about when we talk about context. Personal and ubiquitous computing,2004,8(1):19-30.