張 楊 景 京 謝婉婉 徐曉雷
(國(guó)家知識(shí)產(chǎn)權(quán)局專利局專利審查協(xié)作河南中心,河南 鄭州 450000)
個(gè)性化推薦系統(tǒng)研究分析
張楊景京謝婉婉徐曉雷
(國(guó)家知識(shí)產(chǎn)權(quán)局專利局專利審查協(xié)作河南中心,河南鄭州450000)
互聯(lián)網(wǎng)技術(shù)的發(fā)展及用戶的個(gè)性化需求是推薦系統(tǒng)產(chǎn)生的背景,其根據(jù)用戶的興趣點(diǎn)及行為軌跡,為用戶在海量信息中精準(zhǔn)推薦用戶所需要的信息,是機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)等技術(shù)的結(jié)合體?;诖?,介紹推薦系統(tǒng)的主要算法、評(píng)價(jià)方法、開(kāi)源項(xiàng)目。
推薦系統(tǒng);個(gè)性化;興趣;行為軌跡;推薦算法
個(gè)性化推薦系統(tǒng)[1]的研究可以追溯到20世紀(jì)90年代,帕洛阿爾托研究中心的Tapestry系統(tǒng)引入了協(xié)同過(guò)濾的思想和概念,貝爾通信研究中心的視頻推薦系統(tǒng)對(duì)影片進(jìn)行過(guò)濾等,這些早期的系統(tǒng)都是通過(guò)算法識(shí)別出具有相同愛(ài)好的用戶,對(duì)用戶的評(píng)分進(jìn)行個(gè)性化加權(quán)處理,進(jìn)而對(duì)用戶進(jìn)行推薦。2006年NetFlix的100萬(wàn)美元大獎(jiǎng)將算法的研究推上高峰。亞馬遜、阿里巴巴、百度等互聯(lián)網(wǎng)巨頭都有自己的推薦系統(tǒng)。
1.1協(xié)同過(guò)濾推薦算法
1.1.1基于用戶的最近鄰?fù)扑]。首先給定一個(gè)評(píng)分?jǐn)?shù)據(jù)集和一個(gè)用戶A,在評(píng)分?jǐn)?shù)據(jù)集中找出與用戶A過(guò)去有相同偏好的用戶B,然后進(jìn)行評(píng)分預(yù)測(cè),對(duì)用戶A沒(méi)有見(jiàn)過(guò)的每個(gè)物品o,利用其近鄰B對(duì)o的評(píng)分計(jì)算預(yù)測(cè)值。該算法的核心是尋找到與當(dāng)前用戶的最近鄰,主要采用Perason相關(guān)系數(shù)、余弦相似度、Spearman秩相關(guān)系數(shù)、均方差等方法計(jì)算。在研究最充分的推薦領(lǐng)域,Perason相關(guān)系數(shù)比其他方法在尋找最近鄰的時(shí)候表現(xiàn)更好一些。
1.1.2基于物品的最近鄰?fù)扑]。首先找到待測(cè)物品的若干最近鄰,然后通過(guò)待預(yù)測(cè)項(xiàng)的最近鄰居評(píng)分來(lái)求出加權(quán)平均值,以此來(lái)預(yù)測(cè)目標(biāo)用戶對(duì)待預(yù)測(cè)項(xiàng)目的評(píng)分,然后把預(yù)測(cè)評(píng)分結(jié)果最高的前若干項(xiàng)作為結(jié)果推薦給用戶。余弦相似度由于效果精確,廣泛應(yīng)用于基于物品的最近鄰居推薦。
1.2基于內(nèi)容的推薦算法
基于內(nèi)容的推薦不需要巨大的用戶群體或評(píng)分?jǐn)?shù)據(jù)集,只有一個(gè)用戶也可以產(chǎn)生推薦列表。這里說(shuō)所的內(nèi)容,指的是物品的特征信息,如一本書(shū)的題目、作者、類(lèi)型、價(jià)格等特征。核心思想是評(píng)估用戶所涉及的物品與當(dāng)前用戶過(guò)去喜歡的物品的相似度。
1.3基于知識(shí)的推薦算法
基于知識(shí)的推薦算法分為基于約束推薦和基于實(shí)例推薦2種,需要用戶指定需求,系統(tǒng)根據(jù)需求提供解決方案,如果找不到合適的解決方案,則需要用戶修改需求。
基于知識(shí)的推薦算法依賴于預(yù)先建立的針對(duì)特定領(lǐng)域的知識(shí)庫(kù),適用于無(wú)法根據(jù)內(nèi)容信息和用戶行為軌跡來(lái)推薦的商品的預(yù)測(cè)。
1.4混合推薦算法
混合推薦算法分為整體式、并行式、流水線式3種。整體式是將幾種推薦策略整合到一個(gè)算法中;并行式是同時(shí)使用幾個(gè)推薦算法,然后利用一種混合機(jī)制將幾個(gè)獨(dú)立推薦算法的輸出結(jié)果整合在一起;流水線式是將整個(gè)流程劃分為多個(gè)階段,根據(jù)不同的階段采用不同的技術(shù),直到產(chǎn)生最后的推薦結(jié)果。
1.5基于上下文感知的推薦算法
基于上下文感知的推薦分為以下幾個(gè)階段[2]:①數(shù)據(jù)采集,收集用戶、上下文、項(xiàng)目、用戶評(píng)分、用戶行為及與上下文關(guān)聯(lián)的用戶行為記錄等相關(guān)數(shù)據(jù);②用戶偏好提取,分析影響用戶偏好提取的各種因素及其影響程度,采用有效手段提取用戶偏好;③上下文感知推薦生成,基于部分已知用戶偏好預(yù)測(cè)用戶、上下文、項(xiàng)目之間的潛在偏好,結(jié)合當(dāng)前上下文信息生成推薦結(jié)果;④評(píng)價(jià)與自適應(yīng)改進(jìn),采用合適的效用評(píng)價(jià)指標(biāo)對(duì)推薦效果進(jìn)行評(píng)價(jià),并根據(jù)評(píng)價(jià)結(jié)果發(fā)現(xiàn)問(wèn)題和改進(jìn)。
如何清晰準(zhǔn)確地鑒別推薦算法的優(yōu)劣目前沒(méi)有達(dá)成共識(shí)。目前主要采用準(zhǔn)確度評(píng)價(jià)指標(biāo)(包括預(yù)測(cè)準(zhǔn)確度、分類(lèi)準(zhǔn)確度、排序準(zhǔn)確度、預(yù)測(cè)打分關(guān)聯(lián)、距離標(biāo)準(zhǔn)化指標(biāo)和半衰期效用指標(biāo))、推薦列表的流行性和多樣性、覆蓋率、新鮮性和意外性以及用戶滿意度等。
目前較好的開(kāi)源項(xiàng)目主要有:①SVDFeature,A Toolkit for Feature-based Collaborative Filtering and Ranking,是一個(gè)feature-based協(xié)同過(guò)濾和排序工具,由上海交大Apex實(shí)驗(yàn)室開(kāi)發(fā),在KDD Cup 2012中獲得第一名,KDD Cup 2011中獲得第三名,鏈接http://svdfeature.apexlab.org/ wiki/Main_Page;②LIBMF,A Matrix-factorization Library for Recommender Systems,作者Chih-Jen Lin,連續(xù)多屆KDD Cup競(jìng)賽上獲得優(yōu)異成績(jī),鏈接http://www.csie.ntu. edu.tw/~cjlin/libmf/;③Lenskit,來(lái)自美國(guó)的明尼蘇達(dá)大學(xué)的GroupLens團(tuán)隊(duì),也是試數(shù)據(jù)集Movielens的作者,鏈接http://lenskit.org/;④EasyRec,是一個(gè)易集成、易擴(kuò)展、功能強(qiáng)大的推薦系統(tǒng),包括數(shù)據(jù)錄入模塊、管理模塊、推薦挖掘、離線分析等,鏈接http://easyrec.org/。
目前,已經(jīng)有許多推薦算法可供選擇,研究人員需要根據(jù)需要解決的特定問(wèn)題去選擇合適的算法。此外,還有基于二部圖的推薦算法、基于大規(guī)模隱式反饋的推薦算法、基于社交網(wǎng)絡(luò)的推薦算法、基于本體的推薦算法[3]等。近年來(lái),個(gè)性化的推薦系統(tǒng)的發(fā)展非常迅猛,相信未來(lái)的推薦系統(tǒng)會(huì)越來(lái)越智能,推薦結(jié)果也會(huì)越來(lái)越精準(zhǔn)。
[1]Gediminas Adomavicius,Alexander Tuzhilin.Toward the Next Generation of Recommender Systems:A Survey of the Stateof-the-Art and Possible Extensions[J].IEEE Transactions on Knowledge and Data Engineering,2005(6):734-749.
[2]王立才,孟祥武,張玉潔.上下文感知推薦系統(tǒng)[J].軟件學(xué)報(bào),2012(1):1-20.
[3]饒俊陽(yáng),賈愛(ài)霞,馮巖松,等.基于本體結(jié)構(gòu)的新聞個(gè)性化推薦[J].北京大學(xué)學(xué)報(bào):自然科學(xué)版,2014(1):1-8.
Research on Personalized Recommendation System
Zhang YangJing jingXie WanwanXu Xiaolei
(Patent Examination Cooperation Center of the Patent Office,SIPO,Henan,Zhengzhou Henan 450000)
The development of Internet technology and the user's individualized demand are the background of recommendation system,according to the user's point of interest and behavior trajectory,it accurately recommend information needed by the user in the mass of information.It is a combination of machine learning,data mining,knowledge discovery and other technologies.Based on this,the main algorithm,evaluation method and the open source project of recommendation system were introduced.
recommendation system;personalized;interest;behavior trajectory;recommendation algorithm
TP391.3
A
1003-5168(2016)07-0050-02
2016-06-25
張楊(1986-),男,碩士,研究方向:軟件工程、推薦系統(tǒng)、語(yǔ)義網(wǎng)。