張春生,圖 雅,翁 慧,李 艷
(1.內(nèi)蒙古民族大學 計算機科學與技術(shù)學院,內(nèi)蒙古 通遼 028043;2.內(nèi)蒙古民族大學 化學化工學院,內(nèi)蒙古 通遼 028043)
基于電子商務(wù)同類商品的推薦算法研究
張春生1,圖 雅1,翁 慧2,李 艷1
(1.內(nèi)蒙古民族大學 計算機科學與技術(shù)學院,內(nèi)蒙古 通遼 028043;2.內(nèi)蒙古民族大學 化學化工學院,內(nèi)蒙古 通遼 028043)
個性化推薦算法是電子商務(wù)系統(tǒng)的研究熱點。文中給出一種基于同類商品的推薦算法,使用戶在購買商品時,快速得到性價比高的同類產(chǎn)品,提高系統(tǒng)的服務(wù)能力。算法針對同類產(chǎn)品,將供應(yīng)商名稱、商品價格、購買人數(shù)、收貨人數(shù)、用戶評論5個參數(shù)作為推薦指標,在充分論證的基礎(chǔ)上,確定了各個指標的權(quán)重,在此基礎(chǔ)上進行了數(shù)據(jù)建模。為驗證該模型的正確性,抓取了2014年2月1日淘寶網(wǎng)(SAMSUNG/三星 s7898)的產(chǎn)品列表,根據(jù)銷售情況,選取前67個商家的銷售情況進行實驗。結(jié)果表明該模型客觀、有效。目前,關(guān)于個性化的推薦算法較多,但針對于同類商品的推薦算法的研究成果相對較少,該推薦算法的實施可減少用戶查找滿意商品的難度,提高系統(tǒng)的服務(wù)水平。
電子商務(wù);同類商品;推薦算法;研究
隨著電子商務(wù)的蓬勃發(fā)展,給用戶的日常生活帶來了巨大影響,同時也帶來了“信息超載”問題,從而降低了信息的利用效率,這在很大程度上影響了消費者的購物體驗和滿意度。為解決這些難題,電子商務(wù)企業(yè)推出了個性化的推薦系統(tǒng),它是一種以網(wǎng)上購物環(huán)境為前提,為消費者推薦符合其興趣愛好的商品為目的的系統(tǒng),使消費者無需從海量信息中尋找自己想要的信息[1-6]。目前,已有的幾個大型電子商務(wù)企業(yè)推出的推薦系統(tǒng)其推薦策略有很大不同,且對這些推薦策略沒有一個統(tǒng)一的分類標準。
1990年對推薦系統(tǒng)的研究才當作一個相對獨立的課題被學者們提出。1995年,由美國學者展示了WebWatchet、LIRA、Letizia這三大系統(tǒng)。2000年,我國正式開始了個性化推薦系統(tǒng)的研究,并逐步從理論走向?qū)嵺`。2009年7月國內(nèi)首個推薦系統(tǒng)科研團隊—北京百分點信息科技有限公司成立。2011年9月,百度世界大會2011上,李彥宏將推薦引擎與云計算、搜索引擎并列為未來互聯(lián)網(wǎng)重要的戰(zhàn)略規(guī)劃以及發(fā)展方向。百度新首頁將逐步實現(xiàn)個性化,智能地推薦出用戶喜歡的網(wǎng)站和常用的APP。
在文獻[7-9]中,作者給出了推薦系統(tǒng)的形式化定義。他是將推薦給用戶的對象集合用S表示,所有用戶集合用C表示。將對象S對用戶C的推薦度用效用函數(shù)u()表示,即u可以表示為C×S→R(R表示為指定范圍中的全序非負實數(shù))。尋找到最大的推薦度R所對應(yīng)的那些對象S正是推薦系統(tǒng)需要研究的問題。
根據(jù)國內(nèi)外研究者對推薦策略的研究,學者們普遍認可的推薦策略可分為以下幾類:協(xié)同過濾、基于內(nèi)容的推薦、混合推薦、基于用戶—產(chǎn)品二部圖網(wǎng)絡(luò)結(jié)構(gòu)的推薦[10-11]。
(1)協(xié)同過濾推薦。
協(xié)同過濾推薦策略最早被提出,且在推薦系統(tǒng)中應(yīng)用研究最為廣泛。其基本思想是利用目標用戶C的歷史信息,找到與C相似的其他用戶Ci,利用Ci對其他產(chǎn)品的評價來預(yù)測C對特定產(chǎn)品的喜好程度[12-13]。
(2)基于內(nèi)容的推薦。
基于內(nèi)容的推薦是根據(jù)用戶選擇過的對象,推薦其他具有類似屬性的對象。
(3)基于網(wǎng)絡(luò)結(jié)構(gòu)的算法。
此算法不關(guān)心用戶和產(chǎn)品的具體內(nèi)容,只是將他們視為抽象的節(jié)點,有關(guān)算法的計算信息全部隱藏在他們之間的選擇關(guān)系中。
(4)混合推薦算法。
混合推薦的目的為通過組合各種推薦方法彌補各自推薦技術(shù)的不足,根據(jù)實際的數(shù)據(jù)研究發(fā)現(xiàn)混合后的推薦系統(tǒng)具有較好的推薦效果。
然而,從目前的研究成果來看,主要是根據(jù)用戶個人的歷史行為或與其相似用戶的行為或與其消費的商品相似的商品等作為條件,推薦感興趣的商品,對于用戶查找的明確的同類產(chǎn)品,如何給出可信的、具有最優(yōu)性價比的產(chǎn)品方面的研究還很少。文中從用戶購買的同類商品出發(fā),客觀地給出各種評價指標,按商品供應(yīng)者的可信性、性價比等方面給出推薦序列,供用戶來選擇。
對于同類產(chǎn)品的推薦,與以上談到的算法不同,用戶購買目標已經(jīng)明確,不用考慮個體因素、用戶興趣,而重點放在如何選擇信譽可靠、物美價廉的產(chǎn)品上面。因此,只從產(chǎn)品本身的特征出發(fā),通過對產(chǎn)品本身特征的評價,對同類產(chǎn)品排行,推薦給用戶選擇。
在用戶選擇目標明確的前提下,如何客觀、科學地向用戶推薦產(chǎn)品,關(guān)鍵在于對商品特征的選擇。商品特征選擇的好壞直接影響到推薦算法的科學性、真實性、合理性。在充分分析和評估的基礎(chǔ)上,通過分析商品的所有特征,最后從供應(yīng)商、商品價格、購買人數(shù)、收貨人數(shù)、用戶評論5個方面對推薦商品建模,給出推薦指標,供用戶選擇。
1.1 供應(yīng)商可信度評價
供應(yīng)商的信譽好壞直接影響用戶的購買行為。企業(yè)的規(guī)模、企業(yè)的信譽等在一定程度上反映了用戶對企業(yè)的信任程度。
文中把供應(yīng)商分為3類:知名企業(yè)、一般企業(yè)、個體經(jīng)營。分別給予不同的分值,根據(jù)經(jīng)驗并通過合理的測試,由專家給出3種類型企業(yè)的權(quán)值,代表用戶對企業(yè)的信任程度。
評價函數(shù)為:
(1)
1.2 商品價格評價
商品價格是用戶選擇商品的重要評價指標,根據(jù)用戶的消費觀念和消費習慣,用戶往往不會選擇價格過高的同種商品,而價格過低,用戶又懷疑其商品的質(zhì)量和來源渠道,一般用戶也不選擇,而用戶恰恰喜歡價格適中的產(chǎn)品。價格適中正是用戶的真正需求,而用戶的這個消費習慣正符合正態(tài)分布的特點。
對價格的評價函數(shù),文中采用標準正態(tài)分布函數(shù):
(2)
其中,pi是價格。
1.3 付款人數(shù)
付款人數(shù)表示選擇某一商品的用戶數(shù)量,也就是用戶下單數(shù)量。這里有一個概念,下單數(shù)量不等于交易數(shù)量,因為還存在著退款行為,但從某種角度來看,它在一定程度上代表了用戶對該商品的認可程度。因此,文中將付款人數(shù)作為評價商品質(zhì)量的一個指標。
(3)
其中,oi是某供應(yīng)商商品的付款人數(shù)。
1.4 收貨人數(shù)
收貨人數(shù)是最重要的評價指標,它表示用戶購買了某種商品,代表了用戶對該商品的認可程度,雖然用戶可能存在退貨行為,但大多數(shù)用戶在收到商品后,在不合適的情況下,選擇換貨的可能性較大,而真正退貨的較少。
(4)
其中,ti是某供應(yīng)商商品的收貨人數(shù)。
1.5 用戶評論
用戶評論也是決定商品好壞的重要指標。用戶的評論包括褒貶兩個方面,精確的算法應(yīng)該區(qū)分這兩種不同的形式,但若區(qū)分這兩種形式,就需要進行文本分析,使得算法過于復(fù)雜。事實上,對一個商品評論的多少(不分褒貶)也代表了用戶的認可程度,用戶不購買這個商品,不關(guān)注這個商品也就不可能對該商品進行評論。為此,文中用評論總數(shù)量作為商品的評價指標。
(5)
其中,ri是某供應(yīng)商商品的評論人數(shù)。
1.6 推薦指標
商品是否受用戶的歡迎主要表現(xiàn)為用戶的交易數(shù)量,文中體現(xiàn)為收貨人數(shù),但從人們的消費習慣來看,有群體行為的現(xiàn)象,也就是看到大家都買那個商品自己也買那個商品,但這個商品不一定最優(yōu)。從電子商務(wù)角度,不應(yīng)該完全按這個思路出發(fā),而應(yīng)該從供應(yīng)商的信譽和商品價格等方面出發(fā)。為此文中給出兩種推薦指標。
商品的總體推薦指標將融合供應(yīng)商、商品價格、付款人數(shù)、收貨人數(shù)、用戶評論5個指標,通過加權(quán)組合在一起。首先將每個商品離散為一個向量:
xi=(si,pi,oi,ti,ri)
分別代表:商品=(供應(yīng)商類型,商品價格,付款人數(shù),收貨人數(shù),用戶評論數(shù))。構(gòu)建5個加權(quán)系數(shù),分別代表5個評價指標的權(quán)重:ωs,ωp,ωo,ωt,ωr。
(1)商品熱銷前推薦指標。
商品熱銷前,商品的付款人數(shù)和收貨人數(shù)沒有或很少,不能作為推薦指標;所以,文中只選擇供應(yīng)商類型、商品價格、用戶評論數(shù)作為評價指標,此時的推薦指標為:
f(xi)=wsf(si)+wpf(pi)+wrf(ri)
(6)
(2)商品熱銷后推薦指標。
商品熱銷后,商品的付款人數(shù)和收貨人數(shù)代表了用戶對商品的認可程度,同時也要考慮用戶的群體心理;所以,此時的推薦指標為:
f(xi)=wsf(si)+wpf(pi)+wof(oi)+wtf(ti)+wrf(ri)
(7)
如圖1所示,同類商品的推薦算法描述如下:
(1)開始,針對某一種商品的銷售,通過網(wǎng)站提供的API或其他手段,從電子商務(wù)網(wǎng)站抓取用戶消費數(shù)據(jù),其中包括上述5個指標,形成初始數(shù)據(jù)集Ds。
(2)梳理Ds,按xi=(si,pi,oi,ti,ri)的格式整理數(shù)據(jù),形成目標數(shù)據(jù)集Dd。
(3)對所有供應(yīng)商進行遍歷,按每個供應(yīng)商進行計算。
圖1 算法流程
(4)分別計算5個評價指標,并確定5個指標的權(quán)重ωs,ωp,ωo,ωt,ωr。
(5)計算商品熱銷前推薦指標:f(xi)=wsf(si)+wpf(pi)+wrf(ri)。
(6)計算商品熱銷后推薦指標:f(xi)=wsf(si)+wpf(pi)+wof(oi)+wtf(ti)+wrf(ri)。
(7)若遍歷完成,轉(zhuǎn)到(8),否則轉(zhuǎn)到(4)。
(8)結(jié)束。
文中抓取2014年2月1日淘寶網(wǎng)(SAMSUNG/三星s7898)的產(chǎn)品列表(見圖2),根據(jù)銷售情況,選取前67個商家的銷售情況進行實驗。
(1)數(shù)據(jù)預(yù)處理。
對供應(yīng)商信息進行數(shù)值化,(知名企業(yè)、一般企業(yè)、個體經(jīng)營)分別給予權(quán)值(1.0,0.6,0.2)。
對商品價格首先進行標準化處理,使得價格區(qū)間標準化為[-1,1],這樣可保證價格的正態(tài)分布效果。
對付款人數(shù)、收貨人數(shù)、用戶評論進行歸一化處理。
圖2 原始數(shù)據(jù)
為了便于比較和觀察變化趨勢,保證變化曲線的總體走向,打破67個企業(yè)的自然順序,文中對實驗數(shù)據(jù)按收貨人數(shù)降序排序。
(2)按付款人數(shù)與收貨人數(shù)進行比較。
圖3是分別按付款人數(shù)和收貨人數(shù)計算的推薦指標的比較結(jié)果。
從圖中可以看出,付款人數(shù)與收貨人數(shù)的趨勢走向一致,計算推薦指標時,可選擇其中之一。
(3)商品熱銷后推薦指標。
付款人數(shù)與收貨人數(shù)的趨勢走向一致,故計算推薦指標時,只采用付款人數(shù)。
(ωs,ωp,ωo,ωr)的加權(quán)值選擇為(0.1,0.1,0.7,0.1)。
圖4是對文中算法計算的推薦指標和按付款人數(shù)計算的推薦指標的比較結(jié)果。
從圖中可以看出,文中算法計算的推薦指標與按付款人數(shù)計算的推薦指標走向一致。
(4)商品熱銷前推薦指標。
商品熱銷前推薦指標不考慮付款人數(shù)與收貨人數(shù)2個因素,故文中算法計算推薦指標時采用供應(yīng)商類型、商品價格、用戶評論數(shù)三個因素。
(ωs,ωp,ωr)的加權(quán)值選擇為(0.2,0.4,0.4)。
圖5是文中算法計算的推薦指標和按付款人數(shù)計算的推薦指標的比較結(jié)果。
圖3 付款人數(shù)與收貨人數(shù)推薦指標比較
圖4 熱銷后推薦指標與付款人數(shù)計算的推薦指標比較
圖5 熱銷前推薦指標與付款人數(shù)計算的推薦指標比較
從圖中可以看出,商品熱銷前推薦指標的走向與付款人數(shù)的走向總體趨勢一致,推薦指標比較合理。
從以上實驗結(jié)果可以看出,在認可“付款人數(shù)計算的推薦指標”是實際商品銷售指標的前提下,文中算法計算的推薦指標無論是商品熱銷前還是商品熱銷后都與實際商品銷售指標走向一致。因此,文中算法無論是在商品熱銷前還是商品熱銷后都可作為簡單有效的推薦算法對同類商品進行推薦。
商品熱銷前推薦指標的準確性是文中算法的最大特色,它可在商品熱銷前正確指導(dǎo)用戶消費。
文中針對用戶明確選擇的某類產(chǎn)品的推薦研究成果較少的事實,選擇了供應(yīng)商、商品價格、付款人數(shù)、交易人數(shù)、用戶評論5個評價指標,在充分分析的基礎(chǔ)上,對推薦指標進行了建模,并給出了商品熱銷前和熱銷后兩種評價指標。實驗結(jié)果表明,購買人數(shù)與收貨人數(shù)的趨勢走向一致,計算推薦指標時,可選擇其中之一。同時付款人數(shù)的趨勢走向可作為真正的銷售走向。商品熱銷后推薦指標的走向與付款人數(shù)的走向一致。商品熱銷前推薦指標的走向與付款人數(shù)的走向總體趨勢一致,尤其是商品熱銷前推薦指標的準確性是文中算法的最大特色,它可在商品熱銷前正確指導(dǎo)用戶消費。
文中建立的推薦指標可用于電子商務(wù)網(wǎng)站的同種商品推薦上,具有一定的應(yīng)用價值。特別是針對于文中支持項目“蒙醫(yī)方劑數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究”,擬建立一個專門進行蒙藥產(chǎn)品銷售的系統(tǒng),同時為了使廣大用戶認識和認可蒙藥的獨特療效,可在取得其他廠商同意的基礎(chǔ)上,根據(jù)功能與主治信息,尋找同類其他藥物與蒙藥進行同時銷售。通過用戶的購買行為、評論行為等進一步驗證文中算法的合理性,同時也通過用戶對蒙藥的認識和使用,發(fā)揮其獨特的作用,為用戶減少疾病的痛苦。
[1] 許海玲,吳 瀟,李曉東,等.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學報,2009,20(2):350-362.
[2] 劉鳳霞,孫家蓉.基于商品分類的電子商務(wù)推薦系統(tǒng)設(shè)計[J].計算機應(yīng)用與軟件,2014,31(5):37-41.
[3] 劉建國,周 濤,汪秉宏.個性化推薦系統(tǒng)的研究進展[J].自然科學進展,2009,19(1):1-15.
[4]LiuRR,JiaCX,ZhouT,etal.Personalrecommendationviamodifiedcollaborativefiltering[J].PhysicaA,2009,388(4):462-468.
[5] 王國霞,劉賀平.個性化推薦系統(tǒng)綜述[J].計算機工程與應(yīng)用,2012,48(7):66-76.
[6] 王巧榮,趙海燕,曹 健.個性化服務(wù)中的用戶建模技術(shù)[J].小型微型計算機系統(tǒng),2011,32(1):39-46.
[7]WengSS,LinBS,ChenWJ.Usingcontextualinformationandmultidimensionalapproachforrecommendation[J].ExpertSystemwithApplications,2009,36(2):1268-1279.
[8]YanDuanwu.Researchonknowledgeserviceorientedintelligentrecommendationsystem[D].Nanjing:NanjingUniversityofScienceandTechnology,2007.
[9]ZhangZ,LuL,LiuJG,etal.Empiricalanalysisonakeywordbasedsemanticsystem[J].TheEuropeanPhysicalJournalB,2008,66(4):557-561.
[10] 鄭 鑫,張韌志.一種基于模糊C均值聚類的協(xié)同過濾推薦算法[J].濟南大學學報:自然科學版,2016,30(1):55-59.
[11] 譚文安,沈騰騰,孫 勇.基于偏好相似度的混合信任推薦模型[J].太原理工大學學報,2016,47(1):62-67.
[12] 王全民,王 莉,曹建奇.基于評論挖掘的改進的協(xié)同過濾推薦算法[J].計算機技術(shù)與發(fā)展,2015,25(10):24-28.
[13] 徐新瑞,孟彩霞,周 雯,等.一種基于Spark時效化協(xié)同過濾推薦算法[J].計算機技術(shù)與發(fā)展,2015,25(6):48-55.
Research on Similar Products Recommendation Algorithm Based on Electronic Commerce
ZHANG Chun-sheng1,TU Ya1,WENG Hui2,LI Yan1
(1.College of Computer Science and Technology,Inner Mongolia University for Nationalities,Tongliao 028043,China;2.College of Chemistry & Chemical Engineering,Inner Mongolia University for Nationalities,Tongliao 028043,China)
Personalized recommendation algorithm is a hot issue in the study of the electronic commerce system.A recommendation algorithm based on similar products is presented in this paper,by which users in the purchase of goods can quick get cost-effective products and improve the service ability of the system.This algorithm aims at similar products,the five arguments including supplier name,commodity prices,the number of purchase,receiving the number,user reviews are selected as recommended indexes.On the basis of sufficient demonstration,the weight of each index is determined and data model is established.To test and verify the correctness of the model,a experiment is conducted according to the sales of the first 67 of the dealer of the list in Taobao product (SAMSUNG/SAMSUNG s7898) on February 1,2014.The results show that the model is objective and effective.At present,there are more personalized recommendation algorithms,but the research achievements of recommendation algorithm proposed for the similar goods are relatively small,the implementation of the recommendation algorithm can reduce the difficulty of users finding satisfactory goods,and improve the service level of the system.
electronic commerce;similar products;recommendation algorithm;study
2014-12-03
2015-04-07
時間:2016-05-05
國家自然科學基金資助項目(81460656);內(nèi)蒙古自然科學基金(2012MS0913);通遼市與內(nèi)蒙古民族大學合作項目(SXZD2012021)
張春生(1965-),男,教授,研究方向為數(shù)據(jù)庫技術(shù)、數(shù)據(jù)挖掘、軟件理論及應(yīng)用。
http://www.cnki.net/kcms/detail/61.1450.TP.20160505.0814.014.html
TP311
A
1673-629X(2016)05-0017-05
10.3969/j.issn.1673-629X.2016.05.004