白 婷,文繼榮,趙 鑫,楊伯華
(1. 中國人民大學(xué) 信息學(xué)院,北京 100872;2. 大數(shù)據(jù)管理與分析方法研究北京市重點實驗室,北京 100872)
基于迭代回歸樹模型的跨平臺長尾商品購買行為預(yù)測
白 婷1,2,文繼榮1,2,趙 鑫1,2,楊伯華1,2
(1. 中國人民大學(xué) 信息學(xué)院,北京 100872;2. 大數(shù)據(jù)管理與分析方法研究北京市重點實驗室,北京 100872)
長尾商品是指單種商品銷量較低,但是由于種類繁多,形成的累計銷售總量較大,能夠增加企業(yè)盈利空間的商品。在電子商務(wù)網(wǎng)站中,用戶信息量較少且購買長尾商品數(shù)量較少、數(shù)據(jù)稀疏,因此對用戶購買長尾商品的行為預(yù)測具有一定的挑戰(zhàn)性。該文提出預(yù)測用戶購買長尾商品的比例,研究單一用戶購買長尾商品的整體偏好程度。利用社交媒體網(wǎng)站上海量的文本信息和豐富的用戶個人信息,提取用戶的個人屬性、文本語義、關(guān)注關(guān)系、活躍時間等多個種類的特征;采用改進(jìn)的迭代回歸樹模型MART(Multiple Additive Regression Tree),對用戶購買長尾商品的行為進(jìn)行預(yù)測分析;分別選取京東商城和新浪微博作為電子商務(wù)網(wǎng)站和社交媒體網(wǎng)站,使用真實數(shù)據(jù)構(gòu)建回歸預(yù)測實驗,得到了一些有意義的發(fā)現(xiàn)。該文從社交媒體網(wǎng)站抽取用戶特征,對于預(yù)測用戶購買長尾商品的行為給出一個新穎的思路,可以更好地理解用戶個性化需求,挖掘長尾市場潛在的經(jīng)濟價值,改進(jìn)電子商務(wù)網(wǎng)站的服務(wù)。
長尾商品;電子商務(wù);社交媒體;購買行為預(yù)測
長尾商品是指單種商品銷量較低,但由于種類繁多,形成的累計銷售總量較大,能夠增加企業(yè)盈利空間的商品[1]。隨著信息科技的發(fā)展,人們能夠較容易地在電子商務(wù)網(wǎng)站中找到實體市場中因為冷門而幾乎沒有消費者的長尾產(chǎn)品。如圖1*維基百科http://zh.wikipedia.org/wiki/%E9%95%BF%E5%B0%BE所示,人們比較關(guān)注曲線主體的那些熱門商品,而將處于曲線尾部的商品忽略,但被忽略的較長的尾部商品累計產(chǎn)生的總體效益甚至可以與主體熱銷商品抗衡。首先,長尾商品的銷量可觀,例如,有學(xué)者研究過亞馬遜網(wǎng)站的書本銷售量和銷售排名的關(guān)系,發(fā)現(xiàn)亞馬遜40%的圖書銷量來自于本地書店里不賣的圖書[2];Deniz Oktar*D. Oktar. Recommendation Systems: Increasing Profit byLong Tail. http://en.webrazzi.com/2009/09/18/也指出,商家盈利的增加在于對長尾市場的開發(fā),他認(rèn)為熱門商品因為很多商家競價出售而導(dǎo)致商品的利潤降低,而長尾商品若能找到對其偏好的消費者,商家獲利的空間將會很大;Anderson也提出通過讓商品種類全面,并幫助用戶找到它,可以推動長尾市場的繁榮[3]。
圖1 長尾理論中商品銷量圖
對用戶購買長尾商品的行為進(jìn)行預(yù)測,就是探究哪些用戶更傾向于購買長尾商品,分析用戶購買長尾商品時的偏好、購買習(xí)慣等特點。長尾商品由于購買量少導(dǎo)致數(shù)據(jù)稀疏,傳統(tǒng)的基于內(nèi)容推薦和協(xié)同過濾、關(guān)聯(lián)規(guī)則、聚類等方法適用性較差,所以對用戶購買長尾商品行為的預(yù)測具有一定的挑戰(zhàn)性。本文提出一種基于社交媒體信息對用戶購買長尾商品行為做預(yù)測的方法,探究如何利用社交媒體上海量的文本信息和豐富的用戶信息,對用戶購買長尾商品的行為做預(yù)測,以更好地理解用戶的個性化需求,從而挖掘長尾商品的潛在經(jīng)濟價值。
本文主要有三點貢獻(xiàn): ①針對長尾商品的購買行為,形式化地給出了研究問題的定義,提出利用社交媒體上海量的文本信息和豐富的用戶信息,對用戶購買長尾商品的比例做預(yù)測; ②針對數(shù)據(jù)樣本分布的偏置性問題,改進(jìn)MART模型,顯著地提高了模型的預(yù)測效果; ③在真實的數(shù)據(jù)集(新浪微博、京東商城)上構(gòu)建大量的實驗,與LR(linear regression)模型,SVR(support vector regression)模型,CART(classification and regression Tree)模型,神經(jīng)網(wǎng)絡(luò)多層感知機模型MLP(multilayer perceptron)對比,驗證了預(yù)測的效果,并詳細(xì)分析用戶特征對其購買長尾商品比例的影響。
目前,對用戶購買行為的研究大多基于用戶的購買記錄,為用戶推薦可能購買的商品,通常采用基于內(nèi)容推薦、協(xié)同過濾推薦、關(guān)聯(lián)規(guī)則、聚類等方法?;趦?nèi)容的推薦[4]是根據(jù)用戶過去喜歡的物品內(nèi)容,為用戶推薦相似的物品,長尾商品由于購買量少,基于內(nèi)容推薦的算法并不適用;協(xié)同過濾算法是利用用戶喜好之間的相似性進(jìn)行推薦[5],不依賴于商品的實際內(nèi)容,但需要用戶對商品的喜好信息,在長尾商品的購買中,用戶喜好差別很大,所以也不適用。長尾商品由于購買量少,數(shù)據(jù)稀疏,關(guān)聯(lián)規(guī)則、聚類等方法也都適用性較差,這使得對長尾商品的研究具有一定的挑戰(zhàn)性。目前針對長尾商品推薦的研究較少,且都是基于用戶購買記錄本身,如文獻(xiàn)[6]中提出了一種基于用戶購買記錄的圖模型長尾商品推薦算法,文獻(xiàn)[7]中是基于長尾商品在所有商品購買圖中的位置進(jìn)行分析。
基于購物網(wǎng)站上信息,對長尾商品的購買行為分析存在以下不足: 第一,電子商務(wù)網(wǎng)站用戶注冊信息一般比較簡單,如京東商城,用戶只需填寫用戶名和密碼,進(jìn)行郵箱或手機號的驗證,就可以進(jìn)行購物;第二,每個用戶長尾商品的購買記錄少,數(shù)據(jù)稀疏。購物網(wǎng)站上簡單的用戶信息,較少的長尾商品購買記錄,是研究長尾商品購買行為的挑戰(zhàn)所在,而在社交媒體上,雖然無法得知用戶的購買記錄,但有豐富的用戶信息,如年齡、性別、職業(yè)及海量文本信息,將這些豐富的信息用于對用戶購買長尾商品的預(yù)測,是長尾商品購買行為研究的一個新思路。文獻(xiàn)[8]初步驗證了社交媒體網(wǎng)站中用戶人口統(tǒng)計學(xué)特征、喜好,與用戶在電子商務(wù)網(wǎng)站中購買商品類別有一定的聯(lián)系,本文針對長尾商品,進(jìn)一步挖掘社交媒體網(wǎng)站中用戶的信息,對用戶購買行為進(jìn)行預(yù)測,并構(gòu)建實驗,給出驗證。
在傳統(tǒng)經(jīng)濟里,“二八定律”認(rèn)為公司80%的利潤來自20%的暢銷產(chǎn)品,其余20%的利潤則來自于80%的普通產(chǎn)品[1],因貨架空間的局限和成本問題,那些由于銷量低而周轉(zhuǎn)速度不足以抵消貨架單位面積成本的長尾商品,將會被排斥在市場之外。隨著電子商務(wù)網(wǎng)站的興起,用戶只需簡單搜索,即可看到大量可選的商品,這使得種類豐富的長尾商品有較大機會面向龐大的目標(biāo)消費群體。本文研究用戶對長尾商品的整體偏好程度,利用用戶特征預(yù)測其購買長尾商品的比例,定義如下。
長尾商品根據(jù)“二八定律”,將長尾商品定義為銷量排名大于20%的商品,定義如下: 給定商品集P,商品總數(shù)為N,對商品按照銷量進(jìn)行倒序排序P={p1,p2,…,pN},使得?pi∈P,Si≥Si+1,其中Si是商品pi的銷量。長尾商品集PLT(Long Tail Product)可以定義為式(1)。
PLT={pi|i≥N×20%,pi∈P}
(1)
長尾商品購買比例給定用戶集U,對于?u∈U,用戶u購買的商品集為Pu,則該用戶購買的長尾商品比例yu可以定義為式(2)。
社交媒體中含有豐富的用戶信息,如年齡、性別、喜好、文本信息等,這些信息很難從電子購物網(wǎng)站得到,因此,本文從社交媒體中提取用戶u的特征向量xu={x1,x2,…,xn},并從電子商務(wù)網(wǎng)站中得到用戶μ實際購買長尾商品的比例yu,構(gòu)造訓(xùn)練數(shù)據(jù)集{xu,yu}u∈U,則問題轉(zhuǎn)化為輸入為用戶特征向量xu,期望輸出為用戶實際購買長尾商品比例yu的預(yù)測問題。機器學(xué)習(xí)中有很多模型可以解決此類問題,如線性回歸、支持向量機、決策樹等[9],迭代回歸樹模型MART(multiple additive regression tree)是由多個回歸樹加權(quán)合并成的回歸樹模型,在很多任務(wù)中都有不錯的效果,例如在解決互聯(lián)網(wǎng)搜索排序(Web search ranking)[10]、推薦和預(yù)測系統(tǒng)[11]中,都有較好的預(yù)測效果和較低的錯誤率。在本文中,用戶特征種類較多,特征的不同組合會導(dǎo)致不同的預(yù)測結(jié)果,與線性回歸、支持向量機等方法相比較,MART模型是由多個簡單的決策樹組合而成的模型,能夠充分利用用戶特征信息,有效學(xué)習(xí)特征表示[12-14],故本文中采用MART模型,并通過引入樣本權(quán)重的方法對MART模型進(jìn)行改進(jìn),使得改進(jìn)后的模型預(yù)測效果有了顯著的提升。
4.1 MART簡介
MART(multiple additive regression tree)又叫做GBDT(gradient boosting decision tree),是采用梯度迭代算法實現(xiàn)的回歸樹。
MART模型的輸入為n維特征向量x,由映射函數(shù)F:Rn→R將其映射到預(yù)測值。在第m次迭代中,有:
Fm(x)=Fm-1(x)+ρmhm(x;a)
(4)
其中hm(x;a)表示以a為參數(shù)的x的函數(shù),ρm∈R表示第m個函數(shù)的權(quán)重。
其中g(shù)m(x)表示函數(shù)Fm-1(x)梯度下降方向,計算公式如式(7)所示。
4.2 MART的改進(jìn)
MART模型中假設(shè)所有實例(用戶)同等重要,本數(shù)據(jù)集中用戶購買長尾商品的比例非常不均勻,購買長尾商品比例較低的用戶占絕大多數(shù),為了更好地學(xué)習(xí)用戶的特征與其購買長尾商品的關(guān)系,本文對MART模型進(jìn)行改進(jìn),對購買長尾商品比例大的用戶著重學(xué)習(xí),即根據(jù)用戶購買長尾商品的比例對用戶進(jìn)行加權(quán)。
定義如下?lián)p失函數(shù):
(9)
模型的權(quán)重wi由訓(xùn)練數(shù)據(jù)確定,在訓(xùn)練完成得到MART模型參數(shù)am和ρm后,實際預(yù)測過程按照式(4)計算,并不需要得待預(yù)測樣本的權(quán)重。
下一節(jié)介紹如何從社交媒體中提取用戶的特征向量x。
本文利用社交媒體中海量的文本信息和豐富的用戶信息,如年齡、性別、職業(yè)及大量文本信息,對用戶購買行為進(jìn)行預(yù)測,構(gòu)建用戶社交媒體中特征向量,分析用戶特征對購買行為的影響。
5.1 購買行為分析
商品的價格、目標(biāo)用戶的類別(如男士用品、女士用品)、適用的年齡段(如幼兒產(chǎn)品、老年產(chǎn)品)、功能類別(如日用品、專業(yè)領(lǐng)域用品)等因素都會影響到商品的銷量。因此,用戶的年齡、性別、婚姻狀況、教育背景、職業(yè)等個人屬性,關(guān)注的話題、興趣愛好等特征都是影響其購買行為的因素[16]。
5.2 特征向量構(gòu)建
如何在社交媒體中提取與購買長尾商品有關(guān)的特征,是特征提取面臨的一個挑戰(zhàn)。在眾多的社交媒體中,本文選擇涵蓋娛樂、體育、生活等多方面,具有龐大用戶群體的新浪微博作為提取用戶特征的數(shù)據(jù)來源,通過對用戶的社交習(xí)慣和購買行為的分析,在新浪微博中提取用戶的四大類12種特征,用戶微博特征見表1。
用戶微博特征詳細(xì)說明如下:
(1) 個人屬性特征
年齡: 1~11,12~17,18~30,31~45,46~59,60+;
性別: 男,女;
婚姻狀況: 單身、訂婚、暗戀、結(jié)婚、追求、喪偶、分居、離婚、熱戀、曖昧;
表1 用戶微博特征表
教育背景: 自然科學(xué)、工程、社會科學(xué)、醫(yī)學(xué)、藝術(shù)、其他;
職業(yè): 互聯(lián)網(wǎng)、設(shè)計、服務(wù)業(yè)、生產(chǎn)業(yè)、醫(yī)藥業(yè)、科學(xué)工作、管理者、其他;
興趣愛好: 由微博用戶標(biāo)簽得到,包括旅游、攝影、音樂和電影、電腦游戲、其他。
(2) 文本特征
話題分布: 采用主題模型(topic model)可以從用戶所發(fā)的博文中,獲取該用戶的主題分布。采用隱含狄利克雷分布(LDA),將每個用戶的博文聚合成一個文檔。提取用戶的原創(chuàng)、轉(zhuǎn)發(fā)、評論的文本信息,得到每個微博用戶的主題分布[17]。
(3) 關(guān)系特征
群組: 在微博中,有相似關(guān)注關(guān)系的用戶具有相似興趣愛好的可能性較大,可以根據(jù)用戶的關(guān)注關(guān)系,將用戶分為群組。與文獻(xiàn)[17]中思路相似,采用LDA模型,將被關(guān)注的用戶當(dāng)做單詞,關(guān)注者當(dāng)做文檔,發(fā)現(xiàn)被關(guān)注者的潛在群組,得到每個微博用戶的關(guān)注偏好分布。
權(quán)威性: 用戶權(quán)威性即用戶在微博關(guān)系圖中的PageRank值,可以定義為: 微博中的用戶關(guān)注關(guān)系用圖GU(V,E)來表示,圖中的每一個頂點v∈V代表微博中的每一個用戶,圖中的邊E則為V×V的子集,代表兩個頂點之間的關(guān)系。對于頂點vi:
其中M(vi)是指向vi的所有節(jié)點,L(vj)是vj鏈出的節(jié)點數(shù)量,|V|是節(jié)點總數(shù)。
互動率: 由用戶@他人的次數(shù)和用戶參與話題討論Hashtag的使用率構(gòu)成。
(4) 微博活躍時間特征
每天分布: 每天用戶活躍在微博上的時間分布;
每周分布: 每周用戶活躍在微博上的時間分布。
6.1數(shù)據(jù)準(zhǔn)備
本文分別選取京東商城和新浪微博作為電子商務(wù)網(wǎng)站和社交媒體網(wǎng)站,利用京東商城的用戶購買記錄和新浪微博用戶信息構(gòu)建實驗。
電子商務(wù)網(wǎng)站數(shù)據(jù)從國內(nèi)最大的B2C電子商務(wù)網(wǎng)站京東商城爬取商品的評論信息,獲得1200萬用戶對17.5萬商品的1.389億條商品評論。在京東上只有購買商品的用戶才可以對該商品做出評論,每一條評論均可以得到一個用戶的ID(基于用戶隱私考慮,ID均為加密處理),根據(jù)用戶的ID對商品進(jìn)行分組,得到每個用戶所購買的商品的列表。
社交網(wǎng)絡(luò)數(shù)據(jù)從國內(nèi)最大的社交媒體網(wǎng)站新浪微博獲取用戶的社交信息,提取從2013年1月1日到2013年6月30日的微博數(shù)據(jù),去除非正常微博用戶,例如,極度不活躍用戶;粉絲數(shù)低于五個、微博數(shù)低于五條的用戶;活躍度很高但互動率很少的用戶;如一天內(nèi)同一條微博發(fā)布五次或自轉(zhuǎn)發(fā)五次以上、所發(fā)微博中半數(shù)以上的微博他人轉(zhuǎn)發(fā)以及評論人數(shù)少于五人的用戶。最后從500萬正?;钴S的微博用戶中提取17億條博文信息。
京東-微博用戶關(guān)聯(lián)用戶在京東購買商品時,有時會采用第三方賬號登錄,如果采用新浪微博賬號登錄,就可獲得一個用戶的新浪微博ID和京東ID;此外,微博用戶有時會將在購物網(wǎng)站上購買的商品鏈接分享到微博上,根據(jù)其分享的鏈接,我們就可以將該用戶的京東ID和新浪微博ID相關(guān)聯(lián),本文從17億條博文信息中抽取京東商品分享信息,從500萬微博用戶中找出23917個同時具有京東購物記錄和新浪微博信息的用戶,去除微博和購買記錄中異常的噪聲數(shù)據(jù),如微博中博文數(shù)量極少或極多的數(shù)據(jù),購買記錄中少于10條的用戶,最終我們得到有長尾商品購買記錄的15853個關(guān)聯(lián)用戶。
長尾商品集的構(gòu)建考慮到不同種類的商品銷售量會有很大的差距,比如電子產(chǎn)品和日常生活用品,若將商品整體按銷量排序提取長尾商品,可能會導(dǎo)致銷量少的某一種類如電子產(chǎn)品,都會被劃分到長尾商品中。所以本實驗先將商品按照京東購物網(wǎng)站的16個大類目進(jìn)行分類,在每個類別中按照公式(1)去除銷量最高的前20%的熱門商品,以及銷售量極少的噪聲數(shù)據(jù),重新構(gòu)建得到長尾商品集。找出購買這些長尾商品的用戶ID中屬于關(guān)聯(lián)用戶的ID。長尾商品的銷量區(qū)間分布如圖2所示,用戶購買長尾商品比例人數(shù)統(tǒng)計結(jié)果如圖3所示,最終得到統(tǒng)計結(jié)果如表2所示。
圖2 長尾商品銷量區(qū)間分布
圖3 購買長尾商品用戶所占百分比
關(guān)聯(lián)用戶數(shù)/人長尾商品總數(shù)/件商品平均購買量/件長尾商品平均購買量/件平均博文數(shù)量/條15853138015528.241
6.2 評價標(biāo)準(zhǔn)
其中平均絕對誤差(MAE)、均方根誤差(RMSE)反映的是預(yù)測值與真實值的擬合程度,數(shù)值越小,表示預(yù)測效果越好,確定系數(shù)(R-square)反映的是預(yù)測值與真實數(shù)據(jù)的平均值的比較,正常取值范圍區(qū)間為[0,1],越接近1,表示模型的預(yù)測效果越好。
6.3 實驗結(jié)果與分析
用改進(jìn)后的MART模型對用戶特征向量xu={x1,x2,…,xn}進(jìn)行訓(xùn)練和測試,與解決回歸問題的LR(linear regression)模型[22]、SVR(support vector regression)模型[23]、CART(classification and regression tree)模型[24]、神經(jīng)網(wǎng)絡(luò)多層感知機MLP(multilayer perceptron)模型[25]對比,結(jié)果如表3所示。
表3 三種模型評價指標(biāo)對比
(↑表示值越大,預(yù)測效果越好;↓表示值越小,預(yù)測效果越好)
實驗結(jié)果表明:
① MAE和RMSE兩個評價指標(biāo)考慮的是預(yù)測值和真實數(shù)據(jù)的擬合程度,可以看出: 對比MART與LR、SVR、MLP、CART模型,五種模型預(yù)測效果相似,改進(jìn)后的加權(quán)MART模型,預(yù)測效果有了明顯的提升。
② R-square反映的是預(yù)測值與真實數(shù)據(jù)平均值的比較,數(shù)據(jù)的分布影響預(yù)測效果的好壞。R-square正常取值范圍區(qū)間為[0,1],越接近1,表示模型的預(yù)測效果越好。當(dāng)預(yù)測值與真實值相等時,R-square值為1,在本實驗中:
? 用戶長尾商品的購買比例分布見圖3,購買長尾商品比例小于0.3的用戶占總用戶數(shù)的91%,比例在0.3到0.4之間的用戶為5%,比例大于0.4的用戶為4%??梢钥闯?,購買長尾商品比例比較低的用戶占絕大多數(shù),購買長尾商品比例較高的用戶由于數(shù)量少,數(shù)據(jù)的分布非常不均勻,導(dǎo)致模型預(yù)測效果較差。當(dāng)預(yù)測值偏差較大時,就可能出現(xiàn)負(fù)值的情況,表3中SVR模型、MLP模型因數(shù)據(jù)分布的極度不均勻,R-square的值為負(fù)值。
? 采用改進(jìn)后的加權(quán)MART模型,即按照用戶購買長尾商品比例加權(quán)后,購買長尾商品比例較高的用戶權(quán)重得到提高,模型預(yù)測效果有了顯著的提升。
6.4 特征分析
本節(jié)主要分析從微博中提取的用戶特征對預(yù)測其購買長尾商品比例的貢獻(xiàn),選取貢獻(xiàn)值最大的四種用戶特征,進(jìn)行詳細(xì)的統(tǒng)計分析。
6.4.1 特征貢獻(xiàn)
在決策樹模型中,可以計算屬性的貢獻(xiàn)值,如論文[26]中介紹的方法,在MART的所有的回歸樹上,計算每個特征對節(jié)點分類的貢獻(xiàn)之和,作為該特征的貢獻(xiàn)值,如圖4所示。
圖4 用戶微博特征貢獻(xiàn)值
由圖4可以看出,用戶微博中抽取的特征對其購買長尾商品的影響,話題分布影響最大,用戶年齡、群組、性別次之,而用戶的興趣愛好、婚姻狀況、職業(yè)、教育背景等特征對其購買長尾商品的貢獻(xiàn)值非常小。特征的貢獻(xiàn)值可能與特征的維度有關(guān),話題和群組維度均為50維,而其他特征維度相對較小;也可能與實驗所用的數(shù)據(jù)集有關(guān),在關(guān)聯(lián)用戶的新浪微博爬取的數(shù)據(jù)集中,每類特征的完整度分別為: 性別(100%)、興趣愛好(65.7%)、年齡(36.7%)、教育背景(26.3%)、職業(yè)(12.9%)、婚姻狀況(4.6%)、微博的文本特征(99.1%)。
由圖4可以看出,對用戶購買長尾商品影響最大的四個特征是話題分布、年齡、群組、性別,下面分別對這幾種特征進(jìn)行分析。
6.4.2 話題、群組的特征分析
定義話題、群組對用戶購買長尾商品的影響度如式(14)所示。
其中pu,i是用戶u在話題(群組)i上的概率分布,pi是所有用戶在話題(群組)i上的概率分布之和,yu是用戶u購買長尾商品的比例。對于每一個話題(群組)i,計算所有用戶購買長尾商品的影響值之和作為該話題(群組)對長尾商品購買的影響度,選取對長尾商品購買影響度最大的五個話題和群組,每個話題和群組中選取10個詞,如表4、表5所示。
表4 對長尾商品購買影響度最大的五個話題
表5 對長尾商品購買影響度最大的五個群組
由表4、表5分析話題、群組對用戶購買長尾商品的影響,結(jié)論如下:
① 排名第一的話題27中提及優(yōu)惠、套餐、憑劵、優(yōu)惠券,可以推測,喜歡購買長尾商品的用戶更傾向于關(guān)注優(yōu)惠信息;話題24中,提及設(shè)計、創(chuàng)意、DIY、手工,推測長尾商品具有新奇、獨特的特點;話題4中提及獎品、抽獎、大獎、機會等詞,推測愿意購買長尾商品的用戶也更愿意去參與一些博彩類的話題;
② 對群組分析發(fā)現(xiàn),購買長尾商品比例較高的用戶更傾向于去關(guān)注娛樂、體育、科技領(lǐng)域的明星,也比較愿意去關(guān)注一些語錄和新聞類的用戶。
6.4.3 年齡、性別的特征分析
不同年齡、性別的用戶對長尾商品的購買比例統(tǒng)計結(jié)果如圖5所示。
圖5 年齡、性別對其購買長尾商品的影響
由圖5可以看出:
① 46~59歲年齡段的用戶更喜歡購買長尾商品,31~45歲的用戶次之,18~30歲的用戶購買長尾商品的比例最少;
② 女性用戶比男性用戶更傾向于購買長尾商品。
本文充分利用社交媒體網(wǎng)站上海量的文本信息和豐富的用戶信息,抽取用戶特征,對預(yù)測用戶購買長尾商品的行為給出了一個新穎的解決思路,并分析用戶特征,如年齡、性別、關(guān)注的話題和喜好等因素對其購買長尾商品的影響,可以更好地理解用戶個性化需求,可據(jù)此改進(jìn)電子商務(wù)網(wǎng)站的服務(wù),探究長尾商品的個性化推薦,挖掘長尾市場潛在的經(jīng)濟價值。
然而,本文仍然存在一些需要改進(jìn)的地方,例如,在單一社交媒體上抽取用戶的特征還不夠全面,通過對多個媒體網(wǎng)絡(luò)的用戶信息整合,我們可以獲得更豐富的用戶屬性,用來提高預(yù)測精度。
近年來,隨著深度學(xué)習(xí)的廣泛應(yīng)用,在跨平臺的用戶購買行為預(yù)測中也取得不錯的效果[27],未來我們也將探索利用深度學(xué)習(xí)模型來對長尾商品進(jìn)行建模。
針對長尾商品這一較為新穎的研究領(lǐng)域,今后我們還會對以下問題進(jìn)行研究:
① 探究用戶社交媒體上的用戶特征對其購買長尾商品的類別的影響;
② 如何有效利用用戶社交媒體信息和購買歷史記錄提高長尾商品的推薦準(zhǔn)確度;
③ 如何在社交媒體網(wǎng)站上進(jìn)行長尾商品的個性化推廣。
在后續(xù)的研究中,我們將對用戶特征處理和長尾商品購買行為進(jìn)行更深入的分析,繼續(xù)探究如何有效利用社交媒體信息,對用戶購買長尾商品的行為做出更為精準(zhǔn)的預(yù)測。
[1] 克里斯·安德森. 長尾理論[M]. 北京:中信出版社,2006.12.
[2] Brynjolfsson E, Hu Y, Smith M D. Consumer Surplus in the Digital Economy: Estimating the Value of Increased Product Variety at Online Booksellers[J]. Working Papers, 2003, 49(11):1580-1596.
[3] Jansen B J,Chris Anderson.The Long Tail: Why the Future of Business is Selling Less or More.[J]. Information Processing amp; Management, 2007, 43(4):1147-1148.
[4] Ricci F, Rokach L, Shapira B. Introduction to Recommender Systems Handbook[M]. Springer US, 2011:1-4.
[5] Linden G, Smith B, York J. Amazon.com Recommendations: Item-to-Item Collaborative Filtering[J]. IEEE Internet Computing, 2003, 7(1):76-80.
[6] Yin, Hongzhi, Cui, Bin, Li, Jing, et al. Challenging the Long Tail Recommendation[J]. Proceedings of the Vldb Endowment, 2012, 5(9):896-907.
[7] Oestreichersinger G, Sundararajan A. Recommendation Networks and the Long Tail of Electronic Commerce[J]. Social Science Electronic Publishing, 2009, 36(1):65-84.
[8] Zhang Y, Pennacchiotti M. Predicting purchase behaviors from social media[C]//Proceedings of the 22nd International Conference on World Wide Web. 2013:1521-1532.
[9] 陳凱, 朱鈺. 機器學(xué)習(xí)及其相關(guān)算法綜述[J]. 統(tǒng)計與信息論壇, 2007, 22(5):105-112.
[10] S Ankit, S Bhanderi. Survey on Feature Engineering of Author-Paper Pair Matching in Bibliography Data[J]. International Journal of Computer Applications in Engineering Sciences, 2014,6(2):035-039.
[11] Zhang H, Spoelstra J, Spoelstra J, et al. Committee based Prediction System for Recommendation[C]//Proceedings of the 17th International Conference on Kdd Cup, 2011:215-229.
[12] Jerome H. Friedman. Greedy Function Approximation: A Gradient Boosting Machine[J]. The Annals of Statistics, 2001, 29(5):1189-1232.
[13] Chen T, Li H, Yang Q, et al. General Functional Matrix Factorization Using Gradient Boosting[C]//Proceedings of the 31st International Conference on Machine Learning. 2014:436-444.
[14] Zhou K, Yang S H, Zha H. Functional Matrix Factorizations for Cold-start Recommendation[C]//Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2011:315-324.
[15] Yan R, Huang C, Tang J, et al. To Better Stand on the Shoulder of Giants[C]//Proceedings of the 12th ACM/IEEE-CS joint conference on Digital Libraries. ACM, 2012:51-60.
[16] Zhao X W, Guo Y, He Y, et al. We know what you want to buy: a demographic-based system for product recommendation on microblogs[C]//Proceedings of the 20th ACM SIGKDD international conference on knowledge discovery and data mining, 2014:1935-1944.
[17] Lin J, Sugiyama K, Kan M Y, et al. Addressing cold-start in app recommendation: latent user models constructed from twitter followers[C]//Proceedings of the 36th international ACM SIGIR conference on research and development in information retrieval. ACM, 2013:283-292.
[18] 朱郁筱, 呂琳媛. 推薦系統(tǒng)評價指標(biāo)綜述[J]. 電子科技大學(xué)學(xué)報, 2012, 41(2):163-175.
[19] Shardanand U. Social information filtering: algorithms for automating "word of mouth"[C]//Proceedings of the 13th Sigchi Conference on Human Factors in Computing Systems. ACM Press/Addison-Wesley Publishing Co. 1995:210-217.
[20] Balabanovic, Marko, Shoham, Yoav. Fab: content-based, collaborative recommendation[J]. Communications of the Acm, 1997, 40(3):66-72.
[21] STEEL, R. G. D, TORRIE, J. H. Principles and procedures of statistics.[M]. McGraw-Hill, 1960.
[22] Ellis D M, Draper N P, Smith H S. Applied Regression Analysis[J]. Biometrics, 1998, 17(1):83.
[23] Jing Geng, Min-Liang Huang, Ming-Wei Li, et al. Hybridization of seasonal chaotic cloud simulated annealing algorithm in a SVR-based load forecasting model[J]. Neurocomputing, 2015, 151:1362-1373.
[24] L. Breiman. Classification and regression trees[C]//Proceedings of the Chapman amp; Hall/ CRC, 1984.
[25] Mirjalili S, Mirjalili S M, Lewis A. Let a biogeography-based optimizer train your Multi-Layer Perceptron[J]. Information Sciences, 2014, 269(8):188-209.
[26] Annabi H, Mcgann S T. Social Media as the Missing Link: Connecting Communities of Practice to Business Strategy[J]. Journal of Organizational Computing amp; Electronic Commerce, 2013, 23(1-2):56-83.
[27] Ting Bai, Hongjian Dou, Wayne Xin Zhao, Dingyi Yang, Ji-Rong Wen. An Experimental Study of Text Representation Methods for Cross-Site Purchase Preference Prediction Using the Social Text Data.. Journal of Computer Science and Technology[J]. 2017,32(4): 828-842.
白婷(1992—),博士研究生,主要研究領(lǐng)域為數(shù)據(jù)挖掘、商品推薦。
E-mail: baiting@ruc.edu.cn
文繼榮(1972—),博士,博士生導(dǎo)師,教授,主要研究領(lǐng)域為信息檢索、數(shù)據(jù)庫。
E-mail: jirong.wen@gmail.com
趙鑫(1985—),通信作者,博士,副教授,主要研究領(lǐng)域為社交媒體數(shù)據(jù)挖掘、自然語言處理。
E-mail: batmanfly@ruc.edu.cn
ConnectingSocialMediatoE-Commerce:PredictingLong-tailPurchaseBehaviorsusingMultipleAdditiveRegressionTree
BAI Ting1,2, WEN Jirong1,2, ZHAO Xin1,2,YANG Bohua1,2
(1. School of Information, Renmin University of China, Beijing 100872, China;2. Beijing Key Laboratory of Big Data Management and Analysis Methods, Beijing 100872, China)
Long-tail products, with low demands, occupy a significant share of total revenue in total. It is challenging to analyze the long-tail purchase behaviors due to the data sparsity resulted from few purchase behaviors. This paper proposes to leverage online social media information for predicting the long-tail purchase behaviors. In specific, we collect the user profiles form the social media information, including the status text, following links and temporal activity distributions, and predict their purchases by a weighted Multiple Additive Regression Trees (MART). Experimented on the data from JingDong and SinaWeibo, the effectiveness of the proposed method are revealed, together with several interesting findings.
long-tail products; e-commerce shopping; social media; purchase prediction
1003-0077(2017)05-0185-09
TP391
A
2015-04-15定稿日期2016-03-08
國家自然科學(xué)基金青年科學(xué)基金(61502502);國家重點基礎(chǔ)研究發(fā)展計劃(2014CB340403);北京市自然科學(xué)基金(4162032);中國人民大學(xué)2016年度拔尖創(chuàng)新人才培育資助計劃