• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Catboost算法的優(yōu)惠券個性化投放

      2018-12-18 11:09:24廣東工業(yè)大學劉嘉穗
      電子世界 2018年23期
      關鍵詞:優(yōu)惠券梯度個性化

      廣東工業(yè)大學 劉嘉穗

      優(yōu)惠券投放是O2O消費模式的一種重要營銷手段,但隨機投放會給大多數(shù)用戶帶來無意義的攪擾,并且還會增加商家業(yè)務的營銷成本。因此,本文對真實的用戶歷史行為信息進行挖掘,并基于Catboost算法對用戶未來是否會核銷優(yōu)惠券進行預測,進而個性化向用戶投放優(yōu)惠券。Catboost是一種新型的梯度提升樹算法,相較于傳統(tǒng)算法,它具有更高的準確度,因此,可以更加準確地預測用戶將來的消費模式,進而為優(yōu)惠券的個性化投放提供一種更為可靠的決策依據(jù)。

      1.概述

      在線上平臺消費的過程中,人們會留下如瀏覽、搜索、點擊、收藏、評論等一系列行為特征指標,并最終會產(chǎn)生購買與否的消費行為結果。國外著名電商巨頭亞馬遜,通過對用戶線上的這一系列行為特征和行為結果進行挖掘分析,得到用戶的喜好和購買規(guī)律,預測用戶的消費行為,以此為基礎,構建推薦系統(tǒng)對用戶進行個性化推薦。據(jù)調(diào)研,其推薦轉(zhuǎn)化率高達60%(Linden,G.,Smith,B.,York,J.,2003.Amazon.com recommendations:Item-to-item collaborative filtering.Internet Computing,IEEE 7,76-80)。國外視頻網(wǎng)站Netflix(Amatriain X,Basilico J.Netflix recommendations:beyond the 5 stars(part I)[J].Netflix Tech Blog,2012,6)和社交平臺Facebook(唐穎.巴克萊卡:Facebook廣告效果頗佳[J].國際品牌觀察,2012(8):110-111)也都基于自己平臺上的用戶行為日志,打造個性化商品推薦和廣告投放服務,在進一步增加公司利潤的同時,也有效地提升了用戶體驗和用戶粘性,實現(xiàn)用戶、商家共贏。

      許多學者也結合機器學習方法對推薦系統(tǒng)進行研究,以進一步提升推薦效果。朱奕健等人以隨機森林為模型,基于電信業(yè)務數(shù)據(jù),構建電信運營商外呼推薦系統(tǒng),有效提高了外呼用戶的接受率(朱奕健,張正卿,黃一清,自瑞瑞,嚴建峰.基于隨機森林模型的電信運營商外呼推薦系統(tǒng)[J].計算機科學,2016(S2))。He X等(HE X,PAN J,JIN O,et al.Practical Lessons from Predicting Clicks on Ads at Facebook[C]//Eighth International Workshop on Data Mining for Online Advertising.ACM,2014:1-9)將梯度提升樹(GBDT)和邏輯回歸(LR)相結合,通過GBDT對特征進行非線性映射,并用LR進行訓練,以此提升廣告的點擊率預估,為廣告的個性化投放提供決策依據(jù)。O2O消費模式自然與數(shù)以億計的消費者相關,商戶平臺記錄著海量的用戶行為日志。本文通過分析用戶的歷史交互日志,從用戶、商戶、優(yōu)惠券等多方面構造特征,并引入新型的梯度提升樹算法Catboost進行訓練,預測用戶將來是否會核銷優(yōu)惠券。實驗表明,相較于傳統(tǒng)算法,Catboost具有更高的預測準確度,為優(yōu)惠券的個性化投放提供了可靠的決策依據(jù)。

      2.數(shù)據(jù)處理

      2.1 數(shù)據(jù)描述

      本文采用阿里巴巴天池大數(shù)據(jù)平臺的開放數(shù)據(jù)集,包含了用戶、商戶和優(yōu)惠券三者在2016年1月1日至2016年6月30日的真實交互行為(https://tianchi.aliyun.com/datalab/dataSet.html?spm=5176.1000 73.0.0.36ed6fc1dn1mQN&dataId=59),每條消費記錄包含了用戶、商戶、優(yōu)惠券、優(yōu)惠率、用戶與商戶的距離、優(yōu)惠券領取日期以及消費日期共7個字段。用戶的行為結果分為“使用優(yōu)惠券進行消費(正樣本)”、“沒有領取優(yōu)惠券進行消費(普通消費)”以及“領取了優(yōu)惠券但沒有進行消費(負樣本)”。通過挖掘歷史行為記錄,對用戶在未來15天內(nèi)是否會核銷優(yōu)惠券進行預測。

      2.2 特征構造

      原始數(shù)據(jù)包含的信息較少,不足以表征用戶的消費行為習慣,同時原始數(shù)據(jù)也包含了大量的缺失值以及各種非數(shù)值型數(shù)據(jù),不能直接用于模型的訓練。為此,我們對原始數(shù)據(jù)進行統(tǒng)計歸納,構造特征如表1所示。

      表1 各類特征描述

      表1分別包含用戶、商戶、優(yōu)惠券、用戶-商戶四個維度的特征。用戶特征包括用戶的總消費次數(shù)、優(yōu)惠券的領取和使用次數(shù)以及優(yōu)惠券領取和使用的時間間隔統(tǒng)計等,反映的是用戶在此期間的消費行為表現(xiàn)。同樣,商店和消費券特征也僅反映商店和消費券自身的受歡迎程度。用戶-商店屬于交叉特征,反映的是用戶對商店的喜歡程度或是消費的可能性。

      3.算法描述

      化我們的損失函數(shù)并得到最終的強學習器,算法流程如圖1所示,訓練集為,損失函數(shù),以及迭代次數(shù)M。

      由上述算法流程我們可以很清楚地發(fā)現(xiàn)GBDT就是在函數(shù)空間中的梯度下降。我們首先求得損失函數(shù)關于F(x)的負梯度,隨后訓練基學習器去擬合負梯度并得到最優(yōu)步長,最后將各步得到的基學習器相加,也即是不斷地減去梯度,進而得到最終的強學習器FM(x)。

      3.1 GBDT

      梯度提升決策樹(GBDT)(Jerome H Friedman.2001.Greedy function approximation:a gradient boosting machine.Annals of statistics(2001)1189-1232)是由Friedman提出的基于boosting框架的集成學習方法,它認為boosting在一些適當?shù)膿p失函數(shù)中是一種優(yōu)化算法。它的核心思想類似于梯度下降,通過在函數(shù)空間中迭代地選取基學習器(通常是決策樹)來指向損失函數(shù)的負梯度方向,進而優(yōu)

      圖1 GBDT算法流程

      3.2 Catboost

      Catboost(A.V.Dorogush,A.Gulin,G.Gusev,N.Kazeev,L.Ostroumova Prokhorenkova,and A.Vorobev.Fighting biases with dynamic boosting.arXiv preprint arXiv:1706.09516,2017)是Gradient Boosting的一種新型實現(xiàn)。正如上一節(jié)的算法流程所示,在傳統(tǒng)的GBDT的每一步迭代中,它都是基于相同的數(shù)據(jù)集求得損失函數(shù)對于當前模型的梯度,并基于該梯度來訓練得到基學習器,但這會導致逐點梯度估計偏差,從而使得最終學習到的模型過擬合。Catboost通過采用Ordered Boosting的方式對經(jīng)典算法中梯度估計方式進行改變,進而獲得對梯度的無偏估計,以減輕梯度估計偏差的影響,提高模型的泛化能力,Ordered Boosting的算法流程如圖2所示。

      圖2 Ordered Boosting流程

      由上述流程可知,為了得到無偏梯度估計,Catboost對每一個樣本xi都會訓練一個單獨的模型Mi,模型Mi由使用不包含樣本xi的訓練集訓練得到。我們使用Mi來得到關于樣本的梯度估計,并使用該梯度來訓練基學習器并得到最終的模型。

      3.3 評判指標

      對于顧客是否會在指定時間內(nèi)核銷優(yōu)惠券,我們將其轉(zhuǎn)換為一二分類問題進行處理,并且我們重點關注模型的泛化性能力,所以我們采用ROC曲線下面積AUC來作為評判模型的指標。我們基于模型的預測結果對樣本進行排序,計算得到“真正例率”(True Positive Rate,TPR)和“假正例率”(False Positive Rate,FPR)并分別作為縱軸和橫軸從而得到ROC曲線,最終得到曲線下面積AUC。具體公式如下:

      其中TP為正確預測的正樣本數(shù),F(xiàn)P錯誤預測的負樣本數(shù),TN為正確預測的負樣本數(shù),F(xiàn)N為錯誤預測的正樣本數(shù)。

      4.實驗結果

      我們從時間維度上對原始數(shù)據(jù)進行滑窗劃分,以連續(xù)4個月作為一個窗口,一個月作為間隔,將前三個月作為特征數(shù)據(jù),后一個月作為標簽數(shù)據(jù),以此將原始數(shù)據(jù)分為3個數(shù)據(jù)集。我們使用前兩個數(shù)據(jù)集訓練模型,用第三個數(shù)據(jù)集來測試模型,得到模型的AUC并和傳統(tǒng)的GBDT和另一種著名實現(xiàn)Xgboost(T.Chen and C.Guestrin.Xgboost:A scalable tree boosting system.In Proceedings of the 22Nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,pages 785-794.ACM,2016)進行對比,ROC曲線和AUC結果如圖3和表2所示。

      表2 AUC結果對比

      圖3 ROC曲線

      如結果所示,Catboost算法的AUC值都高于其它兩種算法,相較于其它兩種算法,Catboost具有更高的準確度和更強的泛化能力。

      5.結語

      本文采用新型梯度提升決策樹Catboost算法,并基于真實的客戶歷史行為信息構造用戶消費模型,預測用戶是否會在指定時間內(nèi)核銷優(yōu)惠券。實驗結果表明,Catboost具有更高的準確度和更好的的泛化能力,從而能更加準確地預測用戶將來的消費模式,進而為優(yōu)惠券的個性化投放提供一種更為可靠的決策依據(jù)。

      猜你喜歡
      優(yōu)惠券梯度個性化
      一個改進的WYL型三項共軛梯度法
      淘寶直播優(yōu)惠券怎么設置
      一種自適應Dai-Liao共軛梯度法
      巧用優(yōu)惠券
      堅持個性化的寫作
      文苑(2020年4期)2020-05-30 12:35:12
      一類扭積形式的梯度近Ricci孤立子
      新聞的個性化寫作
      新聞傳播(2018年12期)2018-09-19 06:27:10
      上汽大通:C2B個性化定制未來
      滿足群眾的個性化需求
      地溫梯度判定地熱異常的探討
      河南科技(2014年3期)2014-02-27 14:05:45
      高碑店市| 张家界市| 道孚县| 洛川县| 绥芬河市| 奉贤区| 苍梧县| 平利县| 阿坝| 噶尔县| 历史| 漾濞| 葵青区| 赞皇县| 宁国市| 邓州市| 沈丘县| 高唐县| 漳平市| 浙江省| 河间市| 葵青区| 浠水县| 永泰县| 滦平县| 英德市| 界首市| 延庆县| 桑日县| 钟山县| 双辽市| 遵义县| 登封市| 呼和浩特市| 行唐县| 余干县| 丰镇市| 新化县| 时尚| 竹溪县| 普洱|