• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于序列特征的點(diǎn)擊率預(yù)測模型

      2020-08-04 11:30:32朱思涵浦劍
      關(guān)鍵詞:推薦系統(tǒng)

      朱思涵 浦劍

      摘要: 點(diǎn)擊率預(yù)測模型是主流推薦系統(tǒng)中十分重要的部分. 根據(jù)點(diǎn)擊率預(yù)測的打分來調(diào)整商品的展示策略, 對提高業(yè)務(wù)的轉(zhuǎn)化率、改進(jìn)用戶體驗(yàn)等有著重要的意義. 傳統(tǒng)的點(diǎn)擊率預(yù)測模型是利用用戶特征和商品特征, 對點(diǎn)擊率進(jìn)行預(yù)測. 然而, 用戶行為序列的結(jié)構(gòu)特征, 如周期性規(guī)律、趨勢等也能一定程度地體現(xiàn)用戶行為的傾向. 針對部分信息利用上的空缺, 使用時(shí)間序列分析單元, 將提取用戶行為序列的特征作為用戶特征的擴(kuò)展, 結(jié)合因子分解機(jī)結(jié)構(gòu)將其與用戶、商品特征進(jìn)行交叉, 能夠有效提高特征質(zhì)量, 優(yōu)化點(diǎn)擊率預(yù)測模型的性能. 實(shí)驗(yàn)表明, 結(jié)合用戶行為序列特征進(jìn)行交叉優(yōu)化的方法能夠?qū)c(diǎn)擊率預(yù)測模型的表現(xiàn)帶來很大提升, 提高點(diǎn)擊率預(yù)測的精度.

      關(guān)鍵詞: 點(diǎn)擊率預(yù)測; 推薦系統(tǒng); 自回歸滑動(dòng)平均模型; 因子分解機(jī)

      中圖分類號: TP391 文獻(xiàn)標(biāo)志碼: A DOI: 10.3969/j.issn.1000-5641.201921006

      0 引言

      如今互聯(lián)網(wǎng)飛速發(fā)展的大環(huán)境下, 數(shù)據(jù)的數(shù)量和質(zhì)量都以驚人的速度增長著, 各種O2O (Onlineto Offline) 平臺的興起使得用戶的各種需求得到了更好的滿足. 與此同時(shí), 大量的交互行為日志中包含了海量的信息, 如何針對不同的用戶推薦不同的商品是一個(gè)非常值得研究的問題.

      主流O2O 平臺的推薦場景中, App (Application) 或門戶網(wǎng)站等會(huì)針對用戶返回一定數(shù)量的合適商品形成推薦列表. 高質(zhì)量的推薦方案可以幫助用戶節(jié)省大量的時(shí)間, 同時(shí)有效地調(diào)度閑置資源, 滿足平臺的盈利. 一般的商品推薦場景, 排序結(jié)果常由熱度和點(diǎn)擊量等統(tǒng)計(jì)數(shù)據(jù)直接計(jì)算, 粒度較粗. 推薦以大眾興趣和普遍偏好物品為主, 沒有考慮用戶的個(gè)體特征和偏好變化, 容易受到群體熱度影響,覆蓋率不高, 并不能很好地對接日益增長的用戶個(gè)性化需求. 基于用戶和物品交互行為的協(xié)同過濾類推薦方法, 通過用戶對物品的交互反饋計(jì)算, 給個(gè)體用戶推薦用戶受眾相似的物品. 但該方法無法在反饋行為中抽取有意義的特征, 解釋性不強(qiáng), 且容易受到群體行為和極端個(gè)體行為的誤導(dǎo). 新加入的用戶由于缺少行為交互數(shù)據(jù), 無法進(jìn)行高質(zhì)量的推薦. 近年, 基于邏輯斯蒂回歸(Logistic Regression,LR) 和深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN) 的推薦方法擁有更強(qiáng)的表達(dá)擬合能力以適應(yīng)此類任務(wù). 但用戶的興趣處于不斷變化的狀態(tài)中, 傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)無法及時(shí)跟蹤用戶興趣的轉(zhuǎn)移.

      為了解決上述問題, 本文主要貢獻(xiàn)如下.

      (1) 提出了一種基于序列特征的點(diǎn)擊率預(yù)測模型seq-Cross, 結(jié)合用戶行為的序列特征對點(diǎn)擊率預(yù)測模型進(jìn)行優(yōu)化.

      (2) 在特征工程方面, 算法結(jié)合自回歸滑動(dòng)平均模型(Auto-Regressive Moving Average, ARMA)的思想, 對序列的趨勢和自相關(guān)特征進(jìn)行建模, 使用ARMA 單元得到關(guān)于一段時(shí)間內(nèi)用戶行為規(guī)律的特征.

      (3) 在點(diǎn)擊率預(yù)測模型方面, 算法使用建模的序列特征作為用戶/商品屬性的補(bǔ)充, 考慮特征的交叉關(guān)聯(lián)信息, 更好地優(yōu)化模型的排序效果.

      (4) 本文使用某O2O 平臺的真實(shí)日志記錄數(shù)據(jù)進(jìn)行實(shí)驗(yàn)測試算法性能, 實(shí)驗(yàn)結(jié)果表明本文提出的基于序列特征的點(diǎn)擊率預(yù)測模型獲得了更好的效果.

      1 相關(guān)工作

      近年來, 各界針對推薦系統(tǒng)和點(diǎn)擊率預(yù)測方面開展了大量的相關(guān)工作[1], 多數(shù)想法是將其建模為一個(gè)二分類問題再選取適當(dāng)?shù)哪P瓦M(jìn)行擬合, 最終根據(jù)點(diǎn)擊率預(yù)測的結(jié)果打分進(jìn)行推薦列表的排序.在召回階段, 一般采用基于用戶的協(xié)同過濾方法[2] 或基于商品的協(xié)同過濾方法[3] 進(jìn)行候選集合的拉取,它們基于用戶和商品之間評分或交互行為的相似度計(jì)算, 為用戶選擇合適的商品. 但協(xié)同過濾類的推薦方法具有冷啟動(dòng)問題, 在新用戶或者交互行為較少時(shí)無法提供有效的推薦, 而通過基于模型的點(diǎn)擊率預(yù)測打分進(jìn)行排序則沒有這個(gè)問題.

      Richardson 等[4] 提出的基于邏輯回歸模型的點(diǎn)擊率預(yù)測算法和Joachims 等[5] 提出的基于支持向量機(jī)的點(diǎn)擊率預(yù)測算法均使用了線性模型對樣本進(jìn)行二分類建模劃分, 該類方法模型簡單容易實(shí)現(xiàn),但效果精度不高. 此外, 由于在推薦系統(tǒng)的背景下, 大多數(shù)的用戶/商品特征都以離散值的形式存在,會(huì)在訓(xùn)練時(shí)帶來一定的稀疏性, 使得傳統(tǒng)的線性模型性能急劇下降. 針對該類稀疏的多域特征, 一般會(huì)使用One-Hot Embedding 等方式進(jìn)行處理之后再使用模型進(jìn)行訓(xùn)練, 如Zhang 等[6] 對該問題結(jié)合深度學(xué)習(xí)的研究.

      推薦場景中的特征, 往往并非相互獨(dú)立, 而是具有各種不同程度的關(guān)聯(lián)性. 因此, 特征之間的交叉和關(guān)聯(lián), 也包含了非常多的信息. 2010 年, Rendle 等[7] 提出的因子分解機(jī)(Factorization Machine, FM)模型優(yōu)化了特征的編碼問題和交叉問題, 被后來的研究廣泛借鑒. 決策樹[8] 類的模型利用梯度提升[9]等方式, 集成了多個(gè)分類器的預(yù)測結(jié)果, 也在一定程度上緩解了特征稀疏和相關(guān)性帶來的問題, 其中被廣泛使用得最多的xgboost 模型[10] 結(jié)合正則項(xiàng)等優(yōu)化方式, 使過擬合的問題得到了改善.

      近年來, DNN 的發(fā)展, 使模型的擬合能力進(jìn)一步增強(qiáng). 在點(diǎn)擊率預(yù)測方面, Product-Based 神經(jīng)網(wǎng)絡(luò)[11] 使用內(nèi)積結(jié)構(gòu)增加了特征的交叉性; 谷歌Wide & Deep 模型[12] 使用寬+窄模式的同時(shí), 對特征的低階信息和高階信息進(jìn)行了處理; 深度因子分解機(jī)(Deep Factorization Machine, DeepFM) 模型[13] 利用FM 結(jié)構(gòu)代替了Wide & Deep 中的LR, 使不需人工進(jìn)行特征的交叉得以實(shí)現(xiàn). 這些模型均在特征的高低階處理方式上進(jìn)行了不同方向的研究. 點(diǎn)擊率預(yù)測技術(shù)在工業(yè)界應(yīng)用方面也潛力巨大, 文獻(xiàn)[14]從視頻流點(diǎn)擊數(shù)據(jù)中提取特征來預(yù)測用戶行為; 文獻(xiàn)[15] 使用卷積神經(jīng)網(wǎng)絡(luò)預(yù)測廣告的點(diǎn)擊率; 文獻(xiàn)[16] 使用梯度提升決策樹(Gradient Boosting Decision Tree, GBDT) 結(jié)合邏輯斯蒂回歸(LR) 預(yù)測點(diǎn)擊率, 在Facebook 廣告推薦中取得了不錯(cuò)的效果.

      諸多點(diǎn)擊率模型的發(fā)展都基于特征處理和交叉信息的學(xué)習(xí), 然而用戶行為不僅體現(xiàn)在靜態(tài)描述性特征, 還有一定的周期性規(guī)律. 本文對用戶行為特征建模, 探究了周期規(guī)律下用戶行為特征對點(diǎn)擊率的影響. 采集完整的序列往往需要耗費(fèi)大量資源, 葉健等[17] 提出的自適應(yīng)采集算法, 根據(jù)頻率調(diào)整采集策略, 采集彈幕序列進(jìn)行輿情分析. 自回歸滑動(dòng)平均(ARMA) 模型[18] 是處理時(shí)間序列的經(jīng)典方法, 建模序列自身前后的關(guān)聯(lián)性. 本文提出的基于序列特征的點(diǎn)擊率預(yù)測推薦算法seq-Cross, 結(jié)合ARMA 模型作為序列特征提取器, 保留了DeepFM 模型的特征交叉能力, 使用戶行為模式的周期性特征得到了更好利用.

      2 算法框架

      目前工業(yè)界主流的推薦系統(tǒng)主要包括召回、排序兩個(gè)階段, 輔佐以其他結(jié)合業(yè)務(wù)的過濾等, 最終形成個(gè)性化推薦展示.

      (1) 召回階段: 使用多路召回, 通過協(xié)同過濾、熱門排序等方式, 得到一定數(shù)量的候選集; 利用的信息少, 不包含用戶和商品的屬性, 計(jì)算速度快, 精度低, 一般用于第一階段快速縮減數(shù)量級.

      (2) 排序階段: 通過用戶的點(diǎn)擊瀏覽等行為, 確定正負(fù)樣本, 使用點(diǎn)擊率預(yù)測模型預(yù)測商品的點(diǎn)擊率, 根據(jù)點(diǎn)擊率預(yù)測的結(jié)果對候選集進(jìn)行排序, 確定最后展示的結(jié)果; 使用用戶和商品的屬性, 結(jié)合行為確定正負(fù)樣本訓(xùn)練模型, 計(jì)算速度慢, 精度高, 一般用于第二階段對少量候選集商品進(jìn)行精排.

      本文提出的基于序列特征的點(diǎn)擊率預(yù)測模型seq-Cross, 是對排序階段常用的點(diǎn)擊率預(yù)測模型的改進(jìn). 傳統(tǒng)的點(diǎn)擊率預(yù)測模型使用用戶–商品屬性的特征組合向量以及點(diǎn)擊標(biāo)簽來進(jìn)行訓(xùn)練, 模型只會(huì)學(xué)習(xí)用戶和商品靜態(tài)特征之間的相互關(guān)聯(lián)關(guān)系. 然而用戶的偏好和興趣有著一定的波動(dòng)性和起伏,存在規(guī)律性, 如果能適時(shí)地建模用戶行為的特征, 將會(huì)對點(diǎn)擊率預(yù)測起到很大幫助. 本文對一段時(shí)間內(nèi)的用戶行為序列進(jìn)行建模分析, 提取特征作為點(diǎn)擊率預(yù)測模型特征向量的補(bǔ)充, 能夠幫助模型更好地?cái)M合用戶的喜好和行為模式特征.

      用戶短期行為序列的趨勢體現(xiàn)了該用戶對某類商品的興趣變化, 通過結(jié)合建模序列特征進(jìn)行訓(xùn)練可以獲得對用戶更為精準(zhǔn)的描述. 特征的預(yù)處理方面, 用戶的行為序列往往維度大且長度不固定;而點(diǎn)擊率預(yù)測模型常為神經(jīng)網(wǎng)絡(luò), 其等對于輸入的維度有著嚴(yán)格要求的模型, 序列作為向量直接輸入不易處理, 無法被神經(jīng)網(wǎng)絡(luò)很好地利用. 時(shí)間序列本身作為一種具有周期性特征的數(shù)據(jù), 使用模型抽象表示后可使其表達(dá)能力更強(qiáng)且更容易被分析和使用; 用戶和商品的靜態(tài)特征包括離散型和數(shù)值型兩類, 離散型的特征需要進(jìn)行One-Hot Embedding 處理, 輸出稠密變量, 使其在特征空間中有更好的表達(dá)能力.

      本文的算法框架: 首先從數(shù)據(jù)庫中提取用戶和商品靜態(tài)特征; 然后用使用一段時(shí)間內(nèi)的用戶行為序列進(jìn)行建模處理, 提取特征向量; 最后結(jié)合3 部分信息對點(diǎn)擊率預(yù)測模型進(jìn)行訓(xùn)練, 獲取點(diǎn)擊率預(yù)測的打分結(jié)果, 根據(jù)打分結(jié)果進(jìn)行商品的排序以及推薦場景展示策略的調(diào)整等. 本文算法主要框架如圖1 所示.

      在ARMA 模型中, 參數(shù)的數(shù)量和結(jié)構(gòu)由序列的定階結(jié)果決定, 而參數(shù)的值由序列的擬合計(jì)算得到. 在神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的點(diǎn)擊率預(yù)測模型中特征維度固定, 因而需要固定ARMA 模型的參數(shù)數(shù)量. 圖3中的數(shù)據(jù), 無論是哪種車型的用戶行為序列, 均在7 d 間隔上顯示出較強(qiáng)的規(guī)律性. 觀察圖3 自上而下的第二排和第四排所對應(yīng)的自相關(guān)系數(shù)也能發(fā)現(xiàn), 在7 d 單位的間隔上有較強(qiáng)的自相關(guān)性, 因而用戶群的行為序列建??梢圆捎猛A數(shù)的ARMA 模型, 這也保證了參數(shù)數(shù)量的固定. ARMA 模型的階數(shù)確定方式如下.

      (1) 首先對原序列進(jìn)行ADF (Augmented Dickey-Fuller Test) 檢驗(yàn), 判斷其是否為平穩(wěn)序列, 若為非平穩(wěn)序列則需對其進(jìn)行差分處理, 得到平穩(wěn)序列. 圖3 的自上而下第一排為非平穩(wěn)的原始序列, 第二排為對原始序列進(jìn)行差分之后的平穩(wěn)序列. ADF 檢驗(yàn)的結(jié)果如表1 所示. 可以看到差分前, 3 條序列的 t 統(tǒng)計(jì)量和 p 值均大于顯著性水平, 而進(jìn)行差分后均符合標(biāo)準(zhǔn), 可以認(rèn)為序列為平穩(wěn)序列.

      從實(shí)驗(yàn)結(jié)果來看, 在點(diǎn)擊率預(yù)測算法中, 同時(shí)考慮用戶行為序列特征的影響有著重大的意義, 因?yàn)橛脩粜袨樾蛄刑卣靼撕芏嘤杏玫年P(guān)鍵信息; 也證明了本文提出的基于序列特征的點(diǎn)擊率預(yù)測算法, 在實(shí)際業(yè)務(wù)中有良好的表現(xiàn).

      5 結(jié)論

      本文基于用戶行為序列建模提出了一種點(diǎn)擊率預(yù)測模型, 使用ARMA 單元對一段時(shí)間內(nèi)的用戶行為序列提取特征, 考慮了用戶行為的周期性規(guī)律和趨勢對于用戶決策的影響. 使用序列特征作為用戶靜態(tài)特征的擴(kuò)展, 實(shí)質(zhì)上是在時(shí)間維度上對點(diǎn)擊標(biāo)簽進(jìn)行一種更細(xì)粒度的描述, 不僅考慮了點(diǎn)擊行為的產(chǎn)生與否, 也能體現(xiàn)一定的動(dòng)機(jī)特點(diǎn). 使用因子分解機(jī)結(jié)構(gòu)進(jìn)行特征交叉, 利用這部分序列特征與用戶/物品靜態(tài)屬性之間的關(guān)聯(lián), 能夠有效地提高點(diǎn)擊率預(yù)測模型的特征質(zhì)量, 幫助點(diǎn)擊率預(yù)測模型獲得更好的性能. 本文模型在實(shí)驗(yàn)中的表現(xiàn)良好, 說明了對行為序列特征的建模和利用, 對于提高點(diǎn)擊率預(yù)測模型的性能很有幫助. 未來的工作可以在這兩方面有更進(jìn)一步的研究: 在用戶序列建模的方式上進(jìn)行優(yōu)化, 提高信息的利用質(zhì)量; 對用戶序列建模的效率進(jìn)行優(yōu)化, 精化整個(gè)流程的執(zhí)行周期.綜合的, 在性能和效率等方面, 持續(xù)對點(diǎn)擊率預(yù)測模型進(jìn)行改進(jìn)和創(chuàng)新.

      [ 參 考 文 獻(xiàn)]

      [ 1 ] 紀(jì)文迪, 王曉玲, 周傲英. 廣告點(diǎn)擊率估算技術(shù)綜述 [J]. 華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013(3): 2-14.

      [ 2 ]ZHAO Z D, SHANG M S. User-based collaborative-filtering recommendation algorithms on hadoop [C]// 2010 3rd InternationalConference on Knowledge Discovery and Data Mining. IEEE, 2010: 478-481.

      [ 3 ]PIRASTEH P, JUNG J J, HWANG D. Item-based collaborative filtering with attribute correlation: A case study on movierecommendation [C]// Asian Conference on Intelligent Information and Database Systems 2014: Intelligent Information and DatabaseSystems. Cham: Springer, 2014: 245-252. DOI: 10.1007/978-3-319-05458-2_26.

      [ 4 ]RICHARDSON M, DOMINOWSKA E, RAGNO R J, et al. Predicting clicks: Estimating the click-through rate for new ads [C]//Proceedings of the 16th International Conference on World Wide Web. ACM, 2007: 521-530. DOI: 10.1145/1242572.1242643.

      [ 5 ]JOACHIMS T. Optimizing search engines using clickthrough data [C]//Proceedings of the 8th ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining. ACM, 2002: 133-142.

      [ 6 ]ZHANG W N, DU T M, WANG J. Deep learning over multi-field categorical data [C]//European Conference on Information Retrieval2016: Advances in Information Retrieval. Cham: Springer, 2016: 45-57. DOI: 10.1007/978-3-319-30671-1_4.

      [ 7 ]RENDLE S. Factorization machines [C]//2010 IEEE International Conference on Data Mining. IEEE, 2010: 995-1000.DOI: 10.1109/ICDM.2010.127.

      [ 8 ] QUINLAN J R. Induction of decision trees [J]. Machine Learning, 1986, 1(1): 81-106. DOI: 10.1023/A:1022643204877.

      [ 9 ]SCHAPIRE R E. A brief introduction to boosting [C]// Proceedings of the 16th International Joint Conference on ArtificialIntelligence. San Francisco: Morgan Kaufmann Publishers Inc, 1999: 1401-1406.

      [10]CHEN T, GUESTRIN C. Xgboost: A scalable tree boosting system [C]//Proceedings of the 22nd ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining. ACM, 2016: 785-794.

      [11]QU Y, CAI H, REN K, et al. Product-based neural networks for user response prediction [C]//2016 IEEE 16th InternationalConference on Data Mining (ICDM). IEEE, 2016: 1149-1154.

      [12]CHENG H T, KOC L, HARMSEN J, et al. Wide & deep learning for recommender systems [C]//Proceedings of the 1st Workshop onDeep Learning for Recommender Systems. ACM, 2016: 7-10.

      [13]GUO H, TANG R, YE Y, et al. DeepFM: A factorization-machine based neural network for CTR prediction [C]//Proceedings of the26th International Joint Conference on Artificial Intelligence. AAAI, 2017: 1725-1731.

      [14]AGUIAR E, NAGRECHA S, CHAWLA N V. Predicting online video engagement using clickstreams [C]//2015 IEEE InternationalConference on Data Science and Advanced Analytics (DSAA). IEEE, 2015: 1-10.

      [15]李思琴, 林磊, 孫承杰. 基于卷積神經(jīng)網(wǎng)絡(luò)的搜索廣告點(diǎn)擊率預(yù)測 [J]. 智能計(jì)算機(jī)與應(yīng)用, 2015(5): 22-25. DOI: 10.3969/j.issn.2095-2163.2015.05.007.

      [16]HE X R, PAN J F, JIN O, et al. Practical lessons from predicting clicks on ads at Facebook [C]//ADKDD14: Proceedings of the 8thInternational Workshop on Data Mining for Online Advertising. ACM, 2014: pp.1-9. DOI: 10.1145/2648584.2648589.

      [17] 葉健, 趙慧. 基于大規(guī)模彈幕數(shù)據(jù)監(jiān)聽和情感分類的輿情分析模型 [J]. 華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2019(3): 86-100.

      [18] BROCKWELL P J, DAVIS R A, CALDER M V. Introduction to Time Series and Forecasting [M]. New York: Springer, 2002: 73-96.

      [19]XIAO J, YE H, HE X N, et al. Attentional factorization machines: Learning the weight of feature interactions via attention networks[C]//Proceedings of the 26th International Joint Conference on Artificial Intelligence. AAAI, 2017: 3119-3125.

      (責(zé)任編輯: 李 藝)

      猜你喜歡
      推薦系統(tǒng)
      數(shù)據(jù)挖掘在選課推薦中的研究
      軟件(2016年4期)2017-01-20 10:09:33
      基于用戶偏好的信任網(wǎng)絡(luò)隨機(jī)游走推薦模型
      基于個(gè)性化的協(xié)同過濾圖書推薦算法研究
      個(gè)性化推薦系統(tǒng)關(guān)鍵算法探討
      淺談Mahout在個(gè)性化推薦系統(tǒng)中的應(yīng)用
      關(guān)于協(xié)同過濾推薦算法的研究文獻(xiàn)綜述
      商(2016年29期)2016-10-29 15:22:08
      一種基于自適應(yīng)近鄰選擇的協(xié)同過濾推薦算法
      UGC標(biāo)簽推薦系統(tǒng)的一種新的標(biāo)簽清理方法
      商(2016年15期)2016-06-17 17:39:50
      網(wǎng)上商品推薦系統(tǒng)設(shè)計(jì)研究
      基于消費(fèi)者視角的在線推薦系統(tǒng)研究綜述
      中國市場(2016年2期)2016-01-16 10:16:10
      安西县| 安顺市| 九寨沟县| 周口市| 永城市| 常熟市| 云阳县| 郸城县| 洛川县| 阿拉善右旗| 秭归县| 广州市| 疏附县| 铁岭市| 横峰县| 繁峙县| 静乐县| 田阳县| 旌德县| 西林县| 积石山| 温宿县| 双柏县| 潼南县| 梅州市| 镇沅| 辉县市| 赤水市| 达孜县| 济阳县| 汶川县| 康保县| 探索| 鄂州市| 同江市| 肇庆市| 桂东县| 府谷县| 东安县| 日土县| 湘乡市|