馮宇寒 陳琳 周剛
摘要:廣告點擊率預估模型在前深度學習時代工業(yè)界大多使用訓練速度快、可解釋強的LR以及挖掘聯(lián)合特征的FM模型。2016年google提出的Wide&Deep模型為之后的預估模型開辟了一條雙網格訓練的道路。本文聚焦于Wide&Deep族的廣告點擊率預估模型,在代碼上實現了各模型,并在數據集上進行了實驗對比。
關鍵詞:深度學習;廣告點擊率預估;Wide&Deep
中圖分類號:TH69? ? ? 文獻標識碼:A
文章編號:1009-3044(2020)32-0224-02
Abstract:In the pre-deep learning era, the advertising click-through rate prediction model mostly used LR with fast training speed and strong interpretability and FM model with joint feature mining. The Wide&Deep model proposed by Google in 2016 opened up a dual-grid training path for the subsequent prediction model. This article focuses on the prediction model of advertising click-through rate of the Wide&Deep family,implements each model on the code,and conducts an experimental comparison on the data set.
Key words:deep learning; ad click-through rate estimation; Wide&Deep
1 引言
從1994年10月第一個banner廣告出現開始,互聯(lián)網廣告已經發(fā)展成一個數十億美元的規(guī)模的產業(yè)[1]。廣告點擊率模型在傳統(tǒng)機器學習時代,主要的模型從2010年之前的邏輯回歸(LR),進化到因子分解機(FM)、梯度提升樹(GBDT)。在廣告點擊率模型進入到深度學習時代后,其中最為著名的是2016年google提出的Wide&Deep[2]模型,該模型創(chuàng)造性地提出了記憶能力與泛化能力,將線性模型與深度學習網絡融合訓練,能夠同時兼具挖掘藏在數據身后規(guī)律和記住大量歷史信息的能力。后續(xù)發(fā)展出現的深度學習模型DCN[3]、DeepFM[4]、AFM[5]以及NFM[6]和NFFM均是經過該模型為基礎所調整。
本文對在業(yè)界影響力較大的幾大模型[7]做了介紹,并且用代碼實現了各個模型,在數據集上運行各個模型,在實驗基礎上對各模型優(yōu)劣展開論述。
2 算法原理
本文著眼于Wide&Deep、DCN、DeepFM以及NFM模型。
2.1 Wide&Deep
Wide&Deep模型創(chuàng)造性地提出了記憶性和泛化性兩個概念,該模型把單輸入層的Wide部分和經過多層感知機的Deep部分連接起來,一起輸入最終的輸出層。其中Wide部分的主要作用是讓模型具有記憶性,單層的Wide部分善于處理大量稀疏的id類特征,便于讓模型直接“記住”用戶的大量歷史信息;Deep部分的主要作用是讓模型具有“泛化性”,利用DNN表達能力強的特點,挖掘藏在特征后面的數據模式。之后LR輸出層將Wide部分和Deep部分組合起來,形成輸出結果。Wide&Deep對之后模型的影響在于——大量深度學習模型采用了兩部分甚至多部分組合的形式,利用不同網絡結構挖掘不同的信息后進行組合,充分利用和結合了不同網絡結構的特點。
2.2 FM
在Wide&Deep之后,諸多模型延續(xù)了雙網絡組合的結構,DeepFM就是其中之一。DeepFM對Wide&Deep的改進之處在于,它用FM替換掉了原來的Wide部分,加強了淺層網絡部分特征組合的能力。事實上,由于FM本身就是由一階部分和二階部分組成的,DeepFM相當于同時組合了原Wide部分、二階特征交叉部分與Deep部分三種結構,無疑進一步增強了模型的表達能力。
2.3 DCN
Google 2017年發(fā)表的Deep&Cross Network(DCN)同樣是對Wide&Deep的進一步改進,主要的思路使用Cross網絡替代了原來的Wide部分。其中設計Cross網絡的基本動機是為了增加特征之間的交互力度,使用多層cross layer對輸入向量進行特征交叉。單層cross layer的基本操作是將cross layer的輸入向量xl與原始的輸入向量x0進行交叉,并加入bias向量和原始xl輸入向量。DCN本質上還是對Wide&Deep中的Wide部分表達能力不足的問題進行改進,與DeepFM的思路非常類似。
2.4 NFM
相對于DeepFM和DCN對于Wide&Deep中對Wide部分的改進,NFM可以看作是對Deep部分的改進。FM可以看作是由單層LR與二階特征交叉組成的W&D架構,與W&D架構的不同之處僅在于Deep部分變成了二階隱向量相乘的形式。再進一步,NFM從修改FM二階部分的角度出發(fā),用一個帶Bi-interaction層的DNN替換了FM的特征交叉部分,形成了獨特的W&D架構。其中Bi-interaction可以看作是不同特征embedding的element-wise product的形式。這也是NFM相比Wide&Deep的創(chuàng)新之處。
3 實驗分析
3.1 實驗數據以及預處理
本文選擇了criteo在kaggle上舉辦的展示廣告點擊率預估挑戰(zhàn)大賽的數據集,在該數據集中,criteo共享了一周的流量數據。該數據集共有四十個特征,第一個為標簽,為二分類類型,含義為該用戶是否點擊廣告。第二到十四個特征是連續(xù)性特征,全部為整數。剩下的26個特征為分類特征,并且值被hash處理過,以達到特征匿名的效果。
本實驗將該數據集按9:1進行劃分分為訓練集和測試集。對連續(xù)性特征進行缺失值補0,離散分桶處理;對離散型特征過濾頻率低于10的特征值處理。
3.2 評價指標
本實驗采用AUC評價指標。
在介紹評價指標之前,要先介紹準確率和召回率兩個概念。準確率P為預測為正的樣本中,真實標簽為正的樣本的比例P=TP/(TP+FP);召回率R為真實標簽為正的樣本中,預測為正的比例R=TP/(TP+FN)。
而在ROC曲線中,橫軸為假正例率FPR,縱軸為真正例率TPR。其中假正例率為真實標簽為負的樣本中,預測為正的樣本比例FPR=FP/(FP+TN);真正例率實際上就是召回率。如果模型A的ROC曲線能完全包住模型B的ROC曲線,則可斷言A的性能比B好,但是兩個模型的ROC往往是相交的,這時為了比較性能就需要用到AUC。
AUC就是ROC曲線和x軸(FPR軸)之間的面積。AUC考慮的是模型預測的排序質量,反映了模型把正例排在反例前面的比例,如果AUC=1,說明模型100%將所有正例排在反例前面。
3.3 實驗結果與分析
在運行時間上,如表2所示,7萬兩千個樣本Wide&Deep只訓練了1686秒,DeepFM訓練了2641秒,DCN訓練了8549秒,NFM訓練了2502秒。在表中我們可以直觀看出Wide&Deep在樣本上訓練的時間極短、極快,而相應的DCN的訓練時間上很難達到Wide&Deep的量級,達到了2.4個小時。
如表2所示,更多的訓練時間使得DCN在評價指標上拿到了最好的表現,AUC值比最差的Wide&Deep高出了兩個千分點,相比于表現第二好的NFM模型提升了一個千分點。在實驗中,我們也看到另一指標LogLoss的值,雖然DCN在這些模型中的表現并不好看,但從指標意義來看,LogLoss是一個通用性的指標,AUC則更加希望正類得分盡可能高,故我們仍然可以說DCN在這些深度學習模型中表現最好。
4 結論
在實驗中,我們簡單地實現了模型,用這些基礎模型來對深度學習中的廣告點擊率模型做綜述,并未對參數進行調優(yōu),故我們得出有限的結論:在運行時間上,Wide&Deep有著巨大的優(yōu)勢,訓練時間短,相比于DCN縮短了五倍。在理論上和實踐中,DCN模型的優(yōu)勢則更突出,超參數數目更多,模型更復雜。更充分地挖掘了特征背后的關系,聯(lián)合特征對結果的影響。在此實驗中,網絡結構更為復雜的DCN確實拿到了最好的表現效果。
參考文獻:
[1] 劉鵬, 王超.計算廣告:互聯(lián)網商業(yè)變現的市場與技術[M].北京:人民郵電出版社, 2015.
[2] CHENG H T, KOC L, HARMSEN J, et al.Wide & Deep Learning for Recommender Systems[C]//The Workshop on Deep Learning for Recommender Systems.Boston, USA, 2016:7-10.
[3] WANG R, FU B, FU G, et al.Deep & Cross Network for Ad Click Predictions[C]//Proceedings of AdKDD and TargetAd.Halifax, 2017:1-7.
[4] GUO H, TANG R, YE Y, et al.DeepFM:A Factorization-Machine based Neural Network for CTR Prediction[C]//Procee-dings of the Twenty-Sixth International Joint Conference on Artificial Intelligence.Melbourne, Australia, 2017:1725-1731.
[5] XIAO J, YE H, HE X N.Attentional Factorization Machines:Learning the Weight of Feature Interactions via Attention Networks[C]//Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence.Melbourne, Australia, 2017:3119-3125.
[6] HE X G, CHUA T S.Neural Factorization Machines for Sparse Predictive Analytics[C]//The 40th International ACM SIGIR Conference on Research and Development in Information Retrieval.Shinjuku, Tokyo, Japan, 2017:355-364.
[7] 劉夢娟,曾貴川,岳威,等.面向展示廣告的點擊率預測模型綜述[J].計算機科學,2019,46(7):38-49.
【通聯(lián)編輯:梁書】