• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于特征降維和DBN的廣告點擊率預測

      2018-12-22 08:06:52楊長春梅佳俊
      計算機工程與設(shè)計 2018年12期
      關(guān)鍵詞:點擊率張量數(shù)據(jù)量

      楊長春,梅佳俊,吳 云,顧 寰

      (常州大學 信息科學與工程學院,江蘇 常州 213164)

      0 引 言

      點擊率預測是搜索廣告產(chǎn)業(yè)的核心技術(shù),有效提升點擊率的預測效果不但能滿足廣告主推銷產(chǎn)品與服務(wù)的要求,還能增加廣告媒介的利益,并且可以提升網(wǎng)絡(luò)用戶的滿意度。由此可以看出廣告點擊率預測無疑是計算廣告學中的一個至關(guān)重要的問題,而本文的探索意義也在于此[1]。

      目前比較主流的廣告點擊率預測模型方向的探索主要使用的都是傳統(tǒng)的機器學習中分類算法。朱志北等針對廣告和用戶數(shù)據(jù)量大并且數(shù)據(jù)稀疏的問題,提出了一種基于LDA的方法[2],該方法按照主題,將數(shù)據(jù)分割,再對分割后的數(shù)據(jù)集建立各自的預測模型,根據(jù)各個主題的概率,分配權(quán)重,從而得出最終的預測結(jié)果。針對傳統(tǒng)方法利用單個權(quán)重衡量特征的影響力不夠全面的問題,潘書敏等提出了基于用戶相似度和特征分化的混合模型[3]。Jahrer等[4]提出了一種綜合利用了特征工程,協(xié)同過濾和貝葉斯網(wǎng)絡(luò)等多種模型的混合式點擊率預測模型。岳昆等采用貝葉斯網(wǎng)的概率圖預測沒有歷史記錄的用戶對廣告的點擊率[5]。Rendle利用因子分解對變量間的交互進行建模,提出了因子分解機模型[6],該模型適合處理大量的稀疏數(shù)據(jù)。Trofimov等建立了一個綜合運用多個決策樹來對點擊率預測的梯度提升決策樹模型[7],該模型具有運算時間少,無需大量訓練數(shù)據(jù)的優(yōu)點,但同時該模型并不支持較多的特征,所以可提升空間還很大。Lee等[8]通過數(shù)據(jù)分層的方法來解決數(shù)據(jù)稀疏的問題。

      上述模型還都還是僅僅在探索廣告特征間的線性關(guān)系,并沒有充分挖掘更深層次的非線性關(guān)聯(lián)。本文在將深度學習中的深度置信網(wǎng)絡(luò)運用到廣告點擊率預測領(lǐng)域挖掘深層次的特征關(guān)聯(lián)的同時,還考慮到廣告數(shù)據(jù)中的ID類特征具有高維性,不適合深度學習方法,所以對特征進行了降維處理。

      1 基于特征降維和DBN的預測模型

      1.1 特征選取

      特征提取是廣告點擊率預測的重要過程。本文針對廣告數(shù)據(jù)中的特點,選擇了幾類特征,列舉如下:

      (1)ID類特征。本文中使用的ID類特征包括用戶ID,查詢ID,廣告ID。本文將ID類特征進行one-hot編碼。例如本文中測試數(shù)據(jù)集中共有23 669 284位用戶,用戶ID會被轉(zhuǎn)為23 669 284維的特征,僅當某用戶ID出現(xiàn)時該維會置為1,其余則為0。這樣處理是因為ID類特征不應(yīng)該被分類模型當做具體的值,而是標稱類的特征來處理。但是這樣產(chǎn)生的ID類特征會變成上億維的特征向量,深度學習難以處理這樣高維的特征。所以本文為了降低ID類特征的維度,會在下兩節(jié)中對ID類特征進行降維。

      (2)廣告特征。本文所涉及的廣告特征有廣告位置position和返回頁中的廣告數(shù)depth。搜索的返回結(jié)果中廣告的展示個數(shù)和廣告所在的位置,對于點擊率均有影響。

      (3)用戶特征。本文包含的用戶特征主要有用戶性別gender和用戶年齡age。根據(jù)計算廣告學中的以往經(jīng)驗,性別的不同會導致對廣告的不同反應(yīng),例如,女生對化妝品類廣告更有興趣,而男生對體育,汽車類廣告有更多的點擊欲望。同理,處于不同年齡段的用戶的興趣點也會更傾向于某幾類相對應(yīng)的廣告。

      (4)歷史反饋特征。本文使用的歷史反饋特征有廣告歷史展示次數(shù)ad-view,廣告歷史點擊次數(shù)ad-click,廣告位置歸一化后的點擊率COEC。歷史反饋特征可以很好地評價廣告的質(zhì)量,對于點擊率預測也有較好的作用。

      本文選取的特征庫見表1。

      1.2 K-means聚類

      上節(jié)中提到由于ID類特征維數(shù)過高,不能直接作為深度置信網(wǎng)絡(luò)的輸入,需要進行處理。而通過對廣告數(shù)據(jù)的梳理觀察,可以發(fā)現(xiàn)用戶,查詢,廣告等對象間有著非常復雜的關(guān)系。對于某一對象,比如廣告,其內(nèi)部的成員間具有相似關(guān)系。針對這些對象間的相互性,本文選擇使用K-means聚類,將相似的對象聚類到一起,從而起到降維的作用。

      本文將廣告的聚類作為例子,展示算法的具體過程。

      (1)以數(shù)據(jù)集中的廣告展示次數(shù)為權(quán)重,建立一個廣告-查詢矩陣Mi×j,該矩陣包含i個廣告,j個查詢;

      表1 本文選取的特征庫

      (2)使I=1,從i個廣告中隨機選取出K個當作初始的簇的中心Zp(I),p=1,2,3,…k;

      (3)計算每個廣告xi與各個簇的中心點Zp(I)的距離D(xi,Zp(I)),若廣告xi與簇的中心點Zp(j)的距離最短,即D(xi,Zk(I))=min{D(xi,Zj(I)),i=1, 2, 3,…n},則將xi劃分給第j類;

      (4)將所有廣告劃分好后,再一次計算各個簇的聚類中心

      (1)

      (5)直到聚類中心再也不發(fā)生變化,則聚類完成,否則退回到第(3)步重新計算。

      上文中的聚類算法完成了對廣告的聚類,同樣的,我們也可以基于同一矩陣對查詢進行聚類。兩次聚類都是在原始的矩陣上進行,相互獨立,互不影響。由于用戶,查詢這兩個對象之間也具有相似性,進行類似查詢的用戶之間是有相似性的,所以,可以根據(jù)查詢的聚類結(jié)果將處于同一類查詢的用戶作為一組。

      1.3 張量分解

      張量也可以稱作多維的矩陣,向量即為一維張量,而矩陣則為二維張量。矩陣分解其實是一種特殊的張量分解。N階張量可以定義成A∈RI1×…×IN,張量所包含的元素則可以表示成ai 1 , … , i N。

      將上文中通過聚類得到的數(shù)據(jù)用“用戶-查詢-廣告-權(quán)重”的四元組關(guān)系{u,i,t,w}的形式表現(xiàn),根據(jù)本文中使用的數(shù)據(jù)的特點,權(quán)重選擇聚類后的廣告展示次數(shù)的總和,并以此建立三維張量模型。得到的張量以A∈RI1×…×IN表示。

      本文選用高階奇異值分解法(HOSVD)對張量A分解。

      公式表示如下

      A=S×1U(1)×2U(2)×3U(3)

      (2)

      核心張量S∈RI1×I2×I3是一個與張量A維數(shù)相同的張量,將張量A在3個模式(1-模,2-模,3-模)下進行n-模展開,生成A1,A2,A3。對A1,A2,A3分別進行矩陣分解,結(jié)果表示如下

      (3)

      (4)

      (5)

      (6)

      最后由近似核心張量和3個新的左奇異矩陣計算近似張量

      (7)

      1.4 深度置信網(wǎng)絡(luò)

      本文選用深度置信網(wǎng)絡(luò)來充分挖掘廣告數(shù)據(jù)的特征之間的非線性關(guān)系,從而從低階特征中獲取高階混合特征。

      受限玻爾茲曼機(RBM):RBM是DBN的基本組成成分,它是具有一個顯示層和一個隱藏層的兩層結(jié)構(gòu),兩層之間的節(jié)點進行全連接,層內(nèi)節(jié)點無連接。RBM網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其中,v為顯示層,用于輸入數(shù)據(jù),h為隱藏層,可以作為特征提取器,W為兩層之間的權(quán)重矩陣,偏置量分為顯示層的偏置量m和隱藏層的偏置量n。

      圖1 RBM結(jié)構(gòu)

      RBM定義的能量函數(shù)為

      E(v,h;θ)=-∑vmwnmhm-∑bmvn-∑cnhn

      (8)

      能量函數(shù)的具體定義參見文獻[9]。

      RBM采用對比散度(contrastice divergence,CD)算法進行訓練,這是Hinton提出的一個RBM的快速學習算法[10],并提出了改進[11]。

      深度置信網(wǎng)絡(luò)(DBN):DBN是由數(shù)個RBM堆疊起來的網(wǎng)絡(luò)結(jié)構(gòu),本文所用的深度置信網(wǎng)絡(luò)是由數(shù)層RBM加上最后一層的BP網(wǎng)絡(luò)所構(gòu)成,BP層的激活函數(shù)選擇sigmoid函數(shù)。本文的DBN訓練采用貪心逐層非監(jiān)督的學習方法,DBN的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,訓練步驟分為模型預訓練和參數(shù)微調(diào)兩步。

      圖2 DBN網(wǎng)絡(luò)結(jié)構(gòu)

      預訓練階段:對于DBN的多層結(jié)構(gòu),將每相鄰的兩層作為一個RBM網(wǎng)絡(luò),使用處理好的特征作為輸入層的輸入,從最底層開始使用上節(jié)中的RBM無監(jiān)督學習算法預訓練每一個網(wǎng)絡(luò),每次只訓練一層的網(wǎng)絡(luò)參數(shù),將其訓練好的網(wǎng)絡(luò)的輸出作為下面一層RBM網(wǎng)絡(luò)的輸入,重復此步驟,將所有的RBM網(wǎng)絡(luò)訓練完。每層的RBM網(wǎng)絡(luò)都會對輸入的數(shù)據(jù)進行提取,抽象,挖掘更高層的特征,但是各層RBM網(wǎng)絡(luò)訓練的最好結(jié)果也僅僅是各層的網(wǎng)絡(luò)參數(shù)達到最優(yōu),而并不能使整個網(wǎng)絡(luò)達到最優(yōu),所以預訓練完成后,本文使用有監(jiān)督的BP網(wǎng)絡(luò)將誤差進行反向的傳播,自頂向下微調(diào)整個模型。

      參數(shù)微調(diào)階段:最后一層的BP網(wǎng)絡(luò)將充當模型有監(jiān)督學習的分類器,對DBN模型的參數(shù)自頂向下進行微調(diào)。其訓練過程共有兩步:其一為前向傳播,將輸入信息送入第一層的RBM,經(jīng)過幾個RBM和BP層的計算,得出輸出結(jié)果,其二為反向傳播,計算輸出結(jié)果和正確結(jié)果間的偏差,根據(jù)偏差從輸出端向輸入端反向傳播,更新網(wǎng)絡(luò)結(jié)構(gòu)中的參數(shù)。

      2 實 驗

      2.1 實驗環(huán)境

      硬件環(huán)境:中科曙光服務(wù)器一臺,AMD Opteron(tm) Processor 6320@3.60 GHz 32核CPU,64 GB內(nèi)存。

      軟件環(huán)境:Ubuntu 16.04操作系統(tǒng),Anaconda 3 4.4.0開發(fā)環(huán)境以及TensorFlow工具包。

      2.2 實驗數(shù)據(jù)

      本文使用KDD CUP2012比賽上track2任務(wù)的由騰訊的搜搜搜索引擎提供的廣告點擊日志作為實驗數(shù)據(jù)。數(shù)據(jù)集包括9.8 G的訓練數(shù)據(jù)集,1.2 G的測試數(shù)據(jù)集和243 M的測試數(shù)據(jù)的真實展示次數(shù)和點擊數(shù)。訓練數(shù)據(jù)集包含149 639 105行數(shù)據(jù),測試數(shù)據(jù)則有20 217 594行數(shù)據(jù)。數(shù)據(jù)集中的一行數(shù)據(jù)代表的是某次檢索中的返回頁上的廣告列表中的某一條廣告的關(guān)于用戶,查詢,廣告的所有信息。

      2.3 實驗評估方法

      本文采用ROC曲線下面積AUC作為模型預測性能的評估方法。曲線下面積(AUC)就是ROC曲線下方的那部分面積大小,該值通常在[0.5,1)區(qū)間內(nèi),并且AUC值越大,表明模型性能越好。

      2.4 實驗結(jié)果與分析

      實驗一:隱藏層層數(shù)和節(jié)點數(shù)的確定

      本文為了確定DBN模型對于廣告數(shù)據(jù)最合適的隱藏層層數(shù)和節(jié)點數(shù),選擇在10萬的數(shù)據(jù)集上,分別對不同層數(shù)和節(jié)點數(shù)的模型進行訓練,然后比較在同一測試集上的AUC指標,見表2。從表2中可知,將模型層數(shù)從2層提高到3層,不論節(jié)點數(shù)怎么變化,預測效果都有了明顯的提高,而當層數(shù)增加到4層,雖然預測效果還是比2層的模型有了提高,但是卻并沒有比3層提高多少,有些甚至比3層模型還差。5層與4層的模型表現(xiàn)類似。所以,本文選擇3層作為DBN模型的隱藏層層數(shù)。而通過比較表中的3層模型的AUC值,本文選擇將隱藏層的節(jié)點數(shù)自底向下分別設(shè)為50層,500層和100層。

      表2 不同隱藏層層數(shù)和節(jié)點數(shù)的深度置信網(wǎng)絡(luò)模型的AUC值

      實驗二:預測效果的比較與分析

      本文選擇在5種數(shù)據(jù)規(guī)模的訓練集上,并選用同一測試集對預測效果進行評價。既考慮了數(shù)據(jù)的規(guī)模對預測效果的影響,也比較了不同方法的預測效果。表3展示了不同模型在不同規(guī)模下的預測效果。在表中LR表示傳統(tǒng)的邏輯回歸模型,HPCM表示文獻[12]中的矩陣分解和張量分解加EM算法的點擊預測模型,KTDDBN表示本文的模型。

      表3 3種模型在不同數(shù)據(jù)量下的預測結(jié)果

      從表3可知,在不同數(shù)據(jù)量下3種模型的預測效果相比較,本文的KTDDBN模型要優(yōu)于其它兩種模型,并且當數(shù)據(jù)量逐漸增加,預測結(jié)果的提高也愈加明顯,在數(shù)據(jù)量為10萬時,相比于LR和HPCM模型,本文的模型分別只有0.0019和0.0009的提高,而隨著數(shù)據(jù)量逐步增大,本文比其它模型的效果的提高愈加增加,當數(shù)據(jù)量提升到90萬時,比其它兩個模型的提高已經(jīng)分別達到0.0614和0.0370。

      為了更直觀地看出不同數(shù)據(jù)量下3種模型的預測效果的變化趨勢,圖3展示了表3所對應(yīng)的AUC折線圖。

      圖3 3種模型在不同數(shù)據(jù)量時的預測結(jié)果對比

      從圖3中可知當數(shù)據(jù)量逐漸增大,各模型的預測性能均表現(xiàn)出上升的趨向,這表明隨著訓練數(shù)據(jù)的增大,各模型均得到了更充分的訓練,獲得更穩(wěn)健的參數(shù)。然而,3種模型雖然在數(shù)據(jù)量增大時,預測效果均呈上升趨勢,但他們變化趨勢卻不盡相同。剛開始,3種模型預測效果無太大差異,這說明此時,3種模型均處于過擬合狀態(tài),未得到充分訓練。隨著數(shù)據(jù)量逐漸增加,本文的KTDDBN模型的預測效果提升速度明顯要優(yōu)于其它兩個模型。而當數(shù)據(jù)量達到50萬之后,LR模型的預測效果已趨于平穩(wěn),HPCM模型也在數(shù)據(jù)量處于70萬之后,預測效果不再有明顯提升。相對的本文的KTDDBN模型在90萬數(shù)據(jù)量之時仍有較明顯的上升趨勢。

      3 結(jié)束語

      本文針對廣告數(shù)據(jù)中ID類特征的高維性,基于廣告數(shù)據(jù)間的相似性,對其進行聚類,一定程度上降低其維度,再建立張量模型,獲得低階近似張量,并利用了廣告數(shù)據(jù)的特征具有復雜的非線性關(guān)系的特點,引入了深度學習中的深度置信網(wǎng)絡(luò),對其深層特征組合進行學習。實驗結(jié)果表明,本文模型的預測結(jié)果相比其它方法有一定的提高。然而,本文的模型雖有改進,但尚有不足,所以下一步的研究方向是如何在保證預測效果的同時,減小計算開銷。

      猜你喜歡
      點擊率張量數(shù)據(jù)量
      基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
      偶數(shù)階張量core逆的性質(zhì)和應(yīng)用
      計算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
      四元數(shù)張量方程A*NX=B 的通解
      高刷新率不容易顯示器需求與接口標準帶寬
      寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計與研究
      電子制作(2019年13期)2020-01-14 03:15:18
      基于特征工程的視頻點擊率預測算法
      擴散張量成像MRI 在CO中毒后遲發(fā)腦病中的應(yīng)用
      喜報!萌寶大賽參賽者660名,投票321657人次,點擊率超60萬!
      海峽姐妹(2015年8期)2015-02-27 15:12:30
      工程中張量概念的思考
      河南科技(2014年19期)2014-02-27 14:15:33
      柳江县| 万源市| 巴林右旗| 长岛县| 永昌县| 蚌埠市| 鄂托克前旗| 绩溪县| 鄂温| 安仁县| 衢州市| 渝中区| 嵩明县| 辽宁省| 荔浦县| 建瓯市| 多伦县| 蓬溪县| 新竹县| 民勤县| 武乡县| 增城市| 乌海市| 曲阳县| 鄢陵县| 都昌县| 新晃| 城步| 尚志市| 循化| 崇信县| 家居| 桦甸市| 文成县| 天气| 射洪县| 隆子县| 崇信县| 柳河县| 榆社县| 新干县|