• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      特征融合與分發(fā)的多專家并行推薦算法框架

      2023-08-25 08:05:22楊哲葛洪偉李婷
      關(guān)鍵詞:關(guān)聯(lián)架構(gòu)建模

      楊哲,葛洪偉,李婷

      (1.江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院,江蘇 無(wú)錫 214122;2.江蘇省模式識(shí)別與計(jì)算智能工程實(shí)驗(yàn)室,江蘇 無(wú)錫 214122)

      點(diǎn)擊率預(yù)測(cè)(click-through rate, CTR)任務(wù)是預(yù)測(cè)用戶點(diǎn)擊廣告的概率,在工業(yè)應(yīng)用中十分重要,比如推薦系統(tǒng)或在線廣告.模型的性能和預(yù)測(cè)結(jié)果與廣告商利潤(rùn)有著最直接的關(guān)聯(lián),對(duì)后續(xù)下游任務(wù)比如推薦排序算法、重排算法和廣告替換等決策有著重要的參考意義.

      當(dāng)前CTR模型中存在以下3個(gè)問(wèn)題.1)Embedding占用資源及計(jì)算耗費(fèi)較高,Embedding可以將原始高度稀疏的輸入數(shù)據(jù)映射到低維密集空間中,大型數(shù)據(jù)集中每個(gè)特征的非重復(fù)值數(shù)量為千萬(wàn)級(jí)別,Embedding維度設(shè)置過(guò)高會(huì)導(dǎo)致占用很大的內(nèi)存或顯存資源,導(dǎo)致計(jì)算耗費(fèi)昂貴.2)并行架構(gòu)Embedding輸入部分參數(shù)過(guò)度共享,導(dǎo)致輸入到并行架構(gòu)中的特征信息無(wú)任何可分辨性.對(duì)于不同的特征建模方式,關(guān)注的特征信息不同,因此不是所有特征對(duì)該建模方式有意義[1].并行架構(gòu)的Embedding輸入部分應(yīng)該有所區(qū)分,要訓(xùn)練出更匹配建模方式的特征輸入.3)并行架構(gòu)子網(wǎng)絡(luò)部分參數(shù)共享不足.顯式建模和隱式建模部分獨(dú)立計(jì)算,這2個(gè)部分只有在最后計(jì)算結(jié)束的時(shí)候才會(huì)進(jìn)行信息融合.Hu等[2]的研究表明,并行架構(gòu)計(jì)算部分因缺乏共享參數(shù)而無(wú)法捕捉不同特征語(yǔ)義的相關(guān)性,在反向傳播期間容易出現(xiàn)梯度較陡的情況.

      本研究提出輕量級(jí)且高性能的多專家并行推薦算法框架(mixture of experts for parallel recommendation algorithm framework, ME-PRAF),其核心組件為Fusion模塊和Broker模塊.Fusion模塊用于在顯式建模層和隱式建模層之間建立連接,融合顯式特征和隱式特征的關(guān)聯(lián)信息,解決參數(shù)共享不足的問(wèn)題.Broker模塊用于學(xué)習(xí)表現(xiàn)力更強(qiáng)的低維度Embedding輸入,分別為顯式建模層和隱式建模層訓(xùn)練具有分辨性和個(gè)性化的特征信息,解決參數(shù)過(guò)度共享的問(wèn)題.由于Fusion模塊與Broker模塊的輕量級(jí)和高性能特性,在3個(gè)公共數(shù)據(jù)集上的大量實(shí)驗(yàn)結(jié)果表明,利用該算法框架,能夠有效地提高SOTA并行架構(gòu)算法模型的性能.

      1 相關(guān)工作

      1.1 并行架構(gòu)與串行架構(gòu)

      在研究早期,學(xué)者們通常手工刻畫(huà)所有特征,導(dǎo)致模型過(guò)擬合很難泛化[3].使用線性模型、支持向量機(jī)及因子分解機(jī)[4]等方法訓(xùn)練CTR模型,但是都只能建模低階特征信息.大規(guī)模數(shù)據(jù)集都隱含用戶和用戶、用戶和物品以及物品與物品之間的高階特征關(guān)聯(lián)[5],因此有必要對(duì)數(shù)據(jù)集中的高階特征關(guān)聯(lián)建模[6].近年來(lái),學(xué)者提出眾多深度神經(jīng)網(wǎng)絡(luò)來(lái)建模高階特征關(guān)聯(lián),以端到端的方式捕捉特征信息,無(wú)須繁瑣地手動(dòng)刻畫(huà)特征.大部分模型使用多層感知機(jī)(multilayer perception, MLP)建模隱式高階特征關(guān)聯(lián).Beutel等[7]的研究表明,MLP在建模2階或3階特征時(shí)的交叉效果較差,且隱式建模的方式導(dǎo)致模型的可解釋性較差,因此大部分CTR算法將顯式建模和隱式建模2個(gè)模塊搭配使用.根據(jù)2個(gè)模塊不同的組織方式,可以分為串行架構(gòu)和并行架構(gòu).如圖1所示,串行架構(gòu)是顯式建模網(wǎng)絡(luò)后連接隱式建模網(wǎng)絡(luò),PIN[8]、DIN[9]和DIEN[10]等算法屬于這種架構(gòu);并行架構(gòu)中,兩者獨(dú)立進(jìn)行計(jì)算,最終將兩者輸出融合,比如算法模型DCN[11]、AutoInt+[12]和DCN-v2[6]等.在實(shí)際的工業(yè)生產(chǎn)環(huán)境中,通常使用多GPU進(jìn)行訓(xùn)練,并行架構(gòu)能夠充分利用多GPU資源,相比于串行架構(gòu)可以節(jié)約訓(xùn)練時(shí)間,因此本文主要關(guān)注對(duì)并行架構(gòu)的優(yōu)化.

      圖1 串行架構(gòu)和并行架構(gòu)的示意圖Fig.1 Illustration of sequential and parallel architecture

      1.2 特征關(guān)聯(lián)

      如何有效建模特征關(guān)聯(lián)是CTR任務(wù)的關(guān)鍵,同時(shí)利用顯式特征和隱式特征是當(dāng)前主流CTR模型的核心思想.根據(jù)處理顯式特征和隱式特征的模塊組織方式不同,分為串行架構(gòu)和并行架構(gòu).本文只關(guān)注并行架構(gòu),眾多CTR模型中都是使用MLP來(lái)建模隱式特征關(guān)聯(lián),因此不作過(guò)多詳述.Cheng等[3]提出DeepFM算法,通過(guò)因子分解機(jī)學(xué)習(xí)低階顯式特征關(guān)聯(lián),但只能學(xué)習(xí)二階顯式特征關(guān)聯(lián),無(wú)法捕捉更高階信息.DCN[11]算法使用特征交叉網(wǎng)絡(luò)顯式建模有限階特征關(guān)聯(lián),計(jì)算更高效.DeepFM[13]使用壓縮感知層,以vector-wise的方式進(jìn)行特征交叉,但參數(shù)量大且計(jì)算復(fù)雜度高.

      AutoInt+[12]使用多頭自注意力機(jī)制構(gòu)建顯式特征關(guān)聯(lián),訓(xùn)練后的注意力權(quán)重矩陣具有較好的模型可解釋性.DCN-v2[6]使用權(quán)重矩陣替換DCN中的權(quán)重向量,可以捕捉不同語(yǔ)義子空間下的特征關(guān)聯(lián).

      1.3 并行架構(gòu)的優(yōu)化

      學(xué)者們對(duì)并行架構(gòu)提出很多優(yōu)化方案.在多模態(tài)訓(xùn)練任務(wù)中,針對(duì)模型只對(duì)淺層和輸出層進(jìn)行特征融合的問(wèn)題,DMF[2]算法使用并行架構(gòu)中的每一層都進(jìn)行特征融合,用于捕捉不同模態(tài)任務(wù)之間的關(guān)聯(lián)程度,充分挖掘不同任務(wù)之間的特征關(guān)聯(lián)信息.對(duì)于并行架構(gòu)中只能手工選取輸入特征的問(wèn)題,AutoFeature[1]使用自動(dòng)尋找重要特征關(guān)聯(lián)的方法,為模型輸入選取具有側(cè)重點(diǎn)的特征信息,忽略次要冗余的特征信息.GateNet[14]使用Embedding Gate選取重要潛在特征信息,通過(guò)使用Hidden Gate,可以使MLP自適應(yīng)選取隱式特征傳給下一層,但對(duì)并行架構(gòu)輸入是無(wú)差別的.EDCN[15]使用bridge和regulation模塊解決參數(shù)共享的問(wèn)題,regulation模塊使用門控網(wǎng)絡(luò)為并行架構(gòu)學(xué)習(xí)不同特征的輸入,但是只提供一種解決方案,無(wú)法捕捉單一特征在不同情況下的多語(yǔ)義信息,因此實(shí)驗(yàn)效果不理想.在多任務(wù)模型中,多門多專家系統(tǒng)(multi-gate mixture of experts, MMoE)[16]通過(guò)學(xué)習(xí)不同任務(wù)之間的聯(lián)系和差異來(lái)提高模型質(zhì)量,使用門控網(wǎng)絡(luò)學(xué)習(xí)多個(gè)任務(wù)之間的關(guān)聯(lián),最大化各種策略對(duì)模型的提升價(jià)值.本文使用MMoE對(duì)CTR任務(wù)進(jìn)行更細(xì)粒度的劃分,提出ME-PRAF框架來(lái)學(xué)習(xí)不同建模任務(wù)之間的關(guān)聯(lián),訓(xùn)練性能更高的推薦算法模型,ME-PRAF整體網(wǎng)絡(luò)架構(gòu)如圖2所示.

      圖2 多專家并行推薦算法框架的整體示意圖Fig.2 Illustration overall architecture diagram of ME-PRAF

      2 ME-PRAF框架

      2.1 輸入層和Embedding層

      輸入層將用戶屬性和物品屬性聚合,把所有特征拼接后組成高維稀疏向量:

      式中:h為特征的數(shù)量,ei∈Rvi表示第i個(gè)特征.如果ei是類別型數(shù)據(jù),則為one-hot向量;如果是數(shù)值型數(shù)據(jù),則為標(biāo)量.

      由于類別型特征非常稀疏而且維度較高,常見(jiàn)的處理方式是使用Embedding,將高維稀疏的特征映射到低維密集的空間中.對(duì)于輸入數(shù)據(jù)中的每個(gè)類別型特征,使用低維向量進(jìn)行表示:

      對(duì)于數(shù)值型特征,直接取原數(shù)值,將所有的特征拼接起來(lái)得到:

      式中:xembed,i∈Rui為第i個(gè)類別型特征對(duì)應(yīng)的低維Embedding向量,xnum,j為第j個(gè)數(shù)值型特征標(biāo)量;Wembed,i∈Rui×vi為可訓(xùn)練的映射權(quán)重矩陣,其中ui?vi;最終Embedding層輸出為x0∈Rd.若類別型特征是多值變量,則取所有對(duì)應(yīng)Embedding向量的平均值作為最終向量.

      對(duì)于基于注意力機(jī)制的模型,由于需要訓(xùn)練不同特征之間的注意力權(quán)重矩陣,須對(duì)數(shù)值型特征進(jìn)行進(jìn)一步的處理,將其從標(biāo)量轉(zhuǎn)為與類別型特征相同維度的向量:

      式中:vnum,j為對(duì)第j個(gè)數(shù)值型特征的可訓(xùn)練映射權(quán)重向量,ej為第j個(gè)數(shù)值型特征標(biāo)量.

      2.2 Fusion模塊

      在當(dāng)前現(xiàn)存的推薦算法并行架構(gòu)中,主流深度CTR模型使用2個(gè)子網(wǎng)絡(luò),分別對(duì)顯式特征關(guān)聯(lián)和隱式特征關(guān)聯(lián)進(jìn)行建模.2個(gè)網(wǎng)絡(luò)之間獨(dú)立進(jìn)行訓(xùn)練,只在2個(gè)子網(wǎng)絡(luò)輸出層進(jìn)行特征融合.這種特征融合策略只能捕捉語(yǔ)義級(jí)別的關(guān)聯(lián),無(wú)法捕捉中間層顯式特征和隱式特征之間的關(guān)聯(lián).在2個(gè)獨(dú)立子網(wǎng)絡(luò)反向傳播期間,會(huì)存在梯度較高、導(dǎo)致模型過(guò)擬合的問(wèn)題,這是導(dǎo)致模型性能變差的原因之一.在人體大腦結(jié)構(gòu)中,生物認(rèn)知科學(xué)家發(fā)現(xiàn)多器官感知不僅存在于大腦顳葉,而且存在于額葉和頂葉中[17].這意味著信息融合應(yīng)該在信息處理中間階段開(kāi)展,用于捕捉不同特征類型之間更復(fù)雜的關(guān)聯(lián).

      為了解決上述問(wèn)題,使用密集融合(dense fusion)的策略構(gòu)建Fusion模塊.對(duì)2個(gè)獨(dú)立子網(wǎng)絡(luò)中的每一層輸出進(jìn)行信息融合,充分捕捉顯式特征和隱式特征之間的關(guān)聯(lián),緩和反向傳播期間的梯度.

      在ME-PRAF中,令xl和hl分別表示第l層顯式建模層和隱式建模層的輸出,使用αl=f(xl,hl)表示Fusion模塊的輸出,其中f(·):Rd×Rd→Rd′表示對(duì)于顯式特征和隱式特征融合方式,對(duì)輸入的要求是兩者維度相同.提出使用以下3種融合方式.

      1)拼接.使用最簡(jiǎn)單的融合方式,將顯式建模層和隱式建模層每一層的輸出直接進(jìn)行拼接:

      2)按位加.將2個(gè)相同維度的向量進(jìn)行加法計(jì)算:

      3)Hardmard積.將2個(gè)相同維度的向量對(duì)應(yīng)元素進(jìn)行乘法計(jì)算:

      Fusion模塊用于融合同一層顯式特征和隱式特征之間的層級(jí)關(guān)聯(lián),當(dāng)多個(gè)Fusion模塊疊加時(shí)能夠融合不同層之間更復(fù)雜的關(guān)聯(lián)信息,極大改善了并行架構(gòu)中參數(shù)共享不足的問(wèn)題.3種融合方式的對(duì)比在3.6節(jié)的實(shí)驗(yàn)中給出.

      2.3 Broker模塊

      在現(xiàn)存的并行架構(gòu)CTR模型中,使用完全一致的Embedding作為輸入進(jìn)行計(jì)算,然而不同建模方式對(duì)特征信息的關(guān)注點(diǎn)不同,應(yīng)該采取因地制宜的策略.DCN-v2中交叉網(wǎng)絡(luò)是通過(guò)顯式建模的方式來(lái)高效捕捉有限階特征關(guān)聯(lián),MLP網(wǎng)絡(luò)是用來(lái)建模高階隱式特征.2種方式對(duì)特征建模的角度不同,為不同的子網(wǎng)絡(luò)學(xué)習(xí)具有可分辨性的特征輸入.

      受到MMoE中多任務(wù)學(xué)習(xí)的啟發(fā),將CTR任務(wù)進(jìn)行更細(xì)粒度、更精細(xì)化的劃分,提出使用Broker模塊對(duì)模型中的子網(wǎng)絡(luò)訓(xùn)練專有的特征輸入.如圖3所示為Broker模塊的內(nèi)部結(jié)構(gòu).根據(jù)使用場(chǎng)景的不同,Broker模塊分為Embedding Broker和Feature Broker.前者用于解決模型輸入?yún)?shù)過(guò)度共享的問(wèn)題,為并行架構(gòu)中不同子網(wǎng)絡(luò)學(xué)習(xí)更具有分辨性的、個(gè)性化的特征輸入.后者用于配合Fusion模塊,對(duì)融合后的數(shù)據(jù)進(jìn)行訓(xùn)練并且拆分為2個(gè)數(shù)據(jù)流,為子網(wǎng)絡(luò)下一層提供個(gè)性化的輸入,捕捉顯式特征和隱式特征之間的關(guān)聯(lián),多層疊加還可以學(xué)習(xí)高階和低階特征之間的關(guān)聯(lián).

      圖3 Broker模塊的內(nèi)部結(jié)構(gòu)Fig.3 Internal structure of Broker module

      設(shè)置2個(gè)獨(dú)立的門控網(wǎng)絡(luò),分別對(duì)應(yīng)2個(gè)細(xì)粒度的任務(wù):建模顯式特征關(guān)聯(lián)和建模隱式特征關(guān)聯(lián).對(duì)于任務(wù)k,輸出為

      式中:fi(·)表示第i個(gè)專家的輸出;gk(·)i表示對(duì)于任務(wù)k對(duì)應(yīng)門控網(wǎng)絡(luò)輸出的第i個(gè)分量,用于表示選取第i個(gè)特性的概率,有為對(duì)應(yīng)任務(wù)k的輸出結(jié)果;n為專家的數(shù)量.每個(gè)門控網(wǎng)絡(luò)都是由相同的線性模型組成,使用softmax得到選擇對(duì)應(yīng)專家的概率:

      式中:Wgk∈Rn×d為任務(wù)i的可訓(xùn)練矩陣.對(duì)專家函數(shù)的定義可以是線性模型、MLP或者是自定義函數(shù),本文定義為線性模型,經(jīng)過(guò)Batch Normalization處理,可得

      式中:Wei∈Rd′×d為第i個(gè)專家的可訓(xùn)練權(quán)重矩陣,bei為可訓(xùn)練的偏置向量.

      對(duì)于現(xiàn)實(shí)生活中人或者物品的屬性來(lái)說(shuō),都可能由多個(gè)標(biāo)簽組成.比如Movielens-1M中電影《Toy Story》,所屬類別是動(dòng)畫(huà)片、兒童片及喜劇,人或物品的類別型屬性可能有一個(gè)或多個(gè)標(biāo)簽.EDCN中的Regulation Module可以看作單個(gè)Experts,因此只能捕捉特征中的單個(gè)語(yǔ)義,忽略了其他大量關(guān)鍵的語(yǔ)義信息,這是EDCN效果更差的原因.Broker模塊中有多個(gè)專家,因此可以將特征的不同語(yǔ)義映射到多個(gè)子空間中,每個(gè)專家對(duì)應(yīng)一個(gè)子空間,從而達(dá)到增強(qiáng)Embedding中特征表現(xiàn)力的效果.每個(gè)門可以選取所有專家的一個(gè)子集,根據(jù)各種建模方式為每個(gè)專家學(xué)習(xí)不同側(cè)重點(diǎn)的權(quán)重.當(dāng)顯式特征和隱式特征之間的關(guān)聯(lián)較多時(shí),Broker模塊會(huì)為某個(gè)專家分配較高的權(quán)重;當(dāng)關(guān)聯(lián)較少時(shí),Broker模塊會(huì)懲罰對(duì)應(yīng)的專家,盡量使用多個(gè)專家.對(duì)于并行架構(gòu)中存在的參數(shù)共享不足問(wèn)題來(lái)說(shuō),這是非常靈活的解決方案.Broker模塊參數(shù)數(shù)量是常數(shù)級(jí)別,在整個(gè)模型中是可以忽略不計(jì)的,因此在并行架構(gòu)添加Broker模塊后,可以在不增加計(jì)算復(fù)雜度的情況下,顯著提高模型性能,這是Broker模塊的好處之一.

      2.4 輸出層

      輸出層將2個(gè)網(wǎng)絡(luò)的輸出拼接起來(lái),最終輸出點(diǎn)擊率預(yù)測(cè)結(jié)果:

      式中:在ME-PRAF中xl為顯式建模層的輸出,hl為MLP層的輸出,W為可訓(xùn)練權(quán)重矩陣,σ為最終的激活函數(shù).該模型使用sigmoid函數(shù)作為激活函數(shù),即σ(x)=1/(1+exp(-x)).

      損失函數(shù)使用LogLoss進(jìn)行評(píng)估:

      式中:yi為真實(shí)標(biāo)簽,為模型的預(yù)測(cè)結(jié)果,N為輸入數(shù)據(jù)的數(shù)量.

      2.5 CowClip訓(xùn)練加速

      通常情況下,在訓(xùn)練過(guò)程中,增大訓(xùn)練batch雖然會(huì)縮短訓(xùn)練時(shí)間,但是會(huì)帶來(lái)模型性能的下降.使用CowClip[18]模型來(lái)提高模型的訓(xùn)練速度,由于推薦系統(tǒng)的大部分?jǐn)?shù)據(jù)集中存在特征頻次數(shù)量級(jí)相差較大的問(wèn)題,若增大訓(xùn)練batch但是不相應(yīng)調(diào)整其他超參數(shù),比如學(xué)習(xí)速率和正則化系數(shù),則會(huì)導(dǎo)致模型訓(xùn)練造成偏差.利用CowClip算法,可以在不損耗模型性能的基礎(chǔ)上增大訓(xùn)練的批次大小,從而達(dá)到大幅度縮減訓(xùn)練時(shí)間的目的.

      3 實(shí)驗(yàn)與分析

      由于該算法框架是與模型無(wú)關(guān)的框架,對(duì)比在各SOTA模型上使用ME-PRAF框架的效果.

      3.1 數(shù)據(jù)集

      使用以下3個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn):Criteo數(shù)據(jù)集、Avazu數(shù)據(jù)集、MovieLens-1M數(shù)據(jù)集.具體數(shù)據(jù)如表1所示.表中,M為數(shù)據(jù)集樣本量,F(xiàn)為特征數(shù)量,C為詞匯量.

      表1 3個(gè)實(shí)驗(yàn)數(shù)據(jù)集的參數(shù)Tab.1 Parameters of three datasets in experiment

      Criteo數(shù)據(jù)集是當(dāng)前最流行的CTR基準(zhǔn)數(shù)據(jù)集,該數(shù)據(jù)集包含用戶7天內(nèi)點(diǎn)擊廣告的數(shù)據(jù)日志信息.遵循先前SOTA工作中的處理操作,將前6天的用戶數(shù)據(jù)作為訓(xùn)練集,將最后一天的用戶數(shù)據(jù)平分作為驗(yàn)證集和測(cè)試集.對(duì)于數(shù)值型數(shù)據(jù),將所有數(shù)據(jù)放縮到[0, 1.0].

      Avazu數(shù)據(jù)集是流行的CTR基準(zhǔn)數(shù)據(jù)集,數(shù)據(jù)中包含了用戶11 d內(nèi)在移動(dòng)端點(diǎn)擊廣告的信息,將80%的數(shù)據(jù)作為訓(xùn)練集,10%的數(shù)據(jù)作為驗(yàn)證集,最終剩余10%的數(shù)據(jù)作為測(cè)試集.

      MovieLens-1M是十分知名流行的數(shù)據(jù)集,其中包含3個(gè)文件:評(píng)分?jǐn)?shù)據(jù)、用戶數(shù)據(jù)和電影數(shù)據(jù).將3個(gè)文件聚合成1個(gè)文件,其中每行數(shù)據(jù)對(duì)應(yīng)的組織形式為:[用戶屬性,電影屬性,評(píng)分].與先前的工作處理方式相同[6],將評(píng)分等級(jí)為1或2設(shè)置為0,將等級(jí)為4或5設(shè)置為1,移除等級(jí)為3的數(shù)據(jù).將80%的數(shù)據(jù)作為訓(xùn)練集,10%的數(shù)據(jù)作為驗(yàn)證集,最終剩余10%的數(shù)據(jù)作為測(cè)試集.

      3.2 實(shí)現(xiàn)細(xì)節(jié)

      使用以下2個(gè)指標(biāo)對(duì)模型性能進(jìn)行評(píng)估.1)AUC(area under ROC curve),用于衡量模型對(duì)隨機(jī)選取的正標(biāo)簽樣本較隨機(jī)選取的負(fù)標(biāo)簽樣本給出更高分值的概率,AUC越高表示模型性能越好.2)LogLoss,所有CTR模型都是為了最小化式(12)中的LogLoss,LogLoss越小表示模型性能越好.對(duì)于CTR任務(wù)來(lái)說(shuō),若AUC增大0.001或LogLoss減小0.001,則表示模型性能有了較大的提升[6,8-12].

      將ME-PRAF框架應(yīng)用到DCN-v2算法上,在3個(gè)數(shù)據(jù)集上的性能可以達(dá)到最優(yōu),以這個(gè)具有代表性的并行架構(gòu)CTR模型作為演示,本文稱為ME-DCN(mixture of experts for DCN-v2)算法.若將ME-DCN中的Broker模塊和Fusion模塊刪除,則會(huì)退化為DCN-v2算法.

      ME-DCN模型超參數(shù)的設(shè)置.由于Embedding Broker可以訓(xùn)練學(xué)習(xí)表現(xiàn)力更強(qiáng)的Embedding,只需要設(shè)置Embedding在所有數(shù)據(jù)集上的維度為10.優(yōu)化器使用Adam[19],batch大小默認(rèn)設(shè)置為8 192,MovieLens-1M設(shè)置為1 024,所有權(quán)重矩陣使用He Normal[20]進(jìn)行初始化.交叉層和MLP的層數(shù)都為4,由于每一層交叉層和MLP需要進(jìn)行Fusion操作,須保證MLP每一層輸出維度與交叉層數(shù)據(jù)維度完全一致.

      3.3 模型性能比較

      參與對(duì)比的SOTA基準(zhǔn)模型有DeepFM、DCN、xDeepFM、AutoInt+、DCN-v2、CowClip及EDCN.所有基準(zhǔn)算法和本文算法都使用Tensor-Flow[21]進(jìn)行實(shí)現(xiàn).如表2所示為ME-DCN與主流SOTA并行架構(gòu)算法的對(duì)比,在Criteo數(shù)據(jù)集和Avazu數(shù)據(jù)集上ME-DCN算法優(yōu)于其他算法,在MovieLens-1M數(shù)據(jù)集上AUC指標(biāo)領(lǐng)先其他算法.這說(shuō)明ME-DCN較主流SOTA算法更能勝任CTR任務(wù).

      表2 ME-DCN與其他SOTA模型在3個(gè)數(shù)據(jù)集上的性能比較Tab.2 Performance comparisons between ME-DCN and other SOTA models in three datasets

      如表3所示為ME-DCN與主流SOTA并行架構(gòu)模型參數(shù)量Np的對(duì)比,表明ME-DCN算法的參數(shù)量較主流SOTA算法相對(duì)適中.相比于參數(shù)較少的算法,參數(shù)較多的原因取決于該框架應(yīng)用的原型算法,原型算法DCN-v2是在Google大規(guī)模商業(yè)數(shù)據(jù)集上取得優(yōu)秀成績(jī)的算法,與DCN-v2相比,ME-DCN算法的參數(shù)量減少了20%.這表明ME-DCN的參數(shù)量處于可接受的范圍之內(nèi),證明Fusion模塊和Broker模塊是輕量級(jí)的,可以部署到其他并行算法中,在工業(yè)級(jí)應(yīng)用上是可行的.

      表3 ME-DCN與其他模型參數(shù)量的對(duì)比(Criteo)Tab.3 Number of parameters comparison between ME-DCN and other models (Criteo)

      分析ME-DCN 的算法時(shí)間度可知,與DCNv2模型相比,增加時(shí)間復(fù)雜度的部分是Broker模塊,專家部分和門控網(wǎng)絡(luò)使用的是線性模型,因此時(shí)間復(fù)雜度為O(n).并行網(wǎng)絡(luò)中的每一層都對(duì)應(yīng)一個(gè)Broker模塊,ME-DCN中的交叉層和MLP層數(shù)設(shè)置為4,以累加的形式進(jìn)行計(jì)算,因此時(shí)間復(fù)雜度為O(n).

      3.4 ME-PRAF框架的魯棒性

      為了證明ME-PRAF框架的魯棒性,在其他CTR并行算法的基礎(chǔ)上,融合ME-PRAF框架進(jìn)行實(shí)驗(yàn)檢驗(yàn).由于DeepFM顯式建模部分只能有一層不能進(jìn)行疊加,xDeepFM在壓縮感知層計(jì)算耗費(fèi)十分昂貴,因此工業(yè)界很少使用.EDCN模型中由于regulation模塊的存在無(wú)法添加Broker模塊,使用以下3種流行的CTR模型進(jìn)行對(duì)比:DCN、AutoInt+、DCN-v2.3個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表4所示.

      表4 SOTA并行架構(gòu)模型使用ME-PRAF后在3個(gè)數(shù)據(jù)集上的性能比較Tab.4 Performance comparison of SOTA parallel architecture models after using ME-PRAF on three datasets

      從表4可知,ME-PRAF算法框架對(duì)并行CTR算法模型具有很好的魯棒性,在AUC和LogLoss 2個(gè)基準(zhǔn)上都有有效的提升.這表明ME-PRAF框架可以有效地提高并行CTR模型的性能,其中表4中的DCN-v2ME為ME-DCN模型.在Embedding維度設(shè)置方面,DCN和DCN-v2在Criteo數(shù)據(jù)集上的維度設(shè)置為39,AutoInt+設(shè)置為16,在本框架下的所有維度設(shè)置為10.這表明ME-PRAF框架不僅在并行算法上的性能提升較大,而且在Embedding維度較小的情況下有較好的性能,由此可以說(shuō)明ME-PRAF框架下訓(xùn)練的Embedding表現(xiàn)力更強(qiáng).

      由于Embedding在模型中的參數(shù)量占據(jù)模型參數(shù)的很大一部分,利用本文算法可以大幅度減少模型的參數(shù)量,節(jié)約計(jì)算機(jī)內(nèi)存及顯存資源,在參與到模型計(jì)算時(shí)可以更快速地進(jìn)行運(yùn)算.

      3.5 消融實(shí)驗(yàn)

      為了進(jìn)一步了解ME-PRAF算法框架中Broker模塊的效果,對(duì)Broker模塊進(jìn)行消融實(shí)驗(yàn).由上文可知,Broker模塊分為Embedding Broker及Feature Broker.前者用于解決模型參數(shù)過(guò)度共享的問(wèn)題,為并行架構(gòu)訓(xùn)練學(xué)習(xí)具有可分辨性和個(gè)性化的輸入;后者用于解決模型參數(shù)共享不足的問(wèn)題,學(xué)習(xí)顯式特征與隱式特征之間的關(guān)聯(lián).對(duì)Broker模塊進(jìn)行消融實(shí)驗(yàn)的具體數(shù)據(jù)如表5所示.

      表5 ME-DCN模型上的Broker模塊消融實(shí)驗(yàn)(Criteo)Tab.5 Ablation study of Broker modules in ME-DCN(Criteo)

      表5中,w/o FB表示將ME-DCN模型刪除Feature Broker及Fusion模塊后的實(shí)驗(yàn)結(jié)果,w/o EB表示將ME-DCN模型刪除Embedding Broker后的實(shí)驗(yàn)結(jié)果.結(jié)果表明,刪除其中一個(gè)都會(huì)導(dǎo)致模型性能下降,因此Embedding Broker和Feature Broker在算法模型中都十分重要而且缺一不可.2種Broker起到相輔相成的作用,為并行模型中存在的參數(shù)共享問(wèn)題提供了解決方案,提高了模型性能.

      3.6 Fusion模塊融合方式的對(duì)比

      Fusion模塊的3種融合方式為拼接、按位加及Hardmard積.這3種方式都不需要額外的參數(shù),因此計(jì)算效率都很高.為了探索不同F(xiàn)usion方式對(duì)模型的影響,分別在3種方式下進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示.

      表6 ME-DCN模型上Fusion模塊不同融合方式的性能對(duì)比(Criteo)Tab.6 Performance comparison of various fusion types in Fusion module in ME-DCN (Criteo)

      由表6可知,拼接方式的效果比其他方式更好.按位加方式的效果最差,由于相差較大的2對(duì)特征進(jìn)行按位加融合后,最終向量會(huì)有較大概率出現(xiàn)結(jié)果相似的情況,選擇拼接的融合方式更佳.按照先前學(xué)者的研究經(jīng)驗(yàn),使用Hardmard積應(yīng)取得較好的實(shí)驗(yàn)結(jié)果,但是此處的實(shí)驗(yàn)效果不理想,因此未來(lái)會(huì)進(jìn)一步優(yōu)化Hardmard積的融合方式.

      3.7 模型參數(shù)調(diào)整

      對(duì)于ME-PRAF算法框架來(lái)說(shuō),模型需要調(diào)參的地方如下.

      1)在Fusion模塊中需要調(diào)整對(duì)比的是特征的融合方式,這在3.6節(jié)中已進(jìn)行討論.

      2)Broker模塊中參數(shù)的調(diào)整是對(duì)專家數(shù)量的調(diào)整.為了研究專家數(shù)量對(duì)模型性能的影響,對(duì)Broker模塊中專家數(shù)量分別為2、3、4、5的情況進(jìn)行對(duì)比實(shí)驗(yàn).當(dāng)專家數(shù)量小于4時(shí),模型的性能會(huì)隨著專家數(shù)量的增加而提高;當(dāng)專家數(shù)量大于4時(shí),性能開(kāi)始變差;當(dāng)專家數(shù)量為4時(shí),模型性能最好.可知,大部分?jǐn)?shù)據(jù)集中特征不同語(yǔ)義平均數(shù)量為4 ,當(dāng)專家數(shù)量大于4時(shí)會(huì)捕捉無(wú)用冗余的語(yǔ)義特征,導(dǎo)致模型性能下降.

      3.8 模型分析

      分析模型的關(guān)鍵在于模型是否能夠?qū)W習(xí)到有意義的特征關(guān)聯(lián),在本框架中表現(xiàn)為以下2個(gè)方面.

      1)Embedding Broker是否能為不同類型的子網(wǎng)絡(luò)學(xué)習(xí)到具有可分辨性和個(gè)性化的特征輸入.

      2)Feature Broker是否能夠?qū)W習(xí)到顯式特征和隱式特征之間的關(guān)聯(lián)信息.

      現(xiàn)在大部分公司考慮用戶隱私問(wèn)題,將大部分?jǐn)?shù)據(jù)集中的特征部分進(jìn)行過(guò)脫敏處理,特征是加密后的數(shù)據(jù).采用Avazu數(shù)據(jù)集,分析Broker模塊對(duì)特征的處理.

      如圖4(a)所示為Embedding Broker對(duì)輸入特征的權(quán)重w熱力圖.可知,Broker模塊不僅可以學(xué)習(xí)到輸入特征不同語(yǔ)義下的信息,而且可以為不同并行架構(gòu)子網(wǎng)學(xué)習(xí)到具有個(gè)性化的輸入.

      圖4 Broker模塊特征權(quán)重的差異度分析Fig.4 Analysis of diversity factor of feature weight of Broker module

      如圖4(a)所示,不同門控網(wǎng)絡(luò)中熱力圖權(quán)重分布有著明顯不同,在融合顯式特征和隱式特征后,能夠?yàn)橄乱粚訉W(xué)習(xí)到具有可分辨性及個(gè)性化的特征信息,證明Broker模塊的有效性.

      若不使用Broker模塊,則輸入到顯式特征模塊和隱式特征模塊的信息完全相同,因此圖4(a)中2個(gè)熱力圖會(huì)完全一致.2個(gè)熱力圖分布的差異度越高,則表示輸入到2個(gè)模塊中的個(gè)性化程度越高.圖4(b)同理.

      將Fusion模塊和Broker模型兩者配合,對(duì)不同子網(wǎng)絡(luò)中的特征進(jìn)行融合.將融合后的信息分裂成最適合2個(gè)子網(wǎng)絡(luò)的輸入,顯式特征與隱式特征之間的信息得到有效交互,提升了模型性能.

      4 結(jié) 語(yǔ)

      ME-PRAF是輕量級(jí)且高性能的并行算法框架,用于解決目前主流并行CTR推薦模型中普遍存在的參數(shù)共享問(wèn)題.對(duì)于并行架構(gòu)中輸入部分參數(shù)過(guò)度共享及子網(wǎng)絡(luò)部分參數(shù)共享不足的問(wèn)題,可以泛化到眾多并行CTR算法上,有效提高模型的性能.在數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,MEPRAF框架能夠有效地提高SOTA并行CTR算法模型的性能.下一步將研究解決推薦系統(tǒng)中常見(jiàn)的冷啟動(dòng)問(wèn)題以及如何在串行架構(gòu)中融合顯式特征和隱式特征.

      猜你喜歡
      關(guān)聯(lián)架構(gòu)建模
      基于FPGA的RNN硬件加速架構(gòu)
      功能架構(gòu)在電子電氣架構(gòu)開(kāi)發(fā)中的應(yīng)用和實(shí)踐
      汽車工程(2021年12期)2021-03-08 02:34:30
      聯(lián)想等效,拓展建模——以“帶電小球在等效場(chǎng)中做圓周運(yùn)動(dòng)”為例
      “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
      基于PSS/E的風(fēng)電場(chǎng)建模與動(dòng)態(tài)分析
      電子制作(2018年17期)2018-09-28 01:56:44
      不對(duì)稱半橋變換器的建模與仿真
      奇趣搭配
      LSN DCI EVPN VxLAN組網(wǎng)架構(gòu)研究及實(shí)現(xiàn)
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      一種基于FPGA+ARM架構(gòu)的μPMU實(shí)現(xiàn)
      青岛市| 敦化市| 黄梅县| 陕西省| 丹东市| 鲁山县| 错那县| 甘孜县| 灵石县| 镇康县| 内乡县| 双流县| 金堂县| 安国市| 施甸县| 青铜峡市| 甘洛县| 辽中县| 苍梧县| 关岭| 桐乡市| 丰原市| 麻城市| 博乐市| 施甸县| 西贡区| 荥阳市| 平安县| 淮阳县| 双峰县| 铁力市| 临泉县| 吴忠市| 孙吴县| 安阳市| 黄梅县| SHOW| 淄博市| 新闻| 宿松县| 江源县|