• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于雙層注意力機制的對偶正則化評分預測

    2021-08-09 02:58:46陽,武
    云南大學學報(自然科學版) 2021年4期
    關鍵詞:物品注意力向量

    田 陽,武 浩

    (云南大學 信息學院,云南 昆明 650500)

    隨著互聯(lián)網(wǎng)信息量的快速增長,推薦系統(tǒng)在探索用戶喜好及精準推送方面扮演著不可或缺的角色.推薦系統(tǒng)通過獲取用戶的個人需求、興趣愛好以及社交網(wǎng)絡等信息,個性化地為用戶提供決策支持和信息服務.推薦系統(tǒng)從20 世紀80 年代提出到如今的廣泛應用,經(jīng)歷了極快速的技術迭代和技術創(chuàng)新.學術界和工業(yè)界提出了眾多技術手段來提升推薦系統(tǒng)的性能和準確性.以往推薦系統(tǒng)大多基于協(xié)同過濾法[1],通過評分、點擊率、瀏覽次數(shù)等反饋信息獲取用戶的偏好,學習用戶及物品的隱式向量來推測用戶對物品的喜好程度.

    協(xié)同過濾的關鍵在于如何有效表征用戶或物品的隱式向量,以及如何將二者結(jié)合從而獲取評分等預測信息,其中內(nèi)積是二者結(jié)合的經(jīng)典選擇[2].由于現(xiàn)實世界的數(shù)據(jù)較為龐大,數(shù)據(jù)較為稀疏,用戶不可能對所有物品反饋有效的信息,反饋矩陣中非零行較少,因此通過矩陣分解的方法難以達到預期效果.近年來,隨著計算能力的提升以及深度學習的蓬勃發(fā)展,基于深度學習的推薦系統(tǒng)正成為當前研究的主流.例如Latent Dirichlet Allocation(LDA)[3]等主題模型、卷積矩陣分解(Convolution Matrix Factorization,ConvMF)[4]等模型結(jié)合了深度學習的相關技術,進一步緩解了因數(shù)據(jù)稀疏而造成預測性能下降的問題以及因缺少起始數(shù)據(jù)而造成的冷啟動問題;但LDA 等模型忽略了長文本中上下文的聯(lián)系,無法準確地表征向量,從而影響預測結(jié)果的準確性.

    為了進一步準確地表征向量,本文提出了基于雙層注意力機制的對偶正則化矩陣分解模型(Hierarchical Attention Dual-Regularization Matrix Factorization,HARMF),采用BiGRU[5]來增強長文本中前后單詞的關聯(lián)性,引入注意力機制[6-7]分配單詞或文檔在用戶和物品表征向量中的權重,通過概率矩陣分解(Probabilstic Matrix Factorization,PMF)[8-9]獲取用戶和物品的偏好,結(jié)合文本信息來做出預測.

    本文作出的貢獻如下:

    (1)采用BiGRU 來增強長文本中前后單詞的關聯(lián)性,引入注意力機制分配不同單詞或句子在模型中的權重,重要的單詞或句子對用戶或物品的表征中應具有更高的貢獻值,不重要的單詞或句子應盡量降低其影響;

    (2)利用PMF 融合用戶及物品模型,通過計算概率分布進一步提升模型預測精度;

    (3)在Amazon 等數(shù)據(jù)集上測試的結(jié)果與ConvMF[10]以及傳統(tǒng)的矩陣分解(Matrix Factorization,MF)模型[11]相比有顯著的提高,證明改進神經(jīng)網(wǎng)絡能有效提高表征能力,從而提升預測精度.

    1 相關工作

    1.1 基于矩陣分解的協(xié)同過濾以往推薦系統(tǒng)大多基于協(xié)同過濾[12-13]法,利用可觀測的評分來獲取代表用戶偏好和物品特征的隱式向量,從而推薦新的物品給用戶.MF 模型[11]利用點乘操作學習用戶和物品的隱式特征向量,將二者結(jié)合從而預測出評分.PMF 假定用戶和物品的特征向量及評分預測矩陣均服從高斯先驗分布,通過不斷迭代和優(yōu)化來學習用戶物品的特征向量.友鄰模型[14]將鄰近模塊集成到矩陣分解模型中,假定用戶對物品的評分同時取決于性格特征以及用戶對其它物品的行為.這些方法在表現(xiàn)優(yōu)秀性能的同時,也存在以下問題:①未觀測到的評分使得數(shù)據(jù)集較為稀疏,將極大影響到用戶-物品表征向量的構(gòu)建;②傳統(tǒng)的點乘操作使得隱式特征相對獨立,難以學習到更高階的特征.

    1.2 基于文本信息的評分預測在推薦系統(tǒng)中引入輔助信息可以有效提升預測的精度.主題模型例如HFT[15]、CTR[16]和LDA 通過假定主題和詞匯在文檔中為多項式分布來學習評論中潛在的主題;RMR[17]使用類似技術從文本中提取主題因子,利用高斯混合分布對評分進行建模.但上述方法都基于詞袋模型,忽略了詞序和文本上下文關系.

    深度模型的出現(xiàn)則有效解決了上述問題,DeepCoNN[18]采用雙邊卷積神經(jīng)網(wǎng)絡(Convolution Netural Network,CNN)模型對用戶和商品的評論文本進行建模,然后送入FM 進行評分預測;NARRE[19]在此基礎上引入注意力機制,賦予不同評論信息對于用戶或物品中間表征向量不同的權重,從而更準確地表征用戶-物品表征向量.

    2 架構(gòu)描述

    2.1 概述推薦系統(tǒng)的關鍵在于如何準確表征用戶-物品表征向量以及降低數(shù)據(jù)稀疏性的影響.本文提出的模型首先將評論文本由嵌入矩陣轉(zhuǎn)化為特征向量,然后通過雙層BiGRU 提取文本特征并同時加強文本中單詞或語句間的上下文聯(lián)系,接著引入雙層注意力機制區(qū)分不同單詞或句子對模型的貢獻度以進一步強化表征向量的準確性,最后利用PMF 結(jié)合用戶和物品表征向量從而預測出用戶對于物品的評分.如圖1 所示,其中U和V表示用戶和物品,R表示評論文本,m個用戶或n個物品的評論文本有t條,S表示注意力之和,?u和θi表示用戶u和物品i的表征向量,ηu和ηi表示用戶的偏好和物品的特征.

    圖1 用戶/物品隱式向量表示Fig.1 Implicit vector representation of users/items

    2.2 文本嵌入首先對文本進行嵌入,利用glove[20]獲取每個單詞的詞向量,通過訓練Wikipedia2014及Gigaword5 語料庫獲取預訓練嵌入矩陣,利用嵌入函數(shù):M→Rd將文本中每個單詞映射到d維向量空間,則每個文本片段可表示為

    其中,s為文本片段,ei表示第i個單詞的向量且ei∈Rd,拼接每個詞向量即可得到文本片段的向量表示,對整個語料庫而言,若T個評論文本存在時序 上的有序排列,則可以用S=(s1,s2,···,sT) 表示.

    2.3 BiGRU 編碼器GRU[21]在LSTM[22]基礎上對模型參數(shù)進行了簡化,在降低模型復雜度的同時可解決長短期記憶和反向傳播梯度問題.GRU 利用門控單元(重置門rt和更新門zt)加強記憶能力.對于時間t,當前隱藏層狀態(tài)ht為

    其中,zt為更新門,用于控制之前信息是否保留以及新信息是否添加,xt為當前輸入的文本序列,為候選隱藏態(tài),rt為重置門,如果rt為0,則代表遺忘過去的狀態(tài),Wz、Wh、Wr為更新門、隱藏層、重置門對應xt的權重,Uz、Uh、Ur為更新門、隱藏層、重置門對應隱層單元ht-1的權重,bz、bh、br為更新門、隱藏層、重置門對應的偏置,tanh () 為雙曲正切函數(shù),⊙ 為按元素相乘.

    傳統(tǒng)GRU 模型中狀態(tài)的傳輸是從前往后的,但實際情況中當前狀態(tài)與后續(xù)狀態(tài)相關.BiGRU是由兩個GRU 上下疊加而成,輸出則由這兩個GRU的狀態(tài)共同決定.前向GRU 及反向GRU 在時間t的隱態(tài)分別為串聯(lián)這兩個隱態(tài)即可得到當前時 間t的隱藏層狀態(tài):

    2.4 多層注意力機制本文模型中有兩層BiGRU,每層都引入了注意力機制,分別為單詞級別(wordlevel)的注意力以及文檔級別(doc-level)的注意力.假定每個用戶或物品有Li個評論,每個評論包含Ti個單詞,wit(t∈[1,T])代表第i個評論的第t個單詞.其中單詞注意力模型如圖2 所示.2.4.1 單詞編碼器 第i條評論中有T個單詞,每個單詞可表示為wit,假定嵌入矩陣為We,則xij=Wewij.利用BiGRU 獲取評論中單詞的向量表示,其中前向讀取評論的順序為wi1到wit,而反向讀取評論的順序為wit到wi1:

    圖2 單詞注意力模型Fig.2 The model of word-level attention

    將上述結(jié)果進行拼接,得到隱藏態(tài)ht,同時為了防止過擬合,利用dropout 技術按照一定比例隨機丟棄部分神經(jīng)元.

    通常,每個單詞對于文本的貢獻度不同,貢獻度大的單詞應當分配較大的權重,注意力機制將不同單詞按照一定的權重稀疏進行分配,然后組合在一起.

    其中,uit由當前隱態(tài)ht經(jīng)過一層MLP 得出[6],其下標i、t表示第i個用戶的第t條評論文本計算,計算uit和單詞序列向量uw(隨機初始化)間的匹配程度,Ww、bw為隱層權重和偏置,T 為轉(zhuǎn)置符號,通過softmax 進行歸一化處理后得到權重 αit,于是當前第i個用戶的文檔序列si可表示為基于權重的各單 詞的特征總和.

    2.4.2 文檔編碼器 與單詞編碼器類似,利用BiGRU 對文檔序列si進行編碼,假定語料庫中有L個文檔,則獲取某用戶或物品評論文本間的上下文關系可表示為:

    對一個用戶或物品表征向量而言,不同的評論文本應該具有不同的貢獻度,為此,引入基于文檔模型的注意力機制來分配不同評論文本在整個語料中不同的權重:

    其中,v代表了集合所有評論信息的用戶或物品的模型向量,us與上層一致,來自于隨機初始化并且可 以由訓練所得,i∈[1,L].

    2.5 評分預測得到用戶及物品表征向量后,為了將二者融合從而生成評分預測,利用PMF 引入了偏好信息,結(jié)合用戶-物品表征向量來對評分進行預測,如圖3 所示.

    圖3 HARMF 模型Fig.3 Model of HARMF

    假設有M個用戶及N個物品,Xu和Yi分別是用戶和物品關于評論文本的輸入文檔,通過兩個對偶的神經(jīng)網(wǎng)絡DNN 將Xu和Yi轉(zhuǎn)化為用戶或物品的表征向量?u和θi,其中W1,W2分別代表神經(jīng)網(wǎng)絡的權重,即對于每個用戶可得到?u←DNN(Xu,W1),對于每個物品可得到θi←DNN(Yi,W2) .在PMF 中,假定用戶和物品的隱式特征向量服從均值為0 的高斯先驗分布:

    其中,rui為用戶u對物品i的評分,Uu和Vi為第u個用戶和第i個物品的隱式特征向量,I為單位矩陣,Iu,i為指示函數(shù),當用戶u對物品i有評分時,其值為1,反之則為0.假設用戶U和物品V互相獨立,求解U和V的最大后驗概率,則求解

    其中,λw為保持概率模型完整性的參數(shù).

    對于損失函數(shù)的求解,首先求出?u和θi的值,即?u←DNN(Xu,W1),θi←DNN(Yi,W2),然后求解Uu和Vi,對損失函數(shù)L進行偏導并使偏導數(shù)為零則可以得到二者的推導公式:其中Ci,Cj是對角矩陣.

    HARMF 具體求解過程:首先,對U、V、W1、W2以及Ci、Cj進行初始化,利用對偶神經(jīng)網(wǎng)絡DNN 分別對Uu和θj進行求解;然后,當求解出?u和θi后即可通過公式(14)對Uu和θj進行更新;接著,利用均方誤差(Mean Absolute Error,MSE)對模型進行反向傳播更新W1、W2的值;最終,經(jīng)過多次迭代和調(diào)參優(yōu)化使模型收斂,繼而可求出最終的U、V、W1和W2.有了U、V即可根據(jù)公式(14)補全評分矩陣:

    3 實驗結(jié)果

    3.1 數(shù)據(jù)集、評價指標與基線方法本文實驗的數(shù)據(jù)集來自于亞馬遜的Amazon Instant Video(AIV)、Kindle Store(KS)以及來自于Yelp 平臺的Yelp dataset,這些數(shù)據(jù)集在推薦系統(tǒng)研究領域被廣泛采用.相關統(tǒng)計如表1 所示,其中包含了每個數(shù)據(jù)集的用戶數(shù)、物品數(shù)、評論文本數(shù)、評分范圍以及對應的數(shù)據(jù)密集.

    表1 各數(shù)據(jù)集統(tǒng)計表Tab.1 Statistical table of each dataset

    為了進行實驗評估,遵循經(jīng)典方法對數(shù)據(jù)集進行劃分,其中訓練集、驗證集和測試集劃分比率為8∶1∶1.

    對于評分預測問題,一般使用兩種評測指標,分別是平均絕對誤差(Mean Absolute Error,MAE)以及均方根誤差(Root Mean Square Error,RMSE).MAE(EMA)和RMSE(ERMS)計算公式如下:

    將本文模型HARMF 與多個主流的評分預測模型進行比較.PMF:經(jīng)典的僅基于評分的協(xié)同過濾模型,在大型、稀疏且不平衡的數(shù)據(jù)集上能獲得很好的效果;ConvMF:結(jié)合CNN 與PMF 來對評分進行預測,其中CNN 用于提取用戶或物品評論文本文檔的特征;TARMF[22]:利用BiGRU 提取用戶或物品的評論文本特征,結(jié)合主題模型進行評分預測;DRMF[23]:結(jié)合CNN 與GRU 來對評分進行預測,其中CNN 用于提取評論文本的特征,GRU 用于進一步提取文本上下文信息.

    3.2 性能對比本文將GRU 的輸出維度設為50,U和V的隱式向量維度設為50,詞嵌入向量維度設為128.ConvMF、TARMF 和DRMF的評論文本與HARMF 使用相同的文本.在此實驗中,訓練深度模塊的樣本批次大小設為64、dropout 在KS、AIV和Yelp 中的取值分別為0.7、0.6 和0.5.本文著重探索 λU、λV取值對模型預測精度的影響,其中 λU、λV的取值范圍為{0.1,1,2,5,10,20,100}.

    從表2 可以看出,相較于傳統(tǒng)的PMF,ConvMF和TARMF 性能表現(xiàn)較好,MAE 指標提升了15.6%~23.7%,RMSE 提升了17.7%~20.9%,表明輔助信息的引入能有效提高評分的準確性.

    表2 不同算法在各數(shù)據(jù)集的性能比較Tab.2 Performance comparison of different algorithm in each database

    TARMF 和DRMF 都是對偶結(jié)構(gòu),利用用戶和物品雙邊的信息對評分進行預測,DRMF 中已通過實驗證明對偶信息結(jié)構(gòu)能有效提高推薦性能.在TARMF 和DRMF 中,后者較前者的MAE 提升4%,RMSE 提升6%,表明雙層網(wǎng)絡比單層網(wǎng)絡具有更好的性能.

    同樣為雙層對偶結(jié)構(gòu)的DRMF 和本文的HARMF,后者加入了雙層注意力機制,在各數(shù)據(jù)集的MAE 分別提升了3.01%、2.98%和3.42%,RMSE則提升了3.91%、3.22%和2.87%,表明引入注意力機制能進一步提高模型預測性能.

    為進一步探討注意力機制對模型預測精度的有效性,分別對僅對用戶模型使用注意力機制和僅對物品模型使用注意力機制進行評估.從圖4(a)可以看出,對用戶或物品使用注意力機制的確可以提升評分預測的性能,且雙邊注意力比單邊注意力表現(xiàn)更好,原因在于用戶或物品都有各自的喜好或特征,通過注意力機制能有效分配文本內(nèi)容對它們貢獻的權重.其次,對單詞級別注意力和文檔級別注意力的有效性進行探究.從圖4(b)可以看出,使用二者中任意一種注意力機制比不使用注意力機制的模型表現(xiàn)得更好,使用雙層注意力機制能有效提升評分預測的精度,原因在于單詞級別的注意力機制可以對文本中的每一個單詞賦予權重,文檔級別的注意力機制能夠在構(gòu)建用戶喜好和物品特征時關注具有更多信息量的文本,二者結(jié)合可以使得由文本信息構(gòu)建的模型表征能更加逼近準確值.

    圖4 模塊有效性分析Fig.4 Effectiveness analysis of module

    3.3 參數(shù)分析不同參數(shù)的設置將會影響模型的性能,以下將探究部分參數(shù)的微調(diào)對HARMF 性能的影響,其中包括文本嵌入層的詞嵌入維度dw,BiGRU 層的dropout 系數(shù)以及預測層中PMF 中的正 則化系數(shù) λU、λV.

    3.3.1 嵌入維度的影響 文本將dw的取值限定在{32,64,128,256,512}以觀察HARMF 在AIV、KS和Yelp 數(shù)據(jù)集上RMSE 的變化,結(jié)果如圖5 所示.通常單詞嵌入維度過低時,會丟失一些語義信息;增加詞嵌入維度,會增強單詞對語義能力的刻畫;但當詞嵌入維度過高時,會引入更多的訓練參數(shù),同時會增加模型過擬合的風險,降低模型的預測能力.即并非維度選取越高越好,當dw取256 附近時可 取得較好的性能.

    圖5 dw 對各數(shù)據(jù)集的影響Fig.5 Influence of dw on each dataset

    3.3.2 dropout 的影響 dropout 技術可以用較少的訓練樣本防止深度網(wǎng)絡過擬合.本實驗中通過調(diào)整BiGRU 層中dropout 率的取值來觀察對HARMF的影響.根據(jù)圖6 可以看出采用dropout 技術能明顯減少預測誤差,比如在AIV 數(shù)據(jù)集中,RMSE 可以達到4%.但并非dropout取值越大越好,由圖6(a)和圖6(b)可知,隨著dropout 取值的增大,誤差值存在部分波動;在規(guī)模較大的數(shù)據(jù)集中,增益不如小的數(shù)據(jù)集.RMSE 在KS 數(shù)據(jù)集中的增益為1%;而在Yelp 數(shù)據(jù)集中,增益僅為0.5%.因此,模型的d ropout 率的取值最好在[0.4,0.7].

    圖6 dropout 對各數(shù)據(jù)集的影響Fig.6 Influence of dropout on each dataset

    3.3.3 正則化系數(shù)的影響 λU、λV為正則化系數(shù),其中 λU表示 ?u對用戶隱式向量U的影響,λV表示θi對物品隱式向量V的影響,二者表現(xiàn)的是在建模用戶和物品過程中內(nèi)容信息的比例對模型預測精度的影響.

    圖7(a)、圖7(b)以及圖7(c)分別展示了λU,λV各種組合在3 個數(shù)據(jù)集上的RMSE 的表現(xiàn),顏色越接近藍色,RMSE 的值越小,預測準確性誤差越小.從圖7(b)和圖7(c)可以發(fā)現(xiàn),當 λU不變時,隨著λV的增長,藍色愈深即RMSE 值愈小,同理,當 λV不變時,隨著 λU的增長,RMSE 值也愈小,說明適當增加用戶或物品的內(nèi)容比例能有效減少預測誤差.但從圖7(a)可以看出,當 λU、λV超過某個閾值時,隨著它們的增加預測誤差反而增大,說明完全依賴用戶內(nèi)容或完全依賴物品內(nèi)容并不能使得預測準確度提升.在AIV 數(shù)據(jù)集上,λU=10,λV=100 達到最深藍格,說明此時為最優(yōu)組合.同理,λU=5,λV=100 或 λU=100,λV=5 時在KS 數(shù)據(jù)集上能達到最優(yōu).λU=100,λV=10 或 λU=10,λV=100 時在Yelp 數(shù)據(jù)集上 能達到最優(yōu).

    圖7 λU,λV對各數(shù)據(jù)集的影響Fig.7 Influence of λ U,λ V on each dataset

    4 結(jié)論

    本文提出了一個基于雙層注意力機制的評分預測模型,核心在于利用文本信息對用戶和物品進行建模,通過PMF 引入偏好或特征信息來對融合雙邊模型從而預測評分.利用單詞編碼器和文檔編碼器對文本信息進行特征的提取以及權重的分配,從而能夠更好地獲取用戶的偏好和物品的特征.本模型在3 個數(shù)據(jù)集上進行了實驗,實驗表明此方法能夠有效提升神經(jīng)網(wǎng)絡對評分預測的準確性.未來可考慮加入物品描述、標簽或圖片信息等輔助信息來進一步增強預測的性能.

    猜你喜歡
    物品注意力向量
    稱物品
    向量的分解
    讓注意力“飛”回來
    聚焦“向量與三角”創(chuàng)新題
    “雙十一”,你搶到了想要的物品嗎?
    誰動了凡·高的物品
    “揚眼”APP:讓注意力“變現(xiàn)”
    傳媒評論(2017年3期)2017-06-13 09:18:10
    A Beautiful Way Of Looking At Things
    向量垂直在解析幾何中的應用
    向量五種“變身” 玩轉(zhuǎn)圓錐曲線
    临潭县| 巴林右旗| 东阳市| 苍梧县| 广水市| 马龙县| 连城县| 长乐市| 卢湾区| 甘孜县| 新平| 交口县| 金华市| 武陟县| 蓬溪县| 曲阜市| 郧西县| 雷州市| 田东县| 甘谷县| 青龙| 平定县| 高清| 永泰县| 平江县| 河源市| 利津县| 龙井市| 宁城县| 鄯善县| 中江县| 梁山县| 耒阳市| 曲阜市| 嘉黎县| 商水县| 蚌埠市| 凤山市| 潮州市| 兰溪市| 当阳市|