• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于評論的多特征融合深度協(xié)同推薦算法

      2022-08-26 01:52:04胡勝利張鴻斌
      現(xiàn)代信息科技 2022年11期
      關(guān)鍵詞:特征提取卷積向量

      胡勝利,張鴻斌

      (安徽理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,安徽 淮南 232001)

      0 引 言

      在互聯(lián)網(wǎng)和計(jì)算機(jī)等智能設(shè)備飛速發(fā)展,云計(jì)算、大數(shù)據(jù)等技術(shù)日趨成熟的背景下,隨之而來的便是信息數(shù)據(jù)規(guī)模的幾何級增長。用戶在面對紛繁復(fù)雜的信息時(shí)很難找到自己所需的信息,個(gè)性化推薦系統(tǒng)在此情境下應(yīng)運(yùn)而生,并在激烈的商業(yè)競爭中被廣泛使用。

      如何提取更多用戶和項(xiàng)目的特征,一直以來都是推薦系統(tǒng)研究的重點(diǎn)所在,LMF作為一種基于矩陣分解的協(xié)同過濾模型,將矩陣分解為兩個(gè)表示用戶和項(xiàng)目的隱向量,用以表示用戶的不同偏好或商品的隱藏特征,再使兩個(gè)向量的點(diǎn)積結(jié)果表示為預(yù)測評分。相較于傳統(tǒng)的協(xié)同過濾算法,LMF的性能明顯提高。但是在矩陣的稀疏狀況下,該模型表現(xiàn)得不如人意,因此有許多學(xué)者采用評論文本來解決協(xié)同過濾的數(shù)據(jù)稀疏和冷啟動(dòng)問題,最早使用評論進(jìn)行推薦受限于當(dāng)時(shí)的技術(shù)水平,只能手動(dòng)對特征進(jìn)行交互;Kim等提出了(ConMF),利用卷積神經(jīng)網(wǎng)絡(luò)提取項(xiàng)目描述文本中蘊(yùn)含的隱特征,但不足之處是只考慮了項(xiàng)目文本信息,沒有考慮用戶的文本信息;Zheng等人率先提出了(DeepCoNN),使用深度學(xué)習(xí)網(wǎng)絡(luò)提取用戶與項(xiàng)目的評論特征,為后續(xù)基于評論的推薦算法奠定了基礎(chǔ);Catherine等在前者的基礎(chǔ)上引入一個(gè)表示目標(biāo)用戶-目標(biāo)項(xiàng)目對的附加潛在層(Transnets),擴(kuò)展了深度連接模型,提高了推薦性能;Seo等提出了(D-attn),使用基于雙局部和全局注意力的卷積神經(jīng)網(wǎng)絡(luò)來預(yù)測評論的評級分?jǐn)?shù),在基于評論文本的評級預(yù)測上首次使用了兩個(gè)特征的處理通路,但只是改變了兩個(gè)通道的注意力關(guān)注點(diǎn),對于特征的處理只使用了卷積神經(jīng)網(wǎng)絡(luò),導(dǎo)致在融合層交互時(shí)兩側(cè)特征不夠豐富。

      上面提到的方法都是采用兩列并行的神經(jīng)網(wǎng)絡(luò)來對用戶評論文本集和項(xiàng)目描述文本集進(jìn)行特征提取,但是在兩列互相分離的神經(jīng)網(wǎng)絡(luò)中,底層所蘊(yùn)含的某些文本特征會(huì)隨著網(wǎng)絡(luò)的加深而逐漸弱化,并且單一的特征提取方法往往不能獲取文本所包含的各種信息,因?yàn)橛脩粼u論側(cè)與項(xiàng)目評論側(cè)在融合層之前沒有發(fā)生任何方式的交互,這就導(dǎo)致在融合層進(jìn)行交互計(jì)算的時(shí)候,用戶內(nèi)容特征與項(xiàng)目內(nèi)容特征的交互不足,進(jìn)而會(huì)影響預(yù)測值的準(zhǔn)確性,因此本文提出一種新的基于評論的多特征融合深度協(xié)同推薦算法DFICF。

      為了解決上述問題,DFICF做出兩點(diǎn)改進(jìn)來增加推薦模型的準(zhǔn)確性:(1)基于特征融合的思想構(gòu)建一個(gè)包含兩種不同特征提取方法的C&G特征提取模塊,將包含更豐富粒度的融合特征作為融合層的輸入,以此保證單側(cè)特征在進(jìn)入融合層之前更具抽象性和豐富性,避免用戶與項(xiàng)目的特征在融合層交互不足。(2)對于特征融合模塊輸出的融合特征,在該層后添加注意力機(jī)制來對融合后的特征進(jìn)行注意力權(quán)值分配,使得重要的特征更具突出性。該模型在保持兩列并行神經(jīng)網(wǎng)絡(luò)共同訓(xùn)練的同時(shí),在傳統(tǒng)結(jié)構(gòu)上引入特征融合的思想,將包含更多粒度的特征信息傳遞到深層網(wǎng)絡(luò)中,并將新產(chǎn)生的特征在融合層進(jìn)行融合,最后在融合層運(yùn)用因子分解機(jī)進(jìn)行有效結(jié)合,從而得到預(yù)測值。

      1 相關(guān)技術(shù)

      1.1 文本卷積網(wǎng)絡(luò)

      卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks)是由紐約大學(xué)的Yann LeCun于1998年提出的,可以說是多層感知機(jī)的一個(gè)特殊形式。由于省去了在特征提取之前對數(shù)據(jù)進(jìn)行預(yù)處理和特征抽取等繁瑣的步驟,并且憑借其特有的細(xì)粒度特征提取方式,使得對數(shù)據(jù)的處理水平大幅度提升,因此在計(jì)算機(jī)視覺領(lǐng)域占據(jù)了重要地位。由于詞向量矩陣在數(shù)據(jù)形式上與單通道的灰度圖片相似,卷積也常常因其優(yōu)越的特征提取性能而廣泛應(yīng)用于文本處理領(lǐng)域。卷積神經(jīng)網(wǎng)絡(luò)采用局部連接結(jié)構(gòu),設(shè)有一個(gè)固定的權(quán)值共享給每次輸入的卷積區(qū)域,一方面減少了權(quán)值的數(shù)量使得網(wǎng)絡(luò)易于優(yōu)化,另一方面降低了過擬合的風(fēng)險(xiǎn)。

      由于卷積神經(jīng)網(wǎng)絡(luò)在文本特征提取方面的優(yōu)越表現(xiàn),故選擇其作為C&G特征融合模塊的一種特征提取通道。文本卷積提取特征的過程如圖1所示。

      圖1 文本卷積特征提取圖

      1.2 雙向GRU網(wǎng)絡(luò)

      GRU是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種,與LSTM(Long-Short Term Memory)一樣,有別于傳統(tǒng)機(jī)器學(xué)習(xí),考慮到項(xiàng)目的全部時(shí)間發(fā)生節(jié)點(diǎn),并將其作為模型的輸入。它的出現(xiàn)也是為了解決長期記憶和反向傳播中的梯度等問題。雖然在實(shí)際表現(xiàn)上GRU與LSTM相差無幾,但是由于GRU自身的便捷性,更容易訓(xùn)練,在訓(xùn)練速度上優(yōu)于LSTM。然而,在以往的循環(huán)神經(jīng)網(wǎng)絡(luò)中,每一組狀態(tài)的傳輸都是單向按順序依次向后的。因此,當(dāng)存在某些問題需要用到其之后的狀態(tài)時(shí),以前的循環(huán)神經(jīng)網(wǎng)絡(luò)就不足以解決問題了,但雙向GRU的出現(xiàn)很好地解決了這一問題,并且收效頗豐。雙向循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

      圖2 雙向循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

      2 DFICF算法

      本文基于評論的深度協(xié)同推薦算法(DFICF),包括由兩種特征提取方法構(gòu)成的C&G特征融合模塊、注意力層以及處理用戶和項(xiàng)目評論特征的融合層,網(wǎng)絡(luò)結(jié)構(gòu)圖如圖3所示。

      圖3 DFICF算法網(wǎng)絡(luò)結(jié)構(gòu)圖

      2.1 文本預(yù)處理層

      由于模型的兩側(cè)對稱且結(jié)構(gòu)完全相同,這里只以用戶側(cè)為例進(jìn)行描述。對于每一位用戶U的所有評論文本,定義一個(gè)集合{,,…R}進(jìn)行描述,代表所定義這個(gè)集合容納的最大評論條數(shù)。本文采用Glove模型對評論文本進(jìn)行預(yù)訓(xùn)練,它是一個(gè)基于全局詞頻統(tǒng)計(jì)的詞表征工具,可以把一個(gè)單詞表達(dá)成由實(shí)數(shù)組成的向量,這些向量能夠捕捉到單詞之間的一些語義特性,比如相似性和類比性等。可表示為:

      權(quán)重函數(shù)為:

      其中,v,v為單詞和的詞向量,bb為兩個(gè)標(biāo)量,為權(quán)重函數(shù),為詞匯表的大小。用戶的評論文本先被轉(zhuǎn)換為詞嵌入矩陣,而后再經(jīng)Glove的處理,評論文本就被映射為維的詞向量,表示定義為{,,…o},這些向量便可以作為模型深度特征提取模塊的輸入了。

      2.2 C&G特征融合模塊

      接下來對 進(jìn)行最大池化操作,選取每個(gè)特征圖中最重要且值最高的文本特征,最大池化操作完成后,卷積結(jié)果會(huì)被消減為一個(gè)固定大小的向量,這樣就可以輕易做到控制向量維度的大小,方便之后與GRU模塊的特征進(jìn)行融合。

      將雙向GRU網(wǎng)絡(luò)輸出向量的維度2d設(shè)置為與卷積特征提取網(wǎng)絡(luò)卷積核的數(shù)量相同的寬度,與LSTM相比,GRU的門控單元只有兩個(gè),分別是更新門和重置門,在時(shí)刻GRU的計(jì)算公式為:

      2.3 注意力層

      對于經(jīng)過C&G特征融合模塊處理后輸出的融合特征向量,將其輸入注意力層進(jìn)行特征權(quán)值分布計(jì)算,計(jì)算過程為:

      在通道注意力計(jì)算完成后將輸出輸入空間注意力模塊,計(jì)算公式為:

      2.4 融合層

      在接收到由兩側(cè)提取的用戶和項(xiàng)目特征后,雖然兩側(cè)的數(shù)據(jù)格式完全相同,但是由于存在于不同的特征空間,所以兩個(gè)向量不能直接進(jìn)行比較,為此采用因子分解機(jī)(FM)對兩側(cè)傳入的特征信息進(jìn)行操作,進(jìn)而得出預(yù)測值,公式為:

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)集

      實(shí)驗(yàn)采用的是亞馬遜提供的數(shù)字音樂評論數(shù)據(jù)集,其中包含三個(gè)不同稀疏度的數(shù)據(jù)集Digital_music、Digital_music_5、Digital_music_10,分別表示全部的用戶項(xiàng)目評論集,每個(gè)用戶的評論數(shù)和每件商品評論數(shù)都超過五條的評論集,每個(gè)用戶的評論數(shù)和每件商品評論數(shù)都超過十條的評論集,統(tǒng)計(jì)結(jié)果如表1所示。

      表1 數(shù)據(jù)集統(tǒng)計(jì)表

      3.2 評價(jià)指標(biāo)

      在實(shí)驗(yàn)效果的評價(jià)上采用均方誤差MSE這一評價(jià)標(biāo)準(zhǔn),均方誤差值越小代表算法推薦的準(zhǔn)確度越高,計(jì)算方法為:

      其中,表示測試集中的樣本個(gè)數(shù),、分別表示測試集中的用戶和項(xiàng)目。

      3.3 參數(shù)設(shè)置與訓(xùn)練

      在算法實(shí)驗(yàn)中,選用Glove對文本單詞進(jìn)行初始化,生成的文本向量維度為50,模型采用Adam函數(shù)進(jìn)行優(yōu)化操作,模型的迭代次數(shù)設(shè)置為40輪,Batch大小設(shè)置為128,學(xué)習(xí)率設(shè)為0.02,卷積提取網(wǎng)絡(luò)中卷積核大小設(shè)置為3,并且采用dropout避免過擬合。損失函數(shù)訓(xùn)練如圖4所示。

      圖4 損失函數(shù)訓(xùn)練圖

      3.4 對比模型

      為了驗(yàn)證本文DFICF算法的性能,選取以下模型和算法進(jìn)行評分預(yù)測的對比實(shí)驗(yàn)。

      MF:經(jīng)典的矩陣分解算法。

      PMF:在MF的基礎(chǔ)上引入概率模型進(jìn)一步優(yōu)化得到的矩陣分解模型。

      CDL:將評論信息作為輔助信息,結(jié)合用戶和項(xiàng)目的隱特征進(jìn)行評分的預(yù)測。

      DeepCoNN:首次提出完全通過評論對評分進(jìn)行預(yù)測的深度推薦算法,將該算法作為基線模型進(jìn)行實(shí)驗(yàn)分析。

      TransNet:采用兩列并行網(wǎng)絡(luò)分別處理用戶與項(xiàng)目評論集,引入了附加潛在層。

      DFICF:本文提出的基于評論的多特征融合深度協(xié)同算法。

      3.5 實(shí)驗(yàn)結(jié)果分析

      本文將DFICF在亞馬遜的數(shù)字音樂評論數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并且與上述提到的幾個(gè)有代表性的模型進(jìn)行對比,得到的MSE如表2所示。

      表2 實(shí)驗(yàn)結(jié)果表

      由表2可以看出,本文提出的基于評論的多特征融合推薦算法DFICF在各種不同數(shù)據(jù)集上的MSE均遠(yuǎn)遠(yuǎn)小于以往只使用評分矩陣進(jìn)行矩陣分解的MF、PMF推薦算法,從而得出DFICF的推薦性能優(yōu)于傳統(tǒng)推薦算法。在Digital_music這個(gè)數(shù)據(jù)較為稀疏的數(shù)據(jù)集上,MF和PMF協(xié)同過濾算法的MSE遠(yuǎn)遠(yuǎn)高于其他算法,在數(shù)據(jù)稀疏的情況下效果不理想。而對于之前那些使用評論文本作為推薦依據(jù)的CDL、DeepCoNN、Transnets算法,由于評論文本本身具備用戶對項(xiàng)目的偏好,所以MSE值明顯減小,推薦效果有所提升。本文提出的DFICF在實(shí)驗(yàn)的三個(gè)數(shù)據(jù)集上,MSE值均小于所對比的相關(guān)算法,這主要是由于DFICF算法引入了特征融合與注意力機(jī)制,因此在推薦效果上要優(yōu)于其他基于評論文本的算法。

      4 結(jié) 論

      針對以往基于評論的模型在兩側(cè)特征提取的過程中文本特征會(huì)有所損失并且特征內(nèi)容不夠豐富,進(jìn)而導(dǎo)致在融合層中用戶與項(xiàng)目的交互不夠充分,使得預(yù)測值發(fā)生偏差的問題,本文提出了一種基于評論的多特征融合深度協(xié)同推薦算法DFICF。在文本信息提取過程中采取特征融合的方法,并引入注意力機(jī)制來提升推薦的效率。實(shí)驗(yàn)結(jié)果表明,相較于以往的推薦算法,DFICF有不同程度的提升,充分證明了運(yùn)用特征融合結(jié)合多種特征提取方法可提升主網(wǎng)絡(luò)的準(zhǔn)確性。

      文中提到的特征融合模塊雖然增加了特征提取的途徑,使準(zhǔn)確度得到一定程度的提升,但是在時(shí)間復(fù)雜度上卻比之前要復(fù)雜一些。所以在接下來的工作中,將進(jìn)一步對特征融合模塊進(jìn)行優(yōu)化,力爭獲得更加優(yōu)異的推薦性能。

      猜你喜歡
      特征提取卷積向量
      基于時(shí)域全卷積網(wǎng)絡(luò)的語音增強(qiáng)
      向量的分解
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      聚焦“向量與三角”創(chuàng)新題
      基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
      電子制作(2019年15期)2019-08-27 01:12:00
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      一種基于LBP 特征提取和稀疏表示的肝病識別算法
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      基于MED和循環(huán)域解調(diào)的多故障特征提取
      五原县| 拉孜县| 昭平县| 荥阳市| 当雄县| 日土县| 贵定县| 林甸县| 闽清县| 大厂| 虞城县| 金川县| 贺州市| 绥化市| 长泰县| 容城县| 泽普县| 永靖县| 仁布县| 商城县| 成武县| 汾阳市| 济源市| 龙游县| 建阳市| 合阳县| 台中市| 江陵县| 水城县| 双柏县| 樟树市| 东山县| 漳浦县| 防城港市| 布尔津县| 灌云县| 四平市| 乌拉特后旗| 景德镇市| 遵义县| 梁平县|