• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Word2Vec的神經(jīng)網(wǎng)絡(luò)協(xié)同推薦模型

      2019-01-17 02:15:20張華偉
      網(wǎng)絡(luò)空間安全 2019年6期
      關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)

      張華偉

      摘? ?要:在信息推薦系統(tǒng)中,傳統(tǒng)的方法是通過對(duì)內(nèi)容、行為去預(yù)測(cè)用戶的興趣點(diǎn)來實(shí)現(xiàn)信息推送。國內(nèi)外研究實(shí)驗(yàn)結(jié)果表明,這種模型推薦性能較為顯著,說明用戶行為和內(nèi)容是相關(guān)的。根據(jù)相關(guān)性的對(duì)稱原理,文章提出了基于用戶行為的Word2Vec協(xié)同推薦算法,通過神經(jīng)網(wǎng)絡(luò)模型來隱式地抽取商品和用戶的相互關(guān)系并進(jìn)行向量化表示,能夠更好地計(jì)算商品和用戶間的相似性,以達(dá)到提升模型的推薦效果和泛化能力。

      關(guān)鍵詞:Word2Vec;詞向量;協(xié)同推薦;卷積神經(jīng)網(wǎng)絡(luò)

      中圖分類號(hào):TP311.1? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

      Abstract: In the information push system, the traditional method is to predict the user's interest points through content and behavior to achieve information push. The domestic and foreign research results show that the recommendation performance of this model is still remarkable, which also shows that user behavior and content are related. According to the symmetry principle of relativity, this paper proposes a Word2Vec collaborative recommendation algorithm based on user behavior, which implicitly extracts and vectorizes the relationship between goods and users through the neural network model, so that we can better calculate the similarity between goods and users, and improve the recommendation effect and generality of the model.

      Key words: Word2Vec; word vector; collaborative recommendation; convolution neural network

      1 引言

      推薦系統(tǒng)是互聯(lián)網(wǎng)時(shí)代的一種信息檢索工具,自上世紀(jì)90年代起,人們便認(rèn)識(shí)到了推薦系統(tǒng)的價(jià)值,經(jīng)過了二十多年的積累和沉淀,推薦系統(tǒng)逐漸成為一門獨(dú)立的學(xué)科在學(xué)術(shù)研究和業(yè)界應(yīng)用中都取得了很多成果。

      1994年明尼蘇達(dá)大學(xué)推出第一個(gè)自動(dòng)化推薦系統(tǒng)Group Lens[1],這是最早的自動(dòng)化協(xié)同過濾推薦系統(tǒng)之一。1997年Resnick等人首次提出推薦系統(tǒng)(Recommender System,RS)一詞,自此,推薦系統(tǒng)一詞被廣泛引用,并且推薦系統(tǒng)開始成為一個(gè)重要的研究領(lǐng)域。1998年亞馬遜(Amazon.com)上線了基于物品的協(xié)同過濾算法。2003年亞馬遜的Linden等人發(fā)表論文,公布了基于物品的協(xié)同過濾算法,據(jù)統(tǒng)計(jì)推薦系統(tǒng)的貢獻(xiàn)率在20%~30%之間。1999年開始ACM每年召開的電子商務(wù)研討會(huì),推薦系統(tǒng)相關(guān)研究逐漸增多,2001年SIGR開始專門把推薦系統(tǒng)作為一個(gè)研討主題,2007年在美國舉行第一屆ACM推薦系統(tǒng)大會(huì)。2016年,You Tube發(fā)表論文,將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用推薦系統(tǒng)中,以達(dá)到從大規(guī)模候選信息中計(jì)算出最優(yōu)的推薦內(nèi)容[2]。

      2 相關(guān)技術(shù)

      2.1 Word2Vec模型

      Word2Vec[3]是由Mikolov提出的基于NNLM算法的詞向量模型,其除了擁有很高的處理效率外,經(jīng)訓(xùn)練出的詞向量可以揭示特征詞之間的語義關(guān)系。Word2Vec有兩個(gè)重要模型[4],分別是CBOW模型(Continuous Bag-of-Words Model)和Skip-gram模型(Continuous Skip-gram Model)。

      兩個(gè)模型都包含三層,即輸入層、投影層和輸出層。CBOW模型如圖1所示,它是在已知當(dāng)前詞wt的上下文wt-2,wt-1,wt+1,wt+2的前提下預(yù)測(cè)當(dāng)前詞wt,其優(yōu)化的目標(biāo)函數(shù)為:

      后者恰恰相反,如圖2所示,它是在已知當(dāng)前詞wt的前提下,預(yù)測(cè)其上下文wt-2,wt-1,wt+1,wt+2,其優(yōu)化的目標(biāo)函數(shù)為:

      2.2 卷積神經(jīng)網(wǎng)絡(luò)

      卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)[5]是一種前饋神經(jīng)網(wǎng)絡(luò)。它由卷積層、池化層和全連接層構(gòu)成,每一層通過一個(gè)可導(dǎo)的激活函數(shù)將上一層的輸出變?yōu)橄乱粚拥妮斎搿?/p>

      (1)卷積層

      卷積層[6]是卷積神經(jīng)網(wǎng)絡(luò)的核心部分,通過卷積運(yùn)算來獲取輸入數(shù)據(jù)的局部特征,然后將局部特征進(jìn)行連接形成整體特征。假設(shè)有兩個(gè)函數(shù)f(x)和g(x),其卷積運(yùn)算(f×g)(n)是指,對(duì)f(x)和g(x)的乘積進(jìn)行求和。

      進(jìn)行卷積運(yùn)算時(shí),過濾器在輸入矩陣上移動(dòng),進(jìn)行點(diǎn)積運(yùn)算。數(shù)據(jù)特征進(jìn)行卷積之后,要使用激活函數(shù)進(jìn)行非線性變化,減少處理后的數(shù)據(jù)特征表達(dá)能力不足的問題,具體計(jì)算公式如下:

      常用的激活函數(shù)f有sigmod或tanh等非線性函數(shù)。

      (2)池化層

      池化(Pooling)也稱為欠采樣或下采樣,通過對(duì)卷積計(jì)算產(chǎn)生的特征進(jìn)行劃分不同的區(qū)域,并通過算法統(tǒng)計(jì)出該區(qū)域的池化值,于此可看出池化層主要用于特征降維和減小過擬合問題,同時(shí)提高模型的容錯(cuò)率。

      (3)全連接層

      經(jīng)過卷積層和池化層多次交替結(jié)構(gòu)后(具體的交替次數(shù)根據(jù)實(shí)際情況而定),最終匯聚到全連接層。全連接層和卷積層的區(qū)別是,在卷積層中的神經(jīng)元只與前一層的局部連接,并通過權(quán)值共享方式減少連接的參數(shù),而全連接層的神經(jīng)元與前一層的所有激活單元連接。

      3 推薦算法

      3.1商品向量化表示

      推薦算法通過用戶的點(diǎn)擊、評(píng)價(jià)、用戶偏好和內(nèi)容文本信息詞嵌入向量??梢园延脩粢呀?jīng)訪問過的項(xiàng)目看成一個(gè)N維向量,基于項(xiàng)目向量來計(jì)算條件概率。假設(shè)用戶已經(jīng)訪問的項(xiàng)目向量為un,用戶接下來會(huì)訪問的K個(gè)項(xiàng)目的向量[7~9]為,因此,可以用激活函數(shù)來計(jì)算條件概率:

      通過對(duì)目標(biāo)函數(shù)最優(yōu)化參數(shù)vc,vn使得上面條件概率最大,利用用戶訪問歷史記錄來預(yù)測(cè)用戶接下來要看的商品,具體計(jì)算公式如下:

      3.2 協(xié)同推薦模型

      利用公式(6)可以構(gòu)造推薦系統(tǒng)中的用戶和商品向量,作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,本文設(shè)計(jì)了基于Word2Vec協(xié)同推薦算法(W-CNN)。

      (1)將每個(gè)用戶的歷史行為序列Item映射為一個(gè)d維的詞向量,生成一個(gè)n×d維的矩陣,其中n代表Item數(shù),d代表每個(gè)Item映射的緯度。

      (2)對(duì)于詞向量,將每個(gè)映射的d維向量堆疊,利用CNN對(duì)堆疊結(jié)果的局部特征進(jìn)行提取,采用多種不同大小的水平卷積核來學(xué)習(xí)多個(gè)Item之間的特征關(guān)系,得到輸出向量Vector1。

      (3)同時(shí)采用垂直卷積核對(duì)每次輸入的所有Item的關(guān)系進(jìn)行綜合,得到輸出向量Vector2。

      (4)將向量Vector1和Vector2拼接并得到一個(gè)長(zhǎng)向量,將該長(zhǎng)向量輸入到一個(gè)多層全聯(lián)接的神經(jīng)網(wǎng)絡(luò)中,再采用負(fù)采樣的方法進(jìn)行輸出優(yōu)化,優(yōu)化后的輸出結(jié)果是分別與每個(gè)Item一一對(duì)應(yīng)的輸出概率值。

      4 實(shí)驗(yàn)

      4.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集

      本文采用的硬件環(huán)境:32GB內(nèi)存,Intel Core i7-7700處理器;GPU為Gigabyte GTX1080Ti Xtrem,實(shí)驗(yàn)平臺(tái)基于TensorFlow和Python3.6語言,操作系統(tǒng)為Ubuntu18。

      實(shí)驗(yàn)使用的數(shù)據(jù)為MovieLens數(shù)據(jù)集, MovieLens包含2000多萬條評(píng)分?jǐn)?shù)據(jù)、2.7萬部電影數(shù)據(jù)、46.5萬個(gè)電影類型標(biāo)簽數(shù)據(jù)及13.8萬位用戶數(shù)據(jù)。對(duì)數(shù)據(jù)集進(jìn)行規(guī)整化處理的方法與步驟:

      (1)以電影所屬類型及符號(hào)“|”為依據(jù)進(jìn)行分割;

      (2)如果一個(gè)電影有多個(gè)類型,將分割成多個(gè)列表;

      (3)將分割后得到的多個(gè)列表轉(zhuǎn)換為一個(gè)數(shù)據(jù)合集;

      (4)將數(shù)據(jù)合集的索引設(shè)置為電影ID。

      4.2 實(shí)驗(yàn)結(jié)果分析

      首先,通過設(shè)置不同的推薦個(gè)數(shù)(Top-N)來測(cè)試它對(duì)算法的影響。如圖3所示,在MovieLens數(shù)據(jù)集上,本文提出的W-CNN算法的準(zhǔn)確率在TOP-N中相比于其他算法,具有較好的性能,并且隨著推薦個(gè)數(shù)的增加,算法性能處于平穩(wěn)狀態(tài),甚至有輕微的提升。

      如表1所示,本文提出的W-CNN算法在MovieLens數(shù)據(jù)集上的準(zhǔn)確率、召回率和F1值相對(duì)于其它算法都有較為明顯的提高。實(shí)驗(yàn)結(jié)果表明,本文算法基于Word2Vec和卷積神經(jīng)網(wǎng)絡(luò),對(duì)用戶和項(xiàng)目進(jìn)行向量化,能從整體上提升算法性能,從而提升系統(tǒng)推薦質(zhì)量。

      5 結(jié)束語

      本文對(duì)基于Word2Vec的卷積神經(jīng)網(wǎng)絡(luò)推薦模型做了較為全面的研究,首先利用Word2Vec對(duì)用戶的偏好、瀏覽記錄、用戶評(píng)價(jià)進(jìn)行建模,并生成偏好矩陣和用戶主題矩陣向量,再利用該模型為用戶進(jìn)行推薦,最后根據(jù)用戶的訪問記錄定期更新用戶偏好。實(shí)驗(yàn)結(jié)果表明,本模型在MovieLens數(shù)據(jù)集上的準(zhǔn)確率、召回率和F1值相對(duì)于其它算法都有較為明顯的提高,并且隨著推薦個(gè)數(shù)的增加,算法性能并處于平穩(wěn)狀態(tài),甚至有輕微的提升。

      參考文獻(xiàn)

      [1] 汪靜.協(xié)同過濾推薦算法研究綜述[J].中國新通信,2014(13):111-113.

      [2] 黃立威,江碧濤,呂守業(yè),等.基于深度學(xué)習(xí)的推薦系統(tǒng)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2018,41(7):191-219.

      [3] 李曉,解輝,李立杰.基于Word2vec的句子語義相似度計(jì)算研究[J].計(jì)算機(jī)科學(xué),2017,44(9):256260.

      [4] 曾誰飛,張笑燕,杜曉峰,等.基于神經(jīng)網(wǎng)絡(luò)的文本表示模型新方法[J].通信學(xué)報(bào),2017,38(4):8698.

      [5] 張群,王紅軍,王倫文.詞向量與 LDA 相融合的短文本分類方法[J].現(xiàn)代圖書情報(bào)技術(shù),2016,(12):27-35.

      [6] 韓棟,王春華,肖敏.基于句子級(jí)學(xué)習(xí)改進(jìn)CNN的短文本分類方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2019(01).

      [7] 周慶平,譚長(zhǎng)庚,王宏君,等.基于聚類改進(jìn)的KNN文本分類算法[J].計(jì)算機(jī)應(yīng)用研究,2016, 33(11):3374-3377+3382.

      [8] 朱珠.卷積神經(jīng)網(wǎng)絡(luò)的多目標(biāo)跟蹤系統(tǒng)[J].網(wǎng)絡(luò)空間安全,2018,9(11):68-71.

      [9] 吳春瓊,黃曉.基于猴群算法優(yōu)化的神經(jīng)網(wǎng)絡(luò)在入侵檢測(cè)中的應(yīng)用研究[J].網(wǎng)絡(luò)空間安全,2016,7(06):14-18.

      猜你喜歡
      卷積神經(jīng)網(wǎng)絡(luò)
      基于深度神經(jīng)網(wǎng)絡(luò)的微表情識(shí)別
      卷積神經(jīng)網(wǎng)絡(luò)中減少訓(xùn)練樣本時(shí)間方法研究
      卷積神經(jīng)網(wǎng)絡(luò)語言模型研究
      基于卷積神經(jīng)網(wǎng)絡(luò)的車輛檢索方法研究
      基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      深度學(xué)習(xí)技術(shù)下的中文微博情感的分析與研究
      軟件(2016年5期)2016-08-30 06:27:49
      基于卷積神經(jīng)網(wǎng)絡(luò)的樹葉識(shí)別的算法的研究
      景谷| 通化县| 永川市| 习水县| 海林市| 池州市| 邳州市| 中方县| 塔城市| 遵义市| 新干县| 乌海市| 梁山县| 安庆市| 固始县| 轮台县| 祥云县| 吉安市| 正安县| 新蔡县| 称多县| 阳曲县| 光山县| 惠安县| 襄汾县| 六盘水市| 桐庐县| 安平县| 凤阳县| 湟源县| 伊宁县| 琼海市| 中阳县| 绵阳市| 乐都县| 广丰县| 伽师县| 木兰县| 贵州省| 东丰县| 枝江市|