• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合多元異構(gòu)信息的矩陣分解推薦算法

    2020-07-13 06:16:32王根生潘方正
    關(guān)鍵詞:物品公式矩陣

    王根生,潘方正

    1(江西財(cái)經(jīng)大學(xué) 人文學(xué)院,南昌 330013) 2(江西財(cái)經(jīng)大學(xué) 計(jì)算機(jī)實(shí)踐教學(xué)中心,南昌 330013) 3(江西財(cái)經(jīng)大學(xué) 國際經(jīng)貿(mào)學(xué)院,南昌 330013)

    1 引 言

    推薦算法是解決信息過載問題的一種重要技術(shù),在電子商務(wù)、網(wǎng)絡(luò)媒體、新聞廣告等領(lǐng)域得到了廣泛應(yīng)用.目前推薦算法主要分為3類:基于內(nèi)容過濾推薦、協(xié)同過濾推薦和混合推薦[1].協(xié)同過濾推薦算法是目前應(yīng)用最為廣泛的一類算法[2],其主要分為基于用戶(User-based CF)的協(xié)同過濾、基于物品(Item-based CF)的協(xié)同過濾和基于模型(Model-based CF)的協(xié)同過濾[3].基于模型的協(xié)同過濾使用機(jī)器學(xué)習(xí)的算法思路進(jìn)行建模[4],矩陣分解就是一種基于模型協(xié)同過濾的經(jīng)典算法.矩陣分解推薦算法在Netflix百萬大獎(jiǎng)賽中脫穎而出后,成為當(dāng)下十分流行的一種推薦算法.

    雖然矩陣分解推薦算法相對(duì)其他協(xié)同過濾算法能取得更好的推薦效果,但依然面臨數(shù)據(jù)稀疏和不能反映用戶興趣變化的問題.針對(duì)這些問題國內(nèi)外不少學(xué)者提出了相關(guān)改進(jìn)方案,如針對(duì)數(shù)據(jù)稀疏問題:文獻(xiàn)[5]提出了一種基于屬性耦合的矩陣分解方法,將物品屬性信息融入到矩陣分解模型中;文獻(xiàn)[6]在利用顯式評(píng)分信息的基礎(chǔ)上,引入其他的隱式信息(如瀏覽、收藏和分享等);文獻(xiàn)[7]利用社交網(wǎng)絡(luò)信息計(jì)算用戶的社會(huì)地位,把用戶的社會(huì)地位融合到矩陣分解推薦算法之中;文獻(xiàn)[8]提出一種融合社交網(wǎng)絡(luò)和用戶間的興趣偏好相似度的正則化矩陣分解推薦算法.針對(duì)用戶興趣變化的問題:文獻(xiàn)[9]利用時(shí)序圖區(qū)分用戶的長期興趣和短期興趣;文獻(xiàn)[10,11]在協(xié)同過濾算法中分別引入了時(shí)間衰減模型和艾賓浩斯遺忘曲線來適應(yīng)用戶興趣變化;文獻(xiàn)[12]利用時(shí)間窗口動(dòng)態(tài)計(jì)算電影相似度,緩解用戶興趣變化問題.

    通過分析發(fā)現(xiàn),目前加入其他輔助信息是緩解數(shù)據(jù)稀疏的主要思路,引入時(shí)間窗口、遺忘曲線、長短期興趣模型是反映用戶興趣變化的主要思路.隨著互聯(lián)網(wǎng)的快速發(fā)展,數(shù)據(jù)呈現(xiàn)多元性和異構(gòu)性,如何整合這些多元異構(gòu)數(shù)據(jù)對(duì)提高推薦算法的性能有重要意義.所以本文提出一種融合用戶點(diǎn)評(píng)數(shù)據(jù)、用戶-物品評(píng)分?jǐn)?shù)據(jù)、物品異構(gòu)信息和遺忘曲線改進(jìn)的矩陣分解推薦算法,緩解數(shù)據(jù)稀疏的同時(shí)解決用戶興趣變化的問題.

    2 相關(guān)工作

    2.1 矩陣分解推薦算法

    矩陣分解推薦算法(FunkSVD)的基本思想是把用戶-物品評(píng)分矩陣R分解成兩個(gè)低維的用戶特征矩陣U和物品特征矩陣V,如公式(1)所示.

    R≈UVT

    (1)

    其中,V∈Rn×d,m和n分別代表用戶和物品的個(gè)數(shù),d為用戶和物品特征維度.利用矩陣U和V去擬合用戶對(duì)物品的評(píng)分,并對(duì)未評(píng)分物品進(jìn)行預(yù)測(cè).為了使公式(1)最大程度擬合用戶-物品的真實(shí)評(píng)分?jǐn)?shù)據(jù),使用線性回歸的思路,建立目標(biāo)優(yōu)化函數(shù),具體如公式(2)所示.

    (2)

    隨著研究的深入,學(xué)者們提出了不少改進(jìn)型矩陣分解模型,比如聯(lián)合矩陣分解、概率矩陣分解模型等.聯(lián)合矩陣分解通過分解多重相關(guān)聯(lián)矩陣來緩解矩陣分解中數(shù)據(jù)稀疏的問題,這些多重相關(guān)聯(lián)的矩陣包含相同的實(shí)體,可以從包含相同實(shí)體的關(guān)系矩陣中獲取更多額外的信息[13].

    2.2 Word2vec

    Word2vec基于深度學(xué)習(xí)把詞語映射到包含語義關(guān)系的低維實(shí)數(shù)空間,語義相似的詞語在這個(gè)空間中也相近[14].Word2vec改變了傳統(tǒng)one-hot編碼向量維度高、矩陣稀疏、語義缺失的問題,被廣泛運(yùn)用于自然語言處理中.Word2vec包括Skip-Gram和CBOW兩種訓(xùn)練模型,Skip-Gram通過輸入詞wt來預(yù)測(cè)其上下文Swt=(wt-k,…,wt-1,wt+1,…,wt+k),其中k為wt上下文窗口大小.CBOW則是根據(jù)上下文Swt去預(yù)測(cè)wt,其目標(biāo)優(yōu)化函數(shù)分別如公式(3)和公式(4)所示.

    (3)

    (4)

    2.3 異構(gòu)信息網(wǎng)絡(luò)

    異構(gòu)信息網(wǎng)絡(luò)(heterogeneous information network, HIN)是包含多種類型節(jié)點(diǎn)和邊的信息網(wǎng)絡(luò)[15].HIN=(V,E,A,R),其中V代表頂點(diǎn)集、E代表邊集、A代表頂點(diǎn)類型、R代表邊類型,|A|>1或者|R|>1,存在映射φ:V→A,φ:E→R.加權(quán)異構(gòu)信息網(wǎng)絡(luò)(weighted heterogeneous information network, WHIN)在HIN的基礎(chǔ)上加入連接權(quán)重W,WHIN=(V,E,W,A,R),W代表連接權(quán)重,存在映射γ:E→W.圖1為一個(gè)典型的WHIN網(wǎng)絡(luò)模式實(shí)例圖.

    圖1 加權(quán)異構(gòu)信息網(wǎng)絡(luò)的網(wǎng)絡(luò)模式實(shí)例圖

    3 融合多元異構(gòu)信息的矩陣分解推薦算法

    本文算法的主要思路是從用戶點(diǎn)評(píng)數(shù)據(jù)和物品異構(gòu)信息中挖掘物品相似度矩陣和用戶興趣相似度矩陣,并在用戶興趣表示中引入遺忘曲線,適應(yīng)用戶興趣變化.然后把物品相似度矩陣和用戶興趣相似度矩陣融合到傳統(tǒng)矩陣分解的目標(biāo)函數(shù)中,得出用戶特征矩陣和物品特征矩陣,預(yù)測(cè)用戶對(duì)物品的評(píng)分,完成推薦.

    3.1 物品相似度矩陣計(jì)算

    物品相似度的計(jì)算依賴于對(duì)物品的特征描述,如何獲得對(duì)物品內(nèi)容的精準(zhǔn)描述成為一個(gè)關(guān)鍵,這也是基于內(nèi)容過濾推薦的核心.在很多推薦領(lǐng)域,我們無法直接獲取物品內(nèi)容的描述,如電影推薦,目前其相似度的計(jì)算大部分基于電影的屬性信息(如類型、主演、導(dǎo)演等).而隨著在線影評(píng)網(wǎng)站的發(fā)展,每部電影都積累了大量的用戶點(diǎn)評(píng)數(shù)據(jù),通過文本分析技術(shù)可以從這些點(diǎn)評(píng)數(shù)據(jù)中挖掘出電影的內(nèi)容信息.所以本文以電影推薦為例,結(jié)合電影屬性信息和點(diǎn)評(píng)數(shù)據(jù)計(jì)算電影的相似度,算法流程如圖2所示.

    3.1.1 電影內(nèi)容相似度

    對(duì)所有點(diǎn)評(píng)數(shù)據(jù)集進(jìn)行分詞,并對(duì)代詞、連詞、介詞等相關(guān)停用詞進(jìn)行刪除;利用Word2Vec模型進(jìn)行訓(xùn)練,得到包含語義關(guān)系的詞向量;使用TextRank算法對(duì)每部電影的關(guān)鍵詞進(jìn)行提取.TextRank[17]是根據(jù)PageRank算法改進(jìn)而來,該算法廣泛用于文本的關(guān)鍵詞和關(guān)鍵詞組的提取.如對(duì)電影《芳華》提取的影評(píng)關(guān)鍵詞為“集體主義 戰(zhàn)爭(zhēng) 芳華 馮小剛 七十年代 信仰 殘酷…”.得到代表電影mi內(nèi)容的關(guān)鍵詞組Wmi={w1,w2,…,wn}后,結(jié)合詞向量,把Wmi中的每個(gè)關(guān)鍵詞wn替換成對(duì)應(yīng)的詞向量Vwn=[v1,v2,…,vk],k為詞向量的維度,Wmi={Vw1,Vw2,…,Vwn}.電影mi和mj的內(nèi)容相似度計(jì)算如公式(5)所示.

    圖2 物品相似度矩陣計(jì)算流程

    (5)

    其中,n和m分別代表電影mi和mj關(guān)鍵詞組的長度,cos(Vwi,Vwj)為詞向量Vwi和Vwj的余弦相似度.

    3.1.2 電影屬性相似度

    文獻(xiàn)[18]提出了比較詳細(xì)的電影屬性相似度計(jì)算方法,電影的屬性p={類型、上映國家、主演、導(dǎo)演、上映時(shí)間、獲獎(jiǎng)情況、標(biāo)簽、評(píng)分}.電影mi和mj的屬性相似度計(jì)算如公式(6)所示.

    (6)

    其中,sim(pi)表示兩部電影在第i個(gè)屬性上的相似度,wi為第i個(gè)屬性的權(quán)重.具體每個(gè)屬性的相似度sim(pi)的計(jì)算和權(quán)重wi的計(jì)算參考文獻(xiàn)[18].

    3.1.3 電影相似度

    得到電影內(nèi)容相似度Sc(mi,mj)和電影屬性相似度Sp(mi,mj)后,把二者進(jìn)行融合,得到電影整體相似度,融合計(jì)算如公式(7)所示.

    S(mi,mj)=βSc(mi,mj)+(1-β)Sp(mi,mj)

    (7)

    其中,β為融合權(quán)重,控制電影內(nèi)容相似度和電影屬性相似度對(duì)電影整體相似度的影響比例.利用公式(7)計(jì)算所有電影的相似度,得出電影相似度矩陣D.

    3.2 用戶興趣相似度矩陣計(jì)算

    通過用戶-物品評(píng)分?jǐn)?shù)據(jù)、物品異構(gòu)屬性信息和遺忘曲線構(gòu)建用戶-物品-屬性的加權(quán)異構(gòu)信息網(wǎng)絡(luò);在網(wǎng)絡(luò)中選擇連接用戶的相關(guān)元路徑,并計(jì)算不同元路徑的權(quán)重;計(jì)算不同元路徑下的用戶興趣相似度,結(jié)合元路徑權(quán)重得出最終用戶興趣相似度,算法流程如圖3所示.

    3.2.1 用戶-物品-屬性加權(quán)異構(gòu)信息網(wǎng)絡(luò)構(gòu)建

    以電影為例,用戶-電影-屬性異構(gòu)信息網(wǎng)絡(luò)中V={電影(Movie)、用戶(User)、主演(Actor)、導(dǎo)演(Director)、類型(Genre)、國家(Country)、編劇(Screenplay)},E={評(píng)分/被評(píng)分、演繹/被演繹、導(dǎo)演/被導(dǎo)演、屬于/包含、所屬/包含、編寫/被編寫},具體網(wǎng)絡(luò)模式可見圖1.確定了網(wǎng)絡(luò)中的實(shí)體和關(guān)系后,重點(diǎn)是如何計(jì)算網(wǎng)絡(luò)中的連接權(quán)重W.目前用戶-電影的連接權(quán)重基本上都直接使用用戶對(duì)電影的評(píng)分,如文獻(xiàn)[19,20],評(píng)分1-5分別對(duì)應(yīng)了{(lán)非常不喜歡、不喜歡、一般、喜歡、非常喜歡}五種情況,但這種方式有如下問題:首先,使用連續(xù)的數(shù)字 1-5 很難體現(xiàn)興趣的正反變化(不喜歡<3,喜歡>3)和興趣的非線性變化差異(非常喜歡與喜歡的差別和一般與不喜歡的差別是不一樣,應(yīng)該是中間變化大,兩頭變化小);其次,沒有體現(xiàn)用戶興趣隨時(shí)間的變化,隨著時(shí)間的推移,用戶的興趣可能會(huì)逐漸改變,所以歷史數(shù)據(jù)具有保鮮度,時(shí)間越長的數(shù)據(jù)越難反應(yīng)用戶當(dāng)前的興趣情況.針對(duì)這兩點(diǎn)提出基于神經(jīng)網(wǎng)絡(luò)激活函數(shù)tanh和遺忘曲線改進(jìn)的權(quán)重計(jì)算,計(jì)算如公式(8)所示.

    圖3 用戶興趣相似度矩陣計(jì)算流程

    wu_m(s,t)=tanh(s)*memory(t)

    (8)

    其中,wu_m(s,t)代表用戶u對(duì)電影m的興趣連接權(quán)重,s為用戶u對(duì)電影m的評(píng)分,t為評(píng)論間隔時(shí)間(天).tanh(s)為激活函數(shù),其函數(shù)公式如式(9)所示.memory(t)為遺忘曲線函數(shù),本文選取文獻(xiàn)[21]對(duì)艾賓浩斯遺忘曲線擬合函數(shù),其函數(shù)公式如式(10)所示.

    (9)

    memory(t)=31.8*t-0.125

    (10)

    網(wǎng)絡(luò)中其他關(guān)系,如:電影與類別、電影與國家、電影與編劇、電影與導(dǎo)演,為單值關(guān)系,權(quán)重設(shè)為1,而電影和主演間的權(quán)重可以根據(jù)主演的排序決定,取排序的倒數(shù).

    3.2.2 元路徑選擇和權(quán)重計(jì)算

    不同的元路徑蘊(yùn)含了不同的語義信息,本文選擇了6條元路徑,具體說明見表1所示.

    不同元路徑下得出的用戶興趣相似度的置信度是不一樣的,隨著路徑的變長,置信度也越低,就好比人際關(guān)系網(wǎng)絡(luò),隨著關(guān)聯(lián)路徑的變長,之間的信任關(guān)系也逐漸降低.基于這個(gè)事實(shí),文獻(xiàn)[20]提出一種基于元路徑長度的權(quán)重計(jì)算方法.但這個(gè)方法主要有2個(gè)問題:1)沒有對(duì)同長度的元路徑做權(quán)重區(qū)分,電影的類型、主演、導(dǎo)演、上映國家、編劇對(duì)影響用戶對(duì)該電影的喜愛程度是不一樣的;2)沒有對(duì)不同用戶做區(qū)分,因?yàn)橥惶卣鲗?duì)不同用戶的影響也是不一樣的.所以本文提出一種基于信息增益改進(jìn)的算法,算法步驟如下:

    Step 1.把每個(gè)用戶評(píng)價(jià)過的電影分成喜歡(評(píng)分>3)和不喜歡(評(píng)分<3)兩類,用Ci表示.

    Step 2.把類型、主演、導(dǎo)演、上映國家、編劇作為影響用戶對(duì)電影態(tài)度的特征T,并根據(jù)信息增益IG(T)算法計(jì)算每個(gè)特征的影響程度,計(jì)算如公式(11)所示.

    表1 電影推薦異構(gòu)信息中典型的元路徑及其語義

    Table 1 Typical meta path and its semantics in heterogeneous information of movie recommendation

    元路徑語義信息P1=User-Movie-User兩用戶評(píng)分過同一部電影P2=User-Movie-Genre-Movie-User兩用戶評(píng)分過屬于同一類型下的兩部電影P3=User-Movie-Actor-Movie-User兩用戶評(píng)分過屬于同一演員主演的兩部電影P4=User-Movie-Director-Movie-User兩用戶評(píng)分過屬于同一導(dǎo)演執(zhí)導(dǎo)的兩部電影P5=User-Movie-Country-Movie-User兩用戶評(píng)分過屬于同一國家上映的兩部電影P6=User-Movie-Screenplay-Movie-User兩用戶評(píng)分過屬于同一編劇編制的兩部電影

    (11)

    Step 3.結(jié)合路徑長度和特征信息增益,計(jì)算不同用戶間的元路徑權(quán)重,計(jì)算如公式(12)所示.

    (12)

    其中,wPl(ui,uj)表示對(duì)于用戶ui和uj來說元路徑Pl的權(quán)重,T表示元路徑Pl中連接用戶的某個(gè)電影特征,len(Pl)為路徑長度,IGui(T)和IGuj(T)分別為用戶ui和uj的特征T的信息增益.

    3.2.3 用戶興趣相似度計(jì)算

    本文使用PathSim[22]算法計(jì)算元路徑中同類型節(jié)點(diǎn)的相似度,算法如公式(13)所示.

    (13)

    其中,Wi,j表示在元路徑Pl下用戶ui到uj所有路徑實(shí)例的連接權(quán)重之和.在得出不同元路徑下的用戶相似度后,結(jié)合元路徑權(quán)重,綜合所有元路徑下的用戶相似度,計(jì)算如公式(14)所示.

    (14)

    其中,P為元路徑集合,wPl(ui,uj)為對(duì)于用戶ui和uj來說的元路徑Pl的權(quán)重,其計(jì)算見公式(12).利用公式(14)計(jì)算所有用戶間的興趣相似度,得出用戶-用戶興趣相似度矩陣S.

    3.3 融合矩陣分解

    將用戶興趣相似度矩陣S、電影相似度矩陣D和用戶-物品評(píng)分矩陣R進(jìn)行聯(lián)合分解,融合多元異構(gòu)信息得出用戶和物品的特征矩陣,彌補(bǔ)單一信息可能存在的數(shù)據(jù)稀疏和局部性問題.融合矩陣分解的目標(biāo)函數(shù)如公式(15)所示.

    (15)

    其中,U為用戶特征矩陣、V為物品特征矩陣、Z為用戶興趣相似特征矩陣、H為物品相似特征矩陣、Iik為指示參數(shù).g(Ri,j)=(Ri,j-min)/(max-min)把評(píng)分歸一化,和用戶興趣相似度矩陣S和物品相似度矩陣D的取值范圍保持一致.λ1、λ2是平衡系數(shù),平衡用戶興趣相似度和電影相似度的影響,如果二者都為0,算法退化為只利用了評(píng)分信息的傳統(tǒng)矩陣分解算法.使用梯度下降法進(jìn)行目標(biāo)優(yōu)化函數(shù)(15)進(jìn)行求解,具體迭代過程如公式(16)-公式(23)所示.

    (16)

    (17)

    (18)

    (19)

    (20)

    (21)

    (22)

    (23)

    其中α為學(xué)習(xí)率.得出用戶特征矩陣U和物品特征矩陣V后,利用公式(24)預(yù)測(cè)用戶i對(duì)物品j的評(píng)分,把大于某閾值的預(yù)測(cè)評(píng)分物品推薦給用戶,完成推薦.

    (24)

    其中,max為公式(15)中g(shù)(Ri,j)中進(jìn)行歸一化的評(píng)分最大值,min為評(píng)分最小值,公式(24)為歸一化的反過程.

    4 實(shí)驗(yàn)及分析

    4.1 實(shí)驗(yàn)數(shù)據(jù)

    本實(shí)驗(yàn)數(shù)據(jù)集來源于網(wǎng)絡(luò)爬蟲爬取的豆瓣影評(píng)數(shù)據(jù),爬取的原始數(shù)據(jù)為94534個(gè)用戶對(duì)8872部電影的404972條評(píng)價(jià),數(shù)據(jù)的稠密度為0.048%,考慮到原始數(shù)據(jù)太過于稀疏,所以只保留評(píng)論和被評(píng)論不少于10次的用戶和電影,最終得到7815個(gè)用戶,1593部電影,214920條評(píng)論作為實(shí)驗(yàn)數(shù)據(jù),數(shù)據(jù)稠密度為1.73%,介于數(shù)據(jù)集MovieLens1M(稠密度為4.3%)和MovieLens10M(稠密度為1.2%)之間.存儲(chǔ)實(shí)驗(yàn)數(shù)據(jù)的主要表結(jié)構(gòu)如表2、表3所示.

    表2 評(píng)論表結(jié)構(gòu)

    Table 2 Comment table structure

    字段說 明Id主鍵Timestamp評(píng)價(jià)時(shí)間MovieId被評(píng)論電影IdRating評(píng)分Content評(píng)論UserId評(píng)價(jià)用戶Id

    表3 電影信息表結(jié)構(gòu)

    Table 3 Movie information table structure

    字段說 明Id主鍵Name片名DirectorId導(dǎo)演imdb編號(hào)ActorIds主演imdb編號(hào),多個(gè)主演用逗號(hào)隔開Country制片國家ScreenwriterIds編劇imdb編號(hào),多個(gè)編劇用逗號(hào)隔開Genres類型,多種類型用逗號(hào)隔開ReleaseDate上映日期

    4.2 評(píng)價(jià)指標(biāo)

    本實(shí)驗(yàn)使用預(yù)測(cè)評(píng)分與實(shí)際用戶評(píng)分的均方根誤差(RMSE)、準(zhǔn)確率(Precision)、召回率(Recall)和覆蓋率(Coverage)四個(gè)指標(biāo)進(jìn)行算法性能衡量,四者的計(jì)算分別如公式(25)-公式(28)所示.

    (25)

    (26)

    (27)

    (28)

    表4 混合矩陣

    Table 4 Mixed matrix

    推薦算法用戶喜愛用戶不喜愛推薦TPFP未推薦FNTN

    公式(28)中N為測(cè)試數(shù)據(jù)集T中不同電影總個(gè)數(shù),Nd為推薦結(jié)果中不同電影總數(shù)目.覆蓋率越高說明推薦結(jié)果具有多樣性和新穎性.

    4.3 實(shí)驗(yàn)結(jié)果及分析

    為了對(duì)算法的性能進(jìn)行更精準(zhǔn)的衡量,本文使用k-交叉驗(yàn)證的方式進(jìn)行驗(yàn)證,k值取5,即隨機(jī)把試驗(yàn)數(shù)據(jù)均分成五份,每次挑選其中一份作為測(cè)試集,其他4份作為訓(xùn)練集,一共進(jìn)行5次測(cè)試,使用5次測(cè)試的平均值作為算法最終評(píng)價(jià).實(shí)驗(yàn)主要參數(shù)及其默認(rèn)值如表5所示.

    表5 實(shí)驗(yàn)參數(shù)設(shè)置

    Table 5 Setting of experimental parameters

    參 數(shù)默認(rèn)值TextRank提取關(guān)鍵詞組長度20Word2vec詞向量維度k100電影相似度融合系數(shù)β0.6融合矩陣分解平衡系數(shù)λ11融合矩陣分解平衡系數(shù)λ22正則化參數(shù)λ31e-3梯度下降學(xué)習(xí)率α1e-2梯度下降迭代次數(shù)300用戶和電影特征維度d25推薦閾值預(yù)測(cè)評(píng)分4

    1)不同用戶和電影特征維度下的實(shí)驗(yàn)對(duì)比

    矩陣分解時(shí)需要設(shè)定用戶和電影的特征維度d,不同的維度值下可能會(huì)得到不同的實(shí)驗(yàn)結(jié)果.本實(shí)驗(yàn)設(shè)置維度d={10、15、20、25、30、35、40、45、50},共9組實(shí)驗(yàn)進(jìn)行對(duì)比,其他參數(shù)和表4保持一致,實(shí)驗(yàn)結(jié)果如圖4所示.

    圖4 不同用戶和電影特征維度下的實(shí)驗(yàn)結(jié)果對(duì)比

    通過實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)用戶和電影維度為25時(shí),算法的RMSE、準(zhǔn)確率、召回率、覆蓋率相對(duì)較好.

    2)不同平衡系數(shù)值的實(shí)驗(yàn)對(duì)比

    公式(15)中的融合矩陣分解平衡系數(shù)λ1和λ2分別控制用戶興趣信息和電影相似度信息對(duì)結(jié)果的影響比例,本次實(shí)驗(yàn)設(shè)置a(λ1=0,λ2=0)、b(λ1=0,λ2=1)、c(λ1=1,0)、d(λ1=1,λ2=1)、e(λ1=1,λ2=2),f(λ1=2,λ2=1)共6組實(shí)驗(yàn)進(jìn)行對(duì)比,其他參數(shù)和表4保持一致,實(shí)驗(yàn)結(jié)果如圖5所示.

    通過實(shí)驗(yàn)發(fā)現(xiàn),a組相對(duì)其他5組的準(zhǔn)確率、召回率、覆蓋率最低,RMSE值最高.a組λ1和λ2都為0,算法退化為傳統(tǒng)的矩陣推薦算法,其他五組都在傳統(tǒng)的矩陣推薦算法中融入了用戶興趣信息或電影相似度信息,證明融入相關(guān)輔助信息可以改進(jìn)傳統(tǒng)矩陣推薦算法.同時(shí)融入了用戶興趣信息和電影相似度信息的d、e、f三組實(shí)驗(yàn)結(jié)果優(yōu)于只融入了其中一種信息的b、c兩組實(shí)驗(yàn)結(jié)果.在d、e、f三組實(shí)驗(yàn)中e(λ1=1,λ2=2)組的準(zhǔn)確率、召回率、覆蓋最高,RMSE最低.

    3)和其他算法對(duì)比

    為了進(jìn)一步驗(yàn)證本文算法的有效性,把本文算法(MHI_MF)和基于用戶(UCF)的協(xié)同過濾、基于物品(ICF)的協(xié)同過濾、傳統(tǒng)矩陣分解推薦算法(FunkSVD)、在本文算法基礎(chǔ)上不考慮遺忘曲線memory(t)的改進(jìn)算法(MHI_CF-m)、文獻(xiàn)〗 基于異構(gòu)網(wǎng)絡(luò)信息網(wǎng)絡(luò)改進(jìn)的用戶協(xié)同過濾推薦算法(HIN_UCF)、文獻(xiàn)〗適應(yīng)用戶興趣變化的改進(jìn)型協(xié)同過濾算法(ICFUIC)進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果如圖6所示.

    圖5 不同平衡系數(shù)組合下的實(shí)驗(yàn)結(jié)果對(duì)比

    圖6 不同算法間的實(shí)驗(yàn)結(jié)果對(duì)比

    通過實(shí)驗(yàn)結(jié)果圖6可以看出,F(xiàn)unkSVD相比于UCF和ICF兩種協(xié)同過濾算法的性能指標(biāo)要好,其他四種改進(jìn)的算法(MHI_MF、MHI_CF-m、HIN_UCF、ICFUIC)相比于FunkSVD算法的性能指標(biāo)更好,本文改進(jìn)算法(MHI_MF)算法相比其他三種改進(jìn)算法(MHI_CF-m、HIN_UCF、ICFUIC)的性能指標(biāo)更好.HIN_UCF在協(xié)同過濾推薦算法加入了相關(guān)輔助信息但沒有考慮用戶興趣的變化,ICFUIC考慮了用戶的興趣變化但沒有引入其他的輔助信息,本文MHI_MF算法兩者皆有考慮,說明了融合多元異構(gòu)信息的有效性.而通過MHI_MF算法和MHI_CF-m的對(duì)比,近一步證明了本文算法引入遺忘曲線是有效果的.

    5 結(jié)束語

    傳統(tǒng)矩陣分解的推薦算法為靜態(tài)推薦模型,沒有考慮用戶興趣隨時(shí)間的變化,并且算法十分依賴評(píng)分?jǐn)?shù)據(jù)的稠密度,當(dāng)數(shù)據(jù)稀疏時(shí)算法效果不佳,而現(xiàn)實(shí)當(dāng)中我們往往面臨的數(shù)據(jù)又十分稀疏的.針對(duì)這兩個(gè)問題,本文提出一種融合用戶點(diǎn)評(píng)數(shù)據(jù)、用戶-物品評(píng)分?jǐn)?shù)據(jù)、物品異構(gòu)信息和遺忘曲線的改進(jìn)型矩陣分解推薦算法.通過融合多種異構(gòu)信息緩解評(píng)分?jǐn)?shù)據(jù)稀疏問題,并且增強(qiáng)了矩陣推薦算法的可解釋性;通過遺忘曲線模擬人的心理學(xué)變化和數(shù)據(jù)的保鮮度,從而反映用戶的興趣變化.最后通過多組實(shí)驗(yàn)對(duì)比證明了本文算法的有效性.雖然本文對(duì)傳統(tǒng)矩陣分解推薦算法進(jìn)行了很好的改進(jìn),但依然存在不足,例如,當(dāng)面對(duì)海量數(shù)據(jù)時(shí),矩陣分解的效率低下,而隨著互聯(lián)網(wǎng)的快速發(fā)展,將來面臨的數(shù)據(jù)越來越龐大,如何在海量數(shù)據(jù)中如何設(shè)計(jì)高效的推薦算法是進(jìn)一步需要研究的方向.

    猜你喜歡
    物品公式矩陣
    稱物品
    組合數(shù)與組合數(shù)公式
    排列數(shù)與排列數(shù)公式
    “雙十一”,你搶到了想要的物品嗎?
    等差數(shù)列前2n-1及2n項(xiàng)和公式與應(yīng)用
    誰動(dòng)了凡·高的物品
    例說:二倍角公式的巧用
    初等行變換與初等列變換并用求逆矩陣
    矩陣
    南都周刊(2015年4期)2015-09-10 07:22:44
    矩陣
    南都周刊(2015年3期)2015-09-10 07:22:44
    吉林省| 板桥市| 河间市| 迁西县| 凤阳县| 富川| 额尔古纳市| 紫金县| 中卫市| 抚宁县| 扶沟县| 汽车| 商都县| 会昌县| 呼伦贝尔市| 调兵山市| 南京市| 霍林郭勒市| 麻阳| 余干县| 巫溪县| 中宁县| 郸城县| 垫江县| 卫辉市| 盈江县| 土默特右旗| 巫山县| 凤凰县| 增城市| 旬邑县| 德化县| 文山县| 灵石县| 商城县| 西乌| 正镶白旗| 沁阳市| 高阳县| 吉林省| 信阳市|