張洪為
隨著Web2.0 技術(shù)的迅速發(fā)展,在線信息呈爆炸式增長,推薦系統(tǒng)已成為幫助用戶有效找到所需信息的重要工具[1]. 推薦系統(tǒng)旨在為用戶提供符合他們偏好的物品,如產(chǎn)品或服務(wù). 協(xié)同過濾是推薦系統(tǒng)中最流行的技術(shù)[2],它利用收集到的具有相似行為的其他用戶的歷史評分記錄為目標(biāo)用戶生成推薦[3].早期的協(xié)同過濾方法主要是基于鄰域的方法[4],其更關(guān)注物品之間或用戶之間的關(guān)系,現(xiàn)在已逐漸演化為基于模型的方法,涉及機器學(xué)習(xí)技術(shù),如矩陣分解[5-7],概率模型[8]和深度神經(jīng)網(wǎng)絡(luò)[9]等. 概率矩陣分解(Probabilis‐tic Matrix Factorization,PMF)[6]是一 種 最具代表性的矩陣分解方法,它假設(shè)觀測到的評分服從高斯分布,然后通過最大化用戶和物品特征的對數(shù)后驗,來學(xué)習(xí)用戶和物品特征.PMF 方法的實質(zhì)是將用戶/物品評分矩陣分解為兩個低秩矩陣,然后利用它們的乘積來對用戶/物品評分矩陣進行重構(gòu),進而實施推薦.然而,PMF 方法僅利用了用戶與物品的交互信息,沒有利用用戶/物品的鄰域結(jié)構(gòu)信息,即用戶與用戶以及物品與物品的相似性關(guān)系,限制了模型的推薦性能.
為解決上述問題,本文提出一種融合鄰域結(jié)構(gòu)信息的概率矩陣分解算法(簡稱GPMF),該算法將PMF 模型與包含用戶和物品鄰域結(jié)構(gòu)信息的圖正則化項整合到一個統(tǒng)一的優(yōu)化問題中. 然后利用一種迭代優(yōu)化算法對該優(yōu)化問題進行求解. 在兩個真實數(shù)據(jù)集上的實驗結(jié)果驗證了該方法的有效性.
給定一個用戶-物品評分矩陣R∈?M×N,其中Rij表示第i個用戶對第j個物品的評分,推薦系統(tǒng)的任務(wù)是對R中的缺失評分進行預(yù)測,然后將預(yù)測評分高的物品推薦給相應(yīng)的用戶. 概率矩陣分解算法是一種有效的協(xié)同過濾算法,其目標(biāo)是將R分解為兩個低秩矩陣U∈?M×k和V∈?N×k,分別稱為用戶的潛在偏好矩陣和物品的潛在特征矩陣,其中k表示用戶的潛在偏好個數(shù)或物品的潛在特征個數(shù). 求解U和V等價于求解如下優(yōu)化問題
其中:I是指示矩陣,表示用戶是否對物品進行了評分,如果第i個用戶對第j個物品進行了評分,則Iij= 1,否則Iij= 0.⊙表示矩陣按元 素 相 乘.‖ ?‖F(xiàn)為Frobenius 范 數(shù).λ為 控 制 約束對模型復(fù)雜度影響的正則化參數(shù).
通過對U和V進行梯度下降,能夠找到式(1)的局部最小值. 然后,推薦可由下式給出
概率矩陣分解方法的本質(zhì)是利用用戶的潛在偏好向量Ui·(U的第i行)與物品的潛在特征向量Vj·的內(nèi)積來對R中的未知評分進行建模,它僅利用了用戶與物品的交互信息,而沒有使用用戶與用戶,以及物品與物品的相似性關(guān)系,限制了模型的推薦性能. 本文將用戶圖和物品圖的圖正則化整合到概率矩陣分解模型中,以進一步提升模型的推薦性能.
圖正則化[10-11]已被廣泛應(yīng)用于降維、聚類和半監(jiān)督學(xué)習(xí)中,融合鄰域結(jié)構(gòu)信息的用戶圖和物品圖的圖正則化可分別定義為:
式 中:Ri·和R·j分 別表 示用 戶-物品 評分 矩 陣R的 第i行和 第j列.
將包含用戶和物品鄰域結(jié)構(gòu)信息的圖正則化項引入到概率矩陣分解模型中,能使模型在學(xué)習(xí)的過程中保持用戶之間和物品之間固有的相似性信息,進而提升推薦的性能. 為此,將圖正則化項整合到概率矩陣分解模型中,得如下優(yōu)化問題其中:α為控制圖正則化對概率矩陣分解影響的圖正則化參數(shù).
利用梯度下降法可得學(xué)習(xí)模型的迭代算法如下:
其中:η為學(xué)習(xí)率.
本文采用兩個真實的數(shù)據(jù)集Netflix 和MovieLens20M 來評價所提出的基于圖正則化的概率矩陣分解算法.Netflix 數(shù)據(jù)集包含了100 480 507 個評分,由480 189 名用戶對17 770部電影上給出,其值包含在集合{1,2,3,4,5}中.MovieLens20M 數(shù)據(jù)集包含20 000 263 個評分,由138 493 名用戶在26 744 部電影上給出,其值包含在集合{0.5,1,1.5,…5}中,本文將其規(guī)范化到{1,2,3,4,5}. 隨機提取Netflix或MovieLens20M 數(shù)據(jù)集上5 000 名用戶對5 000部電影的密集評分矩陣R,然后將R隨機劃分為訓(xùn)練集Rta和測試集Rte,分別包含50% 的評分. 讓Rte保持不變,分別從Rta中隨機提取1%,1.5% 和2% 的評分用于訓(xùn)練.
本文采用廣泛使用的平均絕對誤差(MAE)和均方根誤差(RMSE)作為評價標(biāo)準(zhǔn),分別定義為
本文使用AG 方法(即利用觀測評分的平均值來預(yù)測未知評分)及PMF 方法與所提出的GPMF 方法進行對比,三種方法在Netflix 子集和MovieLens20M 子集上的對比結(jié)果如表1和表2 所示. 從中可以看到,相比于對比方法,所提出的GPMF 方法在兩個真實數(shù)據(jù)集的三個不同密集度上,實現(xiàn)了最好的推薦性能.驗證了將包含用戶/物品鄰域結(jié)構(gòu)信息的圖正則化項整合到概率矩陣分解模型中,能夠進一步提煉用戶和物品的潛在因子,實現(xiàn)推薦性能的提升.
表1 三種方法在Netflix 子集上的性能比較
表2 三種方法在MovieLens20M 子集上的性能比較
本文針對概率矩陣分解算法未利用用戶/物品鄰域結(jié)構(gòu)信息影響推薦性能的問題,提出一種融合鄰域結(jié)構(gòu)信息的概率矩陣分解算法,該算法將概率矩陣分解模型與包含用戶和物品鄰域結(jié)構(gòu)信息的圖正則化項整合到一個統(tǒng)一的優(yōu)化問題中,以對用戶和物品潛在因子作進一步提煉,實現(xiàn)推薦性能的提升. 在兩個真實數(shù)據(jù)集上的實驗結(jié)果驗證了所提算法的有效性和穩(wěn)定性.