郭云飛, 方耀寧, 扈紅超
(國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心, 河南,鄭州 450002)
?
基于Logistic函數(shù)的社會(huì)化矩陣分解推薦算法
郭云飛, 方耀寧, 扈紅超
(國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心, 河南,鄭州 450002)
持續(xù)指數(shù)增長(zhǎng)的互聯(lián)網(wǎng)逐漸帶來(lái)了信息過(guò)載問(wèn)題,使得推薦系統(tǒng)提供的信息過(guò)濾服務(wù)尤為重要. 協(xié)同過(guò)濾是推薦系統(tǒng)領(lǐng)域最為成功的技術(shù),但依然存在數(shù)據(jù)稀疏性等問(wèn)題. 社會(huì)關(guān)系信息能夠有效提高推薦系統(tǒng)的預(yù)測(cè)準(zhǔn)確性. 為解決數(shù)據(jù)稀疏性問(wèn)題,本文提出了一種利用Logistic函數(shù)的社會(huì)化矩陣分解推薦算法. 在3組真實(shí)數(shù)據(jù)結(jié)合上的實(shí)驗(yàn)結(jié)果表明,本文提出的算法能夠提供更準(zhǔn)確的推薦結(jié)果,特別是在數(shù)據(jù)稀疏的情況下,顯著緩解了數(shù)據(jù)稀疏性問(wèn)題.
推薦系統(tǒng);協(xié)同過(guò)濾;矩陣分解;社會(huì)關(guān)系;Logistic 函數(shù)
互聯(lián)網(wǎng)的飛速發(fā)展將人類帶入了信息爆炸的時(shí)代,人們經(jīng)歷了從信息匱乏到泛濫的劇變,發(fā)現(xiàn)從海量互聯(lián)網(wǎng)信息中獲取所需內(nèi)容卻成了一件復(fù)雜的事情——信息過(guò)載(information overload). 傳統(tǒng)的搜索引擎只能被動(dòng)提供無(wú)差別的搜索服務(wù),而推薦系統(tǒng)利用數(shù)據(jù)挖掘、人工智能等技術(shù)能夠主動(dòng)幫助人們過(guò)濾信息,提供個(gè)性化服務(wù)[1-2]. 在過(guò)去的十多年里,推薦系統(tǒng)在電子商務(wù)網(wǎng)站、社交網(wǎng)絡(luò)中大量涌現(xiàn),正在引領(lǐng)人類進(jìn)入一個(gè)多元化、個(gè)性化的網(wǎng)絡(luò)新時(shí)代. 推薦系統(tǒng)不僅可以提供娛樂(lè)、生活方面的服務(wù)推薦,如網(wǎng)頁(yè)、電影、好友等;而且可以提供更加專業(yè)化的推薦,如圖書、論文、專利技術(shù)等[2-3].
協(xié)同過(guò)濾推薦算法在學(xué)術(shù)界和工業(yè)界都有了長(zhǎng)足的發(fā)展,新的算法和研究熱點(diǎn)不斷涌現(xiàn)[2-3]. 其中,基于矩陣分解的推薦算法在預(yù)測(cè)準(zhǔn)確性和穩(wěn)定性上顯示出較大優(yōu)勢(shì),得到最為廣泛的認(rèn)可[4-6]. 矩陣分解推薦算法把評(píng)分矩陣看作是低秩矩陣,并分解成用戶和項(xiàng)目?jī)蓚€(gè)低維特征矩陣的乘積,從而對(duì)未知評(píng)分進(jìn)行預(yù)測(cè). 雖然,矩陣分解算法的預(yù)測(cè)準(zhǔn)確性較高,但依然面臨著數(shù)據(jù)稀疏性等問(wèn)題.
社會(huì)關(guān)系網(wǎng)絡(luò)連接著人類社會(huì)與網(wǎng)絡(luò)空間,正在逐漸模糊現(xiàn)實(shí)與虛擬的界限. 社交網(wǎng)絡(luò)中以社會(huì)關(guān)系為紐帶自發(fā)形成的群組,與現(xiàn)實(shí)社會(huì)中“物以類聚,人以群分”的原理一致. 社交網(wǎng)絡(luò)能夠詳細(xì)記錄用戶歷史行為信息,這就為分析用戶行為特征,預(yù)測(cè)用戶行為提供了數(shù)據(jù)基礎(chǔ). 對(duì)社會(huì)關(guān)系進(jìn)行挖掘,可以估計(jì)出用戶間的信任程度,有望解決推薦系統(tǒng)中的冷啟動(dòng)、數(shù)據(jù)稀疏性等問(wèn)題[5-6].
本文圍繞如何利用社會(huì)關(guān)系來(lái)解決數(shù)據(jù)稀疏性問(wèn)題進(jìn)行研究,提出一種基于Logistic函數(shù)的社會(huì)化矩陣分解推薦算法(logistic social matrix factorization, LSMF). LSMF算法根據(jù)社會(huì)關(guān)系建立簡(jiǎn)單高效的好友信任度評(píng)估機(jī)制,保證用戶特征因子與好友特征因子相近,并利用Logistic函數(shù)對(duì)特征因子進(jìn)行非線性映射. 在3種真實(shí)數(shù)據(jù)集合上的實(shí)驗(yàn)表明,LSMF算法能夠明顯降低預(yù)測(cè)誤差(約5% RMSE),緩解數(shù)據(jù)稀疏性問(wèn)題.
1.1 LSMF模型
LSMF(logistic social matrix factorization)從Logistic函數(shù)的使用和信任度計(jì)算兩個(gè)方面對(duì)Social MF模型進(jìn)行了改進(jìn)[7-8],如圖1所示.
Logistic(g(x)=1/(1+e-x))定義域?yàn)?-∞,+∞),值域?yàn)?0,1). Logistic函數(shù)在定義域內(nèi)呈現(xiàn)出先緩慢增長(zhǎng),然后加速增長(zhǎng),最后逐漸穩(wěn)定的趨勢(shì),能夠較好反映生物種群發(fā)展、神經(jīng)元非線性感知、人類認(rèn)知學(xué)習(xí)過(guò)程等.
(1)
(2)
(3)
Logistic函數(shù)實(shí)現(xiàn)對(duì)特征因子非線性映射. 與Social MF模型相同, LSMF模型中用戶的特征因子與均值為0的高斯分布正相關(guān),保證特征因子的取值接近0以防止過(guò)擬合. 同時(shí),用戶的特征因子與好友特征因子的加權(quán)平均值正相關(guān),即
(4)
于是,已知評(píng)分矩陣R和社會(huì)關(guān)系矩陣T,根據(jù)貝葉斯公式可以計(jì)算出用戶和項(xiàng)目特征因子U,V,P和Q的后驗(yàn)概率為
(5)
對(duì)上式取對(duì)數(shù),得到
(6)
(7)
為了減少正則化系數(shù)的個(gè)數(shù),通常設(shè)定λU=λV,λP=λQ. β為社會(huì)化影響因子,β越大表示好友對(duì)目標(biāo)用戶的影響力越大,β=0時(shí),模型退化為利用Logistic函數(shù)的矩陣分解推薦算法. 與矩陣分解推薦算法一樣[5-6],可以用隨機(jī)梯度下降法方便地求解式(7).
1.2 信任度計(jì)算
“信任”是一個(gè)跨學(xué)科的概念,在不同領(lǐng)域的具體闡釋會(huì)有不同. 信任度將“信任”量化,常用來(lái)衡量被信任者對(duì)目標(biāo)用戶影響程度的大小. 由于網(wǎng)絡(luò)環(huán)境的復(fù)雜性、隨機(jī)性、不確定性以及應(yīng)用場(chǎng)景的多樣性,社交網(wǎng)絡(luò)好友間信任度的評(píng)估并不是一個(gè)簡(jiǎn)單的課題. 信任度的計(jì)算是搜索引擎、推薦系統(tǒng)領(lǐng)域的重要研究?jī)?nèi)容之一. 基于信任度計(jì)算的社會(huì)化推薦算法能夠緩解協(xié)同過(guò)濾算法中的數(shù)據(jù)稀疏性問(wèn)題,不同應(yīng)用場(chǎng)景下信任度的計(jì)算方法也有很大區(qū)別[8].
SocialMF中所有好友具有相同的權(quán)值,表示不同好友對(duì)目標(biāo)用戶的影響力相同. 這種方法顯然是不合理的,因?yàn)樯鐣?huì)關(guān)系中包含了不同的社交圈,不同社交圈的興趣愛好不同;而且,相同社交圈中的不同用戶對(duì)于其他用戶的影響力也是不同的.
一種直觀的假設(shè)是,目標(biāo)用戶對(duì)好友的信任度與他們共同選擇過(guò)的項(xiàng)目數(shù)量正相關(guān). 因?yàn)橹灰脩鬷選擇了項(xiàng)目j,無(wú)論評(píng)分是高還是低,都表示用戶i對(duì)項(xiàng)目j這種類型的事物感興趣,這是一種含蓄的反饋信息. 與基于評(píng)分相似性的信任度計(jì)算方法不同,本文采用一種簡(jiǎn)單高效的方法:
(8)
式中:nik為用戶i和用戶k共同選擇過(guò)的項(xiàng)目個(gè)數(shù);n0是賦值給所有好友的基礎(chǔ)權(quán)值.n0=0表示只有共同評(píng)分過(guò)的好友才對(duì)目標(biāo)用戶有影響力,且正相關(guān)于共同選擇過(guò)的項(xiàng)目個(gè)數(shù);n0>0表示所有好友都對(duì)目標(biāo)用戶有影響力. 進(jìn)一步對(duì)信任度矩陣T進(jìn)行歸一化處理,使得T的行和為1.
1.3 復(fù)雜度分析
2.1 數(shù)據(jù)集合及評(píng)價(jià)標(biāo)準(zhǔn)
為了測(cè)試LSMF算法的有效性,本文采用Epinions、Netflix和MovieLens1M三種推薦系統(tǒng)中最為常用的真實(shí)數(shù)據(jù)作為測(cè)試集合.
Epinions數(shù)據(jù)集合包含了49 290名用戶對(duì)139 783個(gè)項(xiàng)目的664 824條評(píng)分和487 181條用戶間的信任關(guān)系.Netflix數(shù)據(jù)集合是NetflixPrize比賽中使用的標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集,本文從中隨機(jī)抽取了包含8 662名用戶對(duì)3 000部視頻的約30萬(wàn)條評(píng)分信息作為測(cè)試集合,不包含社會(huì)連接信息.MovieLens1M數(shù)據(jù)集合由GroupLens提供,包含了6 039名用戶對(duì)3 883部電影的一百多萬(wàn)條評(píng)分信息.
Netflix和MovieLens1M數(shù)據(jù)集合中未提供社會(huì)連接信息,可以用于測(cè)試LSMF算法β=0的情況,以證明本文提出的Logistic映射方法能夠有效提高預(yù)測(cè)準(zhǔn)確性. 采用檢驗(yàn)推薦算法最常用的預(yù)測(cè)誤差RMSE作為評(píng)價(jià)依據(jù),預(yù)測(cè)誤差越小則表示算法性能越好.
(9)
式中:Stest為測(cè)試集合;|Stest|為Stest中的元素個(gè)數(shù).
2.2 實(shí)驗(yàn)設(shè)計(jì)
本文設(shè)計(jì)了4組實(shí)驗(yàn)從不同方面對(duì)LSMF算法進(jìn)行測(cè)試. A組實(shí)驗(yàn)較為全面對(duì)比MF、Social MF、LSMF三種算法的預(yù)測(cè)準(zhǔn)確性;B組實(shí)驗(yàn)測(cè)試社會(huì)化影響因子β的取值對(duì)LSMF算法性能的影響;C組實(shí)驗(yàn)在β=0的情況下對(duì)比MF和LSMF,驗(yàn)證Logistic非線性映射的有效性;D組實(shí)驗(yàn)測(cè)試在β=0時(shí)參數(shù)d對(duì)LSMF算法性能的影響. 由于每次得到的RMSE都已是大量數(shù)據(jù)的平均,所以每組實(shí)驗(yàn)只重復(fù)10次,取10次平均值作為最終實(shí)驗(yàn)結(jié)果.
A組實(shí)驗(yàn)在Epinions數(shù)據(jù)集合上隨機(jī)選取x%(x=20,50,80)的數(shù)據(jù)作為訓(xùn)練集合,其余作為測(cè)試集合. 在不同的特征空間維度d={5,10,20,50}的情況下,對(duì)比了MF、Social MF和LSMF算法的預(yù)測(cè)準(zhǔn)確性. MF算法中正則化系數(shù)λU=λV=0.02,學(xué)習(xí)率lr=0.005[12];Social MF中算法中正則化系數(shù)λU=λV=0.1,社會(huì)化影響因子β=0.05,學(xué)習(xí)率lr=0.005[19];LSMF分別選擇n0=0和n0=1,其余參數(shù)為:λU=λV=0.1,λP=λQ=0.02,β=0.05,lr=0.005.
實(shí)驗(yàn)結(jié)果如表1所示,最小預(yù)測(cè)誤差的結(jié)果用黑體標(biāo)注. 在不同訓(xùn)練比例、不同特征維度情況下,LSMF總能取得最準(zhǔn)確的預(yù)測(cè)結(jié)果. 在訓(xùn)練比例為50%、特征維度為20的情況下,LSMF的預(yù)測(cè)誤差RMSE比MF減小約6%,比Social MF減小約4%. 而且,訓(xùn)練比例x%越低、特征維度d越小,LSMF算法的優(yōu)勢(shì)越明顯,這說(shuō)明利用社會(huì)關(guān)系能夠明顯緩解數(shù)據(jù)稀疏性問(wèn)題,LSMF算法比Social MF算法提取潛在特征的能力更強(qiáng). 隨著訓(xùn)練集合密度和特征維度的增大,LSMF預(yù)測(cè)誤差逐漸降低.
表1 LSMF與Social MF、MF在Epinions上RMSE的對(duì)比
Tab.1 Comparison of LSMF, Social MF, and MF on Epinions
訓(xùn)練比例/%維度MFSocialMFLSMF(n0=1)LSMF(n0=0)20508051.59431.17881.11311.1132101.32731.17541.10981.1088201.20011.17271.10641.1059501.18171.17071.10401.103751.37311.11971.07561.0756101.20921.11781.07281.0725201.14401.11551.07031.0703501.11541.11361.06781.067651.28671.09551.05791.0575101.16251.09301.05601.0552201.11921.09121.05331.0535501.09071.08951.05061.0505
B組分別從Epinions數(shù)據(jù)集中隨機(jī)選取20%和80%為訓(xùn)練集合,其余作為測(cè)試集合. 測(cè)試了社會(huì)化影響因子β的取值對(duì)LSMF算法性能的影響,實(shí)驗(yàn)中LSMF的特征維度為5. 實(shí)驗(yàn)結(jié)果如圖2所示,可以看出隨著β的逐漸增大,社會(huì)關(guān)系的影響力逐漸增大,LSMF的預(yù)測(cè)誤差先變小后變大,在β=0.1左右時(shí)LSMF算法能夠取得較好的性能.
C組實(shí)驗(yàn)在MovieLens和Netflix數(shù)據(jù)集合上選取不同比例的訓(xùn)練集合,對(duì)比了LSMF和MF的預(yù)測(cè)準(zhǔn)確性. MF算法的參數(shù)為:λU=λV=0.02,lr=0.005,d=20;LSMF的參數(shù)為n0=0,d=20,λU=λV=0.02,λP=λQ=0.02,β=0,lr=0.005.
如圖3、圖4所示,LSMF的預(yù)測(cè)誤差明顯低于MF,訓(xùn)練結(jié)合越稀疏,優(yōu)勢(shì)越明顯. 用10%的MovieLens作為訓(xùn)練集合時(shí),LSMF的預(yù)測(cè)準(zhǔn)確性比MF高3%左右;用50%的Netflix作為訓(xùn)練集合時(shí),LSMF能提高約5%預(yù)測(cè)準(zhǔn)確性. 這說(shuō)明了Logistic函數(shù)能夠表征潛在因子之間的非線性關(guān)系,提高了矩陣分解模型提取潛在特征的能力.
D組實(shí)驗(yàn)分別在MovieLens和Netflix數(shù)據(jù)集合上測(cè)試特征維度d的取值對(duì)LSMF算法性能的影響. 分別從MovieLens和Netflix數(shù)據(jù)集合中選擇10%、 50%作為訓(xùn)練集合,LSMF算法的其他參數(shù)同C組實(shí)驗(yàn). 從圖5中可以看出,在兩種數(shù)據(jù)集合上LSMF算法的預(yù)測(cè)誤差隨著特征維度的增大而逐漸減小,體現(xiàn)了LSMF算法性能的穩(wěn)定性.
本文提出了一種利用Logistic函數(shù)和社會(huì)關(guān)系信息,從非線性和社會(huì)化兩個(gè)方面對(duì)矩陣分解推薦算法進(jìn)行了改進(jìn). 在3組真實(shí)數(shù)據(jù)集合上的實(shí)驗(yàn)表明,本文提出的LSMF算法能夠明顯提高預(yù)測(cè)準(zhǔn)確性,緩解數(shù)據(jù)稀疏性問(wèn)題.
[1] Zhang Z K, Zhou T, Zhang Y C. Tag-aware recommender systems: a state-of-the-art survey[J]. Journal of Computer Science and Technology, 2011,26(5):767-777.
[2] Lü Linyuan, Medo M, Yeung C H ,et al. Recommender systems[J]. Physics Reports, 2012,1(3):159-172.
[3] 劉建國(guó),周濤,汪秉宏.個(gè)性化推薦系統(tǒng)的研究進(jìn)展[J].自然科學(xué)進(jìn)展,2009,19(1):1-15.
Liu Jianguo, Zhou Tao, Wang Binghong. Advances in personalized recommender system[J]. Progress in Natural Science, 2009,19(1):1-15. (in Chinese)
[4] Cacheda F, Carneiro V, Fernandez D, et al. Comparison of collaborative filtering algorithms: limitations of current techniques and proposals for scalable, high-performance recommender systems[J]. ACM Transactions on the Web (TWEB), 2011,5(1):2.
[5] Bellogín A, Cantador I, Díez F, et al. An empirical comparison of social, collaborative filtering, and hybrid recommenders[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2013, 4(1):14.
[6] Bobadilla J, Ortega F, Hernando A, et al. Recommender systems survey[M]. [S.l.]: Knowledge-Based Systems, 2013.
[7] Jamali M, Ester M. A matrix factorization technique with trust propagation for recommendation in social networks[C]∥Proceedings of the fourth ACM Conference on Recommender Systems. [S.l.]: ACM, 2010:135-142.
[8] Ma H, Zhou D, Liu C, et al. Recommender systems with social regularization[C]∥Proceedings of the Fourth ACM International Conference on Web Search and Data Mining. [S.l.]: ACM, 2011:287-296.
(責(zé)任編輯:劉芳)
A Social Matrix Factorization Recommender Algorithm Based on Logistic Function
GUO Yun-fei, FANG Yao-ning, HU Hong-chao
(National Digital Switching System Engineering and Technological R&D Center, Zhengzhou, Henan 450002, China)
The ongoing exponential growth of the Internet brings an information overload, which greatly increases the necessity of effective recommender systems for information filtering. However, collaborative filtering, which is recognized as the most successful technique in designing recommender systems, still encounters the data sparsity problem. Social relations have been found to be effective to improve the prediction accuracy of recommender systems. In order to handle the data sparsity problem, this paper proposed a new social matrix factorization recommender algorithm by leveraging the Logistic function. Experimental results on three real-world datasets illustrate that the proposed method provides more accurate recommendation results, especially under sparse conditions.
recommender system; collaborative filtering; matrix factorization; social links; Logistic function
2013-09-02
國(guó)家“九七三”計(jì)劃項(xiàng)目(2012CB315901);國(guó)家“八六三”計(jì)劃項(xiàng)目(2011AA01A103);國(guó)家自然科學(xué)基金資助項(xiàng)目(61309020)
郭云飛(1963—),男,教授,博士生導(dǎo)師,
方耀寧(1987—),男,碩士,E-mail:fyn07@163.com.
TP 393
A
1001-0645(2016)01-0070-05
10.15918/j.tbit1001-0645.2016.01.013