結(jié)合情感信息的個(gè)性化推薦算法

2014-08-08 01:00:38辛賢龍

微型電腦應(yīng)用 2014年4期

辛賢龍

辛賢龍

隨著互聯(lián)網(wǎng)的快速發(fā)展，在面臨“信息過(guò)載”情況下推薦系統(tǒng)扮演者越來(lái)越重要的角色。而在很多場(chǎng)景下人類決策的過(guò)程中，情感同樣發(fā)揮非常重要的作用，因此，情感信息在推薦系統(tǒng)中不容忽視。而實(shí)際用戶決策過(guò)程中，情感對(duì)于不同用戶的重要程度也是不一樣的。針對(duì)情感對(duì)于用戶的重要程度研究，提出用熵來(lái)度量不同情感對(duì)于用戶的重要性，并結(jié)合傳統(tǒng)的協(xié)同過(guò)濾算法，提出一種結(jié)合情感信息的個(gè)性化推薦算法，最后，通過(guò)實(shí)驗(yàn)跟傳統(tǒng)的協(xié)同過(guò)濾算法進(jìn)行對(duì)比發(fā)現(xiàn)準(zhǔn)確度有所提高。

個(gè)性化推薦協(xié)同過(guò)濾情感信息熵

0 引言

隨著大數(shù)據(jù)時(shí)代的到來(lái)，“信息過(guò)載[1]”問(wèn)題日益突出。面臨著大量的信息，用戶必須花費(fèi)大量的時(shí)間尋找所需的信息，傳統(tǒng)的信息查找方式越來(lái)越難以滿足用戶的需求。個(gè)性化推薦系統(tǒng)在20世紀(jì)90年代作為一個(gè)獨(dú)立的概念被提出來(lái)，在其中發(fā)揮了重大的作用。個(gè)性化推薦是根據(jù)用戶和項(xiàng)目的特征以及用戶的歷史行為來(lái)預(yù)測(cè)他對(duì)未知事物的喜好程度，然后向用戶推薦用戶可能感興趣的。推薦算法通常被分為以下幾類：協(xié)同過(guò)濾推薦算法[2]、基于內(nèi)容的推薦算法[3]、混合推薦算法[4]。

其中協(xié)同過(guò)濾推薦算法是目前應(yīng)用最廣的推薦算法，而其又可以分為兩類:基于用戶的協(xié)同過(guò)濾算法[5]和基于項(xiàng)目的協(xié)同過(guò)濾算法[6]?；谟脩舻膮f(xié)同過(guò)濾算法通過(guò)研究用戶的歷史行為來(lái)計(jì)算用戶之間的相似性，最后利用用戶之間的相似性來(lái)做推薦，這個(gè)方法的思想是相似興趣的用戶購(gòu)買(mǎi)行為也比較相似?；谏唐返膮f(xié)同過(guò)濾算法則是通過(guò)商品的被購(gòu)買(mǎi)記錄來(lái)計(jì)算商品之間的相似性，以之來(lái)推推薦，其思想是用戶往往會(huì)購(gòu)買(mǎi)比較相關(guān)的商品。

近年來(lái)隨著自然語(yǔ)言技術(shù)的快速發(fā)展，從文本中提取情感信息作為一個(gè)熱點(diǎn)被越來(lái)越多的人所關(guān)注。推薦系統(tǒng)本質(zhì)上也只是輔助用戶決策的工具，如何在推薦系統(tǒng)中結(jié)合人類的情感分析逐漸受到關(guān)注。

1 相關(guān)工作

2010年, ACM Recsys’10（ACM Recommender Systems 2010）主辦了一個(gè)面向“上下文感知的電影推薦”的專題研討會(huì)，提出了3個(gè)方向的上下文感知推薦任務(wù)，基于情緒的推薦就是其中之一。Yue Shi[7]等提出基于特別情感的電影相似性計(jì)算方法，提高了預(yù)測(cè)精度。YasharMoshfeghi[8]等提出了一種從電影用戶評(píng)論中抽取情感信息，然后結(jié)合電影的一些特征來(lái)計(jì)算各個(gè)特征影響用戶偏好的概率的基于模型的協(xié)同過(guò)濾算法。

王立才[9]等提出結(jié)合情緒信息的改進(jìn)的協(xié)同過(guò)濾算法，它運(yùn)用“用戶-情感”矩陣計(jì)算用戶情感相似性，結(jié)合傳統(tǒng)的相似性計(jì)算方法來(lái)做用戶相似度計(jì)算，并作出推薦。

情感作為人類特有的心理特征，在用戶決策中扮演著很重要的角色。在結(jié)合到推薦算法過(guò)程中，情感與隨著web2.0到來(lái)而興起的標(biāo)簽有著類似的一面，有學(xué)者通過(guò)標(biāo)簽將原來(lái)的用戶-項(xiàng)目二部圖轉(zhuǎn)換為用戶-項(xiàng)目-標(biāo)簽三部圖來(lái)生成推薦，提高了算法性能，并一定程度上緩解了冷啟動(dòng)問(wèn)題。在結(jié)合情感信息進(jìn)行推薦時(shí)也可以利用轉(zhuǎn)化為三部圖的思想，但由于情感

與標(biāo)簽的差異性，計(jì)算的時(shí)候會(huì)有很大的區(qū)別。

本文通過(guò)“用戶-情感”矩陣和“情感-情感”關(guān)聯(lián)矩陣計(jì)算情感權(quán)重，通過(guò)“用戶-項(xiàng)目”打分矩陣計(jì)算用戶情感打分，通過(guò)信息熵[10]計(jì)算情感對(duì)于用戶的重要性，得到用戶對(duì)項(xiàng)目的情感評(píng)分預(yù)測(cè)，再結(jié)合傳統(tǒng)的協(xié)同過(guò)濾算法得到最終的預(yù)測(cè)。

2 結(jié)合情感分析的個(gè)性化推薦算法

2.1 數(shù)據(jù)定義

2.2 算法描述

結(jié)合情感信息的個(gè)性化推薦算法核心算法如下:

(1) 基于“項(xiàng)目-情感”矩陣 M計(jì)算“情感-情感”關(guān)聯(lián)矩陣S

(2) 根據(jù)“項(xiàng)目-情感矩陣”M和“情感-情感”S關(guān)聯(lián)矩陣計(jì)算“情感權(quán)重-項(xiàng)目”矩陣W

(3) 根據(jù)“用戶-項(xiàng)目”打分矩陣以及情感權(quán)重矩陣計(jì)算“用戶-情感”打分矩陣

(4) 通過(guò)信息熵計(jì)算情感對(duì)于用戶的重要性

(5) 綜合以上的通過(guò)公式計(jì)算得到用戶對(duì)項(xiàng)目的預(yù)測(cè)評(píng)分

(6) 將預(yù)測(cè)分值最高的N個(gè)推薦給用戶

2.3 項(xiàng)目的情感權(quán)重計(jì)算

每一個(gè)項(xiàng)目都有相對(duì)應(yīng)的一組情感特征，但每個(gè)情感特征對(duì)于項(xiàng)目的貢獻(xiàn)確實(shí)不同的，為了體現(xiàn)不同情感對(duì)項(xiàng)目的權(quán)重差異，需要對(duì)項(xiàng)目情感進(jìn)行建模。

項(xiàng)目情感矩陣M(包含n個(gè)項(xiàng)目和k個(gè)情感特征)，如果

用余弦相似度公式計(jì)算i情感和k情感的相似性如公式（1）：

根據(jù)項(xiàng)目情感矩陣 M 以及情感-情感關(guān)聯(lián)矩陣 S 計(jì)算情感i在項(xiàng)目j中的權(quán)重為公式（2）：

2.4 用戶情感評(píng)分

由于用戶個(gè)體背景、性格等各方面的差異，每個(gè)用戶對(duì)不同情感都有不同的偏好程度。由于每個(gè)項(xiàng)目包含各種情感，因此可以通過(guò)“用戶-項(xiàng)目”打分矩陣來(lái)計(jì)算用戶對(duì)應(yīng)各個(gè)不同情感的評(píng)分。有一種簡(jiǎn)單的方法，通過(guò)用戶對(duì)項(xiàng)目的打分間接得到對(duì)情感的打分，然后直接把用戶對(duì)項(xiàng)目的打分作為用戶對(duì)情感的打分，把用戶對(duì)包含某情感的商品的評(píng)分的平均分?jǐn)?shù)作為用戶對(duì)該情感的打分。但此方法在應(yīng)用的時(shí)候會(huì)發(fā)現(xiàn)一個(gè)問(wèn)題。假設(shè)，用戶U對(duì)一個(gè)包含情感i的項(xiàng)目j評(píng)分為90（該項(xiàng)目中情感權(quán)重為80％），用戶U對(duì)另一個(gè)包含情感i的項(xiàng)目k評(píng)分也為90（該項(xiàng)目中情感權(quán)重為10％，按以上方法計(jì)算，這用戶-項(xiàng)目打分對(duì)用戶-情感打分的影響是一樣的，直觀上，此方法用在這里顯然有點(diǎn)問(wèn)題。需要加上一個(gè)權(quán)重因子度量用戶對(duì)項(xiàng)目的打分對(duì)用戶情感打分的影響度，公式(2)計(jì)算得到的W是一個(gè)很理想的因子，顯然權(quán)重Wij越大，用戶對(duì)項(xiàng)目j的打分對(duì)情感打分影響越大，反之越小，如公式（3）：表示用戶U對(duì)項(xiàng)目j的打分，表示用戶U打分的項(xiàng)目中包含情感e的集合，表示用戶對(duì)情感i的打分。

2.5 基于情感信息的用戶評(píng)分預(yù)測(cè)

根據(jù)以上的情感對(duì)項(xiàng)目的權(quán)重以及用戶對(duì)情感的評(píng)分公式（4）：是根據(jù)(3)計(jì)算得到的用戶u對(duì)情感i的評(píng)分，是根據(jù)(2)計(jì)算得到的情感i對(duì)于項(xiàng)目j的權(quán)重。

2.6 情感的信息熵由于每個(gè)項(xiàng)目都有一組情感特征，那么用戶對(duì)項(xiàng)目的打分就可以映射到情感上去。同一個(gè)情感特征可能會(huì)在很多項(xiàng)目中出現(xiàn)，由上面的計(jì)算我們知道，不同的情感的項(xiàng)目的權(quán)重有差異，用戶對(duì)情感的偏好也有差異。我們可以直接利用這些預(yù)測(cè)用戶項(xiàng)目評(píng)分。但考慮到一個(gè)問(wèn)題，以上用戶對(duì)于情感的偏好是利用”用戶-項(xiàng)目”計(jì)算而得的。如果用戶對(duì)某個(gè)情感毫無(wú)偏好，那么該情感在該用于對(duì)項(xiàng)目評(píng)分的時(shí)候完全不發(fā)揮作用，觀察公式(3)，會(huì)發(fā)現(xiàn)趨向于用戶的平均評(píng)分值，導(dǎo)致(4)計(jì)算得到的預(yù)測(cè)值趨向于平均值，不能體現(xiàn)出用戶對(duì)此情感的不在意性。相反的，如果某個(gè)情感對(duì)用戶非常重要，對(duì)出現(xiàn)該情感的項(xiàng)目的評(píng)分都很高，而公式(4)也體現(xiàn)不出此重要性。由于個(gè)人的背景、性格、認(rèn)知等方面的不同，不同的情感對(duì)于不同的個(gè)人重要程度是不一致的，在計(jì)算的時(shí)候，需要刻畫(huà)出這種不一致性。

從信息論的角度看，熵代表系統(tǒng)的混亂程度，可以體現(xiàn)情感對(duì)于不同用戶的重要性差異?；谝陨系目紤]公式（5）：

其中是用戶u對(duì)包含情感e的項(xiàng)目打分為x的比例，Pui反應(yīng)了打分的分布狀況，越大，表明打分越混亂，那么情感的重要性就比較低，越小就表明打分一致性越高，那么相應(yīng)情感的重要性就比較高。

2.7 改進(jìn)的基于情感信息的用戶評(píng)分預(yù)測(cè)

2.8 結(jié)合情感信息與傳統(tǒng)協(xié)同過(guò)濾算法的用戶評(píng)分預(yù)測(cè)

3 實(shí)驗(yàn)

本文的實(shí)驗(yàn)平臺(tái)是PC(cpu 2.6GHz,內(nèi)存2GB),windows 7操作系統(tǒng)(X86)。

3.1 數(shù)據(jù)集

本文采用公開(kāi)的 Moviepilot數(shù)據(jù)集,是 2010年CAMRa2010提供的，包含105137個(gè)用戶對(duì)25058部電影的4544409條評(píng)分，評(píng)分分?jǐn)?shù)為0到100之間的整數(shù)。數(shù)據(jù)集中的項(xiàng)目都對(duì)應(yīng)一組情感特征值，共有6712個(gè)情感標(biāo)記，分布在16個(gè)維度上。最終經(jīng)過(guò)數(shù)據(jù)清洗以及去噪后，篩選出共12562個(gè)用戶對(duì)2315部電影的338607個(gè)打分?jǐn)?shù)據(jù)作為實(shí)驗(yàn)的數(shù)據(jù)集。為了檢驗(yàn)實(shí)驗(yàn)效果，本文跟傳統(tǒng)的基于項(xiàng)目的協(xié)同過(guò)濾算法進(jìn)行了對(duì)比。

3.2 評(píng)價(jià)指標(biāo)

本文采用MAE（Mean Absolute Error）[11]作為評(píng)價(jià)指標(biāo)，MAE表示預(yù)測(cè)值與實(shí)際評(píng)價(jià)值的偏差，MAE越小，評(píng)價(jià)越準(zhǔn)確。設(shè)預(yù)測(cè)的評(píng)分集合表示為，對(duì)應(yīng)的實(shí)際評(píng)分集合表示為，則為公式（7）：

3.3 實(shí)驗(yàn)結(jié)果分析

為了檢驗(yàn)本文提出的結(jié)合情感信息的個(gè)性化推薦算法，本實(shí)驗(yàn)和傳統(tǒng)基于項(xiàng)目的協(xié)同過(guò)濾算法進(jìn)行了對(duì)比，其中計(jì)算項(xiàng)目之間的相關(guān)性時(shí)用的是Pearson相關(guān)系數(shù)，而鄰居數(shù)目也調(diào)整到了最佳值。實(shí)驗(yàn)分為兩部分，第一部分通過(guò)調(diào)節(jié)值，比較不同值得情況下本文提出的算法與傳統(tǒng)的協(xié)同過(guò)濾算法 MAE方面的表現(xiàn)。第二部門(mén)，調(diào)整到最優(yōu)值，通過(guò)調(diào)節(jié)訓(xùn)練集/測(cè)試集的比例，來(lái)測(cè)試兩者在不同稀疏度情況下MAE的情況，如圖1所示：

圖1 左右的比重。

圖2

可以發(fā)現(xiàn)隨著訓(xùn)練集/測(cè)試集的比例的降低，即訓(xùn)練數(shù)據(jù)越來(lái)越少，結(jié)合情感信息的個(gè)性化推薦算法的效果相對(duì)比較穩(wěn)定，而傳統(tǒng)的協(xié)同過(guò)濾算法隨著訓(xùn)練集的稀疏，到了一定的臨界點(diǎn)后，效果急劇下降。這可能是因?yàn)?，隨著訓(xùn)練集數(shù)據(jù)的稀疏，經(jīng)典的協(xié)同過(guò)濾算法在計(jì)算鄰居時(shí)產(chǎn)生的偏差越來(lái)越大，從而導(dǎo)致推薦效果的下降。而本文提出的方法中，由于結(jié)合了情感信息，數(shù)據(jù)稀疏性帶來(lái)的影響相對(duì)少很多。

4 總結(jié)

本文提出的結(jié)合情感信息的個(gè)性化推薦算法，通過(guò)“項(xiàng)目-情感”矩陣以及“情感-情感”關(guān)聯(lián)矩陣計(jì)算項(xiàng)目中情感的權(quán)重，通過(guò)“用戶-項(xiàng)目”打分矩陣計(jì)算“用戶-情感”打分，然后再根據(jù)情感對(duì)于用戶的信息熵來(lái)衡量情感對(duì)于不同用戶的重要性，最后結(jié)合傳統(tǒng)的協(xié)同過(guò)濾算法得到最條件。在Moviepilot數(shù)據(jù)集熵的實(shí)驗(yàn)結(jié)果表明，利用本文算法預(yù)測(cè)的評(píng)分效果優(yōu)于傳統(tǒng)的協(xié)同過(guò)濾算法。

[1] 藺豐奇,劉益．網(wǎng)絡(luò)化信息環(huán)境信息過(guò)載問(wèn)題研究綜述[J]．情報(bào)科學(xué)，2007:36-48.

[2] 馬宏偉,張光衛(wèi)，李鵬.協(xié)同過(guò)濾推薦算法綜述[J]. 小型微型計(jì)算機(jī)系統(tǒng)2009,30(7):1282-1288.

[3] 劉建國(guó),周濤,汪秉宏.個(gè)性化推薦系統(tǒng)的研究進(jìn)展[J].自然科學(xué)進(jìn)展,2009,19(1):1-15

[4] GediminasAdomavicius, Alexander Tuzhilin. Toward the nextgeneration of recommender systems: A survey ofthestate-of-the-art and possible extensions[J]. IEEE Transactions on Knowledge and Data Engineering,2005,17(6): 734-749.

[5] Wang J,DeVries A P, Reinders M J T.Unifying user-based and item-based collaborative filtering approaches by similarity fusion[C].//Proceeding of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval .New York:ACM,2006:501-508:

[6] Sarwar B,KarypisG,KonstanJ,et al. Item based collaborative filtering recommendation algorithms[C].//Proceeding of the 10th International Conference on World Wide Web.New York:ACM,2001:285-295.

[7] Yue Shi, Martha Larson, Alan Hanjalic. Mining mood-specific movie similarity with matrix factorization forcontext-aware recommendation[C].//Proceedings of the Workshop on Context-Aware Movie Recommendation at the 4th ACM Conference on Recommender Systems, New York, USA, 2010: 34-40.

[8] YasharMoshfeghi, Benjamin Piwowarski, Joemon M.Jose. Handling data sparsity in collaborative filteringusing emotion and semantic based features[C].//In Proceedings of the 34thinternational ACM SIGIR conferenceon Research and development in Information,Beijing, China, 2011: 625-634.

[9] Wang LC, Meng XW, Zhang. YJ, Shi YC. New approaches to mood-based hybrid collaborative filtering[C].//In Proceeding of the RecSys2010 Workshop on CAMRa 2010. New York: ACM Press, 2010.

[10] 王衛(wèi)平,楊磊.結(jié)合最大熵模型和tag特征的混合推薦系統(tǒng)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用，2011,20(7):65-68.

[11] 劉建國(guó), 周濤, 郭強(qiáng), 等. 個(gè)性化推薦系統(tǒng)評(píng)價(jià)方法綜述[J]. 復(fù)雜系統(tǒng)與復(fù)雜性科學(xué), 2009, 6(3): 1-10.

A Personalized Recommendation Algorithm Based on Emotion Information

Xin Xianlong
(School of Computer Science, Fudan University, Shanghai 200120, China)

As the develop of the Internet, recommendation play a more and more important role in the face of “Information Overload”. In the course of human decision-making in many scenes, emotions play a very important role. So in recommender systems,emotion information can’t be ignored. Actually in the process of human decision-making, the importance of emotion for different users is very different. This paper focuses on the importance of emotion for different users, and presents a method that use tentrop to measure the importance of the emotion, then proposes a personalized recommendation Algorithm based on Mood Information. Experiments show the accuracy of this algorithm is higher than the traditional collaborative filter ingal gorithm.

Personalized Recommendation; Collaborative Filtering; Mood Information; Entropy

TP311

：A

1007-757X(2014)04-0038-03

2014.03.28)

辛賢龍，復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院，碩士，研究方向：數(shù)據(jù)挖掘、推薦系統(tǒng)，上海，200120