謝月榮+馮璐瑤+閆炳陽+李占行
提要:在最近的工作中,提出個性化推薦算法,它在準確性和多樣性兩個方面有很高的績效。該方法是基于兩個單算法概率擴散和熱傳導的雜交,它們分別是傾向于推薦受歡迎和不受歡迎的產品。憑著可調參數(shù),可以在系統(tǒng)層面實現(xiàn)這兩種算法之間的最佳平衡。該文中,在個人層面應用這種混合方法,即每個用戶都可以調整他/她自己的個性化的混合參數(shù)。有趣的是,筆者發(fā)現(xiàn)用戶在個性化混合參數(shù)和推薦績效方面相當?shù)牟煌H绻o每個用戶分配最佳的個性化混合參數(shù),那么推薦績效就會有顯著的提高。此外,在收集的項目中筆者發(fā)現(xiàn)用戶的個性化參數(shù)與用戶個人等級呈負相關,但是與用戶的平均等級呈正相關。根據(jù)對這些的理解,該文提出了一個分配給用戶合適的個性化參數(shù)的策略,它使原來的混合方法得到進一步的改善。最后,該工作突出考慮推薦用戶多樣性的重要性。
關鍵詞:個性化推薦算法;個性化混合參數(shù)
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2016)10-0192-02
最近幾年我們見證了信息爆炸的嚴重問題。信息的數(shù)量,尤其是網(wǎng)絡信息,增長量遠遠超過了我們處理信息的能力。隨著網(wǎng)絡資源的快速膨脹,極大地增加了對大量信息進行有效過濾的必要性。在這種情況下,推薦系統(tǒng)應運而生。推薦系統(tǒng)根據(jù)用戶在互聯(lián)網(wǎng)上活動的歷史記錄發(fā)現(xiàn)他們的潛在興趣而不是根據(jù)用戶所提供的指定關鍵字。到目前為止,基于不同的想法和概念,大量的推薦算法已經被提出,包括:協(xié)同過濾算法,基于內容的方法,頻譜分析,潛在語義模型和狄利克雷分配,迭代自洽細化以及拓撲適配方法等。而本文我們所研究的內容是基于個性化混合推薦方法(HHP)的進一步改善。
1 個性化混合推薦概述
最近,一些基于擴散推薦算法,如熱傳導和概率擴散,已經應用于個性化推薦。概率擴散方法傾向于為個性化目標用戶推薦受歡迎的產品,然而熱傳導方法傾向于推薦冷門的產品。不久之后,提出用混合方法(HHP)與熱傳導算法和概率擴散算法相結合獲得更高的推薦績效。憑借著可調整的混合參數(shù),為HHP方法提供了流暢的從一個方法到另一個方法的過渡。每個真實系統(tǒng)被視為具有其最佳混合參數(shù),同時,通過最近提出的優(yōu)先選擇擴散過程,偏熱傳導和網(wǎng)絡操作,基于擴散推薦算法的性能已經得到增強。
原HHP最優(yōu)的混合參數(shù)具有普遍價值,系統(tǒng)實現(xiàn)了對冷門項目和受歡迎項目的推薦的最佳平衡。那就是說,系統(tǒng)中的所有用戶都采用相同的混合參數(shù)。然而,HHP方法不考慮實際用戶的多樣性。事實上,混合算法可以在各體級別上應用,可以調整每個用戶他/她自己的個性化混合參數(shù)。明確地說,如果用戶喜歡收集受歡迎的產品,混合方法應該給予擴散算法更多的權重,因為擴散算法擅長推薦受歡迎的產品,反之亦然。
在這種動機下,在這一篇文章中我們對關于用戶的最佳個性化混合參數(shù)做了仔細的研究。我們設置兩個參照數(shù)據(jù)(電影推薦和美食推薦),并發(fā)現(xiàn)如果分配給所有用戶最佳的混合參數(shù),那么,推薦后的績效就會顯著增強。我們也發(fā)現(xiàn)每個用戶都會有各自不同的最佳個性化混合參數(shù)。同時,我們發(fā)現(xiàn)用戶的個性化參數(shù)與用戶個人等級呈負相關,但是與用戶的平均等級呈正相關。最后,我們提出一個面向用戶的HHP(UHHP)算法,在這個算法中,根據(jù)每個用戶的水平,分配給他們個性化混合參數(shù)。模型表明UHHP能進一步提高原HHP算法的績效。最后,我們的工作突出考慮推薦用戶多樣性的重要性。
2 數(shù)據(jù)和指標
我們設置電影推薦和美食推薦兩個參數(shù)來進行分析。電影推薦數(shù)據(jù)包含10萬條真實的評級數(shù)據(jù),這些數(shù)據(jù)來自于943個用戶、1682部電影。然后,用一個粗粒化進程將這些評級轉化為一元形式:只有評級為3及3以上才被認為是通過用戶收集的,其中,5是最高評級。粗粒化進程之后,仍存在943個用戶和1574項與85250邊緣(稀疏度是5.20·10-2)。美食推薦數(shù)據(jù)本質上是一元的,表明用戶是否已經收集到任何的網(wǎng)頁鏈接。它包含9998個用戶和232657項與1,233,995邊緣(稀疏度是5.30·10-4)。為了檢測推薦算法,數(shù)據(jù)被分為兩部分:訓練集Et和探針集Ep,比例為9:1。訓練集被視為已知的信息,而探針集用于預測未知的信息。
該推薦算法可以為每個用戶提供屬于他/她自己的未收集項目的有序列表。好的算法是能給出準確的推薦,即在探針集中在推薦列表的頂部放置更多的項目。我們先用秩得分衡量推薦算法產生與用戶喜好相匹配的良好有序項目的能力。因此真實用戶通常只考慮推薦列表頂部的物品,也可以使用兩種比較實用的方法,即精確度和召回率。
秩得分:該推薦算法可以為每個用戶提供屬于他/她自己的未收集項目的有序列表。對于目標用戶i,我們計算他/她在探針集中的鏈接位置。例如,如果i有1000個未收集的項目,α項是有序列表的前30,我們說α的位置是30/1000,因此秩得分RSiα = 0.03。平均秩得分超過所有的探頭對,從整個系統(tǒng)中我們獲得了最終的秩得分RS。好的算法,預計將會得到一個小的RS。除了整個系統(tǒng)的整體RS,我們只考慮局部秩得分,該秩得分僅考慮冷門項目(i.e.items with small degree)。由于它們的信息很少,難以準確地推薦是正常的。這就是眾所周知的冷啟動問題。我們用RSk<=x代表程度小于x的項目平均秩得分。根據(jù)之前的研究,在我們的工作中將x賦值為10。
精確度:對于一個目標用戶i,推薦的精度Pi(L)被定義為Pi(L)=hi(L)/L,其中hi(L)代表熱門項目的數(shù)量(即相同的項目存在于探針集和推薦列表的前L的位置)。求所有用戶準確性的平均數(shù),我們得到整個系統(tǒng)的平均準確性P(L)。在本文中L=20。
召回率:用相同的方法,用戶i的召回率為Ri(L),它被定義為Ri(L)=Hi(l)/Li,其中hi(L)表示熱門項目的數(shù)量,Li是用戶i在探針集中收集到的項目的數(shù)量。求所有用戶召回率的平均值,我們得到整個系統(tǒng)中的平均召回率R(L),再次設置L=20。
3 用戶多樣性和個性化參數(shù)
目前,網(wǎng)路環(huán)境日趨多樣化和復雜化,其中最主要的原因就是用戶的多樣化。我們通過研究用戶的多樣性,了解群體行為,從而可以設計出更人性化的個性化推薦算法。事實上,在線個性化推薦系統(tǒng)中,了解用戶的個人需求和興趣愛好顯得尤為重要。根據(jù)研究發(fā)現(xiàn),用戶在選擇產品時都是有目的的選取,而不是隨機發(fā)生,在結合心理學原理,用戶做出的選擇往往是無意識的,因此用戶的行為在很大程度上取決于用戶的需求和個人興趣。對此,一些研究者提出用集聚系數(shù)C4來衡量用戶的興趣,C4值越高,說明用戶對某方面的興趣越專一。另外,香農提出的信息熵也可以作為一項個性化混合參數(shù)。他提出用信息熵衡量用戶信息量的多少,用戶的信息越多,用戶信息越偏向于多樣化,信息熵的數(shù)值就越大。因此在設計給予用戶的個性化混合推薦算法時,可以考慮這些數(shù)值的影響,使系統(tǒng)獲得的更高的績效。
4 思考
我們評論當前估計用戶個性化混合參數(shù)的方法不是最佳的,例如用時間信息計算用戶的歷史活動記錄將會更加深刻的理解用戶的行為模型,而且對他們的個性化混合參數(shù)有更好的預測。同時,在真實系統(tǒng)中用戶的最佳個性化混合參數(shù)將會隨著時間而改變。某些時候,一個用戶可能喜歡受歡迎的產品,在另外一些時候,他可能喜歡相關的但是不那么流行的產品。在這種情況下,這種方法也應該考慮到用戶的時間行為模式。這些問題需要將來進一步的探究。
5 結束語
推薦系統(tǒng)是一個解決信息過度問題非常有潛力的技術。最近,提出用混合方法(HHP)與熱傳導算法和概率擴散算法相結合獲得更高的推薦績效。概率擴散方法主要推薦受歡迎的產品因此推薦準確度高。相反熱傳導方法傾向于推薦小眾化產品并享受多樣性推薦。憑著可調參數(shù),混合算法實現(xiàn)在推薦準確度和多樣性方面有較高的績效。在本文中,我們在個體層面運用原始的混合方法,以至于可以調節(jié)每個用戶的個性化混合參數(shù)。我們發(fā)現(xiàn)如果給每個用戶分配最佳的個性化混合參數(shù),所有的推薦準確度將會明顯的增加。同時,我們還發(fā)現(xiàn)真實用戶有各自不同的最佳個性化混合參數(shù)。另外,我們發(fā)現(xiàn)用戶的個性化參數(shù)與用戶的水平呈負相關,但是與用戶的平均學歷呈正相關。
此外,我們提出了基于用戶的混合方法UHHP。在這個算法中,根據(jù)每個用戶的平均水平,分配給他們個性化混合參數(shù)。我們用兩個參照數(shù)據(jù)(電影推薦和美食推薦)測試UHHP方法,發(fā)現(xiàn)我們的方法比HHP算法可以進一步提高推薦正確性(尤其是準確度和召回)。然后,怎樣在推薦系統(tǒng)中進一步的準確估計最佳可調參數(shù)仍然是一個挑戰(zhàn)。到目前為止,解決問題的通常方法是基于對歷史數(shù)據(jù)的計算。通常,歷史數(shù)據(jù)被分為訓練集和探針集。當算法在訓練集和探針集部分獲得最高的績效時進一步推薦的參數(shù)被確定,在工作中,我們也采用這種方法估計最佳的伽瑪值。
參考文獻:
[1] 陳潔敏, 湯庸, 李建國, 等. 個性化推薦算法研究[J]. 華南師范大學學報:自然科學版, 2014 (5).
[2] Yuan Guan,Dandan Zhao,An Zeng,et al.Contents list available at SciVerse Science Direct[J].Physica A,2013,392:3417-3423.
[3] 曾春, 邢春曉, 周立柱. 個性化服務技術綜述[J]. 軟件學報, 2002(10).