鄧丹君
(湖北理工學(xué)院計(jì)算機(jī)學(xué)院,黃石 435002)
基于LDA的微博用戶實(shí)時(shí)個(gè)性化推薦算法
鄧丹君
(湖北理工學(xué)院計(jì)算機(jī)學(xué)院,黃石 435002)
根據(jù)微博用戶的行為,把微博文本數(shù)據(jù)分為三種:發(fā)布微博、轉(zhuǎn)發(fā)微博和評(píng)論微博。在傳統(tǒng)的LDA模型的基礎(chǔ)上,建立一種基于微博類型的的LDA模型,該模型考慮到微博的類型,并且考慮用戶興趣的時(shí)間因素內(nèi)容,可以增強(qiáng)對(duì)微博用戶實(shí)時(shí)個(gè)性化推薦的準(zhǔn)確性。通過實(shí)驗(yàn)的驗(yàn)證,所提出的方法對(duì)于微博用戶實(shí)時(shí)個(gè)性化的效果良好。
微博;LDA;個(gè)性化推薦
近幾年來,微博已成為重要的社交網(wǎng)絡(luò)服務(wù)之一,對(duì)社會(huì)上各行各業(yè)產(chǎn)生了重要的影響。微博用戶可以通過網(wǎng)頁(yè)或移動(dòng)客戶端等工具發(fā)布長(zhǎng)度在140字以內(nèi)的微博信息,這些信息可以在用戶關(guān)系網(wǎng)中傳播,從而實(shí)現(xiàn)信息的及時(shí)共享。微博用戶除了可以接收所關(guān)注的用戶的動(dòng)態(tài)消息以外,還可以接收微博平臺(tái)推薦的非好友的信息,這些推薦的信息不僅數(shù)量龐大,而且內(nèi)容也很豐富。然而,最新研究報(bào)告顯示微博平臺(tái)的活躍用戶數(shù)量的增長(zhǎng)率在持續(xù)降低,主要原因就在于微博中信息量過載,與用戶興趣無關(guān)的信息推薦導(dǎo)致用戶體驗(yàn)效果下降,活躍程度降低[1]。為了提高用戶的體驗(yàn),微博個(gè)性化信息推薦產(chǎn)生了,它是微博平臺(tái)直接根據(jù)用戶的歷史行為信息挖掘出用戶感興趣的內(nèi)容,從而為用戶推薦其感興趣的信息。因此,研究個(gè)性化微博信息實(shí)時(shí)推薦具有重要的現(xiàn)實(shí)意義。
隨著微博用戶的不斷增長(zhǎng),個(gè)性化微博信息實(shí)時(shí)推薦已經(jīng)成為近些年來許多專家和學(xué)者們的研究熱點(diǎn),并已經(jīng)取得豐富的研究成果。
文獻(xiàn)[2]通過邏輯回歸模型對(duì)潛在用戶進(jìn)行評(píng)分排序,為目標(biāo)用戶推薦前N個(gè)潛在用戶的微博信息。文獻(xiàn)[3]結(jié)合協(xié)同過濾的思想和TF-IDF模型計(jì)算微博信息流的相似性從而評(píng)估用戶的興趣度進(jìn)而優(yōu)化用戶微博信息排序。文獻(xiàn)[4]分析了影響用戶對(duì)特定微博興趣的若干因素,提出了融合顯式特征和潛在特征的社區(qū)熱點(diǎn)微博推薦算法。文獻(xiàn)[5]對(duì)用戶個(gè)人簡(jiǎn)介中的詞語和標(biāo)簽之間的關(guān)系進(jìn)行建模并利用社交網(wǎng)絡(luò)結(jié)構(gòu)作為模型的正則化因子。文獻(xiàn)[6]以LDA模型推斷微博的主題分布和用戶興趣取向,提出了微博系統(tǒng)用戶興趣微博的實(shí)時(shí)推薦方法。
上述研究大多是對(duì)用戶瀏覽的微博內(nèi)容進(jìn)行分析,得出用戶的興趣模型,得到的結(jié)果從不同角度上提高了對(duì)用戶興趣模型描述的準(zhǔn)確程度,但是忽略了一些影響用戶興趣的其他關(guān)鍵性的因素。
用戶之所以會(huì)對(duì)一條微博的內(nèi)容產(chǎn)生興趣,影響的因素有以下幾點(diǎn):
①微博的內(nèi)容
②用戶所關(guān)注的對(duì)象發(fā)布的微博
③同時(shí)用戶對(duì)某條微博進(jìn)行轉(zhuǎn)發(fā)或者進(jìn)行評(píng)論都代表該用戶對(duì)這條微博的內(nèi)容感興趣。
④用戶對(duì)某種主題的微博瀏覽的時(shí)間也反映著用戶對(duì)這種主題微博內(nèi)容感興趣的程度。
因此,微博用戶的行為和興趣之間存在著很大的關(guān)聯(lián)性,我們可以把微博文本數(shù)據(jù)分為三種:發(fā)布微博、轉(zhuǎn)發(fā)微博和評(píng)論微博。在進(jìn)行主題分析時(shí),需要根據(jù)這三種不同的微博進(jìn)行不同的處理。
由于微博文本有140個(gè)字符的長(zhǎng)度限制,是一種短文本數(shù)據(jù),存在著數(shù)據(jù)稀疏的特點(diǎn),傳統(tǒng)的文本主題挖掘方法如VSM、TF/IDF等不適用于這種短文本數(shù)據(jù)主題的挖掘,而概率主題模型如LDA模型在降低維度、自身擴(kuò)展性等方面有著諸多的優(yōu)勢(shì),在短文本數(shù)據(jù)主題挖掘領(lǐng)域中已得到廣泛應(yīng)用[7]。本文將綜合利用微博用戶發(fā)布的數(shù)據(jù)、轉(zhuǎn)發(fā)的微博數(shù)據(jù)和評(píng)論的微博數(shù)據(jù)放在一起進(jìn)行LDA主題建模,分析出不同用戶的興趣。
另外,微博的實(shí)時(shí)性非常強(qiáng),用戶的興趣會(huì)隨著時(shí)間的變化而發(fā)生變化,因此,還需要考慮時(shí)間因素。
LDA模型是一種三層次的貝葉斯模型,包含文檔層、單詞層和主題層。并且LDA模型使用概率分布表示層與層之間的關(guān)系,將文本表示成多個(gè)主題的概率分布,將主題表示為多個(gè)單詞的概率分布。利用LDA模型可以對(duì)文檔數(shù)據(jù)進(jìn)行主題分析[8]。
使用LDA模型文檔d生成的概率如公式(1)所示:
使用LDA模型文檔集D中所有文檔生成的概率如公式(2)所示:
根據(jù)前面的分析,我們把微博文本數(shù)據(jù)分為三種:發(fā)布微博、轉(zhuǎn)發(fā)微博和評(píng)論微博。為進(jìn)行區(qū)別,可設(shè)置參數(shù)λd表示微博文本是發(fā)布微博、轉(zhuǎn)發(fā)微博還是評(píng)論微博。如果微博文本是發(fā)布微博,則λd=0,該條微博的主題分布由發(fā)布微博的內(nèi)容的主題分布決定;如果微博文本是轉(zhuǎn)發(fā)微博,則λd=1,該條微博的主題分布θd由被轉(zhuǎn)發(fā)的微博的主題分布決定;如果微博文本d為評(píng)論微博,則λd=3,該條微博的主題分布θd由該條微博內(nèi)容和被回復(fù)的微博的主題分布共同決定。
在這個(gè)LDA模型中,參數(shù)通過Gibbs Sample的方法進(jìn)行參數(shù)估計(jì)。
整個(gè)建模過程如圖1所示:
圖1 LDA算法過程
以新浪微博作為數(shù)據(jù)源,使用新浪微博API提取微博數(shù)據(jù),用戶實(shí)時(shí)興趣推薦過程如下:
①提取的微博用戶集合表示為U,U={u1,u2,…,un};
②對(duì)于每個(gè)微博用戶ui,提取該微博用戶ui發(fā)布的微博、轉(zhuǎn)發(fā)的微博、評(píng)論的微博,得到該用戶ui的微博集合Sui;
③對(duì)于每條微博進(jìn)行數(shù)據(jù)預(yù)處理,為后續(xù)的主題模型的分析提供原始數(shù)據(jù),數(shù)據(jù)預(yù)處理包括中文分詞、標(biāo)注詞性、去掉停用詞,保留名詞、動(dòng)詞和形容詞。這些數(shù)據(jù)預(yù)處理操作可以去除微博文本中無意義的詞語或符號(hào),對(duì)于提高后續(xù)的主題模型的準(zhǔn)確度來說是很重要的[9];
④對(duì)于每條微博b∈S(ui),通過基于微博類型的LDA模型得到該微博b的主題概率分布,設(shè)置迭代次數(shù)等,根據(jù)Gibbs Sample的方法建立LDA模型,得到微博-主題分布和主題-單詞分布、參數(shù)α、β;
⑤為加強(qiáng)微博推薦的實(shí)時(shí)效果,本文引入了微博時(shí)間因子。微博時(shí)間因子表示在某段時(shí)間之內(nèi)微博用戶對(duì)某主題的微博的關(guān)注程度。微博用戶對(duì)某主題的微博的關(guān)注程度可以分為長(zhǎng)期關(guān)注和短期關(guān)注。長(zhǎng)期關(guān)注即用戶關(guān)注的微博主題中出現(xiàn)的時(shí)間比較均勻,并且在很長(zhǎng)一段時(shí)間內(nèi)一直持續(xù)出現(xiàn)。短期關(guān)注即用戶關(guān)注的微博主題中只是在近期內(nèi)出現(xiàn)、在用戶關(guān)注的微博集合中出現(xiàn)的時(shí)間比較均勻,并且用戶只是在近一段時(shí)間內(nèi)多次關(guān)注該主題的微博。
我們可以把用戶關(guān)注興趣的變化看做是一種記憶遺忘現(xiàn)象,本文采用指數(shù)遺忘曲線函數(shù)來表達(dá)用戶興趣遺忘的過程[10]。該指數(shù)遺忘曲線函數(shù)如公式(3)所示:
在公式(3)中,Tmax為最大時(shí)間間隔,即用戶微博集合中的最早微博時(shí)間與參考時(shí)間之差,Tmin為最小時(shí)間間隔,即用戶微博集合中的最晚微博時(shí)間與參考時(shí)間之差。
由公式可知,e-1< 根據(jù)以上分析,可以采用上述計(jì)算公式(3)表示微博用戶的興趣的時(shí)間因子,可以獲取用戶在某時(shí)間段內(nèi)的興趣偏好,進(jìn)行實(shí)時(shí)個(gè)性化推薦。 本文將通過采集新浪微博的數(shù)據(jù)進(jìn)行驗(yàn)證所推薦的方法的有效性和準(zhǔn)確性。采集新浪微博用戶發(fā)布、關(guān)注、轉(zhuǎn)發(fā)、評(píng)論的微博數(shù)據(jù)。于2017年1月從新浪微博API隨機(jī)選取4718名用戶及他們發(fā)布、關(guān)注、轉(zhuǎn)發(fā)、評(píng)論的微博進(jìn)行實(shí)驗(yàn)。 實(shí)驗(yàn)中使用本文提出的方法進(jìn)行用戶實(shí)時(shí)個(gè)性化推薦,并觀察用戶的行為,如果用戶對(duì)推薦模型推薦的某條微博進(jìn)行轉(zhuǎn)發(fā)、進(jìn)行評(píng)論、收藏或點(diǎn)贊都代表該用戶對(duì)這條微博的內(nèi)容感興趣。使用公式(4)判斷推薦模型所推薦的微博內(nèi)容的準(zhǔn)確率: 從公式(4)可以看出,當(dāng)P值越大,推薦模型的準(zhǔn)確度就越高。 此外,用戶感興趣的微博如果在模型推薦列表靠前的位置的話,推薦的效果也就越好,因此,采用公式(5)來判斷推薦模型的效果: N為推薦列表中用戶感興趣的微博的總數(shù),從公式(5)可以看出,當(dāng)R值越小,推薦模型中用戶感興趣的微博在模型推薦列表越靠前的位置,推薦效果就越好。 本實(shí)驗(yàn)將基于LDA模型的方法和本文的方法得到個(gè)性化推薦列表進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如圖2所示。 圖2 準(zhǔn)確度和排序位置對(duì)比 從圖2可以看出,本文提出的方法在微博推薦準(zhǔn)確度和排序位置都比傳統(tǒng)的方法好,更能反映用戶的興趣,推薦的效果良好。 本文根據(jù)微博用戶的行為,把微博文本數(shù)據(jù)分為三種:發(fā)布微博、轉(zhuǎn)發(fā)微博和評(píng)論微博,納入微博主題提取的分析中。在傳統(tǒng)的LDA模型的基礎(chǔ)上,建立一種基于微博類型的的LDA模型,該模型考慮到微博的類型,并且考慮用戶興趣的時(shí)間因素內(nèi)容,增強(qiáng)對(duì)微博用戶實(shí)時(shí)個(gè)性化推薦的準(zhǔn)確性。通過實(shí)驗(yàn)的驗(yàn)證,本文提出的方法對(duì)于微博用戶實(shí)時(shí)個(gè)性化的效果良好。 參考文獻(xiàn): [1]胡大偉.基于標(biāo)簽協(xié)同過濾算法在微博推薦中的研究[D].包頭:內(nèi)蒙古科技大學(xué),2012. [2]徐雅斌,石偉杰.微博用戶推薦模型研究[J].電子科技大學(xué)學(xué)報(bào),2015,44(2):254-258. [3]閆光輝等.微博個(gè)性化信息流推薦研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2014,35(6):2013-2016. [4]彭澤環(huán)等.社區(qū)熱點(diǎn)微博推薦研究[J].計(jì)算機(jī)研究與發(fā)展,2015,52(5):1014-1021. [5]涂存超等.社會(huì)媒體用戶標(biāo)簽的分析與推薦[J].圖書情報(bào)工作,2013,57(23):24-30. [6]高明等.面向微博系統(tǒng)的實(shí)時(shí)個(gè)性化推薦[J].計(jì)算機(jī)學(xué)報(bào),2014,37(4):963-973. [7]LIM E P,JIANG J,WENG J,et al.TwitterRank:Finding Topic-Sensitive Influential Twitterers[C].Proceedings of the third ACM International Conference onWeb Search and Data Mining.2010.New York,NY,USA:ACM,WSDM'10. [8]Zhao Xin.Jiang Jing.Weng Jian-shu.Comparing Twitter and TraditionalMedia using Topic Models.Information Retrieva1,2011. [9]Rosen-ZviM,Griggiths T,Steyvers M,et al.The Author-Topic Model for Authors and Documents[C].Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence.AUAIPress,2004:487-494. [10]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計(jì)算[J].中文計(jì)算語言學(xué),2002,7(2):59-76. Real Time Personalized Recommendation Algorithm for Micro-Blog Users Based on LDA DENG Dan-jun (Departmentof Computer Science,Hubei Polytechnic University,Huangshi 435002) According to the behavior ofm icro-blog users,micro-blog text data is divided into three categories:issuingmicro-blog,forwarding micro-blog and micro-blog comments.Based on the traditional LDAmodel,establishes a LDA model ofmicro-blog type based on themodel,takes into account them icro-blog type,and considers the content of user interest in the time factor,which can enhance the accuracy of the recommendation ofmicro-blog users real-time personalization.The experimental results show that themethod proposed is effective formicro-blog users. 鄧丹君(1981-),女,湖北黃石人,碩士,講師,研究方向?yàn)樯缃痪W(wǎng)絡(luò)數(shù)據(jù)挖掘 2017-03-09 2017-05-10 湖北理工學(xué)院校級(jí)科研項(xiàng)目(No.15xjz02Q) 1007-1423(2017)14-0030-04 10.3969/j.issn.1007-1423.2017.14.006 Micro-Blog;LDA;Personalized Recommendation4 實(shí)驗(yàn)
5 結(jié)語