史艷翠 戴浩男 石和平 汪圣潔 楊碩珩 鐘惠軍
(天津科技大學(xué)計(jì)算機(jī)科學(xué)與信息工程學(xué)院 天津 300457)
?
一種基于時(shí)間戳的新聞推薦模型
史艷翠戴浩男石和平汪圣潔楊碩珩鐘惠軍
(天津科技大學(xué)計(jì)算機(jī)科學(xué)與信息工程學(xué)院天津 300457)
摘要互聯(lián)網(wǎng)的高速發(fā)展,使用戶很難在“信息海洋”中找到感興趣的新聞,如何為用戶準(zhǔn)確推薦滿足其需求的個(gè)性化新聞已成為當(dāng)前研究的熱點(diǎn)和難點(diǎn)。為了改善新聞推薦系統(tǒng)的準(zhǔn)確性,將時(shí)間戳信息引入到新聞推薦模型中。首先,利用分詞工具對新聞標(biāo)題和新聞內(nèi)容進(jìn)行分詞,并引進(jìn)時(shí)間加權(quán)函數(shù)來計(jì)算用戶對單個(gè)分詞的偏好;預(yù)測用戶偏好時(shí)不僅根據(jù)用戶自身的偏好進(jìn)行預(yù)測,還使用改進(jìn)協(xié)同過濾方法來預(yù)測用戶偏好;最后,通過融合得到的偏好值對新聞進(jìn)行推薦。實(shí)驗(yàn)結(jié)果表明,該模型不僅能提高新聞推薦系統(tǒng)的準(zhǔn)確性,還縮短了模型構(gòu)建的響應(yīng)時(shí)間。
關(guān)鍵詞時(shí)間戳稀疏性分詞新聞推薦
0引言
互聯(lián)網(wǎng)的普及使用戶可以更方便地獲取信息,但互聯(lián)網(wǎng)中信息量爆炸式的增長,造成了嚴(yán)重的“信息過載”問題,用戶很難從“信息海洋”中找到需求的信息。推薦系統(tǒng)作為一項(xiàng)重要的信息過濾技術(shù),很早就被廣大學(xué)者視為極具潛力的解決信息過載的有效手段而被廣泛研究[1]。推薦系統(tǒng)根據(jù)用戶以往行為在進(jìn)行分析后對用戶即將發(fā)生的行為進(jìn)行預(yù)測。在商務(wù)領(lǐng)域,以亞馬遜為代表的電子商務(wù)網(wǎng)站就是利用推薦系統(tǒng)增加商品銷售的典型案例。推薦系統(tǒng)不僅能夠?yàn)橛脩籼峁﹤€(gè)性化的服務(wù),而且能夠與用戶建立長期穩(wěn)定的關(guān)系,提高用戶忠誠度,防止用戶流失[2]。
目前,個(gè)性化推薦系統(tǒng)分為基于內(nèi)容的推薦系統(tǒng)、基于協(xié)同過濾的推薦系統(tǒng)、基于知識(shí)的推薦系統(tǒng)以及幾種推薦系統(tǒng)的混合模型等[1,3,4]。由于以上幾種算法各有所長,因此,很多推薦系統(tǒng)對上述算法進(jìn)行組合以得到準(zhǔn)確的推薦結(jié)果[5,6]。
另外,隨時(shí)間變化,用戶偏好會(huì)發(fā)生變化[7,8]。如果不及時(shí)更新用戶偏好,使用已過時(shí)的用戶偏好為其推薦信息或服務(wù),將無法滿足其個(gè)性化的需求,造成推薦系統(tǒng)性能的下降,客戶的流失。針對該問題,研究人員將時(shí)間因素引入到推薦系統(tǒng)中以更新用戶偏好,改善推薦系統(tǒng)的性能。鄭先榮等人[9]為了及時(shí)捕捉用戶偏好的變化,借鑒心理學(xué)中人的遺忘理論,引入了線性遺忘函數(shù)對用戶評分進(jìn)行加權(quán)計(jì)算。而鄧娟等人[8]考慮到用戶對項(xiàng)目的評分隨時(shí)間遷移對當(dāng)前用戶偏好的影響會(huì)衰減,引進(jìn)了按指數(shù)衰減的時(shí)間加權(quán)函數(shù)。相比于線性遺忘函數(shù),按指數(shù)衰減的遺忘函數(shù)能更好地?cái)M合用戶偏好的衰減,因此印桂生等人[10]和張磊等人[11]分別提出了不同形式的按指數(shù)衰減的遺忘函數(shù)。在上述研究中,用戶評分被看做用戶偏好,因此可以直接進(jìn)行相應(yīng)計(jì)算,但在新聞推薦系統(tǒng)中,收集到的數(shù)據(jù)只有用戶閱讀過的新聞,并沒有直接給出相應(yīng)的評分,所以在新聞推薦系統(tǒng)中首先需要挖掘用戶偏好。
針對上述問題,本文提出一種基于時(shí)間戳信息的新聞推薦模型。首先,使用分詞工具對新聞標(biāo)題以及新聞內(nèi)容進(jìn)行分詞;然后,計(jì)算分詞的相對詞頻,考慮到時(shí)間因素的影響,本文參考已有文獻(xiàn),引入了按指數(shù)衰減的時(shí)間加權(quán)函數(shù);根據(jù)計(jì)算得到的相對詞頻,提出計(jì)算用戶偏好的公式;根據(jù)計(jì)算得到的用戶偏好,結(jié)合基于用戶自身偏好和改進(jìn)的協(xié)同過濾方法實(shí)現(xiàn)推薦;最后,使用真實(shí)數(shù)據(jù)驗(yàn)證本文提出模型的有效性。
1提出的模型
本文提出的模型,首先根據(jù)新聞的分詞計(jì)算用戶對新聞主題的偏好,然后根據(jù)用戶自身偏好和改進(jìn)的協(xié)同過濾方法分別預(yù)測用戶可能的偏好,最后對得到的用戶偏好進(jìn)行融合。在模型中本文引入時(shí)間戳信息來改善推薦系統(tǒng)的性能。
1) 計(jì)算相對詞頻
在新聞推薦系統(tǒng)中,不能直接獲取用戶偏好,因此本文通過新聞分詞來挖掘用戶偏好。首先使用分詞工具對新聞標(biāo)題和新聞內(nèi)容進(jìn)行分詞。由于隨時(shí)間變化,用戶偏好會(huì)發(fā)生遷移,原有偏好對當(dāng)前用戶偏好的影響比較小。因此,借鑒已有研究,采用按指數(shù)衰減的時(shí)間加權(quán)函數(shù)來調(diào)整分詞對用戶偏好的影響。時(shí)間加權(quán)函數(shù)[10]如下:
f(ti)=e-β(ti-t0)
(1)
其中,t0表示當(dāng)前的時(shí)間;ti表示用戶閱讀第i條新聞的時(shí)間,β為時(shí)間衰減參數(shù)。
用戶閱讀的新聞包括新聞標(biāo)題和新聞內(nèi)容兩部分,但新聞標(biāo)題的分詞和新聞內(nèi)容的分詞對用戶偏好的影響是不同的。新聞標(biāo)題中的分詞影響更大一些。因此,考慮到時(shí)間衰減的影響,本文提出了一種計(jì)算相對新聞分詞詞頻的方法,其公式如下:
(2)
其中,N1表示第i個(gè)分詞在用戶閱讀的新聞標(biāo)題中出現(xiàn)的次數(shù);N2表示第i個(gè)分詞在用戶閱讀的新聞內(nèi)容中出現(xiàn)的次數(shù);N表示用戶閱讀的所有新聞標(biāo)題和新聞內(nèi)容的分詞數(shù)量;tk表示第i個(gè)分詞第k次出現(xiàn)的時(shí)間,α表示權(quán)重參數(shù)。
2) 計(jì)算用戶偏好
由于用戶對新聞的偏好與閱讀次數(shù)之間不是線性關(guān)系,而是隨著閱讀次數(shù)的增加,用戶興趣度增長速度逐步變慢,這符合著名的經(jīng)濟(jì)學(xué)理論——邊際效應(yīng)遞減理論。即其他條件不變的情況下,如果一種投入要素連續(xù)地等量增加,那么產(chǎn)生的實(shí)際效應(yīng)的增加速度會(huì)逐步下降。因此,本文根據(jù)邊際效應(yīng)遞減理論使用式(3)來計(jì)算用戶對新聞分詞的偏好:
(3)
其中,a為對數(shù)的底數(shù)。當(dāng)a的取值比較大時(shí),得到的用戶偏好的范圍比較小,當(dāng)a的取值比較小時(shí),得到的用戶偏好的范圍比較大,本文中需要將用戶偏好映射到[0,1]之間的數(shù)值,而fi∈[0,1],所以設(shè)定a=2。
在獲取了用戶對單個(gè)分詞的偏好后,可以計(jì)算出用戶對某個(gè)新聞標(biāo)題的偏好,其計(jì)算公式如下:
(4)
其中,Nnewi表示新聞標(biāo)題中包含的分詞的數(shù)量。
3) 基于用戶自身偏好進(jìn)行推薦
由于用戶偏好受自身因素的影響,例如用戶的學(xué)歷、興趣等。因此可以根據(jù)用戶的偏好來預(yù)測用戶可能的偏好。預(yù)測步驟如下:
(1) 根據(jù)目標(biāo)用戶最后閱讀新聞的時(shí)間,選擇近三天發(fā)布的新聞標(biāo)題。
(2) 根據(jù)計(jì)算得到的分詞的偏好,根據(jù)式(4)計(jì)算用戶對已選擇出的新聞標(biāo)題的偏好。
(3) 對計(jì)算得到的新聞標(biāo)題排序,選擇出偏好最高的前5個(gè)新聞標(biāo)題。
但是當(dāng)給出的新聞標(biāo)題中不包含用戶已閱讀過的分詞時(shí),根據(jù)式(3)預(yù)測的新聞標(biāo)題的偏好會(huì)是0。因此,基于用戶自身偏好的預(yù)測方法,不能發(fā)現(xiàn)用戶對新的新聞主題的偏好。為了彌補(bǔ)基于用戶自己偏好預(yù)測方法的缺點(diǎn),本文還結(jié)合使用了改進(jìn)的協(xié)同過濾方法。
4) 基于改進(jìn)的協(xié)同過濾進(jìn)行推薦
(1) 根據(jù)其他用戶和目標(biāo)用戶瀏覽的新聞的共同的分詞數(shù)量選擇近似鄰居。由于本數(shù)據(jù)集中用戶閱讀的新聞數(shù)量比較少,在尋找近似鄰居時(shí),不是以新聞標(biāo)題作為一個(gè)項(xiàng)目,而是將單個(gè)分詞作為一個(gè)項(xiàng)目。例如用戶A和用戶B,他們分別讀了關(guān)于馬航的5條新聞,但相同的新聞標(biāo)題沒有。這并不能說明A和B偏好不相似,因此,在尋找近似鄰居時(shí),使用單個(gè)的分詞作為項(xiàng)目是合理的。
(2) 在計(jì)算用戶之間的相似度時(shí),為了提高計(jì)算的準(zhǔn)確性,本文考慮了用戶之間共同分詞數(shù)量對相似度的影響。假設(shè)用戶A和B分詞分別為100和200個(gè),且共同的分詞只有一個(gè),計(jì)算得到的偏好相等,那么根據(jù)傳統(tǒng)的相似度計(jì)算公式得到的相似度可能比較高,但顯然,這是不合理的。因此本文使用改進(jìn)的皮爾森相關(guān)系數(shù)來計(jì)算用戶之間的相似度,其公式如下:
(5)
其中,Sc表示用戶ui和uj閱讀的新聞標(biāo)題以及新聞內(nèi)容的共同分詞;pui,sk表示用戶ui對分詞Sk的偏好;θ用戶度量共同分詞數(shù)量的影響,其計(jì)算公式如下:
(6)
(7)
其中,Sui表示用戶ui閱讀的新聞標(biāo)題分詞的集合。
(3) 根據(jù)計(jì)算得到的相似度,選擇前K個(gè)相似度最高的用戶作為目標(biāo)用戶的近似鄰居。
(4) 由于新聞的特點(diǎn),用戶一般會(huì)閱讀最近發(fā)生的新聞。因此,為了減少計(jì)算復(fù)雜度,本文根據(jù)目標(biāo)用戶最后閱讀新聞的時(shí)間,從近似鄰居最近閱讀的新聞中選擇出目標(biāo)用戶沒有閱讀過,且新聞的發(fā)布時(shí)間和目標(biāo)用戶最后閱讀新聞的時(shí)間不超過三天的新聞標(biāo)題進(jìn)行預(yù)測。
(5) 根據(jù)近似鄰居的偏好預(yù)測目標(biāo)用戶的偏好。
(8)
其中,Un表示用戶ui的近似鄰居的集合;sk∈Ss,Ss表示選擇出的符合要求的新聞標(biāo)題的集合。
(6) 對于新用戶,本文根據(jù)其余用戶的偏好以及新聞的發(fā)布時(shí)間,選擇出最新的熱門新聞推薦給新用戶。
(7) 對于新推出的新聞,一方面通過分詞,來計(jì)算用戶對該新聞的偏好,另一方面將該新聞推薦給時(shí)尚型用戶。根據(jù)用戶閱讀新聞的時(shí)間與新聞發(fā)表的時(shí)間平均差來判斷用戶是否為時(shí)尚型用戶,其計(jì)算公式如下:
(9)
其中,Nn表示用戶ui閱讀的新聞標(biāo)題的數(shù)量,即Nn=|Sr|,Sr表示用戶閱讀的新聞標(biāo)題的集合;tsk表示新聞sk發(fā)表的時(shí)間,sk∈Sr;tui,sk表示用戶ui閱讀新聞sk的時(shí)間戳。如果計(jì)算得到的平均時(shí)間差小于給定的閾值,則判定用戶為時(shí)尚型用戶。
(8) 根據(jù)預(yù)測得到的偏好,選擇偏好最高的前5個(gè)進(jìn)行推薦。
5) 推薦結(jié)果融合
由于基于用戶自身偏好的推薦和基于協(xié)同過濾的推薦各有優(yōu)缺點(diǎn),因此,本文結(jié)合兩種方法進(jìn)行推薦。將基于用戶自身偏好的推薦結(jié)果和基于協(xié)同過濾的推薦結(jié)果進(jìn)行融合,選擇出偏好最高的5個(gè)新聞標(biāo)題推薦給目標(biāo)用戶。
2實(shí)驗(yàn)驗(yàn)證和結(jié)果分析
1) 數(shù)據(jù)集
使用爬蟲工具從搜狐網(wǎng)站上爬取10 000個(gè)用戶在1個(gè)星期內(nèi)閱讀新聞的行為信息。并對用戶、新聞進(jìn)行編號,另外還抓取了新聞發(fā)表的時(shí)間,以及用戶閱讀新聞的時(shí)間戳信息。經(jīng)統(tǒng)計(jì)分析該數(shù)據(jù)集包含7156條新聞,每個(gè)用戶閱讀的新聞量如表1所示。
表1 用戶看新聞總量的統(tǒng)計(jì)
2) 新聞標(biāo)題及內(nèi)容分詞
本文使用分詞工具——NLPIR漢語分詞系統(tǒng)對新聞標(biāo)題和新聞內(nèi)容進(jìn)行分詞。但該系統(tǒng)不允許一次性對超過四句話的文本進(jìn)行分詞。為提升效率對該軟件進(jìn)行了改良。通過對文件編碼進(jìn)行替換來適配漢語字符特有的寬編碼以及應(yīng)用Windows核心編程API技術(shù)完成兩個(gè)進(jìn)程間的通信需求。制作出了一個(gè)全新的文本讀寫軟件,將網(wǎng)上的分詞系統(tǒng)內(nèi)置其中,可以通過循環(huán)控制和進(jìn)程間通信的手段一次性完成所有的分詞工作。
3) 評價(jià)標(biāo)準(zhǔn)
本文采用F值作為評價(jià)指標(biāo),F(xiàn)值不僅考慮了準(zhǔn)確率,還考慮了召回率,可以更準(zhǔn)確地度量推薦結(jié)果。其計(jì)算公式如下:
(10)
其中,P表示準(zhǔn)確率,R表示召回率,它們的計(jì)算公式分別如下:
(11)
其中,Na表示推薦的結(jié)果是用戶閱讀的新聞,Nl表示所有推薦的新聞標(biāo)題的數(shù)量。
(12)
其中,NT表示測試集中所有的新聞標(biāo)題的數(shù)量。
4) 結(jié)果分析
(1) 參數(shù)α的影響
圖1 當(dāng)參數(shù)α取不同值時(shí)的推薦結(jié)果
從圖1可知,當(dāng)α=1.3時(shí),推薦結(jié)果最好。這是因?yàn)?,?dāng)α=1時(shí),即分詞沒有區(qū)分是新聞標(biāo)題中的分詞還是新聞內(nèi)容中的分詞,所以推薦結(jié)果的準(zhǔn)確性低;1<α<1.3時(shí),新聞標(biāo)題中的分詞所占比重逐漸增大,所以準(zhǔn)確性提高;當(dāng)α>1.3時(shí),由于新聞標(biāo)題中的分詞所占比重過大,所以推薦的準(zhǔn)確性開始降低。根據(jù)實(shí)驗(yàn)結(jié)果,在后續(xù)試驗(yàn)中,設(shè)定α=1.3。
(2) 參數(shù)β的影響
圖2 當(dāng)參數(shù)β取不同值時(shí)的推薦結(jié)果
從圖2可知,當(dāng)β=0.7時(shí),得到的推薦結(jié)果最好。這是因?yàn)?,?dāng)β取值比較小時(shí),衰減速度比較慢,所以一些過時(shí)的偏好對現(xiàn)有偏好影響比較大,導(dǎo)致推薦結(jié)果的準(zhǔn)確性降低;當(dāng)β取值比較大時(shí),用戶偏好衰減速度過快,使一些偏好對現(xiàn)有偏好的影響降低,同樣帶來了推薦結(jié)果準(zhǔn)確性的降低。綜上分析,在后續(xù)實(shí)驗(yàn)中,設(shè)定β=0.7。
(3) 不同推薦方法的比較。選擇傳統(tǒng)的協(xié)同過濾算法作為基準(zhǔn)對比方法,即method1,本文提出的建模方法為method2,分別進(jìn)行建模,對比推薦效果。實(shí)驗(yàn)結(jié)果如圖3和圖4所示。
圖3 當(dāng)平均時(shí)間差閾值為不同值時(shí),不同建模方法的F值對比
圖4 當(dāng)平均時(shí)間差閾值為不同值時(shí),不同建模方法的建模時(shí)間對比
根據(jù)圖3和圖4可知,當(dāng)平均時(shí)間差閾值為1天時(shí),獲得結(jié)果最好,這是由新聞的實(shí)時(shí)性特點(diǎn)決定的。因此一般時(shí)尚型用戶會(huì)在新聞發(fā)布的第一時(shí)間進(jìn)行瀏覽。根據(jù)圖3可知,與基于傳統(tǒng)的協(xié)同過濾算法的推薦系統(tǒng)相比,本文提出的模型在F值最好的情況上提高了0.0322;根據(jù)圖4可知,本文提出的建模方法,在建模時(shí)間上比基于傳統(tǒng)的協(xié)同過濾的推薦系統(tǒng)縮短了23.39分鐘。這是因?yàn)楸疚奶岢龅慕7椒ú粌H考慮了時(shí)間因素的影響,在使用協(xié)同過濾時(shí)考慮了用戶共同偏好數(shù)量的影響,并且在建模過程中做了一些預(yù)處理操作。改進(jìn)方法的預(yù)處理因?yàn)槭且恍┙y(tǒng)計(jì)計(jì)算,因此其計(jì)算復(fù)雜度比較小,而傳統(tǒng)的方法需要計(jì)算目標(biāo)用戶和其他所有用戶的相似度,所以計(jì)算的復(fù)雜度比較大。因此雖然改進(jìn)方法增加了預(yù)處理操作,但總的計(jì)算復(fù)雜度卻減小了。
3結(jié)語
為了提高新聞推薦的準(zhǔn)確性,本文將時(shí)間戳信息引入到新聞推薦模型中。首先,在計(jì)算用戶對單個(gè)分詞的偏好時(shí),使用了時(shí)間加權(quán)函數(shù)來度量時(shí)間對用戶偏好的影響;在為用戶推薦新聞時(shí),通過融合基于用戶自身的偏好的推薦結(jié)果和利用改進(jìn)的協(xié)同過濾算法推薦的結(jié)果來實(shí)現(xiàn)推薦。實(shí)驗(yàn)結(jié)果表明,本文提出的模型有效地提高了新聞推薦系統(tǒng)的準(zhǔn)確性,并縮短了模型構(gòu)建的響應(yīng)時(shí)間。
參考文獻(xiàn)
[1] 許海玲,吳瀟,李曉東,等.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學(xué)報(bào),2009,20(2):350-362.
[2] 劉魯,任曉麗.推薦系統(tǒng)研究進(jìn)展及展望[J].信息系統(tǒng)學(xué)報(bào),2008(1):82-90.
[3] 劉建國,周濤,汪秉宏.個(gè)性化推薦系統(tǒng)的研究進(jìn)展[J].自然科學(xué)進(jìn)展,2009,19(1):1-15.
[4] 王國霞,劉賀平.個(gè)性化推薦系統(tǒng)綜述[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(7):70-80.
[5] 喬向杰,張凌云.近十年國外旅游推薦系統(tǒng)的應(yīng)用研究[J].旅游學(xué)刊,2014,29(8):117-127.
[6] 李忠俊,周啟海,帥青紅.一種基于內(nèi)容和協(xié)同過濾同構(gòu)化整合的推薦系統(tǒng)模型[J].計(jì)算機(jī)科學(xué),2009,36(12):142-145.
[7] 柯良文,王靖.基于用戶特征遷移的協(xié)同過濾推薦[J].計(jì)算機(jī)工程,2015,41(1):37-43.
[8] 鄧娟,陳西曲.基于用戶興趣變化的協(xié)同過濾推薦算法[J].武漢工業(yè)學(xué)院學(xué)報(bào),2013,32(4):48-51.
[9] 鄭先榮,曹先彬.線性逐步遺忘協(xié)同過濾算法的研究[J].計(jì)算機(jī)工程,2007,33(6):72-73.
[10] 印桂生,崔曉暉,馬志強(qiáng).遺忘曲線的協(xié)同過濾推薦模型[J].哈爾濱工程大學(xué)學(xué)報(bào),2012,33(1):85-90.
[11] 張磊.基于遺忘曲線的協(xié)同過濾研究[J].電腦知識(shí)與技術(shù),2014(12):67-72.
A NEWS RECOMMENDER MODEL BASED ON TIMESTAMP
Shi YancuiDai HaonanShi HepingWang ShengjieYang ShuohengZhong Huijun
(School of Computer Science and Information Engineering,Tianjin University of Science and Technology,Tianjin 300457,China)
AbstractRapid development of Internet makes it difficult for users to find the interested news from “information ocean”. It has been the hot issue and challenge in current studies that how to accurately recommend the personalised news to users meeting their requirements. In the paper, we introduced the timestamp into news recommendation model in order to improve the accuracy of the news recommender system. First, we employed the word segmentation tool to segment the news titles and news contents into words, and introduced the time weighting function to compute the preference of users on individual word segmentation. When predicting users preference, we were not just based on the preference of users themselves, the improved collaborative filtering method was also applied in prediction. Finally, the news recommendation was achieved by integrating the derived preference values. Experimental results showed that the proposed model could not only improve the accuracy of news recommender system, it also shortened the responding time of model building as well.
KeywordsTimestampScarcityWord segmentationNews recommendation
收稿日期:2015-01-27。國家自然科學(xué)基金項(xiàng)目(61402331)。史艷翠,講師,主研領(lǐng)域:用戶偏好獲取,推薦系統(tǒng),上下文感知,社會(huì)網(wǎng)絡(luò)。戴浩男,本科生。石和平,本科生。汪圣潔,本科生。楊碩珩,本科生。鐘惠軍,本科生。
中圖分類號TP3
文獻(xiàn)標(biāo)識(shí)碼A
DOI:10.3969/j.issn.1000-386x.2016.06.010