• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于內(nèi)容推薦與時間函數(shù)結(jié)合的新聞推薦算法*

      2021-01-19 11:01:18翁海瑞何立健
      關(guān)鍵詞:關(guān)鍵字向量函數(shù)

      翁海瑞 林 穗 何立健

      (廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 廣州 510006)

      1 引言

      隨著電子設(shè)備和通信系統(tǒng)的發(fā)展,在線的信息源不斷的增長,互聯(lián)網(wǎng)的快速發(fā)展在給我們生活帶來便捷的同時也帶來了“信息過載”問題。為了解決“信息過載”問題,讓我們可以輕松獲取有價值的信息,推薦系統(tǒng)[1]在很多大型互聯(lián)網(wǎng)企業(yè)得到了廣泛應(yīng)用,例如:購物(如亞馬遜)[2],音樂(如網(wǎng)易云音樂)和電影(如Netflix)[3]。相對于搜素引擎來說,推薦系統(tǒng)無需人工搜索就可以把信息推送給特定的客戶,一般通過計(jì)算用戶-項(xiàng)目的相似度來實(shí)現(xiàn)。在新聞領(lǐng)域,人們的閱讀習(xí)慣越來越碎片化。如何能有效地過濾信息,幫助用戶找到感興趣的文章給新聞研究者帶來了巨大的挑戰(zhàn)。

      結(jié)合新聞文章屬性和用戶的興趣偏好進(jìn)行匹配推薦是新聞推薦的常用方法[4~5]。通過興趣相似的用戶推薦新聞,可以很好地捕捉用戶潛在興趣[6]。當(dāng)用戶沒有足夠的瀏覽記錄和用戶數(shù)量時,會導(dǎo)致用戶和項(xiàng)目的冷啟動問題。文獻(xiàn)[7]提出基于顯示語義分析感知的個性化推薦方法。研究者基于內(nèi)容推薦和協(xié)同過濾推薦提出了混合推薦模型[8~9],文獻(xiàn)[10]對混合推薦模型進(jìn)行了改進(jìn),在融合協(xié)同過濾推薦和基于內(nèi)容推薦基礎(chǔ)上,使用了用戶模型的最近鄰算法。雖然國內(nèi)外研究已經(jīng)取得了一定的進(jìn)展[11~18],但是個性化的新聞推薦[19~20]仍然是一個具有挑戰(zhàn)性的問題。首先,在許多新聞推薦系統(tǒng)中,基于用戶的個人歷史資料是片面的,沒有很好評估用戶對歷史新聞的偏好程度。另外,新聞與許多領(lǐng)域不同,隨著時間的推移,新聞文章的受歡迎程度和用戶興趣的時效性變化很快,傳統(tǒng)的推薦方法沒有考慮時間對用戶興趣變化的影響。

      基于以上研究,本文提出了:

      1)通過新聞關(guān)鍵字、新聞主題和命名實(shí)體來構(gòu)建新聞文本模型和用戶興趣模型。

      2)通過引入時間函數(shù)來調(diào)整短期用戶興趣和長期用戶興趣的權(quán)重。

      以上兩者結(jié)合起來有助于我們對用戶實(shí)時興趣偏好更客觀、更全面地進(jìn)行建模。

      2 新聞推薦系統(tǒng)框架

      本文推薦系統(tǒng)框架由3個模塊組成:用戶模塊、新聞模塊和推薦算法模塊,如圖1所示。

      1)用戶模塊:收集和處理用戶的基本注冊信息(地址,性別,年齡等);以及用戶的行為數(shù)據(jù)(訂閱,轉(zhuǎn)發(fā),收藏等)。

      2)新聞數(shù)據(jù)模塊:通過與新聞內(nèi)容進(jìn)行中文分詞和標(biāo)注處理,可以實(shí)現(xiàn)關(guān)鍵詞,命名實(shí)體,主題抽取等功能。

      3)推薦算法模塊:當(dāng)前流行的三種推薦算法是基于內(nèi)容推薦算法,基于協(xié)同過濾算法,混合推薦算法。本文框架使用基于內(nèi)容推薦與時間函數(shù)相結(jié)合的算法。

      圖1 新聞推薦系統(tǒng)框架

      3 新聞文本模型構(gòu)建

      新聞文本模型構(gòu)建主要從三個方面進(jìn)行。首先,通過語義分析系統(tǒng)(NLPIR)對每一條新聞得到分詞結(jié)果,然后利用TF-IDF(term frequency-inverse document frequency)算法構(gòu)建一個新聞關(guān)鍵詞的向量空間模型,提取新聞的命名實(shí)體。并且通過文檔主題生成模型(Latent Dirichlet Allocation,LDA)得到新聞的主題類別,新聞文本向量表示V n={F n,E n,G n}。其中,F(xiàn) n表示為新聞文本關(guān)鍵字向量,E n表示為新聞文本命名實(shí)體的向量,G n為新聞文本主題向量。

      3.1 提取新聞文本關(guān)鍵字

      新聞文本關(guān)鍵字序列主要以向量空間模型表示,通過TF-IDF加權(quán)來對關(guān)鍵字的提取以及關(guān)鍵的權(quán)值計(jì)算。關(guān)鍵字向量可表示為

      其中:f i表示新聞第i個關(guān)鍵字,wi為關(guān)鍵字對應(yīng)的權(quán)值。

      使用TF—IDF公式計(jì)算關(guān)鍵字的權(quán)值。公式如下:

      其中:wid表示第i個關(guān)鍵字在文本d上的權(quán)重,tf id是第i個關(guān)鍵字在文本d上出現(xiàn)的頻率,N表示新聞文本的篇數(shù),n k表示關(guān)鍵詞k的文本數(shù)量。

      3.2 新聞文本命名實(shí)體提取

      很多時候?yàn)g覽者會傾向閱讀有命名實(shí)體(含人命、地名、時間)的文章,所以需要把命名實(shí)體也考慮到新聞文本模型構(gòu)建中。通過漢語言處理包(Han Language Procession,HanLP)獲取新聞命名實(shí)體。命名實(shí)體向量為

      其中:ei表示新聞第i個命名實(shí)體,wi為對應(yīng)命名實(shí)體的權(quán)值。

      3.3 新聞文本主題類別

      讀者一般會對主題類別相似的新聞感興趣,所以需要我們進(jìn)一步分析主題的類別,可以使用LDA作為語言模型來檢測潛在的主題,并對每條新聞的主題類別提取進(jìn)行建模。新聞主題分布向量:

      其中,g i表示新聞第i個主題,wi為對應(yīng)主題的權(quán)值。

      4 用戶興趣模型構(gòu)建

      為了更好地了解讀者的閱讀偏好,在新聞文本模型基礎(chǔ)上構(gòu)建用戶興趣模型是非常重要的。傳統(tǒng)的方法是通過跟蹤用戶閱讀的文章,通過關(guān)鍵字或者主題來構(gòu)建用戶興趣模型,此類模型并不能很準(zhǔn)確地獲取用戶的閱讀興趣。一方面,此方法容易出現(xiàn)過擬合現(xiàn)象,僅僅通過關(guān)鍵字來構(gòu)建,不能在沒有相同關(guān)鍵字的情況下有效的推薦新聞。另外一方面,此方法不能突出命名實(shí)體的重要性,很多用戶對命名實(shí)體更感興趣。所以我們從三個不同但相關(guān)的方面來構(gòu)建用戶興趣模型:新聞關(guān)鍵字、命名實(shí)體、新聞主題分布。用戶興趣模型表示為式(5),其中式(6),式(7)和式(8)分別為用戶訪問的歷史新聞關(guān)鍵字、命名實(shí)體和主題分布向量。

      其中:f i表示過去訪問的新聞歷史的關(guān)鍵字,wi為該關(guān)鍵字相應(yīng)的權(quán)值。

      其中:e u表示過去訪問的新聞歷史的命名實(shí)體,wi表示相應(yīng)的權(quán)值。

      其中:gi表示過去訪問的新聞歷史的主題分布,wi表示為該主題相應(yīng)的權(quán)值。

      5 用戶對新聞的實(shí)時興趣度

      新聞推薦系統(tǒng)時隔一段時間會將歷史的新聞數(shù)據(jù)來更新語料庫,給定的t j時間段,新聞文本向量為V nt j={F nt j,E nt j,G nt j},用戶興趣表示為向量V ut j={F u t j,Eut j,Gut j},用戶對新聞的興趣度Ht j通過進(jìn)行匹配度計(jì)算。

      其中,系統(tǒng)參數(shù)α,β,λ是用來調(diào)節(jié)系統(tǒng)相似度的比例。

      隨著時間的推移,人們的興趣也在改變。在電影,音樂領(lǐng)域,用戶的偏好在短時間內(nèi)表現(xiàn)出輕微的差異,但在新聞領(lǐng)域,用戶興趣往往會隨著環(huán)境,心情和新聞的熱度變化。興趣的實(shí)時性要從用戶長期興趣和短期興趣兩方面結(jié)合考慮,因?yàn)橛脩糇罱鼘π侣劦臑g覽、評論和轉(zhuǎn)發(fā)反映了用戶最近的興趣點(diǎn)。本文定義一個時間單調(diào)遞減函數(shù)f(t)來描述隨著時間的推移用戶興趣向量權(quán)重的遞減。

      其中,系數(shù)k主要用來調(diào)整陡峭情況。

      所以,結(jié)合內(nèi)容推薦和時間函數(shù),得到目標(biāo)函數(shù),即用戶對新聞實(shí)時興趣度,可定義為H u:

      其中,H t1,H t2,H tn分別為第1,第2,第n時間段的用戶對新聞的興趣度,f(t1),f(t2),f(t n)分別為第1,第2,第n時間段的時間函數(shù),用來調(diào)整相應(yīng)時間段用戶對新聞興趣度的權(quán)重。

      6 實(shí)驗(yàn)與結(jié)果分析

      6.1 實(shí)驗(yàn)數(shù)據(jù)集

      本實(shí)驗(yàn)的數(shù)據(jù)集主要從各大新聞門戶爬取的文章。主要包括5000個用戶在2017年6月期間瀏覽的54123條瀏覽記錄,共分為體育、財(cái)經(jīng)、科技、游戲、汽車、娛樂等11大類。

      6.2 評價指標(biāo)

      為了從推薦性能角度對用戶的興趣進(jìn)行評估。選用了準(zhǔn)確率precision,召回率recall,F(xiàn)1-Measure作為評價指標(biāo)。與傳統(tǒng)推薦算法進(jìn)行了對比實(shí)驗(yàn)和分析。

      1)準(zhǔn)確率:

      式中,P N(U)推薦給用戶并被用戶瀏覽的新聞數(shù)目,U推薦給用戶的新聞總數(shù)目。

      2)召回率:

      式中,P N(U)表示推薦給用戶并被用戶瀏覽的新聞數(shù)目P(U)表示所有閱讀的新聞總數(shù)目。

      3)為了綜合權(quán)衡這2個指標(biāo),引入新的指標(biāo)F1-Measure。

      6.3 對比實(shí)驗(yàn)和參數(shù)設(shè)置

      6.3.1 用戶興趣模型影響因素

      在以往的研究中,通常只是用新聞關(guān)鍵字,或者新聞主題來構(gòu)建用戶模型,無法充分體現(xiàn)用戶興趣。本實(shí)驗(yàn)通過采用新聞關(guān)鍵字,新聞主題,命名實(shí)體三個不同但相關(guān)的因素來構(gòu)建用戶模型,多方面去分析模型的性能和推薦結(jié)果的影響。通過模型精確率、召回率和F1-Measure指標(biāo),圖2實(shí)驗(yàn)結(jié)果表明,只有結(jié)合新聞關(guān)鍵字、新聞主題和命名實(shí)體三者的情況下,模型推薦效果最好。

      圖2 不同的新聞特征組合的推薦指標(biāo)比較

      6.3.2 相似度計(jì)算中的參數(shù)

      為了獲取最合適的參數(shù)α,β,λ我們單獨(dú)選取每個參數(shù)值進(jìn)行測試,并且計(jì)算相應(yīng)的F1-Measure的平均值。因?yàn)棣?β+λ=1,取α,β值進(jìn)行測試得出結(jié)果。如表(1)可以看出,當(dāng)α=0.5,β=0.2,λ=0.3時,基于這三者的參數(shù)值進(jìn)行實(shí)驗(yàn)的效果最好。

      表1 用戶興趣度計(jì)算的參數(shù)設(shè)置

      6.3.3 時間函數(shù)的選擇

      隨著時間的推移,用戶的興趣模型向量權(quán)重會遞減。本實(shí)驗(yàn)主要對比實(shí)驗(yàn)了邏輯函數(shù)、阻尼函數(shù)、指數(shù)函數(shù)三個時間函數(shù)。并且衰減系數(shù)k預(yù)先設(shè)置為0.4。如圖3可以得出,在準(zhǔn)確率、召回率、F1-Measure指標(biāo)上,指數(shù)函數(shù)都會優(yōu)于其他兩種。

      圖3 各時間函數(shù)性能對比

      6.3.4 衰減系數(shù)的調(diào)整

      用戶的瀏覽習(xí)慣和興趣會隨著時間而發(fā)生變化;采用了指數(shù)時間函數(shù)來表示,其中指數(shù)k表示變化的快慢。k值越小,意味用戶最近瀏覽的新聞數(shù)據(jù)對用戶興趣的影響越大。反之,k值越大,意味著最近瀏覽的新聞數(shù)據(jù)對用戶興趣的影響下降。本實(shí)驗(yàn)分別對k取不同值得情況下來計(jì)算參數(shù)對推薦結(jié)果的影響,以準(zhǔn)確率、回召率、F1-Measure為指標(biāo),如圖4所示。

      當(dāng)k=0,時間函數(shù)f(t)=1,表示不對用戶的歷史興趣權(quán)重進(jìn)行處理。當(dāng)k變大時;即提高短期興趣的權(quán)重,推薦效果也變好。當(dāng)k趨近0.4時,三個指標(biāo)為最高,效果最好。當(dāng)k>0.4后,推薦效果下降??梢?,引入時間函數(shù)對于用戶的長短期興趣進(jìn)行加權(quán)處理,能夠顯著提高新聞推薦效果。

      圖4 不同k的取值下推薦性能指標(biāo)的對比

      6.3.5 與其他方法的比較

      為了驗(yàn)證提出的算法具有更好的推薦性能,論文對基于用戶的協(xié)同過濾(UserCF)算法,基于加權(quán)動態(tài)興趣度WDDI模型進(jìn)行了實(shí)驗(yàn),并且與基于內(nèi)容和時間函數(shù)結(jié)合的新聞推薦算法實(shí)驗(yàn)結(jié)果分別從pre0.6cision,recall,F(xiàn)1-Measure三個評價標(biāo)準(zhǔn)進(jìn)行了對比分析。從如表2實(shí)驗(yàn)結(jié)果可以看出:基于內(nèi)容和時間函數(shù)結(jié)合的新聞推薦算法在precision、recall和F1-Measure提高了5.2%、3.9%、和8.4%。因而驗(yàn)證了從新聞關(guān)鍵字,命名實(shí)體和主題進(jìn)行建模,以及引入時間函數(shù)的正確性。

      表2 各推薦算法實(shí)驗(yàn)結(jié)果指標(biāo)

      7 結(jié)語

      本文對新聞個性化推薦系統(tǒng)算法進(jìn)行了研究,提出了基于內(nèi)容推薦和時間函數(shù)結(jié)合的新聞推薦算法。綜合了新聞關(guān)鍵字,新聞主題和命名實(shí)體三者來構(gòu)建新聞模型和用戶興趣模型,進(jìn)行匹配生成推薦列表。并且通過了時間函數(shù)對用戶歷史行為數(shù)據(jù)進(jìn)行加權(quán)處理從而提取用戶實(shí)時興趣向量。在準(zhǔn)確率、召回率等指標(biāo)上,本文所提的方法均有優(yōu)異的表現(xiàn)。

      猜你喜歡
      關(guān)鍵字向量函數(shù)
      向量的分解
      履職盡責(zé)求實(shí)效 真抓實(shí)干勇作為——十個關(guān)鍵字,盤點(diǎn)江蘇統(tǒng)戰(zhàn)的2021
      華人時刊(2022年1期)2022-04-26 13:39:28
      二次函數(shù)
      第3講 “函數(shù)”復(fù)習(xí)精講
      聚焦“向量與三角”創(chuàng)新題
      二次函數(shù)
      函數(shù)備考精講
      成功避開“關(guān)鍵字”
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      理塘县| 仁寿县| 丘北县| 沾益县| 尼勒克县| 阜南县| 唐河县| 江口县| 当雄县| 乡宁县| 海淀区| 黔江区| 新沂市| 宜城市| 商洛市| 波密县| 扎兰屯市| 会东县| 突泉县| 怀集县| 建瓯市| 吐鲁番市| 凉城县| 湖州市| 洛川县| 务川| 曲松县| 台江县| 加查县| 潍坊市| 道孚县| 玉树县| 饶河县| 伊宁市| 龙口市| 加查县| 阆中市| 平陆县| 麦盖提县| 金平| 都江堰市|