• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種內(nèi)容和地點感知的個性化POI推薦模型

      2022-11-23 06:01:04梁弼劉篤晉熊倫許曉紅
      關(guān)鍵詞:集上建模因素

      梁弼,劉篤晉,熊倫,許曉紅

      1)四川文理學(xué)院智能制造學(xué)院,四川達州 635000;2)北京郵電大學(xué)計算機學(xué)院,北京 100876

      近年來,隨著移動網(wǎng)絡(luò)的快速發(fā)展,智能設(shè)備和全球定位系統(tǒng)(global positioning system,GPS)位置服務(wù)的普及,位置社交網(wǎng)絡(luò)(location-based social network,LBSN)成為一種流行的網(wǎng)絡(luò)服務(wù)平臺,如Google+local、Foursquare、Yelp、微信、微博和街旁等.用戶通過LBSN平臺以“簽到”的形式發(fā)布自己實際位置或地理標(biāo)記信息,如餐廳和景點等,并與朋友分享自己的訪問體驗和興趣點(point of interest,POI)提示,從而產(chǎn)生了大量的用戶簽到數(shù)據(jù).但是,這些海量POI信息造成的信息過載問題也嚴重干擾了用戶對POI地點的篩選.對用戶簽到數(shù)據(jù)進行分析和挖掘并進行個性化的POI推薦,旨在幫助用戶從海量POI數(shù)據(jù)中發(fā)現(xiàn)新的POI,探索到新的感興趣內(nèi)容,此過程即POI推薦,又稱地點推薦或位置推薦,這是當(dāng)今推薦系統(tǒng)領(lǐng)域內(nèi)其中一個熱門研究點[1].

      目前,LBSN中已有數(shù)百萬個POI,但大多數(shù)用戶往往只訪問其中有限的幾個,導(dǎo)致用戶-POI交互矩陣數(shù)據(jù)極度稀疏,給POI推薦帶來了嚴峻挑戰(zhàn).為應(yīng)對這一挑戰(zhàn),許多學(xué)者利用地理影響[2]、內(nèi)容信息[3]、社會關(guān)系[4]、時間效應(yīng)[5]以及口碑[6]等多種上下文因素來解決該問題,也有學(xué)者提出元學(xué)習(xí)[7]、遷移學(xué)習(xí)[8]和小樣本學(xué)習(xí)[9]等解決途徑,并都取得了一些成效.然而,這些研究都缺乏對上下文因素之間的潛在關(guān)系及共同作用情況的分析和利用.本研究從內(nèi)容和地點雙重視角提出了一種采用概率生成方法的內(nèi)容和地點感知的主題模型(content-location-aware topic model,CLATM),不僅策略性地整合了簽到的文本內(nèi)容信息、地點信息和地理位置等重要的上下文因素,而且深入挖掘不同因素之間的潛在關(guān)系,以期克服用戶-POI矩陣數(shù)據(jù)的稀疏性,從而提升了POI推薦質(zhì)量.本研究的主要貢獻如下:

      1)基于主題模型思想提出一種概率生成的CLATM模型,恰當(dāng)?shù)啬M了用戶在決策過程中的簽到行為及內(nèi)容;

      2)CLATM模型通過融合用戶的簽到內(nèi)容、簽到地點和地理位置等重要的上下文因素,以及它們之間潛在關(guān)系,有效緩解了用戶-POI矩陣數(shù)據(jù)稀疏問題;

      3)在Foursquare和Yelp兩個真實的數(shù)據(jù)集上進行實驗以評估CLATM性能,驗證該模型的推薦效果.

      1 CLATM模型

      1.1 模型描述

      通常當(dāng)用戶決策簽到某個POI時,會根據(jù)個人興趣偏好來選擇簽到的POI,如POI的地點、所在位置和相關(guān)評論內(nèi)容等信息,進而決策是否簽到.為合理描述用戶在決策POI過程中的簽到行為,本研究從內(nèi)容和地點雙重視角提出了一種聯(lián)合內(nèi)容主題和地點主題的概率生成模型CLATM.該模型基于內(nèi)容和地點感知,重點考慮簽到內(nèi)容、簽到地點和地理位置等上下文因素,以及它們之間的潛在關(guān)系.用戶簽到內(nèi)容依賴內(nèi)容主題和地點主題,同時內(nèi)容主題和地點主題在一定程度上決定了用戶簽到地點,而地理位置依賴于地點主題并服從高斯分布.圖1為CLATM模型的結(jié)構(gòu)圖形化表示,表1則給出了該模型的部分主要參數(shù)定義.模型的輸入數(shù)據(jù)包括用戶的簽到記錄Du,以及先驗分布α、σ、β、ζ、γ和δ.Du被建模為觀察到的隨機變量,如圖1中的陰影圓圈所示.簽到記錄的內(nèi)容主題z和地點主題r則被視為潛在隨機變量.

      表1 CLATM模型主要參數(shù)定義Table 1 Notations of CLATM main parameters

      由圖1可見,CLATM由內(nèi)容主題建模和地點主題建模兩個核心部分構(gòu)成.首先進行內(nèi)容主題建模.本研究根據(jù)用戶簽到的POI文本內(nèi)容(如評論等)和地點信息(如地名)來推斷用戶u對一組內(nèi)容主題z的興趣分布θu(即用戶對活動內(nèi)容的偏好).通過挖掘用戶活動內(nèi)容和活動地點的共現(xiàn)模式,并利用簽到POI的內(nèi)容與地點之間的關(guān)聯(lián)關(guān)系引入簽到地點來推斷POI的內(nèi)容主題z.從技術(shù)上講,CLATM模型中的每個內(nèi)容主題z不僅與文本內(nèi)容上的多項式分布相關(guān),且與地點上的多項式分布相關(guān).這種設(shè)計使和在內(nèi)容主題發(fā)現(xiàn)過程中通過關(guān)聯(lián)它們來相互影響和增強,同時使所推斷出的個人興趣不僅是內(nèi)容感知且是地點感知的.

      圖1 CLATM模型圖的圖形化結(jié)構(gòu)Fig.1 The graphical model of CLATM.

      采用類似方法進行地點主題建模.現(xiàn)實生活中,用戶在決策活動地點時會考慮活動內(nèi)容、活動地點及地理位置等因素.用?u表示用戶u對地點的偏好,它是地點主題r上的多項式分布.r不僅與POI內(nèi)容上的和POI地點上的相關(guān),且與POI地理位置l~N(μr,εr)相關(guān).這種設(shè)計使和N(μr,εr)在地點主題發(fā)現(xiàn)過程中通過關(guān)聯(lián)它們來相互影響和增強,使所推斷出的個人地點偏好更為準確,并進一步緩解稀疏的用戶-POI矩陣.

      這樣,CLATM通過抽取內(nèi)容主題和地點主題來更精準地捕獲用戶的POI偏好,并通過利用簽到內(nèi)容、地點和位置之間的潛在關(guān)系更有效地克服了數(shù)據(jù)稀疏性問題.為避免過擬合,將和上的Dirichlet先驗分別被賦予參數(shù)α、σ、β、ζ、γ和δ.圖2給出了CLATM模型的概率生成過程.

      圖2 CLATM概率生成過程Fig.2 Probability generative process in CLATM.

      觀測變量和潛在變量的聯(lián)合分布為

      其中,P(z|θ)為在內(nèi)容主題多項式分布條件下可能簽到的內(nèi)容主題概率.CLATM模型的時間復(fù)雜度為O(||U×|Du|× ||W).與未引入內(nèi)容因素和地理因素等上下文信息前POI主題模型的時間復(fù)雜度O(|U|×|Du|)相比,雖然CLATM模型的時間復(fù)雜度有所增加,但后續(xù)實驗證明CLATM模型能提高POI推薦的準確度.

      1.2 參數(shù)估計

      通過最大化觀察到的隨機變量v,l和W的邊緣似然函數(shù)能夠估計CLATM模型參數(shù).又因直接最大化邊緣似然函數(shù)比較困難,本研究遵循文獻[6]的研究方法,即采用馬爾科夫鏈蒙特卡洛方法使式(1)中的完全數(shù)據(jù)似然最大化.同時,對多項式分布采用共軛先驗,可更容易對和進行積分.為簡單起見,根據(jù)文獻[6]設(shè)置α=50K-1,σ=50R-1,β=γ=ζ=δ=0.01.

      在Gibbs抽樣過程中,需獲得用戶u簽到記錄Du(u,v,l,W)的潛在內(nèi)容主題z和潛在地點主題r的后驗概率.

      首先計算條件概率P(z|z?u,v,r,v,l,W,u,·).其中,z?u,v為除當(dāng)前記錄外所有簽到記錄的內(nèi)容主題.對式(1)使用貝葉斯鏈規(guī)則,得到條件概率為

      其中,nu,z為從用戶u的內(nèi)容偏好分布中抽取潛在內(nèi)容主題z的次數(shù);nz,w為從內(nèi)容主題z中生成文本內(nèi)容w的次數(shù);nz,v為從內(nèi)容主題z中生成POIv的次數(shù);上標(biāo)?u,v表示不包括當(dāng)前記錄;z'為任一主題內(nèi)容,z'∈[1,||Z];w'為任一文本內(nèi)容,w'∈[1,|W]|;v'為任一文本內(nèi)容,v'∈[1,|R]|.

      然后,根據(jù)式(3)的后驗概率對潛在地點主題r進行抽樣.

      其中,nu,r是從用戶u的地點偏好分布中抽取潛在地點主題r的次數(shù);r'為任一地點主題,r'∈[1,|R]|;nu,r'為從用戶u的地點偏好分布中抽取任一潛在地點主題r'的次數(shù);nr,w是從地點主題r中生成文本內(nèi)容w的次數(shù);nr,v是從地點主題r中生成POIv的次數(shù).

      每次迭代后,采用矩量法根據(jù)指定的潛在變量r更新Gaussian分布參數(shù)[10],即

      其中,E(r)為潛在地點主題r的平均位置;D(r)為潛在地點主題r的位置協(xié)方差;sr為指定潛在地點主題r的POI集合;lv為簽到地點v的位置.

      經(jīng)過足夠多次的采樣迭代,當(dāng)CLATM模型達到收斂后,檢查簽到記錄的z和r賦值計數(shù),采用式(6)—式(11)的近似后驗概率來估計CLATM模型參數(shù).

      1.3 POI推薦

      2 實驗與結(jié)果分析

      2.1 實驗設(shè)置

      2.1.1 數(shù)據(jù)集

      實驗在Foursquare和Yelp兩個真實的LBSN數(shù)據(jù)集上進行,它們的基本統(tǒng)計數(shù)據(jù)見表2[11].

      表2 Foursquare和Yelp數(shù)據(jù)集基本統(tǒng)計[11]Table 2 Basic statistics of Foursquare and Yelp datasets[11]

      Foursquare數(shù)據(jù)集包含居住在美國的114508名用戶的簽到歷史記錄.每個用戶數(shù)據(jù)集包含用戶的社交網(wǎng)絡(luò)、簽到POI的身份標(biāo)識號(identity document,ID)、每個簽到POI的緯度和經(jīng)度位置、簽到時間和簽到POI的評論內(nèi)容.每個簽到記錄包含用戶ID、POI-ID、POI位置和POI內(nèi)容等[11].

      Yelp數(shù)據(jù)集包含英國的愛丁堡、德國的阿爾斯魯厄、加拿大的蒙特利爾和滑鐵盧,以及美國的匹茲堡、夏洛特、厄巴納香檳、鳳凰城、拉斯維加斯和麥迪遜共10個城市的366715名用戶和61184個POI.它含有1569264個簽到記錄,每個簽到記錄同樣保存為用戶ID、POI-ID、POI位置和POI內(nèi)容等[11].

      2.1.2 基準模型

      將3種主 流 的POI推薦 模型CARec[3]、Rank-GeoFM[2]和LCA-LDA[6]作為基準模型.

      CARec是一個基于內(nèi)容感知的POI推薦模型,充分利用用戶簽到記錄中的評論內(nèi)容捕捉用戶對POI的內(nèi)在偏好,再通過聚合用戶的內(nèi)在偏好,設(shè)計了一種自適應(yīng)貝葉斯個性化排序方法,以此為用戶生成個性化的POI排序列表.與CLATM模型相比,CARec忽略了地理因素及各上下文因素之間的潛在關(guān)系.

      Rank-GeoFM是一種基于排序的地理因子分解模型,專門為個性化POI推薦而設(shè)計.它將簽到頻率表征為用戶的訪問偏好,通過對POI的正確排序來學(xué)習(xí)因子分解,并結(jié)合地理影響這一重要的上下文信息緩解了數(shù)據(jù)稀缺的問題.與CLATM相比,Rank-GeoFM忽略了內(nèi)容因素及與其他因素之間的潛在關(guān)系.

      LCA-LDA是一個位置-內(nèi)容-感知的推薦模型,它為在外地旅游的用戶支持POI推薦而開發(fā).該模型利用POI的聯(lián)合訪問模式和POI內(nèi)容,綜合考慮了每個城市的個人興趣和當(dāng)?shù)仄茫cCLATM相比,LCA-LDA忽略了上下文因素之間的多種潛在關(guān)系,而且只考慮了內(nèi)容主題,未考慮地點主題,自然也沒有聯(lián)合兩個主題建模.

      2.1.3 評價指標(biāo)

      根據(jù)用戶簽到數(shù)據(jù)集Du給出用戶畫像,然后將80%的簽到記錄作為訓(xùn)練集Dtrain,20%的簽到記錄作為測試集Dtest.本研究分別在Foursquare和Yelp兩個LBSN數(shù)據(jù)集上,采用POI推薦系統(tǒng)中常用的召回率(recall)和歸一化折損累計增益(normalized discounted cumulative gain,NDCG)兩 個 指 標(biāo) 對CLATM模型的推薦效果進行評估.具體計算公式如式(13)—式(15)[12]:

      其中,#hit@k表示測試集中的命中數(shù)(@k表示推薦列表中前k個記錄);|Dtest|為所有測試用例的數(shù)目.

      其中,上標(biāo)reli為位置i上的相關(guān)度(實際推薦結(jié)果的排序與理想推薦結(jié)果的排序),若推薦結(jié)果在測試集中,則reli=1,否則,reli=0;NDCG@k是長度為k的所有可能推薦列表的最大DCG@k值;DCG@k為推薦列表前k個物品的折損累計增益情況.最終指標(biāo)得分通過計算整個用戶的recall@k(和NDCG@k)平均值來獲得.

      2.1.4 參數(shù)設(shè)置

      通過在驗證集上進行20多次的實驗,得到CLATM超參數(shù)的最優(yōu)值為:α=50K-1,σ=50R-1,β=γ=δ=ζ=0.01;CARec參數(shù)的最佳值為:K=50,αU=αV=0.2,λP=λQ=0.2;Rank-GeoFM超參數(shù)的最佳值為:C=1.0,ε=0.3,α=0.2,γ=1×10-4;LCA-LDA超參數(shù)的最優(yōu)值為:α=α'=50K-1,β=β'=0.01,γ=γ'=0.5.

      2.2 實驗結(jié)果

      2.2.1 推薦效果

      圖3和圖4分別展示了CARec、Rank-GeoFM、Rank-GeoFM和CLATM模 型在Foursquare和Yelp數(shù)據(jù)集上的Top-k性能,用以分析4種模型的性能.

      圖4 Yelp數(shù)據(jù)集上的Top-k性能(a)召回率;(b)歸一化折損累計增益Fig.4 Top-k performance on Yelp dataset.(a)Recall,(b)NDCG.

      由圖3可見,CLATM模型的recall值和NDCG值表現(xiàn)都優(yōu)于CARec、Rank-GeoFM和Rank-GeoFM模型.例如,CLATM模型的recall@5和NDCG@5分別約為0.146和0.035,但CARec模型的recall@5和NDCG@5分別約為0.075和0.028.從圖3可觀察到如下結(jié)果:

      圖3 Foursquare數(shù)據(jù)集上的Top-k性能(a)召回率;(b)歸一化折損累計增益Fig.3 Top-k performance on Foursquare dataset.(a)Recall,(b)NDCG.

      1)CARec模型性能低于Rank-GeoFM和LCALDA模型,這體現(xiàn)出利用多個上下文因素建模所帶來的優(yōu)勢,因為CARec模型僅僅考慮了簽到的文本內(nèi)容,忽略了地理位置等其他上下文因素,而Rank-GeoFM和LCA-LDA模型考慮了至少兩種不同的上下文因素.可見,融合多因素建模效果優(yōu)于單因素建模.

      2)CLATM和LCA-LDA模型的性能高于Rank-GeoFM模型.與CLATM和LCA-LDA模型相比,Rank-GeoFM模型未考慮簽到的文本內(nèi)容,這體現(xiàn)了包含文本內(nèi)容信息的潛在主題模型的優(yōu)越性.原因是某些用戶的簽到記錄很少,Rank-GeoFM模型在此情況下存在嚴重的數(shù)據(jù)稀疏性,而CLATM和LCA-LDA是潛在的主題模型,并集成了文本內(nèi)容信息,這在很大程度上克服了數(shù)據(jù)稀疏問題.

      3)CLATM模型的性能優(yōu)于LCA-LDA模型.盡管CLATM和LCA-LDA模型基本上都使用了相同類型的上下文因素,但前者的推薦準確率遠高于后者,表明CLATM模型聯(lián)合內(nèi)容主題和地點主題建模的優(yōu)勢,它比LCA-LDA模型僅僅通過內(nèi)容主題建模能更準確地獲取用戶POI偏好.同時上下文因素之間的多種潛在關(guān)系能有效緩解數(shù)據(jù)稀疏性,進一步提高了推薦的準確率.

      圖4 中4種模型在Yelp數(shù)據(jù)集上的recall值和NDCG值表現(xiàn)都與圖3相似,但所有推薦方法的recall值和NDCG值都較低.這可能是因為Foursquare數(shù)據(jù)集中的用戶平均簽到記錄比Yelp數(shù)據(jù)集中的多,使得各模型能夠更準確地捕捉用戶的興趣偏好.

      2.2.2 參數(shù)影響

      CLATM模型中包括兩類參數(shù):一類是超參數(shù)α、σ、β、γ、ζ和δ;另一類是內(nèi)容主題數(shù)K和地點主題數(shù)R.本研究通過嘗試通過不同的設(shè)置,發(fā)現(xiàn)CLATM模型的性能對這些超參數(shù)并不敏感,但對K和R都敏感.因此,本研究通過改變內(nèi)容主題和地點主題的數(shù)量來測試CLATM模型在Foursquare和Yelp數(shù)據(jù)集上的性能,結(jié)果如圖5.

      由圖5(a)可見,在Foursquare數(shù)據(jù)集上,CLATM模型的推薦準確率先隨著內(nèi)容主題數(shù)K的增加而增加,但當(dāng)K>50時,變化不再明顯;隨著地點主題數(shù)R的增加,CLATM模型的推薦準確率也隨之增加,但當(dāng)R>50時,其變化不大.本研究認為,主要原因是K和R代表了模型的復(fù)雜性,當(dāng)K和R取值太小時,模型對數(shù)據(jù)的描述能力有限;而當(dāng)K和R取值超過閾值時,模型的復(fù)雜性足以處理數(shù)據(jù).同樣地,在Yelp數(shù)據(jù)集上進行類似的觀察得到相似結(jié)果.可見,增加K和R對提高模型性能的幫助不大,但調(diào)整模型參數(shù)(如K、R)對CLATM模型的性能至關(guān)重要.需要說明的是,圖3的實驗結(jié)果是在K=50和R=50條件下實現(xiàn)的,圖4的實驗結(jié)果則是在K=50和R=70條件下得到的.

      圖5 參數(shù)K和R對模型性能的影響(a)Foursquare數(shù)據(jù)集;(b)Yelp數(shù)據(jù)集Fig.5 Impact of parameters K and R on model performance.(a)Foursquare dataset,(b)Yelp data set.

      結(jié)語

      從內(nèi)容和地點雙重視角提出一種概率生成的CLATM模型來模擬LBSN中用戶的簽到行為,該模型通過內(nèi)容主題和地點主題聯(lián)合建模方式恰當(dāng)?shù)厝诤狭撕灥降奈谋緝?nèi)容、地點信息和地理位置等上下文因素,并挖掘出不同因素之間的潛在關(guān)系,有效克服了用戶-POI矩陣數(shù)據(jù)稀疏問題.在Foursquare和Yelp兩個典型的LBSN數(shù)據(jù)集上進行了推薦準確性和參數(shù)敏感性的實驗,通過計算模型的recall和NDCG指標(biāo)來評估模型性能.實驗結(jié)果表明,與基準方法相比,CLATM模型的結(jié)果顯示出其優(yōu)越性.此外,通過實驗發(fā)現(xiàn),內(nèi)容和地點兩上下文因素之間的潛在關(guān)系在克服數(shù)據(jù)稀疏性方面起著主導(dǎo)作用.后續(xù)將進一步融合用戶簽到記錄中其他上下文因素及它們之間的潛在關(guān)系,期望獲得更優(yōu)的推薦效果.

      猜你喜歡
      集上建模因素
      聯(lián)想等效,拓展建模——以“帶電小球在等效場中做圓周運動”為例
      Cookie-Cutter集上的Gibbs測度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      解石三大因素
      中國寶玉石(2019年5期)2019-11-16 09:10:20
      基于PSS/E的風(fēng)電場建模與動態(tài)分析
      電子制作(2018年17期)2018-09-28 01:56:44
      不對稱半橋變換器的建模與仿真
      復(fù)扇形指標(biāo)集上的分布混沌
      短道速滑運動員非智力因素的培養(yǎng)
      冰雪運動(2016年4期)2016-04-16 05:54:56
      三元組輻射場的建模與仿真
      幾道導(dǎo)數(shù)題引發(fā)的解題思考
      北流市| 彩票| 洛隆县| 阿克苏市| 天祝| 长春市| 泗水县| 本溪| 新乐市| 抚州市| 泗洪县| 文山县| 米林县| 精河县| 应用必备| 博客| 灵山县| 花垣县| 桑植县| 宁乡县| 宁陵县| 青田县| 马山县| 威海市| 云浮市| 奉新县| 克东县| 游戏| 万年县| 化德县| 平谷区| 开封市| 石景山区| 兰考县| 定州市| 丰城市| 德阳市| 巍山| 石狮市| 宕昌县| 榆树市|