• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于情境聚類擴(kuò)展用戶畫像的旅游景點(diǎn)推薦方法

    2023-06-21 08:31:18王忠群
    關(guān)鍵詞:出游畫像景點(diǎn)

    班 航,王忠群

    (安徽工程大學(xué) 經(jīng)濟(jì)與管理學(xué)院,安徽 蕪湖 241000)

    隨著消費(fèi)者對(duì)旅游產(chǎn)品的要求越來越高,滿足其個(gè)性化需求旅游產(chǎn)品的精準(zhǔn)推薦逐漸成為趨勢(shì)?;跀?shù)據(jù)分析的用戶畫像能夠充分反映用戶的特征和個(gè)性化需求,使得基于用戶畫像的個(gè)性化推薦方法在多個(gè)領(lǐng)域得到了廣泛應(yīng)用。徐海玲等[1]以豆瓣電影網(wǎng)為例,構(gòu)建了用戶畫像模型和資源畫像模型來實(shí)施資源聚合。李曉敏等[2]基于用戶自然屬性、社交屬性和興趣屬性構(gòu)建讀者用戶畫像,將相似讀者推薦和相似圖書推薦的結(jié)果加權(quán)整合并進(jìn)行圖書的個(gè)性化推薦。Lerouge等[3]為滿足老年慢性病患者的需求,構(gòu)建老年慢性病患者畫像并研發(fā)面向老年慢性病患者的應(yīng)用程序和健康信息推薦系統(tǒng)。劉海鷗等[4]通過提取游客用戶特征標(biāo)簽來構(gòu)建了游客的用戶畫像,結(jié)合協(xié)同過濾推薦算法實(shí)現(xiàn)了個(gè)性化景點(diǎn)推薦。

    從以上文獻(xiàn)可看出,國(guó)內(nèi)外學(xué)者對(duì)基于用戶畫像的推薦研究已經(jīng)取得較多成果,但也存在一些問題,如大量用戶數(shù)據(jù)需求與用戶隱私間的矛盾[5]會(huì)導(dǎo)致用戶數(shù)據(jù)稀缺,從而使得用戶畫像刻畫不夠完整。而游客用戶公開的游記數(shù)據(jù)使得通過數(shù)據(jù)聚類能夠擴(kuò)展群體用戶的畫像,在一定程度上緩解了數(shù)據(jù)稀缺的問題。為此,本文提出了一種基于用戶情境聚類擴(kuò)展用戶畫像的旅游景點(diǎn)推薦方法。即運(yùn)用用戶情境信息聚類擴(kuò)展群體用戶畫像,并融合用戶畫像特征于關(guān)聯(lián)規(guī)則和相似度計(jì)算,從而實(shí)施個(gè)性化的精準(zhǔn)推薦。

    1 基于聚類擴(kuò)展的用戶畫像模型

    1.1 用戶畫像

    用戶畫像的概念最早由Cooper[6]提出,其解釋為真實(shí)用戶的虛擬代表,是指建立在一系列真實(shí)數(shù)據(jù)之上的用戶模型。隨著大數(shù)據(jù)、云計(jì)算等技術(shù)的應(yīng)用和發(fā)展,用戶畫像也衍生出了新的內(nèi)涵,指根據(jù)用戶的基本信息、社會(huì)屬性、行為習(xí)慣等描述用戶屬性及特征的標(biāo)簽集合[7]。用戶畫像的構(gòu)建首先要收集用戶數(shù)據(jù),再提取用戶特征并予以標(biāo)簽化,最后基于標(biāo)簽構(gòu)建用戶畫像。

    1.2 情境的K-means聚類

    聚類具有無需訓(xùn)練集、可改進(jìn)和處理速度快等優(yōu)勢(shì),本文采用K-means聚類算法對(duì)游客的情境信息進(jìn)行聚類分析。旅游情境對(duì)游客旅游決策有著不可忽視的影響,通過對(duì)用戶的情境信息進(jìn)行聚類,獲取具有不同類別情境偏好的用戶群體[8]。游客用戶的主要情境要素有地點(diǎn)、天氣、季節(jié)、游伴、出游天數(shù)和旅游費(fèi)用等,用六元組Cu表示,具體描述如下,

    其中,位置集合由0和1這兩個(gè)元素組成,0表示用戶居住地和旅游地不是同一個(gè)城市,1表示同一個(gè)城市。天氣集合由晴天、陰天、下雨和下雪4 種天氣組成。季節(jié)集合由4 個(gè)季節(jié)組成,分別對(duì)應(yīng)著春、夏、秋、冬。游伴集合由5種類別,分別是單獨(dú)一個(gè)人、夫妻或情侶、帶孩子、和朋友、家庭出游。出游天數(shù)集合由5個(gè)時(shí)間段組成,分別對(duì)應(yīng)著0~1天、2~3天、4~5天、6~7天、7天以上。出游費(fèi)用集合由5個(gè)區(qū)間組成,分別是1~100元、101~1 000元、1 001~3 000元、3 001~6 000元、6 000元以上。

    1.3 擴(kuò)展的用戶畫像模型

    本文將游客的情境信息進(jìn)行K-means聚類來提取游客的特征,再利用形式化的標(biāo)簽表示方法來構(gòu)建擴(kuò)展的用戶畫像概念模型,如圖1所示。根據(jù)用戶的居住地和景點(diǎn)地提取長(zhǎng)途旅行和短途旅行標(biāo)簽來擴(kuò)展用戶畫像。將用戶出行的季節(jié)情境進(jìn)行聚類并挖掘游客的季節(jié)偏好。將用戶出游的天氣類型進(jìn)行聚類提取天氣標(biāo)簽。出游天數(shù)既可以反映用戶假期的長(zhǎng)短,又反映著旅行費(fèi)用的多少,故本文將用戶的出游天數(shù)進(jìn)行聚類,構(gòu)建用戶時(shí)間情境的畫像。和誰一起出游對(duì)景點(diǎn)選擇具有重要的影響,近年來許多景點(diǎn)相繼推出親子游、蜜月游等針對(duì)不同出游同伴的旅游產(chǎn)品,故本文對(duì)游客的游伴情境進(jìn)行聚類,擴(kuò)展用戶游伴畫像。旅行費(fèi)用是影響用戶出游最重要的因素之一,出游前的預(yù)算會(huì)影響整個(gè)出游的計(jì)劃,旅途花費(fèi)也會(huì)影響剩余行程的安排,故將旅游費(fèi)用進(jìn)行聚類來擴(kuò)展用戶的消費(fèi)特征畫像。

    圖1 擴(kuò)展的用戶畫像概念模型

    圖2 三種算法的召回率

    圖3 三種算法的準(zhǔn)確率

    圖4 三種算法的F值

    2 基于用戶畫像的景點(diǎn)推薦方法

    本文提出了一種基于擴(kuò)展用戶畫像、融合關(guān)聯(lián)規(guī)則和用戶相似度的景點(diǎn)推薦方法。通過聚類擴(kuò)展群體用戶畫像,根據(jù)群體用戶畫像反映的用戶特征,結(jié)合情境標(biāo)簽設(shè)置個(gè)體用戶情境特征屬性,將其與用戶游玩的景點(diǎn)建立關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘,以游客情境特征作為前項(xiàng)、景點(diǎn)作為后項(xiàng)來挖掘強(qiáng)關(guān)聯(lián)規(guī)則,依據(jù)這些強(qiáng)關(guān)聯(lián)規(guī)則分析游客的情境與選擇的景點(diǎn)之間的相關(guān)性。其次,通過計(jì)算目標(biāo)用戶情境與各強(qiáng)關(guān)聯(lián)規(guī)則情境之間的相似度,找出與目標(biāo)用戶情境相似度較高的強(qiáng)關(guān)聯(lián)規(guī)則,依據(jù)相似度將所有強(qiáng)關(guān)聯(lián)規(guī)則進(jìn)行降序排列。最后,將相似度較高的強(qiáng)關(guān)聯(lián)規(guī)則后項(xiàng)的景點(diǎn)向目標(biāo)用戶進(jìn)行推薦。

    步驟1:關(guān)聯(lián)規(guī)則挖掘。Apriori算法是關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法之一,本文采用Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘。基于游客用戶畫像中地點(diǎn)、天氣、季節(jié)、出行天數(shù)、游伴、費(fèi)用等情境標(biāo)簽,對(duì)所有游客的情境信息進(jìn)行離散化和規(guī)范化處理來作為前項(xiàng)、景點(diǎn)作為后項(xiàng),挖掘游客情境特征與景點(diǎn)之間的多維關(guān)聯(lián)規(guī)則,如地點(diǎn)∧天氣∧季節(jié)∧出行天數(shù)∧游伴∧費(fèi)用?景點(diǎn)。

    步驟2:相似度計(jì)算。通過計(jì)算目標(biāo)用戶與強(qiáng)關(guān)聯(lián)規(guī)則在特征空間中的距離來得到兩者之間的情境相似度。首先,計(jì)算目標(biāo)用戶與強(qiáng)關(guān)聯(lián)規(guī)則每個(gè)情境間的局部相似度;其次,計(jì)算目標(biāo)用戶與強(qiáng)關(guān)聯(lián)規(guī)則每個(gè)情境之間的距離;然后,再根據(jù)各情境的權(quán)重計(jì)算出兩者的距離;最后,計(jì)算得到兩者之間的相似度,這里采用歐式距離計(jì)算相似度。

    假設(shè)目標(biāo)用戶的情境集合為T={X1,X2,X3,…,Xk},在情境k(k=1,2,3,…,t)下的情境取值為Xk=(xk1,xk2,xk3,…,xki);強(qiáng)關(guān)聯(lián)規(guī)則的情境集合為Z={Y1,Y2,Y3,…,Yk},在情境k(k=1,2,3,…,t)下的情境取值為Yk=(yk1,yk2,yk3,…,yki);由于每個(gè)情境之間的取值都相互獨(dú)立且不存在層次結(jié)構(gòu)[9],所以各情境的局部相似度如公式(2)所示,如果目標(biāo)用戶與強(qiáng)關(guān)聯(lián)規(guī)則在同一情境下的值相同,則該情境下的局部相似度為1,否則其局部相似度為0。

    則目標(biāo)用戶與強(qiáng)關(guān)聯(lián)規(guī)則在情境k之間的距離計(jì)算如公式(3)所示,

    則目標(biāo)用戶與強(qiáng)關(guān)聯(lián)規(guī)則之間的距離如公式(4)所示,其中wk是情境的權(quán)重,依據(jù)不同情境在所有強(qiáng)關(guān)聯(lián)規(guī)則中出現(xiàn)的頻率計(jì)算得出,wk∈(0,1)。

    目標(biāo)用戶與強(qiáng)關(guān)聯(lián)規(guī)則之間的相似度為

    步驟3:產(chǎn)生推薦。通過計(jì)算目標(biāo)用戶與所有強(qiáng)關(guān)聯(lián)規(guī)則之間情境的相似度,依據(jù)相似度將這些強(qiáng)關(guān)聯(lián)規(guī)則進(jìn)行降序排列,形成與目標(biāo)用戶的情境相似度較高的強(qiáng)關(guān)聯(lián)規(guī)則集合,根據(jù)相似度從高到低將強(qiáng)關(guān)聯(lián)規(guī)則后項(xiàng)的景點(diǎn)向目標(biāo)用戶進(jìn)行推薦,相同景點(diǎn)只選取相似度最高的關(guān)聯(lián)規(guī)則進(jìn)行推薦,最后為用戶提供個(gè)性化的TOP-N景點(diǎn)推薦。

    3 案例驗(yàn)證

    3.1 數(shù)據(jù)收集與預(yù)處理

    本文利用八爪魚采集器抓取馬蜂窩網(wǎng)站上北京熱門景點(diǎn)為主題的游記,包括故宮、頤和園、圓明園等共計(jì)25個(gè)景點(diǎn),1 500條游記信息。由于所采集的數(shù)據(jù)不包括季節(jié)和天氣信息,本文依據(jù)游記中用戶出發(fā)的時(shí)間戳獲得季節(jié)信息,并依據(jù)景點(diǎn)的位置信息爬取景點(diǎn)當(dāng)天的天氣信息。抽取數(shù)據(jù)中有關(guān)用戶情境的地點(diǎn)、天氣、季節(jié)、出游同伴、出游天數(shù)和旅游費(fèi)用等字段,刪除重復(fù)數(shù)據(jù)和無效數(shù)據(jù),清理后有效數(shù)據(jù)共1 148條,實(shí)驗(yàn)中將所有數(shù)據(jù)按照80%和20%的比例隨機(jī)分為訓(xùn)練集和測(cè)試集。

    3.2 基于情境信息的用戶畫像擴(kuò)展

    將預(yù)處理后的數(shù)據(jù)離散化到六元組進(jìn)行K-means聚類,當(dāng)k取值為5 時(shí),輪廓系數(shù)在局部取得最大值,因此,通過聚類將用戶分為5類。通過對(duì)聚類發(fā)掘不同用戶群體在各種情境上具有不同的特點(diǎn),分別對(duì)這5類用戶群體進(jìn)行畫像,如表1所示。群體1居住在北京,情侶或夫妻旅游喜歡在夏季天氣不熱的陰天出游,出游時(shí)間較長(zhǎng),旅游費(fèi)用較多。而群體2不居住在北京,家庭一起長(zhǎng)途旅游,游玩時(shí)間長(zhǎng),游玩6至7天,旅游花費(fèi)也較多。群體3居住在北京,單獨(dú)一個(gè)人旅游,喜歡在秋季天氣不熱的陰天出游,出游時(shí)間較短,僅只游玩一天,旅游費(fèi)用較少。群體4居住在北京,喜歡在秋季和朋友一起出游,只游玩1天,花費(fèi)在1 000元以內(nèi)。群體5帶孩子出游,喜歡在夏季陰天出行,游玩2至3天,旅游費(fèi)用較多,在1 000元至3 000元之間。

    表1 群體用戶畫像

    3.3 基于多維關(guān)聯(lián)規(guī)則的景點(diǎn)挖掘

    根據(jù)群體用戶畫像反映的用戶特征和用戶畫像的情境標(biāo)簽將個(gè)體游客的情境信息數(shù)據(jù)進(jìn)行規(guī)范化和離散化。(1)依據(jù)位置情境標(biāo)簽將居住地和景點(diǎn)分為相同(same)和不同(different)。(2)依據(jù)季節(jié)情境標(biāo)簽分為春(spring)、夏(summer)、秋(autumn)、冬(winter)。(3)依據(jù)天氣情境標(biāo)簽將天氣分為4類,晴天(sunny)、下雨(rainy)、陰天(cloudy)、下雪(snowy)。(4)依據(jù)用戶情境的出游同伴標(biāo)簽將游伴分為單獨(dú)一個(gè)人(alone)、情侶(couple)、和朋友(with friend)、帶孩子(with children)、家庭(family)。(5)依據(jù)游玩天數(shù)標(biāo)簽將用戶游玩天數(shù)進(jìn)行離散化,其中,大于7天記為“VL”,6-7天記為“L”,4-5天記為“M”,2-3天記為“S”,游玩1 天的記為“VS”。(6)依據(jù)旅游費(fèi)用標(biāo)簽將用戶旅游費(fèi)用離散化,其中,100 元以內(nèi)的記為“X”,101-1 000元的記為“XL”,1 001-3 000元的記為“XLL”,3 001-6 000元的記為“XLLL”,6 000元以上的記為“VX”。(7)將景點(diǎn)進(jìn)行劃分并以字母表示,如A故宮、B頤和園、C圓明園等。

    根據(jù)對(duì)游記數(shù)據(jù)集的劃分和處理,設(shè)置最小置信度為20%,最小支持度為1%,挖掘前項(xiàng)為情境后項(xiàng)為景點(diǎn)關(guān)聯(lián)規(guī)則。例如:(1)family∧same∧autumn∧cloudy?M,在秋天多云的天氣,居住在北京的家庭一起出游多數(shù)會(huì)選擇游玩環(huán)球影城等游樂園類景點(diǎn);(2)with children∧autumn∧XL?H,在秋天帶孩子出游且預(yù)算經(jīng)費(fèi)較少的用戶多數(shù)會(huì)選擇去海洋館、科技館等景點(diǎn)。

    3.4 用戶游玩景點(diǎn)的推薦

    將挖掘的強(qiáng)關(guān)聯(lián)規(guī)則進(jìn)行整理,通過相似度計(jì)算,找到與目標(biāo)用戶情境相似度較高的強(qiáng)關(guān)聯(lián)規(guī)則集合,將強(qiáng)關(guān)聯(lián)規(guī)則后項(xiàng)的景點(diǎn)向目標(biāo)用戶進(jìn)行推薦。例如目標(biāo)用戶ID90032691,其情境信息為different∧autumn∧sunny∧with friend∧M∧XLL和游玩信息天安門廣場(chǎng)、故宮、景山公園、頤和園、南鑼鼓巷、恭王府,通過相似度計(jì)算得到的強(qiáng)關(guān)聯(lián)規(guī)則集合如表2所示。

    表2 按相似度降序排列的景點(diǎn)集合

    目標(biāo)用戶實(shí)際游玩的景點(diǎn)有天安門廣場(chǎng)、故宮、景山公園、頤和園、南鑼古巷、恭王府,按目標(biāo)用戶與強(qiáng)關(guān)聯(lián)規(guī)則相似度進(jìn)行降序排列,最終推薦的景點(diǎn)為天安門廣場(chǎng)、北海公園、恭王府、慕田峪長(zhǎng)城、故宮、景山公園。

    3.5 實(shí)驗(yàn)結(jié)果及分析

    為了驗(yàn)證本文推薦方法的推薦效果,設(shè)置最小置信度為20%,以最小支持度為變量,運(yùn)用本文挖掘的數(shù)據(jù)集將本文推薦方法與文獻(xiàn)[10]中傳統(tǒng)的關(guān)聯(lián)規(guī)則Apriori 推薦算法和文獻(xiàn)[11]中加權(quán)關(guān)聯(lián)規(guī)則Apriori 推薦算法在召回率、準(zhǔn)確率和綜合度量F值上進(jìn)行測(cè)試比較。召回率、準(zhǔn)確率和F值的數(shù)值越大,說明推薦效果越好,計(jì)算公式如下:

    其中,T(u)表示用戶實(shí)際感興趣的所有景點(diǎn),R(u)表示推薦算法為用戶推薦的所有景點(diǎn)。

    測(cè)試對(duì)比結(jié)果如圖2-4所示,本文推薦方法的召回率,準(zhǔn)確率和F值都高于其他兩種方法。通過關(guān)聯(lián)規(guī)則挖掘用戶情境特征與景點(diǎn)之間的關(guān)聯(lián)關(guān)系,利用情境相似度尋找與目標(biāo)用戶具有相似情境的強(qiáng)關(guān)聯(lián)規(guī)則,在用戶情境相似度計(jì)算時(shí),根據(jù)不同情境在所有強(qiáng)關(guān)聯(lián)規(guī)則中出現(xiàn)頻率的不同,對(duì)情境賦予權(quán)重,提高了情境相似度計(jì)算的準(zhǔn)確性,依據(jù)情境相似度對(duì)強(qiáng)關(guān)聯(lián)規(guī)則進(jìn)行排序,再利用關(guān)聯(lián)規(guī)則后項(xiàng)的景點(diǎn)為用戶進(jìn)行推薦,提高了通過用戶多維度情境來推薦景點(diǎn)的質(zhì)量,使得本文算法的推薦效果要優(yōu)于加權(quán)關(guān)聯(lián)規(guī)則Apriori推薦算法和傳統(tǒng)的關(guān)聯(lián)規(guī)則Apriori推薦算法。綜上所述,本文提出的基于情境聚類擴(kuò)展用戶畫像的旅游景點(diǎn)推薦方法具有較好的推薦效果,在一定程度上可以為用戶提供個(gè)性化的景點(diǎn)推薦,為用戶的旅游決策提供參考。

    4 結(jié)束語(yǔ)

    為了緩解用戶畫像建模所需求的大量數(shù)據(jù)與隱私保護(hù)的矛盾所造成的用戶畫像不完善及推薦效果不佳的問題,本文通過聚類用戶情境以擴(kuò)展群體用戶畫像,并挖掘游客用戶的特征和情境偏好。根據(jù)群體用戶畫像反映的用戶特征,結(jié)合情境標(biāo)簽設(shè)置個(gè)體用戶情境特征屬性,再與游客用戶游玩的景點(diǎn)進(jìn)行關(guān)聯(lián)規(guī)則挖掘。結(jié)合相似度計(jì)算,找到與目標(biāo)用戶情境相似度較高的強(qiáng)關(guān)聯(lián)規(guī)則集合,最后向目標(biāo)用戶推薦關(guān)聯(lián)規(guī)則后項(xiàng)的景點(diǎn),并通過實(shí)驗(yàn)證明本文方法相較于傳統(tǒng)的關(guān)聯(lián)規(guī)則Apriori推薦算法和加權(quán)關(guān)聯(lián)規(guī)則Apriori推薦算法具有更好的推薦效果。

    猜你喜歡
    出游畫像景點(diǎn)
    威猛的畫像
    你出游,我出油
    “00后”畫像
    畫像
    未來出游大作戰(zhàn)
    打卡名校景點(diǎn)——那些必去朝圣的大學(xué)景點(diǎn)
    假期帶娃出游防走失
    啟蒙(3-7歲)(2018年2期)2018-03-15 08:03:43
    英格蘭十大怪異景點(diǎn)
    海外星云(2016年7期)2016-12-01 04:18:07
    出游季你都“妝”對(duì)了嗎
    Coco薇(2016年7期)2016-06-28 02:22:58
    沒有景點(diǎn) 只是生活
    Coco薇(2015年11期)2015-11-09 13:19:52
    清新县| 达日县| 桦川县| 东乡县| 阳山县| 徐闻县| 临潭县| 锡林浩特市| 光泽县| 修武县| 道孚县| 顺昌县| 洪洞县| 泊头市| 会同县| 从化市| 通化市| 巨鹿县| 南召县| 五华县| 安远县| 大丰市| 巴彦淖尔市| 蒙山县| 石棉县| 民权县| 巫溪县| 英超| 馆陶县| 平定县| 留坝县| 商南县| 英山县| 竹溪县| 鄂伦春自治旗| 沂水县| 莱州市| 温宿县| 阳朔县| 梅河口市| 白水县|