呂勤 于衛(wèi)國(guó)
摘要:本文從應(yīng)對(duì)國(guó)家及各地旅游局分析消費(fèi)發(fā)展趨勢(shì)的需求出發(fā),針對(duì)復(fù)雜客流情況無法分析的難點(diǎn),從消費(fèi)大數(shù)據(jù)出發(fā),剖析消費(fèi)數(shù)據(jù)中隱含的消費(fèi)者歸屬地規(guī)律,概述了歸屬地模型行成旅游消費(fèi)偏好、熱門旅游消費(fèi)區(qū)域、客源分析等旅游數(shù)據(jù)模型的建立過程,闡述了旅游大數(shù)據(jù)對(duì)市場(chǎng)經(jīng)濟(jì)的推動(dòng)作用。
關(guān)鍵詞:旅游大數(shù)據(jù);旅游消費(fèi);歸屬地;旅游數(shù)據(jù);節(jié)假日消費(fèi)
中圖分類號(hào):TN-9 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2019)05-0087-03
隨著我國(guó)旅游市場(chǎng)不斷發(fā)展,近年來出游人群呈井噴式增長(zhǎng)。為響應(yīng)國(guó)家旅游局提升國(guó)家旅游發(fā)展質(zhì)量的要求,我司依托海量消費(fèi)數(shù)據(jù),通過大數(shù)據(jù)技術(shù)挖掘旅游消費(fèi)數(shù)據(jù),分析旅游發(fā)展的變化。通過項(xiàng)目研發(fā)、制作,形成旅游大數(shù)據(jù)分析能力,定期發(fā)布包括年度、半年度、節(jié)假日(五一、國(guó)慶中秋、春節(jié)、雙十一)等報(bào)告以及各細(xì)分行業(yè)旅游分析課題、報(bào)告等。旅游大數(shù)據(jù)分析展示如圖1所示。
1 需求分析
應(yīng)國(guó)家旅游局要求,同時(shí)為了滿足各地旅游局的個(gè)性化旅游消費(fèi)大數(shù)據(jù)分析需求,我司需從宏觀分析入手,制作發(fā)布中國(guó)旅游消費(fèi)大數(shù)據(jù)報(bào)告及各地旅游消費(fèi)大數(shù)據(jù)報(bào)告。制作這些分析報(bào)告,需要提供各地的旅游人數(shù)、旅行者去過的地方、旅行者購(gòu)買過的商品與服務(wù)等數(shù)據(jù)。如何獲得這些數(shù)據(jù),是完成消費(fèi)旅游大數(shù)據(jù)報(bào)告的關(guān)鍵。銀聯(lián)商務(wù)作為全國(guó)最大的第三方支付機(jī)構(gòu),具有基礎(chǔ)的消費(fèi)數(shù)據(jù),為了保護(hù)客戶隱私,滿足數(shù)據(jù)保護(hù)的要求,數(shù)據(jù)的處理分析結(jié)果均不針對(duì)個(gè)體,而是以消費(fèi)者群體為對(duì)象,從宏觀上分析獲取有關(guān)消費(fèi)地點(diǎn)、消費(fèi)業(yè)態(tài)和消費(fèi)能力等維度的數(shù)據(jù)。但困難的是消費(fèi)者歸屬地以及消費(fèi)喜好無法從原始數(shù)據(jù)中直接獲取,需要利用大數(shù)據(jù)技術(shù),通過模型計(jì)算,挖掘出有關(guān)信息。
2 旅游大數(shù)據(jù)的分析模型
2.1 歸屬地分析模型
消費(fèi)者歸屬地模型是旅游大數(shù)據(jù)分析的重中之重,只有知道了消費(fèi)者的“原籍”,再結(jié)合消費(fèi)軌跡,才能知曉消費(fèi)者是不是存在旅游行為。那么如何判斷持卡人的原籍呢?原始的交易信息中并不包含交易者的個(gè)人信息,僅有卡號(hào)信息,可以通過一個(gè)卡號(hào)標(biāo)識(shí)一個(gè)自然人。那么卡號(hào)又如何與自然人的歸屬地關(guān)聯(lián)呢?眾所周知,各銀行發(fā)行的銀行卡卡號(hào)長(zhǎng)度不一樣,除了卡bin①標(biāo)識(shí)以外,編碼規(guī)則完全不同,所以銀行卡卡號(hào)是沒有統(tǒng)一的規(guī)范的。經(jīng)過進(jìn)一步的分析,發(fā)現(xiàn)發(fā)卡行②為了便于發(fā)行卡片,往往是分批次給各地區(qū)分行發(fā)行新卡的,也就是說同一地區(qū)在某個(gè)時(shí)間段發(fā)行的卡片,序號(hào)應(yīng)該是連續(xù)的。因此能否通過此假設(shè)推算出發(fā)卡地區(qū)規(guī)則呢。就此我們嘗試使用分類算法,將卡號(hào)的9位~16位編碼作為特征碼,按不同的長(zhǎng)度分別統(tǒng)計(jì)召回率③和準(zhǔn)確率⑤,當(dāng)置信度高于閥值時(shí),即將該編碼作為歸屬地特征編碼記入特征庫中。通過對(duì)百億數(shù)量級(jí)別的已知消費(fèi)區(qū)域的消費(fèi)記錄的計(jì)算,總共推演出數(shù)萬個(gè)卡片規(guī)則特征,覆蓋幾乎所有發(fā)卡行的卡bin,模型建立成功。
2.2 旅游消費(fèi)偏好分析模型
通過行為學(xué)分析,持卡人消費(fèi)地點(diǎn)不在歸屬地原籍的交易即可認(rèn)為是旅行交易。從橫向上來說,通過對(duì)某一地區(qū)消費(fèi)行業(yè)進(jìn)行聚類,即可得出該地區(qū)熱門的消費(fèi)行業(yè)和業(yè)態(tài)。從縱向上來說,比對(duì)持卡人歷來的旅行消費(fèi)軌跡亦可得出其旅游消費(fèi)偏好。通過分析旅游消費(fèi)偏好可以幫助相關(guān)部門更合理的規(guī)劃各種旅游服務(wù)項(xiàng)目。
2.3 熱門旅游消費(fèi)區(qū)域分析模型
通過分析持卡人異地消費(fèi)行為,利用聚類算法k-means⑤進(jìn)行消費(fèi)地坐標(biāo)聚類,可以獲得旅游消費(fèi)者在旅游城市的消費(fèi)聚集地區(qū)。通過進(jìn)一步的模型計(jì)算,可以判斷指定城市熱門的旅游消費(fèi)商圈,通過統(tǒng)計(jì)可以得出旅游對(duì)推動(dòng)當(dāng)?shù)叵M(fèi)規(guī)模的貢獻(xiàn)度,為旅游消費(fèi)大數(shù)據(jù)報(bào)告提供依據(jù)。
2.4 客源分析模型
客源模型也是各地旅游局比較關(guān)心的課題。通過歸屬地分析模型即可得到景點(diǎn)周邊商戶的客源分布情況,利用大數(shù)據(jù)技術(shù),通過海量數(shù)據(jù)計(jì)算可以進(jìn)一步得出每個(gè)景區(qū)對(duì)應(yīng)的客源分布情況。游客來源分析展示如圖2所示。
3 模型構(gòu)建
根據(jù)旅游大數(shù)據(jù)的業(yè)務(wù)需求,獲取持卡人的歸屬地信息是重中之重,歸屬地模型是其他幾個(gè)業(yè)務(wù)分析模型的基礎(chǔ)。歸屬地模型的特征相對(duì)明確,可以根據(jù)卡號(hào)來識(shí)別,但無法確定具體是卡號(hào)中的哪幾位。我們利用大數(shù)據(jù)技術(shù)的海量計(jì)算能力,通過迭代的方式進(jìn)行特征推演(從卡號(hào)前9位開始迭代,直到16位為止),利用百億級(jí)別的交易數(shù)據(jù),通過二分類算法拆分出多組訓(xùn)練集和測(cè)試集,分別進(jìn)行模型的計(jì)算和驗(yàn)證。找到所有卡號(hào)段滿足置信度(同一地區(qū)聚集度超過閥值)的號(hào)段,并以這些號(hào)段作為號(hào)根來判斷新的卡號(hào)歸屬地??ㄌ?hào)歸屬地計(jì)算模型示意圖如圖3所示。
4 旅游大數(shù)據(jù)的系統(tǒng)架構(gòu)
旅游大數(shù)據(jù)主要由后臺(tái)算法服務(wù)群和前端應(yīng)用展示服務(wù)群組成。后臺(tái)算法服務(wù)群主要是基于hadoop的Hive和SparkMLlib組成,用于從數(shù)據(jù)倉(cāng)庫及外部系統(tǒng)獲取海量交易數(shù)據(jù)用于模型訓(xùn)練。Hive主要用于前期的數(shù)據(jù)清洗和特征矩陣生成,MLlib主要負(fù)責(zé)執(zhí)行聚類、分類等機(jī)器學(xué)習(xí)算法。經(jīng)過預(yù)設(shè)模型計(jì)算完畢的數(shù)萬歸屬地號(hào)根,通過大數(shù)據(jù)平臺(tái)同步到數(shù)據(jù)倉(cāng)庫中。數(shù)據(jù)倉(cāng)庫利用號(hào)根可以將節(jié)假日消費(fèi)數(shù)據(jù)中卡號(hào)的歸屬地通過歸屬地匹配模型計(jì)算出來,用于后續(xù)其他旅游數(shù)據(jù)計(jì)算。數(shù)據(jù)倉(cāng)庫完成旅游數(shù)據(jù)計(jì)算后,同步到應(yīng)用服務(wù)器上,由應(yīng)用服務(wù)器進(jìn)行展示和報(bào)告生成。系統(tǒng)架構(gòu)圖如圖4所示。
5 旅游大數(shù)據(jù)的價(jià)值
我國(guó)經(jīng)濟(jì)的不斷進(jìn)步,宏觀層面上需要拉動(dòng)內(nèi)需,從百姓生活出發(fā)也有旅游的強(qiáng)烈訴求。大數(shù)據(jù)應(yīng)用到旅游數(shù)據(jù)分析中,使原先無序的消費(fèi)數(shù)據(jù)變得有跡可循、原先無法計(jì)算的消費(fèi)數(shù)據(jù)變得可見。旅游大數(shù)據(jù)的發(fā)布有利于協(xié)調(diào)區(qū)域經(jīng)濟(jì),合理化旅游產(chǎn)業(yè)布局,優(yōu)化旅游服務(wù)業(yè)以及關(guān)聯(lián)產(chǎn)業(yè)。通過了解游客的行為特點(diǎn),便于景區(qū)配套迎合游客需求的產(chǎn)業(yè)布局,通過分析客源,為各地旅游局及旅游企業(yè)提供了明確的營(yíng)銷對(duì)象,直接提升了城市的旅游宣傳效能。分析旅游經(jīng)濟(jì),給國(guó)家發(fā)展旅游產(chǎn)業(yè)提供宏觀數(shù)據(jù),提振發(fā)展旅游的信心和動(dòng)力。
注釋
① 卡bin:Bank Identification Number發(fā)卡行識(shí)別碼,中國(guó)境內(nèi),銀聯(lián)一般是以62開頭,visa一般以4開頭,master一般以5開頭,長(zhǎng)度一般是六位,也可能是其他長(zhǎng)度.
② 發(fā)卡行:發(fā)行銀行卡的機(jī)構(gòu),簡(jiǎn)稱發(fā)卡行,一般以銀行居多.發(fā)卡機(jī)構(gòu)的主要職能是向持卡人發(fā)行各種銀行卡,并通過提供各類相關(guān)的銀行卡服務(wù)收取一定費(fèi)用.
③ 召回率:召回率(Recall Rate,也叫查全率)是檢索出的相關(guān)文檔數(shù)與文檔庫中所有的相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng)的查全率.
④ 準(zhǔn)確率:準(zhǔn)確率又稱精度(Prec- ise)是檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)的查準(zhǔn)率.召回率(Recall)和精度(Precise)是廣泛用于信息檢索和統(tǒng)計(jì)學(xué)分類領(lǐng)域的兩個(gè)度量值,用來評(píng)價(jià)結(jié)果的質(zhì)量。參考資料:周志華.機(jī)器學(xué)習(xí):= Machine learning[M].清華大學(xué)出版社,2016.
⑤ K-Means:k均值聚類算法(k-means clustering algorithm)是一種迭代求解的聚類分析算法,其步驟是隨機(jī)選取K個(gè)對(duì)象作為初始的聚類中心,然后計(jì)算每個(gè)對(duì)象與各個(gè)種子聚類中心之間的距離,把每個(gè)對(duì)象分配給距離它最近的聚類中心.聚類中心以及分配給它們的對(duì)象就代表一個(gè)聚類.每分配一個(gè)樣本,聚類的聚類中心會(huì)根據(jù)聚類中現(xiàn)有的對(duì)象被重新計(jì)算.這個(gè)過程將不斷重復(fù)直到滿足某個(gè)終止條件.終止條件可以是沒有(或最小數(shù)目)對(duì)象被重新分配給不同的聚類,沒有(或最小數(shù)目)聚類中心再發(fā)生變化,誤差平方和局部最小.