馬宗澤 趙濤 劉海濤 蒲雪松
(云南中煙工業(yè)有限責(zé)任公司營銷中心 云南省昆明市 650000)
LBS 又被稱為移動位置服務(wù),是一種依托于GPS、Wi-Fi、基站等定位技術(shù),并結(jié)合移動終端內(nèi)置的加速度計、陀螺儀和芯片等用戶采集用戶位置信息的新型技術(shù),其英文通用表達方式為“Location Based Services”。
LBS 定位技術(shù)在時間和空間的商業(yè)化配置中起到了高價值信息提供方的角色,能夠為企業(yè)提供精準(zhǔn)營銷數(shù)據(jù),能夠?qū)⑸⒙湓跁r空中的歷史消費者關(guān)聯(lián)起來,為企業(yè)提供物理空間中識別和跟蹤的各種對象和庫存。因此,本文的研究課題“區(qū)域用戶價值模型研究與LBS 數(shù)據(jù)應(yīng)用”是非常具有商業(yè)價值的。
人群畫像標(biāo)簽的數(shù)據(jù)基礎(chǔ)包括如以下標(biāo)簽:性別、年齡、學(xué)歷、常住地省份、常住地城市、常住地區(qū)縣、家鄉(xiāng)地省份、家鄉(xiāng)地城市、子女年齡、人生階段、是否有車、消費水平、居住社區(qū)價格等級、居住社區(qū)房價、通勤方式、差旅???、旅游距離、出國游、旅游目的地(中國、內(nèi)地、境外)、到訪偏好(購物、娛樂休閑、運動健身、汽車、醫(yī)療保健、酒店賓館、教育學(xué)校、美食、基礎(chǔ)設(shè)施)、APP 偏好(健康、出行、辦公、娛樂、工具、攝影、教育、旅游、游戲、理財、生活、社交、系統(tǒng)、美化、視頻、購物、通訊、閱讀、音樂),手機品牌、手機價格。
區(qū)域內(nèi)位置數(shù)據(jù)采集包括基站定位、GPS 定位、WIFI 定位等方式。在移動終端GPS 芯片、加速度計、陀螺儀等功能模塊的輔助下實現(xiàn)定位數(shù)據(jù)的采集。
以GPS 定位數(shù)據(jù)采集為例,借助定位芯片模塊,LBS 定位可以實現(xiàn)出行時間、位置坐標(biāo)、出行速度等數(shù)據(jù)的采集;在GPS 定位的輔助下,商業(yè)化的出行數(shù)據(jù)的定位精度一般在10-20m 之間,有的商業(yè)化軟件可以提供3-5m 的定位精度服務(wù)。
為了便于區(qū)域人群分析,標(biāo)簽數(shù)據(jù)采集的主要內(nèi)容包括常駐人口結(jié)構(gòu)數(shù)據(jù)、人群分布熱力數(shù)據(jù)、人口居住地數(shù)據(jù)等等。這些數(shù)據(jù)往往都是與智慧城市相關(guān)聯(lián),依靠第三方進行提供的。與此同時,還需要采集小時級區(qū)域人群分布熱力、人口城市級空間分布熱力等相關(guān)數(shù)據(jù)。這些數(shù)據(jù)一般是通過APP 等提供的定位服務(wù)數(shù)據(jù)。在此類數(shù)據(jù)采集的過程中,需要依法依規(guī)在用戶同意的前提下合理采集。
由于目前“人群畫像”在智慧城市中的應(yīng)用還沒有一個完整的、成熟的、大眾認(rèn)可的案例,因此,現(xiàn)在的“人群畫像”還在探索與可行性分析階段。人群畫像的基礎(chǔ)就是白起數(shù)據(jù)的采集。在LBS數(shù)據(jù)的輔助下,人群行為科學(xué)、合法的采集首先就是一個難關(guān)。其次,如何在全周期內(nèi)采集到完整的人群數(shù)據(jù),并依靠智慧城市等相關(guān)平臺進行空間數(shù)據(jù)的清洗也是比較困難的。此外,對于時空行為來說,可測度性毋庸置疑,但是它們的數(shù)據(jù)特征還具有異化特征。因此如何將人群行為與時空數(shù)據(jù)進行異化特征的匹配也還在探索階段。綜合上述三大難點,可以知道,標(biāo)簽數(shù)據(jù)的采集要充分認(rèn)識到時空數(shù)據(jù)異化特征,并顧全人群行為異化特征,充分將標(biāo)簽數(shù)據(jù)采集,并集中表達在城市的空間效益之上。唯有如此,才能采集到有效的標(biāo)簽數(shù)據(jù),進而進行人群畫像。
表1:基于時間節(jié)奏的數(shù)據(jù)預(yù)處理
表2:基于時間節(jié)奏的數(shù)據(jù)預(yù)處理
時空行為本身包含了時間、空間、行為三個層次的內(nèi)容。本文以2020年的一個選定的時間窗口(9月3日-12月3日),JY 企業(yè)APP 用戶在WH 市的CBD 及周邊地區(qū)的定位數(shù)據(jù)為依據(jù),構(gòu)建模型如下。
時間節(jié)奏是指城市人群在時間維度下的明顯行為變化的度量,如表1 所示。
在表1 中,需要說明的是,從時間上,本文將“居住行為”定義為夜間定位集中的地點活動時間大于6 小時。
從WH 市的實際情況出發(fā),為了簡化本文的討論,本文將研究區(qū)域控制在WH 市CBD 及周邊,并以CBD 為中心劃分為四個區(qū)域(表2)。出于討論的需要,將四個區(qū)的范圍,以距離為依據(jù)進行細(xì)分:0-3km 為金融中心區(qū),3-6km 為配套服務(wù)區(qū)、6-10km 為生活區(qū)、>10km 為運動休閑區(qū),如表2 所示。
表3:行為模式數(shù)據(jù)預(yù)處理
表4:區(qū)域內(nèi)人群譜系
在本文的實際數(shù)據(jù)中匯總發(fā)現(xiàn),存在13 種較為典型的生活和工作方式,分別為家庭生活型、單一經(jīng)濟來源型、單一生活方式型、潮汐生活型、雙份經(jīng)濟來源型(上午)、兩點一線生活服務(wù)型、雙份經(jīng)濟來源型、雙份經(jīng)濟來源型(下午)、夜生活休閑型、雙份經(jīng)濟來源型(中午)、單一經(jīng)濟來源型(上午)、夜班工作型、單一經(jīng)濟來源型(中午不休)等等,如表3 所示。
通過以上的數(shù)據(jù)預(yù)處理,為了便于對WH 市的人群畫像,結(jié)合空間分布、時間節(jié)奏和行為三維度,本文將WH 市的人群畫像譜系進行分解。金融中心區(qū)-足不出戶-家庭生活型;近郊-足不出戶-家庭生活型;配套服務(wù)區(qū)-足不出戶-家庭生活型;遠郊-朝九晚五-單一經(jīng)濟來源型;近郊-朝九晚五-單一經(jīng)濟來源型;近郊-早出晚歸-單一經(jīng)濟來源型;遠郊-早出晚歸-兩點一線型;配套服務(wù)區(qū)-朝九晚五-單一經(jīng)濟來源型;金融中心區(qū)-朝九晚五-單一經(jīng)濟來源型;金融中心區(qū)-足不出戶-單一生活方式型;遠郊-早歸晚出-單一經(jīng)濟來源型;金融中心區(qū)-足不出戶-單一經(jīng)濟來源型;配套服務(wù)區(qū)-早出晚歸-單一經(jīng)濟來源型。從中不難看出,雙份經(jīng)濟來源型、家庭生活型和單一經(jīng)濟來源型占比較多。
如表4 所示,人群譜系的構(gòu)建可以對城市人群進行標(biāo)簽劃分,進而實現(xiàn)人群在三維度上的畫像,以有利于評估用戶價值算法模型的構(gòu)造。與此同時,通過譜系的刻畫,WH 城市被何種人群使用,人群到底是趨于異化還是趨于同化,從業(yè)者的行為規(guī)律與職業(yè)規(guī)劃等問題均可以得到印證。
本次研究使用選用ST-DBSCAN 聚類算法進行WH 市LBS 數(shù)據(jù)停留點的識別,其中控制因素為時間和空間兩個因素。
ST-DBSCAN 算法的邏輯如下:
(1)將距離閾值設(shè)置為S 米,最小時間定位M 秒;
(2)在時間序列中,依據(jù)距離閾值判斷對軌跡點On 與下一個軌跡點On+1 是否滿足閾值限制;
(3)將步驟(2)得到的所有軌跡點On 到On+m 依據(jù)經(jīng)典DBSCAN 算法步驟進行聚類。
(4)從軌跡點On+m+1 開始,重復(fù)步驟(2)與步驟(3),遍歷所有軌跡點,識別出所有的行為點。
在綜合分析相關(guān)文獻的基礎(chǔ)上,本文發(fā)現(xiàn)“區(qū)域用戶價值模型研究與LBS 數(shù)據(jù)應(yīng)用”的相關(guān)研究還很薄弱,缺乏相關(guān)的理論探索。鑒于此,本文依據(jù)移動終端LBS 定位技術(shù)的特點,綜合分析JY 企業(yè)APP 用戶在WH 市的CBD 及周邊地區(qū)的定位數(shù)據(jù)特征,提出了基于區(qū)域用戶畫像并可用于評估用戶價值的算法模型,并解決了如何科學(xué)地評估用戶價值的問題。