趙麗 魏仁干
摘要:進(jìn)店維修的客戶流量是卡車維修店鋪運(yùn)營的關(guān)鍵,對(duì)客戶身份的識(shí)別是統(tǒng)計(jì)客流量的前提。本文以某商用車維修服務(wù)站為研究對(duì)象,參考基于手機(jī)信令數(shù)據(jù)的職住空間識(shí)別思路,設(shè)計(jì)層次化數(shù)據(jù)清洗流程,最終從多類型人群中篩選出了進(jìn)店維修目標(biāo)群體(卡車司機(jī))的手機(jī)信令數(shù)據(jù),為下一步統(tǒng)計(jì)分析維修店鋪客流量提供依據(jù)。
關(guān)鍵詞:維修服務(wù)站;手機(jī)信令數(shù)據(jù);數(shù)據(jù)清洗;卡車司機(jī)
2019年度中國汽車售后服務(wù)滿意度調(diào)查報(bào)告結(jié)果顯示重卡用戶去往維修點(diǎn)的分流比例中品牌授權(quán)特約維修站占77%,非授權(quán)修理廠、路邊店等占23%,此滿意度調(diào)查覆蓋全國23省,10大重卡品牌[1]。近些年隨著商用車技術(shù)的不斷發(fā)展,卡車車型也隨之更新?lián)Q代,路邊店已無法勝任一些專業(yè)維修工作。因此對(duì)維修店的評(píng)價(jià)顯得尤為必要,評(píng)價(jià)的基礎(chǔ)就要對(duì)其客流量進(jìn)行評(píng)價(jià),利用手機(jī)信令數(shù)據(jù)識(shí)別卡車司機(jī)軌跡是解決這一問題的關(guān)鍵。
一、數(shù)據(jù)來源
原始手機(jī)信令數(shù)據(jù)的基本格式包含手機(jī)用戶唯一識(shí)別碼IMSI號(hào)、時(shí)間戳、信令數(shù)據(jù)所屬基站位置區(qū)編號(hào)LAC、基站小區(qū)編號(hào)CeLL-ID、事件類型等幾個(gè)字段。每個(gè)字段的說明如下:
(1)IMSI?(International?Mobile?Subscriber?Identity),國際移動(dòng)用戶識(shí)別碼,存儲(chǔ)于手機(jī)SIM卡,和手機(jī)號(hào)對(duì)應(yīng),具有唯一性,類似于手機(jī)卡的“身份證號(hào)”,用以標(biāo)識(shí)和區(qū)別用戶。
(2)LAC(位置區(qū)碼)和CI(小區(qū)識(shí)別碼):LAC(location?area?code?),移動(dòng)通信系統(tǒng)中的位置區(qū)碼,記錄的是某個(gè)基站所覆蓋的一片區(qū)域,也叫一個(gè)大區(qū)或基站區(qū)。一個(gè)基站區(qū)可包含一個(gè)或多個(gè)小區(qū),而一個(gè)小區(qū)又對(duì)應(yīng)一個(gè)小區(qū)標(biāo)識(shí),就是基站小區(qū)號(hào),即CI(Cell?Identity),可以通過LAC和CI確定較為準(zhǔn)確的用戶位置信息。一般而言,基站密度越大,覆蓋范圍越小,定位精度越高。用戶密集的市區(qū),通信業(yè)務(wù)量大,基站也多,基站間距為300?m左右[2],覆蓋半徑一般在100-200米左右;郊區(qū)、縣城的基站間距為600?m左右,單個(gè)基站覆蓋距離300?m左右。理想的小區(qū)形狀是正六邊形的蜂窩網(wǎng)狀。
(3)位置更新和周期性更新:當(dāng)手機(jī)用戶因?yàn)槲恢貌粩嘧兓鴱囊粋€(gè)基站小區(qū)移動(dòng)到另一個(gè)基站小區(qū)時(shí),用戶的通信鏈路就會(huì)因?yàn)榻邮招盘?hào)的強(qiáng)度從原基站切換到當(dāng)前基站進(jìn)行通信聯(lián)系。當(dāng)手機(jī)獲悉自己當(dāng)前的位置區(qū)有所變化時(shí),會(huì)主動(dòng)與無線網(wǎng)絡(luò)聯(lián)系,廣播自己的位置;當(dāng)位置區(qū)長時(shí)間沒有變化時(shí)(長時(shí)間停留在某處、手機(jī)關(guān)機(jī)等),網(wǎng)絡(luò)會(huì)要求手機(jī)周期性(按一定時(shí)間)報(bào)告自己當(dāng)前所處的位置信息。周期性位置更新事件可以提高用戶信令數(shù)據(jù)產(chǎn)生的頻率,提高其行為軌跡的定位精度。
(4)時(shí)間戳:記錄了用戶每個(gè)移動(dòng)軌跡點(diǎn)的發(fā)生時(shí)間,也是觸發(fā)某種信令事件的時(shí)間,精確到秒。
(5)信令事件類型:記錄了觸發(fā)手機(jī)信令數(shù)據(jù)的用戶手機(jī)業(yè)務(wù)類型,如開關(guān)機(jī)、收發(fā)短信、主叫被叫、正常位置更新、周期性位置更新、訪問網(wǎng)絡(luò)等。
(6)用戶基本屬性信息:手機(jī)號(hào)、年齡、性別、號(hào)碼歸屬地等信息,這些數(shù)據(jù)會(huì)做脫敏處理后用于模型計(jì)算。
本研究使用的手機(jī)信令數(shù)據(jù)由中國聯(lián)通公司提供,首先要對(duì)研究的維修站進(jìn)行空間位置和邊界的明確[3],建立基站和維修點(diǎn)的映射關(guān)系,用于將手機(jī)用戶的位置匹配至實(shí)際區(qū)域。本文選取某商用車維修服務(wù)站所在園區(qū)中心為圓心,以能覆蓋住整個(gè)園區(qū)的半徑350米畫圓,此圓的覆蓋范圍即為電子圍欄研究區(qū),研究此區(qū)域內(nèi)基站產(chǎn)生的信令數(shù)據(jù)。
二、數(shù)據(jù)處理
要實(shí)現(xiàn)基于手機(jī)信令數(shù)據(jù)的卡車維修店鋪客流量統(tǒng)計(jì),核心前提是利用運(yùn)營商的信令數(shù)據(jù)分析完成對(duì)進(jìn)店維修人群的識(shí)別,去除非修車司機(jī)數(shù)據(jù)。文章在充分分析不同時(shí)段內(nèi)職住地用戶活動(dòng)行為特征和各種噪聲數(shù)據(jù)特點(diǎn)后設(shè)計(jì)了層次化的數(shù)據(jù)清洗思路,具體如下:
定義在設(shè)定的研究時(shí)間段內(nèi)獲取的研究區(qū)域基站產(chǎn)生的手機(jī)信令數(shù)據(jù)為數(shù)據(jù)集N1。
第一步:輸入N1,輸出20-60歲男性數(shù)據(jù)集N2。據(jù)統(tǒng)計(jì),卡車司機(jī)群體中的男性比例大概占99%,只有極少數(shù)的女性。同時(shí),《機(jī)動(dòng)車駕駛證申領(lǐng)和使用規(guī)定》要求A1、A2、B2駕駛證的申請(qǐng)和使用年限在20周歲以上,60周歲以下。所以第一步剔除女性數(shù)據(jù)和<20歲,>60歲的人口。
第二步:輸入N2,去掉缺失數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)和觸發(fā)事件失敗數(shù)據(jù)后輸出數(shù)據(jù)集N3。因?yàn)榫W(wǎng)絡(luò)連接不暢、設(shè)備故障等原因造成某些屬性值缺失的數(shù)據(jù)叫缺失數(shù)據(jù),在一定程度上會(huì)影響結(jié)果的有效性,但此部分?jǐn)?shù)據(jù)總量較小,直接將關(guān)鍵字段(如IMSI、LAC、ID)缺失及字段有誤的對(duì)象進(jìn)行刪除對(duì)整個(gè)分析結(jié)果影響不大;錯(cuò)誤數(shù)據(jù)是指不在研究范圍內(nèi)的數(shù)據(jù),如日期不對(duì)或者超出研究區(qū)域的信令數(shù)據(jù),此部分?jǐn)?shù)據(jù)比較容易將其刪除;觸發(fā)信令數(shù)據(jù)失敗的事件類型主要有:呼叫失?。ㄖ鹘?、被叫)、收發(fā)短信失敗和位置更新失?。ㄕN恢酶隆⒅芷谛晕恢酶拢?,因?yàn)橛|發(fā)事件失敗原因不明,信令數(shù)據(jù)中的表征的地理經(jīng)緯度可能并非用戶的真實(shí)位置反映[4],為了減小誤差,也將此類型數(shù)據(jù)進(jìn)行刪除。
第三步:輸入N3,去掉重復(fù)數(shù)據(jù)后輸出數(shù)據(jù)集N4。重復(fù)數(shù)據(jù)的產(chǎn)生一方面是因?yàn)槭謾C(jī)用戶在同一個(gè)位置區(qū)域頻繁發(fā)生上網(wǎng)、通話或收發(fā)短信等通信活動(dòng),在短時(shí)間內(nèi)產(chǎn)生連續(xù)位置相同的信令數(shù)據(jù);另一方面是周期性位置更新,當(dāng)手機(jī)長時(shí)間處于某個(gè)基站覆蓋范圍內(nèi)又沒有發(fā)生其他通信活動(dòng)或跨區(qū)移動(dòng)現(xiàn)象觸發(fā)信令數(shù)據(jù)時(shí),網(wǎng)絡(luò)會(huì)要求手機(jī)每隔1個(gè)小時(shí)[5]左右上報(bào)自己的位置信息以便掌握手機(jī)當(dāng)前狀態(tài),所以當(dāng)卡車司機(jī)進(jìn)入維修站大修、居民白天夜里在家和職員在公司上班時(shí),用戶手機(jī)都有可能產(chǎn)生多條字段完全相同的重復(fù)數(shù)據(jù),此類數(shù)據(jù)增加了無效樣本量和計(jì)算工作量,因此予以排除。