張安忠,許心越,葉紅霞
(1.北京交通大學(xué) 軌道交通控制與安全國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100044;2.廣州地鐵集團(tuán)有限公司國(guó)家工程研究中心,廣東 廣州 510330)
隨著城市軌道交通線網(wǎng)的拓展與延伸,網(wǎng)絡(luò)通達(dá)性增強(qiáng),城市軌道交通從一種“可選項(xiàng)”逐步發(fā)展成為了市民出行的“必選項(xiàng)”,出行即服務(wù)的理念日益深入,因此乘客對(duì)服務(wù)的需求和要求也越來越高[1]。用戶畫像正是通過建模抽象出易于理解、具有代表性和意義的用戶標(biāo)簽,通過這些標(biāo)簽來構(gòu)建一個(gè)用戶的信息集合,為用戶的個(gè)性化服務(wù)提供支撐。在城市軌道交通系統(tǒng)中,乘客信息可以通過自動(dòng)售檢票(Automatic Fare Collection,AFC)、地鐵APP和土地等數(shù)據(jù)分析,將其轉(zhuǎn)化為乘客的出行標(biāo)簽,建立城市軌道交通乘客畫像,能夠深入理解乘客的需求,從而設(shè)計(jì)并提出更適合乘客的服務(wù)產(chǎn)品,提升乘客的出行體驗(yàn)。
國(guó)內(nèi)外學(xué)者針對(duì)用戶畫像以及與交通領(lǐng)域相關(guān)的旅客畫像展開了一定的研究[2-5]。張軍鋒[6]進(jìn)行了鐵路旅客用戶畫像系統(tǒng)設(shè)計(jì)與應(yīng)用研究,為客戶推薦服務(wù)、精準(zhǔn)廣告投放、客運(yùn)輔助決策等業(yè)務(wù)提供數(shù)據(jù)支持,羅情平等[7]研究了基于大數(shù)據(jù)的青島地鐵乘客畫像,能夠更為靈活高效地實(shí)現(xiàn)客流分析的功能。Li等[8-9]提出一種混合時(shí)空神經(jīng)網(wǎng)絡(luò)來研究乘客出行的空間和時(shí)間特征,推斷乘客的年齡和居住區(qū)域,許心越等[10]提出一種數(shù)據(jù)驅(qū)動(dòng)的乘客出行目的識(shí)別方法,融合AFC 和興趣點(diǎn)(Point of Interest,POI)數(shù)據(jù),使用基于密度的聚類算法識(shí)別乘客出行目的。但是,以上研究缺乏多維度考慮乘客畫像指標(biāo)的構(gòu)建,乘客畫像的應(yīng)用還處于探索階段。
從用戶畫像的發(fā)展歷程來看,用戶信息的獲取和使用在企業(yè)挖掘用戶需求、提升服務(wù)水平、創(chuàng)造更高收益等方面具有重要的價(jià)值和意義。對(duì)于快速發(fā)展的城市軌道交通而言,乘客畫像的發(fā)展空間和應(yīng)用價(jià)值是巨大的[6-10]。而在乘客畫像研究中,融合哪些數(shù)據(jù),構(gòu)建怎樣的指標(biāo)體系、如何將乘客畫像的成果充分地運(yùn)用到運(yùn)營(yíng)生產(chǎn)實(shí)踐中,將是乘客畫像研究的主要方向。
對(duì)于乘客個(gè)體而言,需要軌道交通管理者提供反映其偏好的全出行鏈誘導(dǎo)服務(wù)。在乘客進(jìn)站前,乘客需要獲知與其出行目的相關(guān)的出發(fā)時(shí)間、出發(fā)車站、目的車站以及出行偏好的路徑及限流等信息,以及多種交通方式銜接的出行方案;在出行過程中,乘客需要獲知列車各車廂的擁擠程度、可切換的路線以及和乘客年齡段等相匹配的娛樂和廣告信息;在乘客出站后,乘客需要獲知站點(diǎn)周邊的多種交通方式接駁以及站點(diǎn)周邊的購(gòu)物、娛樂等商家信息。
對(duì)于軌道交通管理者而言,掌握乘客的個(gè)人出行特征,可以更加精準(zhǔn)滿足乘客需求的變化,精準(zhǔn)優(yōu)化列車交路、停站、運(yùn)行間隔,通過增加列車上線、臨時(shí)調(diào)整列車折返點(diǎn)等方式,將運(yùn)力及時(shí)精準(zhǔn)投放至擁擠區(qū)段;同時(shí)可優(yōu)化車站的人員和設(shè)施設(shè)備配置,例如,當(dāng)通勤者為站內(nèi)主要出行乘客時(shí),路徑規(guī)劃及導(dǎo)航相關(guān)的設(shè)備設(shè)施可在非必要時(shí)進(jìn)行刪減,引導(dǎo)及售票人員可以進(jìn)行縮減[11];結(jié)合乘客屬性及車站周邊的商業(yè)布置,有針對(duì)性設(shè)置站內(nèi)廣告,以提高經(jīng)濟(jì)效益。
乘客畫像已成為城市軌道交通提升運(yùn)營(yíng)管理和服務(wù)水平所不可或缺的因素,然而現(xiàn)有的群體性服務(wù)模式不能滿足運(yùn)營(yíng)管理者和乘客的上述需求[1],不利于乘客的出行體驗(yàn),也限制了軌道交通的服務(wù)提升。因此,亟需構(gòu)建軌道交通乘客畫像,有效關(guān)聯(lián)、融合、引入地鐵相關(guān)的多源數(shù)據(jù),幫助運(yùn)營(yíng)管理者了解乘客的出行特征和服務(wù)偏好,為打造集“互動(dòng)式”行車組織、“協(xié)同式”客運(yùn)組織、“主動(dòng)式”乘客服務(wù)的智慧運(yùn)輸服務(wù)管理體系提供數(shù)據(jù)支撐,進(jìn)而實(shí)現(xiàn)軌道交通的“出行即服務(wù)”。
借鑒其他行業(yè)的用戶畫像體系,通過挖掘APP注冊(cè)數(shù)據(jù)、AFC數(shù)據(jù)和車站POI數(shù)據(jù),構(gòu)建乘客畫像指標(biāo)體系如圖1 所示。一級(jí)指標(biāo)包括身份信息、業(yè)務(wù)信息和衍生信息。身份信息包括自然屬性和社會(huì)屬性,自然屬性包括乘客的APP ID、性別、年齡,社會(huì)屬性包括乘客的職業(yè),根據(jù)性別、年齡和職業(yè)可在線上推送信息時(shí)確定推送消息的適合人群;業(yè)務(wù)信息包括出行基礎(chǔ)信息和出行統(tǒng)計(jì)信息,出行基礎(chǔ)信息包括乘客的進(jìn)、出站時(shí)間和進(jìn)、出站站點(diǎn),出行統(tǒng)計(jì)信息包括平均出行時(shí)長(zhǎng)、日均出行次數(shù)、出行時(shí)間分布、出行OD 分布等三級(jí)指標(biāo),描述了乘客基本的出行特征和規(guī)律,為衍生信息中指標(biāo)的獲取提供支撐,同時(shí)也可用于乘客出行偏好的提?。谎苌畔ɑ钴S屬性和功能屬性,活躍屬性包括出行活躍度和出行相關(guān)性,出行活躍度可為乘客畫像的更新提供依據(jù),功能屬性包括乘客的出行需求類型、居住區(qū)域和工作區(qū)域,出行需求類型即刻畫乘客是通勤類乘客、旅游乘客還是生活類乘客,以方便為不同類型的乘客規(guī)劃不同的出行方案。
圖1 乘客畫像指標(biāo)體系Fig.1 Passenger portrait index system
乘客畫像中指標(biāo)的獲取需要明確的規(guī)則。對(duì)于乘客身份信息中的APP ID 可通過APP 注冊(cè)數(shù)據(jù)獲得,性別、年齡和職業(yè)的推算方法還處于探索階段[8-9],不做深入研究,業(yè)務(wù)信息可通過AFC 數(shù)據(jù)統(tǒng)計(jì)分析獲得,其他關(guān)鍵性的指標(biāo)通過以下方法進(jìn)行推算。
獲取乘客的出行需求類型本質(zhì)上就是對(duì)乘客分類的過程,對(duì)發(fā)現(xiàn)乘客的相似行為和出行規(guī)律具有重要意義[12]。選取的乘客分類指標(biāo)應(yīng)能從多個(gè)方面反應(yīng)乘客的出行行為特征和規(guī)律,因此分別從出行強(qiáng)度、時(shí)間維度和空間維度3 個(gè)方面選取乘客畫像指標(biāo)體系中的總出行次數(shù)、首次出行時(shí)間和平均出行時(shí)長(zhǎng)作為車站內(nèi)乘客聚類的指標(biāo),聚類算法選擇K-means算法,并采用手肘法確定最佳K值。
乘客居住區(qū)域所處的車站站點(diǎn)一般是乘客首次出行的起始站點(diǎn)或者最后一次出行的目的站點(diǎn),因此某車站作為乘客的居住區(qū)域站點(diǎn)的概率為該站點(diǎn)作為乘客首次出行的起始站點(diǎn)和最后一次出行的目的站點(diǎn)次數(shù)占乘客在該站總進(jìn)出站次數(shù)的比例。假設(shè)乘客i的某一次出行l(wèi)的進(jìn)出站站點(diǎn)分別為(l),(l);進(jìn)出站時(shí)間分別(l),(l),在工作日以12:00 作為分界點(diǎn),休息日以16:00 作為分界點(diǎn),統(tǒng)計(jì)乘客在相應(yīng)時(shí)間段的進(jìn)出站點(diǎn)次數(shù)。車站e作為乘客i居住區(qū)域站點(diǎn)的概率計(jì)算方法如下。
式中:p(i,e)代表車站e作為乘客i居住區(qū)域車站站點(diǎn)的概率;Ni代表乘客i歷史出行的總次數(shù)。
函數(shù)φ,γ的定義如下。
最終選取概率最大的車站作為乘客的居住區(qū)域站點(diǎn)。如果存在多個(gè)車站概率相等且最大,則選取車站附近住宅類POI數(shù)量最大的車站作為居住區(qū)域站點(diǎn)。
乘客工作區(qū)域所處的車站站點(diǎn)一般是工作日內(nèi)乘客12:00 前作為目的車站和12:00 后作為起始車站,故車站e作為乘客i工作區(qū)域站點(diǎn)的概率計(jì)算方法如下。
式中:q(i,e)代表車站e作為乘客i工作區(qū)域車站站點(diǎn)的概率。
最終選取概率最大的車站作為乘客的工作區(qū)域站點(diǎn)。如果存在多個(gè)車站概率相等且最大,則選取車站附近工作類POI數(shù)量最大的車站作為工作區(qū)域站點(diǎn)。
(1)AFC數(shù)據(jù)。使用北京市城市軌道交通某年6月份的AFC數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù),共有17 189萬(wàn)條出行記錄,其中AFC數(shù)據(jù)包含5個(gè)字段,分別為卡號(hào)、進(jìn)站時(shí)間、出站時(shí)間、進(jìn)站站點(diǎn)和出站站點(diǎn)。
(2)POI 數(shù)據(jù)。通過高德開放平臺(tái)提供的搜索POI 功能,獲取與AFC 數(shù)據(jù)同時(shí)期的各站點(diǎn)附近500 m 范圍內(nèi)的POI 數(shù)據(jù),類別包括住宅類(酒店、住宅區(qū)等)、工作類(建筑、醫(yī)藥等公司)、娛樂類(電影院、電玩城等)、教育類(學(xué)校、博物館等)、購(gòu)物類(購(gòu)物中心、商場(chǎng)等)和交通類(火車站、公交站等)[10]。
2.2.1 出行需求類型
以西直門站進(jìn)站乘客為研究對(duì)象,選取6 月6日至8 日共3 個(gè)工作日的AFC 數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù),累計(jì)進(jìn)站人次197 328 次,分析車站內(nèi)工作日乘客的出行行為特征。將乘客分為5 類,各類的聚類中心點(diǎn)如表1所示。
表1 聚類中心點(diǎn)Tab.1 Cluster center point
詳細(xì)聚類結(jié)果分析如下。
(1)第一類乘客所占比例為21.2%,3 d內(nèi)出行次數(shù)為1.75,是5 類中出行次數(shù)最多的一類,首次出行時(shí)間為08:22,平均出行時(shí)間為27.7 min,出行距離不是很遠(yuǎn),符合早高峰的時(shí)間段,可以認(rèn)為該類乘客為標(biāo)準(zhǔn)的早高峰時(shí)期的通勤乘客[12]。
(2)第二類乘客所占比例為10.2%,3 d內(nèi)出行次數(shù)為1.34,出行距離較遠(yuǎn),占比較少,可視為外出旅游或者長(zhǎng)途出行的乘客,結(jié)合POI數(shù)據(jù),車站附近公交站及火車站較多,尤其有北京北站,方便乘客出行旅游。
(3)第三類乘客所占比例為34.5%,3 d內(nèi)出行次數(shù)為1.69,僅次于第一類乘客,出行距離相比其它類適中,符合晚高峰的時(shí)間段,可以認(rèn)為該類乘客為標(biāo)準(zhǔn)的晚高峰時(shí)期的通勤乘客,同時(shí)該類乘客是5 類乘客中占比最高的一類,說明西直門站晚高峰進(jìn)站人數(shù)多,結(jié)合POI數(shù)據(jù),車站附近有較多的辦公區(qū),說明該解釋是合理的。
(4)第四類、第五類乘客所占比例分別為17.2%,17.1%,總出行次數(shù)較少,出行距離相比其他類適中,出行時(shí)間較晚,可視為生活類乘客,結(jié)合POI數(shù)據(jù),該站附近有很多購(gòu)物、餐飲的商家,可以認(rèn)為該類出行是乘客消費(fèi)之后回家的出行。
綜上所述,按照不同類型乘客的出行需求,最終將乘客分為通勤乘客、旅游乘客和生活類乘客。
2.2.2 工作、居住區(qū)域
從AFC 數(shù)據(jù)中挑選1 名乘客來推算其居住區(qū)域 站點(diǎn)和工作區(qū)域站點(diǎn), 一卡通ID 為“1000751122201746”。
根據(jù)其出行記錄信息以及居住區(qū)域站點(diǎn)計(jì)算規(guī)則,得到亮馬橋站作為乘客的工作區(qū)域站點(diǎn)。亮馬橋站進(jìn)出站客流分布如圖2 所示,亮馬橋站的客流在工作日和周末均有明顯的早晚高峰特性[14]。同時(shí),分析該站的POI 數(shù)據(jù),亮馬橋站POI 數(shù)據(jù)如表2 所示,其附近有較多的工作、購(gòu)物和娛樂性質(zhì)的場(chǎng)所,為該站附近提供了較多的工作崗位。所以車站的客流主要來源于車站附近工作區(qū)的通勤客流。通過上述分析說明工作區(qū)域站點(diǎn)計(jì)算的結(jié)果具有合理性。
表2 亮馬橋站POI類型及比例 %Tab.2 POI type and proportion of Liangmaqiao Station
圖2 亮馬橋站進(jìn)出站客流分布Fig.2 Distribution of entrance and exit passenger flows at Liangmaqiao Station
根據(jù)工作區(qū)域站點(diǎn)計(jì)算規(guī)則,得到天通苑站作為該乘客的居住區(qū)域站點(diǎn)。根據(jù)分析天通苑站的客流特性在工作日和周末為明顯的早晚雙峰型。這是因?yàn)檫@部分客流主要來源于車站附近居民區(qū)的通勤客流,早高峰時(shí)段進(jìn)站去上班,晚高峰時(shí)段回到家。通過上述分析說明居住區(qū)域站點(diǎn)計(jì)算的結(jié)果具有合理性。
準(zhǔn)確預(yù)測(cè)車站的客流需求對(duì)城市軌道交通的運(yùn)營(yíng)至關(guān)重要。以往的研究主要是從宏觀層面出發(fā),用前幾個(gè)時(shí)段的客流量預(yù)測(cè)后一時(shí)段的客流量,然而,這種方法基本上忽略了乘客個(gè)體的出行行為規(guī)律。例如,對(duì)于通勤乘客早上在地鐵站下車上班,那么很可能會(huì)在晚上同一個(gè)車站上車回家。因此,基于乘客早晚通勤的出行行為引入返程客流的概念進(jìn)行客流預(yù)測(cè)[15-16],相較于未建立乘客畫像,可通過乘客畫像中的出行需求類型、居住區(qū)域和工作區(qū)域判斷某乘客是否為某一車站的返程乘客,進(jìn)而統(tǒng)計(jì)車站的返程客流。
將第j周星期v的時(shí)段t內(nèi)在s站的返程客流定義為乘客在某時(shí)間段到達(dá)s站,完成活動(dòng)后并在時(shí)段t從s站返程的人數(shù),記為(t)。為了預(yù)測(cè)第j周星期v的t+ 1 時(shí)段s站的客流量y(t+ 1),將車站在t+ 1時(shí)段內(nèi)的返程客流r(t+ 1)作為一個(gè)新的變量加入到時(shí)間序列預(yù)測(cè)模型中,從而在預(yù)測(cè)的過程中兼顧乘客的出行行為規(guī)律。假設(shè)存在概率分布(ta,tb)描述了星期v乘客在ta時(shí)段到達(dá)s站并在tb時(shí)段從s站出發(fā)返程的條件概率,同時(shí)假設(shè)(ta,tb)呈周期分布,且周期為一周,所以可以通過選取s站內(nèi)共W周的歷史出站和返程客流數(shù)據(jù),利用均值來估算星期v各個(gè)時(shí)段對(duì)應(yīng)的(ta,tb),計(jì)算公式如下。
定義普通的季節(jié)性自回歸移動(dòng)平均(S-ARIMA)模型為M0 模型,依據(jù)估算出(t+ 1),并加入到M0 中,將該模型定義為M1 模型[17]。S-ARIMA模型通常用ARIMA(p,d,q)(P,D,Q)[Ω]表示,其中p,d,q分別代表自回歸、差分和移動(dòng)平均的系數(shù);P,D,Q為季節(jié)部分的自回歸、差分和移動(dòng)平均系數(shù);Ω是季節(jié)的周期數(shù)。
對(duì)于一個(gè)時(shí)間序列y1,y2,...,yt,ARIMA(p,d,q)(P,D,Q)[Ω]模型為
式中:et為遵循白噪聲的誤差項(xiàng),且服從均值為0方差為σ2的正態(tài)分布。
其中,B滿足如下公式。
式中:?代表?時(shí)段。
?、Φ、θ和Θ函數(shù)的計(jì)算公式如下。
式中:?i,Φi,θi和Θi為待求的系數(shù)。
當(dāng)把返程客流量r1,r2,...,rt作為協(xié)變量時(shí),進(jìn)站客流量yt與返程客流量rt有以下關(guān)系。
式中:β為回歸系數(shù);r1,r2,...,rt是由(t)中星期v、站點(diǎn)s已知時(shí),時(shí)段取1,2, ···,t所得;ηt服從ARIMA(p,d,q)(P,D,Q)[Ω]模型,代表總的進(jìn)站客流中除去返程客流之外的客流量。根據(jù)車站 歷 史 的yt和rt,計(jì) 算 出β和ηt,根 據(jù)ηt服 從ARIMA模型以及公式⑺計(jì)算得到ηt+1和rt+1,帶入yt+1=βrt+1+ηt+1中,預(yù)測(cè)得到t+ 1 時(shí)段的進(jìn)站客流量。
以天通苑站6月6—8日3個(gè)工作日的AFC數(shù)據(jù)為基礎(chǔ),驗(yàn)證上述方法。天通苑站進(jìn)站客流與返程客流如圖3 所示,可以看出,在早高峰時(shí)間段返程客流所占的比例均在50%以上。因此,將返程客流作為一個(gè)附加變量來提高車站進(jìn)站客流的預(yù)測(cè)精度非常有必要。通過乘客畫像中的出行需求類型、居住區(qū)域和工作區(qū)域判斷乘客是否為該車站的返程乘客,然后根據(jù)乘客畫像中的出行基礎(chǔ)信息包含的進(jìn)出站時(shí)間可以統(tǒng)計(jì)ta時(shí)段從s站下車并在tb時(shí)段從s站上車的乘客數(shù)量,根據(jù)公式⑸計(jì)算出(ta,tb),返程概率示意圖如圖4 所示。可以發(fā)現(xiàn)其分布主要表現(xiàn)為家庭活動(dòng),出站客流一般在晚上達(dá)到高峰,返程客流集中在第二天早上,表現(xiàn)出很強(qiáng)的通勤客流的規(guī)律性。依據(jù)公式⑹估算出同一星期內(nèi)天通苑站的進(jìn)站返程客流,返程客流估算值與實(shí)際進(jìn)站客流對(duì)比圖如圖5 所示??梢钥闯?,估算的返程客流(t)與(t)非常匹配。值得注意的是,(t)占總進(jìn)站客流的很大一部分,它可以正確描述(t)中前后出行的因果關(guān)系和長(zhǎng)期依賴性。
圖3 天通苑站進(jìn)站客流與返程客流Fig.3 Entrance passenger flow and return passenger flow at Tiantongyuan Station
圖4 返程概率示意圖Fig.4 Return probability
圖5 返程客流估算值與實(shí)際進(jìn)站客流對(duì)比圖Fig.5 Comparison between estimated return passenger flow and actual entrance passenger flow
將返程客流量作為協(xié)變量添加至M0 模型中,模型參數(shù)選擇為(2,0,1)(1,1,0)[72],模型預(yù)測(cè)結(jié)果對(duì)比如表3 所示,可以發(fā)現(xiàn),添加新變量后訓(xùn)練集的RMSE 減少9.87,測(cè)試集RMSE 減少9.02,訓(xùn)練集的SMAPE 減少0.64%,測(cè)試集的SMAPE減少0.16%,預(yù)測(cè)的效果更加準(zhǔn)確。
表3 模型預(yù)測(cè)結(jié)果對(duì)比Tab.3 Comparison of model prediction results
基于AFC 數(shù)據(jù)挖掘乘客的出行規(guī)律建立乘客畫像指標(biāo)體系,給出相關(guān)指標(biāo)的計(jì)算方法并對(duì)結(jié)果進(jìn)行分析,結(jié)果表明,乘客的分類與乘客實(shí)際的出行特性較為符合,同時(shí)計(jì)算得到的居住區(qū)域和工作區(qū)域站點(diǎn)與車站內(nèi)的客流特性和車站附近的土地屬性也較為符合。其次,在乘客畫像的應(yīng)用層面,探討了乘客畫像中相關(guān)指標(biāo)輔助精準(zhǔn)化客流預(yù)測(cè)的應(yīng)用效果。結(jié)果表明乘客畫像能夠提高相應(yīng)的客流預(yù)測(cè)精度,對(duì)提升乘客的出行體驗(yàn)和車站的運(yùn)營(yíng)管理水平在一定程度上有著促進(jìn)作用,未來還可以進(jìn)一步深化乘客畫像在城市軌道交通運(yùn)營(yíng)管理中的應(yīng)用。