賈興無
(山東省公安廳交通管理局, 濟南 250031)
隨著信息技術(shù)在個人出行領(lǐng)域的應(yīng)用越來越廣泛,通過個人移動終端可以獲取大量、精準、多維的居民出行行為數(shù)據(jù),例如手機信令、地理信息數(shù)據(jù)、興趣點數(shù)據(jù)、導(dǎo)航數(shù)據(jù)、移動軌跡等[1]. 與傳統(tǒng)基于人口普查和調(diào)查訪問獲取的居民出行行為數(shù)據(jù)相比,這些數(shù)據(jù)具有覆蓋范圍廣、記錄時間長、樣本量大、數(shù)據(jù)時效性強、位置定位準確等特點,這為交通管理者研究居民出行行為偏好、出行熱度和時空動態(tài)分析提供了基礎(chǔ)[2-6].
目前應(yīng)用于居民出行行為的研究方法主要分為2種:基于出行(Trip-based)和基于活動(Activity-based)的分析方法[7]. 基于出行的分析方法主要應(yīng)用于經(jīng)典的“四階段法”,該方法通過居民出行OD調(diào)查將居民出行行為從定性分析轉(zhuǎn)化為定量分析,并服務(wù)于整個交通需求預(yù)測過程. 傳統(tǒng)的居民出行調(diào)查方法存在主觀性較強、調(diào)查時耗長、誤差較大等問題. 因此,越來越多的研究者將目光投向于基于活動的分析方法. 近年來,研究人員一直試圖采用移動交通大數(shù)據(jù)結(jié)合人工智能方法來研究居民出行行為以及提高出行預(yù)測模型的準確性[3,8-9].
本文采用南京市網(wǎng)約車數(shù)據(jù)研究居民出行需求特征,具有以下優(yōu)勢:首先,網(wǎng)約車軟件使用人群大多集中在20~50歲之間,該年齡段的居民是城市交通日常出行最活躍的群體,出行目的大多是以工作、購物以及其他商業(yè)活動為主,相較于其他年齡層來說出行次數(shù)較多,所以對該年齡段出行需求預(yù)測分析,能夠反映出行活躍居民的一般規(guī)律. 其次,由于網(wǎng)約車具有方便、快捷、“門到門”出行、運營時間長(一般24 h)等特點,部分沒有固定出行交通工具或者不常使用固定交通工具的人群是使用主體,且該人群出行一般集中在城市范圍之內(nèi). 從城市出行結(jié)構(gòu)的角度分析,該人群屬于交通方式可轉(zhuǎn)移人群,研究該部分人群的出行生成對交通規(guī)劃、交通管理措施的制定有一定的指導(dǎo)意義,可以合理調(diào)整公共交通運力、調(diào)整交通模式、提升公共交通的競爭力. 最后,采用該數(shù)據(jù)可以深入分析居民出行的時空特征,獲得動態(tài)的出行比例,從而進一步提高出行需求模型預(yù)測精度.
在本文中通過網(wǎng)約車訂單數(shù)據(jù)試圖解釋以下問題:“什么樣的移動特征對人們的出行行為有影響?”“移動出行如何在時間維度影響居民出行行為?”“居民的出行特征和土地性質(zhì)之間是否存在相應(yīng)規(guī)則?”. 論文致力于從微觀角度利用這些數(shù)據(jù)來分析出行需求中的時空特征,為交通管理部門提供有用的建議. 圖1表示的是工作日和休息日居民選擇網(wǎng)約車出行的供需圖. 圖1 (a)表明工作日居民出行具有明顯的通勤特征,早高峰時段為08:00—09:00,晚高峰時段為17:30—19:30. 相比之下休息日(圖1 (b))早高峰出行量要遠低于工作日. 此外,圖1顯示無論高峰時段還是平峰時段,出行需求量均高于供給量,因此,研究居民出行的時空特征可以動態(tài)調(diào)整一天內(nèi)不斷變化的出行需求和交通供給,進而建立短時交通流預(yù)測模型,根據(jù)出行需求的時空特征來動態(tài)調(diào)整交通供給滿足出行需求.
為了從時空維度分析居民出行特征,本文采用南京市1個月內(nèi)(2017-03-01—2017-03-31)的網(wǎng)約車數(shù)據(jù),該數(shù)據(jù)包括司機ID、用戶ID、訂單地點和時間、上車/下車地點和時間以及票價. 通過對原始數(shù)據(jù)的標準化處理,為后續(xù)的分析和預(yù)測提供數(shù)據(jù)支持.
和其他公共交通工具相比,網(wǎng)約車的活動范圍往往能夠覆蓋城市的大部分區(qū)域,圖2(a)是南京市居民一天內(nèi)使用網(wǎng)約車數(shù)量的熱力圖,從圖表中可以看出全市具有較高的出行需求,尤其是核心區(qū)域. 本文以南京市核心區(qū)作為研究重點,根據(jù)不同的土地性質(zhì)將核心區(qū)劃分為居住區(qū)、商業(yè)區(qū)、教育區(qū)、醫(yī)療區(qū)和休閑區(qū)(公園)5類區(qū)域,一共102個不重疊的小區(qū),如表1所示.
從網(wǎng)約車數(shù)據(jù)中可以獲取每個時刻的出行生成量(包括發(fā)生量和吸引量),進一步獲取每個時間段各小區(qū)的生成量,分析生成量隨時間的變化規(guī)律. 為了確定出行需求的時空特征,繪制了時間、小區(qū)和頻率的三維圖(見圖3). 圖3可知,居民出行需求呈現(xiàn)先增加后減少再增加再減少的趨勢,其中商業(yè)區(qū)和居住區(qū)出行需求較高,其次是醫(yī)療區(qū)和教育區(qū),最后是休閑區(qū).
表1 南京核心區(qū)小區(qū)劃分表
圖2 南京市網(wǎng)約車分布及小區(qū)劃分圖
總的來說,休息日居民選擇網(wǎng)約車出行需求要高于工作日. 具體而言,可以分成5個階段. 第1階段,00:00—07:00,出行需求逐漸減少,絕大部分居住區(qū)和休閑區(qū)出行量為零. 但商業(yè)區(qū)和醫(yī)療區(qū)仍有少量需求:如新街口(小區(qū)64、66、67),鼓樓醫(yī)院(小區(qū)26),由于地鐵等公共交通工具停運,部分下班或結(jié)束娛樂的居民會選擇使用網(wǎng)約車;第2階段,07:00—10:00,出行人數(shù)達到一天中的第1個峰值,此時出行需求最大的區(qū)域為居住區(qū). 相比之下,休息日居民在這一時段出行需求明顯減少. 第3階段,10:00—17:00,出行變化比較平穩(wěn),出行人數(shù)達到白天的最小值,但在13:00左右出現(xiàn)小幅波動. 第4階段,17:00—21:00,該階段出行需求又達到1次峰值,在這一階段除了通勤出行還存在大量彈性出行(如娛樂、購物、餐飲等). 休息日在這一階段的出行需求遠高于工作日,出行需求熱點包括熱門的商業(yè)中心或旅游景點:新街口,紫峰大廈(小區(qū)36),秦淮河(小區(qū)78、79、80),夫子廟(小區(qū)87、88). 此外,一些公園也有很多旅游需求,例如玄武湖公園(小區(qū)17). 第5階段,21:00—24:00,這一階段出行需求略有上升,主要集中部分商業(yè)區(qū)如酒吧,影院,餐廳.
圖3 工作日和休息日出行需求時空特征圖
上述分析表明,出行需求與時間和空間有著密切的關(guān)系,這就需要量化它們之間的關(guān)系,有利于對出行需求的預(yù)測. 為了獲得更準確的出行需求預(yù)測結(jié)果,本文建立一種短時需求預(yù)測模型,為了提高預(yù)測精度,分別對不同的時間和空間進行預(yù)測.
本文采用WAVE-SVM耦合模型來預(yù)測居民出行需求,該方法結(jié)合小波分析(Daubechies5)和支持向量機(SVM)模型的互補優(yōu)勢,不僅可以獲得較高的預(yù)測精度,還能夠捕捉到短時交通需求的非平穩(wěn)特性[10].
WAVE-SVM方法包括4個步驟:
步驟1原始數(shù)據(jù)預(yù)處理. 處理的數(shù)據(jù)按時間排序,生成一個出行需求原始時間序列,表示為式(1):
(1)
式中,n0和l0分別為網(wǎng)約車訂單的原始時間序列a0,i(n0)的序號和數(shù)據(jù)量;i為訂單信息日期的數(shù)量;m為總天數(shù).
(2)
(3)
式中,lt-1為at-1(nt-1)中樣本數(shù)據(jù)量,h(k-2nt-1)和g(k-2nt-1)為2列共軛濾波器系數(shù),它們由小波系數(shù)決定.
步驟3訓練和預(yù)測. 采用如下方法:
1)首先,采用5倍交叉驗證的方法,給定一組訓練數(shù)據(jù)點,表示為式(4):
Train={(xn1,yn1),…,(xnl,ynl)}∈(X×Y)
(4)
式中,xni∈X=Rn;yni∈Y=Rn;ni=1,2,…,li;i=1,2,3,…,m.
2)其次,我們選擇徑向基函數(shù)為高斯核函數(shù)(RBF),表達式為式(5):
K(x,xi)=exp (-‖x-xi‖2/(2σ)2)
(5)
式中,x=m+1;xi=i.
()求解,通過重構(gòu)最小化問題和受到等式約束來求解式(6):
(6)
式中,φ(·):Rn→Rnh為核函數(shù);w∈Rnh為權(quán)矢量;eni∈R為誤差變量;b為偏差值;J為損失函數(shù);γ為正則化參數(shù).
4)預(yù)測,預(yù)測核心方程的表達式為式(7):
(7)
(8)
在本節(jié)中,采用Matlab軟件對WAVE-SVM模型進行算法實現(xiàn)和數(shù)據(jù)分析. 訓練數(shù)據(jù)來自南京市網(wǎng)約車訂單數(shù)據(jù),包括10個工作日(2017-03-01—2017-01-16)和6個休息日(3月4日,5日,11日,12日,18日和19日). 測試數(shù)據(jù)是3月17日(工作日)和3月25日(休息日). 為了驗證模型的預(yù)測精度,首先對2017年3月17日整個核心區(qū)的出行需求分別采用本文建立的WAVE-SVM模型和SVM模型進行預(yù)測,圖4表示的是WAVE-SVM模型和SVM模型預(yù)測結(jié)果與實際值的對比圖. 從圖4(a)中可知,本文建立的WAVE-SVM模型相較于SVM模型不僅預(yù)測精度高,還能夠捕捉到居民出行需求的非平穩(wěn)特性. 圖4(b)詳細對比了WAVE-SVM模型和SVM模型預(yù)測誤差值,其中WAVE-SVM模型誤差范圍集中在[-100,100],而SVM模型誤差范圍為[-150,150]. 因此,從圖4中可以明顯看出本文建立的組合模型相較于單獨的SVM模型預(yù)測效果較好.
圖4 南京市核心區(qū)實際值和兩種模型預(yù)測值對比
采用WAVE-SVM模型分別對不同區(qū)域工作日和休息日的出行需求時間序列進行預(yù)測. 預(yù)測誤差采用3種標準評判方法,分別是:MRE(平均相對誤差),VAPE(絕對誤差的方差)和RMSE(均方根誤差). 其中MRE和VAPE用于計算所有區(qū)間的實際值和預(yù)測值之間的相對誤差的平均值和方差,RMSE用于衡量預(yù)測值與真實值之間的偏差.
圖5顯示了實際值與預(yù)測值之間的比較. 紅線表示實際值,藍線表示預(yù)測值. 由圖5可知,WAVE-SVM方法顯示出良好的預(yù)測精度,特別是在區(qū)域1(住宅區(qū))和區(qū)域2(商業(yè)區(qū)),而區(qū)域5(休閑區(qū))的精度略低,原因是休閑區(qū)出行需求變化幅度較大,受制于SVM算法的局限性,預(yù)測結(jié)果更趨向于平穩(wěn). 總體而言,本文使用模型能夠精準預(yù)測居民出行需求的時空特征.
表2顯示了WAVE-SVM模型預(yù)測誤差結(jié)果. 除休閑區(qū)外,其他小區(qū)的預(yù)測精度均高于整體預(yù)測,結(jié)果表明:不同的時空特征能夠直接影響出行需求預(yù)測的精度,所以可采用出行需求的時空特征來動態(tài)調(diào)整交通供給滿足出行需求.
圖5 實際值與預(yù)測值之間的比較
小區(qū)類型預(yù)測日期MRE/%VAPE/%RMSE全區(qū) 2017-3-1714.322.1040.682017-3-2516.182.7448.53住宅區(qū)2017-3-177.951.2110.862017-3-258.701.7820.03商業(yè)區(qū)2017-3-178.140.8023.252017-3-253.200.5320.79醫(yī)療區(qū)2017-3-1710.191.458.072017-3-2511.031.799.64教育區(qū)2017-3-1715.952.2110.862017-3-2515.762.0510.66休閑區(qū)2017-3-1722.135.464.102017-3-2517.564.982.39
本文采用南京市網(wǎng)約車數(shù)據(jù)研究居民出行行為特征,著重分析了出行需求與時間和空間之間的密切關(guān)系. 通過研究發(fā)現(xiàn)采用該數(shù)據(jù)可以深入分析居民出行的時空特征,獲得動態(tài)的出行比例. 進一步建立了出行需求短時預(yù)測模型WAVE-SVM,該方法不僅獲得較高的預(yù)測精度,還發(fā)現(xiàn)不同的時空特征能夠直接影響出行需求預(yù)測的精度. 本文結(jié)果表明:采用網(wǎng)約車數(shù)據(jù)可以研究居民出行需求的時間特征,對于制定相應(yīng)的交通規(guī)劃、交通管理措施有一定的指導(dǎo)意義;此外,居民的出行需求隨著地塊的土地性質(zhì)而改變,可以有效幫助交通管理者合理調(diào)整公共交通運力、調(diào)整交通模式、提升公共交通的競爭力.