于泳波,侯佳
(1.南京市城市與交通規(guī)劃設(shè)計(jì)研究院股份有限公司,南京210018;2.江蘇省交通大數(shù)據(jù)與仿真平臺(tái)技術(shù)工程研究中心,南京210018)
公交優(yōu)先是城市交通發(fā)展的重要方向,準(zhǔn)確識(shí)別居民的公交出行,對(duì)公交線網(wǎng)優(yōu)化、動(dòng)態(tài)調(diào)度等具有重要意義。
聯(lián)合挖掘常規(guī)公交GPS 與IC 卡數(shù)據(jù),可以獲得公交客流量信息,并可進(jìn)一步挖掘公交站間OD信息[1-3]。大部分城市公交收費(fèi)為“一票制”,即只在上車刷卡,下車不需要刷卡,從而已有研究中,判斷下車站點(diǎn)是基于下一次乘車的上車站點(diǎn),或在公交換乘地鐵的情景下,結(jié)合地鐵進(jìn)站站點(diǎn),推斷最接近地鐵站點(diǎn)的公交站點(diǎn)為下車站點(diǎn)。前者存在難以驗(yàn)證的問題,后者則因?yàn)楣慌c地鐵換乘的比例問題,難以獲得較高的采樣率。GPS 數(shù)據(jù)和IC 卡數(shù)據(jù)均只能反映乘客在公交系統(tǒng)內(nèi)部的信息,無(wú)法獲得乘客在公交系統(tǒng)外的出行信息。
與常規(guī)公交GPS 和IC 卡數(shù)據(jù)相比,手機(jī)信令數(shù)據(jù)可獲取用戶在任意時(shí)刻的出行信息。通過(guò)手機(jī)信令數(shù)據(jù),可以獲得居民職住分布[4]、全天出行OD[5]與路徑信息[6],并可以準(zhǔn)確識(shí)別地鐵出行。已有通過(guò)手機(jī)信令數(shù)據(jù)識(shí)別非地鐵出行方式的研究,可分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)兩類。有監(jiān)督學(xué)習(xí),在提取出行軌跡的速度、加速度等特征的基礎(chǔ)上,構(gòu)建隨機(jī)森林、支持向量機(jī)等機(jī)器學(xué)習(xí)模型,對(duì)步行、自行車、小汽車、常規(guī)公交、地鐵等出行方式進(jìn)行識(shí)別[7-8]。無(wú)監(jiān)督學(xué)習(xí),通過(guò)提取路徑的出行距離、出行速度等特征,采用聚類等方法識(shí)別出行方式[9]??傮w而言,有監(jiān)督學(xué)習(xí)的識(shí)別效果優(yōu)于無(wú)監(jiān)督學(xué)習(xí)。
本文以手機(jī)信令數(shù)據(jù)為基礎(chǔ),結(jié)合地鐵刷卡數(shù)據(jù)、公交GPS 與刷卡數(shù)據(jù)等,通過(guò)計(jì)算手機(jī)用戶出行軌跡與公交車輛GPS軌跡的相似度,識(shí)別手機(jī)用戶是否采用公交出行,并進(jìn)一步識(shí)別常規(guī)公交站間OD。與已有研究相比,本文的創(chuàng)新點(diǎn)包括:第一,從ID 層面融合手機(jī)信令數(shù)據(jù)與刷卡數(shù)據(jù),獲得包含百萬(wàn)個(gè)樣本的大數(shù)據(jù)集作為標(biāo)定過(guò)的驗(yàn)證集;第二,結(jié)合路段長(zhǎng)度修正Levenshtein 距離,對(duì)手機(jī)用戶出行軌跡和公交車輛GPS軌跡進(jìn)行匹配,并考慮常規(guī)公交之間的換乘行為;第三,充分討論影響公交方式、公交線路、站間OD 等識(shí)別效果的影響因素,給出通過(guò)手機(jī)信令數(shù)據(jù)識(shí)別常規(guī)公交出行特征的可靠范圍。
以南京市2018年4月份移動(dòng)手機(jī)信令數(shù)據(jù)為基礎(chǔ)(該數(shù)據(jù)為出現(xiàn)在南京市的全部移動(dòng)手機(jī)用戶的基站軌跡,南京市移動(dòng)用戶數(shù)占全部手機(jī)用戶數(shù)的60%~65%,每個(gè)用戶平均每天產(chǎn)生約300 條數(shù)據(jù)),結(jié)合相同時(shí)段內(nèi)南京市地鐵刷卡數(shù)據(jù)、常規(guī)公交刷卡數(shù)據(jù)及常規(guī)公交GPS數(shù)據(jù),通過(guò)相關(guān)數(shù)據(jù)預(yù)處理方法,得到如下幾類數(shù)據(jù)。
(1)手機(jī)用戶出行路徑數(shù)據(jù)
基于已有研究中手機(jī)信令數(shù)據(jù)的路徑匹配算法,獲得移動(dòng)手機(jī)用戶出行路徑數(shù)據(jù),該數(shù)據(jù)包括脫敏后的手機(jī)用戶ID、出行時(shí)刻、出行起點(diǎn)基站、到達(dá)時(shí)刻、出行終點(diǎn)基站、出行途徑的路段序列(該序列根據(jù)時(shí)間排序,每個(gè)路段信息包括進(jìn)入該路段的時(shí)刻、路段ID信息)。
(2)手機(jī)信令數(shù)據(jù)識(shí)別出的地鐵站間OD數(shù)據(jù)
基于已有研究中通過(guò)手機(jī)信令數(shù)據(jù)識(shí)別地鐵出行的算法,獲得移動(dòng)手機(jī)用戶使用地鐵出行的地鐵站間OD數(shù)據(jù),該數(shù)據(jù)包括脫敏后的手機(jī)用戶ID、進(jìn)站站點(diǎn)、出站站點(diǎn)、進(jìn)站時(shí)段、出站時(shí)段等信息。
(3)地鐵刷卡數(shù)據(jù)識(shí)別出的地鐵站間OD數(shù)據(jù)
基于地鐵刷卡數(shù)據(jù)獲得的地鐵站間OD 數(shù)據(jù)包括IC卡卡號(hào)、進(jìn)站站點(diǎn)、出站站點(diǎn)、進(jìn)站時(shí)段、出站時(shí)段等信息。
(4)常規(guī)公交車輛運(yùn)行GPS路徑數(shù)據(jù)
基于已有研究中常規(guī)公交車輛GPS 的路徑匹配算法,獲得公交車輛運(yùn)行的路徑數(shù)據(jù),該數(shù)據(jù)包括公交車輛ID、公交線路ID、車輛運(yùn)行途徑的路段序列(該序列根據(jù)時(shí)間排序,每個(gè)路段信息包括進(jìn)入該路段的時(shí)刻、路段ID信息)。
(5)IC卡乘坐地鐵和常規(guī)公交的信息整合
該數(shù)據(jù)包括IC卡卡號(hào)、乘坐地鐵的進(jìn)站站點(diǎn)、出站站點(diǎn)、進(jìn)站時(shí)刻、出站時(shí)刻、乘坐常規(guī)公交的車輛ID、線路ID、上車站點(diǎn)、上車刷卡時(shí)刻等信息。
考慮換乘的常規(guī)公交出行識(shí)別,包括手機(jī)用戶與公交車輛路徑匹配、換乘識(shí)別、常規(guī)公交出行判定3個(gè)步驟。
2.1.1 手機(jī)用戶與公交車輛路徑匹配
手機(jī)用戶與公交車輛路徑匹配過(guò)程如下:
(1)為區(qū)分手機(jī)用戶信息和公交車輛信息,分別用m和b標(biāo)記相關(guān)變量。記pit,m為手機(jī)用戶i某次出行經(jīng)過(guò)的路段集合,該次出行起止時(shí)段為t;記pjt,b為公交車輛j當(dāng)天在時(shí)段t內(nèi)運(yùn)行經(jīng)過(guò)的路段集合。若pit,m?pjt,b≠?,則公交車輛j與手機(jī)用戶i在t時(shí)段的出行軌跡初步匹配;否則,不匹配。
(2)針對(duì)(1)中初步匹配的pit,m和pjt,b,記pit,m和pjt,b在pit,m?pjt,b中出現(xiàn)最早時(shí)刻為ti,fm、tj,fb,最晚時(shí)刻為ti,lm、tj,lb,則定義手機(jī)用戶出行的關(guān)鍵路段集Qi,t,m為(ti,fm,ti,lm)時(shí)段內(nèi)pit,m涉及的路段,公交GPS 的關(guān)鍵路段集Qj,t,b為(tj,fb,tj,lb)時(shí)段內(nèi)pjt,b涉及的路段。
(3)基于Levenshtein 距離,將路段長(zhǎng)度歸一化后作為權(quán)重,即將Qi,t,m和Qj,t,b變成同一個(gè)序列所需要做的改變路段長(zhǎng)度最小的變換,計(jì)算公式為
式中:EQi,t,m,Qj,t,b為路段序列Qi,t,m和Qj,t,b的Levenshtein 距離;lα為路段序列中α元素的權(quán)重,這里指α路段的歸一化長(zhǎng)度,lβ為路段序列中β元素的權(quán)重,這里指β路段的歸一化長(zhǎng)度。
(4)基于(3)中的變換結(jié)果,可得路段序列Qi,t,m和Qj,t,b的Levenshtein相似度FQi,t,m,Qj,t,b為
式中:Ld,Qi,t,m為將路段序列Qi,t,m變?yōu)镼j,t,b的過(guò)程中,刪除操作集合D中第d次涉及到的路段長(zhǎng)度;Lv,Qi,t,m為插入操作集合I中第v次涉及到的路段長(zhǎng)度;Lr,Qi,t,m為替換操作集合R中第r次涉及到的路段長(zhǎng)度;LQi,t,m為路段序列Qi,t,m的總長(zhǎng)度;LQj,t,b為路段序列Qj,t,b的總長(zhǎng)度。FQi,t,m,Qj,t,b越接近1,表明路段序列Qi,t,m和Qj,t,b的Levenshtein相似度越大。
(5)計(jì)算路段序列Qi,t,m和Qj,t,b的時(shí)間相似度HQi,t,m,Qj,t,b為
式中:tia,m為手機(jī)用戶i出行進(jìn)入a路段時(shí)刻;tja,b為公交車輛j運(yùn)行進(jìn)入a路段時(shí)刻;da為公交車輛運(yùn)行通過(guò)a路段所需時(shí)長(zhǎng)。HQi,t,m,Qj,t,b越接近1,表明路段序列Qi,t,m和Qj,t,b的時(shí)間相似度越大。
(6)綜合Levenshtein 相似度和時(shí)間相似度,可得路段序列Qi,t,m和Qj,t,b的相似度GQi,t,m,Qj,t,b為
式中:λ、η分別為FQi,t,m,Qj,t,b、HQi,t,m,Qj,t,b的權(quán)重系數(shù)。當(dāng)滿足GQi,t,m,Qj,t,b >Gthd時(shí),保留Qj,t,b對(duì)應(yīng)的車輛、公交線路及路段信息,添加到集合SQi,t,m中,SQi,t,m={(j,Uj,Qj,t,b)|GQi,t,m,Qj,t,b >Gthd} ,其中,Gthd為相似度閾值,Uj為j車輛服務(wù)的公交線路。
2.1.2 換乘識(shí)別方法
從時(shí)間維度定義換乘規(guī)則為:若集合SQi,t,m中,存在N個(gè)元素,N≤MSQi,t,m,MSQi,t,m為集合中元素個(gè)數(shù),每個(gè)Qj,t,b(j=1,2,…,N)之間時(shí)間沒有交叉,即Qj,t,b對(duì)應(yīng)的時(shí)間段(tj,fb,tj,lb)和Qj+1,t,b對(duì)應(yīng)的時(shí)間段(tj+1,fb,tj+1,lb),滿足當(dāng)tj+1,fb >tj,fb時(shí),tj+1,fb >tj,lb,或當(dāng)tj,fb >tj+1,fb時(shí),tj,fb >tj+1,lb。
從空間維度定義換乘規(guī)則為:若Qj,t,b對(duì)應(yīng)的最后一個(gè)站點(diǎn)與Qj+1,t,b對(duì)應(yīng)的第一個(gè)站點(diǎn)為同一個(gè)站點(diǎn),則應(yīng)滿足對(duì)應(yīng)的兩條線路均經(jīng)過(guò)該站點(diǎn);若不為同一個(gè)站點(diǎn),則應(yīng)滿足距離不超過(guò)閾值θthd(單位,m)。
i用戶同時(shí)滿足時(shí)間和空間維度換乘規(guī)則,則認(rèn)為其本次出行中使用了常規(guī)公交,且換乘過(guò)N-1次。
將集合中車輛等相關(guān)信息根據(jù)上述換乘規(guī)則分組,分組步驟如下:
(1)記一次出行中最多換乘次數(shù)為τthd,對(duì)集合中全部元素做τthd+1 次組合,每次每組元素個(gè)數(shù)為c,c=1,2,…,τthd+1,得到個(gè)組合結(jié)果。
(2)檢查每組組內(nèi)元素是否同時(shí)滿足時(shí)間和空間維度的換乘規(guī)則。若不滿足,則刪除改組;否則,保留。
(3)針對(duì)(2)中保留的多組元素,根據(jù)每組元素對(duì)應(yīng)的時(shí)長(zhǎng)總和,即∑tj,lb-tj,fb,進(jìn)行降序排列。
(4)保留(3)中第1 組元素,從第2 組開始檢查。若當(dāng)前檢查組內(nèi)存在元素在保留的組中出現(xiàn)過(guò),則刪除當(dāng)前組;否則,保留當(dāng)前組,并繼續(xù)檢查,直至所有組均執(zhí)行完檢查。以此保證保留的CN,surplus組元素之間不存在相同的元素,記CN,surplus組組合構(gòu)成的集合為Sit,C,該集合每個(gè)元素均為長(zhǎng)度不超過(guò)τthd+1的原SQi,t,m中的元素組合。
2.1.3 常規(guī)公交出行判定
記δ為Sit,C中某個(gè)組合各子元素Qj,t,b對(duì)應(yīng)的手機(jī)路徑Qi,t,m長(zhǎng)度之和占手機(jī)用戶i在t時(shí)段出行的路徑長(zhǎng)度比例,即
保留Sit,C中滿足δ >δthd的元素,其中,δthd為路徑長(zhǎng)度比例閾值。若根據(jù)該條件過(guò)濾后的集合Sit,CF為空,則手機(jī)用戶i在t時(shí)段出行沒有使用常規(guī)公交;否則,使用了常規(guī)公交,且選擇每種公交組合的概率為
式中:P(k)為手機(jī)用戶i在t時(shí)段出行選擇公交組合k的概率,k是集合Sit,CF的元素;δk為k對(duì)應(yīng)的出行路徑長(zhǎng)度占比;kall為集合Sit,CF的長(zhǎng)度。
公交站客流特征受土地利用因素影響[10],假設(shè)一輛車經(jīng)過(guò)的一個(gè)路段上有多個(gè)站點(diǎn),手機(jī)用戶在該路段上車或下車,則選擇站點(diǎn)上下車的概率與站點(diǎn)周邊用地屬性、所處時(shí)段相關(guān)。
將全天分為3 個(gè)時(shí)間段,分別為早高峰、晚高峰、其他時(shí)段?;谝延醒芯砍晒?,早高峰時(shí)段公交站點(diǎn)上車客流量與站點(diǎn)周邊居住用地規(guī)模正相關(guān),下車客流量與站點(diǎn)周邊崗位相關(guān)用地規(guī)模正相關(guān);晚高峰時(shí)段,崗位數(shù)較多的區(qū)域,公交站點(diǎn)上客量相對(duì)越多,但下車客流量與用地特征并無(wú)明顯相關(guān)關(guān)系。對(duì)于商業(yè)、娛樂等用地,人越多,相應(yīng)公交站被選擇的可能性越大,不同時(shí)段選擇公交站的影響因素如表1所示。
表1 站點(diǎn)上下車選擇影響因素Table 1 Factors influencing choice of boarding and alighting at stops
站點(diǎn)300 m 范圍覆蓋居住人口、崗位、停留人數(shù),是以站點(diǎn)為圓心,300 m 為半徑的圓形區(qū)域內(nèi)涉及到的相關(guān)手機(jī)用戶數(shù)。若站點(diǎn)周邊無(wú)居住或崗位,則以停留人數(shù)代替。以不同時(shí)段公交站點(diǎn)對(duì)應(yīng)的相應(yīng)手機(jī)用戶數(shù)占比為站點(diǎn)被選擇的概率,則手機(jī)用戶i在t時(shí)段出行,乘坐j車輛經(jīng)過(guò)對(duì)應(yīng)線路Uj的站間OD (Δks,ls,Δke,le)的概率P(t,j,Uj,Δks,ls,Δke,le)為
式中:ls為i用戶乘坐j車輛時(shí)經(jīng)過(guò)的第一個(gè)路段;le為經(jīng)過(guò)的最后一個(gè)路段;Kls為j車輛服務(wù)線路在ls路段的站點(diǎn)數(shù);Kle為該線路在le路段的站點(diǎn)數(shù);Δks,ls為j車輛服務(wù)線路在ls路段的第ks個(gè)站點(diǎn);Δke,le為j車輛服務(wù)線路在le路段的第ke個(gè)站點(diǎn);T1為早高峰時(shí)段;T2為晚高峰時(shí)段;T3為其他時(shí)段;Zks,ls為Δks,ls周邊300 m 覆蓋的居住人口數(shù);Wks,ls為崗位數(shù);Yks,ls為停留人數(shù)同時(shí)段歷史平均值;Wke,le為崗位數(shù);Yke,le為停留人數(shù)同時(shí)段歷史平均值。
3.1.1 驗(yàn)證集獲取方法
手機(jī)信令數(shù)據(jù)在地鐵出行識(shí)別中精度較高,而公交IC 卡既有地鐵刷卡記錄,又有常規(guī)公交刷卡記錄,故以地鐵出行識(shí)別為紐帶,從ID層面匹配手機(jī)用戶和IC卡卡號(hào)是獲得相對(duì)較大樣本數(shù)據(jù)集的一種途徑。匹配過(guò)程如圖1所示。
圖1 驗(yàn)證集數(shù)據(jù)獲取流程Fig.1 Verification data acquisition process
地鐵刷卡記錄與常規(guī)公交刷卡記錄根據(jù)IC卡號(hào)進(jìn)行融合,常規(guī)公交刷卡數(shù)據(jù)與GPS數(shù)據(jù)根據(jù)刷卡時(shí)刻與車輛時(shí)刻進(jìn)行匹配,以此獲得上車站點(diǎn)和對(duì)應(yīng)時(shí)間信息,已有研究較多,不再贅述。僅針對(duì)手機(jī)信令數(shù)據(jù)與地鐵刷卡數(shù)據(jù)通過(guò)識(shí)別出的站間OD,以進(jìn)行手機(jī)用戶ID 與IC 卡號(hào)匹配方法做描述,匹配過(guò)程如下:
(1)基于手機(jī)信令數(shù)據(jù)識(shí)別地鐵出行的站間OD信息,得到以進(jìn)站站點(diǎn)、出站站點(diǎn)、進(jìn)站時(shí)段、出站時(shí)段為鍵,多個(gè)手機(jī)ID 組成的集合為值的鍵值對(duì)結(jié)果。
(2)基于地鐵刷卡數(shù)據(jù),同樣得到以進(jìn)站站點(diǎn)、出站站點(diǎn)、進(jìn)站時(shí)段、出站時(shí)段為鍵,多個(gè)IC 卡號(hào)組成的集合為值的鍵值對(duì)結(jié)果。
(3)記相同鍵key 對(duì)應(yīng)的手機(jī)ID 集合為Vkey,m,IC卡號(hào)集合為Vkey,IC,vi,m為乘坐過(guò)地鐵的手機(jī)用戶i的ID,vj,IC為刷卡進(jìn)出地鐵的IC 卡j的卡號(hào),若vi,m∈Vkey,m且vj,IC∈Vkey,IC,表示手機(jī)用戶i與IC卡j同時(shí)出現(xiàn)過(guò)。記鍵數(shù)閾值為μthd,如果vi,m與vj,IC同時(shí)出現(xiàn)的次數(shù)超過(guò)μthd,且滿足條件概率P(vj,IC|vi,m)=P(vi,m|vj,IC)=1,則認(rèn)為vi,m與vj,IC唯一匹配。
在上述過(guò)程的基礎(chǔ)上,μthd取5,將vi,m對(duì)應(yīng)的vj,IC乘坐常規(guī)公交的信息根據(jù)時(shí)間融入手機(jī)用戶出行信息中,即可得到包含45.66 萬(wàn)手機(jī)用戶,2010379 個(gè)常規(guī)公交出行樣本,3521356 個(gè)非地鐵非常規(guī)公交出行樣本的數(shù)據(jù)集。
3.1.2 公交出行方式識(shí)別結(jié)果
取λ=0.5 ,η=0.5 ,Gthd=0.75 ,θthd=100 ,τthd=1,δthd=0.8,使用3.1.1節(jié)獲得的數(shù)據(jù)集驗(yàn)證一次出行是否使用常規(guī)公交,混淆矩陣如表2所示。
表2 常規(guī)公交出行識(shí)別混淆矩陣Table 2 Confusion matrix of bus trip mode identification
常規(guī)公交出行方式識(shí)別精確率為0.807,召回率為0.912,識(shí)別效果較好。
3.1.3 公交換乘識(shí)別結(jié)果
常規(guī)公交換乘識(shí)別的混淆矩陣如表3所示。常規(guī)公交換乘識(shí)別精確率為0.660,召回率為0.756。其中,換乘1 次的樣本數(shù)為387454,占有換乘行為的87.6%,其被準(zhǔn)確識(shí)別出有換乘行為的占該樣本數(shù)的73.7%;超過(guò)一次換乘的樣本數(shù)占12.4%,被準(zhǔn)確識(shí)別出有換乘行為的占比為89.0%。
表3 常規(guī)公交換乘識(shí)別混淆矩陣Table 3 Confusion matrix of bus transfer identification
3.1.4 公交線路與站間OD識(shí)別準(zhǔn)確率
常規(guī)公交線路識(shí)別的準(zhǔn)確率用識(shí)別出的公交線路與實(shí)際乘坐的公交線路對(duì)比,若兩者一致,則線路識(shí)別準(zhǔn)確,否則不準(zhǔn)確。根據(jù)3.1.2 節(jié)實(shí)際采用常規(guī)公交且識(shí)別為常規(guī)公交的1832599 個(gè)樣本進(jìn)行分析,得出公交線路識(shí)別準(zhǔn)確率為75.5%。
站間OD 識(shí)別準(zhǔn)確率采用原樣本中使用IC 卡先乘坐常規(guī)公交、后換乘地鐵的樣本,認(rèn)為乘坐常規(guī)公交的下車站點(diǎn)是該線路最接近地鐵站點(diǎn)的,樣本數(shù)為484113,識(shí)別出常規(guī)公交出行且上車站點(diǎn)識(shí)別準(zhǔn)確的樣本數(shù)為402851,準(zhǔn)確率為83.2%,下車站點(diǎn)識(shí)別準(zhǔn)確率為79.7%,OD 識(shí)別準(zhǔn)確率為71.9%。
3.2.1 相似度權(quán)重影響
在保證λ+η=1 的條件下,分析λ和η取值對(duì)常規(guī)公交站間OD 識(shí)別結(jié)果的影響,如圖2所示。其他參數(shù)取值為Gthd=0.75 ,θthd=100 ,τthd=1,δthd=0.8。
Levenshtein 相似度反映了路段空間上的相似特征,時(shí)間相似度反映了時(shí)間上的相似程度,由圖2可知,只有賦予Levenshtein相似度和時(shí)間相似度相近的權(quán)重,站間OD識(shí)別準(zhǔn)確率才能達(dá)到最高。
圖2 相似度權(quán)重對(duì)站間OD識(shí)別結(jié)果的影響Fig.2 Influence of similarity weight on stop od recognition
3.2.2 參數(shù)閾值影響
保持λ=0.5 ,η=0.5 ,θthd=100 ,τthd=1 ,δthd=0.8 不變,改變Gthd的取值,分析常規(guī)公交站間OD識(shí)別效果變化,如圖3所示。
圖3 相似度閾值對(duì)站間OD識(shí)別結(jié)果的影響Fig.3 Influence of similarity threshold on stop OD recognition
由圖3可知,隨著Gthd取值減小,站間OD 識(shí)別準(zhǔn)確率提高,但應(yīng)該注意的是,此時(shí)站間OD 只是采用包含484113 個(gè)與地鐵換乘的樣本計(jì)算的,而隨著Gthd的變化,公交出行方式識(shí)別的精確率、召回率變化情況如圖4所示。
圖4 相似度閾值對(duì)常規(guī)公交方式識(shí)別結(jié)果的影響Fig.4 Influence of similarity threshold on bus trip-mode recognition
隨著Gthd增大,公交出行方式識(shí)別的精確率提高,但召回率逐漸降低。綜合上述分析,Gthd取值在0.7~0.8之間為宜。
保持λ=0.5 ,η=0.5 ,Gthd=0.75 ,θthd=100 ,τthd=1 不變,改變?chǔ)膖hd的取值,分析常規(guī)公交站間OD識(shí)別效果的變化,如圖5和圖6所示。
圖5 公交路徑長(zhǎng)度占比閾值對(duì)站間OD識(shí)別結(jié)果的影響Fig.5 Influence of bus path length proportion in trip distance threshold on stop od recognition
圖6 公交路徑長(zhǎng)度占比閾值對(duì)常規(guī)公交方式識(shí)別結(jié)果的影響Fig.6 Influence of bus path length proportion in trip distance threshold on bus trip-mode recognition
與Gthd取值變化相似,隨著δthd增大,站間OD識(shí)別準(zhǔn)確率呈下降趨勢(shì),公交出行方式識(shí)別的精確率逐漸提高,召回率逐漸降低。δthd的取值在0.65~0.85之間為宜。
考慮到數(shù)據(jù)集中換乘1次的比例占全部換乘行為的87.6%,故不對(duì)θthd和τthd深入分析,θthd和τthd的取值應(yīng)根據(jù)數(shù)據(jù)情況或城市公交換乘習(xí)慣而定。
3.2.3 出行距離影響
將手機(jī)用戶出行距離按照<2 km、[2, 4)km、[4, 6)km、[6, 8)km、[8, 10)km、≥10 km 分為6 類,分別得到每類距離下,常規(guī)公交方式識(shí)別、換乘行為識(shí)別、公交線路識(shí)別準(zhǔn)確率、站間OD 識(shí)別準(zhǔn)確率,結(jié)果如圖7~圖9所示。
圖7 出行距離對(duì)常規(guī)公交方式識(shí)別結(jié)果的影響Fig.7 Influence of trip distance on bus trip-mode recognition
出行距離超過(guò)6 km 時(shí),常規(guī)公交出行識(shí)別效果較好,且隨著出行距離的增大,精確率與召回率均呈現(xiàn)上升趨勢(shì)。出行距離在4 km以內(nèi)的識(shí)別效果最差,可能是因?yàn)檫@個(gè)距離內(nèi)包含大量自行車、電動(dòng)車出行,其出行路徑、速度特征均與常規(guī)公交相似,因而難以準(zhǔn)確識(shí)別。
圖8 出行距離對(duì)常規(guī)公交換乘識(shí)別結(jié)果的影響Fig.8 Influence of trip distance on bus transfer identification
由于樣本數(shù)據(jù)集中,出行距離在2 km 以內(nèi)的無(wú)換乘行為,故其精確率和召回率均為0。隨著出行距離增加,常規(guī)公交換乘識(shí)別的精確率和召回率均呈現(xiàn)上升趨勢(shì)。
圖9 出行距離對(duì)常規(guī)公交線路和站間OD識(shí)別結(jié)果的影響Fig.9 Influence of trip distance on bus line and stop OD identification
公交線路與站間OD 識(shí)別的準(zhǔn)確率與出行距離呈正相關(guān)關(guān)系,出行距離越長(zhǎng),經(jīng)過(guò)相同路段的其他公交線路對(duì)識(shí)別的影響越小,從而準(zhǔn)確率越高。
3.2.4 路段公交線路重復(fù)系數(shù)影響
路段公交線路重復(fù)系數(shù),以路段經(jīng)過(guò)的公交線路數(shù)衡量。經(jīng)過(guò)的線路數(shù)會(huì)直接影響公交線路識(shí)別準(zhǔn)確率,進(jìn)而影響站間OD識(shí)別的準(zhǔn)確率。對(duì)于手機(jī)用戶i在t時(shí)段出行經(jīng)過(guò)的路段集合pit,m,計(jì)算集合中每個(gè)路段經(jīng)過(guò)的公交線路數(shù)的期望值,并四舍五入取整,以此作為用戶本次出行的公交線路重復(fù)系數(shù)值。該參數(shù)對(duì)公交線路和站間OD 識(shí)別準(zhǔn)確率的影響如圖10所示。
圖10 重復(fù)系數(shù)對(duì)常規(guī)公交線路和站間OD識(shí)別結(jié)果的影響Fig.10 Influence of repetition factor on bus line and stop OD identification
公交線路與站間OD 識(shí)別的準(zhǔn)確率與重復(fù)系數(shù)呈負(fù)相關(guān)關(guān)系,重復(fù)系數(shù)越大,經(jīng)過(guò)相同路段的其他公交線路對(duì)識(shí)別的影響越大,從而準(zhǔn)確率越低。若出行距離較短,且經(jīng)過(guò)路段的公交重復(fù)系數(shù)較高,則公交線路與站間OD 識(shí)別的準(zhǔn)確率僅為50%~60%。
本文得到主要結(jié)論如下。
(1)本文提出的基于手機(jī)信令數(shù)據(jù)識(shí)別常規(guī)公交出行與站間OD的方法,在驗(yàn)證集中的識(shí)別效果表明:在合適的參數(shù)下,常規(guī)公交出行方式識(shí)別精確率可達(dá)0.807,召回率0.912,換乘識(shí)別精確率0.660,召回率0.756,公交線路識(shí)別準(zhǔn)確率75.5%,站間OD 識(shí)別準(zhǔn)確率71.9%,這說(shuō)明本文方法識(shí)別效果較好,可應(yīng)用于工程實(shí)踐。
(2)對(duì)出行距離、公交線路重復(fù)系數(shù)等因素的分析表明:出行距離越長(zhǎng)、公交線路重復(fù)系數(shù)越低,公交線路與站間OD識(shí)別準(zhǔn)確率越高;本文方法對(duì)出行距離在6 km以上、平均公交路段重復(fù)系數(shù)4以下的識(shí)別效果最佳。