張朝陽,李學(xué)明
(重慶大學(xué)計算機(jī)學(xué)院,重慶 400044)
基于乘客行為的上車站點識別
張朝陽,李學(xué)明
(重慶大學(xué)計算機(jī)學(xué)院,重慶 400044)
利用換乘信息識別乘客上車站點的算法,當(dāng)乘客前后兩次乘坐的公交線路不止一個交點時,可識別站點數(shù)量少,導(dǎo)致乘客上車站點識別準(zhǔn)確率低。針對這一問題,提出基于乘客行為的上車站點識別:對IC刷卡數(shù)據(jù)進(jìn)行分組,然后基于地鐵換乘,確定部分乘客的上車站點,并將數(shù)據(jù)切分為多個子段,再通過公交換乘,確定部分?jǐn)?shù)據(jù)組的上車站點。最后通過比例關(guān)系,得到所有IC刷卡數(shù)據(jù)組的上車站點。試驗表明,該算法具有較高的準(zhǔn)確率。
公交IC刷卡數(shù)據(jù);上車站點識別;數(shù)據(jù)挖掘
在科技高速發(fā)展的今天,越來越多的城市的公共交通系統(tǒng)也進(jìn)入了智能化與數(shù)字化的時代。如一些公共交通的繳費過程采用IC卡刷卡收費的方式來代替?zhèn)鹘y(tǒng)的人工收費或者現(xiàn)金投幣等方式。這種繳費方式為公民出行提供了方便,使付費過程變得簡單而流暢[1]。在日常生活中,公交IC卡與公民存在一一對應(yīng)的關(guān)系,公民的出行行為記錄在IC刷卡數(shù)據(jù)中。隨著IC卡使用的普及,公民IC刷卡數(shù)據(jù)大量積累,公共交通系統(tǒng)數(shù)據(jù)庫中存儲下了大量的公民IC刷卡時產(chǎn)生的出行記錄等數(shù)據(jù)。IC刷卡數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)可靠、實時性強(qiáng)、獲得途徑方便簡單等優(yōu)點。利用IC刷卡數(shù)據(jù)對公民出行進(jìn)行研究,可以得到更為可靠、客觀的公民出行規(guī)律。但是,IC刷卡數(shù)據(jù)中往往只記錄了IC卡號、上車刷卡時間等信息,信息較為殘缺。乘客上車站點需要通過一些算法進(jìn)行識別。
目前,國內(nèi)外上車站點識別算法主要分為兩類,基于公交運營數(shù)據(jù)的上車站點識別,以及基于GPS數(shù)據(jù)的乘客上車站點識別。基于公交運營數(shù)據(jù)識別上車站點時,需要結(jié)合公交IC刷卡數(shù)據(jù)、線路站點信息表、公交運營數(shù)據(jù)這三類數(shù)據(jù)。戴霄[2]、余勇[3]、舒國輝[4]、尹長勇[5]等通過聚類IC刷卡數(shù)據(jù),對其進(jìn)行分組,然后根據(jù)線路站點信息表、公交運營數(shù)據(jù)計算車輛到站時間,最后對IC刷卡數(shù)據(jù)組和到站時間進(jìn)行匹配,得到乘客上車站點?;贕PS數(shù)據(jù)識別上車站點時,需要結(jié)合公交IC刷卡數(shù)據(jù)、線路站點信息、車載GPS數(shù)據(jù)這三類數(shù)據(jù)。Barry[6]、Zhao[7]、Martin[8]、戴維[9]、陳君[10]、李海波[11]等利用IC刷卡數(shù)據(jù)和GPS數(shù)據(jù)融合,得到乘客刷卡位置,進(jìn)而得到乘客上車站點。
但是,由于成本高等原因,很多城市沒有為車輛配備GPS等系統(tǒng)。此外,公交運營數(shù)據(jù)多為紙質(zhì)數(shù)據(jù),容易丟失。在缺少GPS數(shù)據(jù)和公交運營數(shù)據(jù)的前提下識別乘客上車站點,目前,較少專家學(xué)者對于這個問題展開研究。張頌[12]、趙鵬[13]、宋曉晴[14]根據(jù)換乘計算乘客上車站點。利用換乘判斷乘客的上車站點,當(dāng)乘客先后乘坐的兩條公交線路有且僅有一個交點時,根據(jù)乘客就近換乘的特點,可以判斷出兩條線路的交點就是乘客乘坐第二條線路公交車時的上車站點。但是,當(dāng)乘客先后乘坐的兩條公交線路有多個交點時,通過查找該分組其他公交換乘乘客的換乘站點情況,若兩個乘客的換乘站點中只有一個共同站點,就將這個站點作為該組的上車站點。這種方面能部分解決公交線路多交點的問題,但是仍有局限性。例如當(dāng)乘客間有多個相同的換乘站點時,這個方法就失效了。
針對以上這些問題,在缺少公交運營數(shù)據(jù)和GPS數(shù)據(jù)的情況下,本文結(jié)合乘客的乘車習(xí)慣和特征,提出基于乘客行為的上車站點識別算法。
利用公交換乘判斷乘客的上車站點,算法主要步驟為:①劃分單程;②判斷行車方向;③分組IC刷卡數(shù)據(jù);④識別匹配組;⑤匹配待定組。本文提出的算法,在沿用上述算法的第①、②步計算出單程和行車方向后,主要改進(jìn)IC刷卡數(shù)據(jù)的分組、匹配組的識別。
算法流程如圖1所示。
圖1 算法流程
2.1 分組IC刷卡數(shù)據(jù)
公交IC刷卡數(shù)據(jù)具有周期性時間聚集性,根據(jù)這一特性,可以將IC刷卡數(shù)據(jù)進(jìn)行分組。在以往的研究中,專家學(xué)者主要使用層次聚類法進(jìn)行分組。該過程描述起來比較簡單,但時間復(fù)雜度與空間復(fù)雜度較高。針對這一問題,本文提出順序標(biāo)記法,分組IC刷卡數(shù)據(jù)。根據(jù)目標(biāo)線路的總長度和單程平均行駛時間,計算車輛的平均行駛速度v。從線路站點信息中找出目標(biāo)線路最短的站間距min(Dk,k+1),根據(jù)公式(1),計算時間閾值Tmin。
令ti表示第i個刷卡記錄的刷卡時間,為了方便計算,設(shè)t0=t1。令T(ti,ti-1)表示第i個刷卡記錄與第i-1個刷卡記錄之間的時差,令x表示分組序號,則計算步驟如下:
(1)取出單程中所有刷卡記錄,并按刷卡時間的先后順序排序;
(2)令x=1,i=1;
(3)若T(ti-ti-1)〈Tmin,則用分組序號x標(biāo)記第i個刷卡記錄;
(4)若T(ti-ti-1)>Tmin,則令x=x+1,用分組序號x標(biāo)記第i個刷卡記錄;
(5)令i=i+1,重復(fù)(3)、(4)步,直到單程中所有刷卡記錄都被標(biāo)記完畢。
將分組序號相同的IC刷卡記錄作為一個IC刷卡數(shù)據(jù)組。
2.2 確定匹配組
匹配組的確定分為兩個步驟。首先,根據(jù)地鐵換乘信息確定匹配組和匹配站。根據(jù)匹配組和匹配站,將IC刷卡數(shù)據(jù)組與目標(biāo)線路的公交站點進(jìn)行切分,切為多個子段。再通過公交換乘,在各個子段中確定匹配組和匹配站,并將子段切分為更小的子段。主要步驟如下所示。
(1)地鐵換乘的利用
乘客由地鐵換乘公交時,通常會選擇公交線路上離地鐵站最近的站點作為換乘站點。針對這個特點,本文通過限制地鐵換乘時間和換乘距離,計算換乘乘客上車站點。
算法過程:對單程中所有乘客,從第一個乘客的全天刷卡記錄開始判斷。若目標(biāo)線路刷卡記錄的前一條記錄為地鐵刷卡記錄,并且兩條刷卡記錄的刷卡時間差小于20分鐘,并且地鐵刷卡記錄中出站站點與目標(biāo)線路有小于500米的相鄰站點,則目標(biāo)線路中離該地鐵站點最近的站點,即為乘客換乘站點。
遍歷完所有乘客的全天刷卡記錄,得到了一個單程中所有滿足地鐵換乘條件的乘客的上車站點,那么這些乘客的上車站點即為乘客所在IC刷卡數(shù)據(jù)組的上車站點。
已識別出上車站點的IC刷卡數(shù)據(jù)組稱為匹配組,對應(yīng)站點稱為匹配站。未識別出上車站點的IC刷卡數(shù)據(jù)組稱為待定組,公交站點中除去匹配站的站點,稱為待定站。
根據(jù)得到的匹配組和匹配站,可以將剩余IC刷卡數(shù)據(jù)組和未匹配公交站點切分為多個子段。如圖2所示。圖中,兩個匹配關(guān)系將數(shù)據(jù)組和站點切分為3個子段。
圖2 匹配模型
(2)公交換乘的利用
本文將公交換乘限定為:①乘客前后兩次刷卡的時間差小于60分鐘;②乘客前后兩次乘坐的公交線路有交點。兩條公交線路相交,可能只有1個交點,也可能有多個交點。本文引入候選站點集、候選站點權(quán)重集的概念,通過地鐵換乘對候選站點進(jìn)行篩選,并計算站點權(quán)重,得到部分IC刷卡數(shù)據(jù)組的上車站點。
由于一個單程中刷卡記錄之間的刷卡時間是個時序關(guān)系,所以有:如果待定組A的刷卡時間在匹配組B之前,則待定組A中乘客可能的上車站點必然在匹配組B對應(yīng)的上車站點之前;如果待定組A的刷卡時間在匹配組B之后,則待定組A中乘客可能的上車站點必然在匹配組B對應(yīng)的上車站點之后?;谝陨弦?guī)則,在地鐵換乘切分的子段中,根據(jù)乘客j所在的待定組與切分出這個子段的匹配組之間刷卡時間的先后關(guān)系,可以將乘客j的候選站點集中的站點進(jìn)行篩選,剔除掉不合理的候選站點。此時,乘客j的候選站點集為
式中,m表示篩選后乘客j的候選站點集中站點的個數(shù),候選站點集中存儲候選站點的站點序號。
由于乘客在各個候選站點發(fā)生換乘行為的概率相同,所以令各候選站點的權(quán)重相同。經(jīng)過篩選后,乘客j的候選站點權(quán)重集:
各個候選站點的權(quán)重值為:
若每個待定組中有s個乘客,其中有t(0≤t≤s)個乘客是公交換乘乘客。則該待定組的候選站點集為t個公交換乘乘客的候選站點集的并集。
待定組候選站點集:
待定組的候選站點權(quán)重集為:
各個候選站點的權(quán)重值為:
式中,wij表示站點i在換乘乘客j的候選站點集中的權(quán)重值。若換乘乘客j的候選站點集不含站點i,則=0。
通過上述步驟,可以得到待定組的候選站點集和候選站點權(quán)重集,在候選站點權(quán)重集中找到最大的權(quán)重值,將權(quán)重值對應(yīng)的候選站點記為待定組的上車站點,并將該待定組標(biāo)記為匹配組,上車站點標(biāo)記為匹配站。
根據(jù)新得到的匹配組和匹配站,可以將剩余IC刷卡數(shù)據(jù)組和未匹配公交站點切分為更小的子段。
則待定組的候選站點權(quán)重集W={wd,we,wf,wh}={5/ 6,4/3,1/2,1/3}。
所以站點d為該IC刷卡數(shù)據(jù)組對應(yīng)的上車站點。
2.3 匹配待定組
待定組的匹配過程沿用張頌[12]提出的利用最大相似性原理,在各個子段中比較待定組之間的刷卡時間間隔與待定站間公家車行駛時間的偏差,完成匹配。子段切分得越小,匹配正確率越高。
本文以重慶市某路公交線路為例,以該線路工作日中所有刷卡記錄為實驗數(shù)據(jù)。該工作日共有13436條刷卡記錄,有10243個乘客乘坐該線路,計算乘客行為所涉及刷卡記錄近30000條,涉及公交線路近100條。
本文的驗證數(shù)據(jù)是用車載GPS數(shù)據(jù)計算出的IC刷卡記錄的上車站點數(shù)據(jù)。用這一數(shù)據(jù)驗證本文所提算法的正確率。
對試驗數(shù)據(jù)分別采用時間匹配法(該算法是指在IC刷卡數(shù)據(jù)分組后,直接根據(jù)相似性原理識別上車站點)、換乘識別法、本文算法進(jìn)行站點識別。乘客上車站點識別算法的評估指標(biāo)為識別的準(zhǔn)確率。令NR表示正確識別上車站點的IC刷卡記錄的數(shù)量,令N表示目標(biāo)線路全天IC刷卡量。準(zhǔn)確率的計算方式為:
三個算法的準(zhǔn)確率比較如表1所示。
表1 不同算法的準(zhǔn)確率比較
時間匹配法由于假設(shè)第一個刷卡記錄產(chǎn)生于公交線路的第一站,而實際中第一站可能沒有乘客刷卡上車,因而導(dǎo)致后面的站點匹配錯位,所以誤差較大。換乘識別法和本文算法在確定部分匹配組后,以匹配組為基準(zhǔn)進(jìn)行相似性匹配,準(zhǔn)確率大幅提高。本文算法相較于換乘識別法,能識別出更多匹配組,上車站點準(zhǔn)確率更高。
本文提出了基于乘客行為的上車站點識別算法,該算法通過地鐵換乘,確定部分IC刷卡數(shù)據(jù)的上車站點,并切分子段,在各個子段上計算IC刷卡數(shù)據(jù)組的公交換乘候選上車站點的權(quán)重,根據(jù)權(quán)重確定數(shù)據(jù)組的上車站點,進(jìn)而切分出更小的子段,最后將子段中的IC刷卡數(shù)據(jù)組和站點匹配,得到所有IC刷卡數(shù)據(jù)的上車站點。試驗結(jié)果表明,本算法提高了上車站點識別的準(zhǔn)確率。
[1]婁琰琰,董傲霜,劉麗瑤.非接觸IC卡在公交自動收費系統(tǒng)中的應(yīng)用[J].沈陽工業(yè)大學(xué)學(xué)報,2002,24(5):443-446.
[2]戴霄,陳學(xué)武.單條公交線路的IC卡數(shù)據(jù)分析處理方法[J].城市交通,2005,3(4):73-76.
[3]于勇,鄧天民,肖裕民.一種新的公交乘客上車站點確定方法[J].重慶交通大學(xué)學(xué)報自然科學(xué)版,2009,28(1):121-125.
[4]舒國輝.基于數(shù)據(jù)挖掘的公交客流規(guī)律研究[D].北京交通大學(xué),2009.
[5]尹長勇,陳艷艷,陳紹輝.基于聚類分析方法的公交站點客流匹配方法研究[J].交通信息與安全,2010,28(3):21-24.
[6]Barry J J,Freimer R,Slavin H L.Use of Entry-Only Automatic Fare Collection Data to Estimate Linked Transit Trips in New York City[J].Transportation Research Record Journal of the Transportation Research Board,2009,2112(2112):53-61.
[7]Zhao J,Rahbee A,Wilson N H M.Estimating a Rail Passenger Trip Origin-Destination Matrix Using Automatic Data Collection Systems[J].Computer-Aided Civil and Infrastructure Engineering,2007,22(5):376-387.
[8]Martin Trépanier,Nicolas Tranchant,Robert Chapleau.Individual Trip Destination Estimation in a Transit Smart Card Automated Fare Collection System[J].Journal of Intelligent Transportation Systems Technology Planning&Operations,2007,11(1):1-14.
[9]戴維.基于IC卡數(shù)據(jù)和公交車GPS信息的公交OD矩陣推算[D].華中科技大學(xué),2009.
[10]陳君,楊東援.基于智能調(diào)度數(shù)據(jù)的公交IC卡乘客上車站點判斷方法[J].交通運輸系統(tǒng)工程與信息,2013,13(1):76-80.
[11]李海波,陳學(xué)武,陳崢嶸.基于公交IC卡和AVL數(shù)據(jù)的客流OD推導(dǎo)方法[J].交通信息與安全,2015(6):33-39.
[12]張頌,陳學(xué)武,陳崢嶸.基于公交IC卡數(shù)據(jù)的公交站點OD矩陣推導(dǎo)方法[J].武漢理工大學(xué)學(xué)報交通科學(xué)與工程版,2014(2):333-337.
[13]趙鵬.基于成都公交IC卡數(shù)據(jù)的乘客上下車站點推算方法研究[D].西南交通大學(xué),2015.
[14]宋曉晴,方志祥,尹凌,等.基于IC卡綜合換乘信息的公交乘客上車站點推算[J].地球信息科學(xué)學(xué)報,2016,18(8):1060-1068.
Identification of Boarding Station Based on Passenger Behavior
ZHANG Chao-yang,LI Xue-ming
(College of Computer Science,Chongqing University,Chongqing 400044)
Utilizes transfer to identify the boarding station of passengers,when there is more than one intersection of the two bus lines,the number of station can be identified less,resulting in the lower accuracy in identified boarding station of passengers.In order to solve this problem, proposes an algorithm for boarding station identification based on passenger behavior.First,the IC card data are grouped.Then,based on the metro transfer,the boarding stations of passengers are determined and the data is divided into multiple sub-segments.In addition, uses bus transfer to determine the boarding stations of some group.Finally,through the proportional relationship,gets all the boarding stations corresponding to IC card data group.The experimental results show that this method has a high accuracy.
IC Card Riding Data;Identification of Boarding Station;Data Mining
1007-1423(2017)11-0047-05
10.3969/j.issn.1007-1423.2017.11.009
張朝陽(1991-),女,河南洛陽人,碩士研究生,學(xué)生,研究方向為數(shù)據(jù)挖掘
2017-03-21
2017-04-10
李學(xué)明(1967-),男,重慶人,博士,教授,研究方向為數(shù)據(jù)挖掘、大數(shù)據(jù)處理