胡繼華,鄧 俊,黃 澤
(1.中山大學 工學院,廣州 510275;2.廣東省智能交通系統(tǒng)重點實驗室,廣州 510006)
近年來,隨著公交IC卡收費系統(tǒng)的推廣使用和信息技術的進步,利用公交IC卡刷卡數(shù)據(jù)和GPS數(shù)據(jù)進行數(shù)據(jù)挖掘,已經(jīng)成為了一種獲取公交乘客上下車站點的新方法.通過匹配乘客上車刷卡時間和公交車到站時間,可以較為精確地得到刷卡乘客的上車站點,而目前國內大多數(shù)城市的公交線路采取一票制收費,乘客只在上車時刷卡,下車時并不需要刷卡,用這種方法無法直接得到刷卡乘客的下車站點.因而,研究如何高效地推斷出公交乘客的下車站點,成為了利用多源數(shù)據(jù)進行乘客OD估計的關鍵.
國外的公交IC卡使用較早,對乘客下車站點的研究相對成熟.James等[1]基于紐約市公交AFC數(shù)據(jù)運用出行鏈的思想實現(xiàn)了下車站點的推導.Zhao等[2]基于出行鏈的思想,綜合運用自動收費系統(tǒng)(AFC)、自動定位系統(tǒng)(AVL)以及GIS信息,實現(xiàn)了地鐵-地鐵、地鐵-公交兩類出行方式下車站點的推導.Cui等[3]基于出行鏈的思想進行了乘客公交出行下車站點的判斷,并生成種子矩陣以實現(xiàn)不同規(guī)模OD矩陣的預測.
國內對乘客下車站點的研究開始較晚,相關研究采用的方法通常可以分為集計分析方法和非集計分析方法兩類.集計分析方法以公交站點吸引權法為基礎,根據(jù)土地利用等因素賦予各個站點不同的吸引力,朱從坤[4]、楊秀華[5]、王 超[6]等先后基于這一方法得到了單條線路的公交OD矩陣.這種方法沒有考慮到乘客的個體特性,只能通過概率計算得到各站點的下車人數(shù)而無法得到每個乘客確切的下車位置,并且不能體現(xiàn)一天中不同時間段的乘客選擇差異.非集計分析方法以單個公交乘客的出行鏈分析法為基礎,要求乘客通過刷卡乘坐公交車形成的出行鏈是閉合的,徐建閩[7]、吳祥國[8]、胡郁蔥[9]等先后基于這一方法得到了單條線路部分刷卡乘客的上下車站點.由于出行鏈分析法自身的特點,這部分乘客占全部刷卡乘客的比重通常較小,并且多為乘坐公交頻率較高的乘客,難以成為有效代表乘客總體的樣本.在乘客當次出行鏈不閉合的情況下,吳祥國[8]等提出可根據(jù)乘客多日出行鏈來進行下車站點判斷,但并未提出相應的算法,只能通過人工識別.
國外的相關研究多結合先進的數(shù)據(jù)采集和數(shù)據(jù)挖掘技術,而這些技術目前在我國難以推廣,故國外的相關研究方法多不適用于國內[10].國內相關領域的研究大都只使用了集計分析或非集計分析一種方法,對于結合兩種方法來進行下車站點推斷的研究尚顯不足.本文在國內通過數(shù)據(jù)挖掘手段判斷乘客上車站點的研究已經(jīng)比較成熟的背景下,綜合考慮了乘客個人出行規(guī)律和站點位置特征對下車站點選擇的影響,將乘客個體差異融入到站點吸引權重的計算中.在此基礎上建立結合出行鏈的下站判斷概率模型,并提出模型檢驗方法.結合實例從適用性和可靠性等方面與傳統(tǒng)下車站點判斷方法進行對比分析與驗證.
蘆方強[11]、趙新[12]等的研究表明,乘客乘坐公交車出行具有一定的規(guī)律性.在非集計分析層面,乘客的出行規(guī)律表現(xiàn)為每個乘客在同一條線路的上下車站點通常是較為固定的,集中在少數(shù)幾個站點,且不同乘客的“偏好站點”通常是不同的;在集計分析層面,出行規(guī)律表現(xiàn)為在不同站點上下車的乘客數(shù)量是有差異的,通常存在部分站點的乘客上下車人數(shù)顯著高于其他站點.
在上車站點已知的情況下,部分乘客的出行規(guī)律和站點的客流特征可以被挖掘出來.在出行鏈閉合的情況下,可以依次連接乘客多次出行的上車站點得到乘客的出行軌跡,從而判斷乘客的下車站點;在當次出行鏈斷裂的情況下,可以參考乘客近期相似出行鏈來判斷乘客的下車站點,乘客近期在該線路上車的站點都可能是潛在可參考的相似出行鏈的起點或終點.
本研究結合乘客公交出行特征,提出如下的條件假設:
(1)若乘客下次乘車的上車站點位于當次乘車上車站點的下游(當次乘車行駛方向下),則乘客當次乘車的下車站點為下次上車站點.
(2)在當次乘車出行鏈斷裂的情況下,乘客會在下游站點中近期上站頻次高的站點下車,乘客在某符合條件站點的下車概率與近期在該站點上車的次數(shù)成正比.
(3)在缺乏可參照的出行鏈的情況下,乘客在某下游站點下車的概率與該站點上下車客流量成正比.
為便于對乘客的出行鏈進行描述,對一個在站點i上車的特定乘客k定義如下集合:
(1)下游站點集Dk:當前線路當次行駛方向位于i下游的站點的集合.
(2)高頻站點集Tk:近期出行上車站點的集合與下游站點集的交集.為避免偶然的出行鏈被當成參照,高頻站點集的站點元素應滿足一定的頻次約束,即乘客近期出行記錄中在該站點上車的次數(shù)應不小于一定值x,x的取值受乘客近期出行記錄的時間跨度影響.
(3)銜接站點集Nk:下次乘車的上車站點和下游站點集的交集.
這三個集合的包含關系為Nk?Tk?Dk,其中Nk最多只能有一個元素,Tk和Nk可為空集.
定義向量lk=(Rnk,Rtk,Rdk)表征乘客出行鏈信息的完整程度,其中Rnk在Nk非空時取值1,在Nk為空集時取值0,其余類似.
對一個在站點i上車的特定乘客k,若其銜接站點集不為空,則站點 j對其的吸引權(即乘客k在站點 j的下車概率,下同)為
若其銜接站點集為空,高頻站點集不為空,則站點 j對其的吸引權為
式中 Ajk為乘客k近期在站點 j的上車次數(shù);m為高頻站點集包含的站點個數(shù).
若其銜接站點集為空,高頻站點集也為空,則站點 j對其的吸引權為
式中 A′j為站點 j的全天上車乘客數(shù);n為下游站點集包含的站點個數(shù).
綜合以上各式可得
式中 Pijk為乘客k自站點i上車至站點 j下車的概率;其他參數(shù)同上.
進行乘客下車站點判斷所需數(shù)據(jù)表的主要字段和它們之間的聯(lián)系如圖1所示.
圖1 各數(shù)據(jù)表之間的關聯(lián)關系Fig.1 Association of four data sources
根據(jù)以上數(shù)據(jù)判斷乘客下車站點的算法流程如圖2所示.
判斷乘客上下車站點的研究目的是為了分析乘客群體的出行特征,公平地考慮不同乘車頻率的乘客是最基本的要求,在這個意義上精確得到每個乘客的下車站點并不是最重要的,在模型算法的某些步驟中,個別乘客的下車站點推斷失誤(如將在同一站點上車而在不同站點下車的兩個乘客的下車站點推斷成相反的)并不影響集計層面的斷面客流、滿載率、方向不均勻系數(shù)等指標,因而對模型的檢驗也應該采取集計層面的方法,忽略乘客的個體差異.鑒于此,本研究采用出行產生與吸引校驗來對模型進行檢驗.
出行產生與吸引校驗的基本原理是從出行鏈的角度考慮,城市居民每天的出行自始至終會形成一個連續(xù)的環(huán)狀結構.假設均采用公交出行的方式,則各個站點的出行產生量與吸引量在理論上應該基本相等[8],即
式中 tpi為站點i的出行產生量;tai為站點i的出行吸引量;a、b為回歸系數(shù),若出行產生量與吸引量基本相等,則a的取值應該在1附近.
圖2 下車站點判斷流程圖Fig.2 Flow chart of identifying smart card passengers’alighting stations
本研究以廣州市448路公交2012年8月28日全天刷卡乘客的IC卡數(shù)據(jù)為算例,分別用近來使用比較廣泛的單純非集計的出行鏈分析法(下文稱為算法A)和本研究的模型算法(下文稱為算法B)進行下車站點判斷(由于單純集計方法不能直接得到乘客的確切下車站點,實用性不高,本算例未采用這一方法).本算例中高頻站點集的頻次約束取不低于2次,乘客近期出行的時間跨度是從2012年8月26日到2012年9月6日.當天448路共有2203條刷卡記錄,通過匹配判斷出上車站點的記錄為2024條.
算法A判斷出下車站點的記錄總數(shù)為823條,部分計算結果如表1所示.
算法B判斷出下車站點的記錄總數(shù)為2024條,部分計算結果如表2所示.
表1 算法A部分計算結果Table 1 Partial computing result of algorithm A
表2 算法B部分計算結果Table 2 Partial computing result of algorithm B
把計算結果按站點統(tǒng)計,如表3所示.
表3 計算結果統(tǒng)計Table 3 Statistics of computing results
算法A判斷出下車站點的記錄總數(shù)為823條,占推斷出上車站點乘客總數(shù)的40.6%,算法B則在算法A的基礎上,依據(jù)概率為其他乘客分配了下車站點.經(jīng)統(tǒng)計,由算法A判斷出下車站點的乘客,他們在2012年8月26日到2012年9月6日平均每日出行次數(shù)為2.07次,而其余乘客同期平均每日出行次數(shù)為1.05次.算法B中分別由式(1)、式(2)、式(3)推斷得到下車乘客的占比分別為40.6%,32.7%,27.7%(式(1)推斷得到下車乘客與算法A一致).
由于算法B得到的結果具有一定的隨機性,需要對結果的合理性和穩(wěn)定性進行檢驗.
對算法A得到的各站上下車人數(shù)依據(jù)實際匹配成功上車人數(shù)進行擴樣[8],使算法A得到的上下車乘客總數(shù)與算法B相同,然后對表3所示兩種算法的站點集計結果進行出行與吸引校驗,得到回歸分析結果如圖3所示.
由于算法B的結果具有一定的隨機性,對20次運行程序得到的結果進行回歸分析,結果顯示a的值在0.993與0.995間浮動,說明算法B的結果在集計分析層面是比較穩(wěn)定的.對比算法A,算法B推斷結果的回歸系數(shù)更加接近1,而算法A的結果則在發(fā)生和吸引上有較大偏差.這個結果也表明出行鏈信息比較完整的乘客和其他乘客的下車站點選擇具有一定的差異,簡單地對這個乘客群體的上下車站點進行擴樣并不能真實反映所有乘客上下車站點分布的整體情況,因而在適用性方面,算法A要求乘客的出行鏈信息相當完整才能得到比較可靠的結果,而算法B則沒有這樣的要求.
圖3 回歸分析結果Fig.3 Regression analysis results
本文對影響乘客選擇下車站點的因素進行了較為深入的分析,提出了將乘客個體出行特征融入到站點吸引權重計算的概率模型,并從集計分析的角度提出了針對單條公交線路乘客上下車站點推斷模型的檢驗方法,在此基礎上進行了相關實例驗證.結果表明:
(1)無地鐵數(shù)據(jù)的情況下,單公交刷卡數(shù)據(jù)源提取得到的廣州448路乘客的公交出行鏈的閉合率較低,可以通過下次乘車站點來判斷當次下車站點的乘客只占乘客總數(shù)的約40%,在這種情況下有必要參考乘客的多日的出行鏈.
(2)出行鏈閉合乘客通常出行頻率較高,這部分乘客不是對總體乘客的無偏取樣,因而在擴樣到總體時出現(xiàn)了更加明顯的上、下客流不對稱的情況.
(3)本文提出的把參考乘客多日出行鏈的方法轉化為參考乘客多日出行上車站點并以概率隨機數(shù)分配的方式來得到乘客下車站點在算法效率上是可行的.
(4)本文提出的模型結合非集計方法和集計方法,在上下車客流平衡檢驗中結果要大大優(yōu)于單純非集計方法.
[1]Barry J J,Newhouser R,Rahbee A,et al.Origin and des?tination estimation in New York City with automated fare system data[J].Transportation Research Record,2002(1817):183-187.
[2]Zhao J H.The planning and analysis implications of au?tomated data collection systems:rail Transit OD matrix inference and path choice modeling examples[D].Cam?bridge:Massachusetts Institute of Technology,2004.
[3]Alex C.Bus passenger origin-destination matrix estima?tion using automated data collection systems[D].Cam?bridge:Massachusetts Institute of Technology,2006.
[4]朱從坤,丁建霆,陳瑜.公交線路OD反推的結構化模型研究[J].哈爾濱工業(yè)大學學報,2005,37(6):851-853.[ZHU C K,DING J T,CHEN Y.Structural model of OD matrix estimation on route public transport flow[J].Journal of Harbin Institute of Technology,2005,37(6):851-853.]
[5]楊秀華.基于準實時客流信息的公交調度優(yōu)化研究[D].長春:吉林大學,2008.[YANG X H.Research on public transport scheduling optimization based on the information of Quasi-real-time flow[D].Changchun:Jilin University,2008.
[6]王超.基于IC卡信息的公交客流OD推算方法研究[D].北京:北京交通大學,2012.[WANG C.Passen?ger flow calculation for bus stations based on IC card da?ta[D].Beijing:Beijing Jiaotong University,2012.
[7]徐建閩,熊文華,游峰.基于GPS和IC卡的單線公交OD生成方法[J].微計算機信息,2008,24(22):221-222,21.[XU J M,XIONG W H,YOU F.The method of singal-line public transportation OD base on GPS and intelligent card[J].Control&Automation,2008,24(22):221-222,21.]
[8] 吳祥國.基于公交IC卡和GPS數(shù)據(jù)的居民公交出行OD矩陣推導與應用[D].濟南:山東大學,2011.[WU X G.Urban pubiic transportation trip OD matrix in?ference and application based on bus IC card data and GPS data[D].Jinan:Shandong University,2011.
[9]胡郁蔥,梁杰榮,梁楓明.基于IC卡數(shù)據(jù)挖掘獲取公交OD矩陣的方法[J].交通信息與安全,2012,30(4):66-70.[HU Y C,LIANG J R,LIANG F M.A way to get bus regional OD matrix based on mining IC card information[J].Journal of Transport Information and Safety,2012,30(4):66-70.]
[10]閆磊.基于公交IC卡數(shù)據(jù)的乘客出行時空推算研究[D].長春:吉林大學,2012.[YAN L.The calculate re?search on trip temporal of passenger based on the data of bus intelligent card[D].Changchun:Jilin University,2012.
[11]蘆方強,陳學武,胡曉健.基于公交OD數(shù)據(jù)的居民公交出行特征研究[J].交通運輸工程與信息學報,2010,8(2):31-36,47.[LU F J,CHEN X W,HU X J.Characteristic research of resident's bus trip based on bus OD data[J].Journal of Transportation Engineering and Information,2010,8(2):31-36,47.]
[12]趙新.廈門市快速公交系統(tǒng)出行鏈特征指標調查研究[J].城市公共交通,2012(11):37-41.[ZHAO X.Investigation research on the characteristic index of xia?men bus rapid Transit system passengers'travel chain[J].Urban Public Transport,2012(11):37-41.]
[13]陳君,楊東援.基于智能調度數(shù)據(jù)的公交IC卡乘客上車站點判斷方法[J].交通運輸系統(tǒng)工程與信息,2013,13(1):76-80.[CHEN J,YANG D Y.Identifying boarding stops of bus passengers with smart cards based on intelligent dispatching data[J].Journal of Transporta?tion Systems Engineering and Information Technology,2013,13(1):76-80.]