張曉亮, 陳智宏, 劉冬梅,3, 龔翔, 李俊衛(wèi), 王文靜
(1.交通部公路科學(xué)研究院, 北京 100088; 2.北京市交通運(yùn)行監(jiān)測(cè)調(diào)度中心, 北京 100073;3.北京工業(yè)大學(xué), 北京 100124; 4.深圳市交通運(yùn)輸委員會(huì), 深圳 518000)
?
一種基于多源數(shù)據(jù)的出租車分布預(yù)測(cè)方法研究
張曉亮1, 陳智宏2, 劉冬梅1,3, 龔翔4, 李俊衛(wèi)1, 王文靜1
(1.交通部公路科學(xué)研究院, 北京 100088; 2.北京市交通運(yùn)行監(jiān)測(cè)調(diào)度中心, 北京 100073;3.北京工業(yè)大學(xué), 北京 100124; 4.深圳市交通運(yùn)輸委員會(huì), 深圳 518000)
為了改善傳統(tǒng)的交通需求預(yù)測(cè)方法以居民出行OD調(diào)查為基礎(chǔ),得出的交通分布結(jié)果受樣本量等因素影響,預(yù)測(cè)值與實(shí)際值相差較大的問(wèn)題,本文提出基于現(xiàn)有出租車GPS數(shù)據(jù)、計(jì)價(jià)器數(shù)據(jù)和電召數(shù)據(jù)的一種基于多源數(shù)據(jù)融合的出租車分布預(yù)測(cè)方法,進(jìn)行出租車出行分布預(yù)測(cè). 該方法可以根據(jù)多源歷史數(shù)據(jù)估計(jì)出租車OD分布,并可通過(guò)預(yù)測(cè)未來(lái)出租車OD分布,提高預(yù)測(cè)準(zhǔn)確率.
交通工程; 出租車; 交通分布預(yù)測(cè); 多源數(shù)據(jù)
出租車作為城市公共交通的重要組成部分,截至2012年底,我國(guó)北京、石家莊、大連、哈爾濱、泰州、杭州、宣城、濰坊、鄭州、深圳、成都、重慶、昆明、西安、蘭州15個(gè)城市,共有出租汽車204 622輛,出租車對(duì)居民的出行承擔(dān)著越來(lái)越重要的角色. 近年來(lái)隨著我國(guó)對(duì)出租車信息化建設(shè)的重視和投入,上述一些城市的出租車上都安裝了GPS車載設(shè)備、計(jì)價(jià)器,同時(shí)大部分城市已經(jīng)開展了電召服務(wù),包括電話招車和手機(jī)招車等方式.
這些先進(jìn)設(shè)備的增加豐富了出租車的運(yùn)行數(shù)據(jù)采集內(nèi)容,打破了傳統(tǒng)調(diào)查數(shù)據(jù)的局限. 傳統(tǒng)的交通需求預(yù)測(cè)方法以居民出行OD調(diào)查分析為基礎(chǔ),預(yù)測(cè)得出的出租車交通分布受樣本量等影響,預(yù)測(cè)值與實(shí)際值相差較大. 基于現(xiàn)有出租車GPS數(shù)據(jù)、計(jì)價(jià)器數(shù)據(jù)和電召數(shù)據(jù),進(jìn)行出租車出行分布預(yù)測(cè)將大大提高預(yù)測(cè)準(zhǔn)確率. 除了樣本量影響的問(wèn)題,在東南大學(xué)王昊等[3]提到傳統(tǒng)的集計(jì)預(yù)測(cè)模型只考慮了載客出租車的出行量,這種方法缺乏對(duì)出租車行駛狀態(tài)的全面分析,缺少空駛車輛數(shù)據(jù),結(jié)果當(dāng)然是誤差很大的.
本文利用出租車GPS數(shù)據(jù)、計(jì)價(jià)器數(shù)據(jù)和電召數(shù)據(jù),針對(duì)出租車出行, 對(duì)出租車出行規(guī)律進(jìn)行分析, 建立了基于多源數(shù)據(jù)的出租車出行分布預(yù)測(cè)模型,構(gòu)建基于多源歷史數(shù)據(jù)的出租車分布OD矩陣, 該方法可以根據(jù)多源歷史數(shù)據(jù)估計(jì)出租車OD分布,并可通過(guò)預(yù)測(cè)未來(lái)出租車OD分布,對(duì)于提高預(yù)測(cè)準(zhǔn)確率,改進(jìn)傳統(tǒng)方法數(shù)據(jù)準(zhǔn)確性,有很大作用.
出行發(fā)生預(yù)測(cè)可以得知對(duì)象區(qū)域各分區(qū)出行產(chǎn)生量和出行吸引量. 出租車從出發(fā)點(diǎn)到目的地移動(dòng)的過(guò)程即為1次出租車出行. 出租車出行主要包括載客出行、空駛出行和停駛3種狀態(tài). 載客出行主要以乘客的需求為主;空駛出行主要以司機(jī)避免空駛,試圖以最小的成本找到新乘客為主要因素;停駛分為長(zhǎng)時(shí)間停駛和短時(shí)間停駛,一般是由于其他因素,比如司機(jī)休息、車輛故障等. 利用采集的各種數(shù)據(jù)對(duì)各種出行狀態(tài)進(jìn)行分析,即可進(jìn)行出租車出行分布預(yù)測(cè).
出租車出行分布量是指:分區(qū)i與分區(qū)j之間平均單位時(shí)間內(nèi)的出行量,單位時(shí)間可以是1天、1周、1月、1年等,也可以是專指高峰小時(shí). 就一對(duì)分區(qū)i和j而言,它由2部分qij、qji組成:qij為以分區(qū)i為產(chǎn)生點(diǎn)(注:不一定是出行的起點(diǎn)),以分區(qū)j為吸引點(diǎn)(不是出行的終點(diǎn))的出行量;qji為以分區(qū)j為產(chǎn)生點(diǎn),分區(qū)i為吸引點(diǎn)的出行量. 其中同一個(gè)分區(qū)的產(chǎn)生量不一定等于吸引量.qij、qji共同組成出行分布矩陣,出租車出行分布預(yù)測(cè)實(shí)際上就是由已知矩陣求未知矩陣的過(guò)程. 而在求解過(guò)程中,傳統(tǒng)的方法是基于傳統(tǒng)OD調(diào)查法進(jìn)行計(jì)算,再通過(guò)增長(zhǎng)系數(shù)法、重力模型等方法進(jìn)行預(yù)測(cè);本文是基于多源數(shù)據(jù)進(jìn)行多種信息優(yōu)化OD分布矩陣,再運(yùn)用增長(zhǎng)系數(shù)法進(jìn)行出租車未來(lái)年交通分布預(yù)測(cè).
2.1 數(shù)據(jù)格式
根據(jù)目前出租車信息系統(tǒng)已接入的數(shù)據(jù),本文將對(duì)出租車GPS數(shù)據(jù)、計(jì)價(jià)器數(shù)據(jù)和電召數(shù)據(jù)進(jìn)行分析和處理,這部分內(nèi)容也是整個(gè)研究的核心組成部分,以下是這3種數(shù)據(jù)的接入格式.
1)GPS數(shù)據(jù)
表1
2)計(jì)價(jià)器數(shù)據(jù)
字段類型備注交易類型String現(xiàn)金,刷卡交易金額number(10)單位(001元)交易順序號(hào)number(10)交易時(shí)間String格式:yyyy?MM?ddHH:mm:ss應(yīng)收金額number(10)單位(001元)等候時(shí)間String字符串格式:HHmm行駛里程number(10)單位(01km)空駛里程number(10)單位(01km)上車天數(shù)number(10)上車時(shí)間String格式:HHmm車牌號(hào)String如:BL7781單價(jià)number(10)單位(001元)車隊(duì)編號(hào)String
3)電召數(shù)據(jù)(括電話電召數(shù)據(jù)、手機(jī)電召數(shù)據(jù)等).
字段備注arrange_channel約車渠道,0電話、1網(wǎng)站、2手機(jī)軟件arrange_type約車類型,0:即時(shí)30min內(nèi)用車,1:預(yù)約30min以上assign_type派車狀態(tài),0:自動(dòng)調(diào)派,1:人工指派order_type 訂單狀態(tài),0無(wú)應(yīng)答:無(wú)司機(jī)應(yīng)招、司機(jī)應(yīng)招前乘客取消;1訂單完成;2司機(jī)爽約:司機(jī)沒(méi)去接乘客;3乘客爽約:有司機(jī)應(yīng)招后乘客不用車/由于乘客原因司機(jī)沒(méi)接上乘客cancel_reason爽約原因,1、事前告知,2、事后告知,3、無(wú)告知,4、其他order_time訂單生成時(shí)間passenger_name乘客稱謂passenger_tel乘客電話號(hào)碼use_locale用車地點(diǎn),行政區(qū),路(區(qū)域),標(biāo)志物use_lon用車地點(diǎn)經(jīng)度use_lat用車地點(diǎn)緯度use_time用車時(shí)間destination目的地driver_code司機(jī)服務(wù)監(jiān)督卡號(hào)driver_tel司機(jī)聯(lián)系電話vehicle_code車牌號(hào)create_date創(chuàng)建時(shí)間,默認(rèn)為系統(tǒng)當(dāng)前時(shí)間reply_time短信或電話告知乘客約車信息的時(shí)間
2.2 數(shù)據(jù)分析
在出租車交通分布預(yù)測(cè)中關(guān)鍵是將所有的出租車OD信息提取并與選擇的交通小區(qū)對(duì)應(yīng),并累計(jì)數(shù)據(jù),從而得到基年交通出行分布OD矩陣.
目前大部分車載GPS 都是與計(jì)價(jià)器聯(lián)機(jī)的,即可以通過(guò)這些設(shè)備實(shí)現(xiàn)對(duì)出租車各項(xiàng)運(yùn)營(yíng)指標(biāo)的實(shí)時(shí)信息收集. 可以從上面所采集的數(shù)據(jù)抽取所有出租車實(shí)時(shí)運(yùn)行信息(載客、 空駛、駐車OD位置信息、時(shí)間信息等). 在實(shí)際數(shù)據(jù)中采集的GPS數(shù)據(jù)會(huì)出現(xiàn)部分?jǐn)?shù)據(jù)錯(cuò)誤、丟失或延遲問(wèn)題,而計(jì)價(jià)器數(shù)據(jù)受設(shè)備影響也會(huì)在回傳的數(shù)據(jù)中出現(xiàn)個(gè)別不準(zhǔn)的問(wèn)題. 因此必須對(duì)數(shù)據(jù)進(jìn)行補(bǔ)充和校正.
電召數(shù)據(jù)采集比較全面準(zhǔn)確,但是只是部分?jǐn)?shù)據(jù),并不是所有的乘客都是通過(guò)電召方式乘坐出租車的,所以將電召數(shù)據(jù)與GPS數(shù)據(jù)和計(jì)價(jià)器數(shù)據(jù)結(jié)合使用將大大提高整個(gè)數(shù)據(jù)的使用價(jià)值.
2.3 數(shù)據(jù)處理
1) 數(shù)據(jù)預(yù)處理
首先根據(jù)研究需要,選取1年的出租車GPS數(shù)據(jù)、計(jì)價(jià)器數(shù)據(jù)和電召數(shù)據(jù). 分別對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)標(biāo)準(zhǔn)化、噪聲數(shù)據(jù)剔除、屬性分離歸納、屬性匹配等. 此步驟的目的是有利于3種數(shù)據(jù)的有效融合. 其中,出租車GPS數(shù)據(jù)的空、重車數(shù)據(jù)要與計(jì)價(jià)器的數(shù)據(jù)的交易時(shí)間和上車時(shí)間對(duì)應(yīng),電召數(shù)據(jù)要與出租車GPS數(shù)據(jù)對(duì)應(yīng).
2) 多源數(shù)據(jù)融合
多源數(shù)據(jù)融合分3個(gè)層次,即像素級(jí)、特征級(jí)和決策級(jí),本文研究的基于出租車GPS數(shù)據(jù)、計(jì)價(jià)器數(shù)據(jù)和電召數(shù)據(jù)的應(yīng)用采用特征級(jí)融合. 常用的特征級(jí)數(shù)據(jù)融合法包括:貝葉斯法、熵法、加權(quán)平均法、神經(jīng)網(wǎng)絡(luò)法、聚類分析法、表決法等. 由于本文提取的特征屬性主要集中在出租車的時(shí)間屬性與地點(diǎn)屬性上,采用聚類分析法較適用,即將3類數(shù)據(jù)進(jìn)行時(shí)間屬性和地點(diǎn)屬性的聚類分析,得出一組具有一致OD屬性的出租車出行數(shù)據(jù),以備接下來(lái)的模型運(yùn)算.
3.1 模型對(duì)象描述
根據(jù)大量數(shù)據(jù)統(tǒng)計(jì)得出停駛狀態(tài)在整個(gè)出租車行業(yè)存在的比例較小,并且考慮這部分小量的數(shù)據(jù)對(duì)于出租車出行分布影響較小,本研究將不考慮停駛狀態(tài),只考慮載客、空駛和短時(shí)駐車3種狀態(tài),下面是對(duì)出租車出行狀態(tài)的描述:
1) 出租車載客狀態(tài):乘客上車的地點(diǎn)為出發(fā)點(diǎn)即出行起點(diǎn), 乘客下車的地點(diǎn)為目的地即出行終點(diǎn).
2) 出租車空駛狀態(tài):上一乘客下車的地點(diǎn)為出發(fā)點(diǎn)即出行起點(diǎn),下一乘客上車的地點(diǎn)為目的地即出行終點(diǎn).
3) 出租車駐車狀態(tài):對(duì)短時(shí)間(小于1 h)駐車,駐車地點(diǎn)為出發(fā)點(diǎn)即出行起點(diǎn),乘客上車的地點(diǎn)為目的地即出行終點(diǎn).
3.2 模型構(gòu)建
3.2.1 研究假設(shè)條件
1) 假設(shè)研究對(duì)象滿足出行產(chǎn)生吸引平衡規(guī)律,即小區(qū)對(duì)出租車出行的吸引量等于該小區(qū)出租車出行的產(chǎn)生量.
2) 假設(shè)交通區(qū)間出行分布量與交通區(qū)發(fā)生吸引量成正比.
3) 假設(shè)交通區(qū)間出行分布量與交通區(qū)間阻抗成反比.
4) 假設(shè)當(dāng)交通小區(qū)i到交通小區(qū)j的阻抗趨近于零時(shí)i到j(luò)的區(qū)間出行量,趨近于j的吸引量.
5) 當(dāng)交通小區(qū)i到j(luò)的阻抗趨近于無(wú)窮時(shí)i到j(luò)的區(qū)間出行量趨近于零.
3.2.2 模型建立
1) 選定研究交通小區(qū),如圖1所示.
圖1 交通小區(qū)
選取第N年的出租車數(shù)據(jù)作為基年數(shù)據(jù),提取出租車的OD信息,列出初始現(xiàn)狀OD矩陣表示交通小區(qū)i到交通小區(qū)j之間的交通分布矩陣,qij表示由交通小區(qū)i到交通小區(qū)j之間的交通量,O表示出發(fā)地,D表示目的地,T為研究對(duì)象小區(qū)的生成交通量. 通過(guò)將出租車GPS數(shù)據(jù)、計(jì)價(jià)器數(shù)據(jù)和電召數(shù)據(jù)的融合,可以得到完成的出租車出行現(xiàn)狀OD矩陣,如表1所示.
按照守恒原則,∑qij=Oi,∑qij=Di,∑Oi= ∑Oi=T.
2)選用增長(zhǎng)系數(shù)法,進(jìn)行交通分布預(yù)測(cè). 在增長(zhǎng)系數(shù)的確定上有2種方法:一種是根據(jù)經(jīng)驗(yàn)預(yù)設(shè)每個(gè)小區(qū)未來(lái)目標(biāo)年的發(fā)生增長(zhǎng)系數(shù)為FOi和吸引增長(zhǎng)系數(shù)為FDi;另一種是利用N+1年的歷史數(shù)據(jù)計(jì)算增長(zhǎng)系法,這種方法是基于實(shí)際數(shù)據(jù)進(jìn)行,需要列出N+1年的出行矩陣,如表2所示.
表1 基年出租車出行分布現(xiàn)狀OD矩陣
表2 N+1年出租車出行分布現(xiàn)狀OD矩陣
每個(gè)小區(qū)未來(lái)目標(biāo)年的發(fā)生增長(zhǎng)系數(shù)可通過(guò)歷史年的數(shù)據(jù)計(jì)算:F′Oi=Ui/Oi,吸引增長(zhǎng)系數(shù)F′Dj=Vj/Dj,如果是多個(gè)歷史年份的數(shù)據(jù)則可以求得平均值,或通過(guò)線性擬合推測(cè),求出每個(gè)小區(qū)未來(lái)目標(biāo)年的發(fā)生增長(zhǎng)系數(shù).
3)確定了增長(zhǎng)系數(shù),可對(duì)預(yù)測(cè)目標(biāo)年的出租車出行分布進(jìn)行求解,即反復(fù)迭代使得新計(jì)算的OD矩陣收斂,主要步驟如下:
(1)
步驟3:收斂判別
(2)
(3)
(4)
其中,ε為任意給定的誤差常數(shù).
反復(fù)迭代直到滿足式(3)和式(4),即求得目標(biāo)年出租車出行分布矩陣.
3.3 小結(jié)
上述方法通過(guò)全面的和準(zhǔn)確的出租車現(xiàn)狀出行矩陣,采用增長(zhǎng)系數(shù)法,進(jìn)行目標(biāo)年的出租車出行分布預(yù)測(cè). 2種確定增長(zhǎng)系數(shù)的方法中,第1種是傳統(tǒng)方法常用的方法之一,第2種本文建議在有充足的歷史數(shù)據(jù)情況下應(yīng)用,因?yàn)檫@種方法來(lái)源于大量的實(shí)際數(shù)據(jù),具有更科學(xué)和準(zhǔn)確性的特點(diǎn). 同時(shí),在應(yīng)用歷史數(shù)據(jù)的情況下,實(shí)際上已經(jīng)將除了交通小區(qū)本身的發(fā)生增長(zhǎng)因素和吸引增長(zhǎng)因素考慮進(jìn)來(lái),同時(shí)也考慮了增長(zhǎng)函數(shù)影響的其他的無(wú)形因素,從整體上提高了方法的準(zhǔn)確性.
本文在交通規(guī)劃四階段法的基礎(chǔ)上,提出通過(guò)對(duì)出租車GPS數(shù)據(jù)、計(jì)價(jià)器數(shù)據(jù)和電召數(shù)據(jù)的融合,得到全面的和準(zhǔn)確的出租車出行矩陣,進(jìn)行出租車出行分布預(yù)測(cè). 該方法可根據(jù)多源歷史數(shù)據(jù)估計(jì)出租車OD分布,并可預(yù)測(cè)未來(lái)出租車OD分布. 對(duì)于傳統(tǒng)方法數(shù)據(jù)的局限性,本方法增加了出租車準(zhǔn)確的位置信息,運(yùn)行狀態(tài)數(shù)據(jù)及乘客意愿數(shù)據(jù),該方法對(duì)出租車出行分布的預(yù)測(cè)更為全面、準(zhǔn)確、方便.
利用多源數(shù)據(jù)研究交通分布預(yù)測(cè)對(duì)于利用現(xiàn)有信息化設(shè)備產(chǎn)生的數(shù)據(jù)具有巨大的意義,本文只是做了初步探討,今后還需進(jìn)行深入研究:在數(shù)據(jù)清洗中的更加全面和優(yōu)化的清洗方法;迭代算法確定是否能優(yōu)化;能否通過(guò)分擔(dān)率來(lái)進(jìn)行更全面的綜合交通規(guī)劃交通需求預(yù)測(cè)等等.
[1] 邵春福. 交通規(guī)劃原理[M]. 北京: 中國(guó)鐵道出版社, 2004.
[2] 遲光華. 基于浮動(dòng)車數(shù)據(jù)的出租車運(yùn)行特點(diǎn)分析[J]. 交通世界, 2011(20): 84-85.
[3] 王昊, 王煒, 陳峻, 等. 城市出租車交通分布預(yù)測(cè)模型[J]. 公路交通科技, 2006(23): 145-148.
[4] 賈永基. 車輛調(diào)度問(wèn)題優(yōu)化算法研究[D]. 上海: 上海交通大學(xué), 2004: 1-115.
[5] 鄧明君, 王鐵中. 居民出行分布預(yù)測(cè)的改進(jìn)模型研究[J]. 交通信息與安全, 2010, 28(3): 71-74
[6] 李旭宏. 城市交通分布預(yù)測(cè)模型研究[J]. 東南大學(xué)學(xué)報(bào), 1997(11): 152-155.
A Taxi Travel Forecasting Method Based on Multi-source Data
ZHANG Xiao-liang1, CHEN Zhi-hong2, LIU Dong-mei1, GONG Xiang4, LI Jun-wei1, WANG Wen-jing1
(1.Research Institute of Highway, Ministry of Transport, Beijing, 100088 China;2.Beijing Municipal Transportation Operation Coordination Center, Beijng 100073 China;3.Beijing University Of Technology, Beijing 100124,China;4.Transport Commission of Shenzhen Municipality, Shenzhen 518000, China)
The traditional method of travel forecasting based on the analysis of residents travel OD survey, is often limited due to the sample size and other factors. This paper proposes a travel prediction method based on the existing taxi GPS data, pricing data, and phone-call data. The method can estimate the distribution status of the city’s taxi traffic based on historical data and can predict the distribution of taxi traffic in planning year.The forecasting accuracy rate of taxi trip distribution will be greatly enhanced.
traffic engineering; taxi; traffic distribution forecast; multi-source data
10.13986/j.cnki.jote.2015.01.009
2014- 10- 31.
交通運(yùn)輸部應(yīng)用基礎(chǔ)研究項(xiàng)目(項(xiàng)目編號(hào):2013319223210).
張曉亮(1983—),女,助理研究員,研究方向?yàn)槌鞘薪煌ㄖ悄芙煌? E-mail:zxl@itsc.cn.
U 491
A
1008-2522(2015)01-47-05