趙楠 姚寶珍
摘? 要:為了使出租車合理分擔一部分城市出行需求,兼顧運營效率和服務水平,本文提出了基于隨機森林的出租車保有量預測模型。在文中考慮了城市人口、居民消費價格指數(shù)、平均等車時間、公交線路總長和網(wǎng)約車保有量等5個影響出租車保有量的相關(guān)因素。并且,通過內(nèi)蒙古通遼市主城區(qū)實際數(shù)據(jù)對模型進行校驗,并得到若干結(jié)論。
關(guān)鍵詞:出租車保有量? 隨機森林? 網(wǎng)約車? 預測
一、引言
近年來,隨著生活水平的提高和城市交通壓力的增加,出租車需求快速增長。但是由于出租車規(guī)模和價格的限制,出租車需求供給矛盾突出。產(chǎn)生這種矛盾現(xiàn)象的主要誘因之一是出租車運力規(guī)模:運力規(guī)模過剩,雖然使乘客的平均等待時間減少,但出租車空載里程過高,司機的收入大幅下降;相反,運力規(guī)模不足,雖然出租車司機的收入有所增加,但乘客的等待時間過長,甚至降低出租車對整個城市交通的分擔率。而“互聯(lián)網(wǎng)+”和共享經(jīng)濟的興起改變了傳統(tǒng)的運輸服務。自網(wǎng)約車合法化后,城市出租車運力得到了一定的補充,但是供需矛盾依然存在。因此,如何在出租車和網(wǎng)約車相互配合模式下,確定出租車的運力規(guī)模,是城市交通管理部門的重要課題。
國內(nèi)外學者針對出租車規(guī)模和出租車運價問題做了很多研究。Beesley和Glaiste建??疾炝顺鲎廛噧r格以及其服務彈性,同時研究了運力投放問題。研究結(jié)論表明,降低價格或者增加運力投放并不一定會降低利潤。Yang等引入多個外生變量和內(nèi)生變量,建立了乘客需求、出租車利用率和服務水平的聯(lián)立方程模型,并以此獲得有用的監(jiān)管信息,合理做出關(guān)于出租車數(shù)量、收費結(jié)構(gòu)、服務質(zhì)量的決策。胡繼華等通過城市出租車的GPS數(shù)據(jù),挖掘出租車關(guān)于平均運營距離、平均運營時間、平均出行距離等運營信息,給出了一定需求和空載率下的確定出租車合理規(guī)模的方法,提出以小時為單位對出租車規(guī)模進行分時段控制。宋安和劉琦建立了出租車運力規(guī)模綜合評價模型,并在此基礎上提出基于供需平衡的預測方法,從而預測出租車運力規(guī)模。但該預測模型有一定的局限性,忽視了乘客等車時間等重要因素。楊英俊和趙祥模討論了影響出租車保有量的相關(guān)因素,并通過小波神經(jīng)網(wǎng)絡對出租車保有量進行預測。Yang等基于GPS跟蹤數(shù)據(jù),構(gòu)建了城市出租車運力規(guī)模計算模型。Belletti和Bayen針對Uber和Lyft這類公司,研究了基于響應需求的運力規(guī)模優(yōu)化。
本文選取了城市人口、居民消費價格指數(shù)、平均等車時間、公交線路總長和網(wǎng)約車保有量等5個影響出租車保有量的相關(guān)因素,通過隨機森林預測方法對出租車保有量進行預測。并以內(nèi)蒙古通遼市主城區(qū)的相關(guān)數(shù)據(jù)為支撐,進行計算和分析。
二、基于隨機森林的出租車保有量預測模型
(一)影響因素選擇
在選擇影響出租車保有量的因素時,應該遵循三個原則,即具有測量性、代表性和可比性。城市出租車系統(tǒng)主要受需求影響。隨著社會經(jīng)濟的快速發(fā)展和城市規(guī)模的不斷擴大,出租車需求日益提升,因此體現(xiàn)需求的相關(guān)因素尤為重要。另外,出租車作為城市公共交通的補充,其發(fā)展與城市公交系統(tǒng)建設密切相關(guān),因而公交相關(guān)因素也對出租車規(guī)模有影響。綜上考慮,本文將選取城市人口、居民消費價格指數(shù)、平均等車時間、公交線路總長和網(wǎng)約車保有量等5個因素作為出租車保有量的主要影響因素。
預測過程如下:首先將以上5個因素的相關(guān)數(shù)據(jù)和出租車保有量數(shù)據(jù)分為訓練集和測試集,訓練集用于訓練隨機森林模型,生成決策樹;然后將測試集數(shù)據(jù)輸入到訓練好的隨機森林模型中,進行預測;最后輸出出租車保有量。
(二)隨機森林算法
隨機森林算法是基于Bagging的集成學習算法。該算法基于多棵決策樹構(gòu)建組合模型對樣本進行分析預測。多數(shù)機器學習的方法傾向于在模型訓練時,以經(jīng)驗風險最小化為原則求解最優(yōu)模型,泛化能力差。但是隨機森林可以避免過擬合問題。本文將采用隨機森林對出租車保有量進行預測。下面將對隨機森林算法進行簡要說明(具體細節(jié)可以參考文獻[7]-[8])。
For i=1 to N,N表示決策樹的棵數(shù):
1.從訓練集P中基于Boostrap方法抽取M個樣本;
2.從r屬性中q個屬性
3.選擇最佳屬性j和切分點s
4.建立決策樹Ti
End
輸出所有決策樹集合 ,構(gòu)成隨機森林。
三、應用實例
(一)數(shù)據(jù)
本文以內(nèi)蒙古通遼市主城區(qū)的出租車保有量預測為例,對基于隨機森林的出租車保有量預測模型進行驗證和分析。通遼市位于內(nèi)蒙古自治區(qū)的東部,總面積59535平方公里,城市道路網(wǎng)密度約2.32公里/平方公里,2018年地區(qū)生產(chǎn)總值1301.6億元,截止2018年底全市總?cè)丝跒?13.3萬人,其中通遼市主城區(qū)常住人口約為60萬人,截止2018年底通遼市主城區(qū)出租車保有量為3059輛。通遼市主城區(qū)的2010-2018年數(shù)據(jù)如表1所示,包括了城市常住人口、居民消費價格指數(shù)、平均等車時間、公交線路總長、網(wǎng)約車保有量和出租車保有量相關(guān)數(shù)據(jù)。
在計算時,將數(shù)據(jù)按上半年和下半年進行了細分以增加樣本數(shù)量。2010-2015年數(shù)據(jù)為訓練集,用于隨機森林訓練。2016-2018年數(shù)據(jù)為測試集,用于檢驗隨機森林預測精度。然后對本文中隨機森林算法的參數(shù)進行說明,決策樹的棵數(shù)N為50,總屬性r為5,隨機選擇屬性數(shù)量q為3。
(二)訓練模型
基于隨機森林預測模型的出租車保有量訓練曲線如圖1所示。藍線為實際數(shù)據(jù),紅線為訓練數(shù)據(jù),2010年到2011年預測數(shù)據(jù)小于實際數(shù)據(jù),2012年到2013年預測數(shù)據(jù)大于實際數(shù)據(jù),2014年到2015年預測數(shù)據(jù)小于實際數(shù)據(jù)。雖然出租車保有量數(shù)據(jù)有一定波動,但是訓練數(shù)據(jù)可以很好地跟隨實際數(shù)據(jù),隨著訓練數(shù)據(jù)的增加,預測數(shù)量與實際數(shù)據(jù)的擬合度越來越高。通過計算可知,平均絕對誤差百分比為2.52%,R方為0.94,這兩個數(shù)據(jù)也側(cè)面說明了隨機森林的擬合優(yōu)度。基于隨機森林的出租車保有量預測模型具有較強的識別能力,隨機森林通過平均決策樹,可以降低過擬合問題出現(xiàn)的概率。同時,隨機森林的擬合效果穩(wěn)定,即使出現(xiàn)了新的數(shù)據(jù)點,也只是影響一棵決策樹,不會對整體算法受到太大影響。
(三)預測模型
本文用訓練好的預測模型和支持向量機模型對2016-2018年的出租車保有量進行預測,并將兩種預測方法進行對比分析。兩種算法的絕對誤差百分比如圖2所示。隨機森林的平均絕對誤差百分比0.34%,R方為0.93。支持向量機的平均絕對誤差百分比0.64%,R方為0.77??梢钥闯?,隨機森林的預測表現(xiàn)要優(yōu)于支持向量機。支持向量機的預測效果受其參數(shù)的影響,為了獲得較好的結(jié)果,通常還需要對其參數(shù)進行優(yōu)化。即使在本文中對參數(shù)進行優(yōu)化后,支持向量機的預測誤差仍大于隨機森林的預測誤差。從計算時間上看,支持向量機訓練的過程較為費時,特別是在非線性核的情況下,計算時間顯著增加。而且數(shù)據(jù)量增加后,差距也隨之增加。所以和支持向量機相比,隨機森林不僅可以獲得較優(yōu)的預測值,還可以節(jié)約計算的時間。
本文通過隨機森林預測模型,對2020年通遼市主城區(qū)出租車保有量進行預測。首先要對2020年通遼市主城區(qū)的城市常住人口、居民消費價格指數(shù)、平均等車時間、公交線路總長、網(wǎng)約車保有量進行預測。然后將5個影響因素預測值輸入到隨機森林預測模型中,進行出租車保有量預測,預計2020年通遼市主城區(qū)的出租車保有量為3156輛。
四、結(jié)論
本文構(gòu)建了基于隨機森林的出租車保有量預測模型,在選擇影響出租車保有量的因素時,主要考慮了需求、公共交通以及網(wǎng)約車等方面,選取城市常住人口、居民消費價格指數(shù)、平均等車時間、公交線路總長和網(wǎng)約車保有量等5個因素作為出租車保有量的主要影響因素?;谕ㄟ|市主城區(qū)數(shù)據(jù),先對隨機森林進行訓練,然后用訓練好的模型進行測試。結(jié)果表明本文提出的預測方法擬合程度較好且預測精度較高,可以避免過度擬合等問題。該方法可以對城市出租車保有量進行有效的預測,不僅降低管理成本,提高運營效率,增加社會效益,還可以為城市交通客運管理部門確定合理的出租車保有量及類似城市出租車管理都提供了良好的借鑒和參考價值。由于影響出租車保有量的因素比較多,其他城市在應用該預測方法時,可以根據(jù)城市的特點,選擇相應的影響因素,以獲得較好的預測結(jié)果。
有效預測出租車保有量還可以有效提高經(jīng)濟效益和社會效益,發(fā)揮出租車行業(yè)作為準公共交通的作用:
(一)較為準確地預測出租車保有量能夠提前對運輸資源進行高效合理分配,方便群眾出行,提高服務質(zhì)量,平衡供給和需求,有利于提高運營者的經(jīng)濟效益,同時也降低了出行者的等待時間,實現(xiàn)社會福利的提升。
(二)隨著生活水平的提高,居民對出租車的運力需求隨之增加。出租車和網(wǎng)約車形成了相互配合的良好運營關(guān)系,為城市出行增加運力,擴大社會就業(yè),有效幫扶困難群體,促進就業(yè)和經(jīng)濟雙增長。
(三)出租車是城市精神文明的一個流動服務窗口,其運營秩序的好壞、服務質(zhì)量的優(yōu)劣,體現(xiàn)了一個城市的管理水平和文明程度,直接關(guān)系到城市的聲譽和整體形象,甚至代表著當?shù)卣男蜗蠛褪忻竦恼w素質(zhì)。城市出租車保有量的確定在樹立城市形象等方面發(fā)揮著重要作用。
(四)隨著城鄉(xiāng)一體化進程的推進,城鄉(xiāng)公共服務一體化也逐步布局,均衡配置城鄉(xiāng)公共運力資源有利于促進城鄉(xiāng)要素平等交換和公共資源合理安排,從而帶動城鄉(xiāng)經(jīng)濟發(fā)展。做好地區(qū)出租汽車客運的發(fā)展規(guī)劃和總量控制,可以防止盲目發(fā)展無序競爭,確保道路旅客運輸市場健康發(fā)展和社會穩(wěn)定。
參考文獻:
[1] Beesley, M. E., Glaister, S. Information for regulation: the case of taxi[J]. The Economic Journal, 1983, 93.
[2] Yang, H., Lau, Y. W., Wong, S. C., Lo, H. K. A macroscopic taxi model for passenger demand, taxi utilization and level of services[J]. Transportation, 2000, 27(3).
[3] 胡繼華, 謝?,? 基于浮動車數(shù)據(jù)的出租車規(guī)模確定方法[J]. 交通標準化, 2011,(18).
[4] 宋安, 劉琦. 出租車保有量評價與預測[J]. 交通科學與經(jīng)濟, 2010, (3).
[5] 楊英俊, 趙祥模. 基于小波神經(jīng)網(wǎng)絡的出租車保有量預測模型[J]. 公路交通科技, 2012, 8(29).
[6] Yang, Y., Yuan, Z., Fu, X., Wang, Y., Sun, D. Optimization Model of Taxi Fleet Size Based on GPS Tracking Data[J]. Sustainability, 2019, 11(3).
[7] Belletti, F., Bayen, A. M. Privacy-preserving MaaS fleet management[J]. Transportation Research Part C: Emerging Technologies, 2018,(94).
[8] Liaw, A., Wiener, M. Classification and regression by random Forest. R news, 2002, 2(3).
[9] Pal, M. Random forest classifier for remote sensing classification. International Journal of Remote Sensing, 2005, 26(1).
(作者單位:1.通遼市交通科學研究所;2.大連理工大學)