孫丹輝 王波
摘 要:為分析共享單車騎行特征和目的,運用SQL Server、ArcGIS、xGeocoding、Python等分析工具,對4 870.78萬條GPS數(shù)據(jù)進行處理,統(tǒng)計分析共享單車騎行的時空特征,得到72萬條有效的單車使用時空記錄。爬取上海市53.6萬條興趣點地理信息作為聚類中心,借用K-means聚類分析思想對單車騎行目的地進行聚類分析。研究表明,單車在使用量上出現(xiàn)明顯的早晚高峰現(xiàn)象,且早高峰階段人們對單車使用的時間和距離更敏感。中心城區(qū)的使用強度遠(yuǎn)超周邊城區(qū),地鐵站周圍500m及公交站周圍150m是共享單車與公共交通接駁轉(zhuǎn)換的集中區(qū)域;用戶使用單車主要是返家行程,且在不同行政區(qū)騎行目的地比重不同。
關(guān)鍵詞:共享單車;時間特征;空間特征;聚類分析
中圖分類號:TP319文獻(xiàn)標(biāo)識碼:A文章編號:1672-7800(2019)002-0132-05
Abstract: In order to further analyze the demand of bike sharing system, this paper explores the characteristics and purposes of bicycle cycling in Shanghai. By using analysis tools such as SQL SERVER, ArcGIS, xGeocoding and Python, 487.78 million GPS data were processed, the spatial and temporal characteristics of bicycle cycling were statistically analyzed, and K-means clustering method was used to cluster the cycling destinations. The experimental results showed that 721,615 pieces of valid cycling records were obtained, and 536,113 points of interest in Shanghai were crawled as cluster centers, which ensured the effectiveness of cycling destinations classification. It is concluded that there is obvious morning and evening peak in the use of bike sharing system, and people are more sensitive to the time and distance of using bicycle in the morning peak period. The usage intensity of central urban area is far more stronger than that of the surrounding urban area, and 500 meters around the subway station and 150 meters around the bus station are the concentrated area for the connection and transformation between shared bicycles and public transportation. Users are more likely to use bicycles to return home, and the proportions of cycling destinations in different administrative areas are different.
Key Words: bike sharing; time characteristics; spatial characteristics; cluster analysis
0 引言
借助大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)等技術(shù),共享單車行業(yè)快速發(fā)展。截至2017年底,共享單車覆蓋全國200多個城市,投放量超過2 500萬輛,在網(wǎng)民中滲透率達(dá)到41%,成為城市交通生態(tài)重要一環(huán) [1]。但單車無序停放、使用需求不均衡等問題也給城市管理帶來眾多問題。自行車共享系統(tǒng)研究始于21世紀(jì)初[2],國外學(xué)者主要關(guān)注自行車共享系統(tǒng)的設(shè)計運營問題,包括公共自行車站選址、車隊規(guī)模確定、車站容量設(shè)計、調(diào)度路徑優(yōu)化等[3-10],國內(nèi)學(xué)者關(guān)注的是自行車租賃站點的選址布局問題。大多數(shù)研究從城市公共交通系統(tǒng)接駁角度出發(fā),結(jié)合人口和用地性質(zhì),建立選址模型進行布局優(yōu)化研究[11-18]。本文嘗試從共享單車使用特征入手,利用上海市區(qū)ofo小黃車的地理信息記錄,對單車使用時間和空間進行分析,探尋居民使用單車出行的特征和目的,為進一步分析單車使用需求打下基礎(chǔ)。
1 研究方法及相關(guān)數(shù)據(jù)
1.1 研究區(qū)域概況
上海市作為首批引入共享單車城市,單車投放量和注冊人數(shù)龐大。據(jù)統(tǒng)計,2017年6月全市共享單車數(shù)量突破100萬輛,注冊人數(shù)突破1 300萬人[19]。但上海市共享單車分布極不均衡,且投放數(shù)量持續(xù)攀升,經(jīng)政府發(fā)布一系列相關(guān)管理規(guī)范進行整治,到2017年10月,共享單車數(shù)量從最高峰的178萬下降到115萬。經(jīng)過兩年的投放運營,共享單車用戶群體及使用習(xí)慣趨于穩(wěn)定。2017年ofo小黃車在中國和海外市場均居行業(yè)第一,因此以ofo小黃車數(shù)據(jù)來研究共享單車使用問題具有一定的代表性,可為其它城市提供參考。
1.2 分析方法
首先,對原始數(shù)據(jù)進行處理,得到符合需要、有效的騎行數(shù)據(jù)子集;其次,對單車出行進行時空分析,總結(jié)單車出行的時空特征,概述出行需求波動狀況;最后,結(jié)合城市用地類型和上海市興趣點(Point of Interest,POI)數(shù)據(jù),對騎行數(shù)據(jù)子集進行聚類分析,得到用戶單車出行目的。
1.3 數(shù)據(jù)來源
本文研究數(shù)據(jù)來自ofo小黃車公司提供的2017年9月27日上海市所有小黃車在靜止?fàn)顟B(tài)下的實時GPS記錄。單車數(shù)據(jù)覆蓋56.75萬輛單車,共4 870.78萬條地理坐標(biāo)實時記錄,數(shù)據(jù)字段包括自行車編號、時刻、經(jīng)度、緯度,不包含任何居民個人信息。此外通過百度地圖API獲取上海市所有POI數(shù)據(jù),包括居住、辦公、教育等11類。
1.4 數(shù)據(jù)預(yù)處理
研究需要使用共享單車騎行記錄??紤]到原始數(shù)據(jù)只有停放車輛的GPS記錄,對于每一輛單車,前后相鄰時刻地理坐標(biāo)出現(xiàn)變化,即認(rèn)為單車被移動,且前一時刻坐標(biāo)為起點,后一時刻坐標(biāo)為終點。因此,對原始數(shù)據(jù)進行如下處理:首先,對每一輛單車保留其每個坐標(biāo)點最小和最大時刻的記錄;其次,對每一輛單車,將前后時刻記錄匹配;最后,刪去前后時刻經(jīng)緯度無變化的記錄。完成以上步驟后,得到一份單車移動記錄的初始數(shù)據(jù)集,包含1 787 720條數(shù)據(jù),涵蓋460 017輛單車。
計算單車移動的距離、時長和速度。假設(shè)每條數(shù)據(jù)前后移動坐標(biāo)的經(jīng)度分別是long1和long2,緯度分別是lat1和lat2,根據(jù)球面角余弦定理,兩經(jīng)緯度坐標(biāo)點之間的距離由以下公式計算得出:
式(1)中,R為地球半徑。由于缺少移動路徑數(shù)據(jù),研究將起點和終點間的直線距離看作單車移動距離,實際中移動距離應(yīng)該更長。單車移動時長由前后連續(xù)兩個時刻之差可得。為符合騎行規(guī)律,保證數(shù)據(jù)有效性,刪去具有不合理移動速度(超出[50,334]范圍,單位:m/min)和移動距離的數(shù)據(jù)(移動距離小于50m,認(rèn)為未發(fā)生騎行行為),控制車輛使用時間在2017年9月27日(星期三)6:00-23:00范圍內(nèi),由此得到最終單車使用數(shù)據(jù)集,包含721 615條騎行記錄,覆蓋234 802輛車。本研究利用SQL Server完成以上數(shù)據(jù)處理步驟。
2 共享單車出行時空特征分析
2.1 單車出行時間特征
每半小時統(tǒng)計一次用車數(shù)量,得到單車騎行需求時間分布情況,如圖1所示。單車出行出現(xiàn)兩個高峰時段:早高峰出現(xiàn)在7:00-9:30,晚高峰出現(xiàn)在17:00-19:00,騎行需求在短時間內(nèi)出現(xiàn)激增和驟降現(xiàn)象,對共享單車布局能否滿足騎行需求帶來考驗。當(dāng)天騎行次數(shù)峰值為40 888次/半小時,平均騎行次數(shù)為21 224次/半小時,車輛平均使用頻次為3次/天。如圖2所示,單車使用平均速度為117m/min。早高峰階段人們以更快的速度騎車,平均速度峰值為140m/min,用車時間也相對較少,說明人們在上班時對出行距離和時間更敏感。下班后則相對悠閑,早高峰時段單車的合理調(diào)度尤為重要。
圖3和圖4給出單車使用時間和距離分布特征:48%的用戶騎行時間在5-10min,38%的用戶在10-15min;44%的用戶騎行距離在0.5-1km,23%的用戶在1-1.5km。絕大多數(shù)用戶使用單車出行,距離集中在2km以內(nèi),時間集中在15min以內(nèi),也有小部分用戶使用單車完成長距離出行,因此得出人們偏愛使用單車進行短距離出行的結(jié)論。
2.2 單車出行空間特征
騎行需求空間分布是共享單車布局優(yōu)化的重要依據(jù)。對于共享單車而言,其使用狀態(tài)必定成對出現(xiàn),既有用車行為也有停車行為,考慮空間因素時需要為兩種狀態(tài)都預(yù)留足夠的空間。本研究利用ArcGIS平臺,將2017年9月27日當(dāng)天單車出行的起點和終點一起進行可視化分析,得到上海市各行政區(qū)內(nèi)單車出行需求的空間分布特征(見圖5)。以行政區(qū)為界限,統(tǒng)計區(qū)域內(nèi)用車和停車次數(shù)總和,將16個行政區(qū)單車使用強度分為5個等級,用車和停車次數(shù)越多,則區(qū)域強度越大、顏色越深。由圖5可看出,單車使用強度由東到西逐漸減弱:浦東新區(qū)因面積較大,且西北區(qū)域處于市中心繁華地帶,空間要素豐富、人口眾多,單車使用量遠(yuǎn)超其它各區(qū);黃浦區(qū)等因設(shè)有單車禁行、限行路段,單車使用量略低于周邊各區(qū),但也因其較高的人口密度而位于強度第二梯隊;2017年9月,崇明區(qū)僅有摩拜單車一個品牌投放約1 800輛車,未投放ofo單車,因此圖中顯示單車使用量為零,該地區(qū)單車投放量無法滿足居民用車需求。
2.3 單車出行與公共交通的聯(lián)系
協(xié)調(diào)好單車分布點與地鐵站、公交站之間的銜接關(guān)系,是解決單車與公共交通系統(tǒng)接駁的關(guān)鍵。研究通過Python爬蟲程序得到上海市區(qū)325個地鐵站和15 518個公交站(除崇明區(qū))的地理坐標(biāo)數(shù)據(jù),利用ArcGIS,以公共交通站點為中心進行多環(huán)緩沖分析,分別統(tǒng)計2017年9月27日當(dāng)天發(fā)生在地鐵站和交通站周圍的用車和停車數(shù)量。考慮到地鐵站和公交站具有不同的分布密度,對于地鐵站,構(gòu)建其周圍1 000m范圍內(nèi)間隔100m的多環(huán)緩沖區(qū);對于公交站,構(gòu)建其周圍250m范圍內(nèi)間隔50m的多環(huán)緩沖區(qū),得到平均每個公共交通站點周邊單車使用起止點分布特征(見圖6、圖7)。
結(jié)果顯示,地鐵站和公交站均在第5環(huán)出現(xiàn)了單車使用起止點聚集區(qū)域,即距離地鐵站500m和距離公交站150m是共享單車與其它出行方式接駁轉(zhuǎn)換的集中區(qū)域。因此,將地鐵站周圍500m范圍內(nèi)和公交站周圍150m范圍內(nèi)確定為公共交通站點影響區(qū)域,統(tǒng)計落在其中的用車和停車次數(shù),得到上海市共享單車與公共交通系統(tǒng)(除崇明區(qū))的接駁強度圖(見圖8、圖9)。研究發(fā)現(xiàn),以黃浦區(qū)為中心,強度由中心城區(qū)向四周逐漸減弱。黃浦區(qū)與周邊7個行政區(qū)的公共交通站點周圍產(chǎn)生并吸引了大量單車騎行行為,一方面由于市中心城區(qū)用地類型豐富、人口密集帶來大量騎行需求,另一方面由于最初單車投放不均,市中心區(qū)域單車扎堆造成周邊城區(qū)無車可用,騎行需求無法滿足。
3 單車出行目的
3.1 單車出行目的分類
共享單車的使用需求除了受公共交通系統(tǒng)影響,還與城市用地類型和空間要素有密切聯(lián)系。共享單車因其“隨用隨?!睂傩?,其停車點可認(rèn)為是用戶最終目的地。根據(jù)《城市用地分類與規(guī)劃建設(shè)用地標(biāo)準(zhǔn)》和百度地圖POI說明,將空間要素分為居住、辦公等11類,其屬性和涵蓋范圍見表1。停車點所屬的POI類別可作為此次騎行的目的。研究利用Python爬蟲腳本,抓取上海市行政區(qū)范圍內(nèi)所有百度地圖POI名稱、地理坐標(biāo)和地址信息,處理后得到?? 536 113個POI信息(崇明區(qū)未列入)。
3.2 方法
聚類是一種常用的無監(jiān)督學(xué)習(xí)數(shù)據(jù)分析方法,能有效處理未知領(lǐng)域的數(shù)據(jù)劃分問題。K-means算法是基于劃分的經(jīng)典聚類算法,具有實現(xiàn)簡單、收斂快速,對于大型數(shù)據(jù)集的簡單性和可擴展性等優(yōu)點[20]。K-means算法流程為:①隨機選擇k個對象作為初始聚類中心;②計算其余對象與各個聚類中心的距離,將其分配到最近的簇;③計算各個簇內(nèi)所有對象的平均值,得到新的聚類中心;重復(fù)上述過程直到達(dá)到最大迭代次數(shù)或聚類中心不再變化為止。
為找到單車停車點所屬的POI類型,借用K-means算法思想,將POI點作為聚類中心,計算各停車點與POI點的距離,將停車點分到與其最近的POI點歸為一類即可。POI點和停車點均為大體量數(shù)據(jù),因此采取分而治之策略,將中心點集合停車點集按行政區(qū)拆分,分別聚類計算。該方法易于理解實現(xiàn),也可避免算法對初始中心化選擇的依賴性,實現(xiàn)較高精度的聚類。利用xGeocoding軟件對單車停車點經(jīng)緯度坐標(biāo)進行地址解析,得到所有停車點的行政區(qū)域劃分,并利用Python腳本進行聚類分析。
3.3 結(jié)果
從圖10可以看出,有34%的單車行程由用戶返家完成,4項服務(wù)類行程共占總行程的1/3,占總量POI點3%的交通POI點吸引并產(chǎn)生了9%的行程。購物點與休閑娛樂點有較大部分重合或極為接近,可將其合并分析,兩類行程共占約13%的總行程。從表2可看出,各區(qū)返家行程依然占據(jù)較大比例,奉賢、金山、松江和青浦4個區(qū)由工作地點產(chǎn)生的行程比重明顯高于中心城區(qū)。結(jié)合前文分析,這4個行政區(qū)公共交通系統(tǒng)不如中心城區(qū)發(fā)達(dá),尤其奉賢、金山兩區(qū)尚未通地鐵,人們上班出行需求非常大。同理,周邊城區(qū)也有更大比重的單車進行與公共交通系統(tǒng)接駁的行程。中心城區(qū)則得益于發(fā)達(dá)的商業(yè)和旅游業(yè),在休閑娛樂、酒店服務(wù)等方面吸引和產(chǎn)生了更多行程。楊浦區(qū)因?qū)W校眾多,且ofo最初從校園投放起步,因此產(chǎn)生更多的教育類行程。
4 結(jié)語
本文基于上海市ofo單車地理信息數(shù)據(jù),利用SQL Server、ArcGIS、xGeocoding、Python等分析工具,分析了ofo單車用戶的騎行時空特征,對比分析了公共交通系統(tǒng)站點周邊共享單車的使用需求及空間分布,并根據(jù)用地類型和空間要素對共享單車行程目的進行聚類分析,從時間、空間以及使用目的等方面總結(jié)了共享單車使用特征。本文在騎行數(shù)據(jù)缺失的情況下,運用多種分析工具,將單車GPS記錄轉(zhuǎn)化為用戶騎行記錄,為相關(guān)問題的處理方法提供參考。雖然只有一天的單車數(shù)據(jù),但上海地區(qū)共享單車使用較早,單車投放量及用戶群體龐大,用戶騎行特征較穩(wěn)定,因此分析結(jié)果具有一定參考意義。未來可在本文基礎(chǔ)上歸納騎行鏈屬性,分析不同騎行鏈的時空特征,預(yù)測共享單車的實際使用需求。
參考文獻(xiàn):
[1] 政策與經(jīng)濟研究所. 2017年共享單車經(jīng)濟社會影響報告 [R].中國信通院,2018.
[2] LIN J R, YANG T H. Strategic design of public bicycle sharing systems with service level constraints[J]. Transportation Research Part E Logistics & Transportation Review, 2011, 47(2):284-294.
[3] LIN J R, YANG T H, CHANG Y C. A hub location inventory model for bicycle sharing system design: formulation and solution[J]. Computers & Industrial Engineering, 2013, 65(1):77-86.
[4] VOGEL P,? MATTFELD DC.Modeling of repositioning activities in bike-sharing systems [J].Bruges:World Conference on Transport Research, 2010(1):89-94.
[5] ROMERO J P, IBEAS A, MOURA J L, et al. A simulation-optimization approach to design efficient systems of bike-sharing[J]. Procedia - Social and Behavioral Sciences, 2012, 54(4):646-655.
[6] CHOU S J. Models for effective deployment and redistribution of bicycles within public bicycle-sharing systems[J]. Operations Research, 2013,61(6):1346-1359.
[7] MARTINEZ L M, CAETANO L, EIRó T, et al. An optimisation algorithm to establish the location of stations of a mixed fleet biking system: an application to the city of Lisbon[J]. Procedia - Social and Behavioral Sciences, 2012, 54(1):513-524.
[8] GEORGE D K, XIA C H. Fleet-sizing and service availability for a vehicle rental system via closed queueing networks[J]. European Journal of Operational Research, 2011, 211(1):198-207.
[9] FRADE I, RIBEIRO A. Bike-sharing stations: A maximal covering location approach[J]. Transportation Research Part A Policy & Practice, 2015(82):216-227.
[10] FORMA I A, RAVIV T, TZUR M. A 3-step math heuristic for the static repositioning problem in bike-sharing systems[J]. Transportation Research Part B, 2015(71):230-247.
[11] 羅海星. 城市公共自行車租賃站點選址方法研究[D].北京: 北京交通大學(xué), 2013.
[12] 沈翔. 基于城市軌道交通換乘的公共自行車租賃點選址規(guī)劃研究[D].西安: 長安大學(xué), 2015.
[13] 申紅飛. 軌道站點周邊自行車停車設(shè)施布設(shè)方法研究[D].南京: 東南大學(xué), 2016.
[14] 何流, 陳大偉, 李旭宏,等. 城市公共自行車租賃點布局優(yōu)化模型[J]. 武漢理工大學(xué)學(xué)報:交通科學(xué)與工程版, 2012, 36(1):129-133.
[15] 何流, 李旭宏, 陳大偉,等. 公共自行車動態(tài)調(diào)度系統(tǒng)需求預(yù)測模型研究[J]. 武漢理工大學(xué)學(xué)報:交通科學(xué)與工程版, 2013, 37(2):278-282.
[16] 陳昕昀, 蔣永康, 李牧原,等. 基于BP神經(jīng)網(wǎng)絡(luò)的公共自行車單站點調(diào)度需求量研究[J]. 交通運輸研究, 2016, 2(3):30-35.
[17] 解小平, 邱建東, 湯旻安. 基于Elman神經(jīng)網(wǎng)絡(luò)的公共自行車單站點需求預(yù)測[J]. 計算機工程與應(yīng)用, 2017, 53(16):221-224.
[18] 劉路美. 城市公共自行車站點需求預(yù)測及調(diào)度優(yōu)化方法研究[D].北京: 北京交通大學(xué), 2017.
[19] 陳依萍. 上海共享單車再增長:數(shù)量突破100萬,超1300萬人注冊[EB/OL]. https://www.thepaper.cn/newsDetail_forward_1707101
[20] SAINI A, MINOCHA J, UBRIANI J, et al. New approach for clustering of big data: disk-means[C]. IEEE International Conference on Computing, Communication and Automation,2017:122-126.
(責(zé)任編輯:杜能鋼)