王宇洋
(北京市育英學(xué)校,北京 100036)
近年來,很多城市的共享單車數(shù)量快速達到飽和狀態(tài),共享單車的存量非常大且處于流動變化狀態(tài),在為市民提供騎行便利的同時,也對城市管理提出了新的要求和挑戰(zhàn)。如何及時掌握和分析城市中海量共享單車的數(shù)量、實時位置和移動規(guī)律,是值得研究的課題。共享單車的騎行數(shù)據(jù)也是分析城市人群出行愛好與規(guī)律的最佳數(shù)據(jù),通過大數(shù)據(jù)分析可以預(yù)測單車使用的高峰時段和地點,為城市管理者等提供及時可靠的決策依據(jù)。
共享單車應(yīng)用程序所使用的數(shù)據(jù)包是采用JSON(JavaScript Object Notation,Java腳本對象標記)格式,這是一種輕量級的數(shù)據(jù)交換格式,因其易閱讀和編寫,也易于機器解析和生成,可以有效提升網(wǎng)絡(luò)傳輸效率,故在網(wǎng)絡(luò)軟件中廣泛應(yīng)用。
通過對原始數(shù)據(jù)包進行研究,可以得出以下的數(shù)據(jù)格式:
對本地POST發(fā)送數(shù)據(jù)包進行分析,獲得共享單車服務(wù)器API接口,采用Python語言編寫網(wǎng)絡(luò)爬蟲類程序,將API中發(fā)送數(shù)據(jù)中的位置坐標數(shù)據(jù)分別寫入兩層的嵌套循環(huán),在城市范圍內(nèi),以適當?shù)牟介L對城市范圍內(nèi)單車進行快速掃描,得到全部共享單車GPS信息當前數(shù)據(jù),寫入文件。
對于車輛類型,JSON數(shù)據(jù)中的BikeType有1和2兩種可能,經(jīng)過對比分析,可以看出1代表新型車、2代表舊款車。
在得到原始數(shù)據(jù)后,不能直接將其輸入GIS系統(tǒng)進行圖形展示和分析。某些數(shù)據(jù)因GPS波動的原因會造成車輛頻繁或大幅度移動,故需要對數(shù)據(jù)進行進一步篩選。
根據(jù)研究目的,選擇以下篩選方法:
(1)保留:車輛ID相同且位置變化適中的車輛
(2)去除:車輛ID不同或者位置變化極大(?。┑能囕v
根據(jù)所選研究的時間區(qū)段,移動經(jīng)緯度超過0.4可能性不大,于是選擇0.4作為數(shù)據(jù)的上限;同時車輛的小規(guī)模移動(GPS波動)可能性亦存在,于是選擇經(jīng)緯度變化0.0002作為下限。數(shù)據(jù)經(jīng)過處理后,分別將同一ID單車的前后位置存于Excel表中(如表1所示)。
表1 共享單車實時位置數(shù)據(jù)表
數(shù)據(jù)處理部分的編程實現(xiàn)核心代碼如下:
數(shù)據(jù)處理后的結(jié)果文件集中包含了按日期和時間排序的共享單車實時位置信息。
首先,需要對車輛ID進行去重處理。
在完成對車輛ID的去重處理后,可以分別統(tǒng)計車輛類型1和類型2的共享單車數(shù)量。統(tǒng)計結(jié)果為:車輛類型為2的共享單車為10 486輛,車輛類型為1的共享單車為35 403輛。共享單車在城市的總投放量的官方公布數(shù)據(jù)為37萬輛,則可對城市中不同類型共享單車數(shù)量估算如下:
(1)類型1的共享單車數(shù)據(jù)約為236 284輛。(2)類型2的共享單車數(shù)據(jù)約為69 985輛。
可以看出,在車輛改進后,數(shù)據(jù)顯示有大量投放新型車的現(xiàn)象,原舊款車的單車成本高達5 000元而新型車成本為3 000元,大數(shù)據(jù)分析所反映的規(guī)律符合客觀事實。
根據(jù)數(shù)據(jù)統(tǒng)計,有近四成車輛在研究時間內(nèi)從未發(fā)生移動。對于此現(xiàn)象分析有兩種可能:
(1)由于時間是冬天,騎行人較少。
(2)車輛處在小區(qū)內(nèi)、偏僻位置或無法開始騎行(損壞,上鎖)。
首先,通過百度地圖開放平臺獲取城市內(nèi)主要地鐵站的坐標,并將其輸入GIS系統(tǒng),并在其周圍200米建立緩沖區(qū),便于統(tǒng)計車輛移動信息。
然后,將處理后文件輸入GIS系統(tǒng),由起點向終點連線。同時將起點和終點坐標輸入GIS系統(tǒng),與緩沖區(qū)做相交處理,將起點設(shè)為紅色,終點為綠色。
以下將對大數(shù)據(jù)做具體分析。
從宏觀總體上看,用車集中區(qū)不在城市中心城區(qū),而是呈現(xiàn)圍繞地鐵沿線的條帶狀或是在郊區(qū)的聚集區(qū)域(如圖1所示)。
其中,在地圖的左下方的聚集區(qū)均圍繞地鐵;而位于地圖左上的聚集區(qū)經(jīng)百度地圖查詢,為三個科技產(chǎn)業(yè)園所在處,青年人居多,騎行行為多,故出現(xiàn)了聚集現(xiàn)象。中心城區(qū)騎行次數(shù)并不多,分析原因:
(1)中心城區(qū)小區(qū)成熟,部分居民在冬季選擇乘私家車出行。
(2)中心城區(qū)公共交通便利、路網(wǎng)發(fā)達,多數(shù)居民在冬季選擇公交出行。
(1)0~9 時:
在0~9時的時間段內(nèi),在郊區(qū)的地鐵站附近多呈現(xiàn)為綠色點聚集,說明大量居民選擇地鐵站作為終點(如圖2所示)。
在對北京市東北五環(huán)外馬泉營地鐵站附近的數(shù)據(jù)分析顯示,在上班高峰期,居民多乘坐地鐵向城市中心移動,幾乎沒有人從地鐵站出發(fā)向外騎行。
在市中心城區(qū)的情況就與之相反,多呈現(xiàn)紅色聚集,說明多數(shù)地鐵乘客下車后,騎行共享單車前往上班的地點,在中心城區(qū)的地鐵站,大多數(shù)騎行方向均呈現(xiàn)向外的發(fā)散狀。
圖1 共享單車分布情況宏觀分析
圖2 郊區(qū)地鐵站附近共享單車大數(shù)據(jù)分析
(2)9~16 時:
對于9~16時段,中心城市和郊區(qū)的地鐵區(qū)域并無大的差別,而相比于早高峰,產(chǎn)業(yè)園附近車輛移動則更密集,且出發(fā)點與終點大多重合,經(jīng)使用百度地圖查詢確認,上述地點附近大多有麥當勞、肯德基等餐飲業(yè),反映了騎行者用餐等需求的行為規(guī)律。
經(jīng)過本次對城市共享單車位置大數(shù)據(jù)的研究工作,提出了一套數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析和可視化展示的實現(xiàn)方法,數(shù)據(jù)處理過程均采用計算機編程實現(xiàn),計算結(jié)果經(jīng)過實踐證明正確可行,通過對上述大數(shù)據(jù)規(guī)律的探索,能夠?qū)蚕韱诬嚨氖褂酶叻鍟r段與地段有正確的認識,驗證了大數(shù)據(jù)技術(shù)方法的實用性,為我們的城市管理更加高效提供實時可靠的數(shù)據(jù)支撐,具有良好的推廣應(yīng)用價值。