殷瑋川,何世偉,李玉斌,侯吉,周芳杰
?
基于云計(jì)算的地鐵大數(shù)據(jù)分析方法研究
殷瑋川,何世偉,李玉斌,侯吉,周芳杰
(北京交通大學(xué) 城市交通復(fù)雜系統(tǒng)理論與技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100044)
提出一種基于云計(jì)算的地鐵大數(shù)據(jù)分析方法,將地鐵大數(shù)據(jù)的處理分析劃分為數(shù)據(jù)讀取、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)清洗、數(shù)據(jù)分析和數(shù)據(jù)可視化5個(gè)階段,數(shù)據(jù)分析主要以車(chē)站客流規(guī)模情況、乘客出行時(shí)間情況等為例進(jìn)行說(shuō)明。并以阿里云計(jì)算服務(wù)大數(shù)據(jù)平臺(tái)為工具,測(cè)試云計(jì)算技術(shù)與傳統(tǒng)數(shù)據(jù)庫(kù)的運(yùn)算效率,證明云計(jì)算具有處理速度快和不占用本地資源的優(yōu)點(diǎn)。最后,以成都地鐵AFC 1周刷卡數(shù)據(jù)為案例,對(duì)比實(shí)際情況與數(shù)據(jù)分析所得結(jié)論,驗(yàn)證了所提出的大數(shù)據(jù)分析方法具有較好的普適性,對(duì)于今后的地鐵大數(shù)據(jù)分析研究有很好的借鑒意義。
地鐵;云計(jì)算;客流分析;大數(shù)據(jù);AFC數(shù)據(jù)
近幾年來(lái),我國(guó)各個(gè)城市的地鐵迅猛發(fā)展,建設(shè)運(yùn)營(yíng)總里程不斷增加[1]。對(duì)于地鐵運(yùn)營(yíng)企業(yè)來(lái)說(shuō),客流分析是線網(wǎng)規(guī)劃和運(yùn)營(yíng)組織的重要參考之一,而隨著計(jì)算機(jī)和信息技術(shù)的迅猛發(fā)展和普及,地鐵領(lǐng)域積淀了海量的乘客出行信息等數(shù)據(jù),因此,結(jié)合海量地鐵AFC刷卡數(shù)據(jù)分析客流特征,實(shí)現(xiàn)資源的合理配置,進(jìn)而更好地服務(wù)地鐵客流的出行需求,對(duì)降低乃至消除供需不平衡情況有顯著研究?jī)r(jià)值。在處理此類(lèi)問(wèn)題上,大數(shù)據(jù)處理技術(shù)和方法支持具有強(qiáng)大優(yōu)勢(shì),隨著決策需求的日益復(fù)雜,地鐵大數(shù)據(jù)的應(yīng)用場(chǎng)景也越來(lái)越廣泛[2]。當(dāng)前關(guān)于地鐵客流大數(shù)據(jù)分析的研究主要偏重于大數(shù)據(jù)分析的政策性、前沿性綜述方面以及客流出行特征分析。陸化普等[3]指出交通大數(shù)據(jù)與傳統(tǒng)交通數(shù)據(jù)的不同主要體現(xiàn)在特征中。當(dāng)前對(duì)大數(shù)據(jù)特征的描述主要有:3V,4V和5V等。結(jié)合交通大數(shù)據(jù)的基本類(lèi)型,認(rèn)為交通大數(shù)據(jù)具有6V特征:體量巨大;處理快速;模態(tài)多樣;真假共存;價(jià)值;可視化。陳歡等[4]基于2014 年上海市第5次綜合交通調(diào)查結(jié)果,綜述上海市交通大數(shù)據(jù)資源現(xiàn)狀和基于大數(shù)據(jù)的城市綜合交通特征挖掘分析技術(shù)方法及主要成果。軌道交通大數(shù)據(jù)的應(yīng)用研究方面主要有:CHEN等[5]對(duì)基于大數(shù)據(jù)的乘客出行行為研究進(jìn)行系統(tǒng)和前瞻性的綜述分析。Van[6]通過(guò)烏特勒支的輕軌大數(shù)據(jù)對(duì)其運(yùn)營(yíng)組織進(jìn)行分析。Kuhlman等[7]在收集荷蘭的輕軌和公共交通乘客出行數(shù)據(jù)基礎(chǔ)上,對(duì)乘客的出行行為進(jìn)行分析。JIANG等[8]利用乘客出行大數(shù)據(jù)對(duì)軌道交通的運(yùn)營(yíng)時(shí)刻表進(jìn)行評(píng)估分析。而在大數(shù)據(jù)的技術(shù)方法層面的研究有:朱建生等[9]提出鐵路客票實(shí)名制信息綜合分析系統(tǒng)的技術(shù)架構(gòu),并設(shè)計(jì)反向索引以構(gòu)建客票實(shí)名制乘車(chē)信息的查詢策略和查詢流程,通過(guò)性能測(cè)試,驗(yàn)證了NoSQL數(shù)據(jù)庫(kù)技術(shù)在處理大數(shù)據(jù)查詢和分析中的高可用性。蔡昌俊等[10]利用AFC數(shù)據(jù),提出一種適用于路網(wǎng)結(jié)構(gòu)變化條件下的城軌站間客流量分布預(yù)測(cè)模型,并用廣州地鐵6號(hào)線開(kāi)通前后的AFC數(shù)據(jù)進(jìn)行檢驗(yàn)。ZHOU等[11]通過(guò)挖掘不同數(shù)據(jù)源的信息研究公共交通客流量與天氣因素間的關(guān)系。DONG等[12]基于手機(jī)基站大數(shù)據(jù)的信息采用-means聚類(lèi)算法對(duì)交通小區(qū)劃分方法進(jìn)了研究。目前研究中,雖然已有采用AFC數(shù)據(jù)對(duì)地鐵客流進(jìn)行分析或預(yù)測(cè)的文獻(xiàn),如文獻(xiàn)[10],但其數(shù)據(jù)量和相關(guān)數(shù)據(jù)處理分析方法都沒(méi)有涉及到大數(shù)據(jù)和云計(jì)算的范疇。綜上,針對(duì)地鐵大數(shù)據(jù)分析的研究還存在以下不足:1) 大部分的地鐵客流分析研究還停留在傳統(tǒng)的本地?cái)?shù)據(jù)庫(kù)處理層面;2) 地鐵大數(shù)據(jù)的研究并沒(méi)有相應(yīng)的創(chuàng)新性和普適性方法,如針對(duì)地鐵大數(shù)據(jù)的分析處理方法還沒(méi)有涉及到云端分布式計(jì)算技術(shù),數(shù)據(jù)可視化技術(shù)應(yīng)用還有待深入研究。針對(duì)上述研究中的不足,本文以云計(jì)算技術(shù)為基礎(chǔ),提出一種地鐵大數(shù)據(jù)的分析處理方法,并以成都地鐵AFC大數(shù)據(jù)為例進(jìn)行驗(yàn)證,分析地鐵客流特征和波動(dòng)規(guī)律,同時(shí)也驗(yàn)證了提出的大數(shù)據(jù)分析方法具有良好的精準(zhǔn)性和普適性。
本文提出的基于云計(jì)算的地鐵大數(shù)據(jù)分析方法分為數(shù)據(jù)讀取、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)清洗、數(shù)據(jù)分析和數(shù)據(jù)可視化5個(gè)階段,其中,數(shù)據(jù)分析主要包括車(chē)站客流規(guī)模情況、乘客出行時(shí)間情況、卡類(lèi)型比例情況以及車(chē)站客流規(guī)模聚類(lèi)方案等。該方法的流程示意圖如圖1所示,具體的操作步驟如下所述。
Step 1:數(shù)據(jù)讀取方法。在本地編程軟件如Java開(kāi)發(fā)工具平臺(tái)上編寫(xiě)代碼對(duì)原始數(shù)據(jù)集的數(shù)據(jù)結(jié)構(gòu)進(jìn)行讀取,獲取包括行分隔符和列分隔符的信息,從而可以保證順利將數(shù)據(jù)集上傳云端數(shù)據(jù)庫(kù),如存在數(shù)據(jù)結(jié)構(gòu)“2aa2a04|N|104.063028|30.508351|雙流縣|1|104.127465|30.26802|雙流縣|1|27459.749617”,則列分隔符為“|”,行分隔符為“ ”。
Step 2:數(shù)據(jù)存儲(chǔ)方法。在云端數(shù)據(jù)庫(kù)新建與Step1獲得的數(shù)據(jù)結(jié)構(gòu)相對(duì)應(yīng)的表結(jié)構(gòu),利用云客戶端的MapReduce分布式上傳功能完成云端數(shù)據(jù)庫(kù)讀取大數(shù)據(jù)的操作,即將大數(shù)據(jù)存儲(chǔ)在云端數(shù)據(jù)庫(kù)中。
Step 3:數(shù)據(jù)清洗方法。在云平臺(tái)完成數(shù)據(jù)的清洗工作,包括將String類(lèi)型的值轉(zhuǎn)換成Int類(lèi)型以方便后期匹配計(jì)算,將一些列中帶不規(guī)則字符的數(shù)值重新統(tǒng)一格式。篩除無(wú)效數(shù)據(jù),如統(tǒng)計(jì)客流情況時(shí),員工卡的進(jìn)出站記錄就屬于無(wú)效數(shù)據(jù)。再對(duì)部分缺失或空白的數(shù)據(jù)記錄進(jìn)行自動(dòng)填充。
Step 4:數(shù)據(jù)分析方法。在云平臺(tái)對(duì)清洗后的數(shù)據(jù)進(jìn)行SQL分析操作,可從地鐵AFC數(shù)據(jù)記錄中篩選計(jì)算出各地鐵站的客流情況、進(jìn)出站斷面情況、乘客出行時(shí)間分布情況、OD量情況和卡類(lèi)型情 況等。
以乘客出行時(shí)間分布為例,數(shù)據(jù)分析方法的具體偽代碼實(shí)現(xiàn)如下。Records為記錄總數(shù),Travel_ Time[i]為第條記錄的出行時(shí)間,Out_Station_ Time[i]為第條記錄的出站時(shí)刻,In_Station_time[i] 為第條記錄的進(jìn)站時(shí)刻,K_TimePattern為統(tǒng)計(jì)乘客出行時(shí)間比例而劃分的出行時(shí)段,K_Time Pattern. count為劃分時(shí)段數(shù)量,K_TimePattern[k].Time為第個(gè)時(shí)段對(duì)應(yīng)的出行時(shí)間上限值,K_TimePattern [k]. Cnt為第個(gè)時(shí)段客流數(shù)。
For(int i=0;i< Records;i++){
Travel_Time[i]=Out_Station_Time[i]-In_Station_time[i];
For (int k=1;k If (Travel_Time[i]<=K_TimePattern[k].Time) { K_ TimePattern [k].Cnt++; } } } Step 5:數(shù)據(jù)可視化方法。將前述步驟中求出的各類(lèi)數(shù)據(jù)結(jié)果進(jìn)行保存,并在云端利用百度地圖API進(jìn)行程序開(kāi)發(fā)實(shí)現(xiàn)可視化分析。 圖1 大數(shù)據(jù)分析方法流程圖 當(dāng)分析的數(shù)據(jù)規(guī)模較大時(shí),本地?cái)?shù)據(jù)庫(kù)處理速度會(huì)降低,本地計(jì)算資源占用率也會(huì)提高,云計(jì)算本身不占用本地資源的模式也讓用戶更好地分配了資源,節(jié)省了成本,提高了效率。相比傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù),云計(jì)算具有很好的適應(yīng)性和應(yīng)用前景。采用云計(jì)算處理方法可以有效避免資源的集中消耗,分布式的處理機(jī)制也可以有效提升數(shù)據(jù)的處理速度。本節(jié)以阿里云計(jì)算服務(wù)大數(shù)據(jù)平臺(tái)為工具,測(cè)試對(duì)比其與傳統(tǒng)數(shù)據(jù)庫(kù)在數(shù)據(jù)處理方面的效率差別。阿里云大數(shù)據(jù)計(jì)算服務(wù)(MaxCompute)[13]支持SQL,MapReduce,Graph等計(jì)算模型,是阿里集團(tuán)唯一大數(shù)據(jù)處理云平臺(tái)。能在更短的時(shí)間內(nèi)完成計(jì)算任務(wù),有效降低用戶成本。Tunnel服務(wù)支持每天TB/PB級(jí)別數(shù)據(jù)的傳輸,一般用于歷史數(shù)據(jù)、全量數(shù)據(jù)的導(dǎo)入導(dǎo)出,具有吞吐量高、水平可擴(kuò)展的特點(diǎn),適用于批量、歷史數(shù)據(jù)的上傳及下載,而且所有數(shù)據(jù)均以表格式壓縮存儲(chǔ),不會(huì)暴露文件系統(tǒng),占用更少的存儲(chǔ)空間,可以降低用戶成本,唯一的缺點(diǎn)是數(shù)據(jù)延遲較高。MaxCompute SQL采用標(biāo)準(zhǔn)的SQL語(yǔ)法,以更高效的計(jì)算框架支持SQL計(jì)算模型,執(zhí)行效率比普通的MapReduce模型[14]更高,通過(guò)多時(shí)間維度的離線任務(wù)調(diào)度、在線運(yùn)維、監(jiān)控報(bào)警等功能為大數(shù)據(jù)開(kāi)發(fā)提供穩(wěn)定的離線調(diào)度能力,可以支持超過(guò)百萬(wàn)級(jí)的離線調(diào)度任務(wù)量。 在內(nèi)存4G,AMD雙核處理器(主頻2.2GHz)的電腦上對(duì)阿里云MaxCompute和傳統(tǒng)SQL Server2008數(shù)據(jù)庫(kù)處理大數(shù)據(jù)的SQL運(yùn)算速度進(jìn)行測(cè)試對(duì)比,測(cè)試數(shù)據(jù)集為成都地鐵AFC刷卡數(shù)據(jù)。如表1所示,可以看出,阿里云MaxCompute的整體運(yùn)算速率要優(yōu)于傳統(tǒng)SQL Server數(shù)據(jù)庫(kù),且隨著SQL語(yǔ)句復(fù)雜度的提高或數(shù)據(jù)規(guī)模擴(kuò)大其運(yùn)算優(yōu)勢(shì)性體現(xiàn)越明顯。 第1次SQL運(yùn)算阿里云MaxCompute需要4 s,但是SQL Server數(shù)據(jù)庫(kù)只需要1 s,有2點(diǎn)原因,一是因?yàn)楸镜赜?jì)算機(jī)提交SQL請(qǐng)求到阿里云計(jì)算平臺(tái)會(huì)存在網(wǎng)絡(luò)傳輸和SQL語(yǔ)句讀取初始化的時(shí)間,二是阿里云計(jì)算平臺(tái)將MaxCompute拆成一個(gè)分布式的任務(wù)去調(diào)用,MapReduce初始化時(shí)的反應(yīng)速度會(huì)比較慢,所以即使是復(fù)雜度很低的SQL語(yǔ)句,也會(huì)需要一定的時(shí)間。而后3次不同規(guī)模的SQL運(yùn)算中,SQL Server 數(shù)據(jù)庫(kù)的運(yùn)算時(shí)間成倍增長(zhǎng),阿里云MaxCompute的運(yùn)算時(shí)間卻保持相對(duì)穩(wěn)定。這說(shuō)明隨著計(jì)算數(shù)據(jù)規(guī)模的擴(kuò)大和SQL復(fù)雜度的提高,云計(jì)算平臺(tái)初始化的時(shí)間相比于總計(jì)算時(shí)間所占的比重降低,基于云計(jì)算平臺(tái)的分布式調(diào)用方法相比傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)的優(yōu)勢(shì)性就顯現(xiàn)出來(lái)。 表1 云計(jì)算與傳統(tǒng)數(shù)據(jù)庫(kù)計(jì)算效率對(duì)比 本文的地鐵AFC數(shù)據(jù)由中國(guó)地鐵工程咨詢有限責(zé)任公司提供,包含2016?03?21~03?27 1周的成都地鐵AFC刷卡數(shù)據(jù),涉及70多萬(wàn)名乘客3條地鐵線路的共計(jì)7 872 314條AFC數(shù)據(jù)記錄。其中將03?21~03?25為工作日,03?26~03?27為非工作日。 AFC數(shù)據(jù)結(jié)構(gòu)如表2所示,首先讀取原始數(shù)據(jù)中的行、列分隔符,通過(guò)云客戶端進(jìn)行拆分后上傳云端數(shù)據(jù)庫(kù)。再對(duì)AFC數(shù)據(jù)格式進(jìn)行統(tǒng)一,原始AFC數(shù)據(jù)中String類(lèi)型的數(shù)值都含有雙引號(hào),如進(jìn)站站名顯示為“火車(chē)北站”,因此,需利用Split_apart函數(shù)文本中的引號(hào)格式統(tǒng)一進(jìn)行刪除,將需要數(shù)值匹配計(jì)算的列進(jìn)行String轉(zhuǎn)Int型的操作,最后再對(duì)員工卡進(jìn)出站這些無(wú)效數(shù)據(jù)進(jìn)行篩除,對(duì)部分缺失或空白記錄自動(dòng)填充。 在云端數(shù)據(jù)庫(kù)編寫(xiě)SQL腳本語(yǔ)言分別對(duì)AFC數(shù)據(jù)從各站客流情況、客流斷面情況、卡類(lèi)型情況、乘客出行情況和車(chē)站客流規(guī)模聚類(lèi)進(jìn)行分析,最后利用百度地圖API進(jìn)行程序開(kāi)發(fā)實(shí)現(xiàn)可視化分析,以此驗(yàn)證本文提出的基于云計(jì)算的大數(shù)據(jù)分析 方法。 表2 成都AFC數(shù)據(jù)表結(jié)構(gòu) 統(tǒng)計(jì)分析工作日和非工作日成都地鐵各車(chē)站的客流量情況,包括進(jìn)出站客流,如圖2~3所示。其中,春熙路、犀浦、成都東客站、天府廣場(chǎng)以及火車(chē)北站這5個(gè)車(chē)站在工作日和非工作日的客流量都很大,其中春熙路和犀浦相對(duì)更為繁忙。龍泉驛和非遺博覽園在非工作日客流較多,累計(jì)客流量能夠排入非工作日的前10。而世紀(jì)城站的客流量情況較為特殊,是因?yàn)?016?03?24~26在世紀(jì)城新國(guó)際會(huì)展中心舉行了成都春季全國(guó)糖酒會(huì),因此該站客流量在那一周的工作日和非工作日均進(jìn)入前10,其中03?24客流量更是超過(guò)14萬(wàn)人次。根據(jù)不同客流量規(guī)模的車(chē)站數(shù)量數(shù)據(jù)可以看出,工作日中客流量規(guī)模在2~5萬(wàn)的車(chē)站數(shù)量最多,非工作日中客流量規(guī)模小于2萬(wàn)的車(chē)站數(shù)量最多,這有可能是工作日中乘客大都往返于居住地和工作地之間,而非工作日中乘客由于出行目的的不同導(dǎo)致車(chē)站客流量規(guī)模分布較為分散。 圖2 工作日前10車(chē)站客流量 圖3 非工作日前10車(chē)站客流量 圖4 工作日和非工作日不同客流量規(guī)模的車(chē)站數(shù)量 統(tǒng)計(jì)分析工作日和非工作日成都地鐵路網(wǎng)的進(jìn)站斷面客流情況,如圖5~6所示。地鐵的進(jìn)站斷面客流在 7點(diǎn)~9點(diǎn)和17~19點(diǎn)均有明顯的上升并達(dá)到高峰值,較為符合城市工作群體上下班出行的規(guī)律。進(jìn)站斷面客流的第1個(gè)高峰頂部較為尖銳,而第2個(gè)高峰頂部相對(duì)平緩,分析為在早晨上班時(shí)段乘客大都處于急迫狀態(tài),對(duì)于擁擠程度考慮較少,而在下班時(shí)段乘客的急迫程度下降,因此當(dāng)進(jìn)站人數(shù)達(dá)到一定擁堵程度時(shí),便不再繼續(xù)進(jìn)站,而是選擇等待或者其他交通方式出行,故進(jìn)站客流的第2個(gè)高峰頂部較為平緩。分析非工作日的進(jìn)站斷面客流,可知在7~8點(diǎn)、12~13點(diǎn)和17~18點(diǎn)這3個(gè)時(shí)間段,進(jìn)站斷面客流都有明顯的上升并到達(dá)一個(gè)局部的高峰,較為符合乘客非工作日出行的規(guī)律。因此,乘客AFC刷卡數(shù)據(jù)分析的結(jié)果都較符合工作日和非工作日乘客的實(shí)際出行情況。 圖5 工作日進(jìn)站斷面客流 圖6 非工作日進(jìn)站斷面客流 統(tǒng)計(jì)分析工作日和非工作日成都地鐵乘客出行時(shí)間和OD對(duì)出行時(shí)間的分布情況,如圖7~8所示。工作日和非工作日的乘客出行時(shí)段在15~30 min的均為最多,其次為30~45 min,但是工作日的乘客出行時(shí)段在15~30 min和30~45 min內(nèi)的客流量均高于非工作日中的同樣出行時(shí)段內(nèi)的乘客量,工作日和非工作日出行時(shí)段在45 min內(nèi)的乘客量占比均超過(guò)80%。在OD對(duì)出行時(shí)間分布上,工作日和非工作日在各個(gè)時(shí)出行段的OD對(duì)數(shù)分布相差不大,出行時(shí)間在15~30 min內(nèi)的OD對(duì)數(shù)依然最多,工作日和非工作日出行時(shí)段在45 min內(nèi)的OD對(duì)數(shù)占比均超過(guò)75%??芍啥嫉罔F的乘客出行時(shí)間大部分都在45 min以內(nèi),以15~30 min時(shí)段居多,工作日和非工作日的區(qū)別并不大,從而也可推知成都居民的交通出行半徑大都在地鐵45 min覆蓋圈內(nèi)。 圖7 工作日和非工作日乘客出行時(shí)間 圖8 工作日和非工作日OD對(duì)出行時(shí)間分布 利用百度地圖API進(jìn)行程序開(kāi)發(fā)實(shí)現(xiàn)可視化分析,對(duì)主要車(chē)站客流規(guī)模情況和地鐵OD量情況進(jìn)行可視化分析。如圖9~10所示。可知,工作日和非工作日下的部分主要車(chē)站客流規(guī)模存在差別,如世紀(jì)城站在工作日和非工作日的客流量差別較大,前文已經(jīng)分析。可視化展示效果由于地圖視角原因主要車(chē)站客流規(guī)模情況存在部分車(chē)站文字重疊現(xiàn)象,主要OD量情況也存在同一站點(diǎn)多支流入流出OD重疊現(xiàn)象,但是通過(guò)鼠標(biāo)放縮可以對(duì)地圖進(jìn)行鉆取放大,在局部放大視角下并不會(huì)再出現(xiàn)此類(lèi)問(wèn)題,限于篇幅,本節(jié)不再贅述。 圖9 工作日主要車(chē)站客流規(guī)模情況可視化展示 圖10 非工作日主要車(chē)站客流規(guī)模情況可視化展示 1) 成都居民的交通出行半徑大都在地鐵45 min覆蓋圈內(nèi),工作日和非工作日的地鐵乘客出行時(shí)間大都集中在15~30 min時(shí)間段,其次在30~45 min時(shí)間段。 2) 城市中客流規(guī)模最大的地鐵車(chē)站無(wú)論在工作日和非工作日都具有很高的客流水平,運(yùn)營(yíng)管理部門(mén)應(yīng)重點(diǎn)加強(qiáng)這些車(chē)站的管理和監(jiān)控,制定相關(guān)緊急疏解方案。 3) 可視化分析技術(shù)可以很好地與云計(jì)算、云存儲(chǔ)方法進(jìn)行融合,為數(shù)據(jù)分析提供有力支撐,增強(qiáng)數(shù)據(jù)分析的直觀表達(dá)。 4) 基于云計(jì)算的數(shù)據(jù)處理技術(shù)相比傳統(tǒng)本地?cái)?shù)據(jù)庫(kù)處理技術(shù),具有效率高,不占用本地計(jì)算機(jī)資源的優(yōu)勢(shì),對(duì)基于大數(shù)據(jù)的地鐵客流分析研究有很好的適用性和應(yīng)用前景。 5) 大數(shù)據(jù)離不開(kāi)云計(jì)算,云計(jì)算平臺(tái)為大數(shù)據(jù)提供了彈性可拓展的基礎(chǔ)設(shè)備,是處理分析大數(shù)據(jù)的平臺(tái)之一。對(duì)于云計(jì)算供應(yīng)商和用戶雙方來(lái)說(shuō)都做到了資源的高效分配和節(jié)省成本。 [1] 中國(guó)城市軌道交通協(xié)會(huì). 城市軌道交通2015年度統(tǒng)計(jì)和分析報(bào)告(2016?05?31)[2017?03?21][EB/OL]. http:// mp.weixin.qq.com/s?__biz=MzI3NzMwODY3OQ==&mid=100000100&idx=1&sn=6f089f36dc56a6f4864f31b5db191c32&scene=23&srcid=0810AqoCzzK9F0cf6bfduK9D#rd. China Urban Rail Transit Association. Statistics and analysis report of urban rail transit in 2015 (2016?05?31) [2017?03?21][EB/OL]. http://mp.weixin.qq.com/s?__biz =MzI3NzMwODY3OQ==&mid=100000100&idx=1&sn=6f089f36dc56a6f4864f31b5db191c32&scene=23&srcid=0810AqoCzzK9F0cf6bfduK9D#rd. [2] 楊東援. 大數(shù)據(jù): 城市交通系統(tǒng)的感知—認(rèn)知—洞察[J]. 交通與港航, 2015, 2(6): 4?7. YANG Dongyuan. Big data: Perception, cognition, and insight into the urban traffic system[J]. Communication & Shipping, 2015, 2(6): 4?7. [3] 陸化普, 孫智源, 屈聞聰. 大數(shù)據(jù)及其在城市智能交通系統(tǒng)中的應(yīng)用綜述[J]. 交通運(yùn)輸系統(tǒng)工程與信息, 2015, 15(5): 45?52. LU Huapu, SUN Zhiyuan, QU Wencong. Big data and its applications in urban intelligent transportation system[J]. Journal of Transportation Systems Engineering and Information Technology, 2015, 15(5): 45?52. [4] 陳歡, 薛美根. 大數(shù)據(jù)環(huán)境下上海市綜合交通特征分析[J]. 城市交通, 2016, 14(1): 24?29. CHEN Huan, XUE Meigen. Analysis on the characteristics of comprehensive traffic in shanghai city under the environment of big data[J]. Urban Transport of China, 2016, 14(1): 24?29. [5] CHEN C, MA J, Susilo Y, et al. The promises of big data and small data for travel behavior (aka human mobility) analysis[J]. Transportation Research Part C: Emerging Technologies, 2016, 68: 285. [6] Van Oort N. Big data supports light rail in utrecht[J]. International Railway Journal, 2014, 54(3): 32?34. [7] Kuhlman W, Kiel J. What big data do not tell us: What we can learn from travel survey for bus and lightrail in the Netherlands[J]. Journal of Nanoscience & Nanotechnology, 2014, 14(6): 4245?4250. [8] JIANG Z, Hsu C H, ZHANG D, et al. Evaluating rail transit timetable using big passengers’ data[J]. Journal of Computer & System Sciences, 2015, 82(1): 144?155. [9] 朱建生, 汪健雄, 張軍鋒. 基于NoSQL數(shù)據(jù)庫(kù)的大數(shù)據(jù)查詢技術(shù)的研究與應(yīng)用[J]. 中國(guó)鐵道科學(xué), 2014, 35(1): 135?141. ZHU Jiansheng, WANG Jianxiong, ZHANG Junfeng. Research and application of large data query technology based on NoSQL database[J]. China Railway Science, 2014, 35(1): 135?141. [10] 蔡昌俊, 姚恩建, 張永生, 等. 基于AFC數(shù)據(jù)的城軌站間客流量分布預(yù)測(cè)[J]. 中國(guó)鐵道科學(xué), 2015, 36(1): 126?132. CAI Changjun, YAO Enjian, ZHANG Yongsheng, et al. Forecasting of passenger flow’s distribution among urban rail transit stations based on AFC data[J]. China Railway Science, 2015, 36(1): 126?132. [11] ZHOU M, WANG D, LI Q, et al. Impacts of weather on public transport ridership: Results from mining data from different sources[J]. Transportation Research Part C: Emerging Technologies, 2017, 75: 17?29. [12] DONG H, WU M, DING X, et al. Traffic zone division based on big data from mobile phone base stations[J]. Transportation Research Part C: Emerging Technologies, 2015, 58: 278?291. [13] MA X, WU Y J, WANG Y, et al. Mining smart card data for transit riders’ travel patterns[J]. Transportation Research Part C: Emerging Technologies, 2013, 36: 1?12. [14] 阿里云計(jì)算有限公司.大數(shù)據(jù)計(jì)算服務(wù)(2016?03 ?10)[2016?04?20][EB/OL].https://www.aliyun.com/product/odps/?spm=5176.7960203.1907008.5.gt0hoi. Alibaba Cloud. Big data computing service(2016?03 ?10)[2016?04?20][EB/OL].https://www.aliyun.com/product/odps/?spm=5176.7960203.1907008.5.gt0hoi. [15] Langville A N, Meyer C D. Google’s PageRank and beyond: The science of search engine rankings[M]. Princeton University Press, 2011. An analysis method of subway big data based on cloud computing YIN Weichuan, HE Shiwei, LI Yubin, HOU Ji, ZHOU Fangjie (MOE Key Laboratory for Urban Transportation Complex Systems Theory and Technology, Beijing Jiaotong University, Beijing 100044, China) This paper proposed an analysis method of subway big data based on cloud computing, which divided the rail transit big data analysis into data acquisition, data cleaning, data analysis and data visualization in five stages, and station passenger flow, passenger travel time were included in data analysis contents as an example. Ali cloud computing services platform for big data was used as a tool to test the efficiency between cloud computing technology and traditional database, which proves that cloud computing has many advantages in speed and occupation of local resources. Finally, a case study was carried out based on the Chengdu subway AFC card data, the proposed method has good universality verified through the comparative analysis of data and actual situation, there is a good reference for subway big data analysis and research in the future. subway; cloud computing; passenger flow analysis; big data; AFC card data 10.19713/j.cnki.43?1423/u.2018.11.033 U291.69 A 1672 ? 7029(2018)11 ? 2995 ? 08 2017?09?04 中國(guó)鐵路總公司科技研究開(kāi)發(fā)計(jì)劃項(xiàng)目(2017X004-D,2017X004-E);國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2018YFB1201402) 何世偉(1969?),男,重慶人,教授,博士,從事交通運(yùn)輸規(guī)劃與管理和軌道交通大數(shù)據(jù)應(yīng)用等方面研究;E?mail:shwhe@bjtu.edu.cn (編輯 陽(yáng)麗霞)2 云計(jì)算技術(shù)效率測(cè)試
3 實(shí)例分析
3.1 各站客流情況
3.2 客流斷面情況
3.3 乘客出行情況
3.4 可視化展示分析
4 結(jié)論