林珠+吳佩珊
摘要:現(xiàn)階段交通數(shù)據(jù)呈指數(shù)增長,并具有結(jié)構(gòu)類型復雜、信息價值較大的特點,為更好地促進交通數(shù)據(jù)與現(xiàn)在服務業(yè)的結(jié)合,充分利用其價值為人類生活的便利創(chuàng)造條件,本文研究交通大數(shù)據(jù)與其它信息平臺交互過程中遇到的問題。通過對交通大數(shù)據(jù)的采集、標準轉(zhuǎn)換、數(shù)據(jù)流處理等多方面進行研究,建設了面向交通大數(shù)據(jù)的智能處理平臺,提高了數(shù)據(jù)與其它信息系統(tǒng)的交互能力,為交通數(shù)據(jù)的深度挖掘做充分準備。
關鍵字:交通大數(shù)據(jù);數(shù)據(jù)處理平臺;HDFS
中圖分類號:TP274文獻標識碼:A
Abstract:
The traffic data increase exponentially at this stage,and has the characteristics of complex structure types and larger value of information.
For combing the traffic data with services,making full use of its value and creating conditions for the convenience of human life,this paper to research the traffic data interaction and other problems in the process of information platform.Based on the research of traffic data collection,conversion,data stream processing and other aspects,the construction of intelligent processing platform for traffic data,improve the ability to interact with data and other information system,make full preparations for the traffic data mining.
Key words:traffic big data;data processing platform;HDFS
0引言
交通大數(shù)據(jù)包括結(jié)構(gòu)化、非結(jié)構(gòu)化的各類交通數(shù)據(jù),包括交通工具GPS地理位置、線圈、微波、智能卡、視頻、電子地圖、路網(wǎng)、調(diào)度資料、基礎設施、班次、航班、地鐵、氣象、從業(yè)人員資料……數(shù)以千計的數(shù)據(jù)類別,每日以GB級別增長,海量、動態(tài)、實時是重要特征[1]。而不同群體對數(shù)據(jù)的訴求又體現(xiàn)出不同要求,例如交通主管部門關注交通擁堵狀況,車輛異常集結(jié),行業(yè)性平均收入等宏觀數(shù)據(jù);企業(yè)關注車輛調(diào)度準確,經(jīng)用收入等關乎運營收入數(shù)據(jù);公眾關注交通運輸?shù)姆帐欠癖憷煌ㄊ欠耥槙?,以及能夠隨時隨地獲取交通信息;研究部門希望獲得多樣化的交通數(shù)據(jù),構(gòu)筑立體的城市交通分析模型等;城市應急處理部門更希望得到事故地點的交通情況以便組織應急救援;公安部門需要從交通視頻獲得辦案證據(jù)等[2]。為解決這一系統(tǒng)的問題,交通大數(shù)據(jù)的研究成為關注的熱點,如何充分利用這些數(shù)據(jù)為各類交通信息系統(tǒng)服務,建設面向交通大數(shù)據(jù)的處理平臺已成為迫切的需求[3]。
1國內(nèi)外研究現(xiàn)狀
在國外,發(fā)達國家對城市交通基礎設施建設非常重視并已基本完成,在此基礎上,開展了一系列的智能交通信息系統(tǒng)搭建,用以實現(xiàn)交通數(shù)據(jù)的采信、整理、共享、應用,以推動交通有序運營,促進社會民生的全面發(fā)展。英國國家交通控制中心研究的ERTICO項目中,通過開發(fā)共用規(guī)范實現(xiàn)了不同運輸方式的多模式交通之間的數(shù)據(jù)交換與共享;近期英國DETR組織開展UTMC(Urban Traffic Management&Control)項目,通過建立交通數(shù)據(jù)的處理平臺全面推動城市智能交通系統(tǒng)的研發(fā)和建設[4]。
在國內(nèi),北京已建成了綜合交通信息平臺,包含了交通數(shù)據(jù)的采集、整合、標準制定、加工處理和發(fā)布的全過程,是一項復雜的交通領域集成信息化工程,北京市專設數(shù)據(jù)處理平臺,開展對交通數(shù)據(jù)進行預處理、存儲和加工等[5]。綜觀我國各大城市的智能交通發(fā)展現(xiàn)狀,交通信息化已得到較大的重視并具有一定的地位和作用,普遍的研究著眼于根據(jù)用戶的實現(xiàn)需求進行信息系統(tǒng)的建設,重點在于數(shù)據(jù)挖掘技術(shù)的決策支持,為交通出行提供便利。
然而,在大量的交通數(shù)據(jù)應用中,往往容易忽視對數(shù)據(jù)的預處理研究[6],傳統(tǒng)的交通數(shù)據(jù)預處理需要對數(shù)據(jù)源到應用的整個流程進行修改,通過ETL的方式再加載和計算,其適應變化的周期較長,在交通大數(shù)據(jù)應用中,這種模式將難以適應新的需求,智能交通大數(shù)據(jù)已經(jīng)突破了以前所限定的結(jié)構(gòu)化數(shù)據(jù)范疇,具有數(shù)據(jù)類型多樣化、規(guī)?;透咚倩奶攸c,數(shù)據(jù)類型包括了結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)多種類型,尤以非結(jié)構(gòu)化數(shù)據(jù)為主,因此,需要專門建設面向交通大數(shù)據(jù)的智能處理平臺。
2數(shù)據(jù)處理平臺架構(gòu)設計
面向交通大數(shù)據(jù)的處理平臺采用Hadoop分布式基礎框架解決數(shù)據(jù)的動態(tài)擴展和彈性增長問題,面對大規(guī)模的數(shù)據(jù),該框架能夠?qū)ζ溥M行分割與合并,然后結(jié)合MapReduce 技術(shù)進行并行處理,通過任務的分配解決數(shù)據(jù)量巨大的問題。平臺由三層架構(gòu)組成,分別是訪問層、處理層和展示層組成,三個層次相互連接,通過HDFS 分布式文件系統(tǒng)、HBase 分布式數(shù)據(jù)庫和MapReduceAPI進行結(jié)合。通過該平臺的構(gòu)建,可以將采集的各種原始交通數(shù)據(jù)進行導入、規(guī)范化、數(shù)據(jù)流處理等,最后通過接口或定制數(shù)據(jù),為各類型的交通系統(tǒng)提供服務,充分利用分布式處理技術(shù)提高數(shù)據(jù)處理效率,同時也保障了數(shù)據(jù)的安全。簡化后的平臺三層架構(gòu)如圖1所示。
其中,數(shù)據(jù)訪問層是處理平臺的最底層,包括數(shù)據(jù)模式設計模塊和數(shù)據(jù)錄入、導出模塊,主要用于外部數(shù)據(jù)與該處理平臺的交互,數(shù)據(jù)錄入、導出模塊能夠?qū)⑼獠康年P系型數(shù)據(jù)進行導入,同時也能將經(jīng)過處理平臺后的數(shù)據(jù)導出到別的系統(tǒng)。對于非結(jié)構(gòu)化的數(shù)據(jù),采用數(shù)據(jù)模式設計,將交通數(shù)據(jù)中的一系統(tǒng)特征指標,如經(jīng)緯度、時速、車輛號、線路號等存入Hbase數(shù)據(jù)庫。endprint
數(shù)據(jù)處理層是平臺的核心層,包括數(shù)據(jù)查詢模塊、數(shù)據(jù)加載模塊、計算模塊。數(shù)據(jù)加載模塊主要處理數(shù)據(jù)訪問層接收過來的信息,并轉(zhuǎn)化為數(shù)據(jù)處理層可以直接運用的數(shù)據(jù),加載過程中主要采用特定的數(shù)據(jù)表模式將數(shù)據(jù)存入分布式的Hbase數(shù)據(jù)庫。數(shù)據(jù)查詢模塊則將加載后的數(shù)據(jù)進行并行計算,通過MapReduce技術(shù)快速進行數(shù)據(jù)查詢,不僅可以對處理前的數(shù)據(jù)進行查詢,也可以對處理后的數(shù)據(jù)進行查詢,并最終展示給前端用戶,同時,該模塊也為計算模塊服務,為更快速的數(shù)據(jù)計算和處理提供保障[7]。
數(shù)據(jù)計算模塊與查詢模塊相結(jié)合,采用MapReduce框架進行并行計算,充分調(diào)動Hbase中存儲的數(shù)據(jù),保障平臺的可靠性和數(shù)據(jù)存府的一致性。
3采用關鍵技術(shù)
31平臺數(shù)據(jù)采集與存儲
從交通引入信息化技術(shù)改善管理開始,交通數(shù)據(jù)的處理經(jīng)歷了從文本文件,到平面數(shù)據(jù)庫,到關系型數(shù)據(jù)庫廣泛應用,這些應用均及時地處理了數(shù)據(jù)的存儲和操作所面監(jiān)的一系列問題[8]。然而,隨著交通數(shù)據(jù)量的與日劇增,已經(jīng)不能單純采用關系型數(shù)據(jù)庫進行處理,而需要采用能夠適應數(shù)據(jù)動態(tài)、高速增長的新型技術(shù),同時,交通信息系統(tǒng)多種多樣,面向不同的應用采用不同類型的數(shù)據(jù)分析,因此也需要采用能夠適應其動態(tài)擴展的技術(shù)[9]。
平臺的具體數(shù)據(jù)采集和存儲如下圖2所示:
平臺采用Hadoop分布式文件系統(tǒng)與HBase分布式數(shù)據(jù)庫相結(jié)合的方式進行交通數(shù)據(jù)的存儲,在Hadoop基礎上構(gòu)建HBase例存儲系統(tǒng)[10]。主要包括GPS數(shù)據(jù)、城市一卡通數(shù)據(jù)、結(jié)算清分數(shù)據(jù)、設施管理數(shù)據(jù)、交通地理信息、從業(yè)人員資料信息等。
一方面,Hbase存儲方式能夠滿足大規(guī)模的擴展,列存儲的方式有利于數(shù)據(jù)的并發(fā)查詢,特別是交通大數(shù)據(jù)在利用方面更注重數(shù)據(jù)的查詢和讀取,在此基礎上進行數(shù)據(jù)的分析與應用,而較少用于數(shù)據(jù)的修改,因此列存儲的方式更適合交通大數(shù)據(jù)的存儲和管理[11];另一方面,該存儲模式可以實現(xiàn)動態(tài)數(shù)據(jù)的擴展和時間戳版本的管理,特別是交通實時數(shù)據(jù),依賴于車載的GPRS模塊上傳GPS數(shù)據(jù)(移動終端),一個移動終端識別號總會在不同的時間向同一個基站發(fā)送數(shù)據(jù)。此外,該存儲方式有利于對大規(guī)模數(shù)據(jù)進行分割計算且最后進行結(jié)果合并。
32規(guī)范化的數(shù)據(jù)流處理
在數(shù)據(jù)庫設計上,充分考慮業(yè)務差異性與數(shù)據(jù)共性,由近20個部分組成,分別是:公交 GPS 數(shù)據(jù),出租GPS數(shù)據(jù),重點營運車輛GPS數(shù)據(jù),視頻管理數(shù)據(jù),客運票務數(shù)據(jù),一卡通刷卡數(shù)據(jù),和交通服務數(shù)據(jù)等等。原始的數(shù)據(jù)通過信息手段采集后,進入Hbase分布式數(shù)據(jù)庫,通過數(shù)據(jù)的分類處理API進行分類處理,并根據(jù)需求進行數(shù)據(jù)展示和服務定制。在收到接入系統(tǒng)的數(shù)據(jù)后,對接入的數(shù)據(jù)進行有效性的檢驗,保證進入平臺的交通信息數(shù)據(jù)是準確有效的,并將經(jīng)過驗證的數(shù)據(jù)入庫,具體數(shù)據(jù)流處理過程如圖3所示。
根據(jù)業(yè)務規(guī)則,對不同來源的數(shù)據(jù)間建立關聯(lián)并進行融合,對融合后的數(shù)據(jù)進行匯總及分析。例如線圈、微波、視頻、文件等非結(jié)構(gòu)化數(shù)據(jù),與其他信息的融合,得出立體化的,更準確的交通態(tài)勢分析等,具體工作內(nèi)容如圖4所示。
33數(shù)據(jù)標準格式
數(shù)據(jù)標準化處理系統(tǒng)從數(shù)據(jù)庫中取出經(jīng)過清洗后的數(shù)據(jù),根據(jù)業(yè)務規(guī)則將外部系統(tǒng)的數(shù)據(jù)格式轉(zhuǎn)化為平臺定義的標準格式。格式轉(zhuǎn)化流程如下圖5所示,并例舉部分規(guī)則,如圖6所示。
4數(shù)據(jù)處理平臺主要功能
交通信息接入平臺的功能是從政府管理部門、科研機構(gòu)等不同機構(gòu)接入數(shù)據(jù),對多源異構(gòu)的信息數(shù)據(jù)進行標準化處理后在平臺內(nèi)進行一體化存儲。信息接入需遵循統(tǒng)一的數(shù)據(jù)交換規(guī)范,也遵循統(tǒng)一的數(shù)據(jù)控制策略,以及安全機制。平臺主要實現(xiàn)對四類交通信息的接入,即交通基礎信息、交通實時信息、交通歷史信息、交通視頻信息。獲取數(shù)據(jù)的方式包括FTP、socket、webservice、直接數(shù)據(jù)庫獲取等多種方式,主要功能如圖7所示。
5總結(jié)與展望
本文通過對交通大數(shù)據(jù)現(xiàn)狀的分析,提出建設面向交通大數(shù)據(jù)的處理平臺的必要性,對該平臺進行架構(gòu)設計,并介紹其采用的關鍵技術(shù)和主要功能。在現(xiàn)階段交通大數(shù)據(jù)的越來越復雜,其應用越來越廣泛,因此,建設該處理平臺具有深刻的社會意義。
參考文獻
[1]何承,朱揚勇.城市交通大數(shù)據(jù)[M].上海科學技術(shù)出版社,2015.
[2]王文靜.大數(shù)據(jù)時代下智能交通系統(tǒng)發(fā)展機遇和挑戰(zhàn)[J].交通企業(yè)管理,2016,31(10):3-5.
[3]曹星艷.基于交通行業(yè)的大數(shù)據(jù)處理平臺應用[J].鐵路通信信號工程技術(shù),2016,13(2):74-79.
[4]邵志驊,崔林山,盧夢奇.基于Hadoop集群的公安交通信息云共享技術(shù)應用研究[J].中國公共安全:學術(shù)版,2016,(1):65-69.
[5]劉成,李劍仕.北京市高速公路泵站監(jiān)控系統(tǒng)架構(gòu)設計與研究[J].中國交通信息化,2016,(2):124-125.
[6]王冰楊,鄧亞.城市軌道交通網(wǎng)絡信息平臺的研究[J].數(shù)碼世界,2016,(3).
[7]ANJALI P P,BINU A.A Comparative Survey Based on Processing Network Traffic Data Using Hadoop Pig and Typical Mapreduce[J].International Journal of Computer Science & Engineering Survey,2014,5(1):1-9.
[8]張昕,曾鵬,張瑞,等.交通大數(shù)據(jù)的特征及價值[J].軟件導刊,2016,15(3):130-132.
[9]盧彪,李悅,張萬禮.基于大數(shù)據(jù)技術(shù)的智能交通數(shù)據(jù)分析平臺系統(tǒng)的研究與設計[J].湖北科技學院學報,2016,36(5):6-9.
[10]LIU J,LIU F,ANSARI N.Monitoring and analyzing big traffic data of a largescale cellular network with Hadoop[J].IEEE Network,2014,28(4):32-39.
[11]PARK H W,YEO I Y,LEE J R,et al.Study on Big Data Center Traffic Management Based on the Separation of LargeScale Data Stream[C]// International Conference on Innovative Mobile & Internet Services in Ubiquitous Computing.IEEE Computer Society,2013:591-594.endprint