于碩 李澤宇
摘要:隨著目前計算機科學(xué)技術(shù)的飛速發(fā)展以及計算機硬件對數(shù)據(jù)處理能力的飛速提升,人類已經(jīng)進入了數(shù)據(jù)信息時代。文章從宏觀方面對大數(shù)據(jù)在城市交通中的應(yīng)用進行了闡述,并說明了現(xiàn)今交通大數(shù)據(jù)的挑戰(zhàn)以及目前對大數(shù)據(jù)的幾種常用存儲方案以及常用的處理技術(shù)。
關(guān)鍵詞:交通大數(shù)據(jù);大數(shù)據(jù)存儲方案;大數(shù)據(jù)處理技術(shù);數(shù)據(jù)信息 文獻標識碼:A
中圖分類號:U495 文章編號:1009-2374(2017)04-0090-02 DOI:10.13535/j.cnki.11-4406/n.2017.04.046
1 大數(shù)據(jù)概述
1.1 大數(shù)據(jù)定義
大數(shù)據(jù),又稱海量數(shù)據(jù)、巨量數(shù)據(jù)等,通常指那些無法通過常規(guī)存儲媒介存儲,無法通過人工或者常規(guī)數(shù)據(jù)處理軟件進行管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)是一個抽象的概念,究竟多大的數(shù)據(jù)量可以定義為大數(shù)據(jù)至今沒有一個定論。大數(shù)據(jù)具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征,也就是說,大數(shù)據(jù)不僅僅體現(xiàn)在存儲數(shù)量級的大小上,而且還在于數(shù)據(jù)的獲取、存儲、維護、處理等方面。
1.2 大數(shù)據(jù)特點
IBM公司針對大數(shù)據(jù)的特性提出了大數(shù)據(jù)的5V特點:Volume(大量)、Velocity(高速)、Variety(多樣性)、Value(價值)和Veracity(真實性)。
其中Volume(大量)指大數(shù)據(jù)的數(shù)據(jù)量級巨大,可以從幾百TB到幾百PB甚至EB級別的規(guī)模。與幾十年前印刷品占據(jù)主流的時候不同,信息時代數(shù)據(jù)的產(chǎn)生速度非???,據(jù)國際數(shù)據(jù)公司(IDC)的統(tǒng)計,僅在2011年時,全世界范圍內(nèi)被創(chuàng)建和復(fù)制的數(shù)據(jù)總量就有1.8ZB左右,已經(jīng)遠遠超過有史以來人類通過印刷品傳播的信息量的總和。據(jù)該公司預(yù)測,中國的大數(shù)據(jù)市場將在2012~2016年間增長5倍,中國已經(jīng)真正步入了大數(shù)據(jù)時代。
Velocity(高速)指大多數(shù)場景下,我們都要求大數(shù)據(jù)要在一定的時間限制內(nèi)得到及時的處理。例如美團、大眾點評等團購軟件,通過對用戶的地理位置定位實時向用戶推薦附近美食、團購優(yōu)惠等。
Variety(多樣性)指大數(shù)據(jù)包含各式各樣形態(tài)以及各種格式的數(shù)據(jù)源。針對不同場景,數(shù)據(jù)有多種存儲方式,例如json格式、xml文件、數(shù)據(jù)庫文件等方式。
Value(價值)指大數(shù)據(jù)中蘊藏的有價值的信息,通過大數(shù)據(jù)的分析挖掘等手段,可以帶來巨大的商業(yè)或?qū)W術(shù)價值。例如淘寶通過對用戶購物以及瀏覽數(shù)據(jù)進行挖掘,從而給用戶推薦合適的商品,為淘寶創(chuàng)造了巨大的利潤。
Veracity(真實性)指大數(shù)據(jù)的數(shù)據(jù)來源,處理結(jié)果要保證與真實情況相符合,即它們可以如實反映或者折射出社會現(xiàn)實等。例如網(wǎng)上購物網(wǎng)站中,賣家的刷單情況就會影響數(shù)據(jù)分析結(jié)果對它的正確評價。
2 交通大數(shù)據(jù)
2.1 概述
隨著世界范圍內(nèi)城鄉(xiāng)發(fā)展的步伐不斷加快,公路網(wǎng)、鐵路網(wǎng)的大規(guī)模覆蓋,城市的交通建設(shè)成為了越來越重要的課題。傳統(tǒng)模式下的城市交通建設(shè)、管理等在今天出現(xiàn)了種種弊端。由此,在大數(shù)據(jù)時代的背景下,通過大數(shù)據(jù)的分析、處理,對城市交通進行動態(tài)的指導(dǎo)規(guī)劃成為了目前大數(shù)據(jù)的主要現(xiàn)實應(yīng)用場景之一。
在高德地圖的“2014年中國主要城市擁堵分析”報告中,北京、上海、廣州、深圳、哈爾濱和杭州位于前列,高峰期行車平均速度在20km/h左右徘徊。尤其節(jié)假日黃金周期間,擁堵情況更加嚴重,使原本脆弱的城市路網(wǎng)的運行可靠性越來越低。
2.2 交通大數(shù)據(jù)來源
交通大數(shù)據(jù)來源廣泛,城市交通網(wǎng)每天產(chǎn)生各類交通數(shù)據(jù)不計其數(shù)。按照類型,交通大數(shù)據(jù)的來源大致可以分為來源于人的數(shù)據(jù)、來源于交通工具的數(shù)據(jù)、來源于行業(yè)監(jiān)管的數(shù)據(jù)和來源于其他方面的數(shù)據(jù)幾類。以下將分別就這幾類數(shù)據(jù)來源做簡要說明:
2.2.1 來源于人的數(shù)據(jù)。人作為道路交通的主要參與者,汽車駕駛員的駕駛軌跡、交通警察所在路口的位置、公交車乘客的刷卡記錄以及行人的行走軌跡等都是交通參與者的重要數(shù)據(jù)來源。目前,基于公共交通的電子收費數(shù)據(jù)已經(jīng)有了各種豐碩的研究成果和工作。針對該類數(shù)據(jù)的工作也是目前學(xué)術(shù)界交通大數(shù)據(jù)的研究重點之一。
2.2.2 來源于交通工具的數(shù)據(jù)。車是城市交通中的主體,按照功能群體可以大致分為公交車、私家車、出租車和網(wǎng)約車4類。每種類型的車都有各自的特點:公交車路線固定,而且能夠直接獲得乘客的刷卡數(shù)據(jù),得到乘客的上下車地點等信息;私家車涉及的數(shù)據(jù)相對來說難以獲取,該類數(shù)據(jù)涉及到駕駛?cè)说膫€人隱私,但同時也是最為有價值的一類數(shù)據(jù);出租車沒有固定路線,但是卻有相對固定的活動范圍;網(wǎng)約車是最近幾年興起的一類新興群體,通過應(yīng)用平臺的私家車主可以利用空閑時間提供服務(wù),緩解高峰期打車難等問題。
此外,基于物聯(lián)網(wǎng)、車聯(lián)網(wǎng)等數(shù)字終端設(shè)備的傳感器采集的車輛信息也是交通大數(shù)據(jù)的重要組成部分。
2.2.3 來源于行業(yè)的監(jiān)管數(shù)據(jù)。很多特殊行業(yè),如危險品運輸、快遞服務(wù)業(yè)、貨運公司等行業(yè)都會對相應(yīng)的業(yè)務(wù)有一定的監(jiān)管數(shù)據(jù),該類數(shù)據(jù)雖然有一定局限性,但是數(shù)據(jù)準確性、可靠性非常高。
2.2.4 來源于其他方面的數(shù)據(jù)。除了上述提到的兩大類數(shù)據(jù)之外,城市道路本身以及天氣等客觀因素其實也屬于交通大數(shù)據(jù)的一部分。城市各個主干分支路線的擁堵程度以及天氣對路況的影響會在一定程度上決定該段道路的擁堵程度,如果能夠及時掌握這類數(shù)據(jù),通過適當?shù)乃惴ǚ治鲆约罢{(diào)配,可以在很大程度上緩解交通壓力。
2.3 研究現(xiàn)狀及現(xiàn)階段問題與挑戰(zhàn)
目前交通大數(shù)據(jù)的應(yīng)用場景越來越多,包括在交通管理中的應(yīng)用、在智能交通中的應(yīng)用、在擁堵檢測中的應(yīng)用以及在事故分析與處理中的應(yīng)用等多種應(yīng)用場景。
首先,根據(jù)交通大數(shù)據(jù)的分析,可以為城市交通的管理、決策、規(guī)劃和運營提供有效支持,通過對客流量的分析優(yōu)化交通規(guī)劃實現(xiàn)按需控制;其次,根據(jù)道路流量數(shù)據(jù),通過分析預(yù)測等手段,隨時針對道路突發(fā)狀況進行處理,比如封閉事故路段,自動將車輛分流至其他路段等;再次,通長時間對交通數(shù)據(jù)的分析處理,可以找出當前城市交通網(wǎng)中諸如信號燈、交通崗、人行橫道等設(shè)置的不合理之處加以調(diào)整;最后,通過交通大數(shù)據(jù)我們還可以在提升城市交通網(wǎng)絡(luò)流暢性的同時,為車聯(lián)網(wǎng)應(yīng)用、社會管理等提供一種新的手段和方式。
3 交通大數(shù)據(jù)存儲方案
3.1 MPP關(guān)系型數(shù)據(jù)庫
MPP架構(gòu)的新型數(shù)據(jù)庫集群采用SharedNothing結(jié)構(gòu),通過粗粒度索引、列存儲等技術(shù),結(jié)合MPP架構(gòu)的分布式計算模式完成大數(shù)據(jù)的分析和存儲。該類架構(gòu)具有高性能和高擴展性的特點,在企業(yè)分析類應(yīng)用領(lǐng)域獲得了廣泛應(yīng)用。而且該架構(gòu)的運行環(huán)境多為低成本的服務(wù)器,經(jīng)濟性上也具有很大優(yōu)勢。
3.2 基于Hadoop的非關(guān)系型數(shù)據(jù)庫
Hadoop是由Apache基金會開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),它的核心思想是HDFS和Map Reduce。通過對該項開源技術(shù)的擴展和封裝,可以將海量數(shù)據(jù)部署到價格低廉的硬件上,并能夠提高其吞吐量。尤其對于處理非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及復(fù)雜的ETL流程等,該類型數(shù)據(jù)庫有著獨特的優(yōu)勢。
3.3 大數(shù)據(jù)一體機
大數(shù)據(jù)一體機是一種專門為大數(shù)據(jù)設(shè)計的軟硬件結(jié)合產(chǎn)品。它由一組集成的服務(wù)器、存儲設(shè)備、操作系統(tǒng)和數(shù)據(jù)庫管理系統(tǒng)構(gòu)成。該類存儲方式具有很好的穩(wěn)定性和縱向擴展性。
4 交通大數(shù)據(jù)處理技術(shù)
4.1 Apache Spark
Apache Spark是一套卓越的開源處理引擎,專門面向復(fù)雜分析、高速處理和易用性需求而打造。它提供了很多立足于數(shù)據(jù)結(jié)構(gòu)上的編程接口,因此我們根據(jù)需求完成具有特定功能的處理程序。Spark的處理速度極快,而且支持多種語言為其編寫應(yīng)用,能夠輕松處理實時數(shù)據(jù)流,支持復(fù)雜的分析操作。
4.2 Hadoop
Hadoop是一個開源的分布式處理軟件框架,它的可靠性非常高,它會假設(shè)元素存儲失敗等場景,維護多個數(shù)據(jù)副本,確保能夠?qū)κ〉慕Y(jié)點做出處理重新分配任務(wù)。Hadoop依賴于社區(qū)服務(wù)器,因此成本低廉。
4.3 MapReduce編程模型
MapReduce是一種針對大規(guī)模數(shù)據(jù)集的并行運算提出的編程模型。它使編程人員在不會分布式編程的情況下能夠?qū)⒊绦蜻\行在分布式系統(tǒng)上。它主要運用了映射(Map)和歸約(Reduce)的思想,通過指定一個映射函數(shù)把一組鍵值對映射成一組新的鍵值對,之后制定并發(fā)的歸約函數(shù),保證所有映射的鍵值對中的每一個共享相同的鍵組。
4.4 各類分布式數(shù)據(jù)庫
隨著數(shù)據(jù)量的日益增長,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫暴露出越來越多的問題,由此,以NoSQL為代表的非關(guān)系型數(shù)據(jù)庫開始飛速發(fā)展,開始了數(shù)據(jù)存儲從集中式數(shù)據(jù)庫到分布式數(shù)據(jù)庫的轉(zhuǎn)變。分布式數(shù)據(jù)庫直接將數(shù)據(jù)存儲在數(shù)據(jù)庫中通過相應(yīng)的查詢語句直接返回查詢結(jié)果。
5 總結(jié)與展望
大數(shù)據(jù)時代已經(jīng)來臨,并且已經(jīng)應(yīng)用在現(xiàn)實生活中的方方面面,我們的生活與大數(shù)據(jù)已經(jīng)密不可分。交通大數(shù)據(jù)作為與日常生活息息相關(guān)的一個大數(shù)據(jù)應(yīng)用領(lǐng)域已經(jīng)有了很多豐碩成果,但是就應(yīng)用流程來看,從數(shù)據(jù)獲取到數(shù)據(jù)存儲,從數(shù)據(jù)處理到結(jié)果分析都存在著各種各樣的困難與挑戰(zhàn)。因此,想要真正能夠合理高效地利用大數(shù)據(jù)還有很長的路要走。
參考文獻
[1] 劉維貴.“大數(shù)據(jù)”研究綜述[J].辦公自動化:綜合版,2014,7(1).
[2] 陶雪嬌,胡曉峰,劉洋.大數(shù)據(jù)研究綜述[J].系統(tǒng)仿真學(xué)報,2013,(s1).
[3] 段宗濤,鄭西彬,李瑩,等.道路交通大數(shù)據(jù)及其關(guān)鍵技術(shù)研究[J].微電子學(xué)與計算機,2015,(6).
[4] 陸化普,孫智源,屈聞聰.大數(shù)據(jù)及其在城市智能交通系統(tǒng)中的應(yīng)用綜述[J].交通運輸系統(tǒng)工程與信息,2015,15(5).
[5] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1).
作者簡介:于碩(1990-),女,吉林長春人,大連財經(jīng)學(xué)院工商管理學(xué)院助教,碩士,研究方向:數(shù)據(jù)挖掘、圖像處理。
(責(zé)任編輯:王 波)