江海琦, 崔毓偉, 徐延軍
(1.寧夏公路管理局,銀川 750011;2.中海網(wǎng)絡(luò)科技股份有限公司,上海 200135)
寧夏回族自治區(qū)《關(guān)于推進新一代數(shù)據(jù)中心建設(shè)發(fā)展的意見》提出,要逐步建成滿足寧夏內(nèi)陸開放型經(jīng)濟發(fā)展需要,技術(shù)先進、布局合理的新一代數(shù)據(jù)中心。選擇先進合理的技術(shù)方案是寧夏交通數(shù)據(jù)中心建設(shè)指導(dǎo)思想中的關(guān)鍵問題,而評價技術(shù)方案的先進性與合理性必須具體到應(yīng)用背景和應(yīng)用技術(shù)中,不同應(yīng)用環(huán)境對技術(shù)標準的適用性各有差異。以具有典型海量數(shù)據(jù)特征的智能交通運輸系統(tǒng)為背景,探討寧夏交通數(shù)據(jù)中心大數(shù)據(jù)相關(guān)技術(shù)的適用性問題,為交通數(shù)據(jù)中心建設(shè)提供理論參考。
大數(shù)據(jù)相關(guān)技術(shù)是國內(nèi)外熱門研究領(lǐng)域,其影響范圍涉及到眾多行業(yè),其中交通領(lǐng)域就是典型的可以通過海量數(shù)據(jù)挖掘?qū)崿F(xiàn)智能管理和優(yōu)化服務(wù)的大數(shù)據(jù)應(yīng)用場景。配合寧夏交通數(shù)據(jù)中心建設(shè),結(jié)合當前技術(shù)發(fā)展趨勢,對其中關(guān)鍵技術(shù)進行分析,通過分析論證總結(jié)關(guān)鍵技術(shù)適用性、適用的層次或方向,為寧夏交通數(shù)據(jù)中心建設(shè)實施過程中的技術(shù)選用提供參考。
大數(shù)據(jù)技術(shù)是指從海量的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)中快速獲得有價值信息的技術(shù)。由于龐大的數(shù)據(jù)量級和形式各異的數(shù)據(jù)結(jié)構(gòu),傳統(tǒng)的數(shù)據(jù)處理方法不能適應(yīng)大數(shù)據(jù)的挖掘需求。因此在大數(shù)據(jù)采集、存儲、挖掘、應(yīng)用、展示等各個領(lǐng)域,不斷涌現(xiàn)出新技術(shù)。
大數(shù)據(jù)采集的重點是要突破分布式高速數(shù)據(jù)爬取、數(shù)據(jù)全映像等大數(shù)據(jù)收集技術(shù)以及突破高速數(shù)據(jù)解析、轉(zhuǎn)換與裝載等大數(shù)據(jù)整合技術(shù)。其中數(shù)據(jù)抽取、轉(zhuǎn)換、裝載的過程(Extract-Transform-Load,ETL)能夠按照統(tǒng)一的規(guī)則集成并提高數(shù)據(jù)的價值,是負責完成數(shù)據(jù)從數(shù)據(jù)源向目標數(shù)據(jù)倉庫轉(zhuǎn)化的過程,是實施數(shù)據(jù)倉庫的重要步驟。
大數(shù)據(jù)存儲與管理技術(shù)重點要解決復(fù)雜結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲、表示、處理、可靠性及有效傳輸?shù)汝P(guān)鍵問題,因此需應(yīng)用新型數(shù)據(jù)庫技術(shù)。其中NoSQL數(shù)據(jù)庫(Not Only SQL,即“不僅是SQL”,泛指非關(guān)系型數(shù)據(jù)庫)憑借其在高并發(fā)讀寫、海量數(shù)據(jù)高效率存儲和訪問、高可擴展性和高可用性等方面的優(yōu)勢發(fā)展非常迅速。
大數(shù)據(jù)挖掘分析計算就是從海量、非完整、有噪聲和隨機的數(shù)據(jù)中,提取隱含其中人們事先不知道、但又潛在有用的信息和知識的過程。針對數(shù)據(jù)挖掘分析出現(xiàn)的Hadoop處理平臺等關(guān)鍵技術(shù)給用戶帶來了更好的大數(shù)據(jù)處理方案。其中由于具備低成本和前所未有的高擴展性,Hadoop已被公認為是新一代的大數(shù)據(jù)處理平臺。
交通數(shù)據(jù)中心的信息資源來自眾多獨立的異構(gòu)系統(tǒng),匯聚了海量的結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù),并且隨著移動互聯(lián)技術(shù)的發(fā)展,系統(tǒng)與用戶間信息交互頻度的增加,非結(jié)構(gòu)化數(shù)據(jù)還會大幅增長,因此交通數(shù)據(jù)中心建設(shè)需要特別重視對非結(jié)構(gòu)化數(shù)據(jù)的存儲管理與挖掘分析。結(jié)合交通數(shù)據(jù)中心這一特點,主要分析NoSQL和 Hadoop兩個大數(shù)據(jù)關(guān)鍵技術(shù)的適用性。
關(guān)系型數(shù)據(jù)庫是建立在關(guān)系模型基礎(chǔ)上的數(shù)據(jù)庫,借助于集合代數(shù)等概念和方法來處理數(shù)據(jù)庫中的數(shù)據(jù)。NoSQL通常指數(shù)據(jù)以對象的形式存儲在數(shù)據(jù)庫中,而對象之間的關(guān)系通過每個對象自身的屬性決定。它以“鍵值對”的形式存儲,結(jié)構(gòu)不固定,每一個元組可以有不一樣的字段,每個元組可以根據(jù)需要增加自己的“鍵值對”,這樣就不會局限于固定的結(jié)構(gòu),減少一些時間和空間的開銷。使用這種方式,用戶可以根據(jù)情況添加自己需要的字段,而無需像關(guān)系型數(shù)據(jù)庫那樣對多表進行關(guān)聯(lián)查詢,僅根據(jù)id取出相應(yīng)的字段就可以完成查詢。NoSQL和傳統(tǒng)關(guān)系型數(shù)據(jù)庫的對比見表1。
通過上述對比,可以看出關(guān)系型數(shù)據(jù)庫用一種嚴格的數(shù)學模型來描述混亂的數(shù)據(jù)存儲關(guān)系。其查詢語言SQL通過簡單直觀的語法,把各個實體間的關(guān)系明確表達出來。隨著數(shù)據(jù)規(guī)模的增長,關(guān)系型數(shù)據(jù)庫逐漸遇到不適合的場景,其中主要的局限性包括數(shù)據(jù)模型僵硬、可擴展性差、處理海量數(shù)據(jù)時的性能瓶頸和缺乏處理非結(jié)構(gòu)化數(shù)據(jù)的能力等。NoSQL發(fā)展時間較短,沒有形成行業(yè)標準及強有力的技術(shù)支持,因此NoSQL可作為對關(guān)系型數(shù)據(jù)庫的補充。
交通數(shù)據(jù)中心信息主要以結(jié)構(gòu)化數(shù)據(jù)為主,總的數(shù)據(jù)量為TB(硬盤容量單位)級,目前實時數(shù)據(jù)相對較少,各參與信息交換共享的單位間會產(chǎn)生一定的查詢需求,但并發(fā)讀寫要求不高。同時交通數(shù)據(jù)中心作為行業(yè)核心交換節(jié)點,對數(shù)據(jù)的一致性要求較高,并能為各服務(wù)單位提供統(tǒng)一、標準化的接口。隨著數(shù)據(jù)中心支撐業(yè)務(wù)多樣化、管理精細化的要求,尤其是通過門戶網(wǎng)站對外提供的信息服務(wù)業(yè)務(wù)種類的增加,并發(fā)訪問量、與社會公眾的交互需求會不斷增加,非結(jié)構(gòu)化數(shù)據(jù)量、及對數(shù)據(jù)實時性要求將會逐漸增加。
表1 NoSQL和傳統(tǒng)關(guān)系型數(shù)據(jù)庫的比較
因此,NoSQL在當前交通數(shù)據(jù)中心的建設(shè)中還不適合全面鋪開,仍應(yīng)主要采用關(guān)系型數(shù)據(jù)庫,但對于數(shù)據(jù)中心門戶網(wǎng)站的Web應(yīng)用可采用NoSQL作為關(guān)系型數(shù)據(jù)庫的補充,一方面滿足對非結(jié)構(gòu)化數(shù)據(jù)的采集,另一方面可滿足數(shù)據(jù)中心服務(wù)層業(yè)務(wù)功能不斷擴展的需求。
Hadoop是開源的、可運行于大規(guī)模集群上的分布式計算平臺,以HDFS和MapReduce為核心。HDFS高容錯性、高伸縮性等優(yōu)點允許用戶將Hadoop部署在低廉的硬件上,形成分布式系統(tǒng);MapReduce分布式編程模型允許用戶在不了解分布式系統(tǒng)底層細節(jié)的情況下開發(fā)并運行應(yīng)用程序。用戶可以利用Hadoop方便地組織計算機資源,搭建分布式計算平臺,并且可以充分利用集群的計算和存儲能力,完成海量數(shù)據(jù)的處理。
HDFS的高容錯特性以及基于Java語言的開發(fā)背景,使得Hadoop可以部署在低廉的計算機集群中,同時不限于某個操作系統(tǒng)。在HDFS文件系統(tǒng)中,數(shù)據(jù)是分布式存儲在各個節(jié)點的。計算時各節(jié)點讀取和處理存儲在自己節(jié)點的數(shù)據(jù),從而避免了大量數(shù)據(jù)在網(wǎng)絡(luò)上的傳輸,實現(xiàn)“計算向存儲的遷移”,這對處理TB級的海量數(shù)據(jù)有很大的優(yōu)勢。
MapReduce將傳統(tǒng)的查詢、分解及數(shù)據(jù)分析進行分布式處理,將處理任務(wù)分配到不同處理節(jié)點,通過大量廉價服務(wù)器即可實現(xiàn)大數(shù)據(jù)并行處理。其突出優(yōu)勢是具有高度的擴展性和可用性,特別適用于海量的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的混合處理。表2為Hadoop與傳統(tǒng)數(shù)據(jù)存儲處理系統(tǒng)的對比情況。
通過對Hadoop兩個重要組件HDFS、MapReduce的分析可以看出當前Hadoop還不能完全替代傳統(tǒng)的數(shù)據(jù)存儲處理系統(tǒng),但在功能上與傳統(tǒng)的數(shù)據(jù)存儲處理系統(tǒng)具有一定的互補特性。由于交通數(shù)據(jù)中心信息資源主要為海量的結(jié)構(gòu)化數(shù)據(jù),目前非結(jié)構(gòu)化數(shù)據(jù)量較小,采用傳統(tǒng)的數(shù)據(jù)存儲和處理技術(shù)基本能夠滿足對于結(jié)構(gòu)化數(shù)據(jù)的處理要求。但隨著數(shù)據(jù)中心業(yè)務(wù)的擴展,非結(jié)構(gòu)化數(shù)據(jù)量將會快速增長。從擴展性及部署成本角度考慮,建議采用“傳統(tǒng)方式+Hadoop”模式,即:主要采用傳統(tǒng)方式實現(xiàn)對主要業(yè)務(wù)數(shù)據(jù)的存儲、處理;當數(shù)據(jù)中心的非結(jié)構(gòu)化數(shù)據(jù)達到一定量時,再部署Hadoop實現(xiàn)對非結(jié)構(gòu)化數(shù)據(jù)的存儲和處理。
表2 Hadoop與傳統(tǒng)數(shù)據(jù)存儲處理系統(tǒng)的比較
基于上述研究,目前已經(jīng)在寧夏自治區(qū)交通系統(tǒng)開展了部分基于關(guān)系型數(shù)據(jù)庫和Hadoop的研究應(yīng)用,對現(xiàn)有收費系統(tǒng)數(shù)據(jù)的挖掘即是其中一例。隨著我國高速公路建設(shè)和聯(lián)網(wǎng)收費系統(tǒng)的不斷發(fā)展,收費數(shù)據(jù)的規(guī)模和復(fù)雜度也逐年增長。利用大數(shù)據(jù)技術(shù),對海量收費數(shù)據(jù)進行挖掘,找出獨立收費流水中的關(guān)聯(lián),對高速公路偷逃費治理、提升管理精細化水平以及為決策提供數(shù)據(jù)支持等方面,都有重要意義。
針對高速公路管理單位關(guān)注的特殊類型通行記錄、司機利用倒卡手段偷逃通行費、貨車假軸分析等方面,從異常流水和正常流水中,通過數(shù)據(jù)挖掘技術(shù)分析出問題車輛,并根據(jù)分析結(jié)果,下鉆至原始通行記錄進行確認核實。
5.2.1 各種特殊類型通行記錄統(tǒng)計分析
包括對各特殊類型車輛進行數(shù)據(jù)統(tǒng)計,對各收費站的各種特殊車輛進行統(tǒng)計,也可以從收費站、收費車道、收費員三維度對各條高速公路的特殊車輛信息進行統(tǒng)計,對特殊車輛的收費員工號進行匯總統(tǒng)計,還可以對出口流水中軸型及其車流量信息進行統(tǒng)計。
5.2.2 車輛偷逃通行費稽查分析
對各類特殊車輛進行稽查統(tǒng)計(包括對超時車中車牌不符、車型不符的車輛統(tǒng)計),對收費車變免費車、車卡不符的公務(wù)車進行統(tǒng)計,還可以對貨車計重偏差較大的車輛按車牌進行統(tǒng)計,對長途輕載車輛、短途重載車輛按車牌進行分析。
5.2.3 貨車疑似假軸分析
通過對海量歷史數(shù)據(jù)的分析,找出各類軸型車輛軸序軸重所占比例,并根據(jù)新增數(shù)據(jù)不斷完善,對車輛通行記錄進行分析,從收費站、車牌號碼等維度對疑似假軸車輛進行識別。為路政部門追蹤和管理假軸車輛提供數(shù)據(jù)支持。
通過對用戶設(shè)定的時間段內(nèi)數(shù)據(jù)的抽取與匯總,得到各類型特殊車輛按收費車道進行統(tǒng)計的車流量,對收費車道特殊類型車輛的判別情況提供依據(jù)(見圖1)。
圖1 一段時間內(nèi)各種特殊類型車輛統(tǒng)計圖(按收費車道)
通過分析特定車輛的歷史計重數(shù)據(jù),統(tǒng)計出車輛在歷次通行記錄中的車重情況,對比最大車重、最小車重、平均車重和最大車重與最小車重的比例關(guān)系(見圖2),得出車輛車重的變化情況,為車輛超重超載等情況的判定提供數(shù)據(jù)依據(jù)。
圖2 貨車計重偏差較大車輛分析結(jié)果
部分貨車為了偷逃通行費,采用增加假軸的方式,改變軸型,達到減少通行費的目的。系統(tǒng)通過分析各個貨車歷史軸型與軸重數(shù)據(jù)(見圖3),結(jié)合標準軸型信息及其限重值,分析貨車軸重所占車輛總重的比例,得出可能存在假軸車輛的軸型與假軸軸序信息。
為了對假軸車輛信息進行整體展示,以可疑假軸車輛數(shù)據(jù)為依據(jù)(見圖4),從收費站和軸型兩維度,展示可疑假軸車輛的分布情況。
圖3 可疑假軸車輛分析結(jié)果
圖4 一段時間內(nèi)各收費站假軸車輛匯總統(tǒng)計
大數(shù)據(jù)理念近年來受到廣泛關(guān)注,相關(guān)技術(shù)正從理論層面邁向應(yīng)用,交通領(lǐng)域正是大數(shù)據(jù)技術(shù)最具發(fā)展?jié)摿Φ牡湫蛻?yīng)用之一。交通數(shù)據(jù)中心建設(shè)必然需要解決大數(shù)據(jù)相關(guān)技術(shù)選型的問題。首先描述了大數(shù)據(jù)相關(guān)技術(shù)的總體情況,然后在詳細比較了NoSQL和傳統(tǒng)關(guān)系型數(shù)據(jù)庫區(qū)別的基礎(chǔ)上,分析了NoSQL技術(shù)在交通數(shù)據(jù)中心建設(shè)中的適用性;比較了Hadoop和傳統(tǒng)數(shù)據(jù)存儲處理系統(tǒng)的差異,并分析了Hadoop的適用性問題。研究結(jié)果有助于深入理解交通數(shù)據(jù)中心建設(shè)中關(guān)鍵技術(shù)的選擇標準。
參考文獻:
[1] 林樹地,吳揚揚. 基于Hadoop的C4.5決策樹分類算法并行化[J]. 微型機與應(yīng)用,2013(12):89-91.
[2] 亢麗蕓. 基于Heritrix與Hadoop的海量網(wǎng)絡(luò)學術(shù)文獻獲取及并行處理研究[D]. 淄博: 山東理工大學,2012.
[3] 李銘果. 面向社區(qū)服務(wù)的數(shù)據(jù)倉庫系統(tǒng)的設(shè)計與實現(xiàn)[D].西安:西安電子科技大學,2010.
[4] 趙俊. ETL在數(shù)據(jù)中心中的設(shè)計與實現(xiàn)[D].上海: 東華大學,2010.
[5] 陳健. 數(shù)據(jù)挖掘技術(shù)在交叉銷售中的應(yīng)用[D].蘇州: 蘇州大學,2009.