• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      寧夏交通數(shù)據(jù)中心大數(shù)據(jù)相關(guān)技術(shù)適用性研究

      2014-08-17 03:01:02江海琦崔毓偉徐延軍
      關(guān)鍵詞:海量結(jié)構(gòu)化數(shù)據(jù)中心

      江海琦, 崔毓偉, 徐延軍

      (1.寧夏公路管理局,銀川 750011;2.中海網(wǎng)絡(luò)科技股份有限公司,上海 200135)

      0 引 言

      寧夏回族自治區(qū)《關(guān)于推進新一代數(shù)據(jù)中心建設(shè)發(fā)展的意見》提出,要逐步建成滿足寧夏內(nèi)陸開放型經(jīng)濟發(fā)展需要,技術(shù)先進、布局合理的新一代數(shù)據(jù)中心。選擇先進合理的技術(shù)方案是寧夏交通數(shù)據(jù)中心建設(shè)指導(dǎo)思想中的關(guān)鍵問題,而評價技術(shù)方案的先進性與合理性必須具體到應(yīng)用背景和應(yīng)用技術(shù)中,不同應(yīng)用環(huán)境對技術(shù)標準的適用性各有差異。以具有典型海量數(shù)據(jù)特征的智能交通運輸系統(tǒng)為背景,探討寧夏交通數(shù)據(jù)中心大數(shù)據(jù)相關(guān)技術(shù)的適用性問題,為交通數(shù)據(jù)中心建設(shè)提供理論參考。

      1 研究意義及目標

      大數(shù)據(jù)相關(guān)技術(shù)是國內(nèi)外熱門研究領(lǐng)域,其影響范圍涉及到眾多行業(yè),其中交通領(lǐng)域就是典型的可以通過海量數(shù)據(jù)挖掘?qū)崿F(xiàn)智能管理和優(yōu)化服務(wù)的大數(shù)據(jù)應(yīng)用場景。配合寧夏交通數(shù)據(jù)中心建設(shè),結(jié)合當前技術(shù)發(fā)展趨勢,對其中關(guān)鍵技術(shù)進行分析,通過分析論證總結(jié)關(guān)鍵技術(shù)適用性、適用的層次或方向,為寧夏交通數(shù)據(jù)中心建設(shè)實施過程中的技術(shù)選用提供參考。

      2 大數(shù)據(jù)相關(guān)技術(shù)的應(yīng)用

      大數(shù)據(jù)技術(shù)是指從海量的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)中快速獲得有價值信息的技術(shù)。由于龐大的數(shù)據(jù)量級和形式各異的數(shù)據(jù)結(jié)構(gòu),傳統(tǒng)的數(shù)據(jù)處理方法不能適應(yīng)大數(shù)據(jù)的挖掘需求。因此在大數(shù)據(jù)采集、存儲、挖掘、應(yīng)用、展示等各個領(lǐng)域,不斷涌現(xiàn)出新技術(shù)。

      2.1 大數(shù)據(jù)采集技術(shù)

      大數(shù)據(jù)采集的重點是要突破分布式高速數(shù)據(jù)爬取、數(shù)據(jù)全映像等大數(shù)據(jù)收集技術(shù)以及突破高速數(shù)據(jù)解析、轉(zhuǎn)換與裝載等大數(shù)據(jù)整合技術(shù)。其中數(shù)據(jù)抽取、轉(zhuǎn)換、裝載的過程(Extract-Transform-Load,ETL)能夠按照統(tǒng)一的規(guī)則集成并提高數(shù)據(jù)的價值,是負責完成數(shù)據(jù)從數(shù)據(jù)源向目標數(shù)據(jù)倉庫轉(zhuǎn)化的過程,是實施數(shù)據(jù)倉庫的重要步驟。

      2.2 大數(shù)據(jù)存儲及管理技術(shù)

      大數(shù)據(jù)存儲與管理技術(shù)重點要解決復(fù)雜結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲、表示、處理、可靠性及有效傳輸?shù)汝P(guān)鍵問題,因此需應(yīng)用新型數(shù)據(jù)庫技術(shù)。其中NoSQL數(shù)據(jù)庫(Not Only SQL,即“不僅是SQL”,泛指非關(guān)系型數(shù)據(jù)庫)憑借其在高并發(fā)讀寫、海量數(shù)據(jù)高效率存儲和訪問、高可擴展性和高可用性等方面的優(yōu)勢發(fā)展非常迅速。

      2.3 大數(shù)據(jù)挖掘分析技術(shù)

      大數(shù)據(jù)挖掘分析計算就是從海量、非完整、有噪聲和隨機的數(shù)據(jù)中,提取隱含其中人們事先不知道、但又潛在有用的信息和知識的過程。針對數(shù)據(jù)挖掘分析出現(xiàn)的Hadoop處理平臺等關(guān)鍵技術(shù)給用戶帶來了更好的大數(shù)據(jù)處理方案。其中由于具備低成本和前所未有的高擴展性,Hadoop已被公認為是新一代的大數(shù)據(jù)處理平臺。

      交通數(shù)據(jù)中心的信息資源來自眾多獨立的異構(gòu)系統(tǒng),匯聚了海量的結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù),并且隨著移動互聯(lián)技術(shù)的發(fā)展,系統(tǒng)與用戶間信息交互頻度的增加,非結(jié)構(gòu)化數(shù)據(jù)還會大幅增長,因此交通數(shù)據(jù)中心建設(shè)需要特別重視對非結(jié)構(gòu)化數(shù)據(jù)的存儲管理與挖掘分析。結(jié)合交通數(shù)據(jù)中心這一特點,主要分析NoSQL和 Hadoop兩個大數(shù)據(jù)關(guān)鍵技術(shù)的適用性。

      3 NoSQL適用性分析

      3.1 NoSQL與傳統(tǒng)關(guān)系型數(shù)據(jù)庫的對比

      關(guān)系型數(shù)據(jù)庫是建立在關(guān)系模型基礎(chǔ)上的數(shù)據(jù)庫,借助于集合代數(shù)等概念和方法來處理數(shù)據(jù)庫中的數(shù)據(jù)。NoSQL通常指數(shù)據(jù)以對象的形式存儲在數(shù)據(jù)庫中,而對象之間的關(guān)系通過每個對象自身的屬性決定。它以“鍵值對”的形式存儲,結(jié)構(gòu)不固定,每一個元組可以有不一樣的字段,每個元組可以根據(jù)需要增加自己的“鍵值對”,這樣就不會局限于固定的結(jié)構(gòu),減少一些時間和空間的開銷。使用這種方式,用戶可以根據(jù)情況添加自己需要的字段,而無需像關(guān)系型數(shù)據(jù)庫那樣對多表進行關(guān)聯(lián)查詢,僅根據(jù)id取出相應(yīng)的字段就可以完成查詢。NoSQL和傳統(tǒng)關(guān)系型數(shù)據(jù)庫的對比見表1。

      3.2 NoSQL在交通數(shù)據(jù)中心建設(shè)中的適用性分析

      通過上述對比,可以看出關(guān)系型數(shù)據(jù)庫用一種嚴格的數(shù)學模型來描述混亂的數(shù)據(jù)存儲關(guān)系。其查詢語言SQL通過簡單直觀的語法,把各個實體間的關(guān)系明確表達出來。隨著數(shù)據(jù)規(guī)模的增長,關(guān)系型數(shù)據(jù)庫逐漸遇到不適合的場景,其中主要的局限性包括數(shù)據(jù)模型僵硬、可擴展性差、處理海量數(shù)據(jù)時的性能瓶頸和缺乏處理非結(jié)構(gòu)化數(shù)據(jù)的能力等。NoSQL發(fā)展時間較短,沒有形成行業(yè)標準及強有力的技術(shù)支持,因此NoSQL可作為對關(guān)系型數(shù)據(jù)庫的補充。

      交通數(shù)據(jù)中心信息主要以結(jié)構(gòu)化數(shù)據(jù)為主,總的數(shù)據(jù)量為TB(硬盤容量單位)級,目前實時數(shù)據(jù)相對較少,各參與信息交換共享的單位間會產(chǎn)生一定的查詢需求,但并發(fā)讀寫要求不高。同時交通數(shù)據(jù)中心作為行業(yè)核心交換節(jié)點,對數(shù)據(jù)的一致性要求較高,并能為各服務(wù)單位提供統(tǒng)一、標準化的接口。隨著數(shù)據(jù)中心支撐業(yè)務(wù)多樣化、管理精細化的要求,尤其是通過門戶網(wǎng)站對外提供的信息服務(wù)業(yè)務(wù)種類的增加,并發(fā)訪問量、與社會公眾的交互需求會不斷增加,非結(jié)構(gòu)化數(shù)據(jù)量、及對數(shù)據(jù)實時性要求將會逐漸增加。

      表1 NoSQL和傳統(tǒng)關(guān)系型數(shù)據(jù)庫的比較

      因此,NoSQL在當前交通數(shù)據(jù)中心的建設(shè)中還不適合全面鋪開,仍應(yīng)主要采用關(guān)系型數(shù)據(jù)庫,但對于數(shù)據(jù)中心門戶網(wǎng)站的Web應(yīng)用可采用NoSQL作為關(guān)系型數(shù)據(jù)庫的補充,一方面滿足對非結(jié)構(gòu)化數(shù)據(jù)的采集,另一方面可滿足數(shù)據(jù)中心服務(wù)層業(yè)務(wù)功能不斷擴展的需求。

      4 Hadoop適用性分析

      Hadoop是開源的、可運行于大規(guī)模集群上的分布式計算平臺,以HDFS和MapReduce為核心。HDFS高容錯性、高伸縮性等優(yōu)點允許用戶將Hadoop部署在低廉的硬件上,形成分布式系統(tǒng);MapReduce分布式編程模型允許用戶在不了解分布式系統(tǒng)底層細節(jié)的情況下開發(fā)并運行應(yīng)用程序。用戶可以利用Hadoop方便地組織計算機資源,搭建分布式計算平臺,并且可以充分利用集群的計算和存儲能力,完成海量數(shù)據(jù)的處理。

      4.1 Hadoop與傳統(tǒng)數(shù)據(jù)存儲處理系統(tǒng)對比

      HDFS的高容錯特性以及基于Java語言的開發(fā)背景,使得Hadoop可以部署在低廉的計算機集群中,同時不限于某個操作系統(tǒng)。在HDFS文件系統(tǒng)中,數(shù)據(jù)是分布式存儲在各個節(jié)點的。計算時各節(jié)點讀取和處理存儲在自己節(jié)點的數(shù)據(jù),從而避免了大量數(shù)據(jù)在網(wǎng)絡(luò)上的傳輸,實現(xiàn)“計算向存儲的遷移”,這對處理TB級的海量數(shù)據(jù)有很大的優(yōu)勢。

      MapReduce將傳統(tǒng)的查詢、分解及數(shù)據(jù)分析進行分布式處理,將處理任務(wù)分配到不同處理節(jié)點,通過大量廉價服務(wù)器即可實現(xiàn)大數(shù)據(jù)并行處理。其突出優(yōu)勢是具有高度的擴展性和可用性,特別適用于海量的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的混合處理。表2為Hadoop與傳統(tǒng)數(shù)據(jù)存儲處理系統(tǒng)的對比情況。

      4.2 Hadoop在交通數(shù)據(jù)中心建設(shè)中的適用性分析

      通過對Hadoop兩個重要組件HDFS、MapReduce的分析可以看出當前Hadoop還不能完全替代傳統(tǒng)的數(shù)據(jù)存儲處理系統(tǒng),但在功能上與傳統(tǒng)的數(shù)據(jù)存儲處理系統(tǒng)具有一定的互補特性。由于交通數(shù)據(jù)中心信息資源主要為海量的結(jié)構(gòu)化數(shù)據(jù),目前非結(jié)構(gòu)化數(shù)據(jù)量較小,采用傳統(tǒng)的數(shù)據(jù)存儲和處理技術(shù)基本能夠滿足對于結(jié)構(gòu)化數(shù)據(jù)的處理要求。但隨著數(shù)據(jù)中心業(yè)務(wù)的擴展,非結(jié)構(gòu)化數(shù)據(jù)量將會快速增長。從擴展性及部署成本角度考慮,建議采用“傳統(tǒng)方式+Hadoop”模式,即:主要采用傳統(tǒng)方式實現(xiàn)對主要業(yè)務(wù)數(shù)據(jù)的存儲、處理;當數(shù)據(jù)中心的非結(jié)構(gòu)化數(shù)據(jù)達到一定量時,再部署Hadoop實現(xiàn)對非結(jié)構(gòu)化數(shù)據(jù)的存儲和處理。

      表2 Hadoop與傳統(tǒng)數(shù)據(jù)存儲處理系統(tǒng)的比較

      5 實例分析

      基于上述研究,目前已經(jīng)在寧夏自治區(qū)交通系統(tǒng)開展了部分基于關(guān)系型數(shù)據(jù)庫和Hadoop的研究應(yīng)用,對現(xiàn)有收費系統(tǒng)數(shù)據(jù)的挖掘即是其中一例。隨著我國高速公路建設(shè)和聯(lián)網(wǎng)收費系統(tǒng)的不斷發(fā)展,收費數(shù)據(jù)的規(guī)模和復(fù)雜度也逐年增長。利用大數(shù)據(jù)技術(shù),對海量收費數(shù)據(jù)進行挖掘,找出獨立收費流水中的關(guān)聯(lián),對高速公路偷逃費治理、提升管理精細化水平以及為決策提供數(shù)據(jù)支持等方面,都有重要意義。

      5.1 需求

      針對高速公路管理單位關(guān)注的特殊類型通行記錄、司機利用倒卡手段偷逃通行費、貨車假軸分析等方面,從異常流水和正常流水中,通過數(shù)據(jù)挖掘技術(shù)分析出問題車輛,并根據(jù)分析結(jié)果,下鉆至原始通行記錄進行確認核實。

      5.2 功能

      5.2.1 各種特殊類型通行記錄統(tǒng)計分析

      包括對各特殊類型車輛進行數(shù)據(jù)統(tǒng)計,對各收費站的各種特殊車輛進行統(tǒng)計,也可以從收費站、收費車道、收費員三維度對各條高速公路的特殊車輛信息進行統(tǒng)計,對特殊車輛的收費員工號進行匯總統(tǒng)計,還可以對出口流水中軸型及其車流量信息進行統(tǒng)計。

      5.2.2 車輛偷逃通行費稽查分析

      對各類特殊車輛進行稽查統(tǒng)計(包括對超時車中車牌不符、車型不符的車輛統(tǒng)計),對收費車變免費車、車卡不符的公務(wù)車進行統(tǒng)計,還可以對貨車計重偏差較大的車輛按車牌進行統(tǒng)計,對長途輕載車輛、短途重載車輛按車牌進行分析。

      5.2.3 貨車疑似假軸分析

      通過對海量歷史數(shù)據(jù)的分析,找出各類軸型車輛軸序軸重所占比例,并根據(jù)新增數(shù)據(jù)不斷完善,對車輛通行記錄進行分析,從收費站、車牌號碼等維度對疑似假軸車輛進行識別。為路政部門追蹤和管理假軸車輛提供數(shù)據(jù)支持。

      5.3 結(jié)果分析

      通過對用戶設(shè)定的時間段內(nèi)數(shù)據(jù)的抽取與匯總,得到各類型特殊車輛按收費車道進行統(tǒng)計的車流量,對收費車道特殊類型車輛的判別情況提供依據(jù)(見圖1)。

      圖1 一段時間內(nèi)各種特殊類型車輛統(tǒng)計圖(按收費車道)

      通過分析特定車輛的歷史計重數(shù)據(jù),統(tǒng)計出車輛在歷次通行記錄中的車重情況,對比最大車重、最小車重、平均車重和最大車重與最小車重的比例關(guān)系(見圖2),得出車輛車重的變化情況,為車輛超重超載等情況的判定提供數(shù)據(jù)依據(jù)。

      圖2 貨車計重偏差較大車輛分析結(jié)果

      部分貨車為了偷逃通行費,采用增加假軸的方式,改變軸型,達到減少通行費的目的。系統(tǒng)通過分析各個貨車歷史軸型與軸重數(shù)據(jù)(見圖3),結(jié)合標準軸型信息及其限重值,分析貨車軸重所占車輛總重的比例,得出可能存在假軸車輛的軸型與假軸軸序信息。

      為了對假軸車輛信息進行整體展示,以可疑假軸車輛數(shù)據(jù)為依據(jù)(見圖4),從收費站和軸型兩維度,展示可疑假軸車輛的分布情況。

      圖3 可疑假軸車輛分析結(jié)果

      圖4 一段時間內(nèi)各收費站假軸車輛匯總統(tǒng)計

      6 結(jié) 語

      大數(shù)據(jù)理念近年來受到廣泛關(guān)注,相關(guān)技術(shù)正從理論層面邁向應(yīng)用,交通領(lǐng)域正是大數(shù)據(jù)技術(shù)最具發(fā)展?jié)摿Φ牡湫蛻?yīng)用之一。交通數(shù)據(jù)中心建設(shè)必然需要解決大數(shù)據(jù)相關(guān)技術(shù)選型的問題。首先描述了大數(shù)據(jù)相關(guān)技術(shù)的總體情況,然后在詳細比較了NoSQL和傳統(tǒng)關(guān)系型數(shù)據(jù)庫區(qū)別的基礎(chǔ)上,分析了NoSQL技術(shù)在交通數(shù)據(jù)中心建設(shè)中的適用性;比較了Hadoop和傳統(tǒng)數(shù)據(jù)存儲處理系統(tǒng)的差異,并分析了Hadoop的適用性問題。研究結(jié)果有助于深入理解交通數(shù)據(jù)中心建設(shè)中關(guān)鍵技術(shù)的選擇標準。

      參考文獻:

      [1] 林樹地,吳揚揚. 基于Hadoop的C4.5決策樹分類算法并行化[J]. 微型機與應(yīng)用,2013(12):89-91.

      [2] 亢麗蕓. 基于Heritrix與Hadoop的海量網(wǎng)絡(luò)學術(shù)文獻獲取及并行處理研究[D]. 淄博: 山東理工大學,2012.

      [3] 李銘果. 面向社區(qū)服務(wù)的數(shù)據(jù)倉庫系統(tǒng)的設(shè)計與實現(xiàn)[D].西安:西安電子科技大學,2010.

      [4] 趙俊. ETL在數(shù)據(jù)中心中的設(shè)計與實現(xiàn)[D].上海: 東華大學,2010.

      [5] 陳健. 數(shù)據(jù)挖掘技術(shù)在交叉銷售中的應(yīng)用[D].蘇州: 蘇州大學,2009.

      猜你喜歡
      海量結(jié)構(gòu)化數(shù)據(jù)中心
      酒泉云計算大數(shù)據(jù)中心
      一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
      促進知識結(jié)構(gòu)化的主題式復(fù)習初探
      結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
      計算機教育(2020年5期)2020-07-24 08:53:00
      海量快遞垃圾正在“圍城”——“綠色快遞”勢在必行
      當代陜西(2019年14期)2019-08-26 09:42:00
      民航綠色云數(shù)據(jù)中心PUE控制
      電子測試(2018年11期)2018-06-26 05:56:24
      一個圖形所蘊含的“海量”巧題
      基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
      計算機工程(2015年8期)2015-07-03 12:20:35
      基于云計算的交通運輸數(shù)據(jù)中心實現(xiàn)與應(yīng)用
      Overlay Network技術(shù)在云計算數(shù)據(jù)中心中的應(yīng)用
      河南科技(2014年11期)2014-02-27 14:16:49
      沅江市| 互助| 耒阳市| 长兴县| 开化县| 建宁县| 咸宁市| 平谷区| 乌拉特前旗| 嘉鱼县| 朝阳县| 绍兴县| 静安区| 太仓市| 黑龙江省| 苏尼特右旗| 丹东市| 体育| 兴文县| 新河县| 静宁县| 彭州市| 会昌县| 广宗县| 塔城市| 龙川县| 定安县| 来凤县| 海南省| 怀仁县| 富源县| 商丘市| 南昌县| 吉林市| 邻水| 曲松县| 沁阳市| 海林市| 梅河口市| 潍坊市| 龙山县|