• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于大數(shù)據(jù)技術(shù)的數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計

    2019-06-15 01:01:22姚鵬飛
    關(guān)鍵詞:體系結(jié)構(gòu)數(shù)據(jù)倉庫大數(shù)據(jù)

    姚鵬飛

    摘要:大數(shù)據(jù)時代,數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性和數(shù)據(jù)體量的劇增使得傳統(tǒng)數(shù)據(jù)倉庫體系結(jié)構(gòu)已經(jīng)不能滿足數(shù)據(jù)處理的需要。本文在對傳統(tǒng)數(shù)據(jù)倉庫體系結(jié)構(gòu)相關(guān)理論研究的基礎(chǔ)上,重點分析了傳統(tǒng)數(shù)據(jù)倉庫體系結(jié)構(gòu)存在的不足以及大數(shù)據(jù)的特征和對數(shù)據(jù)處理的新需求,構(gòu)建了基于大數(shù)據(jù)技術(shù)的數(shù)據(jù)倉庫體系結(jié)構(gòu),采用目前流行的Hadoop/Spark大數(shù)據(jù)處理技術(shù)架構(gòu),實現(xiàn)半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的收集、處理、存儲和分析挖掘,彌補了傳統(tǒng)數(shù)據(jù)倉庫在海量數(shù)據(jù)處理、存儲方面的不足,有效解決數(shù)據(jù)利用率低、價值發(fā)揮不明顯的問題。

    關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)倉庫;體系結(jié)構(gòu)

    中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2019)03-0141-03

    0 引言

    隨著數(shù)據(jù)量的急劇增長,傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用已經(jīng)難以滿足聯(lián)機分析處理對數(shù)據(jù)倉庫提出的新需求[1],數(shù)據(jù)處理的實時性要求和數(shù)據(jù)結(jié)構(gòu)的多元化、非結(jié)構(gòu)化使得傳統(tǒng)數(shù)據(jù)倉庫的性能瓶頸逐漸顯現(xiàn)。大數(shù)據(jù)、云計算等新技術(shù)以其強大和高效的存儲和計算能力正在成為海量數(shù)據(jù)管理的經(jīng)濟有效方式[11]。在數(shù)據(jù)應(yīng)用領(lǐng)域,隨著各類系統(tǒng)復(fù)雜性的不斷增強,數(shù)據(jù)總量正逐年以指數(shù)形式上漲,且數(shù)據(jù)類型超越了傳統(tǒng)數(shù)據(jù)庫所能處理的范疇。如何將這些數(shù)據(jù)進(jìn)行收集、整理并加以分析、應(yīng)用成為研究熱點。傳統(tǒng)的數(shù)據(jù)倉庫由于處理數(shù)據(jù)格式有限、計算能力擴展困難,已經(jīng)不能滿足數(shù)據(jù)處理需要,尋求新的數(shù)據(jù)倉庫解決方案成為當(dāng)務(wù)之急。大數(shù)據(jù)技術(shù)能夠極大拓展數(shù)據(jù)的收集能力,提升數(shù)據(jù)的綜合分析處理能力。本文基于大數(shù)據(jù)技術(shù)構(gòu)建數(shù)據(jù)倉庫體系結(jié)構(gòu),將大數(shù)據(jù)和數(shù)據(jù)倉庫技術(shù)進(jìn)行結(jié)合,采用目前流行的大數(shù)據(jù)架構(gòu)Hadoop/Spark,充分借鑒其低成本、高性能、高可靠性和可擴展的特點,以期實現(xiàn)對數(shù)據(jù)的采集、處理、存儲和深度挖掘分析,有效發(fā)揮數(shù)據(jù)價值。

    1 傳統(tǒng)數(shù)據(jù)倉庫技術(shù)架構(gòu)面臨的挑戰(zhàn)

    1.1 傳統(tǒng)數(shù)據(jù)倉庫技術(shù)架構(gòu)

    數(shù)據(jù)倉庫是以數(shù)據(jù)庫技術(shù)為核心,涉及元數(shù)據(jù)、數(shù)據(jù)挖掘、數(shù)據(jù)展現(xiàn)等多技術(shù)領(lǐng)域的綜合應(yīng)用[10]。傳統(tǒng)數(shù)據(jù)倉庫按層次劃分,主要包含源數(shù)據(jù)層、數(shù)據(jù)倉庫層、數(shù)據(jù)應(yīng)用層三部分。傳統(tǒng)數(shù)據(jù)倉庫體系結(jié)構(gòu)如圖1所示。

    (1)源數(shù)據(jù)層。傳統(tǒng)數(shù)據(jù)倉庫的數(shù)據(jù)來源主要是從各個業(yè)務(wù)系統(tǒng)抽取的數(shù)據(jù)。按照數(shù)據(jù)倉庫數(shù)據(jù)結(jié)構(gòu)和編碼格式對源數(shù)據(jù)進(jìn)行抽取、清洗、轉(zhuǎn)換和加載。

    (2)數(shù)據(jù)倉庫層。傳統(tǒng)數(shù)據(jù)倉庫主要存儲的是經(jīng)過ETL(Extract /Transformation /Load)處理后的結(jié)構(gòu)化數(shù)據(jù),且是按照數(shù)據(jù)的主題進(jìn)行分類存儲。主要的存儲方式包括:多維數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫及兩者相結(jié)合的方式[2]。傳統(tǒng)數(shù)據(jù)倉庫基于維護(hù)細(xì)節(jié)數(shù)據(jù)基礎(chǔ),使其能夠真正應(yīng)用于分析。聚合數(shù)據(jù)指的是基于特定需求的簡單聚合,多維數(shù)據(jù)模型提供了多角度多層次的分析應(yīng)用,可以實現(xiàn)在各時間維度和地域維度的交叉查詢[3]。除此之外,數(shù)據(jù)倉庫中還存儲元數(shù)據(jù),描述數(shù)據(jù)倉庫的數(shù)據(jù)信息及輔助用戶使用和了解數(shù)據(jù)倉庫的數(shù)據(jù)信息。

    (3)數(shù)據(jù)應(yīng)用層。數(shù)據(jù)應(yīng)用層的核心是聯(lián)機分析處理OLAP(On-Line Analysis Processing),主要包含報表展示、數(shù)據(jù)分析和數(shù)據(jù)挖掘,為決策者提供多維度數(shù)據(jù)[9]。聯(lián)機分析處理從多維度、多角度對數(shù)據(jù)進(jìn)行分析,系統(tǒng)深入挖掘數(shù)據(jù)背后的關(guān)聯(lián),從而輔助用戶決策。

    (4)元數(shù)據(jù)管理。元數(shù)據(jù)能支持系統(tǒng)對數(shù)據(jù)的管理和維護(hù),是進(jìn)行數(shù)據(jù)集成的基礎(chǔ),主要存儲了原始數(shù)據(jù)和數(shù)據(jù)倉庫中數(shù)據(jù)的對應(yīng)關(guān)系以及校驗、轉(zhuǎn)換、過濾的規(guī)則等信息[4]。元數(shù)據(jù)是建設(shè)數(shù)據(jù)倉庫必需的最主要、最根本和最基礎(chǔ)的描述元素[12]。通過對元數(shù)據(jù)的統(tǒng)一維護(hù),可以實現(xiàn)各業(yè)務(wù)信息系統(tǒng)之間信息交互,避免出現(xiàn)“數(shù)據(jù)孤島”現(xiàn)象。另外,元數(shù)據(jù)提供了數(shù)據(jù)訪問的接口,幫助進(jìn)行數(shù)據(jù)檢索和數(shù)據(jù)挖掘。

    1.2 存在的主要問題

    (1)傳統(tǒng)數(shù)據(jù)倉庫架構(gòu)基本以三層架構(gòu)為主,采用單點服務(wù)器結(jié)構(gòu),一方面,對分布式并行計算模式的支持力度不夠,難以實現(xiàn)處理能力水平拓展,往往需要通過對服務(wù)器等硬件的升級改造來實現(xiàn)處理性能提升,升級改造成本相對較高,且服務(wù)器等硬件性能升級周期較長[5]。另一方面,采用單點服務(wù)器結(jié)構(gòu)經(jīng)常會遇到單點故障和I/O處理性能瓶頸等問題,計算能力和存儲能力相對較弱。

    (2)由于地域、型號等因素影響,數(shù)據(jù)應(yīng)用系統(tǒng)種類繁多、形式多樣,在單個數(shù)據(jù)倉庫系統(tǒng)處理性能有限的狀況下,普遍存在獨自建設(shè),導(dǎo)致“煙囪”式建設(shè)現(xiàn)象嚴(yán)重,缺乏統(tǒng)一的頂層設(shè)計和籌劃規(guī)劃,各個數(shù)據(jù)倉庫系統(tǒng)間界限劃分不合理,口徑不一致,存在數(shù)據(jù)的重復(fù)加工問題。

    (3)傳統(tǒng)數(shù)據(jù)倉庫主要面向數(shù)據(jù)分析型應(yīng)用設(shè)計,在數(shù)據(jù)的實時處理方面不足,無法適應(yīng)高并發(fā)、低延遲等應(yīng)用場景需要,難以滿足實時分析處理需求。

    (4)傳統(tǒng)數(shù)據(jù)倉庫主要處理的是結(jié)構(gòu)化數(shù)據(jù),通過從各類關(guān)系型數(shù)據(jù)庫系統(tǒng)抽取數(shù)據(jù)實現(xiàn)數(shù)據(jù)集成。在大數(shù)據(jù)背景下,非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)大量出現(xiàn),占到數(shù)據(jù)總量的90%以上,傳統(tǒng)數(shù)據(jù)倉庫架構(gòu)不支持HBase、NoSQL等數(shù)據(jù)庫,在處理各類非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)方面能力不足,不能實現(xiàn)對各類數(shù)據(jù)的完全覆蓋。

    2 數(shù)據(jù)特征及新處理需求

    隨著數(shù)據(jù)采集方式的多樣化,數(shù)據(jù)積累體量將呈指數(shù)級增長,傳統(tǒng)的存儲手段、計算能力已經(jīng)不能滿足海量數(shù)據(jù)的存儲和分析。此外,云計算、大數(shù)據(jù)等相關(guān)技術(shù)快速發(fā)展,數(shù)據(jù)的存儲和分析能力得到了前所未有的提升,通過海量數(shù)據(jù)處理、多樣本分析、超實時計算和復(fù)雜模型解算實現(xiàn)數(shù)據(jù)價值深度挖掘、開發(fā)各類數(shù)據(jù)產(chǎn)品已經(jīng)成為對數(shù)據(jù)處理的新需求。

    大數(shù)據(jù)時代,數(shù)據(jù)處理的模式主要包括:“離線批處理式數(shù)據(jù)處理”,“查詢式數(shù)據(jù)處理”以及“實時式數(shù)據(jù)處理”三種模式[7]。按照以上數(shù)據(jù)處理模式,基于大數(shù)據(jù)的數(shù)據(jù)倉庫采用Hadoop/Spark架構(gòu),可以有效彌補傳統(tǒng)數(shù)據(jù)倉庫在海量數(shù)據(jù)處理、數(shù)據(jù)存儲等方面的不足,有效解決傳統(tǒng)數(shù)據(jù)倉庫平臺處理能力不足的問題?;诖髷?shù)據(jù)技術(shù)構(gòu)建的數(shù)據(jù)倉庫可以實現(xiàn)彈性擴容和資源隔離,縮短統(tǒng)計分析響應(yīng)時間,通過統(tǒng)一資源調(diào)度管理平臺,減少數(shù)據(jù)復(fù)制導(dǎo)致的時間開銷和多個應(yīng)用數(shù)據(jù)庫獨立部署帶來冗余的數(shù)據(jù)存儲成本。另外,可以實現(xiàn)對數(shù)據(jù)的有效管控和數(shù)據(jù)標(biāo)準(zhǔn)的實施,實現(xiàn)數(shù)據(jù)質(zhì)量管理。Hadoop是一個開源的、可運行于大規(guī)模集群之上的分布式計算平臺,通過實現(xiàn)MapReduce計算模型和分布式文件系統(tǒng)HDFS(Hadoop Distributed File System),并且可以通過橫向擴展實現(xiàn)計算能力和存儲能力的大幅提升,可以實現(xiàn)對離線的、處理實時性要求不高的海量數(shù)據(jù)的存儲與處理分析工作[8]。Spark是基于內(nèi)存計算的大數(shù)據(jù)并行計算框架,可以有效減少迭代計算時的I/O開銷,實現(xiàn)對數(shù)據(jù)的實時分析和處理。

    3 基于大數(shù)據(jù)的數(shù)據(jù)倉庫體系架構(gòu)設(shè)計

    基于大數(shù)據(jù)的數(shù)據(jù)倉庫體系架構(gòu)采用柔性架構(gòu)設(shè)計理念和分層設(shè)計思想,綜合運用Hadoop/Spark為代表的大規(guī)模數(shù)據(jù)處理技術(shù)和傳統(tǒng)數(shù)據(jù)倉庫的特點,采用組件化、模塊化、服務(wù)化的方式進(jìn)行設(shè)計,體系結(jié)構(gòu)的主要內(nèi)容以及相互之間的邏輯關(guān)系如圖2所示。

    (1)數(shù)據(jù)源部分。目前,試驗數(shù)據(jù)應(yīng)用領(lǐng)域,已建成的信息系統(tǒng)主要采用Oracle、SqlServer、基礎(chǔ)數(shù)據(jù)庫,除此之外,與相關(guān)的文檔、模型數(shù)據(jù)、音視頻數(shù)據(jù)、圖片數(shù)據(jù)等,大多數(shù)以非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)形式存在。相比傳統(tǒng)數(shù)據(jù)倉庫體系結(jié)構(gòu)而言,基于大數(shù)據(jù)的數(shù)據(jù)倉庫不僅能實現(xiàn)對結(jié)構(gòu)化數(shù)據(jù)的處理,還能實現(xiàn)對半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的處理。

    (2)數(shù)據(jù)融合部分。分為兩部分,對于關(guān)系型數(shù)據(jù),按照主題數(shù)據(jù)庫的分類進(jìn)行抽取、轉(zhuǎn)換,加載到主題數(shù)據(jù)庫中。對于非關(guān)系型數(shù)據(jù),按照指定的元數(shù)據(jù)、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)編碼、數(shù)據(jù)定義、鍵結(jié)構(gòu)和數(shù)據(jù)物理特征等進(jìn)行數(shù)據(jù)抽取和轉(zhuǎn)換,加載到主題數(shù)據(jù)庫,為后續(xù)的統(tǒng)計、分析、挖掘業(yè)務(wù)提供標(biāo)準(zhǔn)化、規(guī)范化的數(shù)據(jù)資源。

    (3)數(shù)據(jù)存儲部分。主題數(shù)據(jù)庫中按照不同的主題對數(shù)據(jù)進(jìn)行分類存放,主題數(shù)據(jù)庫為數(shù)據(jù)倉庫提供數(shù)據(jù)來源。數(shù)據(jù)倉庫采用Hadoop和Spark統(tǒng)一部署模式架構(gòu),具有高模塊化、松耦合特點,利用其先進(jìn)的并行計算框架和資源調(diào)度框架,彌補傳統(tǒng)數(shù)據(jù)庫的局限,支持SQL標(biāo)準(zhǔn)數(shù)據(jù)庫語言及Oracle、DB2、MySQL、SQLServer等多種傳統(tǒng)應(yīng)用數(shù)據(jù)庫。MapReduce、Spark在資源管理框架YARN之上部署和運行,可以有效實現(xiàn)計算資源按需伸縮、共享底層存儲,避免數(shù)據(jù)跨集群遷移。根據(jù)不同應(yīng)用場景,實現(xiàn)資源調(diào)度和數(shù)據(jù)處理工作。對于據(jù)數(shù)據(jù)處理速度及分析響應(yīng)要求高的數(shù)據(jù)處理場景,采用Spark處理架構(gòu)實現(xiàn)實時處理,對于數(shù)據(jù)處理速度及分析響應(yīng)要求不高的數(shù)據(jù)處理場景,采用MapReduce架構(gòu)實現(xiàn)批處理。Sqoop組件主要用來實現(xiàn)Hadoop和主題數(shù)據(jù)庫之間的數(shù)據(jù)交換,完成關(guān)系型數(shù)據(jù)庫到Hadoop平臺的數(shù)據(jù)遷移工作。

    (4)服務(wù)管理部分。實現(xiàn)對各種服務(wù)的管理,主要包括數(shù)據(jù)分析服務(wù)、數(shù)據(jù)查詢服務(wù)、數(shù)據(jù)交換服務(wù)和數(shù)據(jù)服務(wù)接口,以組件化、模塊化的方式,為實現(xiàn)數(shù)據(jù)挖掘分析及綜合展現(xiàn)提供服務(wù)支持。

    (5)數(shù)據(jù)應(yīng)用部分。主要包含數(shù)據(jù)查詢、數(shù)據(jù)分析、數(shù)據(jù)挖掘、OLAP等數(shù)據(jù)應(yīng)用,并將查詢及挖掘結(jié)果以圖表、儀表盤等可視化方式進(jìn)行展現(xiàn)。

    (6)元數(shù)據(jù)管理部分。元數(shù)據(jù)(Meta Date),即數(shù)據(jù)的數(shù)據(jù)。主要描述數(shù)據(jù)倉庫中各種模型的定義、各層級間的映射關(guān)系、數(shù)據(jù)倉庫的數(shù)據(jù)狀態(tài)信息,通過元數(shù)據(jù)庫實現(xiàn)統(tǒng)一存儲和管理。

    4 結(jié)語

    長期以來,由于在數(shù)據(jù)融合、數(shù)據(jù)挖掘等方面缺乏必要的技術(shù)手段支持,數(shù)據(jù)的效益沒有得到有效發(fā)揮。本文通過分析傳統(tǒng)數(shù)據(jù)倉庫在處理大數(shù)據(jù)方面的不足,結(jié)合大數(shù)據(jù)時代數(shù)據(jù)處理的新需求,研究構(gòu)建基于大數(shù)據(jù)技術(shù)的數(shù)據(jù)倉庫體系結(jié)構(gòu),以期實現(xiàn)數(shù)據(jù)的高效管理和快速處理分析。

    參考文獻(xiàn)

    [1] 吳黎兵,邱 鑫,葉璐瑤,等.基于Hadoop的SQL查詢引擎性能研究[J].華中師范大學(xué)學(xué)報(自然科學(xué)版),2016,50(2):174-182.

    [2] 瞿志凱,張婷.基于大數(shù)據(jù)的反恐情報數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計[J].情報雜志,2016,35(2):30-36.

    [3] 費仕憶.Hadoop大數(shù)據(jù)平臺與傳統(tǒng)數(shù)據(jù)倉庫的協(xié)作研究[D].上海:東華大學(xué),2014.

    [4] 張鶴.元數(shù)據(jù)在圖書館信息管理中的應(yīng)用研究[J].北京印刷學(xué)院學(xué)報,2017,25(4):60-62.

    [5] 趙毅.基于大數(shù)據(jù)平臺構(gòu)建數(shù)據(jù)倉庫的研究與實踐[J].中國金融電腦,2017(05):37-42.

    [6] 龔昕,周大慶,鞠亮,等.武器數(shù)據(jù)工程理論與實踐[M].北京:國防工業(yè)出版社,2017:20-30.

    [7] 李貞強,陳康,武永衛(wèi),等.大數(shù)據(jù)處理模式—系統(tǒng)結(jié)構(gòu),方法以及發(fā)展趨勢[J].小型微型計算機系統(tǒng),2015,4(4):641-646.

    [8] 林子雨.大數(shù)據(jù)技術(shù)原理與應(yīng)用[M].北京:人民郵電出版社,2017:184-187.

    [9] 寧兆龍,孔祥杰.大數(shù)據(jù)導(dǎo)論[M].北京:科學(xué)出版社,2017:34-40.

    [10] 于鵑.數(shù)據(jù)倉庫與大數(shù)據(jù)融合的探討[J].電信科學(xué),2015,66(1):66-71.

    [11] 王緩緩,郭敬義,張警燦,等.基于Hadoop的數(shù)據(jù)倉庫構(gòu)建模式研究[J].重慶理工大學(xué)學(xué)報(自然科學(xué)版),2015,29(7):69-73.

    [12] 黨懷義.典型大數(shù)據(jù)倉庫-飛行試驗數(shù)據(jù)倉庫設(shè)計[J].計算機測量與控制,2015,23(4):1407-1413.

    Research on Data Warehouse Architecture Based on Big Data Technology

    YAO Peng-fei

    (Army of 92493,Huludao Liaoning? 125000)

    Abstract:In the age of big data,the complexity of data structure and the sharp increase of data volume make the traditional data warehouse architecture connot meet the needs of data processing.This paper is based on the theoretical research of traditional data warehouse architecture, shortcomings of traditional data warehouse architecture and characteristics of data and new requirements for data process are emphatically analyzed,the system architecture of data warehouse based on big data technology is constructed,adopt the currently popular hadoop/spark big data process technology architecture,realizes the collection,processing,storage ,analysis and mining of semi-structured and unstructured data , makes up for the deficiency of traditional data warehouse in mass data processing and storage,this way can solve the problem of low utilization of data and unobvious value.

    Key words:big data;data warehouse;architecture

    猜你喜歡
    體系結(jié)構(gòu)數(shù)據(jù)倉庫大數(shù)據(jù)
    基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
    分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計
    電子制作(2016年15期)2017-01-15 13:39:15
    探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
    基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
    科技視界(2016年20期)2016-09-29 10:53:22
    基于粒計算的武器裝備體系結(jié)構(gòu)超網(wǎng)絡(luò)模型
    作戰(zhàn)體系結(jié)構(gòu)穩(wěn)定性突變分析
    基于DODAF的裝備體系結(jié)構(gòu)設(shè)計
    基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實踐
    基于云計算的航天器控制系統(tǒng)自組織體系結(jié)構(gòu)
    元江| 衡阳县| 西吉县| 开封县| 临泉县| 沁水县| 衡阳市| 白银市| 东莞市| 城步| 安泽县| 宝丰县| 西和县| 东安县| 交城县| 海盐县| 双牌县| 奉贤区| 丰城市| 临沂市| 沛县| 台州市| 象山县| 嘉祥县| 建平县| 宿州市| 平昌县| 罗山县| 河北区| 托克逊县| 香港| 象山县| 平远县| 虎林市| 和田市| 武鸣县| 西藏| 山阴县| 南和县| 区。| 玉山县|