楊磊
摘要:進(jìn)入信息化時代后,大數(shù)據(jù)技術(shù)及應(yīng)用都得到了長遠(yuǎn)的發(fā)展。本文首先對大數(shù)據(jù)的發(fā)展歷程進(jìn)行簡單介紹,揭示了數(shù)據(jù)如何完成的指數(shù)級的增長。之后,介紹了數(shù)據(jù)倉庫的發(fā)展趨勢,以及在當(dāng)前技術(shù)環(huán)境下,數(shù)據(jù)倉庫技術(shù)如何融合其他技術(shù)來為大數(shù)據(jù)應(yīng)用提供解決方案,以適應(yīng)不同企業(yè)的實際需求。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)倉庫;架構(gòu)
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2019)06-0062-01
0 引言
自2008年被《Nature》雜志??岢隽舜髷?shù)據(jù)(BigData)概念,大數(shù)據(jù)立即成為政府、學(xué)術(shù)界、實務(wù)界共同關(guān)注的焦點。大數(shù)據(jù),用于描述信息爆炸時代下的海量信息。大數(shù)據(jù)研究主要是著眼于,分析信息內(nèi)容及信息之間的聯(lián)系,從而利用海量數(shù)據(jù)來完成為各種應(yīng)用服務(wù)、提供更加精準(zhǔn)的數(shù)據(jù)服務(wù)。
1 大數(shù)據(jù)發(fā)展歷程
因為大數(shù)據(jù)的發(fā)展過程,最重要的著眼點是數(shù)據(jù)量的指數(shù)級的增長,以及對數(shù)據(jù)處理能力的提升,所以本文大致上將大數(shù)據(jù)的發(fā)展歷程分為以下幾個階段。
(1)Megabyte到Gigabyte:20世紀(jì)70年代到80年代,數(shù)據(jù)首次達(dá)到了Gigabyte的量級,從而導(dǎo)致“大數(shù)據(jù)”的引入。為了良好的存儲、處理數(shù)據(jù),集成軟硬件于一身的數(shù)據(jù)庫專用計算機(jī)隨之而生。但其專用硬件難以跟上通用計算機(jī)的發(fā)展節(jié)奏,受到的發(fā)展的限制。之后,數(shù)據(jù)庫主要作為軟件系統(tǒng)進(jìn)行發(fā)展,對硬件不再有各種限制,能夠很好的運行在通用的計算機(jī)上。
(2)Gigabyte到Terabyte:20世紀(jì)80年代末期,數(shù)字技術(shù)的迅猛發(fā)展直接導(dǎo)致數(shù)據(jù)容量越入Terabyte級別,這一數(shù)據(jù)量直接超出了單一計算機(jī)系統(tǒng)可處理的能力。此時,提升數(shù)據(jù)存儲能力、處理能力的需求日益迫切,進(jìn)而提出了數(shù)據(jù)并行化的理論,其核心思想是將數(shù)據(jù)和相關(guān)的運算分配到獨立的硬件進(jìn)行處理。在此理論的基礎(chǔ)上,并行數(shù)據(jù)庫得到了發(fā)展,比如磁盤共享數(shù)據(jù)庫、內(nèi)存共享數(shù)據(jù)庫、無共享數(shù)據(jù)庫。其中,無共享數(shù)據(jù)庫設(shè)計在互連集群的基礎(chǔ)上,取得了很大的成功,較為流行的產(chǎn)品有Teradata、Greenplum、Vertica、Netazza、AsterData。
(3)Terabyte到Petabyte:20世紀(jì)90年代末期,全球進(jìn)入了互聯(lián)網(wǎng)時代,網(wǎng)頁數(shù)據(jù)直接達(dá)到了Petabyte級別。網(wǎng)頁數(shù)據(jù)基本數(shù)據(jù)半結(jié)構(gòu)化和無結(jié)構(gòu)化的數(shù)據(jù),這對數(shù)據(jù)庫技術(shù)是個極大的挑戰(zhàn)。對于結(jié)構(gòu)化的數(shù)據(jù)并行數(shù)據(jù)庫能很好的處理,但是對于無結(jié)構(gòu)的數(shù)據(jù)卻不能很好的支持,并且其數(shù)據(jù)處理能力處于Teragbytes級別。為了應(yīng)對此問題,Google提出了GFS文件系統(tǒng)[1]和MapReduce編程模型,能夠自動完成數(shù)據(jù)的并行化操作,進(jìn)而將應(yīng)用分布到服務(wù)器集群中。
(4)Petabyte到Exabyte:根據(jù)現(xiàn)在大數(shù)據(jù)的發(fā)展態(tài)勢,不就之后將進(jìn)入Exabyte級別。但是,現(xiàn)有的不能滿足這一需求。在2011年7月,EMC發(fā)布了名為“Extracting Value From Chaos”的研究報告[2],進(jìn)一步討論的大數(shù)據(jù)的思想及價值。之后諸多科技巨頭,如Oracle、Microsoft、Google、Amazon、Alibaba等都開始了大數(shù)據(jù)項目,同時,眾多政府機(jī)構(gòu)及學(xué)術(shù)界研究機(jī)構(gòu)都進(jìn)一步開始了大數(shù)據(jù)的研究工作,大數(shù)據(jù)的研究工作仍在進(jìn)一步的發(fā)展。
2 數(shù)據(jù)倉庫發(fā)展趨勢及與大數(shù)據(jù)技術(shù)的融合
數(shù)據(jù)倉庫經(jīng)過多年的發(fā)展,理論技術(shù)、架構(gòu)體系、解決方案、商業(yè)化的產(chǎn)品甚至人才儲備都已很完善。所以,在大數(shù)據(jù)蓬勃發(fā)展還未形成完善的理論和技術(shù)體系時,數(shù)據(jù)庫廠商在其傳統(tǒng)數(shù)據(jù)倉庫產(chǎn)品的基礎(chǔ)之上,融合Hadoop技術(shù),進(jìn)一步加強(qiáng)數(shù)據(jù)庫技術(shù)的研發(fā),針對數(shù)據(jù)分析、數(shù)據(jù)壓縮、列式數(shù)據(jù)庫等技術(shù)的進(jìn)行研究。Forrester提出了下一代企業(yè)級數(shù)據(jù)倉庫的平臺架構(gòu)[3],在傳統(tǒng)的數(shù)據(jù)源基礎(chǔ)上,引入了來自于傳感器、地理信息、社交網(wǎng)絡(luò)等多方面的非關(guān)系型數(shù)據(jù),通過Hadoop進(jìn)行數(shù)據(jù)處理,運用數(shù)據(jù)虛擬化技術(shù)可以將不同的數(shù)據(jù)源進(jìn)行整合,再利用壓縮技術(shù)來管理更大規(guī)模的數(shù)據(jù),從而進(jìn)一步提供數(shù)據(jù)分析。并可以利用類似于in-memory的數(shù)據(jù)庫內(nèi)分析技術(shù)來處理更加復(fù)雜的應(yīng)用,能夠同時完成事務(wù)的分析和處理操作。而下一代的數(shù)據(jù)倉庫架構(gòu)的發(fā)展方向就應(yīng)該是大數(shù)據(jù)和數(shù)據(jù)倉庫相融合的角度。
大數(shù)據(jù)和數(shù)據(jù)倉庫的產(chǎn)生和發(fā)展的背景及其相似,都是想利用最先進(jìn)的技術(shù)來處理更多的數(shù)據(jù)、最大程度上利用數(shù)據(jù)的價值。數(shù)據(jù)庫、數(shù)據(jù)倉庫以及大數(shù)據(jù)根本上都是用于處理數(shù)據(jù)、挖掘數(shù)據(jù),彼此之間是需求互補(bǔ)、技術(shù)互補(bǔ)、相互協(xié)作的關(guān)系。
目前對于大部分的企業(yè)來講,要新開展一個大數(shù)據(jù)項目,可以從現(xiàn)有的數(shù)據(jù)倉庫的經(jīng)驗入手,可以引入大部分的數(shù)據(jù)庫技術(shù)。尤其是對于實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的處理,是非常有效的。比如,將Hadoop技術(shù)應(yīng)用于對數(shù)據(jù)采集、ETL、存儲、處理,開發(fā)提供給傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用工具。充分利用Hadoop的數(shù)據(jù)處理優(yōu)勢,改變傳統(tǒng)數(shù)據(jù)倉庫單節(jié)點存儲、處理的模式,將各類數(shù)據(jù)處理成結(jié)構(gòu)化數(shù)據(jù),向上提供給應(yīng)用工具。
此外,傳統(tǒng)數(shù)據(jù)倉庫還可以結(jié)合Hadoop在數(shù)據(jù)管理層協(xié)作,使用傳統(tǒng)的數(shù)據(jù)倉庫工具對結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行處理,Hadoop對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,然后將兩者處理后的數(shù)據(jù)存儲至結(jié)構(gòu)化數(shù)據(jù)庫中,用于之后的進(jìn)一步處理。數(shù)據(jù)倉庫與大數(shù)據(jù)在技術(shù)層面的融合之外,數(shù)據(jù)倉庫的成熟經(jīng)驗也應(yīng)充分利用,比如數(shù)據(jù)建模、ETL、元數(shù)據(jù)管理等很多成熟的數(shù)據(jù)庫經(jīng)驗可以利用。
雖然數(shù)據(jù)倉庫技術(shù)并不是目前大數(shù)據(jù)技術(shù)的領(lǐng)域的引領(lǐng)者,但是對于大多數(shù)的中小企業(yè),無法實現(xiàn)對大數(shù)據(jù)進(jìn)行獨立的開發(fā)與管理,從而將其融合數(shù)據(jù)倉庫技術(shù),與傳統(tǒng)廠商合作,是比較理想的解決方案。
3 結(jié)語
近年來由于數(shù)據(jù)量的劇增,大數(shù)據(jù)領(lǐng)域得到了迅猛的發(fā)展。傳統(tǒng)數(shù)據(jù)庫技術(shù)廠商通過進(jìn)一步完善數(shù)據(jù)倉庫技術(shù),通過技術(shù)的融合,提供出數(shù)據(jù)倉庫、大數(shù)據(jù)一體化的解決方案,以適應(yīng)中小企業(yè)的實際需求,從而推動大數(shù)據(jù)應(yīng)用的落地。
參考文獻(xiàn)
[1] Ghemawat S,Gobioff H,Leung S T.The Google file system[M].In: Proceedings of the nineteenth ACM symposium on Operating systems principles,New York,NY,USA,2003:29-43.
[2] Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters[J]. Commun ACM,2008,51:107-113.
[3] Gantz J,Reinsel D.Extracting value from chaos[J].IDC iView,2011:1-12.
The Development of Big Data and the Fusion Application of Data Warehouse
YANG Lei
(Xingye Co., Ltd. Qingdao Branch, Qingdao Shandong? 266000)
Abstract:After entering the information age, big data technology and applications have been developed in the long run. This article begins with a brief introduction to the development of big data and reveals how exponential growth in how data is done. After that, it introduces the development trend of data warehouse, and how the data warehouse technology integrates other technologies to provide solutions for big data applications in the current technology environment to meet the actual needs of different enterprises.
Key words:big data; data warehouse; architecture