摘 要:在數(shù)據(jù)化戰(zhàn)略的支持下,淘寶網(wǎng)在龐大的數(shù)據(jù)平臺(tái)上構(gòu)建起了一個(gè)具有針對(duì)性的數(shù)據(jù)倉(cāng)庫(kù),為能夠有條不紊的運(yùn)營(yíng)提供了條件,亦成了淘寶網(wǎng)在市場(chǎng)競(jìng)爭(zhēng)中的重要工具之一。為了使數(shù)據(jù)化策略能夠?yàn)楦嗥髽I(yè)的發(fā)展提供幫助,本文以淘寶網(wǎng)為例,對(duì)數(shù)據(jù)平臺(tái)以及數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)和設(shè)計(jì)進(jìn)行了詳細(xì)討論,希望能夠?yàn)楝F(xiàn)代企業(yè)運(yùn)營(yíng)和管理中數(shù)據(jù)化戰(zhàn)略的實(shí)施提供有益參考。
關(guān)鍵詞:淘寶網(wǎng);數(shù)據(jù)倉(cāng)庫(kù);數(shù)據(jù)平臺(tái)
Discussing on Data Platform and Data Warehouse Construction
___A Case Study in Taobao
Abstract:With the support of digital strategy,the taobao in the huge data platform to build a data warehouse with pertinence,offers can in an orderly way of operating conditions,also become taobao one of the important tools in the market competition.In order to make the digital strategy can provide help for the development of more business,Based on taobao,for example,the data platform and the development and design of data warehouse are discussed in detail,hope to be able to for the modern enterprise operation and management to provide the beneficial reference to the implementation of the strategy of digital.
Key words:Taobao;Data warehouse;Data platform
中圖分類(lèi)號(hào):TP311.13
隨著數(shù)字時(shí)代的到來(lái),許多現(xiàn)代化企業(yè)已經(jīng)將其運(yùn)營(yíng)和發(fā)展的眼光投向了網(wǎng)絡(luò)。淘寶網(wǎng)作為目前最成功的網(wǎng)購(gòu)平臺(tái)和電子商務(wù)時(shí)代的最杰出代表,其數(shù)據(jù)化戰(zhàn)略的成功實(shí)施為自己創(chuàng)造出龐大的社會(huì)財(cái)富,同時(shí)亦為其它企業(yè)的發(fā)展指明了方向。
1 相關(guān)技術(shù)介紹
1.1 數(shù)據(jù)倉(cāng)庫(kù)。所謂數(shù)據(jù)倉(cāng)庫(kù)(DW)其實(shí)是一個(gè)專(zhuān)門(mén)為解決數(shù)據(jù)供給問(wèn)題而存在的數(shù)據(jù)集成環(huán)境,在企業(yè)的運(yùn)營(yíng)中數(shù)據(jù)倉(cāng)庫(kù)直接服務(wù)于決策支持系統(tǒng),為其提供聯(lián)機(jī)分析應(yīng)用數(shù)據(jù)源。在實(shí)際的應(yīng)用中,數(shù)據(jù)倉(cāng)庫(kù)可以體現(xiàn)出以下特征[1]:(1)具有針對(duì)性。數(shù)據(jù)倉(cāng)庫(kù)不同于操作型數(shù)據(jù)庫(kù),它在進(jìn)行數(shù)據(jù)的存放時(shí)需要將數(shù)據(jù)根據(jù)某種主題域組織起來(lái),即將企業(yè)的管理和業(yè)務(wù)上的信息在集中、歸納、分類(lèi)和分析的基礎(chǔ)上進(jìn)行存儲(chǔ)和調(diào)用;(2)具有集成性。數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的來(lái)源非常廣泛,它會(huì)對(duì)企業(yè)運(yùn)營(yíng)中的所有分散數(shù)據(jù)信息進(jìn)行抽取和清理加工,在消除這些數(shù)據(jù)中的不規(guī)則部分后構(gòu)建起一個(gè)透明的、具有統(tǒng)一特質(zhì)的企業(yè)信息網(wǎng);(3)具有穩(wěn)定性。數(shù)據(jù)倉(cāng)庫(kù)的最主要功能是通過(guò)過(guò)濾和篩選為企業(yè)的決策提供有效的數(shù)據(jù),這類(lèi)數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)后往往會(huì)被永久的保存下來(lái)。這就決定了數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)始終在不斷的擴(kuò)充,而很少進(jìn)行刪除或修改。
1.2 云梯系統(tǒng)平臺(tái)?!霸铺莘植际轿募到y(tǒng)”(HDFS)是淘寶網(wǎng)為其運(yùn)營(yíng)專(zhuān)門(mén)構(gòu)建起的系統(tǒng)平臺(tái),它是基于Hadoop平臺(tái)的個(gè)性化延伸[2],其理念與MapReduce和Google的文件系統(tǒng)較為相似但又有著明顯的不同:首先,云梯系統(tǒng)的設(shè)計(jì)是基于通用硬件的,因此其運(yùn)行環(huán)境要求非常簡(jiǎn)單。再者,云梯系統(tǒng)的分布式算法將訪問(wèn)和存儲(chǔ)分?jǐn)偟搅舜罅康牧畠r(jià)服務(wù)器之中,這不但提高了其運(yùn)行效率同時(shí)也通過(guò)不斷的復(fù)制備份增強(qiáng)了其安全性。加之云梯兼具了高度的容錯(cuò)功能和數(shù)據(jù)存儲(chǔ)功能,所以目前已經(jīng)為很多網(wǎng)絡(luò)服務(wù)平臺(tái)和大型存儲(chǔ)系統(tǒng)所應(yīng)用。
1.3 HIVE查詢語(yǔ)言。HIVE是基于淘寶云梯(HDFS)的數(shù)據(jù)倉(cāng)庫(kù)工具,它不但能夠?qū)ο到y(tǒng)數(shù)據(jù)進(jìn)行有效的反應(yīng)和查詢,同時(shí)還能夠根據(jù)數(shù)據(jù)的文本文件將其制成二維表,而在應(yīng)對(duì)SQL語(yǔ)言時(shí)也可將其轉(zhuǎn)換為Hadoop可以識(shí)別的程序,同時(shí)HIVE語(yǔ)言還具有操作簡(jiǎn)單、成本低廉等諸多優(yōu)勢(shì),因而非常符合大型數(shù)據(jù)倉(cāng)庫(kù)的使用需求[3]。淘寶網(wǎng)HIVE的應(yīng)用有效的提升了用戶的可操作性,同時(shí)也保證了數(shù)據(jù)分析的間接性和準(zhǔn)確性。
1.4 ETL介紹。所謂ETL就是Extract-Transform-Load的縮寫(xiě),即對(duì)數(shù)據(jù)的抽取、轉(zhuǎn)換和裝載等問(wèn)題的描述,它通過(guò)數(shù)據(jù)過(guò)濾的條件制定直接關(guān)系到數(shù)據(jù)在使用中的實(shí)際價(jià)值,是源數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的重要轉(zhuǎn)變過(guò)程。因而ETL是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的核心部分。
2 淘寶網(wǎng)的數(shù)據(jù)特征分析
淘寶網(wǎng)發(fā)展至今已經(jīng)不僅僅是一個(gè)互聯(lián)網(wǎng)公司,它同時(shí)也發(fā)展成了我國(guó)目前最大的網(wǎng)絡(luò)交易平臺(tái)。因此,淘寶網(wǎng)的信息數(shù)據(jù)不但具有交易業(yè)務(wù)數(shù)據(jù)的特征同時(shí)也兼?zhèn)淞嘶ヂ?lián)網(wǎng)數(shù)據(jù)的相關(guān)特點(diǎn),我們?cè)谟懻撈鋽?shù)據(jù)特征時(shí)必須將二者結(jié)合到一起:(1)龐大的數(shù)據(jù)量。從操作上看,淘寶網(wǎng)用戶在登錄淘寶網(wǎng)站后無(wú)論是否進(jìn)行了交易,只要進(jìn)行了某種操作如跳換界面、交易、咨詢等都會(huì)產(chǎn)生相應(yīng)的用戶點(diǎn)擊日志。從2012年的數(shù)據(jù)來(lái)看,淘寶網(wǎng)平均會(huì)出現(xiàn)33億/日的日志點(diǎn)擊量,其數(shù)值是驚人的。而今淘寶網(wǎng)的數(shù)據(jù)存儲(chǔ)總量為50PB,隨著電子商務(wù)的不斷發(fā)展淘寶網(wǎng)所要負(fù)擔(dān)的數(shù)據(jù)量必然繼續(xù)上升;(2)繁多的數(shù)據(jù)種類(lèi)。同上所述,淘寶網(wǎng)既是一間互聯(lián)網(wǎng)公司又是一個(gè)大型的網(wǎng)絡(luò)交易平臺(tái),因而其需要應(yīng)對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化兩種數(shù)據(jù)。所謂結(jié)構(gòu)化數(shù)據(jù)指的是用戶、商品以及交易的相關(guān)信息,而非結(jié)構(gòu)化數(shù)據(jù)所指的是用戶瀏覽網(wǎng)頁(yè)時(shí)操作所帶來(lái)的文本信息。兩種數(shù)據(jù)在處理中的解析程序和采集程序截然不同,需要區(qū)分對(duì)待;(3)數(shù)據(jù)價(jià)值密度低。數(shù)據(jù)的價(jià)值密度與數(shù)據(jù)的總量成反比,數(shù)據(jù)量越大數(shù)據(jù)的價(jià)值密度就越低。以用戶的日志數(shù)據(jù)為例,淘寶網(wǎng)每天需要承載33億的日志點(diǎn)擊,要對(duì)這一龐大數(shù)據(jù)進(jìn)行區(qū)分以確定用戶的動(dòng)作已經(jīng)成為了淘寶網(wǎng)在運(yùn)作上一個(gè)較大的負(fù)擔(dān)。
3 基于淘寶網(wǎng)特征的數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)
3.1 云梯計(jì)算存儲(chǔ)平臺(tái)。數(shù)據(jù)的可靠性直接決定了企業(yè)決策的準(zhǔn)確性,因而為了提高數(shù)據(jù)的準(zhǔn)確性便設(shè)置了3個(gè)文件副本,即每份數(shù)據(jù)都有三個(gè)作為備份的副本。但是,這樣就產(chǎn)生了一個(gè)問(wèn)題:一份數(shù)據(jù)的存儲(chǔ)需要耗損三倍的空間。
基于此,淘寶云梯推出來(lái)一款全新的組件----HDFS Raid(云梯軟件容錯(cuò)組建),利用軟件容錯(cuò)功能,用戶通過(guò)對(duì)云梯目錄或目錄內(nèi)容進(jìn)行容錯(cuò),就可以在確保數(shù)據(jù)可靠性的同時(shí)有效降低副本數(shù)。這種方案摒棄了簡(jiǎn)單的復(fù)制備份手法,將多個(gè)數(shù)據(jù)的block(模塊)進(jìn)行合并和分類(lèi),形成parity blocks(同等模塊),繼而增強(qiáng)數(shù)據(jù)的可靠性[4]。這樣一來(lái)就可以在有效減少了以往的副本數(shù)量、釋放存儲(chǔ)空間的同時(shí)達(dá)到預(yù)期的效果。
3.2 數(shù)據(jù)層次結(jié)構(gòu)劃分。數(shù)據(jù)層次的劃分實(shí)質(zhì)上就是對(duì)構(gòu)成數(shù)據(jù)倉(cāng)庫(kù)的源數(shù)據(jù)進(jìn)行分類(lèi)處理,這一過(guò)程必須嚴(yán)格遵照ETL的規(guī)則進(jìn)行----源數(shù)據(jù)只有經(jīng)過(guò)過(guò)濾和整理之后才能最終進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)成為企業(yè)運(yùn)作中的數(shù)據(jù)支持。我們?cè)趯?duì)數(shù)據(jù)進(jìn)行分層定義時(shí)可以根據(jù)卸載方式將其分為全量數(shù)據(jù)和增量數(shù)據(jù),而根據(jù)數(shù)據(jù)的來(lái)源則可以將其分為內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)兩類(lèi)[5]。這里我們主要分析的是根據(jù)數(shù)據(jù)來(lái)源進(jìn)行的數(shù)據(jù)層次結(jié)構(gòu)劃分。內(nèi)部數(shù)據(jù)是淘寶網(wǎng)在多年的經(jīng)營(yíng)和發(fā)展中透過(guò)自身的運(yùn)營(yíng)而不斷積累下的數(shù)據(jù),其中包括業(yè)務(wù)數(shù)據(jù)、員工信息、財(cái)務(wù)管理數(shù)據(jù)、財(cái)務(wù)信息、核算數(shù)據(jù)等等。需要注意的是,這些內(nèi)部數(shù)據(jù)在生成中不僅限于電子化數(shù)據(jù),還有相當(dāng)一部分屬于非電子數(shù)據(jù),這就需要企業(yè)及時(shí)的進(jìn)行數(shù)據(jù)填充,使其轉(zhuǎn)化為可以存儲(chǔ)于數(shù)據(jù)倉(cāng)庫(kù)并通過(guò)計(jì)算機(jī)系統(tǒng)對(duì)企業(yè)營(yíng)運(yùn)進(jìn)行支持的可用數(shù)據(jù)源。與內(nèi)部數(shù)據(jù)不同,外部數(shù)據(jù)的生成大多不與淘寶網(wǎng)自身的運(yùn)營(yíng)產(chǎn)生聯(lián)系,這些數(shù)據(jù)多來(lái)源于第三方,如向艾銳數(shù)據(jù)公司和新浪微博等第三方機(jī)構(gòu)通過(guò)購(gòu)買(mǎi)手段取得的數(shù)據(jù)信息[6]。這些數(shù)據(jù)的獲取難度大且成本高,因而淘寶網(wǎng)在運(yùn)營(yíng)中僅會(huì)將非常重要的外部信息作為自身數(shù)據(jù)倉(cāng)庫(kù)的補(bǔ)充。由此可見(jiàn),內(nèi)部數(shù)據(jù)是淘寶網(wǎng)在營(yíng)運(yùn)中的主要數(shù)據(jù)源,而外部數(shù)據(jù)僅作為必要補(bǔ)充而存在。這就決定了數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)中接口的定義要求,源數(shù)據(jù)必須按照接口定義獲取系統(tǒng)數(shù)據(jù)并輸出固定長(zhǎng)度的文本文件。
3.3 ETL設(shè)計(jì)。ETL設(shè)計(jì)是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的核心所在,直接關(guān)系到數(shù)據(jù)庫(kù)最終的應(yīng)用能力。針對(duì)ETL的設(shè)計(jì)主要分為數(shù)據(jù)抽取、數(shù)據(jù)清洗轉(zhuǎn)換以及質(zhì)量控制三個(gè)方面,接下來(lái)筆者將做詳細(xì)的闡述:
3.3.1 數(shù)據(jù)抽取。在數(shù)據(jù)抽取方面,根據(jù)上文所述以卸載方式進(jìn)行劃分的數(shù)據(jù)層次結(jié)構(gòu)可將數(shù)據(jù)抽取分為增量抽取和全量抽取兩種方式,如圖1所示為數(shù)據(jù)抽取框架結(jié)構(gòu)圖[7]。
圖1 數(shù)據(jù)抽取框架
在增量同步的數(shù)據(jù)抽取模式中,TimeTunnel作為一個(gè)數(shù)據(jù)交換的平臺(tái)能夠同步實(shí)現(xiàn)網(wǎng)站服務(wù)器與日志數(shù)據(jù)的交換,并且兼?zhèn)鋽?shù)據(jù)發(fā)布和數(shù)據(jù)訂閱等服務(wù)。而Dbsync則可以將數(shù)據(jù)同步與網(wǎng)站的數(shù)據(jù)抽取整合到一起,通過(guò)對(duì)數(shù)據(jù)的分析繼而完成數(shù)據(jù)庫(kù)的操作,使之與云梯同步,完成數(shù)據(jù)抽取。在全量同步的數(shù)據(jù)抽取模式中,DataX在數(shù)據(jù)倉(cāng)庫(kù)和文件之間搭建起了一個(gè)可以直接進(jìn)行交換的橋梁。在進(jìn)行數(shù)據(jù)的加載過(guò)程中利用內(nèi)存緩存數(shù)據(jù)完成了高效的數(shù)據(jù)交換。
3.3.2 數(shù)據(jù)清洗轉(zhuǎn)換。在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前對(duì)其進(jìn)行清理的作用在于去除其中多余的、沒(méi)有必要的垃圾數(shù)據(jù)。而這一過(guò)程需要通過(guò)HIVE查詢語(yǔ)言編寫(xiě)的SQL代碼完成,其步驟主要包括以下幾點(diǎn):(1)根據(jù)需求進(jìn)行模型設(shè)計(jì),確定數(shù)據(jù)清洗轉(zhuǎn)換條件;(2)進(jìn)行SDM(信息通道)設(shè)計(jì);(3)確定轉(zhuǎn)換規(guī)則并編寫(xiě)HIVE SQL代碼。
3.3.3 ETL數(shù)據(jù)質(zhì)量控制。數(shù)據(jù)質(zhì)量直接關(guān)系到數(shù)據(jù)倉(cāng)庫(kù)的利用價(jià)值,也是ETL設(shè)計(jì)的重中之重,該部分ETL需要依靠其完整性對(duì)字段級(jí)、記錄級(jí)和表級(jí)等多個(gè)層次的數(shù)據(jù)進(jìn)行質(zhì)量監(jiān)控。這一手段不僅可以確保了業(yè)務(wù)數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)加載過(guò)程中的準(zhǔn)確性,同時(shí)也能完成對(duì)其質(zhì)量的評(píng)估:(1)在數(shù)據(jù)的抽取和傳送階段。由于源數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)時(shí)必須通過(guò)標(biāo)準(zhǔn)接口,這就保證了輸入數(shù)據(jù)與數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)類(lèi)型的一致;(2)在數(shù)據(jù)加載階段,在DATAX的支持下調(diào)度系統(tǒng)更能夠根據(jù)DATAX加載過(guò)程中產(chǎn)生的日志數(shù)據(jù)的特質(zhì)對(duì)數(shù)據(jù)的正確性進(jìn)行判斷,繼而準(zhǔn)確的完成數(shù)據(jù)文件到云梯的加載工作[8];(3)在數(shù)據(jù)轉(zhuǎn)換的階段。云梯平臺(tái)下的數(shù)據(jù)轉(zhuǎn)換是在其內(nèi)部完成的,因此在轉(zhuǎn)換過(guò)程中云梯會(huì)從數(shù)據(jù)角度、業(yè)務(wù)角度等多方面對(duì)數(shù)據(jù)進(jìn)行反驗(yàn)證,以確保其準(zhǔn)確性。正是通過(guò)ETL多重繁瑣的校驗(yàn)和監(jiān)測(cè)才確保了數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)時(shí)的高準(zhǔn)確度和高質(zhì)量,繼而提高了數(shù)據(jù)倉(cāng)庫(kù)的利用效果。
4 數(shù)據(jù)平臺(tái)及數(shù)據(jù)庫(kù)在淘寶網(wǎng)上的實(shí)際應(yīng)用
在完成數(shù)據(jù)平臺(tái)及數(shù)據(jù)庫(kù)的相關(guān)設(shè)計(jì)后我們便要將理論性設(shè)計(jì)轉(zhuǎn)化為實(shí)際應(yīng)用,并在根據(jù)需要進(jìn)行系統(tǒng)各個(gè)部分的編碼工作。
4.1 ETL過(guò)程實(shí)現(xiàn)。對(duì)ETL的數(shù)據(jù)抽取實(shí)際上就是將淘寶業(yè)務(wù)系統(tǒng)的數(shù)據(jù)通過(guò)DATAX抽取工具應(yīng)用到云梯上去,這一工作我們要用到的數(shù)據(jù)庫(kù)為Mysql或Oracle。其中,DATAX是一種集成于ETL的較為常見(jiàn)的數(shù)據(jù)處理工具,如圖2為DATAX在應(yīng)用于淘寶網(wǎng)時(shí)對(duì)旺旺消息表數(shù)據(jù)進(jìn)行抽取配置的界面截圖:
圖2 數(shù)據(jù)抽取配置功能
在應(yīng)用DATAX完成相關(guān)配置后便可生成xml文件,完成程序編寫(xiě)工作。需要注意的是,淘寶網(wǎng)在運(yùn)行過(guò)程中需要抽取的數(shù)據(jù)非常龐大,因而為了確保工作的準(zhǔn)確性和高效性必須將任務(wù)配置到ETL調(diào)度系統(tǒng)來(lái)完成數(shù)據(jù)抽取,如圖3為ETL調(diào)度任務(wù)的配置。
圖3 ETL調(diào)度任務(wù)配置
4.2 數(shù)據(jù)模型實(shí)現(xiàn)。淘寶網(wǎng)模型層的構(gòu)建和設(shè)計(jì)選用了PowerDesignerl6.0工具,并將電子商務(wù)行業(yè)分成了6部分,繼而形成了40余個(gè)實(shí)體表,如圖4為PowerDesigrierl6工具的用戶應(yīng)用界面。
圖4 用戶表物理表
在模型確立之后便可生成HVIE SQL語(yǔ)句并在IDE里執(zhí)行建表語(yǔ)句,如表1為設(shè)計(jì)的相關(guān)維度信息。
表1 用戶主表維表清單
4.3 PORTAL展現(xiàn)實(shí)現(xiàn)。在進(jìn)行PORTAL展現(xiàn)時(shí)淘寶網(wǎng)數(shù)據(jù)庫(kù)采用了WEBX的開(kāi)發(fā)框架和JBOSS服務(wù)器,并且在Eclipse開(kāi)發(fā)工具的支持下利用了FLEX進(jìn)行了效果展示。如圖5為淘寶網(wǎng)前端主面的實(shí)現(xiàn)。
圖5 Portal首頁(yè)
在完成主面設(shè)計(jì)的同時(shí)要完成安全管理界面的相關(guān)配置工作,而這一界面的設(shè)計(jì)是專(zhuān)門(mén)針對(duì)內(nèi)部管理人員對(duì)淘寶網(wǎng)進(jìn)行操作控制而設(shè)計(jì)的,因而只有通過(guò)審核的用戶才能對(duì)其系統(tǒng)進(jìn)行相關(guān)操作,如圖6為安全管理主要配置界面。
圖6 權(quán)限分配頁(yè)面
5 結(jié)束語(yǔ)
隨著市場(chǎng)經(jīng)濟(jì)的發(fā)展和網(wǎng)絡(luò)信息時(shí)代的來(lái)臨,企業(yè)間的商業(yè)競(jìng)爭(zhēng)已經(jīng)延伸到了網(wǎng)絡(luò)領(lǐng)域,信息技術(shù)的戰(zhàn)爭(zhēng)愈演愈烈,而數(shù)據(jù)的掌控量和控制水平已經(jīng)切實(shí)的影響到了一個(gè)企業(yè)在商戰(zhàn)中的成敗。企業(yè)擁有的龐大數(shù)據(jù)已然成為了一個(gè)確保其持續(xù)發(fā)展的潛在利潤(rùn)礦藏,因此只有利用先進(jìn)技術(shù)充分挖掘出數(shù)據(jù)本身蘊(yùn)含的巨大潛力才能確保企業(yè)的長(zhǎng)盛不衰。本文以淘寶網(wǎng)的數(shù)據(jù)倉(cāng)庫(kù)搭建作為例證對(duì)數(shù)據(jù)平臺(tái)和數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)和實(shí)現(xiàn)做了詳細(xì)的分析與研究,迎合了目前社會(huì)企業(yè)發(fā)展的趨勢(shì),因而具有較高的實(shí)用性價(jià)值,筆者也希望本文能夠?yàn)榻窈箅娮由虅?wù)的發(fā)展和社會(huì)經(jīng)濟(jì)的進(jìn)步提供有益的幫助。
參考文獻(xiàn):
[1](英)邁爾-公恩伯格,(英)庫(kù)克耶.大數(shù)據(jù)時(shí)代[M].杭州:浙江人民山版社,2013.
[2](美)懷特(White,T.).Hadoop權(quán)威指南(第2版)[M].北京:清華大學(xué)出版社,2011.
[3]趙歡.一個(gè)商業(yè)銀行數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)模型設(shè)計(jì)與實(shí)現(xiàn)[D].上海復(fù)旦大學(xué),2011.
[4]盧億雷.Hadoop在互聯(lián)網(wǎng)存儲(chǔ)中的應(yīng)用與挑戰(zhàn)[J].程序員,2013(02):48-51.
[5]陳紀(jì)英.大數(shù)據(jù)革命:信息時(shí)代尋寶指南——掘金大數(shù)據(jù)[J].中國(guó)新聞周刊,2013(03):48-54.
[6]郭斯杰,貲鴻飛,熊勁.互聯(lián)網(wǎng)海量數(shù)據(jù)存儲(chǔ)和處理技術(shù)綜述[J].信息技術(shù)快報(bào),2009(05):1.
[7]乍品覺(jué).大數(shù)據(jù)的魅力:通過(guò)數(shù)據(jù)互聯(lián)產(chǎn)生價(jià)值[J].周刊,2012(02):5-8.
[8]季顯武,田大鋼.基于Teradata數(shù)據(jù)倉(cāng)庫(kù)的零售業(yè)商務(wù)智能模型[J].價(jià)值工程,2010(16):150-152.
作者簡(jiǎn)介:田素端(1976-),女,河南南陽(yáng)人,高級(jí)講師,1999年7月畢業(yè)于陜西師范大學(xué),本科,碩士,從事計(jì)算機(jī)應(yīng)用技術(shù)專(zhuān)業(yè)的教學(xué)工作,主要研究方向:圖形圖像處理和數(shù)據(jù)庫(kù)技術(shù)。
作者單位:南京工程高等職業(yè)學(xué)校,南京 211135