張立峰
“大數(shù)據(jù)”作為時(shí)下最火熱的IT(information(technology)行業(yè)的詞匯在互聯(lián)網(wǎng)時(shí)代顯得越來(lái)越重要。隨之而來(lái)的數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等圍繞大數(shù)據(jù)商業(yè)價(jià)值的利用逐漸成為行業(yè)人士爭(zhēng)相追捧的利潤(rùn)焦點(diǎn)。
大數(shù)據(jù)到底有多大
大數(shù)據(jù)是指無(wú)法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)技術(shù),是指從各種各樣類(lèi)型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP,Massively,Paralblle Processing)數(shù)據(jù)庫(kù),數(shù)據(jù)挖掘電網(wǎng),分布式文件系統(tǒng),分布式數(shù)據(jù)庫(kù),云計(jì)算平臺(tái),互聯(lián)網(wǎng),和可擴(kuò)展的存儲(chǔ)系統(tǒng)。
“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)??梢哉f(shuō),大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù)。簡(jiǎn)言之,從各種各樣類(lèi)型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力,就是大數(shù)據(jù)技術(shù)。大數(shù)據(jù)必須借由計(jì)算機(jī)對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、比對(duì)、解析方能得出客觀(guān)結(jié)果。
最早提出“大數(shù)據(jù)”時(shí)代到來(lái)的是全球知名咨詢(xún)公司麥肯錫,麥肯錫稱(chēng):“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)?!彪S著云時(shí)代的來(lái)臨,大數(shù)據(jù)(BIGdata)也吸引了越來(lái)越多的關(guān)注。
大數(shù)據(jù)具有規(guī)模大、價(jià)值高、交叉復(fù)用、全息可見(jiàn)四大特征。特別是,最后兩個(gè)特征體現(xiàn)了大數(shù)據(jù)不僅僅有“規(guī)模更大的數(shù)據(jù)”這種量上的進(jìn)步,還具有不同于以前數(shù)據(jù)組織和應(yīng)用形式的質(zhì)的飛躍。大數(shù)據(jù)是信息通信技術(shù)發(fā)展積累至今,按照自身技術(shù)發(fā)展邏輯,從提高生產(chǎn)效率向更高級(jí)智能階段的自然生長(zhǎng)。
大數(shù)據(jù)能做些什么
大數(shù)據(jù)的應(yīng)用示例包括了大科學(xué)、RFID(Radio Frequency ID entification)、傳感設(shè)備網(wǎng)絡(luò)、天文學(xué)、大氣學(xué)、基因組學(xué)、生物學(xué)、大社會(huì)數(shù)據(jù)分析、互聯(lián)網(wǎng)文件處理、制作互聯(lián)網(wǎng)搜索引擎索引、通信記錄明細(xì)、軍事偵察、社交網(wǎng)絡(luò)、通勤時(shí)間預(yù)測(cè)、醫(yī)療記錄、照片圖像和圖像封存、大規(guī)模的電子商務(wù)等。
僅僅十余年,很多企業(yè)爬過(guò)M B(megabyte)時(shí)代,走過(guò)G B(gigabyte)時(shí)代,現(xiàn)在正被趕著跑過(guò)TB(terabyte)時(shí)代,去迎接PB(petabyte)時(shí)代。事實(shí)上,如中國(guó)移動(dòng)、聯(lián)通、電信這樣的移動(dòng)通信運(yùn)營(yíng)商,如谷歌、百度、新浪、騰迅這樣的大型互聯(lián)網(wǎng)公司,如國(guó)家電網(wǎng)、交通運(yùn)輸部這樣的職能部門(mén),每天數(shù)據(jù)的更新量已經(jīng)接近或達(dá)到了PB量級(jí)。
現(xiàn)在越來(lái)越多的政府、企業(yè)等組織機(jī)構(gòu)意識(shí)到數(shù)據(jù)正在成為組織最重要的資產(chǎn),數(shù)據(jù)分析能力正在成為組織的核心競(jìng)爭(zhēng)力。
大數(shù)據(jù)不僅是一種海量的數(shù)據(jù)狀態(tài)及其相應(yīng)的數(shù)據(jù)處理技術(shù),更是一種思維方式,一項(xiàng)重要的基礎(chǔ)設(shè)施。這或是明天我們治理交通擁堵、霧霾天氣、看病難、食品安全等“城市病”的利器,也會(huì)為政府打開(kāi)了解社情民意的更大窗口。
眾所周知,大數(shù)據(jù)已經(jīng)不簡(jiǎn)簡(jiǎn)單單是數(shù)據(jù)大的事實(shí)了,而最重要的現(xiàn)實(shí)是對(duì)大數(shù)據(jù)進(jìn)行分析,只有通過(guò)分析才能獲取很多智能的,深入的,有價(jià)值的信息。那么越來(lái)越多的應(yīng)用涉及大數(shù)據(jù),而這些大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等都是呈現(xiàn)了大數(shù)據(jù)不斷增長(zhǎng)的復(fù)雜性,所以大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說(shuō)是決定最終信息是否有價(jià)值的決定性因素。
云計(jì)算和大數(shù)據(jù)
人說(shuō)云計(jì)算和大數(shù)據(jù)是雙胞胎,兩個(gè)是不同的個(gè)體,互相依賴(lài)又相輔相成,也有人說(shuō)大數(shù)據(jù)是來(lái)攪局的。
從技術(shù)層面上看,大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)無(wú)法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式計(jì)算架構(gòu)。它的特點(diǎn)在于對(duì)海量數(shù)據(jù)的挖掘,但它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)、云存儲(chǔ)和虛擬化技術(shù)。
云計(jì)算與大數(shù)據(jù)的不同之處在于應(yīng)用的不同,主要在兩個(gè)方面:
第一,在概念上兩者有所不同,云計(jì)算改變了IT,而大數(shù)據(jù)則改變了業(yè)務(wù)。然而大數(shù)據(jù)必須有云作為基礎(chǔ)架構(gòu),才能得以順暢運(yùn)營(yíng)。
第二,大數(shù)據(jù)和云計(jì)算的目標(biāo)受眾不同,云計(jì)算是賣(mài)給CIO(chief inform ation officer)的技術(shù)和產(chǎn)品,是一個(gè)進(jìn)階的IT解決方案。而大數(shù)據(jù)是賣(mài)給CEO(chief financeofficer)、賣(mài)給業(yè)務(wù)層的產(chǎn)品,大數(shù)據(jù)的決策者是業(yè)務(wù)層。由于他們能直接感受到來(lái)自市場(chǎng)競(jìng)爭(zhēng)的壓力,必須在業(yè)務(wù)上以更有競(jìng)爭(zhēng)力的方式戰(zhàn)勝對(duì)手。
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專(zhuān)業(yè)化處理。
對(duì)大數(shù)據(jù)的常見(jiàn)誤解
一、數(shù)據(jù)不等于信息
經(jīng)常有人把數(shù)據(jù)和信息作為同義詞,但并非如此。數(shù)據(jù)指的是一個(gè)原始的數(shù)據(jù)點(diǎn)(無(wú)論是通過(guò)數(shù)字,文字,圖片還是視頻等),信息則直接與內(nèi)容掛鉤,需要有資訊性。數(shù)據(jù)越多,不一定就能代表信息越多。例如:
備份。很多人如今已經(jīng)會(huì)定期的對(duì)自己的硬盤(pán)進(jìn)行備份。這個(gè)沒(méi)什么好解釋的,每次備份都會(huì)創(chuàng)造出一組新的數(shù)據(jù),但信息量并沒(méi)有增多。
二、信息不等于智慧
現(xiàn)在我們?nèi)コ藬?shù)據(jù)中的所有重復(fù)部分,也整合了類(lèi)似內(nèi)容的數(shù)據(jù),剩下的全是信息了,這對(duì)我們就一定有用嗎?不一定,信息要能轉(zhuǎn)化成智慧。
云存儲(chǔ)是存儲(chǔ)器嗎
云存儲(chǔ)是在云計(jì)算(c bud com puting)概念上延伸和發(fā)展出來(lái)的一個(gè)新的概念,是指通過(guò)集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類(lèi)型的存儲(chǔ)設(shè)備通過(guò)應(yīng)用軟件集合起來(lái)協(xié)同工作,共同對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪(fǎng)問(wèn)功能的一個(gè)系統(tǒng)。當(dāng)云計(jì)算系統(tǒng)運(yùn)算和處理的核心是大量數(shù)據(jù)的存儲(chǔ)和管理時(shí),云計(jì)算系統(tǒng)中就需要配置大量的存儲(chǔ)設(shè)備,那么云計(jì)算系統(tǒng)就轉(zhuǎn)變成為一個(gè)云存儲(chǔ)系統(tǒng),所以云存儲(chǔ)是一個(gè)以數(shù)據(jù)存儲(chǔ)和管理為核心的云計(jì)算系統(tǒng)。
云存儲(chǔ)不是存儲(chǔ),而是服務(wù)。就如同云狀的廣域網(wǎng)和互聯(lián)網(wǎng)一樣,云存儲(chǔ)對(duì)使用者來(lái)講,不是指某一個(gè)具體的設(shè)備,而是指一個(gè)由許許多多個(gè)存儲(chǔ)設(shè)備和服務(wù)器所構(gòu)成的集合體。使用者使用云存儲(chǔ),并不是使用某一個(gè)存儲(chǔ)設(shè)備,而是使用整個(gè)云存儲(chǔ)系統(tǒng)帶來(lái)的一種數(shù)據(jù)訪(fǎng)問(wèn)服務(wù)。所以嚴(yán)格來(lái)講,云存儲(chǔ)不是存儲(chǔ),而是一種服務(wù)。
云存儲(chǔ)的核心是應(yīng)用軟件與存儲(chǔ)設(shè)備相結(jié)合,通過(guò)應(yīng)用軟件來(lái)實(shí)現(xiàn)存儲(chǔ)設(shè)備向存儲(chǔ)服務(wù)的轉(zhuǎn)變。
云存儲(chǔ)的概念與云計(jì)算類(lèi)似,它是指通過(guò)集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類(lèi)型的存儲(chǔ)設(shè)備通過(guò)應(yīng)用軟件集合起來(lái)協(xié)同工作,共同對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪(fǎng)問(wèn)功能的—個(gè)系統(tǒng)。
云存儲(chǔ)是通過(guò)網(wǎng)絡(luò)提供可配置的虛擬化的存儲(chǔ)及相關(guān)數(shù)據(jù)的服務(wù)。云存儲(chǔ)的內(nèi)涵是存儲(chǔ)虛擬化和存儲(chǔ)自動(dòng)化。
云存儲(chǔ)這項(xiàng)服務(wù)乃通過(guò)w eb服務(wù)應(yīng)用程序接口(Aplapp lication program ming intetrace),或是通過(guò)Web化的用戶(hù)界面來(lái)訪(fǎng)問(wèn)。
云存儲(chǔ)安全嗎
“云”這個(gè)概念被提出之后,安全性就是人們首先關(guān)注的要點(diǎn)。對(duì)于絕大多數(shù)的用戶(hù)來(lái)說(shuō),他們并不希望自己的云存儲(chǔ)變成公共資源平臺(tái),更不希望自己的隱私成為大眾新聞,所以云存儲(chǔ)的供應(yīng)商也一直在不遺余力地宣傳著自己的產(chǎn)品安全性。
云計(jì)算,特別是云存儲(chǔ),已經(jīng)有些年月了。我們目睹了Nirvanix公司的消亡,斯諾登揭露美國(guó)國(guó)家安全局的棱鏡項(xiàng)目,以及美國(guó)主要電信服務(wù)運(yùn)營(yíng)商涉嫌勾結(jié)。由于棱鏡計(jì)劃的曝光,我們將看到更多非美國(guó)企業(yè)會(huì)停止將其數(shù)據(jù)托管在美國(guó)。安全已經(jīng)成為處理數(shù)據(jù)的企業(yè)的頭號(hào)關(guān)注問(wèn)題。
對(duì)于云存儲(chǔ)產(chǎn)品而言,除了安全和方便,容量也是決定其發(fā)展前景的重要元素。
在線(xiàn)資源的即時(shí)分享與互動(dòng)已成為我們?nèi)粘I畋夭豢缮俚囊徊糠?,云存?chǔ)產(chǎn)品的出現(xiàn),能夠?qū)崿F(xiàn)手機(jī)、平板電腦、臺(tái)式電腦等智能終端設(shè)備的多屏合一、數(shù)據(jù)共享,極大方便了消費(fèi)者的生活。越來(lái)越多的服務(wù)商向個(gè)人、各種企業(yè)用戶(hù)推出了包括存儲(chǔ)在內(nèi)的云計(jì)算服務(wù)。D C(internetdata center)更是將新興的云存儲(chǔ)行業(yè)比作是“圈地運(yùn)動(dòng)”,并且將其視作早期競(jìng)爭(zhēng)對(duì)手搶占SaaS(softw are as a service)和云存儲(chǔ)市場(chǎng)高地的機(jī)會(huì)。網(wǎng)盤(pán)作為云存儲(chǔ)的一種應(yīng)用模式,更是成為當(dāng)下百度、金山、騰訊、360、阿里等互聯(lián)網(wǎng)大佬們的“必爭(zhēng)之地”。
不過(guò),有云也意味著有“雨”。云存儲(chǔ)并不總像看起來(lái)那樣“美”——將數(shù)據(jù)遷移至云中致使用戶(hù)在數(shù)據(jù)安全性和可用性方面高度受制于其云存儲(chǔ)服務(wù)器供應(yīng)商,可以說(shuō),對(duì)安全性和可用性的擔(dān)憂(yōu)是企業(yè)和個(gè)人走向云存儲(chǔ)模式的重要影響因素。
隨著云存儲(chǔ)技術(shù)的日益成熟,云存儲(chǔ)逐漸開(kāi)始應(yīng)用在智慧城市建設(shè)方面,未來(lái)必將給各行各業(yè)帶來(lái)更多的服務(wù)。
云存儲(chǔ)已經(jīng)成為未來(lái)存儲(chǔ)發(fā)展的一種趨勢(shì)。但隨著云存儲(chǔ)技術(shù)的發(fā)展,各類(lèi)搜索、應(yīng)用技術(shù)和云存儲(chǔ)相結(jié)合的應(yīng)用,還需從安全性、便攜性及數(shù)據(jù)訪(fǎng)問(wèn)等角度進(jìn)行改進(jìn)。
TIPS 名詞解釋
云計(jì)算
云計(jì)算(cloud cornputing)是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,通常涉及通過(guò)互聯(lián)網(wǎng)來(lái)提供動(dòng)態(tài)易擴(kuò)展且經(jīng)常是虛擬化的資源。
《大數(shù)據(jù)時(shí)代》
《大數(shù)據(jù)時(shí)代》是國(guó)外大數(shù)據(jù)研究的先河之作,本書(shū)作者維克托·邁爾·舍恩伯格被譽(yù)為“大數(shù)據(jù)商業(yè)應(yīng)用第一人”,擁有在哈佛大學(xué)、牛津大學(xué)、耶魯大學(xué)和新加坡國(guó)立大學(xué)等多個(gè)互聯(lián)網(wǎng)研究重鎮(zhèn)任教的經(jīng)歷,早在2010年就在《經(jīng)濟(jì)學(xué)人》上發(fā)表了長(zhǎng)達(dá)14頁(yè)對(duì)大數(shù)據(jù)應(yīng)用的前瞻性研究成果。
安全性
IDC的報(bào)告顯示,在未來(lái)四年內(nèi),全球云服務(wù)市場(chǎng)規(guī)模將增長(zhǎng)到442億美元,其中云存儲(chǔ)的市場(chǎng)比例將從目前的9%增長(zhǎng)到14%,其規(guī)模將接近62億美元,存儲(chǔ)市場(chǎng)是增長(zhǎng)最快的云計(jì)算服務(wù),這也正是各路廠(chǎng)商鐘情網(wǎng)盤(pán)服務(wù)的一個(gè)重要原因。