朱敏
摘要:當今時代,人們的生活對互聯(lián)網(wǎng)的使用涉及方方面面,社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、傳感器的廣泛應(yīng)用會產(chǎn)生海量的非結(jié)構(gòu)化數(shù)據(jù),即大數(shù)據(jù)。大數(shù)據(jù)不能使用傳統(tǒng)的數(shù)據(jù)庫軟件進行管理,需要大規(guī)模并行處理數(shù)據(jù)庫、分布式數(shù)據(jù)庫系統(tǒng)、云存儲等特殊的技術(shù)進行處理。該文闡述了大數(shù)據(jù)的概念、特點、處理技術(shù)及應(yīng)用實例。最后總結(jié)了大數(shù)據(jù)的發(fā)展趨勢。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)處理
中圖分類號:TP311文獻標識碼:A 文章編號:1009-3044(2016)23-0251-02
1引言
當今時代,互聯(lián)網(wǎng)的應(yīng)用范圍不斷擴展,互聯(lián)網(wǎng)中的數(shù)據(jù)發(fā)生了爆炸性的增長。社交網(wǎng)絡(luò)中用戶之間的交流、物聯(lián)網(wǎng)中的各種設(shè)備(比如智能手機等)都會產(chǎn)生和傳送海量的數(shù)據(jù)。傳感器則把全世界的電器設(shè)備及生物體產(chǎn)生的數(shù)據(jù)傳動到互聯(lián)網(wǎng)。大數(shù)據(jù)中蘊藏著豐富的價值,社交網(wǎng)絡(luò)中的大數(shù)據(jù)體現(xiàn)了人類復(fù)雜的行為模式,企業(yè)從大數(shù)據(jù)中挖掘出客戶對商品的喜好和需求,從而改進產(chǎn)品。
2大數(shù)據(jù)定義
本文認為大數(shù)據(jù)的定義需要從規(guī)模和分析兩個方面描述。首先,大數(shù)據(jù)是有非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)組成的,其規(guī)模是海量的,無法用單臺計算機進行存儲、分析和處理。其次,大數(shù)據(jù)無法使用傳統(tǒng)的數(shù)據(jù)庫工具進行分析處理,必須使用互聯(lián)網(wǎng)、數(shù)據(jù)挖掘電網(wǎng)、分布式數(shù)據(jù)庫、云平臺等技術(shù)進行大數(shù)據(jù)的挖掘分析和處理。
3 大數(shù)據(jù)特點
數(shù)據(jù)規(guī)模龐大、數(shù)據(jù)處理速度快、數(shù)據(jù)結(jié)構(gòu)多樣化、數(shù)據(jù)蘊藏豐富價值、數(shù)據(jù)來源真實可靠是大數(shù)據(jù)的具有的幾大特點。
1)數(shù)據(jù)規(guī)模龐大:大數(shù)據(jù)的數(shù)據(jù)規(guī)模是海量的,可以是數(shù)百TB或者數(shù)百PB,甚至達到ZB的規(guī)模。信息大爆炸帶來了海量的數(shù)據(jù),目前互聯(lián)網(wǎng)一天的數(shù)據(jù)流量達到1EB。
2)數(shù)據(jù)處理速度快:商務(wù)網(wǎng)站中的電子商務(wù)數(shù)據(jù)、社交平臺的社交信息、傳感器獲取的數(shù)據(jù)都具有實時性,這些數(shù)據(jù)產(chǎn)生速度很快,所以對這些數(shù)據(jù)進行處理的速度也要求快速。
3)數(shù)據(jù)結(jié)構(gòu)多樣化:大數(shù)據(jù)的來源多種多樣,例如互聯(lián)網(wǎng)的點擊、社交網(wǎng)絡(luò)的信息交流、GPS定位信息等等,這些渠道產(chǎn)生的數(shù)據(jù)不再是傳統(tǒng)的數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),可以是E-MAIL數(shù)據(jù)、音頻數(shù)據(jù)、圖片數(shù)據(jù)、視頻數(shù)據(jù)、微博數(shù)據(jù)、傳感器數(shù)據(jù)等等,這些數(shù)據(jù)都是非結(jié)構(gòu)化或者半結(jié)構(gòu)化的數(shù)據(jù)。
4)數(shù)據(jù)蘊藏豐富價值:大數(shù)據(jù)中蘊藏著豐富的價值,社交網(wǎng)絡(luò)中的大數(shù)據(jù)體現(xiàn)了人類復(fù)雜的行為模式,企業(yè)從大數(shù)據(jù)中挖掘出客戶對商品的喜好和需求,從而改進產(chǎn)品。企業(yè)從大數(shù)據(jù)中挖掘出客戶對產(chǎn)品的需求,從而對產(chǎn)品進行優(yōu)化。大數(shù)據(jù)中的數(shù)據(jù)是最原始的全面的數(shù)據(jù),所以數(shù)據(jù)的價值密度低。例如社交網(wǎng)絡(luò)中發(fā)出的一條信息,會在網(wǎng)絡(luò)中不斷轉(zhuǎn)發(fā),從而引出更多的相關(guān)信息,這些相關(guān)信息中蘊藏著豐富的價值。
5) 數(shù)據(jù)來源真實可靠:大數(shù)據(jù)的來源包括商務(wù)網(wǎng)站、社交平臺、網(wǎng)絡(luò)點擊、傳感器等等渠道,這些數(shù)據(jù)都是最原始的數(shù)據(jù),中間沒有對數(shù)據(jù)的采樣和處理,保證了數(shù)據(jù)的真是可靠。
4 大數(shù)據(jù)處理系統(tǒng)
因為大數(shù)據(jù)的以上特性,不能使用傳統(tǒng)的數(shù)據(jù)庫工具進行大數(shù)據(jù)的分析處理。為了從大數(shù)據(jù)中挖掘出有價值的信息,需要有針對大數(shù)據(jù)的數(shù)據(jù)處理系統(tǒng)。目前,一些大型的互聯(lián)網(wǎng)企業(yè),例如谷歌、Facebook等企業(yè)都研發(fā)了針對大數(shù)據(jù)的數(shù)據(jù)處理系統(tǒng)。
1)批量數(shù)據(jù)處理系統(tǒng):這種系統(tǒng)是對互聯(lián)網(wǎng)中產(chǎn)生的海量的靜態(tài)的數(shù)據(jù)進行處理。例如對客戶在網(wǎng)站中的點擊量和網(wǎng)頁的瀏覽量等數(shù)據(jù)進行處理,從而或者客戶對哪些商品比較偏愛。谷歌公司研發(fā)的GFS(Google File System,即大規(guī)模分散文件系統(tǒng))和MapReduce(大規(guī)模分散FrameWork)系統(tǒng)就是典型的批量數(shù)據(jù)處理系統(tǒng)。
5結(jié)束語
本文闡述了大數(shù)據(jù)的概念、特點以及幾種大數(shù)據(jù)處理技術(shù)。目前,隨著社交網(wǎng)絡(luò)的發(fā)展、傳感器的廣泛應(yīng)用、物聯(lián)網(wǎng)的不斷擴展,大數(shù)據(jù)已經(jīng)深入我們生活的方方面面,針對大數(shù)據(jù)的處理也越來越深入,如何更高效的挖掘大數(shù)據(jù)中蘊藏的價值需要不斷地研究和改進。
參考文獻:
[1]涂新莉,劉波,林偉偉.大數(shù)據(jù)研究綜述[ J]. 計算機應(yīng)用研究, 2014(31): 1612- 1616.
[2]程學(xué)旗,靳小龍,王元卓,等. 大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 軟件學(xué)報, 2014(25):1889-1908.
[3]馬建光,姜巍.大數(shù)據(jù)的概念、特征及其應(yīng)用[ J]. 國防科技,2013(34) :10-17.