吳磊
摘 要:隨著大數(shù)據(jù)概念的提出,云計算技術(shù)也快速發(fā)展。時至今日,大數(shù)據(jù)和云計算已經(jīng)成為互聯(lián)網(wǎng)時代的潮流,許多學(xué)者對大數(shù)據(jù)進(jìn)行研究,提出了許多可行有效的數(shù)據(jù)分析方法,使人們從巨量數(shù)據(jù)中挖掘出有價值的數(shù)據(jù),提高數(shù)據(jù)的利用率,這些分析方法已經(jīng)得到實際運(yùn)用,并且?guī)砗芎玫慕?jīng)濟(jì)效益。
關(guān)鍵詞:大數(shù)據(jù);云計算;數(shù)據(jù)分析;數(shù)據(jù)挖掘
1、引言
近幾年,隨著互聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)等新技術(shù)的迅速發(fā)展,人類之間的活動和交往日益復(fù)雜,數(shù)據(jù)呈現(xiàn)快速增長趨勢,于是便迎來了大數(shù)據(jù)時代。
人類的社會活動產(chǎn)生了巨量的數(shù)據(jù),這些數(shù)據(jù)正處在瘋狂成長的階段,引起了商業(yè)界、科學(xué)界和政府機(jī)構(gòu)的廣泛關(guān)注。如何處理這些巨量數(shù)據(jù)和如何在海量數(shù)據(jù)中挖掘有價值的數(shù)據(jù)是所需要解決的主要問題。
2、大數(shù)據(jù)的基本概念
2.1大數(shù)據(jù)的定義
人們所理解的數(shù)據(jù)大多數(shù)是存儲在數(shù)據(jù)庫中,可以用來讀取、計算和操作的結(jié)構(gòu)化數(shù)據(jù),大數(shù)據(jù)就是海量的數(shù)據(jù)。大數(shù)據(jù)指的其實就是“海量數(shù)據(jù)+復(fù)雜數(shù)據(jù)類型”及非結(jié)構(gòu)化數(shù)據(jù),其核心在于數(shù)據(jù)的挖掘和應(yīng)用產(chǎn)生的多方位價值[1]。大數(shù)據(jù)規(guī)模大,數(shù)據(jù)結(jié)構(gòu)復(fù)雜度高,數(shù)據(jù)關(guān)聯(lián)度高等特點。
2.2大數(shù)據(jù)的特點
大數(shù)據(jù)具有以下4個主要特征:
2.2.1巨量(volumes)
傳統(tǒng)人們使用的數(shù)據(jù)都以KB、MB、GB和TB為單位來衡量,在現(xiàn)在數(shù)據(jù)爆炸的時代,TB都已經(jīng)無法衡量人們所掌握的數(shù)據(jù)容量,而是用PB、EB、或ZB作為大數(shù)據(jù)的計量單位。在互聯(lián)網(wǎng)時代,數(shù)據(jù)瘋狂增長,有關(guān)數(shù)據(jù)表明,過去3年人類的信息數(shù)據(jù)總量比以往4萬年的數(shù)據(jù)量還要多。
2.2.2高速(Velocity)
大數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的區(qū)別,當(dāng)面臨各種信息時,如何把握數(shù)據(jù)的時效性,從各種數(shù)據(jù)類型中快速獲取高價值的信息,是大數(shù)據(jù)時代對數(shù)據(jù)處理提出的基本要求。
2.2.3多樣(Variety)
互聯(lián)網(wǎng)時代,大數(shù)據(jù)不僅體現(xiàn)在量的增長,而且數(shù)據(jù)類型變得十分復(fù)雜。它不僅包括可以存儲在數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù);也包括非結(jié)構(gòu)化數(shù)據(jù),如文本、視頻、音頻和圖片等,而且非結(jié)構(gòu)化數(shù)據(jù)占據(jù)很大的比重。統(tǒng)計顯示,全世界結(jié)構(gòu)化數(shù)據(jù)的增長率大約是32%,而非結(jié)構(gòu)化數(shù)據(jù)增長率則是63%。非結(jié)構(gòu)化數(shù)據(jù)往往在大數(shù)據(jù)中具有更高的價值。
2.2.4高值(Value)
對于海量的數(shù)據(jù),人們需要從中提取出有價值的數(shù)據(jù)為己所用,數(shù)據(jù)挖掘技術(shù)廣泛應(yīng)用于商業(yè),對數(shù)據(jù)價值進(jìn)行再挖掘。巨量數(shù)據(jù)中有價值的數(shù)據(jù)是極小的一部分,大數(shù)據(jù)的價值密度很低,然而只要合理的利用數(shù)據(jù),并對其進(jìn)行正確、準(zhǔn)確的分析,將會帶來很高的價值回報。
3、大數(shù)據(jù)面臨的挑戰(zhàn)
由于大數(shù)據(jù)具有數(shù)據(jù)量大,要求處理速度快,數(shù)據(jù)種類多,價值密度低等特點,使得大數(shù)據(jù)技術(shù)面臨嚴(yán)重的挑戰(zhàn),對于大數(shù)據(jù)的處理和計算面臨的許多問題都依然沒有得到本質(zhì)的解決。
3.1數(shù)據(jù)傳輸問題
互聯(lián)網(wǎng)時代,人們利用網(wǎng)絡(luò)傳輸數(shù)據(jù),面對海量數(shù)據(jù),以現(xiàn)有的網(wǎng)絡(luò)傳輸技術(shù),需要花費大量的時間和帶寬。大數(shù)據(jù)時代的網(wǎng)絡(luò)無法滿足人們數(shù)據(jù)傳輸?shù)囊?,不但花費大量的時間,而且占用了許多寶貴的網(wǎng)絡(luò)資源。如何快速有效的傳輸大量數(shù)據(jù)仍是難以解決的問題。
3.2數(shù)據(jù)存儲問題
大數(shù)據(jù)發(fā)展面臨的問題是來自不同地方、標(biāo)準(zhǔn)各異、數(shù)據(jù)量巨大、結(jié)構(gòu)形式種類多、實時性等多樣化要求的數(shù)據(jù)信息。故此應(yīng)修改基于塊和文件的存儲系統(tǒng)的架構(gòu)設(shè)計,以克服存在的問題。雖然使用了云服務(wù)技術(shù),但是仍然無法滿足數(shù)據(jù)容積的增長速度,人類活動產(chǎn)生的大量數(shù)據(jù)將面臨著需要大量存儲空間的嚴(yán)峻問題。
3.3數(shù)據(jù)計算問題
大數(shù)據(jù)時代產(chǎn)生的海量數(shù)據(jù)不僅包括可以存儲在數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),而且還包括占大比例的非結(jié)構(gòu)化數(shù)據(jù)。要從海量數(shù)據(jù)中挖掘出有價值的信息,需要一些有效的計算方法,從大量非結(jié)構(gòu)化數(shù)據(jù)中找出有價值的信息更加復(fù)雜,如果沒有高效的計算方法,不僅需要消耗大量的時間和計算機(jī)資源,而且還無法精確的找到有效的信息。
3.4數(shù)據(jù)分析問題
現(xiàn)在的世界是數(shù)據(jù)的世界,現(xiàn)在的科學(xué)是數(shù)據(jù)科學(xué)。如何利用好各種數(shù)據(jù),從海量數(shù)據(jù)中提取有用的信息,需要數(shù)據(jù)建模分析技術(shù)來解決這些問題。盡管科學(xué)家提出了許多行之有效數(shù)據(jù)分析方法,但是仍然無法達(dá)到理想的目標(biāo)。
3.5數(shù)據(jù)安全與用戶隱私保護(hù)問題
大數(shù)據(jù)下,人們面臨的威脅不僅包括個人隱私泄漏,更可怕的是基于大數(shù)據(jù)對用戶狀態(tài)和行為的預(yù)測;受攻擊或刻意制造的大數(shù)據(jù)會導(dǎo)致錯誤的分析結(jié)論;大數(shù)據(jù)層層傳播,誤差積累也會導(dǎo)致數(shù)據(jù)失真。中國計算機(jī)學(xué)會(CCF)大數(shù)據(jù)專家委員會關(guān)于2014年大數(shù)據(jù)發(fā)展趨勢預(yù)測的報告指出用戶隱私會越來越多地融入各種大數(shù)據(jù)中,大數(shù)據(jù)更容易成為網(wǎng)絡(luò)攻擊目標(biāo),大數(shù)據(jù)分析技術(shù)更容易被黑客利用,大數(shù)據(jù)引起了更多不易被追蹤和防范的犯罪手段[2]。
4、大數(shù)據(jù)的關(guān)鍵技術(shù)
4.1數(shù)據(jù)挖掘
大數(shù)據(jù)的核心是在于數(shù)據(jù)價值的挖掘和利用。數(shù)據(jù)挖掘通常是指從大量的數(shù)據(jù)中通過算法搜索隱藏在其中信息的過程。數(shù)據(jù)挖掘技術(shù)主要包括關(guān)聯(lián)分析、序列模式、分類、聚類、異常檢測,可視化等。數(shù)據(jù)挖掘技術(shù)在各行各業(yè)已得到廣泛應(yīng)用。例如,在旅游大數(shù)據(jù)應(yīng)用中可以采用關(guān)聯(lián)分析對旅游數(shù)據(jù)進(jìn)行搜索,并從中找出出現(xiàn)概率較高的模式,或者通過數(shù)據(jù)的聚類與分類,分析旅游數(shù)據(jù)的相似性,將相似的數(shù)據(jù)存放在一起,為決策者提供決策支持[3]。
4.2云計算
云計算就是以虛擬化技術(shù)為基礎(chǔ),以網(wǎng)絡(luò)為載體,整合大規(guī)??蓴U(kuò)展的計算、存儲、數(shù)據(jù)、應(yīng)用等分布式計算資源進(jìn)行協(xié)同工作的超級計算服務(wù)模式。云計算具有超大規(guī)模、虛擬化、高可靠性、通用性、高可擴(kuò)展性、按需服務(wù)和低成本性等特點。因此,云計算為海量數(shù)據(jù)構(gòu)建了堅實的基礎(chǔ)[4]。云計算與大數(shù)據(jù)結(jié)合催生了云機(jī)器人,云機(jī)器人是目前模仿人類相似度最高的機(jī)器人。
4.3機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,涉及多門學(xué)科,是人工智能的核心。研究計算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)并不斷改善自身的性能,是人工智能的核心,是使計算機(jī)具有智能的根本途徑。自然語言處理是機(jī)器學(xué)習(xí)的一個例子。目前機(jī)器學(xué)習(xí)與大數(shù)據(jù)結(jié)合用來進(jìn)行自動駕駛汽車研究和抑郁診療的可計算方法研究已經(jīng)取得一些成就。
4.4神經(jīng)網(wǎng)絡(luò)
受生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和運(yùn)作的啟發(fā),模擬動物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。大數(shù)據(jù)與神經(jīng)網(wǎng)絡(luò)結(jié)合,可以用來進(jìn)行數(shù)據(jù)分析和預(yù)測,應(yīng)用實例包括識別高價值客戶離開特定公司的風(fēng)險,以及識別欺詐性的保險理賠行為等。
5、結(jié)束語
大數(shù)據(jù)時代到來給人們的世界帶來巨大的變化,使人類科學(xué)向第四范式轉(zhuǎn)變:實驗科學(xué),理論科學(xué),計算科學(xué)和數(shù)據(jù)科學(xué)。雖然大數(shù)據(jù)研究取得了很多成果,但是現(xiàn)在大數(shù)據(jù)研究還面臨諸多技術(shù)挑戰(zhàn)。
大數(shù)據(jù)時代已經(jīng)來臨,全球都在這一新領(lǐng)域展開了激烈的競爭,我國也要與時俱進(jìn),加快步伐,適應(yīng)這一新時代的到來。
(作者單位:重慶交通大學(xué)信息科學(xué)與工程學(xué)院)
參考文獻(xiàn):
[1] 孔德智等,大數(shù)據(jù)淺析[J].電子產(chǎn)品可靠性與環(huán)境試蹌,2013,86
[2] 黎林峰.,2014年大數(shù)據(jù)發(fā)展趨勢預(yù)測[J].中國建設(shè)信息,2014(3):18-19.
[3] 郭鑫,旅游大數(shù)據(jù)與挖掘分析研究[J].2013,3215
[4] 王妍等,大數(shù)據(jù)及相關(guān)技術(shù)解讀[J].特別關(guān)注,2014,20
[5] 嚴(yán)霄鳳等,大數(shù)據(jù)研究[J].計算機(jī)技術(shù)與發(fā)展,2013,169