張婧
摘 要 本文從大數(shù)據(jù)與數(shù)據(jù)挖掘的概念入手,闡述了大數(shù)據(jù)與數(shù)據(jù)挖掘的來源、方法及技術(shù)體系。并從數(shù)據(jù)和使用工具方面比較了大數(shù)據(jù)與數(shù)據(jù)挖掘的異同,最后歸納總結(jié)了大數(shù)據(jù)時代數(shù)據(jù)挖掘的發(fā)展趨勢及重要意義。
關(guān)鍵詞 大數(shù)據(jù) 數(shù)據(jù)挖掘 數(shù)據(jù)分析
中圖分類號:TP391. 7 文獻標(biāo)識碼:A
1引言
自2012年3月奧巴公布了美國《大數(shù)據(jù)研究和發(fā)展計劃》以來,大數(shù)據(jù)如浪潮般席卷著全世界,沖刷著地球的各個角落。從政府到商業(yè)科技、教育、醫(yī)療、經(jīng)濟、人文還有社會的其他各個領(lǐng)域都無時不能看到大數(shù)據(jù)的影子。于是各個領(lǐng)域各個專家開始如火如荼地討論研究大數(shù)據(jù)的相關(guān)理論及技術(shù)。數(shù)據(jù)由數(shù)據(jù)挖掘時代過渡到大數(shù)據(jù)時代。
2數(shù)據(jù)挖掘
數(shù)據(jù)挖掘開始于上世紀(jì)70年代,經(jīng)歷了電子郵件時代、信息發(fā)布時代、電子商務(wù)時代、全程電子商務(wù)時代,是指從海量的、不完整的、模糊的實際應(yīng)用數(shù)據(jù)中提取隱含在其中的人們事先不知道的但又可能有用的信息和知識的過程。通俗地講,數(shù)據(jù)挖掘就是利用各種分析方法和工具,對數(shù)據(jù)庫中積累的大最繁雜的歷史數(shù)據(jù)進行分析、歸納與整合的工作,以發(fā)現(xiàn)數(shù)據(jù)內(nèi)部的信息和關(guān)系的過程,提供企業(yè)管理層在進行決策時的參考依據(jù)。
數(shù)據(jù)挖掘一般經(jīng)歷如圖1所示:數(shù)據(jù)準(zhǔn)備-數(shù)據(jù)挖掘-知識發(fā)現(xiàn)與表示的三個過程。成熟的數(shù)據(jù)挖掘經(jīng)典算法有決策樹算法、聚類算法、神經(jīng)網(wǎng)絡(luò)算法、遺傳算法等。
3大數(shù)據(jù)
大數(shù)據(jù)是指數(shù)據(jù)量特別大、數(shù)據(jù)類別特別復(fù)雜的數(shù)據(jù)集,這些數(shù)據(jù)集無法用傳統(tǒng)的數(shù)據(jù)庫進行存儲,管理和處理,其具有Volume(數(shù)據(jù)量大),Velocity(數(shù)據(jù)處理速度快)、Variety(數(shù)據(jù)具有多樣性)和Value(數(shù)據(jù)價值密度低)的4V特點。大數(shù)據(jù)是繼云計算、物聯(lián)網(wǎng)之后數(shù)據(jù)行業(yè)又一大顛覆性的技術(shù)革命。大數(shù)據(jù)時代的到來顛覆了工業(yè)界、學(xué)術(shù)界對傳統(tǒng)數(shù)據(jù)的認(rèn)知,同時也引起了數(shù)據(jù)獲取、存儲、分析、挖掘以及可視化等技術(shù)的變革。
根據(jù)大數(shù)據(jù)處理的生命周期,大數(shù)據(jù)的技術(shù)體系有大數(shù)據(jù)的采集與預(yù)處理、大數(shù)據(jù)存儲與管理、大數(shù)據(jù)計算模式與系統(tǒng)、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)可視化分析及大數(shù)據(jù)隱私與安全等幾個方面,如圖2所示。
4大數(shù)據(jù)與數(shù)據(jù)挖掘的關(guān)系
大數(shù)據(jù)與數(shù)據(jù)挖掘既有不同之處,又可互相關(guān)聯(lián)。
4.1 數(shù)據(jù)挖掘與大數(shù)據(jù)的相同點
都有以海量數(shù)據(jù)為基礎(chǔ),通過某種或幾種工具或算法,挖掘出供人們利用的知識發(fā)現(xiàn)和規(guī)律,供人們使用,為人們服務(wù)。在挖掘知識表示及規(guī)律方面,它們用的方法是大同小異的。
4.2大數(shù)據(jù)與數(shù)據(jù)挖掘的不同點
在數(shù)據(jù)方面:數(shù)據(jù)挖掘一般基于某個或幾個數(shù)據(jù)庫中的數(shù)據(jù),數(shù)據(jù)規(guī)模相對較小,基本以為MB處理單位;數(shù)據(jù)類型種類單一,往往是一種或少數(shù)幾種,而且以結(jié)構(gòu)化數(shù)據(jù)為主;因為數(shù)據(jù)挖掘往往使用的是常規(guī)數(shù)據(jù)庫,因此先有模式再有數(shù)據(jù);數(shù)據(jù)僅作為處理對象。而大數(shù)據(jù)數(shù)據(jù)規(guī)模很大,以GB,甚至TB、PB為基本處理單位;數(shù)據(jù)種類繁多,而這些數(shù)據(jù)中又包含著結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù),而且占據(jù)著越來越多的份額;大數(shù)據(jù)時代很多情況下很難預(yù)先確定模式,模式只有在數(shù)據(jù)出現(xiàn)之后才能確定,且模式隨著數(shù)據(jù)量的增長處于不斷的演變之中;大數(shù)據(jù)時代的數(shù)據(jù)將作為一種資源來輔助解決其他諸多領(lǐng)域的問題;而且大數(shù)據(jù)由于其數(shù)據(jù)量太大因此還要考慮存儲數(shù)據(jù)的問題。
在處理工具方面:數(shù)據(jù)挖掘一般應(yīng)用一種工具或少數(shù)幾種工具就可以處理得到發(fā)現(xiàn)的知識并加以應(yīng)用,也就是所謂的One size fits all;大數(shù)據(jù)時代不可能存在一種工具就能解決問題,得出有用的結(jié)論,即No size fits all。
5總結(jié)
總之,大數(shù)據(jù)時代的數(shù)據(jù)利用云存儲已漸成一個趨勢,數(shù)據(jù)挖掘是其關(guān)鍵的一環(huán),大數(shù)據(jù)的分析處理可以把海量數(shù)據(jù)分成幾塊利用數(shù)據(jù)挖掘技術(shù)進行挖掘,也可以將數(shù)據(jù)挖掘技術(shù)加以整合,研發(fā)出更高效、更準(zhǔn)確的平臺或算法對大數(shù)據(jù)直接進行挖掘,得出蘊含在海量數(shù)據(jù)中的規(guī)律或商機,如此才能讓大數(shù)據(jù)真正切實地為人們服務(wù)。因此數(shù)據(jù)挖掘在大數(shù)據(jù)時代的數(shù)據(jù)分析和挖掘過程中具有重要的意義。
參考文獻
[1] HU H,WEN Y G,CHUA T S,LI X L.Toward scalable system for big data analyties:a technology tutorial[J].IEEE Access,2014(2):652-687.
[2] 馮登國,張敏.李昊大數(shù)據(jù)安全與隱私保護[J].計算機學(xué)報,2014.
[3] 孟小峰.慈祥大數(shù)據(jù)管理:概念技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013.