• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      解析大數(shù)據(jù)

      2014-04-13 00:39:16張海洋
      關(guān)鍵詞:數(shù)據(jù)量異構(gòu)結(jié)構(gòu)化

      季 偉,張海洋

      (1.安徽新聞出版職業(yè)技術(shù)學(xué)院 計算機中心,安徽 合肥 230601;2宿州學(xué)院 辦公室,安徽 宿州 234000)

      IT領(lǐng)域從來不缺乏新概念,當(dāng)云計算,物聯(lián)網(wǎng)等方興未艾之時,大數(shù)據(jù)概念又被業(yè)界提出來.實際上,大數(shù)據(jù)概念的提出是比較早的,早在1980年托夫勒的《第三次浪潮》中就有所提及,只是當(dāng)時影響較小,沒有引起業(yè)界的廣泛關(guān)注.2008年《Nature》推出了 Big Data專利[1].2011年《Science》推出了“Dealing with Data”[2],著重研究大數(shù)據(jù)在科學(xué)研究中的重要性.到后來,美國的一些專家、機構(gòu)對大數(shù)據(jù)進行了一系列的研究,詳細的研究了大數(shù)據(jù)的產(chǎn)生,核心技術(shù),應(yīng)用領(lǐng)域等關(guān)鍵問題,并分析了大數(shù)據(jù)可能產(chǎn)生的影響,以及未來大數(shù)據(jù)所可能面臨的挑戰(zhàn).以至于在2012年3月,美國奧巴馬政府發(fā)布了“大數(shù)據(jù)發(fā)展計劃”,旨在提高人們從海量和復(fù)雜的數(shù)據(jù)中獲取知識的能力,發(fā)展收集、存儲、管理、分析和共享海量數(shù)據(jù)所需的技術(shù).這是繼1993年美國政府“信息高速公路計劃”后在國家戰(zhàn)略層面上的又一項重大舉措[3].

      從數(shù)據(jù)量或者說從數(shù)據(jù)來源來看,之所以產(chǎn)生如此規(guī)模巨大的數(shù)據(jù):一是現(xiàn)代科技的發(fā)展使得事物基本上都能夠數(shù)字化,因此產(chǎn)生了巨大的諸如文字、圖片、音頻、視頻等數(shù)據(jù);二是計算機和網(wǎng)絡(luò)技術(shù)的發(fā)展,尤其是現(xiàn)代移動通訊和物聯(lián)網(wǎng)的迅猛發(fā)展產(chǎn)生了大量數(shù)據(jù),如全球最大的網(wǎng)絡(luò)—互聯(lián)網(wǎng),無時無刻不在產(chǎn)生新的數(shù)據(jù),又如無線傳感器,始終在產(chǎn)生新的數(shù)據(jù),這些都是導(dǎo)致數(shù)據(jù)量成倍的增長重要原因.

      從數(shù)據(jù)類型來看大數(shù)據(jù)主要包括三種數(shù)據(jù)類型:(1)結(jié)構(gòu)化數(shù)據(jù),一般是存儲在數(shù)據(jù)庫中(主要指關(guān)系數(shù)據(jù)庫),這也是我們平常在實際應(yīng)用中處理大量數(shù)據(jù)的基本方式.(2)半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)多見于Web上的信息.(3)非結(jié)構(gòu)化數(shù)據(jù),主要指圖像、音頻、視頻等數(shù)據(jù).

      根國際數(shù)據(jù)咨詢公司(IDC)監(jiān)測,2011年全球數(shù)據(jù)量已達到1.8ZB,預(yù)計到2020年,全球數(shù)據(jù)量將達到35ZB,其中非結(jié)構(gòu)化數(shù)據(jù)將占其中絕大部分.這種數(shù)據(jù)量激增勢必會打破依賴傳統(tǒng)軟件處理信息的能力,對于人們?nèi)绾螐娜绱司薮蟮臄?shù)據(jù)中獲取、存儲、處理、分析、共享和顯示數(shù)據(jù)來說,這無疑是一項巨大的挑戰(zhàn),大數(shù)據(jù)的研究顯得尤為必要.

      1 大數(shù)據(jù)概念、特征及應(yīng)用

      1.1 大數(shù)據(jù)的概念

      大數(shù)據(jù)的概念較抽象,目前為止,尚未有一個統(tǒng)一定義.一般意義上,大數(shù)據(jù)指無法在可容忍的時間內(nèi)用傳統(tǒng)IT技術(shù)和軟硬件工具對其進行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合.世界著名IT咨詢公司Gartner給出的定義是:大數(shù)據(jù)指的是所涉及的資料規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營決策目的的資訊.

      關(guān)于大數(shù)據(jù)的定義,還有很多其他研究機構(gòu)或者學(xué)者給出的定義,但不論是哪種定義,大數(shù)據(jù)的概念結(jié)合大數(shù)據(jù)的特征來描述可能更準(zhǔn)確些.

      1.2 大數(shù)據(jù)的特征

      關(guān)于大數(shù)據(jù)的特征,目前普遍比較公認(rèn)的是4V定義[4],即規(guī)模性,多樣性,高速性和價值性.

      表1 大數(shù)據(jù)的特征

      1.3 大數(shù)據(jù)的應(yīng)用

      大數(shù)據(jù)研究中具有普遍的關(guān)聯(lián)關(guān)系和因果關(guān)系[5],因此,大數(shù)據(jù)中隱含著巨大的科研信息和商業(yè)價值,若能有效的組織和使用這些數(shù)據(jù)信息,勢必會產(chǎn)生巨大的效益.目前,除了一些商業(yè)化的大數(shù)據(jù)處理方案外,還有一些開源項目,如Hadoop(由HDFS和MapReduce組成)就是一個典型的分布式計算平臺,在這個平臺上可編寫分布式并行程序,從而在計算機集群上完成海量數(shù)據(jù)計算.

      2 核心問題

      2.1 云計算

      大數(shù)據(jù)與云計算概念不同,但卻具有很多相似之處,大數(shù)據(jù)用到了云計算的核心技術(shù),如MapReduce并行處理技術(shù),海量數(shù)據(jù)存儲技術(shù)等.實際上云計算為大數(shù)據(jù)提供了基礎(chǔ)平臺和支撐技術(shù),他們之間是工具和用途的關(guān)系,相當(dāng)于云計算技術(shù)為大數(shù)據(jù)提供了基本架構(gòu)平臺,大數(shù)據(jù)以分布式方式應(yīng)用在這個基本架構(gòu)平臺上.大數(shù)據(jù)側(cè)重于計算對象而云計算則更加側(cè)重于計算能力,兩者相輔相成.

      2.2 大數(shù)據(jù)基本架構(gòu)

      大數(shù)據(jù)涵蓋了各種技術(shù),包括異構(gòu)數(shù)據(jù)融合、分布式技術(shù)、NoSQL數(shù)據(jù)庫技術(shù)、數(shù)據(jù)挖掘和可視化技術(shù)等.一個典型的大數(shù)據(jù)處理系統(tǒng)體系架構(gòu)如下圖所示.

      圖1 大數(shù)據(jù)系統(tǒng)結(jié)構(gòu)

      關(guān)鍵部分解釋如下:

      (1)獲取數(shù)據(jù).對大數(shù)據(jù)來說,數(shù)據(jù)規(guī)模并不是越大越好,因為大數(shù)據(jù)中可能含有一些錯誤信息,這些錯誤信息如果不加以約束,就可能導(dǎo)致后續(xù)的分析過程完全錯誤.因此在獲取數(shù)據(jù)前,要盡可能保證數(shù)據(jù)的正確性,盡可能詳盡的描述數(shù)據(jù).

      (2)數(shù)據(jù)處理.大量數(shù)據(jù)在被處理的時候,考慮到數(shù)據(jù)的時效性,因此要具備實時處理數(shù)據(jù)的能力.實時獲取數(shù)據(jù)難度并不大,但因數(shù)據(jù)處理是數(shù)據(jù)分析的基礎(chǔ),導(dǎo)致數(shù)據(jù)的實時處理能力是大數(shù)據(jù)系統(tǒng)的關(guān)鍵,處理不好就可能成為系統(tǒng)的瓶頸.

      (3)數(shù)據(jù)分析.大量的數(shù)據(jù)本身并沒有多大實際意義,正是有了針對性的分析數(shù)據(jù),才使得這些數(shù)據(jù)發(fā)揮特定的作用.對于數(shù)據(jù)的分析,我們可以結(jié)合數(shù)據(jù)挖掘相關(guān)知識來進行.

      (4)數(shù)據(jù)顯示.大數(shù)據(jù)數(shù)據(jù)類型多樣,可采用動作捕捉技術(shù)獲取用戶動作,將用戶和數(shù)據(jù)融合在一起,直接使用戶與結(jié)果交互.摒棄了傳統(tǒng)技術(shù)方法顯示難以達到預(yù)期效果的弊端.

      3 面臨的挑戰(zhàn)

      3.1 集成中的異構(gòu)性

      3.1.1 數(shù)據(jù)異構(gòu)性

      大數(shù)據(jù)是基于云計算技術(shù)的,也就是說大數(shù)據(jù)需要將分布在各地的數(shù)據(jù)進行集成,但這些分散在各地的數(shù)據(jù)具有異構(gòu)性,主要由結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)或者是其中幾種的融合,這就造成了數(shù)據(jù)集成的困難.

      3.1.2 平臺異構(gòu)性

      大數(shù)據(jù)都是要存儲在實際載體上,不同的載體實際上就是不同的硬件環(huán)境,盡管目前硬件技術(shù)較過去有了很大的進步,但各廠家在不同時期生產(chǎn)出來的硬件還是有區(qū)別的,不同品牌的硬件差異更大.導(dǎo)致集成過程中由于硬件的異構(gòu)性,大大降低數(shù)據(jù)的處理效率,特別是對大規(guī)模數(shù)據(jù)來說,這種差異化帶來的效果將是不能忽視的.

      3.2 數(shù)據(jù)存儲

      在大數(shù)據(jù)環(huán)境下,傳統(tǒng)的關(guān)系數(shù)據(jù)庫已不能滿足存儲需求.采用傳統(tǒng)的關(guān)系數(shù)據(jù)庫在設(shè)計上往往是無法實現(xiàn)的,大部分關(guān)系數(shù)據(jù)庫不支持分布式存儲,而海量數(shù)據(jù)的分布式存儲正是大數(shù)據(jù)的特點之一,這就產(chǎn)生了矛盾.當(dāng)前應(yīng)用系統(tǒng)逐漸使用NoSQL來解決大數(shù)據(jù)此類問題,放棄了對傳統(tǒng)關(guān)系操作的支持,作為大數(shù)據(jù)存儲的一種解決方案.

      3.3 數(shù)據(jù)分析

      傳統(tǒng)的針對結(jié)構(gòu)化數(shù)據(jù)進行的數(shù)據(jù)分析,已經(jīng)形成了一套行之有效的分析體系.大數(shù)據(jù)中數(shù)據(jù)處理對象具有明顯的差異化,因此傳統(tǒng)的數(shù)據(jù)分析技術(shù)難以勝任.傳統(tǒng)數(shù)據(jù)分析針對的處理方式較多.大數(shù)據(jù)時代,數(shù)據(jù)的時效性增強,如果還停留在批處理技術(shù)階段則會導(dǎo)致數(shù)據(jù)“貶值”,因此需要實時分析數(shù)據(jù),一般是采用流處理技術(shù),也可將流處理技術(shù)和批處理技術(shù)相結(jié)合.

      3.4 數(shù)據(jù)安全

      信息安全問題一直是伴隨著信息傳播發(fā)展起來的.大數(shù)據(jù)時代,信息呈爆炸式增長,隱私問題凸顯.單個的信息可能并不具有明顯價值性,但如果通過某些手段,把單個信息累積并關(guān)聯(lián)起來,那么這些聚集起來的信息就可能具有一定的威脅性.相反,如果為了保護數(shù)據(jù)隱私將數(shù)據(jù)進行隱藏,那么又將無法體現(xiàn)數(shù)據(jù)的價值.

      4 結(jié)語

      數(shù)據(jù)呈現(xiàn)爆炸式增長,促使大數(shù)據(jù)時代到來,正確利用大數(shù)據(jù),會給人們帶來極大益處,但與此同時也會給傳統(tǒng)的數(shù)據(jù)管理模式帶來極大的挑戰(zhàn).文章從大數(shù)據(jù)的概念、特征和應(yīng)用為出發(fā)點,研究了大數(shù)據(jù)的一些核心問題和大數(shù)據(jù)可能面臨的挑戰(zhàn).目前對大數(shù)據(jù)的研究還不夠成熟,或多或少還面臨著一些難題,相信未來更加成熟的大數(shù)據(jù)定會給人們帶來革命性的改變.

      〔1〕Nature.Big Data [EB/OL]. [2012-10-02].http://www.nature.com/new s/specials/big data/index.htm l.

      〔2〕Science.Special online collection:Dealing w ith data[EB/OL].[2012-10-02].http://www.sciencemag.org/site/special/data/,2011.

      〔3〕孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展.2013,50(1):146-169.

      〔4〕Barw ich H.The “four Vs” of Big Data.Implementing Information Infrastructure Symposium [EB/OL].[2012-10-02].http://www.computerworld.com.au/article/39619 8/iiis_four_vs_big_data/.

      〔5〕李國杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考.戰(zhàn)略與決策研究[J].中國科學(xué)院院刊,2012.11.12.

      猜你喜歡
      數(shù)據(jù)量異構(gòu)結(jié)構(gòu)化
      試論同課異構(gòu)之“同”與“異”
      基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
      促進知識結(jié)構(gòu)化的主題式復(fù)習(xí)初探
      計算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
      高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
      結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
      計算機教育(2020年5期)2020-07-24 08:53:00
      寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計與研究
      電子制作(2019年13期)2020-01-14 03:15:18
      overlay SDN實現(xiàn)異構(gòu)兼容的關(guān)鍵技術(shù)
      LTE異構(gòu)網(wǎng)技術(shù)與組網(wǎng)研究
      基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
      計算機工程(2015年8期)2015-07-03 12:20:35
      蒙城县| 内乡县| 左贡县| 玉龙| 东平县| 巴马| 清流县| 南京市| 武川县| 大同市| 璧山县| 屏南县| 丹东市| 洛浦县| 双牌县| 崇仁县| 开江县| 中方县| 易门县| 北票市| 友谊县| 澄迈县| 青州市| 松原市| 贵阳市| 阿拉善盟| 绥芬河市| 江西省| 上栗县| 平阴县| 云浮市| 海宁市| 中牟县| 赤壁市| 静乐县| 南乐县| 游戏| 博乐市| 囊谦县| 吉安市| 西昌市|