• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)處理研究及現(xiàn)狀調(diào)研

      2014-04-29 20:07:47唐燦
      中國市場 2014年40期
      關(guān)鍵詞:科學(xué)研究

      唐燦

      [摘要]“大數(shù)據(jù)”一詞已經(jīng)引起了產(chǎn)業(yè)界、科技界和政府部門的高度關(guān)注。本文簡要闡述了大數(shù)據(jù)的基本概念、研究現(xiàn)狀與重大意義,探討了大數(shù)據(jù)的科學(xué)問題,介紹了大數(shù)據(jù)應(yīng)用與研究所面臨的問題與挑戰(zhàn)。最后提出了作者的幾點思考。

      [關(guān)鍵詞]大數(shù)據(jù);第四范式

      [中圖分類號]F274[文獻標識碼]A[文章編號]1005-6432(2014)40-0079-02

      1引言

      早在1980年,著名未來學(xué)家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數(shù)據(jù)熱情地贊頌為“第三次浪潮的華彩樂章”。

      大約從2009年開始,“大數(shù)據(jù)”才成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯,并引起了產(chǎn)業(yè)界、科技界和政府部門的高度關(guān)注。美國互聯(lián)網(wǎng)數(shù)據(jù)中心指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數(shù)據(jù)是最近幾年才產(chǎn)生的。此外,數(shù)據(jù)又并非單純指人們在互聯(lián)網(wǎng)上發(fā)布的信息,全世界的工業(yè)設(shè)備、汽車、電表上有著無數(shù)的數(shù)碼傳感器,隨時測量和傳遞著有關(guān)位置、運動、振動、溫度、濕度乃至空氣中化學(xué)物質(zhì)的變化,也產(chǎn)生了海量的數(shù)據(jù)信息。

      2012年3月22日,奧巴馬宣布美國政府投資2 億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃(Big Data Research and Development Initiative)”。這是繼1993 年美國宣布“信息高速公路”計劃后的又一次重大科技發(fā)展部署。美國政府認為,大數(shù)據(jù)是“未來的新石油”,并將對大數(shù)據(jù)的研究上升為國家意志,這對未來的科技與經(jīng)濟發(fā)展必將帶來深遠影響。

      2大數(shù)據(jù)的基本概念

      人、機、物三元世界的高度融合引發(fā)了數(shù)據(jù)規(guī)模的爆炸式增長和數(shù)據(jù)模式的高度復(fù)雜化,世界已進入網(wǎng)絡(luò)化的大數(shù)據(jù)(Big Data)時代。以數(shù)據(jù)為中心的傳統(tǒng)學(xué)科(如基因組學(xué)、蛋白組學(xué),天體物理學(xué)和腦科學(xué)等)的研究產(chǎn)生了越來越多的數(shù)據(jù)。例如,用電子顯微鏡重建大腦中的突觸網(wǎng)絡(luò),1立方毫米大腦的圖像數(shù)據(jù)就超過1PB。但近年來大數(shù)據(jù)的飆升主要還是來自日常生活,特別是互聯(lián)網(wǎng)公司的服務(wù)。據(jù)著名咨詢公司IDC的統(tǒng)計,2011 年全球被創(chuàng)建和復(fù)制的數(shù)據(jù)總量為1.8ZB(10 的21 次方),其中75%來自個人(主要是圖片、視頻和音樂),遠遠超過人類有史以來所有印刷材料的數(shù)據(jù)總量(200PB)。谷歌公司通過大規(guī)模集群和MapReduce 軟件,每月處理的數(shù)據(jù)量超過400PB;百度每天要處理幾十PB 數(shù)據(jù);Facebook 注冊用戶超過10億,每月上傳的照片超過10 億張,每天生成300TB 以上的日志數(shù)據(jù);淘寶網(wǎng)會員超過3.7 億,在線商品超過8.8 億,每天交易數(shù)千萬筆,產(chǎn)生約20TB 數(shù)據(jù)。傳感網(wǎng)和物聯(lián)網(wǎng)的蓬勃發(fā)展是大數(shù)據(jù)的又一推動力,各個城市的視頻監(jiān)控每時每刻都在采集巨量的流媒體數(shù)據(jù)。工業(yè)設(shè)備的監(jiān)控也是大數(shù)據(jù)的重要來源。例如,勞斯萊斯公司對全世界數(shù)以萬計的飛機引擎進行實時監(jiān)控,每年傳送PB數(shù)量級的數(shù)據(jù)。

      一般意義上,大數(shù)據(jù)是指無法在可容忍的時間內(nèi)用傳統(tǒng)IT 技術(shù)和軟硬件工具對其進行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合。大數(shù)據(jù)的特點可以總結(jié)為4 個V,即Volume(體量浩大)、Variety(模態(tài)繁多)、Velocity(生成快速)和Value(價值巨大但密度很低)。首先,數(shù)據(jù)集合的規(guī)模不斷擴大,已從GB 到TB 再到PB 級,甚至開始以EB 和ZB來計數(shù)。IDC的研究報告稱,未來10 年全球大數(shù)據(jù)將增加50 倍,管理數(shù)據(jù)倉庫的服務(wù)器數(shù)量將增加10 倍。其次,大數(shù)據(jù)類型繁多,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)?,F(xiàn)代互聯(lián)網(wǎng)應(yīng)用呈現(xiàn)出非結(jié)構(gòu)化數(shù)據(jù)大幅增長的特點,至2012年年末,非結(jié)構(gòu)化數(shù)據(jù)占有比例將達到整個數(shù)據(jù)量的75%以上。同時,由于數(shù)據(jù)顯性或隱性的網(wǎng)絡(luò)化存在,使得數(shù)據(jù)之間的復(fù)雜關(guān)聯(lián)無所不在。再次,大數(shù)據(jù)往往以數(shù)據(jù)流的形式動態(tài)、快速地產(chǎn)生,具有很強的時效性,用戶只有把握好對數(shù)據(jù)流的掌控才能有效利用這些數(shù)據(jù)。另外,數(shù)據(jù)自身的狀態(tài)與價值也往往隨時空變化而發(fā)生演變,數(shù)據(jù)的涌現(xiàn)特征明顯。最后,雖然數(shù)據(jù)的價值巨大,但是基于傳統(tǒng)思維與技術(shù),人們在實際環(huán)境中往往面臨信息泛濫而知識匱乏的窘態(tài),大數(shù)據(jù)的價值利用密度低。

      3大數(shù)據(jù)研究的重大意義

      大數(shù)據(jù)是與自然資源、人力資源一樣重要的戰(zhàn)略資源,是一個國家數(shù)字主權(quán)的體現(xiàn)。大數(shù)據(jù)時代,國家層面的競爭力將部分體現(xiàn)為一國擁有大數(shù)據(jù)的規(guī)模、活性以及對數(shù)據(jù)的解釋、運用的能力。一個國家在網(wǎng)絡(luò)空間的數(shù)據(jù)主權(quán)將是繼海、陸、空、天之后另一個大國博弈的空間。在大數(shù)據(jù)領(lǐng)域的落后,意味著失守產(chǎn)業(yè)戰(zhàn)略制高點,意味著數(shù)字主權(quán)無險可守,意味著國家安全將出現(xiàn)漏洞。大數(shù)據(jù)將直接影響國家和社會穩(wěn)定,是關(guān)系國家安全的戰(zhàn)略性問題。因此,我國應(yīng)盡快研究并制定我們國家的大數(shù)據(jù)戰(zhàn)略。

      大數(shù)據(jù)是現(xiàn)有產(chǎn)業(yè)升級與新產(chǎn)業(yè)誕生的重要推動力量。“數(shù)據(jù)為王”的大數(shù)據(jù)時代的到來,產(chǎn)業(yè)界需求與關(guān)注點發(fā)生了重大轉(zhuǎn)變:企業(yè)關(guān)注的重點轉(zhuǎn)向數(shù)據(jù),計算機行業(yè)正在轉(zhuǎn)變?yōu)檎嬲男畔⑿袠I(yè),從追求計算速度轉(zhuǎn)變?yōu)殛P(guān)注大數(shù)據(jù)處理能力,軟件也將從編程為主轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為中心。大數(shù)據(jù)處理的興起也改變了云計算的發(fā)展方向,使其進入以分析即服務(wù)(AaaS)為主要標志的云2.0時代。采用大數(shù)據(jù)處理方法,生物制藥、新材料研制生產(chǎn)的流程會發(fā)生革命性的變化,可以通過數(shù)據(jù)處理能力極高的計算機并行處理,同時進行大批量的仿真比較和篩選,大大提高科研和生產(chǎn)效率,甚至使整個行業(yè)邁入數(shù)字化與信息化的新階段。數(shù)據(jù)已成為與礦物和化學(xué)元素一樣的原始材料,未來可能形成數(shù)據(jù)服務(wù)、數(shù)據(jù)探礦、數(shù)據(jù)化學(xué)、數(shù)據(jù)材料、數(shù)據(jù)制藥等一系列戰(zhàn)略性的新興產(chǎn)業(yè)。

      大數(shù)據(jù)還引起了科技界對科學(xué)研究方法論的重新審視,正在引發(fā)科學(xué)研究思維與方法的一場革命。最早的科學(xué)研究只有實驗科學(xué),隨后出現(xiàn)了以研究各種定律和定理為特征的理論科學(xué)。由于理論分析方法在許多問題上過于復(fù)雜,難以解決實際問題,人們開始尋求模擬的方法,導(dǎo)致計算科學(xué)的興起。海量數(shù)據(jù)的出現(xiàn)催生了一種新的科研模式,即面對海量數(shù)據(jù),科研人員只需從數(shù)據(jù)中直接查找或挖掘所需要的信息、知識和智慧,甚至無須直接接觸需研究的對象。2007 年,已故的圖靈獎得主吉姆·格雷在他最后一次演講中描繪了數(shù)據(jù)密集型科學(xué)研究的“ 第四范式”(The Fourth Paradigm),把數(shù)據(jù)密集型科學(xué)從計算科學(xué)中單獨區(qū)分開來。格雷認為,要解決我們面臨的某些最棘手的全球性挑戰(zhàn),“第四范式”可能是唯一具有系統(tǒng)性的方法。其實,“第四范式”不僅是科研方式的轉(zhuǎn)變,也是人們思維方式的大變化。

      4關(guān)于大數(shù)據(jù)的幾點思考

      4.1大數(shù)據(jù)的研究目標

      計算機科學(xué)是關(guān)于算法的科學(xué),數(shù)據(jù)科學(xué)是關(guān)于數(shù)據(jù)的科學(xué)。從事數(shù)據(jù)科學(xué)研究的學(xué)者更關(guān)注數(shù)據(jù)的科學(xué)價值,試圖把數(shù)據(jù)當(dāng)成一個“自然體”來研究,提出所謂“數(shù)據(jù)界”的概念,頗有把計算機科學(xué)劃歸為自然科學(xué)的傾向。但脫離各個領(lǐng)域的“物理世界”,作為客觀事物間接存在形式的“數(shù)據(jù)界”究竟有什么共性問題還不清楚。物理世界在網(wǎng)絡(luò)空間中有其數(shù)據(jù)映像,目前一些學(xué)者認為,數(shù)據(jù)界的規(guī)律其本質(zhì)可能是物理世界的規(guī)律(還需要在物理世界中測試驗證)。除去各個領(lǐng)域的規(guī)律,作為映像的“數(shù)據(jù)界”還有其獨特的共同規(guī)律嗎?這是一個值得深思的問題。另外,大數(shù)據(jù)依然囿于“術(shù)”而無法進諸“道”。

      任何領(lǐng)域的研究,若要成為一門科學(xué),一定是研究共性的問題。針對非常狹窄領(lǐng)域的某個具體問題,主要依靠該問題涉及的特殊條件和專門知識做數(shù)據(jù)挖掘,不大可能使大數(shù)據(jù)成為一門科學(xué)。數(shù)據(jù)研究能成為一門科學(xué)的前提是,在一個領(lǐng)域發(fā)現(xiàn)的數(shù)據(jù)相互關(guān)系和規(guī)律具有可推廣到其他領(lǐng)域的普適性。抽象出一個領(lǐng)域的共性科學(xué)問題往往需要較長的時間,提煉“數(shù)據(jù)界”的共性科學(xué)問題還需要一段時間的實踐積累。

      4.2大數(shù)據(jù)的相關(guān)關(guān)系和因果關(guān)系

      大數(shù)據(jù)研究不同于傳統(tǒng)的邏輯推理研究,而是對數(shù)量巨大的數(shù)據(jù)做統(tǒng)計性的搜索、比較、聚類、分類等分析歸納,因此繼承了統(tǒng)計科學(xué)的一些特點。統(tǒng)計學(xué)關(guān)注數(shù)據(jù)的相關(guān)性或稱關(guān)聯(lián)性,所謂“相關(guān)性”是指兩個或兩個以上變量的取值之間存在某種規(guī)律性?!跋嚓P(guān)分析”的目的是找出數(shù)據(jù)集里隱藏的相互關(guān)系網(wǎng)(關(guān)聯(lián)網(wǎng)),一般用支持度、可信度、興趣度等參數(shù)反映相關(guān)性。兩個數(shù)據(jù)A和B有相關(guān)性,只有反映A和B在取值時相互有影響,并不能告訴我們有A就一定有B,或者反過來有B就一定有A。嚴格來講,統(tǒng)計學(xué)無法檢驗邏輯上的因果關(guān)系。如,根據(jù)統(tǒng)計結(jié)果:可以說“吸煙的人群肺癌發(fā)病率會比不吸煙的人群高幾倍”,但統(tǒng)計結(jié)果無法得出“吸煙致癌”的邏輯結(jié)論。統(tǒng)計學(xué)的相關(guān)性有時可能會產(chǎn)生把結(jié)果當(dāng)成原因的錯覺。如,統(tǒng)計結(jié)果表明:下雨之前常見到燕子低飛,從時間先后看兩者的關(guān)系可能得出燕子低飛是下雨的原因,而事實上,將要下雨才是燕子低飛的原因。很多人認為只要知道“是什么”就行了,沒必要知道“為什么”,但事實上正是對事物背后原因的探求推動了人類社會的進步。

      4.3大數(shù)據(jù)研究的社會人文問題

      根據(jù)數(shù)據(jù)的來源,大數(shù)據(jù)可以粗略地分成兩大類:一類來自物理世界,另一類來自人類社會。前者多半是科學(xué)實驗數(shù)據(jù)或傳感數(shù)據(jù),后者與人的活動有關(guān)系,特別是與互聯(lián)網(wǎng)有關(guān)。這兩類數(shù)據(jù)的處理方式和目標差別較大,不能照搬處理科學(xué)實驗數(shù)據(jù)的方法來處理Web數(shù)據(jù)。

      5結(jié)論

      隨著云計算、物聯(lián)網(wǎng)等的發(fā)展,數(shù)據(jù)呈現(xiàn)爆炸式的增長,人們正被數(shù)據(jù)洪流所包圍,大數(shù)據(jù)的時代已經(jīng)到來。正確利用大數(shù)據(jù)給人們的生活帶來了極大的便利,但與此同時也給傳統(tǒng)的數(shù)據(jù)管理方式帶來了極大的挑戰(zhàn),期望本文的介紹能給大數(shù)據(jù)研究同行學(xué)者提供一定的參考。

      參考文獻:

      [1]孟小峰.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展.2013,50(1):146-169.

      [2]李國杰.大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2012(6).

      猜你喜歡
      科學(xué)研究
      FMS與YBT相關(guān)性的實證研究
      2020年國內(nèi)翻譯研究述評
      遼代千人邑研究述論
      視錯覺在平面設(shè)計中的應(yīng)用與研究
      科技傳播(2019年22期)2020-01-14 03:06:54
      點擊科學(xué)
      點擊科學(xué)
      科學(xué)大爆炸
      EMA伺服控制系統(tǒng)研究
      新版C-NCAP側(cè)面碰撞假人損傷研究
      科學(xué)
      新余市| 大港区| 玛多县| 遂川县| 会泽县| 织金县| 屏东县| 普陀区| 商丘市| 镇巴县| 房产| 农安县| 岱山县| 从化市| 锡林郭勒盟| 六盘水市| 文水县| 临泉县| 福清市| 成武县| 汕尾市| 湟源县| 西昌市| 清远市| 化德县| 平谷区| 台中县| 合作市| 雅江县| 佳木斯市| 博客| 广安市| 郓城县| 宾川县| 莱州市| 正镶白旗| 新竹县| 咸丰县| 安溪县| 横山县| 德阳市|