文/李國杰 程學旗
中國科學院計算技術研究所 北京 100190
近年來,大數(shù)據(jù)引起了產業(yè)界、科技界和政府部門的高度關注。2012年3月22日,奧巴馬宣布美國政府投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃(Big Data Research and Development Initiative)”。這是繼1993年美國宣布“信息高速公路”計劃后的又一次重大科技發(fā)展部署。美國政府認為,大數(shù)據(jù)是“未來的新石油”,并將對大數(shù)據(jù)的研究上升為國家意志,這對未來的科技與經濟發(fā)展必將帶來深遠影響。
人、機、物三元世界的高度融合引發(fā)了數(shù)據(jù)規(guī)模的爆炸式增長和數(shù)據(jù)模式的高度復雜化,世界已進入網絡化的大數(shù)據(jù)(Big Data)時代[1,16]。以數(shù)據(jù)為中心的傳統(tǒng)學科(如基因組學、蛋白組學,天體物理學和腦科學等)的研究產生了越來越多的數(shù)據(jù)。例如,用電子顯微鏡重建大腦中的突觸網絡,1立方毫米大腦的圖像數(shù)據(jù)就超過1PB。但近年來大數(shù)據(jù)的飆升主要還是來自日常生活,特別是互聯(lián)網公司的服務。據(jù)著名咨詢公司IDC的統(tǒng)計,2011年全球被創(chuàng)建和復制的數(shù)據(jù)總量為1.8ZB(10的21次方),其中75%來自于個人(主要是圖片、視頻和音樂),遠遠超過人類有史以來所有印刷材料的數(shù)據(jù)總量(200PB)[11]。Google公司通過大規(guī)模集群和MapReduce軟件,每月處理的數(shù)據(jù)量超過400PB;百度每天大約要處理幾十PB數(shù)據(jù);Facebook注冊用戶超過10億,每月上傳的照片超過10億張,每天生成300TB以上的日志數(shù)據(jù);淘寶網會員超過3.7億,在線商品超過8.8億,每天交易數(shù)千萬筆,產生約20TB數(shù)據(jù)。傳感網和物聯(lián)網的蓬勃發(fā)展是大數(shù)據(jù)的又一推動力,各個城市的視頻監(jiān)控每時每刻都在采集巨量的流媒體數(shù)據(jù)。工業(yè)設備的監(jiān)控也是大數(shù)據(jù)的重要來源。例如,勞斯萊斯公司對全世界數(shù)以萬計的飛機引擎進行實時監(jiān)控,每年傳送PB數(shù)量級的數(shù)據(jù)。
一般意義上,大數(shù)據(jù)是指無法在可容忍的時間內用傳統(tǒng)IT技術和軟硬件工具對其進行感知、獲取、管理、處理和服務的數(shù)據(jù)集合。大數(shù)據(jù)的特點可以總結為4個V,即Volume(體量浩大)、Variety(模態(tài)繁多)、Velocity(生成快速)和Value(價值巨大但密度很低)。首先,數(shù)據(jù)集合的規(guī)模不斷擴大,已從GB到TB再到PB級,甚至開始以EB和ZB來計數(shù)。IDC的研究報告稱,未來10年全球大數(shù)據(jù)將增加50倍,管理數(shù)據(jù)倉庫的服務器數(shù)量將增加10倍[11]。其次,大數(shù)據(jù)類型繁多,包括結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù)?,F(xiàn)代互聯(lián)網應用呈現(xiàn)出非結構化數(shù)據(jù)大幅增長的特點,至2012年末,非結構化數(shù)據(jù)占有比例將達到整個數(shù)據(jù)量的75%以上。同時,由于數(shù)據(jù)顯性或隱性的網絡化存在,使得數(shù)據(jù)之間的復雜關聯(lián)無所不在。再次,大數(shù)據(jù)往往以數(shù)據(jù)流的形式動態(tài)、快速地產生,具有很強的時效性,用戶只有把握好對數(shù)據(jù)流的掌控才能有效利用這些數(shù)據(jù)。另外,數(shù)據(jù)自身的狀態(tài)與價值也往往隨時空變化而發(fā)生演變,數(shù)據(jù)的涌現(xiàn)特征明顯。最后,雖然數(shù)據(jù)的價值巨大,但是基于傳統(tǒng)思維與技術,人們在實際環(huán)境中往往面臨信息泛濫而知識匱乏的窘態(tài),大數(shù)據(jù)的價值利用密度低。
毫無疑問,大數(shù)據(jù)隱含著巨大的社會、經濟、科研價值,已引起了各行各業(yè)的高度重視[14,15,17]。如果能有效地組織和使用大數(shù)據(jù),將對社會經濟和科學研究發(fā)展產生巨大的推動作用,同時也孕育著前所未有的機遇。著名的O'Reilly公司斷言:“數(shù)據(jù)是下一個‘Intel Inside’,未來屬于將數(shù)據(jù)轉換成產品的公司和人們?!?/p>
IBM、Oracle、Microsoft、Google、Amazon、Facebook等跨國巨頭是發(fā)展大數(shù)據(jù)處理技術的主要推動者。自2005年以來,IBM投資160億美元進行了30次與大數(shù)據(jù)有關的收購,促使其業(yè)績穩(wěn)定高速增長。2012年,IBM股價突破200美元大關,3年之內股價翻了3倍。華爾街早就開始招聘精通數(shù)據(jù)分析的天文學家和理論數(shù)學家來設計金融產品。IBM現(xiàn)在是全球數(shù)學博士的最大雇主,數(shù)學家正在將其數(shù)據(jù)分析的才能應用于石油勘探、醫(yī)療健康等各個領域。eBay通過數(shù)據(jù)挖掘可精確計算出廣告中的每一個關鍵字為公司帶來的回報。通過對廣告投放的優(yōu)化,2007年以來eBay產品銷售的廣告費降低了99%,而頂級賣家占總銷售額的百分比卻上升至32%。目前推動大數(shù)據(jù)研究的動力主要是企業(yè)經濟效益,巨大的經濟利益驅使大企業(yè)不斷擴大數(shù)據(jù)處理規(guī)模[14,15,17]。
近幾年,Nature和Science等國際頂級學術刊物相繼出版??瘉韺iT探討對大數(shù)據(jù)的研究[6-9]。2008年Nature出版??癇ig Data”[6],從互聯(lián)網技術、網絡經濟學、超級計算、環(huán)境科學、生物醫(yī)藥等多個方面介紹了海量數(shù)據(jù)帶來的挑戰(zhàn)。2011年Science推出關于數(shù)據(jù)處理的??癉ealing with da?ta”[7],討論了數(shù)據(jù)洪流(Data Deluge)所帶來的挑戰(zhàn),特別指出,倘若能夠更有效地組織和使用這些數(shù)據(jù),人們將得到更多的機會發(fā)揮科學技術對社會發(fā)展的巨大推動作用。2012年4月歐洲信息學與數(shù)學研究協(xié)會會刊ERCIM News出版??癇ig Data”[9],討論了大數(shù)據(jù)時代的數(shù)據(jù)管理、數(shù)據(jù)密集型研究的創(chuàng)新技術等問題,并介紹了歐洲科研機構開展的研究活動和取得的創(chuàng)新性進展。在這樣的大背景下,2012年5月,香山科學會議組織了以“大數(shù)據(jù)科學與工程——一門新興的交叉學科?”為主題的第424次學術討論會,來自國內外35個單位橫跨IT、經濟、管理、社會、生物等多個不同學科領域的43位專家代表參會,并就大數(shù)據(jù)的理論與工程技術研究、應用方向以及大數(shù)據(jù)研究的組織方式與資源支持形式等重要問題進行了深入討論。6月,中國計算機學會青年計算機科技論壇(CCF YOCSEF)舉辦了“大數(shù)據(jù)時代,智謀未來”學術報告會,就大數(shù)據(jù)時代的數(shù)據(jù)挖掘、體系架構理論、大數(shù)據(jù)安全、大數(shù)據(jù)平臺開發(fā)與大數(shù)據(jù)現(xiàn)實案例進行了全面的討論??傮w而言,大數(shù)據(jù)技術及相應的基礎研究已經成為科技界的研究熱點,大數(shù)據(jù)科學作為一個橫跨信息科學、社會科學、網絡科學、系統(tǒng)科學、心理學、經濟學等諸多領域的新興交叉學科方向正在逐步形成。
大數(shù)據(jù)同時也引起了包括美國在內的許多國家政府的極大關注。如前所述,2012年3月,美國公布了“大數(shù)據(jù)研發(fā)計劃”[13]。該計劃旨在提高和改進人們從海量和復雜的數(shù)據(jù)中獲取知識的能力,進而加速美國在科學與工程領域發(fā)明的步伐,增強國家安全。根據(jù)該計劃,美國國家科學基金會(NSF)、國立衛(wèi)生研究院(NIH)、國防部(DOD)、能源部(DOE)、國防部高級研究計劃局(DARPA)、地質勘探局(USGS)6個聯(lián)邦部門和機構共同提高收集、儲存、保留、管理、分析和共享海量數(shù)據(jù)所需的核心技術,擴大大數(shù)據(jù)技術開發(fā)和應用所需人才的供給。該計劃還強調,大數(shù)據(jù)技術事關美國國家安全、科學和研究的步伐,將引發(fā)教育和學習的變革。歐盟方面也有類似的舉措。過去幾年歐盟已對科學數(shù)據(jù)基礎設施投資1億多歐元,并將數(shù)據(jù)信息化基礎設施作為Horizon 2020計劃的優(yōu)先領域之一。2012年1月截止的預算為5000萬歐元的FP7 Call 8專門征集針對大數(shù)據(jù)的研究項目,仍以基礎設施為先導[9]??v觀國際形勢,對大數(shù)據(jù)的研究與應用已引起各國政府的高度重視,并已成為重要的戰(zhàn)略布局方向。
大數(shù)據(jù)是與自然資源、人力資源一樣重要的戰(zhàn)略資源,是一個國家數(shù)字主權的體現(xiàn)。大數(shù)據(jù)時代,國家層面的競爭力將部分體現(xiàn)為一國擁有大數(shù)據(jù)的規(guī)模、活性以及對數(shù)據(jù)的解釋、運用的能力。一個國家在網絡空間的數(shù)據(jù)主權將是繼海、陸、空、天之后另一個大國博弈的空間。在大數(shù)據(jù)領域的落后,意味著失守產業(yè)戰(zhàn)略制高點,意味著數(shù)字主權無險可守,意味著國家安全將出現(xiàn)漏洞。大數(shù)據(jù)將直接影響國家和社會穩(wěn)定,是關系國家安全的戰(zhàn)略性問題。因此,我國應盡快研究并制定我們國家的大數(shù)據(jù)戰(zhàn)略。
大數(shù)據(jù)是現(xiàn)有產業(yè)升級與新產業(yè)誕生的重要推動力量。數(shù)據(jù)為王的大數(shù)據(jù)時代的到來,產業(yè)界需求與關注點發(fā)生了重大轉變:企業(yè)關注的重點轉向數(shù)據(jù),計算機行業(yè)正在轉變?yōu)檎嬲男畔⑿袠I(yè),從追求計算速度轉變?yōu)殛P注大數(shù)據(jù)處理能力,軟件也將從編程為主轉變?yōu)橐詳?shù)據(jù)為中心。大數(shù)據(jù)處理的興起也改變了云計算的發(fā)展方向,使其進入以分析即服務(AaaS)為主要標志的Cloud 2.0時代。采用大數(shù)據(jù)處理方法,生物制藥、新材料研制生產的流程會發(fā)生革命性的變化,可以通過數(shù)據(jù)處理能力極高的計算機并行處理,同時進行大批量的仿真比較和篩選,大大提高科研和生產效率,甚至使整個行業(yè)邁入數(shù)字化與信息化的新階段。數(shù)據(jù)已成為與礦物和化學元素一樣的原始材料,未來可能形成數(shù)據(jù)服務、數(shù)據(jù)探礦、數(shù)據(jù)化學、數(shù)據(jù)材料、數(shù)據(jù)制藥等一系列戰(zhàn)略性的新興產業(yè)。
大數(shù)據(jù)還引起了科技界對科學研究方法論的重新審視,正在引發(fā)科學研究思維與方法的一場革命。最早的科學研究只有實驗科學,隨后出現(xiàn)了以研究各種定律和定理為特征的理論科學。由于理論分析方法在許多問題上過于復雜,難以解決實際問題,人們開始尋求模擬的方法,導致計算科學的興起。海量數(shù)據(jù)的出現(xiàn)催生了一種新的科研模式,即面對海量數(shù)據(jù),科研人員只需從數(shù)據(jù)中直接查找或挖掘所需要的信息、知識和智慧,甚至無需直接接觸需研究的對象。2007年,已故的圖靈獎得主吉姆·格雷(Jim Gray)在他最后一次演講中描繪了數(shù)據(jù)密集型科學研究的“第四范式”(The Fourth Paradigm)[5],把數(shù)據(jù)密集型科學從計算科學中單獨區(qū)分開來。格雷認為,要解決我們面臨的某些最棘手的全球性挑戰(zhàn),“第四范式”可能是唯一具有系統(tǒng)性的方法。其實,“第四范式”不僅是科研方式的轉變,也是人們思維方式的大變化。
計算機科學是關于算法的科學,數(shù)據(jù)科學是關于數(shù)據(jù)的科學。從事數(shù)據(jù)科學研究的學者更關注數(shù)據(jù)的科學價值,試圖把數(shù)據(jù)當成一個“自然體(Data nature)”來研究,提出所謂“數(shù)據(jù)界(Data universe)”的概念,頗有把計算機科學劃歸為自然科學的傾向。但脫離各個領域的“物理世界”,作為客觀事物間接存在形式的“數(shù)據(jù)界”究竟有什么共性問題還不清楚。物理世界在網絡空間中有其數(shù)據(jù)映像,目前一些學者認為,數(shù)據(jù)界的規(guī)律其本質可能是物理世界的規(guī)律(還需要在物理世界中測試驗證)。除去各個領域的規(guī)律,作為映像的“數(shù)據(jù)界”還有其獨特的共同規(guī)律嗎?這是一個值得深思的問題。
任何領域的研究,若要成為一門科學,一定是研究共性的問題。針對非常狹窄領域的某個具體問題,主要依靠該問題涉及的特殊條件和專門知識做數(shù)據(jù)挖掘,不大可能使大數(shù)據(jù)成為一門科學。數(shù)據(jù)研究能成為一門科學的前提是,在一個領域發(fā)現(xiàn)的數(shù)據(jù)相互關系和規(guī)律具有可推廣到其他領域的普適性。抽象出一個領域的共性科學問題往往需要較長的時間,提煉“數(shù)據(jù)界”的共性科學問題還需要一段時間的實踐積累。至少未來5—10年內計算機界的學者還需多花精力協(xié)助其他領域的學者解決大數(shù)據(jù)帶來的技術挑戰(zhàn)問題。通過分層次的不斷抽象,大數(shù)據(jù)的共性科學問題才會逐步清晰明朗。
當前數(shù)據(jù)科學的目標還不很明確,但與其他學科一樣,科學研究的道路常常是先做“白盒研究”,知識積累多了就有可能抽象出通用性較強的“黑盒模型”和普適規(guī)律。數(shù)據(jù)庫理論是一個很好的例子。在經歷了層次數(shù)據(jù)庫、網狀數(shù)據(jù)庫多年實踐后,Codd[18]發(fā)現(xiàn)了數(shù)據(jù)庫應用的共性規(guī)律,建立了有堅實理論基礎的關系模型。在這之前人們也一直在問數(shù)據(jù)庫可不可能有共性的理論。現(xiàn)在大數(shù)據(jù)研究要做的事就是提出像關系數(shù)據(jù)庫這樣的理論來指導海量非結構化數(shù)據(jù)的處理。
信息技術的發(fā)展使我們逐步進入“人-機-物”融合的三元世界,未來的世界可以做到“機中有人,人中有機,物中有機,機中有物”。所謂“機”就是聯(lián)系人類社會(包括個人身體與大腦)與物理世界的網絡空間,其最基本的構成元素是不同于原子和神經元的bit。物理空間和人類社會(包括人的大腦)都有共性的科學問題和規(guī)律,與這兩者有密切聯(lián)系的網絡空間會不會有不同的共性科學問題?從“人-機-物”三元世界的角度來探討大數(shù)據(jù)科學的共性問題,也許是一個可以嘗試的突破口。
觀察各種復雜系統(tǒng)得到的大數(shù)據(jù),直接反映的往往是一個個孤立的數(shù)據(jù)和分散的鏈接,但這些反映相互關系的鏈接整合起來就是一個網絡。例如,基因數(shù)據(jù)構成基因網絡,腦科學實驗數(shù)據(jù)形成神經網絡,Web數(shù)據(jù)反映出社會網絡。數(shù)據(jù)的共性、網絡的整體特征隱藏在數(shù)據(jù)網絡中,大數(shù)據(jù)往往以復雜關聯(lián)的數(shù)據(jù)網絡這樣一種獨特的形式存在,因此要理解大數(shù)據(jù)就要對大數(shù)據(jù)后面的網絡進行深入分析。網絡有不少參數(shù)和性質,如平均路徑長度、度分布、聚集系數(shù)、核數(shù)、介數(shù)等,這些性質和參數(shù)也許能刻畫大數(shù)據(jù)背后網絡的共性。因此,大數(shù)據(jù)面臨的科學問題本質上可能就是網絡科學問題,復雜網絡分析應該是數(shù)據(jù)科學的重要基石。
目前,研究Web數(shù)據(jù)的學者以復雜網絡上的數(shù)據(jù)(信息)傳播機理、搜索、聚類、同步和控制作為主要研究方向。最新的研究成果表明[4],隨機的Scale-free網絡不是一般的“小世界”,而是“超小世界(Ultrasmall world)”,規(guī)模為N的網絡的最短路徑的平均長度不是一般小世界的lnN而是lnlnN。網絡數(shù)據(jù)研究應發(fā)現(xiàn)網絡數(shù)據(jù)產生、傳播以及網絡信息涌現(xiàn)的內在機制,還要研究隱藏在數(shù)據(jù)背后的社會學、心理學、經濟學的機理,同時利用這些機理研究互聯(lián)網對政治、經濟、文化、教育、科研的影響?;诖髷?shù)據(jù)對復雜系統(tǒng)內在機理進行整體性的研究,也許將為研究復雜系統(tǒng)提供新的途徑。從這種意義上看,數(shù)據(jù)科學是從整體上研究復雜系統(tǒng)的一門科學。
發(fā)現(xiàn)Scale-free網絡的Albert-László Barabási教授在2012年1月的Nature Phys?ics上發(fā)表一篇重要文章“The network take?over”[3]。文章認為:20世紀是量子力學的世紀,從電子學到天文物理學,從核能到量子計算,都離不開量子力學;而到了21世紀,網絡理論正在成為量子力學的可尊敬的后繼,正在構建一個新的理論和算法的框架。
大數(shù)據(jù)研究不同于傳統(tǒng)的邏輯推理研究,而是對數(shù)量巨大的數(shù)據(jù)做統(tǒng)計性的搜索、比較、聚類、分類等分析歸納,因此繼承了統(tǒng)計科學的一些特點。統(tǒng)計學關注數(shù)據(jù)的相關性或稱關聯(lián)性,所謂“相關性”是指兩個或兩個以上變量的取值之間存在某種規(guī)律性?!跋嚓P分析”的目的是找出數(shù)據(jù)集里隱藏的相互關系網(關聯(lián)網),一般用支持度、可信度、興趣度等參數(shù)反映相關性。兩個數(shù)據(jù)A和B有相關性,只有反映A和B在取值時相互有影響,并不能告訴我們有A就一定有B,或者反過來有B就一定有A。嚴格來講,統(tǒng)計學無法檢驗邏輯上的因果關系。如,根據(jù)統(tǒng)計結果:可以說“吸煙的人群肺癌發(fā)病率會比不吸煙的人群高幾倍”,但統(tǒng)計結果無法得出“吸煙致癌”的邏輯結論。統(tǒng)計學的相關性有時可能會產生把結果當成原因的錯覺。如,統(tǒng)計結果表明:下雨之前常見到燕子低飛,從時間先后看兩者的關系可能得出燕子低飛是下雨的原因,而事實上,將要下雨才是燕子低飛的原因。
也許正是因為統(tǒng)計方法不能致力于尋找真正的原因,才促使數(shù)據(jù)挖掘和大數(shù)據(jù)技術在商業(yè)領域廣泛流行。企業(yè)的目標是多賺錢,只要從數(shù)據(jù)挖掘中發(fā)現(xiàn)某種措施與增加企業(yè)利潤有較強的相關性,采取這種措施就是了,不必深究為什么能增加利潤,更不必發(fā)現(xiàn)其背后的內在規(guī)律和模型。一般而言,企業(yè)收集和處理大數(shù)據(jù),不是按學者們經常描述的“從數(shù)據(jù)到信息再到知識和智慧”的研究思路,而是走“從數(shù)據(jù)直接到價值”的捷徑。Google廣告獲得巨額收入經常被引用作為大數(shù)據(jù)相關分析的成功案例,美國Wired雜志主編Chris Anderson在他的著名文章“The End of Theory”的結尾發(fā)問:“現(xiàn)在是時候問這一句了:科學能從谷歌那兒學到什么?”[2]。
因果關系的研究曾引發(fā)了科學體系的建立,近代科學體系獲得的成就已經證明,科學是研究因果關系最重要的手段。相關性研究是可以替代因果分析的科學新發(fā)展還只是因果分析的補充,不同的學者有完全不同的看法。我們都是從做平面幾何證明題開始進入科學大花園的,腦子里固有的邏輯思維模式少不了因果分析,判斷是否是真理也習慣看充分必要條件,對于大數(shù)據(jù)的關聯(lián)分析蘊含的科學意義往往理解不深。對于簡單封閉的系統(tǒng),基于小數(shù)據(jù)的因果分析容易做到。當年開普勒發(fā)現(xiàn)行星三大定律,牛頓發(fā)現(xiàn)力學三大定律都是基于小數(shù)據(jù)。但對于開放復雜的巨系統(tǒng),傳統(tǒng)的因果分析難以奏效,因為系統(tǒng)中各個組成部分之間相互有影響,可能互為因果,因果關系隱藏在整個系統(tǒng)之中。現(xiàn)在的“因”可能是過去的“果”,此處的“果”也可能是別處的“因”,因果關系本質上是一種相互糾纏的相關性。在物理學的基本粒子理論中,頗受重視的歐幾里德量子引力學(霍金所倡導的理論)本身并不包括因果律。因此,對于大數(shù)據(jù)的關聯(lián)分析是不是“知其然而不知其所以然”,其中可能包含深奧的哲理,不能貿然下結論。
根據(jù)數(shù)據(jù)的來源,大數(shù)據(jù)可以初略地分成兩大類:一類來自物理世界,另一類來自人類社會。前者多半是科學實驗數(shù)據(jù)或傳感數(shù)據(jù),后者與人的活動有關系,特別是與互聯(lián)網有關。這兩類數(shù)據(jù)的處理方式和目標差別較大,不能照搬處理科學實驗數(shù)據(jù)的方法來處理Web數(shù)據(jù)。
科學實驗是科技人員設計的,如何采集數(shù)據(jù)、處理數(shù)據(jù)事先都已想好了,不管是檢索還是模式識別,都有一定的科學規(guī)律可循。美國的大數(shù)據(jù)研究計劃中專門列出尋找希格斯粒子(被稱為“上帝粒子”)的大型強子對撞機(LHC)實驗。這是一個典型的基于大數(shù)據(jù)的科學實驗,至少要在1萬億個事例中才可能找出1個希格斯粒子。2012年7月4日,CERN宣布發(fā)現(xiàn)新的玻色子,標準差為4.9,被認為可能是希格斯玻色子(承認是希格斯玻色子粒子需要5個標準差,即99.99943%的可能性是對的)[12]。設計這一實驗的激動人心之處在于,不論找到還是沒有找到希格斯粒子,都是物理學的重大突破。從這一實驗可以看出,科學實驗的大數(shù)據(jù)處理是整個實驗的一個預定步驟,發(fā)現(xiàn)有價值的信息往往在預料之中。
Web上的信息(譬如微博)是千千萬萬的人隨機產生的,從事社會科學研究的學者要從這些看似雜亂無章的數(shù)據(jù)中尋找有價值的蛛絲馬跡。網絡大數(shù)據(jù)有許多不同于自然科學數(shù)據(jù)的特點,包括多源異構、交互性、時效性、社會性、突發(fā)性和高噪聲等,不但非結構化數(shù)據(jù)多,而且數(shù)據(jù)的實時性強,大量數(shù)據(jù)都是隨機動態(tài)產生??茖W數(shù)據(jù)的采集一般代價較高,LHC實驗設備花了幾十億美元,因此對采集什么數(shù)據(jù)要做精心安排。而網絡數(shù)據(jù)的采集相對成本較低,網上許多數(shù)據(jù)是重復的或者沒有價值,價值密度很低。一般而言,社會科學的大數(shù)據(jù)分析,特別是根據(jù)Web數(shù)據(jù)做經濟形勢、安全形勢、社會群體事件的預測,比科學實驗的數(shù)據(jù)分析更困難。
未來的任務主要不是獲取越來來越多的數(shù)據(jù),而是數(shù)據(jù)的去冗分類、去粗取精,從數(shù)據(jù)中挖掘知識。幾百年來,科學研究一直在做“從薄到厚”的事情,把“小數(shù)據(jù)”變成“大數(shù)據(jù)”,現(xiàn)在要做的事情是“從厚到薄”,要把大數(shù)據(jù)變成小數(shù)據(jù)。要在不明顯增加采集成本的條件下盡可能提高數(shù)據(jù)的質量。要研究如何科學合理地抽樣采集數(shù)據(jù),減少不必要的數(shù)據(jù)采集。兩三歲的小孩學習識別動物和汽車等,往往幾十張樣本圖片就足夠了,研究清楚人類為什么具有小數(shù)據(jù)學習能力,對開展大數(shù)據(jù)分析研究具有深刻的指導意義。
近10年來增長最快的數(shù)據(jù)是網絡上傳播的各種非結構化或半結構化的數(shù)據(jù)。網絡數(shù)據(jù)的背后是相互聯(lián)系的各種人群,網絡大數(shù)據(jù)的處理能力直接關系到國家的信息空間安全和社會穩(wěn)定[10]。從心理學、經濟學、信息科學等不同學科領域共同探討網絡數(shù)據(jù)的產生、擴散、涌現(xiàn)的基本規(guī)律,是建立安全和諧的網絡環(huán)境的重大戰(zhàn)略需求,是促使國家長治久安的大事。我國擁有世界上最多的網民和最大的訪問量,在網絡大數(shù)據(jù)分析方面已有較強的基礎,有望做出世界領先的原始創(chuàng)新成果,應加大網絡大數(shù)據(jù)分析方面的研究力度。
計算復雜性是計算機科學的基本問題,科學計算主要考慮時間復雜性和空間復雜性。對于大數(shù)據(jù)處理,除了時間和空間復雜性外,可能還需要考慮解決一個問題需要多大的數(shù)據(jù)量,暫且稱為“數(shù)據(jù)量復雜性”。數(shù)據(jù)量復雜性和空間復雜性不是一個概念,空間復雜性要考慮計算過程中產生的空間需求。
設想有人采集完全隨機地拋擲硬幣的正反面數(shù)據(jù),得到極長的01數(shù)字序列,通過統(tǒng)計可計算出現(xiàn)正面的比例??梢钥隙ǎ占臄?shù)據(jù)越多,其結果與0.5的誤差越小,這是一個無限漸進的過程?;谖ㄏ蠹僭O的數(shù)據(jù)處理常出現(xiàn)這類增量式進步,數(shù)據(jù)多一點,結果就好一點。這類問題的數(shù)據(jù)科學價值可能不大。反過來,可能有些問題的數(shù)據(jù)處理像個無底洞,無論多少數(shù)據(jù)都不可能解決問題。這種問題有些類似NP問題。我們需要建立一種理論,對求解一個問題達到某種滿意程度(對判定問題是有多大把握說“是”或“否”,優(yōu)化問題是接近最優(yōu)解的程度)需要多大規(guī)模的數(shù)據(jù)量給出理論上的判斷。當然,目前還有很多問題沒有定義清楚,比如,對于網絡搜索之類的問題,如何定義問題規(guī)模和數(shù)據(jù)規(guī)模等。
對從事大數(shù)據(jù)研究的學者而言,最有意思的問題應該是,解決一個問題的數(shù)據(jù)規(guī)模有一個閾值。數(shù)據(jù)少于這個閾值,問題解決不了;達到這個閾值,就可以解決以前解決不了的大問題;而數(shù)據(jù)規(guī)模超過這個閾值,對解決問題也沒有更多的幫助。我們把這類問題稱為“預言性數(shù)據(jù)分析問題”,即在做大數(shù)據(jù)處理之前,我們可以預言,當數(shù)據(jù)量到達多大規(guī)模時,該問題的解可以達到何種滿意程度。
與社會科學有關的大數(shù)據(jù)問題,例如輿情分析、情感分析等,許多理論問題過去沒有考慮過,才剛剛開始研究。迫切需要計算機學者與社會科學領域的學者密切合作,共同開拓新的疆域。借助大數(shù)據(jù)的推力,社會科學將脫下“準科學”的外衣,真正邁進科學的殿堂。
已故圖靈獎得主吉姆·格雷提出的數(shù)據(jù)密集型科研“第四范式(the fourth paradigm)”,將大數(shù)據(jù)科研從第三范式(計算科學)中分離出來單獨作為一種科研范式,是因為其研究方式不同于基于數(shù)學模型的傳統(tǒng)研究方式[5]。Google公司的研究部主任Peter Norvig的一句名言可以概括兩者的區(qū)別:“所有的模型都是錯誤的,進一步說,沒有模型你也可以成功(All models are wrong,and increasingly you can succeed without them)”[2]。PB級數(shù)據(jù)使我們可以做到沒有模型和假設就可以分析數(shù)據(jù)。將數(shù)據(jù)丟進巨大的計算機機群中,只要有相互關系的數(shù)據(jù),統(tǒng)計分析算法可以發(fā)現(xiàn)過去的科學方法發(fā)現(xiàn)不了的新模式、新知識甚至新規(guī)律。實際上,Google的廣告優(yōu)化配置、戰(zhàn)勝人類的IBM沃森問答系統(tǒng)都是這么實現(xiàn)的,這就是“第四范式”的魅力!
美國Wired雜志主編Chris Anderson 2008年曾發(fā)出“理論已終結”的驚人斷言:“數(shù)據(jù)洪流使(傳統(tǒng))科學方法變得過時(The Data Deluge Makes the Scientific Method Obsolete)”[2]。他指出,獲得海量數(shù)據(jù)和處理這些數(shù)據(jù)的統(tǒng)計工具的可能性提供了理解世界的一條完整的新途徑。Petabytes讓我們說:相互關系已經足夠(Correlation is enough)。我們可以停止尋找模型,相互關系取代了因果關系,沒有具有一致性的模型、統(tǒng)一的理論和任何機械式的說明,科學也可以進步。
Chris Anderson的極端看法并沒有得到科學界的普遍認同,數(shù)據(jù)量的增加能否引起科研方法本質性的改變仍然是一個值得探討的問題。對研究領域的深刻理解(如空氣動力學方程用于風洞實驗)和數(shù)據(jù)量的積累應是一個迭代累進的過程。沒有科學假設和模型就能發(fā)現(xiàn)新知識究竟有多大的普適性也需要實踐來檢驗,我們需要思考:這類問題有多大的普遍性?這種優(yōu)勢是數(shù)據(jù)量特別大帶來的還是問題本身有這種特性?所謂從數(shù)據(jù)中獲取知識要不要人的參與,人在機器自動學習和運行中應該扮演什么角色?也許有些領域可以先用第四范式,等領域知識逐步豐富了再過渡到第三范式。
現(xiàn)有的數(shù)據(jù)中心技術很難滿足大數(shù)據(jù)的需求,需要考慮對整個IT架構進行革命性的重構。而存儲能力的增長遠遠趕不上數(shù)據(jù)的增長,因此設計最合理的分層存儲架構已成為IT系統(tǒng)的關鍵。數(shù)據(jù)的移動已成為IT系統(tǒng)最大的開銷,目前傳送大數(shù)據(jù)最高效也最實用的方式是通過飛機或地面交通工具運送磁盤而不是網絡通信。在大數(shù)據(jù)時代,IT系統(tǒng)需要從數(shù)據(jù)圍著處理器轉改變?yōu)樘幚砟芰鴶?shù)據(jù)轉,將計算推送給數(shù)據(jù),而不是將數(shù)據(jù)推送給計算。大數(shù)據(jù)也導致高可擴展性成為對IT系統(tǒng)最本質的需求,并發(fā)執(zhí)行(同時執(zhí)行的線程)的規(guī)模要從現(xiàn)在的千萬量級提高到10億級以上。
在應對處理大數(shù)據(jù)的各種技術挑戰(zhàn)中,以下幾個問題值得高度重視:
(1)大數(shù)據(jù)的去冗降噪技術。大數(shù)據(jù)一般都來自多個不同的源頭,而且往往以動態(tài)數(shù)據(jù)流的形式產生。因此,大數(shù)據(jù)中常常包含有不同形態(tài)的噪聲數(shù)據(jù)。另外,數(shù)據(jù)采樣算法缺陷與設備故障也可能會導致大數(shù)據(jù)的噪聲。大數(shù)據(jù)的冗余則通常來自兩個方面:一方面,大數(shù)據(jù)的多源性導致了不同源頭的數(shù)據(jù)中存在有相同的數(shù)據(jù),從而造成數(shù)據(jù)的絕對冗余;另一方面,就具體的應用需求而言,大數(shù)據(jù)可能會提供超量特別是超精度的數(shù)據(jù),這又形成數(shù)據(jù)的相對冗余。降低噪聲、消除冗余是提高數(shù)據(jù)質量、降低數(shù)據(jù)存儲成本的基礎;
(2)大數(shù)據(jù)的新型表示方法。目前表示數(shù)據(jù)的方法,不一定能直觀地展現(xiàn)出大數(shù)據(jù)本身的意義。要想有效利用數(shù)據(jù)并挖掘其中的信息或知識,必須找到最合適的數(shù)據(jù)表示方法。在一種不合適的數(shù)據(jù)表示中尋找大數(shù)據(jù)的固定模式、因果關系和關聯(lián)關系時,可能會落入固有的偏見之中。數(shù)據(jù)表示方法和最初的數(shù)據(jù)產生者有著密切關系。如果原始數(shù)據(jù)有必要的標識,就會大大減輕事后數(shù)據(jù)識別和分類的困難。但標識數(shù)據(jù)會給用戶增添麻煩,所以往往得不到用戶認可。研究既有效又簡易的數(shù)據(jù)表示方法是處理網絡大數(shù)據(jù)必須解決的技術難題之一;
(3)高效率低成本的大數(shù)據(jù)存儲。大數(shù)據(jù)的存儲方式不僅影響其后的數(shù)據(jù)分析處理效率也影響數(shù)據(jù)存儲的成本。因此,就需要研究高效率低成本的數(shù)據(jù)存儲方式。具體則需要研究多源多模態(tài)數(shù)據(jù)高質量獲取與整合的理論和技術、流式數(shù)據(jù)的高速索引創(chuàng)建與存儲、錯誤自動檢測與修復的理論和技術、低質量數(shù)據(jù)上的近似計算的理論和算法等;
(4)大數(shù)據(jù)的有效融合。數(shù)據(jù)不整合就發(fā)揮不出大數(shù)據(jù)的大價值。大數(shù)據(jù)的泛濫與數(shù)據(jù)格式太多有關。大數(shù)據(jù)面臨的一個重要問題是個人、企業(yè)和政府機構的各種數(shù)據(jù)和信息能否方便地融合。如同人類有許多種自然語言一樣,作為網絡空間中唯一客觀存在的數(shù)據(jù)難免有多種格式。但為了掃清網絡大數(shù)據(jù)處理的障礙,應研究推廣不與平臺綁定的數(shù)據(jù)格式。大數(shù)據(jù)已成為聯(lián)系人類社會、物理世界和網絡空間的紐帶,需要通過統(tǒng)一的數(shù)據(jù)格式構建融合人、機、物三元世界的統(tǒng)一信息系統(tǒng);
(5)非結構化和半結構化數(shù)據(jù)的高效處理。據(jù)統(tǒng)計,目前采集到的數(shù)據(jù)85%以上是非結構化和半結構化數(shù)據(jù),而傳統(tǒng)的關系數(shù)據(jù)庫技術無法勝任這些數(shù)據(jù)的處理,因為關系數(shù)據(jù)庫系統(tǒng)的出發(fā)點是追求高度的數(shù)據(jù)一致性和容錯性。根據(jù)CAP(Consistency,Availability,tolerance to network Partitions)理論,在分布式系統(tǒng)中,一致性、可用性、分區(qū)容錯性三者不可兼得,因而并行關系數(shù)據(jù)庫必然無法獲得較強的擴展性和良好的系統(tǒng)可用性。系統(tǒng)的高擴展性是大數(shù)據(jù)分析最重要的需求,必須尋找高擴展性的數(shù)據(jù)分析技術。以MapReduce和Hadoop為代表的非關系數(shù)據(jù)分析技術,以其適合非結構數(shù)據(jù)處理、大規(guī)模并行處理、簡單易用等突出優(yōu)勢,在互聯(lián)網信息搜索和其他大數(shù)據(jù)分析領域取得了重大進展,已成為大數(shù)據(jù)分析的主流技術。MapReduce和Hadoop在應用性能等方面還存在不少問題,還需要研究開發(fā)更有效、更實用的大數(shù)據(jù)分析和管理技術;
(6)適合不同行業(yè)的大數(shù)據(jù)挖掘分析工具和開發(fā)環(huán)境。不同行業(yè)需要不同的大數(shù)據(jù)分析工具和開發(fā)環(huán)境,應鼓勵計算機算法研究人員與各領域的科研人員密切合作,在分析工具和開發(fā)環(huán)境上創(chuàng)新。當前跨領域跨行業(yè)的數(shù)據(jù)共享仍存在大量壁壘,海量數(shù)據(jù)的收集,特別是關聯(lián)領域的同時收集還存在很大挑戰(zhàn)。只有跨領域的數(shù)據(jù)分析才更有可能形成真正的知識和智能,產生更大的價值;
(7)大幅度降低數(shù)據(jù)處理、存儲和通信能耗的新技術。大數(shù)據(jù)的獲取、通信、存儲、管理與分析處理都需要消耗大量的能源。在能源問題日益突出的今天,研究創(chuàng)新的數(shù)據(jù)處理和傳送的節(jié)能方法與技術是重要的研究方向。
盡管大數(shù)據(jù)意味著大機遇,但同時也意味著工程技術、管理政策、人才培養(yǎng)等方面的大挑戰(zhàn)。只有解決了這些基礎性的挑戰(zhàn)問題,才能充分利用這個大機遇,得到大數(shù)據(jù)的大價值。因此,我國亟需在國家層面對大數(shù)據(jù)給予高度重視,特別需要從政策制定、資源投入、人才培養(yǎng)等方面給予強有力的支持;另一方面,建立良性的大數(shù)據(jù)生態(tài)環(huán)境是有效應對大數(shù)據(jù)挑戰(zhàn)的唯一出路,需要科技界、工業(yè)界以及政府部門在國家政策的引導下共同努力,通過消除壁壘、成立聯(lián)盟、建立專業(yè)組織等途徑,建立和諧的大數(shù)據(jù)生態(tài)系統(tǒng)。
就大數(shù)據(jù)研究計劃與措施,我們有如下的建議:
大數(shù)據(jù)涉及物理、生物、腦科學、醫(yī)療、環(huán)保、經濟、文化、安全等眾多領域。網絡空間中的數(shù)據(jù)是大數(shù)據(jù)的重要組成部分,這類大數(shù)據(jù)與人的活動密切相關,因此也與社會科學密切相關。而網絡數(shù)據(jù)科學和工程是信息科學技術與社會科學等多個不同領域高度交叉的新型學科方向,對國家的穩(wěn)定與發(fā)展有獨特的作用,因此應特別重視與支持網絡大數(shù)據(jù)的研究。大數(shù)據(jù)涉及應用領域很廣,當前大數(shù)據(jù)的研究應與國計民生密切相關的科學決策、環(huán)境與社會管理、金融工程、應急管理(如疾病防治、災害預測與控制、食品安全與群體事件)以及知識經濟為主要應用領域。
無論是國外政府的大數(shù)據(jù)研究計劃,還是國內外大公司的大數(shù)據(jù)研發(fā),當前最重視的都是大數(shù)據(jù)分析算法和大數(shù)據(jù)系統(tǒng)的效率。因此,當工業(yè)界把主要精力放在應對大數(shù)據(jù)的工程技術挑戰(zhàn)的時候,科技界應開始著手關注大數(shù)據(jù)的基礎理論研究。大數(shù)據(jù)科學作為一個新興的交叉學科方向,其共性理論基礎將來自多個不同的學科領域,包括計算機科學、統(tǒng)計學、人工智能、社會科學等。因此,大數(shù)據(jù)的基礎研究離不開對相關學科的領域知識與研究方法論的借鑒。在大數(shù)據(jù)的基礎研究方面,建議研究大數(shù)據(jù)的內在機理,包括大數(shù)據(jù)的生命周期、演化與傳播規(guī)律,數(shù)據(jù)科學與社會學、經濟學等之間的互動機制,以及大數(shù)據(jù)的結構與效能的規(guī)律性(如社會效應、經濟效應等)。在大數(shù)據(jù)計算方面,研究大數(shù)據(jù)表示、數(shù)據(jù)復雜性以及大數(shù)據(jù)計算模型。在大數(shù)據(jù)應用基礎理論方面,研究大數(shù)據(jù)與知識發(fā)現(xiàn)(學習方法、語義解釋),大數(shù)據(jù)環(huán)境下的實驗與驗證方法,以及大數(shù)據(jù)的安全與隱私等。
2012年10月,中國計算機學會和中國通信學會各自成立了大數(shù)據(jù)專家委員會,從行業(yè)學會的層面來組織和推動大數(shù)據(jù)的相關產學研用活動。但這還不夠,建議中科院、科技部、基金委共同推動成立一個組織機構,建立一個大數(shù)據(jù)科學研究平臺,更好地組織大數(shù)據(jù)的協(xié)同創(chuàng)新研究與戰(zhàn)略性應用;成立國家級的行業(yè)大數(shù)據(jù)共享聯(lián)盟,使產業(yè)界、科技界以及政府部門都能夠參與進來,一方面為學術研究提供基本的數(shù)據(jù)資源,另一方面為大數(shù)據(jù)的應用提供理論與技術支持。此外,還需成立國家級的面向大數(shù)據(jù)研究與應用的開源社區(qū),同時也向國際開源社區(qū)的核心團隊舉薦核心成員,使國際頂級的開源社區(qū)能夠聽到來自中國的“聲音”。
在資源支持方面,建議啟動“中國大數(shù)據(jù)科學與工程研究計劃”,從宏觀上對我國的大數(shù)據(jù)產學研用做出系統(tǒng)全面的短期與長期規(guī)劃。設立自然科學重大研究計劃(基金重大)以及重大基礎科學研究項目群(“973”項目群或“863”重大項目)等專項資金,有針對性地資助有關大數(shù)據(jù)的重大科研活動。此外,國家在大數(shù)據(jù)平臺的構建、典型行業(yè)的應用以及研發(fā)人才的培養(yǎng)等方面應提供相應的財力、物力與人力支持。
1 李國杰.大數(shù)據(jù)研究的科學價值.中國計算機學會通訊,2012,8(9):8-15.
2 Chris Anderson.The End of Theory:The Data Deluge Makes the Scientific Method Obsolete.Wired,2008,16(7).
3 Albert-László Barabási.The network takeover.Nature Physics,2012,8(1):14-16.
4 Reuven Cohen,Shlomo Havlin.Scale-Free Networks Are Ultrasmall.Physical Review Letters,2003,90,(5).
5 Tony Hey,Stewart Tansley,Kristin Tolle(Editors).The Fourth Paradigm:Data-Intensive Scientific Discovery.Microsoft,2009,October 16.
6 Big Data.Nature,2008,455(7209):1-136.
7 Dealing with data.Science,2011,331(6018):639-806.
8 Complexity.Nature Physics,2012,8(1).
9 Big Data.ERCIM News,2012,(89).
10 David Lazer,Alex Pentland,Lada Adamic et al.Computational Social Science.Science,2009,323(5915):721-723.
11 The 2011 Digital Universe Study:Extracting Value from Chaos.International Data Corporation and EMC,June 2011.
12 CERN experiments observe particle consistent with long-sought Higgs boson.CERN press release,July 4,2012.
13 Tom Kalil.Big Data is a Big Deal,March 29,2012.Available at:http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal.
14 Divyakant Agrawal,Philip Bernstein,Elisa Bertino et al.Challenges and Opportunities with Big Data,Cyber Center Technical Reports,February 2012.Available at:http://docs.lib.purdue.edu/cctech/1.
15 James Manyika,Michael Chui,Brad Brown et al.Big data:The next frontier for innovation,competition,and productivity.McK-insey Global Institute,May 2011.
16 Steve Lohr.The Age of Big Data.New York Times,February 11,2012.
17 Pattern-Based Strategy:Getting Value from Big Data.Gartner Group press release,July 2011.
18 Codd E F.A Relational Model of Data for Large Shared Data Banks.Communications of the ACM,1970,13(6):377-387.