魯惠林
(安徽大學(xué)商學(xué)院,安徽 合肥 230601)
上世紀(jì)80年代,大數(shù)據(jù)這個(gè)詞匯就已經(jīng)出現(xiàn)。但是,一開(kāi)始它僅是用來(lái)形容數(shù)據(jù)量大。而計(jì)算機(jī)技術(shù)的不斷發(fā)展,數(shù)據(jù)不在是簡(jiǎn)單的數(shù)字集合,而是指無(wú)法在有限時(shí)間內(nèi)用傳統(tǒng)的IT技術(shù)和軟硬件工具對(duì)其進(jìn)行感知、獲取、管理、處理的方式。但對(duì)于“大數(shù)據(jù)”的具體定義,目前學(xué)術(shù)界尚未形成明確統(tǒng)一的定義。2012年高德納咨詢(xún)公司認(rèn)為:大數(shù)據(jù)是非常重要的信息資產(chǎn),但它需要新的運(yùn)算方式來(lái)處理,以期提高這項(xiàng)信息資產(chǎn)的決策力、洞察力,并用這些特征來(lái)描述大數(shù)據(jù)。麥肯錫(McKinsey)認(rèn)為:想要在特定時(shí)間內(nèi)對(duì)大數(shù)據(jù)的內(nèi)容進(jìn)行搜集、存儲(chǔ)、分析運(yùn)用,依靠過(guò)去傳統(tǒng)的數(shù)據(jù)處理方式已不能解決。
關(guān)于“大數(shù)據(jù)”的特征描述,代表性的觀點(diǎn)有,IBM將“大數(shù)據(jù)”的特點(diǎn)總結(jié)為“3V”,即大量化(Volume)、多樣化(Variety)和快速化(Velocity);著名的數(shù)據(jù)管理大師維克托·邁爾-舍恩伯格則認(rèn)為大數(shù)據(jù)具有4個(gè)特點(diǎn),即“4V”,在前面的基礎(chǔ)上增加了Value(價(jià)值密度低)。目前,“4V”特征已成最基本的共識(shí),這些特性使得大數(shù)據(jù)區(qū)別于傳統(tǒng)的數(shù)據(jù)概念。
1.2.1 數(shù)據(jù)規(guī)模大
數(shù)據(jù)量大是大數(shù)據(jù)的基本屬性。想要收集大量數(shù)據(jù)是十分困難的,只有部分機(jī)構(gòu)會(huì)采取抽樣調(diào)查,而現(xiàn)在,互聯(lián)網(wǎng)的普及,用戶(hù)通過(guò)智能化的媒介有意的分享或無(wú)意的點(diǎn)擊、瀏覽都會(huì)產(chǎn)生大量數(shù)據(jù);數(shù)據(jù)量大還體現(xiàn)在人們處理數(shù)據(jù)的方法和理念發(fā)生了改變。早期,人們對(duì)事物的認(rèn)知一直依據(jù)抽樣調(diào)查,以部分?jǐn)?shù)據(jù)來(lái)描述整體事物。但在某些領(lǐng)域這種方法顯然不能完整的描述,可能會(huì)忽略很多重要信息。甚至得到的結(jié)果都是相反的。而現(xiàn)在,在大多數(shù)領(lǐng)域,大數(shù)據(jù)依托云計(jì)算不需要只采取部分樣本來(lái)反映總體數(shù)據(jù)。這樣,不刪減數(shù)據(jù)能提高準(zhǔn)確性。從更多方面來(lái)分析事物,這樣的結(jié)果必然是處理數(shù)據(jù)增多。
1.2.2 數(shù)據(jù)種類(lèi)多
數(shù)據(jù)類(lèi)型多,復(fù)雜多變是大數(shù)據(jù)的另一重要特性。雖然以往數(shù)據(jù)量也不小,但大多數(shù)數(shù)據(jù)都是結(jié)構(gòu)化數(shù)據(jù)。這種類(lèi)型的數(shù)據(jù)存儲(chǔ)、處理、查詢(xún)方按事先定義的方法,抽取有用信息,簡(jiǎn)單易于人們操作。而現(xiàn)在大數(shù)據(jù)涌現(xiàn),呈現(xiàn)的都是非結(jié)構(gòu)化數(shù)據(jù),它沒(méi)有固定的結(jié)構(gòu)屬性,數(shù)據(jù)及它的結(jié)構(gòu)都需要存儲(chǔ)。增加了數(shù)據(jù)處理的難度。各種半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)遍及工作、生活中各個(gè)角落,這些結(jié)構(gòu)復(fù)雜,其增長(zhǎng)速度比結(jié)構(gòu)化數(shù)據(jù)快10倍到50倍。
1.2.3 數(shù)據(jù)處理速度快
要利用好大數(shù)據(jù),就必須要求對(duì)其進(jìn)行快速處理。大數(shù)據(jù)區(qū)別于傳統(tǒng)海量數(shù)據(jù)處理的重要特性之一是要求數(shù)據(jù)的快速處理。數(shù)據(jù)增長(zhǎng)速度十分之快,這么多激增數(shù)據(jù)需要更快的數(shù)據(jù)處理速度,否則這些數(shù)據(jù)不僅未得到充分利用,不能解決問(wèn)題,反而可能因?yàn)辇嫶蟮臄?shù)據(jù)使問(wèn)題變得復(fù)雜。也是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)的特點(diǎn)之一也是對(duì)爆炸式增長(zhǎng)的數(shù)據(jù)要求實(shí)時(shí)處理。
1.2.4 數(shù)據(jù)價(jià)值密度低
大數(shù)據(jù)包含事物各個(gè)細(xì)節(jié),并未進(jìn)行刪減、歸納、處理,直接是原始的全部數(shù)據(jù),所以它也包含了大量的可能無(wú)用的信息。對(duì)于這種非結(jié)構(gòu)化數(shù)據(jù),未了保證它對(duì)于新產(chǎn)生的應(yīng)用有足夠的有效信息,就必須為此保留全部數(shù)據(jù)。這樣激增的數(shù)據(jù)中所含有效信息量的比例在減少,數(shù)據(jù)價(jià)值密度偏低。
學(xué)術(shù)界認(rèn)為“大數(shù)據(jù)”概念的提出始于上世紀(jì)80年代,但起源尚未有嚴(yán)謹(jǐn)權(quán)威的考證。有資料說(shuō)“大數(shù)據(jù)”概念最早是由麥肯錫公司提出,沒(méi)有提及具體的時(shí)間。從現(xiàn)有研究文獻(xiàn)或研究動(dòng)態(tài)來(lái)看,美國(guó)《Nature》早在2008年就推出了Big Data專(zhuān)刊,從互聯(lián)網(wǎng)技術(shù)、網(wǎng)絡(luò)經(jīng)濟(jì)學(xué)、環(huán)境科學(xué)、生物醫(yī)藥等多個(gè)方面介紹了海量數(shù)據(jù)帶來(lái)的挑戰(zhàn),《Science》在2011年2月推出專(zhuān)刊“Dealing with Data”,主要圍繞著科學(xué)研究中的大數(shù)據(jù)的問(wèn)題展開(kāi)討論,說(shuō)明大數(shù)據(jù)對(duì)于科學(xué)研究的重要性。
國(guó)外學(xué)者對(duì)“大數(shù)據(jù)”展開(kāi)的相關(guān)研究逐漸引起了國(guó)內(nèi)學(xué)者的高度重視,圍繞“大數(shù)據(jù)”的研究工作也全面展開(kāi)。李國(guó)杰、程學(xué)旗等為核心的計(jì)算機(jī)學(xué)科專(zhuān)家學(xué)者等對(duì)其進(jìn)行了綜述性的歸納研究與探討,闡述了大數(shù)據(jù)的研究現(xiàn)狀與意義,介紹了大數(shù)據(jù)應(yīng)用與研究所面臨的問(wèn)題與挑戰(zhàn),并對(duì)大數(shù)據(jù)發(fā)展戰(zhàn)略提出了建議。
在學(xué)者們的不斷研究探索中,在理論研究方面,2013年孟小峰、覃雄派等在《大數(shù)據(jù)管理:概念與挑戰(zhàn)》論文中主要是在數(shù)據(jù)分析、理論和數(shù)據(jù)查詢(xún)處理技術(shù)的相關(guān)研究中,列舉了一個(gè)數(shù)據(jù)分析平臺(tái)需要有幾個(gè)重要的特點(diǎn),并對(duì)當(dāng)前主流的數(shù)據(jù)管理平臺(tái)進(jìn)行了歸納。馬帥等就“大數(shù)據(jù)”的異構(gòu)數(shù)據(jù)模型和存儲(chǔ)復(fù)雜的數(shù)據(jù)智能分析、數(shù)據(jù)質(zhì)量以及大數(shù)據(jù)安全等方面的問(wèn)題進(jìn)行了分析與研究。朱志軍等人在《大數(shù)據(jù)、大機(jī)遇、大變革》中介紹數(shù)據(jù)生成的背景、特點(diǎn)和發(fā)展趨勢(shì),并從實(shí)證的角度討論了對(duì)社會(huì)和商業(yè)智能數(shù)據(jù)的巨大影響,即數(shù)據(jù)可能給企業(yè)帶來(lái)巨大的商機(jī)。
綜上所述,隨著互聯(lián)網(wǎng)的發(fā)展,物聯(lián)網(wǎng)的發(fā)展,我們的大部分工作和生活都可以用數(shù)據(jù)信息來(lái)代表,所以大數(shù)據(jù)時(shí)代已經(jīng)悄然到來(lái)。目前學(xué)術(shù)界的研究主要集中在基礎(chǔ)研究上,即更多研究是數(shù)據(jù)的收集、傳輸、存儲(chǔ)和處理技術(shù)和基礎(chǔ)設(shè)施建設(shè),也有一些學(xué)者開(kāi)始在各個(gè)領(lǐng)域的實(shí)證應(yīng)用研究數(shù)據(jù)。但在實(shí)踐研究和探索領(lǐng)域仍明顯小于理論研究。在大數(shù)據(jù)領(lǐng)域,多學(xué)科交叉及其應(yīng)用研究的基礎(chǔ)理論研究和應(yīng)用也開(kāi)始了。
從國(guó)內(nèi)外研究現(xiàn)狀來(lái)看,“大數(shù)據(jù)”研究顯然是是當(dāng)前學(xué)術(shù)界關(guān)注的熱點(diǎn)問(wèn)題。事實(shí)上,對(duì)大數(shù)據(jù)的認(rèn)識(shí)是逐漸清晰的。從現(xiàn)有可以依據(jù)的學(xué)術(shù)成果來(lái)看,明確以“大數(shù)據(jù)”為主題詞的文獻(xiàn)研究是近5年來(lái)陸續(xù)產(chǎn)生的,時(shí)間較短,從現(xiàn)狀來(lái)看,主要有如下特點(diǎn)。
一是大數(shù)據(jù)的挖掘和處理技術(shù),很大程度上停留在理論研究階段。大數(shù)據(jù)研究關(guān)注地更多的是數(shù)據(jù)收集、傳輸、存儲(chǔ)、處理等技術(shù)問(wèn)題以及相應(yīng)基礎(chǔ)平臺(tái)的構(gòu)建上。從其發(fā)展脈絡(luò)來(lái)看,已逐漸呈現(xiàn)出由理論研究到實(shí)踐運(yùn)用的轉(zhuǎn)變,但大數(shù)據(jù)核心處理技術(shù)尚未成熟。
二是如何把“大數(shù)據(jù)”研究更好地應(yīng)用于實(shí)際,大數(shù)據(jù)在各個(gè)領(lǐng)域內(nèi)的實(shí)證應(yīng)用與研究分析開(kāi)始受到關(guān)注,尤其是受到政府的關(guān)注。隨著社會(huì)、經(jīng)濟(jì)的發(fā)展,各行業(yè)各類(lèi)用戶(hù)對(duì)于智能化的要求將越來(lái)越高,大數(shù)據(jù)公共領(lǐng)域、醫(yī)療衛(wèi)生、地礦能源、行業(yè)管理、營(yíng)銷(xiāo)與客戶(hù)分析等各行各業(yè)的應(yīng)用研究逐步興起,目前這些應(yīng)用研究屬初始階段,簡(jiǎn)單、分散、理論不穩(wěn)定,尚未有主流觀點(diǎn)出現(xiàn)。
三是對(duì)于大數(shù)據(jù)的相關(guān)理論與研究方法基本上處于認(rèn)知階段,比如、概念、特征、現(xiàn)象、問(wèn)題等,在管理科學(xué)領(lǐng)域,大數(shù)據(jù)在營(yíng)銷(xiāo)、客戶(hù)分析、綜合評(píng)價(jià)等方面的研究有文獻(xiàn)成果,但數(shù)量很少,這些前瞻性研究由于缺乏系統(tǒng)理論和化學(xué)技術(shù)的支撐,遠(yuǎn)遠(yuǎn)不能撼動(dòng)對(duì)傳統(tǒng)的管理理論與方法的影響。
本文從幾個(gè)常見(jiàn)的大數(shù)據(jù)概念的描述,分析了大數(shù)據(jù)的典型特征,在此基礎(chǔ)上討論了大數(shù)據(jù)技術(shù)解決問(wèn)題的核心問(wèn)題。大數(shù)據(jù)時(shí)代已經(jīng)到來(lái),要想更好地從大數(shù)據(jù)中受益,我們必須充分利用大數(shù)據(jù),發(fā)揮其社會(huì)價(jià)值和科學(xué)價(jià)值。大數(shù)據(jù)的發(fā)展還處于初級(jí)階段,還有很多領(lǐng)域還需要我們積極探索,我們不斷開(kāi)拓空間,如何快速有效地處理大數(shù)據(jù),合理利用大數(shù)據(jù)還需要不斷探索和發(fā)現(xiàn)。
[1] Manyika J,Chui M Brown J,etal.Big Data: The Next Frontier for Innovation,Competition and Productivity[R].McKinsey Global Institute,2011.
[2] 維克托·邁爾·舍恩伯格.大數(shù)據(jù)時(shí)代[M].杭州:浙江人民出版社,2013.
[3] Specials Archive. Big data[DB/OL].[2008-09-03].Nature,http://www.nature.com/news/.
[4] 李國(guó)杰.大數(shù)據(jù)研究:未來(lái)科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域-大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國(guó)科學(xué)院院刊,2012,27(06):647-657.
[5] 覃雄派,王會(huì)舉,杜小勇,王珊.大數(shù)據(jù)分析——RDBMS與MapReduce的競(jìng)爭(zhēng)與共生[J].軟件學(xué)報(bào),2012,23(01):32-45.
[6] 馬帥,李建欣,胡春明.大數(shù)據(jù)科學(xué)與工程的挑戰(zhàn)與思考[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2012,8(09):22-30.
[7] 朱志軍,佘叢國(guó),閆蕾等.大數(shù)據(jù)、大機(jī)遇、大變革[M].北京:電子工業(yè)出版社,2012.