霍夢蘭
【摘 要】大數(shù)據(jù)是繼云計算、物聯(lián)網(wǎng)之后信息領(lǐng)域的最新熱點,隨著全球數(shù)據(jù)量爆炸式增長,大數(shù)據(jù)時代已經(jīng)來臨。本文首先對大數(shù)據(jù)的概念、特征及其相關(guān)技術(shù)進行了介紹,然后分析了目前大數(shù)據(jù)在發(fā)展研究過程中所面臨的問題和挑戰(zhàn),最后提出了大數(shù)據(jù)時代的應(yīng)對策略和發(fā)展建議。
【關(guān)鍵詞】大數(shù)據(jù);關(guān)鍵問題;應(yīng)對策略
21世紀(jì),隨著網(wǎng)絡(luò)和計算機全面融入社會生活,人們每天都面臨海量信息,信息爆炸積累到了一個可以引發(fā)變革的程度,大數(shù)據(jù)正是這個時候出現(xiàn)的一個新概念。2011年6月,麥肯錫全球研究院(MGI)發(fā)布了題為《大數(shù)據(jù):下一個創(chuàng)新、競爭和生產(chǎn)力的前沿》的研究報告,率先提出“大數(shù)據(jù)時代已經(jīng)到來”,從經(jīng)濟角度引發(fā)全球范圍對大數(shù)據(jù)的關(guān)注。隨后,2012年3月,美國的奧巴馬政府發(fā)布《大數(shù)據(jù)研發(fā)倡議》,宣布投資2億美元啟動大數(shù)據(jù)研究和發(fā)展計劃,這一舉措標(biāo)志著美國把發(fā)展大數(shù)據(jù)提升到國家戰(zhàn)略層面,從而對未來的科技與經(jīng)濟發(fā)展帶來深遠(yuǎn)影響。目前,大數(shù)據(jù)像能源和材料一樣,成為一種戰(zhàn)略資源,受到日益廣泛的關(guān)注。如何利用數(shù)據(jù)資源發(fā)掘知識、提升效益、促進創(chuàng)新,使其為國防安全、政府管理、企業(yè)決策乃至個人生活服務(wù),是大數(shù)據(jù)技術(shù)的追求目標(biāo)。
在此背景下,本文簡要分析了大數(shù)據(jù)的概念和基本特征,并對其關(guān)鍵技術(shù)進行了介紹,然后重點分析了大數(shù)據(jù)時代所面臨的機遇、問題和挑戰(zhàn),并針對這些問題,提出了應(yīng)對策略和建議。
1 大數(shù)據(jù)的概念及基本特征
大數(shù)據(jù),顧名思義是一個數(shù)據(jù)的集合,而且這個數(shù)據(jù)的集合特別大。和信息學(xué)領(lǐng)域大多數(shù)新興概念一樣,大數(shù)據(jù)至今尚無確切、統(tǒng)一的定義。在維基百科中,關(guān)于大數(shù)據(jù)的定義為“難以用常規(guī)的軟件工具在容許的時間內(nèi)對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合”;IDC對大數(shù)據(jù)的定義為“為了更經(jīng)濟地從高頻率獲取的、大容量的、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價值,而設(shè)計的新一代架構(gòu)和技術(shù)”。規(guī)模大是大數(shù)據(jù)的標(biāo)志之一,但大數(shù)據(jù)之所以難處理不僅在于規(guī)模大,更大的挑戰(zhàn)是其隨時間的變化快和類型的多樣性。
通常,大數(shù)據(jù)的基本特征可以用4個V來總結(jié),即Volume(數(shù)據(jù)規(guī)模大)、Variety(數(shù)據(jù)類型多)、Value(價值密度低)、Velocity(處理速度快),具體如下:
(1)數(shù)據(jù)規(guī)模大(Volume)。即所需收集、存儲、分發(fā)的數(shù)據(jù)規(guī)模遠(yuǎn)超傳統(tǒng)管理技術(shù)的管理能力。據(jù)統(tǒng)計,到目前人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量約為200PB,歷史上全人類說過的所有的話的數(shù)據(jù)量大約是5EB(1EB=1000PB)。而當(dāng)前,普通個人計算機硬盤的容量就為TB量級,一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級,可稱海量、巨量乃至超量,傳統(tǒng)的數(shù)據(jù)管理技術(shù)已經(jīng)無法處理。
(2)數(shù)據(jù)類型多(Variety)。這種數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。相對于以往便于存儲的以文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多,包括微博、日志、音頻、視頻、圖片、地理位置信息等多種類型的數(shù)據(jù),這對數(shù)據(jù)的處理能力提出了更高的要求。
(3)價值密度低(Value)。價值密度的高低與數(shù)據(jù)總量的大小成反比。大數(shù)據(jù)的價值密度很低,例如一段幾小時的連續(xù)監(jiān)控視頻,可能有重大價值的數(shù)據(jù)僅僅只有一兩秒。因此,如何更迅速地完成數(shù)據(jù)的價值挖掘是目前大數(shù)據(jù)背景下亟待解決的難題。
(4)處理速度快(Velocity)。數(shù)據(jù)流往往為高速實時數(shù)據(jù)流,而且往往需要快速、持續(xù)的實時處理;相應(yīng)的處理工具亦在快速發(fā)展和演進。
大數(shù)據(jù)技術(shù)是指設(shè)計用于高速收集、發(fā)現(xiàn)和分析從多種類型的大規(guī)模數(shù)據(jù)中提取經(jīng)濟價值的新一代技術(shù)和體系。其本質(zhì)是一種數(shù)據(jù)分析的前沿技術(shù),與傳統(tǒng)的海量數(shù)據(jù)處理技術(shù)不同的是,它除了數(shù)據(jù)規(guī)模呈現(xiàn)幾何級數(shù)增長的特征之外,還包括所有數(shù)據(jù)類型的采集、分類、處理、分析和展現(xiàn)等多個方面,從而最終實現(xiàn)從大數(shù)據(jù)中挖掘潛在巨大價值的目的。
解決大數(shù)據(jù)問題涉及數(shù)據(jù)存儲、合并壓縮、清洗過濾、格式轉(zhuǎn)換、統(tǒng)計分析、知識發(fā)現(xiàn)、可視呈現(xiàn)、關(guān)聯(lián)規(guī)則、分類聚類、序列路徑和決策支持等多個方面的技術(shù)。其中,關(guān)鍵的技術(shù)主要還是對海量數(shù)據(jù)的存儲和計算處理等,特別是對數(shù)據(jù)的分類,根據(jù)用途需求的不同,篩選出對于某一個領(lǐng)域某一個用途有意義、有價值的一系列數(shù)據(jù),拋棄相對而言無用的數(shù)據(jù)。
2 大數(shù)據(jù)時代的問題與挑戰(zhàn)
作為一個新生領(lǐng)域,大數(shù)據(jù)概念提出以來,引起了業(yè)界和各國政府的高度關(guān)注,大數(shù)據(jù)理念和技術(shù)得到較為廣泛的研究和應(yīng)用。但是,我們應(yīng)該看到大數(shù)據(jù)有其兩面性:一方面它催生新型科技公司、吸納科技人才就業(yè);許多大型科技企業(yè)抓住這一新機遇,紛紛投入巨資發(fā)展大數(shù)據(jù)處理技術(shù),積極推出面向大數(shù)據(jù)的產(chǎn)品和服務(wù),搶占大數(shù)據(jù)市場先機。另一方面它對人類的數(shù)據(jù)駕馭能力提出了新的挑戰(zhàn)。個人、企業(yè)甚至國家面臨個人隱私危機、重構(gòu)信息安全、競爭力差距拉大、數(shù)據(jù)產(chǎn)權(quán)爭端等諸多矛盾,只有解決這些基礎(chǔ)性的挑戰(zhàn)問題,才能充分利用這個大機遇,讓大數(shù)據(jù)充分發(fā)揮的最大價值與貢獻。
2.1 技術(shù)問題
目前,大數(shù)據(jù)的運用還面臨多種技術(shù)難題,主要包括:大數(shù)據(jù)的去冗降噪技術(shù);大數(shù)據(jù)的新型表示方法;高效率低成本的大數(shù)據(jù)存儲;大數(shù)據(jù)的有效融合;非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的高效處理;適合不同行業(yè)的大數(shù)據(jù)挖掘分析工具和開發(fā)環(huán)境;大幅度降低數(shù)據(jù)處理、存儲和通信能耗的新技術(shù)等等。這些技術(shù)問題的復(fù)雜性不僅體現(xiàn)在數(shù)據(jù)樣本本身,更體現(xiàn)在多源異構(gòu)、多實體和多空間之間的交互動態(tài)性,而當(dāng)前技術(shù)的技術(shù)還難以用傳統(tǒng)的方法描述與度量,處理的復(fù)雜度很大。
大數(shù)據(jù)對于現(xiàn)有系統(tǒng)的存儲、傳輸和計算提出了很多挑戰(zhàn),現(xiàn)有數(shù)據(jù)中心技術(shù)難以滿足大數(shù)據(jù)需求,存儲能力的增長遠(yuǎn)遠(yuǎn)趕不上數(shù)據(jù)的增長,設(shè)計最合理的分層存儲架構(gòu)已成為信息系統(tǒng)的關(guān)鍵,整個IT架構(gòu)的革命性重構(gòu)勢在必行。
2.2 觀念問題
數(shù)據(jù)增值的關(guān)鍵在于整合,但自由整合的前提是數(shù)據(jù)的開放。目前,數(shù)據(jù)的全社會開放與共享還很難,這讓數(shù)據(jù)質(zhì)量大打折扣。在大數(shù)據(jù)的時代,開放數(shù)據(jù)的意義,不僅僅是滿足公民的知情權(quán),更在于讓大數(shù)據(jù)時代最重要的生產(chǎn)資料、生活數(shù)據(jù)自由地流動起來,準(zhǔn)確全面地應(yīng)用起來,以推動知識經(jīng)濟和網(wǎng)絡(luò)經(jīng)濟的發(fā)展。然而戰(zhàn)略觀念上的缺失、政府機構(gòu)協(xié)調(diào)困難、企業(yè)對數(shù)據(jù)共享的認(rèn)識不足及投入不夠、科學(xué)家對大數(shù)據(jù)的渴望無法滿足等都是大數(shù)據(jù)在當(dāng)前我國發(fā)展應(yīng)用中不得不面對的困難。
另一方面,越大的數(shù)據(jù)并非就是越好的數(shù)據(jù)。對數(shù)據(jù)的盲目依賴會導(dǎo)致思維和決策的僵化。當(dāng)越來越多的事物被量化,人們也容易陷入只看重數(shù)據(jù)的誤區(qū)里。如何避免成為數(shù)據(jù)的奴隸,也已經(jīng)成為一個迫在眉睫的問題。
2.3 隱私問題
大數(shù)據(jù)時代,互聯(lián)網(wǎng)絡(luò)的發(fā)展使得獲取數(shù)據(jù)十分便利,給信息安全帶來了巨大的挑戰(zhàn)。當(dāng)前,數(shù)據(jù)安全形勢不容樂觀。首先,隨著社交網(wǎng)絡(luò)和電子商務(wù)的興起,個人隱私更容易通過網(wǎng)絡(luò)泄露,將個人的相關(guān)數(shù)據(jù)足跡聚集起來分析,可以很容易獲取個人的相關(guān)信息,隱私數(shù)據(jù)就可能暴露。在國家層面,大數(shù)據(jù)可能給國家安全帶來隱患,如果在大數(shù)據(jù)處理方面落后,就可能導(dǎo)致數(shù)據(jù)的單向透明。因此,在大數(shù)據(jù)時代有效地管理隱私既是一個技術(shù)問題,又是一個社會問題,如何在推動數(shù)據(jù)全面開放、應(yīng)用和共享的同時有效地保護公民、企業(yè)隱私,逐步加強隱私立法,將是大數(shù)據(jù)時代的一個重大挑戰(zhàn)。
2.4 社會生態(tài)
數(shù)據(jù)開放是社會管理創(chuàng)新的一種有效手段和助推器。一方面,通過數(shù)據(jù)開放,促進社會層面的制度創(chuàng)新,權(quán)力分散化,實現(xiàn)多中心社會;另一方面,與軟件開源相結(jié)合,數(shù)據(jù)開放可以實現(xiàn)大眾創(chuàng)新,讓普通公眾都擁有創(chuàng)新機會和條件,大數(shù)據(jù)時代的基本特征及安全挑戰(zhàn),對政府制訂規(guī)則與監(jiān)管部門發(fā)揮作用提出了新的挑戰(zhàn)。因此,大數(shù)據(jù)將對國家治理模式、企業(yè)的決策、組織和業(yè)務(wù)流程、個人生活方式都會產(chǎn)生巨大的影響,涉及與政治、經(jīng)濟、社會、法律、科學(xué)等等的交叉影響問題,相關(guān)問題值得深入研究。
3 大數(shù)據(jù)時代的應(yīng)對策略
針對上述大數(shù)據(jù)時代所面臨的問題,提出以下幾點應(yīng)對策略和建議:
3.1 加強技術(shù)創(chuàng)新
針對大數(shù)據(jù)時代的基本特征,包括IBM、EMC、HP、Microsoft等在內(nèi)的IT巨頭,紛紛加速收購相關(guān)大數(shù)據(jù)公司進行技術(shù)整合,尋找數(shù)據(jù)洪流大潮中新的立足點,涉及人工智能、機器學(xué)習(xí)等新技術(shù)的創(chuàng)新應(yīng)用,已初顯效益。建議加大對大數(shù)據(jù)關(guān)鍵技術(shù)研發(fā)的資金投入,將大數(shù)據(jù)時代全方位創(chuàng)新工作與移動互聯(lián)網(wǎng)、云計算等技術(shù)進行融合,推動基于大數(shù)據(jù)的各種技術(shù)創(chuàng)新,搶占發(fā)展大數(shù)據(jù)技術(shù)的先機。
3.2 加強領(lǐng)域合作
加強各個領(lǐng)域之間的合作關(guān)系,加強企業(yè)商業(yè)智能、社會服務(wù)、市場營銷等各大領(lǐng)域的合作。同時,建立數(shù)據(jù)共享聯(lián)盟和多領(lǐng)域數(shù)據(jù)共享平臺,將數(shù)據(jù)共享將擴展到企業(yè)層面,使得企業(yè)服務(wù)于民眾和政府,政府推動企業(yè)的發(fā)展,激勵市場的需求。
3.3 加大人才培養(yǎng)
大數(shù)據(jù)的發(fā)展離不開人才的需求,大數(shù)據(jù)時代產(chǎn)生一批新的就業(yè)崗位,如數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師,具有豐富經(jīng)驗的數(shù)據(jù)分析人才成為稀缺資源,加強大數(shù)據(jù)人才的培養(yǎng)也是大數(shù)據(jù)發(fā)展的重點之一。高??梢愿鶕?jù)社會的需求培養(yǎng)具有大數(shù)據(jù)思維和創(chuàng)新能力的復(fù)合型人才,企業(yè)可以根據(jù)企業(yè)自身的需要對企業(yè)內(nèi)部人員進行教育培訓(xùn),另外可以通過招聘引進一些具有大數(shù)據(jù)經(jīng)驗的人士,引導(dǎo)員工職業(yè)發(fā)展,采用員工激勵制等,鼓勵員工不斷地學(xué)習(xí)提升自我。
3.4 增強數(shù)據(jù)安全
大數(shù)據(jù)使用的關(guān)鍵在于數(shù)據(jù)分析和利用,但數(shù)據(jù)分析技術(shù)的發(fā)展,對用戶隱私產(chǎn)生極大的威脅。因此,如何來保護大數(shù)據(jù)的安全是重要組成部分,可以通過以下幾個方面加強數(shù)據(jù)安全:一是制定相關(guān)法律法規(guī)。大數(shù)據(jù)的挖掘與利用應(yīng)當(dāng)有法可依,需要制定相應(yīng)的規(guī)則和法律來保護公民和國家的信息安全,防止數(shù)據(jù)被非法交易、倒賣、竊取、泄漏或者纂改;二是改進數(shù)據(jù)安全相關(guān)技術(shù)。需要科研人員通過技術(shù)改進,不斷加強數(shù)據(jù)權(quán)限管理技術(shù)和數(shù)據(jù)加密技術(shù),提高大數(shù)據(jù)下的數(shù)據(jù)安全。
4 結(jié)束語
隨著社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、云計算的飛速發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)呈指數(shù)級快速增長,大規(guī)模生產(chǎn)、分享、應(yīng)用數(shù)據(jù)的大數(shù)據(jù)時代已經(jīng)來臨。本文從大數(shù)據(jù)的概念出發(fā),分析大數(shù)據(jù)的典型特征,討論大數(shù)據(jù)時代可能的面臨的核心問題和挑戰(zhàn),最后討論了給出了初步應(yīng)對策略和建議。
大數(shù)據(jù)已經(jīng)成為目前廣泛關(guān)注且亟待解決的熱點問題,并逐漸開始影響社會的發(fā)展與人們的日常生活,只有正確認(rèn)識大數(shù)據(jù)時代的價值,迎接大數(shù)據(jù)面臨的挑戰(zhàn)并及時應(yīng)對,才能在大數(shù)據(jù)時代領(lǐng)域處于不敗之地。
【參考文獻】
[1]維克托·邁爾-舍恩伯格.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2012.
[2]馬建光,姜巍.大數(shù)據(jù)的概念、特征及其應(yīng)用[J].國防科技,2013,34(2):10-17.
[3]胡雄偉,張寶林,李抵飛.大數(shù)據(jù)研究與應(yīng)用綜述(下)[J].標(biāo)準(zhǔn)科學(xué),2013,11:29-33.
[4]袁露,肖志勇,王映龍.論大數(shù)據(jù)的現(xiàn)狀及其發(fā)展研究[J].教育教學(xué)論壇,2014(44):86-87.
[5]鄔賀銓.大數(shù)據(jù)時代的機遇與挑戰(zhàn)[J].求是,2013,4:47-49.
[責(zé)任編輯:湯靜]