趙保華
(阿壩師范學(xué)院,四川汶川 623002)
大數(shù)據(jù)面臨的問題及挑戰(zhàn)
趙保華
(阿壩師范學(xué)院,四川汶川623002)
本文首先對大數(shù)據(jù)的定義及研究現(xiàn)狀進(jìn)行了全面論述。同時(shí)大數(shù)據(jù)在存儲、數(shù)據(jù)安全、數(shù)據(jù)顯示也面臨各種各樣的問題。大數(shù)據(jù)在助推各個(gè)行業(yè)發(fā)展的同時(shí)也帶來嚴(yán)峻的挑戰(zhàn)。最后論文對大數(shù)據(jù)進(jìn)行了簡單的展望。
大數(shù)據(jù);挑戰(zhàn);挖掘
隨著云計(jì)算、社交網(wǎng)絡(luò)等媒體技術(shù)的不斷發(fā)展,全球各種各樣的數(shù)據(jù)呈爆炸態(tài)勢發(fā)展。而數(shù)據(jù)的存儲單位也由曾經(jīng)的B、KB、MB、GB、TB發(fā)展到了PB、EB、ZB、YB的級別,有關(guān)數(shù)據(jù)顯示,在過去幾年數(shù)據(jù)的增長量超過了原初幾萬年的數(shù)據(jù)累積總量,如此即對社會經(jīng)濟(jì)的發(fā)展,企業(yè)或者組織的管理,以及社會個(gè)人生活產(chǎn)生了巨大的轉(zhuǎn)變推動力。面對跡近龐大的數(shù)據(jù)量,目前的數(shù)據(jù)處理軟件已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足時(shí)下大數(shù)據(jù)分析和處理工作的發(fā)展需求。同時(shí)又由研究可知,數(shù)據(jù)量越大,于其中可挖掘提取的價(jià)值也就越大,因此大數(shù)據(jù)中的問題和機(jī)遇始終并存。大數(shù)據(jù)是繼云計(jì)算之后IT界的又一次技術(shù)性革命[1]。本文即就這一課題內(nèi)容展開如下完整全面論述。
1.1大數(shù)據(jù)定義
對于大數(shù)據(jù),業(yè)界迄今仍尚未做出一個(gè)明確定義。麥肯錫將大數(shù)據(jù)定義為:無法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合[2]。大數(shù)據(jù)來源于網(wǎng)絡(luò)交易數(shù)據(jù),無法用現(xiàn)有的技術(shù)工具處理。作為已然形成的研究熱點(diǎn),大數(shù)據(jù)有如下4個(gè)特征:數(shù)據(jù)類型多樣(variety)、數(shù)據(jù)處理速度快(velocity)、數(shù)據(jù)量大(volume)和數(shù)據(jù)價(jià)值密度低(value)。具體可作如下闡析:
1)數(shù)據(jù)類型多樣。即數(shù)據(jù)來源多種多樣,現(xiàn)有的數(shù)據(jù)大多都是結(jié)構(gòu)化的數(shù)據(jù),而大數(shù)據(jù)不但包含了結(jié)構(gòu)化數(shù)據(jù),還包含了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
2)數(shù)據(jù)處理速度快。就大數(shù)據(jù)的分析和處理而言,隨著高性能計(jì)算服務(wù)的提高,每秒鐘業(yè)務(wù)處理的速度大幅提高。
3)數(shù)據(jù)量大。隨著網(wǎng)絡(luò)、手機(jī)等智能設(shè)備的推廣普及,關(guān)于人類行為的數(shù)據(jù)已達(dá)到了前所未有的爆炸式增長,目前數(shù)據(jù)即已達(dá)到了PB級別、甚至ZB級別。
4)數(shù)據(jù)價(jià)值密度低。即大數(shù)據(jù)本身所展現(xiàn)的價(jià)值密度非常低。比如監(jiān)控,在連續(xù)若干小時(shí)間的監(jiān)控?cái)?shù)據(jù)之中,也許僅有幾秒鐘的數(shù)據(jù)才真正是有價(jià)值的。
1.2大數(shù)據(jù)研究現(xiàn)狀
1980年,大數(shù)據(jù)的概念思想即已獲得提出。在此后的幾十年,特別是最近幾年,人們對大數(shù)據(jù)的重視關(guān)注也在日漸增加,國際頂尖的學(xué)術(shù)期刊更陸續(xù)出版了關(guān)于大數(shù)據(jù)的系列文章。大數(shù)據(jù)不但在學(xué)術(shù)界掀起了研究熱潮,就是政府也對大數(shù)據(jù)給予了高度重視,例如奧巴馬政府即將大數(shù)據(jù)提升至戰(zhàn)略地位,助推了大數(shù)據(jù)研究工作的大范圍開展及成果實(shí)現(xiàn)。在國內(nèi),已有論文對大數(shù)據(jù)進(jìn)行了綜合的討論,同時(shí)也對大數(shù)據(jù)未來提出了合理化建議。隨著大數(shù)據(jù)階段式研發(fā)的開啟與延續(xù),與大數(shù)據(jù)相關(guān)的一些專著則越來越多,大數(shù)據(jù)正在影響和改變著人們的生活方式、思維方式和管理模式,而大數(shù)據(jù)的發(fā)展也必將帶來新的商業(yè)契機(jī)。
與傳統(tǒng)數(shù)據(jù)類似,大數(shù)據(jù)的處理也包括了數(shù)據(jù)存儲、數(shù)據(jù)有效獲取、數(shù)據(jù)分析和數(shù)據(jù)展示等技術(shù)實(shí)現(xiàn)步驟。相應(yīng)地,大數(shù)據(jù)面臨的問題也蘊(yùn)蓄其中。現(xiàn)給出詳細(xì)分述,具體如下。
2.1大數(shù)據(jù)的存儲問題
與傳統(tǒng)數(shù)據(jù)存儲不同,大數(shù)據(jù)均來自不同的地方,存放標(biāo)準(zhǔn)各有特色,而且數(shù)據(jù)類型也呈現(xiàn)為多種多樣,使得無法用結(jié)構(gòu)化方式存放已有的大數(shù)據(jù)。同時(shí),這些問題也增加了數(shù)據(jù)集成和整合方面的難度。實(shí)時(shí)性是大數(shù)據(jù)的一個(gè)顯著特點(diǎn)。所以關(guān)于大數(shù)據(jù)的存放設(shè)備也就必然對其實(shí)時(shí)性和吞吐率加以著重要求與特別考慮。
2.2大數(shù)據(jù)的獲取
大數(shù)據(jù)的獲取是指獲取大數(shù)據(jù)中的有用數(shù)據(jù)。大數(shù)據(jù)的核心對象就是數(shù)據(jù),這些數(shù)據(jù)規(guī)模巨大,種類繁多,并且包含著頗具研究價(jià)值的實(shí)用信息,因此數(shù)據(jù)質(zhì)量的好壞對大數(shù)據(jù)分析有著十分重要的影響。也有人提出了不必過于注重?cái)?shù)據(jù)的質(zhì)量,在大數(shù)據(jù)的分析過程中,允許出現(xiàn)少量的錯誤數(shù)據(jù),但是若不對其加以限制,一定數(shù)量的錯誤數(shù)據(jù)即有可能導(dǎo)致分析結(jié)果完全相反。由此可知,數(shù)據(jù)獲取技術(shù)的效果提升也將在一定程度上促進(jìn)了大數(shù)據(jù)的可見性應(yīng)用研究發(fā)展。在實(shí)際應(yīng)用中,并不是數(shù)據(jù)越多越好,而是要在大量的基礎(chǔ)資源中獲取有用數(shù)據(jù),得到的有用數(shù)據(jù)越多,就有可能更為完備地描述事物的發(fā)展態(tài)勢。所以,大數(shù)據(jù)的關(guān)鍵就是從大量的原始數(shù)據(jù)中獲取有益的有用數(shù)據(jù)。對于傳統(tǒng)數(shù)據(jù)來說,以某種方式將這些有用數(shù)據(jù)聚合起來是一件非常簡單的事情,但是對于大數(shù)據(jù)來說,由于大數(shù)據(jù)種類繁多,而且又都是非結(jié)構(gòu)化數(shù)據(jù),所以在處理時(shí)要盡量獲取其中的有效數(shù)據(jù),排除一些無關(guān)或者錯誤的數(shù)據(jù)。
2.3數(shù)據(jù)分析
大數(shù)據(jù)的核心節(jié)點(diǎn)就是數(shù)據(jù)的分析。大數(shù)據(jù)處理后的研究結(jié)論即是從對大數(shù)據(jù)的分析過程中得出的。就數(shù)據(jù)本身來說,這些數(shù)據(jù)并不具備明顯意義,只有將這些數(shù)據(jù)關(guān)聯(lián)特定的應(yīng)用,并對其實(shí)施分析,才能使這些無用數(shù)據(jù)轉(zhuǎn)化成為有用數(shù)據(jù)。在分析大數(shù)據(jù)的過程中也存在著挑戰(zhàn)因素。數(shù)據(jù)越多,獲取的有用價(jià)值信息可能也就越多,但是數(shù)據(jù)在獲取價(jià)值信息的同時(shí)也將帶來干擾因素。所以在數(shù)據(jù)分析中必須著重考慮分析粒度,如果分析粒度太大,就無法達(dá)到理想效果;如果分析粒度太小,很多有用信息就可能會被過濾或排除掉。因此,在數(shù)據(jù)分析過程中,數(shù)據(jù)的質(zhì)和量就需要進(jìn)行綜合、統(tǒng)一的定制與權(quán)衡。
2.4展示數(shù)據(jù)
數(shù)據(jù)展示是獲得現(xiàn)實(shí)普遍關(guān)注的因素。傳統(tǒng)的數(shù)據(jù)展示就是將處理的結(jié)果以文本或者圖表的形式顯示在電腦上,這對少量的數(shù)據(jù)來說,是完美的解決方案,但是對于大數(shù)據(jù)來說,卻并不可行。大數(shù)據(jù)需要用到可視化技術(shù)來展示這些數(shù)據(jù)結(jié)果。數(shù)據(jù)起源技術(shù)或者人機(jī)交互技術(shù)[3],能夠生動描述對數(shù)據(jù)的分析結(jié)果,同時(shí)也能夠使用戶理解各類結(jié)果的由來。
2.5數(shù)據(jù)安全
和傳統(tǒng)數(shù)據(jù)一樣,大數(shù)據(jù)也存在數(shù)據(jù)安全的問題。在網(wǎng)絡(luò)傳輸中,大數(shù)據(jù)更易遭受攻擊,原因之一就是大數(shù)據(jù)包含了大量有價(jià)值的信息,從而使其更易成為攻擊焦點(diǎn)。大數(shù)據(jù)中也或許包含了個(gè)人信息,如果大數(shù)據(jù)泄露,對個(gè)人的安全也隨即構(gòu)成了重大威脅。
3.1機(jī)遇
大數(shù)據(jù)的應(yīng)用深刻影響著當(dāng)下的商業(yè)模式。大數(shù)據(jù)是具有高額利潤的大市場,對其的成功運(yùn)用,則能為企業(yè)或單位節(jié)省大量的資本。據(jù)麥肯錫測算,大數(shù)據(jù)的應(yīng)用每年潛在可為美國醫(yī)療健康業(yè)和歐洲政府分別節(jié)省3 000億美元和1 000億歐元,利用個(gè)人位置信息潛在可創(chuàng)造出6 000億美元價(jià)值[4]。
大數(shù)據(jù)的應(yīng)用為信息安全帶來了新的發(fā)展機(jī)會。大數(shù)據(jù)背后隱藏著巨大的價(jià)值,對數(shù)據(jù)安全要求極高,由此必將推動信息安全技術(shù)的現(xiàn)實(shí)迅捷發(fā)展,而且更會帶動眾多信息技術(shù)和安全產(chǎn)品的提升式進(jìn)步發(fā)展。數(shù)據(jù)安全貫穿于大數(shù)據(jù)鏈中的各個(gè)環(huán)節(jié),云安全技術(shù)的發(fā)展,即可會為大數(shù)據(jù)提供穩(wěn)定安全保證。
綜上可知,大數(shù)據(jù)的發(fā)展必使促進(jìn)商業(yè)的智能化向更高一級別的發(fā)展,也必將獲得云計(jì)算產(chǎn)業(yè)、商業(yè)智能化和信息安全技術(shù)的整體可見優(yōu)勢發(fā)展。
3.2挑戰(zhàn)
大數(shù)據(jù)的發(fā)展在帶來了機(jī)會的同時(shí),卻也在技術(shù)、安全和人才方面帶來了更大的挑戰(zhàn)。
大數(shù)據(jù)的技術(shù)解決方案包括了自然語言建模和處理、統(tǒng)計(jì)學(xué)、復(fù)雜數(shù)據(jù)的分析和處理等等,這些方面都需要專業(yè)的技術(shù)和管理人才來運(yùn)作與支撐。從目前情況來看,國內(nèi)IT人員缺口較大,與大數(shù)據(jù)的要求產(chǎn)生了巨大的沖突,因此大數(shù)據(jù)對我國的人才方面提出了嚴(yán)峻的挑戰(zhàn)。
另一方面,大數(shù)據(jù)對信息數(shù)據(jù)安全也相應(yīng)提出了高端挑戰(zhàn)。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的隱藏價(jià)值較高,在數(shù)據(jù)的分析和共享中,數(shù)據(jù)信息的安全即已成為人們考慮與關(guān)注的重點(diǎn)。所有的數(shù)據(jù)都是存儲在云端,對于非法用戶和合法用戶難以做到明確區(qū)分,如何防止用戶信息遭遇非法篡改或竊取,則又是當(dāng)下面臨的一個(gè)嚴(yán)重挑戰(zhàn)。同時(shí),大數(shù)據(jù)中也具體包含了很多用戶個(gè)人信息和上網(wǎng)行為記錄,如何使得這些信息既可為人類服務(wù)、又要保證其不致出現(xiàn)非法利用,這也成為大數(shù)據(jù)時(shí)代致力于研究攻關(guān)的另一個(gè)重要難題。
利用大數(shù)據(jù)的挖掘分析技術(shù),可以預(yù)測未來經(jīng)濟(jì)走勢,由此將可規(guī)避不必要的運(yùn)營風(fēng)險(xiǎn)。隨著各個(gè)行業(yè)對大數(shù)據(jù)的巨額投資,將會引來創(chuàng)新式的商業(yè)變革。在硬件方面,隨著大數(shù)據(jù)對實(shí)時(shí)吞吐的技術(shù)指標(biāo)要求,將會催生一系列的硬件廠商的強(qiáng)勁發(fā)展。而在軟件方面,由于大數(shù)據(jù)對實(shí)時(shí)分析和挖掘技術(shù)的迫切需求,則將引發(fā)智能應(yīng)用市場和挖掘技術(shù)的空前的繁榮發(fā)展。
不僅如此,隨著大數(shù)據(jù)的發(fā)展,大數(shù)據(jù)在各行各業(yè)的應(yīng)用也將日趨廣泛。無論是政府單位、零售行業(yè)還是制造行業(yè),大數(shù)據(jù)均將產(chǎn)生高度豐厚的社會價(jià)值和經(jīng)濟(jì)價(jià)值。
首先,在政府方面,政府通過對大數(shù)據(jù)的挖掘和分析,能提高政府機(jī)構(gòu)決策的正確性和科學(xué)性,同時(shí)也能夠大幅縮減政府的預(yù)算開支。提高政府決策的權(quán)威性,使國家未來遭受的經(jīng)濟(jì)損失降至最低。通過大數(shù)據(jù),還可以使政府單位部門進(jìn)入更加透明、公開和公正。通過大數(shù)據(jù)的分析,政府能夠更加明確本國國民的意愿,而后據(jù)此提供更加貼切的服務(wù),顯著提升人們的幸福指數(shù)。
其次,在零售行業(yè),例如美國一些企業(yè)通過巨額資本投入,廣泛收集各個(gè)門市信息,并提升企業(yè)的數(shù)據(jù)分析能力,而后根據(jù)分析的結(jié)果再應(yīng)用到實(shí)際銷售中,于是不斷擴(kuò)大自己的市場,最終獲得了企業(yè)利潤的大幅增加,從而保障實(shí)現(xiàn)企業(yè)發(fā)展計(jì)劃追求目標(biāo)。
第三,在制造業(yè)方面,傳統(tǒng)的以生產(chǎn)產(chǎn)品為主的模式已經(jīng)不再適合大數(shù)據(jù)時(shí)代的多元發(fā)展,時(shí)下眾多企業(yè)已經(jīng)領(lǐng)會了產(chǎn)品個(gè)性化定制的重要性,所以,制造業(yè)需要充分完善利用大數(shù)據(jù),通過對大數(shù)據(jù)的提取分析,清晰掌握客戶需求,從而生產(chǎn)出符合客戶理想需求的產(chǎn)品,使企業(yè)立于不敗之地。
本文對大數(shù)據(jù)以及研究的現(xiàn)狀進(jìn)行了完整論述,接下來即對大數(shù)據(jù)所面臨的問題進(jìn)行了解析闡述。大數(shù)據(jù)在帶來挑戰(zhàn)的同時(shí),也必將帶來各式各樣的機(jī)遇。隨著大數(shù)據(jù)時(shí)代的來臨,各行各業(yè)必將圍繞大數(shù)據(jù)展開新一輪的激烈競爭,各家企業(yè)均要從人才戰(zhàn)略儲備的高度、信息技術(shù)安全的角度把握大數(shù)據(jù)帶來的機(jī)遇,同時(shí)也要應(yīng)對大數(shù)據(jù)帶來的各種挑戰(zhàn),從而完成企業(yè)的潮流轉(zhuǎn)型和最優(yōu)發(fā)展。
[1]嚴(yán)霄鳳,張德馨.大數(shù)據(jù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013,23(4):168-172.
[2]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):146-169.
[3]李芬,朱志祥,劉盛輝.大數(shù)據(jù)發(fā)展現(xiàn)狀及面臨的問題[J].西安郵電大學(xué)學(xué)報(bào),2013,18(5):100-103.
[4]CHEN Jinchuan,CHEN Yueguo,DU Xiaoyong,et al.Big data challenge:a data management perspective[J].Front.Comput.Sci.,2013,7(2):157-164.
[5]LEE Y,CHUNG W Y,MADNICK S,et al.On the rise of the chief data officers in a world of big data[C]//Information Quality and Data Science Initiative.[S.l.]:Massachusetts Institute of Technology,2012:1-4.
The problems and challenges of Big Data
ZHAO Baohua
(Aba Teachers College,Wenchuan Sichuan 623002,China)
In this paper,the definition of big data and research status are completely discussed firstly.At the same time,a variety of problems are also encountered in such aspects as big data storage,data security,data display.While boosting the development of various industries,big data brings serious challenges.Finally,the future prospect on large data are also provided.
Big Data;challenges;excavate
TP393
A
2095-2163(2016)03-0111-03
2016-05-09
趙保華(1968-),男,碩士,副教授,主要研究方向:計(jì)算機(jī)及應(yīng)用、網(wǎng)絡(luò)技術(shù)、高校信息化。