摘 要:隨著物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)的迅猛發(fā)展,大數(shù)據(jù)(Big Data)吸引了越來越多的關(guān)注,正成為信息社會的重要財富,同時也給數(shù)據(jù)的處理與管理帶來了巨大挑戰(zhàn)。本文首先從大數(shù)據(jù)概念入手,闡述了大數(shù)據(jù)的來源、處理技術(shù)、大數(shù)據(jù)獲取、大數(shù)據(jù)安全與隱私等,預測大數(shù)據(jù)應用發(fā)展趨勢。旨在為了解大數(shù)據(jù)當前發(fā)展狀況,關(guān)鍵技術(shù)以及科學地進行大數(shù)據(jù)分析與處理提供參考。
關(guān)鍵詞:大數(shù)據(jù) 云計算 大數(shù)據(jù)技術(shù) 大數(shù)據(jù)處理
最早提出“大數(shù)據(jù)”時代到來的是全球知名咨詢公司麥肯錫,該公司稱:數(shù)據(jù),已經(jīng)滲透到當今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。定義是:大數(shù)據(jù)指的是大小超出常規(guī)的數(shù)據(jù)庫工具獲取、存儲、管理和分析能力的數(shù)據(jù)集。
一、大數(shù)據(jù)定義
一般而言,大家比較認可關(guān)于大數(shù)據(jù)從早期的4V說法到現(xiàn)在的5V說法。大數(shù)據(jù)的5個V,業(yè)界將其歸納為Volume,Velocity,Variety,Veracity,Value.實際上也就是大數(shù)據(jù)包含的5個特征,包含5個層面意義:第一,數(shù)據(jù)體量(Volume)巨大。指收集和分析的數(shù)據(jù)量非常大,從TB級別,躍升到PB級別,但在實際應用中,很多企業(yè)用戶把多個數(shù)據(jù)集放在一起,已經(jīng)形成了PB級的數(shù)據(jù)量。第二,處理速度(Velocity)快,需要對數(shù)據(jù)進行近實時的分析。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。這一點和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。第三,數(shù)據(jù)類別(Variety)大,大數(shù)據(jù)來自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式日漸豐富,包含結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化等多種數(shù)據(jù)形式,如網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等。第四,數(shù)據(jù)真實性(Veracity)大數(shù)據(jù)中的內(nèi)容是與真實世界中的發(fā)生息息相關(guān)的,研究大數(shù)據(jù)就是從龐大的網(wǎng)絡(luò)數(shù)據(jù)中提取出能夠解釋和預測現(xiàn)實事件的過程。第五,價值密度低,商業(yè)價值(Value)高。通過分析數(shù)據(jù)可以得出如何抓住機遇及收獲價值。
二、大數(shù)據(jù)的來源
1.來自人類活動:人們通過社會網(wǎng)絡(luò)、互聯(lián)網(wǎng)、健康、金融、經(jīng)濟、交通等活動過程所產(chǎn)生的各類數(shù)據(jù),包括微博、病人醫(yī)療記錄、文字、圖形、視頻等信息。
2.來自計算機:各類計算機信息系統(tǒng)產(chǎn)生的數(shù)據(jù),以文件、數(shù)據(jù)庫、多媒體等形式存在,也包括審計、日志等自動生成的信息。
3.來自物理世界:各類數(shù)字設(shè)備、科學實驗與觀察所采集的數(shù)據(jù)(如攝像頭所不斷產(chǎn)生的數(shù)字信號,醫(yī)療物聯(lián)網(wǎng)不斷產(chǎn)生的人的各項特征值,氣象業(yè)務(wù)系統(tǒng)采集設(shè)備所收集的海量數(shù)據(jù)等。
三、大數(shù)據(jù)的處理技術(shù)
1.大數(shù)據(jù)的采集:來自于不同領(lǐng)域的大數(shù)據(jù),其特點、數(shù)據(jù)量以及用戶數(shù)目不同,按照結(jié)構(gòu)特點,可劃分為3種類型:結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)采集的挑戰(zhàn)是并發(fā)數(shù)高、流式數(shù)據(jù)速度快。
2.大數(shù)據(jù)的存儲:改進的輕型數(shù)據(jù)庫可用于完成大數(shù)據(jù)的存儲并響應用戶的簡單查詢與處理請求;而當數(shù)據(jù)量超過輕型數(shù)據(jù)庫的存儲能力時,則需要借助于大型分布式數(shù)據(jù)庫或存儲集群平臺,且隨著互聯(lián)網(wǎng)技術(shù)和云計算技術(shù)的發(fā)展,建立在分布式存儲基礎(chǔ)上的云存儲已經(jīng)成為大數(shù)據(jù)存儲的主要趨勢。大數(shù)據(jù)存儲的主要挑戰(zhàn)是數(shù)據(jù)異構(gòu)、結(jié)構(gòu)多樣、規(guī)模大。
3.大數(shù)據(jù)的分析及挖掘:大數(shù)據(jù)的分析涉及簡單的統(tǒng)計分析以及分類匯總,其挑戰(zhàn)在于導入數(shù)據(jù)量大,查詢請求多;而大數(shù)據(jù)挖掘涉及數(shù)據(jù)的分類、聚類、頻繁項挖掘等,其算法復雜,計算量大。
4.大數(shù)據(jù)可視化:大數(shù)據(jù)的挖掘及分析結(jié)果將在顯示終端以友好、形象、易于理解的形式呈現(xiàn)以供專業(yè)人士分析結(jié)果的準確性或為用戶提供決策信息支持。大數(shù)據(jù)呈現(xiàn)的挑戰(zhàn)在于數(shù)據(jù)維度高、呈現(xiàn)需求多樣化。
四、大數(shù)據(jù)獲取
不同領(lǐng)域?qū)臄?shù)據(jù)采集方法以及工具也不同,如互聯(lián)網(wǎng)領(lǐng)域中,用于日志采集的大數(shù)據(jù)獲取工具Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe、LinkedIn的Kafka等,用于網(wǎng)絡(luò)數(shù)據(jù)采集的網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API等方式;物聯(lián)網(wǎng)領(lǐng)域中,用于數(shù)據(jù)感知的MEMS傳感器、光纖傳感器、無線傳感器等。數(shù)據(jù)產(chǎn)生以及采集方式的發(fā)展為大數(shù)據(jù)的獲得提供了重要基礎(chǔ)。
獲取的大數(shù)據(jù)按照結(jié)構(gòu)的不同,可分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及半結(jié)構(gòu)化數(shù)據(jù)。
五、數(shù)據(jù)的安全與隱私保護
隱私問題由來已久?;ヂ?lián)網(wǎng)技術(shù)的發(fā)展使數(shù)據(jù)的傳輸,共享更加便利,而數(shù)據(jù)隱私問題則越來越嚴重。人們在互聯(lián)網(wǎng)上的一言一行都掌握在互聯(lián)網(wǎng)商家手中,例如淘寶知道用戶的購物習慣、騰訊知道用戶的好友聯(lián)絡(luò)情況、百度知道用戶的檢索習慣等。大數(shù)據(jù)的隱私保護與安全是大數(shù)據(jù)分析和處理的一個重要方面。大數(shù)據(jù)的隱私保護既是技術(shù)問題也是社會學問題,需要學術(shù)界、商業(yè)界和政府法律部門共同參與。
大數(shù)據(jù)時代的安全與傳統(tǒng)安全相比,變得更加復雜,面臨更多挑戰(zhàn)。如何在大數(shù)據(jù)環(huán)境下確保信息共享的安全性和如何為用戶提供更為精細的數(shù)據(jù)共享安全控制策略等問題值得深入研究。
六、大數(shù)據(jù)的應用
大數(shù)據(jù)在醫(yī)療、能源、通信、模式和關(guān)鍵字搜索、電子商務(wù),人工智能等領(lǐng)域具有重要的應用。比如大數(shù)據(jù)在體育行業(yè)預測。世界杯期間,谷歌、百度、微軟和高盛等公司都推出了比賽結(jié)果預測平臺。其中,百度在小組賽階段的表現(xiàn)最為亮眼,而進入淘汰賽階段,百度與微軟則以16場比賽15場準確預測的成績讓人們見識到大數(shù)據(jù)在預測領(lǐng)域的魅力。從互聯(lián)網(wǎng)公司的經(jīng)驗來看,只要有體育賽事相關(guān)的歷史數(shù)據(jù),并且與指數(shù)公司進行多方合作,就可以在賽事預測領(lǐng)域取得不錯的成績。又如經(jīng)濟、金融行業(yè)預測,2013年,英國華威商學院和美國波士頓大學物理系的研究發(fā)現(xiàn),用戶通過谷歌搜索的金融關(guān)鍵詞或許可以把脈金融市場的走向,相應的投資戰(zhàn)略收益高達326%。而此前,也有專家嘗試通過Twitter博文情緒來預測股市波動。從預測的原理上來看,穩(wěn)定發(fā)展的美國股市是比較適合大數(shù)據(jù)預測發(fā)揮其作用的。
在國內(nèi)而言,百度推出的中小企業(yè)景氣指數(shù)預測,應用百度海量的搜索數(shù)據(jù)來刻畫我國中小企業(yè)運行發(fā)展的景氣狀態(tài),以期能夠及時、有效地反映中小企業(yè)運行狀況,提高經(jīng)濟監(jiān)測的全面性和及時性。目前該功能已經(jīng)上線投入應用。
可以預見,大數(shù)據(jù)正在以一種前所未有的方式改變著各行各業(yè),如金融證券、醫(yī)療衛(wèi)生、稅務(wù)海關(guān)、交通運輸、社會保障、電子商務(wù)、地理信息、衛(wèi)星遙感、移動互聯(lián)網(wǎng)、商業(yè)智能、數(shù)據(jù)倉庫、數(shù)據(jù)集市、元數(shù)據(jù)、可視化技術(shù)。對大數(shù)據(jù)的應用能夠更好地幫助人們獲取信息并對信息進行更高效地處理和應用。
大數(shù)據(jù)雖然表面上是個技術(shù)術(shù)語,但實際上涉及到社會生活、經(jīng)濟運行、國防軍事、科學技術(shù)等方方面面。面對大數(shù)據(jù)的機遇與挑戰(zhàn),盡管目前已經(jīng)有一些探索性的研究工作,但是總體上來說,大數(shù)據(jù)的研究還很年輕,尚有諸多問題亟待解決。我國發(fā)展大數(shù)據(jù)產(chǎn)業(yè)要注意科學規(guī)劃,提出適合我國實際情況的大數(shù)據(jù)戰(zhàn)略和發(fā)展路徑,形成良好的大數(shù)據(jù)發(fā)展環(huán)境。
參考文獻
[1]Nature,BigData[EB/OL].[2012-10-02].http://www.nature.com/news/specials/bigdata/index.html.
[2]Dealing with data.Science,2011.331(6018);639-806.
[3]Arasu A,Chaudhuri S,Chen Z ,et al,Experiences with using data cleaning technology for bing services,IEEE Data Engineering Bulletin,2012,35(2):14-23.HDFS Architecture.
[4]Guide.http://hadoop.apache.org/docs/stable/hdfs_design.htm
l.2013-05-12.Science.Special online collection:Dealing with data[EB/OL].[2012-10-02].http://www.sciencemag.org/site/special/data/2011.
[5]孟小峰,慈祥,大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn),計算機研究與發(fā)展,2013,50(1);146-169.
[6]李國杰,程學旗,大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領(lǐng)域。中國科學院院刊,2012,27(6):647-657.
作者簡介
趙興芝(1980.12-),女,山東青島平度,漢,研究生,齊魯理工學院,講師,研究方向:圖形圖像。