繆麗婷
當(dāng)下互聯(lián)網(wǎng)技術(shù)愈發(fā)普及,創(chuàng)新的即時通信技術(shù)蓬勃發(fā)展,云計算服務(wù)逐漸滲透到人們的日常生活當(dāng)中……這一切都標(biāo)志著大數(shù)據(jù)時代的來臨。從簡單的數(shù)字———“小數(shù)據(jù)”躍變成多樣的數(shù)字、文本、圖片和視頻———“大數(shù)據(jù)”,人們的生活也隨即被動地改變了。
1.引言
本文系統(tǒng)地、全面地介紹大數(shù)據(jù)的基本概念、分析數(shù)據(jù)源頭和特征,詳細(xì)介紹了商界中的大數(shù)據(jù)行動、醫(yī)學(xué)界眼中的大數(shù)據(jù)、利用大數(shù)據(jù)預(yù)測變化多端的天氣和嶄新的大數(shù)據(jù)課堂,深入解析大數(shù)據(jù)處理的全過程以及數(shù)據(jù)分析的方法和工具。
2.什么是大數(shù)據(jù)
2.1大數(shù)據(jù)的含義
從字面上的理解,大數(shù)據(jù)指的是數(shù)據(jù)量的龐大。但這含義并不能全面地詮釋大數(shù)據(jù),目前社會各方對大數(shù)據(jù)有著不同的理解和定義:
在百度百科中的大數(shù)據(jù),是指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
麥肯錫全球研究所指出大數(shù)據(jù)具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征,而且規(guī)模大到在獲取、存儲、管理和分析等方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合。
在全球最權(quán)威的信息技術(shù)研究和分析公司———高德納咨詢公司的眼中,大數(shù)據(jù)是一種海量的、高增長率的和多樣化的信息資產(chǎn),并且能通過新模式處理后而具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力。
綜合上述各專家機構(gòu)的觀點,我認(rèn)為大數(shù)據(jù)不僅僅局限在其規(guī)模和數(shù)量上的大和多,而且是雜亂無章的,需要經(jīng)過收集篩選、深度挖掘、分析處理才能取得有價值的信息。利用大數(shù)據(jù)的最終目標(biāo)是要研究其是否有意義,任何無意義的或者沒有發(fā)現(xiàn)其有價值的數(shù)據(jù)都是冗余。
2.2大數(shù)據(jù)的源頭
當(dāng)開始利用數(shù)據(jù)庫技術(shù)對數(shù)據(jù)進(jìn)行收集、預(yù)處理、存儲和分析時,人們對數(shù)據(jù)的接受方式也發(fā)生了明顯的變化:由被動接受到主動接觸,進(jìn)而到自動處理三大階段。要獲得有價值的信息,首先是數(shù)據(jù)的存在,那么大數(shù)據(jù)來源于哪里?
2.2.1互聯(lián)網(wǎng)數(shù)據(jù)
隨著互聯(lián)網(wǎng)的普及,數(shù)據(jù)量呈現(xiàn)出爆發(fā)性的增長,互聯(lián)網(wǎng)也進(jìn)入了一個嶄新的時代———Web2.0時代。越來越多的網(wǎng)絡(luò)使用者利用網(wǎng)頁進(jìn)行數(shù)據(jù)交換,分享網(wǎng)絡(luò)瀏覽內(nèi)容與痕跡,無時無刻地都在產(chǎn)生數(shù)據(jù)。如以新浪微博、Facebook、Twitter和微信為例的社交媒體,每天發(fā)布超過3億的即時生活信息、視頻,通過記錄用戶點贊量為客戶收集用戶的喜好,使數(shù)據(jù)接受者的我們瞬間變?yōu)榇髷?shù)據(jù)的制造者。
2.2.2物聯(lián)網(wǎng)數(shù)據(jù)
物聯(lián)網(wǎng)被譽為互聯(lián)網(wǎng)與傳統(tǒng)通信網(wǎng)絡(luò)的信息載體,能夠使具有不同功能的產(chǎn)品在互聯(lián)網(wǎng)中實現(xiàn)線上與線下的數(shù)據(jù)交換的網(wǎng)絡(luò)。物聯(lián)網(wǎng)的兩大核心分別是:“物”和“網(wǎng)”。“物”是指擴展到各種產(chǎn)品的客戶端,例如可穿戴式設(shè)備、汽車的智能導(dǎo)航系統(tǒng)和智能家居關(guān)聯(lián)的生活設(shè)備(如窗簾、電燈、安防和影視設(shè)備)等;“網(wǎng)”指的還是互聯(lián)網(wǎng)。便攜智能設(shè)備、智慧家居、人工智能交通調(diào)控……這些之所以能夠存在,原因在于數(shù)據(jù)。而正是具有數(shù)據(jù)采集功能的傳感器、視頻和其他智能設(shè)備的發(fā)展,促使海量數(shù)據(jù)的生成。
2.2.3企業(yè)數(shù)據(jù)
早在20世紀(jì)80年代,企業(yè)開始意識到海量數(shù)據(jù)真正價值。在他們的眼中,數(shù)據(jù)都源自于企業(yè)內(nèi)部數(shù)據(jù)系統(tǒng)(例如OA辦公自動化系統(tǒng)、ERP企業(yè)資源計劃信息平臺和CRM客戶管理系統(tǒng)等),另外還有企業(yè)外部數(shù)據(jù)系統(tǒng)(例如視頻監(jiān)控、電話訪問、信件和電子郵件反饋、照片以及電子游戲等),通過分析這些大數(shù)據(jù),從中獲取有價值的信息,改變產(chǎn)品設(shè)計和銷售策略,進(jìn)而提高銷售額。
2.3大數(shù)據(jù)的特征
被譽為“大數(shù)據(jù)之父”的維克托·邁爾·舍恩伯格在他和肯尼斯·克耶編寫的《大數(shù)據(jù)時代》中提及到,大數(shù)據(jù)具有4V特征:高容量性(Volume)、珍貴性(Value)、多種性(Variety)和實時性(Velocity),另外,IBM也總結(jié)了第五個V特征———真實與準(zhǔn)確性(Veracity)。
2.3.1高容量性
未來學(xué)家阿爾文·托夫勒曾贊頌大數(shù)據(jù)為“第三次浪潮的華彩樂章”,這間接地說明大數(shù)據(jù)如浪潮般地涌入。過去描述數(shù)據(jù)有多大我們用的是多少GB或者是多少TB,但是現(xiàn)在我們衡量數(shù)據(jù)是以多少PB、多少EB或者多少ZB來算。1 PB=1024×1024×1024 MB,通常我們拍攝一張高精度高對比度的照片大小一般為15 MB,則1 PB的儲存空間能儲存7158萬張照片。目前全人類社會大概共拍攝了超過3.5萬億張照片,其中發(fā)布在臉譜網(wǎng)上的就有1 400億張。除了社交網(wǎng)站,手機移動端、可穿戴設(shè)備和銀行ATM機等各種智能設(shè)備,都能生產(chǎn)高容量性的大數(shù)據(jù)。
2.3.2珍貴性
盡管每分每刻都在生產(chǎn)數(shù)據(jù),但是對于我們來說并不是所有的數(shù)據(jù)都是有價值的。有些數(shù)據(jù)或許對你來說沒什么用,但對一些特定的人群來說,某個數(shù)據(jù)是珍貴的。在茫茫的數(shù)據(jù)海洋中,“閃閃發(fā)光的金子”所占的比例雖然非常的小,但其背后所具有的價值是非常巨大的,這就是其珍貴性之所在。例如關(guān)于大數(shù)據(jù)最經(jīng)典的案例———沃爾瑪?shù)摹捌【坪湍虿肌?,一般人都不會把啤酒和尿布?lián)想到一起,但是數(shù)據(jù)分析員了解到年輕的爸爸在買尿布的時候也順便買啤酒來表揚自己,于是才創(chuàng)出了捆綁銷售的先河。
2.3.3多種性
大數(shù)據(jù)的多種化主要體現(xiàn)在數(shù)據(jù)的來源多而雜和數(shù)據(jù)的表現(xiàn)形式多樣。
①數(shù)據(jù)的來源多而雜,一般來源于互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、企業(yè)或行業(yè)數(shù)據(jù)。②數(shù)據(jù)的表現(xiàn)形式多樣:在企業(yè)或行業(yè)當(dāng)中,數(shù)據(jù)一般以圖表的形式存在,這種數(shù)據(jù)間存在著較強的因果關(guān)系,因此也稱為結(jié)構(gòu)化數(shù)據(jù);在商業(yè)中,數(shù)據(jù)是以文本、數(shù)字、視頻監(jiān)控、照片、網(wǎng)頁、音頻和鏈接等形式表現(xiàn),屬于非結(jié)構(gòu)化數(shù)據(jù),其特點是數(shù)據(jù)與數(shù)據(jù)間沒有較為明顯的因果關(guān)系。當(dāng)然也有介于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間的數(shù)據(jù)———半結(jié)構(gòu)化數(shù)據(jù),例如超文本標(biāo)記語言文檔。
2.3.4實時性
數(shù)據(jù)類似流水一樣,是不斷流動的,而數(shù)據(jù)的價值則和處理時間的長度成反比例趨勢下降。大數(shù)據(jù)在處理過程中需要遵循“一秒定律”,顧名思義是要求至少在秒級的時間范圍內(nèi)做出響應(yīng),并判斷出此數(shù)據(jù)是否有價值,實時處理數(shù)據(jù)的能力將會受到極大挑戰(zhàn)。
2.3.5真實與準(zhǔn)確性
IBM曾公開表示:“只有真實而準(zhǔn)確的數(shù)據(jù)才能讓對數(shù)據(jù)的管控和治理真正有意義。隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的興起,傳統(tǒng)數(shù)據(jù)源的局限性被打破,企業(yè)愈發(fā)需要有效的信息治理以確保其真實性及安全性?!?/p>
3.大數(shù)據(jù)是有價值的
2018年9月20日,“大數(shù)據(jù)時代的預(yù)言家”維克多·邁爾·舍恩伯格在數(shù)博會上發(fā)表了“數(shù)據(jù)將成配置經(jīng)濟資源的核心要素”,可見只要立足于數(shù)據(jù),經(jīng)過合理地分析和利用,數(shù)據(jù)將會以不可估量的價值來回報我們。
3.1商界中的大數(shù)據(jù)行動
2012年大數(shù)據(jù)開始進(jìn)入大眾的眼簾,原因是有不少高端的國際化企業(yè)加快對大數(shù)據(jù)應(yīng)用的推進(jìn),如搜索引擎谷歌、社交網(wǎng)站巨頭臉譜網(wǎng)和跨境網(wǎng)絡(luò)電子零售商亞馬遜等。谷歌既保存用戶的搜索結(jié)果的同時,也存儲了用戶的搜索行為(時間、內(nèi)容和尋找方式),這能讓它在短時間內(nèi)判斷出用戶的搜索目標(biāo)是什么并做出推薦。據(jù)統(tǒng)計數(shù)據(jù),在一個月內(nèi)谷歌處理的搜索請求就達(dá)到122億次以上,如此龐大的用戶群將給他帶來非常可觀的廣告收益。亞馬遜通過收集用戶對新按鈕的點擊量與舊按鈕做數(shù)據(jù)對比,當(dāng)新按鈕的點擊率達(dá)到穩(wěn)定或者是更可觀的時候,新設(shè)計將會取代舊設(shè)計。這就隱喻了數(shù)據(jù)是設(shè)計的風(fēng)向標(biāo),它能夠告訴我們用戶喜歡什么樣的設(shè)計,哪些是有效的,哪些是無效的。
3.2醫(yī)學(xué)界眼中的大數(shù)據(jù)
傳統(tǒng)的醫(yī)學(xué)診斷一般都是以薪火相傳的經(jīng)驗為主,這將導(dǎo)致真正有療效的治療方法因傳播范圍狹小而未被廣泛應(yīng)用。因此,最好的治療是基于醫(yī)學(xué)案例,統(tǒng)計并分析各種不同的病例所采用的不同診療手段。過去分析人口數(shù)據(jù),發(fā)現(xiàn)人均壽命較短,嬰兒的出生死亡率較高,通過分析大數(shù)據(jù),大力宣傳普及預(yù)防疫苗,從而降低了幼兒的死亡率。DNA測試和數(shù)據(jù)分析公司23andMe將大數(shù)據(jù)應(yīng)用在人類遺傳學(xué)上,隨著研究技術(shù)的深入和處理能力的提高,過去價格高昂的個人DNA測評,現(xiàn)在僅需人民幣300多元就可解開自身的遺傳密碼。2015年,首家在美國上市的可穿戴設(shè)備設(shè)計與制造公司Fitbit發(fā)布一款能夠跟蹤使用者一天下來的所有身體活動,包括夜間睡眠監(jiān)測。隨后相繼出現(xiàn)了Nike手環(huán)、小米手環(huán)和微信自帶的“微信運動”功能等。通過這些設(shè)備和程序,用戶可以更加方便、快捷并實時地掌握自己的身體狀況,當(dāng)出現(xiàn)報警時,就會提高注意了。
3.3變化多端的天氣———大數(shù)據(jù)預(yù)測
大數(shù)據(jù)除了能夠在商業(yè)、醫(yī)學(xué)上獲得廣泛的應(yīng)用外,也能在預(yù)測變化多端的天氣方面貢獻(xiàn)一份力量。目前每天僅是天氣數(shù)據(jù)容量就達(dá)到30 TB,總數(shù)據(jù)量大概是23 PB,儲存的基本要素一般有溫度、氣壓、雨量、濕度、風(fēng)速和風(fēng)向。氣象大數(shù)據(jù)蘊含了巨大的價值。2012年,專注于醫(yī)藥的企業(yè)默克公司分析了過去的和現(xiàn)在的氣象數(shù)據(jù),發(fā)現(xiàn)每逢5月天氣將變暖促使了花粉的傳播,因此默克公司改變銷售策略,加大過敏的宣傳力度,最后賺取可觀的利潤。氣象大數(shù)據(jù)還能為航空飛行保駕護(hù)航,減少由于天氣災(zāi)害造成的損失。
3.4嶄新的大數(shù)據(jù)課堂
班布里克·桑托約曾在《數(shù)據(jù)驅(qū)動:改進(jìn)授課的實際指南》中提出數(shù)據(jù)驅(qū)動能有效地跟蹤學(xué)習(xí)效果,幫助教師改善教學(xué)方法。由哈佛大學(xué)和麻省理工大學(xué)打造的非營利性EDX數(shù)字教育平臺,該平臺已經(jīng)有超過90萬人注冊,擁有包括醫(yī)學(xué)、金融、計算機科學(xué)和統(tǒng)計學(xué)等不同學(xué)科的教學(xué)視頻與講義超過3 600個,教師通過EDX平臺以電子的形式傳遞課件、布置作業(yè)、進(jìn)行一系列的測評和考試。除此之外,國內(nèi)也有類似的網(wǎng)絡(luò)教育平臺和移動端,例如考試吧網(wǎng)站、微課和雨課堂等,利用線上和線下學(xué)習(xí)相結(jié)合的方式,讓學(xué)生在學(xué)習(xí)枯燥的知識時感到有趣,提高了學(xué)生的關(guān)注度與投入度,促進(jìn)課堂教學(xué)的效率。
4.處理大數(shù)據(jù)的方法
在茫茫的數(shù)據(jù)大海當(dāng)中,如何才能快速找出我們需要的“金子”?處理大數(shù)據(jù)的方法很重要。大數(shù)據(jù)的解決方案異于傳統(tǒng)技術(shù),它是以犧牲一定的數(shù)據(jù)一致性為代價,追求數(shù)據(jù)的靈活與擴展,并在短時間內(nèi)完成數(shù)據(jù)處理。當(dāng)前應(yīng)用在處理大數(shù)據(jù)的技術(shù)有ETL數(shù)據(jù)預(yù)處理平臺、流處理實時分析、海量并行處理數(shù)據(jù)庫(MPP)、分布式系統(tǒng)架構(gòu)(Hadoop)、云計算系統(tǒng)、互聯(lián)網(wǎng),HDFS分布式文件系統(tǒng)以及大數(shù)據(jù)的分布式模型Map Reduce技術(shù)等。
4.1 MPP
海量并行處理數(shù)據(jù)庫由多個對稱多處理器系統(tǒng)共享一定網(wǎng)絡(luò)的所有資源,共同完成任務(wù)。從用戶的角度去看,它們是一個整體,但實際上每個SMP服務(wù)器單元里的控件都是獨立的,資源和權(quán)限分開的。由于MPP采用分布式結(jié)構(gòu)并以列為單位儲存數(shù)據(jù),與傳統(tǒng)的數(shù)據(jù)庫相比,它能處理PB級的數(shù)據(jù),具有強大的輸入輸出能力和可擴展能力。
4.2 Hadoop
Hadoop作為Lucene的子項目被ASF公司正式公開發(fā)表。它是基于分布式處理方法MapReduce實現(xiàn)框架并儲存海量數(shù)據(jù)。它的核心設(shè)計共有2個模塊:①HDFS分布式文件系統(tǒng);②分布式大數(shù)據(jù)處理框架MapReduce技術(shù)。Hadoop融合了這二者容錯性高、實時交換數(shù)據(jù)量多、大容量存儲、低成本和高速度運算等優(yōu)點。
4.3 MapReduce
大數(shù)據(jù)的分布式模型MapReduce,是通過分派海量數(shù)據(jù)任務(wù)給一個SMP服務(wù)器旗下各分節(jié)點協(xié)同完成,接著跟蹤整理各節(jié)點的分步成果,最終融合成結(jié)果。通俗地說,MapReduce就是一個先分解任務(wù)后聚合成果的過程。MapReduce主要完成劃分?jǐn)?shù)據(jù)、調(diào)度計算任務(wù)、雙向定位數(shù)據(jù)與代碼、優(yōu)化系統(tǒng)、檢測出錯和恢復(fù)數(shù)據(jù)。
5.結(jié)束語
通過了解大數(shù)據(jù)對商界、醫(yī)學(xué)界、氣象學(xué)和教育等領(lǐng)域的深遠(yuǎn)影響后,可以看到大數(shù)據(jù)是有價值的,它實實在在、無時無刻地改變并驅(qū)動了我們的生活。目前大數(shù)據(jù)技術(shù)還是處于初級發(fā)展階段,未來還會遇到各種機遇和挑戰(zhàn)。