張航
摘要:近年來(lái),在科學(xué)技術(shù)不斷發(fā)展的同時(shí),推動(dòng)了互聯(lián)網(wǎng)與物聯(lián)網(wǎng)的進(jìn)步,這也同樣意味著海量數(shù)據(jù)時(shí)代的到來(lái),并處于迅速發(fā)展的階段。在此背景下,電子商務(wù)與互聯(lián)網(wǎng)等多種領(lǐng)域中已經(jīng)出現(xiàn)了大量的數(shù)據(jù)積累,因此“大數(shù)據(jù)”產(chǎn)生。文章以統(tǒng)計(jì)學(xué)的角度來(lái)對(duì)“大數(shù)據(jù)時(shí)代”的概念進(jìn)行了界定,同時(shí)滲入研究了“大數(shù)據(jù)時(shí)代”的定義,結(jié)合其具體的特點(diǎn),對(duì)目前階段統(tǒng)計(jì)研究工作以及統(tǒng)計(jì)理念中的挑戰(zhàn)進(jìn)行了探討,最終積極的明確了統(tǒng)計(jì)工作與研究合理變動(dòng)的具體想法。
關(guān)鍵詞:大數(shù)據(jù)時(shí)代;大數(shù)據(jù);統(tǒng)計(jì)學(xué);數(shù)據(jù)分析
引言:
目前階段,在計(jì)算機(jī)處理技術(shù)不斷發(fā)展的背景下,在對(duì)規(guī)模較大并且較為復(fù)雜的數(shù)據(jù)進(jìn)行處理過(guò)程中,人們已經(jīng)逐漸掌握了方法與技能,并且能夠在大規(guī)模的數(shù)據(jù)中找出具有一定價(jià)值的信息,所以,大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨。在數(shù)據(jù)時(shí)代中,在人文社科與人類自然科學(xué)技術(shù)等方面都會(huì)有較大的發(fā)展,同時(shí)也會(huì)一定程度上改變?nèi)藗兊纳钆c工作方式。除此之外,大數(shù)據(jù)時(shí)代也同樣為統(tǒng)計(jì)學(xué)提供了良好的發(fā)展機(jī)會(huì),但也存在一定的挑戰(zhàn)。
一、大數(shù)據(jù)時(shí)代的概念
大數(shù)據(jù)時(shí)代的提出者是麥肯錫,他認(rèn)為數(shù)據(jù)已經(jīng)逐漸進(jìn)入到各個(gè)行業(yè)與各業(yè)務(wù)職能的領(lǐng)域中,并且逐漸成為了主要的生產(chǎn)因素[1]。因此,人們?cè)趯?duì)大規(guī)模數(shù)據(jù)進(jìn)行挖掘與應(yīng)用的過(guò)程,也就意味著新的生產(chǎn)率增長(zhǎng)的來(lái)臨。雖然“大數(shù)據(jù)”在眾多行業(yè)被廣泛應(yīng)用,但是,特別是在信息與互聯(lián)網(wǎng)的領(lǐng)域中應(yīng)用突出。
二、怎樣理解大數(shù)據(jù)
(一)大數(shù)據(jù)概念界定與構(gòu)成
大數(shù)據(jù),即由于日常產(chǎn)生的數(shù)據(jù)量快速增長(zhǎng),使得數(shù)據(jù)庫(kù)無(wú)法利用相應(yīng)的管理工具對(duì)其進(jìn)行管理與收集,最終導(dǎo)致在進(jìn)行搜索、分析、存取、共享數(shù)據(jù)時(shí)具有較大的困難。
大數(shù)據(jù)的構(gòu)成包括四部分,并將其總結(jié)為4V,即Volume,Variety,Value,Velocity[2]。第一部分是價(jià)值密度低,將視頻作為具體實(shí)例來(lái)說(shuō),實(shí)現(xiàn)連續(xù)并且不間斷的監(jiān)控,其中有價(jià)值的數(shù)據(jù)信息只有一兩秒。第二部分是數(shù)據(jù)體量極大,已經(jīng)從TB實(shí)現(xiàn)了PB的躍升。第三部分是數(shù)據(jù)類型眾多,主要包括視頻、圖片、網(wǎng)絡(luò)日志以及地理信息等。第四部分是處理的速度超快,可以用一秒定律來(lái)解釋。
(二)海量數(shù)據(jù)帶來(lái)哪些挑戰(zhàn)
第一,數(shù)據(jù)存儲(chǔ)。由于大數(shù)據(jù)的數(shù)據(jù)規(guī)模是PB級(jí)別,所以,存儲(chǔ)的系統(tǒng)也需要進(jìn)行等級(jí)的拓展,并且可以通過(guò)磁盤柜或者是增加模塊實(shí)現(xiàn)容量的增加。然而,目前階段,數(shù)據(jù)的增長(zhǎng)速度驚人,所以系統(tǒng)資源的消耗也不斷增加,導(dǎo)致系統(tǒng)的運(yùn)行效率有所下降[3]。因?yàn)閷?duì)海量數(shù)據(jù)始終停留在分布式的存儲(chǔ)階段,所以,對(duì)于爆炸式的數(shù)據(jù)增長(zhǎng),原有的存儲(chǔ)方案已經(jīng)無(wú)法滿足現(xiàn)有的數(shù)據(jù)變化需求。
第二,處理技術(shù)。由于海量數(shù)據(jù)的分布性與數(shù)據(jù)量與以往存在較大的差異,所以,原有的數(shù)據(jù)管理技術(shù)已經(jīng)處于落后狀態(tài)。
第三,數(shù)據(jù)安全。在互聯(lián)網(wǎng)規(guī)模逐漸擴(kuò)大的情況下,數(shù)據(jù)的應(yīng)用已經(jīng)出現(xiàn)指數(shù)級(jí)別的增長(zhǎng),所以,對(duì)于數(shù)據(jù)安全的保護(hù)與監(jiān)控來(lái)說(shuō)具有一定的難度。
(三)大數(shù)據(jù)相關(guān)應(yīng)用與實(shí)踐
第一,體育賽事應(yīng)用。以2014年的世界杯為例,在充分發(fā)揮記者與編輯敏銳度的基礎(chǔ)上,騰訊也利用對(duì)大數(shù)據(jù)的分析以及云計(jì)算等方式來(lái)為為其提供移動(dòng)與社交的數(shù)據(jù)。與此同時(shí),騰訊與IBM進(jìn)行合作,并通過(guò)文化、賽事與球迷三方面來(lái)對(duì)世界杯球迷的關(guān)注重點(diǎn)進(jìn)行信息的挖掘,進(jìn)而實(shí)現(xiàn)新欄目的創(chuàng)作,并且在短時(shí)間內(nèi)贏得了廣大球迷的認(rèn)可與關(guān)注。
第二,產(chǎn)品推薦應(yīng)用。產(chǎn)品推薦的應(yīng)用比較廣泛,可以對(duì)客戶信息、交易歷史、購(gòu)買過(guò)程等數(shù)據(jù)進(jìn)行全面的分析,并進(jìn)行有價(jià)值信息的挖掘。同時(shí),針對(duì)同一產(chǎn)品的不同客戶訪問(wèn)信息也可以進(jìn)行挖掘。最終,通過(guò)對(duì)客戶行為的分析,來(lái)確定消費(fèi)者的共性行為,這樣就可以更好的為客戶推薦產(chǎn)品。
除此之外,在產(chǎn)品推薦中,可以在對(duì)客戶社交行為進(jìn)行信息挖掘與分析的基礎(chǔ)上來(lái)進(jìn)行社區(qū)的營(yíng)銷。對(duì)客戶微信微博以及社區(qū)活動(dòng)中的偏好數(shù)據(jù)進(jìn)行分析,并為其提供符合客戶興趣愛(ài)好的產(chǎn)品。
圖一
三、如何分析大數(shù)據(jù)
(一)如何挖掘數(shù)據(jù)中價(jià)值
以匹配廣告為具體事例進(jìn)行分析,主要有兩種數(shù)據(jù)。第一種是廣告庫(kù),其中包括廣告庫(kù)以及廣告的客戶信息[4]。但是這種數(shù)據(jù)信息比較適合在傳統(tǒng)數(shù)據(jù)庫(kù)中應(yīng)用。第二種是用戶在觀看廣告后的行為。可以把以上兩種數(shù)據(jù)進(jìn)行有效的結(jié)合,并通過(guò)相應(yīng)的算法來(lái)體現(xiàn)價(jià)值。在實(shí)踐應(yīng)用過(guò)程中,可以充分體會(huì)到第二種信息的重要作用。可以為用戶提供其所需的信息,并通過(guò)群體智能以及群體行為對(duì)之前用戶使用的效果進(jìn)行分析,最終通過(guò)具體的反饋機(jī)制,將最優(yōu)質(zhì)的信息提供給用戶,還可以進(jìn)行搜索或者是查詢信息。
(二)如何做處理與分析
第一,更新抽樣調(diào)查的工作理念。由于大數(shù)據(jù)時(shí)代的數(shù)據(jù)樣本是以往資料綜合,所以,可以對(duì)相關(guān)事務(wù)的數(shù)據(jù)信息進(jìn)行分析,進(jìn)一步對(duì)總體進(jìn)行了解,還可以更好的了解局部。同時(shí)需要解決以下問(wèn)題:抽樣框架不穩(wěn)定,調(diào)查目的設(shè)定不合理、樣本量受限[5]。第二,積極改變對(duì)于數(shù)據(jù)精確度的標(biāo)準(zhǔn)。在大數(shù)據(jù)時(shí)代的背景下,數(shù)據(jù)的來(lái)源比較廣泛,并且對(duì)數(shù)據(jù)進(jìn)行處理的技術(shù)也有所提高,所以,可以允許數(shù)據(jù)存在不準(zhǔn)確的情況。大數(shù)據(jù)時(shí)代需要吸收多種數(shù)據(jù),但并需要一味的要求數(shù)據(jù)精準(zhǔn)。第三,合理轉(zhuǎn)變數(shù)據(jù)關(guān)系的分析重點(diǎn)。由于大數(shù)據(jù)時(shí)代的數(shù)據(jù)規(guī)模比較大,而且結(jié)構(gòu)也十分復(fù)雜,變量的關(guān)系也比較繁雜。所以,在對(duì)數(shù)據(jù)進(jìn)行分析的過(guò)程中,不應(yīng)該對(duì)因果關(guān)系進(jìn)行仔細(xì)的分析,而重要的是對(duì)事物相關(guān)的關(guān)系進(jìn)行分析。需要轉(zhuǎn)換思路,對(duì)事物關(guān)系的形式與目的進(jìn)行詳細(xì)的分析。
四、 大數(shù)據(jù)對(duì)統(tǒng)計(jì)學(xué)科和統(tǒng)計(jì)研究工作的影響
(一) 拓展統(tǒng)計(jì)學(xué)研究領(lǐng)域
因?yàn)榇髷?shù)據(jù)時(shí)代的到來(lái),所以會(huì)對(duì)各個(gè)領(lǐng)域產(chǎn)生一定的影響,同樣給統(tǒng)計(jì)學(xué)帶來(lái)影響。在統(tǒng)計(jì)學(xué)中,其主要的研究對(duì)象就是其所要認(rèn)識(shí)的客體,是客觀存在事物自身的數(shù)量特征與關(guān)系。其中,統(tǒng)計(jì)學(xué)研究對(duì)象最主要的特點(diǎn)就是數(shù)量性。然而,在傳統(tǒng)的統(tǒng)計(jì)學(xué)當(dāng)中,數(shù)據(jù)主要是試驗(yàn)與調(diào)查的數(shù)值。在大數(shù)據(jù)時(shí)代中,統(tǒng)計(jì)研究的對(duì)象不僅包括以結(jié)構(gòu)數(shù)據(jù)度量的數(shù)量,此外,還可以包括一些無(wú)法用數(shù)量關(guān)系進(jìn)行衡量的半結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù),其中可以包括動(dòng)畫、圖片、聲音、文本等等[6]。所以,可以說(shuō),在大數(shù)據(jù)時(shí)代背景下,統(tǒng)計(jì)學(xué)的研究對(duì)象領(lǐng)域有所擴(kuò)大。
(二) 對(duì)統(tǒng)計(jì)計(jì)算規(guī)范產(chǎn)生影響
在傳統(tǒng)的統(tǒng)計(jì)學(xué)當(dāng)中,一般是使用方差、平均數(shù)以及相對(duì)數(shù)等數(shù)據(jù)計(jì)算規(guī)范來(lái)真實(shí)反映事物量特征的,同時(shí)還可以反映事物量的關(guān)系與界限,能夠通過(guò)數(shù)據(jù)計(jì)算規(guī)范來(lái)計(jì)算出具體的數(shù)值。但是,半結(jié)構(gòu)與非結(jié)構(gòu)的數(shù)據(jù)是無(wú)法通過(guò)傳統(tǒng)數(shù)據(jù)計(jì)算規(guī)范進(jìn)行計(jì)算的[7]。所以,在大數(shù)據(jù)時(shí)代的背景下,傳統(tǒng)的數(shù)據(jù)計(jì)算規(guī)范也同樣遇到了難題。
(三) 對(duì)統(tǒng)計(jì)研究工作的過(guò)程產(chǎn)生影響
1. 數(shù)據(jù)整理和分析
第一,數(shù)據(jù)審核。原有的數(shù)據(jù)審核主要的目的就是對(duì)數(shù)據(jù)準(zhǔn)確性和完整性進(jìn)行嚴(yán)格的檢查。但是,在大數(shù)據(jù)的時(shí)代中,對(duì)數(shù)據(jù)的審核就必須要確保數(shù)據(jù)處理的速度以及預(yù)測(cè)的準(zhǔn)確程度,同時(shí)還需要對(duì)數(shù)處理的規(guī)模進(jìn)行準(zhǔn)確的確定,也就是數(shù)據(jù)量級(jí)別的確定。除此之外,因?yàn)榇髷?shù)據(jù)自身具有不穩(wěn)定性,并且十分混亂。但是,即使是這樣,大數(shù)據(jù)也能夠挖掘出信息內(nèi)部存在的隱蔽關(guān)系以及有價(jià)值的知識(shí)。所以,大數(shù)據(jù)所反映的研究對(duì)象存在準(zhǔn)確與不準(zhǔn)確兩種,但是,任何一種的數(shù)據(jù)都具有一定的價(jià)值,通常情況下是不需要進(jìn)行替換或者是刪除的[8]。
第二,數(shù)據(jù)存儲(chǔ)。在以往的數(shù)據(jù)存儲(chǔ)中,審核、匯總以及編制的圖表等資料是重點(diǎn)資料,并且需要進(jìn)行保存起來(lái)的。然而,大數(shù)據(jù)保存最主要的目的就是對(duì)存儲(chǔ)的成本進(jìn)行有效的控制,同時(shí)需要根據(jù)相應(yīng)的法規(guī)計(jì)劃來(lái)確定數(shù)據(jù)存儲(chǔ)的規(guī)模。
2. 數(shù)據(jù)積累、開(kāi)發(fā)與應(yīng)用
第一,數(shù)據(jù)積累。傳統(tǒng)統(tǒng)計(jì)工作主要是根據(jù)所制定的研究目的來(lái)對(duì)數(shù)據(jù)進(jìn)行匯總與分類,并進(jìn)行保存,這樣可以更好的為后期數(shù)據(jù)的分析與查詢提供有利的條件。但是,在大數(shù)據(jù)的積累中,具有價(jià)值的信息需要對(duì)大數(shù)據(jù)進(jìn)行處理后才可以發(fā)現(xiàn)。不容置疑,大數(shù)據(jù)具有一定的復(fù)雜性,所以,在積累的過(guò)程中,不可以進(jìn)行簡(jiǎn)單的處理。因?yàn)榇髷?shù)據(jù)的規(guī)模大,結(jié)構(gòu)也比較復(fù)雜,無(wú)法實(shí)現(xiàn)簡(jiǎn)單的分類,而且,在對(duì)大數(shù)據(jù)進(jìn)行簡(jiǎn)單整理時(shí)非常容易使其混亂,對(duì)其真實(shí)性產(chǎn)生影響,可能會(huì)丟失具有價(jià)值的信息。
第二,數(shù)據(jù)開(kāi)發(fā)。大數(shù)據(jù)時(shí)代下的數(shù)據(jù)流動(dòng)性極強(qiáng),所以,其自身的價(jià)值有再生性。因此,大數(shù)據(jù)時(shí)代的數(shù)據(jù)不會(huì)貶值,反而會(huì)增值。為了能夠?qū)λ芯康膶?duì)象進(jìn)行更深入的了解,就需要對(duì)其整合。
第三,數(shù)據(jù)應(yīng)用。對(duì)數(shù)據(jù)的傳統(tǒng)應(yīng)用主要是為了對(duì)現(xiàn)象進(jìn)行解釋與預(yù)測(cè)。但是,在大數(shù)據(jù)時(shí)代,數(shù)據(jù)應(yīng)用的核心就是在相關(guān)關(guān)系前提下的預(yù)測(cè)。
結(jié)語(yǔ)
綜上所述,現(xiàn)階段我國(guó)社會(huì)正處于大數(shù)據(jù)時(shí)代,并且對(duì)于社會(huì)未來(lái)的發(fā)展具有重要的意義。文章對(duì)大數(shù)據(jù)時(shí)代的概念與定義以及構(gòu)成進(jìn)行了闡述與分析,同時(shí),對(duì)大數(shù)據(jù)的實(shí)際應(yīng)用與實(shí)踐進(jìn)行了探討。針對(duì)大數(shù)據(jù)價(jià)值的挖掘與分析處理進(jìn)行了研究,最后列舉了大數(shù)據(jù)對(duì)統(tǒng)計(jì)學(xué)科以及統(tǒng)計(jì)研究工作的影響,進(jìn)而對(duì)今后大數(shù)據(jù)的數(shù)據(jù)分析工作提供了有價(jià)值的理論依據(jù),并積極的推動(dòng)了大數(shù)據(jù)時(shí)代的發(fā)展,進(jìn)一步促進(jìn)了社會(huì)的進(jìn)步。(作者單位:中國(guó)人民大學(xué))
參考文獻(xiàn):
[1]朱建平,章貴軍,劉曉葳等.大數(shù)據(jù)時(shí)代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計(jì)研究,2014,31(2):10-19.
[2]張學(xué)敏.大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析[J].電子世界,2014(16):5-5,6.
[3]李祥歌,王奇奇,郭軼博等.基于大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘及分析[J].電子制作,2015(3):81-81.
[4]劉江娜.大數(shù)據(jù)時(shí)代:為什么數(shù)據(jù)分析能讓你的企業(yè)脫穎而出[J].環(huán)球市場(chǎng)信息導(dǎo)報(bào),2014(36):92-93.
[5]郭華庚,向禮花.大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)信息歸檔的元數(shù)據(jù)分析[J].貴州師范學(xué)院學(xué)報(bào),2015,31(3):24-28.
[6]高書國(guó).大數(shù)據(jù)時(shí)代的數(shù)據(jù)困惑——教育研究的數(shù)據(jù)困境[J].教育科學(xué)研究,2015(1):24-30.
[7]王惠.大數(shù)據(jù)時(shí)代下數(shù)據(jù)分析理念研究[J].中國(guó)市場(chǎng),2015(22):74,85.
[8]胡佳.大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析與挖掘[J].中國(guó)新通信,2014(23):34-34.