摘? 要:信息技術(shù)的發(fā)展使我們進(jìn)入了大數(shù)據(jù)時(shí)代,海量、異構(gòu)的大數(shù)據(jù)挖掘給我們提出了新的挑戰(zhàn)。但是,發(fā)展大數(shù)據(jù)并不應(yīng)該以“更大、更多、更快”為終極目標(biāo),而應(yīng)該走成本合理、惠及大眾、公正法治的發(fā)展道路。也就是說(shuō)我們不應(yīng)完全否認(rèn)抽樣估計(jì)的作用,相反的,樹(shù)立傳統(tǒng)的抽樣理念并合理應(yīng)用抽樣技術(shù)才是大數(shù)據(jù)挖掘的精髓。
關(guān)鍵詞:大數(shù)據(jù)挖掘;抽樣數(shù)據(jù);抽樣估計(jì)
中圖分類(lèi)號(hào):TP311.13? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2019)21-0076-03
Abstract:The development of information technology has brought us into the era of big data. Massive and heterogeneous data mining has brought us new challenges. However,the ultimate goal of big data development should not be “bigger,more and faster”,but should take the development path of reasonable cost,benefit the public and just rule of law. That is to say,we should not totally deny the role of sampling estimation. On the contrary,the essence of big data mining is to establish the traditional sampling concept and apply sampling technology reasonably.
Keywords:big data mining;sampling data;sampling estimation
0? 引? 言
朋友圈知道,你今天心情怎樣;支付寶知道,你買(mǎi)了什么東西,花了多少錢(qián),近期準(zhǔn)備買(mǎi)什么;知乎、今日頭條知道,你喜歡瀏覽哪些帖子和新聞;優(yōu)酷和愛(ài)奇藝知道,你喜歡看什么視頻;餓了么知道,你喜歡什么菜系和口味;等等。
與以往相比,人們的生活已發(fā)生了根本性的變革,這就是大數(shù)據(jù)時(shí)代,不同領(lǐng)域的大數(shù)據(jù)已對(duì)全球范圍生產(chǎn)、流通、分配、消費(fèi)等諸多領(lǐng)域都產(chǎn)生了重要的影響。隨著手機(jī)APP、各種傳感器和安全監(jiān)視器等基于互聯(lián)網(wǎng)的硬件和軟件的不斷普及,來(lái)自不同領(lǐng)域、不同過(guò)程的數(shù)據(jù)不斷產(chǎn)生,除了數(shù)據(jù)之外,更多的還包含了文字、圖像、音頻等類(lèi)型數(shù)據(jù)。
1? 何為大數(shù)據(jù)挖掘
1.1? 大數(shù)據(jù)
大數(shù)據(jù)又稱(chēng)海量數(shù)據(jù),是指以不同形式存在于數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)等媒介上的豐富且巨大的數(shù)據(jù)。其基本特征包括以下幾個(gè)方面。
(1)Volume:體量巨大,可以是TB級(jí)別,甚至可以是PB級(jí)別、EB級(jí)別。隨著數(shù)據(jù)存儲(chǔ)能力的提升,人們衡量數(shù)據(jù)規(guī)模的尺度也在不斷的增加。
(2)Variety:數(shù)據(jù)類(lèi)型繁多,結(jié)構(gòu)化數(shù)據(jù)之外,還包含了更多的非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。如網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等。大數(shù)據(jù)建模時(shí),數(shù)據(jù)類(lèi)型的多樣化也成為建模和分析的難題,如模型需考慮到增加維度,同時(shí)兼顧變量間的復(fù)雜關(guān)系等。
(3)Value:價(jià)值密度低,也稱(chēng)為數(shù)據(jù)的“稀疏性”。即雖然數(shù)據(jù)的規(guī)模遠(yuǎn)遠(yuǎn)大于傳統(tǒng)的統(tǒng)計(jì)數(shù)據(jù),但其所蘊(yùn)含的有效信息卻相對(duì)稀少。
(4)Velocity:處理速度快,時(shí)效性要求更高。
1.2? 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中的信息的過(guò)程。它主要利用抽樣估計(jì)和假設(shè)檢驗(yàn)思想,以及人工智能、模式識(shí)別和機(jī)器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。除此之外,目前數(shù)據(jù)挖掘也受到如信息論、混沌論、算法學(xué)、信號(hào)處理、數(shù)據(jù)可視化和信息檢索,甚至包括哲學(xué)等思想的影響。
1.3? 大數(shù)據(jù)挖掘
大數(shù)據(jù)挖掘可看作數(shù)據(jù)挖掘發(fā)展到一定階段的產(chǎn)物,是大數(shù)據(jù)時(shí)代最重要的數(shù)據(jù)挖掘領(lǐng)域。傳統(tǒng)數(shù)據(jù)挖掘在挖掘過(guò)程、算法等方面差異不大;而對(duì)于大數(shù)據(jù)挖掘,則由于大數(shù)據(jù)在廣度和量度上的特殊性,因此在挖掘過(guò)程中會(huì)有許多不同。
未來(lái)大數(shù)據(jù)發(fā)展趨勢(shì)將更加開(kāi)放、包容。通過(guò)對(duì)大數(shù)據(jù)的擴(kuò)展和再利用,開(kāi)拓新領(lǐng)域、確立新決策,從而挖掘出隱藏在“冰山”之下的數(shù)據(jù)價(jià)值。
2? 大數(shù)據(jù)挖掘與抽樣技術(shù)的關(guān)系
2.1? 大數(shù)據(jù)與抽樣數(shù)據(jù)的區(qū)別
抽樣技術(shù)是統(tǒng)計(jì)學(xué)的一個(gè)分支學(xué)科,是研究抽樣方法及總體參數(shù)估計(jì)方法的一門(mén)技術(shù)。一般可以分為概率抽樣與非概率抽樣兩類(lèi)。
大數(shù)據(jù)與抽樣數(shù)據(jù)在理論上有著重要區(qū)別,主要表現(xiàn)為以下五點(diǎn)。
(1)后者以同質(zhì)性為基礎(chǔ),即依賴(lài)于樣本數(shù)據(jù)與總體數(shù)據(jù)在特征上的相似性;而前者以異質(zhì)性為基礎(chǔ),即大樣本數(shù)據(jù)內(nèi)差異性大。
(2)后者運(yùn)行模式是以人力為主,即依賴(lài)于數(shù)據(jù)分析專(zhuān)家的經(jīng)驗(yàn)和智慧;前者運(yùn)行模式是以機(jī)器為主,即主要依賴(lài)于硬件和軟件的處理能力。
(3)后者主要用于對(duì)單維、非場(chǎng)景化靜態(tài)數(shù)據(jù)進(jìn)行描述;前者主要用于對(duì)多維甚至巨維非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析預(yù)測(cè)。
(4)后者多通過(guò)建立因果關(guān)系模型進(jìn)行分析,前者多通過(guò)建立相關(guān)關(guān)系模型進(jìn)行預(yù)測(cè)。
(5)后者的重心和難點(diǎn)是如何獲取代表性高的樣本數(shù)據(jù),以對(duì)總體數(shù)據(jù)進(jìn)行推斷;前者是如何選擇和處理有用的數(shù)據(jù),以對(duì)全體數(shù)據(jù)進(jìn)行非預(yù)測(cè)或者模糊預(yù)測(cè)分析。
總之,大數(shù)據(jù)與抽樣數(shù)據(jù)之間主要的區(qū)別在于大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)、存儲(chǔ)分析過(guò)程、預(yù)測(cè)方式都更加復(fù)雜。
2.2? 大數(shù)據(jù)挖掘需要抽樣技術(shù)
受舍恩伯格等“樣本=總體”觀點(diǎn)的影響,不少人認(rèn)為有了大數(shù)據(jù)就不需要抽樣估計(jì)了;認(rèn)為“有了大數(shù)據(jù),抽樣就會(huì)消失”。還有很多人認(rèn)為大數(shù)據(jù)分析不必追求精確性,而只要能在大數(shù)據(jù)中發(fā)現(xiàn)大致規(guī)律就可以了。
毋庸置疑,上述結(jié)論是錯(cuò)誤的。只要人類(lèi)的認(rèn)知水平無(wú)法企及自然界的事物總量,抽樣估計(jì)就不會(huì)過(guò)時(shí)。
之所以這樣說(shuō)不僅因?yàn)閿?shù)據(jù)挖掘的流程步驟安排很多時(shí)候需要用到抽樣技術(shù);而且抽樣技術(shù)也可以提高大數(shù)據(jù)挖掘的效率??梢赃@樣說(shuō),雖然抽樣不能確定有用的信息在哪里,但是可以作為快速找到有用特征的工具,在對(duì)數(shù)據(jù)總體做參數(shù)估計(jì)和統(tǒng)計(jì)推斷的過(guò)程中,為了節(jié)約計(jì)算成本,盡可能減少樣本的數(shù)據(jù)量,且同時(shí)得到一個(gè)良好的響應(yīng)曲面來(lái)描述復(fù)雜的大數(shù)據(jù)結(jié)構(gòu)。
例如,傳統(tǒng)的聚合查詢(xún)采用精確查詢(xún)的方法,對(duì)所有數(shù)據(jù)都進(jìn)行聚合操作。這首先需要遍歷所有的數(shù)據(jù),之后再用所有數(shù)據(jù)的和除以數(shù)據(jù)個(gè)數(shù)得到精確的平均值結(jié)果。而大數(shù)據(jù)環(huán)境下的聚合查詢(xún)也可以使用抽樣技術(shù)進(jìn)行近似查詢(xún),以更快速地獲得可靠的查詢(xún)結(jié)果。這是因?yàn)?,只要滿(mǎn)足應(yīng)用可靠性要求,在實(shí)際應(yīng)用中是可以容忍一定程度的誤差的。因此在實(shí)際操作中,可以使用數(shù)據(jù)抽樣的方法在聚合查詢(xún)之前得到數(shù)據(jù)總體的子集。之后在樣本代表性能夠保證的情況下,在該子集上求得的平均值也可以代表樣本總體的平均值,從而大幅提升聚合查詢(xún)的效率。
此外,大數(shù)據(jù)挖掘需要抽樣技術(shù)還包括以下幾方面的原因。
(1)現(xiàn)代信息技術(shù)還不能做到全覆蓋。在實(shí)際中,總有一部分人或物游離在大數(shù)據(jù)之外,因此所謂的全數(shù)據(jù)是有條件的,是在一定范圍內(nèi)的。如基于技術(shù)和隱私原因,依然有很多數(shù)據(jù)目前還不可能來(lái)自大數(shù)據(jù),仍然需要通過(guò)抽樣等方式去獲取、去推斷。
(2)在大數(shù)據(jù)處理技術(shù)中引入抽樣技術(shù)能有效地處理特殊問(wèn)題。如產(chǎn)品檢驗(yàn)中,有時(shí)會(huì)遇到破壞性的實(shí)驗(yàn),針對(duì)這類(lèi)問(wèn)題,既經(jīng)濟(jì)又有效的方法是采用抽樣的方法。
總之,抽樣估計(jì)或大數(shù)據(jù)在本質(zhì)上都是數(shù)據(jù)處理的方法,二者并不矛盾。我們都知道抽樣估計(jì)所得的結(jié)論并不影響對(duì)總體參數(shù)推斷的準(zhǔn)確性。越是規(guī)模大的數(shù)據(jù)越是需要抽樣。適當(dāng)和合理的抽樣可以幫助我們把控?cái)?shù)據(jù)處理的平衡點(diǎn)。大數(shù)據(jù)挖掘雖然其核心思想是全數(shù)據(jù),而不是以抽樣作為主體思想,但是如何減少所消耗的資源正成為目前大數(shù)據(jù)挖掘領(lǐng)域的瓶頸問(wèn)題。針對(duì)這些問(wèn)題,抽樣是最常用的數(shù)據(jù)約簡(jiǎn)方法和理念,引入抽樣技術(shù)對(duì)大數(shù)據(jù)進(jìn)行分析,能有效地減少數(shù)據(jù)規(guī)模,降低計(jì)算時(shí)間和復(fù)雜度。
世界和萬(wàn)物的變化是一座“自動(dòng)生長(zhǎng)”的數(shù)據(jù)金礦,最終我們沒(méi)有必要將整個(gè)數(shù)據(jù)集都放到數(shù)據(jù)挖掘計(jì)劃中。我們要做的是快速選擇最需要的數(shù)據(jù),應(yīng)用大數(shù)據(jù)平臺(tái)確保數(shù)據(jù)的正確性,同時(shí)刪掉不需要的數(shù)據(jù)。當(dāng)技術(shù)上能夠收集總體數(shù)據(jù)時(shí),我們的確不需要抽樣。但是,只要數(shù)據(jù)的增加超出一定邊界,我們就需要更多驗(yàn)證數(shù)據(jù)的正確性,這時(shí),我們就可重拾抽樣估計(jì)方法,以合理把控?cái)?shù)據(jù)的量。
3? 關(guān)于大數(shù)據(jù)挖掘中抽樣技術(shù)應(yīng)用的注意點(diǎn)
大數(shù)據(jù)挖掘的難點(diǎn)在于數(shù)據(jù)類(lèi)型的多樣性,即對(duì)于非結(jié)構(gòu)化數(shù)據(jù),采集的數(shù)據(jù)往往質(zhì)量不高。因此,盲目追求數(shù)據(jù)規(guī)模大效果未必好。而多個(gè)來(lái)源的小數(shù)據(jù)(通常是為了一個(gè)明確的目標(biāo)而進(jìn)行收集、過(guò)濾、分析和整理的,其數(shù)據(jù)結(jié)構(gòu)一般都是統(tǒng)一的,基本來(lái)自同一學(xué)科或者領(lǐng)域,數(shù)據(jù)種類(lèi)單一,并采取一種有序排列的結(jié)構(gòu)化方式。)的融合則可能挖掘出單一來(lái)源的大數(shù)據(jù)所得不到的大價(jià)值。合理應(yīng)用抽樣方法與技術(shù),提高數(shù)據(jù)質(zhì)量,主要有以下幾點(diǎn)。
(1)大數(shù)據(jù)采集也會(huì)有統(tǒng)計(jì)誤差。有些觀點(diǎn)認(rèn)為:大數(shù)據(jù)不需要分析因果、不需要采樣、不需要精確數(shù)據(jù),這種觀點(diǎn)不應(yīng)絕對(duì)化。在當(dāng)前數(shù)據(jù)搜集和存儲(chǔ)技術(shù)不斷發(fā)展、數(shù)據(jù)量激增的背景下,抽樣估計(jì)法可以在略微降低數(shù)據(jù)準(zhǔn)確性的情況下快速、經(jīng)濟(jì)地得到統(tǒng)計(jì)結(jié)果。
(2)在一些特定領(lǐng)域的數(shù)據(jù)分析中,使用抽樣技術(shù)估計(jì)進(jìn)行分析是實(shí)際上可行的唯一選擇。例如在產(chǎn)品測(cè)試中,對(duì)于破壞性實(shí)驗(yàn),也只有采用數(shù)據(jù)抽樣的方法,在產(chǎn)品子集上進(jìn)行分析。
(3)要考慮如何保證樣本的代表性。常見(jiàn)的數(shù)據(jù)抽樣技術(shù)包括簡(jiǎn)單隨機(jī)抽樣、系統(tǒng)抽樣、整群抽樣、分層抽樣等,不同的抽樣方法各有優(yōu)缺點(diǎn)和適用領(lǐng)域,因此在數(shù)據(jù)準(zhǔn)備階段探索數(shù)據(jù)的工作很重要,之后就可以根據(jù)所要解決的具體問(wèn)題來(lái)進(jìn)行抽樣設(shè)計(jì)了。
4? 結(jié)? 論
綜上所述,大數(shù)據(jù)挖掘并非完全否認(rèn)抽樣方法的作用;相反的,合理應(yīng)用抽樣方法可以使大數(shù)據(jù)挖掘更具效率。因此,作為數(shù)據(jù)分析工作者樹(shù)立抽樣的理念,學(xué)習(xí)抽樣的技術(shù)都是十分必要的。
參考文獻(xiàn):
[1] 李金昌.關(guān)于統(tǒng)計(jì)數(shù)據(jù)的幾點(diǎn)認(rèn)識(shí) [J].統(tǒng)計(jì)研究,2017,34(11):3-14.
[2] 周英,卓金武,卞月青.大數(shù)據(jù)挖掘系統(tǒng)方法與實(shí)例分析 [M].北京:機(jī)械工業(yè)出版社2016.
[3] 高揚(yáng).數(shù)據(jù)科學(xué)家養(yǎng)成手冊(cè) [M].北京:電子工業(yè)出版社,2017.
[4] 歐陽(yáng)秋梅,吳超.從大數(shù)據(jù)和小數(shù)據(jù)中挖掘安全規(guī)律的方法比較 [J].中國(guó)安全科學(xué)學(xué)報(bào),2016,26(7):1-6.
[5] 李毅,米子川.大數(shù)據(jù)挖掘的均勻抽樣設(shè)計(jì)及數(shù)值分析 [J].統(tǒng)計(jì)與信息論壇,2015,30(4):3-6.
[6] 城市數(shù)據(jù)團(tuán).數(shù)據(jù)不說(shuō)謊:大數(shù)據(jù)之下的世界 [M].北京:清華大學(xué)出版社,2017.
[7] 黎敏訥.分布式數(shù)據(jù)分層抽樣技術(shù)及其在目標(biāo)檢測(cè)領(lǐng)域的應(yīng)用研究 [D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2017.
作者簡(jiǎn)介:劉逸萱(1981-),女,漢族,內(nèi)蒙古呼和浩特人,就職于電子商務(wù)學(xué)院,講師,碩士,研究方向:應(yīng)用統(tǒng)計(jì)。