摘要:大數(shù)據(jù)是最近很多人熱議的一個(gè)話題,也是在諸多領(lǐng)域引起了大家不同爭(zhēng)議與意見(jiàn)的話題。隨著我國(guó)信息技術(shù)的不斷發(fā)展,其應(yīng)用場(chǎng)景不斷拓寬,大數(shù)據(jù)應(yīng)潮流而生,成為在當(dāng)今商業(yè)世界里的重要概念,也有越來(lái)越多的人開(kāi)始對(duì)大數(shù)據(jù)產(chǎn)生濃厚的興趣。雖然說(shuō)大數(shù)據(jù)得益于信息技術(shù)的飛速進(jìn)步,并在金融經(jīng)濟(jì)等多個(gè)環(huán)境里都有應(yīng)用,但是很多人對(duì)于大數(shù)據(jù)缺乏一個(gè)理性全面的認(rèn)識(shí)。本文從大數(shù)據(jù)的定義入手,介紹了大數(shù)據(jù)所擁有的特征,并分析其可能擁有的應(yīng)用場(chǎng)景與存在的應(yīng)用局限,旨在幫助讀者對(duì)其形成一個(gè)更加全面客觀的認(rèn)識(shí)。
關(guān)鍵詞:大數(shù)據(jù);信息技術(shù);商業(yè)科技;大數(shù)據(jù)的局限性
0 引言
大數(shù)據(jù)是最近很多人熱議的一個(gè)話題,也是在諸多領(lǐng)域引起了大家不同爭(zhēng)議與意見(jiàn)的話題。不同的IT巨頭都開(kāi)始推出各自的大數(shù)據(jù)產(chǎn)品,很多企業(yè)也在構(gòu)想通過(guò)不同的方式來(lái)挖掘自己所有的或者通過(guò)其他渠道獲取的數(shù)據(jù)的價(jià)值。隨著我國(guó)信息技術(shù)的不斷發(fā)展,數(shù)據(jù)分析的應(yīng)用場(chǎng)景不斷拓寬,大數(shù)據(jù)應(yīng)潮流而生,成為在當(dāng)今商業(yè)世界里的重要概念,也有越來(lái)越多的人開(kāi)始對(duì)大數(shù)據(jù)產(chǎn)生濃厚的興趣。
雖然說(shuō)大數(shù)據(jù)得益于信息技術(shù)的飛速進(jìn)步,并在金融經(jīng)濟(jì)等多個(gè)領(lǐng)域里都有應(yīng)用,是當(dāng)今最熱門(mén)的話題之一。但是很多人只是人云亦云,對(duì)于大數(shù)據(jù)缺乏一個(gè)理性全面的認(rèn)識(shí)。本文從大數(shù)據(jù)的定義入手,介紹了大數(shù)據(jù)所擁有的特征,并分析其可能擁有的應(yīng)用場(chǎng)景與存在的應(yīng)用局限,旨在幫助讀者對(duì)其形成一個(gè)更加全面客觀的認(rèn)識(shí)。
1 大數(shù)據(jù)的定義與特點(diǎn)
1.1 大數(shù)據(jù)的定義
大數(shù)據(jù)的應(yīng)用范圍廣泛,大家對(duì)其都有自己的看法,因此對(duì)于大數(shù)據(jù)的定義眾說(shuō)紛紜。目前比較受到公眾認(rèn)可的一種定義來(lái)自于重量級(jí)統(tǒng)計(jì)軟件SAS官網(wǎng):“大數(shù)據(jù)是用來(lái)描繪數(shù)據(jù)源以及數(shù)據(jù)技術(shù)指數(shù)性增長(zhǎng)的術(shù)語(yǔ),飛速增長(zhǎng)的數(shù)據(jù)既包括結(jié)構(gòu)化的數(shù)據(jù),也包括非結(jié)構(gòu)化的數(shù)據(jù)。大數(shù)據(jù)在商業(yè)以及整個(gè)社會(huì)范疇內(nèi)都有廣泛運(yùn)用。”
其中,所謂的結(jié)構(gòu)化是指所獲取的數(shù)據(jù)是指我們現(xiàn)實(shí)生活中常見(jiàn)的二維表單類(lèi)型數(shù)據(jù),即對(duì)于某些固定的項(xiàng)目有多條記錄。結(jié)構(gòu)化數(shù)據(jù)的別稱(chēng)叫做行數(shù)據(jù),對(duì)于表格中的每一個(gè)項(xiàng)目,每條記錄相應(yīng)的內(nèi)容都應(yīng)該嚴(yán)格地遵循該項(xiàng)目所要求的數(shù)據(jù)格式與長(zhǎng)度規(guī)范。例如我們?cè)谏钪谐R?jiàn)的各類(lèi)電子表格數(shù)據(jù)等。它們有固定的表格格式,所填內(nèi)容也遵循相應(yīng)規(guī)范。
而非結(jié)構(gòu)化數(shù)據(jù)則是與結(jié)構(gòu)化數(shù)據(jù)相對(duì)的,不存在固定格式與規(guī)范的各類(lèi)數(shù)據(jù)源。例如財(cái)務(wù)報(bào)表等,這一類(lèi)數(shù)據(jù)包含了大量信息,但是因?yàn)槿狈y(tǒng)一的標(biāo)準(zhǔn)格式與規(guī)范,導(dǎo)致不同企業(yè)間的報(bào)表格式可能存在較大區(qū)別。無(wú)法直接進(jìn)行統(tǒng)一的分析處理。
1.2 大數(shù)據(jù)的特點(diǎn)
對(duì)于大數(shù)據(jù)的特點(diǎn),目前公眾比較認(rèn)可的幾點(diǎn)如下:
海量
大數(shù)據(jù)的數(shù)據(jù)源一般體量非常大,這一特征得益于我們高速發(fā)展的信息科技。在越來(lái)越多的地方,有各種自動(dòng)化的調(diào)查統(tǒng)計(jì)手段作為輔助,幫助我們收集大量信息源。很多時(shí)候數(shù)據(jù)采集與產(chǎn)生的過(guò)程是自動(dòng)實(shí)現(xiàn)的,不僅解決了人工調(diào)查耗時(shí)多,成本高的問(wèn)題,而且不易出錯(cuò),較為客觀。大量的數(shù)據(jù)源信息是大數(shù)據(jù)的基本特征。這樣的特征能夠給我們的統(tǒng)計(jì)分析提供支持,讓我們有機(jī)會(huì)從大量的數(shù)據(jù)中去采集我們所需要的信息??傮w來(lái)說(shuō)我們認(rèn)為,數(shù)據(jù)的體量越大,能夠進(jìn)行分析和利用的方面就越多。
高速
高速也是大數(shù)據(jù)的關(guān)鍵特點(diǎn)之一,正如我們?cè)谇拔闹姓f(shuō)到,許多數(shù)據(jù)產(chǎn)生的過(guò)程都是自動(dòng)的,這也就意味著很多數(shù)據(jù)從采集到形成最終的數(shù)據(jù)表格都是非常迅速的,這一特點(diǎn)對(duì)于大數(shù)據(jù)技術(shù)能夠滿足我們當(dāng)今變化飛速的需求是至關(guān)重要的。隨著我國(guó)社會(huì)經(jīng)濟(jì)不斷發(fā)展與進(jìn)步,人們的需求也在無(wú)時(shí)無(wú)刻發(fā)生巨大變化,這個(gè)轉(zhuǎn)變的速度非常快,這也就意味著依賴過(guò)時(shí)的數(shù)據(jù)所作出的決策很有可能是不適用的。只有足夠及時(shí),足夠新的數(shù)據(jù),才能夠幫助不同的數(shù)據(jù)使用者了解市場(chǎng)形勢(shì)的最新變化,從而采取相應(yīng)的措施,作出相應(yīng)的決策。
多樣
多樣性也是大數(shù)據(jù)非常重要的特點(diǎn)之一,多樣性是指我們現(xiàn)在的數(shù)據(jù)源中可能不僅僅包含了某一方面的數(shù)據(jù)信息,而是囊括了非常多不同的方面。這樣有利于我們將不同的方面結(jié)合起來(lái),依賴于統(tǒng)計(jì)分析手段找出其中的聯(lián)系。但是這樣的多樣性也給我們帶來(lái)了巨大的挑戰(zhàn),正如我們前文中介紹的非結(jié)構(gòu)化數(shù)據(jù)一樣,它們也是構(gòu)成數(shù)據(jù)多樣性的重要組成部分,但是它們?nèi)狈σ?guī)范的格式,很難直接用于數(shù)據(jù)分析。應(yīng)該怎樣對(duì)這部分?jǐn)?shù)據(jù)進(jìn)行處理,從而進(jìn)一步挖掘數(shù)據(jù)價(jià)值,是很多數(shù)據(jù)科學(xué)家現(xiàn)在專(zhuān)注的方向。
2 大數(shù)據(jù)的應(yīng)用場(chǎng)景與局限性
2.1 大數(shù)據(jù)可能的應(yīng)用場(chǎng)景
大數(shù)據(jù)在我們的生活中擁有非常多不同的應(yīng)用場(chǎng)景。下面本文僅舉一例,更多的應(yīng)用場(chǎng)合讀者可以自行思考。通過(guò)大數(shù)據(jù)技術(shù),我們可以發(fā)現(xiàn)消費(fèi)者消費(fèi)行為模式,獲取客戶信息,進(jìn)行客戶群體細(xì)分
這是大數(shù)據(jù)在企業(yè)外部的一種應(yīng)用模式,通過(guò)大數(shù)據(jù)我們可以獲取消費(fèi)者的各類(lèi)信息。包括基本的年齡,性別,工作等,同時(shí)在消費(fèi)者購(gòu)買(mǎi)的過(guò)程中我們可以記錄其消費(fèi)的習(xí)慣與偏好。當(dāng)這個(gè)數(shù)據(jù)量達(dá)到一定規(guī)模以后,我們可以通過(guò)大數(shù)據(jù)分析,來(lái)觀察不同的特征會(huì)怎樣影響消費(fèi)者的消費(fèi)行為與模式。
通過(guò)這樣的方法我們可以將具有不同特征的消費(fèi)者劃分為不同的群體,然后根據(jù)該群體的消費(fèi)行為與偏好,為其量身定制他們所需要的商品或者服務(wù)。比如現(xiàn)在的智能手機(jī)廠家通過(guò)各類(lèi)的標(biāo)準(zhǔn)將消費(fèi)群體進(jìn)行劃分,按照年齡層與職業(yè)推出了關(guān)注不同的特點(diǎn)的智能手機(jī)(如關(guān)注拍照、音樂(lè)、性能等)后,再按照該群體的特征進(jìn)行營(yíng)銷(xiāo)。比如針對(duì)年輕群體的手機(jī)通過(guò)各類(lèi)社交媒體,而針對(duì)中老年的手機(jī)則通過(guò)電視、線下活動(dòng)進(jìn)行推廣。
還有一例是美國(guó)的孟山都公司,該公司是美國(guó)農(nóng)業(yè)生物科技行業(yè)的領(lǐng)頭羊。其發(fā)起的“Green Data Revolution(綠色數(shù)據(jù)革命)”旨在幫助農(nóng)民享受數(shù)據(jù)科學(xué)的好處。它向農(nóng)民提供種子監(jiān)視器用于收集種子與土地信息,農(nóng)民只需使用獲取的平板終端將信息上傳到孟山都的農(nóng)業(yè)數(shù)據(jù)聯(lián)盟中,便可以獲取由該公司提供的最適合其土地與種子狀況的化肥。
2.2 大數(shù)據(jù)的應(yīng)用局限性
成本限制
大數(shù)據(jù)依賴于數(shù)據(jù)收集手段,正如我們前文中所提倡的,需要利用各類(lèi)自動(dòng)化的輔助手段進(jìn)行數(shù)據(jù)收集,這樣的一個(gè)過(guò)程是依賴于硬件支持的。企業(yè)可能需要安裝各類(lèi)傳感器以及電腦終端來(lái)完成數(shù)據(jù)的收集,而當(dāng)這個(gè)規(guī)模較大時(shí),需要投入大量的人力物力才能夠完成對(duì)于數(shù)據(jù)采集的支持。而這樣的投入是很多小型企業(yè)所無(wú)法承擔(dān)的。公用的付費(fèi)數(shù)據(jù)庫(kù)雖然現(xiàn)在也在蓬勃發(fā)展,但是其高昂的收費(fèi)對(duì)于許多企業(yè)來(lái)說(shuō)依然是一個(gè)較高的門(mén)檻。
技術(shù)限制
前文中提到,現(xiàn)在的數(shù)據(jù)源的多樣性為我們的統(tǒng)計(jì)分析帶來(lái)了很大的挑戰(zhàn)。大數(shù)據(jù)的技術(shù)局限性一方面體現(xiàn)在收集數(shù)據(jù)源的過(guò)程仍然需要進(jìn)一步的完善與發(fā)展;另一方面也體現(xiàn)在我們對(duì)于一些非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行統(tǒng)一分析的能力仍然較弱。不能夠完全挖掘數(shù)據(jù)價(jià)值。
法律限制
這也是大數(shù)據(jù)技術(shù)一直以來(lái)備受詬病的一點(diǎn),大數(shù)據(jù)技術(shù)依賴于收集客戶信息,但是這一收集過(guò)程的邊界很難定義,很有可能對(duì)于客戶的隱私權(quán)帶來(lái)威脅。比如我們當(dāng)今社會(huì)利用電話進(jìn)行推銷(xiāo)或者詐騙的現(xiàn)象越來(lái)越多,其根本就在于數(shù)據(jù)源的收集方?jīng)]有對(duì)客戶數(shù)據(jù)盡到隱私保護(hù)的責(zé)任與義務(wù),才會(huì)導(dǎo)致客戶信息泄漏,個(gè)人隱私受侵犯。
可驗(yàn)證性
可驗(yàn)證性是指我們收集的數(shù)據(jù)由于其海量、高速、多樣的特點(diǎn),很難對(duì)其進(jìn)行一一核實(shí),因此數(shù)據(jù)的真實(shí)性以及準(zhǔn)確性就值得質(zhì)疑。如果我們對(duì)于數(shù)據(jù)的真實(shí)準(zhǔn)確性無(wú)法保證,那么基于這些數(shù)據(jù)得出的結(jié)論的有效性也就有待商榷。對(duì)于這部分?jǐn)?shù)據(jù)的驗(yàn)證工作龐大復(fù)雜,至今還沒(méi)有有效而簡(jiǎn)潔的手段。
參考文獻(xiàn)
[1]鄔賀銓. 大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn).《中國(guó)儲(chǔ)運(yùn)》 , 2013 (4) :9-10
[2] 王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望.《計(jì)算機(jī)學(xué)報(bào)》 , 2013 , 36 (6) :1125-1138
[3] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn).《計(jì)算機(jī)研究與發(fā)展》, 2013 , 50 (1) :146-169
作者簡(jiǎn)介
趙楊晴:2000年生,女,籍貫山東省青島市endprint