■梁蕊
(華北計算機(jī)技術(shù)研究所北京100000)
大數(shù)據(jù)時代的空間數(shù)據(jù)挖掘分析
——華北計算機(jī)技術(shù)研究所
■梁蕊
(華北計算機(jī)技術(shù)研究所北京100000)
大數(shù)據(jù)改變著我們的生活,改變著人們的工作方式,數(shù)據(jù)本身是沒有價值的,需要運(yùn)用技術(shù),讓數(shù)據(jù)變成信息。當(dāng)前數(shù)據(jù)產(chǎn)業(yè)發(fā)展過程中,數(shù)據(jù)的產(chǎn)生速度已遠(yuǎn)超數(shù)據(jù)分析挖掘技術(shù)的提高速度。數(shù)據(jù)的共享和安全,成為整個產(chǎn)業(yè)未來需要解決的問題。本文將就大數(shù)據(jù)時代數(shù)據(jù)挖掘問題進(jìn)行相關(guān)探討和研究。
大數(shù)據(jù) 時代 空間數(shù)據(jù) 挖掘 分析
從字面上理解,“大數(shù)據(jù)”就是海量數(shù)據(jù)。但實(shí)際上,人們?nèi)粘K務(wù)摰摹按髷?shù)據(jù)”并非數(shù)據(jù)本身,而是大數(shù)據(jù)挖掘。有人將大數(shù)據(jù)比作“原油”。大數(shù)據(jù)挖掘才是大數(shù)據(jù)的核心。它通過計算機(jī)將人腦無法記住的海量數(shù)據(jù)進(jìn)行歸納、建模、分析,找到數(shù)據(jù)中的關(guān)聯(lián)關(guān)系。大數(shù)據(jù)挖掘利用的不再是抽樣的小部分?jǐn)?shù)據(jù),單臺計算機(jī)已經(jīng)無法滿足存儲和處理數(shù)據(jù)的需求,需要眾多高性能計算機(jī)同時承擔(dān)數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)挖掘的工作,這便是云計算。如今,大數(shù)據(jù)挖掘必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)。
大數(shù)據(jù)時代對人類的數(shù)據(jù)駕馭能力提出了新的挑戰(zhàn),也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。中國公司目前對數(shù)據(jù)的開發(fā),主要還是集中在精準(zhǔn)定位目標(biāo)客戶上。
首先看社會環(huán)境。信息技術(shù)向融合、智慧、綠色的方向發(fā)展。大數(shù)據(jù)伴隨云計算、移動互聯(lián)網(wǎng)領(lǐng)域的發(fā)展,產(chǎn)生新的管理模式和商業(yè)模式,能夠創(chuàng)造出更大的價值,提升社會的管理水平和效率??v觀產(chǎn)業(yè)經(jīng)濟(jì)發(fā)展史,帶來應(yīng)用的技術(shù)一定能夠發(fā)展繁榮的產(chǎn)業(yè)。
再看政策環(huán)境。政府高度重視,發(fā)展戰(zhàn)略目標(biāo)清晰明確。近期發(fā)布了一系列促進(jìn)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的政策?!妒鍑覒?zhàn)略新興產(chǎn)業(yè)發(fā)展規(guī)劃》中指出,加強(qiáng)海量數(shù)據(jù)處理軟件為代表的技術(shù)軟件開發(fā);《物聯(lián)網(wǎng)十二五發(fā)展產(chǎn)業(yè)規(guī)劃》中把大數(shù)據(jù)信息處理等作為4項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程;《國家發(fā)改委關(guān)于加強(qiáng)和完善國家電子政務(wù)工程建設(shè)管理的意見》強(qiáng)調(diào),政府?dāng)?shù)據(jù)中心的建設(shè)注重頂層設(shè)計,向跨部門、跨區(qū)域的協(xié)同互動和資源共享轉(zhuǎn)變。
市場環(huán)境。前景巨大,空間廣闊。結(jié)合對中國相關(guān)市場的研究,IDC認(rèn)為中國在大數(shù)據(jù)領(lǐng)域具有巨大的市場潛力。越來越多的IT供應(yīng)商將中國作為大數(shù)據(jù)業(yè)務(wù)發(fā)展的熱點(diǎn)。目前,中國已經(jīng)是全球最大的PC和智能手機(jī)市場,并且中國的互聯(lián)網(wǎng)用戶和移動互聯(lián)網(wǎng)用戶數(shù)量也是全球最多,這些終端設(shè)備每時每刻都在互聯(lián)網(wǎng)上創(chuàng)造數(shù)據(jù)。龐大的數(shù)據(jù)容量不但令眾多國際廠商重視中國市場,也使得中國的大數(shù)據(jù)應(yīng)用具備了不同于國外的特點(diǎn),大數(shù)據(jù)的機(jī)遇就在我們面前。
空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)主要是建立在空間數(shù)據(jù)庫的基礎(chǔ)上,其中包括空間的關(guān)聯(lián)、特征、分類和聚類等規(guī)則及例外。它利用統(tǒng)計學(xué)方法、神經(jīng)網(wǎng)絡(luò)技術(shù)、機(jī)器學(xué)習(xí)、專家系統(tǒng)等方式,把數(shù)據(jù)集合起來。另外,空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的主要對象就是空間數(shù)據(jù)庫或空間數(shù)據(jù)倉庫,與別的數(shù)據(jù)庫比較,它主要增加了尺度維。同時,空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)具有廣泛而重要的現(xiàn)實(shí)作用,比如信息融合系統(tǒng)、氣象預(yù)報、醫(yī)療圖像處理、導(dǎo)航、機(jī)器人等使用空間數(shù)據(jù)的很多領(lǐng)域。
3.1大數(shù)據(jù)行業(yè)發(fā)展
我們認(rèn)為大數(shù)據(jù)行業(yè)的發(fā)展主要由三個因素決定:需求、數(shù)據(jù)以及產(chǎn)品。政府管理、公安反恐以及金融風(fēng)控等領(lǐng)域的大數(shù)據(jù)處理需求一直存在,隨著需求的拉動,數(shù)據(jù)開放與共享機(jī)制的完善,以及政府政策的推動,大數(shù)據(jù)行業(yè)將啟動爆發(fā)。究竟什么樣的數(shù)據(jù)才是有價值的數(shù)據(jù)?嫁接BAT、兼并收購是否是大數(shù)據(jù)變現(xiàn)的有效手段?去偽存真,哪些領(lǐng)域的大數(shù)據(jù)應(yīng)用有望率先爆發(fā)?PM2.5監(jiān)測、建筑和地下空間安全監(jiān)控、病例的存儲和研究……在我們?nèi)粘I钪校瑤缀醺餍懈鳂I(yè)都涉及“大數(shù)據(jù)”。未來必然會迎來大數(shù)據(jù)時代的挑戰(zhàn),大數(shù)據(jù)在生活中的運(yùn)用、技術(shù)發(fā)展的趨勢以及產(chǎn)業(yè)變革浪潮中都有非常重要的作用。
3.2大數(shù)據(jù)挖掘和安全
大數(shù)據(jù)運(yùn)用特定算法分析海量數(shù)據(jù),從而得出事情發(fā)生的可能性。不過,它告訴人們的不是事物的因果關(guān)系,而是相關(guān)關(guān)系。換句話說,大數(shù)據(jù)能解決“是什么”的問題,但不會告訴人們“為什么”。這會讓人們注意到很多以前從沒有意識到的關(guān)聯(lián)關(guān)系。打個比方,大數(shù)據(jù)會告訴商家客戶喜歡什么,甚至可以精確到每一位客戶的喜好,但它不會告訴你“客戶為什么喜歡”。不過,對于商家而言,知道客戶喜歡什么已經(jīng)足夠。
大數(shù)據(jù)其實(shí)無處不在。我們刷微博時,系統(tǒng)會自動將事件聚在一起形成熱點(diǎn)事件的脈絡(luò);單身大齡“剩男剩女”登錄交友網(wǎng)站時,網(wǎng)站會自動彈出一些精心挑選的單身異性資料;工作之余在購書網(wǎng)上挑選書籍,推薦欄里常常會有我們感興趣的書籍,可以輕松下單購買;駕車時,智能手機(jī)會發(fā)送我們的位置信息以及車速,然后結(jié)合實(shí)時交通信息為我們提供最佳路線;大數(shù)據(jù)還能幫助我們了解自己,手腕上的一只智能手環(huán)或智能手表,實(shí)時記錄我們的心率、睡眠質(zhì)量等各項(xiàng)身體指標(biāo),通過后臺數(shù)據(jù)分析,可以讓我們了解自己身體的健康狀況和改進(jìn)方向。
“大數(shù)據(jù)”時代面臨種種機(jī)遇的同時,在諸多挑戰(zhàn)中,個人隱私是人們關(guān)注焦點(diǎn)。平衡信息共享與隱私保護(hù)的矛盾,是大數(shù)據(jù)發(fā)展的關(guān)鍵,亟需出臺《信息公開法》和《信息保護(hù)法》,既要鼓勵面向群體且服務(wù)社會的數(shù)據(jù)挖掘,又要防止侵犯個人隱私。
隨著信息量的增加及軟硬件技術(shù)的發(fā)展,空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)將有更廣泛的應(yīng)用前景。在開發(fā)并實(shí)現(xiàn)空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的應(yīng)用時,不僅要研究多源空間數(shù)據(jù)的集成、多算法的集成、存儲空間和計算效率的降低、人機(jī)交互技術(shù)、可視化技術(shù)等問題,還要充分借鑒和汲取數(shù)據(jù)挖掘和知識發(fā)現(xiàn)、人工智能、數(shù)理統(tǒng)計、可視化、地理信息系統(tǒng)、醫(yī)療、分子生物學(xué)等學(xué)科領(lǐng)域的成熟的理論和方法。
[1]馬宏斌,王柯,馬團(tuán)學(xué).大數(shù)據(jù)時代的空間數(shù)據(jù)挖掘綜述 [J].測繪與空間地理信息, 2014,07:19-22.
[2]謝紅.大數(shù)據(jù)下的空間數(shù)據(jù)挖掘思考 [J].計算機(jī)光盤軟件與應(yīng)用,2014,09:105+107.
[3]秦蕭,甄峰,熊麗芳,朱壽佳.大數(shù)據(jù)時代城市時空間行為研究方法 [J].地理科學(xué)進(jìn)展,2013,09:1352-1361.
[4]李濤,曾春秋,周武柏,周綺鳳,鄭理.大數(shù)據(jù)時代的數(shù)據(jù)挖掘——從應(yīng)用的角度看大數(shù)據(jù)挖掘 [J].大數(shù)據(jù),2015,04:57-80.
C37[文獻(xiàn)碼]B
1000-405X(2016)-7-161-1