李德仁,張過,蔣永華,沈欣,劉偉玲
1. 武漢大學遙感信息工程學院,湖北 武漢 430079;2. 武漢大學測繪遙感信息工程國家重點實驗室,湖北 武漢 430079
近年來,隨著信息科技和網(wǎng)絡(luò)技術(shù)的發(fā)展,人類在網(wǎng)絡(luò)上交換的數(shù)據(jù)、傳達的信息使得全球每日產(chǎn)生的數(shù)據(jù)超乎想象,全球的數(shù)據(jù)規(guī)模呈爆發(fā)式增長。2008年9月,Nature發(fā)表“big data”??恼拢@標志著大數(shù)據(jù)概念的產(chǎn)生[1]。2011年Science發(fā)表對大數(shù)據(jù)進行探討的??@預示著大數(shù)據(jù)時代的到來[2]。在2012年,美國正式開啟了“大數(shù)據(jù)研究和發(fā)展倡議”計劃[3]。
2013年國家自然科學基金委員會專門開設(shè)了“大數(shù)據(jù)”項目群。大數(shù)據(jù)涵蓋人類社會生活的方方面面,隱含著巨大的社會、經(jīng)濟、科研價值,學者們常以未來世界的“石油”來表達它的重要性,它也早已成為企業(yè)界、科技界以及政界關(guān)注的熱點領(lǐng)域。而在生活中,人類早已踏入了大數(shù)據(jù)時代。在互聯(lián)網(wǎng)方面,Google在1 min內(nèi)能收到200萬次搜索查詢請求,F(xiàn)acebook在1 min內(nèi)能收到68萬次搜索請求,百度每天需要處理的網(wǎng)頁總數(shù)達到了1萬億,騰訊QQ和微信注冊用戶數(shù)分別高達8億和5億;在視頻數(shù)據(jù)方面,我國攝像頭總數(shù)超過2000萬,每個攝像頭每小時可產(chǎn)生3.6 GB數(shù)據(jù),數(shù)據(jù)量達到PB級甚至EB級;在交通出行方面,民航飛機單個引擎在1 h內(nèi)產(chǎn)生20 TB數(shù)據(jù),北京市政交通一卡通每天的使用量約為4000萬次,產(chǎn)生30 GB的存儲量;在用電量方面,國家電網(wǎng)年均產(chǎn)生數(shù)據(jù)約510 TB(不含視頻),累計產(chǎn)生數(shù)據(jù)約5 PB;在醫(yī)療方面,單個病人的計算機斷層掃描(computed tomography,CT)影像數(shù)據(jù)量達到了數(shù)十GB。各行各業(yè)的數(shù)據(jù)量都在不斷地飛速增長。據(jù)國際數(shù)據(jù)公司(International Data Corporation,IDC)發(fā)布的《數(shù)據(jù)時代2025》預測,2025年人類的數(shù)據(jù)量將達到163 ZB,與2016年相比,數(shù)據(jù)量增加了近10倍[4],并且涵蓋結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),其中95%的數(shù)據(jù)是不精確的、非結(jié)構(gòu)化的數(shù)據(jù)[5]。
國際上針對大數(shù)據(jù)的工程技術(shù)研究走在科學研究的前面[6]。如上所述,大數(shù)據(jù)最大的特征是數(shù)據(jù)量巨大,而它的價值重在其本身的隱含價值?,F(xiàn)在對大數(shù)據(jù)特征的描述已經(jīng)從3V、4V到5V,甚至新的3V[7]。大數(shù)據(jù)的特征可總結(jié)為以下幾點。
● 體量大(volume):各行各業(yè)每天生產(chǎn)的數(shù)據(jù)的量達到EB甚至ZB級。
● 速度快(velocity):對數(shù)據(jù)實時性要求高,要求數(shù)據(jù)響應(yīng)速度快。
● 模態(tài)多樣(variety):數(shù)據(jù)種類眾多。
● 真?zhèn)坞y辨(veracity):數(shù)據(jù)來源較廣,數(shù)據(jù)類型多樣,數(shù)據(jù)存在缺失、歧義以及噪聲等問題。
● 價值巨大(value):大數(shù)據(jù)作為未來世界的“石油”,對于社會發(fā)展具有巨大的隱藏價值。
大數(shù)據(jù)體量大、速度快、模態(tài)多樣等特征[7]給當前各行各業(yè)應(yīng)對大數(shù)據(jù)的存儲、讀取、處理、應(yīng)用以及隱含規(guī)律的挖掘帶來了嚴峻的挑戰(zhàn)。當前的問題是,面對如今體量大、速度快、模態(tài)多樣和真?zhèn)坞y辨的數(shù)據(jù)增長模式,如何有效地挖掘出大數(shù)據(jù)的巨大價值。地球科學方面的研究涉及政治、經(jīng)濟和文化發(fā)展,大數(shù)據(jù)時代也給地學研究帶來了嚴峻的挑戰(zhàn),尤其是地球科學空間數(shù)據(jù)存儲和潛在價值挖掘方面。下面從大數(shù)據(jù)時代的地理信息系統(tǒng)(geographic information system,GIS)、智慧城市、遙感大數(shù)據(jù)和空間數(shù)據(jù)挖掘等方面總結(jié)當今大數(shù)據(jù)時代下地球空間信息學的發(fā)展。
GIS具有空間數(shù)據(jù)管理能力、空間分析能力以及地圖數(shù)據(jù)可視化能力[7]。雖然大數(shù)據(jù)時代給GIS的發(fā)展及應(yīng)用帶來了巨大的挑戰(zhàn),但大數(shù)據(jù)沒有改變GIS的特征,而是對GIS進行了擴展,促使其進一步順應(yīng)時代的發(fā)展,這也是GIS進一步發(fā)展的機遇[7]。在大數(shù)據(jù)時代,GIS應(yīng)具有以下基本特征。
(1)可擴展的動態(tài)數(shù)據(jù)管理模式[7]
傳統(tǒng)GIS的靜態(tài)關(guān)系型數(shù)據(jù)存儲模式已無法滿足大數(shù)據(jù)時代GIS的需求,因此,在架構(gòu)層面,大數(shù)據(jù)GIS需要滿足擴展性,以實現(xiàn)動態(tài)無限增長的存儲和查詢的目標[7]。目前,人們比較熟知的MapReduce框架為當前動態(tài)數(shù)據(jù)管理模式的發(fā)展提供了很好的范例。
(2)實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)存儲
關(guān)系型數(shù)據(jù)庫難以滿足大數(shù)據(jù)中非結(jié)構(gòu)化數(shù)據(jù)的存儲需求。近些年發(fā)展起來的鍵-值數(shù)據(jù)庫(key-value store)是非關(guān)系型數(shù)據(jù)庫的代表,該數(shù)據(jù)庫可自由添加字段,滿足非結(jié)構(gòu)化數(shù)據(jù)的存儲需求,但存在數(shù)據(jù)冗余的現(xiàn)象。雖然非關(guān)系型數(shù)據(jù)庫在數(shù)據(jù)存儲方面存在冗余問題,但非關(guān)系型數(shù)據(jù)庫依然是空間數(shù)據(jù)庫管理和存儲的重要方式。為了滿足數(shù)據(jù)存儲的需求,未來將會出現(xiàn)兼顧關(guān)系型數(shù)據(jù)庫和非關(guān)系型數(shù)據(jù)庫的統(tǒng)一數(shù)據(jù)管理模型,實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的存儲功能。
(3)滿足可視化分析
在“3S(包括遙感(remote sensing,RS)、GIS、全球定位系統(tǒng)(global positioning system,GPS))”中,GIS更注重數(shù)據(jù)的分析以及數(shù)據(jù)的可視化表達。在大數(shù)據(jù)時代,地球空間信息科學的內(nèi)涵沒有發(fā)生改變,但它的內(nèi)容和形式變得更加豐富。目前,GPS數(shù)據(jù)可被理解為任何可以標識空間位置的數(shù)據(jù),RS數(shù)據(jù)可被理解為多源傳感器數(shù)據(jù),GIS則將這些與空間相關(guān)的數(shù)據(jù)映射到空間基準下進行統(tǒng)一的管理、分析和顯示[7]。傳統(tǒng)GIS可視化更加注重符號、尺度和三維等問題的可視化表達,但對于大數(shù)據(jù)時代下的GIS,若不對信息進行提煉和綜合而直接以點、線、面等符號表達出來,不僅達不到信息傳遞的效果,反而會因為有效特征得不到表達而適得其反。在大數(shù)據(jù)時代,不同分辨率用于數(shù)字孿生的真三維室內(nèi)外地上地下一體化實景模型將導致GIS數(shù)據(jù)的數(shù)據(jù)量和復雜度的提高,從而給數(shù)據(jù)探索、分析、理解和呈現(xiàn)帶來巨大的挑戰(zhàn),這使得數(shù)據(jù)可視化基礎(chǔ)逐漸成為大數(shù)據(jù)時代的顯學。
大數(shù)據(jù)時代傳統(tǒng)GIS面臨的挑戰(zhàn)可總結(jié)為以下幾點[7]。
(1)大數(shù)據(jù)體量大帶來的挑戰(zhàn)
海量的數(shù)據(jù)問題一直是GIS研究的一個重要課題,在從海量數(shù)據(jù)跨越到大數(shù)據(jù)的時代背景下,GIS發(fā)展也遇到了數(shù)據(jù)的問題,尤其是海量數(shù)據(jù)如何存儲以及如何高效利用。GIS一般采用關(guān)系型數(shù)據(jù)庫來存儲數(shù)據(jù),但是關(guān)系型數(shù)據(jù)庫在海量數(shù)據(jù)存儲方面未能解決可擴展性問題,因此,GIS的應(yīng)用受到了限制[3]。云計算和云存儲以及云端服務(wù)模式的出現(xiàn),為GIS解決大數(shù)據(jù)存儲以及管理等問題帶來了曙光。在云服務(wù)模式下,數(shù)據(jù)可以按照需求存儲在不同的磁盤、不同的機器甚至不同的地點,但是這種模式在解決大數(shù)據(jù)體量大帶來的存儲問題的同時,也因為現(xiàn)有的存儲模式帶來了數(shù)據(jù)索引和數(shù)據(jù)查詢方面的問題。因此,針對空間大數(shù)據(jù)的數(shù)據(jù)劃分,基于內(nèi)存的索引,歷史、當前及未來時空索引的并發(fā)控制,以及基于多線程的并發(fā)連續(xù)查詢等,也是亟須深入研究的方向[3]。
(2)大數(shù)據(jù)流質(zhì)性帶來的挑戰(zhàn)
傳統(tǒng)GIS的空間數(shù)據(jù)庫存儲的數(shù)據(jù)以靜態(tài)數(shù)據(jù)為主,而大數(shù)據(jù)時代下GIS面臨的是流數(shù)據(jù)(streaming data)的需求[6]。流數(shù)據(jù)是由基于時間序列動態(tài)增加的數(shù)據(jù)觀測值組成的序列,具有連續(xù)性和無限增長性的特征[6-7]。如傳統(tǒng)的ArcGIS文件型數(shù)據(jù)庫,其存儲量一般為2 GB,遠遠不能滿足大數(shù)據(jù)的流質(zhì)性特征。此外,現(xiàn)在的空間數(shù)據(jù)庫的存儲方式是靜態(tài)的關(guān)系型數(shù)據(jù),需要具有數(shù)據(jù)結(jié)構(gòu)的詳細定義以及限定的數(shù)據(jù)大小,并且數(shù)據(jù)的查詢方式也是針對靜態(tài)數(shù)據(jù)的查詢,因此,現(xiàn)有GIS空間數(shù)據(jù)的存儲以及管理方式都不再適用于大數(shù)據(jù)時代的空間流數(shù)據(jù)。
(3)大數(shù)據(jù)模態(tài)多樣帶來的挑戰(zhàn)
在大數(shù)據(jù)時代,采集的數(shù)據(jù)通常包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),如圖片、視頻、文本、音頻、3D模型、實景圖片等,類型多樣,且數(shù)據(jù)內(nèi)容也千差萬別,數(shù)據(jù)格式的多樣性給數(shù)據(jù)存儲帶來了巨大的挑戰(zhàn)[6]。傳統(tǒng)GIS數(shù)據(jù)結(jié)構(gòu)一般包括柵格數(shù)據(jù)和矢量數(shù)據(jù),很少涉及非結(jié)構(gòu)化數(shù)據(jù),而在大數(shù)據(jù)時代,非結(jié)構(gòu)化數(shù)據(jù)的比重越來越大,如3D模型和實景圖片等為人類的出行帶來了極大的便利,卻也給GIS分析和應(yīng)用帶來了一定的挑戰(zhàn)。目前,常用的關(guān)系型數(shù)據(jù)庫在面對非結(jié)構(gòu)化數(shù)據(jù)時也難以進行有效管理,因此,如何實現(xiàn)對結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理、分析和利用也是GIS面臨的一個重大挑戰(zhàn)。
(4)大數(shù)據(jù)難以挖掘的隱含價值帶來的挑戰(zhàn)
在大數(shù)據(jù)時代,流質(zhì)性是導致大數(shù)據(jù)數(shù)據(jù)量龐大的原因,龐大的數(shù)據(jù)量給大數(shù)據(jù)帶來了真實性以及多樣性的挑戰(zhàn)[8]。大數(shù)據(jù)真正的價值在于其蘊含的潛在規(guī)律和知識?,F(xiàn)實中的空間是一個復雜的系統(tǒng),其具有4個方面的特征:非線性、多參數(shù)、不穩(wěn)定性和不確定性。這對現(xiàn)有的統(tǒng)計方法提出了更高的要求,統(tǒng)計的本質(zhì)是通過對樣本進行描述來推出整體,進而陳述事實,最終進行確定性分析。而在大數(shù)據(jù)時代,數(shù)據(jù)本身的復雜性、不確定性和存在的噪聲使得通過現(xiàn)有的統(tǒng)計學方法發(fā)掘數(shù)據(jù)隱含的規(guī)律和知識的難度加大。目前,數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展使得數(shù)據(jù)分析更加注重的是價值的發(fā)現(xiàn)而不是預期的描述,但對于大數(shù)據(jù)存在的不確定性問題,數(shù)據(jù)挖掘也無法解決。因此,對于大數(shù)據(jù)GIS,空間統(tǒng)計模型的選擇、參數(shù)的訓練至關(guān)重要,可進一步探索基于人工智能方法的空間數(shù)據(jù)挖掘算法。
在大數(shù)據(jù)時代,大數(shù)據(jù)的特征給GIS帶來了挑戰(zhàn),未來GIS需要解決以下幾個問題:一是面對超大規(guī)模的數(shù)據(jù),如何進行高效的管理、查詢和使用等;二是面對大數(shù)據(jù)的不確定性、非線性等,如何選擇高效正確的統(tǒng)計模型等;三是如何發(fā)展出高效的空間數(shù)據(jù)挖掘算法,以快速發(fā)現(xiàn)大數(shù)據(jù)中隱含的價值;四是如何高效地實現(xiàn)超大規(guī)模時空數(shù)據(jù)的可視化分析等。目前,大數(shù)據(jù)GIS亟須一整套科學的、系統(tǒng)的理論和方法來應(yīng)對大數(shù)據(jù)背景帶來的挑戰(zhàn)。
1993年美國啟動的“信息高速公路”計劃和“九五”期間中國啟動的“八金”工程標志著城市信息化建設(shè)的起步[4]。1998年,時任美國副總統(tǒng)戈爾提出了“數(shù)字地球”的概念,這標志著城市信息化逐漸進入數(shù)字城市建設(shè)的新階段[9]。而我國的國家地理信息公共服務(wù)平臺“天地圖”代表了我國300多個城市初步建成數(shù)字城市的縮影,為數(shù)億網(wǎng)民提供了高效的服務(wù)。2008年IBM公司提出了“智慧城市”新理念。2009年,IBM公司的彭明盛向美國政府提出了智慧城市建設(shè)的意見,它標志著智慧城市從數(shù)字階段邁進智慧階段[5]。至此,智慧城市的概念逐步完善,智慧城市的基礎(chǔ)設(shè)施建設(shè)也取得了理論和技術(shù)上的進步。與早期的信息基礎(chǔ)設(shè)施和數(shù)字城市建設(shè)相比,智慧城市更加注重信息資源的集成、共享、整合和服務(wù),也更加強調(diào)城市管理方面的統(tǒng)籌與協(xié)調(diào)。智慧城市建立在數(shù)字城市的基礎(chǔ)框架上,通過無所不在的傳感器將它與現(xiàn)實城市關(guān)聯(lián)起來,將海量數(shù)據(jù)存儲、計算、分析和決策交由云計算平臺處理,并按照分析決策結(jié)果對各種設(shè)施進行自動化的控制[10-11]。智慧城市通過物聯(lián)網(wǎng)將數(shù)字城市和現(xiàn)實城市進行有機的融合,形成虛實一體化的空間,達到數(shù)字型孿生城市的水平。為了便于理解,可用如下表達式理解智慧城市:智慧城市=數(shù)字城市+物聯(lián)網(wǎng)+云計算[5](1)
智慧城市是基于數(shù)字城市、物聯(lián)網(wǎng)和云計算建立的現(xiàn)實世界與數(shù)字世界的融合,以實現(xiàn)對人和物的感知、控制和智能服務(wù)。它借助物聯(lián)網(wǎng)將現(xiàn)實城市和數(shù)字城市連接在一起,并借助由海量傳感器組成的物聯(lián)網(wǎng)不斷地采集城市中的人、車、物、水、電、氣等海量數(shù)據(jù),通過對數(shù)據(jù)進行存儲、處理、查詢和分析,為城市提供智慧服務(wù)的實時反饋。智慧城市對智慧的需求使得對大數(shù)據(jù)存儲、處理、查詢以及分析的實時性需求也越來越高,進而導致大數(shù)據(jù)時代下的智慧城市面臨諸多挑戰(zhàn)[8,12]。
(1)大數(shù)據(jù)存儲的問題
目前來看,存儲技術(shù)成本的下降速度與數(shù)據(jù)增長速度的差距仍較大,尤其在當下,海量數(shù)據(jù)的存儲帶來了巨大的成本障礙。例如天津市的安防系統(tǒng),在理想情況下數(shù)據(jù)存儲需要的空間是4.6 EB,需要投入500億元的資金,由此可見大數(shù)據(jù)帶來的存儲成本之大。為了解決數(shù)據(jù)存儲帶來的巨大成本問題,我國采用兩種方式來降低成本,分別是縮短數(shù)據(jù)保存的時限和降低數(shù)據(jù)的存儲質(zhì)量。
(2)大數(shù)據(jù)檢索、信息提取的問題
在大數(shù)據(jù)時代,數(shù)據(jù)的檢索和信息的提取不再是對數(shù)據(jù)進行簡單的數(shù)據(jù)存儲和采集,而是對行為等關(guān)鍵信息一并進行提取和分析。隨著衛(wèi)星傳感器的發(fā)送,各種類型的遙感衛(wèi)星每天可產(chǎn)生高達PB級的數(shù)據(jù),城市中攝像頭每天可采集EB級的數(shù)據(jù),并且城市采集的數(shù)據(jù)包括一些異常信息,如交通事故、盜竊等行為,可針對這些異?,F(xiàn)象進行預警以及及時出警處理,從而全方位地保障人民的生命財產(chǎn)安全。但是如何實現(xiàn)信息的高效檢索和語義信息提取,是當前信息系統(tǒng)在大數(shù)據(jù)時代下面臨的重要難題,為此需尋求更好的解決方法。
(3)大數(shù)據(jù)隱含知識挖掘問題
大數(shù)據(jù)中往往隱含著豐富的知識和規(guī)律,但這些知識和規(guī)律需要不斷地挖掘才能發(fā)現(xiàn),并且這些知識通常不是簡單地通過統(tǒng)計分析、回歸處理便可以得出。此外,大數(shù)據(jù)還具有難以實現(xiàn)自動化、難以實現(xiàn)繼承管理等問題,尤其是面對空間數(shù)據(jù)時,這種問題更加突出,導致想要在空間大數(shù)據(jù)中有效地挖掘知識和規(guī)律變得異常困難。因此,對于智慧城市,如何挖掘這些有效信息一直是大數(shù)據(jù)面臨的重要挑戰(zhàn)。
云計算和數(shù)據(jù)挖掘等技術(shù)的發(fā)展為智慧城市有效應(yīng)對大數(shù)據(jù)時代的挑戰(zhàn)帶來了技術(shù)支撐。智慧城市在面對各類龐大的數(shù)據(jù)量時,尤其是面對空間和視頻等非結(jié)構(gòu)化數(shù)據(jù)時,應(yīng)充分發(fā)揮云計算的優(yōu)勢對數(shù)據(jù)進行有效的存儲和管理以及快速檢索。在數(shù)據(jù)存儲層面,基于云計算基數(shù),構(gòu)建基于時空信息云平臺的云存儲與智能壓縮算法,以解決數(shù)據(jù)存儲問題。在數(shù)據(jù)檢索和信息提取層面,基于云計算技術(shù),建立從基礎(chǔ)設(shè)施、數(shù)據(jù)、平臺到服務(wù)的一體化時空信息云平臺,實現(xiàn)對空間大數(shù)據(jù)、視頻大數(shù)據(jù)的有效管理[10-11]。在數(shù)據(jù)挖掘?qū)用?,?yīng)用機器學習和人工智能方法構(gòu)建神經(jīng)網(wǎng)絡(luò)以及決策樹、遺傳算法等方法,揭示數(shù)據(jù)間的內(nèi)在關(guān)系,發(fā)現(xiàn)深層次的模式、規(guī)則和知識。智慧城市建設(shè)過程中產(chǎn)生的大數(shù)據(jù)問題既是下一代的科學前沿問題,也是推進智慧城市發(fā)展的源動力[5,10]。
在遙感以及對地觀測研究領(lǐng)域,對地觀測技術(shù)的不斷進步使得人類對地球的綜合觀測能力達到了空前的水平。并且,隨著不同的波段、不同的成像方式以及不同分辨率數(shù)據(jù)的不斷出現(xiàn),遙感數(shù)據(jù)也逐漸實現(xiàn)了多元化[13]。目前,遙感數(shù)據(jù)的數(shù)據(jù)量也在顯著增加,甚至呈現(xiàn)出指數(shù)級的增長模式。獲取數(shù)據(jù)的速度得到提高,時效性也得到了有效的提高。遙感數(shù)據(jù)也呈現(xiàn)出了明顯的“大數(shù)據(jù)”特征。但現(xiàn)在存在的重要問題是,遙感信息處理能力仍舊十分低下,現(xiàn)有的遙感數(shù)據(jù)處理和分析仍未實現(xiàn)普適性,也仍未實現(xiàn)多源異構(gòu)數(shù)據(jù)的處理。遙感信息處理技術(shù)與數(shù)據(jù)獲取能力之間出現(xiàn)了嚴重失衡的現(xiàn)象,導致遙感信息的處理仍舊處于“數(shù)據(jù)到數(shù)據(jù)”的階段,遙感信息知識獲取能力不足,致使遙感信息得不到充分的應(yīng)用,形成了“大數(shù)據(jù),小知識”的悖論。更嚴重的現(xiàn)象是,由于海量遙感數(shù)據(jù)的堆積,遙感大數(shù)據(jù)占用了大量的存儲空間,造成了某種程度上的“數(shù)據(jù)災(zāi)難”[14-15]。
遙感大數(shù)據(jù)的價值與大數(shù)據(jù)的價值相符,重在數(shù)據(jù)隱藏的規(guī)律和知識,而不是其數(shù)據(jù)量大。同樣,遙感大數(shù)據(jù)的目標也和大數(shù)據(jù)一樣,在于從數(shù)據(jù)中挖掘隱藏的知識以及對數(shù)據(jù)進行智能化和自動化分析,實現(xiàn)從遙感數(shù)據(jù)到知識的轉(zhuǎn)變,突破“大數(shù)據(jù),小知識”的瓶頸。遙感大數(shù)據(jù)的自動分析是進行遙感大數(shù)據(jù)信息挖掘、實現(xiàn)遙感觀測數(shù)據(jù)向知識轉(zhuǎn)化的前提,其主要目的是能夠建立統(tǒng)一、緊湊、語義的遙感大數(shù)據(jù)標識,以便為后續(xù)的數(shù)據(jù)挖掘奠定基礎(chǔ)[16]。遙感大數(shù)據(jù)的自動分析主要包含數(shù)據(jù)的表達、檢索和理解等方面。
數(shù)據(jù)挖掘的含義是從大量數(shù)據(jù)中搜索出隱藏的信息,數(shù)據(jù)挖掘是現(xiàn)階段大數(shù)據(jù)處理的有效方法和重要手段。而針對遙感大數(shù)據(jù)的挖掘,數(shù)據(jù)挖掘指從遙感大數(shù)據(jù)中發(fā)現(xiàn)地表的變化規(guī)律,探索自然和社會的變化趨勢。遙感大數(shù)據(jù)的挖掘可總結(jié)為以下幾個步驟:數(shù)據(jù)獲取、數(shù)據(jù)存儲、數(shù)據(jù)處理和分析、數(shù)據(jù)可視化及數(shù)據(jù)挖掘。其中,耗費成本最大的是數(shù)據(jù)存儲過程,這是目前數(shù)據(jù)存儲技術(shù)的發(fā)展遠遠跟不上數(shù)據(jù)量增長的速度導致的。難度最大的是數(shù)據(jù)挖掘過程,這是因為它依賴于基于大數(shù)據(jù)和知識庫的智能推理等理論和技術(shù)的支撐。數(shù)據(jù)挖掘過程中常用的方法有人工神經(jīng)網(wǎng)絡(luò)模型、決策樹模型、云模型和深度學習方法等。
天空地傳感技術(shù)的發(fā)展促進了遙感大數(shù)據(jù)的發(fā)展,新一代算力基礎(chǔ)設(shè)施為遙感大數(shù)據(jù)的發(fā)展帶來了基礎(chǔ)支撐,如云計算平臺,但同時也對遙感大數(shù)據(jù)的發(fā)展提出了新的挑戰(zhàn),一是面對每天生產(chǎn)出來的海量數(shù)據(jù),如何對數(shù)據(jù)進行有效的存儲;二是如何構(gòu)建更高效的數(shù)據(jù)檢索和存儲模型,這對于數(shù)據(jù)應(yīng)用來說至關(guān)重要;三是如何進行高效的數(shù)據(jù)挖掘,挖掘潛在的地學規(guī)律和知識。因此,目前亟須尋求自動化的數(shù)據(jù)智能處理和挖掘方法,發(fā)展可以對空間地理分布的視頻數(shù)據(jù)、影像數(shù)據(jù)進行數(shù)據(jù)融合和時空數(shù)據(jù)挖掘的新理論和新算法[6]。
遙感大數(shù)據(jù)挖掘可實現(xiàn)地球各位置、各尺度變化規(guī)律的發(fā)掘,還可實現(xiàn)未知地球規(guī)律的發(fā)掘,如夜光遙感技術(shù)在社會科學方面、經(jīng)濟發(fā)展方面的應(yīng)用等。未來10年,我國遙感數(shù)據(jù)的種類和數(shù)量將呈現(xiàn)飛速增長的趨勢,而對地觀測的深度和廣度也會快速發(fā)展,因此,亟須開展遙感大數(shù)據(jù)的進一步深入研究,以使我國的遙感數(shù)據(jù)物盡其用[6]。衛(wèi)星成功發(fā)射和數(shù)據(jù)收集是遙感對地觀測的第一步,而更大的挑戰(zhàn)是如何實現(xiàn)高效地存儲、分析和利用數(shù)據(jù),為國家發(fā)展政策的制定、經(jīng)濟的發(fā)展提供支撐。目前,將遙感大數(shù)據(jù)轉(zhuǎn)化成知識是主要的理論挑戰(zhàn)和技術(shù)瓶頸,如果可以突破這一瓶頸,就可以提高遙感數(shù)據(jù)的利用效率,加強遙感在環(huán)境遙感、城市規(guī)劃、地形圖更新、精準農(nóng)業(yè)和智慧城市等方面的應(yīng)用。因此,重視和抓緊遙感大數(shù)據(jù)的研究不僅具有非常重要的學術(shù)價值,而且具有重要的現(xiàn)實意義[16-17]。
1989年,從數(shù)據(jù)庫中發(fā)現(xiàn)知識(knowledge discovery from database,KDD)的概念在美國底特律召開的國際人工智能聯(lián)合會議(IJCAI)上被提出[18]。1994年,LI D R等人[19]在加拿大渥太華舉行的GIS國際學術(shù)會議上提出了從GIS數(shù)據(jù)庫中發(fā)現(xiàn)知識(knowledge discovery from GIS,KDG)的概念。自此人們逐漸認識到,很多知識原來就隱藏在大量的數(shù)據(jù)之中。經(jīng)過不斷的努力,KDG已經(jīng)發(fā)展成系統(tǒng)的空間數(shù)據(jù)挖掘理論。王樹良[20]率先從GIS空間數(shù)據(jù)中發(fā)現(xiàn)了用于指導GIS空間分析的知識,這進一步引導了地球空間信息從狹義向廣義發(fā)展。1995年,在加拿大召開的第一屆知識發(fā)現(xiàn)和數(shù)據(jù)挖掘國際學術(shù)會議上,數(shù)據(jù)挖掘的概念被提出。由于數(shù)據(jù)挖掘經(jīng)常被認為是KDD的一部分,通常將其聯(lián)合稱為數(shù)據(jù)挖掘和知識發(fā)現(xiàn)(data mining and knowledge discovery)。李德仁等人[16]把KDG概念進一步發(fā)展為空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)(spatial data mining and knowledge discovery),以克服空間災(zāi)難,用知識指導數(shù)據(jù)利用,奠定了空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)在地球空間信息學中的學科位置。此外,在不引起歧義的情況下,空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)可被簡稱為空間數(shù)據(jù)挖掘(spatial data mining,SDM)[3,6,21]。
目前,空間數(shù)據(jù)挖掘已經(jīng)滲入數(shù)據(jù)挖掘、知識發(fā)現(xiàn)以及地球空間信息學等相關(guān)學科的學術(shù)活動中[4]。1997年,亞太地區(qū)、歐洲相繼召開數(shù)據(jù)挖掘?qū)W術(shù)會議。2005年,現(xiàn)代數(shù)據(jù)挖掘及其應(yīng)用國際學術(shù)會議召開,該會議現(xiàn)在被學者們列為數(shù)據(jù)挖掘領(lǐng)域的旗艦會議??臻g數(shù)據(jù)挖掘的概念起源于國際GIS會議,空間數(shù)據(jù)挖掘后續(xù)逐漸成為各種GIS會議、國際攝影測量與遙感學會(International Society for Photogrammetry and Remote Sensing,ISPRS)等會議的主題,也逐漸成為SCI、EI等數(shù)據(jù)庫的收錄期刊的重要刊載內(nèi)容[21]。現(xiàn)在,空間數(shù)據(jù)挖掘已在人們認識和改造自然中發(fā)揮了重要的作用,也得到了國內(nèi)外眾多學者的青睞。
空間數(shù)據(jù)挖掘是從空間數(shù)據(jù)集中提取事先未知卻潛在有用的一般規(guī)則的過程。空間數(shù)據(jù)挖掘可以為基于空間數(shù)據(jù)的應(yīng)用提供有價值的知識,帶來巨大的收益,是人類認識復雜系統(tǒng)的新思維、新手段,促進經(jīng)濟轉(zhuǎn)型增長的新引擎,提升國家綜合能力和保障國家安全的新利器,提升政府治理能力的新途徑[16-17,20]。
空間數(shù)據(jù)挖掘的價值可總結(jié)為以下幾個方面[21]。
(1)助力提升數(shù)據(jù)競爭力
目前數(shù)據(jù)利用能力已成為對比各國綜合國力和技術(shù)力量的重要指標。尤其在全球化時代,基于數(shù)據(jù)利用能力的數(shù)據(jù)流,能夠在社會分工協(xié)作中引領(lǐng)技術(shù)流、物質(zhì)流、資源流和人才流,增強空間數(shù)據(jù)的主權(quán)保護能力??臻g數(shù)據(jù)挖掘可以實現(xiàn)數(shù)據(jù)資源的潛在價值,揭示新的知識發(fā)現(xiàn),盡可能發(fā)揮數(shù)據(jù)資源的戰(zhàn)略作用,全面提升數(shù)據(jù)的規(guī)模、質(zhì)量和應(yīng)用水平,進而提升國家競爭力,推動社會進步和可持續(xù)發(fā)展。
(2)助推社會生產(chǎn)力發(fā)展
空間數(shù)據(jù)挖掘是一種空間決策支持技術(shù),注重從數(shù)據(jù)中挖取未知卻有用的知識,最大限度地提升數(shù)據(jù)資源的有效利用能力,實現(xiàn)更準確的監(jiān)測、分析、預警、預測,為決策者提供極有價值的知識,提高決策的針對性、科學性和可靠性。數(shù)據(jù)挖掘已經(jīng)滲透到社會經(jīng)濟活動中,以數(shù)據(jù)流推動社會生產(chǎn)要素的網(wǎng)絡(luò)化共享、集約化整合、協(xié)作化開發(fā)和高效化利用,將影響社會分工協(xié)作的未來產(chǎn)業(yè)格局。高端智能的數(shù)據(jù)挖掘產(chǎn)業(yè)新生態(tài),能夠促進傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級,培育新的經(jīng)濟增長點,驅(qū)動業(yè)務(wù)增值,提升經(jīng)濟運行水平和效率。
(3)助力可持續(xù)發(fā)展
空間數(shù)據(jù)既有社會公益性,又有綜合價值,是解決人口、環(huán)境、資源和災(zāi)害等重大社會可持續(xù)發(fā)展問題的基礎(chǔ)資源。人類社會的可持續(xù)發(fā)展取決于合理利用資源和保護生態(tài)資源,有效地開發(fā)和利用數(shù)據(jù)資源能夠幫助人類降低對物質(zhì)和能量資源的巨量消耗。而空間數(shù)據(jù)挖掘即可實現(xiàn)以上需求??臻g數(shù)據(jù)挖掘還能輔助發(fā)現(xiàn)新空間對象、瀏覽空間數(shù)據(jù)庫、輔助空間決策、理解空間數(shù)據(jù)、發(fā)現(xiàn)空間聯(lián)系以及空間數(shù)據(jù)與非空間數(shù)據(jù)之間的關(guān)系[3],優(yōu)化空間查詢。
面對每天增長的海量數(shù)據(jù),空間數(shù)據(jù)挖掘由于空間數(shù)據(jù)庫缺乏“誰(who)”“什么(what)”“時間(when)”“地點(where)”“原因(why)”“如何(how)”的信息和元數(shù)據(jù),導致數(shù)據(jù)難理解、難組織、難整合、難遷移等問題,限制了空間數(shù)據(jù)挖掘的能力。目前,由于數(shù)據(jù)庫技術(shù)的限制,多源高維數(shù)據(jù)給空間數(shù)據(jù)挖掘帶來機遇的同時,也帶來了挑戰(zhàn),尤其在大數(shù)據(jù)時代,空間數(shù)據(jù)挖掘已經(jīng)滲透到國家安全、經(jīng)濟發(fā)展等各個層面,是保證在全球化時代海量空間數(shù)據(jù)得到有效利用的重要技術(shù)支持,未來也應(yīng)投入更多的人力、財力以促進空間數(shù)據(jù)挖掘的發(fā)展。
大數(shù)據(jù)已經(jīng)滲透到生活的方方面面,人類也早已接觸到大數(shù)據(jù)。人類社會每天以EB甚至PB的數(shù)據(jù)級別產(chǎn)生數(shù)據(jù),但數(shù)據(jù)的實際利用率卻很低,長時間的數(shù)據(jù)堆積甚至造成了某種程度上的“數(shù)據(jù)爆炸”。大數(shù)據(jù)時代下的GIS、智慧城市、遙感大數(shù)據(jù)、空間數(shù)據(jù)挖掘在面臨EB甚至PB級的數(shù)據(jù)量時,都表現(xiàn)出了海量數(shù)據(jù)存儲成本高、數(shù)據(jù)管理分析難、數(shù)據(jù)使用效率低、數(shù)據(jù)挖掘難等問題,其中最重要的是在海量數(shù)據(jù)下如何用好大數(shù)據(jù)這份科學界的“石油”。大數(shù)據(jù)時代下地球空間信息學面臨的是軟件水平、硬件水平的雙重考驗。
本文從大數(shù)據(jù)時代的GIS、智慧城市、遙感大數(shù)據(jù)和空間數(shù)據(jù)挖掘的發(fā)展、瓶頸等維度總結(jié)了大數(shù)據(jù)時代地球空間信息學的發(fā)展以及面臨的問題。首先面臨的是數(shù)據(jù)存儲的問題,但這一問題的解決不僅依賴硬件水平的提高,也依賴數(shù)據(jù)存儲算法以及云計算的發(fā)展;其次是數(shù)據(jù)檢索提取,由于數(shù)據(jù)結(jié)構(gòu)復雜,高效提取需要的數(shù)據(jù)是難題;最后是數(shù)據(jù)潛在信息挖掘,這是發(fā)揮大數(shù)據(jù)這份科學界的“石油”的重中之重。在多學科交叉的推動下,大數(shù)據(jù)時代地球空間信息學的發(fā)展模式要求軟硬件必須同時發(fā)展。