陸妍玲,李景文,葉蘇嫻,姜建武,殷 敏,周艷柳
(1. 桂林理工大學(xué),廣西 桂林 541004; 2. 廣西空間信息與測繪重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541004)
近年來,由于移動互聯(lián)網(wǎng)與物聯(lián)網(wǎng)等技術(shù)的不斷發(fā)展,全球范圍內(nèi)數(shù)據(jù)量增長迅猛,昭示著大數(shù)據(jù)(big data)時代已經(jīng)來臨[1-2]。根據(jù)國際數(shù)據(jù)公司IDC統(tǒng)計(jì),全球數(shù)據(jù)總量將維持50%左右的增長率。預(yù)計(jì)到2020年,全球數(shù)據(jù)總量達(dá)到40 ZB;同時,中國的數(shù)據(jù)總量將達(dá)到8.6 ZB,占全球總量的21%,其中,80%的數(shù)據(jù)與空間位置相關(guān)[3]。地理信息數(shù)據(jù)得到了空前的發(fā)展,大數(shù)據(jù)時代背景下的地理時空數(shù)據(jù)量不斷膨脹,與GIS系統(tǒng)相關(guān)的應(yīng)用也在迅速豐富和增長。大數(shù)據(jù)的特征不止體現(xiàn)在數(shù)據(jù)量大方面,更有速度快、模態(tài)多樣、真?zhèn)坞y辨、價(jià)值性等多個特征[4]。其中,海量異構(gòu)性在GIS數(shù)據(jù)管理方面一直是熱門研究領(lǐng)域。因此,在大數(shù)據(jù)時代中,超大體量的數(shù)據(jù)研究為GIS帶來了挑戰(zhàn)的同時也提供了數(shù)據(jù)分析的新機(jī)遇。
傳統(tǒng)GIS多采用關(guān)系型數(shù)據(jù)庫,針對大數(shù)據(jù)的云端服務(wù)模式,使得單一的關(guān)系型數(shù)據(jù)庫在海量空間數(shù)據(jù)的存儲管理、異地多點(diǎn)查詢、關(guān)聯(lián)與聚合等方面顯示出了一定的局限性[5-6]。同時,傳統(tǒng)的空間數(shù)據(jù)庫存儲多以靜態(tài)的關(guān)系型數(shù)據(jù)記錄為主要形式,管理方式缺少應(yīng)對高動態(tài)的時空大數(shù)據(jù)的解決方法[7]。除去大體量、動態(tài)等特性,大數(shù)據(jù)的異構(gòu)特征在現(xiàn)有的GIS數(shù)據(jù)模型中,也存在很大的管理難度。不同的時空粒度,從數(shù)據(jù)格式到數(shù)據(jù)存儲都存在較大的差異性,常用的關(guān)系型數(shù)據(jù)結(jié)構(gòu)已經(jīng)難以對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行有效組織和管理,同時對結(jié)構(gòu)性和非結(jié)構(gòu)性等異構(gòu)數(shù)據(jù)的統(tǒng)一管理成為GIS時空大數(shù)據(jù)急需解決的主要問題之一[3,8]。
大體量、動態(tài)、異構(gòu)等多特征的大數(shù)據(jù)必將為GIS數(shù)據(jù)存儲和管理帶來跳躍性發(fā)展。相對于傳統(tǒng)關(guān)系型或分布式數(shù)據(jù)庫,對靜態(tài)、有限的數(shù)據(jù)集管理系統(tǒng)需要具備擴(kuò)展性,對多源異構(gòu)的數(shù)據(jù)類型的包容性,對關(guān)系型和非關(guān)系型數(shù)據(jù)協(xié)同管理性,以滿足動態(tài)無限增長的大數(shù)據(jù)存儲和查詢問題,GIS時空大數(shù)據(jù)需要一種應(yīng)對大數(shù)據(jù)時代挑戰(zhàn)的數(shù)據(jù)管理新方法[9]。由此,針對現(xiàn)有空間數(shù)據(jù)存儲的靜態(tài)關(guān)系型記錄的不足,通過以實(shí)時存儲和實(shí)時分析為目標(biāo),基于流數(shù)據(jù)的地理時空大數(shù)據(jù)動態(tài)管理方法,將改善現(xiàn)有的數(shù)據(jù)結(jié)構(gòu)在大數(shù)據(jù)存儲和管理的局限性,結(jié)合擴(kuò)展數(shù)據(jù)源、數(shù)據(jù)類型及數(shù)據(jù)操作等屬性,突出多源異構(gòu)地理時空大數(shù)據(jù)的時空關(guān)系和演變過程關(guān)系等特征,實(shí)現(xiàn)對GIS時空大數(shù)據(jù)進(jìn)行數(shù)據(jù)一體化組織、存儲和分析。
與傳統(tǒng)靜態(tài)數(shù)據(jù)相對應(yīng)的流數(shù)據(jù),是一種具有實(shí)時、快速和連續(xù)到達(dá)等特性的動態(tài)數(shù)據(jù)。所謂流數(shù)據(jù),是按時間序列動態(tài)增加的數(shù)據(jù)觀測值向量所組成的數(shù)據(jù)序列,有連續(xù)性及無線增長性的特性。在對大數(shù)據(jù)GIS特征分析中,李清泉等提出采用現(xiàn)有的空間數(shù)據(jù)管理方式難以應(yīng)對高動態(tài)的空間流數(shù)據(jù),相比于靜態(tài)有限的數(shù)據(jù)集,地理空間大數(shù)據(jù)的存儲管理應(yīng)該具備擴(kuò)展性,并且能對非結(jié)構(gòu)性數(shù)據(jù)進(jìn)行有效存儲。因此,基于“瞬間流”的數(shù)據(jù)集概念,對流數(shù)據(jù)的存儲技術(shù)進(jìn)行動態(tài)改進(jìn),能有效解決非結(jié)構(gòu)性的超大規(guī)模數(shù)據(jù)帶來的存儲上的問題,可擴(kuò)展的立方體存儲處理方法同時能滿足高動態(tài)性的異構(gòu)地理空間大數(shù)據(jù)管理需求[3]。
結(jié)合地理時空大數(shù)據(jù)的數(shù)據(jù)概念、結(jié)構(gòu)特點(diǎn),地理時空大數(shù)據(jù)可以分為結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)類型,同時,數(shù)據(jù)特征描述從傳統(tǒng)的3V擴(kuò)展到了5V或新3V等多維模態(tài)。通過分析從海量到大數(shù)據(jù)的跨越面臨的存儲和分析問題,描述以流數(shù)據(jù)為對象的數(shù)據(jù)存儲結(jié)構(gòu),按照時間序列動態(tài)增加數(shù)據(jù)向量所組成的數(shù)據(jù)立方體??紤]到非結(jié)構(gòu)性數(shù)據(jù)特點(diǎn),地理時空大數(shù)據(jù)存儲需要具備擴(kuò)展性。因此,在水平方向二維數(shù)據(jù)流的基礎(chǔ)上,增加垂直方向上的二維非結(jié)構(gòu)數(shù)據(jù)流,并在時間序列的框架下,構(gòu)建基于流數(shù)據(jù)的可擴(kuò)展立方體(streaming data cube,SDC),為實(shí)現(xiàn)地理時空大數(shù)據(jù)的實(shí)時處理奠定基礎(chǔ),如圖1所示。
圖1 地理時空大數(shù)據(jù)的流數(shù)據(jù)擴(kuò)展立方體結(jié)構(gòu)
流數(shù)據(jù)擴(kuò)展立方體為
CPLXYZT=VP,L,X,Y,Z,T
(1)
式中,P為關(guān)聯(lián)的信息類型;L為空間分辨率的層級;X、Y、Z為體位置的三維坐標(biāo);T為時間。
基于流數(shù)據(jù)的可擴(kuò)展立方體結(jié)構(gòu)(SDC),通過回歸與聚類等方法為多維流數(shù)據(jù)建立一個較為完整的實(shí)時處理框架,采用梯形體,將不同維度的流數(shù)據(jù)立方體疊加,按照時間序列對數(shù)據(jù)流作聚類處理;同時,在垂直方向上,由下往上對聚類作回歸。具體如圖2所示,底層到上層的延伸是對聚類進(jìn)行回歸的過程,越往上層聚類數(shù)據(jù)越少。某層截面表示在該層上需存儲的立方體,其體積與其相應(yīng)的回歸層上所存儲的聚類立方體個數(shù)成正比關(guān)系[10]。
圖2 流數(shù)據(jù)立方體SDC處理框架
其中聚類算法為:Algorithm index-D(K,M,N,α),設(shè)定給出的流數(shù)據(jù)立方體個數(shù)為K,每個最少去除的采集點(diǎn)數(shù)為M,當(dāng)前立方體存儲結(jié)構(gòu)的個數(shù)為N,試驗(yàn)因子為α。聚類過程為:流數(shù)據(jù)立方體Streaming cube(Ti,Tj)表示從時間Ti到Tj這段時間的聚類結(jié)果:
(1) 對所有ID進(jìn)行初始化,使之為零。
(2) 對每一個新到來的立方體數(shù)據(jù)塊Dj計(jì)算聚類Streaming cube(j-1,j)。
(3) 從水平二維的第0層開始計(jì)算,判斷每一層是否有空的存儲單元,設(shè)置判斷標(biāo)準(zhǔn)至少有一個ID為0,直至出現(xiàn)空的立方體存儲單元的那一層位置為止。
通過梯形體的方式,對水平方向流數(shù)據(jù)立方體進(jìn)行聚類,垂直方向流數(shù)據(jù)立方體進(jìn)行回歸。在多維時間序列流數(shù)據(jù)立方體的回歸分析中,采用壓縮后的回歸數(shù)據(jù),可大量節(jié)省時空大數(shù)據(jù)的存儲空間。在該立方體存儲結(jié)構(gòu)中,利用一維的線性回歸方法,描述了對流數(shù)據(jù)立方體進(jìn)行不同時間序列組成的不同立方體,以及對同一時間序列的不同時段的立方體進(jìn)行最小二乘線性回歸運(yùn)算。通過ISB表示法,由參數(shù)[Ta,Tb],θ,η組成。以上參數(shù)相互不相關(guān),其中[Ta,Tb]為時間序列間隔,θ為線性擬合的基數(shù),η是斜率。最后,為有效實(shí)時分析處理流數(shù)據(jù)立方體,在垂直方向的回歸上層進(jìn)行觀察,利用數(shù)據(jù)異常驅(qū)動的方法,找出流數(shù)據(jù)異常立方體,在有限的存儲空間中切實(shí)可行地對快速、動態(tài)的流數(shù)據(jù)立方體做出實(shí)時響應(yīng)。
隨著超大數(shù)據(jù)規(guī)模的不斷上升,其局限性越來越明顯,面臨諸多難以解決的問題,如非結(jié)構(gòu)化數(shù)據(jù)難以確定統(tǒng)一的數(shù)據(jù)關(guān)系模型;大部分的關(guān)系數(shù)據(jù)庫不支持大規(guī)模的分布式存儲?;赟QL的接口設(shè)計(jì)在超大數(shù)據(jù)集面前效率低下,難以滿足實(shí)時性要求[11]。但在非關(guān)系型數(shù)據(jù)模型應(yīng)用中,體現(xiàn)在各類非關(guān)系型數(shù)據(jù)量(NoSQL)和分布式文件系統(tǒng)。典型的NoSQL數(shù)據(jù)庫有Redis、Memcached、Cassandra、MongoDB、Neo4j等,此類數(shù)據(jù)庫相比于關(guān)系型數(shù)據(jù)庫確定存在多方面優(yōu)勢,但是卻不能支持SQL查詢。即使對非關(guān)系型數(shù)據(jù)庫的爭議從未間斷,但其與關(guān)系數(shù)據(jù)庫并存的數(shù)據(jù)管理方式已經(jīng)被認(rèn)可[3]。李德仁等學(xué)者對一體化組織、管理、存儲地理時空大數(shù)據(jù)了進(jìn)行研究;康俊鋒等基于互聯(lián)網(wǎng)操作軟件架構(gòu),建立了新一代網(wǎng)格計(jì)算技術(shù)下的非關(guān)系、開放、并行的數(shù)據(jù)存儲管理方法[12]。
同時,考慮關(guān)系數(shù)據(jù)庫目前的主導(dǎo)地位,在異構(gòu)性地理時空大數(shù)據(jù)模型構(gòu)建中,基于關(guān)系數(shù)據(jù)庫的設(shè)計(jì)工具和語言接口,為水平方向上的二維結(jié)構(gòu)化數(shù)據(jù)流進(jìn)行存儲管理;也為解決現(xiàn)有關(guān)系型數(shù)據(jù)庫缺乏非結(jié)構(gòu)化數(shù)據(jù)管理與實(shí)時性分析的問題,采用靈活、分布式、擴(kuò)展開放的多維流數(shù)據(jù)立方體存儲管理垂直方向上的非結(jié)構(gòu)型數(shù)據(jù);使其實(shí)現(xiàn)同時支持結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)源和數(shù)據(jù)模型描述。
因此,基于流數(shù)據(jù)立方體(SDC)處理框架,結(jié)合立方體數(shù)據(jù)組織模型的定義和特征,根據(jù)流數(shù)據(jù)的地理時空大數(shù)據(jù)的組織形態(tài),構(gòu)建擴(kuò)展關(guān)系型數(shù)據(jù)庫與協(xié)同非關(guān)系型數(shù)據(jù)庫(extension-synergy,簡稱E-S)的模型,將非關(guān)系數(shù)據(jù)庫用作關(guān)系數(shù)據(jù)庫的擴(kuò)展,關(guān)系數(shù)據(jù)庫中數(shù)據(jù)量大、關(guān)系較為復(fù)雜的通過中間件移植到非關(guān)系數(shù)據(jù)庫中,只在關(guān)系數(shù)據(jù)庫中保留需要復(fù)雜關(guān)系操作的流數(shù)據(jù)立方體。具體如圖3所示。
圖3 基于SDC的E-S數(shù)據(jù)庫
基于SDC的E-S數(shù)據(jù)庫,面向?qū)崟r分析的動態(tài)流數(shù)據(jù)處理過程,考慮到地理時空大數(shù)據(jù)的建模重點(diǎn),基于流數(shù)據(jù)立方體存儲的地理時空大數(shù)據(jù)時空聚類方法,把任意多個流數(shù)據(jù)立方體組合通過回歸聚類等方法映射成唯一立方體,在類體空間中保存有效數(shù)據(jù)單元信息,并且構(gòu)建時空序列索引提高檢索和信息分析效率。結(jié)合數(shù)據(jù)驅(qū)動分析,通過插入異常源數(shù)據(jù),在計(jì)算模擬過程中,探索實(shí)現(xiàn)發(fā)現(xiàn)未來地理時空大數(shù)據(jù)管理新模式的方法,具體如圖4所示。
圖4 基于流數(shù)據(jù)立方體的地理時空大數(shù)據(jù)組織
在時空聚類過程中,單元列棧U為一個規(guī)格化時空單元上的聚類全部數(shù)據(jù),按照時空序列堆棧的數(shù)據(jù)集為
(2)
基于流數(shù)據(jù)的可擴(kuò)展立方體存儲區(qū)結(jié)果D為相同時空層級上全部規(guī)格化時空單元上的U的集合為
(3)
基于SDC的E-S時空大數(shù)據(jù)組織方法,采用具有連續(xù)性及無限增長性的流數(shù)據(jù)為數(shù)據(jù)結(jié)構(gòu),考慮到非結(jié)構(gòu)性數(shù)據(jù),在典型流數(shù)據(jù)的基礎(chǔ)上,對其進(jìn)行垂直方向上的擴(kuò)展,并且在時間序列下,進(jìn)行靈活實(shí)時的數(shù)據(jù)管理;既滿足GIS大數(shù)據(jù)可擴(kuò)展的動態(tài)數(shù)據(jù)管理需求,該流數(shù)據(jù)立方體與時空序列的結(jié)合,還為面向?qū)崟r分析與挖掘的動態(tài)處理提供解決方案。在SDC存儲結(jié)構(gòu)基礎(chǔ)上,基于擴(kuò)展關(guān)系型和協(xié)同非關(guān)系型數(shù)據(jù)庫,既符合SDC存儲結(jié)構(gòu)和運(yùn)算方式,又不舍棄當(dāng)下主流關(guān)系數(shù)據(jù)庫對于復(fù)雜關(guān)系操作的優(yōu)點(diǎn),還能對地理時空大數(shù)據(jù)的非結(jié)構(gòu)數(shù)據(jù)進(jìn)行有效管理,符合未來大數(shù)據(jù)GIS新型通用數(shù)據(jù)管理系統(tǒng)的標(biāo)準(zhǔn)。
在GIS領(lǐng)域中,海量數(shù)據(jù)的處理一直是一個重要問題,從海量數(shù)據(jù)跨越到大數(shù)據(jù),不止擁有超大規(guī)模的數(shù)據(jù)體量,還兼具了多源、快速、動態(tài)、異構(gòu)和挖掘等關(guān)鍵的特征[13-14]。針對目前GIS數(shù)據(jù)模型的管理局限性,本文提出了一種基于流數(shù)據(jù)的可擴(kuò)展立方體動態(tài)數(shù)據(jù)組織方法,在典型的流數(shù)據(jù)二維數(shù)據(jù)序列基礎(chǔ)上,增加垂直方向的非結(jié)構(gòu)數(shù)據(jù)立方體序列,在時間序列下,統(tǒng)一管理地理時空大數(shù)據(jù)的結(jié)構(gòu)型和非結(jié)構(gòu)型數(shù)據(jù),滿足地理時空大數(shù)據(jù)高動態(tài)、連續(xù)性與無限增長性的數(shù)據(jù)管理需求。同時,為了優(yōu)化地理時空大數(shù)據(jù)模型管理,在數(shù)據(jù)層面,針對傳統(tǒng)關(guān)系型數(shù)據(jù)庫在異構(gòu)和可擴(kuò)展方面的不足,將關(guān)系型與非關(guān)系型數(shù)據(jù)庫并存,基于SDC的E-S地理時空大數(shù)據(jù)模型構(gòu)建方法,既發(fā)揮關(guān)系型模型對復(fù)雜關(guān)系操作的優(yōu)勢,也將海量、異構(gòu)和動態(tài)的地理時空大數(shù)據(jù)存儲管理在非關(guān)系型數(shù)據(jù)庫,同時適應(yīng)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一數(shù)據(jù)模型。