廣西壯族自治區(qū)自然資源信息中心 劉琦
地理數(shù)據(jù)具有多維動(dòng)態(tài)、實(shí)時(shí)海量、多源異構(gòu)、信息豐富等特點(diǎn),可被定義為大數(shù)據(jù)[1]。土地利用現(xiàn)狀數(shù)據(jù)是各類(lèi)土地利用狀況的真實(shí)反映,是地理數(shù)據(jù)中的一種。在自然資源管理工作中,對(duì)土地利用現(xiàn)狀數(shù)據(jù)的快速分析處理是國(guó)土行業(yè)從業(yè)者的基本需求之一。而傳統(tǒng)的GIS分析技術(shù)在對(duì)土地利用數(shù)據(jù)進(jìn)行空間查詢(xún)、分析和可視化時(shí)效率有待提高。譬如,用傳統(tǒng)的桌面ArcGIS進(jìn)行分析,單次兩個(gè)年度的土地利用現(xiàn)狀數(shù)據(jù)相疊加或面積計(jì)算需要幾十個(gè)小時(shí),甚至出現(xiàn)處理系統(tǒng)崩潰而從頭再來(lái)的狀況,已無(wú)法滿(mǎn)足當(dāng)代數(shù)據(jù)處理的效率需求。于是,亟須一種對(duì)土地利用現(xiàn)狀數(shù)據(jù)的高效存儲(chǔ)和快速分析的技術(shù)。
分布式存儲(chǔ)和并行計(jì)算架構(gòu)可以充分運(yùn)用網(wǎng)絡(luò)中的軟硬件資源、計(jì)算資源和存儲(chǔ)資源,使得GIS數(shù)據(jù)的計(jì)算能力和運(yùn)算速度大大增加。國(guó)內(nèi)外的眾多GIS專(zhuān)家學(xué)者針對(duì)高性能GIS存儲(chǔ)與分布式計(jì)算技術(shù)展開(kāi)了很多研究,例如,王凱等以Hadoop平臺(tái)為基礎(chǔ),提出了一種具備海量級(jí)地理信息數(shù)據(jù)分析能力的并行計(jì)算平臺(tái)架構(gòu)[2]。范建永等提出了一種基于Hadoop的云GIS 體系結(jié)構(gòu),通過(guò)利用HBase 和HDFS 解決海量空間數(shù)據(jù)的高效存儲(chǔ)檢索問(wèn)題,并利用MapReduce 編程框架解決海量空間數(shù)據(jù)空間分析的分布式計(jì)算效率問(wèn)題[3]。
本文基于Hadoop & ArcGIS GeoAnalytics Server矢量大數(shù)據(jù)分析平臺(tái),搭建分布式大數(shù)據(jù)分析環(huán)境,進(jìn)行土地利用現(xiàn)狀數(shù)據(jù)的分析處理,結(jié)果表明,數(shù)據(jù)的分析效率及分析系統(tǒng)的穩(wěn)定性顯著地優(yōu)于傳統(tǒng)的GIS技術(shù),為矢量大數(shù)據(jù)的分析和挖掘提供了一種有效手段。
Hadoop是由Apache基金會(huì)開(kāi)發(fā)的開(kāi)源分布式系統(tǒng)基礎(chǔ)架構(gòu)[4]。Hadoop框架最核心的技術(shù)有兩個(gè),一個(gè)是最底部的分布式文件系統(tǒng)(即HDFS),可以為海量數(shù)據(jù)提供高效穩(wěn)定的分布式存儲(chǔ),具有高容錯(cuò)性和高吞吐量,特別適合例如土地利用現(xiàn)狀數(shù)據(jù)這樣的數(shù)據(jù)量大、生命周期長(zhǎng)、更新少的冷數(shù)據(jù)的存儲(chǔ);另一個(gè)是上一層的MapReduce引擎,MapReduce是用于并行處理大數(shù)據(jù)集的軟件框架,可以為海量數(shù)據(jù)提供分布式計(jì)算能力[4]。
ArcGIS GeoAnalytics Server(簡(jiǎn)稱(chēng)GA Server)封裝了Spark分布式計(jì)算框架,是一款用于矢量大數(shù)據(jù)及表格分析處理的服務(wù)器產(chǎn)品[5]。GA簡(jiǎn)化了分布式計(jì)算環(huán)境的搭建,為用戶(hù)提供了數(shù)據(jù)匯總、鄰近分析、數(shù)據(jù)管理、位置查找、模式分析約二十多種時(shí)空大數(shù)據(jù)分析工具。配合ArcGIS Enterprise包括Data Store、Server、Portal、Web Adaptor等組件的搭建,GA可以為組織機(jī)構(gòu)內(nèi)部提供靈活穩(wěn)定安全的大數(shù)據(jù)分析環(huán)境。
GA大數(shù)據(jù)分析工具支持多種客戶(hù)端使用,包括Portal for ArcGIS、ArcGIS Pro、ArcGIS Python API等。它具有多種數(shù)據(jù)源的接入能力,打通了與流行的大數(shù)據(jù)計(jì)算框架之間的數(shù)據(jù)交互渠道[5]。鑒于GA的優(yōu)越性,面對(duì)業(yè)務(wù)處室日益增長(zhǎng)的數(shù)據(jù)處理需求,在我中心內(nèi)網(wǎng)依托ArcGIS Enterprise 的基礎(chǔ)部署,創(chuàng)建ArcGIS GeoAnalytics Server集群,配合Hadoop的分布式文件系統(tǒng)HDFS,搭建國(guó)土大數(shù)據(jù)分析環(huán)境。
我中心分布式大數(shù)據(jù)分析環(huán)境的搭建,主要是分為Hadoop的部署及ArcGIS Enterprise的部署兩部分。硬件設(shè)備配置有5臺(tái)穩(wěn)定高效物理機(jī)及15臺(tái)虛擬機(jī),每臺(tái)物理機(jī)16核CPU,255G內(nèi)存,Hadoop及GA安裝在虛擬機(jī)上。
Hadoop采用集群部署模式,總共5個(gè)節(jié)點(diǎn),主要用于國(guó)土矢量大數(shù)據(jù)的分布式存儲(chǔ)和管理。HDFS對(duì)于空間數(shù)據(jù)有很好的兼容性,可以上傳ArcGIS Shapefile格式的數(shù)據(jù)。存儲(chǔ)在HDFS的矢量數(shù)據(jù)不僅為GA提供更快的讀寫(xiě)速度,而且在節(jié)點(diǎn)中存儲(chǔ)的多個(gè)副本可以防止數(shù)據(jù)丟失。
ArcGIS Enterprise的部署策略要考慮到Portal for ArcGIS、ArcGIS Data Store(包括時(shí)空大數(shù)據(jù)存儲(chǔ)及關(guān)系型數(shù)據(jù)存儲(chǔ))、托管服務(wù)器、ArcGIS GeoAnalytics Server和Web Adaptor等幾個(gè)組件。Portal是一個(gè)集地圖、時(shí)空數(shù)據(jù)、服務(wù)、文檔、工具等資源于一體的地理空間內(nèi)容管理平臺(tái)和共享交換平臺(tái);托管服務(wù)器為通用的ArcGIS Server,為平臺(tái)提供要素、地圖、影像、地理處理等服務(wù)資源,可在Portal中進(jìn)行托管服務(wù)器的配置,將Server和Portal進(jìn)行集成;ArcGIS Data Store是Web GIS的數(shù)據(jù)存儲(chǔ)部分,GA分析的結(jié)果可存儲(chǔ)在Data Store中,并在托管服務(wù)器上發(fā)布成要素服務(wù);Web Adaptor用于將 Server與現(xiàn)有的企業(yè)級(jí)Web服務(wù)器相集成[6]。為了提升分析性能,Data Store(時(shí)空大數(shù)據(jù)存儲(chǔ))和ArcGIS GeoAnalytics Server采用集群部署模式,其他組件采用單機(jī)部署模式。綜合數(shù)據(jù)規(guī)模、執(zhí)行運(yùn)算的復(fù)雜程度和使用頻率等因素來(lái)考慮,為GA集群配置了3個(gè)計(jì)算節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)虛擬機(jī)16核CPU、128G內(nèi)存及500G硬盤(pán)。分布式計(jì)算環(huán)境部署架構(gòu)如圖1所示。
圖1 分布式大數(shù)據(jù)分析環(huán)境部署架構(gòu)
為了測(cè)試已搭建的大數(shù)據(jù)分析環(huán)境的穩(wěn)定性及處理效率,以及完成與傳統(tǒng)GIS分析環(huán)境的性能比對(duì),開(kāi)展分析環(huán)境的測(cè)試。
測(cè)試選擇疊加分析操作,疊加的兩個(gè)圖層其中一個(gè)固定使用廣西縣級(jí)行政區(qū)劃,而另一個(gè)為用ArcGIS創(chuàng)建漁網(wǎng)工具制作出來(lái)的覆蓋廣西全域范圍的規(guī)則長(zhǎng)方形格網(wǎng)數(shù)據(jù),數(shù)據(jù)類(lèi)型為面狀要素類(lèi)。為了測(cè)試超過(guò)千萬(wàn)級(jí)圖斑數(shù)矢量數(shù)據(jù)的分析性能,制作了圖斑數(shù)為億級(jí)(100000000個(gè))、千萬(wàn)級(jí)(10001406個(gè))、百萬(wàn)級(jí)(1000000個(gè))、十萬(wàn)級(jí)(100172個(gè))、萬(wàn)級(jí)(10000個(gè))等五個(gè)面格網(wǎng)要素類(lèi)。將行政區(qū)劃數(shù)據(jù)依次與這五個(gè)格網(wǎng)數(shù)據(jù)相交,分別記錄運(yùn)行時(shí)長(zhǎng),比對(duì)在桌面版ArcGIS與在GA中進(jìn)行相同相交操作的這五次分析所用的時(shí)間差異。兩種分析方式的分析用時(shí)如表1所示。
表1 桌面版ArcGIS與GA Server完成相同分析操作用時(shí)比對(duì)表
由測(cè)試結(jié)果可以看出:對(duì)于同一個(gè)空間分析操作,GA Server執(zhí)行的速度無(wú)一例外地優(yōu)于桌面版ArcGIS,這是由于GA是集群式部署,有多個(gè)計(jì)算節(jié)點(diǎn),采用分布式計(jì)算,而桌面版ArcGIS只有單機(jī)參與運(yùn)算,且ArcGIS Desktop受限于32位應(yīng)用程序,可調(diào)用內(nèi)存極限通常只有2G,因此即便計(jì)算機(jī)內(nèi)存增加,桌面版ArcGIS執(zhí)行分析的速率很可能并不會(huì)有明顯提升;其次,矢量數(shù)據(jù)記錄數(shù)越多,使用GA Server進(jìn)行空間分析在執(zhí)行速度方面的優(yōu)勢(shì)越為明顯,十萬(wàn)級(jí)以下記錄數(shù)的矢量數(shù)據(jù),兩者差別不大,而操作百萬(wàn)級(jí)以上記錄數(shù)的矢量數(shù)據(jù),GA Server的執(zhí)行速度呈直線(xiàn)上升,明顯優(yōu)于桌面版ArcGIS,考慮到GA分析的前提是矢量數(shù)據(jù)的切塊入池操作,建議數(shù)據(jù)量不大的矢量數(shù)據(jù),用桌面版ArcGIS便可以完成分析,而數(shù)據(jù)量大、生命周期長(zhǎng)、更新少的矢量數(shù)據(jù),可以使用GA Server完成空間分析;同時(shí),在穩(wěn)定性方面,GA Server要優(yōu)于桌面版ArcGIS,特別是針對(duì)數(shù)據(jù)量較大的矢量數(shù)據(jù),桌面版ArcGIS執(zhí)行分析時(shí),很可能會(huì)卡死而無(wú)法繼續(xù),然而GA卻能順利完成操作。
根據(jù)具體業(yè)務(wù)需求,國(guó)土土地調(diào)查數(shù)據(jù)分析處理的內(nèi)容包括土地利用現(xiàn)狀數(shù)據(jù)各地類(lèi)面積及占比分析、土地利用變更調(diào)查成果的流量分析、基本農(nóng)田內(nèi)地類(lèi)情況統(tǒng)計(jì)分析及國(guó)土土地調(diào)查數(shù)據(jù)與其他專(zhuān)題數(shù)據(jù)的比對(duì)分析等。土地利用數(shù)據(jù)分析處理的特點(diǎn),首先是涉及數(shù)據(jù)種類(lèi)多、數(shù)據(jù)量大,覆蓋全區(qū)的圖斑數(shù)多為千萬(wàn)級(jí);其次是分析的步驟多,涉及全區(qū)數(shù)據(jù)的疊加分析、圖斑邊界融合、字段計(jì)算、統(tǒng)計(jì)匯總等多個(gè)基本分析過(guò)程及多種分析模型;除此之外,數(shù)據(jù)和分析流程需要頻繁的變更和重復(fù)執(zhí)行。因此,基于Hadoop和GA Server的大數(shù)據(jù)分析平臺(tái)在執(zhí)行速度、效率、穩(wěn)定性等方面的優(yōu)勢(shì)能為土地利用現(xiàn)狀數(shù)據(jù)分析提供快速處理的解決辦法。
本章以廣西最新兩個(gè)年度土地調(diào)查數(shù)據(jù)的地類(lèi)流量變化分析為例,在國(guó)土業(yè)務(wù)真實(shí)案例中應(yīng)用Hadoop&ArcGIS GeoAnalytics Server分布式大數(shù)據(jù)分析平臺(tái)進(jìn)行土地利用現(xiàn)狀數(shù)據(jù)分析。
流量分析的目的在于反映某個(gè)區(qū)域某個(gè)時(shí)間段內(nèi)各地類(lèi)變化情況及地類(lèi)轉(zhuǎn)移情況。流量分析過(guò)程包括兩個(gè)年度地類(lèi)疊加分析、橢球面積計(jì)算、田坎面積計(jì)算、圖斑地類(lèi)面積計(jì)算、地類(lèi)賦值、地類(lèi)面積匯總統(tǒng)計(jì)等十多個(gè)步驟,用ArcGIS Model Builder建立的流量分析模型如圖2所示。
圖2 地類(lèi)流量分析模型
1.數(shù)據(jù)源整合與預(yù)處理
結(jié)合全區(qū)地類(lèi)流量分析的需要,匯總整合所涉及的各類(lèi)相關(guān)業(yè)務(wù)數(shù)據(jù)源,建立統(tǒng)一的數(shù)據(jù)目錄,并對(duì)數(shù)據(jù)源進(jìn)行數(shù)據(jù)質(zhì)量的檢查、坐標(biāo)轉(zhuǎn)換、數(shù)據(jù)格式轉(zhuǎn)換等數(shù)據(jù)預(yù)處理工作。
2.Hadoop HDFS大數(shù)據(jù)存儲(chǔ)
遵循統(tǒng)一的技術(shù)要求,將土地調(diào)查相關(guān)的業(yè)務(wù)數(shù)據(jù)分別切塊,一個(gè)要素類(lèi)分割成多個(gè)Shapefile格式的矢量數(shù)據(jù),將切塊好的數(shù)據(jù)分別上傳到Hadoop HDFS中,進(jìn)行數(shù)據(jù)的注冊(cè)、接入、匯集、建庫(kù)后,形成分布式存儲(chǔ)的全區(qū)覆蓋、內(nèi)容完整、準(zhǔn)確權(quán)威的土地調(diào)查數(shù)據(jù)資源池,將數(shù)據(jù)從傳統(tǒng)的數(shù)據(jù)庫(kù)存儲(chǔ)、文件系統(tǒng)存儲(chǔ)遷移到分布式文件存儲(chǔ)系統(tǒng)中,用于大數(shù)據(jù)分析挖掘的輸入源。
3.矢量大數(shù)據(jù)分布式計(jì)算
結(jié)合地類(lèi)流量分析模型以及數(shù)據(jù)源數(shù)據(jù)結(jié)構(gòu),基于已搭建的分布式計(jì)算平臺(tái),通過(guò)ArcGIS大數(shù)據(jù)分析客戶(hù)端Portal提供的大數(shù)據(jù)分析工具,執(zhí)行分析模型的每一步分析流程?;蛘咴贏rcGIS Pro中結(jié)合GA工具與傳統(tǒng)GP工具建立流量分析模型,以自動(dòng)化的方式完成分析處理。
4.結(jié)果輸出與制表
將矢量分析結(jié)果存儲(chǔ)至Hadoop HDFS中,而匯總統(tǒng)計(jì)表格結(jié)果輸出至DataStore時(shí)空大數(shù)據(jù)存儲(chǔ)中,并發(fā)布成托管要素服務(wù)。表格結(jié)果經(jīng)過(guò)整理,形成業(yè)務(wù)處室要求的兩個(gè)年度地類(lèi)變化平衡統(tǒng)計(jì)表。
從流量分析結(jié)果的地類(lèi)變化平衡統(tǒng)計(jì)表中可以統(tǒng)計(jì)出廣西全區(qū)、各市、各縣上一年各地類(lèi)流向本年度的其他地類(lèi)的面積以及本年度各地類(lèi)的流入地類(lèi)類(lèi)型和面積。如圖3,是從流量分析結(jié)果中統(tǒng)計(jì)出的全區(qū)本年度林地的流入地類(lèi)類(lèi)型與分布情況。
圖3 林地流入地類(lèi)類(lèi)型與占比
本文基于Hadoop HDFS及ArcGIS GeoAnalytics Server矢量大數(shù)據(jù)分析平臺(tái),搭建了廣西國(guó)土分布式大數(shù)據(jù)分析環(huán)境,實(shí)現(xiàn)了分布式計(jì)算平臺(tái)下廣西土地利用現(xiàn)狀數(shù)據(jù)的有效存儲(chǔ)管理和快速統(tǒng)計(jì)分析應(yīng)用。輸入與輸出的數(shù)據(jù)量均超過(guò)千萬(wàn)級(jí),滿(mǎn)足了業(yè)務(wù)處室及技術(shù)單位對(duì)于統(tǒng)計(jì)結(jié)果形式準(zhǔn)確性、時(shí)效性、平臺(tái)穩(wěn)定性等的要求。相比于傳統(tǒng)的GIS分析技術(shù),分布式計(jì)算平臺(tái)成倍提升了矢量大數(shù)據(jù)分析計(jì)算的效率,促進(jìn)了新一輪國(guó)土土地調(diào)查工作的開(kāi)展。與此同時(shí),我們可以看到,分布式大數(shù)據(jù)分析環(huán)境也能夠?yàn)閲?guó)土行業(yè)的其他應(yīng)用場(chǎng)景,例如國(guó)土空間“雙評(píng)價(jià)”工作、生態(tài)紅線(xiàn)核實(shí)劃定、自然資源調(diào)查監(jiān)測(cè)與評(píng)價(jià)、監(jiān)督執(zhí)法工作、耕地保護(hù)工作等多項(xiàng)自然資源日常管理工作的空間大數(shù)據(jù)分析,提供靈活、穩(wěn)定、安全、快速的新一代分析技術(shù)。