周俊暉 趙聰浩 馮振儉 蘇 瑋
(1. 廣州南方智能技術(shù)有限公司, 廣東 廣州 510663;2. 南寧市自然資源信息集團有限公司, 廣西 南寧 530028;3. 廣州市城市建設(shè)檔案館, 廣東 廣州 510030)
2019年自然資源部印發(fā)的《自然資源部信息化建設(shè)總體方案》中,明確提出建設(shè)三維立體自然資源“一張圖”,并且要加強三維空間自然資源信息的管理與應(yīng)用[1]。《實景三維中國建設(shè)技術(shù)大綱(2021版)》提出要根據(jù)新時期測繪工作“兩服務(wù)、兩支撐”根本定位,構(gòu)建“分布存儲、邏輯集中、時序更新、共享應(yīng)用”的實景三維中國,為數(shù)字中國建設(shè)提供統(tǒng)一的空間基底。該大綱中定義了實景三維的內(nèi)容,包括空間數(shù)據(jù)體、物聯(lián)感知數(shù)據(jù)和支撐環(huán)境3部分,其中空間數(shù)據(jù)體包括了地理場景和地理實體[2]。
地理場景是一定區(qū)域范圍內(nèi)連續(xù)成片、反映現(xiàn)實世界地理空間位置和形態(tài)的地理信息數(shù)據(jù)。地理場景往往采用場模型進行處理。地理實體是在現(xiàn)實世界中占據(jù)一定且連續(xù)空間位置、單獨具有同一屬性或完整功能的地理對象,包括基礎(chǔ)地理實體、部件三維模型以及其他實體。地理實體以面向?qū)ο蟮姆绞綄F(xiàn)實世界中的各地理事物抽象成實體對象,并將其專題、空間、時態(tài)等相關(guān)信息組織起來[2]。
隨著新型基礎(chǔ)測繪技術(shù)手段不斷創(chuàng)新發(fā)展,各類遙感影像、野外測量、激光點云、傾斜攝影、三維建模等數(shù)據(jù)采集手段形成了大量的三維空間數(shù)據(jù)。與此同時,各主管部門、測繪生產(chǎn)單位仍保留大量存量或繼續(xù)生產(chǎn)增量二維空間數(shù)據(jù),二維和三維空間數(shù)據(jù)在服務(wù)于國土空間規(guī)劃、用途管制、生態(tài)修復(fù)、空間決策、智慧城市建設(shè)等應(yīng)用中各有所長,互補不足,共同為上述業(yè)務(wù)場景的多種專題應(yīng)用發(fā)揮重要作用。此外,除傳統(tǒng)“三域”數(shù)據(jù)以外,地理信息數(shù)據(jù)獲取的渠道更為廣泛,非結(jié)構(gòu)化的文檔、音頻、視頻、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等數(shù)據(jù)對地理數(shù)據(jù)進行了有益的補充。這些多源異構(gòu)數(shù)據(jù)獲取方式不同、抽象程度不同、表達形式不同,從不同側(cè)面表達同一個現(xiàn)實地物。傳統(tǒng)地理信息系統(tǒng)(geographic information system,GIS)數(shù)據(jù)模型主要以分類型、分尺度、分層、分塊、分要素的方法進行空間數(shù)據(jù)的組織與管理,在此基礎(chǔ)上進行地圖要素的縱向分層和橫向分塊管理,存在對地下、海中、空中、室內(nèi)等三維世界支撐不足等問題[3,6]。
地理場景與地理實體緊密聯(lián)系,地理實體某種程度上組成了地理場景,很多情況下,數(shù)據(jù)采集是按現(xiàn)實世界連續(xù)成片采集后再進行語義化分割和建模,因此地理實體也來源于地理場景。而當前數(shù)據(jù)模型一般是按照傳統(tǒng)GIS的思路來進行設(shè)計,以地圖要素作為其空間數(shù)據(jù)的基礎(chǔ),難以適應(yīng)當前地理信息數(shù)據(jù)的多來源、多模態(tài)、多維度的時空數(shù)據(jù)與其之間關(guān)系管理的要求,也不能滿足日益多樣、生動的地理空間數(shù)據(jù)可視化應(yīng)用需要,更無法滿足地理時空大數(shù)據(jù)分析、挖掘、預(yù)測的需要。因此亟須考慮地理場景、地理實體的相互關(guān)系,考慮地理空間數(shù)據(jù)的多源、多模態(tài)特性,在數(shù)據(jù)組織和管理上將多源異構(gòu)數(shù)據(jù)表達或刻畫的地理事物在邏輯上統(tǒng)一,形成邏輯組織與人類認知的統(tǒng)一,為實景三維中國提出的從“抽象”到“真實”、從“平面”到“立體”、從“靜態(tài)”到“時序”、從“按要素、分尺度”到“按實體、分精度”、從“人理解”到“人機兼容理解”、從“陸地表層”到“全空間”六點提升[2]提供切實可行的數(shù)據(jù)組織和管理方案。
在實景三維數(shù)據(jù)模型中,研究者針對地理實體的GIS數(shù)據(jù)模型研究較多,如華一新、周成虎等提出了面向全空間信息系統(tǒng)的多粒度時空對象數(shù)據(jù)模型,確定了由時空參照、空間位置、空間形態(tài)、組成結(jié)構(gòu)、關(guān)聯(lián)關(guān)系、認知能力、行為能力和屬性特征8項內(nèi)容構(gòu)成的多粒度時空對象數(shù)據(jù)模型描述框架[3]。閭國年等研究了地理實體分類和編碼體系的構(gòu)建,提出了以地理學(xué)視角,描述地理實體的語義、位置、幾何、過程、關(guān)系和屬性,提出一個全空間、全信息表述的GIS數(shù)據(jù)模型[4]。成波等根據(jù)全空間信息系統(tǒng)中地理實體基本特征以及存儲管理的需求,提出一種面向地理實體及其關(guān)聯(lián)關(guān)系動態(tài)變化表達的時空數(shù)據(jù)模型。更側(cè)重于表達地理實體的變化過程[5]。地理實體以面向?qū)ο蟮姆椒?對現(xiàn)實世界事物進行語義、空間、時態(tài)、關(guān)系等多方面抽象,其數(shù)據(jù)模型得到了充分發(fā)展。但仍存在一些需要繼續(xù)研究的問題,首先實景三維中大量存在的地理場景是非結(jié)構(gòu)化數(shù)據(jù),需要數(shù)據(jù)模型支持對非結(jié)構(gòu)化數(shù)據(jù)存儲和管理。其次,地理場景的場模型數(shù)據(jù)需要在數(shù)據(jù)治理過程中轉(zhuǎn)化為地理實體的要素對象模型數(shù)據(jù),兩者之間存在普遍聯(lián)系,也需要在數(shù)據(jù)模型中考慮其關(guān)聯(lián)。第三是當前各種物聯(lián)網(wǎng)、互聯(lián)網(wǎng)的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)交錯,其作為實景三維的語義、屬性信息,需要在數(shù)據(jù)模型中支持兩者的有機銜接。
本文提出的實景三維數(shù)據(jù)模型(圖1)需要妥善存儲和管理實景三維中的空間數(shù)據(jù)體即包括地理場景數(shù)據(jù)和地理實體數(shù)據(jù)。由于在邏輯層面經(jīng)過統(tǒng)一設(shè)計,則更容易建立地理場景和地理實體的聯(lián)系,更便于銜接非結(jié)構(gòu)化信息。
空間數(shù)據(jù)體應(yīng)包括基本元數(shù)據(jù)、屬性域、時態(tài)域、空間域以及與空間數(shù)據(jù)體相關(guān)的非結(jié)構(gòu)化數(shù)據(jù)。
(1)基本元數(shù)據(jù),包含空間數(shù)據(jù)體的身份標識、名稱、類別等關(guān)鍵信息。其中,身份標識作為空間數(shù)據(jù)體區(qū)別于其他空間數(shù)據(jù)體的內(nèi)部的唯一標識編碼,并為實體信息共享、數(shù)據(jù)交換、查詢檢索等提供唯一標識。
(2)屬性域,存儲空間數(shù)據(jù)體所攜帶的基本屬性,如地理實體涉及的領(lǐng)域、行業(yè)、主題的相關(guān)屬性信息、地理場景所描述的場景相關(guān)屬性信息等。不同類型的空間數(shù)據(jù)體具有不同的屬性域。
(3)時態(tài)域,存儲空間數(shù)據(jù)體的時態(tài)信息。地理事物的動態(tài)變化可以是離散或連續(xù)的變化,但受到采集頻率、應(yīng)用需要等因素影響,又是以離散變化為主[5]。以空間數(shù)據(jù)體為單位增加時態(tài)域信息,分辨率依據(jù)不同空間數(shù)據(jù)體類型,劃分從百萬年、年、月、日到小時、分、秒、毫秒等,基本能滿足現(xiàn)實世界的時間維度刻畫需求[16]。
時態(tài)域的標記或更新以空間變化或?qū)傩宰兓鳛榭臻g數(shù)據(jù)體變化的標準,當變化條件達成時,記錄前一個狀態(tài)的空間數(shù)據(jù)體結(jié)束時間,并新建一個變化后的空間數(shù)據(jù)體,只記錄其開始時間,變化前空間數(shù)據(jù)體的結(jié)束時間等于變化后空間數(shù)據(jù)體的開始時間。因此在時態(tài)域中,記錄空間數(shù)據(jù)體的開始時間、結(jié)束時間,用以標定空間數(shù)據(jù)體的生命周期。
(4)空間域,存儲空間數(shù)據(jù)體對應(yīng)的空間信息。根據(jù)《地理實體空間數(shù)據(jù)規(guī)范》(GB/T 37118—2018),地理實體的空間信息由圖元承載,一個空間數(shù)據(jù)體可能對應(yīng)多個圖元也可能僅對應(yīng)一個圖元,圖元可在不同地理實體間共用[9]。本文擴展地理場景的空間信息也由圖元承載,因此空間數(shù)據(jù)體的空間域信息是由圖元承載。由于空間數(shù)據(jù)體可以對應(yīng)多個圖元,因此空間域可以關(guān)聯(lián)不同維度、不同角度、不同尺度、不同抽象程度的空間信息。
(5)附件,存儲與空間數(shù)據(jù)體相關(guān)的非結(jié)構(gòu)化數(shù)據(jù),如各種文檔、多媒體數(shù)據(jù)。這些非結(jié)構(gòu)化數(shù)據(jù)不采用互操作手段進行解析,因此不進行內(nèi)容的管理。
圖1 空間數(shù)據(jù)體、圖元數(shù)據(jù)概念模型
地理場景具場模型和要素模型的特征。一方面地理場景作為整體進行采集時,其空間數(shù)據(jù)是連續(xù)的場數(shù)據(jù)模型,另一方面地理場景有地理實體或?qū)ο缶哂械幕驹獢?shù)據(jù)、屬性域、時態(tài)域、空間域和附件信息,可以被認為是一種特殊的實體對象。地理實體的圖元通過整合,可以作為地理場景的空間域信息,增加了地理場景空間信息的多樣性。而地理場景的連續(xù)場模型數(shù)據(jù)通過單體化或語義分割后形成的空間信息也是地理實體空間數(shù)據(jù)的一種來源。
2011年,原國家測繪地理信息局發(fā)布的《地理信息公共服務(wù)平臺地理實體與地名地址數(shù)據(jù)規(guī)范》(CH/Z 9010—2011)首次提出了地理實體定義、地理實體數(shù)據(jù)概念模型、數(shù)據(jù)組織等基本概念。在2018年發(fā)布的《地理實體空間數(shù)據(jù)規(guī)范》(GB/T 37118—2018),進一步細化明確了地理實體的相關(guān)內(nèi)容,如規(guī)定圖元可以共享,基礎(chǔ)地理實體劃分為政區(qū)實體、境界實體、道路實體、鐵路實體、河流實體、湖泊實體、房屋實體、院落實體等。上海市測繪地理信息學(xué)會發(fā)布的《基于地理實體的全息要素采集與建庫》系列團體標準,不僅基于地理實體的全息要素采集、融合、處理進行了規(guī)范,還進一步將地理實體劃分為基礎(chǔ)類、專業(yè)類、綜合類3大門類,17個亞門類,考慮了自然資源、城市管理、應(yīng)急管理、生態(tài)環(huán)境等領(lǐng)域的實體擴展[8-10]。
圖元存儲空間數(shù)據(jù)體所對應(yīng)的空間信息。在二維GIS范疇下,一般是指空間內(nèi)單一、連通和同質(zhì)元素的幾何對象,包括點、線、面。隨著空間數(shù)據(jù)體的空間信息向三維擴展,圖元不局限于二維幾何類型,還包括了模型三維、傾斜三維、點云三維等多種形式[16]。三維形式的圖元應(yīng)根據(jù)應(yīng)用需求考慮是否需要進行內(nèi)容管理,當不需要進行內(nèi)容管理時,圖元不需要對各種三維數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和數(shù)據(jù)進行解析并管理,而是將三維數(shù)據(jù)按數(shù)據(jù)文件的形式進行整體管理;若需要進行內(nèi)容管理,如需要管理到城市部件級的三維數(shù)據(jù),則需要對三維數(shù)據(jù)文件進行解析,并構(gòu)建對應(yīng)的數(shù)據(jù)模型進行內(nèi)容管理(圖2)。
圖2 圖元概念模型
圖元攜帶從空間信息抽取的基礎(chǔ)元數(shù)據(jù),如坐標系統(tǒng)、高程基準、圖元類型。圖元的開始時間是記錄其入庫或生產(chǎn)的起始時間,結(jié)束時間是記錄其失效、邏輯刪除的終止時間。
圖元類型包括二維矢量類型:點、線、面,柵格數(shù)據(jù)類型:數(shù)字高程模型(digital elevation model,DEM)、數(shù)字地表模型(digital surface model,DSM)、數(shù)字正射影像(digital orthophoto map,DOM)、真正射影像( true digital orthophoto map,TDOM),三維數(shù)據(jù)類型:傾斜三維、模型三維、點云三維。細分類型后的圖元繼承基礎(chǔ)圖元的基本屬性。
(1)二維矢量類型圖元。包含圖元對應(yīng)的二維幾何空間數(shù)據(jù)記錄索引,由于二維矢量點、線、面往往以空間要素的形式存儲在空間-關(guān)系型數(shù)據(jù)庫中,因此圖元的空間數(shù)據(jù)記錄索引關(guān)聯(lián)的是空間數(shù)據(jù)庫提供的要素記錄訪問索引。
(2)柵格類型圖元。包含圖元表達柵格數(shù)據(jù)的地面分辨率等從數(shù)據(jù)文件中解析并抽取的元數(shù)據(jù)信息以及其所對應(yīng)的數(shù)據(jù)文件層次結(jié)構(gòu)和索引列表。
(3)傾斜三維類型圖元。傾斜三維圖元表達地理場景時,圖元包含傾斜三維數(shù)據(jù)的分辨率等從數(shù)據(jù)文件中解析抽取的元數(shù)據(jù)信息,傾斜三維所對應(yīng)的數(shù)據(jù)文件層次關(guān)系和索引列表。
傾斜三維圖元表達地理實體時,若采用的物理單體化的方法,則圖元包含單體化后的傾斜三維數(shù)據(jù)的分辨率等從數(shù)據(jù)文件中解析抽取的元數(shù)據(jù)信息、單體化后的數(shù)據(jù)文件層次關(guān)系和索引列表。
傾斜三維圖元表達地理實體采用的是動態(tài)單體化方法時,則圖元還需包含圖元間關(guān)聯(lián)關(guān)系,即傾斜三維圖元與二維矢量類型圖元(基于二維矢量面的單體化)或模型三維類型圖元的關(guān)聯(lián)關(guān)系(基于三維包圍盒的單體化)。
(4)點云三維類型圖元。點云三維圖元可以表達地理場景、單個大尺度地物或通過分類、分割的處理后表達的地理實體,圖元包含從點云三維數(shù)據(jù)文件中解析抽取的元數(shù)據(jù)信息、點云三維數(shù)據(jù)所對應(yīng)的數(shù)據(jù)文件索引列表。
(5)模型三維類型圖元。當模型三維圖元表達地理實體且不管理實體細分內(nèi)容時,圖元包含從模型三維數(shù)據(jù)文件中解析抽取的元數(shù)據(jù)信息、模型三維對應(yīng)的數(shù)據(jù)文件層次關(guān)系和索引列表。
當模型三維圖元表達地理實體且需要管理模型三維數(shù)據(jù)結(jié)構(gòu)和內(nèi)容時,模型三維數(shù)據(jù)要進行結(jié)構(gòu)化解構(gòu),由圖元承載結(jié)構(gòu)中的各空間信息(管理在空間數(shù)據(jù)庫的三維矢量索引或模型部件材質(zhì)文件索引),圖元記錄子圖元身份標識號(identity document,ID),由圖元和子圖元的相互嵌套承載模型三維數(shù)據(jù)的層次結(jié)構(gòu)。
由于地理空間數(shù)據(jù)文件格式往往有專門的數(shù)據(jù)組織結(jié)構(gòu)要求,因此需要采用樹形文檔結(jié)構(gòu)來存儲數(shù)據(jù)文件的層次結(jié)構(gòu)和相對應(yīng)數(shù)據(jù)文件索引。如glTF包含了圖像文件、glTF文件、bin文件3部分,3D Tiles數(shù)據(jù)集則是由一系列Tile組成的樹狀結(jié)構(gòu)[17]。這些樹狀層次結(jié)構(gòu)信息如果丟失,則無法正常使用進行可視化渲染。因此需要在數(shù)據(jù)庫中管理數(shù)據(jù)文件層次結(jié)構(gòu),在圖元的索引中記錄文件夾結(jié)構(gòu)路徑。
地理場景、地理實體以及兩者之間的關(guān)系是對地理世界中地理事物之間關(guān)系的抽象??臻g數(shù)據(jù)體間的關(guān)聯(lián)關(guān)系會隨著時間的變化而變化。時間語義常常蘊含在空間語義和專題語義之中,即時態(tài)語義是隱含在空間上和專題性的關(guān)系[5]。比如,將已失效的土地利用總體規(guī)劃土地用途區(qū)地理單元與當前通過審批的用地報批地理單元進行分析,可以得出兩個空間數(shù)據(jù)體存在空間關(guān)系。但在現(xiàn)實世界的語境中,因為剝離了時間語義,這個關(guān)系是有誤的。在加入時間語義后,兩者的空間相交的關(guān)系不復(fù)存在。
因此,空間數(shù)據(jù)體的關(guān)系主要是在時間語義條件下的空間關(guān)系和屬性關(guān)系。
(1)空間關(guān)系。空間關(guān)系描述的是空間數(shù)據(jù)體在相交的時間區(qū)間內(nèi)空間存在的關(guān)系,包括了順序關(guān)系、度量關(guān)系和拓撲關(guān)系。比如河流實體與其相鄰的水文站之間的空間關(guān)系,局部流域地理場景與場景內(nèi)各地理實體之間的空間關(guān)系。
(2)屬性關(guān)系。屬性關(guān)系描述的是空間數(shù)據(jù)體在相交的時間區(qū)間內(nèi)存在的屬性關(guān)系。比如院落實體與其所屬房屋、構(gòu)筑物、設(shè)施實體、建筑部件之間的分解-組成關(guān)系。
在本文提出的數(shù)據(jù)模型中,依據(jù)應(yīng)用需要,制定關(guān)系抽取規(guī)則(如時空相交),確定關(guān)系謂詞,通過空間數(shù)據(jù)體唯一標識編碼和關(guān)系謂詞存儲空間數(shù)據(jù)體間的各類關(guān)系。
空間數(shù)據(jù)體、屬性域、圖元等主體內(nèi)容在關(guān)系型數(shù)據(jù)庫中組織,附件涉及的非結(jié)構(gòu)化文件、柵格、三維模型涉及的數(shù)據(jù)在NoSQL數(shù)據(jù)庫中組織,圖3是數(shù)據(jù)模型在關(guān)系型數(shù)據(jù)庫中的邏輯表示意。
圖3 數(shù)據(jù)模型邏輯表設(shè)計注:PK為主鍵primary key;FK為外鍵foreign key;UUID為通用唯一識別碼universally unique identifier;varchar為字符類型;date為日期類型;geometry為空間幾何數(shù)據(jù)類型。
考慮到空間數(shù)據(jù)體、圖元數(shù)據(jù)的多模態(tài)、多源特點,結(jié)合數(shù)據(jù)模型設(shè)計,采用開源的非關(guān)系型數(shù)據(jù)庫(not only SQL,NoSQL)文檔型數(shù)據(jù)庫、圖數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫、分布式文件系統(tǒng)存儲的混合存儲模式。
MongoDB是介于關(guān)系數(shù)據(jù)庫和非關(guān)系數(shù)據(jù)庫之間的開源數(shù)據(jù)庫產(chǎn)品,是一個基于分布式文件存儲的開源數(shù)據(jù)庫系統(tǒng)。在高負載的情況下,添加更多的節(jié)點,可以保證服務(wù)器性能。MongoDB 將數(shù)據(jù)存儲為一個文檔,數(shù)據(jù)結(jié)構(gòu)由鍵值對組成。MongoDB 文檔類采用基于JavaScript對象簡譜(JavaScript object notation,JSON)的二進制JSON計算機數(shù)據(jù)格式(binary serialized document format,BSON)方式來描述非結(jié)構(gòu)化數(shù)據(jù)。字段值可以包含其他文檔、數(shù)組及文檔數(shù)組[18]。對空間數(shù)據(jù)體,由于其存在不同的數(shù)據(jù)結(jié)構(gòu),因此可以將其作為一類對象存儲在MongoDB數(shù)據(jù)庫中(圖4)。圖元則作為另一類對象進行存儲。圖元與空間數(shù)據(jù)體通過圖元唯一標識編碼連接。
圖4 空間數(shù)據(jù)體模型與多數(shù)據(jù)庫混合存儲模式
圖元所承載的空間信息形式各異,圖元索引關(guān)聯(lián)的各類空間數(shù)據(jù)信息采用不同的數(shù)據(jù)庫來分別處理:
(1)二維矢量數(shù)據(jù)。通過空間-關(guān)系型數(shù)據(jù)庫PostgreSQL存儲矢量圖形,PostGIS空間數(shù)據(jù)庫引擎是在關(guān)系型數(shù)據(jù)庫PostgreSQL 上的空間數(shù)據(jù)存儲和各種數(shù)據(jù)操作的一個插件。PostGIS 通過 SQL 語句進行數(shù)據(jù)操作,空間對象以表的形式儲存,每個空間幾何實體對應(yīng)數(shù)據(jù)表中的一條記錄,其中記錄了坐標信息和屬性信息,并支持多種開源投影庫。PostGIS 遵循 OpenGIS 規(guī)范,并能提供空間對象、空間索引、空間操作函數(shù)和空間操作符等空間信息服務(wù)功能,能夠較好地支持二維矢量數(shù)據(jù)的存儲和操作;
(2)三維數(shù)據(jù)、柵格數(shù)據(jù)。通過分布式文件系統(tǒng)存儲柵格數(shù)據(jù)、三維數(shù)據(jù)文件,在具體項目實踐中我們采用SeaweedFS作為分布式文件系統(tǒng)的選型。SeaweedFS是一款使用go語言編寫的開源分布式文件系統(tǒng),具有架構(gòu)簡單、高度擴展性、可伸縮特性,分為master和volume兩類節(jié)點,通過Raft算法來保持節(jié)點間的一致性,同時支持中小文件和大文件大的高速存取[18]。柵格數(shù)據(jù)、三維數(shù)據(jù)文件存儲在分布式文件系統(tǒng)中,在上傳和存儲時按數(shù)據(jù)文件要求的層次結(jié)構(gòu)存儲,圖元索引記錄其在分布式文件系統(tǒng)中的絕對路徑,系統(tǒng)通過解析絕對路徑的對應(yīng)前綴找到文件夾和文件夾下的文件組織結(jié)構(gòu)。當模型三維數(shù)據(jù)需要結(jié)構(gòu)化解析和內(nèi)容管理時,PostgreSQL數(shù)據(jù)庫存儲三維模型結(jié)構(gòu)化后對應(yīng)的三維矢量數(shù)據(jù)、屬性數(shù)據(jù)以及三維模型的層次結(jié)構(gòu)。
(3)附件數(shù)據(jù)。采用分布式文件系統(tǒng),實現(xiàn)海量的非結(jié)構(gòu)化數(shù)據(jù)的存儲、管理。
圖5 空間數(shù)據(jù)體及關(guān)系的存儲方式
Neo4j數(shù)據(jù)庫集成了Traversal數(shù)據(jù)遍歷接口及Lucence數(shù)據(jù)索引功能,不僅能以相同速度遍歷所有節(jié)點和邊,而且遍歷速度幾乎不受構(gòu)成圖形的數(shù)據(jù)量影響,通過各種圖論算法,能夠提供多種查詢檢索、挖掘的能力。通過Neo4j圖數(shù)據(jù)庫進行空間數(shù)據(jù)體和關(guān)系的存儲和組織,由圖數(shù)據(jù)庫的節(jié)點存儲空間數(shù)據(jù)體唯一標識編碼和抽取的必要信息(概要實體),節(jié)點關(guān)系邊記錄關(guān)系謂詞。
該數(shù)據(jù)模型已經(jīng)在國土空間基礎(chǔ)信息平臺、城市地質(zhì)大數(shù)據(jù)云平臺等相關(guān)項目建設(shè)中進行了實踐應(yīng)用。以河南省某市為例,通過多類型分布式數(shù)據(jù)庫的建設(shè),利用空間數(shù)據(jù)體模型來組織數(shù)據(jù),初步接入數(shù)據(jù)量達到600T,不僅包括了傳統(tǒng)的文件型數(shù)據(jù),還有效地管理了物聯(lián)網(wǎng)數(shù)據(jù),實現(xiàn)了對多源異構(gòu)數(shù)據(jù)的匯聚、管理、更新、應(yīng)用。其主要優(yōu)勢及特點如下:
(1)實現(xiàn)了海量、多源異構(gòu)數(shù)據(jù)的匯聚。充分發(fā)揮多類型分布式數(shù)據(jù)庫的優(yōu)勢,對海量、多源異構(gòu)數(shù)據(jù)進行有機存儲,解決單一數(shù)據(jù)庫管理難度大、數(shù)據(jù)間缺少聯(lián)系的問題。
(2)數(shù)據(jù)更新。引入時態(tài)域的概念,通過數(shù)據(jù)模型各域之間的關(guān)聯(lián)性,能夠更好地對數(shù)據(jù)進行更新,解決了數(shù)據(jù)增長速度快,無法及時更新的難題。
當然在具體應(yīng)用中也存在一些問題需要進一步研究和改進:
(1)數(shù)據(jù)模型僅能解決基礎(chǔ)的數(shù)據(jù)管理問題,還無法解決數(shù)據(jù)的多角度特征描述、全流程管控等問題,需要研究并增加數(shù)據(jù)標簽、數(shù)據(jù)血緣等機制。
(2)數(shù)據(jù)模型解決了地理場景數(shù)據(jù)組織問題,但由于三維數(shù)據(jù)量大,需要解決大、小文件的優(yōu)化存儲、大數(shù)據(jù)的高效調(diào)用問題。
(3)當前對于地理場景、地理實體關(guān)系的研究還很基礎(chǔ),僅能通過專家規(guī)則提取有限的關(guān)系,后續(xù)還需要研究多種關(guān)系的抽象、抽取規(guī)則、謂詞定義等。
(4)模型缺乏對地理場景、地理實體的多顆粒度抽象,當前僅根據(jù)某一業(yè)務(wù)場景確定固定的抽象粒度,后續(xù)還需要進一步研究。
本文結(jié)合實景三維中國具體建設(shè)應(yīng)用需要,在原有地理實體數(shù)據(jù)模型基礎(chǔ)上提出了能夠集成多源異構(gòu)空間數(shù)據(jù)的數(shù)據(jù)模型,擴展了“三域”標識,增加非結(jié)構(gòu)化數(shù)據(jù)索引,并探討了基于空間數(shù)據(jù)體數(shù)據(jù)模型的關(guān)系組織方案。下一步還需要對三維空間數(shù)據(jù)的結(jié)構(gòu)化組織和管理,空間數(shù)據(jù)體之間的關(guān)系定義、抽取、組織,數(shù)據(jù)標簽,數(shù)據(jù)血緣,實體的多顆粒度抽象等方面進行更為深入的研究,更好地滿足各類大數(shù)據(jù)挖掘、應(yīng)用的需求。