劉小春,華一新,鄭 剛,侯一凡
(1.信息工程大學(xué),河南 鄭州 450052;2.河南藝術(shù)職業(yè)學(xué)院,河南 鄭州 450002)
面向服務(wù)的分級地理空間數(shù)據(jù)中心框架的構(gòu)建
劉小春1,華一新1,鄭 剛2,侯一凡1
(1.信息工程大學(xué),河南 鄭州 450052;2.河南藝術(shù)職業(yè)學(xué)院,河南 鄭州 450002)
分級地理空間數(shù)據(jù)中心是全國范圍地理空間數(shù)據(jù)中心建設(shè)與發(fā)展的核心工程,文中探討建設(shè)面向服務(wù)的分級數(shù)據(jù)中心軟硬件環(huán)境、關(guān)鍵技術(shù)以及數(shù)據(jù)分布存儲模式。此方案實現(xiàn)了數(shù)據(jù)中心分布存儲管理數(shù)據(jù),有效利用對象關(guān)系數(shù)據(jù)庫的ACID特性,為多源異構(gòu)海量空間數(shù)據(jù)的集成共享提供了一個思路。
地理空間數(shù)據(jù)中心;服務(wù)框架;數(shù)據(jù)交換;數(shù)據(jù)質(zhì)量管理
隨著地理信息技術(shù)的廣泛應(yīng)用,已經(jīng)從傳統(tǒng)的土地利用、城市規(guī)劃、測繪、減災(zāi)、環(huán)保、電信、電力等領(lǐng)域滲透到礦產(chǎn)資源調(diào)查、海洋資源管理、電子商務(wù)等各個方面,帶來了巨大的經(jīng)濟效益和社會效益。地理空間數(shù)據(jù)又為其他行業(yè)提供了大量基礎(chǔ)數(shù)據(jù),地理空間數(shù)據(jù)的有效管理極為重要。
由于地理空間數(shù)據(jù)存在數(shù)據(jù)源異構(gòu)性、空間分布性、結(jié)構(gòu)復(fù)雜性、信息載體多樣性、數(shù)據(jù)量巨大、操作運算量大、數(shù)據(jù)共享難度大等許多特點,隨著地理空間數(shù)據(jù)越來越廣泛地得到應(yīng)用,越來越需要通過數(shù)據(jù)中心集中管理地理空間數(shù)據(jù),實現(xiàn)地理空間數(shù)據(jù)有序流動,以使數(shù)據(jù)產(chǎn)生更大的社會效益。
因此,研究如何利用地理空間數(shù)據(jù)中心對異構(gòu)地理空間數(shù)據(jù)進行管理,在各級數(shù)據(jù)中心間實現(xiàn)數(shù)據(jù)共享和交換,并提供地理空間服務(wù),為各類業(yè)務(wù)和服務(wù)系統(tǒng)提供數(shù)據(jù)支撐具有重要的意義[1]。
數(shù)據(jù)中心的建設(shè)應(yīng)該基于模塊化、松耦合的方式,采用分層建設(shè)、模塊建設(shè)、用戶透明的方式進行。數(shù)據(jù)中心要考慮面向不同用戶的服務(wù),通過訂閱/分發(fā)服務(wù),使各類用戶了解數(shù)據(jù)、使用數(shù)據(jù)。
本文著重從服務(wù)的角度,研究分級地理空間數(shù)據(jù)中心框架結(jié)構(gòu)。
地理空間數(shù)據(jù)中心是以各類地理空間數(shù)據(jù)為核心,依托現(xiàn)成熟的對象關(guān)系數(shù)據(jù)庫技術(shù)、GIS技術(shù)、網(wǎng)絡(luò)技術(shù)、存儲技術(shù)等,按照全局的統(tǒng)一標(biāo)準(zhǔn),建立數(shù)據(jù)管理、查詢、統(tǒng)計、交換、備份、分析及服務(wù)的一體化數(shù)據(jù)管理體系。它可為各級服務(wù)系統(tǒng)、業(yè)務(wù)系統(tǒng)提供數(shù)據(jù)支持,提供共享、交換、安全機制。
1)通過建設(shè)分級地理空間數(shù)據(jù)中心,實現(xiàn)地理空間數(shù)據(jù)的按級集中管理[2]。各級數(shù)據(jù)中心應(yīng)提供統(tǒng)一的數(shù)據(jù)服務(wù),有利于為用戶提供易用、豐富的數(shù)據(jù)服務(wù)。地理空間數(shù)據(jù)的分級管理,有利于根據(jù)隸屬關(guān)系和業(yè)務(wù)關(guān)系來建立,但是分級要具備科學(xué)性和有序性。各級地理空間數(shù)據(jù)中心的基本架構(gòu)如圖1所示,各級數(shù)據(jù)中心之間可以有網(wǎng)絡(luò)連接,也可以沒有網(wǎng)絡(luò)連接。
圖1 數(shù)據(jù)中心建設(shè)軟硬件環(huán)境
各級數(shù)據(jù)中心應(yīng)在基本設(shè)施建設(shè)的基礎(chǔ)上,建立軟件環(huán)境,為地理空間元數(shù)據(jù)庫、基礎(chǔ)數(shù)據(jù)庫、地理空間數(shù)據(jù)庫等多個數(shù)據(jù)庫服務(wù)器提供數(shù)據(jù)存儲,通過基礎(chǔ)服務(wù)提供構(gòu)件服務(wù)平臺,為地理空間應(yīng)用提供支撐。數(shù)據(jù)中心的數(shù)據(jù)管理系統(tǒng)是以大型空間數(shù)據(jù)庫作為后臺的數(shù)據(jù)庫管理平臺,將通過各種方式獲取的數(shù)據(jù)整理入庫、存儲,完成各類矢量數(shù)據(jù)、影像數(shù)據(jù)、多媒體數(shù)據(jù)以及DEM數(shù)據(jù)的入庫工作,可通過數(shù)據(jù)管理系統(tǒng)實現(xiàn)對數(shù)據(jù)的維護管理,如數(shù)據(jù)查詢、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分發(fā)、數(shù)據(jù)卸載、數(shù)據(jù)備份、數(shù)據(jù)恢復(fù)、用戶管理等功能。
2)數(shù)據(jù)標(biāo)準(zhǔn)是數(shù)據(jù)中心實現(xiàn)數(shù)據(jù)服務(wù)的前提和關(guān)鍵[3]??臻g數(shù)據(jù)具有天然的多源異構(gòu)性,在直接使用模式、轉(zhuǎn)換后使用、元數(shù)據(jù)模式等多種解決方法中,在數(shù)據(jù)中心主要采用數(shù)據(jù)轉(zhuǎn)換、基于元數(shù)據(jù)的解決方案和基于SOA構(gòu)架屏蔽數(shù)據(jù)的多源性,解決多源異構(gòu)的問題也是解決數(shù)據(jù)集中分布存儲管理的最根本問題。
在數(shù)據(jù)庫領(lǐng)域,元數(shù)據(jù)被描述為數(shù)據(jù)及其環(huán)境的數(shù)據(jù);在地理信息領(lǐng)域,地理空間元數(shù)據(jù)是在地理信息中描述地理數(shù)據(jù)集的內(nèi)容、管理方式、質(zhì)量、空間參考、表示方式以及其它特征的數(shù)據(jù)。它能夠幫助數(shù)據(jù)生產(chǎn)者完整地描述數(shù)據(jù)集,讓用戶能夠了解數(shù)據(jù)的內(nèi)容、假設(shè)和限制。通過元數(shù)據(jù)對地理空間數(shù)據(jù)的內(nèi)容、條件、質(zhì)量和其他特征進行描述與說明,可讓用戶有效地定位、比較、評價、使用地理相關(guān)數(shù)據(jù),并評估數(shù)據(jù)對特定應(yīng)用目的的可用性,元數(shù)據(jù)庫訪問模式是異構(gòu)地理數(shù)據(jù)共享與應(yīng)用的重要方法和手段[4]。
但是由于各數(shù)據(jù)源使用的數(shù)據(jù)庫管理系統(tǒng)和元數(shù)據(jù)的標(biāo)準(zhǔn)各不相同,地理空間數(shù)據(jù)會在描述方法和語義上存在沖突,相互兼容性很差。因此在數(shù)據(jù)中心的數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)中,需要研究一個公共元數(shù)據(jù)標(biāo)準(zhǔn)對各數(shù)據(jù)源的元數(shù)據(jù)進行統(tǒng)一的描述,便于使多源異構(gòu)數(shù)據(jù)能在數(shù)據(jù)中心統(tǒng)一的框架下進行管理使用,還需要考慮公共元數(shù)據(jù)標(biāo)準(zhǔn)的自動更新技術(shù)。
按照公共元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,對系統(tǒng)內(nèi)地理空間數(shù)據(jù)進行集中統(tǒng)一、安全可靠的存儲與管理,構(gòu)建統(tǒng)一的數(shù)據(jù)資源環(huán)境,達到數(shù)據(jù)共享的目的;通過搭建SOA面向服務(wù)體系架構(gòu),實現(xiàn)系統(tǒng)的“松耦合”結(jié)構(gòu),實現(xiàn)分級地理空間數(shù)據(jù)中心基于標(biāo)準(zhǔn)、統(tǒng)一、開放和具備良好可生長性的應(yīng)用支撐體系。
2.1 海量數(shù)據(jù)分布存儲技術(shù)
海量的地理空間數(shù)據(jù)需要功能強大的服務(wù)器對數(shù)據(jù)進行組織和存儲,單一的數(shù)據(jù)庫服務(wù)器因效能瓶頸、存儲瓶頸、冗災(zāi)瓶頸等問題難以解決海量數(shù)據(jù)的存儲問題。Google公司采用分布式文件系統(tǒng)存儲海量的網(wǎng)絡(luò)數(shù)據(jù),GFS用于底層數(shù)據(jù)存儲的分布式文件系統(tǒng),Bigtable是運行在GFS上實現(xiàn)對海量數(shù)據(jù)的結(jié)構(gòu)化管理,這種方法實現(xiàn)了普通微機組成集群管理PB級的數(shù)據(jù)。還有Hbase和Hypertable系統(tǒng)都參考了Bigtable數(shù)據(jù)模型[5]。
但數(shù)據(jù)庫系統(tǒng)要求的ACID特性在Bigtable等數(shù)據(jù)模型中不易于實現(xiàn),在數(shù)據(jù)分布存儲時可能導(dǎo)致部分操作性能低下,如連接查詢操作[6]。為了既能使用對象關(guān)系型數(shù)據(jù)庫存儲數(shù)據(jù)的優(yōu)點,又能利用云計算類Bigtable數(shù)據(jù)模型在擴展性等方面的好處。數(shù)據(jù)中心在數(shù)據(jù)分布存儲時,可采用基于地域分布、基于版本分布、基于查詢關(guān)聯(lián)分布、基于磁盤容量分布等多種策略,實現(xiàn)數(shù)據(jù)存儲分布均衡,提高系統(tǒng)總體性能,數(shù)據(jù)中心基本存儲模式如圖2所示。
圖2 數(shù)據(jù)分布存儲模式
數(shù)據(jù)分布存儲主要包含6層,分別是客戶層、主控層、應(yīng)用服務(wù)層、數(shù)據(jù)層、系統(tǒng)層和硬件層。主控服務(wù)器的設(shè)計參考Bigtable中對主服務(wù)器Master的功能設(shè)計,來減弱成為瓶頸的可能,主控服務(wù)器主要是進行用戶權(quán)限管理、數(shù)據(jù)存儲管理以及向客戶端提供數(shù)據(jù)層數(shù)據(jù)分布的情況,并且動態(tài)調(diào)整數(shù)據(jù)分布,以改善系統(tǒng)訪問性能和分布數(shù)據(jù)庫服務(wù)器數(shù)據(jù)存儲的分布均衡性,客戶端從主控服務(wù)器獲取需要存取的數(shù)據(jù)分布情況及元數(shù)據(jù)服務(wù)器位置后,就可以直接訪問Oracle數(shù)據(jù)庫服務(wù)器。客戶端也可以通過主控服務(wù)器訪問應(yīng)用服務(wù)器查詢系統(tǒng)提供的服務(wù)和使用服務(wù),地圖服務(wù)器通過應(yīng)用服務(wù)器或者通過服務(wù)提供地圖數(shù)據(jù)服務(wù)、查詢服務(wù)、分析服務(wù)和專題服務(wù)等,注冊服務(wù)器提供服務(wù)注冊,注冊的服務(wù)通過應(yīng)用服務(wù)器提供給用戶訪問。
通過主控服務(wù)器來訪問數(shù)據(jù)庫服務(wù)器和使用成熟的對象關(guān)系數(shù)據(jù)庫管理數(shù)據(jù)的方式,實現(xiàn)對數(shù)據(jù)的分布存儲的有效管理,實現(xiàn)了數(shù)據(jù)的動態(tài)分布存儲,也很好地利用了數(shù)據(jù)庫的ACID特性;通過這種數(shù)據(jù)和服務(wù)管理模式,既給客戶端提供了統(tǒng)一的服務(wù)接口,實現(xiàn)了統(tǒng)一的SOA體系架構(gòu)。服務(wù)器端根據(jù)負(fù)載情況可以動態(tài)調(diào)整數(shù)據(jù)分布,數(shù)據(jù)的分布情況對客戶端的訪問是透明的,實現(xiàn)了數(shù)據(jù)粗粒度、松耦合的分布存儲方式。
2.2 數(shù)據(jù)交換技術(shù)
數(shù)據(jù)交換技術(shù)主要是實現(xiàn)數(shù)據(jù)中心共享平臺與各類用戶以及數(shù)據(jù)中心間的數(shù)據(jù)共享和交換。用戶在一定權(quán)限內(nèi)可以下載服務(wù)器上的相關(guān)數(shù)據(jù),也可以上傳數(shù)據(jù)到服務(wù)器的指定位置,由管理員進行管理。數(shù)據(jù)交換支持?jǐn)?shù)據(jù)入庫、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分發(fā)等功能,這是數(shù)據(jù)庫管理子系統(tǒng)的主要功能,系統(tǒng)要實現(xiàn)符合元數(shù)據(jù)標(biāo)準(zhǔn)的交換數(shù)據(jù)格式、系統(tǒng)內(nèi)部格式以及可轉(zhuǎn)換格式數(shù)據(jù)的入庫和數(shù)據(jù)分發(fā)功能。
數(shù)據(jù)交換時,如在數(shù)據(jù)入庫過程中,不僅要能將數(shù)據(jù)入庫,還要能保持?jǐn)?shù)據(jù)中心目標(biāo)庫的正確性、一致性,入庫數(shù)據(jù)的正確性和一致性可以通過對擬入庫的數(shù)據(jù)通過兩類檢查、兩次入庫的方式進行入庫來保證,兩類檢查指結(jié)構(gòu)檢查和語義檢查,兩次入庫指入臨時庫和入目標(biāo)庫,交換格式入庫的實現(xiàn)流程如圖3所示。
圖3 數(shù)據(jù)入庫流程
2.3 數(shù)據(jù)質(zhì)量管理技術(shù)
數(shù)據(jù)質(zhì)量檢查是數(shù)據(jù)中心提供數(shù)據(jù)服務(wù)的必要環(huán)節(jié),數(shù)據(jù)質(zhì)量檢查也是一個復(fù)雜的工程。目前數(shù)據(jù)中心數(shù)據(jù)規(guī)模在擴大,更新數(shù)據(jù)也在加快,造成空間數(shù)據(jù)質(zhì)量問題的原因是多方面的,主要有不同的GIS平臺、不同的空間數(shù)據(jù)組織和表示形式、不同的采集精度等。數(shù)據(jù)質(zhì)量的好壞是地理信息數(shù)據(jù)中心建設(shè)成敗的關(guān)鍵,它直接影響著應(yīng)用分析結(jié)果的可靠程度和應(yīng)用目標(biāo)的真正實現(xiàn)。數(shù)據(jù)中心要能通過目標(biāo)庫抽樣檢查、入庫檢查、打分模型等手段對數(shù)據(jù)的幾何精度、空間關(guān)系檢查、數(shù)據(jù)完整性、數(shù)據(jù)一致性、數(shù)據(jù)項類型與格式等方面進行檢查,確保數(shù)據(jù)的正確性和一致性。檢查結(jié)果可以分類形成檢查報告,如圖4是基于元數(shù)據(jù)對入庫數(shù)據(jù)結(jié)構(gòu)檢查的檢查報告。
圖4 基于元數(shù)據(jù)的入庫質(zhì)量檢查報告
2.4 數(shù)據(jù)查詢模式
數(shù)據(jù)中心應(yīng)在數(shù)據(jù)基礎(chǔ)上建立針對不同用戶、不同業(yè)務(wù)的查詢服務(wù)模式,有利于提高數(shù)據(jù)的安全性和可訪問性,這也可以對用戶屏蔽數(shù)據(jù)中心數(shù)據(jù)的多源性。通過開發(fā)一整套可視化服務(wù),實現(xiàn)直觀顯示空間數(shù)據(jù),用戶可以很方便地以交互方式管理和使用數(shù)據(jù)。
數(shù)據(jù)管理系統(tǒng)通過實現(xiàn)對各子庫及整個地理空間數(shù)據(jù)庫的查詢檢索功能,提供按照地點、名稱、單位等進行精確和模糊查詢,按照空間范圍進行查詢,按照組合條件進行查詢,基于元數(shù)據(jù)的數(shù)據(jù)檢索以及對文檔資料數(shù)據(jù)的全文檢索。通過建立多種立體數(shù)據(jù)觀察模式,提供層次報表的數(shù)據(jù)觀察方式,可以將屬性表數(shù)據(jù)按照屬性數(shù)據(jù)本身的層次歸類關(guān)系,按照層次的形式展現(xiàn)出來,提供直觀的數(shù)據(jù)報表顯示格式,并通過時空數(shù)據(jù)、多版本數(shù)據(jù)進行立體顯示,提供顯示模式存儲功能,將常用顯示模式存儲下來,使常用的顯示模式作為服務(wù)可以永久保存,方便使用。
2.5 數(shù)據(jù)安全審計技術(shù)
數(shù)據(jù)中心的數(shù)據(jù)安全十分重要,一是通過建立安全的數(shù)據(jù)軟硬件環(huán)境,主要有網(wǎng)絡(luò)安全、人員安全、操作系統(tǒng)安全、用戶認(rèn)證和授權(quán),更為重要的是要能通過安全審計,審計用戶行為。如審計用戶訪問時間及訪問數(shù)據(jù)范圍,審計用戶多次嘗試訪問的非法授權(quán)空間,審計數(shù)據(jù)庫更新記錄等。對于地理空間數(shù)據(jù)中心,要能在原有關(guān)系數(shù)據(jù)庫的表和字段授權(quán)機制的基礎(chǔ)上,建立多比例尺下、多版本下、分布數(shù)據(jù)下基于空間描述和語義描述的授權(quán)機制,更加有利于設(shè)置對空間數(shù)據(jù)的訪問控制。比如限制某個用戶僅能訪問1∶25萬和1∶50萬比例尺某時間段的河南地區(qū)的公路層和河流層的空間數(shù)據(jù),還可以建立用戶瀏覽數(shù)據(jù)顯示模式的限制等。如圖5是按照時間段和操作種類審計用戶SQL操作行為。
圖5 數(shù)據(jù)SQL操作審計
分級建立地理空間數(shù)據(jù)中心,有利于推進地理空間數(shù)據(jù)工程建設(shè),提高數(shù)據(jù)使用的效益,有利于建立數(shù)據(jù)共享服務(wù)環(huán)境,但是在如何發(fā)揮虛擬化、云計算以及對象關(guān)系數(shù)據(jù)庫優(yōu)勢,實現(xiàn)“虛擬化、自動化、安全可靠、綠色節(jié)能和規(guī)?;钡男乱淮鷶?shù)據(jù)中心[7]還需要進行深入的研究和不斷探索。建設(shè)地理空間數(shù)據(jù)中心是一個系統(tǒng)長期的工程,數(shù)據(jù)中心的建設(shè)在很大程度上解決了數(shù)據(jù)集成和數(shù)據(jù)共享的問題,實現(xiàn)地理空間數(shù)據(jù)與服務(wù)一體化,最大程度利用數(shù)據(jù)并共享數(shù)據(jù)。
[1]徐世武,謝忠,黃志超.分布式異構(gòu)多級空間數(shù)據(jù)中心的研究與設(shè)計[J].地球科學(xué)-中國地質(zhì)大學(xué)學(xué)報,2006,31(5):624-629.
[2]甘郝新,陳曉武,舒強.水利數(shù)據(jù)中心框架設(shè)計初探[J].人民珠江,2011,32(6):61-63.
[3]朱明東,郭芝.基于數(shù)據(jù)中心的數(shù)據(jù)共享服務(wù)體系研究[J].指揮信息系統(tǒng)與技術(shù),2010,1(3):18-22.
[4]黃鼎成,郭增艷.科學(xué)數(shù)據(jù)共享管理研究[M].北京:中國科學(xué)技術(shù)出版社,2002.
[5]鄭付聯(lián).Hypertable:BigTable的高性能實現(xiàn)[J].程序員,2011(11):98-101.
[6]文明波,丁治明.適用于云計算的面向查詢數(shù)據(jù)庫數(shù)據(jù)分布策略[J].計算機科學(xué),2010,37(9):168-172.
[7]韋海亮,周浩杰.基于云計算的新一代數(shù)據(jù)中心[J].高性能計算技術(shù),2011(1):15-20.
[責(zé)任編輯:張德福]
Serviceorientedhierarchicalgeographicspatialdatacenterframe
LIU Xiao-chun1,HUA Yi-xin1,ZHENG Gang2,HOU Yi-fan1
(1.Information Engineering University,Zhengzhou 450052,China;2.He’nan Art Occupation College,Zhengzhou 450002,China)
Hierarchical geographic spatial data center is the core project of national geographic spatial data center construction and development. The software and hardware environment of service oriented hierarchical data center construction,the key technologies and distributed data storage mode are presented, for which can realize the distributed storage management on data. The use of object relational database ACID features will be effective, and the multi-source heterogeneous massive spatial data integration sharing will be provided with a train of thought.
geographic spatial data center;service frame;data switching;data quality manage ment
2012-10-15
國家自然科學(xué)基金資助項目(41001313)
劉小春(1974-),男,講師.
P208;TP311
:B
:1006-7949(2014)01-0057-04