季 艷,魯克文,張英慧
1.北京市遙感信息研究所,北京 100192 2.中國(guó)電子科技集團(tuán)公司 第十五研究所,北京 100083
海量遙感數(shù)據(jù)分布式集群化存儲(chǔ)技術(shù)研究*
季 艷1+,魯克文2,張英慧1
1.北京市遙感信息研究所,北京 100192 2.中國(guó)電子科技集團(tuán)公司 第十五研究所,北京 100083
針對(duì)當(dāng)前高分辨率遙感數(shù)據(jù)的高效存儲(chǔ)與高速訪問(wèn)迫切需求,采用分布式架構(gòu)、對(duì)象存儲(chǔ)和集群技術(shù),結(jié)合遙感數(shù)據(jù)的空間特性,構(gòu)建了基于數(shù)據(jù)對(duì)象的存儲(chǔ)組織模型,設(shè)計(jì)了全分布式的存儲(chǔ)管理架構(gòu);形成了邏輯上全球覆蓋,物理上分散存儲(chǔ),全球遙感數(shù)據(jù)存儲(chǔ)視圖一體化,數(shù)據(jù)高效共享的分布式集群化遙感大數(shù)據(jù)存儲(chǔ)體系。通過(guò)使用此架構(gòu),可實(shí)現(xiàn)遙感數(shù)據(jù)資源配置的靈活化,業(yè)務(wù)區(qū)域化特征的定制化與個(gè)性化,以及管理系統(tǒng)的智能化。
遙感數(shù)據(jù);高性能存儲(chǔ);分布式集群化;對(duì)象存儲(chǔ)
目前,高分辨率遙感影像數(shù)據(jù)已經(jīng)成為土地監(jiān)測(cè)、環(huán)境監(jiān)測(cè)、植被、水體、農(nóng)業(yè)和大氣研究、地質(zhì)災(zāi)害調(diào)查、軍事國(guó)防等領(lǐng)域的重要基礎(chǔ)資料[1]。隨著高分辨率傳感器技術(shù)的飛速發(fā)展,高分辨率遙感影像數(shù)據(jù)量呈幾何級(jí)數(shù)增長(zhǎng),數(shù)據(jù)存儲(chǔ)需求具有海量、多源、多尺寸、高并發(fā)等特點(diǎn)[2]。其中2011年上半年發(fā)射的資源三號(hào)衛(wèi)星,可提供空間分辨率為2.5 m全色波段、10 m多光譜等影像數(shù)據(jù)[3],每天需要接收和存儲(chǔ)的遙感數(shù)據(jù)達(dá)1.79 TB。并且隨著高分辨率遙感影像應(yīng)用的不斷深入和發(fā)展,大規(guī)模數(shù)據(jù)密集型及計(jì)算密集型遙感業(yè)務(wù)應(yīng)用需求也不斷出現(xiàn),如何將現(xiàn)有“獨(dú)立存儲(chǔ)、分散管理”的遙感影像數(shù)據(jù)[4],通過(guò)合適的存儲(chǔ)模型和架構(gòu)有效地“分布式存儲(chǔ)、邏輯集中管理”成為急需解決的問(wèn)題。因此,如何有效地組織存儲(chǔ)海量高分辨率遙感影像數(shù)據(jù),并設(shè)計(jì)符合遙感應(yīng)用數(shù)據(jù)訪問(wèn)特點(diǎn)的存儲(chǔ)管理架構(gòu),是當(dāng)前高分辨遙感領(lǐng)域迫切需要研究的問(wèn)題之一。
目前,海量遙感數(shù)據(jù)存儲(chǔ)技術(shù)手段主要有支持大尺寸數(shù)據(jù)類型的傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)、基于關(guān)系數(shù)據(jù)庫(kù)的空間數(shù)據(jù)中間件、網(wǎng)絡(luò)附屬存儲(chǔ)(network attached storage,NAS)、存儲(chǔ)域網(wǎng)絡(luò)(storage area network,SAN)等網(wǎng)絡(luò)存儲(chǔ)、分布式文件系統(tǒng)等方式。
主要利用某些關(guān)系型數(shù)據(jù)庫(kù)支持大尺寸數(shù)據(jù)類型這一特點(diǎn)來(lái)存儲(chǔ)遙感數(shù)據(jù)。例如常見(jiàn)的BLOB、CLOB或DBCLOB數(shù)據(jù)類型,都可以存儲(chǔ)較大容量的遙感影像數(shù)據(jù)[5]。另外,微軟的SQL Server 2008還專門提供了Geography和Geometry空間數(shù)據(jù)類型,能夠支持不同種類矢量地理元素的存儲(chǔ)。
利用已有的關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行遙感數(shù)據(jù)存儲(chǔ)的最大優(yōu)勢(shì)是可以最大化復(fù)用成熟的數(shù)據(jù)庫(kù)管理技術(shù),顯著降低系統(tǒng)和應(yīng)用的開(kāi)發(fā)難度。但是其缺點(diǎn)也顯而易見(jiàn),遙感影像數(shù)據(jù)是一種非結(jié)構(gòu)化數(shù)據(jù),而且單體的容量較大,傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)對(duì)其支持有限,存儲(chǔ)限制較多,性能瓶頸問(wèn)題突出,高分辨率遙感數(shù)據(jù)的容量更是遠(yuǎn)超其承受范圍。
主要的代表是Oracle公司的Oracle Spatial空間數(shù)據(jù)庫(kù)管理引擎以及ERSI公司的ArcSDE空間數(shù)據(jù)管理中間件。Oracle Spatial能夠?qū)⑺械牡乩砜臻g數(shù)據(jù)類型(網(wǎng)絡(luò)、拓?fù)洹⒕W(wǎng)格、矢量、柵格、影像)統(tǒng)一在標(biāo)準(zhǔn)的關(guān)系數(shù)據(jù)庫(kù)中進(jìn)行存儲(chǔ),并提供統(tǒng)一的數(shù)據(jù)管理接口,極大地減少了管理的成本、復(fù)雜性和開(kāi)銷[6]。ArcSDE為關(guān)系數(shù)據(jù)庫(kù)提供了一個(gè)統(tǒng)一的開(kāi)放接口,允許在Oracle,Microsoft SQL Server等不同的數(shù)據(jù)庫(kù)平臺(tái)存儲(chǔ)并管理空間數(shù)據(jù)信息。
利用空間數(shù)據(jù)中間件進(jìn)行遙感數(shù)據(jù)存儲(chǔ)的優(yōu)勢(shì)是不但能夠使用已有成熟的關(guān)系數(shù)據(jù)庫(kù)解決方案,而且其針對(duì)遙感影像特點(diǎn)設(shè)計(jì),提供統(tǒng)一的數(shù)據(jù)訪問(wèn)接口,方便上層應(yīng)用的開(kāi)發(fā),有效地減少了相應(yīng)的工作量。但是采用此技術(shù)同樣會(huì)受制于關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)的存儲(chǔ)管理能力,由于增加了中間層,性能瓶頸更加突出。
NAS、SAN是為了解決單臺(tái)存儲(chǔ)設(shè)備容量極限問(wèn)題,經(jīng)常使用的通用海量數(shù)據(jù)存儲(chǔ)方案。其能夠?qū)⒍鄠€(gè)容量相對(duì)較小的存儲(chǔ)節(jié)點(diǎn),整合為大型、集中化管理的數(shù)據(jù)存儲(chǔ)服務(wù)器,通過(guò)網(wǎng)絡(luò)向其他服務(wù)器和應(yīng)用提供存儲(chǔ)服務(wù)。
利用NAS、SAN進(jìn)行遙感數(shù)據(jù)存儲(chǔ)的優(yōu)勢(shì)是存儲(chǔ)容量大,數(shù)據(jù)傳輸速度快,架構(gòu)簡(jiǎn)單,部署容易。但是面對(duì)海量遙感數(shù)據(jù)時(shí),其存儲(chǔ)容量很快達(dá)到瓶頸,而且沒(méi)有很好的數(shù)據(jù)組織和訪問(wèn)手段,數(shù)據(jù)傳輸帶寬和訪問(wèn)速度均無(wú)法很好地適應(yīng)海量數(shù)據(jù)訪問(wèn)的情況。
分布式文件系統(tǒng)是通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)將物理分散的大量存儲(chǔ)服務(wù)節(jié)點(diǎn)聯(lián)系在一起,構(gòu)建邏輯上統(tǒng)一的存儲(chǔ)空間的中間件。分布式文件系統(tǒng)可以將遙感影像數(shù)據(jù)分別存儲(chǔ)在各個(gè)節(jié)點(diǎn)上,通過(guò)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)的傳輸和共享[7]。
利用分布式文件系統(tǒng)進(jìn)行遙感數(shù)據(jù)存儲(chǔ)的優(yōu)勢(shì)是不用采購(gòu)價(jià)格較貴的關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng),降低了系統(tǒng)開(kāi)發(fā)成本,并且多數(shù)分布式文件系統(tǒng)能夠友好存儲(chǔ)遙感影像數(shù)據(jù),容量能夠水平擴(kuò)展,支持高并發(fā)訪問(wèn),網(wǎng)絡(luò)瓶頸問(wèn)題可以通過(guò)簡(jiǎn)單升級(jí)網(wǎng)絡(luò)帶寬加以解決。但是分布式文件系統(tǒng)較多面向通用文件存儲(chǔ)領(lǐng)域[8],使用常用的文件組織方式存儲(chǔ)遙感數(shù)據(jù),效率不能很好地發(fā)揮,而且其數(shù)據(jù)檢索不是根據(jù)遙感數(shù)據(jù)特點(diǎn)定制,數(shù)據(jù)訪問(wèn)延遲會(huì)隨數(shù)據(jù)存儲(chǔ)量的巨量增長(zhǎng)而有較大增加[9]。
目前,流行的遙感影像數(shù)據(jù)存儲(chǔ)架構(gòu)主要包括集中式文件存儲(chǔ)、分布式數(shù)據(jù)庫(kù)以及分布式文件系統(tǒng)3種存儲(chǔ)架構(gòu)。
如圖1所示,集中式文件存儲(chǔ)架構(gòu)將所有的遙感影像數(shù)據(jù)都保存在一個(gè)中心存儲(chǔ)服務(wù)器,并且通過(guò)上層的文件系統(tǒng)對(duì)這些影像文件進(jìn)行管理。
Fig.1 Architecture of centralized file storage圖1 集中式文件存儲(chǔ)架構(gòu)
因?yàn)檫b感影像數(shù)據(jù)是非結(jié)構(gòu)化的數(shù)據(jù),不適合使用關(guān)系數(shù)據(jù)庫(kù)來(lái)存儲(chǔ),所以中心存儲(chǔ)服務(wù)器利用文件系統(tǒng)管理維護(hù)所有的遙感影像數(shù)據(jù),同時(shí)需要提供遙感數(shù)據(jù)的檢索服務(wù),對(duì)性能要求較高,所以中心存儲(chǔ)服務(wù)器一般選用高性能服務(wù)器。
采用集中式文件存儲(chǔ)架構(gòu)能夠減少整個(gè)系統(tǒng)的維護(hù)和管理工作量,部署和使用也較為簡(jiǎn)單[10],但是此架構(gòu)數(shù)據(jù)冗余度大,系統(tǒng)的可擴(kuò)展性差,中心存儲(chǔ)服務(wù)器是整個(gè)系統(tǒng)的性能瓶頸,一旦中心存儲(chǔ)服務(wù)器出現(xiàn)故障,則整個(gè)系統(tǒng)就會(huì)癱瘓。因此,集中式文件存儲(chǔ)架構(gòu)只適合較小規(guī)模的遙感影像數(shù)據(jù)存儲(chǔ)服務(wù),面對(duì)爆炸式增長(zhǎng)的遙感影像數(shù)據(jù),此架構(gòu)無(wú)論在存儲(chǔ)容量、訪問(wèn)速度和成本方面都不能達(dá)到要求。
如圖2所示,分布式數(shù)據(jù)庫(kù)架構(gòu)利用現(xiàn)有成熟的關(guān)系數(shù)據(jù)庫(kù)技術(shù),將遙感數(shù)據(jù)存儲(chǔ)于數(shù)據(jù)庫(kù)中,之上使用空間數(shù)據(jù)引擎技術(shù),增加一層訪問(wèn)中間件,提供統(tǒng)一的數(shù)據(jù)訪問(wèn)接口。
Fig.2 Architecture of distributed database storage圖2 分布式數(shù)據(jù)庫(kù)存儲(chǔ)架構(gòu)
因?yàn)殛P(guān)系型數(shù)據(jù)庫(kù)不適合存儲(chǔ)非結(jié)構(gòu)化影像數(shù)據(jù),而且需要有相應(yīng)的調(diào)度程序進(jìn)行訪問(wèn)的轉(zhuǎn)發(fā),所以分布式數(shù)據(jù)庫(kù)架構(gòu)中除了關(guān)系數(shù)據(jù)庫(kù)服務(wù)器外,還需要一個(gè)訪問(wèn)代理服務(wù)器。
采用分布式數(shù)據(jù)庫(kù)架構(gòu),可以充分利用現(xiàn)有的成熟關(guān)系數(shù)據(jù)庫(kù)技術(shù)[11],大大降低系統(tǒng)的開(kāi)發(fā)難度,具有較好的安全性以及數(shù)據(jù)一致性。但是訪問(wèn)代理服務(wù)器需要對(duì)外提供統(tǒng)一訪問(wèn)接口,并進(jìn)行訪問(wèn)請(qǐng)求的調(diào)度和轉(zhuǎn)發(fā),容易成為系統(tǒng)的瓶頸,而且傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)應(yīng)對(duì)海量數(shù)據(jù)存儲(chǔ)的能力有限,隨著數(shù)據(jù)量的上升,其成本和訪問(wèn)延遲也增加明顯[12]。
如圖3所示,分布式文件系統(tǒng)架構(gòu)是將分散的普通存儲(chǔ)服務(wù)器組成一個(gè)邏輯集中的存儲(chǔ)設(shè)備,常見(jiàn)的分布式文件系統(tǒng)包括NFS、AFS、CODA、GFS等[13]。
Fig.3 Architecture of distributed file system storage圖3 分布式文件系統(tǒng)存儲(chǔ)架構(gòu)
分布式文件系統(tǒng)架構(gòu)中遙感影像數(shù)據(jù)存儲(chǔ)在各個(gè)節(jié)點(diǎn)上,其數(shù)據(jù)能夠根據(jù)相應(yīng)的算法進(jìn)行均勻分布[14],而上層應(yīng)用則可以像訪問(wèn)本地文件一樣訪問(wèn)遙感數(shù)據(jù)。
采用分布式文件系統(tǒng)架構(gòu),能夠很好地適應(yīng)各種復(fù)雜的遙感影像數(shù)據(jù),能夠高效地對(duì)數(shù)據(jù)進(jìn)行管理和維護(hù),具有很好的可擴(kuò)展性[15],能夠充分利用各個(gè)節(jié)點(diǎn)的計(jì)算能力和存儲(chǔ)能力。但是分布式文件系統(tǒng)沒(méi)有針對(duì)遙感數(shù)據(jù)特別是高分辨率遙感數(shù)據(jù)的特點(diǎn)進(jìn)行數(shù)據(jù)組織和訪問(wèn)優(yōu)化,在面對(duì)海量遙感數(shù)據(jù)時(shí)也會(huì)出現(xiàn)較大的訪問(wèn)延遲,影響遙感數(shù)據(jù)的應(yīng)用。
傳統(tǒng)的存儲(chǔ)方法通常只考慮數(shù)據(jù)組織方式在數(shù)據(jù)結(jié)構(gòu)上的差異,很少涉及面向業(yè)務(wù)應(yīng)用的不同需求和存儲(chǔ)特性。針對(duì)遙感數(shù)據(jù)的存儲(chǔ)不但需要考慮遙感數(shù)據(jù)的地域性,將空間數(shù)據(jù)按地域分布進(jìn)行分級(jí)分區(qū)存儲(chǔ),而且需要結(jié)合網(wǎng)絡(luò)和計(jì)算機(jī)資源的特性,以及分布式服務(wù)和統(tǒng)一管理的現(xiàn)實(shí)要求。
傳統(tǒng)的空間數(shù)據(jù)存儲(chǔ)方式人為分割了地理對(duì)象的空間連續(xù)性,以固定大小數(shù)據(jù)塊組織和存儲(chǔ)復(fù)雜的空間實(shí)體。以對(duì)象為存儲(chǔ)單元的存儲(chǔ)系統(tǒng)既可以將海量遙感數(shù)據(jù)組織為統(tǒng)一存儲(chǔ)空間的集合,還能夠便于數(shù)據(jù)管理,滿足深層次空間數(shù)據(jù)挖掘和應(yīng)用的需要。
遙感數(shù)據(jù)存儲(chǔ)系統(tǒng)架構(gòu)如圖4所示,根據(jù)節(jié)點(diǎn)在存儲(chǔ)過(guò)程和訪問(wèn)過(guò)程中的功能將其分為4類:監(jiān)控服務(wù)節(jié)點(diǎn)、遙感數(shù)據(jù)組織服務(wù)節(jié)點(diǎn)、存儲(chǔ)節(jié)點(diǎn)和訪問(wèn)代理節(jié)點(diǎn)。其中,監(jiān)控服務(wù)節(jié)點(diǎn)負(fù)責(zé)對(duì)其他節(jié)點(diǎn)及集群的運(yùn)行狀態(tài)進(jìn)行監(jiān)控,并及時(shí)反饋信息到合適的節(jié)點(diǎn);數(shù)據(jù)組織服務(wù)節(jié)點(diǎn)負(fù)責(zé)提供遙感數(shù)據(jù)對(duì)象的邏輯視圖,并根據(jù)情況從數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)預(yù)取元數(shù)據(jù)信息;數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)負(fù)責(zé)提供真正的存儲(chǔ)空間,容納遙感數(shù)據(jù);訪問(wèn)代理節(jié)點(diǎn)負(fù)責(zé)接收轉(zhuǎn)發(fā)外界的數(shù)據(jù)訪問(wèn)請(qǐng)求,并按照設(shè)定的策略進(jìn)行安全認(rèn)證和權(quán)限控制。
Fig.4 Architecture of remote sensing data storage system圖4 遙感數(shù)據(jù)存儲(chǔ)系統(tǒng)架構(gòu)
各類節(jié)點(diǎn)通過(guò)網(wǎng)絡(luò)互相聯(lián)結(jié),在結(jié)構(gòu)上完全分布,沒(méi)有固定意義的中心節(jié)點(diǎn),一種節(jié)點(diǎn)損壞后不會(huì)影響其他類節(jié)點(diǎn)的正常工作,其中每類還可以擴(kuò)展為多個(gè)節(jié)點(diǎn),共同組成集群?jiǎn)卧蛲馓峁┓?wù)。在遙感數(shù)據(jù)存儲(chǔ)信息的組織上,采用遙感元數(shù)據(jù)和數(shù)據(jù)“隔離訪問(wèn),統(tǒng)一存儲(chǔ)”的策略,將元數(shù)據(jù)和數(shù)據(jù)統(tǒng)一存儲(chǔ)在遙感數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)上,但工作時(shí)由遙感數(shù)據(jù)組織服務(wù)節(jié)點(diǎn)預(yù)先從遙感數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)讀取元數(shù)據(jù),并向外提供服務(wù)。因此,此系統(tǒng)架構(gòu)不僅可以提供很高的元數(shù)據(jù)和數(shù)據(jù)訪問(wèn)性能,極大地簡(jiǎn)化了內(nèi)部工作流程,減少了軟件復(fù)雜度,而且系統(tǒng)整體的伸縮性較好,理論上沒(méi)有存儲(chǔ)容量和訪問(wèn)帶寬的瓶頸。
相對(duì)于其他非結(jié)構(gòu)化數(shù)據(jù),遙感影像數(shù)據(jù)因?yàn)槠錁I(yè)務(wù)處理流程和應(yīng)用方式,有自身獨(dú)特的存儲(chǔ)、處理和使用特點(diǎn)。完整的遙感影像數(shù)據(jù)至少包含如下五方面的信息:
(1)拍攝地區(qū)的經(jīng)緯度信息,標(biāo)明了地球的對(duì)應(yīng)區(qū)域;
(2)分辨率信息,標(biāo)明了遙感數(shù)據(jù)的可識(shí)別度;
(3)拍攝影像平臺(tái)信息,標(biāo)明了衛(wèi)星、飛艇等拍攝平臺(tái)的標(biāo)識(shí);
(4)傳感器類型信息,標(biāo)明了具體的型號(hào),如CCD、Modis等;
(5)拍攝時(shí)間信息,標(biāo)明了遙感數(shù)據(jù)的生成時(shí)間。
綜上所述,對(duì)所有遙感影像數(shù)據(jù)可以構(gòu)建標(biāo)準(zhǔn)化元數(shù)據(jù)描述方法,并以此可以建立針對(duì)遙感數(shù)據(jù)特點(diǎn)的存儲(chǔ)組織模型,如圖5所示。按照該方法處理遙感影像數(shù)據(jù)可以做到對(duì)影像數(shù)據(jù)的快速檢索、快速傳輸、快速生產(chǎn)、快速瀏覽。
Fig.5 Remote sensing data storage organization model圖5 遙感數(shù)據(jù)的存儲(chǔ)組織模型
在對(duì)原始遙感影像數(shù)據(jù)進(jìn)行預(yù)處理后,需要對(duì)遙感數(shù)據(jù)文件進(jìn)行標(biāo)準(zhǔn)化命名。結(jié)合遙感影像數(shù)據(jù)的公共特點(diǎn)和屬性,最終的遙感影像數(shù)據(jù)文件需要通過(guò)其文件名得知主要屬性信息和物理存儲(chǔ)路徑。遙感影像數(shù)據(jù)文件的組織方法如下:
(1)獲取每個(gè)遙感影像數(shù)據(jù)文件的主要屬性信息,包括傳感器類型、拍攝平臺(tái)、圖像分辨率、拍攝時(shí)間;
(2)此遙感影像數(shù)據(jù)文件按照“產(chǎn)品類型-傳感器類型-拍攝平臺(tái)-圖像分辨率-拍攝時(shí)間-區(qū)域坐標(biāo).后綴名”進(jìn)行唯一標(biāo)識(shí)命名;
(3)將遙感數(shù)據(jù)文件的名稱輸入高速訪問(wèn)算法,由存儲(chǔ)系統(tǒng)根據(jù)遙感數(shù)據(jù)本身特點(diǎn)、存儲(chǔ)節(jié)點(diǎn)狀態(tài)、存儲(chǔ)安全策略等,將數(shù)據(jù)分布存儲(chǔ)在各個(gè)存儲(chǔ)節(jié)點(diǎn)上。
隨著遙感特別是高分辨率遙感技術(shù)的發(fā)展,遙感數(shù)據(jù)應(yīng)用已經(jīng)面臨海量存儲(chǔ)、高速訪問(wèn)的現(xiàn)實(shí)需求,對(duì)目前的遙感數(shù)據(jù)存儲(chǔ)技術(shù)提出了更高容量、更高性能的要求。
目前,人們公認(rèn)的對(duì)象存儲(chǔ)將是未來(lái)高性能存儲(chǔ)的基礎(chǔ)?;趯?duì)象存儲(chǔ)技術(shù)構(gòu)建遙感數(shù)據(jù)存儲(chǔ)系統(tǒng),不但存儲(chǔ)容量可以在線擴(kuò)展,而且具有較強(qiáng)的安全性;但是隨著遙感數(shù)據(jù)對(duì)象數(shù)量的不斷增長(zhǎng),由于傳統(tǒng)文件系統(tǒng)的數(shù)據(jù)獲取方法依靠表查詢方式實(shí)現(xiàn),遙感數(shù)據(jù)訪問(wèn)速度明顯下降,不能很好地適應(yīng)遙感應(yīng)用中多源、高并發(fā)訪問(wèn)需求。本文基于偽隨機(jī)和哈希技術(shù)構(gòu)建了數(shù)據(jù)對(duì)象的物理位置查詢方法,具有良好的海量數(shù)據(jù)訪問(wèn)適應(yīng)性,延遲不會(huì)隨數(shù)據(jù)對(duì)象增多而明顯增大。
如圖6所示,將遙感數(shù)據(jù)分配到具體的存儲(chǔ)設(shè)備上需要經(jīng)過(guò)4個(gè)階段:首先,需要訪問(wèn)的遙感數(shù)據(jù)文件以“產(chǎn)品類型-傳感器類型-拍攝平臺(tái)-圖像分辨率-拍攝時(shí)間-區(qū)域坐標(biāo).后綴名”命名,利用改良的哈希算法將此文件名作為輸入,算出唯一的64位數(shù)據(jù)對(duì)象ID;接著,利用數(shù)據(jù)對(duì)象ID,和根據(jù)當(dāng)前設(shè)備拓?fù)渖傻拇鎯?chǔ)區(qū)域掩碼mask,算出此對(duì)象應(yīng)該存儲(chǔ)的區(qū)域,得到存儲(chǔ)區(qū)域ID;之后,系統(tǒng)根據(jù)存儲(chǔ)區(qū)域ID和數(shù)據(jù)對(duì)象ID,按照預(yù)定的存儲(chǔ)策略,在指定的存儲(chǔ)區(qū)域中找到一組合適的存儲(chǔ)設(shè)備集;最后,由于大規(guī)模的分布式集群中宕機(jī)等使得部分節(jié)點(diǎn)可能失效,需要根據(jù)當(dāng)前設(shè)備的運(yùn)行狀態(tài)過(guò)濾這些節(jié)點(diǎn),篩選出數(shù)據(jù)對(duì)象存儲(chǔ)的實(shí)際物理設(shè)備。
Fig.6 Algorithm of super-speed accessing massive remote sensing data圖6 海量遙感數(shù)據(jù)高速訪問(wèn)算法流程
上面說(shuō)明的算法流程中,不需要任何形式的文件或?qū)ο竽夸?,只需要描述整個(gè)對(duì)象存儲(chǔ)集群及其數(shù)據(jù)存放策略的層次化的全局信息,并保證整個(gè)存儲(chǔ)系統(tǒng)中的每類節(jié)點(diǎn)都可以獲得此全局信息。那么每個(gè)節(jié)點(diǎn)都能夠獨(dú)立計(jì)算出對(duì)象所在的位置,且計(jì)算的復(fù)雜度不會(huì)因?yàn)閿?shù)據(jù)量的增長(zhǎng)而增加,保證了數(shù)據(jù)訪問(wèn)的高效性。
現(xiàn)代存儲(chǔ)技術(shù)正在向分布式、大規(guī)模集群化的方向發(fā)展,并面向具體的應(yīng)用領(lǐng)域,出現(xiàn)更加專業(yè)化、專用化的趨勢(shì)。本文結(jié)合遙感數(shù)據(jù)的時(shí)空特性,構(gòu)建基于數(shù)據(jù)對(duì)象的存儲(chǔ)組織模型,設(shè)計(jì)了分布式集群化的存儲(chǔ)管理架構(gòu),給出了適合海量遙感數(shù)據(jù)的高速訪問(wèn)算法。但是,本文存儲(chǔ)系統(tǒng)在數(shù)據(jù)去重、加密及訪問(wèn)安全認(rèn)證方面較少涉及,需要在下一步的工作中研究和實(shí)踐。
[1]Zhang Jiangling,Feng Dan.Massive information storage[M].Beijing:Science Press,2002:175-176.
[2]Wang Yanmin.Research of multi-scale GIS vector spatial data organization[D].Wuhan:Wuhan University,2002.
[3]Beckmann N,Kriegel H P,Schneider R,et al.The R*-tree:an efficient and robust access method for points and rectangles[C]//Proceedings of the 1990 ACM SIGMOD International Conference on Management of Data,Atlantic City,USA,May 23-26,1990.New York:ACM,1990:322-331.
[4]Satyaaarayanan M,KisIler J J,Kumar P,et al.CODA:a highly available file system for a distributed workstation environment[J].IEEE Transactions on Computers,1990,38(4):447-459.
[5]Ma Ronghua,Huang Xingyuan.Distributed organization and management of massive data on large-scale GIS[J].Journal of Nanjing Unversity,2003,39(6):837-838.
[6]Guttman A.R-trees:a dynamic index structure for spatial searching[J].ACM SIGMOD Record,1984,14(2):47-57.
[7]Levy E,Silberschatz A.Distributed file systems:concepts and examples[J].ACM Computing Surveys,1990,22(4):321-374.
[8]Shacham H,Waters B.Compact proofs of retrievability[J].Journal of Cryptology,2013,26(3):442-483.
[9]Ren Kui,Wang Cong,Wang Qian.Security challenges for the public cloud[J].IEEE Internet Computing,2012,16(1):69-73.
[10]Ateniese G,Fu K,Green M,et al.Improved proxy re-encryption schemes with applications to secure distributed storage[J].ACM Transactions on Information and System Security,2006,9(1):1-30.
[11]Albani S,Giaretta D.Long-term preservation of earth observation data and knowledge in ESA through CASPAR longterm preservation of earth observation data and knowledge in ESA through CASPAR[J].International Journal of Digital Curation,2009,4(3):4-16.
[12]Beruti V,Forcada M E,Albani M,et al.ESA plans-a pathfinder for long term data preservation[C]//Proceedings of the 7th International Conference on Preservation of Digital Objects,Vienna,Austria,Sep 19-24,2010.[S.l.]:Austrian Computer Society,2010:23-25.
[13]Nakajima K.Preconditioned iterative linear solvers for unstructured grids on the earth simulator[C]//Proceedings of the 7th International Conference on High Performance Computing and Grid in Asia Pacific Region,Monterrey,Jul 20-22,2004.Washington:IEEE Computer Society,2004:150-160.
[14]Zhu Yifeng,Jiang Hong,Wang Jun.HBA:distributed metadata management for large cluster-based storage systems[J].IEEE Transactions on Parallel&Distributed Systems,2008,19(6):750-763.
[15]Wu Jianjian,Liu Pangfeng,Chung Y C.Metadata partitioning for large-scale distributed storage systems[C]//Proceedings of the 3rd International Conference on Cloud Computing,Miami,USA,Jul 5-10,2010.Washington:IEEE Computer Society,2010:212-219.
附中文參考文獻(xiàn):
[1]張江陵,馮丹.海量信息存儲(chǔ)[M].北京:科學(xué)出版社,2002:175-176.
[2]王晏民.多比例尺GIS矢量空間數(shù)據(jù)組織研究[D].武漢:武漢大學(xué),2002.
[5]馬榮華,黃杏園.大型GIS海量數(shù)據(jù)分布式組織與管理[J].南京大學(xué)學(xué)報(bào),2003,39(6):837-838.
季艷(1975—),女,江蘇揚(yáng)州人,2011年于北京航空航天大學(xué)計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)獲得博士學(xué)位,現(xiàn)為北京市遙感信息研究所研究員,主要研究領(lǐng)域?yàn)榇髷?shù)據(jù)處理與應(yīng)用。
LU Kewen was born in 1986.He received the M.S.degree in computer science and technology from Beijing University of Posts and Telecommunications in 2011.Now he is an engineer of CETC15.His research interest is the storage,management and processing of big data.
魯克文(1986—),男,河南南陽(yáng)人,2011年于北京郵電大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)獲得碩士學(xué)位,現(xiàn)為中國(guó)電子科技集團(tuán)公司第十五研究所工程師,主要研究領(lǐng)域?yàn)榇髷?shù)據(jù)存儲(chǔ)、管理與處理。
ZHANG Yinghui was born in 1975.He received the Ph.D.degree in management science from Beijing University of Aeronautics and Astronautics in 2016.Now he is a researcher at Beijing Remote Sensing Information Institute.His research interest is big data application.
張英慧(1975—),男,山東壽光人,2016年于北京航空航天大學(xué)管理科學(xué)專業(yè)獲得博士學(xué)位,現(xiàn)為北京市遙感信息研究所研究員,主要研究領(lǐng)域?yàn)榇髷?shù)據(jù)應(yīng)用。
Research on Distributed Clustering Storage Technology for Massive Remote Sensing Data*
JI Yan1+,LU Kewen2,ZHANG Yinghui1
1.Beijing Remote Sensing Information Institute,Beijing 100192,China 2.The 15th Research Institute,China Electronics Technology Group Corporation,Beijing 100083,China
For the urgent needs of the high-resolution earth observation remote sensing data storage and the highspeed access,this paper uses the distributed architecture,object storage and clustering technology,combines the spatial characteristics of remote sensing data to build organizational model based on the data object,designs a storage management architecture with the spatial position as the leading.A remote sensing big data storage system with efficient sharing of distributed cluster can be reformed,that is a global coverage in logic,a dispersed storage in physics and an integration of the storage views of global data.By this architecture,the flexibility of remote sensing data resources configuration,the customization and personalization of business regionalization,and the intelligence of management systems can be achieved.
remote sensing data;high-performance storage;distributed clustering;object storage
the Ph.D.degree in computer application technology from Beijing University of Aeronautics and Astronautics in 2011.Now she is a researcher at Beijing Remote Sensing Information Institute.Her research interest is big data processing and application.
2016-07, Accepted 2016-09.
A
TP751
+Corresponding author:E-mail:jy197541@163.com
JI Yan,LU Kewen,ZHANG Yinghui.Research on distributed clustering storage technology for massive remote sensing data.Journal of Frontiers of Computer Science and Technology,2017,11(9):1398-1404.
10.3778/j.issn.1673-9418.1608049
*The National High Technology Research and Development Program of China under Grant No.2013AA7013040(國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)).
CNKI網(wǎng)絡(luò)優(yōu)先出版: 2016-09-08, http://www.cnki.net/kcms/detail/11.5602.TP.20160908.1047.030.html