劉天貽
關(guān)鍵詞:遙感數(shù)據(jù);深度學(xué)習(xí)云平臺;分布式存儲;分布式檢索;微服務(wù)
本文使用以并行計算為基礎(chǔ)的云計算技術(shù)解決遙感影像數(shù)據(jù)存儲管理過程中由于數(shù)據(jù)量大、更新頻繁而帶來的數(shù)據(jù)存儲和數(shù)據(jù)檢索的問題。以分布式計算和分布式存儲為基礎(chǔ),結(jié)合遙感數(shù)據(jù)目標(biāo)識別與變化檢測應(yīng)用的需求,本平臺通過自研在線樣本采集和定制的深度學(xué)習(xí)算法,實現(xiàn)遙感影像的自動解譯。同時,本平臺還提供對模型預(yù)測結(jié)果人工修正的人口,將人工反饋結(jié)果作為反饋數(shù)據(jù)集交給模型訓(xùn)練模塊進行迭代訓(xùn)練,形成模型自迭代學(xué)習(xí)的機制。相較于傳統(tǒng)離線影像數(shù)據(jù)處理方法,本平臺基于分布式存算模型的遙感數(shù)據(jù)管理與訓(xùn)練框架降低了生產(chǎn)過程中數(shù)據(jù)管理分發(fā)難度,簡化了遙感深度學(xué)習(xí)模型訓(xùn)練流程,提高了遙感深度學(xué)習(xí)模型訓(xùn)練效率和遙感影像利用效率,為海量衛(wèi)星遙感數(shù)據(jù)管理與應(yīng)用平臺的研發(fā)提供一種新的思路。
1系統(tǒng)框架
一站式遙感大數(shù)據(jù)分布式管理與訓(xùn)練云平臺由基礎(chǔ)設(shè)施層、分布式計算層、分布式混合存儲層、微服務(wù)層、應(yīng)用層和運維系統(tǒng)組成。
(l)基礎(chǔ)設(shè)施層為其他各層提供通用的技術(shù)能力,包括為服務(wù)層提供持久化機制,為應(yīng)用層傳遞消息等。虛擬化層在原始硬件級通過VMware虛擬CPU、內(nèi)存和I/O設(shè)備以多個并行用戶來改進硬件資源的利用率[3].基于Docker容器的操作系統(tǒng)級虛擬化方案保證了物理機器和虛擬機實例數(shù)可以彈性伸縮,以很小的資源開銷實現(xiàn)文件系統(tǒng)、網(wǎng)絡(luò)、進程和資源的隔離。
(2)分布式存儲計算模塊負責(zé)多元異構(gòu)影像數(shù)據(jù)及影像相關(guān)數(shù)據(jù)的存儲與檢索,為服務(wù)層提供數(shù)據(jù)讀寫與檢索接口[4]。存儲層針對遙感影像數(shù)據(jù)、影像標(biāo)簽數(shù)據(jù)、矢量數(shù)據(jù)以及瓦片數(shù)據(jù)和系統(tǒng)業(yè)務(wù)數(shù)據(jù)分別設(shè)計基于HDFS,Ceph,HBase,Accumulo和PostgreSQL數(shù)據(jù)庫的存儲與操作接口,實現(xiàn)遙感數(shù)據(jù)的混合存儲與管理。ElasticSearch和Geomesa的引入優(yōu)化了數(shù)據(jù)檢索的效率。
(3)微服務(wù)層以彈性分布式計算為基礎(chǔ),以低耦合高內(nèi)聚為原則將系統(tǒng)中不同場景的業(yè)務(wù)和功能拆分成一組微服務(wù)分別提供服務(wù)。所有的微服務(wù)共同構(gòu)建起整個系統(tǒng)的微服務(wù)層。微服務(wù)架構(gòu)降低了單體應(yīng)用部署、配置、維護的復(fù)雜性。
(4)應(yīng)用層在整合底層模塊的基礎(chǔ)上為用戶提供數(shù)據(jù)管理與服務(wù)操作接口。通過遙感影像入庫系統(tǒng)、遙感影像分布式管理系統(tǒng)、樣本工程系統(tǒng)、樣本管理系統(tǒng)、模型訓(xùn)練系統(tǒng)和應(yīng)用系統(tǒng)六個子系統(tǒng)的數(shù)據(jù)流通與協(xié)同運轉(zhuǎn)為用戶提供遙感數(shù)據(jù)“入庫-管理-訓(xùn)練,預(yù)測”的一站式服務(wù)。
2關(guān)鍵技術(shù)
2.1分布式混合存儲模型
本平臺根據(jù)不同數(shù)據(jù)類型的結(jié)構(gòu)設(shè)計了不同的存儲模型。主要涉及影像數(shù)據(jù)模型、矢量信息、標(biāo)簽數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)的存儲。
影像數(shù)據(jù)模型包含影像元數(shù)據(jù)、影像像元數(shù)據(jù)和影像瓦片數(shù)據(jù)。經(jīng)過歸一化處理之后的遙感元數(shù)據(jù)數(shù)據(jù)量較小,適合存儲在關(guān)系型數(shù)據(jù)庫PostgreSQL中。最終選用分布式鍵值NoSQL數(shù)據(jù)庫Accumulo存儲影像瓦片數(shù)據(jù)。
矢量空間要素之間存在復(fù)雜的拓撲關(guān)系,同時在模型迭代過程中需要高效處理批量矢量圖斑數(shù)據(jù)的更新問題。本平臺選用面向列存儲的HBase數(shù)據(jù)庫存儲矢量要素。HBase在矢量空間數(shù)據(jù)存儲和管理過程中的優(yōu)勢主要體現(xiàn)在列存儲的高效性和高擴展性。
標(biāo)簽數(shù)據(jù)由存儲地物分類信息的空間矢量數(shù)據(jù)通過矢量轉(zhuǎn)柵格的算法處理得到,本文選用分布式對象存儲系統(tǒng)Ceph存儲和管理標(biāo)簽數(shù)據(jù)。Ceph對象存儲采用RADOS(Reliable Autonomic Distributed ObjectStore),保障標(biāo)簽數(shù)據(jù)的讀寫效率,采用CRUSH數(shù)據(jù)放置采取算法,保障了標(biāo)簽數(shù)據(jù)負載能夠得到有效均衡。
2.2時空大數(shù)據(jù)索引
為了保證存儲于HBase中的時空矢量數(shù)據(jù)的快速存敢,本文使用Ceomesa構(gòu)建了矢量數(shù)據(jù)構(gòu)索引。利用G eomesa提供的X23時空索引,將包含經(jīng)度、緯度和時間三個維度的數(shù)據(jù)按照基于Z-Order填充曲線(見圖1)的CeoHash時空編碼技術(shù)進行降維,得到一維數(shù)據(jù)作為Key,方便在HBase數(shù)據(jù)庫中進行查詢。這種時空索引技術(shù)能高效地達到降維效果,同時可以保持數(shù)據(jù)的locality特性,提高基于經(jīng)緯度和時間的檢索效率。
2.3微服務(wù)架構(gòu)
為了滿足系統(tǒng)穩(wěn)定性和可擴展性方面的要求,本平臺選用基于服務(wù)網(wǎng)格的微服務(wù)架構(gòu)。相對于Dubbo框架和Spring Cloud框架,該模式降低了服務(wù)治理與服務(wù)之間的耦合度。同時,服務(wù)網(wǎng)格框架強調(diào)了各個代理之間形成的有機網(wǎng)絡(luò)。以通用組件的形式管控系統(tǒng)中所有服務(wù)通信流量,同時下沉了微服務(wù)開發(fā)的技術(shù)棧,可以做到跨語言的服務(wù)調(diào)用、功能可擴展。
通過對平臺業(yè)務(wù)進行合理拆分,降低不同服務(wù)之間的關(guān)聯(lián)影響,本文設(shè)計了具備高可用性、高擴展性、可伸縮性和運維智能化的遙感大數(shù)據(jù)管理與訓(xùn)練微服務(wù)架構(gòu)。
3系統(tǒng)實現(xiàn)
3.1業(yè)務(wù)流程
一站式遙感大數(shù)據(jù)管理與訓(xùn)練云平臺包括以下6個子系統(tǒng),并且它們相互依賴。
(1)遙感影像入庫系統(tǒng):負責(zé)對多源異構(gòu)的遙感影像數(shù)據(jù)進行數(shù)據(jù)預(yù)處理、清洗、入庫等ETL工作,并將其存儲到平臺中。
(2)遙感影像管理系統(tǒng):對混合存儲模型中的多源異構(gòu)遙感數(shù)據(jù)進行數(shù)據(jù)管理,并提供數(shù)據(jù)的多維度統(tǒng)計指標(biāo)實現(xiàn)數(shù)據(jù)監(jiān)控。
(3)樣本工程系統(tǒng):負責(zé)樣本勾畫任務(wù)的創(chuàng)建和分配以及樣本勾畫過程跟蹤等。以樣本分類體系為基礎(chǔ),體系化管理和維護采集中使用的地物解譯類別以及外業(yè)采集的實地圖片,為樣本管理系統(tǒng)提供數(shù)據(jù)支撐。
(4)樣本管理系統(tǒng):通過對檢索結(jié)果中的影像數(shù)據(jù)和矢量數(shù)據(jù)進行整理和重構(gòu)生成訓(xùn)練樣本集。訓(xùn)練樣本集中包括影像切片數(shù)據(jù)和標(biāo)簽數(shù)據(jù),是模型訓(xùn)練系統(tǒng)的數(shù)據(jù)來源。
(5)模型訓(xùn)練系統(tǒng):根據(jù)用戶選擇的模型訓(xùn)練算法對訓(xùn)練樣本集進行樣本類別轉(zhuǎn)換、訓(xùn)練集劃分、驗證集劃分等操作。模型訓(xùn)練完成之后,可參照系統(tǒng)提供模型精度評價調(diào)整模型參數(shù)進一步優(yōu)化模型。
(6)應(yīng)用系統(tǒng):應(yīng)用系統(tǒng)基于模型訓(xùn)練系統(tǒng)提供的模型對影像數(shù)據(jù)進行地物提取或者變化監(jiān)測。基于預(yù)測的結(jié)果進行人工解譯可進一步生成反饋數(shù)據(jù)集。
3.2系統(tǒng)配置
本文基于上述技術(shù)設(shè)計搭建了服務(wù)于遙感影像處理和解譯模型訓(xùn)練的一站式遙感大數(shù)據(jù)管理與訓(xùn)練云平臺。該平臺的軟硬件配置如表1所列。
3.3性能測試
本文選取影像金字塔切分過程的耗時作為觀測指標(biāo)來驗證分布式遙感云平臺的性能。在CPU頻率與內(nèi)存容量等硬件水平相當(dāng)?shù)沫h(huán)境下對分布式遙感云平臺和Arc CIS Server處理系統(tǒng)影像金字塔切分耗時進行對比測試實驗。實驗分別選取數(shù)據(jù)量大小在0.5GB.1CB,2CB,3GB左右的影像。從圖2可以看出,在硬件配置和影像大小相同的情況下,分布式遙感云平臺的金字塔分層切分耗時小于Arc CIS Server系統(tǒng),其相對加速比大于2。上述實驗數(shù)據(jù)證明了分布式遙感云平臺在遙感影像金字塔建模處理的效率上具有明顯優(yōu)勢。
4結(jié)束語
本文設(shè)計了一種基于計算機技術(shù)的一站式遙感大數(shù)據(jù)分布式管理與模型訓(xùn)練云平臺。平臺構(gòu)建了以異構(gòu)的遙感數(shù)據(jù)為基礎(chǔ)的混合存儲模型,以Spark為載體的分布式計算模型,以服務(wù)注冊與發(fā)現(xiàn)、服務(wù)交互為基礎(chǔ)的微服務(wù)架構(gòu)。結(jié)合深度學(xué)習(xí)在遙感影像數(shù)據(jù)處理的應(yīng)用完成了一站式遙感大數(shù)據(jù)分布式管理與模型訓(xùn)練云平臺的整體建設(shè),為構(gòu)建高可用、易擴展的遙感數(shù)據(jù)存儲共享與處理平臺提供了一種解決方案。