劉陽(yáng)娜
摘要:云計(jì)算、物聯(lián)網(wǎng)、空間數(shù)據(jù)采集技術(shù)快速發(fā)展背景下,使空間數(shù)據(jù)被賦予明顯的大數(shù)據(jù)特點(diǎn),這就要求在數(shù)據(jù)存儲(chǔ)與管理等方面逐漸完善。實(shí)踐研究發(fā)現(xiàn),以NoSQL數(shù)據(jù)庫(kù)為依據(jù),引入空間大數(shù)據(jù)分布式存儲(chǔ)策略,對(duì)提高數(shù)據(jù)存儲(chǔ)與管理水平有積極作用。本次研究將對(duì)基于NoSQL數(shù)據(jù)庫(kù)的空間數(shù)據(jù)存儲(chǔ)技術(shù)做簡(jiǎn)單介紹,分析NoSQL數(shù)據(jù)庫(kù)的空間大數(shù)據(jù)分布式存儲(chǔ)策略的應(yīng)用以及該策略運(yùn)用下取得的效果。
關(guān)鍵詞:NoSQL數(shù)據(jù)庫(kù);空間大數(shù)據(jù);分布式存儲(chǔ)策略;應(yīng)用
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2018)02-0077-01
空間數(shù)據(jù)存儲(chǔ)與管理是影響數(shù)據(jù)使用質(zhì)量的關(guān)鍵所在。近年來(lái)在云計(jì)算技術(shù)、物聯(lián)網(wǎng)技術(shù)發(fā)展下,空間數(shù)據(jù)使用模式上出現(xiàn)較多變化,數(shù)據(jù)規(guī)模逐漸增大,導(dǎo)致數(shù)據(jù)的存儲(chǔ)、處理均面臨極大難題。若此時(shí)仍依托于以往關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)模式,很難達(dá)到存儲(chǔ)與管理目的。在此背景下考慮引入分布式存儲(chǔ)策略,提高數(shù)據(jù)存儲(chǔ)管理能力。本次研究將對(duì)NoSQL數(shù)據(jù)庫(kù)下空間大數(shù)據(jù)分布式存儲(chǔ)策略的具體應(yīng)用進(jìn)行分析。
1 基于NoSQL數(shù)據(jù)庫(kù)的空間數(shù)據(jù)存儲(chǔ)技術(shù)基本介紹
1.1 空間數(shù)據(jù)存儲(chǔ)技術(shù)實(shí)施基本要求
近年來(lái),在地理空間信息收集方面有多樣手段,其在一定程度上導(dǎo)致數(shù)據(jù)頻繁更新、數(shù)據(jù)規(guī)模增大,若仍選擇傳統(tǒng)單一存儲(chǔ)方式,很難達(dá)到存儲(chǔ)與處理要求。對(duì)此,要求正確認(rèn)識(shí)大數(shù)據(jù)具體特征,選擇相應(yīng)的空間數(shù)據(jù)存儲(chǔ)技術(shù),技術(shù)選擇中有具體的要求,包括:(1)擴(kuò)展存儲(chǔ)能力,如千萬(wàn)級(jí)別二維表依托于以往關(guān)系數(shù)據(jù)庫(kù)難以存儲(chǔ),且無(wú)法橫向擴(kuò)展存儲(chǔ)能力,因此數(shù)據(jù)存儲(chǔ)技術(shù)運(yùn)用下,應(yīng)從存儲(chǔ)能力擴(kuò)展方面著手,滿足基本存儲(chǔ)要求的同時(shí),使數(shù)據(jù)一致性與完整性得到保證;(2)適應(yīng)各類(lèi)存儲(chǔ)對(duì)象,如圖片、音頻與視頻類(lèi)型數(shù)據(jù)等,均要求數(shù)據(jù)存儲(chǔ)技術(shù)的應(yīng)用與之適應(yīng);(3)滿足多用戶(hù)并發(fā)訪問(wèn)要求,如互聯(lián)網(wǎng)、云服務(wù)訪問(wèn),關(guān)系型數(shù)據(jù)庫(kù)很難實(shí)現(xiàn)多用戶(hù)訪問(wèn),是空間數(shù)據(jù)存儲(chǔ)技術(shù)應(yīng)用下需解決的問(wèn)題[1]。
1.2 基于NoSQL數(shù)據(jù)庫(kù)空間數(shù)據(jù)存儲(chǔ)模式應(yīng)用現(xiàn)狀
NoSQL數(shù)據(jù)庫(kù)技術(shù)作為非關(guān)系型數(shù)據(jù)庫(kù),在互聯(lián)網(wǎng)領(lǐng)域中近年來(lái)不斷推廣應(yīng)用,若單純由數(shù)據(jù)存儲(chǔ)方面出發(fā),該類(lèi)型數(shù)據(jù)庫(kù)適應(yīng)性較強(qiáng)。值得注意的是,GIS領(lǐng)域、互聯(lián)網(wǎng)領(lǐng)域本身有明顯差異,所以應(yīng)用NoSQL數(shù)據(jù)庫(kù)技術(shù)有一定的不足之處,表現(xiàn)為:(1)數(shù)據(jù)操作問(wèn)題,數(shù)據(jù)庫(kù)運(yùn)行中要求在數(shù)據(jù)修改上嚴(yán)格控制,一旦因修改操作不合理,便會(huì)涉及數(shù)據(jù)遷移情況;(2)查詢(xún)問(wèn)題,空間數(shù)據(jù)查詢(xún)中需以圖層屬性信息為依據(jù),進(jìn)行數(shù)據(jù)提取,數(shù)據(jù)庫(kù)需滿足多種功能要求,包括統(tǒng)計(jì)、排序以及查詢(xún)等,而NoSQL數(shù)據(jù)庫(kù)很難達(dá)到這些要求;(3)索引問(wèn)題,索引技術(shù)的運(yùn)用不應(yīng)局限于簡(jiǎn)單的算法方面,更應(yīng)向方法策略上提升,這樣才可使數(shù)據(jù)檢索效率提高。
2 基于NoSQL數(shù)據(jù)庫(kù)的空間大數(shù)據(jù)分布式存儲(chǔ)策略應(yīng)用研究
2.1 分布式存儲(chǔ)與管理系統(tǒng)應(yīng)用分析
針對(duì)NoSQL數(shù)據(jù)庫(kù)運(yùn)用下的局限性,本次研究中引入空間大數(shù)據(jù)分布式存儲(chǔ)策略。從空間大數(shù)據(jù)存儲(chǔ)管理系統(tǒng)看,在保證滿足流式、柵格、矢量數(shù)據(jù)存儲(chǔ)、管理要求的基礎(chǔ)上,能夠?qū)崿F(xiàn)快速提取分布式數(shù)據(jù)的目的,包括空間關(guān)聯(lián)分析、展示專(zhuān)題圖,支持系統(tǒng)運(yùn)行。具體剖析該系統(tǒng)的構(gòu)成,主要體現(xiàn)在:(1)內(nèi)存數(shù)據(jù)庫(kù),數(shù)據(jù)操作層主要選擇I/O處理模式,處理速度明顯提升;(2)空間數(shù)據(jù)庫(kù),系統(tǒng)融入傳統(tǒng)空間數(shù)據(jù)庫(kù)優(yōu)勢(shì),既有分布存儲(chǔ)管理能力,且將GIS優(yōu)勢(shì)引入;(3)存儲(chǔ)系統(tǒng),“大數(shù)據(jù)倉(cāng)庫(kù)”由分布式存儲(chǔ)系統(tǒng)承擔(dān),滿足數(shù)據(jù)提取要求的同時(shí),具備持久化存儲(chǔ)特征,且系統(tǒng)有高可用性、擴(kuò)展性以及低成本特點(diǎn)[2]。
2.2 空間大數(shù)據(jù)分布式存儲(chǔ)關(guān)鍵技術(shù)應(yīng)用該研究
分布式存儲(chǔ)策略運(yùn)用下,其實(shí)施效果很大程度受其中所采用的關(guān)鍵技術(shù)影響。以MongoDB數(shù)據(jù)庫(kù)為例,作為以文檔為基礎(chǔ)的NoSQL數(shù)據(jù)庫(kù)類(lèi)型,有明顯的技術(shù)優(yōu)勢(shì)。如數(shù)據(jù)庫(kù)中采用的Sharding集群、Replica Set集群,若以實(shí)際地理范圍為依據(jù)搭建集群,能夠保證數(shù)據(jù)存儲(chǔ)實(shí)現(xiàn)。同時(shí),快速提取技術(shù)在也極為重要,特別數(shù)據(jù)組織結(jié)構(gòu)不同將影響提取數(shù)據(jù)的效率,所以需在空間索引策略上優(yōu)化,如結(jié)合集群方案與索引策略,即以元數(shù)據(jù)為基礎(chǔ)形成多級(jí)圖幅索引,是快速提取技術(shù)應(yīng)用的具體體現(xiàn)。另外,需注意數(shù)據(jù)合理調(diào)度、接口訪問(wèn)設(shè)計(jì)等相關(guān)技術(shù),如在數(shù)據(jù)調(diào)度方面,主要將空間數(shù)據(jù)劃分為高頻率訪問(wèn)、低頻率訪問(wèn)數(shù)據(jù),兩種數(shù)據(jù)分別以熱點(diǎn)數(shù)據(jù)、“冷”數(shù)據(jù)歸檔形式存儲(chǔ),而在接口訪問(wèn)設(shè)計(jì)上,取OGDC接口,其中的各驅(qū)動(dòng)程序如DM、MySQL、Oracle等,使數(shù)據(jù)并行存取更加便利[3]。
3 基于NoSQL數(shù)據(jù)庫(kù)的空間大數(shù)據(jù)分布式存儲(chǔ)策略實(shí)踐效果
為驗(yàn)證空間大數(shù)據(jù)分布式存儲(chǔ)技術(shù)的應(yīng)用效果,本次研究中取原型系統(tǒng)包括NoSQL數(shù)據(jù)庫(kù)、關(guān)系型數(shù)據(jù)庫(kù)以及內(nèi)存數(shù)據(jù)庫(kù)如MongoDB、PostgreSQL等,研究實(shí)踐目的在于將MongoDB中上層數(shù)據(jù)結(jié)構(gòu)、底層存儲(chǔ)問(wèn)題解決,達(dá)到快速提取與存儲(chǔ)數(shù)據(jù)的目的。具體操作:(1)原型系統(tǒng)結(jié)構(gòu),如數(shù)據(jù)庫(kù)層,借助MongoDB做Sharding集群構(gòu)建,再如中間件層,MongoDB各對(duì)象均需做包裝,使BSON對(duì)象內(nèi)涵蓋屬性信息、空間信息等。另外,應(yīng)注意數(shù)據(jù)訪問(wèn)接口層的設(shè)計(jì);(2)試驗(yàn)操作,在MongoDB中導(dǎo)入數(shù)據(jù)后做空間所引構(gòu)建,在分布式存儲(chǔ)策略上,主要選擇相應(yīng)的存儲(chǔ)節(jié)點(diǎn),并搭建Sharding集群,然后引入以元數(shù)據(jù)為基礎(chǔ)的空間索引策略,并應(yīng)用內(nèi)存數(shù)據(jù)完成shape要素入庫(kù)處理[4]。試驗(yàn)結(jié)果發(fā)現(xiàn),所有數(shù)據(jù)在并發(fā)入庫(kù)、空間索引構(gòu)建耗時(shí)明顯減少,并發(fā)環(huán)境下海量數(shù)據(jù)入庫(kù)效率有顯著提高。
4 結(jié)語(yǔ)
空間大數(shù)據(jù)分布式存儲(chǔ)策略的應(yīng)用是當(dāng)前解決大數(shù)據(jù)存儲(chǔ)、處理與運(yùn)用的主要難題。實(shí)際引入該策略中,應(yīng)正確認(rèn)識(shí)傳統(tǒng)數(shù)據(jù)庫(kù)單一存儲(chǔ)模式存在的不足,采取優(yōu)化的策略,即以NoSQL數(shù)據(jù)庫(kù)為基礎(chǔ),采取分布式存儲(chǔ)策略,對(duì)提高數(shù)據(jù)提取、存儲(chǔ)與處理能力有積極意義。
參考文獻(xiàn)
[1]李紹俊,楊海軍,黃耀歡,等.基于NoSQL數(shù)據(jù)庫(kù)的空間大數(shù)據(jù)分布式存儲(chǔ)策略[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2017,42(02):163-169.
[2]侯志通.條帶狀公路運(yùn)營(yíng)管理空間大數(shù)據(jù)降維組織及混合存儲(chǔ)關(guān)鍵技術(shù)研究[D].浙江大學(xué),2015.
[3]朱建生,汪健雄,張軍鋒.基于NoSQL數(shù)據(jù)庫(kù)的大數(shù)據(jù)查詢(xún)技術(shù)的研究與應(yīng)用[J].中國(guó)鐵道科學(xué),2014,35(01):135-141.
[4]陳崇成,林劍峰,吳小竹,巫建偉,連惠群.基于NoSQL的海量空間數(shù)據(jù)云存儲(chǔ)與服務(wù)方法[J].地球信息科學(xué)學(xué)報(bào),2013,15(02):166-174.