• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于分布式數(shù)據(jù)庫的海洋動力環(huán)境數(shù)據(jù)云存儲

      2017-05-10 09:20:09張玉娟史紹雨劉桂艷
      海洋預(yù)報 2017年2期
      關(guān)鍵詞:分片中間件時空

      張玉娟,史紹雨,孫 晶,劉桂艷,艾 波

      基于分布式數(shù)據(jù)庫的海洋動力環(huán)境數(shù)據(jù)云存儲

      張玉娟1,史紹雨2,孫 晶3,劉桂艷4,艾 波1

      (1.山東科技大學(xué)海島(礁)測繪技術(shù)國家測繪局重點(diǎn)實(shí)驗室,山東青島266590;2.國家測繪地理信息局衛(wèi)星測繪應(yīng)用中心,北京100048;3.中國礦業(yè)大學(xué)環(huán)境與測繪學(xué)院,江蘇徐州221116;4.國家海洋局北海預(yù)報中心,山東青島266061)

      針對海洋動力環(huán)境數(shù)據(jù)的時空特征,提出了基于分布式數(shù)據(jù)庫的云存儲技術(shù),設(shè)計了分布式管理方案以及相應(yīng)的時空分片方案和索引機(jī)制,實(shí)現(xiàn)了數(shù)據(jù)存儲的物理分布性、邏輯整體性和節(jié)點(diǎn)自治性,顯著提高了數(shù)據(jù)的查詢效率。以南海區(qū)域40 a海洋動力環(huán)境數(shù)據(jù)為例進(jìn)行波高-周期散布圖統(tǒng)計,耗時由集中式文件存儲方式的2 min縮短至云存儲方式的10 s以內(nèi)。

      海洋動力環(huán)境數(shù)據(jù);云存儲;分布式數(shù)據(jù)庫;分片方案;時空索引

      1 引言

      隨著海洋科學(xué)技術(shù)的進(jìn)步,衛(wèi)星遙感、航空攝影測量、臺站浮標(biāo)觀測、超聲波無線通信等高新監(jiān)測技術(shù)廣泛應(yīng)用,數(shù)據(jù)監(jiān)測種類、數(shù)據(jù)維度不斷豐富,更新速度不斷加快,造成海洋數(shù)據(jù)快速增長,呈現(xiàn)出大數(shù)據(jù)的4V特征——體量大、類型雜、時效強(qiáng)、潛在價值大等[1-2]。海洋大數(shù)據(jù)為海洋現(xiàn)象的分析研究提供了強(qiáng)有力的數(shù)據(jù)支持,也在數(shù)據(jù)的存儲管理、安全性維護(hù)、高效應(yīng)用等方面面臨嚴(yán)峻挑戰(zhàn)。

      海洋動力環(huán)境數(shù)據(jù)是對海面風(fēng)場、流場、海浪等動力現(xiàn)象進(jìn)行描述的數(shù)據(jù),當(dāng)前主要通過NetCDF等文件格式進(jìn)行存儲和交換,該格式具有自描述性、高可用性和平臺無關(guān)性,適用于海洋動力環(huán)境數(shù)據(jù)的網(wǎng)格化、多維、多變量等特點(diǎn)。然而,這種集中式文件存儲管理方式也面臨諸多局限:安全性較低,損壞不易恢復(fù);共享性差,冗余度高;管理效率低,數(shù)據(jù)查詢檢索困難;進(jìn)而也導(dǎo)致了數(shù)據(jù)的利用效率低,響應(yīng)效率不高的現(xiàn)狀[3]。

      海洋動力環(huán)境大數(shù)據(jù)的有效管理是應(yīng)用的基礎(chǔ),傳統(tǒng)的集中式文件存儲方式已經(jīng)無法滿足大數(shù)據(jù)的高效管理和分析需求。針對上述問題,本文提出了一種基于分布式數(shù)據(jù)庫的大數(shù)據(jù)云存儲技術(shù),利用分布式數(shù)據(jù)庫的物理分布性、邏輯整體性等特點(diǎn),實(shí)現(xiàn)了海洋動力環(huán)境數(shù)據(jù)的高效存儲和管理。結(jié)合海洋動力環(huán)境數(shù)據(jù)的時間、空間和屬性特征,論文研究設(shè)計了云存儲管理、時空分片和時空索引等方案,并借助開源的MySQL關(guān)系型數(shù)據(jù)庫、MyCat中間件等進(jìn)行系統(tǒng)搭建。本文以南海區(qū)域40 a海洋動力環(huán)境數(shù)據(jù)為例對技術(shù)進(jìn)行了驗證,與傳統(tǒng)集中式文件存儲方式相比,利用本文提出的云存儲方案進(jìn)行波高-周期散布圖統(tǒng)計,數(shù)據(jù)查詢效率得到了顯著提升。

      2 分布式云存儲方案設(shè)計

      云存儲是通過集群應(yīng)用、網(wǎng)格技術(shù)、分布式技術(shù)等將網(wǎng)絡(luò)中的存儲設(shè)備整合起來,其中分布式存儲管理是云存儲的基礎(chǔ)與核心管理部分[4-5]。本文采用分布式存儲機(jī)制,將分布式數(shù)據(jù)庫技術(shù)應(yīng)用到云存儲中,作為底層基礎(chǔ)支撐云存儲實(shí)現(xiàn)數(shù)據(jù)存儲和業(yè)務(wù)訪問服務(wù)。

      分布式數(shù)據(jù)庫的關(guān)鍵技術(shù)是在多個數(shù)據(jù)庫實(shí)例之間實(shí)現(xiàn)對SQL語句的解析、路由以及事務(wù)處理等任務(wù)。若通過應(yīng)用層實(shí)現(xiàn),將會加大應(yīng)用的復(fù)雜程度和數(shù)據(jù)庫的維護(hù)難度。而通過中間件的方式可以實(shí)現(xiàn)對多個數(shù)據(jù)庫實(shí)例的整合,對內(nèi)滿足分布式數(shù)據(jù)庫的數(shù)據(jù)切分、讀寫分離、負(fù)載均衡等要求,對外提供一個整合后的邏輯數(shù)據(jù)庫的接口,降低了應(yīng)用層對分布式數(shù)據(jù)庫直接操作的復(fù)雜度和不安全性。

      根據(jù)分布式云存儲的分布式特征,本文設(shè)計了云存儲總體方案(見圖1),由數(shù)據(jù)庫中間件和多個數(shù)據(jù)庫實(shí)例搭建,并為用戶提供統(tǒng)一的服務(wù)應(yīng)用接口。在云端,論文選用開源的MySQL數(shù)據(jù)庫作為底層數(shù)據(jù)庫平臺、MyCat作為中間件進(jìn)行搭建。方案的工作流程為:應(yīng)用通過云端提供的接口發(fā)送數(shù)據(jù)庫請求,MyCat負(fù)責(zé)接收請求并將數(shù)據(jù)庫的執(zhí)行結(jié)果通過接口反饋給應(yīng)用。此外,為提高整個流程的效率,本文通過MyCat設(shè)計了混合分片方案,并為數(shù)據(jù)庫設(shè)計時空索引方案進(jìn)行了優(yōu)化。

      圖1 云存儲總體方案

      圖2 分布式云存儲架構(gòu)

      作為云存儲的基礎(chǔ)和核心,分布式數(shù)據(jù)庫的架構(gòu)設(shè)計是云存儲總體方案的主體部分。結(jié)合云存儲概念,本文為分布式數(shù)據(jù)庫設(shè)計了3層架構(gòu),以實(shí)現(xiàn)海洋動力環(huán)境數(shù)據(jù)的高效存儲和讀取,提高存儲系統(tǒng)的可擴(kuò)展性、安全性和可維護(hù)性。架構(gòu)見圖2。

      第一層為應(yīng)用層,主要負(fù)責(zé)提供應(yīng)用與數(shù)據(jù)庫中間件之間的訪問接口,是用戶連接、訪問分布式數(shù)據(jù)庫的主要途徑。

      第二層為中間件層,主要擔(dān)負(fù)數(shù)據(jù)庫實(shí)例與應(yīng)用之間數(shù)據(jù)交換,同時控制著分片數(shù)據(jù)在各數(shù)據(jù)庫實(shí)例之間的存儲位置。中間件通過應(yīng)用連接池接收到應(yīng)用層發(fā)送的SQL語句后,先對其進(jìn)行解析,獲得表名、字段等信息,經(jīng)優(yōu)化后傳給路由組件;路由組件通過在規(guī)則池里查找相關(guān)的規(guī)則,進(jìn)行相應(yīng)的運(yùn)算,并將運(yùn)算后的語句發(fā)送給執(zhí)行組件;執(zhí)行組件從數(shù)據(jù)庫連接池中獲取數(shù)據(jù)庫實(shí)例的連接,將接收到的語句發(fā)送到相應(yīng)的數(shù)據(jù)庫實(shí)例中,當(dāng)執(zhí)行語句收到的語句中涉及全局序列號,此時需要序列號生成組件提供全局唯一的序列號,當(dāng)執(zhí)行的事務(wù)跨多個數(shù)據(jù)庫實(shí)例時,需要通過事務(wù)管理組件協(xié)調(diào)事務(wù)[6];當(dāng)數(shù)據(jù)庫實(shí)例執(zhí)行語句結(jié)束后,執(zhí)行組件將所有實(shí)例的執(zhí)行結(jié)果提交給結(jié)果處理組件,處理組件將各實(shí)例的運(yùn)算結(jié)果進(jìn)行整合,反饋給應(yīng)用層。

      第三層為數(shù)據(jù)庫層,是分布式數(shù)據(jù)庫中的數(shù)據(jù)存儲位置,在接收到了中間件傳來的數(shù)據(jù)SQL執(zhí)行命令后,各數(shù)據(jù)庫實(shí)例同時進(jìn)行執(zhí)行,并將執(zhí)行的結(jié)果返回給中間件層。

      3 分片方案設(shè)計

      分片方案是提高云存儲方案性能的重要環(huán)節(jié),是分布式數(shù)據(jù)庫的關(guān)鍵問題之一。分片必須保證數(shù)據(jù)的完備性、不相交性、可重構(gòu)性,分片的質(zhì)量直接決定分布式數(shù)據(jù)庫的查詢效率[7]。傳統(tǒng)的分片方案大多針對一維數(shù)據(jù)進(jìn)行,利用Hash、Round-Robin等方法實(shí)現(xiàn)[8]。由于海洋動力環(huán)境數(shù)據(jù)具有時空性和多維性,傳統(tǒng)方法易造成部分節(jié)點(diǎn)負(fù)載超重,降低查詢性能[9]。因此,本文結(jié)合海洋動力環(huán)境數(shù)據(jù)的特性以及不同業(yè)務(wù)需求,設(shè)計了基于屬性的垂直分片、基于時間的水平分片和基于空間的水平分片相嵌套的混合分片方式,均衡分配各節(jié)點(diǎn)負(fù)載,彌補(bǔ)單一分片方式的不足。

      3.1 基于屬性的垂直分片設(shè)計方案

      垂直分片是按照屬性結(jié)合將關(guān)系分成不相交的子集,在垂直方向上對全局關(guān)系進(jìn)行的投影操作,切分后的每個片段包含原表的部分屬性及其主碼[10],其目的是根據(jù)應(yīng)用需求正確劃分屬性組。使用垂直分片方式可以將耦合度較小的字段進(jìn)行切分,切分成適應(yīng)于不同業(yè)務(wù)的邏輯片段,在垂直方向上減小單表體積。海洋動力環(huán)境數(shù)據(jù)包含多個屬性,表結(jié)構(gòu)字段多、結(jié)構(gòu)復(fù)雜,又因其時間序列長、空間范圍大等特性,導(dǎo)致單表體積龐大,影響查詢效率。因此,本文采用先垂直分片,在縱向上將數(shù)據(jù)表切分成幾個邏輯單表,再對每個邏輯單表進(jìn)行水平切分,并存儲到物理設(shè)備中。

      首先,根據(jù)屬性關(guān)聯(lián)度將海洋動力環(huán)境數(shù)據(jù)分成幾個子關(guān)系,每子關(guān)系滿足相應(yīng)業(yè)務(wù)需求。考慮到數(shù)據(jù)的時空屬性,將表中表征空間位置的經(jīng)緯度及時間屬性作為每個邏輯片段的主碼保存在每個子關(guān)系中。根據(jù)劃分的子關(guān)系進(jìn)行垂直分片,切分得到的每個邏輯片段將保存與原表屬性相對應(yīng)數(shù)據(jù)記錄,分片規(guī)則見圖3。

      圖3 垂直分片方案

      數(shù)據(jù)表經(jīng)垂直分片得到的每個邏輯片段的字段減少、結(jié)構(gòu)簡單化,在分布式數(shù)據(jù)庫執(zhí)行特定任務(wù)時,如查詢有效波高值(hs字段),只需在ScatterGraph表中進(jìn)行查詢,相比在龐大的原數(shù)據(jù)表中查詢速度明顯提高。垂直分片雖然縮短了每個邏輯表的寬度,但由于海洋數(shù)據(jù)在時間、空間的范圍較大,元組數(shù)量仍然很大。因此,本文通過水平切分的方法將數(shù)據(jù)表的長度進(jìn)行了切分。

      3.2 基于時間的水平分片方案

      水平分片是將數(shù)據(jù)表的所有元組按照一定的約束條件劃分成眾多邏輯片段,每個邏輯片段互不相交。論文提出的水平分片是在垂直分片的基礎(chǔ)上進(jìn)行的,解決單一業(yè)務(wù)表數(shù)據(jù)量過于龐大帶來的讀寫效率低、節(jié)點(diǎn)負(fù)載不均衡問題。業(yè)務(wù)的數(shù)據(jù)需求主要側(cè)重于兩方面,單個空間點(diǎn)長時間序列的數(shù)據(jù)查詢和空間范圍內(nèi)大規(guī)模空間點(diǎn)的數(shù)據(jù)查詢?;谶@兩方面,論文分別設(shè)計了基于時間和空間的水平分片方案。首先介紹基于時間的水平分片方案。

      在垂直分片基礎(chǔ)上,通過對邏輯表的時間制定規(guī)則進(jìn)行水平切分,即基于時間的水平分片。以垂直切分后得到的ScatterGraph表為例,該表主要是用作實(shí)現(xiàn)有效波高-跨零周期散布圖的繪制。繪制散布圖需要的數(shù)據(jù)是某一空間點(diǎn)在指定連續(xù)時間范圍內(nèi)所有的有效波高和跨零周期屬性數(shù)據(jù),應(yīng)用系統(tǒng)再根據(jù)數(shù)據(jù)統(tǒng)計結(jié)果進(jìn)行繪制。

      根據(jù)以上情況,將ScatterGraph表中的datatime字段(表征時間的字段)作為分片謂詞制定分片條件進(jìn)行水平切分。水平分片可視為關(guān)系的選擇,用選擇操作σ表示。將ScatterGraph表定義為關(guān)系R,datatime為選擇條件Q,也叫作分片謂詞。為了分片均勻以及計算方便,首先對分片謂詞Q做預(yù)處理,根據(jù)數(shù)據(jù)的時間順序序列為每條記錄創(chuàng)建一個整型的標(biāo)識碼ID,并將其作為新的分片謂詞q代替之前的Q。分片條件表示為:

      式中:N表示節(jié)點(diǎn)個數(shù),C∈(0,1,2……)。R1,R2,……,RN為切分后的片段。該分片條件滿足Ri∩Rj=?(i≠j),R=R1∪R2∪……∪RN,遵循分片的必須原則:完備性、可重構(gòu)性、不相交性。分片結(jié)果如圖4所示。

      通過此規(guī)則將所有記錄按照時間序列均勻切分到不同節(jié)點(diǎn)上,經(jīng)過切分后同一時刻的所有空間點(diǎn)的數(shù)據(jù)記錄保存在同一個節(jié)點(diǎn)上,保證數(shù)據(jù)在時間維度方面節(jié)點(diǎn)間的均勻分布,針對側(cè)重于單個空間點(diǎn)時間表達(dá)的業(yè)務(wù)來說,實(shí)現(xiàn)了分布式資源的充分利用,提高了運(yùn)行效率。

      圖4 基于時間的水平分片

      3.3 基于空間的水平分片方案

      基于時間的分片方案實(shí)現(xiàn)的是數(shù)據(jù)在時間上的均勻分配,相同時刻的所有空間點(diǎn)的數(shù)據(jù)保存在同一節(jié)點(diǎn)。當(dāng)查詢?nèi)蝿?wù)涉及到較大空間范圍時,同時刻的數(shù)據(jù)過度集中于一個節(jié)點(diǎn),該方案難以將任務(wù)均衡分配,在浪費(fèi)分布式資源的同時也導(dǎo)致了服務(wù)器節(jié)點(diǎn)的負(fù)載傾斜。為此,本文為側(cè)重于空間表達(dá)的數(shù)據(jù)設(shè)計了基于空間的分片方案。下面以CurSpeedDir表為例進(jìn)行說明。

      CurSpeedDir表是海洋動力環(huán)境數(shù)據(jù)經(jīng)垂直分片后的一個邏輯分片,主要用來實(shí)現(xiàn)流速流向數(shù)據(jù)的存儲,不僅要求數(shù)據(jù)的時間連續(xù)性,同時還要求空間連續(xù)性。論文針對大空間范圍的可視化表達(dá)業(yè)務(wù)需求,以空間位置為基準(zhǔn)進(jìn)行分片,實(shí)現(xiàn)所有空間位置點(diǎn)的相關(guān)記錄均衡分配到各個節(jié)點(diǎn)。

      海洋動力環(huán)境數(shù)據(jù)的空間位置需要經(jīng)度和緯度定義,則分片條件利用這兩個屬性作為分片屬性來制定。海洋動力環(huán)境數(shù)據(jù)呈格網(wǎng)式分布,網(wǎng)格的分辨率定義為Resolution,Lonmax和Lonmin分別表示空間范圍的最大、最小經(jīng)度值;Lat表示待分配數(shù)據(jù)點(diǎn)的緯度值,Latmax和Latmin分別表示空間范圍的最大、最小緯度值;Num是根據(jù)格網(wǎng)的行列數(shù)確定的空間點(diǎn)編號。分片條件如下:

      圖5 基于空間的水平分片

      謂詞集Pr={P1:Num=C×N+1,P2:Num=C×N+ 2,…,PN:Num=C×N+N},C∈(0,1,2,……),N為節(jié)點(diǎn)總數(shù),謂詞集具有完備性和最小性。

      與基于時間分片一樣,關(guān)系R通過謂詞集Pr篩選得到水平切分片段R1,R2,……,RN,滿足分片的3大原則:完備性、可重構(gòu)性、不相交性。切分結(jié)果見圖5。

      通過上述分片條件計算,可實(shí)現(xiàn)根據(jù)空間位置將數(shù)據(jù)均勻分配到各個節(jié)點(diǎn),一個位置點(diǎn)的所有時刻數(shù)據(jù)記錄存儲在同一節(jié)點(diǎn)上。在實(shí)現(xiàn)流速流向動態(tài)可視化表達(dá)時,需要查詢空間范圍內(nèi)指定時間序列的數(shù)據(jù)?;诳臻g分片后的查詢目標(biāo)結(jié)果集均勻分布于各個節(jié)點(diǎn)間,對于大范圍的查詢?nèi)蝿?wù)來說,各節(jié)點(diǎn)并行查詢,充分利用各節(jié)點(diǎn)性能。

      經(jīng)過水平分片后,在性能優(yōu)化的同時,數(shù)據(jù)庫內(nèi)部結(jié)構(gòu)更加復(fù)雜,能夠更快的定位到所需數(shù)據(jù)記錄是進(jìn)一步提高分布式云管理的關(guān)鍵問題。為此,本文設(shè)計了時空索引機(jī)制,來實(shí)現(xiàn)數(shù)據(jù)的快速定位,進(jìn)一步提高數(shù)據(jù)的查詢速率。

      4 時空索引方案設(shè)計

      通過優(yōu)化的分片方案進(jìn)行分布式管理在一定程度上提高了數(shù)據(jù)的讀取速度,但是數(shù)據(jù)量基數(shù)大,篩選滿足條件的數(shù)據(jù)仍需要耗費(fèi)較長時間。時間、空間字段是數(shù)據(jù)表的主鍵,時空數(shù)據(jù)需要主鍵信息在數(shù)據(jù)集中定位。為進(jìn)一步提高數(shù)據(jù)讀取效率,本文提出了基于MySQL分布式云存儲的時空索引機(jī)制,即在分布式數(shù)據(jù)庫中對數(shù)據(jù)的時間、空間屬性字段建立復(fù)合索引,以達(dá)到縮小查詢范圍、快速定位的目的。

      數(shù)據(jù)庫索引機(jī)制的目的是通過創(chuàng)建屬性字段的有序索引表,以最快的方式定位到滿足查詢條件的數(shù)據(jù)行。在執(zhí)行查詢命令時,首先通過索引表篩選,排除不相關(guān)數(shù)據(jù),進(jìn)而利用索引表中保存的物理地址直接定位,節(jié)省查詢時間。在云存儲管理方案下,對各個節(jié)點(diǎn)的數(shù)據(jù)庫創(chuàng)建索引,在保證分布式并行處理的基礎(chǔ)上提高了查詢效率,查詢流程見圖6。

      海洋動力環(huán)境數(shù)據(jù)在時空上連續(xù),經(jīng)分片存儲后,在分布數(shù)據(jù)庫中呈離散無序狀態(tài)??紤]到復(fù)合索引的“最左前綴”的特性和數(shù)據(jù)的時空性,論文為數(shù)據(jù)庫設(shè)計了順序為時間、緯度和經(jīng)度的復(fù)合索引。查詢過程中,通過時間、空間索引逐步篩選,最終利用篩選結(jié)果提供的物理地址值定位到數(shù)據(jù)表,獲取相應(yīng)的數(shù)據(jù)。索引表結(jié)構(gòu)簡單、數(shù)據(jù)量小,遍歷速度快,對整體查詢速度的提升有重要意義。

      5 效率對比分析

      本文以海浪數(shù)據(jù)的波高-周期散布圖統(tǒng)計為例,對比分析NetCDF文件存儲方式和云存儲方式進(jìn)行大數(shù)據(jù)量查詢統(tǒng)計的效率。波高-周期散布圖是一種長時間序列的海浪特征分析方法,需要獲取指定區(qū)域在連續(xù)時間范圍內(nèi)所有的有效波高值和跨零周期值,并對這些數(shù)據(jù)進(jìn)行分布區(qū)間統(tǒng)計,該圖可以反映作為隨機(jī)量的波高和周期出現(xiàn)的聯(lián)合概率分布(見圖7)。

      實(shí)驗數(shù)據(jù)為南海北部海域的海面風(fēng)場、流場和海浪數(shù)據(jù),包括1 min平均風(fēng)速、風(fēng)向、表層流速、表層流向、有效波高和跨零周期等37個要素變量,空間分辨率為1/4°,時間跨度為40 a,時間分辨率為1 h。將“空間位置+時刻”定義為一個時空點(diǎn),該時空范圍內(nèi)約7.5億個時空點(diǎn),每個時空點(diǎn)包含37個要素變量值。

      文件存儲方式通過NetCDF格式對實(shí)驗數(shù)據(jù)進(jìn)行存儲,按年份分為40個文件,總數(shù)據(jù)量約為120G。進(jìn)行長時間序列散布圖統(tǒng)計時,數(shù)據(jù)需要從多個文件中獲取,文件頻繁的打開、讀取、關(guān)閉的過程耗時較長,增加系統(tǒng)響應(yīng)時間,影響用戶體驗。此外,文件讀取速度易受到多種因素影響,包括計算機(jī)性能、計算機(jī)并行的程序數(shù)量、內(nèi)存占有量等,讀取效率不穩(wěn)定。

      圖6 時空索引機(jī)制

      圖7 波高-周期散布圖統(tǒng)計

      圖8 不同時間范圍長度數(shù)據(jù)的統(tǒng)計效率對比

      與文件管理方式不同,分布式云存儲方式的數(shù)據(jù)流傳輸過程為:應(yīng)用將查詢指令發(fā)送給中間件,根據(jù)分片方案中間件將任務(wù)合理分配給各個節(jié)點(diǎn)執(zhí)行,執(zhí)行結(jié)果通過中間件返回給應(yīng)用。分布式數(shù)據(jù)庫中多節(jié)點(diǎn)并行工作,查詢速度快。但是,所有任務(wù)都需要經(jīng)過中間件進(jìn)行任務(wù)分配和結(jié)果整合,會耗費(fèi)一定的時間。對于查詢數(shù)據(jù)量小的任務(wù)來說,中間件的任務(wù)分配與結(jié)果整合工作所用時間的比重較大,與文件系統(tǒng)管理方式效率相當(dāng)。

      對以上兩種方式,按1~40 a不同時間范圍進(jìn)行散布圖統(tǒng)計測試,得到的時間范圍長度(單位:a)與數(shù)據(jù)統(tǒng)計耗時(單位:s)的對比折線圖(見圖8)。兩種方式的軟硬件測試環(huán)境如下:

      (1)集中式NetCDF文件存儲方式:Intel Core(TM)i5-5200 CPU@2.20 GHz,8 G內(nèi)存,1 T硬盤,Windows 7專業(yè)版64位操作系統(tǒng);

      (2)分布式云存儲方式:5臺Vmware建立的虛擬機(jī),每個虛擬機(jī)的配置如下:4 G內(nèi)存,320 G硬盤,5臺虛擬機(jī)共用物理機(jī)的CPU為Intel Xeon(R)E7440 4核,Linux操作系統(tǒng)。

      由測試結(jié)果對比分析可知,通過集中式文件系統(tǒng)管理方式進(jìn)行小數(shù)據(jù)量的統(tǒng)計耗時較短,但耗時隨著統(tǒng)計數(shù)據(jù)量的增大而增加,并且增長速率不斷增大。分布式云存儲方式的效率變化較為平穩(wěn),在數(shù)據(jù)量小的情況下與文件管理方式的效率相差無幾,而對大數(shù)據(jù)量的統(tǒng)計效率明顯優(yōu)于文件管理方式。對于海洋動力環(huán)境數(shù)據(jù),數(shù)據(jù)量大是其突出特征,且數(shù)據(jù)更新速度快、數(shù)據(jù)量增長快,分布式云存儲方式將更加適用于大數(shù)據(jù)的分析和利用。

      6 結(jié)論

      當(dāng)前海洋動力環(huán)境數(shù)據(jù)凸顯出海量、高維、時空動態(tài)性等特征,傳統(tǒng)的集中式文件管理方式已經(jīng)不能滿足快速增長的數(shù)據(jù)分析和信息服務(wù)需求。為保證數(shù)據(jù)的安全性、可維護(hù)性和可擴(kuò)展性,提升數(shù)據(jù)的管理和利用效率,本文研究并搭建了基于MySQL關(guān)系型數(shù)據(jù)庫的分布式云存儲系統(tǒng),實(shí)現(xiàn)了海量海洋動力環(huán)境數(shù)據(jù)的云管理,并利用MyCat中間件實(shí)現(xiàn)與應(yīng)用程序的關(guān)聯(lián)。通過云存儲方式和文件存儲方式在數(shù)據(jù)查詢統(tǒng)計中的性能對比分析,進(jìn)一步驗證了云存儲方式在海洋動力環(huán)境大數(shù)據(jù)管理方面的效率優(yōu)勢。

      [1]王輝,劉娜,逄仁波,等.全球海洋預(yù)報與科學(xué)大數(shù)據(jù)[J].科學(xué)通報,2015,60(5-6):479-484.

      [2]李德仁,李熙.論夜光遙感數(shù)據(jù)挖掘[J].測繪學(xué)報,2015,44(6): 591-601.

      [3]黃冬梅,杜艷玲,賀琪.混合云存儲中海洋大數(shù)據(jù)遷移算法的研究[J].計算機(jī)研究與發(fā)展,2014,51(1):199-205.

      [4]桂兵祥,何健.基于高性能云的分布式數(shù)據(jù)挖掘方法[J].計算機(jī)工程,2010,36(5):76-78.

      [5]秦秀磊,張文博,魏峻,等.云計算環(huán)境下分布式緩存技術(shù)的現(xiàn)狀與挑戰(zhàn)[J].軟件學(xué)報,2013,24(1):50-66.

      [6]裴歐亞,劉文潔,李戰(zhàn)懷,等.一種面向海量分布式數(shù)據(jù)庫的嵌套查詢策略[J].華東師范大學(xué)學(xué)報(自然科學(xué)版),2014,(5):271-280.

      [7]朱欣焰,陳靜,向隆剛,等.分布式空間數(shù)據(jù)集成與查詢優(yōu)化技術(shù)[M].北京:測繪出版社,2013.

      [8]朱欣焰,周春輝,咼維.分布式空間數(shù)據(jù)分片與跨邊界拓?fù)溥B接優(yōu)化方法[J].軟件學(xué)報,2011,22(2):269-284.

      [9]蔣勇,譚懷亮,李光文.基于XML中間件的分布式異構(gòu)數(shù)據(jù)庫的數(shù)據(jù)分片策略研究[J].計算機(jī)應(yīng)用與軟件,2009,26(11):144-146.

      [10]李川.應(yīng)用半連接的分布式數(shù)據(jù)庫查詢優(yōu)化算法[J].重慶理工大學(xué)學(xué)報(自然科學(xué)),2013,27(11):74-77.

      Cloud storage of ocean dynamics environment data

      ZHANG Yu-juan1,SHI Shao-yu2,SUN Jing3,LIU Gui-yan4,AI Bo1

      (1.Key Laboratory of Surveying and Mapping Technology on Island and Reef,State Bureau of Surveying and Mapping,Shandong University of Science and Technology,Qingdao 266590 China;2.Satellite Surveying and Mapping Application Center,NASG,Beijing 100048 China; 3.School of Environment Science and Spatial Informatics,China University of Mining and Technology,Xuzhou 221116 China; 4.North China Sea Ocean Forecasting Center of State Oceanic Administration,Qingdao 266061 China)

      Considering spatial-temporal characteristics of the ocean dynamics environment data,the paper presents a cloud data management based on the distributed database,including a distributed spatial-temporal data sharding schema and a spatial-temporal index.The cloud management realizes physical distributed storage and logical integral structure of data,which improves the efficiency of data retrieval.Taking an example of ocean dynamics environment data in the South China Sea,to compute wave height-period scatter graph of 40 years,the cloud storage system takes less than 10 seconds while the files system takes about 2 minutes.

      ocean dynamics environment data;cloud storage;distributed database;data sharing;spatialtemporal index

      TP39;P7

      A

      1003-0239(2017)02-0072-08

      10.11737/j.issn.1003-0239.2017.02.010

      2016-06-21;

      2016-08-25。

      國家自然科學(xué)基金(41401529,41271394);測繪公益性行業(yè)科研專項(201512034);山東省高等學(xué)??萍加媱濏椖浚↗15LH01)。

      張玉娟(1991-),女,碩士在讀,從事海洋地理信息系統(tǒng)研究。E-mail:zhangyujuan199109@126.com

      艾波(1979-),男,副教授,博士,從事海洋時空分析和動態(tài)可視化研究。E-mail:aibogis@163.com

      猜你喜歡
      分片中間件時空
      上下分片與詞的時空佈局
      詞學(xué)(2022年1期)2022-10-27 08:06:12
      跨越時空的相遇
      鏡中的時空穿梭
      分片光滑邊值問題的再生核方法
      CDN存量MP4視頻播放優(yōu)化方法
      基于模糊二分查找的幀分片算法設(shè)計與實(shí)現(xiàn)
      玩一次時空大“穿越”
      RFID中間件技術(shù)及其應(yīng)用研究
      電子制作(2018年14期)2018-08-21 01:38:10
      基于VanConnect中間件的設(shè)計與開發(fā)
      電子測試(2018年10期)2018-06-26 05:54:02
      時空之門
      江达县| 壶关县| 杭锦后旗| 新巴尔虎左旗| 锡林浩特市| 宁晋县| 和龙市| 长汀县| 武定县| 彰武县| 广州市| 水富县| 文山县| 木里| 尖扎县| 临湘市| 桦南县| 金湖县| 固安县| 新密市| 二连浩特市| 永平县| 辽阳县| 内丘县| 濮阳市| 双峰县| 基隆市| 古浪县| 南投市| 白山市| 浦北县| 永仁县| 兴化市| 湘潭市| 天等县| 静海县| 沁水县| 金阳县| 綦江县| 获嘉县| 清远市|