武警北京市總隊(duì)第二醫(yī)院 劉 斌
基于云環(huán)境下的海量大數(shù)據(jù)存儲(chǔ)系統(tǒng)設(shè)計(jì)
武警北京市總隊(duì)第二醫(yī)院 劉 斌
云環(huán)境下的大數(shù)據(jù)處理是未來數(shù)據(jù)存儲(chǔ)、處理的主流技術(shù)。對此,本文通過對云環(huán)境下大數(shù)據(jù)的存儲(chǔ)、管理研究,分別對系統(tǒng)存儲(chǔ)文件夾、文件卡、數(shù)據(jù)處理算法進(jìn)行設(shè)計(jì),搭建成一個(gè)云環(huán)境下的大數(shù)據(jù)存儲(chǔ)平臺。最后,通過平臺的實(shí)際應(yīng)用,結(jié)果表明:云環(huán)境下存儲(chǔ)技術(shù)能夠?qū)崿F(xiàn)數(shù)據(jù)快速存儲(chǔ)、數(shù)據(jù)處理,提高了數(shù)據(jù)的存儲(chǔ)、管理效率與質(zhì)量。
云環(huán)境;大數(shù)據(jù);數(shù)據(jù)存儲(chǔ)系統(tǒng);系統(tǒng)設(shè)計(jì);算法
近年來,隨著計(jì)算機(jī)技術(shù)與互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)的信息量呈現(xiàn)大量增長的現(xiàn)象,對大量的數(shù)據(jù)進(jìn)行存儲(chǔ)、處理是一件較為困難的事情,傳統(tǒng)的數(shù)據(jù)存儲(chǔ)、處理技術(shù)已經(jīng)不能滿足當(dāng)下人們對數(shù)據(jù)處理、存儲(chǔ)的需求。針對此問題,本文通過對云環(huán)境下大數(shù)據(jù)的存儲(chǔ)管理研究,設(shè)計(jì)一個(gè)云環(huán)境下大數(shù)據(jù)存儲(chǔ)軟件,分別對系統(tǒng)的存儲(chǔ)文件夾、文件卡、數(shù)據(jù)處理算法進(jìn)行設(shè)計(jì),構(gòu)建了一個(gè)云環(huán)境下的大數(shù)據(jù)處理平臺,平臺的應(yīng)用結(jié)果表明:云存儲(chǔ)技術(shù)能夠?qū)崿F(xiàn)快速存儲(chǔ)、數(shù)據(jù)處理,提高了對數(shù)據(jù)的存儲(chǔ)、管理效率與質(zhì)量。
云計(jì)算是將數(shù)據(jù)信息的處理方式從個(gè)人電腦PC與互聯(lián)網(wǎng)轉(zhuǎn)移到數(shù)據(jù)中心的一種模式。云計(jì)算不僅涉及到軟件,還涉及到硬件等設(shè)施。數(shù)據(jù)的存儲(chǔ)與管理對任何企業(yè)都是非常重要的,而數(shù)據(jù)的安全性是數(shù)據(jù)存儲(chǔ)的關(guān)鍵。在云計(jì)算環(huán)境下,數(shù)據(jù)的可用性與持久性對存儲(chǔ)服務(wù)也是非常重要的。一般來說,一個(gè)大型的元計(jì)算服務(wù)有專屬的數(shù)據(jù)中心,大量的數(shù)據(jù)存在于各個(gè)不同的地方,數(shù)據(jù)以副本的形式存在于每個(gè)不同的地方,建立較好的容錯(cuò)機(jī)制,提高大數(shù)據(jù)的存儲(chǔ)、利用質(zhì)量。
大數(shù)據(jù)一般是指在規(guī)模上和復(fù)雜度上都是難以用現(xiàn)有的數(shù)據(jù)庫管理工具或傳統(tǒng)的計(jì)算方法完成對數(shù)據(jù)信息分析處理的數(shù)據(jù)。大數(shù)據(jù)是當(dāng)今世界流行的數(shù)據(jù)分析方法之一,需要從信息時(shí)代生活中,分析大量的信息數(shù)據(jù),從中得到各種各樣的有用數(shù)據(jù)信息。大數(shù)據(jù)具備五個(gè)特點(diǎn):數(shù)據(jù)量較大、種類多、速度快、時(shí)效高、價(jià)值密度低。目前,大數(shù)據(jù)主要存在以下幾個(gè)方面的挑戰(zhàn):
(1)數(shù)據(jù)采集存儲(chǔ)和生命周期的管理。由于現(xiàn)代互聯(lián)網(wǎng)絡(luò)的大力發(fā)展,數(shù)據(jù)信息的類型、結(jié)構(gòu)、模式變得更加復(fù)雜;
(2)數(shù)據(jù)包的處理。數(shù)據(jù)包的價(jià)值密度是較低的,需要快速地提取有用信息,具備數(shù)據(jù)處理高效、可信及可視化等特點(diǎn)。對于同一個(gè)數(shù)據(jù)信息,采用不同的處理方法與分析模型,最后得到的數(shù)據(jù)結(jié)果相差較大。大數(shù)據(jù)的處理結(jié)果還需滿足數(shù)據(jù)的可視化呈現(xiàn)、可追溯、可判斷等相關(guān)需求。
(3)數(shù)據(jù)的安全與隱私問題。在存儲(chǔ)、處理、傳輸大量數(shù)據(jù)信息的過程中,都需要處理安全方面的問題。大數(shù)據(jù)時(shí)代,往往生產(chǎn)數(shù)據(jù)的人也同時(shí)是使用、管理數(shù)據(jù)的人,所以原有的技術(shù)手段已經(jīng)顯示出不足,無法滿足現(xiàn)在大數(shù)據(jù)的安全要求。
大數(shù)據(jù)的存儲(chǔ)原理為:在數(shù)據(jù)存儲(chǔ)的過程中,根據(jù)相關(guān)的存儲(chǔ)節(jié)點(diǎn),建立一個(gè)大型的云環(huán)境數(shù)據(jù)存儲(chǔ)系統(tǒng),通過該系統(tǒng)將大量的數(shù)據(jù)處理任務(wù)分解為各個(gè)小的任務(wù),將數(shù)據(jù)的大集合區(qū)域分解為各小區(qū)域,然后并行進(jìn)行數(shù)據(jù)處理。以下為處理的詳細(xì)步驟:
根據(jù)上述原理中的數(shù)據(jù)處理過程,在并行處理數(shù)據(jù)時(shí),假設(shè)R為需存儲(chǔ)的大量的數(shù)據(jù),有k元屬性,A1,A2,Ai,Ak,代表大量數(shù)據(jù)的各屬性,其中Ai是大量數(shù)據(jù)被存儲(chǔ)在第m個(gè)節(jié)點(diǎn)上,
在大數(shù)據(jù)平臺數(shù)據(jù)處理過程中,大量的數(shù)據(jù)R為:
根據(jù)上述的步驟可完成與數(shù)據(jù)平臺的數(shù)據(jù)存儲(chǔ)優(yōu)化與并行處理。
云存儲(chǔ)系統(tǒng)文件存儲(chǔ)系統(tǒng)的把節(jié)點(diǎn)主要有兩部分:數(shù)據(jù)節(jié)點(diǎn)、非數(shù)據(jù)節(jié)點(diǎn)。系統(tǒng)中的主要成分是數(shù)據(jù)節(jié)點(diǎn)(圖中DateNode節(jié)點(diǎn)),管理節(jié)點(diǎn)與監(jiān)控節(jié)點(diǎn)為非數(shù)據(jù)節(jié)點(diǎn)(圖中Master節(jié)點(diǎn))。Client節(jié)點(diǎn)即為訪問的客戶。Node節(jié)點(diǎn)為系統(tǒng)主要部分,主要包括數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)查詢、事務(wù)處理,主要完成確保系統(tǒng)大部分任務(wù)的正常運(yùn)行。Master節(jié)點(diǎn)主要實(shí)現(xiàn)對系統(tǒng)整體狀態(tài)的監(jiān)控,包括系統(tǒng)節(jié)點(diǎn)狀態(tài)、局部數(shù)據(jù)節(jié)點(diǎn)的查詢、保持文件塊地址信息等。
圖1 云存儲(chǔ)系統(tǒng)結(jié)構(gòu)示意圖
在存儲(chǔ)系統(tǒng)存儲(chǔ)文件時(shí),規(guī)定每個(gè)文件塊都用一個(gè)主副本,每次事務(wù)處理文件塊時(shí)主本控制所有副本的信息更新。文件塊還有以下控制信息塊:(1)主副本所在節(jié)點(diǎn)編號:系統(tǒng)中各節(jié)點(diǎn)都在Master節(jié)點(diǎn)獲得屬于本節(jié)點(diǎn)的編號,且與本節(jié)點(diǎn)的地址組成一個(gè)節(jié)點(diǎn)編號。(2)副本個(gè)數(shù):包括主副本和其他副本,一般情況下,值為1時(shí),代表無其他副本,值為0則代表此文件塊不存在。(3)副本所在節(jié)點(diǎn)編號:保存所有節(jié)點(diǎn)編號,可實(shí)現(xiàn)根據(jù)節(jié)點(diǎn)編號尋找副本節(jié)點(diǎn)地址信息與系統(tǒng)編號的功能。
本數(shù)存儲(chǔ)系統(tǒng)采用谷歌公司的Chubby服務(wù)機(jī)制,Chubby算法主要通過5臺機(jī)器組成一體實(shí)現(xiàn)該算法的功能,這樣就可支撐萬臺機(jī)器鎖,5臺機(jī)器本身則采用完全冗余策略,Chubby內(nèi)部采用Conscnsusprotocol協(xié)議保證系統(tǒng)的一致性,在系統(tǒng)內(nèi)部的5臺機(jī)器中設(shè)定一個(gè)Master,隨著時(shí)間的推移而自動(dòng)更新。Client和Chubby之間采用event方式通信。
現(xiàn)階段,云存儲(chǔ)越來越受到關(guān)注,應(yīng)用范圍也越來越廣,各個(gè)領(lǐng)域都有較好的應(yīng)用范例。 隨著城市化的快速發(fā)展,城市監(jiān)控的網(wǎng)絡(luò)變得越來越重要,以下為云存儲(chǔ)平臺在視頻監(jiān)控領(lǐng)域的應(yīng)用情況。
隨著各互聯(lián)網(wǎng)公司的加入,云存儲(chǔ)研究相關(guān)人員將互聯(lián)網(wǎng)相關(guān)產(chǎn)品中的信息與云存儲(chǔ)應(yīng)用綁定,增加用戶的便捷性。在互聯(lián)網(wǎng)云存儲(chǔ)技術(shù)的支持下,互聯(lián)網(wǎng)上消費(fèi)電子產(chǎn)品的信息快速流通得以實(shí)現(xiàn),有圖片、文字、音樂、視頻的信息,實(shí)現(xiàn)產(chǎn)品信息的自由流通,為用戶提供了產(chǎn)品的交流元素。在該系統(tǒng)中需要提供存儲(chǔ)容量大于10PB的存儲(chǔ)系統(tǒng)?;ヂ?lián)網(wǎng)云存儲(chǔ)對訪問要求較低,需要實(shí)現(xiàn)對數(shù)據(jù)的保護(hù)、壓縮、刪除等操作,公司根據(jù)用戶對平臺的存儲(chǔ)服務(wù)空間、訪問流量等進(jìn)行相關(guān)的費(fèi)用收取。
云環(huán)境下的海量數(shù)據(jù)存儲(chǔ)技術(shù)是未來發(fā)展的趨勢,云平臺是實(shí)現(xiàn)該技術(shù)的載體。針對傳統(tǒng)的數(shù)據(jù)存儲(chǔ)、處理方式的各種不足,本系統(tǒng)采用云環(huán)境下的存儲(chǔ)技術(shù),實(shí)現(xiàn)對數(shù)據(jù)的安全、快速存儲(chǔ)、處理操作。通過對實(shí)際工程的應(yīng)用,結(jié)果表明云存儲(chǔ)技術(shù)的應(yīng)用提高了對海量大數(shù)據(jù)的存儲(chǔ)、處理操作的效率與質(zhì)量。
[1]邵彧.大數(shù)據(jù)云存儲(chǔ)中的并行優(yōu)化處理方法仿真[J].計(jì)算機(jī)仿真,2016,33(4):395-398.
[2]費(fèi)賢舉,王樹鋒.基于云環(huán)境下的海量大數(shù)據(jù)存儲(chǔ)系統(tǒng)設(shè)計(jì)[J].計(jì)算機(jī)測量與控制,2014,22(7):2259-2262.