朱寅
摘 要:隨著現(xiàn)代化技術(shù)的不斷發(fā)展,在數(shù)據(jù)存儲(chǔ)上也發(fā)生了極大變化,各行各業(yè)均開(kāi)始運(yùn)用大數(shù)據(jù)存儲(chǔ)來(lái)保障系統(tǒng)運(yùn)行有效性。本文基于這一背景,簡(jiǎn)單闡述了大數(shù)據(jù)以及存儲(chǔ)技術(shù)的概念,分析了大數(shù)據(jù)存儲(chǔ)的幾項(xiàng)技術(shù),并在此基礎(chǔ)上針對(duì)其標(biāo)準(zhǔn)化展開(kāi)研究,旨在優(yōu)化大數(shù)據(jù)存儲(chǔ)方式,提升數(shù)據(jù)使用有效性。
關(guān)鍵詞:大數(shù)據(jù);存儲(chǔ)技術(shù);標(biāo)準(zhǔn)化
大數(shù)據(jù)指的是一種存儲(chǔ)、積累以及挖掘的大文件達(dá)到400GB甚至TB存儲(chǔ)程度的現(xiàn)象,在現(xiàn)如今信息化、網(wǎng)絡(luò)化發(fā)展時(shí)代下,大數(shù)據(jù)已經(jīng)并不罕見(jiàn),且廣泛應(yīng)用于各行各業(yè)。傳統(tǒng)數(shù)據(jù)存儲(chǔ)及管理中,面對(duì)海量的數(shù)據(jù)存儲(chǔ),其無(wú)論是存儲(chǔ)能力還是存儲(chǔ)效率,甚至是存儲(chǔ)安全性方面,均呈現(xiàn)出滯后狀態(tài)。目前在存儲(chǔ)技術(shù)上通常分為網(wǎng)絡(luò)存儲(chǔ)以及直接附加存儲(chǔ)兩種,其中網(wǎng)絡(luò)存儲(chǔ)又分為存儲(chǔ)域網(wǎng)絡(luò)以及網(wǎng)絡(luò)附屬存儲(chǔ)兩種。不同存儲(chǔ)技術(shù)適用范圍不同,本文針對(duì)其存儲(chǔ)方式以及標(biāo)準(zhǔn)化展開(kāi)分析,現(xiàn)報(bào)告如下:
1 大數(shù)據(jù)存儲(chǔ)技術(shù)研究
1.1 非結(jié)構(gòu)化數(shù)據(jù)的處理
在這一方面,要數(shù)HDFS最具代表性。HDFS主要服務(wù)于系統(tǒng)中的各項(xiàng)應(yīng)用程序,其將一些POSIX接口開(kāi)放,通過(guò)主/從結(jié)構(gòu)讓流式訪問(wèn)文件的數(shù)據(jù)被允許操作。它是由不同的數(shù)據(jù)節(jié)點(diǎn)以及一個(gè)名字節(jié)點(diǎn)所組成,能夠讓數(shù)據(jù)按照一定模式分割為不同的64位數(shù)模塊,并將其安排到不同分布式集群(由不同數(shù)據(jù)節(jié)點(diǎn)組成)中進(jìn)行存儲(chǔ)。當(dāng)然,若在使用過(guò)程中大數(shù)據(jù)存儲(chǔ)量不斷增多,只需要增加數(shù)據(jù)節(jié)點(diǎn)即可輕松實(shí)現(xiàn)存儲(chǔ)功能,擴(kuò)展性能較強(qiáng)。另外,非結(jié)構(gòu)化數(shù)據(jù)處理在數(shù)據(jù)吞吐量方面性能較好,海量的數(shù)據(jù)處理不會(huì)明顯影響到用戶體驗(yàn)。
1.2 分布式并行數(shù)據(jù)庫(kù)
分布式并行數(shù)據(jù)庫(kù)主要用于處理海量的、結(jié)構(gòu)化的數(shù)據(jù),是一種無(wú)共享、并行處理架構(gòu)的數(shù)據(jù)管理系統(tǒng)。這類型系統(tǒng)主要采用Slave或是Master架構(gòu)。Slave在運(yùn)用上較多,例如用戶數(shù)據(jù)的存儲(chǔ)方面,多是被通過(guò)散列方式存儲(chǔ)在不同的Slave服務(wù)器之中,且數(shù)據(jù)在Slave的不同節(jié)點(diǎn)上也具有副本,在系統(tǒng)適用性上較高。Master架構(gòu)則只用于對(duì)元數(shù)據(jù)的存儲(chǔ)。
1.3 半結(jié)構(gòu)化數(shù)據(jù)的處理
傳統(tǒng)數(shù)據(jù)處理由于沒(méi)有使用NoSQL數(shù)據(jù)庫(kù),當(dāng)遇到大數(shù)據(jù)存儲(chǔ)時(shí)往往表現(xiàn)出低性能、低擴(kuò)展性以及低靈活性缺陷。使用了NoSQL數(shù)據(jù)庫(kù)之后,云計(jì)算得以適應(yīng),目前其數(shù)據(jù)庫(kù)類型主要有以下幾種:列存儲(chǔ)數(shù)據(jù)庫(kù)、鍵值存儲(chǔ)數(shù)據(jù)庫(kù)、圖形數(shù)據(jù)庫(kù)以及文檔型數(shù)據(jù)庫(kù)。
2 大數(shù)據(jù)存數(shù)的標(biāo)準(zhǔn)化分析
2.1 云存儲(chǔ)服務(wù)
目前在大數(shù)據(jù)存儲(chǔ)上,普通用戶使用的云存儲(chǔ)服務(wù)大多為基于對(duì)象類型,表現(xiàn)為以下幾種模式:⑴綁定。綁定對(duì)象為特定的編程語(yǔ)言,表現(xiàn)為API開(kāi)發(fā)包,這類型的綁定處理利用了在REST接口上的一層封裝,讓編程語(yǔ)言在運(yùn)行效率上能夠大大提升。⑵接口設(shè)置。接口設(shè)置方面,主要采用HTTP接口或是REST接口兩種,要想實(shí)現(xiàn)云存儲(chǔ)服務(wù),就必須通過(guò)編程實(shí)現(xiàn)其交互功能,達(dá)到數(shù)據(jù)存儲(chǔ)的有效性。⑶非編程狀態(tài)下的存儲(chǔ)。這一種形式是由第三方軟件或是云存儲(chǔ)本身所在的運(yùn)營(yíng)商通過(guò)其門(mén)戶管理來(lái)完成的。對(duì)于使用者而言,它不需要再次編程,直接利用管理軟件調(diào)用REST接口或是圖形界面即可使用數(shù)據(jù)存儲(chǔ)功能。在這一形式中,使用者在后臺(tái)控制上會(huì)受到第三方軟件或者Portal的限制。
2.2 數(shù)據(jù)模型的設(shè)定及應(yīng)用接口研究
在數(shù)據(jù)存儲(chǔ)管理方面,應(yīng)注意對(duì)隊(duì)列對(duì)象、能力對(duì)象、域?qū)ο?、?shù)據(jù)對(duì)象以及容器對(duì)象這5個(gè)對(duì)象的管理,并實(shí)現(xiàn)對(duì)存儲(chǔ)數(shù)據(jù)的訪問(wèn)功能。在這5個(gè)對(duì)象中,前三個(gè)屬于特殊容器對(duì)象的一種。在Key-Valuc幫助下,每個(gè)對(duì)象均能夠?qū)崿F(xiàn)元數(shù)據(jù)描述功能。這里的元數(shù)據(jù)指的是使用者自定義數(shù)據(jù)、存儲(chǔ)管理數(shù)據(jù)以及安全元數(shù)據(jù)等。
應(yīng)用接口方面,大數(shù)據(jù)存儲(chǔ)技術(shù)的應(yīng)用系統(tǒng)可分為4種,即對(duì)象存儲(chǔ)系統(tǒng)、分布式文件系統(tǒng)、分布式關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng)以及NoSQL數(shù)據(jù)庫(kù)系統(tǒng),不同系統(tǒng)在應(yīng)用接口類型、應(yīng)用環(huán)境以及特性方面對(duì)比如下:⑴對(duì)象存儲(chǔ)系統(tǒng)??蛇m用REST或是HTTP接口,用于處理基于對(duì)象的設(shè)備操作以及數(shù)據(jù)存儲(chǔ),可有效定義對(duì)象的屬性,為用戶提供基于數(shù)據(jù)對(duì)象的功能操作。⑵分布式文件系統(tǒng)。其應(yīng)用接口可使用HTTP、CIFS或是NFS,主要應(yīng)用于非結(jié)構(gòu)化數(shù)據(jù)的管理以及存儲(chǔ),能夠?qū)⒃獢?shù)據(jù)有效定義,同時(shí)為用戶提供應(yīng)用及功能并管理相關(guān)數(shù)據(jù)。⑶分布式關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng)??蛇m用SQL、JDBC、ODBC應(yīng)用接口,應(yīng)用于結(jié)構(gòu)化數(shù)據(jù)的管理與存儲(chǔ),能夠?qū)﹃P(guān)系型數(shù)據(jù)模型有效定義,訪問(wèn)時(shí)基于數(shù)據(jù)組織結(jié)構(gòu)狀態(tài)。⑷NoSQL數(shù)據(jù)庫(kù)系統(tǒng)。適用于API、REST或是HTTP接口,用于對(duì)半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行管理與存儲(chǔ),其不支持SQL,數(shù)據(jù)模型處理原則采用schema-free原則。
3 結(jié)束語(yǔ)
大數(shù)據(jù)存儲(chǔ)并非一項(xiàng)單純技術(shù),而是多種不同存儲(chǔ)技術(shù)的綜合。在具體操作方面,其應(yīng)用接口類型多樣化,目前應(yīng)用最為成熟的算是分布式文件系統(tǒng)。NoSQL數(shù)據(jù)庫(kù)系統(tǒng)以及對(duì)象存儲(chǔ)系統(tǒng)在應(yīng)用上尚未達(dá)到成熟階段,相信在今后的研究中會(huì)不斷完善,讓大數(shù)據(jù)存儲(chǔ)不斷趨近標(biāo)準(zhǔn)化,提升其使用可行性。
[參考文獻(xiàn)]
[1]韓晶.大數(shù)據(jù)服務(wù)若干關(guān)鍵技術(shù)研究[D].北京郵電大學(xué),2013.
[2]夏軍寶.空間科學(xué)大數(shù)據(jù)存儲(chǔ)模型SP-HDF及應(yīng)用研究[D].中國(guó)地質(zhì)大學(xué)(北京),2013.
[3]李海波,程耀東.大數(shù)據(jù)存儲(chǔ)技術(shù)和標(biāo)準(zhǔn)化[J].信息技術(shù)與標(biāo)準(zhǔn)化,2013,05:23-26.
[4]蔣海波.海量數(shù)據(jù)存儲(chǔ)系統(tǒng)的高可靠性關(guān)鍵技術(shù)研究與應(yīng)用[D].電子科技大學(xué),2013.