摘要:文章主要研究了分布式存儲(chǔ)的定義及其特性,發(fā)現(xiàn)布式文件存儲(chǔ)系統(tǒng)拓展性強(qiáng)、容錯(cuò)性高、成本較低。并對(duì)大數(shù)據(jù)存儲(chǔ)中分布式文件存儲(chǔ)系統(tǒng)的類型及其應(yīng)用范圍作出了詳解。其中,GemFire系統(tǒng)具備較高的安全性并且能促進(jìn)設(shè)備的智能化,是具有代表性、值得應(yīng)用的系統(tǒng)之一。
關(guān)鍵詞:大數(shù)據(jù)存儲(chǔ);分布式文件存儲(chǔ)系統(tǒng);應(yīng)用
引言
2021年1月28日,中國(guó)海量存儲(chǔ)系統(tǒng)MassStor100排行榜發(fā)布,這是我國(guó)國(guó)內(nèi)首個(gè)存儲(chǔ)領(lǐng)域權(quán)威榜單。大數(shù)據(jù)環(huán)境下,信息收集與存儲(chǔ)技術(shù)逐漸成為人們生活當(dāng)中不可缺少的部分。并且大數(shù)據(jù)推動(dòng)了傳統(tǒng)存儲(chǔ)技術(shù)的革新,促進(jìn)了現(xiàn)代化基于網(wǎng)絡(luò)技術(shù)的存儲(chǔ)系統(tǒng)的生成。且大數(shù)據(jù)存儲(chǔ)中分布式文件存儲(chǔ)系統(tǒng)能夠以快速、便捷的方式完成信息存儲(chǔ)與管理,并且可以為用戶提供個(gè)性化存儲(chǔ)服務(wù)。但是不同的存儲(chǔ)系統(tǒng)適用的范圍與效果皆有不同,為實(shí)現(xiàn)用戶選擇合適的分布式文件存儲(chǔ)系統(tǒng),對(duì)大數(shù)據(jù)存儲(chǔ)中分布式文件存儲(chǔ)系統(tǒng)進(jìn)行了深入研究。
1 分布式存儲(chǔ)的定義
在大數(shù)據(jù)存儲(chǔ)技術(shù)中,根據(jù)物理形態(tài)可以分成兩大板塊:集中式存儲(chǔ)與分布式存儲(chǔ)。集中式存儲(chǔ)與分布式存儲(chǔ)實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)的形式與方法完全不一樣,集中式存儲(chǔ)利用設(shè)備的疊加來(lái)實(shí)現(xiàn)擴(kuò)增大數(shù)據(jù)容量,分布式存儲(chǔ)則基于軟件服務(wù)來(lái)實(shí)現(xiàn)大數(shù)據(jù)存儲(chǔ)。分布式存儲(chǔ)需要服務(wù)器、服務(wù)和軟件形成一個(gè)完成存儲(chǔ)的綜合體,并且這個(gè)綜合體是采用非標(biāo)準(zhǔn)程序協(xié)議的方式對(duì)其他服務(wù)器已有的存儲(chǔ)資源進(jìn)行整合利用。再通過由主體設(shè)備的固有存儲(chǔ)資源與其他軟件的增容資源進(jìn)行聯(lián)合處理,實(shí)現(xiàn)存資源池化,同時(shí)進(jìn)行虛擬化處理,最終呈現(xiàn)給用戶“塊存儲(chǔ)”或“文件存儲(chǔ)”形式的大容量存儲(chǔ)空間??偟膩?lái)說,就是將一些分散在不同機(jī)器設(shè)備中的磁盤空間數(shù)據(jù),利用網(wǎng)絡(luò)技術(shù)和支持運(yùn)行存儲(chǔ)的軟件對(duì)其進(jìn)行有效整合,以此搭建一個(gè)可以延伸擴(kuò)展、完整的結(jié)構(gòu)系統(tǒng),實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的存儲(chǔ)服務(wù)。
2 分布式文件存儲(chǔ)系統(tǒng)的特性
2.1可拓展性
大數(shù)據(jù)存儲(chǔ)中分布式文件存儲(chǔ)系統(tǒng)一個(gè)較顯著的特點(diǎn)就是其具備可拓展性能。傳統(tǒng)集中式的存儲(chǔ)系統(tǒng)無(wú)法實(shí)現(xiàn)對(duì)其他機(jī)器設(shè)備的有效連接與延伸,而分布式存儲(chǔ)系統(tǒng)不但可以對(duì)不同的及其設(shè)備與軟件的進(jìn)行有效連接,進(jìn)行存儲(chǔ)資源整合,還能通過其擴(kuò)展性優(yōu)勢(shì)實(shí)現(xiàn)對(duì)數(shù)百上千臺(tái)機(jī)器設(shè)備的存儲(chǔ)利用,并形成一個(gè)覆蓋范圍較大的存儲(chǔ)集群[1]。
2.2容錯(cuò)性
分布式文件存儲(chǔ)系統(tǒng)強(qiáng)大的容錯(cuò)性效能,可以快速完成對(duì)服務(wù)器的故障檢測(cè),并且可以對(duì)發(fā)生故障的服務(wù)器及時(shí)進(jìn)行內(nèi)部數(shù)據(jù)的高效自動(dòng)化遷移。但是分布式文件存儲(chǔ)系統(tǒng)在內(nèi)部數(shù)據(jù)的存儲(chǔ)與管理過程中,需要對(duì)其進(jìn)行適當(dāng)調(diào)整以實(shí)現(xiàn)存儲(chǔ)數(shù)的持久化,保障數(shù)據(jù)信息資源的穩(wěn)定狀態(tài)。究其原因,是因?yàn)榉植际轿募鎯?chǔ)系統(tǒng)中的存儲(chǔ)拓?fù)浣Y(jié)構(gòu)較為復(fù)雜,而運(yùn)行繁瑣則會(huì)對(duì)分布式文件存儲(chǔ)系統(tǒng)造成一定影響,會(huì)增加系統(tǒng)發(fā)生故障的概率。為了預(yù)防系統(tǒng)故障的可能,則需要分布式文件存儲(chǔ)系統(tǒng)切實(shí)保障存儲(chǔ)數(shù)據(jù)的一致性,這就需要分布式文件存儲(chǔ)系統(tǒng)通過自動(dòng)容錯(cuò)、自動(dòng)遷移和并發(fā)讀寫等過程中完成數(shù)據(jù)一致性。
2.3成本低
分布式文件存儲(chǔ)系統(tǒng)對(duì)存儲(chǔ)設(shè)備的要求較低,常規(guī)服務(wù)器就能滿足分布式文件存儲(chǔ)系統(tǒng)的基本需求,支撐分布式文件存儲(chǔ)系統(tǒng)運(yùn)行。因此分布式文件存儲(chǔ)系統(tǒng)所消耗的成本較低,這也是分布式文件存儲(chǔ)系統(tǒng)比較明顯的優(yōu)勢(shì)與特點(diǎn)。同時(shí),分布式存儲(chǔ)系統(tǒng)得到拓展性也大幅度降低了其對(duì)服務(wù)器的要求,進(jìn)一步減少了分布式文件存儲(chǔ)系統(tǒng)運(yùn)行所需的設(shè)備服務(wù)器成本。
3 大數(shù)據(jù)存儲(chǔ)中分布式文件存儲(chǔ)系統(tǒng)的應(yīng)用
3.1 GemFire系統(tǒng)
當(dāng)前被廣泛運(yùn)用的分布式文件存儲(chǔ)系統(tǒng)主要包含兩個(gè)部分:Hadoop與NoSQL。Hadoop是分布式系統(tǒng)基礎(chǔ)架構(gòu),而NoSQL是非關(guān)系型的數(shù)據(jù)庫(kù),兩者涉及和被應(yīng)用的領(lǐng)域都較廣泛。除此之外,還有較前沿的NewSQL技術(shù),三者之間的存儲(chǔ)原理存在一致性,都是基于對(duì)存儲(chǔ)空間進(jìn)行合理利用與升級(jí)優(yōu)化,從而保障數(shù)據(jù)存儲(chǔ)的有效性并促進(jìn)資源優(yōu)化分配。而分布式文件存儲(chǔ)技術(shù)已然成為大數(shù)據(jù)存儲(chǔ)中的核心技術(shù),并且GemFire系統(tǒng)是比較具有代表性的分布式文件存儲(chǔ)系統(tǒng)。在實(shí)際運(yùn)用過程中,GemFire系統(tǒng)主要設(shè)計(jì)成橫向擴(kuò)展模式與其他機(jī)器設(shè)備的數(shù)據(jù)庫(kù)完成對(duì)接[2]。同時(shí),GemFire系統(tǒng)還可以對(duì)數(shù)據(jù)存儲(chǔ)空間進(jìn)行虛擬化處理,方便用戶對(duì)存儲(chǔ)空間進(jìn)行集中化管理。并且GemFire系統(tǒng)不需要依靠特定的讀寫磁盤就能實(shí)現(xiàn)對(duì)數(shù)據(jù)的有效存儲(chǔ),具有較高的穩(wěn)定性,有利于提高存儲(chǔ)數(shù)據(jù)空間的可靠性和保障數(shù)據(jù)的安全性。目前GemFire系統(tǒng)就被應(yīng)用到我國(guó)鐵道部的乘客信息安全與管理過程當(dāng)中,所以在優(yōu)先保障數(shù)據(jù)存儲(chǔ)安全與無(wú)讀寫磁盤限制時(shí),可以選擇GemFire系統(tǒng)這類極限數(shù)據(jù)分布式存儲(chǔ)技術(shù)進(jìn)行數(shù)據(jù)存儲(chǔ)。
3.2 Swift 系統(tǒng)
分布式文件存儲(chǔ)技術(shù)的成本要求具有多元化的特點(diǎn),并且有一些分布式文件存儲(chǔ)技術(shù)只需較低的運(yùn)行成本就能達(dá)到滿足用戶需要的存儲(chǔ)效果。這類低成本、低消耗分布式存儲(chǔ)系統(tǒng)與作用對(duì)象存在較大關(guān)聯(lián),并且在實(shí)際過程中,這類分布式文件存儲(chǔ)技術(shù)會(huì)利用相關(guān)的網(wǎng)頁(yè)服務(wù)協(xié)議分離數(shù)據(jù)通道及其對(duì)應(yīng)的控制通道,進(jìn)一步完成分布式文件存儲(chǔ)系統(tǒng)對(duì)不同數(shù)據(jù)庫(kù)的管控與利用。另外,這種存儲(chǔ)技術(shù)能夠有效促進(jìn)存儲(chǔ)對(duì)象提高自身智能屬性。比較有代表性的就是Swift 系統(tǒng),主要由數(shù)據(jù)訪問系統(tǒng)和數(shù)據(jù)自檢系統(tǒng)組成其中,Swift系統(tǒng)所含的數(shù)據(jù)訪問系統(tǒng)需要專門的服務(wù)器才能實(shí)現(xiàn),并且需要其他模塊設(shè)置成相對(duì)應(yīng)的運(yùn)行系統(tǒng)才能順利進(jìn)行,尤其是要保障數(shù)據(jù)檢索功能的對(duì)應(yīng)。Swift系統(tǒng)創(chuàng)建的各個(gè)數(shù)據(jù)存儲(chǔ)空間處于平等地位,并且內(nèi)部的系統(tǒng)框架能夠形成對(duì)稱效果,進(jìn)一步增強(qiáng)了Swift系統(tǒng)的擴(kuò)展性,除此之外,當(dāng)系統(tǒng)內(nèi)某個(gè)存儲(chǔ)空間出現(xiàn)故障時(shí)也不會(huì)造成數(shù)據(jù)的丟失,具備較高的安全保護(hù)性能。
3.3自定義分布式存儲(chǔ)技術(shù)
自定義分布式存儲(chǔ)技術(shù)有利于用戶結(jié)合自身需求選擇適用的分布式文件存儲(chǔ)系統(tǒng)。自定義分布式存儲(chǔ)技術(shù)能夠結(jié)合機(jī)器設(shè)備、存儲(chǔ)軟件的需要,對(duì)內(nèi)部系統(tǒng)進(jìn)行調(diào)整與改進(jìn)。當(dāng)前市面上較為常見、應(yīng)用較多的主要是Ceph系統(tǒng),Ceph系統(tǒng)因其具備多個(gè)對(duì)外接口可以實(shí)現(xiàn)存儲(chǔ)軟件拓寬訪問渠道,并且可以結(jié)合用戶需求和軟件要求提供個(gè)性化的存儲(chǔ)模式,基于不同需求設(shè)置塊存儲(chǔ)、文件存儲(chǔ)、對(duì)象存儲(chǔ)等模式。此外,Ceph系統(tǒng)還可以對(duì)Librbd 存儲(chǔ)系統(tǒng)、Rados-GW 系統(tǒng)提供有效支撐。雖然Ceph系統(tǒng)通過將多種存儲(chǔ)模式融入存儲(chǔ)系統(tǒng)的整體框架當(dāng)中,實(shí)現(xiàn)與不同存儲(chǔ)模式的系統(tǒng)進(jìn)行有機(jī)結(jié)合,但是Ceph系統(tǒng)的存儲(chǔ)模式及其覆蓋范圍難以支持系統(tǒng)跨度較大的規(guī)模布置。
結(jié)語(yǔ)
大數(shù)據(jù)存儲(chǔ)中分布式文件存儲(chǔ)系統(tǒng),由于其容錯(cuò)性高、可拓展性強(qiáng)好消耗成本較低的優(yōu)勢(shì),在眾多領(lǐng)域中得到廣泛應(yīng)用。并且根據(jù)其不同特性,用戶可結(jié)合自身需要進(jìn)行選擇。分布式文件存儲(chǔ)系統(tǒng)的不同存儲(chǔ)模式對(duì)應(yīng)的及其設(shè)備與存儲(chǔ)軟件也不盡相同,但是目前已有的GemFire系統(tǒng)、Swift 系統(tǒng)等,對(duì)數(shù)據(jù)存儲(chǔ)的保護(hù)作用較強(qiáng),還能實(shí)現(xiàn)對(duì)資源的優(yōu)化分配,對(duì)用戶來(lái)說都是不錯(cuò)的選擇。
參考文獻(xiàn)
[1]劉蘇英. 分布式文件存儲(chǔ)系統(tǒng)在電子通信大數(shù)據(jù)存儲(chǔ)中的應(yīng)用[J]. 九江學(xué)院學(xué)報(bào)(自然科學(xué)版),2021,36(02):78-80.
[2]高尚建,魏國(guó),楊功. 基于海量數(shù)據(jù)優(yōu)化管理的分布式文件存儲(chǔ)系統(tǒng)應(yīng)用研究[J]. 科技創(chuàng)新與應(yīng)用,2020,(18):181-182.
作者簡(jiǎn)介:劉建斌(1990年5月),男,漢族,籍貫:山西省忻州市人,學(xué)歷:碩士,職稱:助教,研究方向:數(shù)據(jù)存儲(chǔ)技術(shù)。