閆德生 佟敏
【摘要】 近年來,隨著云計(jì)算和軟件即服務(wù)(SaaS)的興起,云存儲(chǔ)成為信息存儲(chǔ)領(lǐng)域的一個(gè)研究熱點(diǎn)。云存儲(chǔ)提供的是存儲(chǔ)服務(wù),存儲(chǔ)服務(wù)通過網(wǎng)絡(luò)將本地?cái)?shù)據(jù)存放在存儲(chǔ)服務(wù)提供商(SSP)提供的在線存儲(chǔ)空間,從而避免了存儲(chǔ)平臺(tái)的重復(fù)建設(shè),節(jié)約了昂貴的軟硬件基礎(chǔ)設(shè)施投資。本文對(duì)電信運(yùn)營(yíng)商現(xiàn)有云存儲(chǔ)的相關(guān)技術(shù)進(jìn)行分析與研究,為云存儲(chǔ)技術(shù)在支撐系統(tǒng)的應(yīng)用提供借鑒和參考。
【關(guān)鍵詞】 云存儲(chǔ) 虛擬化 CMDI SaaS
一、前言
云存儲(chǔ)是在云計(jì)算概念上延伸和發(fā)展出來的,通過集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中各種不同類型的存儲(chǔ)設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,共同對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問功能。云存儲(chǔ)是一種實(shí)用型服務(wù),利用現(xiàn)有的存儲(chǔ)虛擬化、集群存儲(chǔ)以及SAN+NAS等技術(shù)[缺少賓語,利用這些技術(shù)做什么,請(qǐng)補(bǔ)充]來實(shí)現(xiàn)。云存儲(chǔ)借助存儲(chǔ)虛擬化技術(shù)構(gòu)建龐大的存儲(chǔ)池,屏蔽底層存儲(chǔ)差異,對(duì)外提供一致的服務(wù)。云存儲(chǔ)提供的服務(wù)與SaaS有些類似,其提供的是存儲(chǔ)管理和服務(wù)。云存儲(chǔ)池可靈活調(diào)整,擴(kuò)展方便,能根據(jù)客戶需求定制。
二、云存儲(chǔ)標(biāo)準(zhǔn)CDMI規(guī)范分析
存儲(chǔ)行業(yè)標(biāo)準(zhǔn)組織SNIA公布的關(guān)于云存儲(chǔ)的CDMI(Cloud Data Management Interface)標(biāo)準(zhǔn),使大多數(shù)舊的非云存儲(chǔ)產(chǎn)品訪問演進(jìn)成云存儲(chǔ)訪問方式,提供了訪問云存儲(chǔ)和管理云存儲(chǔ)數(shù)據(jù)的方式,同時(shí)支持塊存儲(chǔ)和文件存儲(chǔ)客戶端。CDMI規(guī)范可以抽象為簡(jiǎn)單的表存儲(chǔ)空間,將對(duì)象看作是可以通過URI(統(tǒng)一資源ID)來訪問的唯一項(xiàng)目,還可用于行政管理和管理型應(yīng)用程序,以便管理封裝器、賬號(hào)、安全訪問和監(jiān)視/賬單信息。CDMI規(guī)范的不足之處在于并沒有提供通過可靠性和質(zhì)量來衡量云存儲(chǔ)提供商所提供數(shù)據(jù)質(zhì)量的方式,所以不能絕對(duì)防止數(shù)據(jù)丟失風(fēng)險(xiǎn)。
三、云存儲(chǔ)與傳統(tǒng)存儲(chǔ)的比較
(1)傳統(tǒng)的存儲(chǔ)容量從10TB級(jí)到300TB級(jí),最多可擴(kuò)展到PB級(jí);云存儲(chǔ)支持海量數(shù)據(jù)的存儲(chǔ),可以實(shí)現(xiàn)存儲(chǔ)容量從PB級(jí)到EB級(jí)的平滑擴(kuò)容,支持的文件數(shù)目最多可達(dá)上百億個(gè),滿足支撐系統(tǒng)中大量數(shù)據(jù)存儲(chǔ)的要求。
(2)傳統(tǒng)存儲(chǔ)以級(jí)聯(lián)方式進(jìn)行容量擴(kuò)容,且級(jí)聯(lián)數(shù)目一般不超過4個(gè);云存儲(chǔ)支持SCALE OUT方式擴(kuò)展,具有極好的擴(kuò)展性,性能和容量隨著節(jié)點(diǎn)數(shù)目成正比。
(3)傳統(tǒng)存儲(chǔ)采用FC磁盤保障數(shù)據(jù)可靠性,在保障利用率的同時(shí),最多可容忍2塊位于不同硬盤組的硬盤故障而不造成數(shù)據(jù)損壞;云存儲(chǔ)具有良好的可靠性,最多可能同時(shí)容忍44塊位于不同硬盤組的硬盤故障,能充分保證支撐系統(tǒng)的有效運(yùn)營(yíng)。
(4)傳統(tǒng)存儲(chǔ)中陣列的控制器是整個(gè)系統(tǒng)的瓶頸,系統(tǒng)性能受制于控制器和CACHE大??;云存儲(chǔ)系統(tǒng)有多個(gè)元數(shù)據(jù)節(jié)點(diǎn)和多個(gè)數(shù)據(jù)節(jié)點(diǎn),管理通道和數(shù)據(jù)通道相互分離,消除了系統(tǒng)瓶頸,具有很高的讀寫性能、IOPS和并發(fā)訪問能力。
(5)傳統(tǒng)存儲(chǔ)支持的接口類型有限,而云存儲(chǔ)支持多種類型的文件存儲(chǔ)和對(duì)象存儲(chǔ)接口。
(6)傳統(tǒng)的存儲(chǔ)系統(tǒng)升級(jí)時(shí),將舊存儲(chǔ)設(shè)備文件備份后停機(jī)換上新存儲(chǔ)設(shè)備,這將導(dǎo)致服務(wù)的停止;云存儲(chǔ)并不單獨(dú)依賴一臺(tái)存儲(chǔ)服務(wù)器,系統(tǒng)將舊存儲(chǔ)服務(wù)器上的文件遷移到其他存儲(chǔ)服務(wù)器,待新存儲(chǔ)服務(wù)器上線后,文件會(huì)重新遷移回新服務(wù)器,因此存儲(chǔ)服務(wù)器硬件的更新、升級(jí)并不會(huì)影響存儲(chǔ)服務(wù)的提供。
(7)傳統(tǒng)的存儲(chǔ)采用串行擴(kuò)容,受到存儲(chǔ)容量的限制;云存儲(chǔ)采取的架構(gòu)是并行擴(kuò)容,擴(kuò)容時(shí)只要采購(gòu)新的存儲(chǔ)服務(wù)器即可。
(8)傳統(tǒng)的存儲(chǔ)管理非常復(fù)雜,不同存儲(chǔ)廠商有不同的管理界面;對(duì)云存儲(chǔ)而言,再多的存儲(chǔ)服務(wù)器都會(huì)被視為一臺(tái)存儲(chǔ),都可以在一個(gè)管理界面上進(jìn)行管理操控。
四、云存儲(chǔ)結(jié)構(gòu)模型與實(shí)現(xiàn)前提
4.1 云存儲(chǔ)結(jié)構(gòu)模型層次
云存儲(chǔ)系統(tǒng)根據(jù)完成功能不同,可分為四個(gè)層次,從下到上依次為:數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)管理層、數(shù)據(jù)服務(wù)層和用戶訪問層,如圖1所示。
(1)數(shù)據(jù)存儲(chǔ)層
云存儲(chǔ)的數(shù)據(jù)存儲(chǔ)層將不同類型的存儲(chǔ)設(shè)備互連起來,實(shí)現(xiàn)海量數(shù)據(jù)的統(tǒng)一管理,同時(shí)實(shí)現(xiàn)對(duì)存儲(chǔ)設(shè)備的集中管理、狀態(tài)監(jiān)控以及容量的動(dòng)態(tài)擴(kuò)展,其實(shí)質(zhì)是一種面向服務(wù)的分布式存儲(chǔ)系統(tǒng)。
(2)數(shù)據(jù)管理層
數(shù)據(jù)管理層為上層提供不同服務(wù)間公共管理的統(tǒng)一視圖。通過設(shè)計(jì)統(tǒng)一的用戶管理、安全管理、副本管理及策略管理等公共數(shù)據(jù)管理功能,將底層存儲(chǔ)及上層應(yīng)用無縫銜接起來,實(shí)現(xiàn)多存儲(chǔ)設(shè)備之間的協(xié)同工作。
(3)數(shù)據(jù)服務(wù)層
數(shù)據(jù)服務(wù)層是云存儲(chǔ)平臺(tái)中可以靈活擴(kuò)展的、直接面向用戶的部分。根據(jù)用戶需求,可以開發(fā)出不同的應(yīng)用接口,如數(shù)據(jù)存儲(chǔ)服務(wù)、空間租賃服務(wù)、公共資源服務(wù)、多用戶數(shù)據(jù)共享服務(wù)、數(shù)據(jù)備份服務(wù)等。
(4)用戶訪問層
通過用戶訪問層,任何一個(gè)授權(quán)用戶都可以在任何地方,使用一臺(tái)聯(lián)網(wǎng)的終端設(shè)備,按照標(biāo)準(zhǔn)的公用應(yīng)用接口來登錄云存儲(chǔ)平臺(tái),享受云存儲(chǔ)服務(wù)。
4.2 云存儲(chǔ)實(shí)現(xiàn)前提
云存儲(chǔ)系統(tǒng)是一個(gè)多設(shè)備、多應(yīng)用、多服務(wù)協(xié)同工作的集合體,它的實(shí)現(xiàn)要以多種技術(shù)的發(fā)展為前提。
(1)寬帶網(wǎng)絡(luò)的發(fā)展
真正的云存儲(chǔ)系統(tǒng)是一個(gè)多區(qū)域分布、遍布全國(guó)[缺少賓語,請(qǐng)補(bǔ)充],甚至于遍布更龐大的公用系統(tǒng),使用者需要通過ADSL、DDN等寬帶接入設(shè)備來連接云存儲(chǔ)。寬帶網(wǎng)絡(luò)得到充足的發(fā)展,使用者才能獲得足夠大的數(shù)據(jù)傳輸帶寬,實(shí)現(xiàn)大容量數(shù)據(jù)的傳輸。
(2)WEB2.0技術(shù)
Web2.0技術(shù)的核心是分享。通過Web2.0技術(shù),云存儲(chǔ)的使用者能通過PC、手機(jī)、移動(dòng)多媒體等多種設(shè)備,實(shí)現(xiàn)數(shù)據(jù)、文檔、圖片和視頻、音頻等內(nèi)容的集中存儲(chǔ)和資料共享。Web2.0技術(shù)的發(fā)展使應(yīng)用方式和服務(wù)更加靈活和多樣。
(3)應(yīng)用存儲(chǔ)的發(fā)展
應(yīng)用存儲(chǔ)是一種在存儲(chǔ)設(shè)備中集成了應(yīng)用軟件功能的存儲(chǔ)設(shè)備,它不僅具有數(shù)據(jù)存儲(chǔ)功能,還具有應(yīng)用軟件功能,是服務(wù)器和存儲(chǔ)設(shè)備的集合體。應(yīng)用存儲(chǔ)技術(shù)的發(fā)展可以大量減少云存儲(chǔ)中服務(wù)器的數(shù)據(jù),降低系統(tǒng)建設(shè)成本,減少系統(tǒng)中由服務(wù)器造成的單點(diǎn)故障和性能瓶頸,減少數(shù)據(jù)傳輸環(huán)節(jié),提高系統(tǒng)性能和效率,保證整體系統(tǒng)的高效穩(wěn)定運(yùn)行。
(4)集群技術(shù)和分布式文件系統(tǒng)
云存儲(chǔ)系統(tǒng)是一個(gè)多存儲(chǔ)設(shè)備、多應(yīng)用、多服務(wù)協(xié)同工作的集合體,不同存儲(chǔ)設(shè)備之間需要通過集群技術(shù)、分布式文件系統(tǒng)和網(wǎng)格計(jì)算等技術(shù),實(shí)現(xiàn)存儲(chǔ)設(shè)備之間的協(xié)同工作,使多個(gè)存儲(chǔ)設(shè)備可以對(duì)外提供同一種服務(wù),并提供更強(qiáng)大的數(shù)據(jù)訪問性能。
(5)CDN[第一次出現(xiàn)英文縮寫,請(qǐng)給出英文全稱](Content Delivery Network)內(nèi)容分發(fā)和數(shù)據(jù)加密技術(shù)
CDN內(nèi)容分發(fā)系統(tǒng)和數(shù)據(jù)加密技術(shù)保證云存儲(chǔ)中的數(shù)據(jù)不會(huì)被未授權(quán)的用戶訪問。同時(shí),通過各種數(shù)據(jù)備份和容災(zāi)技術(shù)保證云存儲(chǔ)中的數(shù)據(jù)不會(huì)丟失,保證云存儲(chǔ)自身的安全和穩(wěn)定。
五、支撐系統(tǒng)中云存儲(chǔ)的應(yīng)用方向
支撐系統(tǒng)中,按照存儲(chǔ)系統(tǒng)外部接口的差異,國(guó)際標(biāo)準(zhǔn)化機(jī)構(gòu)SNIA將云存儲(chǔ)系統(tǒng)分為塊存儲(chǔ)、文件存儲(chǔ)、對(duì)象存儲(chǔ)和表存儲(chǔ)四類。其中,塊存儲(chǔ)向應(yīng)用數(shù)據(jù)庫(kù)或文件系統(tǒng)直接提供原始存儲(chǔ)塊空間,以標(biāo)準(zhǔn)的Intel/Linux硬件組件作為基本存儲(chǔ)單元,組件之間通過千兆以太網(wǎng)采用任意點(diǎn)對(duì)點(diǎn)拓?fù)浼夹g(shù)相互連接;文件存儲(chǔ)以標(biāo)準(zhǔn)文件系統(tǒng)接口形式向應(yīng)用系統(tǒng)提供海量非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)空間,通過NAS虛擬化或基于X86硬件集群和分布式文件系統(tǒng)集成在一起,實(shí)現(xiàn)少量非結(jié)構(gòu)化數(shù)據(jù)處理能力;對(duì)象存儲(chǔ)是基于X86集群為海量非結(jié)構(gòu)化數(shù)據(jù)提供key-value鍵值查找數(shù)據(jù)文件的存儲(chǔ)模式;表存儲(chǔ)向應(yīng)用系統(tǒng)提供高可擴(kuò)展的表存儲(chǔ)空間,包括交易型數(shù)據(jù)庫(kù)和分析型數(shù)據(jù)庫(kù)(日志詳單存儲(chǔ)和NoSQL),適合存儲(chǔ)海量結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)[1]。
根據(jù)數(shù)據(jù)存儲(chǔ)方式,在支撐系統(tǒng)中建議采用如下的數(shù)據(jù)存取和調(diào)用方式:
(1)對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ),可采用分布式文件系統(tǒng),基于POSIX/CIFS/NFS等標(biāo)準(zhǔn)文件系統(tǒng)接口協(xié)議進(jìn)行數(shù)據(jù)存取,適用于傳統(tǒng)NAS應(yīng)用,可隨機(jī)讀寫,完成文件在線備份和共享;
(2)對(duì)于高速數(shù)據(jù)存儲(chǔ)需求的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),可采用塊存儲(chǔ)方式,如直接使用裸卷的數(shù)據(jù)庫(kù),通過FC、iSCSI等標(biāo)準(zhǔn)接口進(jìn)行數(shù)據(jù)存?。?/p>
(3)對(duì)于HTTP相關(guān)內(nèi)容的存儲(chǔ)宜采用對(duì)象存儲(chǔ)方式,其適合于面向web的海量只讀性數(shù)據(jù)的存儲(chǔ);
表存儲(chǔ)服務(wù)主要存儲(chǔ)需要進(jìn)行查詢、分析的非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù),可存儲(chǔ)在日志詳單類數(shù)據(jù)存儲(chǔ)系統(tǒng)中,依賴于數(shù)據(jù)表組織數(shù)據(jù)的數(shù)據(jù)庫(kù),能共享高并發(fā)訪問的應(yīng)用。其中,非結(jié)構(gòu)化數(shù)據(jù)通過HDFS接口進(jìn)行數(shù)據(jù)存取,利用MR接口進(jìn)行數(shù)據(jù)查詢、分析;結(jié)構(gòu)化數(shù)據(jù)通過命令行、FTP接口進(jìn)行數(shù)據(jù)存取,利用JDBC/SQL、MR接口進(jìn)行數(shù)據(jù)查詢、分析。
NoSQL數(shù)據(jù)庫(kù)也以表存儲(chǔ)服務(wù)方式存儲(chǔ),適用于不需要復(fù)雜系統(tǒng)查詢,但要求查詢速度快、存放數(shù)據(jù)量大的高并發(fā)訪問應(yīng)用[2]。
六、結(jié)束語
本文闡述了支撐系統(tǒng)中各種數(shù)據(jù)類型和場(chǎng)景適用的云存儲(chǔ)技術(shù)。對(duì)于支撐系統(tǒng)應(yīng)用[不通順,對(duì)于支撐系統(tǒng)應(yīng)用在做什么話沒說完,建議補(bǔ)充],面對(duì)各類生產(chǎn)系統(tǒng)的存儲(chǔ)要求,要求云存儲(chǔ)系統(tǒng)按需提供不同空間容量、不同性能的存儲(chǔ)資源,應(yīng)積極采用虛擬化技術(shù)整合現(xiàn)有FC SAN資源,挖掘設(shè)備潛力,建立分級(jí)存儲(chǔ)機(jī)制,使數(shù)據(jù)合理分布。在海量非結(jié)構(gòu)化數(shù)據(jù)處理、日志詳單處理、經(jīng)營(yíng)分析領(lǐng)域等積極實(shí)驗(yàn)和試點(diǎn)分布式存儲(chǔ)解決方案。
參 考 文 獻(xiàn)
[1] 云存儲(chǔ)技術(shù)及其應(yīng)用《中興通訊技術(shù)》2010,16(4)
[2] 一種對(duì)等結(jié)構(gòu)的云存儲(chǔ)系統(tǒng)研究《電子學(xué)報(bào) 》2010年05期
[3] 基于HDFS的云存儲(chǔ)服務(wù)系統(tǒng)研究《大連海事大學(xué)》2010年