魏曉萍
〔摘 要〕本文就數(shù)字圖書館網(wǎng)格存儲模型體系結(jié)構(gòu)、模型總體設(shè)計(jì)和網(wǎng)格存儲關(guān)鍵技術(shù)進(jìn)行分析。
〔關(guān)鍵詞〕網(wǎng)格存儲模型;數(shù)字圖書館;海量存儲;動態(tài)存儲;異構(gòu)存儲
〔中圖分類號〕G250.76 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2009)11-0085-02
Key Techniques on Resources Storage of the Digital Library Based on GridWei Xiaoping
(Library,Hunan University of Arts and Science,Changde 415000,China)
〔Abstract〕Digital library is constructed on the basis of the enormous quantity of digital information resources which can be read and used,and quality service from digital libraty is based on quality digital resource.This paper presented the key techniques on resources storage of the digital library based on grid,such as model system structure,digital library model of Grid storage architecture.
〔Keywords〕grid storage;digital library;mass storage;dynamic storage;heterogeneous storage
1 模型體系結(jié)構(gòu)
數(shù)字圖書館網(wǎng)格存儲系統(tǒng)是在現(xiàn)有的數(shù)字圖書館存儲系統(tǒng)基礎(chǔ)之上構(gòu)建一個整合存儲資源,為用戶屏蔽底層異構(gòu)存儲資源細(xì)節(jié),具有統(tǒng)一邏輯視圖的高性能虛擬的存儲系統(tǒng)。因此該系統(tǒng)必須能向下兼容,不能破壞現(xiàn)有數(shù)字圖書館存儲系統(tǒng)?;诖嗽瓌t,本文在網(wǎng)格五層沙漏結(jié)構(gòu)和開放網(wǎng)格服務(wù)體系結(jié)構(gòu)的基礎(chǔ)上構(gòu)建了數(shù)字圖書館網(wǎng)格存儲模型體系結(jié)構(gòu)。
該模型體系結(jié)構(gòu)自底向上分為4層:第一層是基本構(gòu)造層,該層為網(wǎng)格存儲服務(wù)提供基本的網(wǎng)絡(luò)環(huán)境、物理存儲資源和邏輯存儲資源,包括存儲設(shè)備(磁盤陣列、光盤庫和磁帶庫)、存儲系統(tǒng)(DAS,NAS,SAN,IP存儲和集群存儲)、數(shù)據(jù)邏輯存儲系統(tǒng)(文件系統(tǒng)、數(shù)據(jù)庫、檔案庫和元數(shù)據(jù)集)等。
第二層是連接層,該層主要是為下層的物理存儲資源和邏輯存儲資源提供安全的數(shù)據(jù)通信能力。
第三層是網(wǎng)格存儲服務(wù)層,它是網(wǎng)格體系結(jié)構(gòu)的核心。該層通過全局命名服務(wù)和存儲資源代理將最上層的用戶存儲請求映射為異構(gòu)分布存儲環(huán)境中的底層存儲操作,并能夠提供有效存儲監(jiān)控、調(diào)度、存儲作業(yè)管理、副本管理和存儲遷移管理。
第四層是用戶層,為用戶提供了數(shù)字圖書館的各類存儲應(yīng)用界面,包括數(shù)字圖書館資源采集、組織、管理所需的存儲;資源的發(fā)布與服務(wù)所需的存儲以及本地和異地容載備份所需的存儲。用戶在該層可以通過存儲入口,經(jīng)網(wǎng)格存儲授權(quán)認(rèn)證,向下層發(fā)出存取請求。
2 模型總體設(shè)計(jì)
從整體規(guī)劃來看,系統(tǒng)主要包括網(wǎng)格存儲服務(wù)點(diǎn)GSSP(Grid Storage Service Point)、認(rèn)證中心CA(Certificate Authority)、全局命名服務(wù)器GNS(Global Name Server)、資源管理器RM(Resource Manager)、存儲代理SA(Storage Agent)、客戶端[4]。整個設(shè)計(jì)中主要分為以下6個部分:(1)網(wǎng)格存儲服務(wù)點(diǎn)GSSP是整個系統(tǒng)的入口,對系統(tǒng)所有模塊的訪問都通過GSSP,它主要提供CA接口、GNS接口、RM接口和SA接口;系統(tǒng)中SSP的個數(shù)可以根據(jù)需要動態(tài)增加。(2)認(rèn)證中心CA包含證書管理系統(tǒng),主要負(fù)責(zé)系統(tǒng)的安全性和數(shù)據(jù)的訪問控制,同時(shí)它記錄了用戶的注冊信息。(3)全局命名服務(wù)器GNS負(fù)責(zé)系統(tǒng)的元數(shù)據(jù)管理,主要包括元數(shù)據(jù)操作接口、元數(shù)據(jù)容錯系統(tǒng)、元數(shù)據(jù)搜索系統(tǒng)。(4)資源管理器RM包括資源監(jiān)控模塊、資源調(diào)度模塊和副本管理模塊,其主要負(fù)責(zé)發(fā)現(xiàn)網(wǎng)格存儲服務(wù)設(shè)備、監(jiān)控存儲服務(wù)設(shè)備的狀態(tài)、存儲資源的申請和調(diào)度,同時(shí)提供透明的副本創(chuàng)建和選擇策略。(5)存儲代理SA是系統(tǒng)中非常關(guān)鍵的部分。(6)客戶端目前支持3種形式:通用FTP客戶端、文件訪問接口和特制客戶端。用戶通過系統(tǒng)提供的特制客戶端,不但能夠進(jìn)行用戶組操作,具有搜索和共享等功能,還可以獲得更高性能的服務(wù)。
3 數(shù)字圖書館網(wǎng)格存儲關(guān)鍵技術(shù)
3.1 海量存儲技術(shù)
近幾年來,數(shù)字圖書館信息資源呈幾何級數(shù)增長,存儲信息的度量單位由MB,GB向TB,PB轉(zhuǎn)變,其存儲的數(shù)據(jù)總量達(dá)到了海量規(guī)模。系統(tǒng)的存儲容量總受硬件條件的限制,故采用傳統(tǒng)的存儲模式則永遠(yuǎn)無法滿足存儲容量不斷增長的需要。但在網(wǎng)格環(huán)境下,由于數(shù)字圖書館采用的是第三代P2P混合網(wǎng)絡(luò)體系結(jié)構(gòu)的存儲系統(tǒng)[5]。這種系統(tǒng)結(jié)構(gòu)可以將任何一個NAS或SAN作為存儲網(wǎng)格的一個節(jié)點(diǎn)進(jìn)行管理,在原有網(wǎng)絡(luò)存儲基礎(chǔ)上進(jìn)行擴(kuò)展,具有良好的可升級性。它將以數(shù)據(jù)中心的集中式存儲管理轉(zhuǎn)化為分布式的管理和控制,從而解決了海量數(shù)據(jù)存儲問題。具體地講,數(shù)字圖書館網(wǎng)格存儲采用了3個方面的技術(shù)策略:
(1)在這種存儲結(jié)構(gòu)中,共享的文件不是集中存放在服務(wù)器上,而是分布在眾多的存儲系統(tǒng)節(jié)點(diǎn)上。系統(tǒng)的存儲容量是所有節(jié)點(diǎn)貢獻(xiàn)出來的空閑磁盤空間的總和,且隨著加入系統(tǒng)的節(jié)點(diǎn)數(shù)量線性增長。也就是說,由于大量的端系統(tǒng)的存儲空間處于閑置狀態(tài),因此將大量節(jié)點(diǎn)的空閑存儲容量利用聚集存儲技術(shù)就可以形成一個巨大的存儲空間。此外,網(wǎng)格上還有大量的文件,其內(nèi)容不多但需要長久存儲以備后續(xù)訪問,利用聚集存儲技術(shù)可以把多個小文件聚集成一個復(fù)合文件存儲在網(wǎng)格存儲空間,增加存儲空間的有效利用率。由此可見,數(shù)字圖書館信息資源的存儲任務(wù)可以在多個節(jié)點(diǎn)上進(jìn)行,并且遵循就近跨節(jié)點(diǎn)存儲的原則。
(2)網(wǎng)格環(huán)境下的數(shù)字圖書館數(shù)據(jù)流量大,為了避免大量的數(shù)據(jù)傳輸而造成通信資源阻塞,也為了避免單點(diǎn)故障造成損失,通過在網(wǎng)格中不同位置創(chuàng)建文件副本,節(jié)點(diǎn)就可以就近訪問所需的文件,降低訪問延遲,很好的適應(yīng)網(wǎng)絡(luò)的動態(tài)變化,大大提高文件的訪問性能。這樣網(wǎng)絡(luò)上所有的節(jié)點(diǎn)也就可以從其他節(jié)點(diǎn)上共享存儲資源。利用P2P技術(shù)的就近原則,圖書館可以將經(jīng)常訪問的內(nèi)容發(fā)布到其他的數(shù)字圖書館,讀者可以就近訪問,從而有效地解決了大數(shù)據(jù)量并發(fā)訪問瓶頸問題。
(3)對于客戶機(jī)/服務(wù)器模式的存儲系統(tǒng)來說,高度動態(tài)的網(wǎng)絡(luò)環(huán)境嚴(yán)重影響了文件服務(wù)性能,而龐大的用戶數(shù)量也給服務(wù)器帶來了沉重的負(fù)擔(dān)。而對于網(wǎng)格模式下的存儲系統(tǒng),由于文件的存儲和服務(wù)分散到了系統(tǒng)的每個節(jié)點(diǎn),使得每個節(jié)點(diǎn)只需要承擔(dān)少量的任務(wù),很好地起到了負(fù)載均衡的作用,從而避免以服務(wù)器為中心的網(wǎng)絡(luò)結(jié)構(gòu)的性能瓶頸。
3.2 動態(tài)存儲技術(shù)
數(shù)字圖書館系統(tǒng)在不同時(shí)刻對服務(wù)的需求是不同的,白天或某段時(shí)間內(nèi)可能因?yàn)樵L問人數(shù)激增造成對某部分的計(jì)算資源需求增加,一段時(shí)間后可能需求又有所下降。而這些都是無法預(yù)知的。為此,網(wǎng)格存儲技術(shù)必須有效地解決數(shù)字圖書館資源存儲動態(tài)存儲和按需存儲的問題。
(1)基于網(wǎng)格的數(shù)字圖書館館存儲系統(tǒng)必須能夠根據(jù)應(yīng)用系統(tǒng)的需求,動態(tài)擴(kuò)展存儲設(shè)備數(shù)量和容量而不影響其上層應(yīng)用。網(wǎng)格環(huán)境下,數(shù)字圖書館采用的是P2P存儲結(jié)構(gòu)。該存儲結(jié)構(gòu)中,每臺計(jì)算機(jī)既是客戶機(jī),也是服務(wù)器。它們之間可以直接交換信息,共同分擔(dān)文件的存儲和服務(wù),而不需要中央服務(wù)器。這種對等的體系結(jié)構(gòu)使得P2P存儲系統(tǒng)在擴(kuò)展性上有著天然的優(yōu)勢,特別是對分布式結(jié)構(gòu)化的P2P系統(tǒng)結(jié)構(gòu)來說,系統(tǒng)規(guī)模能夠擴(kuò)大和縮小,而性能幾乎不受影響。
(2)基于網(wǎng)格的數(shù)字圖書館館存儲系統(tǒng)能夠根據(jù)各種應(yīng)用系統(tǒng)的動態(tài)工作負(fù)載和內(nèi)部設(shè)備能力的變化,動態(tài)改變自己的配置、策略以提高I/O性能。要滿足數(shù)字圖書館動態(tài)性的需求,就必須實(shí)現(xiàn)存儲資源與計(jì)算資源的按需動態(tài)組合。網(wǎng)格環(huán)境下借助存儲虛擬化技術(shù),通過兩者在邏輯層面實(shí)現(xiàn)分離,最終實(shí)現(xiàn)兩者的動態(tài)映射關(guān)系。具體而言,存儲虛擬化技術(shù)通過封裝和虛擬化的存儲服務(wù)有效地分離主機(jī)層(包括:應(yīng)用、操作系統(tǒng)、HBA (Host Bus Adapter)等)、存儲網(wǎng)絡(luò)層(包括:交換機(jī)、路由器和網(wǎng)管等)、存儲層(包括:磁盤陣列、磁帶庫、光盤庫等),并且實(shí)現(xiàn)物理路徑、硬件設(shè)備特征、物理設(shè)備位置對主機(jī)透明,存儲資源與應(yīng)用分離,對存儲資源的管理可以實(shí)現(xiàn)動態(tài)的擴(kuò)充和配置管理,將存儲的邏輯層與物理層相分離,使得數(shù)據(jù)的移動不再依賴于主機(jī)和應(yīng)用。
(3)由于網(wǎng)格可以根據(jù)數(shù)據(jù)對用戶業(yè)務(wù)的關(guān)鍵性設(shè)定一定策略,從而決定數(shù)據(jù)的存儲位置,所以數(shù)字圖書館存儲可以靈活、動態(tài)地選擇網(wǎng)格節(jié)點(diǎn)中的物理存儲設(shè)備,這樣可以避免低價(jià)值數(shù)據(jù)浪費(fèi)昂貴的高端存儲空間。也就是說利用智能數(shù)據(jù)遷移將日訪問量不是很大的大部分?jǐn)?shù)據(jù)保持“脫機(jī)”,但又不“離線”的狀態(tài)。
3.3 異構(gòu)存儲技術(shù)
由于數(shù)字圖書館系統(tǒng)具有主機(jī)系統(tǒng)多類型、數(shù)據(jù)來源多方向性、數(shù)據(jù)存儲格式復(fù)雜,數(shù)據(jù)用途多樣等特點(diǎn),使得資源存儲在實(shí)現(xiàn)功能、性能和訪問接口上變化很大。但無論數(shù)據(jù)存儲接口如何變化,無論數(shù)據(jù)存儲在什么位置,用戶都要求完全無縫地訪問到所需數(shù)據(jù),而不必關(guān)心存儲設(shè)備所處的位置、采用何種存儲系統(tǒng)以及資源如何配置。存儲網(wǎng)格方案就能滿足此需求,它結(jié)合虛擬存儲技術(shù)、開放的標(biāo)準(zhǔn)規(guī)范和網(wǎng)格數(shù)據(jù)傳輸機(jī)制將異構(gòu)的存儲變成統(tǒng)一的虛擬存儲。
4 結(jié) 語
本文闡述了數(shù)字圖書館網(wǎng)格存儲模型及關(guān)鍵技術(shù),分別從模型體系結(jié)構(gòu)、模型總體設(shè)計(jì)、海量存儲技術(shù)、動態(tài)存儲技術(shù)和異構(gòu)存儲技術(shù)5個方面進(jìn)行了詳細(xì)的探討和分析,為利用網(wǎng)格技術(shù)解決數(shù)字圖書館資源發(fā)現(xiàn)、整合、跨倉儲檢索、安全等問題,為實(shí)現(xiàn)大規(guī)模數(shù)字圖書館的互操作提供了相應(yīng)基礎(chǔ)條件。
參考文獻(xiàn)
[1]張蕾,陳玲.下一代互聯(lián)網(wǎng)技術(shù)在網(wǎng)絡(luò)中心戰(zhàn)中的應(yīng)用概述[J].電子工程師,2008,34(10):67-69.
[2]李超,王亮,楊學(xué)印.基于網(wǎng)格的數(shù)字圖書館研究現(xiàn)狀分析[J].現(xiàn)代情報(bào),2009,(3):74-77.
[3]韓毅,畢強(qiáng),李賀.國外基于網(wǎng)格技術(shù)的數(shù)字圖書館內(nèi)容與應(yīng)用的比較研究[J].情報(bào)學(xué)報(bào),2006,(2):221-230.
[4]余玲,李玉海.基于網(wǎng)格的數(shù)字圖書館資源存儲研究[J].情報(bào)雜志,2007,(9):105-107.
[5]劉廣亮.基于Globus Toolkit 4的網(wǎng)格服務(wù)研究開發(fā)[D].西安理工大學(xué),2008.