●陳克儉,孫 倩,王 融,季士妍(國家圖書館,北京100081)
海量數(shù)據(jù)環(huán)境下數(shù)字圖書館存儲面臨的挑戰(zhàn)及應對策略
●陳克儉,孫 倩,王 融,季士妍(國家圖書館,北京100081)
海量數(shù)據(jù);數(shù)字圖書館;應對策略
隨著數(shù)字圖書館的發(fā)展,數(shù)據(jù)量呈幾何式增長,數(shù)字圖書館的存儲系統(tǒng)正面臨前所未有的挑戰(zhàn),如何在有限條件下最大可能地滿足海量數(shù)據(jù)帶來的存儲需求,是我們需要解決的問題。本文闡明了數(shù)字圖書館海量數(shù)據(jù)的來源,分析了數(shù)字圖書館存儲所面臨的挑戰(zhàn),并從存儲策略、存儲架構(gòu)和存儲技術(shù)等方面對海量數(shù)據(jù)環(huán)境下數(shù)字圖書館存儲系統(tǒng)采取的相應策略進行了探討。
信息技術(shù)與網(wǎng)絡的快速發(fā)展已推動社會進入萬物互聯(lián)時代。在信息爆炸的今天,計算機數(shù)據(jù)處理能力的增長速度遠比世界經(jīng)濟的增長速度快9倍之多。[1]從全球化電子商務的崛起到大型門戶網(wǎng)站和無紙化辦公深入社會生活,人們獲取信息的方式及手段不斷發(fā)生改變,并帶來了信息網(wǎng)絡中數(shù)據(jù)的急劇膨脹。在數(shù)據(jù)庫向數(shù)據(jù)海轉(zhuǎn)變過程中,網(wǎng)絡中存儲的電子資源總量很難衡量,根據(jù)IDC(Internet Data Center)公司的相關(guān)調(diào)查,僅2011年全球的數(shù)據(jù)增長達1.8ZB,是2006年的10倍,預計2020年全球數(shù)據(jù)量將達到90ZB,是2011年的50倍。[2]這些數(shù)據(jù)無時無刻不在影響著我們的生活、工作,促使新的技術(shù)手段產(chǎn)生并進一步優(yōu)化信息社會形態(tài)。而海量的數(shù)據(jù)對存儲系統(tǒng)的容量、性能、可用性等也提出了越來越高的要求,如何存儲和高效利用這些數(shù)據(jù)是當前亟需解決的問題。
在社會信息化建設過程中,數(shù)字圖書館履行著提供信息資源服務和數(shù)字資源長期保存的職能。隨著高速網(wǎng)絡和移動圖書館的普及應用,以及RFID(Radio Frequency Identification無線射頻識別技術(shù))、跨平臺搜索等新技術(shù)在數(shù)字圖書館服務方面的拓展,數(shù)字圖書館在獲得更廣泛數(shù)據(jù)來源的同時,也在迎接著這一波信息爆炸帶來的挑戰(zhàn)。[3]
1.1 數(shù)字資源類型的多樣化
多種多樣的電子文獻資源,是目前數(shù)字圖書館主要的數(shù)據(jù)來源??偟膩碚f,數(shù)字圖書館的電子資源大體可以分為四類:一是原始紙質(zhì)資源的數(shù)字化,很多早年的紙質(zhì)資源并沒有電子版本,如古籍或民國時期的文獻需要進行文獻數(shù)字化,是數(shù)字圖書館重要的原始數(shù)據(jù)積累;二是從其他圖書館、出版社等文化機構(gòu)新提交的數(shù)字化文獻資源,除了紙質(zhì)文獻的數(shù)字化資源外還有各種講座、沙龍等音視頻資源;三是來自國內(nèi)外定購資源庫的電子資源,包括期刊、報紙、論文等,隨著數(shù)字圖書館的壯大發(fā)展,引進的國內(nèi)外資源數(shù)據(jù)庫也在逐年增多,資源量不斷增大;四是網(wǎng)絡采集的信息資源,從目前來說這部分資源占有量還較為有限,但隨著時間推移和采集范圍的擴大,這部分的數(shù)據(jù)擁有量也是非常壯觀的。
1.2 移動圖書館的發(fā)展應用
伴隨著無線網(wǎng)絡的發(fā)展以及智能手機等移動終端的普及應用,移動圖書館也逐步成為數(shù)字圖書館的關(guān)鍵性服務內(nèi)容。例如國家圖書館的“掌上國圖”,作為圖書館移動服務的重要形式之一,目前主要包括讀者服務、在線服務、讀者指南、文津圖書獎、資源檢索等欄目,為讀者提供8000余種電子期刊的在線閱讀。隨著數(shù)字圖書館建設的不斷推進,移動圖書館服務內(nèi)容的擴展和完善勢必成為數(shù)字圖書館服務的重要發(fā)展方向。在未來三年內(nèi),移動圖書館的數(shù)據(jù)量將呈現(xiàn)翻倍的趨勢。
1.3 數(shù)字圖書館新型技術(shù)的拓展
RFID技術(shù)和跨平臺搜索技術(shù)是當前比較顯著的數(shù)字圖書館新技術(shù)應用。基于RFID技術(shù)和設備的圖書管理系統(tǒng)可以實現(xiàn)圖書借還、順架、查找及館藏盤點等功能,使圖書管理工作智能化、規(guī)范化、系統(tǒng)化和程序化,避免圖書管理的隨意性,提高信息處理的速度和準確性,從而提高工作效率??缙脚_數(shù)字資源的檢索也初現(xiàn)端倪,如國家圖書館的“文津搜索”系統(tǒng),有效整合了國家圖書館自建數(shù)據(jù)和部分外購數(shù)據(jù)庫的各類數(shù)字資源,實現(xiàn)了資源的“一站式”發(fā)現(xiàn)與獲取,使圖書館內(nèi)的封閉資源能夠?qū)W(wǎng)絡用戶開放。除此以外,社交網(wǎng)絡、云計算等技術(shù)手段,也正在成為數(shù)字圖書館建設者重視的新型服務應用技術(shù)手段。這些新技術(shù)的拓展,都為數(shù)字圖書館提供了大量的數(shù)據(jù)來源。
數(shù)字圖書館數(shù)據(jù)量的快速增長,勢必對數(shù)字圖書館的存儲帶來非常大的困難,就是“空間不足,性能不夠”。
(1)存儲空間不足。以國家圖書館為例,2006年一套空間為30TB的盤陣設備已經(jīng)能夠基本滿足所有存儲的需求。然而,截至2014年,國家圖書館僅在線存儲的總?cè)萘恳呀?jīng)擴展到了930TB,連接存儲的應用系統(tǒng)也從原來的四五個達到了目前的50多個。即便如此,這個容量也僅僅是滿足近兩年的需求。隨著數(shù)字圖書館服務項目的增多,數(shù)據(jù)量的增大,存儲空間不足的問題尤為突出。
(2)存儲性能較差。存儲系統(tǒng)的數(shù)據(jù)量大小總是與操作性能成反比。[4]如果存儲性能跟不上,將會成為制約數(shù)字圖書館整體服務的瓶頸。業(yè)務的數(shù)據(jù)量增加,會造成業(yè)務數(shù)據(jù)的增刪改等正常操作的速度和處理性能不斷下降,甚至會出現(xiàn)數(shù)據(jù)丟失的現(xiàn)象。隨著數(shù)字圖書館各項業(yè)務量的增大,如果只是單純進行容量的堆積而不改善存儲系統(tǒng)的整體性能,也是遠遠不能滿足未來數(shù)字圖書館存儲需求的。存儲性能受多重因素影響,包括存儲的架構(gòu)、帶寬、存儲設備的性能和所匹配的存儲介質(zhì)的性能等多個方面,都會制約整套存儲系統(tǒng)的性能。
一套高性能高容量的存儲系統(tǒng)往往意味著高額的投入,而且后期的運維投入也非常高。而公共圖書館作為一個公共文化體系下的公益性機構(gòu),在資金方面通常無法負擔高額的存儲系統(tǒng)帶來的投入成本。因此,如何在有限條件下盡最大可能地滿足海量數(shù)據(jù)帶來的存儲需求,是數(shù)字圖書館建設者需要探討和解決的重要問題。
2.1 完善的存儲布局:統(tǒng)籌規(guī)劃,清晰分配
按照在線、近線、離線三個層面來區(qū)分對待資源,劃分不同的存儲介質(zhì),在有限的資金規(guī)劃下提高存儲的整體性能。對于數(shù)字資源發(fā)布與服務過程中需要使用的數(shù)據(jù)、實時產(chǎn)生的書目記錄、用戶信息等數(shù)字圖書館核心在線系統(tǒng)所使用或者產(chǎn)生的數(shù)據(jù)采用在線保存方式;對于利用率低的在線數(shù)字資源、永久保存的高質(zhì)量的數(shù)字化文件數(shù)據(jù)、數(shù)字資源加工后的數(shù)據(jù)、國內(nèi)資源供應商保存的數(shù)據(jù)、互聯(lián)網(wǎng)采集到的資源、文化信息共享的資源、購買的資源等數(shù)據(jù)采用近線/離線保存方式;對于沒有利用率的數(shù)字資源、進入永久保藏的數(shù)字資源、備份的近線/離線資源的數(shù)據(jù),采用離線的保存方式。[5]其中,可采用高轉(zhuǎn)速性能高的硬盤(SAS、FC硬盤)或者固態(tài)硬盤保存在線數(shù)據(jù),采用性價比高的低轉(zhuǎn)速硬盤(SATA硬盤)保存近線數(shù)據(jù),采用磁帶或者光盤等離線存儲介質(zhì)來保存離線數(shù)據(jù),達到資源的合理分配。
2.2 合理的存儲架構(gòu):以SAN為主,NAS為輔
高性能的SAN(StorageAreaNetworkandSANProtocols,存儲區(qū)域網(wǎng)絡及其協(xié)議)系統(tǒng)與性價比高的NAS(Network Attached Storage,網(wǎng)絡儲存設備)系統(tǒng)相結(jié)合是數(shù)字圖書館理想的存儲架構(gòu)方式。SAN是一種高速網(wǎng)絡或子網(wǎng)絡(可以是基于光纖鏈路的FC SAN,也可以是基于以太網(wǎng)的IP SAN),提供在計算機與存儲系統(tǒng)之間的數(shù)據(jù)傳輸,連接到服務器的存儲設備,將被操作系統(tǒng)視為直接連接的存儲設備。與SAN相比較,NAS使用的是基于文件的通信協(xié)議,例如NFS或SMB/CIFS通信協(xié)議就被明確定義為遠程存儲設備,計算機請求訪問的是抽象文件的一段內(nèi)容,而非對磁盤進行的塊設備操作。雖然SAN擁有NAS無法比擬的優(yōu)勢,性能高、不占用帶寬等優(yōu)勢,但是NAS依然有著獨特的地方:首先是NAS具備架構(gòu)簡單、造價相對便宜、易于部署、高效的文件共享等特點;第二,NAS能夠?qū)崿F(xiàn)更高的空間利用率,SAN是以塊狀的數(shù)據(jù)存儲而NAS是文件級的存儲方式,由于塊狀的數(shù)據(jù)存儲對于應用系統(tǒng)的空間需求是“要多少給多少”的方式,往往會給應用系統(tǒng)分到根據(jù)一兩年的增量進行申請的空間,進而造成空間或多或少的浪費,而NAS是基于文件級的存儲方式,能夠?qū)崿F(xiàn)“用多少給多少”的方式,避免了這種浪費。數(shù)字圖書館的數(shù)字資源,其中有大量的臨時數(shù)據(jù),如格式轉(zhuǎn)換的中間數(shù)據(jù)、長期保存的中間數(shù)據(jù),對于性能要求并不高,采用NAS的方式更加合適。因此,建立合理的存儲架構(gòu),以SAN為主,必要時結(jié)合NAS為輔的方式,是十分必要的。
2.3 有效解決重復數(shù)據(jù),提升數(shù)據(jù)存儲空間
解決重復數(shù)據(jù)的問題需要從兩方面入手:一是采用消重技術(shù)提高空間利用率,通過刪除運算、消除冗余文件、數(shù)據(jù)塊或字節(jié),實現(xiàn)只有單一的數(shù)據(jù)存儲在系統(tǒng)中,從而減少存儲系統(tǒng)中的數(shù)據(jù)占有量,增大可用存儲空間;二是從源頭抓起,降低文獻數(shù)字化或者資源采集過程中的資源重復,如果文獻數(shù)字化過程中對同一本書進行了兩次數(shù)字化,其帶來的資源浪費不僅是文獻數(shù)字化的存儲資源浪費,還會造成中期資源組織的存儲資源浪費、后期對外發(fā)布的存儲資源浪費以及最終的長期保存的存儲資源浪費,這種資源的浪費往往還附加著更大的人力、物力和財力的重復浪費。
2.4 重視存儲虛擬化,提高數(shù)據(jù)存儲利用率
數(shù)字圖書館數(shù)據(jù)存儲可考慮采用存儲虛擬化技術(shù)來提高存儲的整體利用率。隨著一套存儲系統(tǒng)年限的增長,往往其性能和空間無法滿足現(xiàn)有的需求,新存儲設備的采用往往會造成舊存儲設備的境地尷尬,“食之無味棄之可惜”。采用存儲虛擬化的方法,可以把不同廠家、不同型號、不同類型、不同通信技術(shù)的存儲設備互聯(lián)起來,統(tǒng)一提供有用的全面功能性服務,使得許多零散的存儲資源整合起來,不但能夠充分利用舊存儲資源,提高存儲的整體利用率,而且也能降低系統(tǒng)管理成本。
2.5 緊密追蹤存儲新技術(shù)尋求存儲介質(zhì)的突破
近年來,隨著數(shù)據(jù)爆炸性增長,存儲技術(shù)也在相應地不斷發(fā)展。其中,值得關(guān)注的是分布式存儲以及云存儲技術(shù),這兩種新技術(shù)的提出給存儲方式帶來另一種思路。分布式存儲技術(shù)并不是將數(shù)據(jù)存儲在某個或多個特定的節(jié)點上,而是通過網(wǎng)絡使用企業(yè)中的每臺機器上的磁盤空間,并將這些分散的存儲資源構(gòu)成一個虛擬的存儲設備,數(shù)據(jù)分散地存儲在企業(yè)的各個角落。而云存儲更是分布式存儲的升華,讓網(wǎng)絡中存在的大量、不同類型的存儲設備協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務訪問功能。雖然就目前而言,分布式存儲和云存儲只是非常前端的想法,真正實現(xiàn)的案例并不多,傳統(tǒng)的集中式存儲仍然是最佳選擇,但是可以肯定的是這種存儲分散、云端的理念針對海量數(shù)據(jù)的存儲更為有效。同時,存儲介質(zhì)的突破也是值得關(guān)注的,從最原始的軟盤到現(xiàn)在高性能的固態(tài)硬盤,存儲設備的容量、性能都在大幅度提升?,F(xiàn)在固態(tài)硬盤價格高昂,也是存儲成本面對的重要問題。隨著技術(shù)手段的突破,我們相信固態(tài)硬盤也會逐步普及,更加高效、大容量的存儲介質(zhì)也會被不斷發(fā)掘出來。
就目前情況而言,雖然數(shù)字圖書館數(shù)據(jù)存儲水平還較為有限,針對海量數(shù)據(jù)存儲技術(shù)的研究還處于起步階段,面臨著許多問題,但是隨著信息網(wǎng)絡市場的快速發(fā)展和信息技術(shù)的不斷升級,相信在不久的將來,針對海量數(shù)據(jù)的存儲與管理必定會有新的突破,屆時也必將會為數(shù)字圖書館的數(shù)據(jù)存儲帶來革命性、持續(xù)性和創(chuàng)造性的變化。更加有效安全的數(shù)據(jù)存儲模式將為數(shù)字圖書館以用戶為中心提供優(yōu)質(zhì)高效的信息資源服務帶來基礎性保障,從而推進公共數(shù)字文化服務體系不斷完善。
[1](英)維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代[M].盛楊燕,周濤譯.杭州:浙江人民出版社,2013.
[2]Tom White.Hadoop:The Definitive Guide:MapReducefortheCloud[M].2stedition.California:O'Reilly Media,Inc,2009.
[3]朱靜薇,李紅艷.大數(shù)據(jù)時代下圖書館的挑戰(zhàn)及其應對策略[J].現(xiàn)代情報,2013(5):9-13.
[4]姜宇鳴.海量數(shù)據(jù)存儲系統(tǒng)研究[J].電腦知識與技術(shù),2011(8):1922,1928.
[5]魏大威.國家數(shù)字圖書館工程系統(tǒng)建設[J].國家圖書館學刊,2008(3):12-17,32.
G250.76
B
1005-8214(2015)06-0001-03
陳克儉(1985-),男,國家圖書館信息網(wǎng)絡部工程師,研究方向:數(shù)字資源存儲與管理;孫倩(1984-),女,國家圖書館數(shù)字資源部館員,研究方向:數(shù)字圖書館數(shù)字資源整合;王融(1987-),女,國家圖書館數(shù)字資源部館員,研究方向:數(shù)字圖書館新媒體設計;季士妍(1978-),女,國家圖書館信息網(wǎng)絡部工程師,數(shù)字資源存儲與應用管理組副組長,研究方向:數(shù)字資源長期保存與管理。
2014-12-02[責任編輯]劉丹
本文系文化部科技創(chuàng)新項目“數(shù)字圖書館云平臺建設及其在公益性數(shù)字文化建設中的應用研究”(項目編號:3-2011)的研究成果之一。