毛義春
隨著信息技術(shù)的快速發(fā)展和互聯(lián)網(wǎng)的日益普及,人們獲得信息和知識(shí)的途徑也發(fā)生了很大的變化。數(shù)字資源爆發(fā)式的增長給人們帶來便利的同時(shí),也對如何有效地長期保存這些數(shù)字資源帶來了挑戰(zhàn)。
1數(shù)字資源長期保存實(shí)施標(biāo)準(zhǔn)的制定
OAIS(Open Archival Information System)參考模型是美國國家航空和航天局(NASA)和太空數(shù)據(jù)系統(tǒng)咨詢委員會(huì)(CCSDS)聯(lián)合制定的一項(xiàng)標(biāo)準(zhǔn)。2003年,參考模型被采納為ISO標(biāo)準(zhǔn)并頒發(fā)。OAIS參考模型本身并不是專門用來解決數(shù)字信息長期保存的特殊技術(shù),而是著重論述了與數(shù)字信息保存相關(guān)的各種關(guān)系和框架概念,以及應(yīng)對數(shù)字信息保存處理過程的策略。OAIS參考模型由六個(gè)功能模塊組成,分別是攝入、長期存儲(chǔ)、數(shù)據(jù)管理、系統(tǒng)管理、保存規(guī)劃、存取。
2數(shù)字資源長期保存技術(shù)優(yōu)化的實(shí)踐
OAIS參考模型作為長期保護(hù)和維護(hù)數(shù)字信息可存取檔案系統(tǒng)的一個(gè)基本概念框架,受到了對長期數(shù)字信息保護(hù)有興趣的不同機(jī)構(gòu)團(tuán)體的歡迎。
2.1 NDIIPP項(xiàng)目
2000年12月,美國國會(huì)通過立法(PL-554號(hào)法案)在美國國會(huì)圖書館建立國家數(shù)字信息基礎(chǔ)結(jié)構(gòu)和保存項(xiàng)目NDIIPP(National Digital Information Infrastructure Preservation Program)。該項(xiàng)目是以美國國會(huì)圖書館為主導(dǎo),聯(lián)合全國許多大學(xué)圖書館、研究機(jī)構(gòu)、商業(yè)組織對數(shù)字資源進(jìn)行收集、保存的研究。NDIIPP賦予了國會(huì)圖書館一項(xiàng)新的職責(zé),那就是領(lǐng)導(dǎo)制定全國性的數(shù)字信息長期保存計(jì)劃以及捕獲瀕臨消失危險(xiǎn)的數(shù)字信息。該計(jì)劃的目標(biāo)就是要促使各界團(tuán)體共擔(dān)數(shù)字信息長期保存的責(zé)任以及尋找相關(guān)問題的全國性解決辦法。
2.2 LOCKSS項(xiàng)目
LOCKSS(Lots of Copies Keep Stuff Safe)意為通過建立多個(gè)副本保證數(shù)據(jù)的安全。LOCKSS系統(tǒng)是一個(gè)開放性源碼的分布式系統(tǒng),它無需中心級管理就能運(yùn)行在一些廉價(jià)的PC機(jī)上。此外,圖書館的電子信息收藏不會(huì)受到外界不良因素的影響,可以為讀者提供持續(xù)的、永久的電子期刊信息內(nèi)容存取服務(wù)。它通過建立出版商與圖書館、圖書館與圖書館之間的協(xié)作平臺(tái),提出電子資源出版、發(fā)布到永久性保存與利用等一整套解決方案。
2.3美國電子文件檔案館(ERA)項(xiàng)目
該項(xiàng)目針對政府電子檔案數(shù)量的指數(shù)級增長、電子檔案格式的多樣化、電子檔案載體不斷更新、軟硬件平臺(tái)不斷升級等情況,為應(yīng)對電子檔案管理、保存與利用諸多問題的挑戰(zhàn),為永久保護(hù)電子檔案及其真實(shí)性建立一套基本的理論知識(shí)和方法,并在此基礎(chǔ)上,為國際組織、國家或某些部門在長期保管電子檔案的真實(shí)性方面制訂方針政策和標(biāo)準(zhǔn)規(guī)范提供指南。
ERA的發(fā)展策略由四個(gè)部分構(gòu)成。第一,它以正在發(fā)展的可支持電子政策、電子商務(wù)和科學(xué)研究的技術(shù)為基礎(chǔ),開發(fā)具有各種功能且具有很大獨(dú)立性的應(yīng)用軟件,用于長期保護(hù)和訪問電子文件。第二,以這些通用的技術(shù)為基礎(chǔ),ERA設(shè)想發(fā)展一個(gè)信息管理的架構(gòu),能夠適用于未來的信息保護(hù)技術(shù)和數(shù)字信息遷移技術(shù)。第三,ERA的“框架”由一系列能夠滿足電子文件檔案館需求的解決方案構(gòu)成,這些方案具有通用性、能夠互相補(bǔ)充,同時(shí)適用于各種類型的檔案。第四,該工程的最終目標(biāo),就是濃縮各種信息技術(shù)與解決方案,形成ERA系統(tǒng)。
3數(shù)字資源長期保存可靠性模型的開發(fā)
隨著全球網(wǎng)絡(luò)化的不斷發(fā)展,數(shù)字信息面臨的網(wǎng)絡(luò)安全日益突出,可以說網(wǎng)絡(luò)的不安全性,已成為限制其發(fā)展的最大障礙?;诖耍绹_發(fā)了長期存儲(chǔ)系統(tǒng)數(shù)據(jù)拷貝的可靠性模型,以應(yīng)對存儲(chǔ)系統(tǒng)的可見性故障和潛故障威脅。
3.1可靠性模型
此模型有助于指出采取何種策略最有可能增加長期保存的可靠性,有助于指出在真實(shí)的系統(tǒng)中該檢測哪些數(shù)據(jù)從而協(xié)調(diào)利用策略,解決故障。
模型分為頂層和底層。頂層,探測到可見性故障時(shí),恢復(fù)模塊啟動(dòng),故障數(shù)據(jù)立即開始恢復(fù),錯(cuò)誤得以成功更正;底層,在探測到潛故障之前,什么也不會(huì)發(fā)生。一旦探測到潛故障,就像處理可見性故障一樣,恢復(fù)模塊開始工作。
模型中將故障分為兩類:可見性故障和潛故障。可見性故障是指在故障產(chǎn)生和檢測到故障期間可忽略的故障。潛故障是指在故障產(chǎn)生和檢測到故障期間很重要的故障,包括字符寫錯(cuò)、字節(jié)損壞、扇區(qū)讀不出和數(shù)據(jù)格式過時(shí)。
3.2策略
該簡易模型揭示了許多策略,可用于減少不可恢復(fù)數(shù)據(jù)的丟失概率:
·增加可見性故障的時(shí)間段,使存儲(chǔ)載體減少諸如磁頭碰撞的災(zāi)難性數(shù)據(jù)丟失。
·增加潛故障的時(shí)間段,使存儲(chǔ)載體減少數(shù)據(jù)損壞,或是減少數(shù)據(jù)格式過時(shí)。
·縮短故障產(chǎn)生和檢測到故障期間的時(shí)間段,經(jīng)常核查數(shù)據(jù)以檢測潛在數(shù)據(jù)錯(cuò)誤。
·縮短潛故障的修復(fù)時(shí)間段,自動(dòng)修復(fù)潛在數(shù)據(jù)故障,而不是提示操作者實(shí)施修復(fù)行為。
·縮短可見性故障的修復(fù)時(shí)間段,假如采用熱備份驅(qū)動(dòng)器。那么一旦操作者更換了驅(qū)動(dòng)器,數(shù)據(jù)恢復(fù)即刻可以進(jìn)行。
·盡可能減少拷貝件的總量,以免同步數(shù)據(jù)錯(cuò)誤。
·增加拷貝的獨(dú)立性。盡可能使用多種硬件、軟件、存儲(chǔ)地點(diǎn)、管理,避開對第三方元件和單一結(jié)構(gòu)的依賴性,就可以減少長期存儲(chǔ)系統(tǒng)發(fā)生相關(guān)故障的概率。
4經(jīng)驗(yàn)和借鑒
4.1充分考慮數(shù)字資源長期保存的標(biāo)準(zhǔn)化
標(biāo)準(zhǔn)化是推動(dòng)數(shù)字圖書館發(fā)展的一個(gè)重要條件,數(shù)字資源要長期保存,就必須要考慮標(biāo)準(zhǔn)化的問題。
元數(shù)據(jù)標(biāo)準(zhǔn)一直以來是ISO組織和世界各國研究的主要內(nèi)容,也是數(shù)字資源長期保存的重要課題。2003年OAIS被指定為國際標(biāo)準(zhǔn),具有強(qiáng)大的生命力,而ER-A的成功將促使人們思考如何建立自己的元數(shù)據(jù)標(biāo)準(zhǔn)。
LOCKSS系統(tǒng)以O(shè)AIS標(biāo)準(zhǔn)建立模型,采取分布式保存策略,確保系統(tǒng)的穩(wěn)固性。在系統(tǒng)開發(fā)時(shí)還充分考慮了系統(tǒng)的通用性、先進(jìn)性、可擴(kuò)展性和互操作性。
4.2加強(qiáng)數(shù)字資源管理和保護(hù)關(guān)系的研究
從ERA對電子文件保存的整個(gè)過程來看,數(shù)字資源的保護(hù)只在形式上獨(dú)立,在內(nèi)容上已與管理融為一體,二者截然不可分。因此,我們在設(shè)計(jì)信息系統(tǒng)時(shí),應(yīng)把管理和保護(hù)的要求有效、合理地結(jié)合起來,而不要讓其各行其是。
4.3強(qiáng)化項(xiàng)目開發(fā)的合作參與
加強(qiáng)與有實(shí)力、有經(jīng)驗(yàn)的國家或企業(yè)合作、共享資源。目前全球有80多個(gè)圖書館和50多個(gè)出版商參加了LOCKSS項(xiàng)目。出版商提供的數(shù)據(jù)內(nèi)容目前已逐漸加入到系統(tǒng)中。香港理工大學(xué)、印度甘地原子能研究中心、新加坡國立大學(xué)等機(jī)構(gòu)參加了LOCKSS項(xiàng)目的測試與研究。中科院國家科學(xué)數(shù)字圖書館也于2003年5月參加了該項(xiàng)目。
4.4加強(qiáng)數(shù)據(jù)庫和檢索系統(tǒng)的集中化建設(shè)
就檔案數(shù)據(jù)庫和檢索系統(tǒng)而言,目前我國的檔案數(shù)據(jù)庫及檢索系統(tǒng)呈分散狀態(tài),相對于美國的集中化形式有很多弊端,主要弊端有IT的工作效率低、支持及管理人員的增加、缺乏標(biāo)準(zhǔn)化、軟件需要分散的重復(fù)投資、無法承受災(zāi)難備份的投資等幾個(gè)方面。因此在我國建立一個(gè)大型的完善的數(shù)據(jù)庫,實(shí)現(xiàn)電子文件檔案的數(shù)據(jù)大集中以及災(zāi)難備份工程,將會(huì)大大提高我國的檔案管理水平和電子文件檔案的安全存儲(chǔ)。
4.5重視信息系統(tǒng)的安全性和可靠性
美國非常重視數(shù)字資源長期保存中系統(tǒng)的安全性。以LOCKSS為例,系統(tǒng)在開發(fā)過程中就充分考慮了可能遇到的不安全因素,采取了存儲(chǔ)與操作系統(tǒng)分離、權(quán)利分離等措施。美國斯坦福大學(xué)和哈佛大學(xué)開發(fā)了長期存儲(chǔ)系統(tǒng)可見性故障和潛故障分析模型。利用該模型有助于對故障有效預(yù)警,并有助于協(xié)調(diào)利用最佳策略對故障數(shù)據(jù)實(shí)施自動(dòng)又可靠地恢復(fù)。
5結(jié)論
數(shù)字資源長期保存是一項(xiàng)十分艱巨和復(fù)雜的工作,美國在這方面的研究和應(yīng)用已經(jīng)取得長足進(jìn)步,積累了很多知識(shí)和經(jīng)驗(yàn)。因此,我們一方面要學(xué)習(xí)美國先進(jìn)經(jīng)驗(yàn),一方面又要理論聯(lián)系我國實(shí)際,通過制定數(shù)字資源長期保存的國家政策、建立不同層次的合作機(jī)制和制定合理的保存策略,使我國形成一個(gè)數(shù)字資源長期保存與維護(hù)的技術(shù)環(huán)境與社會(huì)氛圍。