畢云平
(燕山大學(xué)圖書館,河北秦皇島066004)
隨著信息技術(shù)的迅猛發(fā)展,當(dāng)今人類社會已步入網(wǎng)絡(luò)時代,我國越來越多的黨政機關(guān)已通過門戶網(wǎng)站、官方微博與微信,發(fā)布信息,提供服務(wù),實現(xiàn)其社會管理職能。這不僅極大地提高了機關(guān)的服務(wù)效率和工作的透明度,更有利于廣大公眾便捷地獲取相關(guān)信息[1]。網(wǎng)絡(luò)已成為當(dāng)今我國黨政機關(guān)開展工作不可或缺的最重要的信息平臺。
然而,黨政機關(guān)在通過網(wǎng)絡(luò)平臺開展業(yè)務(wù)活動過程中形成的數(shù)量龐大的原始記錄性的電子信息,不僅更新快,而且還具有極強的易逝性。專家通過研究發(fā)現(xiàn),網(wǎng)站中的網(wǎng)頁其平均生命周期只有44~75天,如果不及時采取有效措施保存這些珍貴的網(wǎng)絡(luò)信息,這一時期將會出現(xiàn)歷史空白和斷層,對于子孫后代而言,將無法了解先輩們所處的那一時代的歷史瞬間與時代足跡。因此,我國的檔案學(xué)界和圖書館界均已開始高度重視黨政機關(guān)網(wǎng)絡(luò)信息資源歸檔的研究工作。
當(dāng)前,全球大部分網(wǎng)絡(luò)信息歸檔項目是由國家圖書館和個別高校實驗室牽頭進行,只有加拿大和英國的國家檔案館有參與,多數(shù)國家還沒有明確的責(zé)任主體,缺乏網(wǎng)絡(luò)信息資源歸檔的整體規(guī)劃。在我國,黨政機關(guān)形成的傳統(tǒng)紙質(zhì)檔案和聲像檔案等均由各級各類檔案館統(tǒng)一管理,那么黨政機關(guān)利用網(wǎng)絡(luò)平臺開展工作所形成的黨務(wù)信息、政務(wù)信息以及民生信息等理應(yīng)由各級各類檔案館根據(jù)各自的管理范圍負(fù)責(zé)收集保存,以豐富館藏,進而完善作為科學(xué)研究和各方面工作利用檔案史料中心的地位。至于普通網(wǎng)絡(luò)數(shù)字出版物、文化學(xué)術(shù)信息及科技信息的長期保存則可由公共圖書館負(fù)責(zé)。宏觀上,國家檔案局可作為整個項目的責(zé)任主體,牽頭負(fù)責(zé),與主管網(wǎng)站開辦審核、資格復(fù)核的中央機構(gòu)編制委員會辦公室、中央網(wǎng)絡(luò)安全和信息化領(lǐng)導(dǎo)小組辦公室協(xié)調(diào),根據(jù)公共檔案館、公共圖書館的不同角色和特點明確各自的歸檔責(zé)任;中觀上,產(chǎn)生網(wǎng)絡(luò)信息的各機關(guān)單位的檔案部門應(yīng)加強前端控制,制定歸檔保存策略,承擔(dān)起單位網(wǎng)站信息資源的歸檔組織責(zé)任,明確各責(zé)任主體上傳網(wǎng)絡(luò)信息的時間,督促相關(guān)部門及時主動保質(zhì)保量的完成歸檔任務(wù);微觀上,每個公民也要提高網(wǎng)絡(luò)信息保護意識,對自己生產(chǎn)的網(wǎng)絡(luò)信息擔(dān)負(fù)保存責(zé)任。
由于部分網(wǎng)絡(luò)信息資源受到知識產(chǎn)權(quán)的保護,我國檔案部門在開展黨政機關(guān)網(wǎng)絡(luò)信息資源歸檔與利用方面還有諸多障礙,因此,與其相關(guān)的立法工作顯得尤為迫切。英法等國已經(jīng)確立的數(shù)字作品呈繳制度,以法律形式規(guī)定相關(guān)權(quán)利人向指定機構(gòu)提交數(shù)字資源,這些做法值得我國借鑒。我國的檔案部門應(yīng)以正在開展的《著作權(quán)法》和《檔案法》全面修訂以及《公共圖書館法》立法為契機,積極建議增加網(wǎng)絡(luò)信息資源歸檔方面的內(nèi)容,明確各級各類檔案館、圖書館保存網(wǎng)絡(luò)信息的權(quán)利和義務(wù),以及黨政機關(guān)網(wǎng)絡(luò)信息呈繳的具體范圍、格式標(biāo)準(zhǔn)、方法、時間等,保證檔案收集機構(gòu)擁有網(wǎng)絡(luò)信息長期保存與開發(fā)利用的權(quán)利。
統(tǒng)一的網(wǎng)絡(luò)信息資源歸檔的數(shù)據(jù)標(biāo)準(zhǔn)和技術(shù)標(biāo)準(zhǔn)是整合黨政機關(guān)網(wǎng)絡(luò)信息存檔并保證歸檔的網(wǎng)絡(luò)信息資源互聯(lián)互通的基礎(chǔ)。國家檔案局(館)在長期的檔案工作信息化建設(shè)實踐與理論研究中積累了大量的關(guān)于電子文件歸檔方面的經(jīng)驗和方法,因此,在網(wǎng)絡(luò)信息資源歸檔制度的建設(shè)中應(yīng)牽頭制定國家層面的合理有效、切實可行的統(tǒng)一標(biāo)準(zhǔn),規(guī)范網(wǎng)絡(luò)信息選擇、采集、保存及利用等方面的制度,解決網(wǎng)絡(luò)信息資源歸檔以及用戶查找過程中的困境。具體包括:網(wǎng)絡(luò)信息資源上傳格式標(biāo)準(zhǔn)、網(wǎng)絡(luò)信息資源采集格式標(biāo)準(zhǔn)、網(wǎng)頁存檔格式標(biāo)準(zhǔn)、資源編碼標(biāo)準(zhǔn)、互用性標(biāo)準(zhǔn)、資源標(biāo)識/著錄/元數(shù)據(jù)標(biāo)準(zhǔn)、元數(shù)據(jù)編碼與傳輸標(biāo)準(zhǔn)、數(shù)據(jù)存儲轉(zhuǎn)換格式標(biāo)準(zhǔn)等。只有網(wǎng)絡(luò)信息資源歸檔標(biāo)準(zhǔn)統(tǒng)一,才能保證信息的長久可讀性與完整性,有利于建立風(fēng)險管理與災(zāi)難恢復(fù)機制,減少信息管理與保存的費用,保證項目的順利實施。
世界各國網(wǎng)絡(luò)信息資源歸檔項目中,不同時間節(jié)點歸檔的網(wǎng)絡(luò)信息不僅僅是簡單地存儲,而是力圖保留其歸檔時間和原來的鏈接,真實記錄網(wǎng)絡(luò)信息資源按照時間軸的變化歷程,以再現(xiàn)歷史的客觀變遷和實現(xiàn)先進文化的傳承。目前,軟件開發(fā)機構(gòu)雖然已開發(fā)出了網(wǎng)絡(luò)信息歸檔項目各階段所需要的開源工具軟件,且大多數(shù)開源軟件可以不受商業(yè)軟件的限制,但開源軟件若缺乏長期有效的技術(shù)支持,依然會影響到檔案館或圖書館的非計算機專業(yè)背景的從業(yè)者在從事網(wǎng)絡(luò)信息歸檔工作時的效率[2]。
所以,對于中國檔案學(xué)科和計算機學(xué)科而言,中文網(wǎng)站信息檢索和網(wǎng)上信息挖掘技術(shù)始終是熱點問題。若想持久健康地開展這項工作,僅有檔案學(xué)學(xué)科的理論基礎(chǔ)和管理學(xué)的思維方式是遠(yuǎn)遠(yuǎn)不夠的,還需要加強與計算機等學(xué)科的合作,依靠計算機科學(xué)中的數(shù)據(jù)挖掘、計算語言學(xué)等多項技術(shù)的支持。此外,檔案界還應(yīng)該對信息檢索技術(shù)和互聯(lián)網(wǎng)領(lǐng)域的最新研究成果具有敏銳的專業(yè)反應(yīng),進而拓寬這項工作的研究思路。
互聯(lián)網(wǎng)檔案學(xué)為“圖情檔一體化”的說法賦予了新內(nèi)涵。互聯(lián)網(wǎng)檔案學(xué)是“融合圖書館學(xué)、情報學(xué)和檔案學(xué)并與現(xiàn)代信息技術(shù)空前結(jié)合的交叉學(xué)科,并將發(fā)展成為人類知識管理的一門極為重要的學(xué)科”[3]。
2009年11月1日實施的《中華人民共和國學(xué)科分類與代碼簡表》(國家標(biāo)準(zhǔn)GB/T 13745-2009)中的“圖書館、情報與文獻(xiàn)學(xué)”一級學(xué)科下轄圖書館學(xué)、文獻(xiàn)學(xué)、情報學(xué)、檔案學(xué)等二級學(xué)科,說明了這些二級學(xué)科之間的內(nèi)在聯(lián)系。討論多年的“圖情檔一體化”在互聯(lián)網(wǎng)時代被賦予了更多的內(nèi)涵?;诨ヂ?lián)網(wǎng)的學(xué)科融合十分常見,網(wǎng)絡(luò)信息資源歸檔項目成為互聯(lián)網(wǎng)檔案學(xué)探討的主要內(nèi)容,綜合這些二級學(xué)科的研究成果,加強檔案學(xué)和圖書館學(xué)、情報學(xué)的合作將為網(wǎng)絡(luò)信息資源歸檔項目帶來新的研究活力。
網(wǎng)絡(luò)信息資源歸檔項目不可能是一個部門就能完成的任務(wù),合作是必然的選擇。互聯(lián)網(wǎng)檔案館(The Internet Archive,簡稱IA)就是與多個學(xué)術(shù)機構(gòu)和部門建立了長效的合作機制,分別負(fù)責(zé)網(wǎng)絡(luò)信息歸檔標(biāo)準(zhǔn)的制定、檢索服務(wù)與技術(shù)支持、軟件開發(fā)等不同任務(wù),從而使各個環(huán)節(jié)的工作更加專業(yè)和高效。英國網(wǎng)絡(luò)信息保存聯(lián)盟項目(UK Web Archiving Consortium Project,簡稱 UKWAC)進行中,其各聯(lián)盟成員可以共同分擔(dān)網(wǎng)絡(luò)站點信息保存的成本、風(fēng)險,分享經(jīng)驗和軟硬件設(shè)施,既能有效減輕任何單個機構(gòu)完成這項計劃的負(fù)擔(dān),又為以后的工作儲備了技術(shù)和人才[4]。同時,UKWAC引進澳大利亞的潘多拉數(shù)字保存系統(tǒng)(PANDORA Digital Archiving System,簡稱 PANDAS)也為其項目助力不少。此外,歐洲多個項目都與國際互聯(lián)網(wǎng)保存協(xié)會(International Internet Preservation Consortium,簡稱 IIPC)和 IA等項目有長期的合作關(guān)系。這些合作思路為我國網(wǎng)絡(luò)信息資源歸檔項目的實施提供了很好的借鑒。
IA對中文網(wǎng)絡(luò)信息歸檔的歷史要早于“中國Web信息博物館”(業(yè)界稱作“Web Infomall”,是由北京大學(xué)網(wǎng)絡(luò)實驗室開發(fā)的“中國網(wǎng)頁歷史信息存儲與展示系統(tǒng)”),對中文網(wǎng)絡(luò)信息資源的保存數(shù)量和歸檔頻率也要高于Web Infomall。如果尋求與之建立長期的合作機制,可以極大地優(yōu)化我國網(wǎng)絡(luò)信息資源配置,促進我國網(wǎng)絡(luò)信息歸檔工作的快速發(fā)展。
IIPC致力于推動網(wǎng)絡(luò)信息資源歸檔與長期保存的事業(yè),已有全球多個國家的檔案館、圖書館和學(xué)術(shù)機構(gòu)等加盟。IIPC針對網(wǎng)絡(luò)信息歸檔提出了系統(tǒng)架構(gòu)、元數(shù)據(jù)等一系列技術(shù)規(guī)范,并資助開發(fā)了覆蓋網(wǎng)絡(luò)信息資源從采集到服務(wù)的全系列的開源軟件,如 Heritrix、Smart Crawler、Nutch-WAX、Xinq等。我國檔案界應(yīng)加強與IIPC的實質(zhì)性合作并應(yīng)主動參與到技術(shù)規(guī)范和開發(fā)工具的合作設(shè)計中。
網(wǎng)絡(luò)信息資源已經(jīng)并正在沖擊著一個國家的整體信息資源結(jié)構(gòu)。從世界范圍看,國家層面的網(wǎng)絡(luò)信息歸檔項目的承擔(dān)主體多為國家級檔案館和圖書館等,再聯(lián)合其它學(xué)術(shù)機構(gòu)參與。其任務(wù)以保存網(wǎng)絡(luò)信息資源為目的、從國家視角來制定歸檔政策,一般是利用爬蟲軟件執(zhí)行全采集的策略。這類項目以澳大利亞的PANDORA和英國的UKWAC等為代表。
根據(jù)國外網(wǎng)絡(luò)信息歸檔項目的發(fā)展現(xiàn)狀,我國需要根據(jù)自身情況從國家層面對網(wǎng)絡(luò)信息資源的整個生命周期進行研究,對網(wǎng)絡(luò)信息歸檔項目的采集標(biāo)準(zhǔn)、存儲方式、訪問和服務(wù)等各個環(huán)節(jié)進行頂層設(shè)計和有效規(guī)劃,建立我國網(wǎng)絡(luò)信息資源保存長效策略,這包括歸檔原則、政策協(xié)調(diào)、系統(tǒng)開發(fā)、風(fēng)險管理、版權(quán)保護、法律保障和國際交流等諸多問題。馮惠玲提出的構(gòu)建“中國記憶”數(shù)字資源庫的倡議[5]和徐擁軍對“中國記憶工程”建設(shè)的思考[6],都從宏觀層面對我國數(shù)字資源庫的建設(shè)提出了構(gòu)想。
當(dāng)然,民間以IA和IIPC為代表的聯(lián)盟形式進行的網(wǎng)絡(luò)信息歸檔項目更加充滿活力。這種活力主要體現(xiàn)在開放、協(xié)作和共享等方面。國際上以項目形式出現(xiàn)的網(wǎng)絡(luò)信息歸檔多為科研項目或基金項目,以某個專題或視角進行研究,執(zhí)行選擇性采集策略。我國的Web Infomall也是以項目形式出現(xiàn)的,但基本執(zhí)行的是全采集策略。該項目如加強與國內(nèi)外相關(guān)學(xué)術(shù)機構(gòu)的交流和合作,會更加富有活力并在客觀上推動我國網(wǎng)絡(luò)信息歸檔事業(yè)的快速發(fā)展。
傳統(tǒng)的紙張、光盤、磁介質(zhì)等載體已無法解決高速增長的、海量的網(wǎng)絡(luò)信息資源的存儲問題。云存儲是綜合運用原有的分布式技術(shù)、集群化技術(shù)、網(wǎng)格化技術(shù)和虛擬化技術(shù)等[7],將網(wǎng)絡(luò)中的大量的、不同類型的存儲設(shè)備協(xié)同工作,形成一個大規(guī)模的數(shù)據(jù)存儲系統(tǒng),以達(dá)到節(jié)約存儲空間、數(shù)據(jù)歸檔和容災(zāi)備份的目的。云存儲是大數(shù)據(jù)時代的數(shù)據(jù)存儲最佳解決方案,為數(shù)字信息資源的長久保存和方便利用帶來了希望,用戶再也不用擔(dān)心存儲空間不夠用的問題。
云存儲技術(shù)雖然具有容量大、成本低、靈活方便的優(yōu)勢,但其面臨的隱私和數(shù)據(jù)安全問題,檔案界也應(yīng)高度重視??赏ㄟ^對用戶信任等級與信任證書的綜合驗證,實現(xiàn)對云存儲中歸檔數(shù)據(jù)訪問的隔離保護[8],以確保歸檔的黨政機關(guān)網(wǎng)絡(luò)信息的安全、可靠。
檔案與社會記憶具有天然的聯(lián)系。數(shù)字時代,保存與刪除、記憶與遺忘,不僅不可避免,而且也是數(shù)字時代必須面對的問題。網(wǎng)絡(luò)信息資源是構(gòu)建數(shù)字記憶的基礎(chǔ),數(shù)字記憶是社會記憶的數(shù)字化體現(xiàn)。檔案記憶觀認(rèn)為,社會記憶屬性是檔案的基本屬性,從社會記憶的角度觀察、研究檔案現(xiàn)象,可以為檔案界保護過去、記錄現(xiàn)在、服務(wù)未來的實踐活動提供新的工作思路[9]。我們的記憶已經(jīng)被互聯(lián)網(wǎng)所構(gòu)建,后人也將自覺或不自覺地根據(jù)我們的“遺產(chǎn)”來窺探我們今天的思想,斷定我們的時代[10]。所以,以檔案記憶觀為出發(fā)點確定網(wǎng)絡(luò)信息資源歸檔的策略將有效推動各級各類網(wǎng)絡(luò)信息歸檔項目的順利開展。國家檔案局原局長楊冬權(quán)曾在2014年的全國檔案局長館長會議上指出:“要把網(wǎng)絡(luò)信息這種‘有價值的國家資本’尤其是把體現(xiàn)政府行使職能的政府網(wǎng)站等信息列入歸檔范圍,對網(wǎng)站等信息進行存檔”[11]。我國黨政機關(guān)網(wǎng)站中的各類信息是我們這個時代發(fā)展的歷史見證,是社會文化形態(tài)的一種存在形式,對網(wǎng)絡(luò)信息資源歸檔就是保存我們的社會記憶,無論對當(dāng)代還是后代都具有非常重要的意義。
[1]陳艷紅,盛子剛.DC元數(shù)據(jù)與網(wǎng)絡(luò)信息檢索(綜述)[J].河北科技師范學(xué)院學(xué)報(自然科學(xué)版),2005(2):73-76.
[2]劉蘭,吳振新,向菁,等.網(wǎng)絡(luò)信息資源保存開源軟件綜述[J].現(xiàn)代圖書情報技術(shù),2009(5):11-17.
[3]羅勇.亟待開展的互聯(lián)網(wǎng)檔案學(xué)研究[J].圖書情報工作,2006(11):117-120.
[4]徐?。W(wǎng)絡(luò)信息保存聯(lián)盟計劃(UKWAC)及其啟示[J].圖書館論壇,2007(2):81-84.
[5]馮惠玲.檔案記憶觀、資源觀與“中國記憶”數(shù)字資源建設(shè)[J].檔案學(xué)通訊,2012(3):4-8.
[6]徐擁軍.建設(shè)“中國記憶”數(shù)字資源庫的構(gòu)想[J].檔案學(xué)通訊,2012(3):9-13.
[7]王偉.存儲的進化:云存儲解決方案[J].通訊世界,2012(9):54 -55.
[8]王萍,黃新平,陳為東,等.政府網(wǎng)站原生數(shù)字政務(wù)信息云歸檔模型及策略研究[J].情報理論與實踐,2016(4):60-65.
[9]劉建英,謝海洋,王思樂.檔案編研在構(gòu)建“城市記憶工程”中的作用芻議[J].北京檔案,2013(4):31-33.
[10]馮占江.互聯(lián)網(wǎng)視閾下的數(shù)字遺產(chǎn)保護——“一個檔案工作者應(yīng)是首先想到未來的人”[J].檔案學(xué)研究,2013(4):81-85.
[11]楊冬權(quán).在全國檔案局長館長會議上的講話[N].中國檔案報,2014-01-06(1).