周文佳 張 寧
隨著電子商務和電子政務的興起,政府和企業(yè)以及其他機構(gòu)紛紛建立自己的門戶網(wǎng)站,將現(xiàn)實機構(gòu)虛擬化,通過網(wǎng)站發(fā)布信息,提供服務,實現(xiàn)其管理和服務職能,極大地提高了辦公效率,增強了辦公的透明度。網(wǎng)站已經(jīng)成為機構(gòu)在網(wǎng)絡空間開展業(yè)務活動的主要平臺,網(wǎng)站開展業(yè)務活動的過程中形成許多具有原始記錄性的電子文件,這些網(wǎng)站文件對于組織機構(gòu)和人類社會來說都具有重大的意義。
網(wǎng)站文件是指組織機構(gòu)在處理業(yè)務活動過程中,通過網(wǎng)站形成的、具有原始記錄性的電子文件,包括網(wǎng)頁、后臺數(shù)據(jù)庫文件、程序文件等。網(wǎng)站文件能夠真實地反映出組織機構(gòu)通過網(wǎng)站進行的業(yè)務活動的軌跡,具有憑證價值和情報價值。
一、網(wǎng)站文件歸檔的必要性
網(wǎng)站文件是社會活動中直接形成的原始性信息記錄。對于組織機構(gòu)來說,網(wǎng)站文件是組織機構(gòu)在進行業(yè)務活動的過程中直接形成的原始記錄,屬于組織機構(gòu)活動的證明。對于整個社會來說,網(wǎng)站文件是構(gòu)成社會記憶的重要組成部分,是溝通歷史的橋梁,具有歷史性。但網(wǎng)站文件具有更新快、壽命短以及惟一性的特點,這就使得網(wǎng)站文件的保存必須要及時、可靠。
二、網(wǎng)站文件歸檔的可行性
就世界范圍來看,由圖書館來承擔的網(wǎng)頁收集項目對網(wǎng)頁的捕獲、歸檔、存儲都進行了研究,并在實踐中取得了可喜的成績,但是鑒定的角度不同,圖書館更加關(guān)注的是網(wǎng)頁的文化價值,而忽視了其原始記錄性,對于元數(shù)據(jù)捕獲也沒有給予足夠的重視。筆者認為,網(wǎng)站文件歸檔的任務應當由檔案部門來承擔,檔案學理論可以借鑒到網(wǎng)站文件歸檔中來。
1、電子文件管理對網(wǎng)站文件歸檔的借鑒意義。網(wǎng)站文件本身就屬于電子文件的范疇,可以按照電子文件的管理方法進行管理,網(wǎng)站文件的生成、發(fā)布、捕獲、歸檔、利用是一個完整的運動過程,應當對其全程控制,不僅保存網(wǎng)站文件本身,還要連同元數(shù)據(jù)、變化日志、插件程序等一起保存,才能保證網(wǎng)站文件的真實性和完整性。
2、來源原則對網(wǎng)站文件歸檔的借鑒意義。面對浩如煙海的網(wǎng)站文件,最好的方式就是以網(wǎng)站為單位進行保存,同一個網(wǎng)站的所有網(wǎng)站文件保存在一起構(gòu)成該網(wǎng)站的“全宗”。網(wǎng)頁與網(wǎng)頁之間的鏈接關(guān)系和網(wǎng)頁與程序文件的依附關(guān)系也不能被破壞。目前美國的互聯(lián)網(wǎng)檔案館(Internet Archive)已經(jīng)體現(xiàn)了“來源原則”。
3、檔案鑒定理論對網(wǎng)站文件歸檔的指導作用。早在20世紀80年代,法國檔案學者羅爾德·瑙格勒提出了電子文件的“雙重鑒定論”①,一方面要判斷電子文件信息的有用程度,另一方面要判斷電子文件有用程度實現(xiàn)的可能。網(wǎng)站上的信息以多種格式存在,并且具有多種表現(xiàn)形式,需要從技術(shù)上判斷其有用程度實現(xiàn)的可行性。對于網(wǎng)站文件內(nèi)容上的鑒定,可以借鑒加拿大檔案學者特里·庫克(Terry Cook)的“宏觀鑒定戰(zhàn)略”,從能否反映該機構(gòu)的職能,能否反映當時的社會環(huán)境,能否滿足人們的社會期望等角度進行鑒定。
4、檔案部門理應承擔網(wǎng)站文件歸檔的責任,由機構(gòu)檔案室對本機構(gòu)網(wǎng)站包括內(nèi)聯(lián)網(wǎng)和外聯(lián)網(wǎng)上的網(wǎng)站文件進行歸檔,公共檔案館對所有的公共網(wǎng)站上有價值的文件進行保存。
三、網(wǎng)站文件的歸檔策略
1、網(wǎng)站文件歸檔范圍的確定
并非所有的文件都成為檔案,同樣,并非所有的網(wǎng)站文件都具有長期保存的價值,因而需要制定一個策略決定哪些需要歸檔,需要保存多長時間。
從內(nèi)容上來看,有兩種基本的收集方法:廣泛收集法(comprehensive approach)和選擇收集法(selective approach)。廣泛收集法是通過自動捕獲軟件收集網(wǎng)絡上的一切資源。②選擇收集法由人工進行鑒別有價值的文檔然后再進行收集。③。
從技術(shù)上來看,應當歸檔的文件包括:系統(tǒng)軟件、自動化軟件的結(jié)構(gòu)文件、日志、cookies、索引、圖形、文本、出版物、圖像、音頻、視頻。
2、網(wǎng)站文件的捕獲策略
捕獲策略取決于網(wǎng)站的類型和復雜程度,最常用的兩種捕獲方式是:對象驅(qū)動法(object driven strategy)和事件驅(qū)動法(event driven strategy)④。適合于由HTML文件構(gòu)成、不能實現(xiàn)交互功能的網(wǎng)站。事件驅(qū)動法主要是捕獲網(wǎng)站和用戶之間發(fā)生的事件或事務,適用于數(shù)據(jù)庫驅(qū)動(database-driven)的動態(tài)網(wǎng)站。兩種方法的最大不同就是著眼點不同,對象驅(qū)動法關(guān)注的是構(gòu)成網(wǎng)站文件的對象,而事件驅(qū)動法關(guān)注的是網(wǎng)站和用戶之間的單獨的一個事件。
以上兩種方法講的是什么元素需要捕獲,并沒有說明捕獲時間。捕獲的時間取決于網(wǎng)站變化的范圍和頻率。網(wǎng)站更新存在以下四種情況:(1)經(jīng)常更新,更新間隔的時間是三個月以內(nèi);(2)不經(jīng)常更新,更新間隔的時間是三個月以上;(3)有規(guī)律地更新,按照計劃有規(guī)律地進行變化(例如一周一次,一天兩次);(4)不規(guī)律地更新,沒有按照計劃進行更新,更新時間比較隨意,更新間隔的時間也是不確定的。按照以上四種變化情況,網(wǎng)站可以分成以下四種類型:規(guī)律且經(jīng)常更新的網(wǎng)站、規(guī)律但不常更新的網(wǎng)站、不規(guī)律但經(jīng)常更新的網(wǎng)站、既不規(guī)律也不經(jīng)常更新的網(wǎng)站。捕獲網(wǎng)站文件的時間是由網(wǎng)站的變化情況來決定的,跟蹤不規(guī)律但經(jīng)常更新的網(wǎng)站難度很大。
3、網(wǎng)站文件的保存策略
由于計算機軟件和硬件的不斷更新,今天還存在的電子文件十幾年或幾十年后未必能夠讀取。除了HTML文本文件屬于非專利的形式外,網(wǎng)站上包含許多專利格式,例如,Java程序、ActiveX程序、.jpg格式文件、gif格式文件、.tiff格式文件等都是網(wǎng)站的構(gòu)成要素,所以僅保存HTML文本文件是遠遠不夠的。網(wǎng)站的內(nèi)容、結(jié)構(gòu)、背景都要保存,腳本程序(Script)和插件程序(plug-in)也需要保存,對于網(wǎng)站文件來說,元數(shù)據(jù)和數(shù)據(jù)同樣重要。
網(wǎng)站文件的保存方法主要有數(shù)據(jù)考古(Data Archaeology)、仿真法(Emulation strategy)和遷移法(migration strategy)。數(shù)據(jù)考古是由格拉斯哥大學的Seamus Ross 提出的一種方法,也叫數(shù)字考古(Digital Archaeology)⑤,是將在當前軟件下生成的且以當前格式保存的電子文件移動到電子文件管理系統(tǒng)中,直到將來利用的時候才將其轉(zhuǎn)移到新技術(shù)環(huán)境下。仿真法是指用一個計算機復制另一個計算機的運行活動的過程,仿真計算機能夠逼真地模擬原始計算機,并將其取代⑥。遷移法指的是把數(shù)據(jù)從一種過時的數(shù)據(jù)格式移動到當前使用平臺,例如將word97格式保存的文件移動到office2007軟件平臺中。與數(shù)據(jù)考古和仿真法相比,遷移法在實際中的應用更為廣泛。數(shù)據(jù)考古只能作為一種短期戰(zhàn)略(大約五到十年),并非長久之計,而仿真法仍然處于理論探索階段,并且對技術(shù)具有很強的依賴性。所以,遷移法是目前惟一的長久保存方法。⑦
四、網(wǎng)站文件歸檔存在的問題
雖然網(wǎng)站文件歸檔的項目已經(jīng)展開,人們對網(wǎng)站文件的關(guān)注程度逐步上升,但是目前網(wǎng)站文件歸檔尚處于探索階段,仍然存在許多問題,尤其是國內(nèi)網(wǎng)站文件歸檔的有關(guān)研究還是相對滯后的。
1、動態(tài)網(wǎng)頁的捕獲問題
動態(tài)網(wǎng)頁一般都有后臺數(shù)據(jù)庫做支持,具有很強的交互性,網(wǎng)頁會根據(jù)用戶的要求和選擇而動態(tài)改變和響應,用戶的客戶可以在網(wǎng)站上留言發(fā)表疑問、建議和意見等。動態(tài)網(wǎng)頁的組成要素(內(nèi)容、結(jié)構(gòu)、背景)都是通過數(shù)據(jù)庫自動生成新的頁面,無須手動更新,例如在線采購系統(tǒng)、商務交流系統(tǒng)中的訂單都是自動生成的。
2、網(wǎng)站文件管理流程該如何設定的問題
文件的流程管理屬于業(yè)務活動的特殊流程,負責管理組織機構(gòu)所有業(yè)務流程中形成的文件。網(wǎng)站文件與一般的文件管理流程也有所不同,因為網(wǎng)站文件的生成、控制、傳播和保存的責任相對比較分散,給網(wǎng)站文件的管理流程設計加大了難度。
3、網(wǎng)站文件的長久保存問題
網(wǎng)站文件長久保存包括軟硬件更新對網(wǎng)站文件的再現(xiàn),網(wǎng)站文件保存體系的構(gòu)建,備份和容災系統(tǒng)的建立等。在數(shù)字保存方面,OAIS參考模型已經(jīng)成為公認的標準,網(wǎng)站文件的保存也可以借鑒OAIS參考模型,實現(xiàn)長久保存和利用。另外,也有人提出了建立軟件和硬件博物館來實現(xiàn)數(shù)字文件的長久保存。
4、相關(guān)的法律問題
比如,著作權(quán)問題,網(wǎng)站文件的作者是無法明確的,有些還是匿名的;編輯權(quán)問題,包括URL鏈接的相對變更、文字編碼轉(zhuǎn)化、信息單元表現(xiàn)形式的變更⑧;采集權(quán)問題,檔案部門是否有權(quán)對網(wǎng)頁進行下載、復制、備份;長期保存權(quán)問題,保存機構(gòu)是否可以無限期擁有作為國家文化遺產(chǎn)的網(wǎng)站;公布權(quán)問題,保存機構(gòu)捕獲網(wǎng)站文件之后是否具有公布權(quán);隱私權(quán)問題,在對網(wǎng)站的利用過程中是否侵犯了網(wǎng)站形成者的隱私權(quán)。這些都是迫切需要解決的法律問題。
謝倫伯格曾經(jīng)說過,“電話是掠奪歷史的盜竊者”,在人們享受網(wǎng)絡帶來的便利的同時,有沒有意識到網(wǎng)絡帶走了歷史呢?
注 釋:
①哈德羅·瑙格勒:《機讀文件的檔案鑒定:一份“文件與檔案管理規(guī)劃”綱要性研究報告》,聯(lián)合國教科文組織,1984年。
②http://kulturarw3.kb.se/
③http://pandora.nla.gov.au/index.html
④Dollar Consulting. ARCHIVAL PRESERVATION OF SMITHSONIAN WEB RESOURCES: STRATEGIES, PRINCIPLES, AND BEST PRACTICES. http://siarchives.si.edu/pdf/dollar_report.pdf.
⑤Seamus Ross and Ann Gow.Post-Hoc Rescue of Digital Material.
⑥Jeff Rothenberg.Using Emulation to Preserve Digital Documents,原文:”Emulation as a process in which one computer is used to reproduce the behavior of another computer with such fidelity that the emulation can be used in place of the original computer”
⑦David Barman.Reality and Chimeras in the Preservation of Electronic Records.
⑧鐘常青、楊道玲:《Web資源保存中的法律問題探討》,《情報理論與實踐》2006年第3期。
作者單位:中國人民大學信息資源管理學院