王程程 穆佳桐
網絡資源保存項目最早由歐美國家提出和開始實施,自1996 年開始,澳大利亞、加拿大、瑞典等國就由國家圖書館或檔案館著手實施這類項目。此后網絡資源保存的思想擴散到其他國家,使得有更多的國家參與進來,不過負責這類項目的機構通常都是各國的國家圖書館,而檔案館則較少參與進來,目前已有加拿大、英國等國家的國家檔案館開始實施這類項目。檔案機構承擔著對互聯網的黨政機關重要網頁電子文件進行歸檔的責任,對這類機構的重要網頁電子文件進行歸檔十分重要?;ヂ摼W中黨政機關的重要網頁資源具有很高的價值,這種價值體現在歷史、文化、研究和經濟等方面,對這些重要網頁電子文件的歸檔給予足夠的重視,是保存和實現這些網絡資源價值的固有要求。此外,重要網頁自身的特點也要求對歸檔工作給予足夠重視,否則整個社會將面臨這些網頁資源一旦失去后眾多歷史記錄缺失的風險。
首先,重要網頁具有檔案資源的原始記錄性。互聯網中的信息真實記錄了黨政機構網絡活動的真實表現和行為,這些信息以文字、圖像、聲音等豐富的形式展現出來,能夠生動直觀地反映國家、社會和各級黨政機構的網絡生活和社會民生,因而具備了檔案資源所具有的原始記錄性,從這個意義講,重要網頁資源與檔案的本質屬性是共通的。
其次,重要網頁具有檔案資源的易逝性。根據美國國會圖書館發(fā)布的一項調查報告顯示,有四成的網站會在一年以后消失,而網頁消失的速度則更快,網頁資源的平均壽命只有短短的44 天??梢韵胂?,一個包含了聲音、文字和視頻等多種形式信息的網頁最終難逃因為網站建設變更、內容調整或更新而消失的最終命運,這些網頁資源如果沒有得到有效保存,都將無聲地消失在互聯網中,這要求我們對黨政機關的重要網頁資源進行歸檔保存。
最后,重要網頁具有檔案資源的價值性。檔案的價值主要體現在檔案能夠對某類從事有關社會實踐活動的社會主體或個體產生某種效用,而網頁完全具備了作為記錄網絡活動相關信息的真憑實據作用,因而也具有了檔案的憑證和情報價值。以曾經影響很大的騰訊珊瑚蟲案為例,在該案的庭審中,原告律師向法庭提出了一個重要證據,該證據顯示騰訊官方網站旗下的科技頻道曾經在其網頁上提供了可供用戶下載珊瑚蟲相關的產品鏈接,該證據來源于美國互聯網檔案館(http://web.archive.org/)網頁數據庫,從該庫中,我們可以找到2005 年10 月31 日記錄該證據的相應鏈接地址,正因為有了該證據,案件判決最終受到了很大影響,這充分說明了重要網頁的憑證作用[1]。
1.黨政機關重要網頁電子文件的創(chuàng)建。
(1)網頁電子文件創(chuàng)建格式。對黨政機關重要網頁電子文件的創(chuàng)建格式進行統(tǒng)一和規(guī)范,納入到歸檔管理范圍的網頁電子文件涵蓋網站發(fā)布的通知、公告及各類公文信息,這些網頁電子文件的創(chuàng)建順序將以文件的發(fā)布時間為序,網頁電子文件的內容格式則以網頁(html)、PDF 等格式呈現,若不是這些格式,統(tǒng)一將其轉化為這些格式進行歸檔保存[2]。
(2)網頁電子文件的創(chuàng)建背景信息。對于大多數黨政機關而言,其網站上發(fā)布的重要網頁電子文件基本上都沒有明示該電子文件的背景信息,如文件的發(fā)布機構、發(fā)布時間、內容主題、效力級別等,因此還需要對所創(chuàng)建的網頁電子文件標注其背景信息。
2.黨政機關重要網頁電子文件的采集。
(1)采集對象。通過對黨政機關重要網頁電子文件進行初步的調研,我們已經大致明確了重要網頁電子文件在網站中的采集范圍,即各級黨政機關發(fā)布的法規(guī)規(guī)章、文件、統(tǒng)計公報、財政預算、政府采購、重大項目、民生熱點、公共安全等方面的信息,這些信息大多都以文本的形式存在,部分文件中包含了圖片和視頻等信息,對于這些多媒體信息,我們會對其是否需要保存進行慎重評估。
(2)采集方式。在明確網頁電子文件的采集對象范圍以后,還需要確定應該采取何種方式從黨政機關的網站上將這些網頁電子文件采集下來。采集方式的選取要考慮重要網頁電子文件的完整性,估計可能需要采集的時間,評估所獲取信息的質量情況,以及這些網頁電子文件的內容價值等,進而決定是采取淺層采集方式還是深層采集方式。
(3)采集工具。通常來說,采集一個黨政機關單位網站的網頁電子文件可以有兩種主要工具,分別是Heritrix 和HTTrack。其中,Heritrix 可相對完整、精確地將整個網站的信息抓取下來,這種工具適用于對比較大規(guī)模的黨政機關網站重要電子文件進行抓取。而HTTrack 這種工具則更加側重于對網頁進行鏈接分析,借助該工具可以掌握黨政機關網站文件的結構特征,可通過該工具對黨政機關網站的重要網頁電子文件進行深層次的抓取[3]。因此,可根據實際需要有針對性地選用這兩款軟件。
(4)采集頻率。由黨政機關網站網頁電子文件的價值或重要性決定。檔案管理部門根據上級相關部門提出的黨政機關重要網頁電子文件價值評估體系,制定“黨政機關重要電子文件價值評估計分表”,對黨政機關網站上發(fā)布的各類網頁電子文件的價值進行評估和精確計分,再根據網頁電子文件的得分確定針對該文件的具體采集頻率。根據網頁電子文件的價值或重要性得分情況,將各類網頁電子文件分為三等,分別是非常重要文件、比較重要文件和一般重要文件。其中,“非常重要文件”可每月采集;“比較重要的文件”可每個季度采集;一般重要文件”可每年采集。
3.黨政機關重要網頁電子文件的數據管理。對黨政機關重要網頁電子文件實施數據管理,也就是要對黨政機關網站上發(fā)布的網頁電子文件進行相關的著錄描述,應對所獲取的網頁電子文件的內容、結構、生成背景及其在各部門之間的流轉過程、原本存儲該電子文件的系統(tǒng)平臺信息進行記錄和標注,以準確的語言和格式對網頁電子文件對象及其組成元素進行精準描述,從而使所歸檔和存儲的網頁電子文件與黨政機關的其他電子文件建立起關聯關系。只有這樣才能有效地保證網頁電子文件在內容上的真實性、完整性和可讀性,進而生成能夠用于長期保存的黨政機關重要網頁電子文件數據包。針對黨政機關重要網頁電子文件的數據管理和內容描述元數據工作,主要由檔案管理部門以及黨政機關的信息部門負責實施。
4.黨政機關重要網頁電子文件的存儲。
(1)存儲內容。對重要網頁電子文件進行存儲,不僅要存儲網頁電子文件本身的內容信息,還可能會涉及網頁電子文件的背景、技術、環(huán)境、管理等相關信息,這些信息描述了該電子文件的完整信息。
(2)存儲格式。目前,國際通用的政府電子文件存儲格式為WARC(Web Archiving File Format),該格式在2009 年被正式確立為電子文件檔案格式的國際標準,該標準的編號為ISO 28500:2900。WARC 在存儲電子文件方面具有獨特的優(yōu)勢,它具有了比較完善的軟件生態(tài)環(huán)境,且存儲后的電子文件檔案內容豐富,便于對其進行管理,可擴展性比較強,能夠支持在大數據環(huán)境下的大容量文件存儲需求,這都是該格式成為黨政機關重要網頁電子文件長期保存和管理的不二選擇[4]。
(3)存儲架構。由于網頁電子文件具有規(guī)模大、更新快、容量大等大數據的特征,因而要對其進行比較好的存儲,需要采用當前大數據環(huán)境下的云存儲技術對其進行存儲。其中,Hadoop 是目前比較成熟的開源云計算平臺,平臺采用了HDFS 分布式存儲技術對大量數據進行存儲。其存儲架構包含存儲平臺應用和電子文件實體存儲環(huán)境兩個部分。
5.黨政機關重要網頁電子文件的利用。以往的信息檢索技術已經很難滿足大數據環(huán)境下黨政機關海量重要網頁電子文件檢索的需求,這就需要基于Agent 或本體實現智能化、語義化的檢索,從而提升大量重要網頁電子文件檢索的效率和精度。由于網頁電子文件具有超鏈接的特性,對這些超鏈接進行重現和定位,有助于掌握重要網頁電子文件相關的檔案資源,從而了解文件的歷史及相關背景信息,這可以通過重要網頁的重定向、網站網頁域名的重定向以及網頁的“URL+時間戳”等一系列技術實現。此外,除了傳統(tǒng)的Web 數據挖掘技術可用于對黨政機關重要網頁電子文件所包含的信息進行深度挖掘外,神經網絡、支持向量機、遺傳算法等新技術可以幫助檔案管理部門更加精確地評估黨政機關網頁電子文件的價值和重要性,并幫助用戶從大量電子文件中識別出他們想要的信息,實現網頁電子文件的增值服務。更重要的是,黨政機關重要網頁電子文件信息利用服務系統(tǒng)還需要對用戶檢索、系統(tǒng)挖掘的數據結果進行可視化呈現,將重要網頁電子文件之間的關聯關系展現出來,方便從中挖掘出深層次的潛在信息。
如何對政府數字信息資源進行長期保存是信息管理學、檔案學持續(xù)研究的課題。作為一種重要的數字信息資源,黨政機關重要網頁電子文件有其自身特征,對其進行保存與歸檔面臨著諸多困難,包括確定歸檔邊界、適應資源的快速增長、協(xié)調政府與圖情檔機構以及社會其他組織之間關系等,對其實現模式、關鍵技術及其保障等方面的問題研究,對于進一步推動數字信息長期保存理論的持續(xù)發(fā)展,拓展和深化信息管理及檔案學的理論有著重要意義。