梁皆璇
摘要:自2009年起,英國國家檔案館開始對政府網頁以及社交媒體進行收集和保存。本文分別從政府網頁以及社交媒體兩個方面對英國國家檔案館的政府網頁檔案項目進行分析和研究,以期對我國檔案工作有所啟示。
關鍵詞:英國國家檔案館政府網頁檔案社交媒體檔案
隨著信息技術的發(fā)展,各國愈發(fā)意識到網絡信息資源的重要性,許多國家紛紛開展了與網絡信息資源歸檔相關的項目,并取得了一定成效。其中,作為網絡信息資源重要表現(xiàn)形式之一的政府網頁以及社交媒體更是引起了許多國家的重視。本文對英國政府網頁檔案項目進行分析和研究,以期對我國檔案工作有所啟示。
一、英國政府網頁檔案項目概述
進入21世紀,英國政府越來越多地在網上發(fā)布政府信息并運用一系列數(shù)字媒體與市民、企業(yè)交流互動,這使得數(shù)字形式的公共記錄數(shù)量迅速增長。收集實體形式和數(shù)字形式的公共記錄,以及確保能為子孫后代保存并提供實體形式和數(shù)字形式的公共記錄的利用,便成為英國國家檔案館的主要任務。在這樣的背景下,英國政府網頁檔案項目應運而生。
英國政府網頁檔案項目,設置在英國國家檔案館網站首頁四大板塊“教育服務”(Education)、“文件檢索與利用”(Records)、“信息管理指導”(Information Man? agement)、“檔案部門”(Archive Sector)中的“文件檢索與利用”(Records)板塊下,該板塊主要為研究提供文獻的支持。網頁檔案項目則提供網絡資源的支持,它共有5個部分,分別是“查找英國政府網頁檔案”(Search the UK Government Web Archive)、“從A—Z瀏覽館藏”(Browse our A to Z)、“Twitter檔案”(Twitter ar? chive)、“視頻檔案”(Video archive)以及“專題館藏”(Themed collections)。由于“查找英國政府網頁檔案”(Search the UK Government Web Archive)、“從A—Z瀏覽館藏”(Browse our A to Z)與“專題館藏”(Themed collections)這三個部分與英國政府網頁檔案的網頁檢索查詢功能有諸多重合之處,因此該內容將在網頁檢索查詢方式中重點介紹,而Twitter檔案(Twitter archive)、視頻檔案(Video archive)更多地體現(xiàn)為社交媒體檔案的功能,因此本文將其統(tǒng)一納入社交媒體檔案內進行闡述。
(一)英國政府網頁檔案
英國國家檔案館的政府網頁項目于2003年9月開始,初期選擇收集50個所轄范圍內的政府網站,并與非營利的專業(yè)網頁歸檔組織Internet Archive合作。隨著該項目的發(fā)展,從2005年起,政府網頁項目與非營利的專業(yè)網頁歸檔組織Internet Memory Foundation合作。政府網頁項目具備信息集成、服務利用、檢索查詢、資源共享。在其眾多的功能中,檢索查詢功能是英國政府網頁檔案最強大的功能之一。
1.網頁檔案檢索查詢方式
英國政府網頁檔案提供多種檢索方式,能夠使用戶根據(jù)自身的檢索偏好,選擇不同的檢索方式查找到所需內容,此外還有多種檢索方式作為補充,從而極大地提高了查全率和查準率。
(1)主要檢索方式
直接查找。政府網頁檔案的查找方式分為快速檢索和高級檢索??焖贆z索中只需輸入關鍵詞即可。其關鍵詞可以是任意詞、詞組或全文,也可以是一個網址。輸入任意詞、詞組或全文的搜索結果是館藏中所含搜索項的網頁,并清楚地標明該搜索項的位置,在每條搜索結果下詳細地提供該網頁的摘要、機構信息、原始網址、歸檔的時間以及按日期順序排列的、能夠收集到的該網頁的所有版本。在檢索出的每個網頁檔案頂部均有收集的時間,提醒用戶這是網頁快照,并非即時網頁。輸入網址的搜索結果則是按時間排列的所有收集到的網址;高級檢索中查找項為所有詞、不包含這些詞、確切詞或短語、分類、文件類型。所有詞的檢索相當于快速檢索功能;確切詞或短語搜索的結果至少包含其中的一個詞或短語。在高級檢索中,用戶還可以選擇所需類目,即將所有收集的政府網站分到一個或者多個類目下,可選擇一個或者至多選擇四個類目進行查找,以便于縮小搜索范圍。在這種方式下,將政府網站分為11大類,分別是“商業(yè)、工業(yè)、經濟和金融”、“中央和區(qū)域政府”、“文化和休閑”、“環(huán)境”、“衛(wèi)生、保健與護理”、“民政、公共秩序、司法與權利”、“榮譽、獎勵及委任”、“國際事務與國防”、“公眾、社區(qū)和住房”、“運輸、通信和科技”、“工作、教育和技能”。此外,在每個分類旁均有此分類中歸檔的所有網址以便查看。文件類型可以選擇查找結果的顯示方式,顯示網頁、PDF格式或者兩者均顯示。
英國政府網頁檔案的查找還支持在Firefox瀏覽器以及Chorme瀏覽器使用“Memento”的插件。裝上“Memento”插件后輸入需要的即時網頁,點擊“Me? mento”工具欄,選定日期和時間后點擊設置按鈕,在網頁中單擊鼠標右鍵則會顯示保存的與選擇日期和時間最相近的網頁檔案,以便用戶進行網頁瀏覽。[1]
(2)輔助檢索方式
索引查找。將所有歸檔的網頁按照字母順序由AZ以及數(shù)字的順序排列編成索引,用戶根據(jù)索引查找到需要的網頁,并點擊網頁的鏈接,便可呈現(xiàn)按時間排列的所有該網頁的網頁檔案,并提供即時網頁鏈接。這種查找方式較為簡單,為用戶節(jié)約了大量的時間。
專題查找。目前按專題查找板塊僅有17個專題檔案,精選了公眾關注度較高的事件以及著名事件,分別展示了這些事件是如何發(fā)生的,并記錄了政府處理情況。17個專題檔案是2006年英國國家安全、2010年4月火山灰危機、2010年5月英國大選、2010年夏巴基斯坦洪災、2011年3月日本地震、2012倫敦奧運會與殘奧會、2010~2013年4年間英國政府財政預算(共計5項)、英國女皇登基六十周年鉆石慶典議會演講、英國區(qū)域發(fā)展機構、英國透明度議程、金融危機、禽流感、豬流感。endprint
2.標準支持
英國政府網頁檔案之所以具有如此強大的檢索功能,重要原因在于有英國政府網頁檔案的標準支持。相關的標準支持主要體現(xiàn)為英國內閣辦公室于2009年3月發(fā)布了Cabinet Office Web Standard,其中TG105、TG122、TG125均涉及網頁歸檔。Cabinet Office Web Standard TG105主要包括兩部分內容,一部分旨在確保英國國家檔案館定期以及精確保存英國中央政府的網頁,另一部分為網頁的設計以及網頁的維護提供最佳實踐指導以便于支持網頁歸檔。[2]Cabinet Office Web Standard TG122,主要涉及利用網站地圖使搜索引擎能夠查找到網頁。網站地圖通過一個簡單、開放和便于獲取的格式在網站上列出可利用的內容。它可以是簡單的純文本URL列表,包含每個URL合適更新、更新的頻率等。其內容包括網頁地圖的重要性、網頁地圖是什么、如何創(chuàng)建網頁地圖、上傳網頁地圖、向搜索引擎提交網絡地圖、向英國政府網頁檔案提交網頁地圖以及附錄。[3]Cabi? net Office Web Standard TG125涉及管理URL。URL是網頁檔案的生命線,良好的網頁管理將大大減少不可訪問的網頁數(shù)量。TG125正致力于減少網頁的不可訪問率。其內容包括域名的維護、使用永久網址、使用有意義的URL(人們容易理解的URL)、通過轉換管理URL等。[4]
(二)社交媒體檔案
從時間上看,該項目最早歸檔的社交媒體檔案可以追溯到2006年;內容涉及近年的重大事件,如2012年倫敦奧林匹克運動會等;形式上可分為文字的Twitter(簡稱推特)檔案和視頻檔案;采集方式上,英國國家檔案館采用自動采集工具有效捕獲并提供社交媒體的內容。社交媒體檔案的功能也日趨完善。在該項目的試驗階段,主要收集由英國政府部門在線發(fā)布的數(shù)千個視頻和超過6.5萬條Twitter,隨著社交媒體發(fā)展的成熟化,這部分館藏量也將隨著更廣泛的網頁歸檔活動持續(xù)增長??梢哉f,社交媒體檔案正成為展示政府部門如何使用數(shù)字工具與公眾進行溝通的重要工具。以下主要對Twitter檔案和視頻檔案進行敘述。
1.Twitter檔案
Twitter是一個廣受歡迎的社交網絡及微(博)客服務網站,它允許用戶將自己的最新動態(tài)和想法以移動電話中的短信息形式發(fā)布,英國政府部門普遍都有推特賬號,定期在推特上發(fā)布信息,英國國家檔案館將推特作為公眾記錄的一部分進行保存。目前共收集了43個英國政府部門賬號的推特檔案。點擊每個部門的圖標都能查看保存的推特并提供即時推特的鏈接。目前僅支持用戶以時間順序對推特檔案進行查詢,由于推特檔案是按年度進行收集,當前保存了2013年9月之前的推特。[5]而哪些類型的推特應被保存,哪些類型的推特應被舍棄,英國國家檔案館作了詳細規(guī)定,如將應被保存的推特內容限制在由英國政府部門賬號和倫敦奧運會官方賬號發(fā)出的推特以及這些推特中提到的網頁;被舍棄的推特內容主要為政府部門轉發(fā)的推特,由政府部門發(fā)布的推特但其中包含非政府部門推特內容的,也不在歸檔范圍中的。此外推特內容中的鏈接內容也不屬于其歸檔活動的范圍。
2.視頻檔案
視頻檔案的收集是與世界上最大的視頻網站You tube合作的,保存自2007年以來43個政府部門開通的Youtube賬號以及2012年倫敦奧運會和殘奧會相關的視頻。視頻和推特一樣也是作為公共記錄的一部分進行保存。當前視頻檔案板塊為測試版,只能按照形成部門-形成時間-題名的方式進行簡單的查找,每一個視頻都會標明具體的形成日期、主要內容并為其貼上標簽,方便用戶的了解。
二、英國政府網頁檔案項目對我國的啟示
(一)檔案部門應將政府網頁及其社交媒體列入館藏范圍
從必要性角度來說,互聯(lián)網和社交媒體正成為我國公民行使知情權、參與權、表達權和監(jiān)督權的重要渠道。一方面,近年來,越來越多的政府部門通過網絡開展各項業(yè)務,并產生了大量的政府網絡信息資源;另一方面,社交媒體(允許人們撰寫、分享、評價、討論、相互溝通的網站和技術)體現(xiàn)在我國即微(博)客,正如火如荼地開展。但互聯(lián)網也有其自身的缺陷,如若沒有相應的項目管理,消失的網頁和社交媒體將永遠從人們的記憶中消失。
從可行性角度來說,檔案部門在政府網頁及其社交媒體信息的收集上有其“先天優(yōu)勢”。政府網頁及其社交媒體的采集是檔案部門收集電子文件所涉范圍。同時,電子文件國家戰(zhàn)略的開展可以進一步推進網絡信息資源保存戰(zhàn)略的實施,檔案部門可以借此拓寬領域,將網絡信息的保存和數(shù)字檔案館結合起來,進行統(tǒng)籌安排。[6]
(二)充分挖掘采集資源
筆者認為不論是收集政府網頁還是社交媒體都應通過制定元數(shù)據(jù)編目規(guī)則,在網絡爬蟲(抓取網絡資源的工具)采集資源之后,根據(jù)元數(shù)據(jù)編目規(guī)則進行。經過編目之后,形成一系列的專題,并提供時間、地域、關鍵詞等多檢索途徑,使讀者能夠按照各個分類進行瀏覽。此外還應支持用戶在頁面上看到采集網站的編目信息,查看對應年月日的網頁內容,如此一來用戶就能看到過去相應時間的網頁內容。[7]
此外,在檔案館頁面上每月推薦一個采集的主題網站,發(fā)布每月的采集網站訪問量的排名情況。還可將采集的網頁以及社交媒體進行整合,這樣不僅為采集的資源增加了新的價值,還為用戶更充分便捷地利用檔案資源提供了條件。
(三)積極與相關機構合作
從長期發(fā)展來看,政府網頁及其社交媒體作為重要的網絡信息資源,僅憑檔案部門的一己之力采集與保存是不夠的,更需要相關部門間的積極合作。
收集網頁檔案方面,應該借鑒英國政府網頁檔案項目,可與國際上類似的專業(yè)網頁歸檔組織合作,也可與我國自有的網頁歸檔機構合作,如Web Infomall——中國Web信息博物館合作,此外,我國檔案館也可以積極加入國際互聯(lián)網保存聯(lián)盟(International Internet Preser? vation Consortium),從而了解以及運用最先進的技術,更好地對政府網頁檔案進行采集、保存和利用。endprint
收集社交媒體檔案方面,我國可以積極與社交媒體平臺合作,并與其達成協(xié)議。收集屬于檔案部門歸檔范圍的,政府部門社交媒體賬號內的信息,并定期移交給檔案館,以便提供網上檢索查詢服務。
(四)完善相關法律與標準
在法律方面,政府網頁及社交媒體歸檔保存面臨的法律問題主要有三個,即網絡信息的收集、保存與利用,這些問題的解決與否直接關系到政府網頁以及社交媒體的長遠發(fā)展。目前,筆者認為可以有兩種解決方式。一是檔案部門通過對檔案法及其實施辦法或相關法律進行修正,建立合法呈繳制度,從法律上賦予檔案館保存與處理政府網頁資源及其社交媒體資源的權利。但當前我國制定呈繳法的條件還不成熟。因此就現(xiàn)階段而言,可采用第二種方式也就是采取協(xié)商解決的方法,通過與網站所有者協(xié)商獲得版權所有者的許可。
在標準方面,標準是否統(tǒng)一直接影響政府網頁及其社交媒體的長久保存與利用,因此應該建立統(tǒng)一的標準,如統(tǒng)一的采集標準、元數(shù)據(jù)、標準數(shù)據(jù)存儲轉換格式等,從而避免因保存標準不一致而產生的問題。從這個角度而言,檔案部門有必要對政府網頁及其社交媒體保存中采集、存儲、訪問、索引與檢索階段所涉及的標準規(guī)范不斷予以研究完善,在標準制定的過程中應優(yōu)先采用國際標準并做到與其他標準的有機銜接。
參考文獻:
[1][5]Information on web archiving[EB/OL].[2014- 06- 05].http://www.nationalarchives.gov.uk/we? barchive/information.htm.
[2]Archiving websites[EB/OL].[2013- 04- 13].http:// webarchive.nationalarchives.gov.uk/20130413020040/ http://digitalstandards.cabinetoffice.gov.uk/archiving- web? sites/.
[3]Exposing your website to search engines[EB/ OL].[2013- 04- 13].http://webarchive.nationalarchives. gov.uk/20130413020040/http://digitalstandards.cabinetof? fice.gov.uk/exposing-your-website-to-search-engines/.
[4]Managing URLs[EB/OL].[2013-04-13].http:// webarchive.nationalarchives.gov.uk/20130413020040/ http://digitalstandards.cabinetoffice.gov.uk/managing-urls/.
[6]閆曉創(chuàng).國外Web Archive項目對我國的借鑒和啟示——以澳大利亞的PANDORA項目為例[J].檔案學研究,2012(5):79-83.
[7]陳瑜.日本國立國會圖書館網絡信息資源采集保存項目介紹研究[J].圖書館雜志,2014(3):91-94.endprint