吳碩娜 黃新榮
(1.中山大學資訊管理學院,廣州 511400;2.西北大學公共管理學院,西安 710127)
隨著信息技術(shù)的發(fā)展和應(yīng)用,海量信息資源隨之產(chǎn)生。IDC的報告預(yù)測2020年全球數(shù)據(jù)總量將達到40ZB[1]。為科學管理海量信息資源,充分利用其社會價值,2003年首次出現(xiàn)信息生命周期管理(Information Lifecycle Management)的概念,同年11月在美國網(wǎng)絡(luò)存儲國際大會上被普遍接受和認可[2]。ISO/TC 171技術(shù)委員會明確指出信息生命周期管理環(huán)節(jié)包括信息的生成、獲取、標引、存儲、檢索、分發(fā)、呈現(xiàn)、遷移、交換、保護與最后處置或廢棄[3]。EMC等數(shù)據(jù)存儲服務(wù)商基于信息生命周期管理理念將信息活動劃分為搜索、組織、保護/恢復、復制/監(jiān)控、訪問/共享、遷移/歸檔、刪除/銷毀[4]。目前關(guān)于信息生命周期管理雖然沒有統(tǒng)一的環(huán)節(jié)劃分,但各種劃分在表述、階段劃分上稍有不同,主體的管理思路仍然是從信息資源的生成、使用到歸檔,再到歸檔活動結(jié)束后的利用處置。
互聯(lián)網(wǎng)信息數(shù)量急劇增長,截至2017年,中國網(wǎng)站數(shù)已達523萬家,網(wǎng)民數(shù)高達7.72億人[5]。不僅網(wǎng)站中包含大量Web信息,網(wǎng)民在互聯(lián)網(wǎng)上的信息行為也產(chǎn)生了大量Web信息,海量信息的出現(xiàn)使Web信息資源的管理和保存變得尤為重要。目前許多國家已經(jīng)意識到Web信息資源的重要性并且開展了Web歸檔活動,嘗試對網(wǎng)頁資源和社交媒體等開展捕獲、長期保存等管理活動。網(wǎng)絡(luò)存檔服務(wù)組織Archive-It根據(jù)眾多歸檔項目的經(jīng)驗,提出Web歸檔生命周期模型(Web Archiving Life Cycle Model,WALCM)[6]。WALCM是有關(guān)Web歸檔活動的信息管理模型,其對歸檔展開的管理活動是信息生命周期系統(tǒng)管理流程的一部分,但也根據(jù)Web歸檔實踐的特殊性進行了調(diào)整。WALCM對Web信息從捕獲到長期保存的歸檔過程進行管理,其管理活動的主要特點:以業(yè)務(wù)為核心,基于政策,統(tǒng)一路徑,異質(zhì)環(huán)境和數(shù)據(jù)價值關(guān)聯(lián)[4]。本文將探討WALCM的不足,以期對WALCM進行發(fā)展和完善。
目前國外對WALCM的研究較少,國家互聯(lián)網(wǎng)保存聯(lián)盟(International Internet Preservation Consortium,IIPC)在歸檔工具與軟件部分對網(wǎng)絡(luò)歸檔概念進行系統(tǒng)介紹中提到WALCM[7],將其描述為一個用于歸納Web歸檔技術(shù)和歸檔環(huán)節(jié)程序化的框架。網(wǎng)絡(luò)調(diào)研發(fā)現(xiàn),日本國會圖書館在其網(wǎng)絡(luò)歸檔項目(Web Archiving Project,WARP)中應(yīng)用了WALCM[8],網(wǎng)絡(luò)歸檔生命周期由選擇、集合、組織、保存、公開5部分組成,這5部分會跟蹤網(wǎng)站信息并隨著網(wǎng)站信息的更改發(fā)生變化。日本國會圖書館在網(wǎng)絡(luò)存檔過程中借鑒了Archive-It提出的WALCM,并且根據(jù)實際需要對操作環(huán)節(jié)做出相應(yīng)改變。WARP項目中對WALCM的應(yīng)用也反映了模型的合理性。
該模型試圖規(guī)范在開發(fā)和管理網(wǎng)絡(luò)歸檔程序時所經(jīng)歷的不同操作步驟和階段。雖然模型分解成單獨的環(huán)節(jié),但每個操作都不獨立,操作步驟與階段是相關(guān)的,它們之間有緊密的重疊。模型由政策帶、外圈、元數(shù)據(jù)描述帶、內(nèi)圈和Web檔案集一系列同心圓環(huán)組成[9],在大型項目中,這些階段和步驟可能會根據(jù)項目要求進行循環(huán)。政策帶位于模型最外側(cè),這些政策規(guī)范基本涉及Web歸檔的方方面面。模型的外圈代表了機構(gòu)在建立和管理其網(wǎng)絡(luò)存檔計劃時所面臨的高層決策,是基于管理層面的操作。Archive-It選擇將元數(shù)據(jù)描述作為一個環(huán),來強調(diào)創(chuàng)建、導入和導出元數(shù)據(jù)是一個持續(xù)的過程,與生命周期中的其他活動一起發(fā)生。模型的內(nèi)圈主要描述Web歸檔業(yè)務(wù)所涉及的日常任務(wù),與外圈相比,內(nèi)圈更具體,主要包括評估與選擇、歸檔范圍界定、數(shù)據(jù)捕獲、存儲和組織、質(zhì)量保證與分析5個操作層面的步驟。Web檔案集是歸檔活動開展的前提和基礎(chǔ),是Web歸檔流程的首要環(huán)節(jié)。當歸檔單位向現(xiàn)有集合添加新網(wǎng)站、創(chuàng)建全新集合、審閱存檔內(nèi)容、修改網(wǎng)絡(luò)爬蟲軟件設(shè)置或捕獲范圍時,歸檔程序會重新回到Web檔案收集環(huán)節(jié)。
WALCM具有以下優(yōu)點。①完整的網(wǎng)絡(luò)歸檔指南。WALCM將Web歸檔實踐概括為兩條主線,一是政策層面,從管理者角度,幫助即將開展網(wǎng)絡(luò)歸檔的機構(gòu)明確歸檔目標、歸檔的最佳管理方法和流程,并制定相應(yīng)的政策;二是實踐層面,對Web信息資源進行評估與選擇、歸檔范圍界定、數(shù)據(jù)捕獲、存儲和組織、質(zhì)量保證和分析操作,為歸檔機構(gòu)提供合理、具體的可操作步驟,助其快速組織歸檔工作,完成歸檔目標。兩條主線可幫助機構(gòu)在短時間內(nèi)確立較好的管理制度和操作步驟,為未來的Web歸檔實踐提供可借鑒的操作指南,使網(wǎng)絡(luò)歸檔的環(huán)節(jié)規(guī)范化,保存社會記憶。②模型簡潔明了。WALCM以直觀、可視的環(huán)狀圖呈現(xiàn),便于用戶理解和實踐操作。一個歸檔機構(gòu)進行歸檔活動時首要考慮的是目前有關(guān)Web歸檔的相關(guān)標準和政策,因此,政策帶位于模型的最外層,是機構(gòu)外部的大環(huán)境。機構(gòu)在開展歸檔活動時,要明確機構(gòu)的歸檔目標和確定管理制度等上層建筑,這對歸檔實踐活動的開展非常重要。元數(shù)據(jù)和描述與WALCM的內(nèi)圈和外圈都有顯著重疊,因此位于兩個圓環(huán)之間。圍繞Web檔案集的是Web歸檔的實踐流程,即WALCM的內(nèi)圈。
檔案部門在電子文件的管理中應(yīng)用前端控制,將許多紙質(zhì)文件的控制手段提前到電子文件管理的最前端。Web信息是在社會實踐中直接生成的,這些信息符合文件的真實性、可靠性,具有鮮明的檔案屬性,是檔案數(shù)字資源的重要組成部分。前端控制思想是檔案領(lǐng)域應(yīng)對電子文件時代的新思維,是信息技術(shù)發(fā)展的必然產(chǎn)物。在網(wǎng)絡(luò)環(huán)境下同樣要注重對前端控制的思考與發(fā)展,有利于避免社會記憶的缺失,保持文化的傳承[10]。前端控制有利于建立統(tǒng)一的標準、保證信息內(nèi)容的真實性[11]及保證后續(xù)管理環(huán)節(jié)的展開。
前端控制的思想在國外Web歸檔實踐中也有體現(xiàn),如美國國會圖書館在其網(wǎng)頁收集項目中明確規(guī)定對網(wǎng)頁生成和收集的5個要求,即技術(shù)特點、格式、交付方式、元數(shù)據(jù)和技術(shù)措施[12]。在技術(shù)特點中,首先要求使用站點地圖,穩(wěn)定的URL和開放格式,還應(yīng)遵循無障礙標準。英國網(wǎng)絡(luò)歸檔聯(lián)盟在制訂網(wǎng)絡(luò)歸檔計劃時也充分體現(xiàn)了前端控制思想[13],聯(lián)盟成員在開展歸檔前需要獲得網(wǎng)站所有者的許可,同時合作制定兼容的選擇策略,并調(diào)查收集和應(yīng)對網(wǎng)絡(luò)存檔中可能涉及的復雜技術(shù)難題,做好統(tǒng)籌安排,使歸檔活動可以順利開展。前端控制的思想也影響了東亞部分Web歸檔項目,在韓國國家圖書館的OASIS項目中,詳細規(guī)定了網(wǎng)頁的爬蟲訪問設(shè)置、網(wǎng)頁標題、網(wǎng)址信息更改等設(shè)計標準及收集方面的相關(guān)政策[14]??紤]到著作權(quán)問題日本國會圖書館WARP項目在采集中制定了詳細的采集標準,這一點也體現(xiàn)了前端控制思想[15]。
國外Web歸檔項目中有關(guān)前端控制思想的實踐表明了前端控制在Web歸檔實踐中的重要性。從實踐案例中可以看出WALCM缺少前端控制。在生命周期中增加前端控制不僅有利于網(wǎng)頁的獲取和保存,更有助于整個歸檔工作的開展。WALCM是從Web信息資源收集開始,在Web信息資源生成后,圍繞網(wǎng)絡(luò)資源進行捕獲、組織、存儲、回放/再利用,只是針對歸檔這一管理活動的模型。信息生命周期理論是從信息產(chǎn)生開始研究,將信息的生成作為管理的最前端,并且在前端控制思想的指導下,歸檔管理活動已經(jīng)提前介入到資源的生成階段,Web歸檔生命周期作為信息生命周期的下位概念,也應(yīng)注重前端控制的應(yīng)用。因此,從實踐經(jīng)驗和理論基礎(chǔ)上可以看出其不足體現(xiàn)在模型前端控制的缺乏。
通過對現(xiàn)有Web歸檔實踐項目進行觀察,發(fā)現(xiàn)大量歸檔項目對歸檔資源展開多種形式的利用,充分挖掘歸檔信息中包含的資源。目前IIPC網(wǎng)站上提供了許多對Web歸檔資源利用的案例,主要是從鏈接分析和文本挖掘利用兩個角度對數(shù)字檔案資源展開利用。①鏈接分析法角度。不同站點和網(wǎng)頁的相互聯(lián)系構(gòu)成網(wǎng)絡(luò)鏈接,對鏈接進行分析能夠反映出隱藏的網(wǎng)絡(luò)結(jié)構(gòu)。特別是創(chuàng)建者放置的鏈接或者用戶之間分享的鏈接,可以視為對目標頁面的認可,一般都指向有用或相關(guān)的資源[16]。目前主要有英國國家圖書館對英國Web檔案進行的鏈接分析[17],Babel 2012網(wǎng)絡(luò)語言連接[18]和Zyxt實驗室分析常見的抓取網(wǎng)站[19]。②文本挖掘利用角度。文本挖掘指有效地從文檔內(nèi)容及其描述中抽取知識,進行分類、聚類、趨勢預(yù)測等[20],可以滿足用戶的多樣化需求,使用戶能夠短時間、全方面、準確地找到所需信息。目前IIPC展示的文本挖掘?qū)嵺`項目[21]有英國國家圖書館利用短語利用率可視化工具N-Gram,在英國網(wǎng)絡(luò)存檔中找到隨時間變化的用戶定義的搜索詞或短語每月出現(xiàn)的次數(shù);阿姆斯特丹大學利用網(wǎng)絡(luò)檔案搜索工具,重點收集荷蘭新聞匯總網(wǎng)站,顯示與主要新聞事件相關(guān)的詞頻可視化及隨時間變化的詞匯進行共生分析。
總體來看,不論是鏈接分析還是文本挖掘,都是對Web檔案的分析利用。國外的機構(gòu)和組織對Web歸檔的實踐活動不僅停留在Web檔案的長期保存和訪問,更多地關(guān)注歸檔后Web檔案的價值,從而更好地滿足公眾需求,促進檔案事業(yè)和社會的發(fā)展。Web歸檔生命周期作為信息生命周期的子概念,也應(yīng)遵循整體性原則,注重對歸檔資源的開發(fā)利用。因此,WALCM止步于Web檔案的長期保存具有一定的局限性,忽略了Web生命周期中信息的形成階段和在歸檔結(jié)束后對Web檔案的分析利用。
針對目前WALCM模型的局限性,對其進行補充和擴展,可以得到一個系統(tǒng)、完整的Web生命周期管理模型,涵蓋Web資源從生成到最后分析利用的管理全過程,即圍繞網(wǎng)絡(luò)資源的形成、獲取、保存、組織和利用處置。Web生命周期管理模型擴展了WALCM的前端和后端。前端的擴展要求以WALCM為基礎(chǔ),強調(diào)對網(wǎng)絡(luò)資源收集的控制始于Web歸檔流程的開端,并且貫穿于Web歸檔的整個過程。通過提前規(guī)定網(wǎng)絡(luò)資源的格式,再對符合相關(guān)標準的網(wǎng)頁進行捕獲和收集,這樣有利于保證捕獲質(zhì)量,使網(wǎng)絡(luò)資源在生成時就符合Web歸檔捕獲標準和Web檔案保存要求;同時也要加強與IIPC、W3C等國際組織合作,共同制定涵蓋網(wǎng)絡(luò)資源從生成到后續(xù)各個管理環(huán)節(jié)的相關(guān)標準和規(guī)范。后端加強對歸檔后Web信息資源的分析、利用,通過對資源進行鏈接分析、文本分析、語義挖掘等,深度挖掘網(wǎng)絡(luò)資源的價值;還可以對歸檔網(wǎng)絡(luò)信息資源展開編研,將編研成果以線上展覽等多元化的方式呈現(xiàn),更好地為用戶提供利用。通過對WALCM的前端和后端進行擴展,構(gòu)建一個完整的Web生命周期管理模型。
Web生命周期是指Web信息資源本身從產(chǎn)生到最后利用處置的過程中,信息數(shù)量、效用價值、熱度等信息生命指標的變化[22],展示了網(wǎng)絡(luò)信息運動的本質(zhì)和規(guī)律。Web生命周期管理是一種管理模型,是對Web信息生命運動的各個階段進行管理[23],以保證Web信息資源發(fā)揮最大價值。本文中擴展得到的Web生命周期管理模型是從歸檔保存角度對Web信息資源從產(chǎn)生到利用處置各個生命階段進行管理,對網(wǎng)絡(luò)資源進行保存和歸檔,有助于延續(xù)網(wǎng)絡(luò)信息資源的生命,歸檔為信息建立了一個鏡像副本,即使原鏈接被刪除,也可以通過利用歸檔的鏈接對原內(nèi)容進行分析、利用。
Web生命周期管理模型的坐標軸圖(見圖1)清晰地呈現(xiàn)了在操作層面對WALCM的擴展,在WALCM的基礎(chǔ)上前端增加了Web資源生成時的規(guī)范和標準,以及向后延續(xù)了對Web檔案開展鏈接分析、文本挖掘等利用。在操作層面,Web生命周期管理模型的結(jié)構(gòu)由Web資源生成、評價與選擇、歸檔范圍界定、數(shù)據(jù)捕獲、存儲和組織、質(zhì)量保證和分析、利用處置構(gòu)成;在政策層面,在明確機構(gòu)的歸檔愿景和目標后,增加對網(wǎng)絡(luò)資源生成進行前端控制,對機構(gòu)資源進行審查,制定Web歸檔計劃,并在風險管理后,加入對Web檔案的利用、處置。
圖1 Web生命周期管理模型坐標軸圖
Web生命周期管理模型的坐標軸圖僅橫向展示W(wǎng)eb生命周期管理的階段和環(huán)節(jié),沒有對Web生命周期管理進行整體描述。Web生命周期管理模型環(huán)狀圖(見圖2)彌補了這一不足,可從整體角度向用戶展現(xiàn)各階段的相互關(guān)系,便于從全局角度理解Web生命周期管理模型,是對坐標軸圖的擴展。
圖2 Web生命周期管理模型環(huán)狀圖
在環(huán)狀圖中,Web生命周期管理模型的中央由Web信息資源的標準與規(guī)范構(gòu)成,用虛線進行分隔,表明生成時標準與規(guī)范是對Web信息資源生成時的約束,Web信息資源是模型的核心。Web生命周期管理模型不只是對WALCM的前端和后端進行擴展,其最外側(cè)的政策帶含義也發(fā)生了改變。WALCM的政策是和Web歸檔有關(guān)的政策決定,這些外部的政策環(huán)境有可能會影響歸檔機構(gòu)內(nèi)部的政策變化和收集活動。Web生命周期管理的政策是針對Web信息從產(chǎn)生到利用、處置各個環(huán)節(jié)的相關(guān)政策決定、標準制定;互聯(lián)網(wǎng)檔案館(IA)、IIPC聯(lián)盟等國際組織的相繼出現(xiàn)和影響力日益提升,表明了Web信息管理項目呈現(xiàn)從獨立走向合作的趨勢,在政策層面表現(xiàn)為:要加強和W3C等互聯(lián)網(wǎng)組織合作,發(fā)展Web規(guī)范,解決Web應(yīng)用中不同平臺、技術(shù)、開發(fā)者導致的不兼容問題,確保Web信息的交換和遷移,督促Web應(yīng)用開發(fā)者和內(nèi)容提供者遵循這些標準[24],使Web信息資源利于保存和分析利用。
WALCM總結(jié)了網(wǎng)絡(luò)歸檔時所經(jīng)歷的不同步驟和階段,對Web歸檔實踐具有指導意義。但這一模型也有較多的局限性,通過修正得到了Web生命周期管理模型,Web生命周期模型的提出使Web生命周期的各個管理環(huán)節(jié)更加具體,具有可操作性,同時也厘清了生命周期模型與生命周期管理模型的區(qū)別。下一步應(yīng)密切關(guān)注Web生命周期管理模型與管理主體的關(guān)系,Web信息資源在不同的運行階段,其管理的主體是不一樣的,在資源生成階段,主體是發(fā)布者或平臺提供者;在歸檔階段,主體變成兩類:一類是信息資源的所有者,另一類可以是檔案館、圖書館或第三方機構(gòu)。由于網(wǎng)頁的共享性,歸檔主體不受限制,但是對于其他網(wǎng)絡(luò)資源(如社交媒體),歸檔后資源的分析利用會產(chǎn)生權(quán)屬問題,主要體現(xiàn)在知識產(chǎn)權(quán)方面。因此,有關(guān)Web信息資源所有權(quán)問題,即Web歸檔的風險管理是下一步研究應(yīng)重點考慮的問題和關(guān)注的方向。