99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

<nav id="k04kk"><code id="k04kk"></code></nav>

<tr id="k04kk"><small id="k04kk"></small></tr>

<noscript id="k04kk"><dd id="k04kk"></dd></noscript>

<sup id="k04kk"></sup>

?

Web歸檔生命周期模型的發(fā)展研究*

2018-11-14 08:29:08吳碩娜黃新榮

數(shù)字圖書館論壇 2018年10期

關(guān)鍵詞：網(wǎng)絡(luò)資源生命周期利用

吳碩娜黃新榮

（1.中山大學資訊管理學院，廣州 511400；2.西北大學公共管理學院，西安 710127）

隨著信息技術(shù)的發(fā)展和應(yīng)用，海量信息資源隨之產(chǎn)生。IDC的報告預(yù)測2020年全球數(shù)據(jù)總量將達到40ZB[1]。為科學管理海量信息資源，充分利用其社會價值，2003年首次出現(xiàn)信息生命周期管理（Information Lifecycle Management）的概念，同年11月在美國網(wǎng)絡(luò)存儲國際大會上被普遍接受和認可[2]。ISO/TC 171技術(shù)委員會明確指出信息生命周期管理環(huán)節(jié)包括信息的生成、獲取、標引、存儲、檢索、分發(fā)、呈現(xiàn)、遷移、交換、保護與最后處置或廢棄[3]。EMC等數(shù)據(jù)存儲服務(wù)商基于信息生命周期管理理念將信息活動劃分為搜索、組織、保護/恢復、復制/監(jiān)控、訪問/共享、遷移/歸檔、刪除/銷毀[4]。目前關(guān)于信息生命周期管理雖然沒有統(tǒng)一的環(huán)節(jié)劃分，但各種劃分在表述、階段劃分上稍有不同，主體的管理思路仍然是從信息資源的生成、使用到歸檔，再到歸檔活動結(jié)束后的利用處置。

互聯(lián)網(wǎng)信息數(shù)量急劇增長，截至2017年，中國網(wǎng)站數(shù)已達523萬家，網(wǎng)民數(shù)高達7.72億人[5]。不僅網(wǎng)站中包含大量Web信息，網(wǎng)民在互聯(lián)網(wǎng)上的信息行為也產(chǎn)生了大量Web信息，海量信息的出現(xiàn)使Web信息資源的管理和保存變得尤為重要。目前許多國家已經(jīng)意識到Web信息資源的重要性并且開展了Web歸檔活動，嘗試對網(wǎng)頁資源和社交媒體等開展捕獲、長期保存等管理活動。網(wǎng)絡(luò)存檔服務(wù)組織Archive-It根據(jù)眾多歸檔項目的經(jīng)驗，提出Web歸檔生命周期模型（Web Archiving Life Cycle Model，WALCM）[6]。WALCM是有關(guān)Web歸檔活動的信息管理模型，其對歸檔展開的管理活動是信息生命周期系統(tǒng)管理流程的一部分，但也根據(jù)Web歸檔實踐的特殊性進行了調(diào)整。WALCM對Web信息從捕獲到長期保存的歸檔過程進行管理，其管理活動的主要特點：以業(yè)務(wù)為核心，基于政策，統(tǒng)一路徑，異質(zhì)環(huán)境和數(shù)據(jù)價值關(guān)聯(lián)[4]。本文將探討WALCM的不足，以期對WALCM進行發(fā)展和完善。

1 Web歸檔生命周期模型概述

目前國外對WALCM的研究較少，國家互聯(lián)網(wǎng)保存聯(lián)盟（International Internet Preservation Consortium，IIPC）在歸檔工具與軟件部分對網(wǎng)絡(luò)歸檔概念進行系統(tǒng)介紹中提到WALCM[7]，將其描述為一個用于歸納Web歸檔技術(shù)和歸檔環(huán)節(jié)程序化的框架。網(wǎng)絡(luò)調(diào)研發(fā)現(xiàn)，日本國會圖書館在其網(wǎng)絡(luò)歸檔項目（Web Archiving Project，WARP）中應(yīng)用了WALCM[8]，網(wǎng)絡(luò)歸檔生命周期由選擇、集合、組織、保存、公開5部分組成，這5部分會跟蹤網(wǎng)站信息并隨著網(wǎng)站信息的更改發(fā)生變化。日本國會圖書館在網(wǎng)絡(luò)存檔過程中借鑒了Archive-It提出的WALCM，并且根據(jù)實際需要對操作環(huán)節(jié)做出相應(yīng)改變。WARP項目中對WALCM的應(yīng)用也反映了模型的合理性。

1.1 模型的結(jié)構(gòu)

該模型試圖規(guī)范在開發(fā)和管理網(wǎng)絡(luò)歸檔程序時所經(jīng)歷的不同操作步驟和階段。雖然模型分解成單獨的環(huán)節(jié)，但每個操作都不獨立，操作步驟與階段是相關(guān)的，它們之間有緊密的重疊。模型由政策帶、外圈、元數(shù)據(jù)描述帶、內(nèi)圈和Web檔案集一系列同心圓環(huán)組成[9]，在大型項目中，這些階段和步驟可能會根據(jù)項目要求進行循環(huán)。政策帶位于模型最外側(cè)，這些政策規(guī)范基本涉及Web歸檔的方方面面。模型的外圈代表了機構(gòu)在建立和管理其網(wǎng)絡(luò)存檔計劃時所面臨的高層決策，是基于管理層面的操作。Archive-It選擇將元數(shù)據(jù)描述作為一個環(huán)，來強調(diào)創(chuàng)建、導入和導出元數(shù)據(jù)是一個持續(xù)的過程，與生命周期中的其他活動一起發(fā)生。模型的內(nèi)圈主要描述Web歸檔業(yè)務(wù)所涉及的日常任務(wù)，與外圈相比，內(nèi)圈更具體，主要包括評估與選擇、歸檔范圍界定、數(shù)據(jù)捕獲、存儲和組織、質(zhì)量保證與分析5個操作層面的步驟。Web檔案集是歸檔活動開展的前提和基礎(chǔ)，是Web歸檔流程的首要環(huán)節(jié)。當歸檔單位向現(xiàn)有集合添加新網(wǎng)站、創(chuàng)建全新集合、審閱存檔內(nèi)容、修改網(wǎng)絡(luò)爬蟲軟件設(shè)置或捕獲范圍時，歸檔程序會重新回到Web檔案收集環(huán)節(jié)。

1.2 模型的優(yōu)點

WALCM具有以下優(yōu)點。①完整的網(wǎng)絡(luò)歸檔指南。WALCM將Web歸檔實踐概括為兩條主線，一是政策層面，從管理者角度，幫助即將開展網(wǎng)絡(luò)歸檔的機構(gòu)明確歸檔目標、歸檔的最佳管理方法和流程，并制定相應(yīng)的政策；二是實踐層面，對Web信息資源進行評估與選擇、歸檔范圍界定、數(shù)據(jù)捕獲、存儲和組織、質(zhì)量保證和分析操作，為歸檔機構(gòu)提供合理、具體的可操作步驟，助其快速組織歸檔工作，完成歸檔目標。兩條主線可幫助機構(gòu)在短時間內(nèi)確立較好的管理制度和操作步驟，為未來的Web歸檔實踐提供可借鑒的操作指南，使網(wǎng)絡(luò)歸檔的環(huán)節(jié)規(guī)范化，保存社會記憶。②模型簡潔明了。WALCM以直觀、可視的環(huán)狀圖呈現(xiàn)，便于用戶理解和實踐操作。一個歸檔機構(gòu)進行歸檔活動時首要考慮的是目前有關(guān)Web歸檔的相關(guān)標準和政策，因此，政策帶位于模型的最外層，是機構(gòu)外部的大環(huán)境。機構(gòu)在開展歸檔活動時，要明確機構(gòu)的歸檔目標和確定管理制度等上層建筑，這對歸檔實踐活動的開展非常重要。元數(shù)據(jù)和描述與WALCM的內(nèi)圈和外圈都有顯著重疊，因此位于兩個圓環(huán)之間。圍繞Web檔案集的是Web歸檔的實踐流程，即WALCM的內(nèi)圈。

2 Web歸檔生命周期模型在實踐應(yīng)用中的不足

2.1 前端控制缺乏

檔案部門在電子文件的管理中應(yīng)用前端控制，將許多紙質(zhì)文件的控制手段提前到電子文件管理的最前端。Web信息是在社會實踐中直接生成的，這些信息符合文件的真實性、可靠性，具有鮮明的檔案屬性，是檔案數(shù)字資源的重要組成部分。前端控制思想是檔案領(lǐng)域應(yīng)對電子文件時代的新思維，是信息技術(shù)發(fā)展的必然產(chǎn)物。在網(wǎng)絡(luò)環(huán)境下同樣要注重對前端控制的思考與發(fā)展，有利于避免社會記憶的缺失，保持文化的傳承[10]。前端控制有利于建立統(tǒng)一的標準、保證信息內(nèi)容的真實性[11]及保證后續(xù)管理環(huán)節(jié)的展開。

前端控制的思想在國外Web歸檔實踐中也有體現(xiàn)，如美國國會圖書館在其網(wǎng)頁收集項目中明確規(guī)定對網(wǎng)頁生成和收集的5個要求，即技術(shù)特點、格式、交付方式、元數(shù)據(jù)和技術(shù)措施[12]。在技術(shù)特點中，首先要求使用站點地圖，穩(wěn)定的URL和開放格式，還應(yīng)遵循無障礙標準。英國網(wǎng)絡(luò)歸檔聯(lián)盟在制訂網(wǎng)絡(luò)歸檔計劃時也充分體現(xiàn)了前端控制思想[13]，聯(lián)盟成員在開展歸檔前需要獲得網(wǎng)站所有者的許可，同時合作制定兼容的選擇策略，并調(diào)查收集和應(yīng)對網(wǎng)絡(luò)存檔中可能涉及的復雜技術(shù)難題，做好統(tǒng)籌安排，使歸檔活動可以順利開展。前端控制的思想也影響了東亞部分Web歸檔項目，在韓國國家圖書館的OASIS項目中，詳細規(guī)定了網(wǎng)頁的爬蟲訪問設(shè)置、網(wǎng)頁標題、網(wǎng)址信息更改等設(shè)計標準及收集方面的相關(guān)政策[14]?？紤]到著作權(quán)問題日本國會圖書館WARP項目在采集中制定了詳細的采集標準，這一點也體現(xiàn)了前端控制思想[15]。

國外Web歸檔項目中有關(guān)前端控制思想的實踐表明了前端控制在Web歸檔實踐中的重要性。從實踐案例中可以看出WALCM缺少前端控制。在生命周期中增加前端控制不僅有利于網(wǎng)頁的獲取和保存，更有助于整個歸檔工作的開展。WALCM是從Web信息資源收集開始，在Web信息資源生成后，圍繞網(wǎng)絡(luò)資源進行捕獲、組織、存儲、回放/再利用，只是針對歸檔這一管理活動的模型。信息生命周期理論是從信息產(chǎn)生開始研究，將信息的生成作為管理的最前端，并且在前端控制思想的指導下，歸檔管理活動已經(jīng)提前介入到資源的生成階段，Web歸檔生命周期作為信息生命周期的下位概念，也應(yīng)注重前端控制的應(yīng)用。因此，從實踐經(jīng)驗和理論基礎(chǔ)上可以看出其不足體現(xiàn)在模型前端控制的缺乏。

2.2 后端利用不足

通過對現(xiàn)有Web歸檔實踐項目進行觀察，發(fā)現(xiàn)大量歸檔項目對歸檔資源展開多種形式的利用，充分挖掘歸檔信息中包含的資源。目前IIPC網(wǎng)站上提供了許多對Web歸檔資源利用的案例，主要是從鏈接分析和文本挖掘利用兩個角度對數(shù)字檔案資源展開利用。①鏈接分析法角度。不同站點和網(wǎng)頁的相互聯(lián)系構(gòu)成網(wǎng)絡(luò)鏈接，對鏈接進行分析能夠反映出隱藏的網(wǎng)絡(luò)結(jié)構(gòu)。特別是創(chuàng)建者放置的鏈接或者用戶之間分享的鏈接，可以視為對目標頁面的認可，一般都指向有用或相關(guān)的資源[16]。目前主要有英國國家圖書館對英國Web檔案進行的鏈接分析[17]，Babel 2012網(wǎng)絡(luò)語言連接[18]和Zyxt實驗室分析常見的抓取網(wǎng)站[19]。②文本挖掘利用角度。文本挖掘指有效地從文檔內(nèi)容及其描述中抽取知識，進行分類、聚類、趨勢預(yù)測等[20]，可以滿足用戶的多樣化需求，使用戶能夠短時間、全方面、準確地找到所需信息。目前IIPC展示的文本挖掘?qū)嵺`項目[21]有英國國家圖書館利用短語利用率可視化工具N-Gram，在英國網(wǎng)絡(luò)存檔中找到隨時間變化的用戶定義的搜索詞或短語每月出現(xiàn)的次數(shù)；阿姆斯特丹大學利用網(wǎng)絡(luò)檔案搜索工具，重點收集荷蘭新聞匯總網(wǎng)站，顯示與主要新聞事件相關(guān)的詞頻可視化及隨時間變化的詞匯進行共生分析。

總體來看，不論是鏈接分析還是文本挖掘，都是對Web檔案的分析利用。國外的機構(gòu)和組織對Web歸檔的實踐活動不僅停留在Web檔案的長期保存和訪問，更多地關(guān)注歸檔后Web檔案的價值，從而更好地滿足公眾需求，促進檔案事業(yè)和社會的發(fā)展。Web歸檔生命周期作為信息生命周期的子概念，也應(yīng)遵循整體性原則，注重對歸檔資源的開發(fā)利用。因此，WALCM止步于Web檔案的長期保存具有一定的局限性，忽略了Web生命周期中信息的形成階段和在歸檔結(jié)束后對Web檔案的分析利用。

3 Web歸檔生命周期模型的改進

3.1 Web生命周期管理模型的提出

針對目前WALCM模型的局限性，對其進行補充和擴展，可以得到一個系統(tǒng)、完整的Web生命周期管理模型，涵蓋Web資源從生成到最后分析利用的管理全過程，即圍繞網(wǎng)絡(luò)資源的形成、獲取、保存、組織和利用處置。Web生命周期管理模型擴展了WALCM的前端和后端。前端的擴展要求以WALCM為基礎(chǔ)，強調(diào)對網(wǎng)絡(luò)資源收集的控制始于Web歸檔流程的開端，并且貫穿于Web歸檔的整個過程。通過提前規(guī)定網(wǎng)絡(luò)資源的格式，再對符合相關(guān)標準的網(wǎng)頁進行捕獲和收集，這樣有利于保證捕獲質(zhì)量，使網(wǎng)絡(luò)資源在生成時就符合Web歸檔捕獲標準和Web檔案保存要求；同時也要加強與IIPC、W3C等國際組織合作，共同制定涵蓋網(wǎng)絡(luò)資源從生成到后續(xù)各個管理環(huán)節(jié)的相關(guān)標準和規(guī)范。后端加強對歸檔后Web信息資源的分析、利用，通過對資源進行鏈接分析、文本分析、語義挖掘等，深度挖掘網(wǎng)絡(luò)資源的價值；還可以對歸檔網(wǎng)絡(luò)信息資源展開編研，將編研成果以線上展覽等多元化的方式呈現(xiàn)，更好地為用戶提供利用。通過對WALCM的前端和后端進行擴展，構(gòu)建一個完整的Web生命周期管理模型。

Web生命周期是指Web信息資源本身從產(chǎn)生到最后利用處置的過程中，信息數(shù)量、效用價值、熱度等信息生命指標的變化[22]，展示了網(wǎng)絡(luò)信息運動的本質(zhì)和規(guī)律。Web生命周期管理是一種管理模型，是對Web信息生命運動的各個階段進行管理[23]，以保證Web信息資源發(fā)揮最大價值。本文中擴展得到的Web生命周期管理模型是從歸檔保存角度對Web信息資源從產(chǎn)生到利用處置各個生命階段進行管理，對網(wǎng)絡(luò)資源進行保存和歸檔，有助于延續(xù)網(wǎng)絡(luò)信息資源的生命，歸檔為信息建立了一個鏡像副本，即使原鏈接被刪除，也可以通過利用歸檔的鏈接對原內(nèi)容進行分析、利用。

3.2 Web生命周期管理模型的結(jié)構(gòu)

Web生命周期管理模型的坐標軸圖（見圖1）清晰地呈現(xiàn)了在操作層面對WALCM的擴展，在WALCM的基礎(chǔ)上前端增加了Web資源生成時的規(guī)范和標準，以及向后延續(xù)了對Web檔案開展鏈接分析、文本挖掘等利用。在操作層面，Web生命周期管理模型的結(jié)構(gòu)由Web資源生成、評價與選擇、歸檔范圍界定、數(shù)據(jù)捕獲、存儲和組織、質(zhì)量保證和分析、利用處置構(gòu)成；在政策層面，在明確機構(gòu)的歸檔愿景和目標后，增加對網(wǎng)絡(luò)資源生成進行前端控制，對機構(gòu)資源進行審查，制定Web歸檔計劃，并在風險管理后，加入對Web檔案的利用、處置。

圖1 Web生命周期管理模型坐標軸圖

Web生命周期管理模型的坐標軸圖僅橫向展示W(wǎng)eb生命周期管理的階段和環(huán)節(jié)，沒有對Web生命周期管理進行整體描述。Web生命周期管理模型環(huán)狀圖（見圖2）彌補了這一不足，可從整體角度向用戶展現(xiàn)各階段的相互關(guān)系，便于從全局角度理解Web生命周期管理模型，是對坐標軸圖的擴展。

圖2 Web生命周期管理模型環(huán)狀圖

在環(huán)狀圖中，Web生命周期管理模型的中央由Web信息資源的標準與規(guī)范構(gòu)成，用虛線進行分隔，表明生成時標準與規(guī)范是對Web信息資源生成時的約束，Web信息資源是模型的核心。Web生命周期管理模型不只是對WALCM的前端和后端進行擴展，其最外側(cè)的政策帶含義也發(fā)生了改變。WALCM的政策是和Web歸檔有關(guān)的政策決定，這些外部的政策環(huán)境有可能會影響歸檔機構(gòu)內(nèi)部的政策變化和收集活動。Web生命周期管理的政策是針對Web信息從產(chǎn)生到利用、處置各個環(huán)節(jié)的相關(guān)政策決定、標準制定；互聯(lián)網(wǎng)檔案館（IA）、IIPC聯(lián)盟等國際組織的相繼出現(xiàn)和影響力日益提升，表明了Web信息管理項目呈現(xiàn)從獨立走向合作的趨勢，在政策層面表現(xiàn)為：要加強和W3C等互聯(lián)網(wǎng)組織合作，發(fā)展Web規(guī)范，解決Web應(yīng)用中不同平臺、技術(shù)、開發(fā)者導致的不兼容問題，確保Web信息的交換和遷移，督促Web應(yīng)用開發(fā)者和內(nèi)容提供者遵循這些標準[24]，使Web信息資源利于保存和分析利用。

4 結(jié)語

WALCM總結(jié)了網(wǎng)絡(luò)歸檔時所經(jīng)歷的不同步驟和階段，對Web歸檔實踐具有指導意義。但這一模型也有較多的局限性，通過修正得到了Web生命周期管理模型，Web生命周期模型的提出使Web生命周期的各個管理環(huán)節(jié)更加具體，具有可操作性，同時也厘清了生命周期模型與生命周期管理模型的區(qū)別。下一步應(yīng)密切關(guān)注Web生命周期管理模型與管理主體的關(guān)系，Web信息資源在不同的運行階段，其管理的主體是不一樣的，在資源生成階段，主體是發(fā)布者或平臺提供者；在歸檔階段，主體變成兩類：一類是信息資源的所有者，另一類可以是檔案館、圖書館或第三方機構(gòu)。由于網(wǎng)頁的共享性，歸檔主體不受限制，但是對于其他網(wǎng)絡(luò)資源（如社交媒體），歸檔后資源的分析利用會產(chǎn)生權(quán)屬問題，主要體現(xiàn)在知識產(chǎn)權(quán)方面。因此，有關(guān)Web信息資源所有權(quán)問題，即Web歸檔的風險管理是下一步研究應(yīng)重點考慮的問題和關(guān)注的方向。

猜你喜歡

網(wǎng)絡(luò)資源生命周期利用

動物的生命周期

瘋狂英語(雙語世界)(2023年3期)2023-11-16 02:24:14

全生命周期下呼吸機質(zhì)量控制

現(xiàn)代儀器與醫(yī)療(2022年2期)2022-08-11 09:51:46

利用min{a，b}的積分表示解決一類絕對值不等式

中等數(shù)學(2022年2期)2022-06-05 07:10:50

利用一半進行移多補少

小學生學習指導(低年級)(2020年6期)2020-07-25 02:31:36

從生命周期視角看并購保險

中國外匯(2019年13期)2019-10-10 03:37:46

民用飛機全生命周期KPI的研究與應(yīng)用

民用飛機設(shè)計與研究(2019年2期)2019-08-05 01:33:20

利用數(shù)的分解來思考

小學生學習指導(低年級)(2018年9期)2018-09-26 05:59:44

Roommate is necessary when far away from home

瘋狂英語·新讀寫(2018年2期)2018-09-07 09:32:10

網(wǎng)絡(luò)資源在高中班級管理中的運用

中國教育技術(shù)裝備(2016年15期)2016-03-01 02:46:18

談網(wǎng)絡(luò)資源在大學計算機教學中的應(yīng)用

新教育時代電子雜志(學生版)(2015年31期)2015-12-20 08:29:22

數(shù)字圖書館論壇2018年10期

數(shù)字圖書館論壇的其它文章: 美國高?？蒲袛?shù)據(jù)政策內(nèi)容分析*; 國際科學計量學研究主題動態(tài)演化路徑分析*; 我國圖書館微信小程序使用現(xiàn)狀分析*; 大數(shù)據(jù)環(huán)境下高校圖書館數(shù)據(jù)管理與分析應(yīng)用實踐*
——以北京師范大學圖書館為例; 期刊下載頻次和被引頻次的相關(guān)性研究
——復合H指數(shù)視角; 基于改進CARS模型的學術(shù)文獻被引頻次影響因素分析*

嘉鱼县| 姚安县| 石渠县| 乡城县| 凤阳县| 韶山市| 金昌市| 南康市| 乌拉特后旗| 醴陵市| 天镇县| 通州区| 金塔县| 宜川县| 阿合奇县| 北流市| 云龙县| 雅安市| 屯门区| 龙江县| 德安县| 博湖县| 安庆市| 澄迈县| 正定县| 同江市| 昭觉县| 洪雅县| 建湖县| 昂仁县| 陇南市| 乌鲁木齐市| 和林格尔县| 莆田市| 宝山区| 衡阳县| 安宁市| 蒙阴县| 海口市| 宜兴市| 剑河县|

<nav id="4kkkk"></nav>

<tr id="4kkkk"></tr>