Web長期保存的困擾

2016-03-18 13:33:03臧國全

國家圖書館學刊 2016年1期

臧國全井方

Web長期保存的困擾

臧國全井方

摘要web長期保存既存在管理方面的困擾，也存在技術方面的困擾。管理困擾包括保存的合法性、保存內(nèi)容的選擇、惡意軟件的去留、網(wǎng)頁的去重，技術困擾包括網(wǎng)頁收割工具的局限性、web保存的真實性、時間一致性、保存格式的有效性。另外，集體貢獻型網(wǎng)站的保存還存在一些特殊的困擾，包括網(wǎng)站抓取的困擾、產(chǎn)權許可的困難、保存動機的缺失等。參考文獻11。

關鍵詞web保存數(shù)字保存數(shù)字保存質(zhì)量

web長期保存的對象是因特網(wǎng)信息資源,其中主要為網(wǎng)站網(wǎng)頁。網(wǎng)站網(wǎng)頁具有高度動態(tài)性和易失性,對其進行長期保存的理論探討與實踐項目伴隨著因特網(wǎng)的誕生而產(chǎn)生。到目前為止,已出現(xiàn)不少該類保存項目,其中最著名的是The Internet Archives。但是,與其他類型數(shù)字資源（如數(shù)字化圖書、數(shù)字化期刊論文）相比,這類數(shù)字資源具有一些特殊的屬性,對其進行長期保存也面臨一些特殊的困擾。

1 web長期保存的管理困擾

1. 1 保存的合法性

在沒有網(wǎng)站所有人明確許可的情況下,保存機構是否有權復制網(wǎng)站內(nèi)容進行長期保存并向用戶提供訪問？這種活動是否構成了對網(wǎng)站擁有者版權的侵犯？一些網(wǎng)站明確列出了產(chǎn)權許可和版權信息,例如知識共享協(xié)議（CC）,這在一定程度上解決了這個問題。然而,大多數(shù)情況下,該問題的解決方案很大程度上取決于保存機構所在國家的相關法律以及保存機構的職權范圍。

比如,英國2013年頒布的涉及網(wǎng)絡文獻保存的《非印刷作品法定保存條例》［1］,授權一些保存機構可收割保存全英網(wǎng)段內(nèi)所有網(wǎng)站,并提供用戶訪問服務。但是,沒有獲得授權的保存機構為了特定的目的需要收割保存網(wǎng)絡文獻時,要么在網(wǎng)站上明確標注知識共享協(xié)議,要么獲取網(wǎng)站產(chǎn)權擁有者的產(chǎn)權許可。

再比如,在美國,web保存的理論與實踐比較混亂。理論上,主要有兩種:（1）一些法律專家認為,已有的一些案例可以作為web保存的先例,如谷歌抓取網(wǎng)頁的行為,即在沒有事先獲得網(wǎng)頁所有者產(chǎn)權許可的情況下進行長期保存,并供網(wǎng)絡用戶檢索瀏覽,但社會對谷歌的這種實際上的侵權行為給予了默認,web長期保存項目的實施可以參考谷歌等先例。（2）法學界一些學者認為,圖書館提供的web保存服務具有學術和教育功能,對公眾具有顯著的益處,可以歸屬為“合理利用”。上述兩個觀點仍沒有得到廣泛認可,需要進一步討論。實踐上,也主要有兩種類型:（1）因特網(wǎng)存檔（The Internet Archive）是一個著名的web保存項目,該項目對web網(wǎng)站的收割保存沒有獲得明確的授權許可,基于的理念是“沉默即是默許”,當有網(wǎng)站擁有者提出質(zhì)疑時,刪除保存的相應網(wǎng)站［2］；（2）美國國會圖書館完全基于產(chǎn)權許可（采用非獨占性許可的方式）進行web保存［3］。

除此之外,其他國家的web保存也因國家而異。有些國家通過了法定保存法規(guī),但是僅限于閱覽室內(nèi)瀏覽訪問。有些國家沒有通過相關保存法規(guī),要么基于產(chǎn)權許可進行有選擇性的保存,要么采用不向公眾提供訪問的“秘密保存”。大英圖書館2012年6月針對全球的國家圖書館進行的一項調(diào)查顯示,58%的國家圖書館希望政府制定相關法規(guī)支持本國網(wǎng)段內(nèi)網(wǎng)頁收割保存的合法化［4］。

1. 2 保存內(nèi)容的選擇

基于目前的實踐,web保存內(nèi)容的選擇主要有兩種:

（1）基于域集的選擇性保存。比如,選擇一個國家域集內(nèi)的所有網(wǎng)站進行保存,這些網(wǎng)站包括以國家域名后綴標識結(jié)束的網(wǎng)站,也包括網(wǎng)站服務器建在該國但域名后綴標識不同的網(wǎng)站,還包括網(wǎng)站服務器雖在國外但內(nèi)容與該國密切相關的網(wǎng)站。

（2）基于條件設置的選擇性保存。設置的條件可以是一個主題（比如數(shù)字圖書館）、一個學科專業(yè)（比如圖書館學）、一個事件（比如某屆大選、某屆奧運會）、一個機構（比如可口可樂公司）等。保存內(nèi)容是web上與設置條件相關的所有網(wǎng)絡文獻。

上述兩種方法都存在一些困擾。針對第一種保存內(nèi)容的選擇方法,主要困擾有兩個:一是產(chǎn)生于對域集的界定。因為因特網(wǎng)是無國界的,更無域集界限,在界定的域集內(nèi)收割的網(wǎng)站中,常常會包含一些超鏈,而這些超鏈所鏈接的網(wǎng)站不在該域集范圍之內(nèi),因而沒有被收錄,當用戶點擊這些超鏈時會產(chǎn)生死鏈。二是重復網(wǎng)頁問題。在一個域集（尤其是大型域集,比如國家域集）中,重復網(wǎng)頁（甚至重復多次的網(wǎng)頁）的存在是一個普遍現(xiàn)象。采用這種收集方法,保存系統(tǒng)中收割的網(wǎng)頁可能包含數(shù)量不小的重復副本,去重是一個挑戰(zhàn),因為去重不僅僅是刪除重復的網(wǎng)頁,還涉及指向被刪除網(wǎng)頁的鏈接的維護。

針對第二種保存內(nèi)容的選擇方法,主要困擾也有兩個:一是網(wǎng)頁收集的不全面,基于目前的技術,幾乎不可能將與設置條件相匹配的網(wǎng)絡文獻完全收割,因為任何匹配算法都會導致遺漏,也會產(chǎn)生誤收割；二是保存內(nèi)容的選擇偏差,采用這種方法,需要保存的網(wǎng)站通常需要經(jīng)過人工篩選過程,但這個過程體現(xiàn)了選擇者的個人意愿,不可避免地存在選擇偏差。

1. 3 惡意軟件的去留

“惡意軟件”是一類存在潛在威脅的軟件的總稱,廣泛滲透到計算機、操作系統(tǒng)或者應用程序中,包括病毒、特洛伊木馬、蠕蟲、欺騙性的廣告軟件、間諜軟件、鍵盤記錄器、cookie跟蹤軟件等。每種類型的惡意軟件的影響不同。

雖然各類網(wǎng)站都采用眾多方法預防和治理惡意軟件,但這類軟件仍普遍存在。許多web保存系統(tǒng)會對保存的網(wǎng)站網(wǎng)頁進行掃描以識別惡意軟件,但大多都不愿意將感染文件刪除,原因在于刪除感染文件可能會威脅到一個網(wǎng)站的完整性,也影響未來感興趣用戶的可訪問性。此外,不少防病毒軟件都存在誤報現(xiàn)象,基于防病毒軟件對收割的網(wǎng)站網(wǎng)頁的掃描結(jié)果進行感染文件的刪除,可能會導致誤刪情況。然而,惡意軟件的保留畢竟是一個安全隱患,尤其對規(guī)模較大的保存系統(tǒng)。所以,無論采取上述哪種方法,保存機構都會面臨選擇困擾。

1. 4 網(wǎng)頁的去重

“去重”是指對相同內(nèi)容的不同版本的網(wǎng)頁進行刪除,包括技術層面上相同內(nèi)容的刪除和呈現(xiàn)知識的細微差別的去重。前者指網(wǎng)頁存儲的比特字節(jié)相同,后者指網(wǎng)頁中內(nèi)容的差別較小,不足以被保存為不同版本（一些學者研究認為,不同版本的界定標準應該以網(wǎng)頁內(nèi)容重復率以不超過25%為宜［5］）。對于web保存來說,去重是一個很重要的問題,因為在不同的時間,對同一網(wǎng)站的多次抓取很可能會形成相同內(nèi)容網(wǎng)頁的多個版本。

但是,去重并非意味著絕對排除重復。比如,為了處理未來可能出現(xiàn)的網(wǎng)頁文件破損等問題,應該在保存系統(tǒng)中保留一定數(shù)量的網(wǎng)頁文件副本,但副本總量應該控制。再比如,一些法律判案網(wǎng)站,呈現(xiàn)在不同網(wǎng)頁之中的一些判案的相似度可能很高,或許已經(jīng)達到了去重標準的要求,但它們呈現(xiàn)的畢竟是不同的獨立判案,應該避免去重。

總的來說,“去重”是原則,“保留”是例外。但在具體實踐中,如何清晰地界定“去重”與“保留”之間的“度”,是保存機構面臨的一個管理困擾。

2 web長期保存的技術困擾

2. 1 網(wǎng)頁收割工具的局限性

大多數(shù)web保存采用的網(wǎng)頁收割工具都是網(wǎng)絡爬蟲。多年來,網(wǎng)絡爬蟲技術經(jīng)過了漫長的開發(fā)與應用歷程,目前已比較成熟,但是仍有一些類型的網(wǎng)頁很難被其有效抓取:（1）基于數(shù)據(jù)庫動態(tài)驅(qū)動的內(nèi)容網(wǎng)頁,即數(shù)據(jù)庫通過響應用戶的請求而自動生成的網(wǎng)頁；（2）密碼保護的內(nèi)容網(wǎng)站,如果網(wǎng)站提供密碼,爬蟲可以順利進行內(nèi)容抓取,反之則無法進行抓?。唬?）由動態(tài)機制產(chǎn)生URL的網(wǎng)頁內(nèi)容。上述這些網(wǎng)頁常被稱為“深網(wǎng)”,其內(nèi)容很難被有效抓取。

另外,也有一些管理方面的因素阻止網(wǎng)絡爬蟲的抓取操作。比如,網(wǎng)頁暫存數(shù)量的最大值設定,網(wǎng)絡爬蟲將抓取的網(wǎng)頁暫存到自己的內(nèi)存之中,當達到最大值設定時,網(wǎng)絡爬蟲將停止抓取。這個因素并不是網(wǎng)絡爬蟲本身的問題,而是由于不切合實際的設置導致的抓取容量限制。

網(wǎng)絡爬蟲的開發(fā)研究進展很快,可以期待未來的網(wǎng)絡爬蟲能有效解決上述問題,但目前對web保存仍是一個困擾。

2. 2 web保存的真實性

web保存的真實版本應該是原始網(wǎng)站的相同副本。早期的網(wǎng)站比較簡單,幾乎都標注最合適的瀏覽器版本和設置參數(shù),所以抓取和重現(xiàn)一個網(wǎng)站的相同副本很容易。但隨著因特網(wǎng)技術的發(fā)展,個性化瀏覽技術逐漸成熟,不同用戶對同一個網(wǎng)站的個性化體驗結(jié)果可能很不一樣,識別原始網(wǎng)站的構成以及它的外觀已變得越來越困難。不同的瀏覽器不僅會影響一個網(wǎng)站的整體呈現(xiàn)外觀,而且展現(xiàn)給瀏覽者的內(nèi)容也會發(fā)生變化,這樣,原始網(wǎng)站的相同副本也就無從判斷。

那么,一個網(wǎng)站保存版本的真實性如何體現(xiàn)？一般認為,它應該具有原始網(wǎng)站的所有重要屬性,包括內(nèi)容、語境、外觀、結(jié)構和行為動作等方面。因此,識別網(wǎng)站的重要屬性就成為了保存版本是否真實的判斷依據(jù)。Ball進行了一項相關研究,提供了一個有關網(wǎng)站的重要語義、互動性、動態(tài)性和外觀等方面屬性的列表［6］,可為網(wǎng)站重要屬性的制定提供參考。

如何驗證保存網(wǎng)站的真實性？可以通過對比保存網(wǎng)站與原始網(wǎng)站的重要屬性的異同來實現(xiàn)。一般采用人工測試的方法,將原始網(wǎng)站和保存網(wǎng)站同時呈現(xiàn)在相同的標準瀏覽器中,由訓練有素的專家基于人工視覺的方法進行評估。很顯然,這種評估方法雖比較準確,但效率低且時間成本高。采用自動化評估工具效率可提高,但目前開發(fā)的該類工具很難滿足準確度的要求,僅能處理一些容易判斷的問題,比如明顯的抓取錯誤（記錄在爬網(wǎng)日志中）、死鏈、抓取網(wǎng)頁的大小等［7］。因此,如何確保網(wǎng)站保存版本的真實性是保存機構面臨的一個挑戰(zhàn)。

2. 3 時間一致性問題

時間一致性是web保存的一個特性,指在一個時間節(jié)點上所有保存網(wǎng)頁同時存在于web上。與其他類型數(shù)字資源的長期保存相比,web保存的一個重要特殊性就是時間維度。保存的web信息資源時間跨度越大,保存系統(tǒng)的時代價值也就越高,但同時可能導致其時間的一致性越低。

因為爬取一個網(wǎng)站需要花費一定時間,導致網(wǎng)站內(nèi)部不同網(wǎng)頁被抓取的時間節(jié)點不同。如果在抓取網(wǎng)站主頁過程中,網(wǎng)站內(nèi)的某些網(wǎng)頁正在更新,那么網(wǎng)站主頁與這些被更新網(wǎng)頁之間存在著時間不一致現(xiàn)象,在整個網(wǎng)站抓取保存后,網(wǎng)站主頁的鏈接標題與被鏈接的更新網(wǎng)頁內(nèi)容之間存在不相符的問題。抓取保存的范圍越大,時間不一致問題越突出。比如,針對一個域集范圍內(nèi)網(wǎng)絡文獻的抓取保存,時間不一致現(xiàn)象是一個很大的挑戰(zhàn),因為基于域集包括的網(wǎng)段規(guī)模較大,爬取該域集內(nèi)全部網(wǎng)站的網(wǎng)頁可能需要一段較長的時間。

因此,web保存系統(tǒng)中保存的網(wǎng)絡文獻并不是在一個時間節(jié)點上的網(wǎng)站網(wǎng)頁備份,而是在一個時間跨度范圍內(nèi)的備份,所以時間不一致問題在所難免。此外,還會出現(xiàn)下述一個問題:如果研究人員想知道在過去一個特定的時間節(jié)點上網(wǎng)絡用戶能夠訪問的網(wǎng)絡信息,現(xiàn)行的web保存系統(tǒng)將無法給出準確答案。目前研制出的確保時間一致性的實現(xiàn)工具僅僅局限在單個網(wǎng)站上,對于多網(wǎng)站及其他類型網(wǎng)絡文獻的收割,時間一致性僅停留在概念上,在實踐中仍是一個巨大的挑戰(zhàn)［8］。

2. 4 保存格式的有效性

即使原始的軟硬件環(huán)境發(fā)生變化,長期保存技術也應該能夠應對這種變化所帶來的挑戰(zhàn),確保保存的web網(wǎng)頁網(wǎng)站能夠被用戶有效的訪問利用,這是web保存的一項基本原則。有些類型web網(wǎng)頁的使用條件比較低,比如,純粹的HTML格式網(wǎng)頁,可以在普通軟硬件環(huán)境中被絕大多數(shù)瀏覽器有效打開并使用。但也有一些類型web網(wǎng)頁的使用對一些特殊環(huán)境的依賴度較高。一般來說,時間越久的網(wǎng)頁,準確呈現(xiàn)與有效使用的問題越多。

與其他類型數(shù)字資源相比,web長期保存面臨的格式困擾主要有兩個［9］:

一是基于web發(fā)布的網(wǎng)頁文件的格式類型較多,且比較復雜。web保存不僅要對所有格式的網(wǎng)頁文件進行抓取保存,而且還要采用相應的技術和策略保證這些格式的網(wǎng)頁文件能夠被未來用戶有效訪問。

二是網(wǎng)站與所包含網(wǎng)頁以及網(wǎng)頁與所包含文件的關系復雜。前者主要是一種結(jié)構關系,通過超級鏈接實現(xiàn)。后者主要是網(wǎng)頁與組成該網(wǎng)頁的實體文件之間的關系,也是通過超級鏈接實現(xiàn)。在web保存中,不僅要抓取網(wǎng)站、網(wǎng)頁和超鏈的實體文件,更要維護超級鏈接,確保所有超級鏈接在保存系統(tǒng)環(huán)境中的長期有效性。其他類型數(shù)字資源長期保存廣泛使用的數(shù)字遷移技術應用到web保存中將面臨挑戰(zhàn),原因在于數(shù)字遷移過程中文件名（包括文件的后綴名）的改變不可避免,導致上述各種超級鏈接可能失效。因此,改造數(shù)字遷移技術以保持超鏈的有效性將是web保存的一項特殊工作。一種解決思路是,設計一個瀏覽器,用戶使用該瀏覽器訪問保存系統(tǒng)中的網(wǎng)站網(wǎng)頁,該瀏覽器具有識別過時格式并能夠?qū)^時格式的網(wǎng)頁進行自動遷移的功能,同時更新超級鏈接兩端文件的相應設置,從而達到保持超鏈有效的目的。

3 集體貢獻型網(wǎng)站的保存困擾

集體貢獻型網(wǎng)站指web2.0網(wǎng)站,是JavaScript廣泛應用的結(jié)果。這類網(wǎng)站主要有三類:社交網(wǎng)站（如Facebook）、維基百科（如Wikipedia、Flickr）和博客（包括微博）等。這類網(wǎng)站具有內(nèi)容的高度動態(tài)性、產(chǎn)權擁有的分散性、內(nèi)容的集體貢獻性等特殊屬性,使得其在長期保存過程中,除了存在上述傳統(tǒng)結(jié)構化網(wǎng)站的困擾外,還有一些特殊的困擾。

3. 1 網(wǎng)站抓取的困擾

抓取頻率的設置。該類網(wǎng)站的抓取涉及的一個問題是:web2. 0網(wǎng)站與傳統(tǒng)網(wǎng)站的區(qū)別是否足夠大,以至于需要采取不同的抓取頻率。例如WIKI,如果使用不僅能夠抓取當前頁面也能爬取網(wǎng)站網(wǎng)頁歷史版本的爬取工具,那么,WIKI具有的“歷史”頁面特征是否會導致爬取頻率的不同？Pinsent的研究表明［10］,與傳統(tǒng)的結(jié)構化網(wǎng)站相比,web2. 0抓取的時間依賴性可能上升,抓取頻率可能加快。

抓取時間點的選擇。比如博客,每一個新博文的發(fā)布都是對網(wǎng)站內(nèi)容的一次增加,在博客保存中,歷史博文通常也有價值,不應該被覆蓋。ULCC（University of London Computer Centre,英國倫敦大學計算機中心）和UKOLN（UK Office for Library Networking,英國圖書館與信息網(wǎng)絡辦公室）指出［11］,內(nèi)容“流動性”是web2. 0內(nèi)容的重要特征,這一特征使得網(wǎng)站保存者很難確定一個時間點,在該時間點上博客內(nèi)容是完整的,可以收割保存。

抓取內(nèi)容的選擇。社交網(wǎng)站抓取內(nèi)容的選擇尤其困難。例如Twitter,不僅僅包含博文發(fā)布,也包含網(wǎng)友之間的交流。保存一個Twitter賬戶意味著僅保存了一方的交流內(nèi)容。對于一個Twitter賬戶,可能的抓取范圍有:（1）僅抓取Twitter賬戶本身的內(nèi)容；（2）抓取針對一個Twitter賬戶的所有回復內(nèi)容；（3）同時抓取所有回復Twitter賬戶的用戶的資料,以提供情境信息；（4）鑒于Twitter上鏈接的重要性,同時抓取來自目標賬戶的所有鏈接。但保存系統(tǒng)無法確保這種鏈接的時間一致性,特別是半衰期非常短的鏈接,即無法保證被鏈接的網(wǎng)站內(nèi)容就是Twitter用戶交流時的網(wǎng)站內(nèi)容,因為網(wǎng)站內(nèi)容的刷新會導致不同時間同一地址的網(wǎng)站內(nèi)容的不同。

3. 2 產(chǎn)權許可的困難

一般來講,網(wǎng)站內(nèi)容產(chǎn)權歸內(nèi)容創(chuàng)建者所有。但是,針對web2. 0網(wǎng)站,其內(nèi)容本來就是眾多網(wǎng)絡用戶集體創(chuàng)作的結(jié)果,所以理論上,這類網(wǎng)站的產(chǎn)權歸所有的內(nèi)容貢獻者。如果這類網(wǎng)站的保存是基于產(chǎn)權許可的方式,那么,保存機構要么從網(wǎng)站擁有者處獲得產(chǎn)權澄清,要么從每一個內(nèi)容貢獻者處獲取產(chǎn)權許可。由于web2. 0網(wǎng)站屬于內(nèi)容托管網(wǎng)站,網(wǎng)站擁有者并非擁有網(wǎng)站的內(nèi)容,所以從網(wǎng)站擁有者處獲得產(chǎn)權澄清不太可行。但從每一個內(nèi)容貢獻者處獲取產(chǎn)權許可,是一項需花費大量時間的巨大挑戰(zhàn)任務,有時甚至是一項不太可能完成的工作。

產(chǎn)權許可獲取困難的原因之二是產(chǎn)權歸屬的人員組成復雜。這些人員并非集中在一個機構,是廣泛分散的,且可能分布在眾多的行業(yè)領域、廣袤的地域空間。所以,針對web2. 0網(wǎng)站,采用諸如電子期刊等數(shù)字資源長期保存的產(chǎn)權“集體授權許可”方式是不可行的。

產(chǎn)權許可獲取困難的原因之三是產(chǎn)權歸屬的模糊性。web2. 0網(wǎng)站中作者貢獻的內(nèi)容有些是自創(chuàng)的,也有不少是轉(zhuǎn)載于其他地方。這種轉(zhuǎn)載有的是規(guī)范化的引用,但引用缺失是常見的,有的甚至根本就沒有加入引用標識的意圖。此外,這種轉(zhuǎn)載也可能是多次的。因此,產(chǎn)權歸屬難以清晰界定。

3. 3 保存動機的缺失

保存動機是指保存機構實施數(shù)字保存的意愿。影響保存動機的因素有二:數(shù)字資源的保存價值和保存條件的可獲得性。

保存價值主要體現(xiàn)在下述三個方面。（1）用戶的需求。實際上,保存價值來自于用戶訪問的受益,所以用戶的需求是保存價值的決定要素。用戶需求包括當前需求和未來需求。用戶的當前需求具有發(fā)散性,因為不同的用戶群體對這類web數(shù)字資源的需求差別很大,比如,年輕者比年長者需求要大。這導致不同用戶群體對這類數(shù)字資源的保存價值的認同存在較大差異。用戶的未來需求具有預測性,因為數(shù)字保存是一項跨越時代的工作,用戶對其訪問需求不僅分布在現(xiàn)在,更主要分布在未來。但是,一般來講,集體創(chuàng)作型web數(shù)字資源的時效性很強,其未來需求充滿不確定性。（2）數(shù)字資源的本身價值,包括內(nèi)容的創(chuàng)新性、準確性和完整性等。但這類數(shù)字資源一般不是科研成果,所以其創(chuàng)新性無從談起。另外,這類數(shù)字資源是集體創(chuàng)作的結(jié)果,其準確性和完整性也難以得到保證。（3）保存內(nèi)容。由上可知,這類數(shù)字資源最主要的一個特征是內(nèi)容的“流動性”,導致在任何時間點上內(nèi)容都不是完整的,這不僅給收割保存帶來困擾,同時也說明了保存內(nèi)容永遠不可能是完整的。另外,上文也闡述了保存內(nèi)容有4種選擇,但不管怎樣選擇,保存內(nèi)容的完整性都難以得到保證。還有,其他類型數(shù)字資源（如數(shù)字化期刊論文等）的保存對象幾乎都是單個文件的實體,但這種模式對于其價值取決于鏈入和鏈出的對象與數(shù)量的集體創(chuàng)作型web數(shù)字資源來說不完全適合。

保存條件主要有保存資源的可獲得性以及數(shù)字資源產(chǎn)權許可的可獲得性。在保存資源方面,與其他類型數(shù)字資源保存相同,包括所需人力、物力、資金等。在產(chǎn)權許可方面,由上文分析可知,集體創(chuàng)作型web數(shù)字資源的產(chǎn)權歸屬非常分散,且存在模糊現(xiàn)象,導致保存機構尋求產(chǎn)權許可非常困難。

綜上所述,集體創(chuàng)作型web數(shù)字資源的保存價值存在不確定性,并且獲得產(chǎn)權許可也極為困難,所以保存機構（至少是商業(yè)性保存機構）對這類數(shù)字資源進行長期保存的動機缺失（至少不足）。提升保存動機的基本方法有二:一是采用非排他性許可,減少保存障礙；二是制定法定保存法規(guī),賦予公共保存機構保存動機。基于第一種方法,這類網(wǎng)站可以在內(nèi)容創(chuàng)建者的注冊過程中與其簽訂協(xié)議（如知識共享協(xié)議）,規(guī)定內(nèi)容創(chuàng)建者同意以非獨占性許可方式將貢獻的內(nèi)容產(chǎn)權許可給期望保存者；也可以在網(wǎng)站的明顯位置上發(fā)表聲明,說明所有內(nèi)容貢獻者默認同意將其貢獻的內(nèi)容以非獨占性方式許可給保存者。對于第二種方法,由于這類數(shù)字資源的保存價值存在很大的不確定性,商業(yè)性保存機構缺乏必要的保存動機,公共保存機構（如公共圖書館）履行公共職責對其進行保存,但仍需國家法定保存法規(guī)的授權,以徹底清除產(chǎn)權障礙。

web數(shù)字資源是一種重要的數(shù)字資源,對其進行長期保存的項目已有不少,比如,基于英國國家域集的The UK Web Archive、基于機構條件設置的The Coca-Cola Web Archive等。但是,至今web數(shù)字資源的長期保存仍然存在各種缺憾,困擾著這類數(shù)字資源的有效保存使用。本文對這些困擾進行了分析和總結(jié),以期業(yè)界探討解決方案,完善web數(shù)字資源的保存實踐。

參考文獻

1UK Parliament. The Legal Deposit Libraries （Non - Print Works）Regulations［EB／OL］. ［2015 - 03 - 01］. http：／／www. copyright. gov／circs／circ07d.pdf.

2Band，J. A new day for Website Archiving 2.0 ［EB／OL］.［2015-01-09］.http：／／www.arl.org／bm～doc／band_webarchive2012.pdf.

3Grotke，A. Web Archiving at the Library of Congress［EB／OL］.［2015-01-29］.http：／／www.infotoday.com／cilmag／dec11／Grotke.shtml.

4Brindley，L. British Library International Durvey on E-Legal Deposit 2013：Summary of Findings ［EB／OL］.［2015-01-29］. http：／／www.cdnl. info／2013／pdf／e_2Dlegaldeposit _20survey _20 CDNL_20Slides_20Aug%20.pdf.

5Gomes，D. Managing Duplicates in a Web Archive［EB／OL］.［2015-02-21］. http：／／xldb. fc. ul. pt／daniel／docs／presentations／gomes06du plicatesPPT.pdf.

6Ball，A. Web Archiving［EB／OL］.［2015-02-28］.http：／／www.dcc.ac.uk／sites／default／files／documents／reports／sarwa-v1.1.pdf.

7Hockx - Yu H.，et al. Improvement in WCT ［EB／OL］.［2015-03-09］.http：／／netpreserve. org／events／dc_ ga／03 _ Wednesday／WCTQAImprovement.pdf.

8Mazeika，D，et al.The SOLAR System for Sharp Web Archiving［EB／OL］.［2014 - 12 - 09］. http：／／liwaproject.eu／images／publications／The-SOLARSystem.pdf.

9Thompson，D. Archiving websites［EB／OL］. ［2015-04-09］.http：／／www.dcc.ac.uk／sites／default／files／documents／resource／curationman ual／chapters／archiving - web - resources／archiving -web-resources.pdf.

10 Pinsent，E. Working with the Web Curator Tool （part 2）：wikis，blog post on ULCC's Da Blog ［EB／OL］.［2015-02-09］.http：／／dablog.ulcc. ac.uk／2009／03／10／working-with-web-curator -tool-part-2-wikis／.

11 ULCC，UKOLN. Preservation of Web Resources Handbook［EB／OL］.［2015-02-17］. http：／／www. jisc. ac. uk／publications／programmerelated／2008／powrhandbook.aspx.

（臧國全教授鄭州大學信息管理學院副院長，井方鄭州大學信息管理學院圖書情報專業(yè)2014級碩士研究生）

業(yè)界動態(tài)

Some Confusions in the Long-Term Preservation of Web

Zang Guoquan Jing Fang

Abstract:The long-term preservation of web has some confusions in both management and technology. The confusions in management include legality of preservation, selection of web sites in preservation, removing or keeping off viruses and malware, and web page de-duplication. The confusions in technology include limitation in web harvesting tools, authenticity of web preservation, temporal coherence, and validity of preservation format. In addition, the preservation for web sites in collective contribution has some special confusions, including site scraping, difficulty in property right permission, and deficiency of preservation motivation. 11 refs.

Keywords:Web Preservation；Digital Preservation；Quality of Digital Preservation

收稿日期：2015-07-13

國家圖書館學刊2016年1期

國家圖書館學刊的其它文章: 二維碼與圖書館的深度結(jié)合：二維碼替代條形碼; 民國時期民眾圖書館的規(guī)章建設及啟示; 關聯(lián)數(shù)據(jù)云圖中出版類數(shù)據(jù)集特點分析; 京津冀高校圖書館移動服務現(xiàn)狀與發(fā)展策略?; 國內(nèi)外圖書館創(chuàng)客空間研究綜述; MOOC：圖書館員職業(yè)發(fā)展新平臺——以Hyperlib MOOC為例?