姜育彥 劉雪立
(1. 新鄉(xiāng)醫(yī)學院河南省期刊研究中心,新鄉(xiāng) 453003;2. 新鄉(xiāng)醫(yī)學院期刊社,新鄉(xiāng) 453003)
長期以來,圖書館、檔案館等相關機構在進行文獻收藏和保護工作中一直使用縮微膠片作為珍貴資料的長期存儲介質[1]。但是,基于這一介質構建的存儲模式不僅使得機構在提供檢索服務時存在困難,而且還會使研究人員在對資源進行深度利用和開發(fā)時遭遇阻礙。因此,近年來逐步將存儲在縮微載體上的信息資源進行數(shù)字化轉換,使其變得更易使用。但在當今越來越開放化、眾包化的學術生態(tài)中,單純地對資源進行數(shù)字化轉換不足以應對現(xiàn)有的研究需求,如何增強數(shù)字化縮微資源的可使用性,將數(shù)字與人文有機且深度地結合,重新綻放縮微資源的生命力[2]才是當下的重點。
國內數(shù)字人文學科發(fā)展方興未艾,為了進一步促進數(shù)字人文項目的開展,部分學者對國外數(shù)字人文項目進行系列研究,以期為國內同類型實踐提供借鑒。如楊友清等[3]、徐彤陽等[4-6]、趙雪芹等[7]分別對加拿大、新加坡、日本、德國、美國等國家相關機構開展的數(shù)字人文項目進行調研分析,指出國內機構應注重團隊建設、發(fā)揮資源優(yōu)勢、增強項目的可持續(xù)性。單蓉蓉等[8]通過分析獲獎項目,提出數(shù)字人文的工具開發(fā)應以代碼開源和用戶需求為導向,項目實踐應以關聯(lián)數(shù)據(jù)、國際圖像互操作框架(IIIF)、RDF和AI為主要技術框架。這一系列研究開闊了國內學者的視野,但并沒有直觀地體現(xiàn)國內外同類型項目在各層面的差距所在。
因此,本文將對Digital Cicognara Library項目進行介紹,并選擇“徽州文書”主題相關項目作對比分析,探討Digital Cicognara Library項目的優(yōu)勢所在,總結其成功經驗,以期為我國相關組織機構開展高質量的數(shù)字人文實踐提供參考。
Digital Cicognara Library項目本質上是對Fondo Cicognara相關資源的數(shù)字化及深度開發(fā)。Fondo Cicognara的最初締造者為Leopoldo Cicognara,他出版了三卷本的雕塑史著作Storia della scultura dal suo risorgimento in Italia al secolo di Napoleone,并出版了自己收藏圖書的目錄《Cicognara伯爵所擁有的藝術和古物書籍全目錄》(Catalogo ragionato dei libri d’arte e d’ antichità posseduti dal Conte Cicognara,以下簡稱《書目》)。在今天,《書目》成為他所有著作中最常被參考的一本書,被認為是“第一個通用的藝術書目”,深刻地影響了相關領域學者的研究工作。
由于沒有一個現(xiàn)代圖書館可以完整地復制并展現(xiàn)Fondo Cicognara,Kress基金會在19世紀80年代贊助了一個項目,其目的在于以縮微膠片的形式傳播Fondo Cicognara的全文,從而擴大早期藝術文學的可及性。在藝術史學家Philipp Fehl的帶領下[9],伊利諾伊大學厄巴納-香檳分校(University of Illinois at Urbana-Champaign)與梵蒂岡圖書館(Vatican Library)密切合作,為《書目》中的每個標題所涉及的收藏制作了一個縮微膠片版本。在過去30年中,縮微膠片套裝已被出售或捐贈給全球數(shù)十家圖書館,每項收藏的元數(shù)據(jù)均可在WorldCat中找到。
盡管該項目對于當時而言是卓有成效的,但從現(xiàn)在的視角來看,雖然保持了Fondo Cicognara的生命力,但是未能提升其整體的可使用性。2014年,依然是在Kress基金會的鼓勵下,一個國際圖書館小組開始探索如何讓Fondo Cicognara的整個語料庫在線免費提供,其成果便是Digital Cicognara Library。Digital Cicognara Library將所有縮微膠片數(shù)字化,并匯集了與《書目》中的標題相匹配的數(shù)字摹本(包括梵蒂岡圖書館所收藏的原始卷的黑白圖像和來自合作伙伴圖書館的高分辨率的彩色圖像),并由梵蒂岡圖書館在Digital Cicognara Library官網以開放方式提供,從而使Fondo Cicognara變得更容易訪問。這一舉措不僅拉近了用戶與機構之間的距離,降低了獲取資源的成本,更使原本無法利用的人群獲得接觸相關資源的機會。
該項目在建設過程中得到了梵蒂岡圖書館、弗里克藝術參考圖書館(Frick Art Reference Library)、蓋蒂研究所(Getty Research Institute)、哈佛大學圖書館(Harvard University Library)、海德堡大學圖書館(Heidelberg University Library)、國家藝術畫廊圖書館(National Gallery of Art Library)、普林斯頓大學圖書館(Princeton University Library)、羅馬美國學院(American Academy in Rome)、哥倫比亞大學圖書館(Columbia University Library)、紐約大都會藝術博物館(Metropolitan Museum of Art,New York)、倫敦國家美術館(National Gallery,London)、伊利諾伊大學厄巴納-香檳分校圖書館等機構的大力支持[10]。
Digital Cicognara Library的主體架構主要由三部分組成:資源提供層、用戶服務層和技術支撐層(見圖1)。三層有機地融合在一起,且各層次所囊括的組成元素在一定程度上同時承擔了其他層級的任務。
圖1 Digital Cicognara Library的運作架構
(1)資源提供層。該層任務是為Digital Cicognara Library項目提供必要的元數(shù)據(jù)和數(shù)據(jù)信息,是整個項目運作的重要基礎。這一層主要包括:紀念基金會(Fondazione Memofonte)提供的Digital Cicognara Library中《書目》全文資源[11];國家藝術畫廊圖書館提供并負責更新的縮微膠片和數(shù)字化縮微膠片的元數(shù)據(jù)信息;一系列貢獻機構提供的與《書目》中標題相匹配的高分辨率數(shù)字彩色摹本和IIIF清單元數(shù)據(jù);一部分研究者通過Getty研究門戶(Getty Research Portal)做出的貢獻。
(2)用戶服務層。該層任務是基于Digital Cicognara Library項目內的資源提供層所提供的元數(shù)據(jù)和數(shù)據(jù)信息為研究人員提供各種所需功能,是整個項目對外的重要窗口。這一層主要包括:Digital Cicognara Library官方網站,提供目錄、檢索和瀏覽功能;Getty研究門戶,提供檢索、瀏覽功能;Digital Cicognara Library管理團隊,提供遠程支持服務。
(3)技術支撐層。該層任務是為Digital Cicognara Library項目的信息組織、信息檢索等功能提供技術基礎,是確保整個項目功能可靠性的骨架。這一層主要包括:IIIF,提供圖片查看、修正、比較、注釋、轉錄、協(xié)作等功能;Getty研究門戶,提供了個人用戶上傳貢獻的功能;各個貢獻機構,承擔本地資源存儲和數(shù)據(jù)傳輸任務[10]。
相比于傳統(tǒng)的數(shù)字化項目,Digital Cicognara Library項目毫無疑問是更卓越的。而面對國內同類型的數(shù)字人文項目,其是否仍存在明顯優(yōu)勢?基于這一疑問,本文對Digital Cicognara Library項目和“徽州文書”主題項目從建設模式、資源利用、數(shù)據(jù)標準3個方面進行對比分析。在對比中,基于調查全面性和發(fā)表時間兩個關鍵要素,“徽州文書”主題項目的相關狀況將以韓宇等[12]的調查結果作為基準。
(1)資金支持層面。在7個“徽州文書”主題項目中有5個項目的資金支持來源可查明。其中,《徽州文書書目數(shù)據(jù)庫》是“十二五”國家重點圖書出版規(guī)劃項目的成果;《徽州善本家譜印刷數(shù)據(jù)數(shù)據(jù)庫》是中國國家圖書館和法國遠東學院的合作項目;《圖錄:清史圖錄(安徽)》是2005年國家清史纂修工程項目的成果;《徽州文書特色文獻數(shù)據(jù)庫》是安徽省教育廳人文社會科學基金項目“徽州文書整理及管理軟件研究”的成果;《徽州文書數(shù)據(jù)庫》是國家社會科學基金一般項目“徽州民間文書搶救性保護與數(shù)據(jù)庫建設研究”和國家社會科學基金青年項目“徽州文書分類法與元數(shù)據(jù)標準設計研究——以中山大學圖書館藏徽州文書為例”的成果。
而Digital Cicognara Library項目資金的來源則較為多樣化。其一方面依靠Kress基金會的贊助,另一方面依靠各機構本來正常運作計劃中的館藏建設與維護經費。其中梵蒂岡圖書館、弗里克藝術參考圖書館、蓋蒂研究所、哈佛大學圖書館、海德堡大學圖書館、國家藝術畫廊圖書館、普林斯頓大學圖書館自2015年以來還提供了必要的行政和項目管理援助[10]。相比之下,“徽州文書”主題項目所能獲取的資金支持主要是來自各級社會科學相關科研項目,資金來源不夠多樣化,且項目一般需要在科研項目規(guī)定研究周期內完成。
(2)項目組織層面。由圖1可知,Digital Cicognara Library項目的開發(fā)是由多個獨立機構甚至是開源社區(qū)共同協(xié)作完成的,分別承擔資源提供、用戶服務、技術支撐中一項或多項任務。而在7個“徽州文書”主題項目中,跨機構合作的項目只有2個,機構內部跨單位合作的有1個,多數(shù)項目還是停留在內部挖掘、內部使用的階段,其并無學術分享的意圖,某種程度上造成學術信息的壁壘,也斷絕了學術合作的可能性。
(3)項目可持續(xù)性層面。所有的“徽州文書”主題項目基本依靠主體機構完成工作,亦無開放眾包建設的渠道。而在Digital Cicognara Library項目中,一部分研究者也可以通過Getty研究門戶做出自己的貢獻,有效地提升了項目的生命力。
在資源利用上可通過用戶可訪問范圍、可利用程度和可利用效度3個角度來綜合分析。
(1)用戶可訪問范圍。不同項目資源的用戶可訪問范圍可以分為以下3個層次:局限在一個或數(shù)個機構內部,任何一個機構都只能在機構內使用本機構所有的資源;局限在一個或數(shù)個機構內部,任何一個擁有部分資源的機構都有權限使用所有資源;不局限在任何一個機構內部,任何人都可以進入擁有資源的機構使用該資源。Digital Cicognara Library項目所涉及的資源可以在其項目官網、Getty研究門戶和梵蒂岡圖書館網站上免費使用,擁有部分資源且應用IIIF框架的貢獻機構也提供本機構資源的公開使用。而“徽州文書”主題相關的7個項目中有2個對機構對外提供服務,只有1個項目提供開放服務,但需要用戶進行注冊。相比之下,Digital Cicognara Library項目的可利用范圍(第三層次)遠超“徽州文書”主題項目(大部分處于第一層次)。
(2)可利用程度。不同項目資源的可利用程度可分為以下3個層次:只能在擁有該資源的機構內部使用資源;可以借助替代性的載體(如縮微膠片)使用資源;借助網絡,在資源擁有允許的權限下,不受其他任何限制地使用該資源。Digital Cicognara Library項目所涉及的資源既可以在所屬機構使用,亦有縮微膠片出版物可以使用,也可以借助互聯(lián)網使用公開資源。雖然“徽州文書”相關資源在前兩個階段同樣達到了很高的水平,但是在遠程使用上還遠遠不足。只有中國國家圖書館開展的《徽州善本家譜印刷數(shù)據(jù)數(shù)據(jù)庫》項目與Digital Cicognara Library項目同處第三層次。
(3)可利用效度。在這一層面上,由于“徽州文書”相關主題項目大多數(shù)使用受限,本文只能選擇可以公開使用的《徽州善本家譜印刷數(shù)據(jù)數(shù)據(jù)庫》進行對比。
在Digital Cicognara Library項目中,Getty研究門戶為Digital Cicognara Library中的藏品提供了強大的檢索功能、豐富的信息展示功能和多樣的閱覽模式。其提供檢索功能主要包括3個方面。①多維度的篩選功能:基于數(shù)字化藏品創(chuàng)建者和貢獻者、藏品主題、藏品語種、藏品歸屬機構、歸屬虛擬合集和時間序列進行篩選。②高級搜索功能:基于數(shù)字化標題、創(chuàng)造者、日期、語言、主題、來源、關鍵詞、標識符、出版者、藏品格式、藏品類型、藏品描述、藏品權限等信息進行搜索。③多種排序規(guī)則:基于檢索詞相關度、入藏時間、名稱字順、藏品創(chuàng)建時間等規(guī)則進行排序。其展示的信息包括9個部分:標題信息,給用戶提供藏品的名稱、作者、年代信息;操作信息,給用戶提供收藏、分享、標記功能;使用數(shù)據(jù)信息,給用戶展示該藏品的被瀏覽數(shù)和被收藏數(shù);可獲取資源,給用戶提供不同格式載體的數(shù)據(jù)及元數(shù)據(jù)下載;資源來源信息,給用戶展示該藏品的物理收藏機構和數(shù)字資源提供者;原始資源信息,給用戶提供藏品的出版日期、主題、出版人、收集方、數(shù)字化贊助商、項目貢獻者、語言等信息;原始資源補充說明,將藏品本身存在的特殊問題對用戶進行說明;數(shù)字資源信息,給用戶提供數(shù)字化資源的添加時間、作品關聯(lián)等信息;評論與互動信息,向用戶提供評論與交流的平臺。其提供的閱覽模式包括縮略模式、滾動模式、閱讀模式、聆聽模式(對圖像中的文本進行朗讀)、檢索模式(可以對圖像中的文本內容進行檢索),還提供了圖像縮放、圖像移動、效果修正等功能。
而在《徽州善本家譜印刷數(shù)據(jù)數(shù)據(jù)庫》中用戶只能通過標題、撰修者、出版物、出版年來進行檢索,功能較為單一。數(shù)據(jù)庫頁面亦只提供了標題信息、原始資源及補充說明信息,以及圖像縮放、圖像移動這兩個基本功能,且不存在額外的閱覽模式。這其中存在的差距,一方面受到兩個項目建設模式差異的影響,另一方面還在于《徽州善本家譜印刷數(shù)據(jù)數(shù)據(jù)庫》項目本身的設計對用戶可利用效度設定的不足。
在Digital Cicognara Library項目中,組織者要求貢獻者使用MARC、MODS、Dublin Core(DC)、Getty CSV format作為元數(shù)據(jù)標準。Getty研究門戶則推薦使用CDWA作為描述元數(shù)據(jù)結構標準;CCO作為數(shù)據(jù)內容標準;AAT、ULAN、TGN、CONA作為數(shù)據(jù)值標準;LIDO作為數(shù)據(jù)交換標準[13]。這些元數(shù)據(jù)標準應用廣泛且同類標準之間的映射較為方便(如CDWA與DC)。這一特性有利于開展跨組織合作,并且各組織過往項目中的投入不會被浪費。
而在“徽州文書”相關主題項目中,黃山學院的張曉峰等[14]為徽州文書制定5類元數(shù)據(jù)項(共15個元素),包括標識項(參照DC)、內容可選項(參照DC)、外觀可選項(參照CDWA)、文檔結構項(無參照)、實例說明項(參照CDWA)。中山大學的王蕾等[15]為所藏契約文書制定了由必要項目和選擇項目組成的共12個著錄項目且并未說明參照體系。上海交通大學張潔等[16]為契約文書設計了3類(內容特征、物理特征、身份識別特征)元數(shù)據(jù)數(shù)據(jù)集,共18種元素,其中14種基于DC,其余4種為自行設定。由此可見,“徽州文書”相關主題項目的元數(shù)據(jù)方案大多基于CDWA和DC進行了改造,適應了本地資源類型的特點。但當研究人員想要綜合利用來自多個數(shù)據(jù)來源的信息時就會在互操作性和資源關聯(lián)等方面遇到困難[17]。
科學合理的建設模式有助于建設高水平的數(shù)字人文項目。Digital Cicognara Library項目采取的建設模式在獲取資金支持、項目組織和項目可持續(xù)性三方面體現(xiàn)了突出的優(yōu)勢,也給國內機構提供了參考。
在獲取資金支持上,筆者認為國內機構既可以學習Digital Cicognara Library項目借助第三方資金與技術支持的做法(如北京大學建立“北京大學-字節(jié)跳動數(shù)字人文開放實驗室”),也可以在保障開放項目基礎功能的前提下,開展有限度的訂閱服務,以獲取項目可利用的資金與資源(如哈佛大學CBDB數(shù)據(jù)庫開啟商業(yè)開發(fā)和學術使用并行的運作模式)。
在項目組織上,Digital Cicognara Library項目通過聯(lián)合復數(shù)機構分工合作的組織建設模式值得國內機構學習,且不同類型機構合作的可行性也在Digital Cicognara Library和“徽州文書”相關主題項目中得到了驗證。通過聯(lián)合復數(shù)機構分工合作,不僅有利于保障相關主題項目資源覆蓋的全面性,而且有助于項目建設效率的提升。更進一步來看,若將資源來源限定在機構群體所在的省市轄區(qū)內部,中小型機構也完全可以如Digital Cicognara Library中的貢獻機構一般基于統(tǒng)一的開放環(huán)境和建設標準分工協(xié)作,將特定主題項目實行拆解,從而獨自開展一系列“小而美”的數(shù)字人文實踐活動,大大降低了開展數(shù)字人文項目的技術與資源門檻。
在項目可持續(xù)性上,Getty研究門戶的用戶上傳功能為保證Digital Cicognara Library項目的可持續(xù)性做出了卓有成效的貢獻。在此基礎上,國內數(shù)字人文項目還可以開發(fā)更多類型的眾包渠道[18]以增強項目的可持續(xù)性。此外,在運作過程中,項目的管理者應當營造積極的眾包氛圍、建立有效的眾包質量保障機制[19],并同時為貢獻者提供有意義的實踐過程,從而達到“雙贏”。
Lindsay Thomas認為“數(shù)字人文就應該是開放的、社會性的和高質量的”[20]。對此,福島幸宏等[21]指出開放的數(shù)字人文項目可以作為國家文化的一種展示,讓不同民族、國家的人群感受本民族、本地區(qū)的文化。黃霄羽等[22]認為開放的數(shù)字人文項目能夠幫助公眾加深對國家歷史的了解,增強公眾的民族自豪感和自信心。筆者還認為,數(shù)字人文項目的開放能夠對原始資源進行更好的保護:一方面,數(shù)字人文項目的開放減少了對原本特藏資源的使用,從而延長了其保存壽命[23];另一方面,數(shù)字人文項目的開放保障了特定資源在全球范圍內的可用性。
但可惜的是,目前國內開展的很多數(shù)字人文項目還并無對外提供使用的窗口。優(yōu)秀的文化資源如果不進行開放,那么其生命力就會逐漸消亡。如果在項目建設中規(guī)劃了便于用戶使用和分享的窗口,將有助于相關領域學者進一步解決新的研究問題,促進本領域跨學科的合作,幫助重要的歷史資料通過新技術得到更廣泛的訪問,為相關領域提供了一個潛在的變革機會[24]。做好國內數(shù)字人文項目的開放化,注重數(shù)字人文資源的開放共享,為文化強國建設添磚加瓦是新時代圖書館學界和業(yè)界應盡的義務。
在實踐過程中,不同機構開展的數(shù)字人文項目不論是所涵蓋的資源類型、所涉及的用戶需求等都各有側重。這往往導致在開發(fā)過程中,各項目所采取的數(shù)字資源標準千差萬別,從而使得相關領域的研究人員難以對同一主題的資源開展的多項“各自為政”的數(shù)字人文項目進行聯(lián)合利用[25],給研究人員深度利用和開法資源造成障礙。因此筆者認為,國內已經開展成熟數(shù)字人文項目的機構應當積極采用領域內成熟的開放標準,分享開放標準在中國落地實踐的經驗。且對于國內特有的主題資源,相關機構應建立合適的特藏標準與國際標準相接軌[26]。一方面有效地提升數(shù)字人文項目的推廣力度,另一方面極大增強研究成果的影響力。而對于尚未開展或將要開展數(shù)字人文實踐的機構來說,采取適當?shù)臉藴鼠w系,不僅可以借鑒其他機構在開發(fā)中的相關經驗,而且有利于團結多個機構進行分工合作。