許磊
自1950年代開始,圖書館開始自研專注于特定業(yè)務(wù)的獨(dú)立系統(tǒng),用于采購、編目、流通或期刊管理等業(yè)務(wù)。進(jìn)入1970年代,圖書館自動(dòng)化系統(tǒng)(Library Automation System,LAS)更加成熟,并有商業(yè)產(chǎn)品推出市場(chǎng)。隨著1960年代出現(xiàn)的MARC(Machine-ReadableCataloging)以及計(jì)算機(jī)技術(shù)的發(fā)展,1980年代開始,以MARC為底層元數(shù)據(jù)標(biāo)準(zhǔn),集成了各獨(dú)立功能模塊的圖書館集成系統(tǒng)(Integrated Library Systems,ILS)逐漸取代LAS成為圖書館自動(dòng)化轉(zhuǎn)型的推手[1]。ILS以及隨后的OPAC(Online Public Access Catalog),真正地將圖書館帶入計(jì)算機(jī)時(shí)代。但隨著互聯(lián)網(wǎng)出現(xiàn),圖書館上下游生態(tài)環(huán)境發(fā)生改變,數(shù)字資源成為讀者的首選信息源。而ILS基于MARC構(gòu)建的一套圍繞紙質(zhì)文獻(xiàn)的采編典流集成系統(tǒng),不再能夠適應(yīng)數(shù)字化、云計(jì)算的互聯(lián)網(wǎng)環(huán)境。為滿足對(duì)電子資源的管理需要,出現(xiàn)了各種獨(dú)立的產(chǎn)品和服務(wù),如電子資源管理系統(tǒng)(Electronic Resources Management,ERM),數(shù)字資產(chǎn)管理系統(tǒng)(Digital Asset Management,DAM);也出現(xiàn)了與之配套的元數(shù)據(jù)管理方案,如DC(Dublin Core)、MARCXML、MODS(Metadata Object Description Schema)。但是,各自獨(dú)立的系統(tǒng)以及異構(gòu)的元數(shù)據(jù)方案阻礙了圖書館的業(yè)務(wù)流程優(yōu)化以及資源整合。與此同時(shí),圖書館元數(shù)據(jù)領(lǐng)域FRBR(Functional Requirements for Bibliographic Records)、RDA(Resource Description and Access)、BIBFRAME(Bibliographic Framework)等基于關(guān)聯(lián)數(shù)據(jù)設(shè)計(jì)的書目本體方案逐漸成為圖書館知識(shí)組織與融合的優(yōu)選方案。因此,圖書館急需一個(gè)能夠整合ILS、ERM、OpenURL解析器、DAM等眾多獨(dú)立系統(tǒng)功能,也能夠支持各種開放元數(shù)據(jù)格式和數(shù)據(jù)交換協(xié)議以實(shí)現(xiàn)跨媒體的資源描述與組織的下一代圖書館管理系統(tǒng)。2010年OCLC推出的WorldShare Management Services(WMS)標(biāo)志著圖書館服務(wù)平臺(tái)(Library Services Platform,LSP)進(jìn)入圖書館系統(tǒng)市場(chǎng)。LSP是構(gòu)建在SaaS(Software as a Service)平臺(tái)之上,利用云計(jì)算、Web技術(shù)和發(fā)現(xiàn)系統(tǒng),實(shí)現(xiàn)全媒體的資源管理,全流程的業(yè)務(wù)管理和全網(wǎng)域的資源發(fā)現(xiàn)的新一代圖書館系統(tǒng)[2]。
平臺(tái)化的前提是信息化,只有開放、多元的信息生態(tài)才能促進(jìn)圖書館的平臺(tái)化轉(zhuǎn)型。信息化不僅僅是解決業(yè)務(wù)流程的問題,更改變了信息資源的開發(fā)、建設(shè)與利用的生態(tài)鏈。信息化的基礎(chǔ)是自動(dòng)化,圖書館自動(dòng)化的發(fā)展推動(dòng)了圖書館的資源與服務(wù)的網(wǎng)絡(luò)化和數(shù)字化[3]。從圖書館自動(dòng)化到信息化再到平臺(tái)化,基礎(chǔ)都是信息資源的開發(fā),也就是利用元數(shù)據(jù)對(duì)資源進(jìn)行描述、組織與開發(fā)利用。無論是LSP的統(tǒng)一資源管理與發(fā)現(xiàn),還是數(shù)據(jù)的開放與關(guān)聯(lián),都對(duì)新一代圖書館系統(tǒng)的元數(shù)據(jù)管理提出了更多的要求。因此,本文從元數(shù)據(jù)管理角度對(duì)圖書館系統(tǒng)的演變進(jìn)行梳理。并著重分析2類典型的圖書館服務(wù)平臺(tái)及其元數(shù)據(jù)管理方案,即商業(yè)產(chǎn)品Alma和開源項(xiàng)目FOLIO。
計(jì)算機(jī)發(fā)明之初,圖書館就敏銳地發(fā)現(xiàn)計(jì)算機(jī)的應(yīng)用對(duì)提升圖書館內(nèi)部效率具有巨大潛力。1950年代美國和英國的圖書館開始嘗試將計(jì)算機(jī)應(yīng)用于圖書館的內(nèi)部業(yè)務(wù)[4]。到20世紀(jì)六七十年代,國內(nèi)外圖書館開始研發(fā)專注于某一個(gè)核心業(yè)務(wù)的獨(dú)立系統(tǒng)[5-8]。但直到MARC出現(xiàn),才真正奠定了圖書館自動(dòng)化的基礎(chǔ),推動(dòng)了圖書館系統(tǒng)從單一功能的自動(dòng)化系統(tǒng)轉(zhuǎn)向集成管理系統(tǒng)。MARC作為一種書目元數(shù)據(jù)格式,不僅提供了創(chuàng)建一致記錄所需的規(guī)則,成為支持圖書館龐大基礎(chǔ)結(jié)構(gòu)互通的關(guān)鍵標(biāo)準(zhǔn);而且創(chuàng)造性地在數(shù)據(jù)內(nèi)容字段中嵌入目錄,即由頭標(biāo)區(qū)、地址目次區(qū)和數(shù)據(jù)字段區(qū)構(gòu)成的格式結(jié)構(gòu),解決了早期計(jì)算機(jī)技術(shù)應(yīng)用于書目數(shù)據(jù)的諸多限制[9]。MARC的創(chuàng)新性不僅使其成為圖書館自動(dòng)化系統(tǒng)的基礎(chǔ),也使得書目數(shù)據(jù)共享達(dá)到了新的水平,推動(dòng)了聯(lián)合目錄的發(fā)展與壯大。
圖書館系統(tǒng)在MARC誕生之后,經(jīng)過初始階段的探索與自主研發(fā)后,1980年代逐漸發(fā)展為由商業(yè)公司主導(dǎo)開發(fā)的圖書館集成管理系統(tǒng),并占據(jù)主流直至今日。ILS建立在圖書館標(biāo)準(zhǔn)化的業(yè)務(wù)流程之上,從采訪、編目、流通到連續(xù)出版物管理、聯(lián)合目錄等業(yè)務(wù)都圍繞著標(biāo)準(zhǔn)書目數(shù)據(jù)格式展開。因此,無論是國內(nèi)的ILAS、匯文[10],還是國外的Millennium、Aleph500、Horizon[11],都以MARC作為其元數(shù)據(jù)管理標(biāo)準(zhǔn)格式。自ILS投入使用后,其采編典流等功能模塊基本是穩(wěn)定的。雖然每個(gè)模塊隨著技術(shù)升級(jí)不斷完善,但仍主要管理紙質(zhì)資源。進(jìn)入1990年代,日益增多的電子和數(shù)字資源改變了整個(gè)圖書館資源和技術(shù)生態(tài),幾乎所有圖書館都面臨著同時(shí)支持物理和電子資源,并提供適合各種媒介服務(wù)的復(fù)合任務(wù)。由于傳統(tǒng)的ILS側(cè)重于紙質(zhì)資源管理,圖書館不得不開發(fā)獨(dú)立于ILS的系統(tǒng)以支持電子和數(shù)字資源管理,如鏈接解析器、聯(lián)邦搜索、電子資源管理系統(tǒng)、數(shù)字資產(chǎn)管理系統(tǒng)、機(jī)構(gòu)知識(shí)庫。在這種背景下,圖書館需要一個(gè)不同于MARC的新的元數(shù)據(jù)標(biāo)準(zhǔn)。
當(dāng)MARC成為圖書館行業(yè)主流的元數(shù)據(jù)標(biāo)準(zhǔn)時(shí),互聯(lián)網(wǎng)和搜索引擎卻在顛覆信息傳播與獲取方式。鑒于MARC已不再適用新型資源的管理,圖書館專家著手利用最新技術(shù)對(duì)MARC進(jìn)行改造,MARCXML因此誕生。雖然MARCXML部分解決了MARC格式的缺陷,使其在網(wǎng)絡(luò)時(shí)代獲得暫時(shí)性的新生[12],但它只是一種臨時(shí)的補(bǔ)救措施,并不能完全解決MARC對(duì)網(wǎng)絡(luò)資源的不適性。針對(duì)多變的網(wǎng)絡(luò)資源,1995年來自圖情檔和計(jì)算機(jī)領(lǐng)域的專家們?cè)诙及亓职l(fā)布網(wǎng)絡(luò)世界的元數(shù)據(jù)標(biāo)準(zhǔn)DC。DC通過將元數(shù)據(jù)元素精簡到最低限度,確定最為核心的15個(gè)元素,以滿足對(duì)各種物理或電子資源的描述。經(jīng)過DCMI的維護(hù)與推廣,DC逐漸成為互聯(lián)網(wǎng)描述性元數(shù)據(jù)的通用標(biāo)準(zhǔn),也成為文化遺產(chǎn)領(lǐng)域新開發(fā)的數(shù)字圖書館系統(tǒng)的基礎(chǔ)元數(shù)據(jù)之一[13-14]。
數(shù)字圖書館系統(tǒng)的元數(shù)據(jù)管理方案復(fù)雜。它不僅需要對(duì)數(shù)字對(duì)象進(jìn)行描述性記錄,還需要對(duì)數(shù)字對(duì)象本身的管理性與結(jié)構(gòu)性信息進(jìn)行記錄,最后這三種類型的記錄還需要一個(gè)整體框架進(jìn)行封裝,以實(shí)現(xiàn)對(duì)數(shù)字對(duì)象完整的元數(shù)據(jù)管理[15]。因此,即使部分圖書館集成系統(tǒng)支持對(duì)DC數(shù)據(jù)的管理,但依舊無法滿足圖書館的數(shù)字資源管理需求。在圖書館自動(dòng)化系統(tǒng)時(shí)代,面向紙質(zhì)資源的圖書館集成系統(tǒng)元數(shù)據(jù)管理以MARC格式為主。1990年代后,面對(duì)格式多樣的資源,又出現(xiàn)了各種數(shù)字圖書館系統(tǒng)。資源管理系統(tǒng)的分裂導(dǎo)致圖書館資源分散,不僅降低了用戶信息檢索的效率,也影響了圖書館內(nèi)部業(yè)務(wù)的整合。雖然在信息服務(wù)方面,通過聯(lián)邦檢索[16],OAIPMH(Open Archives Initiative Protocol for Metadata Harvesting)、SRU(Search/Retrieve via URL)等元數(shù)據(jù)收割協(xié)議[17],或建設(shè)統(tǒng)一元數(shù)據(jù)倉儲(chǔ)[18]等技術(shù)手段實(shí)現(xiàn)資源的統(tǒng)一檢索,但在圖書館內(nèi)部業(yè)務(wù)整合潮流之下,圖書館自動(dòng)化系統(tǒng)的升級(jí)慢了很多。圖書館不得不在原有的ILS基礎(chǔ)上開發(fā)各種補(bǔ)丁式工具,或者另起爐灶開發(fā)獨(dú)立的管理系統(tǒng),以滿足日益多樣的資源類型、用戶需求和業(yè)務(wù)流程[19]。這種打補(bǔ)丁堆疊的系統(tǒng)開發(fā)方式使ILS喪失了“集成性”,并導(dǎo)致數(shù)據(jù)的孤島化,進(jìn)而降低了圖書館的服務(wù)效能[20]。圖書館需要更新系統(tǒng)以滿足不斷變化的需求。從2008年開始,系統(tǒng)生產(chǎn)商著手研發(fā)取代ILS的下一代圖書館系統(tǒng)。直到2010年,OCLC發(fā)布下一代圖書館系統(tǒng)WorldShare Management Services,才昭示紙電合一的圖書館服務(wù)平臺(tái)正式進(jìn)入圖書館自動(dòng)化市場(chǎng)。
在數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)轉(zhuǎn)型以及研究范式變化[21]的當(dāng)下,開放共享數(shù)據(jù)日漸成為重要的生產(chǎn)資料,圖書館的主要矛盾已變?yōu)橛脩魧?duì)圖書館新型服務(wù)的需求與圖書館服務(wù)能力不足的矛盾,特別是深度的數(shù)據(jù)服務(wù)、知識(shí)服務(wù)、智慧服務(wù)等[22]??梢哉f第三代圖書館正在經(jīng)歷從信息環(huán)境到數(shù)據(jù)環(huán)境、知識(shí)環(huán)境的轉(zhuǎn)變,經(jīng)歷資源與信息服務(wù)向知識(shí)服務(wù)平臺(tái)的轉(zhuǎn)變[23]。
如阿克夫DIKW金字塔(Ackoff's pyramid)所描述的,知識(shí)是在信息之間建立有意義的聯(lián)系,而信息則是有組織的數(shù)據(jù)。從底層的數(shù)據(jù)到信息到知識(shí)乃至到理解與智慧,每個(gè)層次的上升關(guān)鍵在于在低層次的各部分之間建立聯(lián)系,產(chǎn)生新的模式,從而組成新的聚合體,并成為下一個(gè)層次的組成部分,而元數(shù)據(jù)正是其粘合劑[24]。一方面,傳統(tǒng)圖書館元數(shù)據(jù)無論是MARC還是DC都是以記錄為最小單位,無法應(yīng)對(duì)資源數(shù)據(jù)化和服務(wù)知識(shí)化的挑戰(zhàn);另一方面,圖書館服務(wù)平臺(tái)的統(tǒng)一資源管理與發(fā)現(xiàn)的基本特征決定了中央知識(shí)庫在整個(gè)平臺(tái)中的核心地位[25]。中央知識(shí)庫集成了其他各個(gè)模塊的異構(gòu)資源,提高了平臺(tái)效率、互操作性和自動(dòng)化水平。針對(duì)多源異構(gòu)元數(shù)據(jù)的互操作,服務(wù)平臺(tái)需要在元數(shù)據(jù)之上建立某種機(jī)制,作為“元”元數(shù)據(jù)的知識(shí)本體就是一種解決方案[26]。長遠(yuǎn)看,無論是圖書館數(shù)據(jù)規(guī)范[27],還是資源發(fā)現(xiàn)服務(wù)[28],以一體化本體模型為基礎(chǔ)的元數(shù)據(jù)模式是相對(duì)高效的解決方案[29]。業(yè)務(wù)與系統(tǒng)功能整合、資源關(guān)聯(lián)與融合、服務(wù)智慧化與知識(shí)化這一圖書館新常態(tài)對(duì)新一代圖書館服務(wù)平臺(tái)的元數(shù)據(jù)管理提出了新的需求,即完整的生命周期管理、資源類型兼容、標(biāo)準(zhǔn)規(guī)范兼容、互聯(lián)網(wǎng)環(huán)境下的書目與規(guī)范控制、知識(shí)組織與知識(shí)融合[30]。
(1)全媒體資源管理已經(jīng)成為智慧圖書館的基本功能。圖書館服務(wù)平臺(tái)需要兼容各種標(biāo)準(zhǔn),實(shí)現(xiàn)元數(shù)據(jù)間的互操作。位于架構(gòu)核心的中央知識(shí)庫的數(shù)據(jù)模型將作為現(xiàn)有元數(shù)據(jù)的共同子集,實(shí)現(xiàn)對(duì)各種標(biāo)準(zhǔn)的兼容。一方面支持圖書館靈活描述紙質(zhì)資源、電子資源、數(shù)字資源,不受限于文獻(xiàn)類型與格式;另一方面也支持用戶對(duì)跨媒體資源的內(nèi)容發(fā)現(xiàn)、識(shí)別、選擇、獲取與導(dǎo)航。
(2)新一代圖書館服務(wù)平臺(tái)不僅需要支持各類型圖書館本地特色性功能,也要滿足未來新型服務(wù)形式的開發(fā)需求。因此,針對(duì)各種個(gè)性化和未知性的需求,服務(wù)平臺(tái)的元數(shù)據(jù)是可擴(kuò)展的。一方面新部署的應(yīng)用程序或模塊的元數(shù)據(jù)可以在原標(biāo)準(zhǔn)上進(jìn)行應(yīng)用內(nèi)擴(kuò)展,也可以啟用新標(biāo)準(zhǔn);另一方面中央知識(shí)庫的元數(shù)據(jù)可以通過映射轉(zhuǎn)換實(shí)現(xiàn)對(duì)新標(biāo)準(zhǔn)的兼容,或可以對(duì)現(xiàn)有模型進(jìn)行擴(kuò)展實(shí)現(xiàn)兼容。
(3)隨著語義網(wǎng)和關(guān)聯(lián)數(shù)據(jù)技術(shù)的日漸成熟,元數(shù)據(jù)的語義化改造已成為趨勢(shì)。伴隨著這股浪潮,知識(shí)服務(wù)、智慧服務(wù)正在成為圖書館新的發(fā)展方向。傳統(tǒng)元數(shù)據(jù)通過標(biāo)簽或字段名定義元素的語義信息,不同元數(shù)據(jù)標(biāo)準(zhǔn)即使字段名相同其含義也會(huì)不同。在開放數(shù)據(jù)情境下,無法精確定義的元素不能有效支持對(duì)知識(shí)的推斷。與傳統(tǒng)元數(shù)據(jù)相比,知識(shí)本體利用RDF進(jìn)行形式化編碼,通過URI提供所標(biāo)識(shí)元素的上下文語境。它不僅利用URI的全網(wǎng)唯一性,實(shí)現(xiàn)圖書館在互聯(lián)網(wǎng)時(shí)代規(guī)范控制的宏愿,也使得資源描述的粒度由記錄級(jí)細(xì)化到陳述級(jí),描述對(duì)象深入到知識(shí)和實(shí)體,激活圖書館的知識(shí)服務(wù)。新一代圖書館服務(wù)平臺(tái)元數(shù)據(jù)方案中本體與RDF的應(yīng)用,將打破圖書館行業(yè)的“孤芳自賞”,信息組織、規(guī)范控制的思想可以貢獻(xiàn)到整個(gè)網(wǎng)絡(luò)之中。同時(shí),圖書館也可以整合機(jī)構(gòu)內(nèi)外的各種資源,在語義層面實(shí)現(xiàn)元數(shù)據(jù)互操作,賦予其機(jī)器可理解的能力,促進(jìn)圖書館數(shù)據(jù)的開放與融合,助推圖書館服務(wù)轉(zhuǎn)型。
Alma是商業(yè)上最成功的圖書館服務(wù)平臺(tái),無論是在用戶滿意度還是留存率上都處于第一梯度[31]。作為支持多類型資源管理和元數(shù)據(jù)協(xié)作的云服務(wù)平臺(tái),Alma設(shè)計(jì)了不同于傳統(tǒng)圖書館集成系統(tǒng)的集中式元數(shù)據(jù)管理服務(wù)(Metadata Management Service,MMS)。一方面,Alma元數(shù)據(jù)根據(jù)需要存儲(chǔ)在三個(gè)不同的數(shù)據(jù)區(qū):機(jī)構(gòu)區(qū)(Institution Zone)、共享區(qū)(Community Zone)和網(wǎng)絡(luò)區(qū)(Network Zone)[32]。機(jī)構(gòu)區(qū)保存有圖書館本地的Alma配置和元數(shù)據(jù)。共享區(qū)是Alma對(duì)所有租戶開放的共享記錄部分,包含中央知識(shí)庫、規(guī)范數(shù)據(jù)庫和聯(lián)合書目庫。網(wǎng)絡(luò)區(qū)則保存機(jī)構(gòu)聯(lián)盟的共享記錄。這種混合模式允許機(jī)構(gòu)管理其獨(dú)特的本地館藏,同時(shí)支持一個(gè)共享的聯(lián)盟目錄,以及一個(gè)全球社區(qū)目錄。另一方面,每個(gè)數(shù)據(jù)區(qū)又分層為MMS記錄和館藏記錄(Inventory records)。MMS記錄包括各種配置信息,如導(dǎo)入、查重、數(shù)據(jù)合并,以及MARC、DC等多種格式的描述性記錄。館藏記錄包括紙質(zhì)資源的館藏復(fù)本記錄、電子資源檔案和數(shù)字資源表達(dá)與文檔,并進(jìn)一步分為3層:知識(shí)實(shí)體層(intellectual entity,IE)、中間層(Middle level)和單件層(Item)[33],如圖1所示。知識(shí)實(shí)體層是一個(gè)不可見的透明實(shí)體,僅作為指向MMS記錄的指針。通過IE,館藏記錄與書目描述記錄實(shí)現(xiàn)關(guān)聯(lián)。中間層對(duì)不同資源類型有不同的層次分組,這個(gè)層級(jí)記錄包括紙質(zhì)資源的館藏信息、電子資源的服務(wù)信息、數(shù)字資源的表達(dá)信息。最底層的單件記錄是關(guān)于紙質(zhì)復(fù)本、電子文件、數(shù)字文檔的有關(guān)信息。
圖1 Alma元數(shù)據(jù)記錄分層結(jié)構(gòu)
Alma通過上述的分區(qū)、分層的元數(shù)據(jù)管理模式實(shí)現(xiàn)對(duì)包括本地、聯(lián)盟和全球社區(qū)的多源資源的共享與協(xié)作。也實(shí)現(xiàn)對(duì)多種元數(shù)據(jù)格式、內(nèi)容標(biāo)準(zhǔn)和通信協(xié)議的兼容,雖然這一定程度上增加了資源管理與業(yè)務(wù)操作的復(fù)雜性,但可以滿足圖書館對(duì)紙質(zhì)、電子和數(shù)字資源的統(tǒng)一管理與聚合揭示的需求[34]。另外,Alma利用嵌入式URI實(shí)現(xiàn)對(duì)關(guān)聯(lián)數(shù)據(jù)的支持,并通過RESTful API對(duì)外提供數(shù)據(jù)服務(wù)[35]。
新一代圖書館系統(tǒng)是圖書館平臺(tái)化轉(zhuǎn)型的基礎(chǔ)。平臺(tái)化的一個(gè)重要特征是開放的標(biāo)準(zhǔn)的信息生態(tài),任何人都可以在生態(tài)平臺(tái)上開發(fā)新的應(yīng)用與服務(wù)[36]。平臺(tái)化強(qiáng)調(diào)的是協(xié)作,是與利益相關(guān)方建立的社區(qū),合作創(chuàng)新促進(jìn)更多價(jià)值的產(chǎn)生。按此理解,以Alma、WMS、Sierra為代表的商業(yè)LSP,更側(cè)重于圖書館在云環(huán)境中對(duì)各類型資源管理的能力。雖然它們?cè)诔脚_(tái)化方向發(fā)展,即使開放了API供數(shù)據(jù)交互,但本身仍然是一個(gè)缺乏其他行業(yè)參與者的“封閉”系統(tǒng)。
吳建中[37]、劉煒[38]在關(guān)于第三代圖書館及其圖書館系統(tǒng)的論述中都強(qiáng)調(diào)不同于傳統(tǒng)圖書館的空間服務(wù)、知識(shí)服務(wù)。以商業(yè)公司主導(dǎo)無論是集成性、開放性還是技術(shù)先進(jìn)性的問題[39],并不能完全適應(yīng)第三代圖書館多樣性和差異化的發(fā)展趨勢(shì)。正如朱強(qiáng)所言,當(dāng)前圖書館對(duì)其管理系統(tǒng)的發(fā)展無話語權(quán),系統(tǒng)與數(shù)據(jù)開發(fā)商對(duì)數(shù)據(jù)庫和系統(tǒng)的壟斷極大地限制了我國圖書館的發(fā)展。因此,第三代圖書館需要更大的自主權(quán),利用松散耦合的應(yīng)用組合方式滿足本地的特色發(fā)展;需要一個(gè)模式自選、業(yè)務(wù)自組、數(shù)據(jù)自管的開放服務(wù)平臺(tái)應(yīng)對(duì)從資源到空間、從業(yè)務(wù)到服務(wù)的各種挑戰(zhàn)[40]。更強(qiáng)大的新一代圖書館服務(wù)平臺(tái)不僅要滿足統(tǒng)一的資源與業(yè)務(wù)管理,也要具有足夠的靈活性、擴(kuò)展性和個(gè)性化,以支持圖書館大量已知或未知的業(yè)務(wù),滿足個(gè)性化發(fā)展需求。而這種社區(qū)驅(qū)動(dòng)的平臺(tái)化在開源的FOLIO項(xiàng)目中可窺見一二。FOLIO不僅致力于開發(fā)一個(gè)創(chuàng)新的開源圖書館服務(wù)平臺(tái),更是一個(gè)由圖書館、開發(fā)商、供應(yīng)商及其他利益機(jī)構(gòu)共同組成的協(xié)作社區(qū)。
一方面,作為一個(gè)面向圖書館的微服務(wù)平臺(tái),F(xiàn)OLIO的元數(shù)據(jù)方案遵循微服務(wù)架構(gòu)數(shù)據(jù)管理的域敏感,即每一個(gè)服務(wù)可以有自己的數(shù)據(jù)模型與數(shù)據(jù)存儲(chǔ)。根據(jù)業(yè)務(wù)需求,F(xiàn)OLIO將整個(gè)服務(wù)平臺(tái)劃分成不同的“域”,如典藏域、流通域、采訪域、數(shù)字資源管理域以及核心的Codex域等。每一個(gè)FOLIO域是由多個(gè)應(yīng)用程序(Apps)組成,完成特定任務(wù)的功能模塊。域的數(shù)據(jù)模型與元素秉承最小化原則,只保留滿足本模塊功能的核心元素。另一方面,F(xiàn)OLIO根據(jù)資源管理域所需的描述詳略程度和它們所服務(wù)的目的,將元數(shù)據(jù)記錄從下到上分成3層:正式記錄層(Formal Records)、業(yè)務(wù)記錄層(Working Records)、統(tǒng) 一 記 錄 層(Unifying Records)[41]。FOLIO針對(duì)具體的管理功能,根據(jù)文獻(xiàn)類型,在不同域的App中執(zhí)行。在預(yù)先了解了資源屬性與相應(yīng)的管理程序時(shí),可以直接訪問這些應(yīng)用程序獲取和管理資源,即業(yè)務(wù)記錄層。但在一般情況下,是以Codex域中的應(yīng)用程序作為入口,即頂層的統(tǒng)一記錄層。根據(jù)需要,從Codex可以導(dǎo)航到系統(tǒng)的任何地方,以便在適當(dāng)?shù)膽?yīng)用環(huán)境中管理資源。如圖2所示,F(xiàn)OLIO通過Codex記錄與各種資源管理應(yīng)用程序中的業(yè)務(wù)記錄相鏈接,再與底層的正式記錄相連,形成一條從Codex到最細(xì)粒度元數(shù)據(jù)的鏈接路徑。
圖2 FOLIO系統(tǒng)的數(shù)據(jù)分層[41]
圖3 Codex數(shù)據(jù)模型[42]
4.1.1 Codex的元數(shù)據(jù)方案
Codex是一個(gè)規(guī)范的虛擬層,使用一個(gè)通用模型域與元素來整合不同類型資源,而不考慮格式、編碼或存儲(chǔ)位置。
(1)Codex定位于FOLIO平臺(tái)的數(shù)據(jù)注冊(cè)與鏈接中心,避免各業(yè)務(wù)域之間的糾纏。在FOLIO分層結(jié)構(gòu)中,位于頂層的Codex可以充當(dāng)不同模塊之間的協(xié)調(diào)者。每個(gè)模塊只需與中介模塊集成,即可實(shí)現(xiàn)對(duì)其他模塊的數(shù)據(jù)需求,而不用與其發(fā)生依賴關(guān)系。同時(shí),Codex中介域的角色決定了它在整個(gè)FOLIO系統(tǒng)中的資源中心地位,其他資源管理模塊都會(huì)將其數(shù)據(jù)記錄通過映射轉(zhuǎn)換后在Codex域中生成對(duì)應(yīng)的記錄,自然也成為所有資源查詢的起點(diǎn)。從Codex開始,用戶可以深入到更低的、更豐富的業(yè)務(wù)、正式記錄層。
(2)作為一個(gè)域,Codex就有自己的概念模型來描述資源。在BIBFRAME 2分層模型和DC元素定義基礎(chǔ)上,Codex定義了一個(gè)輕量級(jí)的作品—實(shí)例—單件/館藏的3層數(shù)據(jù)模型。它是單個(gè)資源管理域所使用的更復(fù)雜、更專業(yè)的數(shù)據(jù)模型的共同交集。該模型足夠完整,可以滿足Codex域的資源描述任務(wù)。但又足夠的小,避免與其他域元數(shù)據(jù)過多的重復(fù)。另外,為滿足對(duì)電子資源的管理,Codex核心模型中還定義了資源包(Container)、覆蓋范圍(Coverage)和館藏地信息(Location),如圖3所示。
4.1.2 FOLIO的實(shí)體對(duì)象管理
以2008年瑞典國家圖書館的關(guān)聯(lián)書目數(shù)據(jù)發(fā)布為標(biāo)志,圖書館書目、規(guī)范數(shù)據(jù)的實(shí)體化轉(zhuǎn)向成為行業(yè)共識(shí)[43]。FOLIO的元數(shù)據(jù)方案融合BIBFRAME模型特征和DC的最小化原則,為滿足未來面向?qū)嶓w對(duì)象的下一代元數(shù)據(jù)管理構(gòu)建了良好的基礎(chǔ)。Codex愿景也表明對(duì)整個(gè)FOLIO服務(wù)平臺(tái)的實(shí)體標(biāo)識(shí)與關(guān)聯(lián)的設(shè)想。而在具體的實(shí)施層面,F(xiàn)OLIO則設(shè)計(jì)了專用的實(shí)體管理App(Entities Management App)[44]。
實(shí)體管理App是FOLIO平臺(tái)跨域進(jìn)行實(shí)體規(guī)范控制的核心,它不僅可以對(duì)本地規(guī)范數(shù)據(jù)和取值詞表進(jìn)行統(tǒng)一的創(chuàng)建、發(fā)布和永久URI維護(hù),也可以對(duì)外部開放數(shù)據(jù)源進(jìn)行實(shí)時(shí)調(diào)用檢索甚至于本地化緩存。FOLIO暫將實(shí)體分成代理(Agents)、體 裁(Genres)、地 理(Geographic)、主題(Subjects)、作品(Works)和其他6類實(shí)體。代理、地理、主題實(shí)體以及其他取值詞表,是傳統(tǒng)圖書館規(guī)范控制工作的延續(xù),外部來源可以包括VIAF、LC名稱規(guī)范庫(LCNAF),蓋蒂藝術(shù)家聯(lián)合名錄(Getty Union List of Artist Names)、地理名稱(GeoNames)、LC主題詞表(LCSH)、分面應(yīng)用主題詞表(FAST)、MARC和RDA中取值詞表等。體裁在用戶信息檢索中的重要性已經(jīng)得到證實(shí)[45],因此FOLIO將其作為一個(gè)獨(dú)立實(shí)體進(jìn)行標(biāo)識(shí)管理,外部數(shù)據(jù)來源可以有善本手稿專業(yè)委員會(huì)詞表(RBMS Genre Terms),蓋蒂藝術(shù)與建筑詞表(Getty Art & Architecture Thesaurus)等。而作品實(shí)體作為書目領(lǐng)域最為核心的基礎(chǔ)實(shí)體,F(xiàn)OLIO更是在已有的書目本體方案基礎(chǔ)上,兼容了最新的研究進(jìn)展,即作品—超級(jí)作品模型,其作品實(shí)體包含LC BIBFRAME Works、LC hub、OCLC Works、Share-VDE Works、Share-VDE Opus。其中的LC hub,Share-VDE Opus即是在實(shí)踐中對(duì)作品—實(shí)例—單件/館藏模型的擴(kuò)展,在作品層之上定義超級(jí)作品,聚合相關(guān)作品,形成作品家族。
實(shí)體管理App的元數(shù)據(jù)方案遵循FOLIO平臺(tái)的域敏感以及分層結(jié)構(gòu)。實(shí)體管理App中的元數(shù)據(jù)屬于業(yè)務(wù)記錄層,主要是提供對(duì)受控字符串的訪問,而不是對(duì)實(shí)體的完整描述性。更詳細(xì)的正式記錄存儲(chǔ)在實(shí)體源記錄庫(Entities Source Record Storage)中,或直接鏈接到外部數(shù)據(jù)源。因此,其數(shù)據(jù)模型也是一個(gè)抽象層,不關(guān)心原始實(shí)體描述數(shù)據(jù)的格式或存儲(chǔ)位置。FOLIO Apps通過實(shí)體管理App提供的檢索查找服務(wù)或API獲取本地或外部的首選標(biāo)簽應(yīng)用于描述數(shù)據(jù)中。
憑借后發(fā)優(yōu)勢(shì),F(xiàn)OLIO在微服務(wù)域以及元數(shù)據(jù)模型設(shè)計(jì)上,原生支持基于語義的規(guī)范控制與知識(shí)融通。一方面,基于微服務(wù)架構(gòu)的FOLIO平臺(tái)是一個(gè)基于標(biāo)準(zhǔn)協(xié)議的框架,框架內(nèi)是一個(gè)個(gè)按照單一職能原則獨(dú)立開發(fā)和部署的應(yīng)用程序。不同的應(yīng)用程序根據(jù)不同的業(yè)務(wù)需求會(huì)設(shè)計(jì)不同的數(shù)據(jù)模型與元數(shù)據(jù)元素。而頂層的Codex域則解決了異構(gòu)資源的統(tǒng)一管理問題,同時(shí)中介各服務(wù)間的元數(shù)據(jù)鏈接,維持整個(gè)平臺(tái)的低耦合。另一方面,基于BIBFRAME設(shè)計(jì)的最小化元數(shù)據(jù)模型,以及實(shí)體管理App,都將保障FOLIO平臺(tái)實(shí)現(xiàn)圍繞實(shí)體進(jìn)行身份的管理與服務(wù)。
Alma平臺(tái)雖然在異構(gòu)資源整合和基于MARC的業(yè)務(wù)流程上提供了強(qiáng)大的功能,但也因此在基于身份的實(shí)體管理方面依舊處于BIBFLOW所言的第一階段[46],即通過在MARC中 嵌 入U(xiǎn)RI,導(dǎo) 出BIBFRAME、RDA/RDF、JSON-LD記錄[47]在界面中顯示,或提供SPARQL、API端 點(diǎn)。Alma通 過FRBR化 在Primo發(fā)現(xiàn)層[48]對(duì)讀者提供有限的信息增值服務(wù),但其內(nèi)部元數(shù)據(jù)管理依舊圍繞記錄展開。雖然Alma在最新的開發(fā)路線圖中描述了圍繞關(guān)聯(lián)數(shù)據(jù)構(gòu)建的一套元數(shù)據(jù)管理流程[49],但受限于現(xiàn)有技術(shù)架構(gòu)與元數(shù)據(jù)方案,全面的實(shí)體轉(zhuǎn)向效果仍待觀察。二者元數(shù)據(jù)方案對(duì)比見表1。
表1 Alma與FOLIO元數(shù)據(jù)方案比較
成也MARC,敗也MARC。進(jìn)入互聯(lián)網(wǎng)時(shí)代,誕生于1960年代的MARC已經(jīng)成為圖書館融入網(wǎng)絡(luò)環(huán)境的一大掣肘。雖然在元數(shù)據(jù)方案方面,圖書館一直在積極變革,如1995年DC、1998年FRBR、2000年MARCXML、2002年MODS、2010年RDA、2011年BIBFRAME 1.0、2012年SchemaBibEx。圖書館元數(shù)據(jù)管理方案一直在努力實(shí)現(xiàn)更細(xì)粒度的深層描述與資源展示,但受限于圖書館管理系統(tǒng)與MARC的深度綁定,面向?qū)ο蟮膶?shí)體編目以及跨領(lǐng)域的知識(shí)融合收效甚微。
新一代的圖書館服務(wù)平臺(tái)以全新的技術(shù)架構(gòu)整合各自獨(dú)立的圖書館系統(tǒng),通過一組標(biāo)準(zhǔn)化的內(nèi)部數(shù)據(jù)結(jié)構(gòu),或通過一種本地存儲(chǔ)不同類型記錄的機(jī)制,打破MARC格式的封閉性,同時(shí)支持各種元數(shù)據(jù)標(biāo)準(zhǔn),為圖書館提供一個(gè)開放的元數(shù)據(jù)管理環(huán)境[50],實(shí)現(xiàn)紙電合一的業(yè)務(wù)流程管理以及資源描述和發(fā)現(xiàn)服務(wù)。但在數(shù)據(jù)為王的時(shí)代,第三代圖書館需要對(duì)系統(tǒng)設(shè)計(jì)和數(shù)字資產(chǎn)擁有更大的自主權(quán)。以FOLIO為代表的新一代圖書館服務(wù)平臺(tái)可以滿足圖書館對(duì)管理系統(tǒng)的深度參與按需定制。FOLIO基于BIBFRAME和DC為基礎(chǔ)設(shè)計(jì)的Codex抽象數(shù)據(jù)層作為其元數(shù)據(jù)管理核心。同時(shí),根據(jù)微服務(wù)的數(shù)據(jù)管理原則,對(duì)元數(shù)據(jù)記錄劃分為“統(tǒng)一記錄—業(yè)務(wù)記錄—正式記錄”的三層結(jié)構(gòu)。這樣一來,不僅可以跳出MARC“圍城”,不再考慮元數(shù)據(jù)格式以及存儲(chǔ)位置,為深度知識(shí)組合與融合提供基礎(chǔ);更進(jìn)一步,F(xiàn)OLIO設(shè)計(jì)了單獨(dú)的實(shí)體管理App,順應(yīng)了互聯(lián)網(wǎng)環(huán)境下圖書館書目與規(guī)范控制的語義化趨勢(shì),為圖書館資源與服務(wù)的“出圈”提供了可能。