楊永清 黃畢惠
(四川大學圖書館,成都 610065)
隨著信息技術的迅猛發(fā)展和信息環(huán)境的巨大改變,圖書館的文獻資源類型不斷擴展,紙本資源、多載體資源、數(shù)據(jù)庫資源、網(wǎng)絡資源、開放資源等層出不窮,呈現(xiàn)出數(shù)量龐大、來源多樣、結構各異、種類繁多等特點,給用戶快速、準確地查找和利用資源造成了困擾,也使習慣于實體資源組織的圖書館對數(shù)字環(huán)境下涌現(xiàn)出來的巨量數(shù)字資源整合深感無力。大量隱性資源、閑置資源不僅造成資源浪費,還難以滿足用戶獲取、關聯(lián)、挖掘、重組文獻資源中蘊含的知識資源的迫切需求。資源發(fā)現(xiàn)和知識服務都依賴于海量資源的合理類聚和深度揭示,而此種資源組織方式必須有元數(shù)據(jù)做最基礎的支撐,可以說,元數(shù)據(jù)是圖書館提供資源獲取和知識服務的基礎,是圖書館管理和服務乃至生存與發(fā)展的重要資本。基于此,文獻元數(shù)據(jù)體系建設實踐蓬勃興起,歐洲數(shù)字圖書館于2011年設計了《Europeana數(shù)據(jù)模型》[1];2012年美國數(shù)字公共圖書館提出了《元數(shù)據(jù)應用綱要》,2015年更新了強化關聯(lián)數(shù)據(jù)的MAP4.0版[2];大英圖書館于2015年發(fā)布了《釋放價值:大英圖書館2015-2018年館藏元數(shù)據(jù)戰(zhàn)略》[3],圖書館界正紛紛加快設計和實施元數(shù)據(jù)建設規(guī)劃。
元數(shù)據(jù)是關于數(shù)據(jù)的數(shù)據(jù),是描述信息資源或數(shù)據(jù)的一種結構化的數(shù)據(jù)。圖書館元數(shù)據(jù)種類豐富,包含描述元數(shù)據(jù)、語義元數(shù)據(jù)、技術元數(shù)據(jù)、業(yè)務元數(shù)據(jù)、管理元數(shù)據(jù)等[4]。文獻元數(shù)據(jù)是圖書館元數(shù)據(jù)的重要組成部分,它是以文獻資源為對象,用于實現(xiàn)文獻資源的描述、解釋、定位、存取、發(fā)現(xiàn)、評估、選擇、關聯(lián)、挖掘等功能,使文獻資源更易管理、檢索和利用的結構化信息。簡言之,文獻元數(shù)據(jù)能夠描述文獻資源本身的特征和屬性,支持文獻資源的組織和整合,實現(xiàn)文獻資源的檢索利用、數(shù)據(jù)挖掘、知識發(fā)現(xiàn)和關聯(lián)。圖書館文獻元數(shù)據(jù)建設的目標,是將海量、多源、異構的資源元數(shù)據(jù)通過規(guī)范整理、分類聚合、組織保存等手段整合在一起,統(tǒng)一實施元數(shù)據(jù)生命全周期的集中管理和利用,以改進元數(shù)據(jù)整合集成效果,釋放隱藏元數(shù)據(jù),提高資源發(fā)現(xiàn)效率,推動資源組織向知識組織轉型。
進入21世紀,國外的文獻元數(shù)據(jù)集成研究與實踐日益蓬勃。在元數(shù)據(jù)戰(zhàn)略規(guī)劃方面,美國數(shù)字公共圖書館(DPLA)在其元數(shù)據(jù)政策聲明中提出通過開發(fā)和創(chuàng)新元數(shù)據(jù)集成庫和集成工具,開展元數(shù)據(jù)收集、描述、索引、數(shù)據(jù)增強等工作,保障元數(shù)據(jù)的共享與重用[5];大英圖書館在其館藏元數(shù)據(jù)戰(zhàn)略中提出通過建設豐富、一致、權威性、持續(xù)性的元數(shù)據(jù)資源體系,將館藏資源與社會資源關聯(lián)起來,提高資源使用效率[3]。在元數(shù)據(jù)體系框架方面,奧地利學者Ibrahim等[6]設計了元數(shù)據(jù)集成體系結構和系統(tǒng)組件;Bansal等[7]提出了用于大數(shù)據(jù)集成的語義提取、轉換和加載框架;Lemos等[8]比較分析了多個網(wǎng)絡多媒體知識組織系統(tǒng)及系統(tǒng)框架。在元數(shù)據(jù)標準方面,美國國會圖書館的合作編目計劃(PCC)致力于元數(shù)據(jù)描述標準的制定、名稱規(guī)范檔和主題規(guī)范檔(主題詞、分類法、敘詞表等)的創(chuàng)建與修訂[9];ProQuest公司的Summon系統(tǒng)制定了統(tǒng)一的元數(shù)據(jù)描述框架,將所有的資源類型映射到Summon統(tǒng)一架構下,實現(xiàn)各種類型資源的同步發(fā)現(xiàn)與揭示[10]。在元數(shù)據(jù)集成建設實踐方面,有資源發(fā)現(xiàn)系統(tǒng)商和免費共享平臺兩大主流,以Summon、Primo、EDS為代表的資源發(fā)現(xiàn)系統(tǒng)商,每個系統(tǒng)內(nèi)集成的各層級文獻元數(shù)據(jù)規(guī)模均是數(shù)以億計。免費共享平臺以國際區(qū)域聯(lián)盟和各國國家圖書館的文獻資源集成共享平臺為代表,歐盟委員會的Europeana、美國數(shù)字公共圖書館的DPLA、澳大利亞國家圖書館的Trove、新西蘭國家圖書館的DigitalNZ、日本國立國會圖書館的NDL等,這些平臺制定了元數(shù)據(jù)的模型與標準,如Europeana的數(shù)據(jù)模型(EDM)、NDL的國立國會圖書館都柏林核心元數(shù)據(jù)描述(DC-NDL)[11]等,并整合了各自國家圖書館、博物館、檔案館等文獻機構的數(shù)字資源,為公眾提供文獻資源的廣泛使用和共享。
隨著數(shù)字資源數(shù)量激增,我國也在積極探索文獻資源整合及文獻元數(shù)據(jù)集成建設,研究內(nèi)容涉及元數(shù)據(jù)整合平臺、系統(tǒng)架構、集成實踐等多個層面。在發(fā)現(xiàn)系統(tǒng)資源整合研究方面,竇天芳等[12]在分析資源發(fā)現(xiàn)系統(tǒng)邏輯結構和功能的基礎上,指出元數(shù)據(jù)質(zhì)量及與圖書館集成系統(tǒng)整合方式是資源發(fā)現(xiàn)的關鍵問題,提出圖書館發(fā)展前景是基于海量元數(shù)據(jù)倉儲開展數(shù)據(jù)驅(qū)動的知識服務;彭佳等[13]基于發(fā)現(xiàn)系統(tǒng)探討構建文獻資源深度聚合框架體系,實現(xiàn)語義層面的文獻組織與整合。在元數(shù)據(jù)集成管理系統(tǒng)研究方面,趙捷等[14]在系統(tǒng)需求分析的基礎上,提出了系統(tǒng)架構、系統(tǒng)功能和集成管理流程的設計方案;丁遒勁等[15]基于國外元數(shù)據(jù)集成實踐經(jīng)驗,提供了一個多來源元數(shù)據(jù)集成組織管理框架,從基礎層、操作層和應用層3個層次探討了多源元數(shù)據(jù)的集成管理方法;丁遒勁等[16]設計了文獻元數(shù)據(jù)集成管理框架和管理流程,提出了元數(shù)據(jù)集成管理的推進策略;姜恩波等[17]針對書目元數(shù)據(jù)介紹了一個集元數(shù)據(jù)檢索、轉化和整合功能為一體的開源元數(shù)據(jù)管理發(fā)布平臺。在元數(shù)據(jù)規(guī)范化處理研究方面,趙捷等[14]提出了構建規(guī)則庫和規(guī)范檔來解決多源異構元數(shù)據(jù)的統(tǒng)一規(guī)范方案。在元數(shù)據(jù)建設實踐方面,梁蕙瑋等[18]介紹了國家圖書館元數(shù)據(jù)倉儲建設的目標、流程和元數(shù)據(jù)整合方法。綜上所述,我國雖然在文獻資源元數(shù)據(jù)的集成管理研究和實踐方面取得了一定的成果,但在文獻資源元數(shù)據(jù)的多渠道獲取、元數(shù)據(jù)資產(chǎn)管理、元數(shù)據(jù)標準化規(guī)范化建設、元數(shù)據(jù)大規(guī)模集成建設和共享應用等方面的研究還具有一定的局限性,需要進一步研究和探索。
元數(shù)據(jù)是資源發(fā)現(xiàn)和知識服務的基礎,發(fā)現(xiàn)的機制是通過對文獻資源元數(shù)據(jù)的集成整合,建立元數(shù)據(jù)倉儲,編制統(tǒng)一的元數(shù)據(jù)預索引,來實現(xiàn)簡捷高效的資源檢索與服務。從實踐效果來看,當前發(fā)現(xiàn)系統(tǒng)檢索出的資源數(shù)量龐大、相關性不強、檢索精準度不高、識別選擇困難,這些現(xiàn)象都與元數(shù)據(jù)的集成管理問題密切相關,如元數(shù)據(jù)倉儲架構、元數(shù)據(jù)質(zhì)量、元數(shù)據(jù)測評、元數(shù)據(jù)服務等[19]。除此之外,筆者認為元數(shù)據(jù)集成管理還存在諸多方面的問題,如元數(shù)據(jù)統(tǒng)一集成、元數(shù)據(jù)標準規(guī)范、元數(shù)據(jù)權益確立、元數(shù)據(jù)協(xié)同建設等,這些都是必須加以關注和解決的問題。
圖書館文獻資源可以大致分為實體資源和數(shù)字資源。長期以來,對實體文獻資源的組織揭示主要是基于編目工作建立MARC書目記錄,通過圖書館的OPAC系統(tǒng)來進行檢索和利用。經(jīng)過五十余年的建設與發(fā)展,全球已經(jīng)積累了數(shù)量豐富的書目記錄,以OCLC為例,截至2019年9月,OCLC的WorldCat中書目記錄數(shù)量已經(jīng)超過4.64億條[20]。MARC書目記錄的編制經(jīng)過數(shù)十年的發(fā)展雖然已經(jīng)具備了規(guī)模效應和固定模式,對實體資源的計算機檢索和利用作出了積極而重大的貢獻,但由于其揭示粒度粗、無法實現(xiàn)關聯(lián)開放等缺陷也深受詬病。針對數(shù)字資源而言,目前大型數(shù)據(jù)庫收錄的數(shù)字資源數(shù)量龐大,其涵蓋的元數(shù)據(jù)數(shù)量均數(shù)以億計,對數(shù)字資源的組織揭示也主要是通過商用系統(tǒng)來實現(xiàn)。不同系統(tǒng)中的多種資源給用戶一站式查找和獲取文獻造成了障礙;而且,文獻資源的元數(shù)據(jù)格式類型眾多,加之來源不同、粒度不一、形態(tài)各異,需要通過元數(shù)據(jù)的融合、聚類和重組,對圖書館分散的、獨立存儲于不同系統(tǒng)中的文獻資源元數(shù)據(jù)進行大規(guī)模的統(tǒng)一集成整合,構建一個多源異構的元數(shù)據(jù)有機體,在語義層面實現(xiàn)文獻資源的類聚與重組,達成對多源異構資源一站式檢索的目標,將“資源發(fā)現(xiàn)”提升為“知識發(fā)現(xiàn)”,滿足用戶獲取知識服務(如數(shù)據(jù)挖掘、引文分析、科學數(shù)據(jù)管理、科研前沿預測等)的迫切需求。
元數(shù)據(jù)的標準規(guī)范與元數(shù)據(jù)建設質(zhì)量密切相關。對于多源異構的元數(shù)據(jù)集成不可避免地要面臨元數(shù)據(jù)層次級別不同、粒度粗細不均、著錄形式不一、格式和語義沖突等問題。以元數(shù)據(jù)層級為例,傳統(tǒng)的實體資源元數(shù)據(jù)絕大多數(shù)是書目級元數(shù)據(jù),而大多數(shù)的數(shù)據(jù)庫資源元數(shù)據(jù)是篇章級元數(shù)據(jù),層級不同導致元數(shù)據(jù)粒度不均。以元數(shù)據(jù)著錄為例,同一作品會出現(xiàn)多個題名(如紅樓夢、石頭記),同一責任者也可能有不同的名稱(如魯迅、周樹人),同樣的數(shù)字還會有不同的表達形式(如阿拉伯數(shù)字、羅馬數(shù)字)等。以元數(shù)據(jù)格式為例,有marc、dc、xml等,不同的元數(shù)據(jù)格式帶來了格式轉換和字段映射問題。以相同資源元數(shù)據(jù)的唯一性為例,不同來源的元數(shù)據(jù)中,同一資源由于被多個數(shù)據(jù)庫收錄,會出現(xiàn)多條元數(shù)據(jù),且同一資源的多條元數(shù)據(jù)之間還存在差異,帶來了元數(shù)據(jù)的判重和歸并問題。沒有統(tǒng)一的元數(shù)據(jù)標準規(guī)范,將無法實現(xiàn)元數(shù)據(jù)的統(tǒng)一描述、規(guī)范標引、集成整合和元數(shù)據(jù)互操作。
元數(shù)據(jù)權益有兩方面的含義,一是指圖書館收集獲取元數(shù)據(jù)的權利,二是指元數(shù)據(jù)的資產(chǎn)歸屬認定。收集獲取元數(shù)據(jù)的權利主要是針對商用數(shù)據(jù)庫資源而言。由于全球數(shù)字出版模式的興起,文獻資源大量以數(shù)字化的形態(tài)出品,數(shù)據(jù)庫資源正成為圖書館的主力資源。據(jù)全國高校圖工委統(tǒng)計,許多本科及以上層次高校圖書館的電子資源購置費比例已經(jīng)接近或達到圖書館資源建設總經(jīng)費的70%[21]。但圖書館花巨資購買的數(shù)據(jù)庫資源大多數(shù)都只有使用權,而沒有電子全文的長期保存權和擁有權;圖書館引進的商用發(fā)現(xiàn)系統(tǒng)也是以系統(tǒng)接口的方式來提供檢索服務,文獻資源元數(shù)據(jù)并未存儲于圖書館本地系統(tǒng),圖書館對文獻資源元數(shù)據(jù)缺乏自主權。圖書館收集數(shù)據(jù)庫資源元數(shù)據(jù)困難,究其原因是元數(shù)據(jù)具有信息資源增值功能,很多數(shù)據(jù)庫內(nèi)容提供商為了商業(yè)競爭而壟斷元數(shù)據(jù)資源,不愿意將元數(shù)據(jù)提交給圖書館,這種狀況導致圖書館無法利用海量的基礎元數(shù)據(jù)來開展數(shù)據(jù)挖掘、計算分析等工作,更談不上知識發(fā)現(xiàn)與知識服務。
元數(shù)據(jù)資產(chǎn)歸屬認定是針對大規(guī)模元數(shù)據(jù)統(tǒng)一集成體系中元數(shù)據(jù)的注冊機制而言。該元數(shù)據(jù)體系集合了出版發(fā)行部門、內(nèi)容提供商、圖書情報機構等跨領域的眾多主體機構的元數(shù)據(jù)。缺乏清晰的元數(shù)據(jù)資產(chǎn)權屬認定,會對元數(shù)據(jù)的收割、管理、保存、更新、協(xié)調(diào)共享、館藏資產(chǎn)清點等工作帶來一系列的負面影響,也不利于形成聯(lián)盟層面甚至是國家層面元數(shù)據(jù)大規(guī)模的集成與應用。
語義檢索、數(shù)據(jù)挖掘、知識關聯(lián)和發(fā)現(xiàn)的實現(xiàn)必須基于海量元數(shù)據(jù)資源的集成管理,即需要構建“大數(shù)據(jù)”化的文獻資源元數(shù)據(jù)體系。目前我國國家圖書館和大型的圖書館聯(lián)盟都在積極致力于資源元數(shù)據(jù)體系建設,如國家圖書館通過文津搜索系統(tǒng)來收割公共圖書館的文獻元數(shù)據(jù),并與自建元數(shù)據(jù)和外購商用資源元數(shù)據(jù)進行整合集成,構建大型元數(shù)據(jù)倉儲[22];中國高等教育文獻保障系統(tǒng)(CALIS)通過e讀學術搜索收集了高校成員館提交的免費資源、購買的商用數(shù)據(jù)資源及合作機構提供的資源,涵蓋期刊、學位論文、普通圖書、工具書、年鑒、報紙等資源類型,數(shù)據(jù)量已超過3億條[23];國家科技圖書文獻中心(NSTL)除了資源的自主加工以外,還與出版社、內(nèi)容提供商、數(shù)據(jù)庫代理商等機構開展合作集成整合資源,其類型包含圖書、期刊、會議論文、科技報告、專利、標準、計量規(guī)程等。雖然上述大型機構和聯(lián)盟的元數(shù)據(jù)集成整合實踐卓有成效,但距“大數(shù)據(jù)”級還相差甚遠,同時在各跨界領域還沒有形成統(tǒng)一的資源描述和元數(shù)據(jù)標準,還不能實現(xiàn)元數(shù)據(jù)的共享、復用和互操作,亟須相關的上下游行業(yè)和文獻服務機構開展元數(shù)據(jù)的協(xié)同建設。
數(shù)據(jù)關聯(lián)和知識發(fā)現(xiàn)必須以“大數(shù)據(jù)”級的文獻資源元數(shù)據(jù)體系為基礎,僅靠單一圖書館或單個圖書館聯(lián)盟無法形成海量的元數(shù)據(jù)資源。達成資源發(fā)現(xiàn)和知識服務的目標,實施多主體協(xié)同共建文獻資源元數(shù)據(jù)體系的策略是行之有效的路徑。在元數(shù)據(jù)采集、元數(shù)據(jù)更新、元數(shù)據(jù)管理、新技術應用等方面,圖書館需要與信息產(chǎn)業(yè)鏈上的出版商、內(nèi)容提供商、平臺構建商、其他信息服務機構開展協(xié)同合作,才能滿足終端用戶更深層次的信息服務需求;而在元數(shù)據(jù)服務、終端用戶需求收集、館藏特色資源數(shù)字出版、科研成果信息獲取等方面,信息產(chǎn)業(yè)鏈的上下游機構需要與作為信息傳播中介的圖書館協(xié)同合作,才能促使自己的可持續(xù)發(fā)展。因此,文獻元數(shù)據(jù)集成體系建設與上述產(chǎn)業(yè)鏈上的多個主體相關,多主體、多來源、多類型的異構資源元數(shù)據(jù)整合成“大數(shù)據(jù)”級的文獻資源元數(shù)據(jù)體系,采用多主體協(xié)同共建模式既可實現(xiàn)多方共贏,又能滿足用戶所需。多主體協(xié)同共建的重點內(nèi)容有三方面,一是元數(shù)據(jù)的統(tǒng)一集成,二是元數(shù)據(jù)的標準制定,三是元數(shù)據(jù)的資產(chǎn)注冊。應該以此為突破口,加強元數(shù)據(jù)的統(tǒng)一集成、細粒度加工和語義關聯(lián),強化文獻元數(shù)據(jù)的集成管理,破解元數(shù)據(jù)建設中遭遇的各種難題。
元數(shù)據(jù)統(tǒng)一集成的實質(zhì)就是將分散在相對獨立的各個系統(tǒng)和平臺中的各類型元數(shù)據(jù)進行融合、聚類和重組,形成一個統(tǒng)一、高效、開放的元數(shù)據(jù)有機體系。文獻資源元數(shù)據(jù)集成體系的建設涉及元數(shù)據(jù)收集、處理、集成組織、服務應用等多個層面(見圖1)。建立元數(shù)據(jù)采集、處理、整合流程,針對多源異構元數(shù)據(jù)制定統(tǒng)一的元數(shù)據(jù)標準,實現(xiàn)元數(shù)據(jù)的統(tǒng)一規(guī)范和互操作,支持元數(shù)據(jù)的共享和復用;在對描述型元數(shù)據(jù)進行整合的同時,也需要對語義元數(shù)據(jù)進行規(guī)范整合,揭示元數(shù)據(jù)所表達的各類實體之間、實體與屬性之間的關系,并利用元數(shù)據(jù)屬性進行聚類重組,統(tǒng)一整合分散于各個系統(tǒng)之中的元數(shù)據(jù),構建細粒度、語義豐富的知識網(wǎng)絡體系,便于計算機對文本內(nèi)容的理解和對語義內(nèi)容的計算,實現(xiàn)文獻檢索服務向真正意義上的知識服務的轉型。
4.1.1 元數(shù)據(jù)收集
圖書館文獻資源由館藏實體資源、館藏數(shù)字資源(外購和自建)、共享聯(lián)盟資源、其他領域文獻機構資源和互聯(lián)網(wǎng)資源等構成。因此,文獻資源元數(shù)據(jù)包含書目元數(shù)據(jù)、商用數(shù)字資源元數(shù)據(jù)、自建數(shù)字資源元數(shù)據(jù)、聯(lián)盟資源元數(shù)據(jù)、其他機構資源元數(shù)據(jù)和網(wǎng)絡資源元數(shù)據(jù)等,涵蓋母級元數(shù)據(jù)、卷期元數(shù)據(jù)、篇章級元數(shù)據(jù)等多層級元數(shù)據(jù)。
對上述元數(shù)據(jù)進行收集,應明確各類型文獻資源元數(shù)據(jù)的來源:①書目元數(shù)據(jù),存儲于圖書館本地的自動化管理系統(tǒng)中,是圖書館最傳統(tǒng)最基礎的元數(shù)據(jù),是圖書館數(shù)十年編目工作積累的成果,包含館藏圖書、期刊、音像制品等物理資源的編目數(shù)據(jù);②商用數(shù)字資源元數(shù)據(jù),來源于圖書館外購的數(shù)據(jù)庫資源,需要圖書館與數(shù)據(jù)庫商、數(shù)據(jù)庫代理商或資源內(nèi)容提供商進行協(xié)商,簽訂元數(shù)據(jù)收割協(xié)議,按協(xié)議規(guī)定的方式(如FTP、OAI、API、HTTP等)開展元數(shù)據(jù)的采集;③自建數(shù)字資源元數(shù)據(jù),是圖書館根據(jù)學校教學科研發(fā)展和圖書館服務需要自行建設的特色資源數(shù)據(jù)庫,圖書館擁有該類元數(shù)據(jù)的自主權;④聯(lián)盟元數(shù)據(jù),是圖書館參與合作共建共享的資源元數(shù)據(jù),需要遵循聯(lián)盟共同達成的一致性協(xié)議,采用OAI-PMH等標準訪問接口方式來采集元數(shù)據(jù);⑤網(wǎng)絡資源元數(shù)據(jù),包括各類免費資源和開放獲取資源元數(shù)據(jù),可以采用搜索引擎等方式來對相關資源元數(shù)據(jù)進行收集。
4.1.2 元數(shù)據(jù)處理
圖1 文獻元數(shù)據(jù)集成架構
對元數(shù)據(jù)進行處理是構建多元化異構元數(shù)據(jù)統(tǒng)一集成體系必不可少的環(huán)節(jié)。元數(shù)據(jù)處理包含如下內(nèi)容。①元數(shù)據(jù)分析。對各類型元數(shù)據(jù)進行結構分析和屬性分析,了解元數(shù)據(jù)的內(nèi)容結構、句法結構、語義結構及其屬性關系。②異構數(shù)據(jù)同構化。首先對來自不同系統(tǒng)、不同類型的數(shù)字資源定義各自一致的元數(shù)據(jù)結構;其次設計異構數(shù)據(jù)的相互映射機制,通過數(shù)據(jù)轉換消除數(shù)據(jù)結構差異;再次梳理不同類型元數(shù)據(jù)之間的關聯(lián)關系,如書目母體元數(shù)據(jù)與其目次元數(shù)據(jù)的關系、實體資源元數(shù)據(jù)與同種數(shù)字資源元數(shù)據(jù)的關系、描述型元數(shù)據(jù)與規(guī)范元數(shù)據(jù)的關系等。③元數(shù)據(jù)查重歸并。不同系統(tǒng)中針對同一文獻資源可能存在多個重復的元數(shù)據(jù),由于元數(shù)據(jù)制作機構標準不統(tǒng)一,重復的元數(shù)據(jù)之間還有可能存在差異,首先要發(fā)現(xiàn)和確認重復數(shù)據(jù),制定不同類型元數(shù)據(jù)的查重策略,設計查重匹配規(guī)則,再對不同層級的各類型元數(shù)據(jù)進行機器自動比對,對重復冗余的元數(shù)據(jù)進行修改、剔除和合并,以實現(xiàn)來自不同系統(tǒng)的相同元數(shù)據(jù)整合揭示的唯一性,提高文獻資源發(fā)現(xiàn)的效率。
4.1.3 元數(shù)據(jù)整合
文獻資源元數(shù)據(jù)來自不同機構的不同數(shù)據(jù)庫,這些數(shù)據(jù)庫的元數(shù)據(jù)字段定義各不相同,采用的資源描述標準也存在差異。這就要求對元數(shù)據(jù)字段進行準確的分析、確認和匹配。制定元數(shù)據(jù)字段匹配策略時,要注重字段的完整性、規(guī)范性、唯一性和語義明確性。
梳理元數(shù)據(jù)表達的各種實體及實體之間的相互關系,是元數(shù)據(jù)整合的重要一環(huán)。文獻資源中包含多種實體,既可以是具體的人、事、物,也可以是抽象的概念或關系,如人名、地名、機構、事件、概念、公理、生成方式、相互關系等。分析元數(shù)據(jù)實體及其關系,制定元數(shù)據(jù)實體抽取策略,建立實體名稱規(guī)范化規(guī)則,并通過實體消歧解決數(shù)據(jù)沖突和語義沖突,實現(xiàn)元數(shù)據(jù)實體融合。
元數(shù)據(jù)整合時應對元數(shù)據(jù)的多種形式分別進行整合,如對同種資源的不同載體形式進行整合,對同種資源的不同版本形式進行整合,對同種資源的不同語種形式進行整合等。還應根據(jù)元數(shù)據(jù)的類型和層次,對元數(shù)據(jù)進行分層級整合。在對描述型元數(shù)據(jù)進行整合的同時,還要注重對知識元數(shù)據(jù)的整合,注意采用分類法、詞表、領域詞典、本體、語義網(wǎng)絡等知識組織工具與規(guī)范文檔進行知識標引和知識加工,建立知識關系體系,實現(xiàn)知識實體的識別、深層次聚合和知識關系網(wǎng)絡的構建。
元數(shù)據(jù)標準體系的建設是圖書館數(shù)據(jù)基礎設施建設的重要組成部分。由于文獻資源元數(shù)據(jù)情況復雜,既有實體資源的書目級元數(shù)據(jù),又有數(shù)字資源的篇章級元數(shù)據(jù);既有圖書館自建元數(shù)據(jù),又有其他來源元數(shù)據(jù),因此在開展元數(shù)據(jù)標準體系建設時,要充分考慮各種復雜情況,按照統(tǒng)一的標準來開展實體資源和數(shù)字資源的統(tǒng)一集成管理。元數(shù)據(jù)標準體系的建設涉及標準、規(guī)范和規(guī)則的建立,大致可分為結構標準、內(nèi)容標準、取值標準和交換標準[24]。①結構標準。元數(shù)據(jù)結構標準定義元數(shù)據(jù)格式,如MARC、DC、BIBFRAME、CDF等。②內(nèi)容標準。元數(shù)據(jù)內(nèi)容標準描述元數(shù)據(jù)元素選取、著錄和構成規(guī)劃,如ISBD、RDA等。③取值標準。元數(shù)據(jù)取值標準確定元數(shù)據(jù)詞表和標引詞的選取,如分類法、主題詞表、名稱規(guī)范檔等。④交換標準。元數(shù)據(jù)交換標準(編碼標準)記錄元數(shù)據(jù)的存儲和交換,如MARC(2709格式)、XML等。
不同類型的資源元數(shù)據(jù)有不同的元數(shù)據(jù)標準,同種類型的資源元數(shù)據(jù)來源于不同的機構也可能有不同的元數(shù)據(jù)標準,因此廣泛收集的底層元數(shù)據(jù)不可避免地存在元數(shù)據(jù)沖突和差異。為了屏蔽元數(shù)據(jù)沖突,需建立統(tǒng)一的元數(shù)據(jù)標準體系,結合目標任務,兼顧不同元數(shù)據(jù)的多項特征,通過選用國際上成熟的各類型元數(shù)據(jù)標準或自制元數(shù)據(jù)標準,設計能兼容各類型、各領域元數(shù)據(jù)特點的元數(shù)據(jù)統(tǒng)一標準規(guī)范體系;并以統(tǒng)一標準體系為藍本,開展原生元數(shù)據(jù)的生產(chǎn)(自建元數(shù)據(jù)),或建立外來元數(shù)據(jù)標準與統(tǒng)一標準體系的映射關系,通過映射轉換,使文獻元數(shù)據(jù)體系建立于統(tǒng)一的標準之上,實現(xiàn)各類型元數(shù)據(jù)的統(tǒng)一管理,提高資源發(fā)現(xiàn)效率,延伸和深化知識服務。
4.3.1 外購數(shù)字資源元數(shù)據(jù)采集
沒有文獻資源元數(shù)據(jù)做支撐,無法實現(xiàn)基于海量元數(shù)據(jù)體系的數(shù)據(jù)挖掘、數(shù)據(jù)分析、知識服務等功能,這凸顯了元數(shù)據(jù)采集工作的重要性。圖書館重金外購的商用數(shù)據(jù)庫資源,其文獻元數(shù)據(jù)掌握在數(shù)據(jù)庫商手中。面對元數(shù)據(jù)采集困境,圖書館應大膽主張元數(shù)據(jù)權益,與數(shù)據(jù)庫商開展談判溝通,從互利互惠的角度平衡雙方訴求,簽訂元數(shù)據(jù)收集與利用協(xié)議。協(xié)議涉及元數(shù)據(jù)收割、保存、更新、使用、開發(fā)等各個方面,如元數(shù)據(jù)提供條件(免費提供還是少量付費)、元數(shù)據(jù)提交方式(如OAI、API、FTP、HTTP等)、元數(shù)據(jù)更新周期、元數(shù)據(jù)質(zhì)量要求、元數(shù)據(jù)使用范圍、元數(shù)據(jù)開發(fā)許可等。該協(xié)議對元數(shù)據(jù)的知識產(chǎn)權、涉及費用、雙方權利與義務等都應有明確的約定,以避免后續(xù)糾紛給各自帶來不利的影響。同時,應注重對多種類型文獻資源的元數(shù)據(jù)收集,不僅注重對常規(guī)的圖書、期刊等資源元數(shù)據(jù)的收集,還要重視對多介質(zhì)資源和特藏資源元數(shù)據(jù)的收集,如音頻、視頻、縮微資料、科學報告、科研數(shù)據(jù)、課件資料、圖像資料、動漫資料等,以支持特色資源的整合,滿足各種個性化的需求。
4.3.2 元數(shù)據(jù)資產(chǎn)注冊
在基于“大數(shù)據(jù)”級別的大規(guī)模元數(shù)據(jù)統(tǒng)一集成體系中,文獻資源元數(shù)據(jù)來源于不同領域的不同機構,數(shù)據(jù)分布廣泛,體量巨大。通過元數(shù)據(jù)資產(chǎn)注冊,可以了解元數(shù)據(jù)的資產(chǎn)歸屬和分布情況,記錄元數(shù)據(jù)的版權屬性,登記元數(shù)據(jù)所屬機構,揭示元數(shù)據(jù)的使用范圍和使用對象。元數(shù)據(jù)資產(chǎn)注冊的內(nèi)容包含元數(shù)據(jù)名稱、存儲類型、數(shù)據(jù)對象、數(shù)據(jù)業(yè)務規(guī)則、數(shù)據(jù)管理機構、數(shù)據(jù)館藏屬性(如數(shù)據(jù)來源、數(shù)據(jù)URL、數(shù)據(jù)存放位置)等(見圖2)。元數(shù)據(jù)資產(chǎn)注冊可以推動元數(shù)據(jù)的共享利用,分清元數(shù)據(jù)的權屬關系,有利于元數(shù)據(jù)的管理、更新和協(xié)調(diào)使用,保障不同行業(yè)、不同機構協(xié)同建設的文獻資源元數(shù)據(jù)集成體系平穩(wěn)、持續(xù)地運行。
圖2 文獻元數(shù)據(jù)注冊示意圖
元數(shù)據(jù)協(xié)同建設是元數(shù)據(jù)共享復用的基礎。多主體元數(shù)據(jù)協(xié)同建設首先要做好頂層設計,制定跨界協(xié)同發(fā)展戰(zhàn)略,建立長效合作機制,打造元數(shù)據(jù)協(xié)同建設與服務平臺;要制定管理制度,爭取政策支持,針對涉及的工作環(huán)節(jié)建立多個研究工作小組,保障平穩(wěn)運行,實現(xiàn)多方共贏,確保元數(shù)據(jù)建設協(xié)同模式不斷創(chuàng)新與發(fā)展。其次,要認真研討元數(shù)據(jù)協(xié)同建設內(nèi)容,注重商用資源、網(wǎng)絡資源、開放資源、圖書館機構知識庫等多源元數(shù)據(jù)的收集渠道,重視元數(shù)據(jù)注冊與管理,研究元數(shù)據(jù)查重、匹配、映射、轉換機制。再次,要積極開展元數(shù)據(jù)統(tǒng)一標準的制定,充分考慮各方原有標準之間的差異,建立多方原有標準與統(tǒng)一標準的映射關系,設計能兼容多方標準特點的元數(shù)據(jù)統(tǒng)一標準體系。然后,要積極開展文獻資源長期保存合作,與出版商、數(shù)據(jù)庫商簽署多方協(xié)議,在全國范圍內(nèi)通過協(xié)同合作建立數(shù)字資源長期保存機制,保障數(shù)字資源的長期使用需求。最后,要強化元數(shù)據(jù)協(xié)同建設與服務平臺功能,使其不僅是文獻提供、資源評估、知識服務等圖書館精細化服務的平臺,還是出版商、數(shù)據(jù)庫商開展商業(yè)活動需要的資源展示推廣平臺以及用戶需求信息和個性化出版信息征集平臺。總之,兼顧多方需求,開展協(xié)同共建,實現(xiàn)攜手共贏,達成元數(shù)據(jù)協(xié)同建設目標是未來大勢所趨和時代發(fā)展所向。
在數(shù)字資源占據(jù)主導地位的今天,沿用舊的文獻資源整合模式已無法適應資源發(fā)現(xiàn)和知識服務的需求,亟須圖書館融入開放互聯(lián)環(huán)境,參與大數(shù)據(jù)發(fā)展戰(zhàn)略,重構資源組織模式,建立文獻元數(shù)據(jù)體系,細粒度地深入揭示文獻資源的外部形態(tài)、內(nèi)容特征以及相互之間的關聯(lián)關系。通過不同層級文獻元數(shù)據(jù)集成建設,運用各類詞表、分類法、規(guī)范文檔等知識組織工具,對文獻單元以及知識單元進行結構化、系統(tǒng)化、關聯(lián)化處理,實現(xiàn)海量、多源、異構文獻元數(shù)據(jù)的統(tǒng)一集成;主張元數(shù)據(jù)權益,推動元數(shù)據(jù)注冊;制定統(tǒng)一的元數(shù)據(jù)標準規(guī)范,解決多源元數(shù)據(jù)的格式?jīng)_突和語義沖突;打造元數(shù)據(jù)識別與關聯(lián)體系,主動融入社會資源的大數(shù)據(jù)環(huán)境,全面釋放館藏資源價值;建立基于信息產(chǎn)業(yè)生態(tài)鏈的跨界元數(shù)據(jù)合作建設與服務機制,共同構建國家層面的大規(guī)模元數(shù)據(jù)集成體系,更好地適應基于開放互聯(lián)環(huán)境的細粒度知識組織,以達成資源發(fā)現(xiàn)、數(shù)據(jù)挖掘和知識服務的目標。