毛 蕓
(北京師范大學(xué)管理學(xué)院,北京 100875)
網(wǎng)絡(luò)信息資源是指以電子數(shù)據(jù)的形式將文字、圖像、聲音、動畫等相關(guān)信息存放在光、磁等介質(zhì)上,并通過網(wǎng)絡(luò)通信、計算機或信息終端等方式再現(xiàn)出來的信息資源。它是電子資源的一個重要組成部分。但由于網(wǎng)絡(luò)信息資源自身的特點,目前對于網(wǎng)絡(luò)信息資源的描述還缺乏有效的規(guī)范。具體來說,網(wǎng)絡(luò)信息資源有以下幾個特點。
(1)信息量大,質(zhì)量良莠不齊。由于網(wǎng)絡(luò)信息具有很大的隨意性和自由度,其發(fā)布也沒有經(jīng)過嚴(yán)格的審查、監(jiān)督和質(zhì)量控制,信息質(zhì)量良莠不齊。
(2)內(nèi)容豐富,格式多樣化。網(wǎng)絡(luò)信息資源的內(nèi)容包羅萬象,覆蓋了不同學(xué)科、不同領(lǐng)域、不同地域、不同語言的信息資源;網(wǎng)絡(luò)信息資源的格式呈現(xiàn)多樣化,如HTML、XML、TXT等;網(wǎng)絡(luò)信息資源的文獻類型也不盡相同,包括網(wǎng)上出版物、動態(tài)信息、書目數(shù)據(jù)庫、聯(lián)機數(shù)據(jù)庫、軟件資源等。
(3)信息源不規(guī)范,難以準(zhǔn)確定位。網(wǎng)絡(luò)信息資源一般缺乏類似實體信息資源的主要信息源,其主要著錄信息一般散見于多個頁面的不同位置,而且反映網(wǎng)絡(luò)信息資源位置的URL具有較大的變動性,即不同的URL可能代表著同一個資源,同一個URL又可能在不同的時間代表著不同的資源,不具備實體信息資源中類似ISBN信息資源的可靠性和穩(wěn)定性。
由于網(wǎng)絡(luò)信息資源日益增長,為了對其進行規(guī)范化管理,從而更好地加以利用,有必要對網(wǎng)絡(luò)信息資源的描述方法進行研究。目前,已經(jīng)有多種描述網(wǎng)絡(luò)信息資源的方法,本文主要介紹MARC、DC、MODS這三種。
美國最早開展將MARC格式用于網(wǎng)絡(luò)信息資源的編目研究工作。早在1991年5月1日,美國國會提交的49號討論件就已經(jīng)提出以USMARC格式為主要架構(gòu)制定能囊括網(wǎng)絡(luò)信息資源的有關(guān)字段。此舉是圖書館界參與網(wǎng)絡(luò)信息資源描述的創(chuàng)舉。同年,OCLC也分階段進行了網(wǎng)絡(luò)信息資源編目的實踐,研究USMARC和AACR2對網(wǎng)上信息資編目的適用性。隨后幾年,LC和OCLC不斷對USMARC格式進行了局部修改,以滿足網(wǎng)絡(luò)信息資源編目不斷發(fā)展的需求。
對于中文的網(wǎng)絡(luò)信息資源而言,可以運用135、230、336、337和856字段來提高MARC描述網(wǎng)絡(luò)信息資源的能力。專門對網(wǎng)絡(luò)信息資源的統(tǒng)一資源地址(URL)進行著錄,并進行超文本鏈接。
MARC作為描述網(wǎng)絡(luò)資源具有以下特點:
(1)描述資源的字段豐富、詳盡,標(biāo)準(zhǔn)化程度高。MARC是一種詳細(xì)描述的元數(shù)據(jù)格式,其定義的每個字段都非常詳盡,而且對著錄的內(nèi)容有嚴(yán)格的限制,能夠提供多種檢索途徑,提高資源的查準(zhǔn)率。從一定程度上看,MARC是目前發(fā)展最早也是最成熟的資源描述方法,它是其他更新的元數(shù)據(jù)格式(DC、MODS)的重要參考依據(jù)。
(2)對于多套格式的同一資源的描述具有一定的優(yōu)勢。由于國內(nèi)數(shù)字圖書館的興起,很多傳統(tǒng)圖書館紛紛向數(shù)字圖書館發(fā)展。許多紙質(zhì)資源,如圖書、期刊、樂譜等都進行了電子化和數(shù)字化處理。由于MARC對傳統(tǒng)的完整、靜止的書目信息描述有很大優(yōu)勢,同時它又有針對電子資源描述的字段,故MRAC能夠兼顧這種多套格式的同一資源的描述。
(3)對于描述動態(tài)的網(wǎng)絡(luò)信息資源較為薄弱。由于MARC的字段設(shè)計得很嚴(yán)謹(jǐn),而且字段較多,非圖書情報專業(yè)人員較難掌握。對于動態(tài)、海量的網(wǎng)絡(luò)信息資源而言,MARC的使用則缺乏一定的靈活性。
DC元數(shù)據(jù)全稱為Dublin Core Metadata,是國際組織Dublin Core Metadata Initiative擬定的用于標(biāo)識電子資源的一種目錄模式。網(wǎng)絡(luò)信息資源的無序性對檢索時的查全率和查準(zhǔn)率造成極大影響,DC元數(shù)據(jù)可以促進網(wǎng)絡(luò)信息資源的發(fā)現(xiàn),是支持網(wǎng)絡(luò)檢索而建立的元數(shù)據(jù)模式,目前已更新到1.1版本。
DC元數(shù)據(jù)有簡單和復(fù)雜之分。簡單的DC有15個核心元素,而且可以根據(jù)需要選擇若干元素進行資源描述,這樣可以簡化著錄項目。復(fù)雜的DC是在簡單DC基礎(chǔ)上引入修飾詞的概念,主要有體系修飾詞(Scheme)、語種修飾詞(Language)和進一步修飾元素屬性的子元素修飾詞(Subelement)。其中體系修飾詞借鑒了MARC的優(yōu)點并把分類法、主題詞表等控制語言吸收進去。DC元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范見表1。
表1 DC元數(shù)據(jù)元素一覽表
DC元數(shù)據(jù)作為描述網(wǎng)絡(luò)信息資源的方法,主要有以下幾個特點:
(1)DC元數(shù)據(jù)可采用多種編碼語言描述。DCMI推薦認(rèn)可多種語言對DC元數(shù)據(jù)進行描述,如XHTML metatags,XML,RDF/XML等。但在圖書館領(lǐng)域中,使用最多的還是XML這種技術(shù)手段。為了便于DC元數(shù)據(jù)與其他元數(shù)據(jù)進行格式上的轉(zhuǎn)換,DC元數(shù)據(jù)采用了RDF(資源描述框架)格式。[1]RDF可以使用XML和RDF Schema將不同元數(shù)據(jù)標(biāo)準(zhǔn)描述成為數(shù)據(jù)模型,形成結(jié)構(gòu)化的XML數(shù)據(jù),便于搜索引擎精確查找。DC現(xiàn)已更多地從技術(shù)層面來進行網(wǎng)絡(luò)信息資源的規(guī)范控制,而不僅僅是從標(biāo)準(zhǔn)上解決電子資源的描述問題。
(2)DC元數(shù)據(jù)簡單易用,靈活方便。相比MARC,DC元數(shù)據(jù)使用起來更為簡單,不論是圖書情報專業(yè)人員還是用戶,都能較容易掌握和使用。DC的15個核心元素都是可選的,針對不同行業(yè)學(xué)科的資源,可以選擇不同的元素進行描述。同時DC各元素是可重復(fù)的,可以根據(jù)信息資源屬性的多樣性進行重復(fù)著錄,從而很好地解決了多語種、多創(chuàng)建者、多版本資源的著錄問題。
(3)DC元數(shù)據(jù)具有良好的可修飾性。DC采用子元素限定詞、控制詞作為數(shù)據(jù)單元來進一步描述資源。大多數(shù)元素都有子元素,限定詞的使用非常靈活,結(jié)構(gòu)也較為簡單。例如,核心元素Relation就包含 hasVersion、isVersionOf、replaces、isReplacedBy、requires、isRequiredBy、hasPart、isPartOf等多個子元素限定詞。
MODS(Metadata Object Description Schema)的中文譯名為元數(shù)據(jù)對象描述模式,是由美國國會圖書館下屬的網(wǎng)絡(luò)發(fā)展部和MARC標(biāo)準(zhǔn)辦公室共同研制出來的一種新的元數(shù)據(jù),目前已推出了3.4版本。MODS是在MARC的基礎(chǔ)上發(fā)展起來的,其復(fù)雜程度介于MARC與DC之間,既克服了兩者的缺陷,又對兩者都有著良好的兼容性。
MODS由元素、子元素、屬性三個部分構(gòu)成。在MODS 3.4版本中,共有20個主元素和2個根元素。每個主元素下都有若干個子元素,元素具有屬性。所有元素都可以重復(fù)使用,但屬性不可以重復(fù)使用。每個MODS記錄至少要有1個元素,即主元素“題名信息”和子元素“題名”是必不可少的,其他元素均是可選的。MODS的主元素見表2。
表2 MODS主元素表
MODS之所以適用于網(wǎng)絡(luò)信息資源的描述,主要是源于以下幾個特點:
(1)元數(shù)據(jù)集比DC更豐富,比MARC更簡潔。DC的元素字段過于簡單,而MARC字段又過于詳細(xì),結(jié)構(gòu)過于復(fù)雜。[2]MODS元數(shù)據(jù)參考 MARC字段,取自MARC的子集,同時又提供了比DC更為豐富的字段。
(2)MODS允許開發(fā)者自定義標(biāo)簽。MODS采用的語言標(biāo)簽允許資源創(chuàng)建人員自定義標(biāo)簽,標(biāo)簽的名稱和含義可由創(chuàng)建者根據(jù)需要作出選擇。而資源創(chuàng)建者也不需要具備專業(yè)的編目能力。因此簡單實用,能夠快速地編制記錄,滿足各類信息交換的需要,具有良好的普適性。
(3)MODS是集成MARC及DC的橋梁。由于MODS與DC都在一定程度借鑒了MARC的標(biāo)準(zhǔn),是從MARC發(fā)展而來,故三者具有一定的互通性。而MODS的結(jié)構(gòu)復(fù)雜程度介于MARC和DC之間,故可將MODS作為MARC和DC之間轉(zhuǎn)換的橋梁。
在三種描述方法中,MARC最為詳細(xì),MODS的難易程度適中,DC元數(shù)據(jù)最簡單。這三種描述方法在不同的網(wǎng)絡(luò)信息資源的描述中各有優(yōu)勢。目前也已經(jīng)有很多圖書館及組織機構(gòu)利用這些方法描述網(wǎng)上信息資源,國內(nèi)外也有一些項目專門研究這些描述方法的利用情況。
MARC的優(yōu)勢在于描述傳統(tǒng)書目信息資源。目前大多數(shù)圖書館的書目數(shù)據(jù)仍以MARC為主要描述標(biāo)準(zhǔn)。由于數(shù)字圖書館的興起,許多傳統(tǒng)圖書館紛紛向數(shù)字圖書館轉(zhuǎn)型,館藏中不可避免地出現(xiàn)了內(nèi)容相同而載體不同的信息資源。為了保持?jǐn)?shù)據(jù)的一致性,需要使用同一種元數(shù)據(jù)標(biāo)準(zhǔn)對上述類型的資源進行描述,而MARC就能很好地滿足這個需求。既可以用MARC描述傳統(tǒng)紙質(zhì)資源,又可以著重采用擴展的MARC字段來描述與紙質(zhì)資源對應(yīng)的數(shù)字化資源。如中央音樂學(xué)院圖書館對于紙質(zhì)的樂譜資源進行數(shù)字化,建立了自有樂譜數(shù)據(jù)庫。為了方便用戶同時檢索到紙質(zhì)版樂譜和數(shù)據(jù)庫版樂譜,其在常規(guī)MARC字段中加入了電子資源描述字段,對兩者進行關(guān)聯(lián)。
DC元數(shù)據(jù)靈活易用,它對于描述動態(tài)的海量網(wǎng)絡(luò)信息資源有著一定的優(yōu)勢,如非正式出版的各類網(wǎng)絡(luò)信息資源、綜合性門戶網(wǎng)站內(nèi)容等,可用于一般網(wǎng)絡(luò)信息資源的標(biāo)志和檢索。但是,DC結(jié)構(gòu)較為簡單,對于專業(yè)學(xué)科類網(wǎng)絡(luò)信息資源具有一定的局限性。所以,為了增強DC元數(shù)據(jù)的描述能力,同時又保持DC簡單易用的特點,DCMI成立了多個工作組,根據(jù)不同學(xué)科領(lǐng)域的需求分別對DC進行了擴展,制定了 DC-Agent,DC-Citation,DC-Library,DC-Education,DC-Government等不同DC元數(shù)據(jù)標(biāo)準(zhǔn)并得到了應(yīng)用。[3]如澳大利亞政府定位器服務(wù)(Australian Government Locator Service)就宣布采用DC元數(shù)據(jù)格式作為其電子政府文獻的信息著錄標(biāo)準(zhǔn)。
MODS最重要的一個功能就是作為MARC和DC兩種標(biāo)準(zhǔn)集成的橋梁,起到中間轉(zhuǎn)換的作用,所以MODS適用于復(fù)合型圖書館資源的描述。MODS主要用三種方式來實現(xiàn)不同格式的集成:1)MARC轉(zhuǎn)為MODS,DC轉(zhuǎn)為MODS,以 MODS為統(tǒng)一元數(shù)據(jù)格式進行集成處理;2)MARC轉(zhuǎn)為MODS,再轉(zhuǎn)為DC,以DC為統(tǒng)一元數(shù)據(jù)格式進行集成處理;3)DC轉(zhuǎn)為MODS,再轉(zhuǎn)為MARC,以MARC為統(tǒng)一元數(shù)據(jù)格式進行集成處理。[4]無論是哪種方式,都必須首先轉(zhuǎn)為MODS格式?,F(xiàn)在也有較多以MODS為標(biāo)準(zhǔn)元數(shù)據(jù)集成各類資源描述格式的項目,如美國國會圖書館主辦的“美國記憶”就把American Memory和Global Gateway中大約20萬條MARC記錄轉(zhuǎn)為MODS格式;澳大利亞國家圖書館主辦的“澳大利亞國家書目數(shù)據(jù)庫元數(shù)據(jù)項目”將原DC元數(shù)據(jù)格式轉(zhuǎn)為MODS,再轉(zhuǎn)換為MARC,最終全部轉(zhuǎn)入澳大利亞國家書目資料庫。[5]
網(wǎng)絡(luò)信息資源的描述方法有很多,不僅僅局限于以上三種。不同的網(wǎng)絡(luò)信息資源描述方法都各有優(yōu)、缺點,不能簡單地說哪種標(biāo)準(zhǔn)好或不好。這些描述方法由于自身的不足或是網(wǎng)絡(luò)環(huán)境因素在網(wǎng)絡(luò)信息資源中的應(yīng)用都還不是非常普遍。目前,我國的網(wǎng)絡(luò)信息資源組織標(biāo)準(zhǔn)化建設(shè)還處于不斷探索、不斷實踐和不斷完善的時期。鑒于國外在信息資源開發(fā)與建設(shè)的標(biāo)準(zhǔn)化研究方面處于領(lǐng)先水平,因此我國網(wǎng)絡(luò)信息資源標(biāo)準(zhǔn)化建設(shè)應(yīng)參照相關(guān)國際標(biāo)準(zhǔn),結(jié)合中國國情,建立標(biāo)準(zhǔn)的、結(jié)構(gòu)化的同時被人們認(rèn)可的元數(shù)據(jù)標(biāo)準(zhǔn)體系。通過“聯(lián)合、開放、共享”的運作模式,建立合理的資源共享標(biāo)準(zhǔn)體系,從而促進我國網(wǎng)絡(luò)信息資源的規(guī)范發(fā)展。
[1]張云瑾.DC元數(shù)據(jù)——組織網(wǎng)絡(luò)信息資源的有效工具[J].引進與咨詢,2004(1):30—32.
[2]吳桂英.元數(shù)據(jù)MODS及其應(yīng)用前景展望[J].科技情報開發(fā)與經(jīng)濟,2009(8):125—127.
[3]王 偉.近年來我國DC元數(shù)據(jù)研究文獻綜述[J].圖書館理論與實踐,2007(5):58—60.
[4]李衛(wèi)峰.基于MODS的數(shù)字圖書館元數(shù)據(jù)集成[J].大學(xué)圖書情報學(xué)刊,2010(6):58—94.
[5]倪 娟.MODS元數(shù)據(jù)的新發(fā)展與應(yīng)用[J].農(nóng)業(yè)圖書情報學(xué)刊,2006(6):165—167.