張宏偉 許 慧
(黑龍江中醫(yī)藥大學(xué)圖書館,黑龍江 哈爾濱 150040)
基于DC元數(shù)據(jù)倉(cāng)儲(chǔ)的數(shù)字資源整合研究*
張宏偉 許 慧
(黑龍江中醫(yī)藥大學(xué)圖書館,黑龍江 哈爾濱 150040)
數(shù)字資源整合在圖書館建設(shè)過程中具有廣闊的市場(chǎng)前景和長(zhǎng)期穩(wěn)定的發(fā)展空間。介紹了國(guó)內(nèi)外資源整合的研究現(xiàn)狀,設(shè)計(jì)了基于DC元數(shù)據(jù)倉(cāng)儲(chǔ)的一站式檢索系統(tǒng)架構(gòu)模型,并對(duì)模型中元數(shù)據(jù)采集、存儲(chǔ)架構(gòu)以及數(shù)據(jù)檢索等技術(shù)難點(diǎn)進(jìn)行闡述。
DC元數(shù)據(jù) 資源整合 一站式服務(wù)
近年來(lái),數(shù)字資源在高校圖書館資源中所占比例越來(lái)越高,涵蓋范圍越來(lái)越廣,國(guó)內(nèi)各高校圖書館基本上都有十幾個(gè)甚至幾十個(gè)各類數(shù)據(jù)庫(kù)資源。這些資源具有各自通信協(xié)議、類型、格式,為讀者提供不同的查詢方式和服務(wù),具有各自不同的權(quán)限保護(hù)和收費(fèi)策略。
圖書館學(xué)之父阮岡納贊(S.R.Ranganathan)指出,圖書館不僅要為讀者提供資源,更要節(jié)省讀者獲取資源的時(shí)間。因此,如何整合各類數(shù)字資源,實(shí)現(xiàn)數(shù)字資源的無(wú)縫鏈接,通過一次讀者認(rèn)證,為讀者提供快速的一站式服務(wù)(One Stop Services),同時(shí)以統(tǒng)一的界面將檢索結(jié)果傳遞給讀者,使讀者能夠簡(jiǎn)便快速地查找所需的文獻(xiàn)資源已經(jīng)成為當(dāng)前圖書館面臨的最重要的課題。
數(shù)字資源整合方式分為以下3種:基于館藏書目數(shù)據(jù)庫(kù)(OPAC)系統(tǒng)的資源整合、基于網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的資源整合和基于知識(shí)管理的數(shù)字資源整合。國(guó)外圖書館數(shù)字資源整合起步較早,歐美發(fā)達(dá)國(guó)家在20世紀(jì)90年代開始對(duì)數(shù)字資源進(jìn)行整合。主要集中在OPAC(Online Public Access Catalogue,即聯(lián)機(jī)公共查詢目錄)、網(wǎng)絡(luò)數(shù)據(jù)庫(kù)、自建數(shù)據(jù)庫(kù)、電子圖書等資源的導(dǎo)航及整合檢索等方面[1]。一些知名的系統(tǒng)隨之出現(xiàn),如Ex Libris的MetaLib/SFX、Serials Solutions的360 Search/ 360 Link??梢詫?shí)現(xiàn)跨庫(kù)檢索和引文鏈接,適用于分布式環(huán)境下數(shù)字資源集成管理的ENCompass等。隨著Web Service研究的深入,許多學(xué)者開始研究Web Service技術(shù)在數(shù)字圖書館中的應(yīng)用,各種利于異構(gòu)資源整合的標(biāo)準(zhǔn)及協(xié)議也不斷出現(xiàn)[2]。例如基于元數(shù)據(jù)收割的OAI.PMH、用于書目信息的共享和互操作的Z39.50、用于情景相關(guān)的服務(wù)整合的OpenURL、分布式異構(gòu)資源的檢索系列協(xié)議(STARTS、SDLIP和SDARTS)等。
近年來(lái)國(guó)內(nèi)圖書館領(lǐng)域開始對(duì)資源整合進(jìn)行研究,由于起步晚、技術(shù)落后,整合的對(duì)象主要是關(guān)系型數(shù)據(jù)庫(kù),以建立數(shù)字資源整合平臺(tái)為主[3]。如清華同方CNKI整合系統(tǒng)、TRS的數(shù)字圖書館資源整合門戶、CALIS(中國(guó)高等教育文獻(xiàn)保障系統(tǒng))統(tǒng)一檢索平臺(tái)等;國(guó)內(nèi)著名高校和科研院所設(shè)計(jì)和開發(fā)統(tǒng)一檢索系統(tǒng)。如清華大學(xué)信息門戶系統(tǒng),該系統(tǒng)是采用以色列MetaLib/SFX為基礎(chǔ)構(gòu)建的信息門戶服務(wù);北大CALIS跨庫(kù)檢索系統(tǒng)和中科院跨庫(kù)檢索系統(tǒng)在對(duì)資源的集成和檢索服務(wù)方面也處于積極的研究、探索和應(yīng)用之中。
圖1 一站式檢索系統(tǒng)的總體架構(gòu)
一站式檢索系統(tǒng)需要對(duì)每一資源進(jìn)行簡(jiǎn)要描述,這種描述既要清晰準(zhǔn)確又不能太復(fù)雜[4]。DC元數(shù)據(jù)即“都柏林核心(DublinCore)元數(shù)據(jù)”,是為簡(jiǎn)單描述數(shù)字資源而創(chuàng)建的元數(shù)據(jù)集,它簡(jiǎn)單、易于理解、可擴(kuò)展,已被國(guó)際上眾多項(xiàng)目采用,且已被因特網(wǎng)工程專題組(IETFOC)正式接受。
基于DC元數(shù)據(jù)倉(cāng)儲(chǔ)的一站式檢索系統(tǒng)能夠整合圖書館現(xiàn)有數(shù)據(jù)庫(kù)資源、外購(gòu)的各種數(shù)據(jù)資源以及互聯(lián)網(wǎng)檢索引擎資源,提供資源的一站式檢索與服務(wù)??梢詫?shí)現(xiàn)不同規(guī)模、多種資源庫(kù)的資源整合與檢索,實(shí)現(xiàn)檢索結(jié)果統(tǒng)一展現(xiàn)。系統(tǒng)能向用戶提供統(tǒng)一的檢索接口,將用戶的檢索要求轉(zhuǎn)化為不同數(shù)據(jù)源的檢索表達(dá)式,并發(fā)地檢索本地的和廣域網(wǎng)上的多個(gè)分布式異構(gòu)數(shù)據(jù)源,并提供接口對(duì)應(yīng)圖書館門戶應(yīng)用。提供與元數(shù)據(jù)倉(cāng)儲(chǔ)服務(wù)的集成功能,以實(shí)現(xiàn)對(duì)檢索結(jié)果的整合。系統(tǒng)主要功能需求如表1所述。
基于DC元數(shù)據(jù)倉(cāng)儲(chǔ)的一站式檢索系統(tǒng)的總體架構(gòu)如圖1所示,系統(tǒng)技術(shù)難點(diǎn)包括元數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)檢索與發(fā)布等。
3.1 元數(shù)據(jù)采集
基于DC元數(shù)據(jù)倉(cāng)儲(chǔ)的一站式檢索系統(tǒng)支持的目標(biāo)數(shù)據(jù)源廣泛,只要是能提供訪問的各種數(shù)據(jù)都可以成為檢索的目標(biāo)數(shù)據(jù)源,主要可以分為專業(yè)電子資源數(shù)據(jù)庫(kù)、通用關(guān)系型數(shù)據(jù)庫(kù)、業(yè)務(wù)系統(tǒng)文檔、遠(yuǎn)程或本地共享目錄文件、館藏資源OPAC數(shù)據(jù)、互聯(lián)網(wǎng)免費(fèi)數(shù)據(jù)源以及其他應(yīng)用系統(tǒng)數(shù)據(jù)源等。針對(duì)不同的數(shù)據(jù)源,提供了相應(yīng)的數(shù)據(jù)網(wǎng)關(guān)和采集適配器來(lái)實(shí)現(xiàn)對(duì)元數(shù)據(jù)的采集和處理,元數(shù)據(jù)倉(cāng)儲(chǔ)的元數(shù)據(jù)采集設(shè)計(jì)如圖2所示。
數(shù)據(jù)網(wǎng)關(guān)是從數(shù)據(jù)源提取元數(shù)據(jù)并組織成結(jié)構(gòu)化數(shù)據(jù)的橋梁紐帶,數(shù)據(jù)源有數(shù)據(jù)庫(kù)服務(wù)器、文件服務(wù)器、FTP服務(wù)器、Web服務(wù)器以及用戶錄入數(shù)據(jù)等。數(shù)據(jù)網(wǎng)關(guān)是元數(shù)據(jù)倉(cāng)儲(chǔ)平臺(tái)的前端子系統(tǒng),因此數(shù)據(jù)網(wǎng)關(guān)提供一個(gè)通用的數(shù)據(jù)網(wǎng)關(guān)接口,并且能夠與各個(gè)采集適配器以及后端的數(shù)據(jù)庫(kù)之間進(jìn)行良好的交互通信。
表1 基于DC元數(shù)據(jù)倉(cāng)儲(chǔ)的一站式檢索系統(tǒng)功能需求
采集適配器主要是從源數(shù)據(jù)庫(kù)查詢其數(shù)據(jù)結(jié)構(gòu),并通過設(shè)定采集任務(wù)和元數(shù)據(jù)字段映射關(guān)系,建立該目標(biāo)對(duì)象的元數(shù)據(jù)輸出表,并轉(zhuǎn)換新的數(shù)據(jù)結(jié)構(gòu)進(jìn)行存儲(chǔ)。適配器任務(wù)包括選擇適配器任務(wù)類型(如Z server、數(shù)據(jù)庫(kù)、FTP、文件目錄等)、任務(wù)名稱、是否調(diào)度運(yùn)行等。
當(dāng)元數(shù)據(jù)倉(cāng)儲(chǔ)平臺(tái)配置字段映射參數(shù)時(shí),向網(wǎng)關(guān)系統(tǒng)發(fā)送請(qǐng)求,網(wǎng)關(guān)系統(tǒng)調(diào)用需要執(zhí)行的適配器任務(wù),任務(wù)調(diào)用生成的數(shù)據(jù)表結(jié)構(gòu)以XML的形式發(fā)送回去,和元數(shù)據(jù)倉(cāng)儲(chǔ)平臺(tái)映射,完成后執(zhí)行調(diào)度任務(wù),把不同數(shù)據(jù)源的數(shù)據(jù)以XML的形式返回給元數(shù)據(jù)倉(cāng)儲(chǔ)平臺(tái)。當(dāng)任務(wù)調(diào)度完成后,將元數(shù)據(jù)能夠提供的數(shù)據(jù)整理并存儲(chǔ)。
圖2 元數(shù)據(jù)采集設(shè)計(jì)示例
3.2 元數(shù)據(jù)存儲(chǔ)架構(gòu)
數(shù)據(jù)存儲(chǔ)部分技術(shù)難點(diǎn)是元數(shù)據(jù)存儲(chǔ)采用何種架構(gòu)方式。數(shù)字圖書館需要整合大量的館藏資源、外部電子資源與網(wǎng)絡(luò)資源。因此,從數(shù)據(jù)存取效率和存儲(chǔ)安全性考慮,建議元數(shù)據(jù)倉(cāng)儲(chǔ)采取架構(gòu)在多個(gè)物理服務(wù)器之上的分布式進(jìn)行服務(wù),支持?jǐn)?shù)據(jù)分布以及負(fù)載均衡兩種基本分布方式,并支持兩種方式的組合運(yùn)用。
圖3 數(shù)據(jù)庫(kù)集群服務(wù)模式
方式一是根據(jù)數(shù)據(jù)分類、功能不同,把內(nèi)容分開存儲(chǔ)。將整個(gè)元數(shù)據(jù)倉(cāng)儲(chǔ)的數(shù)據(jù)根據(jù)內(nèi)容不同分為兩類,分別存放于數(shù)據(jù)庫(kù)(a)和數(shù)據(jù)庫(kù)(b)中,(a)(b)內(nèi)容不同;方式二是內(nèi)容相同,數(shù)據(jù)不分開,只是每套數(shù)據(jù)分別存儲(chǔ)在不同的數(shù)據(jù)庫(kù)中,數(shù)據(jù)庫(kù)(a)數(shù)據(jù)庫(kù)(b)內(nèi)都存放全部元數(shù)據(jù)倉(cāng)儲(chǔ)內(nèi)容,(a)(b)內(nèi)容相同。
資源調(diào)度服務(wù)器分發(fā)任務(wù)的方式可以根據(jù)網(wǎng)絡(luò)流量、檢索并發(fā)或者來(lái)訪IP地址來(lái)進(jìn)行任務(wù)分發(fā)。元數(shù)據(jù)倉(cāng)儲(chǔ)數(shù)據(jù)庫(kù)集群系統(tǒng)服務(wù)模式如圖3所示。當(dāng)用戶向元數(shù)據(jù)倉(cāng)儲(chǔ)平臺(tái)Web服務(wù)器發(fā)送檢索請(qǐng)求時(shí),其請(qǐng)求可能會(huì)被資源調(diào)度服務(wù)器分配到檢索集群中的任意一個(gè)檢索服務(wù)器,如分配給(a),(a)檢索后并從原數(shù)據(jù)庫(kù)中取回檢索結(jié)果,資源調(diào)度服務(wù)器在發(fā)布集群中選擇一個(gè)發(fā)布服務(wù)器,如(b),則(b)選擇接受數(shù)據(jù),并返回結(jié)果,將結(jié)果頁(yè)面以一定方式顯示給讀者用戶。
3.3 數(shù)據(jù)檢索和發(fā)布
數(shù)據(jù)檢索和發(fā)布支持多庫(kù)結(jié)果的統(tǒng)一展現(xiàn),同時(shí)提供不同資源庫(kù)的檢索結(jié)果集分類和分面展現(xiàn)。這些展現(xiàn)方式都可以在一個(gè)頁(yè)面上集中體現(xiàn),方便讀者根據(jù)自己的需要選擇性查看。檢索結(jié)果通過處理引擎進(jìn)行合并、排重、排序等操作后,以統(tǒng)一的格式將結(jié)果呈現(xiàn)給讀者[5],讀者可以在一個(gè)頁(yè)面中瀏覽不同的資源庫(kù)中檢索出的結(jié)果信息,甚至直接下載全文,如圖4所示。
一站式檢索使讀者在查找所需文獻(xiàn)資源時(shí)不必在多個(gè)數(shù)據(jù)庫(kù)之間頻繁地登錄和退出,以減輕讀者學(xué)習(xí)檢索不同數(shù)據(jù)源的負(fù)擔(dān);采用多元數(shù)據(jù)庫(kù)分布式全文檢索,能夠有效提升檢索效率,為讀者節(jié)省大量的時(shí)間和精力;檢索結(jié)果合并,為用戶呈現(xiàn)格式統(tǒng)一、分類聚合、多種排序的檢索結(jié)果,大大方便用戶的瀏覽和選擇,使得圖書館電子資源得到更充分、有效的利用。
圖4 檢索結(jié)果界面展現(xiàn)
基于DC元數(shù)據(jù)倉(cāng)儲(chǔ)的數(shù)字資源整合,是提高館藏資源使用效率的一種有效手段,方便、快捷的“一站式”服務(wù),大大提升讀者服務(wù)的深度與廣度,是Web3.0時(shí)代圖書館讀者服務(wù)的必然要求。數(shù)字資源整合在圖書館數(shù)字化建設(shè)過程中具有廣闊的市場(chǎng)前景和長(zhǎng)期穩(wěn)定的發(fā)展空間,在今后工作中,要加強(qiáng)資源整合的研究,探索新的整合方法,應(yīng)用新的整合技術(shù),開發(fā)新的整合平臺(tái),以應(yīng)對(duì)大數(shù)據(jù)時(shí)代的到來(lái)。
[1]張雅君.基于Web Service的OAI數(shù)據(jù)資源整合[J].圖書館學(xué)刊,2011(2):53-55.
[2]徐榮華.基于元數(shù)據(jù)倉(cāng)儲(chǔ)的資源整合應(yīng)用[J].圖書館雜志,2012(4):67-73.
[3]徐嵐.圖書館數(shù)字資源整合方式探析——以安徽警官職業(yè)學(xué)院圖書館為例[J].安徽警官職業(yè)學(xué)院學(xué)報(bào),2010(6):90-92.
[4]蔣繼平,姚倩.文獻(xiàn)資源整合中的統(tǒng)一檢索系統(tǒng)應(yīng)用研究[J].大學(xué)圖書館學(xué)報(bào),2011(1):72-76.
[5]杜亮,劉濤.基于元數(shù)據(jù)倉(cāng)儲(chǔ)的數(shù)字資源整合研究與實(shí)踐——以沈陽(yáng)航空航天大學(xué)圖書館為例[J].現(xiàn)代情報(bào),2012(10):46-52.
張宏偉男,1981年生。碩士,館員。
許 慧女,1983年生。博士,館員。
G250.73
2014-02-14;責(zé)編:徐向東。)
*本文系黑龍江省藝術(shù)科學(xué)規(guī)劃課題青年項(xiàng)目“基于一站式圖書館數(shù)字資源整合與檢索系統(tǒng)的研究與實(shí)現(xiàn)”(項(xiàng)目編號(hào):12C036)成果之一。