張琳娜
(陜西師范大學(xué)圖書館,陜西 西安 710062)
業(yè)界根據(jù)數(shù)字圖書館建設(shè)的基點、體系形式和所解決的關(guān)鍵任務(wù)等,將數(shù)字圖書館的發(fā)展確定為從“基于數(shù)字化資源”向“基于集成信息服務(wù)”以及“基于用戶信息服務(wù)”三個階段[1]。數(shù)字圖書館信息集成服務(wù)是基于用戶需求,無縫集成數(shù)字圖書館資源、技術(shù)、組織、服務(wù)等要素,使用戶得到在時間和空間上一致的、動態(tài)的、面向主題的信息服務(wù)[2]。
近十年來,對信息集成服務(wù)技術(shù)的研究以某一集成目標(biāo)下,特定數(shù)據(jù)資源的整合技術(shù)研究為主。如利用OPAC系統(tǒng)提供的其他電子資源鏈接的接口表,存儲相應(yīng)的數(shù)字資源信息的URL鏈接,實現(xiàn)已購電子圖書資源如超星、書生等與Malines系統(tǒng)的整合[3];利用開源軟件PKPHarvester2對數(shù)字資源進行基于OAI-PMH協(xié)議的元數(shù)據(jù)收割,實現(xiàn)對提供OAI接口的數(shù)據(jù)資源的整合研究[4];通過自建資源系統(tǒng)接口二次定制開發(fā)實現(xiàn)自建資源與OPAC系統(tǒng)數(shù)據(jù)整合的研究[5]等等。這些研究成果對“基于集成信息服務(wù)”數(shù)字圖書館的發(fā)展有一定推動和示范作用,但其立足于“基于數(shù)字化資源”建設(shè)成果本身,屬于自底向上的研究方式,有一定的局限性。本文采用自頂向下的研究思路,從“基于用戶信息服務(wù)”數(shù)字圖書館的體系結(jié)構(gòu)出發(fā),針對信息集成過程中存在的普遍問題,提出了一種信息集成模型,旨在為數(shù)字圖書館建設(shè)提供通用的集成模型依據(jù)。
在數(shù)字圖書館建設(shè)中,系統(tǒng)與資源是基礎(chǔ),集成是手段,“一站式”門戶是平臺,提供全面、標(biāo)準(zhǔn)、個性化的信息服務(wù)則是數(shù)字圖書館建設(shè)的最終目標(biāo)。因此,數(shù)字圖書館的體系結(jié)構(gòu)應(yīng)該由N個系統(tǒng)與資源,一個信息集成平臺加一個“一站式”門戶組成,即概括為N+1+1的結(jié)構(gòu)(如圖1所示)。
圖1 數(shù)字圖書館體系結(jié)構(gòu)
系統(tǒng)與資源包括館內(nèi)外的各類管理系統(tǒng)和數(shù)字圖書館前期建設(shè)過程中形成的數(shù)字化資源。這些系統(tǒng)和資源都是依據(jù)各自業(yè)務(wù)邏輯和數(shù)字化標(biāo)準(zhǔn)而建的,之間往往沒有統(tǒng)一的接口和數(shù)據(jù)標(biāo)準(zhǔn)。
“一站式”門戶是用戶訪問數(shù)字圖書館的統(tǒng)一入口。通過門戶,用戶就可以獲得如統(tǒng)一檢索、資源鏈接與全文獲取、館際互借、咨詢與幫助,以及針對用戶的個性化服務(wù),如信息推送服務(wù)、定題服務(wù)等。
信息集成平臺為各個管理系統(tǒng)的集成和數(shù)字資源的融合提供一系列的整合服務(wù),使得各系統(tǒng)及資源之間能夠有效地實現(xiàn)數(shù)據(jù)交換與共享、應(yīng)用的相訪以及接口的標(biāo)準(zhǔn)化開放,確保應(yīng)用的即插即用。
“基于用戶信息服務(wù)”的數(shù)字圖書館是一個十分復(fù)雜的信息系統(tǒng),其信息集成過程需要面對以下問題:①分布性。數(shù)字圖書館的信息資源往往是異地分布的,存在網(wǎng)絡(luò)傳輸?shù)男阅芎桶踩葐栴}。②異構(gòu)性。這些信息資源通常是獨立開發(fā)的,軟硬件平臺環(huán)境和數(shù)據(jù)格式、模式的異構(gòu)問題是集成過程需要面對的最大的問題。③自治性。信息資源和服務(wù)往往由各自組織獨立維護和管理,在被集成的同時,其內(nèi)部運行不能受集成所干擾,需具備高度自治能力。④透明性。如軟硬件平臺的透明,對數(shù)據(jù)存儲位置、數(shù)據(jù)模型和數(shù)據(jù)語言的透明等。其與系統(tǒng)解決異構(gòu)性的程度和能力相關(guān),決定了系統(tǒng)的功能和使用的方便程度。
目前常用的信息集成方案大體可分為模式集成和數(shù)據(jù)復(fù)制兩種[6]。模式集成是將信息資源的數(shù)據(jù)視圖集成為虛擬的全局模式,通過將用戶在全局模式基礎(chǔ)上提出的查詢請求映射成各信息源在本地可以執(zhí)行的請求操作,從而達(dá)到集成目標(biāo)。該方法的映射算法具有一定的復(fù)雜性,對網(wǎng)絡(luò)依賴性強,但透明度高、實時一致性好。數(shù)據(jù)復(fù)制是將各信息源數(shù)據(jù)復(fù)制到數(shù)據(jù)倉庫中,并維護整體一致性,提高信息共享利用效率的集成方法。該方法的查詢訪問方式簡單、集成性能高,但需負(fù)擔(dān)數(shù)據(jù)倉庫的創(chuàng)建及數(shù)據(jù)傳輸帶來的額外代價。
網(wǎng)絡(luò)的迅速發(fā)展使數(shù)據(jù)信息由原來的結(jié)構(gòu)數(shù)據(jù)擴展到半結(jié)構(gòu)數(shù)據(jù)或者無結(jié)構(gòu)數(shù)據(jù)。XML作為半結(jié)構(gòu)數(shù)據(jù)模型,能夠用來描述互聯(lián)網(wǎng)上的任何數(shù)據(jù)和實體[7]。XML將數(shù)據(jù)、結(jié)構(gòu)和格式獨立開來,XML表示數(shù)據(jù),DTD或XML Schema規(guī)定文檔結(jié)構(gòu),CCS或XSL定義文件顯示格式,XSLT、XQuery作為XML的轉(zhuǎn)換語言、查詢語言。其在數(shù)據(jù)模式描述,屏蔽數(shù)據(jù)異構(gòu)性,實現(xiàn)無縫集成上都有已有技術(shù)無法實現(xiàn)的優(yōu)勢。Web服務(wù)技術(shù)構(gòu)建在XML之上,通過使用統(tǒng)一的標(biāo)準(zhǔn)(服務(wù)通信SOAP、服務(wù)描述WSDL和服務(wù)發(fā)現(xiàn)UDDI),封裝數(shù)據(jù)、消息和行為,讓其他的應(yīng)用程序在無需考慮具體應(yīng)用環(huán)境的情況下調(diào)用并得到響應(yīng)。其是一種松散耦合的集成方式,真正實現(xiàn)異構(gòu)信息源的無縫集成。XML和Web服務(wù)技術(shù)框架可以較好地適應(yīng)分布式系統(tǒng)的服務(wù)分散性和資源異構(gòu)性等特點,非常適合用于資源整合[8]。
針對“基于用戶信息服務(wù)”數(shù)字圖書館中信息集成存在的普遍問題,結(jié)合已有方案和技術(shù),本文提出一種基于XML和Web服務(wù)技術(shù)、復(fù)制集成和模式集成相結(jié)合的信息集成模型 (Information Integration Model,簡稱IIM)。IIM將XML作為公共數(shù)據(jù)模型,Schema作為數(shù)據(jù)模式的描述語言,XSLT作為數(shù)據(jù)轉(zhuǎn)換處理語言,XQuery作為查詢語言,通過各信息源與XML的轉(zhuǎn)換,消除信息源間的異構(gòu)問題。IIM利用Web服務(wù)對邊界進行封裝,向上為“一站式”門戶提供基于全局模式的統(tǒng)一查詢接口,向下為各局部應(yīng)用系統(tǒng)或資源提供統(tǒng)一的集成接口,從而有效的解決系統(tǒng)相互操作的問題。此外,IIM采用復(fù)制集成和模式集成相結(jié)合的方案,提供一種按需集成策略。一方面對數(shù)字圖書館的骨架數(shù)據(jù)和有固定共享需求的數(shù)據(jù)信息,通過內(nèi)部的同步機制實現(xiàn)自動共享;另一方面通過對集成需求的分解和數(shù)據(jù)結(jié)果的整合,實現(xiàn)對其他數(shù)據(jù)的共享,從而使IIM具備實時、高效的特性,提高系統(tǒng)運行效率。
從功能上來說IIM由數(shù)據(jù)源管理器、數(shù)據(jù)轉(zhuǎn)換處理器、復(fù)制處理器、查詢處理器、局部Web服務(wù)、全局Web服務(wù)六部分組成,IIM的模型結(jié)構(gòu)如圖2所示。
圖2 IIM的模型結(jié)構(gòu)圖
IIM的工作流程分管理和運行兩部分。管理是元數(shù)據(jù)以及集成規(guī)則生成的過程。在這個過程中,IIM管理員根據(jù)共享協(xié)議注冊局部信息源,定義共享內(nèi)容、設(shè)置集成方式及相關(guān)參數(shù),建立局部與全局的模式映射關(guān)系,維護全局模式信息以及局部與全局的模式轉(zhuǎn)換規(guī)則,為IIM的有效運行奠定基礎(chǔ)。運行過程包括內(nèi)部自動同步和外部主動集成兩個過程。自動同步主要針對復(fù)制處理器中的數(shù)據(jù)同步過程。IIM將遵循管理階段定義的運行設(shè)置自動啟動處理過程,并在其他模塊的協(xié)助下完成共享數(shù)據(jù)的同步。外部主動集成體現(xiàn)在對由全局Web服務(wù)接受的查詢請求的處理。此類集成需求往往是隨機、零散的,由外部應(yīng)用系統(tǒng)提出且集成內(nèi)容不固定。對這樣的集成請求,IIM會按照全局模式與局部模式的映射/集成信息對請求進行解析,判斷具體的處理方式,交由不同的處理器完成。
以陜西師范大學(xué)圖書館為例,我館資源數(shù)字化已經(jīng)全面建成,館內(nèi)除了館藏資源、隨書光盤系統(tǒng)外、還有中文古籍、網(wǎng)絡(luò)課程、西北地方志、教師教育圖書等七個特色數(shù)據(jù)庫。購買的中外文數(shù)據(jù)庫、電子圖書更是達(dá)到了百余種。這些資源由不同的組織獨立開發(fā),除了軟硬件平臺、數(shù)據(jù)模式不同外,其數(shù)據(jù)類型更是涉及文字、圖片、視頻、多媒體等。如何采用一種通用的集成技術(shù)、統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),為讀者提供“一站式”訪問服務(wù)是我館數(shù)字化建設(shè)的新方向。
圖3 數(shù)字圖書館的架構(gòu)
基于IIM而設(shè)計的數(shù)字圖書館架構(gòu) (如圖3所示)能有效地解決了以上問題。IIM服務(wù)器包含IIM核心結(jié)構(gòu)、控制管理平臺以及全局復(fù)制數(shù)據(jù)庫。其從全局角度出發(fā),對已有數(shù)字化資源進行整理,構(gòu)造出我館標(biāo)準(zhǔn)的全局?jǐn)?shù)據(jù)模式。IIM將基于全局?jǐn)?shù)據(jù)模式的Web服務(wù)發(fā)布到UDDI服務(wù)注冊中心,供“一站式”門戶及館內(nèi)外各應(yīng)用系統(tǒng)或資源查閱。各類系統(tǒng)或資源作為IIM中的局部數(shù)據(jù)信息,一方面保留、存儲和維護各自的數(shù)據(jù),另一方面通過在IIM中注冊,以全局模式或全局?jǐn)?shù)據(jù)為門戶提供數(shù)據(jù)信息,當(dāng)需要時,也可以通過館內(nèi)UDDI服務(wù)注冊中心查閱其他系統(tǒng)或資源的全局服務(wù)說明,與IIM建立連接并獲取數(shù)據(jù)。
數(shù)字圖書館的建設(shè)水平是圖書館現(xiàn)代化的重要標(biāo)志。本文依據(jù)自頂向下的理念,從“基于用戶信息服務(wù)”數(shù)字圖書館體系結(jié)構(gòu)中所需的信息集成技術(shù)出發(fā),針對集成過程存在的問題,提出一種基于XML和Web服務(wù)技術(shù)、復(fù)制集成和模式集成相結(jié)合的信息集成模型,給出了模型的體系結(jié)構(gòu),并闡述了模型的運行機理和運作方式。不同系統(tǒng)或資源之間的集成是一個復(fù)雜的問題,解決信息集成問題是一項艱巨的任務(wù)。本文提出的信息集成模型對數(shù)字圖書館建設(shè)具有一定的理論參考價值和實踐應(yīng)用價值,但在這個過程中仍有許多細(xì)致的問題有待于我們進一步地探索和完善。
[1]張曉林.數(shù)字圖書館機制的范式演變及其挑戰(zhàn)[J].中國圖書館學(xué)報,2001(6):3-8,17.
[2]卓文飛,潘淑娟.國內(nèi)外信息集成服務(wù)的發(fā)展與實踐[J].農(nóng)業(yè)圖書館情報學(xué)刊,2009(12):192-196.
[3]應(yīng)紅燕.Melinets書目系統(tǒng)與電子資源整合的實現(xiàn)技術(shù)[J].現(xiàn)代圖書情報技術(shù),2008(12):99-102.
[4]陳和,王爽.基于開源軟件實現(xiàn)館藏數(shù)字資源整合與統(tǒng)一檢索[J].現(xiàn)代圖書情報技術(shù),2009(6):70-75.
[5]黃婧,吳英梅,賈西蘭.自建資源與異構(gòu)系統(tǒng)集成實踐研究_以北京師范大學(xué)圖書館為例[J].現(xiàn)代圖書情報技術(shù),2010(11):75-78.
[6]張琳娜,王映輝.基于節(jié)點自治的分布式數(shù)據(jù)共享模型研究與應(yīng)用[J].計算機工程,2009,(3):32-35.
[7]張付志,巢進波.信息集成技術(shù)在數(shù)字圖書館中的應(yīng)用研究[J].計算機工程,2005(7):90-92.
[8]焦允.一種聯(lián)盟型圖書館域內(nèi)資源庫集成模型及其 XML Web Serices實現(xiàn)[J].圖書館雜志,2007(11):48-53.