洪 濤
關(guān)鍵詞:異構(gòu)數(shù)據(jù)庫(kù);資源數(shù)字化;圖書館;資源整合
摘 要:充分利用信息技術(shù)促進(jìn)數(shù)字資源整合是數(shù)字圖書館建設(shè)到一定階段出現(xiàn)的新任務(wù)。異構(gòu)資源整合是通過(guò)技術(shù)合力,將復(fù)雜轉(zhuǎn)變?yōu)楹?jiǎn)單,以實(shí)現(xiàn)數(shù)字圖書館建設(shè)的最優(yōu)目標(biāo)。
中圖分類號(hào):G250 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-1588(2009)06-0081-03
1 資源整合的數(shù)字化建設(shè)
數(shù)字化的圖書館本質(zhì)上就是一個(gè)集數(shù)據(jù)庫(kù)應(yīng)用平臺(tái)、信息資源電子商務(wù)平臺(tái)與資源數(shù)字化加工服務(wù)平臺(tái)于一體的巨大數(shù)據(jù)倉(cāng)庫(kù),以互聯(lián)網(wǎng)為平臺(tái),面向全球用戶提供基于內(nèi)容的服務(wù)。作為圖書館發(fā)展的方向,數(shù)字圖書館應(yīng)以統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范為基礎(chǔ)、以數(shù)字化的信息為底層、以分布式海量資源庫(kù)群為支撐、以智能檢索技術(shù)為手段、以電子商務(wù)為管理方式、以寬帶高速網(wǎng)絡(luò)為傳輸通道,將豐富多彩的多媒體信息傳遞到千家萬(wàn)戶。值得一提的是,圖書館的研究已經(jīng)從信息交流拓展到了數(shù)字化(異構(gòu))資源管理和信息服務(wù)領(lǐng)域。針對(duì)“如何提高讀者對(duì)于數(shù)字資源等訪問(wèn)率,如何提高資源對(duì)讀者的有效性,如何提高讀者的檢索效率”三個(gè)需求點(diǎn)來(lái)構(gòu)建我們圖書館基礎(chǔ)資源建設(shè)的全新模式。從圖書館發(fā)展趨勢(shì)來(lái)看,一是數(shù)字化。即圖書館所提供服務(wù)的文獻(xiàn)載體、手段、方式是數(shù)字化、網(wǎng)絡(luò)化的;二是結(jié)點(diǎn)化。即圖書館將以網(wǎng)站、五彩繽紛的網(wǎng)頁(yè)及豐富的內(nèi)容來(lái)吸引更多用戶的注意力和“點(diǎn)擊率”;三是特色化。即特色的館藏、專題數(shù)據(jù)庫(kù)、個(gè)性化的服務(wù),來(lái)滿足用戶特定的需求。
圖書館的總體目標(biāo)是使得在任何時(shí)間、任何地點(diǎn),每一個(gè)人都能方便快捷地獲取其需要的知識(shí)資源。圖書館必須要擁有數(shù)字資源,資源的組織、加工、管理構(gòu)成目前數(shù)字圖書館建設(shè)的核心內(nèi)容。凡引進(jìn)(包括購(gòu)買、租用和受贈(zèng))或自建(包括掃描、轉(zhuǎn)換和錄入)的,擁有磁、光介質(zhì)或網(wǎng)絡(luò)使用權(quán)的數(shù)字形態(tài)的文獻(xiàn)資源,均稱為圖書館的數(shù)字資源。根據(jù)目前圖書館的實(shí)際情況,數(shù)字資源劃分為四個(gè)種類:(1)電子書(包括學(xué)位論文及其他類似書的出版物)。(2)電子刊(包括其他類似刊的出版物)。(3)二次文獻(xiàn)數(shù)據(jù)庫(kù)(包括題錄、文摘、索引等)。(4)其他數(shù)據(jù)庫(kù)。因此,圖書館的數(shù)字化資源建設(shè)應(yīng)有4種類型。
1.1 資源型數(shù)據(jù)庫(kù)。資源型數(shù)據(jù)庫(kù)建設(shè)目標(biāo)就是引進(jìn)各種數(shù)字資源,提供用戶訪問(wèn)。它是一種基礎(chǔ)型的、也是最有成效的數(shù)字圖書館類型。數(shù)字資源的引進(jìn)是數(shù)字圖書館建設(shè)的第一階段,也是數(shù)字圖書館發(fā)展的關(guān)鍵階段。優(yōu)質(zhì)數(shù)字資源的大量引進(jìn)改變了讀者利用資源的方式,提高了資源利用效率,資源投入比例大大提高。資源型面臨的主要問(wèn)題是異構(gòu)數(shù)據(jù)庫(kù)資源的整合問(wèn)題。
1.2 特色型數(shù)據(jù)庫(kù)。和資源型不同,它的主要任務(wù)是建設(shè)特色數(shù)字資源。包括特色資源的選題規(guī)劃、元數(shù)據(jù)方案的規(guī)劃、存儲(chǔ)方案的規(guī)劃、系統(tǒng)的開(kāi)發(fā)或選型以及數(shù)據(jù)資源的收集、加工等。特色數(shù)字資源的加工是數(shù)字圖書館建設(shè)的第二階段。許多圖書館藏有大量的獨(dú)具特色的資源,這些資源往往跟當(dāng)?shù)氐臍v史、文化以及學(xué)科專業(yè)息息相關(guān),不但具有收藏價(jià)值,而且對(duì)推動(dòng)特色專業(yè)學(xué)科的研究與發(fā)展極具意義。
1.3 學(xué)科中心型資源數(shù)據(jù)庫(kù)。它是基于分布式環(huán)境的資源數(shù)據(jù)庫(kù),也是數(shù)字圖書館建設(shè)的第三個(gè)階段。學(xué)科資源中心是一個(gè)通過(guò)分布式環(huán)境,讓相關(guān)學(xué)科資源整合為一個(gè)整體,提供在某一個(gè)學(xué)科方向上完備、全面、及時(shí)的資源保障與服務(wù)。數(shù)字資源有成員館及多家協(xié)作單位在分布系統(tǒng)支持下共同加工制作完成,對(duì)特定學(xué)科研究所需資源提供完整、全面、及時(shí)的服務(wù)。既有傳統(tǒng)的特色資源,還有來(lái)源于Internet的動(dòng)態(tài)資源。充分發(fā)揮共建共享的優(yōu)勢(shì),是數(shù)字圖書館邁向知識(shí)服務(wù)的重要標(biāo)志。
1.4 研究和學(xué)習(xí)型數(shù)字資源。研究和學(xué)習(xí)型數(shù)字資源數(shù)據(jù)庫(kù)的建設(shè)也是數(shù)字圖書館建設(shè)的最后一個(gè)階段。它的內(nèi)容不但涵蓋上述三種數(shù)字圖書館的建設(shè)內(nèi)容,而且還包括基于網(wǎng)絡(luò)實(shí)時(shí)交互技術(shù)和支持網(wǎng)絡(luò)協(xié)作學(xué)習(xí)、研究的虛擬環(huán)境。如虛擬參考咨詢系統(tǒng),遠(yuǎn)程教學(xué)系統(tǒng),協(xié)作研究系統(tǒng)等。
2 異構(gòu)數(shù)據(jù)庫(kù)資源整合
這種整合方式其實(shí)是數(shù)據(jù)源整合的進(jìn)階,在國(guó)內(nèi)圖書館界較為流行。如北京大學(xué)圖書館、清華大學(xué)圖書館、上海交大圖書館、中科院文獻(xiàn)情報(bào)中心、華中科技大學(xué)圖書館等一些技術(shù)力量較為雄厚的圖書館都已經(jīng)開(kāi)發(fā)出這種異構(gòu)數(shù)據(jù)庫(kù)檢索平臺(tái),并已進(jìn)入試運(yùn)行階段。
理想的數(shù)字信息資源整合是把各種信息資源透明地?zé)o縫地聯(lián)在一起,融為一個(gè)有機(jī)的整體,讓用戶感覺(jué)是在一個(gè)資源系統(tǒng)中操作。經(jīng)過(guò)整合的資源可以充分發(fā)揮計(jì)算機(jī)和網(wǎng)絡(luò)的強(qiáng)大能力,使信息檢索效率大大提高。圖書館資源建設(shè)應(yīng)基本達(dá)到第三代數(shù)字圖書館發(fā)展的要求,即與多種異構(gòu)的信息提供系統(tǒng)無(wú)縫的信息服務(wù)視圖,提供跨平臺(tái)聯(lián)合檢索服務(wù)。異構(gòu)數(shù)據(jù)庫(kù)資源整合就是其中最為重要的衡量標(biāo)準(zhǔn)之一。
所謂的異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)是相關(guān)的多個(gè)數(shù)據(jù)庫(kù)系統(tǒng)的集合,可以實(shí)現(xiàn)數(shù)據(jù)的共享和透明訪問(wèn),每個(gè)數(shù)據(jù)庫(kù)系統(tǒng)在加入異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)之前本身就已經(jīng)存在。異構(gòu)數(shù)據(jù)庫(kù)的各個(gè)組成部分具有自身的自治性,實(shí)現(xiàn)數(shù)據(jù)共享的同時(shí),每個(gè)數(shù)據(jù)庫(kù)系統(tǒng)仍保有自己的應(yīng)用特性、完整性控制和安全性控制。對(duì)用戶而言,這些異構(gòu)數(shù)據(jù)庫(kù)是透明的,用戶所看到的只是一個(gè)簡(jiǎn)單明了的界面,不需要知道各數(shù)據(jù)庫(kù)不同的檢索方法,避免了需要逐個(gè)登錄數(shù)據(jù)庫(kù)、輸入檢索條件的麻煩,使用方便快捷,使用戶覺(jué)得就像在使用一個(gè)數(shù)據(jù)庫(kù)一樣。
以XML、RDF、Ontology等為基礎(chǔ)的新一代計(jì)算機(jī)技術(shù)為數(shù)字信息資源整合檢索提供了良好技術(shù)支持,代表著未來(lái)數(shù)字圖書館的發(fā)展方向,為圖書情報(bào)機(jī)構(gòu)展現(xiàn)了全新的發(fā)展領(lǐng)域,對(duì)現(xiàn)實(shí)的信息工作提供了有益的啟示。整合的技術(shù)思路在于建立統(tǒng)一的數(shù)據(jù)交換標(biāo)準(zhǔn)和接口,以保證異構(gòu)庫(kù)之間的透明訪問(wèn)。
2.1 建立引文鏈接
通過(guò)引文鏈接方式構(gòu)建知識(shí)信息之間的內(nèi)容關(guān)聯(lián),是深度開(kāi)發(fā)利用知識(shí)信息資源極為有效的手段。實(shí)現(xiàn)文獻(xiàn)之間的引文鏈接以后,用戶可以通過(guò)文獻(xiàn)之間的引證關(guān)系,直接從數(shù)據(jù)庫(kù)中得到引證線索和引用文獻(xiàn)的全文,使文獻(xiàn)的查準(zhǔn)率及速度大大提高。圖書館可以在有關(guān)的統(tǒng)一機(jī)構(gòu)(河南如Halis)的協(xié)調(diào)下,將各館的中外期刊目次庫(kù)、題錄庫(kù)、全文數(shù)據(jù)庫(kù)、書目數(shù)據(jù)庫(kù)等進(jìn)行引文鏈接,建立引用、被引關(guān)聯(lián),使用戶通過(guò)互聯(lián)網(wǎng)查詢存放在各圖書館網(wǎng)站上的引文鏈接數(shù)據(jù)庫(kù),通過(guò)文獻(xiàn)之間交錯(cuò)復(fù)雜的引用途徑在整個(gè)知識(shí)網(wǎng)絡(luò)中自由地漫游,從而最大限度地獲得相關(guān)知識(shí)信息。
2.2 研發(fā)知識(shí)元鏈接
知識(shí)本身就可以用文字給出一個(gè)簡(jiǎn)潔明確的描述。這種描述在數(shù)據(jù)庫(kù)中可以作為一種知識(shí)信息元素,即知識(shí)元,它不僅可以直接表述知識(shí)的內(nèi)容,也可以通過(guò)全文數(shù)據(jù)庫(kù)的索引技術(shù)將使用這一知識(shí)元的文獻(xiàn)關(guān)聯(lián)起來(lái)。將大量不斷更新、不斷出現(xiàn)的知識(shí)元建成知識(shí)元數(shù)據(jù)庫(kù),這樣產(chǎn)生的各種知識(shí)內(nèi)容之間的內(nèi)在網(wǎng)絡(luò)化關(guān)聯(lián),從而體現(xiàn)出各學(xué)科專業(yè)交叉滲透的關(guān)系特征。將知識(shí)元數(shù)據(jù)庫(kù)嵌入到各種數(shù)據(jù)庫(kù)當(dāng)中,它將把數(shù)據(jù)庫(kù)內(nèi)部和各數(shù)據(jù)庫(kù)之間的知識(shí)信息從內(nèi)容上緊密關(guān)聯(lián)起來(lái),并將通過(guò)文獻(xiàn)對(duì)知識(shí)發(fā)現(xiàn)的認(rèn)識(shí)過(guò)程,使所有數(shù)據(jù)庫(kù)在知識(shí)元數(shù)據(jù)庫(kù)這一網(wǎng)絡(luò)的支配下成為一個(gè)內(nèi)容高度關(guān)聯(lián)的有機(jī)的整體。用戶可以充分利用知識(shí)的內(nèi)在關(guān)系,提高查全率。
2.3 異構(gòu)資源統(tǒng)一檢索功能
2.3.1 瀏覽與檢索。系統(tǒng)應(yīng)提供主題樹(shù)等索引系統(tǒng),幫助用戶以瀏覽的方式選取合適的檢索詞進(jìn)行查詢。檢索應(yīng)包括簡(jiǎn)單和高級(jí)檢索。簡(jiǎn)單檢索應(yīng)包括自然語(yǔ)言、短語(yǔ)檢索及布爾算符、位置算符、截詞符和通配符等檢索。高級(jí)檢索應(yīng)提供多字段檢索和多種限制選項(xiàng)。同時(shí),系統(tǒng)還應(yīng)提供檢索策略的保存及定題跟蹤服務(wù),以方便用戶再次檢索。
2.3.2 用戶定制功能。系統(tǒng)應(yīng)提供特定的學(xué)科入口,把同一學(xué)科相關(guān)的數(shù)據(jù)庫(kù)整合在一起。同時(shí)應(yīng)提供可供跨庫(kù)檢索的數(shù)據(jù)庫(kù)列表,并允許用戶自由選擇和組合,一次檢索到相關(guān)數(shù)據(jù)庫(kù)的各種信息。
2.3.3 統(tǒng)計(jì)功能。數(shù)據(jù)庫(kù)使用數(shù)據(jù)是電子資源利用率的重要指標(biāo),因此跨庫(kù)檢索系統(tǒng)應(yīng)提供完善的統(tǒng)計(jì)功能,包括用戶利用跨庫(kù)檢索系統(tǒng)訪問(wèn)各數(shù)據(jù)庫(kù)的各種使用數(shù)據(jù),如訪問(wèn)各數(shù)據(jù)庫(kù)的登錄數(shù)、檢索次數(shù)、下載題錄文摘數(shù)、下載全文數(shù)等。并提供各時(shí)間段、各用戶IP或賬戶的統(tǒng)計(jì)。
2.3.4 數(shù)據(jù)間的連接。系統(tǒng)應(yīng)兼容CrossRef、OpenURL、SFX等數(shù)據(jù)庫(kù)無(wú)縫鏈接技術(shù)或標(biāo)準(zhǔn),使不同數(shù)據(jù)庫(kù)之間的各種記錄能互相鏈接。包括書目數(shù)據(jù)庫(kù)、文摘數(shù)據(jù)庫(kù)、全文數(shù)據(jù)庫(kù)中各種數(shù)據(jù)之間的互連。
2.3.5 數(shù)據(jù)的顯示與保存。系統(tǒng)應(yīng)對(duì)來(lái)源于不同數(shù)據(jù)庫(kù)的結(jié)果進(jìn)行融合,檢索結(jié)果輸出應(yīng)具備排序功能,如按日期、篇名、作者、相關(guān)性排序。檢索記錄應(yīng)可以打印、下載、Email發(fā)送。最好能兼容各種Citation Manager軟件,如Reference Manager、Endnote、Refworks等。
3 異構(gòu)資源整合的技術(shù)模式
面對(duì)當(dāng)前信息資源和網(wǎng)絡(luò)環(huán)境的復(fù)雜性,要實(shí)現(xiàn)解決異構(gòu)數(shù)據(jù)庫(kù)的跨庫(kù)檢索,傳統(tǒng)的DMBS(數(shù)據(jù)管理系統(tǒng))已經(jīng)很難解決。解決異構(gòu)數(shù)據(jù)庫(kù)問(wèn)題的目的是為圖書館綜合應(yīng)用系統(tǒng)提供集成的、統(tǒng)一的、安全的、快捷的信息查詢、數(shù)據(jù)挖掘和決策支持服務(wù)。為了滿足這個(gè)條件,整合、集成后的數(shù)據(jù)必須保證一定的集成性、完整性、一致性和訪問(wèn)安全性。主要包括以下相關(guān)技術(shù):
3.1 共網(wǎng)關(guān)接口技術(shù)CGI。利用CGI可實(shí)現(xiàn)Web與數(shù)據(jù)庫(kù)的連接。CGI(Common Gateway Interface)是最早的Web程序設(shè)計(jì)方式,它提供一個(gè)外部應(yīng)用程序與Web服務(wù)器交互的標(biāo)準(zhǔn)接口,遵循CGI標(biāo)準(zhǔn)編寫的Web服務(wù)器端的可執(zhí)行程序稱為CGI程序。CGI最大的優(yōu)勢(shì)之一是其與瀏覽Web站點(diǎn)的用戶之間的交互能力,使信息網(wǎng)關(guān)、反饋機(jī)制、訪問(wèn)數(shù)據(jù)庫(kù)、查詢等一系列靈活復(fù)雜的操作得以實(shí)現(xiàn)。
3.2 開(kāi)放式數(shù)據(jù)庫(kù)互連技術(shù)ODBC。它是Microsoft公司提供的標(biāo)準(zhǔn)的應(yīng)用程序接口。利用它可以實(shí)現(xiàn)一個(gè)應(yīng)用程序訪問(wèn)不同的數(shù)據(jù)源。ODBC數(shù)據(jù)源驅(qū)動(dòng)是實(shí)現(xiàn)ODBC驅(qū)動(dòng)來(lái)訪問(wèn)一個(gè)特定的數(shù)據(jù)源。ODBC屏蔽了底層數(shù)據(jù)庫(kù)系統(tǒng)的不同,數(shù)據(jù)開(kāi)發(fā)者可以直接利用sql語(yǔ)句實(shí)現(xiàn)對(duì)不同數(shù)據(jù)庫(kù)中數(shù)據(jù)的操縱。
3.3 JAVA數(shù)據(jù)庫(kù)互連技術(shù)JDBC。主要針對(duì)瀏覽器/服務(wù)器結(jié)構(gòu)的WEB數(shù)據(jù)庫(kù)。JDBC的出現(xiàn)是Java編程中最重大的突破之一,它使得Java程序與數(shù)據(jù)庫(kù)服務(wù)器的連接更加方便。與其他的數(shù)據(jù)庫(kù)存取技術(shù)相比,JDBC繼承了Java語(yǔ)言的所有特點(diǎn),不僅具有獨(dú)立于平臺(tái)運(yùn)行、面向?qū)ο?、?jiān)固性好的優(yōu)點(diǎn),而且具有多線程、內(nèi)置檢校器來(lái)防止病毒入侵等功能,更加適合網(wǎng)絡(luò)應(yīng)用。JDBC的這些特點(diǎn)也特別適合于實(shí)現(xiàn)對(duì)Web異構(gòu)數(shù)據(jù)庫(kù)的訪問(wèn)。JDBC是連接Internet上異構(gòu)數(shù)據(jù)庫(kù)的最好方法。
3.4 XML應(yīng)用技術(shù)。它是一種可以對(duì)信息進(jìn)行自我描述的語(yǔ)言,允許定義一套符合自己需要的標(biāo)記,作為信息傳輸?shù)妮d體。標(biāo)記用于界定內(nèi)容。XML語(yǔ)法允許自行定義任意復(fù)雜的標(biāo)記結(jié)構(gòu)。XML使用普通的文本,而不是二進(jìn)制的數(shù)據(jù)格式,因此具有跨平臺(tái)的優(yōu)點(diǎn)。XML的優(yōu)點(diǎn)在于:(1)規(guī)范、簡(jiǎn)單。XML文檔有一套嚴(yán)謹(jǐn)而簡(jiǎn)潔的語(yǔ)法結(jié)構(gòu)。這為XML解析器獲取文檔所含信息提供了前提。(2)可擴(kuò)展性。應(yīng)用者可以按照需求定義自己的標(biāo)記,而不像HTML一樣其標(biāo)記都是預(yù)先定義的。(3)自描述性。自描述性使其非常適用于不同應(yīng)用間的數(shù)據(jù)交換,而且這種交換是不以預(yù)先規(guī)定一組數(shù)據(jù)結(jié)構(gòu)定義為前提,因此具備很強(qiáng)的開(kāi)放性。(4)XML意義在于它可以把所有信息都存在于文檔中,采用HTTP的方式傳輸。因而,XML為異構(gòu)數(shù)據(jù)庫(kù)平臺(tái)在Web方式下的應(yīng)用提供了有利條件。
4 資源整合建設(shè)的人才保障。
人是知識(shí)經(jīng)濟(jì)的重要資源。知識(shí)經(jīng)濟(jì)時(shí)代是真正以人為本的時(shí)代,沒(méi)有出色的信息管理人才,就不會(huì)有出色的信息機(jī)構(gòu)。在網(wǎng)絡(luò)環(huán)境下,“館員·信息·網(wǎng)絡(luò)”三要素中,館員的地位可謂舉足輕重。要求館員應(yīng)是復(fù)合型人才,除了具有強(qiáng)烈的事業(yè)心、嚴(yán)謹(jǐn)?shù)墓ぷ鲬B(tài)度和開(kāi)拓進(jìn)取的創(chuàng)新精神外,圖書館的隊(duì)伍建設(shè),迫切需要三支學(xué)有專長(zhǎng)的技術(shù)隊(duì)伍:(1)善于加工書目和各種信息庫(kù)的數(shù)據(jù)加工隊(duì)伍。(2)懂得計(jì)算機(jī)、網(wǎng)絡(luò)、多媒體等現(xiàn)代技術(shù),熟練掌握文獻(xiàn)情報(bào)的收集、加工、整理、傳遞知識(shí)和技能,能開(kāi)展研究和開(kāi)發(fā)各種軟件的技術(shù)隊(duì)伍。(3)懂得信息分類,熟悉使用數(shù)據(jù)庫(kù)資源系統(tǒng),懂外文、善于導(dǎo)航的信息咨詢隊(duì)伍。同時(shí)要注意引進(jìn)和補(bǔ)充新型人才,特別是現(xiàn)代信息技術(shù)專門人才,從而培養(yǎng)建設(shè)一支學(xué)科專業(yè)結(jié)構(gòu)合理、一專多能、梯次發(fā)展的人才隊(duì)伍,為信息資源整合的數(shù)字化開(kāi)發(fā)建設(shè)和信息服務(wù)提供高質(zhì)量、高水平的人才保障。
參考文獻(xiàn):
[1] 曹玉霞.圖書館數(shù)字資源整合與管理[J].情報(bào)科學(xué),2003,(11).
[2] 趙洗塵.數(shù)字圖書館資源組織[J].圖書情報(bào)工作,2003,(3).
[3] 龔亦農(nóng).數(shù)字圖書館的資源整合[J]. 圖書情報(bào)工作,2005,(7).
[4] 馮琪等.異構(gòu)數(shù)據(jù)庫(kù)的連接[J].電腦與信息技術(shù),2003,(5).