孔 建
(黑龍江省科學(xué)技術(shù)情報研究院,哈爾濱 150028)
各種知識數(shù)據(jù)庫、數(shù)字圖書館、自建數(shù)據(jù)庫等電子信息資源豐富了人們的知識面,拓寬了讀者查找信息的途徑。數(shù)字資源的檢索系統(tǒng)之間存在著很大的差異,為了使用不同的檢索系統(tǒng),用戶需要花費一定的時間來適應(yīng)和熟悉。科研機構(gòu)和大學(xué)圖書館通常有幾十個甚至數(shù)百個數(shù)據(jù)庫可供選擇,研究人員在搜索信息時不僅要選擇與主題對應(yīng)的數(shù)據(jù)庫,還要了解每個數(shù)據(jù)庫中的搜索定義,熟悉每個數(shù)據(jù)庫中的接口規(guī)則[1]。
大多數(shù)文獻數(shù)據(jù)庫存在重復(fù)內(nèi)容,影響了用戶的檢索效率[2]。用戶搜索信息往往需要在好幾個數(shù)據(jù)庫中反復(fù)搜索,而數(shù)據(jù)庫中的大多數(shù)資源記錄是獨立的,其相關(guān)性并不高,因此很難在用戶網(wǎng)絡(luò)之間建立連接。人的知識系統(tǒng)是關(guān)聯(lián)的、互相影響的,數(shù)據(jù)庫系統(tǒng)中孤立的資源記錄無法反映相互關(guān)聯(lián)的知識需求。
跨庫檢索技術(shù)的應(yīng)用能夠解決以上問題,此技術(shù)已引起了廣泛關(guān)注,目前已開發(fā)出了各種相關(guān)的解決方案和跨數(shù)據(jù)庫檢索系統(tǒng)??鐢?shù)據(jù)庫檢索系統(tǒng)主要基于Web搜索代理模式,用戶通過搜索頁面發(fā)送搜索命令,資源主機指定數(shù)據(jù)庫來檢索經(jīng)由網(wǎng)站超文本傳輸協(xié)議的信息,每個數(shù)據(jù)庫的網(wǎng)站完成摘要后返回HTML[3]。這種方法可實現(xiàn)統(tǒng)一的跨數(shù)據(jù)庫檢索,但檢索緩慢,需要復(fù)雜的維護,數(shù)據(jù)編目缺乏統(tǒng)一標(biāo)準,難以擴展。
圖1 跨庫檢索基本原理Fig.1 Basic principle of cross-library retrieval
跨庫檢索(Cross-Database search)是指用戶使用多個分布式的異構(gòu)信息數(shù)據(jù)源做為最終檢索對象節(jié)點的一種文獻數(shù)據(jù)庫檢索系統(tǒng)。其提供一致的搜索界面,當(dāng)用戶輸入搜索命令查詢時,跨庫檢索系統(tǒng)會在不同的資源數(shù)據(jù)庫信息中查找數(shù)據(jù),統(tǒng)一顯示出搜索結(jié)果并排序??鐢?shù)據(jù)庫檢索系統(tǒng)提高了檢索資源的準確性和用戶訪問權(quán)限,增強了搜索資源數(shù)據(jù)庫的效率和資源廣度。
目前,國內(nèi)外已開發(fā)出了較多成熟的跨庫檢索系統(tǒng),1998年,美國洛斯阿拉莫斯國家實驗室開發(fā)完善了跨庫檢索系統(tǒng)FlashPoint。美國加利福尼亞大學(xué)的數(shù)字圖書館開發(fā)了跨庫檢索系統(tǒng)SearchLight。我國也自主開發(fā)了跨庫檢索系統(tǒng)[4]:清華同方在數(shù)字圖書館管理系統(tǒng)中使用了自主開發(fā)的異構(gòu)數(shù)據(jù)庫,提供了統(tǒng)一的檢索平臺USP(UnionSearchPlatform)。USP是基于智能網(wǎng)絡(luò)數(shù)據(jù)庫的跨庫檢索平臺,用戶可通過文獻檢索界面,實現(xiàn)跨多個文獻信息數(shù)據(jù)庫的搜索,對分布在網(wǎng)絡(luò)上的各種檢索工具進行智能集成。
中國科學(xué)院文獻信息中心實施的中國國家科學(xué)數(shù)字圖書館(CSDL)項目,研發(fā)了CSDL集成檢索系統(tǒng)。此系統(tǒng)于2003年由CSDL開發(fā)并投入使用,CSDL的跨庫檢索系統(tǒng)已整合了不同來源和結(jié)構(gòu)的6大類近100種數(shù)據(jù)資源,包括全文數(shù)據(jù)庫、摘要索引數(shù)據(jù)庫、電子書資源、無網(wǎng)絡(luò)資源、國內(nèi)外OPAC關(guān)鍵資源及通用目錄資源。
但是,以上的跨庫檢索系統(tǒng)存在著一些問題,如工作效率不高,沒有公開的數(shù)據(jù)共享接口,復(fù)雜的結(jié)構(gòu)難以維持,相關(guān)數(shù)據(jù)描述不通用等,很難進行多個數(shù)據(jù)庫之間的信息交換。
跨庫檢索系統(tǒng)提供了一個統(tǒng)一的搜索界面,以多分布的、異構(gòu)數(shù)據(jù)源為對象,按照不同的數(shù)據(jù)源特性為用戶搜索,將其處理成相應(yīng)的搜索表達式,再發(fā)送到各數(shù)據(jù)源來檢索數(shù)據(jù),待搜索結(jié)果返回、去重、排序等操作后,為用戶呈現(xiàn)出最終信息。
網(wǎng)上各種數(shù)據(jù)庫資源的分布是異構(gòu)的,具有獨特的登錄認證、不同的頁面布局、各種文件格式,會給讀者使用資源造成一定的困難??鐜鞕z索技術(shù)可縮短人們獲取文獻所花費的時間,促進資源共享,提高科技文獻資源的利用率。
傳統(tǒng)的C/S模式需要客戶安裝軟件,初次使用系統(tǒng)的用戶操作起來較為煩瑣。因此,跨庫檢索系統(tǒng)采用B/S模式設(shè)計,主要包括以下幾部分:一是身份注冊認證模塊。用以核實身份,區(qū)分授權(quán)用戶與非授權(quán)用戶,分配相應(yīng)的權(quán)限。二是檢索模塊。作為核心,用戶可以自由匹配搜索條件,可以按照標(biāo)題、作者、時間檢索其他項目,也可以選擇一些資源對象的檢索,檢索文檔類型可以指定,還可以讓用戶使用自定義的搜索界面。三是資源管理模塊。允許系統(tǒng)管理員添加或配置各類數(shù)據(jù)庫,以支持跨數(shù)據(jù)庫檢索系統(tǒng)資源。四是管理用戶信息的模塊。包括信息管理、搜索歷史。
元搜索引擎是一種調(diào)用其他獨立搜素引擎的引擎,即通過用戶界面幫助用戶選擇和使用適當(dāng)?shù)乃阉饕?,在多個搜索引擎中實現(xiàn)搜索操作,其基于全球分布網(wǎng)絡(luò)對各種搜索工具進行控制[5]。
元搜索引擎具有以下特點:一是搜索提交后訪問的數(shù)據(jù)庫轉(zhuǎn)為多個。這些多個數(shù)據(jù)庫皆為異構(gòu),它們部署在不同的存儲器內(nèi),并使用各自單獨的檢索引擎。元搜索引擎用戶發(fā)送的搜索指令被搜索引擎發(fā)送到多個數(shù)據(jù)庫執(zhí)行并搜索,用戶可以通過單一的搜索指令來統(tǒng)一檢索多個數(shù)據(jù)庫的搜索引擎。不同的索引數(shù)據(jù)庫有著不同的要求,搜索引擎針對使用者提交的搜索要求,進行匹配轉(zhuǎn)換。二是通過深度分析搜索引擎來得到信息。雖然元搜索引擎的最終結(jié)果是基于各單獨搜索引擎得到的數(shù)據(jù),但它需要對各獨立的搜索引擎數(shù)據(jù)結(jié)果進行深入分析,如重復(fù)數(shù)據(jù)消除、合成、排序等。三是標(biāo)記記錄。每個記錄皆由搜索引擎源碼標(biāo)出,每個記錄的源碼都會標(biāo)注清楚來源等。總結(jié)跨數(shù)據(jù)庫的搜索結(jié)果,記錄每個數(shù)據(jù)庫的連接。
元搜索引擎存在著一些問題,即如何調(diào)用另一個文獻數(shù)據(jù)庫掛載搜索引擎的索引數(shù)據(jù)庫,在其他搜索引擎中獲取查詢結(jié)果,并對結(jié)果進行評估、排序和呈現(xiàn)。為了解決這些問題,采用了用戶自主提交、判斷搜索結(jié)果的輸出,深度優(yōu)化檢索機制的設(shè)計及加強分布式文獻數(shù)據(jù)庫的調(diào)用等技術(shù)[6]。
元搜索引擎通常調(diào)用單獨的搜索引擎結(jié)果頁面,無須在單獨搜索引擎的索引數(shù)據(jù)庫交換文獻數(shù)據(jù)信息。但在早期開發(fā)元搜索引擎時,需要通過數(shù)據(jù)庫驗證方式訪問單獨搜索引擎,其調(diào)用多個數(shù)據(jù)庫來源時要考慮其合法性及相應(yīng)的搜索引擎索引數(shù)據(jù)庫處理查詢。不同的數(shù)據(jù)商為各個搜索引擎提供相關(guān)資源時,往往有不同的訪問方式來對其數(shù)據(jù)進行檢索,所以需要用一種相對的分布式對象技術(shù)。為了實現(xiàn)元搜索引擎對數(shù)據(jù)搜索的要求,通常會并發(fā)訪問每個數(shù)據(jù)庫獨立的檢索引擎,需要等待全部搜索引擎將搜索結(jié)果提交匯總并得出結(jié)果。每個搜索引擎返回的時間不同,搜索的結(jié)果也不一致,這對元搜索引擎檢索完成有所影響。
數(shù)據(jù)集成是集成所有記錄的匯總信息資源數(shù)據(jù)庫,將其納入到跨庫檢索系統(tǒng)的數(shù)據(jù)庫中。使用者使用檢索系統(tǒng)來搜索數(shù)據(jù),檢索程序在本地檢索到的數(shù)據(jù)與基于元搜索引擎檢索到的數(shù)據(jù)相比,其檢索效率得到了提升。文獻數(shù)據(jù)資源原文的獲取一般采用以下兩種方式:一是專業(yè)文獻數(shù)據(jù)庫。其通常需要付費,針對有需求的用戶群。其擁有的付費專業(yè)數(shù)據(jù)庫資源會提供相關(guān)文獻摘要信息,將其導(dǎo)入目錄跨庫檢索系統(tǒng)相應(yīng)的資源條件下??鐜鞕z索系統(tǒng)在信息檢索時,使用者需要提交查看全文的請求,獲得相應(yīng)的資源數(shù)據(jù)庫提供的鏈接。二是其他文獻數(shù)據(jù)庫。其原始數(shù)據(jù)不由數(shù)據(jù)庫供應(yīng)商提供,可以使用Web爬蟲程序分析所有的數(shù)據(jù),總結(jié)資源網(wǎng)站,將其引入跨庫檢索系統(tǒng)記錄中。文獻信息資源都保存在本地數(shù)據(jù)庫中,當(dāng)用戶提交檢索時,是在自由數(shù)據(jù)庫中搜索,因此,該方法與元搜索引擎相比,文獻資源集成方法無法反映其相關(guān)變化。
中間件技術(shù)是為了使用戶在進行跨庫檢索時,通過調(diào)用數(shù)據(jù)庫中的技術(shù)令各獨立數(shù)據(jù)庫全部參與檢索,不需要對原文獻數(shù)據(jù)做詳細概述。中間件技術(shù)將用戶不同文獻的檢索數(shù)據(jù)轉(zhuǎn)化為相應(yīng)的對象要求,通過數(shù)據(jù)訪問接口提供一個資源對象,返回給用戶實時訪問并整合結(jié)果。其最大的優(yōu)點是實時,當(dāng)資源對象的數(shù)據(jù)發(fā)生變化時,對象發(fā)送的檢索需求可以得到及時的反饋。其文本由文獻資源通過中間件來遞交,不需要去指定數(shù)據(jù)庫提供方下載,其唯一的要求是,原數(shù)據(jù)庫提供方需要用戶提供正確的訪問接口。各種數(shù)據(jù)庫因文件索引的數(shù)量不同,檢索技術(shù)平臺也不盡相同,這對檢索速度產(chǎn)生了影響,會影響整體檢索時間?;谥虚g件的檢索模式如圖2。
圖2 基于中間件的檢索模式Fig.2 Retrieval mode based on middleware
目前比較流行的中間件技術(shù)有公共網(wǎng)關(guān)接口,此技術(shù)是基于外部的應(yīng)用程序(CGI程序)與Web服務(wù)器兩者中通信的接口標(biāo)準,在CGI程序與Web服務(wù)器之間相互發(fā)送信息的一種方式。CGI中使用的程序規(guī)范允許Web服務(wù)器在執(zhí)行時使用外部程序,將外部程序的相應(yīng)信息反饋到Web瀏覽器,公共網(wǎng)管接口可以將Web的超文本文檔轉(zhuǎn)化為一個交互式媒體。
建立區(qū)域性共享的科技文獻信息資源共享服務(wù)系統(tǒng)是服務(wù)于科技創(chuàng)新體系的關(guān)鍵。目前,科研院所及院校圖書館使用的文獻信息資源系統(tǒng)過于分散,各檢索界面不統(tǒng)一,過程煩瑣,反應(yīng)緩慢。基于此,分析了各類文獻信息資源的特點,建立了基于元數(shù)據(jù)的跨庫檢索系統(tǒng),使用戶能夠在單一界面自定義檢索資源。此方法檢索方式靈活,結(jié)果反應(yīng)迅速?;谠阉饕妗?shù)據(jù)集成及中間件技術(shù),從語義、結(jié)構(gòu)、句法三個方面定義了元數(shù)據(jù)的框架結(jié)構(gòu),分析了跨庫檢索系統(tǒng)元數(shù)據(jù)規(guī)范的設(shè)計要求。未來,跨庫檢索系統(tǒng)還需要提供鏈接到原始的源文件,以滿足用戶需求。