□朱本軍
早期圖書館的數(shù)字資源建設(shè)思路,一般是根據(jù)擬建資源的類型開發(fā)出一套完整的資源管理和發(fā)布系統(tǒng):后臺著錄與管理界面+數(shù)據(jù)庫+前端讀者檢索界面。隨著數(shù)字資源類型和用途的越來越多,圖書館資源系統(tǒng)也越來越多,除了本地書目系統(tǒng)和本地數(shù)字館藏(如學(xué)位論文、古籍等),還有大量期刊數(shù)據(jù)庫。據(jù)不完全統(tǒng)計,高校圖書館目前擁有的資源發(fā)布系統(tǒng)包括:
●圖書館網(wǎng)站:1個或多個,如門戶、圖書館博客等;
●本地書目系統(tǒng):1個,如自動化集成系統(tǒng);
●本地數(shù)字館藏系統(tǒng):1個或多個,如學(xué)位論文、古籍(多個);
●本地或遠程電子書系統(tǒng):1個或多個,如方正電子書、NetLibrary等;
●商業(yè)數(shù)據(jù)庫:幾十個至幾百個不等,如Pro-Quest、EBSCO、JSTOR、中國期刊網(wǎng)、維普數(shù)據(jù)庫等。
各類資源呈分布式異構(gòu)發(fā)展,系統(tǒng)之間差別較大:大多數(shù)系統(tǒng)基本上都是獨立的系統(tǒng),數(shù)據(jù)不能被其他系統(tǒng)調(diào)用;各系統(tǒng)用不同程序語言(如JAVA、PHP、C等)開發(fā);各系統(tǒng)在內(nèi)容、結(jié)構(gòu)、服務(wù)方式和管理策略上各不相同;各個系統(tǒng)的元數(shù)據(jù)著錄格式也各不相同,有自定義的(多見于本地自建資源系統(tǒng))、有遵循區(qū)域規(guī)范的(如CALIS元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范、CNMARC、USMARC等)、有遵循行業(yè)規(guī)范的(如用于圖書在線交換的ONIX標(biāo)準(zhǔn))等。由于各系統(tǒng)分布式異構(gòu),很難將所有的資源整合在一起揭示,給圖書館用戶帶來了諸多額外負擔(dān)[1]:增加用戶選擇和熟悉各資源分布的時間;各資源系統(tǒng)內(nèi)容交叉重復(fù),增加了讀者信息鑒別和去重的時間;各資源系統(tǒng)之間數(shù)據(jù)的關(guān)聯(lián)度低,增加用戶知識銜接的負擔(dān)。如何快速有效查找和利用圖書館的數(shù)字資源是圖書館一直面臨的重要課題。
本文在對圖書館學(xué)術(shù)資源檢索模式進行回顧的基礎(chǔ)上,評介一種基于索引的學(xué)術(shù)資源搜索引擎及其工作模式?;谡纤饕膶W(xué)術(shù)搜索引擎較好地解決了資源查找效率和顯示的問題,是下一代圖書館學(xué)術(shù)資源檢索的趨勢。為使讀者深刻理解這種基于索引的學(xué)術(shù)搜索引擎,本文對常見的三個典型代表SUMMON、Google Scholar和SCIRUS進行案例分析和研究。
本地獨立資源管理與發(fā)布系統(tǒng)可能在功能上有的復(fù)雜有的簡單,有的也有API數(shù)據(jù)接口,它們有大致相同的系統(tǒng)架構(gòu):元數(shù)據(jù)著錄與后臺管理+數(shù)據(jù)庫+用戶檢索界面。這樣的系統(tǒng)目前在圖書館分布非常普遍,典型的例子如圖書館自動化集成系統(tǒng)、方正學(xué)位論文系統(tǒng)、圖書館門戶等。
本地獨立資源管理與發(fā)布系統(tǒng)的檢索模式有兩種:一是實時檢索數(shù)據(jù)庫(如圖1)。這種檢索模式一般在數(shù)據(jù)量比較小的情況下使用。這種實時檢索數(shù)據(jù)庫模式的缺點非常明顯:在數(shù)據(jù)量非常大的情況下,查詢響應(yīng)的效率非常低。以圖書館的自動化集成系統(tǒng)為例,一般擁有幾十萬甚至上百萬條書目記錄,如果采用實時檢索數(shù)據(jù)庫的方式,每一次顯示結(jié)果,需要幾秒、十幾秒的等待時間。
圖1 實時檢索數(shù)據(jù)庫模式
在數(shù)據(jù)量比較大的情況下,一般采用第二種方式:數(shù)據(jù)庫本地索引模式(如圖2)。這種模式的工作機制是:在檢索之前對系統(tǒng)數(shù)據(jù)庫關(guān)鍵詞做索引,索引后每秒可以檢索幾百萬條數(shù)據(jù),大大提高查詢和使用圖書館資源的效率。各高校使用的自動化集成系統(tǒng),大部分都采用了這種模式。
圖2 本地數(shù)據(jù)庫索引模式
隨著圖書館資源越來越多,圖書館的資源系統(tǒng)更多呈分布式發(fā)展:每個圖書館都有十幾個甚至幾十個資源系統(tǒng)的檢索入口。分布式資源系統(tǒng)增加了用戶選擇和熟悉各資源分布情況的負擔(dān),并且各資源系統(tǒng)本身也存在內(nèi)容交叉重復(fù),各資源系統(tǒng)之間數(shù)據(jù)的關(guān)聯(lián)度低的狀況,不利于圖書館資源的綜合利用。圖書館開始考慮以單一檢索入口檢索分布在圖書館的所有學(xué)術(shù)資源的方式,比較典型且在圖書館應(yīng)用廣泛的例子是利用聯(lián)邦檢索系統(tǒng)檢索商業(yè)數(shù)據(jù)庫。
聯(lián)邦檢索,有時稱為整合檢索、元搜索、同步檢索、跨庫檢索、并行檢索或廣播檢索,包含三個過程(如圖3)[2]:(1)用戶發(fā)出查詢請求,聯(lián)邦檢索引擎對查詢請求進行語法轉(zhuǎn)換,然后廣播到各數(shù)據(jù)庫檢索引擎;(2)各數(shù)據(jù)庫檢索引擎將查詢到的結(jié)果反饋給聯(lián)邦檢索系統(tǒng),聯(lián)邦檢索系統(tǒng)對反饋的結(jié)果進行合并、查重等實時處理;(3)將處理后的結(jié)果集以一種簡潔、統(tǒng)一的格式展現(xiàn)在結(jié)果頁面。
圖3 分布式資源聯(lián)邦檢索模式
聯(lián)邦檢索的前提是每個資源系統(tǒng)都有一個本地搜索引擎,聯(lián)邦檢索將各個本地搜索引擎整合在一起而不管資源系統(tǒng)本身的架構(gòu),因此聯(lián)邦檢索可以將異構(gòu)和同構(gòu)的資源系統(tǒng)整合在一起。應(yīng)用聯(lián)邦檢索系統(tǒng),圖書館不僅可以整合檢索電子期刊商業(yè)數(shù)據(jù)庫(如JSTOR、EBSCO、ProQuest等商業(yè)數(shù)據(jù)庫),還可以整合檢索本地館藏目錄、本地數(shù)字館藏(如學(xué)位論文、特藏庫等)等。
雖然聯(lián)邦檢索解決了圖書館分布式異構(gòu)系統(tǒng)通過同一入口揭示所有學(xué)術(shù)資源的問題,但是也有很多問題:
一是檢索速度受網(wǎng)絡(luò)、聯(lián)邦檢索服務(wù)器性能和數(shù)據(jù)源服務(wù)器性能影響較大。檢索時間包含廣播查詢語句到各搜索引擎的時間、數(shù)據(jù)源服務(wù)器處理查詢請求的時間、各資源系統(tǒng)返回查詢結(jié)果的響應(yīng)時間和在聯(lián)邦檢索服務(wù)器上對查詢結(jié)果進行查重等處理的時間。這些時間又受到網(wǎng)絡(luò)連接速度、聯(lián)邦檢索服務(wù)器和數(shù)據(jù)源服務(wù)器性能的影響。
二是檢索結(jié)果集比較淺,且是偏態(tài)的。由于返回和檢索時間比較長,為減少用戶等待時間,聯(lián)邦檢索系統(tǒng)會先從各個資源系統(tǒng)返回少數(shù)結(jié)果。這種結(jié)果并不是對所有資源綜合計算后的結(jié)果,而是按照返回的時間順序給出的結(jié)果。
三是對結(jié)果集很難進行組織和相關(guān)度排序。主要是因為檢索返回的結(jié)果都是動態(tài)的。
為了進一步提升資源檢索效率,圖書館采用了另外一種方式:本地索引和聯(lián)邦檢索相結(jié)合的混合模式?;旌蠙z索比較典型的產(chǎn)品,如下一代圖書館目錄Primo、Encore、AquaBrowser等。它們可以通過一個統(tǒng)一的、帶不同標(biāo)簽可切換的檢索入口(如圖4)完成本地資源和遠程資源的檢索:當(dāng)用戶要檢索圖書館本地資源時,只需要切換到搜索框上面的“本地館藏”標(biāo)簽即可;當(dāng)用戶要檢索遠程的商業(yè)數(shù)據(jù)庫時,則切換到“數(shù)據(jù)庫”標(biāo)簽即可。
圖4 混合檢索用戶界面
混合檢索的實現(xiàn)機制(如圖5)是:將圖書館本地的所有資源,包括本地館藏目錄、本地數(shù)字館藏(如機構(gòu)庫、特藏庫等)進行統(tǒng)一索引;而對分布在遠程的商業(yè)數(shù)據(jù)庫仍然實現(xiàn)聯(lián)邦檢索。混合檢索模式解決了圖書館本地所有資源快速響應(yīng)和結(jié)果集組織與顯示的問題,但對于遠程商業(yè)數(shù)據(jù)庫仍然不得不采用聯(lián)邦檢索模式。
圖5 混合檢索模式
混合檢索模式雖然解決了用戶單一資源檢索入口的問題和本地資源集中快速訪問的問題,但是仍然沒有解決聯(lián)邦檢索中遠程數(shù)據(jù)庫檢索和獲取慢、相關(guān)度不高和結(jié)果集排列混亂的問題。
下一代圖書館的學(xué)術(shù)資源搜索引擎,采用本地數(shù)據(jù)和遠程數(shù)據(jù)統(tǒng)一集中索引的方式達到對圖書館全部學(xué)術(shù)資源整合檢索的目的(圖6)。
在這種模式下,圖書館擁有和使用的所有學(xué)術(shù)資源(包括元數(shù)據(jù)、文章全文)在提供用戶檢索之前,全部被提前處理成規(guī)范的、結(jié)構(gòu)化的XML數(shù)據(jù)。此外,還在XML數(shù)據(jù)的基礎(chǔ)上進行查重、FRBR、內(nèi)容增強(將其他網(wǎng)站的數(shù)據(jù)整合到單條記錄中豐富記錄信息,如封面、目錄等)等處理,最后集中索引形成一個龐大的索引數(shù)據(jù)庫。
圖6 下一代圖書館學(xué)術(shù)資源聯(lián)合索引檢索模式
經(jīng)過查重、FRBR和內(nèi)容增強等處理后的索引庫,不僅解決了資源重復(fù)、不同版本多條顯示、記錄信息量少的問題,而且可以每秒幾百萬條記錄的速度提供實時查詢響應(yīng)。除此以外,由于數(shù)據(jù)通過XML進行了非常好的結(jié)構(gòu)化組織,資源和資源之間可以形成某種關(guān)聯(lián),結(jié)果集也可以通過web2.0技術(shù)得到非常好的組織和排列。
基于索引的圖書館學(xué)術(shù)資源整合檢索模式,很早就在各大型商業(yè)數(shù)據(jù)庫中使用,如美國的洛斯阿拉莫斯國家實驗室(Los Alamos National Laboratory)、加拿大多倫多大學(xué)(the University of Toronto)、丹麥技術(shù)知識中心(the Technical Knowledge Center of Denmark)、德國的馬克思普蘭克學(xué)會(the Max Planck Society)等,它們都提供了存儲在本地的大量電子期刊檢索服務(wù),用戶只要在檢索界面輸入關(guān)鍵詞,很快就能獲得相關(guān)文章的全文鏈接[3]。
這種基于學(xué)術(shù)資源索引模式的產(chǎn)品趨于成熟,并于最近幾年在圖書館相關(guān)行業(yè)被廣泛使用。比較典型的例子,如專用于科學(xué)信息檢索的SCIRUS[4]、Google Scholar學(xué)術(shù)搜索引擎[5],圖書館系統(tǒng)提供商360Serials Solution公司的SUMMON產(chǎn)品、Innovative公司的Encore Synergy[6]、EBSCO Host公司的EDS(EBSCO Discovery Service)產(chǎn)品,以及Ex Libris公司的Primo Central產(chǎn)品。下面對Google Scholar學(xué)術(shù)搜索、SUMMON和SCIRUS三個產(chǎn)品進行案例研究,以便對基于索引的搜索模式有更深入的了解。
Google Scholar學(xué)術(shù)搜索于2004年10月面世。自其推出以來,即受到教育和學(xué)術(shù)科研機構(gòu)的青睞。
Google Scholar學(xué)術(shù)搜索引擎本質(zhì)上是在學(xué)術(shù)資源索引庫的基礎(chǔ)上架設(shè)一個Google搜索引擎(如圖7)。其中Google搜索引擎采用了Google公司專有的PageRank相關(guān)度頁面排序技術(shù),返回的結(jié)果帶有引文信息、版本信息等學(xué)術(shù)信息。其學(xué)術(shù)資源索引庫集中了大量的各類學(xué)術(shù)資源,包括普通網(wǎng)頁中的學(xué)術(shù)論文、同行評議文章、學(xué)位論文、圖書、預(yù)印本、文摘、技術(shù)報告等學(xué)術(shù)文獻,文獻來源于學(xué)術(shù)出版物、專業(yè)學(xué)會、預(yù)印本庫、大學(xué)機構(gòu),內(nèi)容從醫(yī)學(xué)、物理學(xué)到經(jīng)濟學(xué)、計算機科學(xué)等橫跨多個學(xué)術(shù)領(lǐng)域[7]。
圖7 Google Scholar學(xué)術(shù)搜索
Google Scholar學(xué)術(shù)資源索引庫中的數(shù)據(jù)大致有如下幾個方面的來源[8]:一是Google爬蟲搜集到的網(wǎng)上免費的學(xué)術(shù)資源,包括已經(jīng)發(fā)表的論文、論文的預(yù)印本、工作報告、會議論文、調(diào)研報告等有學(xué)術(shù)價值的文獻。二是開放獲取的期刊網(wǎng)站,如英國牛津大學(xué)出版社、斯坦福大學(xué)的High Wire出版社出版的學(xué)術(shù)期刊,大部分已被Google Scholar所涵蓋。三是付費電子資源提供商,通過與Google Scholar合作向Google Scholar提供電子數(shù)據(jù)庫的元數(shù)據(jù)和摘要。四是圖書館鏈接,Google Scholar通過向圖書館發(fā)出免費鏈接邀請,讓圖書館提供本地學(xué)術(shù)資源數(shù)據(jù),并提供面向這些圖書館資源的鏈接和查詢。五是OCLC提供的書目數(shù)據(jù)[9]。
SCIRUS是一個由Elsevier Science開發(fā),比Google Scholar更早利用學(xué)術(shù)資源索引庫的大型搜索引擎。SCIRUS與Google Scholar的不同之處在于SCIRUS專門提供科學(xué)信息的檢索。
圖8 SCIRUS科學(xué)信息搜索引擎
SCIRUS涵蓋的資源的主要來源:一是SCIRUS爬蟲,搜集各與科學(xué)相關(guān)的網(wǎng)站和文檔,并對這些網(wǎng)站進行深度索引。從其官方資料中了解到其資源主要來自互聯(lián)網(wǎng),目前涵蓋3.8億個與科學(xué)相關(guān)的網(wǎng)站,包括:1.26億.edu站點、0.4億個.org站點、0.2億個.ac.uk站點、0.38億.com 站點、0.38億個.gov站點和1.18億其他相關(guān)科技與社會研究及大學(xué)網(wǎng)站[10]。二是出版商,如 NASA、BioMed、ScienceDirect、Royal Society Publishing 等[11]。三是圖書館鏈接,接受來自世界各地的圖書館鏈接[12]。所有這些科技信息網(wǎng)站的索引信息,包括文章、電子印本、同行評價文章、專利、文檔、期刊文章等[13]。
SCIRUS的工作機制(如圖8):首先將不同來源的資源進行索引,形成SCIRUS科學(xué)資源索引庫;然后提供SCIRUS專有的搜索引擎界面。
SUMMON是360Serials Solution公司推出的一款數(shù)據(jù)服務(wù)類產(chǎn)品,于2009年1月面世,同年7月開始在全球范圍銷售。目前已有一些大學(xué)圖書館用戶,如密歇根州州立大河谷大學(xué)圖書館[14]、悉尼大學(xué)圖書館[15]、西悉尼大學(xué)圖書館[16]等。
SUMMON的原理是提供一種數(shù)據(jù)服務(wù)(如圖9),將不同來源的學(xué)術(shù)資源和摘要集中索引成一個索引數(shù)據(jù)庫,并提供開放的API數(shù)據(jù)接口供其他系統(tǒng)調(diào)用。不過,為了更好地利用數(shù)據(jù)、推廣SUMMON,360Serials Solution公司在推出SUMMON產(chǎn)品的時候在學(xué)術(shù)資源索引庫上架設(shè)了一個用戶界面。用戶界面使用的是一款開源全文搜索引擎Lucene/SOLR,學(xué)術(shù)資源索引數(shù)據(jù)庫是對360Serials Solution擁有或與其有合作關(guān)系的數(shù)據(jù)庫提供商提供的所有資源的元數(shù)據(jù)、摘要甚至全文的索引。
圖9 SUMMON數(shù)據(jù)服務(wù)
SUMMON的學(xué)術(shù)資源索引的涵蓋范圍可以包括圖書館本地書目記錄、電子期刊文章、數(shù)據(jù)庫、報紙文章、電子書、學(xué)位論文、機構(gòu)庫、會議文集、灰色文獻、引文、報告和數(shù)字圖書館[17]。索引數(shù)據(jù)主要有兩個來源:一是付費數(shù)據(jù)庫提供商,通過與內(nèi)容提供商簽署合作協(xié)議來達成,主要是期刊和報紙出版商、電子書出版商和第三方整合者[18];二是購買SUMMON產(chǎn)品的圖書館提交的本地資源,包括本地書目記錄、本地數(shù)字館藏和圖書館其他愿意通過SUMMON揭示的資源。
從對圖書館學(xué)術(shù)搜索的三種模式的歷史回顧,以及對三個學(xué)術(shù)資源搜索引擎的案例研究中,可以看出下一代圖書館學(xué)術(shù)資源搜索引擎在搜索模式上并沒有特別創(chuàng)新之處,主要是觀念上的變化:從把搜索系統(tǒng)整合在一起的聯(lián)邦檢索,轉(zhuǎn)向把數(shù)據(jù)整合在一起,將數(shù)據(jù)作為一種服務(wù),提供面向服務(wù)的索引數(shù)據(jù)。
基于索引的服務(wù)模式,不僅解決了單一搜索框高效快速檢索圖書館所有本地和遠程分布式異構(gòu)學(xué)術(shù)資源的問題,而且還通過提供標(biāo)準(zhǔn)化、結(jié)構(gòu)化的XML數(shù)據(jù)解決了結(jié)果集的組織和排列問題。這種基于索引的搜索服務(wù)將會成為目前和未來圖書館學(xué)術(shù)資源搜索的主流模式。這也是本文采用“下一代”這個詞的主要原因。
1 李書寧.數(shù)字圖書館跨庫檢索技術(shù)研究.數(shù)字圖書館論壇,2005(2):6-9
2 Péter Jacsó.Thoughts About Federated Searching.Information Today,2004,21(9):17
3 Tamar Sadeh.Google Scholar Versus Metasearch Systems.High Energy Physics Libraries Webzine,2006(12).[2010-06-04].http://library.web.cern.ch/library/Webzine/12/papers/1/
4 SCIRUS.[2010-06-04].http://www.scirus.com
5 Google Scholar.[2010-05-31].http://scholar.google.com
6 Innovative Launches Encore Synergy.[2010-10-04].http://encoreforlibraries.com/2010/04/16/innovative-launches-encore-synergy
7 關(guān)于Google學(xué)術(shù)搜索.[2010-06-04].http://scholar.google.com/intl/zh-CN/scholar/about.html
8 段其憲.Google Scholar成功特性分析.現(xiàn)代情報,2007(7):221
9 Norman Oder.So,Can Google Use OCLC Records?Yes,But.[2010-06-03].http://www.libraryjournal.com/article/CA6695887.html
10 The Range of Scientific Content Scirus Covers.[2010-06-04].http://scirus.com/srsapp/aboutus/#range
11 More About Scirus Information Sources.[2010-06-04].http://scirus.com/srsapp/aboutus/#sources
12 About Scirus Library Partners.[2010-06-04].http://scirus.com/srsapp/librarypartners/
13 About Scirus.[2010-06-04].http://www.scirus.com/srsapp/aboutus/
14 Grand Valley State University Library.[2010-06-04].http://gvsu.edu/library
15 The University of Sydney Library.[2010-06-04].http://www.library.usyd.edu.au/
16 University of Western Sydney Library.[2010-06-04].http://library.uws.edu.au/
17 Summon Overview.[2010-06-04].http://www.serialssolutions.com/summon
18 Summon Content Participants.[2010-06-04].http://www.serialssolutions.com/summon-content-participants/