陳定權,羅昱琪
隨著信息技術快速發(fā)展以及信息環(huán)境的日益復雜化,圖書館的內(nèi)外部環(huán)境都發(fā)生了顛覆性變化。盡管受到搜索引擎等商業(yè)信息服務的沖擊,圖書館依然是用戶獲取信息的重要渠道?;诓└衤睦斫猓^信息獲取(Access to Information),即是指對某一計算機網(wǎng)絡和可獲的內(nèi)容加以連接,技術具有可用性,用戶具有必要的技能和知識,而內(nèi)容本身的形式也具有可用性和實用性[1]。人們在談論獲取(Access)的時候,一般都是討論用戶如何獲取外界的信息或服務。例如,網(wǎng)絡接入點(Access Point)和開放獲取(Open Access)都是從用戶的視角來理解的。本文所講到的獲取也是站在用戶視角來討論的。經(jīng)典教材《現(xiàn)代信息檢索》(Modern Information Retrieval)第2版講到用戶的任務時,用戶使用信息檢索系統(tǒng)可以完成兩個類型的任務(retrieval Task)①:一類是搜索(Searching),另一類是瀏覽(Browsing)[2]?;谟脩粢暯莵碛懻撔畔@取就無法回避用戶的瀏覽行為和搜索行為。倘若一個信息系統(tǒng)無法同時為用戶提供瀏覽和搜索,就不能稱其為信息檢索系統(tǒng),只能是搜索系統(tǒng)或瀏覽系統(tǒng)。這樣的嚴格區(qū)分是希望幫助用戶關注自己的信息獲取行為,而不是被一個籠統(tǒng)抽象的概念來左右自己的行為。
自圖書館啟動信息化以來,聯(lián)機公共目錄檢索②系統(tǒng)(Online Public Access Catalog,OPAC)是讀者獲取信息的最初手段和重要手段。隨著電子資源種類和數(shù)量的增加,OPAC 無法擔此重任,借鑒元搜索引擎(Meta Search Engine)技術的集成搜索(Integrated Searching)開始登上了圖書館技術應用的歷史舞臺。再后來,資源發(fā)現(xiàn)與傳遞系統(tǒng)(Resources Discovery and Delivery System)浮出水面,現(xiàn)在儼然成為圖書館技術應用的風向標。本文簡要回顧OPAC、集成(聯(lián)邦)搜索和資源發(fā)現(xiàn)系統(tǒng)的應用歷史,以搜索與瀏覽為切入點來比較3個系統(tǒng)的異同,試圖預測3個系統(tǒng)的發(fā)展前景。需要特別說明的是,本文在討論信息獲取時,刻意強調(diào)是通過某種專業(yè)的計算機信息系統(tǒng),淡化了數(shù)據(jù)庫和導航系統(tǒng)的貢獻,但這并不代表它們不重要。相反,它們是圖書館需要一直堅持的,是圖書館開展電子資源服務的根本。這就像我們討論數(shù)字圖書館的重要性,而不能忽視實體圖書館的存在是一樣的。
1970 年代左右開發(fā)的OPAC,前后歷經(jīng)近50年仍然頑強地存在著,到今天為止依然是圖書館集成系統(tǒng)(Integrated Library System)不可或缺的必備子系統(tǒng),堪稱信息技術史上的一大奇跡。作為圖書館集成系統(tǒng)的重要組成部分,OPAC一直是用戶獲取館藏文獻信息的主要途徑之一。早期的OPAC是應用計算機來模擬傳統(tǒng)書目卡片柜的功能,用戶通過聯(lián)機終端來訪問館藏[3]。如果熟悉OPAC歷史的話,最初的OPAC是Open Public Access Catalog的縮寫,后來才演變?yōu)镺nline Public Access Catalog,在因特網(wǎng)環(huán)境下又演變?yōu)閃eb OPAC(Web-based OPAC),但我們依然習慣稱之為OPAC。單從功能上看,無論是單機的、基于客戶機/服務器技術的,還是現(xiàn)在基于萬維網(wǎng)的;無論是命令行界面(Command Line Interface),還是圖形用戶界面(Graphic User Interface),用戶感知到的功能并沒有多大差異,當然,底層的實現(xiàn)技術是有質(zhì)的變化。
2004 年提出Web2.0 后,圖書館也順應時代發(fā)展潮流,適時推出了圖書館2.0[4],而最關鍵的部分就是OPAC2.0。OPAC2.0 是以用戶驅(qū)動、服務驅(qū)動的社會性軟件和在線服務,以數(shù)據(jù)的開放性作為其核心功能,系統(tǒng)支持與其他互聯(lián)網(wǎng)服務之間的集成[5]。盡管學界對OPAC2.0抱有很高的期望[6-7],業(yè)界也積極開展實踐,但系統(tǒng)開發(fā)商對此響應卻不積極,只是基于現(xiàn)有系統(tǒng)架構,在用戶界面層引入網(wǎng)絡2.0相關要素,如標簽、評級、分享。再后來,又提供了基于分類法的瀏覽功能③,彌補了只能搜索的不足。毫無疑問,這些新元素和新功能提升了用戶體驗,吸引了圖書館的關注。但它與搜索引擎、網(wǎng)絡書店相比沒有明顯的優(yōu)勢,因此對OPAC用戶并沒有特別的吸引力[8]。系統(tǒng)開發(fā)商當初的不積極響應是有其理由的,后來的實踐也證明圖書館用戶的參與積極性非常低,對那些所謂的評論、評級、分享等功能基本持漠視的態(tài)度。
盡管集成搜索和資源發(fā)現(xiàn)系統(tǒng)在很多圖書館得到應用,但OPAC依然是圖書館無法舍棄的信息獲取入口之一。如果打開眾多圖書館網(wǎng)站,就會發(fā)現(xiàn)基本上以用戶術語“館藏查詢”或“館藏目錄”來代替了專業(yè)拗口的OPAC。用戶的使用習慣、館員的館藏管理需要,再加上其成熟的功能需求和技術架構,以及較低的運行維護成本,作為圖書館集成系統(tǒng)一部分的OPAC將會在很長一段時間里與資源發(fā)現(xiàn)系統(tǒng)并存,短期內(nèi)還看不到被取代的可能。
豐富的電子資源滿足了用戶信息需求,卻加重了用戶獲取信息的成本和認知負擔。為此,OPAC系統(tǒng)曾經(jīng)試圖對電子館藏進行編目以便接納這些電子資源(主要是電子圖書),但很快就放棄這種努力。如何為用戶提供一個便捷的信息獲取系統(tǒng),以便取代OPAC,就是當時圖書館的一個迫切需求。受到Google的簡潔搜索界面的影響,借用元搜索引擎的技術思路,2000年前后市場上推出了“一站式”的集成搜索。
集成搜索(Integrated Searching)④也稱為聯(lián)邦 搜 索(Federated Searching)、 跨 庫 搜 索(Cross-Database Searching)等,是借助單一的搜索接口,利用統(tǒng)一的搜索方法、實現(xiàn)對分布式、異構信息資源的一站式搜索操作機制[9]。這類系統(tǒng)最為典型的是艾利貝斯公司(ExLibris)2000年的MetaLib[10]。集成搜索確實減輕了用戶獲取信息的負擔,無需逐個搜索數(shù)據(jù)庫,但它的搜索能力并沒有得到增強,卻丟失掉原有數(shù)據(jù)庫的特色搜索功能和瀏覽功能,也沒有實現(xiàn)真正意義上的相關性排序[11]??傮w來說,搜索準確率沒有提升,甚至有所下降,但搜索的召回率還是有所提高。當資源總量達到一定數(shù)量級后,召回率還重要么?用戶更關心的是結果頁面的準確率,召回率已經(jīng)不再重要了。就像搜索引擎那樣,用戶更看重第一頁的搜索質(zhì)量,又有多少人會去翻頁?如果用戶真的想獲取所有相關文獻,看重召回率,最終還是得依賴專業(yè)數(shù)據(jù)庫。
市場上可供選擇的集成搜索系統(tǒng)也是有限的,較有影響的就是MetaLib。國內(nèi)圖書館對待商業(yè)化集成搜索的態(tài)度是謹慎的,只有少量圖書館引進,部分圖書館則自行開發(fā)簡易的集成搜索系統(tǒng),更多的還是持觀望態(tài)度。后來的發(fā)展情形證明那些持觀望態(tài)度的圖書館是理性正確的。
Web2.0技術和理念也推動著集成搜索的進化,提升了用戶體驗,但2006年左右市場上出現(xiàn)的資源發(fā)現(xiàn)與傳遞系統(tǒng)卻迅速搶占了風頭。它幾乎繼承了集成搜索的功能,除了能夠覆蓋的數(shù)據(jù)庫范圍有所區(qū)別外。集成搜索的知識庫(Knowledgebase)、分面搜索與分面瀏覽等為資源發(fā)現(xiàn)與傳遞系統(tǒng)積累了經(jīng)驗,催生出自己潛在且強勁的對手,最終被它取代,仿佛就是資源發(fā)現(xiàn)與傳遞系統(tǒng)的階段性過渡產(chǎn)品。
搜索引擎在早期發(fā)展階段,它所能索引的網(wǎng)頁覆蓋范圍是有限的。元搜索引擎概念的提出就是為了擴大搜索的覆蓋范圍,但隨著索引網(wǎng)頁覆蓋范圍的不斷增加,元搜索引擎也很快淡出學者的視野。類似地,集成搜索也遵循同樣的發(fā)展規(guī)律,即隨著資源發(fā)現(xiàn)與傳遞系統(tǒng)集中索引倉儲規(guī)模的擴大,它很快就會淡出圖書館的視野。
2004年底,Google的學術搜索一經(jīng)面世就襯托出OPAC、集成搜索的不足,調(diào)高了用戶對信息獲取體驗的期望,為圖書館的信息獲取設置了目標系統(tǒng)。Google學術搜索建有獨立的索引倉儲,這讓傳統(tǒng)的系統(tǒng)開發(fā)商尋找到一條與集成搜索迥然不同的技術解決方案——預收割元數(shù)據(jù)并建立集中索引倉儲。2006年左右,Interfaces公司⑤推出的資源發(fā)現(xiàn)與傳遞系統(tǒng)Encore并沒有建立集中索引倉儲,而是基于它的集成搜索系統(tǒng)來實現(xiàn)資源發(fā)現(xiàn)與服務[12],本質(zhì)上可以將其看作集成搜索的改良版。但ExLibris在2006年推出的資源發(fā)現(xiàn)與傳遞系統(tǒng)Primo 則建立了集中索引倉儲,很快搶占了發(fā)展先機。后來的發(fā)展也證明,建立集中索引倉儲是正確的決策。集中索引倉儲讓內(nèi)容提供商或期刊代理商看到了海量元數(shù)據(jù)的商業(yè)價值,也紛紛利用自己擁有的海量元數(shù)據(jù)推出資源發(fā)現(xiàn)系統(tǒng),搶占市場先機,如期刊代理商Serials Solution 公司2009年推出Summon,EBSCO 公司2010年推出EDS(EBSCO Discovery Service)。
早期的資源發(fā)現(xiàn)與傳遞系統(tǒng)是用戶發(fā)現(xiàn)文獻(文獻的線索型信息),系統(tǒng)向用戶傳遞文獻全文或服務。如果仔細斟酌,就會發(fā)現(xiàn)該系統(tǒng)的名稱涉及到兩個視角,即用戶和系統(tǒng),這或許是后來更名為發(fā)現(xiàn)系統(tǒng)的一個因素吧。另一個原因是,發(fā)現(xiàn)資源要遠比獲取資源更重要。在圖書館服務日益發(fā)達的今天,獲取一份已知的文獻應該是不難的,但難在如何知道該份文獻的存在。可以說,只有用戶想不到的文獻,沒有用戶得不到的文獻。在云計算的催化之下,發(fā)現(xiàn)系統(tǒng)很快就以發(fā)現(xiàn)服務(Discovery Service)來宣傳,淡化其系統(tǒng)的概念,以服務的名義來攻城略地、開發(fā)市場。
發(fā)現(xiàn)系統(tǒng)事先收割的海量元數(shù)據(jù)(后來甚至可以收割全文)和建立的集中索引倉儲,是發(fā)現(xiàn)系統(tǒng)各種優(yōu)勢的基礎,即所謂數(shù)據(jù)驅(qū)動的發(fā)展戰(zhàn)略。但由于發(fā)現(xiàn)系統(tǒng)需要與眾多數(shù)據(jù)庫供應商簽訂預收割協(xié)議,那些還沒有簽訂協(xié)議的數(shù)據(jù)庫,圖書館還只能繼續(xù)借用集成搜索系統(tǒng),此時,發(fā)現(xiàn)系統(tǒng)與集成搜索系統(tǒng)共同為用戶提供信息獲取。例如,清華大學圖書館、上海交通大學圖書館就同時引入了Aleph 500、發(fā)現(xiàn)系統(tǒng)Primo、集成搜索MetaLib。
從功能來看,發(fā)現(xiàn)系統(tǒng)不僅提供圖書館自身擁有的目錄資源,還在更高的層次上將印本資源和電子資源集成在一起,為用戶提供一站式搜索、大結果集的分面瀏覽,推薦相關文獻信息,功能非常豐富。發(fā)現(xiàn)系統(tǒng)沒有歷史遺留系統(tǒng)的包袱和約束,能夠充分吸收圖書館2.0實踐成果,充分借鑒集成搜索的經(jīng)驗,但為了顯示與集成搜索的不同,最終以發(fā)現(xiàn)系統(tǒng)來命名。發(fā)現(xiàn)系統(tǒng)其實有著更大的野心,那就是幫助用戶去探索發(fā)現(xiàn)未知的領域或主題,而不僅僅滿足于便捷瀏覽和高效搜索。盡管一般用戶難以將發(fā)現(xiàn)系統(tǒng)與集成搜索明確區(qū)分,但如果圖書館只是把資源發(fā)現(xiàn)系統(tǒng)看作一站式搜索或集成搜索(這可以從圖書館網(wǎng)站上看出端倪,它們大多以搜索或檢索名義加以宣傳),是遠遠不夠的。發(fā)現(xiàn)系統(tǒng)至少在兩個方面是有別于集成搜索的。第一,基于豐富的元數(shù)據(jù),乃至全文,對文獻做了作品級的整合,準確率有很大提升,用戶獲取信息的認知負擔有所下降。第二,提供探索性服務,幫助用戶探索未知的信息,甚至是未知的研究領域,而不僅僅是滿足用戶的信息需求。
基于OPAC、集成搜索和資源發(fā)現(xiàn)的應用歷史,結合用戶的信息行為,未來的信息獲取將會在以下幾個方面得到繼續(xù)發(fā)展。
(1)OPAC系統(tǒng)的部分功能依然有著強勁的生命力,不可偏廢。嚴格講,OPAC并沒有提供相關度排序功能。未能提供相關度是OPAC 的不足,但也是它的潛在優(yōu)勢。搜索引擎與資源發(fā)現(xiàn)強調(diào)搜索準確率,淡化查全率,但OPAC具備精確配備能力,把是否相關的判斷交給用戶,強調(diào)用戶的主動性,盡管效率低下,卻也是科研型用戶的必備工具。OPAC的另一個特點是能夠準確地再次找到已知文獻(known item),這恰是資源發(fā)現(xiàn)系統(tǒng)的不足[13]。同樣的查詢詞,發(fā)現(xiàn)系統(tǒng)可能返回不同的結果,不同的排序,但OPAC 不會。更特別的是,圖書館還可以利用OPAC來實現(xiàn)部分資源管理任務。這些就是OPAC依然有著旺盛生命力,不容易被拋棄的重要原因。
(2)瀏覽與搜索依然是未來信息獲取的基本手段。無論技術如何發(fā)展,作為用戶獲取信息的兩個基本手段,搜索與瀏覽是必備的基本功能。一般來說,搜索是基于用戶某個信息需求,用戶事先有一個大概的信息需求,而瀏覽則有助于用戶拓展自己的興趣領域,探索發(fā)現(xiàn)一個全新的信息世界。用戶在看似不經(jīng)意的瀏覽過程中,經(jīng)常會無意中發(fā)現(xiàn)有用或感興趣信息,人們常常稱之為“信息偶遇”(Information Encountering)[14],即無意中發(fā)現(xiàn)有用或感興趣信息的行為。早期的OPAC只有搜索功能,后來提供了基于分類法的瀏覽功能;早期的集成搜索主要集中在搜索,后來也提供了分面瀏覽;發(fā)現(xiàn)系統(tǒng)也是順著集成搜索的發(fā)展慣性,繼續(xù)完善瀏覽與搜索功能。
(3)探索是信息獲取未來需要突破的方向。搜索與瀏覽是信息獲取的基本手段,但僅有搜索與瀏覽是不夠的,探索是信息獲取系統(tǒng)亟需突破的方向。所謂探索,本意是在一個未知的空間里發(fā)現(xiàn)有價值的信息或主題,也是發(fā)現(xiàn)系統(tǒng)當初推出時的原始動機。用戶通過瀏覽是可以實現(xiàn)某種探索能力,但它是用戶主動的人工行為,效率低下。國內(nèi)將Discovery System 翻譯成發(fā)現(xiàn)系統(tǒng),原本沒有偏差,但圖書館實踐則說明業(yè)界對資源發(fā)現(xiàn)系統(tǒng)的認識不足,大多還將其定位在搜索層面,如清華大學圖書館的水木搜索、北京大學圖書館的未名學術搜索、武漢大學圖書館的珞珈學術搜索、中山大學圖書館的智慧搜索,只有個別圖書館將其定位于探索,如上海交通大學圖書館推出的“思源探索”。艾利貝斯公司在宣傳Primo 時明確指出,發(fā)現(xiàn)不僅僅是搜索(Discovery is not just about searching),強調(diào)通過意外發(fā)現(xiàn)來實現(xiàn)探索(Exploration through serendipitous discovery),技術手段是文獻自動推薦(bX Article Recommender)、主題探索(Topic Explorer)、引文追蹤(Citation Trails)、虛擬瀏覽(Virtual Browse)和其他數(shù)據(jù)庫或資源推薦等[15]。
目前發(fā)現(xiàn)系統(tǒng)在發(fā)現(xiàn)與探索方面還只是處于初級階段,隨著用戶認知等相關研究的深入,資源發(fā)現(xiàn)系統(tǒng)必將在探索服務上作出更多創(chuàng)新。
現(xiàn)階段OPAC、集成(聯(lián)邦)搜索、發(fā)現(xiàn)系統(tǒng)(服務)在圖書館還得到很大范圍的應用,但應該對它們的未來走向有一個較為理性判斷。OPAC的功能需求非常成熟,其獨特的功能使得圖書館、部分用戶還對其依依不舍。只要圖書館集成系統(tǒng)還在運行,OPAC就不會退出歷史舞臺。那么能否直接由OPAC過渡到發(fā)現(xiàn)系統(tǒng)呢[16]?無論是研究還是實踐表明,目前的發(fā)現(xiàn)系統(tǒng)還是無法完全取代OPAC,短期內(nèi)二者還是和諧共存。即便是下一代圖書館集成系統(tǒng)或圖書館服務平臺(Library Service Platform,LSP)取代當前的圖書館集成系統(tǒng),OPAC的功能也會通過重構技術手段在LSP得以重生或再現(xiàn)。集成搜索系統(tǒng)基本完成其歷史使命,圖書館對其逐漸失去了興趣。即便還有少量數(shù)據(jù)庫未能被納入資源發(fā)現(xiàn)系統(tǒng),但準確率優(yōu)先的用戶使用習慣使得用戶并不關心召回率,發(fā)現(xiàn)系統(tǒng)完全可以取代集成搜索。資源發(fā)現(xiàn)以優(yōu)異的瀏覽與搜索功能、全新的探索能力,開始成為用戶信息獲取的主要渠道,但暫時還無法取代OPAC 系統(tǒng)。對于科研人員而言,聯(lián)邦搜索和資源發(fā)現(xiàn)都只起到輔助作用,最終還是依靠專業(yè)的期刊及其所在的數(shù)據(jù)庫,以及實體館藏。依賴實體館藏,也就無法離開OPAC系統(tǒng)。
深入分析LSP,會發(fā)現(xiàn)它是基于統(tǒng)一資源管理(Uniform Resources Management,URM)模型,通過重構圖書館集成系統(tǒng)、電子資源管理系統(tǒng)(ERMS)、發(fā)現(xiàn)系統(tǒng)而形成的有機集成系統(tǒng)。發(fā)現(xiàn)系統(tǒng)將是LSP的重要組成部分,如同OPAC是圖書館集成系統(tǒng)的重要部分一樣。但可以預見的是,OPAC的部分特色功能將會在發(fā)現(xiàn)系統(tǒng)中得以重生再現(xiàn),或者LSP 系統(tǒng)將會模擬或集成OPAC的部分特色功能,那時OPAC將徹底成為歷史。順便補充一點,艾利貝斯公司已經(jīng)不再宣傳推廣電子資源管理系統(tǒng)Verde,Verde功能應該是基于URM 模型被整合進圖書館發(fā)現(xiàn)平臺Alma中,將電子資源的管理與印本資源的管理集成在一個全新的系統(tǒng)或平臺中。
注釋
①Modern Information Retrieval第一版在介紹檢索任務(retrieval task)類型時,是用Browsing 和Retrieval 二字,國內(nèi)翻譯成“瀏覽”和“檢索”。第二版更正為Browsing和Searching,國內(nèi)翻譯是“瀏覽”和“搜索”。所以,本文在討論搜索與瀏覽的時候,將其置于用戶完成檢索任務情景中,是從用戶視角來思考的。
②當年把Online Public Access Catalog 中的Access翻譯成檢索是當時對檢索技術理解偏差導致。因為在那個時代更強調(diào)是使用計算機技術把MARC書目記錄向用戶開放,至于如何開放則沒有清晰認識?;谶@樣理解,Access翻譯成獲取可能更恰當。但現(xiàn)在業(yè)界已經(jīng)習慣這種譯法了,也沒有必要糾正。
③從技術上,OPAC提供的基于分類法的瀏覽其實就是通過分類號搜索來實現(xiàn)的。
④國內(nèi)不少學者將Integrated Searching、Federated Searching等名詞翻譯成集成檢索或聯(lián)邦檢索,但本文認為,翻譯成集成搜索或聯(lián)邦搜索更合適,如同我們只能把Search Engine翻譯成搜索引擎而不是檢索引擎。
⑤艾利貝斯集團公司2015年10月被內(nèi)容供應商ProQuest公司收購,成為ProQuest的子公司。Innovative Interface Inc.2019年年底被艾利貝斯收購,也成為ProQuest的子公司。這樣,國際上知名的三大集成系統(tǒng)供應商中的兩家被ProQuest收購,第三家是SirsiDynix公司。