余 春
(武漢大學(xué)信息管理學(xué)院,湖北 武漢 430072)
開放存取運(yùn)動(dòng)倡導(dǎo)學(xué)術(shù)資源的公開獲取,促進(jìn)學(xué)術(shù)信息的無障礙交流,吸引了越來越多學(xué)者、組織機(jī)構(gòu)參與其中,涌現(xiàn)出巨量的開放存取資源。除了人們熟悉的開放存取期刊外,還有一種重要的類型,就是開放存取倉儲(chǔ)(簡稱OA倉儲(chǔ))。OA倉儲(chǔ)包括學(xué)科OA倉儲(chǔ)和機(jī)構(gòu)OA倉儲(chǔ),前者是以某一學(xué)科或多學(xué)科為主題來搜集組織數(shù)字化的學(xué)術(shù)成果,為科研人員參與學(xué)術(shù)交流提供方便快捷的平臺(tái),提供及時(shí)發(fā)表成果和新觀點(diǎn)的有效渠道;后者是依附于特定機(jī)構(gòu),搜集、組織、保存、維護(hù)、更新該機(jī)構(gòu)及其社群成員所產(chǎn)生的學(xué)術(shù)成果、科學(xué)數(shù)據(jù)和其他資料,以機(jī)構(gòu)為單位參與學(xué)術(shù)交流,展示其學(xué)術(shù)成果,提升機(jī)構(gòu)的學(xué)術(shù)地位[1]。
OA倉儲(chǔ)近年來得到快速發(fā)展。有研究者在2007年10月14日通過開放存取倉儲(chǔ)目錄OpenDOAR檢索到928個(gè)OA倉儲(chǔ)[1],而筆者在2010年7月4日利用OpenDOAR檢索到的OA倉儲(chǔ)總數(shù)為1696個(gè),在不到3年的時(shí)間里,增加了73%。建立倉儲(chǔ)的目的在于與外界進(jìn)行學(xué)術(shù)交流,如何才能讓這些倉儲(chǔ)在浩瀚的信息海洋中不會(huì)成為一個(gè)個(gè)的信息孤島?如何提高OA倉儲(chǔ)的影響力?這就需要加強(qiáng)OA倉儲(chǔ)的互操作性。互操作性是兩個(gè)或多個(gè)系統(tǒng)或組件之間交換信息并使用這些被交換信息的能力,它使得用戶不需要學(xué)習(xí)或了解各種專業(yè)軟件、操作系統(tǒng)、操作界面,就能獲取并使用可互操作的不同系統(tǒng)中的信息,使信息交流變得高效且輕松。OA倉儲(chǔ)發(fā)展其互操作性,不僅使世界各地的用戶都能查詢、獲取倉儲(chǔ)中的文檔,還能同時(shí)保持自己獨(dú)特的品牌效應(yīng),令倉儲(chǔ)更加開放,使倉儲(chǔ)中信息內(nèi)容的價(jià)值得到最大化。
在當(dāng)今的信息環(huán)境里,搜索引擎和其他數(shù)據(jù)發(fā)現(xiàn)工具成為人們查詢、獲取信息的最主要手段。OCLC曾調(diào)查發(fā)現(xiàn),84%的信息查詢用戶是依靠搜索引擎來獲取信息的,其中90%的人對(duì)結(jié)果感到滿意[2]。也有研究者提出,OA倉儲(chǔ)的互操作性就是倉儲(chǔ)系統(tǒng)為人們提供通過多種搜索引擎和數(shù)據(jù)發(fā)現(xiàn)工具獲取倉儲(chǔ)內(nèi)容的能力[3]。
截至2010年7月13日,有關(guān)圖書館與信息科學(xué)的OA倉儲(chǔ)已有56個(gè),收錄條目數(shù)萬條,它們已成為圖書館與信息科學(xué)研究的重要資源。本研究的目的在于嘗試評(píng)價(jià)圖書館與信息科學(xué)OA倉儲(chǔ)的互操作性,通過調(diào)查統(tǒng)計(jì)主流搜索引擎與數(shù)據(jù)發(fā)現(xiàn)工具收錄圖書館與信息科學(xué)OA倉儲(chǔ)中的資源情況,以期了解這些OA倉儲(chǔ)為人們提供利用多種搜索引擎和數(shù)據(jù)發(fā)現(xiàn)工具獲取倉儲(chǔ)資源的能力及圖情領(lǐng)域OA倉儲(chǔ)重要的查詢、獲取途徑,為圖書信息界相關(guān)人員進(jìn)行研究提供參考。
經(jīng)過文獻(xiàn)檢索,筆者尚未發(fā)現(xiàn)有此類研究的發(fā)表。Markland調(diào)查研究了谷歌搜索引擎對(duì)來自英國的機(jī)構(gòu)倉儲(chǔ)文獻(xiàn)資源的檢索效率,發(fā)現(xiàn)谷歌與谷歌學(xué)術(shù)搜索的用戶可以檢索到來自機(jī)構(gòu)倉儲(chǔ)的文獻(xiàn),尤其是在用戶知道文獻(xiàn)全名的情況下[4]。Norris等人使用谷歌、谷歌學(xué)術(shù)搜索、OAIster、Open-DOAR查找同行評(píng)議的OA期刊論文,結(jié)果通過谷歌與谷歌學(xué)術(shù)搜索能查詢到大多數(shù)論文,而OAIster、OpenDOAR的查詢結(jié)果則令人失望[5]。Baldwin的研究指出,谷歌學(xué)術(shù)搜索查詢到的工程學(xué)OA論文,有10%~13%來自機(jī)構(gòu)倉儲(chǔ)[6]。
筆者先根據(jù)一定原則在OpenDOAR中選擇5個(gè)圖書館與信息科學(xué)的OA倉儲(chǔ),并在每個(gè)倉儲(chǔ)中隨機(jī)選取8篇樣本文獻(xiàn),然后再選擇9種人們常用的、熟悉的搜索引擎與數(shù)據(jù)發(fā)現(xiàn)工具,分別利用這9種工具來檢索先前選取的樣本文獻(xiàn),根據(jù)檢索結(jié)果,分別統(tǒng)計(jì)各倉儲(chǔ)的文獻(xiàn)被檢命中率及每種搜索工具的檢索命中率,以此評(píng)估圖書館與信息科學(xué)OA倉儲(chǔ)的互操作性,以及查詢獲取這些倉儲(chǔ)資源的主要途徑。整個(gè)檢索過程于2010年6月12日至7月13日期間完成。
OpenDOAR由英國的諾丁漢大學(xué)和瑞典的隆德大學(xué)圖書館于2005年2月共同創(chuàng)建,是一個(gè)權(quán)威性的OA倉儲(chǔ)目錄,提供高質(zhì)的全世界OA倉儲(chǔ)清單。筆者利用OpenDOAR來選擇“圖書館與信息科學(xué)”學(xué)科領(lǐng)域的OA倉儲(chǔ)(包括學(xué)科資源庫、機(jī)構(gòu)倉儲(chǔ)、政府倉儲(chǔ)等類型)。為了便于研究,并讓研究更具目的性、有意義及同類可比性,設(shè)立以下限制條件:①倉儲(chǔ)使用的語言為英語;②倉儲(chǔ)的主題僅涉及圖書館與信息科學(xué);③倉儲(chǔ)應(yīng)包含至少100個(gè)條目。依照上述條件,從OpenDOAR中篩選出5個(gè)OA倉儲(chǔ),見表1。
表1 OpenDOAR中的圖書館信息科學(xué)OA倉儲(chǔ)
搜索引擎已成為人們查詢、獲取信息的最主要工具,有研究者發(fā)現(xiàn)大多數(shù)對(duì)倉儲(chǔ)的下載要求是直接來自人們使用的搜索引擎?!八阉饕嬗^察(Search engine watch)”是對(duì)搜索引擎市場和搜索引擎優(yōu)化的權(quán)威指南,筆者根據(jù)它發(fā)布的報(bào)告選擇了7個(gè)為人們熟悉、好用的通用搜索引擎。
本研究是針對(duì)圖書館與信息科學(xué)領(lǐng)域的OA倉儲(chǔ)與搜索引擎、數(shù)據(jù)發(fā)現(xiàn)工具的互操作性,因此筆者還選擇了OAIster和Scirus這兩種工具。OAIster是描述開放文檔資源的聯(lián)合目錄,它通過獲取那些使用OAI-PMH互操作協(xié)議的數(shù)字資源的元數(shù)據(jù)信息,來提供對(duì)那些數(shù)字資源的訪問。到目前為止,它已擁有超過2300萬條描述數(shù)字資源的記錄。Scirus是2001年由愛絲維爾公司(Elsevier)發(fā)起的專業(yè)搜索引擎,它能搜索超過38000萬個(gè)學(xué)科專業(yè)的網(wǎng)頁,被譽(yù)為“網(wǎng)絡(luò)最全面的科學(xué)研究工具”。
這樣,就選取了9種搜索引擎和數(shù)據(jù)發(fā)現(xiàn)工具:Google、Yahoo、Baidu、Ask、Allthe web、AOL、Gigablast、OAIster、Scirus。
在被選取的5個(gè)倉儲(chǔ)中,所有文獻(xiàn)都能以年份的順序編排、瀏覽。筆者分別在每個(gè)倉儲(chǔ)中以隨機(jī)的方式從2009、2008年的文獻(xiàn)中選擇了8篇文獻(xiàn),各年份文獻(xiàn)大致各占一半。
分別用所選的9種搜索工具來檢索隨機(jī)抽取的OA倉儲(chǔ)文獻(xiàn)。采用高級(jí)檢索的方式,在檢索框中分別輸入文獻(xiàn)的完整題名和著者名稱進(jìn)行精確檢索,可能會(huì)檢出一系列來源不同的與檢索詞完全匹配的文獻(xiàn),但其中只有在信息來源處標(biāo)注的是所選OA倉儲(chǔ)的URL文獻(xiàn)才算是檢索命中結(jié)果。如果沒有出現(xiàn)匹配的檢索結(jié)果,則再采用其他有可能的檢索途徑,以確定檢索結(jié)果。
①這5個(gè)OA倉儲(chǔ)中的樣本文獻(xiàn)沒有一個(gè)能百分百地被所選擇的搜索引擎或數(shù)據(jù)發(fā)現(xiàn)工具檢索到。被檢命中率最高的是Librarian'sdigitallibrary(65.3%),最低的是E-LIS(19.4%)。5個(gè)倉儲(chǔ)的平均被檢中率為51.7%。
② E-LIS倉儲(chǔ)的8篇文獻(xiàn),Scirus都能檢索到,OAIster也能檢出6篇,而其他7個(gè)搜索引擎則完全檢索不到。
③ Inform conference proceedings倉儲(chǔ)的被檢中率為50%,Google、Yahoo、Ask能百分百地檢索出它的8篇文獻(xiàn),而Baidu、Gigablast則一篇都檢索不到,OAIster與Scirus均分別檢索到1篇,Alltheweb檢出7篇,AOL檢出3篇。
④ Librarian's digital library倉儲(chǔ)的 8篇文獻(xiàn),Google、Yahoo、Ask、Alltheweb、AOL 等搜索引擎都能全部檢出,只有Scirus、Baidu 一篇都檢索不到,OAIster檢中 5篇,Gigablast檢中兩篇。
表2 檢索命中情況
⑤OCLC Research Publications倉儲(chǔ)的被檢中率為59.7%,Google和AOL能完全檢索出它的8篇文獻(xiàn),而OAIster則一篇都檢索不到,Yahoo檢出7篇,Ask檢中6篇,Allthe web 檢中 5篇,Scirus、Baidu、Gigablast都只檢出 3篇。
⑥SILS Electronic Theses&Dissertations倉儲(chǔ)的被檢中率為63.9%,Google、Yahoo完全檢索出它的8篇文獻(xiàn),而Baidu、Gigablast檢索命中率為零,Ask、Alltheweb、AOL 都檢中了7篇,Scirus檢中了5篇,OAIster檢中了4篇。
①Google位居命中率第一位,除了沒有檢出E-LIS倉儲(chǔ)的樣本文獻(xiàn)外,對(duì)其他倉儲(chǔ)的樣本文獻(xiàn)全部檢索命中,總檢索命中率達(dá)到80%。而Baidu的表現(xiàn)有些令人失望,5個(gè)倉儲(chǔ)中的樣本文獻(xiàn),它只檢出OCLC Research Publications中的3篇,對(duì)其他倉儲(chǔ)的命中率皆為零,以總檢索命中率7.5%列于最末位。其他搜索引擎與數(shù)據(jù)發(fā)現(xiàn)工具的檢索命中情況見表2。
②OAIster是通過獲取那些使用OAI-PMH互操作協(xié)議的數(shù)字資源的元數(shù)據(jù)信息,來提供對(duì)那些數(shù)字資源的訪問。在本研究中,采用OAI-PMH協(xié)議的倉儲(chǔ)共有3個(gè):E-LIS、Librarian's digital library、SILS Electronic Theses&Dissertations,OAIster對(duì)這3個(gè)倉儲(chǔ)的樣本文獻(xiàn)檢出率分別為75%、62.5%、50%,均高于OAIster總檢索命中率40%,也遠(yuǎn)高于它對(duì)另兩個(gè)倉儲(chǔ)的檢索命中率。Scirus的情況也類似,它對(duì)這3個(gè)采用OAIPMH協(xié)議的倉儲(chǔ)的檢索命中率平均為54.2%,遠(yuǎn)超它的總檢索命中率和它對(duì)另兩個(gè)倉儲(chǔ)的檢索命中率。而其他7個(gè)搜索引擎則表現(xiàn)相反,由于它們對(duì)E-LIS的檢索命中率為0,它們對(duì)采用OAI-PMH協(xié)議的倉儲(chǔ)的檢索平均命中率甚至還要低于對(duì)另兩個(gè)倉儲(chǔ)的檢索平均命中率。
③依據(jù)本研究“檢索方法與檢索結(jié)果的確定”規(guī)定,“沒有檢索命中結(jié)果”可能是有兩種情況,一是檢索出與樣本文獻(xiàn)相一致的文獻(xiàn),但這些文獻(xiàn)的來源并非所選的OA倉儲(chǔ);二是根本沒有檢索出與樣本文獻(xiàn)相一致的文獻(xiàn)。在實(shí)際檢索中,除了Google和Yahoo只出現(xiàn)第一種情況外,其他搜索工具都出現(xiàn)了上述兩種情況。筆者分別以搜索工具和圖書館信息學(xué)OA倉儲(chǔ)為單位,統(tǒng)計(jì)了它們發(fā)生上述第二種情況的數(shù)量和比率,分列在表3、表4。
表3 搜索工具未檢出樣本文獻(xiàn)的數(shù)量與比例
表4 圖書館信息科學(xué)OA倉儲(chǔ)未被檢出的樣本文獻(xiàn)數(shù)量與比例
①本研究涉及兩個(gè)機(jī)構(gòu)倉儲(chǔ)(OCLC Research Publications、SILS Electronic Theses&Dissertations)和兩個(gè)學(xué)科倉儲(chǔ)(ELIS、Librarian's digital library),機(jī)構(gòu)倉儲(chǔ)的樣本文獻(xiàn)平均被檢中率(61.8%)高于學(xué)科倉儲(chǔ)的(42.4%)。這可能是因?yàn)闄C(jī)構(gòu)倉儲(chǔ)是依附于機(jī)構(gòu),以機(jī)構(gòu)為單位組織建設(shè)、參與學(xué)術(shù)交流的,它比學(xué)科倉儲(chǔ)更具有組織嚴(yán)密性,建設(shè)時(shí)也更著眼于向外界展示機(jī)構(gòu)的學(xué)術(shù)實(shí)力,更趨向于重視互操作性。
②5個(gè)倉儲(chǔ)中E-LIS的條目數(shù)量最多(10287條,是其他倉儲(chǔ)條目數(shù)的13~41倍),也采用了OAI-PMH互操作協(xié)議,但是它的樣本文獻(xiàn)被檢中率是最低的,僅19.4%,著實(shí)讓人驚訝。聯(lián)系到表4反映的E-LIS未被檢出的樣本文獻(xiàn)占該倉儲(chǔ)總樣本文獻(xiàn)檢索量的比例很低(15.3%),這說明搜索工具其實(shí)檢索出很多來自其他信息源的相同文獻(xiàn)。筆者認(rèn)為可能是因?yàn)镋-LIS收錄來自世界各地圖書館信息學(xué)界作者自行存檔的論文,這些論文中很大部分都是已經(jīng)發(fā)表、出版過的期刊論文、會(huì)議文獻(xiàn)、專著摘節(jié)等,在網(wǎng)絡(luò)上的表現(xiàn)就是同一文獻(xiàn)來源復(fù)雜,有很多出處,E-LIS可能就淹沒在這些繁復(fù)的來源出處中了。E-LIS應(yīng)該加強(qiáng)它的互操作性,將它在圖書館信息學(xué)界的影響力對(duì)外發(fā)揮。
③撇開E-LIS,另兩個(gè)采用OAI-PMH協(xié)議的倉儲(chǔ)(Librarian's digital library、SILS Electronic Theses&Dissertations)的互操作性表現(xiàn)不錯(cuò),它們的樣本文獻(xiàn)被檢命中率分列5個(gè)倉儲(chǔ)中的第1、2位,說明采用OAI-PMH對(duì)于增強(qiáng)倉儲(chǔ)的互操作性還是必要的。
④通用搜索引擎成為圖書館信息科學(xué)OA倉儲(chǔ)內(nèi)容檢索的最主要工具,7個(gè)搜索引擎的平均檢中率為54.6%,高于兩個(gè)數(shù)據(jù)發(fā)現(xiàn)工具的平均檢中率41.3%。Google、Yahoo、Ask的表現(xiàn)優(yōu)秀,檢索命中率在72.5%~80%,這與其他一些學(xué)者的研究結(jié)果相似。Baidu對(duì)圖書館信息科學(xué)OA倉儲(chǔ)內(nèi)容的檢索命中率最低,反映出它的重點(diǎn)始終是在中文信息搜索引擎上,對(duì)西文信息的搜索能力較弱。
⑤數(shù)據(jù)發(fā)現(xiàn)工具OAIster、Scirus對(duì)采用OAI-PMH的倉儲(chǔ)內(nèi)容檢中率較高,尤其是Scirus對(duì)E-LIS的文獻(xiàn)檢中率達(dá)到了100%,表明這兩個(gè)工具擁有獨(dú)特的專業(yè)優(yōu)勢,可以成為通用搜索引擎的有力補(bǔ)充。
⑥結(jié)合表2與表3分析,可發(fā)現(xiàn)搜索引擎、數(shù)據(jù)發(fā)現(xiàn)工具的“未檢出文獻(xiàn)率”與它的“檢索命中率”有逆相關(guān)的聯(lián)系,搜索工具的檢索命中率越高,其未檢出文獻(xiàn)率越低。Baidu、Gigablast的檢索命中率位于末兩位,而其未檢出文獻(xiàn)率高居第二位(并列),表明這兩個(gè)搜索引擎可能不是有效的檢索圖書館信息科學(xué)OA倉儲(chǔ)信息的工具。
⑦圖書館信息科學(xué)OA倉儲(chǔ)的“未被檢出文獻(xiàn)率”越高,說明其收錄的獨(dú)特內(nèi)容可能越多,例如Inform conference proceedings倉儲(chǔ),其“未被檢出文獻(xiàn)率”在5個(gè)OA倉儲(chǔ)中高居首位(40.3%),而它收錄的內(nèi)容是專門的會(huì)議文獻(xiàn),具有獨(dú)特的學(xué)術(shù)價(jià)值。像這類倉儲(chǔ)更應(yīng)加強(qiáng)它的互操作性,增強(qiáng)與外界的交流,擴(kuò)大影響力。
由調(diào)查結(jié)果看,圖書館與信息科學(xué)OA倉儲(chǔ)的互操作性不太令人滿意,它們的樣本文獻(xiàn)平均被檢命中率為51.7%,意味著倉儲(chǔ)中將近一半的樣本文獻(xiàn)都不能被搜索工具所發(fā)現(xiàn)。搜索引擎和數(shù)據(jù)發(fā)現(xiàn)工具已成為用戶發(fā)現(xiàn)信息的最主要工具,圖書館與信息科學(xué)OA倉儲(chǔ)的管理者應(yīng)該堅(jiān)持追隨各種搜索工具的索引編制政策,增強(qiáng)倉儲(chǔ)的互操作性,從而努力使其學(xué)術(shù)影響力最大化。
[1]肖希明.信息資源建設(shè)[M].武漢:武漢大學(xué)出版社,2008:234-236.
[2]王行仁.21世紀(jì)萬維網(wǎng)時(shí)代圖書館信息服務(wù)的策略[N].深圳商報(bào),2009-11-19.
[3]Johnson,RK.Institutional repositories:partnering with faculty to enhance scholarly communication[J/OL].D-Lib Magazine,2002(11).http://www.dlib.org/dlib/november02/johnson/11johnson.html.
[4]Markland,M.Institutional repositories in the UK:what can the Google user find there?[J/OL].Journal of Librarianship and Information Science,2006(4):221-228.http://lis.sagepub.com/content/38/4/221.abstract.
[5]Norris,M.,Oppenheim,C.,Rowland,F.Finding open access articles using Google,Google Scholar,OAIster and OpenDOAR[J].Online Information Review,2008(8):709-715.
[6]Baldwin,V.A.Using Google Scholar to search for online availability of a cited article in engineering disciplines[J/OL].Issues in Science and Technology Librarianship,2009(56).http:www.istl.org/09-winter/article1.html.