張 穎
(青海省人民醫(yī)院,西寧 810000)
《布達(dá)佩斯開放存取先導(dǎo)計劃》(BOAI)提出,開放存取期刊(OAJ)是通往開放存取的“金色之路”,開放存取知識庫(OAR)是通往開放存取的“綠色之路”。自存檔(Self-Archiving)是將數(shù)字化文檔存放在公眾可獲取的網(wǎng)站上,存檔遵從OAI協(xié)議,自存檔是開放存取知識庫的重要實(shí)現(xiàn)方式,主要類型包括機(jī)構(gòu)知識庫(Institutional Repository)和學(xué)科知識庫(Disciplinary Repository)兩類[1]。
目前,學(xué)術(shù)界對于學(xué)科知識庫的定義還沒有統(tǒng)一的界定,可以簡單地描述為用以收集、保存并免費(fèi)開放關(guān)于某一個或多個學(xué)科文獻(xiàn)資源的知識庫[2]。學(xué)科知識庫作為開放存取知識庫的主要類型這一事實(shí),得到了國際學(xué)術(shù)界的公認(rèn)。Harnad等和Chan等[3-4]指出學(xué)科知識庫和機(jī)構(gòu)知識庫具有同等重要的地位,前者的資源采集、組織及其數(shù)據(jù)庫的建設(shè)是以學(xué)科為中心,后者則是以機(jī)構(gòu)為中心。在對兩類知識庫使用意向的調(diào)查中,多數(shù)被訪問者傾向于接受專業(yè)性更強(qiáng)的學(xué)科知識庫[5]。另有研究發(fā)現(xiàn),盡管學(xué)科知識庫只占全球開放存取知識庫的不到10%,但其擁有的文檔數(shù)量卻占所有自存檔數(shù)量的43%,其中94%的文檔都存儲于arXiv或PMC中[6-7]。此外,從文獻(xiàn)、網(wǎng)絡(luò)的調(diào)研情況來看,盡管國內(nèi)外學(xué)者已經(jīng)對自存檔進(jìn)行了大量的理論研究,涉及其構(gòu)建模式、管理政策、系統(tǒng)軟件等多方面,但現(xiàn)有研究大多專注于機(jī)構(gòu)知識庫或集中在自存檔的相關(guān)問題,極少涉及學(xué)科知識庫的研究?;诖?,筆者針對學(xué)科知識庫的創(chuàng)建和發(fā)展所涉及的相關(guān)問題展開討論,以期為學(xué)科知識庫的研究提供借鑒和參考。
學(xué)科知識庫是以學(xué)科為主線,對相關(guān)學(xué)科領(lǐng)域的各種類資源進(jìn)行收集、整理、描述、組織、索引, 以實(shí)現(xiàn)對其長期保存和廣泛傳播,達(dá)到對該資源進(jìn)行共享和利用的知識庫[8]。學(xué)科知識庫所收錄的可能是單一學(xué)科,也可能是更大范圍的相關(guān)學(xué)科,學(xué)科知識庫不僅免費(fèi)提供論文元數(shù)據(jù)、研究數(shù)據(jù)、論文全文等資源,而且可被網(wǎng)絡(luò)索引,隨著科學(xué)數(shù)據(jù)等新文獻(xiàn)類型出現(xiàn),被納入學(xué)科知識庫收錄的文獻(xiàn)類型越來越多[9-10]。學(xué)科知識庫的特點(diǎn)如下:
(1) 自存儲性。學(xué)者或?qū)I(yè)研究人員的自主提交是學(xué)科知識庫的主要建設(shè)方式。
(2) 資源類型豐富。目前涵蓋學(xué)術(shù)論文、未發(fā)表的工作論文、科學(xué)數(shù)據(jù)等10余種數(shù)據(jù),隨著學(xué)科知識庫的不斷發(fā)展,還將出現(xiàn)新的資源類型。
(3) 開放與可獲取性。豐富的學(xué)術(shù)資源可以極便捷地供全球所有需求者免費(fèi)使用。
(4) 學(xué)科范圍的發(fā)展性。從創(chuàng)建時的單一學(xué)科,逐步發(fā)展到更大范圍的相關(guān)學(xué)科,隨著時代的發(fā)展,學(xué)科知識庫的學(xué)科范圍將更為廣泛[11]。
OpenDOAR(Direct of Open Access Repositories)是由英國諾丁漢大學(xué)(The University of Nottingham)和瑞典蘭德大學(xué)(Lund University)于 2005 年創(chuàng)建的全球OA知識庫權(quán)威目錄網(wǎng)站[12],通過OpenDOAR 可以了解到全球?qū)W科知識庫的發(fā)展現(xiàn)狀。截至2017年9月5日,OpenDOAR收錄的全球?qū)W科知識庫達(dá)303個,通過逐一訪問這些學(xué)科知識庫站點(diǎn),結(jié)合OpenDOAR公布的注冊數(shù)據(jù),在此共選取了126個信息全面的學(xué)科知識庫,現(xiàn)從這些知識庫的創(chuàng)建時間、資源數(shù)量、應(yīng)用軟件類別及組織方式等方面進(jìn)行分析研究。
學(xué)科知識庫從1991年的9個發(fā)展到2010年的45個,20年期間保持了持續(xù)增長的趨勢,2011—2017年增長速度明顯放緩,7年增加14%。從資源規(guī)???,學(xué)科知識庫以中小型知識庫為主,1千至10萬條資源量的知識庫共有61個,占所統(tǒng)計知識庫的48%。資源數(shù)量超過100萬條的大型學(xué)科知識庫除Europe PMC外,均創(chuàng)建于2010年前,Europe PMC雖創(chuàng)建于2011年,但其作為PMC國際存儲庫網(wǎng)絡(luò)的一部分,其資源規(guī)模得益于對PMC自2000年創(chuàng)建以來存儲的所有文檔資源的整合。arXiv(1991年)和RePEC(1993年)分別在西班牙賽博計量學(xué)實(shí)驗(yàn)室(Cybermetrics Lab)2017年7月發(fā)布的全球知識庫排名中位列第一和第五[13-18]。統(tǒng)計分析發(fā)現(xiàn),早期建立的中小型知識庫占比較高且從中產(chǎn)生了一批具有較高學(xué)術(shù)影響力的學(xué)科知識庫,如圖1所示。
圖1 學(xué)科知識庫創(chuàng)建時間和資源規(guī)模分布Fig.1 The distribution of disciplinary repository creation time&resource scale
2000年以前,學(xué)科知識庫大多自行搭建軟件平臺,如arXiv、PMC、SSRN等均定制了專屬的系統(tǒng)軟件;2000年以后,以Eprints和Dspaces為代表的一大批開源軟件的開發(fā)和使用,為學(xué)科知識庫的發(fā)展提供了重要的技術(shù)保障,后期越來越多的學(xué)科知識庫開始選擇采用第三方軟件進(jìn)行平臺建設(shè),可供選擇的學(xué)科知識庫系統(tǒng)軟件較多,且絕大多數(shù)為免費(fèi)的開源軟件,這為以后學(xué)科知識庫的構(gòu)建帶來了便利[19-22],如圖2所示。
圖2 學(xué)科知識庫應(yīng)用軟件分布Fig.2 The distribution of disciplinary repository software
作為一個學(xué)科知識庫應(yīng)具備5個基本特征,即作者自存檔、收錄預(yù)印本和后印本、公眾免費(fèi)獲取、缺乏內(nèi)容控制和提供數(shù)據(jù)檢索的互操作機(jī)制。據(jù)此,筆者將統(tǒng)計的126個學(xué)科知識庫分為2類:預(yù)印本出版平臺、后印本存儲中心。預(yù)印本出版平臺是指集中存儲學(xué)者們在線提交的電子預(yù)印本的數(shù)據(jù)庫,允許任何人免費(fèi)下載預(yù)印本,使其在正式出版之前就可以在網(wǎng)絡(luò)上傳播和分享,如arXiv、SSRN、bepress Legal Repository、ArtXiker等;后印本存儲中心是指集中存儲學(xué)者們在線提交的電子后印本的數(shù)據(jù)庫,允許任何人免費(fèi)下載使用,如PMC、PERSEE等。
根據(jù)組織方式,學(xué)科知識庫可以分為由機(jī)構(gòu)組織創(chuàng)建的知識庫和由個別科學(xué)家或?qū)W術(shù)團(tuán)體的倡議而組建的獨(dú)立知識庫。圖3統(tǒng)計顯示,由機(jī)構(gòu)牽頭構(gòu)建的學(xué)科知識庫有91個,占126個學(xué)科知識庫的72%,如PMC、HAL、bepress Legal Repository等。組織機(jī)構(gòu)包括大學(xué)、圖書館、科研院所等,大學(xué)及其圖書館是創(chuàng)建學(xué)科知識庫的主要機(jī)構(gòu)。圖3統(tǒng)計顯示,獨(dú)立知識庫共計35個,占所有學(xué)科知識庫的28%,如arXiv、RePEC、SSRN等。然而,兩種組織方式差別主要存在于學(xué)科知識庫的最初創(chuàng)建歷史上,因?yàn)殡S著學(xué)科知識庫的后期發(fā)展需要,許多獨(dú)立知識庫都開始往機(jī)構(gòu)化運(yùn)營方向發(fā)展,以便在資金、人員、管理等方面得到保障。如arXiv依托康奈爾大學(xué)進(jìn)行維護(hù)和運(yùn)營,并建立了一套自愿協(xié)作化商業(yè)模式來緩解其財政負(fù)擔(dān);SSRN實(shí)現(xiàn)了公司化運(yùn)營,并宣布加入Mendeley公司和Elsevier公司進(jìn)行新產(chǎn)品和服務(wù)的開發(fā)。
圖3 學(xué)科知識庫創(chuàng)建主體分布Fig.3 The distribution of disciplinary repository Creater
綜合分析學(xué)科知識庫的創(chuàng)建和發(fā)展情況可知,自1991年arXiv創(chuàng)建以來,學(xué)科知識庫在其后的20年一直保持平穩(wěn)的增長態(tài)勢,但是隨著時間的推移,學(xué)科知識庫的創(chuàng)建速度已經(jīng)明顯放緩;第三方軟件的出現(xiàn)為學(xué)科知識庫的創(chuàng)建提供了重要的技術(shù)保障,極大降低了其創(chuàng)建的技術(shù)難度;根據(jù)建設(shè)目的的不同,學(xué)科知識庫被建設(shè)發(fā)展成為學(xué)科資源門戶、預(yù)印本出版平臺、后印本存儲中心、數(shù)字檔案發(fā)布平臺等多種不同類型,但是學(xué)科資源門戶和數(shù)字檔案發(fā)布平臺等類型的知識庫并不能完全滿足學(xué)科知識庫的基本特征;大學(xué)及其圖書館是牽頭創(chuàng)建學(xué)科知識庫的主體,由個別科學(xué)家或?qū)W術(shù)團(tuán)體的倡議而組建獨(dú)立知識庫是學(xué)科知識庫有別于機(jī)構(gòu)知識庫的一種獨(dú)特的組織方式,但是由于后期資金、人員管理等方面的問題,這類知識庫逐漸向機(jī)構(gòu)化運(yùn)營方向轉(zhuǎn)化。
學(xué)科知識庫和機(jī)構(gòu)知識庫都具有開放存取知識庫的基本特征,即基于開放的理念,采取自存檔的方式存儲資源,旨在促進(jìn)學(xué)術(shù)交流和傳播;都遵循OAI協(xié)議,具有良好的互操作性,可以通過通用搜索引擎進(jìn)行檢索;存儲多種類型的預(yù)印本、后印本、會議文獻(xiàn)、技術(shù)報告等;不具備嚴(yán)格的同行評議制度,強(qiáng)調(diào)“自我管理”等。
兩者在資源、創(chuàng)建主體、組織方式、開放程度等方面存在較大差異。學(xué)科知識庫盡管在數(shù)量上遠(yuǎn)遠(yuǎn)低于機(jī)構(gòu)知識庫,但其在學(xué)者團(tuán)體中的影響力和利用率毫不遜色。兩者的不同之處主要表現(xiàn)在:
(1) 收錄的內(nèi)容范圍和側(cè)重點(diǎn)不同。機(jī)構(gòu)知識庫收錄本機(jī)構(gòu)的多個專業(yè)領(lǐng)域成員(有的包括機(jī)構(gòu)以外的研究人員)的研究成果,不僅局限于一個學(xué)科或幾個學(xué)科內(nèi),極大地方便了當(dāng)前出現(xiàn)的交叉學(xué)科、邊緣學(xué)科的學(xué)者進(jìn)行跨學(xué)科研究。此外,為了促進(jìn)機(jī)構(gòu)發(fā)展還會收錄本機(jī)構(gòu)的歷史背景材料、發(fā)展統(tǒng)計數(shù)據(jù)、人員檔案等資源,而學(xué)科知識庫則按照學(xué)科為主線,主要收錄本學(xué)科領(lǐng)域和相關(guān)學(xué)科領(lǐng)域的研究人員的研究成果,其發(fā)展是以學(xué)科為中心,側(cè)重于促進(jìn)學(xué)科發(fā)展。
(2) 建設(shè)者和維護(hù)者不同。機(jī)構(gòu)知識庫主要由各種機(jī)構(gòu)建設(shè)和維護(hù),學(xué)科知識庫除了由機(jī)構(gòu)牽頭建設(shè)外,還有許多是由同一學(xué)科領(lǐng)域的成員及相關(guān)學(xué)科的志愿者參與建設(shè)和維護(hù)?;趯W(xué)科主線,其參與主體不再局限在一個或多個機(jī)構(gòu),而是來自不同國家、不同地區(qū)以及不同機(jī)構(gòu)的具有同一研究領(lǐng)域的學(xué)者。
(3) 組織方式不同。機(jī)構(gòu)知識庫是在機(jī)構(gòu)倡導(dǎo)下,自上而下創(chuàng)建發(fā)展的,在政策、技術(shù)和資金方面的保障比較完善,但參與者在其參與過程中相對處于被動地位;學(xué)科知識庫則是由研究者基于自身的研究興趣與研究利益,自下而上發(fā)起組織的,參與者相對來說處于主動地位。因此,學(xué)科知識庫能夠更快、更好地得到研究者的支持和參與。
(4) 開放程度不同。機(jī)構(gòu)知識庫主要面向本機(jī)構(gòu)成員提供開放存取服務(wù),外機(jī)構(gòu)的人員一般只能閱讀和下載,并不能夠進(jìn)行自存檔;學(xué)科知識庫面向本學(xué)科的所有研究人員提供開放存取。
一般而言,研究人員可能會時??鐧C(jī)構(gòu)、跨地域工作,但不會經(jīng)常更換其所屬的學(xué)科領(lǐng)域。并且,從信息需求和行為方式來看,研究人員更習(xí)慣于從學(xué)科或主題角度查找資料,更愿意訪問所在學(xué)科的資源站點(diǎn)。因此,學(xué)科知識庫專家隊伍的穩(wěn)定性較機(jī)構(gòu)知識庫更佳,更易得到研究人員的長期關(guān)注和利用。
通過對學(xué)科知識庫的創(chuàng)建、發(fā)展分析以及與機(jī)構(gòu)知識庫的比較分析,可以推導(dǎo)出以下幾個結(jié)論:
(1) 學(xué)科知識庫未來將向?qū)W科多樣化、資源質(zhì)量優(yōu)質(zhì)化、資源類型多元化的方向發(fā)展。20世紀(jì)90年代初的學(xué)科知識庫大多收錄某一個學(xué)科的資源,隨著學(xué)科之間的交叉發(fā)展,今后收錄的領(lǐng)域?qū)⑾蚨鄬W(xué)科方向發(fā)展;由于學(xué)科知識庫收錄的資源沒有經(jīng)過同行評議,為保障學(xué)科知識庫的學(xué)術(shù)影響力,未來學(xué)科知識庫必然會更加注重資源的質(zhì)量;隨著新資源類型的不斷出現(xiàn),未來學(xué)科知識庫收錄的資源類型也將不斷擴(kuò)大。
(2) 學(xué)科知識庫可采用跨機(jī)構(gòu)聯(lián)盟形式運(yùn)營。學(xué)科知識庫的運(yùn)營存在著一些問題。因受學(xué)科類別的限制,同一學(xué)科領(lǐng)域無法存在多個學(xué)科知識庫,不利于學(xué)科資源的交流傳播和學(xué)科發(fā)展;學(xué)科知識庫的創(chuàng)建和管理需要跨機(jī)構(gòu)學(xué)術(shù)團(tuán)隊的合作,啟動資金、管理人員都比較缺乏,從而許多由個人或?qū)W術(shù)團(tuán)體組建的獨(dú)立知識庫逐漸向機(jī)構(gòu)化運(yùn)營方向轉(zhuǎn)變。因此,由某一學(xué)科領(lǐng)域內(nèi)具有較高影響力的機(jī)構(gòu)出面組建基于該學(xué)科的跨機(jī)構(gòu)知識庫聯(lián)盟將成為可行的學(xué)科知識庫運(yùn)營方式,這樣既能滿足學(xué)科資源的交流和傳播,也保障了學(xué)科知識庫的可持續(xù)發(fā)展。
(3) 學(xué)科知識庫的發(fā)展應(yīng)遵循本學(xué)科學(xué)術(shù)交流傳統(tǒng)。物理學(xué)、數(shù)學(xué)領(lǐng)域的學(xué)科知識庫arXiv取得成功后,出現(xiàn)了許多基于arXiv模式的其他領(lǐng)域的學(xué)科知識庫,由于各學(xué)科的學(xué)術(shù)研究和傳播差異,arXiv模式不能完全照搬。如生物學(xué)、醫(yī)學(xué)領(lǐng)域的PMC,起源于E-biomed項目,為模仿arXiv模式進(jìn)行生物學(xué)、化學(xué)、醫(yī)藥等領(lǐng)域預(yù)印本和后印本的在線存儲和傳播,但物理學(xué)領(lǐng)域可行的預(yù)印本傳播模式顯然不適合生物學(xué)、醫(yī)學(xué)領(lǐng)域,因該領(lǐng)域與人類生命息息相關(guān),許多專家都擔(dān)心未經(jīng)同行評議的研究成果可能“會對生命造成威脅”[23]。E-biomed項目于2000年重新啟動為PMC,作為后印本存儲中心,專門集中存儲美國國家醫(yī)學(xué)圖書館收錄的專業(yè)期刊正式出版的論文,也允許個別作者在線提交PMC合作機(jī)構(gòu)所贊助發(fā)表的期刊論文。因此,學(xué)科知識庫發(fā)展應(yīng)遵循本學(xué)科的學(xué)術(shù)交流傳統(tǒng)和建設(shè)目的,選擇適合本學(xué)科發(fā)展的學(xué)科知識庫類型。
學(xué)科知識庫的創(chuàng)建與發(fā)展經(jīng)歷了從快速增長到日趨平穩(wěn)的過程,涉及的學(xué)科數(shù)量、資源數(shù)量、資源類型等日益豐富,但仍然存在著諸多不足之處。未來學(xué)科知識庫將向?qū)W科多樣化、資源質(zhì)量優(yōu)質(zhì)化、資源類型多元化的方向發(fā)展,需要在政府支持、政策扶持、管理及運(yùn)營方式優(yōu)化乃至全社會科研人員參與積極性等方面作進(jìn)一步研究與完善,從而保障學(xué)科知識庫的長期穩(wěn)定發(fā)展。