□楊鶴林
隨著計(jì)算機(jī)技術(shù)的大量應(yīng)用,許多科研過(guò)程會(huì)產(chǎn)出海量科學(xué)數(shù)據(jù),科學(xué)數(shù)據(jù)是信息時(shí)代最基本、最活躍、影響面最寬的一種戰(zhàn)略性資源,對(duì)于科技創(chuàng)新具有顯著的支撐作用,從一定角度來(lái)說(shuō),未來(lái)的科研活動(dòng)將是科學(xué)數(shù)據(jù)驅(qū)動(dòng)的科研活動(dòng)。近年來(lái),數(shù)據(jù)監(jiān)護(hù)(Data Curation)服務(wù)在美國(guó)高校圖書館中日益興起,此處的“數(shù)據(jù)”專指科學(xué)數(shù)據(jù)而非計(jì)算機(jī)科學(xué)中所指以數(shù)字化形式編碼的數(shù)據(jù),美國(guó)國(guó)家科學(xué)基金會(huì)在專門扶持?jǐn)?shù)據(jù)監(jiān)護(hù)服務(wù)的數(shù)據(jù)網(wǎng)(DataNet)計(jì)劃中,將數(shù)據(jù)定義為“所有能以數(shù)字化形式存儲(chǔ)并能以電子方式獲取的信息,包括數(shù)字、文本、出版物、感應(yīng)器讀數(shù)流、視頻、音頻、算法、軟件、模型、模擬、圖像等?!保?]數(shù)據(jù)監(jiān)護(hù)不是單純對(duì)這些數(shù)據(jù)進(jìn)行存儲(chǔ),而是在數(shù)據(jù)供學(xué)術(shù)、科學(xué)及教育所用的生命周期內(nèi)對(duì)其進(jìn)行持續(xù)管理的活動(dòng),通過(guò)評(píng)價(jià)、篩選、重現(xiàn)及組織數(shù)據(jù)以供當(dāng)前科研活動(dòng)獲取,并能用于未來(lái)再發(fā)現(xiàn)及再利用。
數(shù)據(jù)階段型存儲(chǔ)庫(kù)(Data Staging Repository,DataStaR)是康奈爾大學(xué)圖書館的一項(xiàng)主要針對(duì)本校學(xué)者的數(shù)據(jù)監(jiān)護(hù)服務(wù),其以機(jī)構(gòu)庫(kù)為基礎(chǔ),力圖扮演學(xué)術(shù)界共享數(shù)據(jù)集時(shí)的一個(gè)暫時(shí)的、過(guò)渡性質(zhì)的存儲(chǔ)節(jié)點(diǎn),其設(shè)想是建設(shè)成為一個(gè)數(shù)據(jù)監(jiān)護(hù)平臺(tái)及一套完整服務(wù)方案,擁有可產(chǎn)生多種格式的高質(zhì)量元數(shù)據(jù)的工具,由圖書館員負(fù)責(zé)操作,通過(guò)協(xié)助學(xué)者完善數(shù)據(jù)和元數(shù)據(jù)來(lái)促進(jìn)共享,最終積極幫助他們向各自領(lǐng)域的學(xué)科庫(kù)發(fā)布數(shù)據(jù)成果,供長(zhǎng)期使用和保存[2]。DataStaR不但是具體數(shù)據(jù)監(jiān)護(hù)服務(wù)的典型案例,還體現(xiàn)出當(dāng)前美國(guó)高校圖書館對(duì)機(jī)構(gòu)庫(kù)建設(shè)的一些新思路,非常值得了解。
作為校園信息基礎(chǔ)的有機(jī)組成元素,機(jī)構(gòu)庫(kù)(Institutional Repository)已發(fā)展多年,在最初的愿景中,圖書館界普遍希望機(jī)構(gòu)庫(kù)可以完成兩大任務(wù):一是實(shí)現(xiàn)研究成果的開放存取,克服現(xiàn)有學(xué)術(shù)交流模式的弊端,二是長(zhǎng)期保存機(jī)構(gòu)的研究成果,借此體現(xiàn)機(jī)構(gòu)學(xué)術(shù)聲望、學(xué)術(shù)水平和社會(huì)價(jià)值。
到2011年7月,OpenDOAR上收錄的機(jī)構(gòu)庫(kù)突破2000個(gè)。然而在數(shù)量不斷增加的同時(shí),不少研究者也發(fā)現(xiàn)最初美好的構(gòu)思并沒(méi)有獲得用戶充分認(rèn)同,與頻頻受到學(xué)者青睞的學(xué)科庫(kù)、協(xié)會(huì)庫(kù)相反,薩洛(Salo)形容機(jī)構(gòu)庫(kù)是學(xué)者不在意,圖書情報(bào)專業(yè)不教學(xué),甚至圖書館員也不了解[3];機(jī)構(gòu)庫(kù)定位模糊、服務(wù)缺失、用戶參與度不高等問(wèn)題對(duì)人們的信心造成了嚴(yán)重沖擊,甚至有人表示“沒(méi)有什么建設(shè)像機(jī)構(gòu)庫(kù)一樣,承諾如此多,效果如此差”[4]。面對(duì)嚴(yán)峻的現(xiàn)狀,如何發(fā)展機(jī)構(gòu)庫(kù),如何使機(jī)構(gòu)庫(kù)在學(xué)術(shù)界獲得認(rèn)可,將是對(duì)圖書館智慧的考驗(yàn)。
目前,類似人類基因組計(jì)劃的大型科學(xué)研究項(xiàng)目由于組織縝密,都有完善的數(shù)據(jù)保存利用政策,基因庫(kù)(GenBank)就是其成果之一。在國(guó)家層面上,對(duì)專業(yè)科研系統(tǒng)獲得的數(shù)據(jù)也有對(duì)應(yīng)機(jī)構(gòu)進(jìn)行處理,中科院自1982年便開始了“中科院科學(xué)數(shù)據(jù)庫(kù)”項(xiàng)目,現(xiàn)已經(jīng)成為國(guó)內(nèi)信息量最大、服務(wù)層次最高的綜合性科學(xué)數(shù)據(jù)系統(tǒng);中國(guó)科技部也于2002年啟動(dòng)了“國(guó)家科學(xué)數(shù)據(jù)共享工程”建設(shè),引發(fā)了科學(xué)數(shù)據(jù)共享研究的熱潮。
與之形成鮮明對(duì)比的是,大量高校學(xué)者所承擔(dān)的“小科學(xué)”(Small Science)卻因分布散、規(guī)模小而長(zhǎng)期是數(shù)據(jù)管理的盲區(qū),這些項(xiàng)目通常只有數(shù)名學(xué)者參與,產(chǎn)生的數(shù)據(jù)存放在個(gè)人電腦里,既沒(méi)有統(tǒng)一標(biāo)準(zhǔn),也沒(méi)有分享機(jī)制,更缺乏長(zhǎng)期利用策略。海登(Heidorn)對(duì)2007年美國(guó)國(guó)家科學(xué)基金會(huì)批準(zhǔn)項(xiàng)目的調(diào)查顯示,當(dāng)年共撥款28.7億美元資助12025個(gè)項(xiàng)目,其中獲撥款排名前20%的項(xiàng)目占據(jù)六成經(jīng)費(fèi),剩余四成經(jīng)費(fèi)資助了多達(dá)9621個(gè)項(xiàng)目,最小一項(xiàng)只獲得591美元。這些小項(xiàng)目根本不可能有充裕的人力財(cái)力來(lái)處理產(chǎn)生的數(shù)據(jù),海登稱其為“暗數(shù)據(jù)”[5]。小科學(xué)是人們認(rèn)識(shí)和了解特定局部事物的重要手段,長(zhǎng)期忽視小科學(xué)的數(shù)據(jù)是非常不合理的,隨著計(jì)算機(jī)技術(shù)、互聯(lián)網(wǎng)技術(shù)、數(shù)字化存儲(chǔ)技術(shù)的發(fā)展,海量科學(xué)數(shù)據(jù)的數(shù)字化和網(wǎng)絡(luò)化成為可能。美國(guó)越來(lái)越多的基金機(jī)構(gòu)要求資助的項(xiàng)目發(fā)布數(shù)據(jù),如國(guó)立健康研究院就從2003年起規(guī)定年度預(yù)算達(dá)到50萬(wàn)美元的項(xiàng)目在申請(qǐng)時(shí)必須制定數(shù)據(jù)發(fā)布方案。
金融危機(jī)以來(lái),美國(guó)不少高校和基金會(huì)紛紛削減開支、減少資助。圖書館作為服務(wù)大戶,受到了很大沖擊。面對(duì)嚴(yán)峻的形勢(shì),通過(guò)更新服務(wù)內(nèi)容、提升服務(wù)效果體現(xiàn)自身存在價(jià)值,避免被學(xué)術(shù)圈邊緣化成為許多高校圖書館的當(dāng)務(wù)之急。小科學(xué)日益高漲的數(shù)據(jù)監(jiān)護(hù)需求與服務(wù)缺失的矛盾使高校圖書館看到了機(jī)會(huì):作為一個(gè)長(zhǎng)期穩(wěn)定的信息機(jī)構(gòu),圖書館通過(guò)數(shù)據(jù)監(jiān)護(hù)服務(wù),可以為小科學(xué)提供一整套可靠的數(shù)據(jù)交流、發(fā)布和保存解決方案。2007年后,美國(guó)多家高校圖書館陸續(xù)開始了數(shù)據(jù)監(jiān)護(hù)服務(wù)的探索:除DataStaR外,新墨西哥大學(xué)圖書館主持的地球數(shù)據(jù)觀測(cè)網(wǎng)(Data Observation Network for Earth,DataONE)項(xiàng)目關(guān)注地球影像數(shù)據(jù),約翰·霍普金斯大學(xué)圖書館主持的數(shù)據(jù)保育(Data Conservancy)項(xiàng)目關(guān)注天文數(shù)據(jù),這兩個(gè)項(xiàng)目各獲得國(guó)家科學(xué)基金會(huì)高達(dá)2000萬(wàn)美元的資助。還有調(diào)查數(shù)據(jù)監(jiān)護(hù)需求的伊利諾伊大學(xué)數(shù)據(jù)監(jiān)護(hù)基礎(chǔ)信息(Data Curation Profiles)項(xiàng)目;設(shè)計(jì)數(shù)據(jù)監(jiān)護(hù)課程的北卡羅來(lái)納大學(xué)數(shù)據(jù)化監(jiān)護(hù)課程(Digital Curation Curriculum,DigCCurr)項(xiàng)目;探索“數(shù)據(jù)館員”職業(yè)規(guī)劃的普渡大學(xué)圖書館的分布式數(shù)護(hù)監(jiān)護(hù)中心(Distributed Data Curation Center,D2C2)項(xiàng)目等。
早在2003年就有調(diào)查指出,許多學(xué)科沒(méi)有數(shù)據(jù)存儲(chǔ)庫(kù),研究人員無(wú)法很好地存儲(chǔ)、分享、發(fā)布數(shù)據(jù),而即使如天文學(xué)、物理學(xué)等少數(shù)已經(jīng)有較完善數(shù)據(jù)存儲(chǔ)庫(kù)的學(xué)科,學(xué)者仍不善使用,甚至完全不會(huì)用[6]。
在DataStaR前,康奈爾大學(xué)圖書館已經(jīng)有一些較成功的數(shù)據(jù)發(fā)布項(xiàng)目,如康奈爾地理空間信息庫(kù)(the Cornell University Geospatial Information Repository,CUGIR)和美國(guó)農(nóng)業(yè)部經(jīng)濟(jì)、統(tǒng)計(jì)與市場(chǎng)信息系統(tǒng)(the USDA Economics,Statistics and Marketing Information System,USDA-ESMIS),兩者都是由國(guó)家科學(xué)基金會(huì)全額資助的學(xué)科數(shù)據(jù)存儲(chǔ)庫(kù)。圖書館通過(guò)這些項(xiàng)目可評(píng)估自身協(xié)助學(xué)者進(jìn)行數(shù)據(jù)歸檔和整理的可行性,尤其在USDA-ESMIS中,圖書館員需要處理的數(shù)據(jù)往往是少量多批的,這就使得每次任務(wù)都比較個(gè)性化,需要跟學(xué)者反復(fù)溝通。為了提高效率,圖書館員開始萌生出摸索一套更規(guī)范、更便捷也更具可持續(xù)性的標(biāo)準(zhǔn)化解決方案以協(xié)助跨項(xiàng)目組、跨專業(yè)交流。澳大利亞莫納什大學(xué)圖書館的全局式監(jiān)護(hù)(Curation Continuum)項(xiàng)目曾論證過(guò)數(shù)據(jù)的使用可以分為發(fā)布前共享環(huán)境及更正式的發(fā)布后長(zhǎng)期保存環(huán)境,這兩個(gè)環(huán)境間的交互階段有一個(gè)素材傳遞的過(guò)程[7]。這個(gè)交互階段也被康奈爾大學(xué)圖書館所意識(shí)到,并將其作為DataStaR的切入點(diǎn),利用機(jī)構(gòu)庫(kù)這個(gè)成熟的平臺(tái)探索圖書館員-學(xué)者互動(dòng)規(guī)律,以及機(jī)構(gòu)庫(kù)如何在實(shí)現(xiàn)數(shù)據(jù)監(jiān)護(hù)中發(fā)揮作用。
康奈爾的圖書館員通過(guò)調(diào)查發(fā)現(xiàn),合作過(guò)的學(xué)者對(duì)數(shù)據(jù)監(jiān)護(hù)確實(shí)有不少需求,這使得圖書館確信主動(dòng)開展合作能給雙方都帶來(lái)切實(shí)收獲。從調(diào)查結(jié)果來(lái)看,學(xué)者對(duì)數(shù)據(jù)監(jiān)護(hù)的需求五花八門,最常見(jiàn)的幾點(diǎn)有:
·需要一個(gè)協(xié)作空間以便科研過(guò)程中分享數(shù)據(jù);
·需要協(xié)助確認(rèn)共享時(shí)應(yīng)該分享原始的還是加工后的數(shù)據(jù)、是完整的還是重點(diǎn)的數(shù)據(jù);
· 需要在期刊不提供發(fā)布途徑時(shí),依科研資助者要求完成數(shù)據(jù)發(fā)布;
· 需要了解下階段用戶如何使用數(shù)據(jù),避免誤讀、誤用。
還有些學(xué)者干脆想知道別人使用他們的數(shù)據(jù)后做出了什么新成果,有些人希望后繼使用者能在發(fā)表成果時(shí)注明原始數(shù)據(jù)源及其所屬資助項(xiàng)目名稱等等。當(dāng)然DataStaR也許無(wú)法滿足所有要求,但這些需求也確實(shí)反映出學(xué)者普遍覺(jué)得靠自身去處理數(shù)據(jù)有些力不從心,發(fā)展一個(gè)本地的、階段型的數(shù)據(jù)發(fā)布方案是很值得研究的事情[8]。
DataStaR系統(tǒng)主要由4部分構(gòu)成:
· 基于Fedora的數(shù)據(jù)集存儲(chǔ)庫(kù);
· 基于Vitro的語(yǔ)義元數(shù)據(jù)存儲(chǔ)庫(kù);
· 用于對(duì)文件格式進(jìn)行批量自動(dòng)識(shí)別的開源工具:數(shù)字記錄目標(biāo)識(shí)別程序(Digital Record Object Identification,DROID,由英國(guó)國(guó)家檔案局開發(fā));
·用于向外部永久存儲(chǔ)庫(kù)傳輸文件的內(nèi)容轉(zhuǎn)移協(xié)議——面向存儲(chǔ)的簡(jiǎn)單網(wǎng)絡(luò)服務(wù)協(xié)議(Simple Web Service Offering Repository Deposit,SWORD,由英國(guó)JISC資助開發(fā))。
以一位生態(tài)學(xué)者研究某物種的分布為例,操作流程大致如下:用戶首先將野外觀測(cè)數(shù)據(jù)匯總,然后錄入一個(gè)電子表格成為數(shù)據(jù)集。她將電子表格上傳到DataStaR,此時(shí)系統(tǒng)會(huì)根據(jù)用戶注冊(cè)時(shí)填寫的信息以及檢測(cè)到的文件格式自動(dòng)生成一些基本元數(shù)據(jù),用戶只需補(bǔ)充一項(xiàng)描述信息的元數(shù)據(jù)并設(shè)定他人訪問(wèn)權(quán)限。
上傳時(shí),用戶選定一個(gè)未來(lái)發(fā)布的目標(biāo)庫(kù),系統(tǒng)會(huì)根據(jù)目標(biāo)庫(kù)的要求,生成合適的元數(shù)據(jù)表單供用戶填寫;若選擇“待定”,則要填寫一些額外的元數(shù)據(jù)供備用。隨著數(shù)據(jù)集不斷豐富,最終還可生成顯示物種分布情況的地理信息系統(tǒng)(GIS)數(shù)據(jù)集,DataStaR的圖書館員在這一過(guò)程中根據(jù)生態(tài)學(xué)及GIS數(shù)據(jù)存儲(chǔ)庫(kù)的不同標(biāo)準(zhǔn),協(xié)助學(xué)者決定應(yīng)該共享哪些數(shù)據(jù),整理和格式化數(shù)據(jù),創(chuàng)建高質(zhì)量元數(shù)據(jù)等。
決定哪些數(shù)據(jù)應(yīng)該共享以及如何組織,在一定程度上根據(jù)預(yù)期用戶而定。就生態(tài)學(xué)來(lái)說(shuō),一般預(yù)期數(shù)據(jù)將會(huì)用于反復(fù)分析,或集合多位研究人員的數(shù)據(jù)進(jìn)行對(duì)比,故加工后的數(shù)據(jù)集就比原始觀測(cè)數(shù)據(jù)更有用。至于元數(shù)據(jù),一些元數(shù)據(jù)很容易理解和完成,另一些則可能需要專業(yè)知識(shí)或?qū)唧w要求進(jìn)行仔細(xì)研讀才能完成。目前圖書館員協(xié)助學(xué)者創(chuàng)建元數(shù)據(jù)中最重大的作用就是準(zhǔn)確賦予受控詞和主題詞、知識(shí)產(chǎn)權(quán)申明的書面表述、撰寫地理坐標(biāo)等特殊元素的規(guī)范表達(dá)等。DataStaR雖然不承擔(dān)數(shù)據(jù)集長(zhǎng)期保存任務(wù),但它會(huì)對(duì)數(shù)據(jù)集的元數(shù)據(jù)進(jìn)行備份,這些高質(zhì)量的元數(shù)據(jù)可供學(xué)者未來(lái)反復(fù)使用,也是其提高用戶忠誠(chéng)度的重要手段之一。
科研結(jié)束時(shí),用戶和圖書館員一同核對(duì)元數(shù)據(jù)和數(shù)據(jù),將整理好的數(shù)據(jù)集發(fā)布到一個(gè)生態(tài)學(xué)的學(xué)科庫(kù),如CUGIR;將相應(yīng)的GIS數(shù)據(jù)集發(fā)布到紐約州立GIS數(shù)據(jù)交流中心,最后將兩個(gè)數(shù)據(jù)集的備份存儲(chǔ)到康奈爾大學(xué)圖書館自己的機(jī)構(gòu)庫(kù)eCommons里。數(shù)據(jù)從DataStaR流動(dòng)到外部學(xué)科庫(kù)的機(jī)制可自動(dòng)亦可手動(dòng),視目標(biāo)庫(kù)的結(jié)構(gòu)和要求決定。當(dāng)向eCommons發(fā)布數(shù)據(jù)集時(shí),系統(tǒng)可從早前提交的學(xué)科記錄中提取必要元數(shù)據(jù)并自動(dòng)生成到機(jī)構(gòu)庫(kù)中,然后將數(shù)據(jù)集和作為支撐材料的學(xué)科記錄一起存入;向生態(tài)學(xué)科專門數(shù)據(jù)存儲(chǔ)庫(kù)發(fā)布的工作也是自動(dòng)完成,但向紐約州立GIS數(shù)據(jù)交流中心提交時(shí)則由于政策規(guī)定,必須由圖書館員人工操作[9]。DataStaR的構(gòu)成和運(yùn)作流程見(jiàn)圖1。
圖1 DataStaR模型
DataStaR最主要的服務(wù)對(duì)象是康奈爾大學(xué)的學(xué)者,這一點(diǎn)跟傳統(tǒng)的機(jī)構(gòu)庫(kù)類似。但是,其主要任務(wù)是促進(jìn)數(shù)據(jù)向長(zhǎng)期存儲(chǔ)庫(kù)(如學(xué)科庫(kù))流動(dòng),對(duì)自身的定位是一個(gè)短期的、暫時(shí)性的數(shù)據(jù)集存儲(chǔ)點(diǎn)和可靠的服務(wù)伙伴。這種階段型定位使DataStaR兼有一般機(jī)構(gòu)庫(kù)和學(xué)科庫(kù)的特征,具體見(jiàn)表1。
DataStaR與機(jī)構(gòu)庫(kù)一樣,重點(diǎn)服務(wù)于本地機(jī)構(gòu);沒(méi)有提供過(guò)多的數(shù)據(jù)分析、使用方面的工具,比如可視化統(tǒng)計(jì)軟件、數(shù)據(jù)抓取軟件等;沒(méi)有為終端用戶提供存儲(chǔ)內(nèi)容方面的服務(wù);沒(méi)有針對(duì)學(xué)者的強(qiáng)制性存儲(chǔ)要求。在其他方面,DataStaR又具備一些學(xué)科庫(kù)的功能:機(jī)構(gòu)庫(kù)的初衷是管理文檔而非數(shù)據(jù),一些學(xué)科庫(kù)則一開始就把目標(biāo)對(duì)準(zhǔn)了數(shù)據(jù)。學(xué)科庫(kù)通常都有各自特定的元數(shù)據(jù)標(biāo)準(zhǔn),而DataStaR由于面向多學(xué)科的用戶,所以可以支持好幾種元數(shù)據(jù)標(biāo)準(zhǔn)。學(xué)科庫(kù)都要求發(fā)布的數(shù)據(jù)格式化,DataStaR就會(huì)主動(dòng)幫助數(shù)據(jù)提供者根據(jù)那些要求來(lái)完善并提交數(shù)據(jù)。
表1 DataStaR與機(jī)構(gòu)庫(kù)、學(xué)科庫(kù)特征對(duì)比
在機(jī)構(gòu)庫(kù)興起時(shí),許多人將機(jī)構(gòu)庫(kù)和開放獲取等同起來(lái),視其為變革學(xué)術(shù)傳播方式的利器,哈內(nèi)德(Harnad)早在1994年就發(fā)出過(guò)顛覆性的論點(diǎn),呼吁所有學(xué)者都應(yīng)該把他們的論文在開放存取庫(kù)中發(fā)布,通過(guò)共同努力打破出版商利用經(jīng)濟(jì)手段設(shè)置的信息壁壘[10]。但隨后的機(jī)構(gòu)庫(kù)實(shí)踐卻顯示了用戶和圖書館員在這一認(rèn)識(shí)上存在差異,戴維斯(Davis)描述到:“在康奈爾大學(xué),一些被圖書館員看得心急火燎的學(xué)術(shù)交流問(wèn)題,例如文獻(xiàn)開放獲取,許多學(xué)者卻覺(jué)得無(wú)關(guān)痛癢,每個(gè)學(xué)科都有自己的學(xué)術(shù)小圈子,很大程度上取決于科研激勵(lì)機(jī)制以及傳統(tǒng)?!保?1]如果機(jī)構(gòu)庫(kù)希望解決的問(wèn)題在學(xué)者看來(lái)不感興趣,那關(guān)注度如此低也就不足為奇了。學(xué)者在長(zhǎng)期形成的學(xué)術(shù)圈中有各自的交流渠道,如參加協(xié)會(huì)、出席會(huì)議、出版商贈(zèng)閱等,至少現(xiàn)階段對(duì)全面開放獲取的需求尚不很迫切。喬赫利(Choudhury)指出,學(xué)者愿意向美國(guó)國(guó)家生物技術(shù)信息中心(NCBI)的PubMed Central數(shù)據(jù)庫(kù)提交文獻(xiàn),卻忽視自己學(xué)校機(jī)構(gòu)庫(kù)的原因,不僅因?yàn)镹CBI是重要的科研資助機(jī)構(gòu),更重要的是向PubMed Central提交就意味著進(jìn)入了當(dāng)前運(yùn)作中的學(xué)術(shù)出版流程,在學(xué)術(shù)圈內(nèi)獲得了認(rèn)可[12]。
其實(shí),機(jī)構(gòu)庫(kù)和開放獲取互為部分,開放獲取只是機(jī)構(gòu)庫(kù)服務(wù)的一部分,其最終實(shí)現(xiàn)有賴于整個(gè)學(xué)術(shù)體制的變革,這將是一個(gè)較為長(zhǎng)期的過(guò)程,寄望短期內(nèi)以機(jī)構(gòu)庫(kù)去挑戰(zhàn)已確立數(shù)個(gè)世紀(jì)的學(xué)術(shù)發(fā)布和交流圈,無(wú)異于堂吉訶德對(duì)陣風(fēng)車,這樣過(guò)于急切的愿景反而使機(jī)構(gòu)庫(kù)不堪重荷。DataStaR就體現(xiàn)出圖書館這種思路轉(zhuǎn)變:不再將強(qiáng)硬的開放獲取作為核心戰(zhàn)略,用戶對(duì)上傳的初始數(shù)據(jù)集可以自行調(diào)整甚至刪除,可能永遠(yuǎn)也不會(huì)用于正式發(fā)布;用戶也可以根據(jù)個(gè)人需要和意愿自行設(shè)定共享范圍,可以是課題組成員、本校用戶,也可以對(duì)公眾公開;最重要的是,在數(shù)據(jù)發(fā)布時(shí),DataStaR也不承擔(dān)開放獲取任務(wù),而交由為學(xué)術(shù)圈普遍認(rèn)可的學(xué)科庫(kù)完成。
自機(jī)構(gòu)庫(kù)建設(shè)開展以來(lái),學(xué)者參與度偏低的問(wèn)題始終困擾著建設(shè)者,麥克道爾(McDowell)表示:“在大多數(shù)機(jī)構(gòu)庫(kù)都是每天僅一件的增長(zhǎng)率下,估計(jì)可預(yù)見(jiàn)的未來(lái)里美國(guó)機(jī)構(gòu)庫(kù)都無(wú)法顯著促進(jìn)開放獲取,也難以改變學(xué)術(shù)傳播模式?!保?3]。為了促使學(xué)者使用機(jī)構(gòu)庫(kù),相當(dāng)一部分人認(rèn)為要狠抓強(qiáng)制提交制度,例如哈內(nèi)德(Harnad)就不客氣地指出只要康奈爾大學(xué)圖書館規(guī)定強(qiáng)制提交就能解決所有問(wèn)題[14]。筆者認(rèn)為,此類觀點(diǎn)實(shí)際上是在回避關(guān)鍵問(wèn)題:為何自愿提交率如此之低?當(dāng)要學(xué)者們自己選擇時(shí),很多人并不情愿花時(shí)間向機(jī)構(gòu)庫(kù)提交資源。
約翰遜(Johnson)指出:學(xué)者的個(gè)人發(fā)展與當(dāng)前出版體系緊密關(guān)聯(lián),在他們認(rèn)可的交流圈中發(fā)布成果遠(yuǎn)比機(jī)構(gòu)庫(kù)效果好[15]。馬克(Mark)的調(diào)查也支持這種論斷,他對(duì)康奈爾大學(xué)早期的機(jī)構(gòu)庫(kù)DSpace進(jìn)行過(guò)使用調(diào)查,發(fā)現(xiàn)幾乎未被本校學(xué)者了解,收集的論文數(shù)量非常少,有些院系板塊甚至沒(méi)有任何實(shí)質(zhì)內(nèi)容。多數(shù)學(xué)者還是習(xí)慣于使用自認(rèn)為比機(jī)構(gòu)庫(kù)更具學(xué)術(shù)價(jià)值和更高認(rèn)知度的學(xué)科庫(kù)[16]。一味強(qiáng)硬不可能使機(jī)構(gòu)庫(kù)成功發(fā)展下去,重要的是認(rèn)真研究用戶需求,靈活調(diào)整存儲(chǔ)策略,使機(jī)構(gòu)庫(kù)成為整個(gè)學(xué)術(shù)環(huán)境中的一份子,而不是一個(gè)被邊緣化的孤立實(shí)體。機(jī)構(gòu)庫(kù)應(yīng)當(dāng)尊重學(xué)者的使用習(xí)慣,改變視學(xué)科庫(kù)為“對(duì)手”的傳統(tǒng)觀念,化競(jìng)爭(zhēng)為合作,建立一種更實(shí)際的伙伴關(guān)系。DataStaR就顯現(xiàn)出一種富有彈性的存儲(chǔ)政策:它沒(méi)有強(qiáng)制學(xué)者提交數(shù)據(jù),也沒(méi)有規(guī)定數(shù)據(jù)集只能發(fā)布到康奈爾大學(xué)圖書館的eCommons中,而是在完成數(shù)據(jù)監(jiān)護(hù)后,懇請(qǐng)學(xué)者同時(shí)在學(xué)科庫(kù)和機(jī)構(gòu)庫(kù)中都發(fā)布成果。通過(guò)數(shù)據(jù)監(jiān)護(hù),用戶享受到了圖書館實(shí)實(shí)在在的服務(wù),也順利地在學(xué)術(shù)圈中發(fā)布了成果,毫無(wú)例外地都樂(lè)于在eCommons里對(duì)數(shù)據(jù)集進(jìn)行二次發(fā)布和備份。這一柔性政策既避免了強(qiáng)制提交的不愉快,又豐富了機(jī)構(gòu)庫(kù)藏品,充分體現(xiàn)出對(duì)學(xué)術(shù)圈和學(xué)者個(gè)人的尊重,博得了用戶好感和忠誠(chéng)度。
近年來(lái)機(jī)構(gòu)庫(kù)熱潮席卷美國(guó)高校圖書館,但其中不乏視其為一種館藏或純粹爭(zhēng)取經(jīng)費(fèi)之舉,許多機(jī)構(gòu)庫(kù)只是一味收集校內(nèi)學(xué)術(shù)成果,至多是個(gè)“網(wǎng)上文庫(kù)”而已??的螤柎髮W(xué)圖書館也稱自己的舊機(jī)構(gòu)庫(kù)DSpace“像個(gè)鄉(xiāng)村圖書館的地下室,堆積著落滿灰塵的舊文件。”[17]喬赫利(Choudhury)認(rèn)為學(xué)者對(duì)機(jī)構(gòu)庫(kù)不感興趣的一個(gè)重要原因是機(jī)構(gòu)庫(kù)提供的存儲(chǔ)功能只涉及科研過(guò)程終端產(chǎn)品,用戶實(shí)際上已經(jīng)完成了自己的工作。為此他倡議機(jī)構(gòu)庫(kù)要推出能切入到科研起點(diǎn),進(jìn)而惠及整個(gè)科研流程的新服務(wù)[18]。
DataStaR正是機(jī)構(gòu)庫(kù)“回到科研流程中”的一次嘗試,它關(guān)注的不是改變學(xué)術(shù)出版體系,而是機(jī)構(gòu)庫(kù)如何能成為支持?jǐn)?shù)據(jù)密集型學(xué)術(shù)的新形式。圖書館已經(jīng)意識(shí)到數(shù)據(jù)對(duì)科研的重要驅(qū)動(dòng)力和再利用價(jià)值,開展數(shù)據(jù)監(jiān)護(hù)正是面向科研流程的新服務(wù)。美國(guó)國(guó)家科學(xué)基金會(huì)在考察提交申請(qǐng)的數(shù)據(jù)監(jiān)護(hù)項(xiàng)目時(shí),指明收藏?cái)?shù)據(jù)只是服務(wù)切入點(diǎn),對(duì)數(shù)據(jù)進(jìn)行監(jiān)護(hù),使之可供再利用或跨學(xué)科新利用才是最根本目的。這要求圖書館必須從“以藏為主”轉(zhuǎn)變?yōu)橐粋€(gè)活躍的科研代理人,為科研數(shù)據(jù)交流、知識(shí)共享提供機(jī)會(huì)和橋梁。學(xué)者改變學(xué)術(shù)交流習(xí)慣的動(dòng)力并非機(jī)構(gòu)強(qiáng)迫,而來(lái)自于數(shù)據(jù)監(jiān)護(hù)的新需求,這對(duì)他們來(lái)說(shuō)是個(gè)緊迫的問(wèn)題。機(jī)構(gòu)庫(kù)可以成為容納數(shù)據(jù)的倉(cāng)儲(chǔ),更進(jìn)一步說(shuō),機(jī)構(gòu)庫(kù)可成為整個(gè)數(shù)據(jù)監(jiān)護(hù)戰(zhàn)略的一個(gè)重要部分。
隨著科研項(xiàng)目規(guī)模擴(kuò)大和內(nèi)容深入,許多問(wèn)題需要多方參與者共同處理?;ヂ?lián)網(wǎng)正是當(dāng)今協(xié)同工作的優(yōu)良載體,學(xué)者利用網(wǎng)絡(luò)交流知識(shí)、傳輸文件,逐漸形成所謂的“虛擬社區(qū)”。社區(qū)可以為分享信息和解決問(wèn)題提供便利,凸顯出協(xié)作網(wǎng)絡(luò)在將原有那種松散的耦合系統(tǒng)發(fā)展為有序的跨界網(wǎng)絡(luò)中不可或缺的地位。圖書館在總結(jié)過(guò)往機(jī)構(gòu)庫(kù)建設(shè)的經(jīng)驗(yàn)教訓(xùn)時(shí),體會(huì)到人氣的重要性,而為學(xué)者創(chuàng)造穩(wěn)定的網(wǎng)上社區(qū)無(wú)疑是凝聚人氣、提高機(jī)構(gòu)庫(kù)認(rèn)同感的好方法。
就數(shù)據(jù)監(jiān)護(hù)服務(wù)來(lái)看,前述DataNet這類受國(guó)家資助的數(shù)據(jù)監(jiān)護(hù)計(jì)劃都有大型社區(qū),其他區(qū)域性、中小型社區(qū)也如雨后春筍般在許多圖書館項(xiàng)目中出現(xiàn)。在康奈爾大學(xué),為了進(jìn)一步推廣DataStaR和數(shù)據(jù)監(jiān)護(hù),圖書館于2008年7月創(chuàng)建了一個(gè)研究數(shù)據(jù)管理服務(wù)組(The DISCOVER Research Service Group,DRSG),成員包括學(xué)者、計(jì)算機(jī)專家、圖書館員和來(lái)自Fedora Commons社區(qū)的機(jī)構(gòu)庫(kù)建設(shè)者,DRSG通過(guò)開發(fā)用于數(shù)據(jù)監(jiān)護(hù)的軟件,為學(xué)者們提供方便的數(shù)據(jù)監(jiān)護(hù)、保存方案,推動(dòng)項(xiàng)目組之間的協(xié)作、促進(jìn)數(shù)據(jù)的跨學(xué)科利用,最終在康奈爾校園內(nèi)建設(shè)一個(gè)繁榮的數(shù)據(jù)監(jiān)護(hù)虛擬平臺(tái)。目前DRSG已經(jīng)和天文學(xué)、物理學(xué)、信息科學(xué)、農(nóng)學(xué)和鳥類學(xué)等多個(gè)學(xué)科院系建立了聯(lián)系并在不斷擴(kuò)大中[19]。
從全美高校的高度看,甚至有一些更可喜的進(jìn)展,一些機(jī)構(gòu)庫(kù)的用戶在認(rèn)識(shí)到數(shù)據(jù)監(jiān)護(hù)的重要性后,組成了“自下而上”的自發(fā)性社區(qū),如約翰霍普金斯大學(xué)DuraSpace項(xiàng)目中產(chǎn)生的數(shù)據(jù)監(jiān)護(hù)處理社區(qū)(Data Curation Solution Community)便是一個(gè),其組織格言為“復(fù)雜系統(tǒng)在適當(dāng)條件下自會(huì)產(chǎn)生規(guī)律”。并進(jìn)一步指出:“數(shù)據(jù)監(jiān)護(hù)應(yīng)支持自然科學(xué)及人文科學(xué)中產(chǎn)生的新形式研究與學(xué)習(xí)。在推廣數(shù)據(jù)監(jiān)護(hù)時(shí),要廣泛調(diào)研專業(yè)學(xué)者及普通用戶的需求。”[20]另一個(gè)屬于北卡羅來(lái)納大學(xué)的DigCCurr項(xiàng)目的數(shù)字化監(jiān)護(hù)交流社區(qū)(Digital Curation Exchange)也有類似的組織目標(biāo):“為參與者、研究者、教育者、學(xué)生構(gòu)建數(shù)據(jù)監(jiān)護(hù)活動(dòng)中心?!保?1]圖書館通過(guò)積極參與和引導(dǎo)這些自發(fā)社區(qū),在推廣機(jī)構(gòu)庫(kù)和數(shù)據(jù)監(jiān)護(hù)方面取得了良好的進(jìn)展。
目前,DataStaR已經(jīng)和康奈爾大學(xué)內(nèi)多個(gè)項(xiàng)目組、科考站和實(shí)驗(yàn)室建立了良好的長(zhǎng)期合作關(guān)系,還為不少學(xué)者創(chuàng)建了個(gè)人數(shù)據(jù)空間,截止2011年9月,已有多個(gè)項(xiàng)目的39個(gè)數(shù)據(jù)集經(jīng)DataStaR完成高質(zhì)量元數(shù)據(jù)并成功發(fā)布。DataStaR不僅成為美國(guó)國(guó)家科學(xué)基金會(huì)資助的數(shù)據(jù)保育項(xiàng)目的一個(gè)重要建設(shè)者,還獲得不少基金機(jī)構(gòu)的認(rèn)可,獲邀在申報(bào)會(huì)上專門做數(shù)據(jù)監(jiān)護(hù)宣傳。還有一些高校開始采用其系統(tǒng)開發(fā)自己的數(shù)據(jù)監(jiān)護(hù)服務(wù),例如由墨爾本大學(xué)主持的大型項(xiàng)目澳大利亞國(guó)家數(shù)據(jù)服務(wù)(Australian National Data Service,ANDS)[22]。盡管運(yùn)行時(shí)間不算太長(zhǎng),且在實(shí)際工作中仍有一些問(wèn)題,但DataStaR在探索數(shù)據(jù)監(jiān)護(hù)服務(wù)上另辟蹊徑,為機(jī)構(gòu)庫(kù)如何繼續(xù)發(fā)展提供了很大啟示,作為一個(gè)成功的項(xiàng)目,越來(lái)越頻繁地出現(xiàn)在美國(guó)高校圖書館界的學(xué)術(shù)報(bào)告中。前車之鑒,后車之師,美國(guó)圖書館在機(jī)構(gòu)庫(kù)發(fā)展中遇到的問(wèn)題可以為尚不發(fā)達(dá)的中國(guó)高校機(jī)構(gòu)庫(kù)提供參考,而他們?cè)谔幚頇C(jī)構(gòu)庫(kù)的開放獲取、存儲(chǔ)政策、服務(wù)內(nèi)容等問(wèn)題時(shí)所采取的靈活務(wù)實(shí)的態(tài)度,以及新穎的數(shù)據(jù)監(jiān)護(hù)服務(wù),也非常值得中國(guó)高校圖書館借鑒和思考。
1 National Science Board.Long-lived digital data collections.[2010- 07 - 14]. http://www.nsf.gov/pubs/2005/nsb0540/nsb0540.pdf
2 DataStaR.[2011-02-10].http://DataStaR.mannlib.cornell.edu/
3 Salo D.Innkeeper at the Roach Motel.Library Trends,2008(2):98-123
4 Jacobs N.Report of a workshop on research and development priorities to support research data curation.[2011-04-20].http://infteam. jiscinvolve. org/files/2008/05/datacurationwshop20071214.pdf
5 Heidorn P.Shedding Light on the Dark Data in the Long Tail of Science.Library Trends,2008(2):280-299
6 Lord P.Data curation for e-Science in the UK.[2010-07-29].http://www.jisc.ac.uk/uploaded_documents/e-Science Report-Final.pdf
7 Treloar A.The Data Curation Continuum.D-Lib Magazine,2007(9/10).[2010-11-05].http://www.dlib.org/dlib/september07/treloar/09treloar.html
8 Steinhart G.DataStaR:An Institutional Approach to Research Data Curation.IASSIST Quarterly,2009(3-4):34-39
9 Steinhart G.DataStaR:A Data Sharing and Publication Infrastructure to Support Research.Agricultural Information Worldwide,2011(1):16-20
10 Harnad,S.Scholarly Journals at the Crossroads.Chapter 1.Washington D.C.[2011-07-26].http://www.arl.org/scomm/subversive/sub01.html
11 Davis P. Evaluating the Reasons for Non-use of Cornell University's Installation of DSpace.D-Lib Magazine,2007(3/4).[2011-03-12].http://www.dlib.org/dlib/march07/davis/03davis.html
12 Choudhury G.Case study in data curation at Johns Hopkins University.Library Trends,2008(2):211-220
13 McDowell C.Evaluating institutional repository deployment in American academy since early 2005.D-Lib Magazine 2007(9/10).[2011-03-15].http://www.dlib.org/dlib/september07/mcdowell/09mcdowell.html
14 Johnson,R.Institutional repositories:Partnering with faculty to enhance scholarly communication.D-Lib Magazine 2002(11).[2010-12-15].http://www.dlib.org/dlib/november02/johnson/11johnson.html
15 Mark T.Institutional Repositories:a Review of Content Recruitment Strategies.[2010-10-09].http://www.ifla.org/IV/ifla72/papers/155-Mark_Shearer-en.pdf
16 Harnad S.Why Cornell's Institutional Repository Is Near-Empty.[2011-08-15].http://eprints.ecs.soton.ac.uk/13967/
17 eCommons,née DSpace.[2011-09-03].http://www.news.cornell.edu/stories/Aug07/ecommons.ws.html
18 同12:214
19 DRSG.[2011-06-13].http://drsg.cac.cornell.edu/
20 Data Curation Solution Community.[2011-06-16].http://fedora-commons.org/confluence/display/FCCWG/Data+ Curation
21 Digital Curation Exchange.[2011-06-16].http://digitalcurationexchange.org/
22 ANDS.[2010-07-29].http://ands.org.au/