進(jìn)入21世紀(jì),數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)(Data-Intensive Scientific Discovery)研究范式產(chǎn)生,反映了科學(xué)研究的驅(qū)動(dòng)因素已由研究假設(shè)轉(zhuǎn)變?yōu)閿?shù)據(jù)探索,科研數(shù)據(jù)由此成為科學(xué)研究的基礎(chǔ)資源與有力工具。伴隨著數(shù)據(jù)密集型科研活動(dòng)的蓬勃發(fā)展,數(shù)據(jù)管理與共享成為重要議題,國(guó)際上一些科研機(jī)構(gòu)、基金資助機(jī)構(gòu)、期刊紛紛制定政策,要求研究人員將科研數(shù)據(jù)提交至特定的數(shù)據(jù)基礎(chǔ)設(shè)施(Data Infrastructure)。在這一發(fā)展態(tài)勢(shì)下,科研數(shù)據(jù)知識(shí)庫(Research Data Repository,RDR)的價(jià)值和重要性不言而喻。目前科研數(shù)據(jù)知識(shí)庫可劃分為四類[1]:(1)機(jī)構(gòu)科研數(shù)據(jù)知識(shí)庫,如愛丁堡大學(xué)的Edinburgh DataShare、利茲大學(xué)的Research Data Leeds Repository、布里斯托大學(xué)的data.bris Research Data Repository;(2)學(xué)科數(shù)據(jù)知識(shí)庫,如基因序列數(shù)據(jù)庫GenBank、地球科學(xué)數(shù)據(jù)庫PANGAEA;(3)多學(xué)科數(shù)據(jù)知識(shí)庫,比如Figshare、LabArchives;(4)特定項(xiàng)目數(shù)據(jù)知識(shí)庫,如科學(xué)鉆探數(shù)據(jù)庫SDDB。其中,機(jī)構(gòu)科研數(shù)據(jù)知識(shí)庫(Institutional Research Data Repository,IRDR)由高校或研究機(jī)構(gòu)建立和運(yùn)行,專門用于收集、存儲(chǔ)、組織、管理和共享本機(jī)構(gòu)研究人員產(chǎn)出的科研數(shù)據(jù)。截至2018年3月20日,在科研數(shù)據(jù)知識(shí)庫注冊(cè)系統(tǒng)re3data.org注冊(cè)的IRDR數(shù)量達(dá)512個(gè),分布于47個(gè)國(guó)家和地區(qū)[2]。
IRDR的目標(biāo)是促進(jìn)科研數(shù)據(jù)的共享和再利用。然而大部分IRDR處于“機(jī)構(gòu)庫孤島”或“科研數(shù)據(jù)孤島”階段,數(shù)據(jù)收錄及共享的范圍有限。近年來,學(xué)術(shù)交流范式不斷演化,協(xié)同科研環(huán)境擴(kuò)大了學(xué)術(shù)交流圈,拓展了國(guó)際和跨學(xué)科交流合作,跨機(jī)構(gòu)、跨系統(tǒng)、跨學(xué)科合作研究成為科學(xué)研究的重要形式。在這一背景下,現(xiàn)有的IRDR在服務(wù)范圍、服務(wù)能力、運(yùn)行模式等方面均將受到挑戰(zhàn)。因此,由個(gè)體獨(dú)立逐漸走向聯(lián)盟是科研數(shù)據(jù)共享的內(nèi)在要求,也是IRDR發(fā)展的必然趨勢(shì)。IRDR聯(lián)盟是由兩個(gè)以上的研究機(jī)構(gòu)為了更好地共享共用科研數(shù)據(jù)資源,以簽訂合作協(xié)議為方式,以其原有科研數(shù)據(jù)知識(shí)庫為基礎(chǔ),以集中存繳、元數(shù)據(jù)收割等為手段,實(shí)現(xiàn)對(duì)科研數(shù)據(jù)的統(tǒng)一監(jiān)管和統(tǒng)一服務(wù)而構(gòu)建的一種共享機(jī)制聯(lián)合體[3]。作為一種創(chuàng)新的機(jī)構(gòu)聯(lián)合和數(shù)據(jù)共享模式,IRDR聯(lián)盟將在更大范圍實(shí)現(xiàn)數(shù)據(jù)共享和利用,增加科研數(shù)據(jù)長(zhǎng)期研究的價(jià)值,有利于促進(jìn)學(xué)術(shù)交流和科學(xué)發(fā)現(xiàn)。目前在國(guó)際范圍內(nèi)已有一些具有聯(lián)盟性質(zhì)的IRDR,如荷蘭的4TU科研數(shù)據(jù)中心(4TU.Centre for Research Data)、澳大利亞的數(shù)據(jù)檔案中心(Australian Data Archive)、美國(guó)社會(huì)科學(xué)數(shù)據(jù)保存聯(lián)盟(Data-PASS)。值得一提的是,加拿大于2018年春季發(fā)布聯(lián)合科研數(shù)據(jù)知識(shí)庫(Federated Research Data Repository,F(xiàn)RDR)[4],由加拿大研究圖書館協(xié)會(huì)(Canadian Association of Research Libraries,CARL)、加拿大計(jì)算機(jī)協(xié)會(huì)(Compute Canada)、Portage Network及其Globus項(xiàng)目、不列顛哥倫比亞大學(xué)(University of British Columbia)和薩斯喀徹溫大學(xué)(University of Saskatchewan)合作運(yùn)行,致力于將多個(gè)科研數(shù)據(jù)知識(shí)庫集成在一個(gè)聯(lián)合系統(tǒng)中,為加拿大科研人員提供科研數(shù)據(jù)傳輸、獲取、管理、保存、發(fā)現(xiàn)和共享的統(tǒng)一平臺(tái)。我國(guó)雖已建成一些科研數(shù)據(jù)管理和共享平臺(tái),如復(fù)旦大學(xué)社會(huì)科學(xué)數(shù)據(jù)平臺(tái)和北京大學(xué)開放研究數(shù)據(jù)平臺(tái),但在IRDR聯(lián)盟建設(shè)上尚付闕如。因此,本文將厘清推動(dòng)機(jī)構(gòu)科研數(shù)據(jù)知識(shí)庫聯(lián)盟創(chuàng)建和發(fā)展的關(guān)鍵因素以及保障條件,為我國(guó)開展IRDR聯(lián)盟建設(shè)工作提供理論依據(jù)和實(shí)踐指導(dǎo)。
數(shù)據(jù)管理和共享政策是IRDR聯(lián)盟創(chuàng)建和發(fā)展的基本保障和行動(dòng)指南,是一種自上而下的推動(dòng)力量。從國(guó)際范圍看,一些國(guó)際組織、行業(yè)協(xié)會(huì)和研究機(jī)構(gòu)發(fā)布和實(shí)施的政策中都突出數(shù)據(jù)基礎(chǔ)設(shè)施聯(lián)盟的必要性。2007年聯(lián)合國(guó)信息通訊技術(shù)與發(fā)展全球聯(lián)盟(Global Alliance for ICT and Development)啟動(dòng)的“促進(jìn)發(fā)展中國(guó)家科研數(shù)據(jù)共享與應(yīng)用全球聯(lián)盟”計(jì)劃(Global Alliance for Enhancing Access to and Application of Scientific Data in Developing Countries)堅(jiān)持開放共享的數(shù)據(jù)政策,共建非中心化的科研數(shù)據(jù)網(wǎng)群網(wǎng)[5]。2010年歐盟委員會(huì)在《駕馭趨勢(shì):歐洲如何從科學(xué)數(shù)據(jù)的迅速漲潮中獲益》(Riding the wave:How Europe can gain from the rising tide of scientific data)報(bào)告中指出,大多數(shù)科研數(shù)據(jù)基礎(chǔ)設(shè)施是分散的,不利于可持續(xù)發(fā)展,呼吁創(chuàng)建一個(gè)全球性的聯(lián)合數(shù)據(jù)基礎(chǔ)設(shè)施并構(gòu)建了框架[6]。2011年歐盟第七框架計(jì)劃資助的《GRDI2020:全球研究數(shù)據(jù)基礎(chǔ)設(shè)施10年愿景》(GRDI2020-Towards a 10-Year Vision for Global Research Data Infrastructures)項(xiàng)目發(fā)布《全球科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施:重大數(shù)據(jù)挑戰(zhàn)》,認(rèn)為特定學(xué)科的數(shù)字?jǐn)?shù)據(jù)中心、數(shù)字?jǐn)?shù)據(jù)檔案館和數(shù)字研究中心等系統(tǒng)必須能夠相互作用,組成有效的多學(xué)科或跨學(xué)科的科學(xué)生態(tài)系統(tǒng)[7]。一系列政策的支持和指導(dǎo)推動(dòng)了不少新的科研數(shù)據(jù)聯(lián)盟項(xiàng)目的實(shí)施。2013年,在美國(guó)、歐盟、澳大利亞共同倡議下,科研數(shù)據(jù)聯(lián)盟(Research Data Alliance,RDA)建立,致力于創(chuàng)建數(shù)據(jù)交換與共享的技術(shù)基礎(chǔ)設(shè)施和支持團(tuán)體合作的社會(huì)基礎(chǔ);在芬蘭,開放科學(xué)和研究計(jì)劃(Open Science and Research Initiative)推動(dòng)國(guó)家科研數(shù)據(jù)計(jì)劃(National Research Data Initiative)的實(shí)施,通過廣泛合作開發(fā)科研數(shù)據(jù)服務(wù)并促進(jìn)知識(shí)開放和互操作性,最終結(jié)合科研數(shù)據(jù)架構(gòu)和元數(shù)據(jù)模型建成了一個(gè)集中式科研數(shù)據(jù)基礎(chǔ)架構(gòu)[8]。
近年我國(guó)國(guó)家數(shù)據(jù)戰(zhàn)略中頻繁強(qiáng)調(diào)數(shù)據(jù)共享和聯(lián)盟的重要性。2015年頒布的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》要求構(gòu)建科學(xué)大數(shù)據(jù)國(guó)家重大基礎(chǔ)設(shè)施,實(shí)現(xiàn)對(duì)國(guó)家重要科技數(shù)據(jù)的權(quán)威匯集、長(zhǎng)期保存、集成管理和全面共享。2016年出臺(tái)的《“十三五”國(guó)家科技創(chuàng)新規(guī)劃》提出加強(qiáng)各類科學(xué)數(shù)據(jù)的整合和質(zhì)量控制,完善科學(xué)數(shù)據(jù)匯交機(jī)制,推動(dòng)科學(xué)數(shù)據(jù)的匯聚和更新,加工形成專題數(shù)據(jù)產(chǎn)品,面向國(guó)家重大戰(zhàn)略需求提供科學(xué)數(shù)據(jù)支撐。2017年習(xí)近平總書記在中共中央政治局第二次集體學(xué)習(xí)時(shí)強(qiáng)調(diào):“以數(shù)據(jù)集中和共享為途徑,推動(dòng)技術(shù)融合、業(yè)務(wù)融合、數(shù)據(jù)融合,打通信息壁壘,形成覆蓋全國(guó)、統(tǒng)籌利用、統(tǒng)一接入的數(shù)據(jù)共享大平臺(tái),構(gòu)建全國(guó)信息資源共享體系,實(shí)現(xiàn)跨層級(jí)、跨地域、跨系統(tǒng)、跨部門、跨業(yè)務(wù)的協(xié)同管理和服務(wù)?!盵9]2018年3月國(guó)務(wù)院辦公廳發(fā)布的《科學(xué)數(shù)據(jù)管理辦法》提出建立科學(xué)數(shù)據(jù)匯交制度,在國(guó)家統(tǒng)一政務(wù)網(wǎng)絡(luò)和數(shù)據(jù)共享交換平臺(tái)的基礎(chǔ)上開展本部門(本地區(qū))的科學(xué)數(shù)據(jù)匯交工作。IRDR聯(lián)盟作為科研數(shù)據(jù)管理與共享的新型合作機(jī)制和數(shù)據(jù)資源整合的創(chuàng)新模式,符合當(dāng)前國(guó)家政策需求,而上述政策也為IRDR聯(lián)盟的創(chuàng)建提供了依據(jù)和契機(jī)。
科研人員的現(xiàn)實(shí)需求和潛在需求是IRDR聯(lián)盟創(chuàng)建的源動(dòng)力,具有自下而上的推動(dòng)作用。調(diào)查顯示,73%的高??蒲腥藛T對(duì)建立高??蒲袛?shù)據(jù)知識(shí)庫聯(lián)盟持支持態(tài)度[10],建立IRDR聯(lián)盟對(duì)學(xué)術(shù)生態(tài)發(fā)展十分必要。IRDR聯(lián)盟主要在兩方面反映和滿足科研人員的需求。
(1)實(shí)現(xiàn)跨學(xué)科和跨機(jī)構(gòu)合作研究與交流。首先,學(xué)科融合交匯是當(dāng)前高等教育和科學(xué)研究的突出特點(diǎn)。例如,衛(wèi)星收集的高分辨率遙感圖像同時(shí)屬于生態(tài)系統(tǒng)科學(xué)數(shù)據(jù)和環(huán)境科學(xué)數(shù)據(jù),一個(gè)遺傳生物學(xué)家需要分子生物學(xué)、生物化學(xué)、藥學(xué)等不同學(xué)科的科學(xué)數(shù)據(jù)以支持項(xiàng)目研究[11]??蒲泄ぷ髡咝枰@取跨學(xué)科的數(shù)據(jù)以鏈接不同學(xué)科領(lǐng)域內(nèi)的知識(shí)點(diǎn)[12]。從長(zhǎng)期看,小科學(xué)的研究者跨越多個(gè)學(xué)科領(lǐng)域,產(chǎn)生不同形式的高價(jià)值數(shù)據(jù),預(yù)計(jì)比大科學(xué)領(lǐng)域產(chǎn)生的數(shù)據(jù)還要多[13]。其次,科學(xué)研究跨機(jī)構(gòu)合作趨勢(shì)明顯,對(duì)科研數(shù)據(jù)跨機(jī)構(gòu)共享提出了新的要求。以高校為例,傳統(tǒng)的科學(xué)研究是按學(xué)科進(jìn)行的,科研人員需要參考本學(xué)科其他學(xué)??蒲袌F(tuán)隊(duì)的研究數(shù)據(jù)。華南理工大學(xué)的調(diào)查顯示,90%科研人員認(rèn)為科研數(shù)據(jù)在單個(gè)學(xué)校進(jìn)行共享的用處不大,需將合作范圍擴(kuò)展至全國(guó)乃至全球[14]。截至2018年3月,RDA已匯集136個(gè)國(guó)家的6700多名成員,共同開發(fā)和采用基礎(chǔ)設(shè)施,促進(jìn)數(shù)據(jù)共享和數(shù)據(jù)驅(qū)動(dòng)的研究[15];而美國(guó)校際政治及社會(huì)研究聯(lián)盟ICPSR的成員已發(fā)展至776個(gè),包括高校、政府機(jī)構(gòu)和其他機(jī)構(gòu),成員可直接獲取ICPSR的數(shù)據(jù)資源和其他服務(wù)[16]。
(2)提高科研數(shù)據(jù)的影響力。從科學(xué)發(fā)展角度看,科研數(shù)據(jù)共享是為了實(shí)現(xiàn)研究再現(xiàn)或驗(yàn)證、使公共資助研究的結(jié)果為公眾所用、使其他人利用現(xiàn)有數(shù)據(jù)提出新的科學(xué)問題、提升研究和創(chuàng)新水平,而對(duì)科研人員個(gè)人而言更多地意味著能夠提高科研數(shù)據(jù)的影響力。北京大學(xué)科研團(tuán)隊(duì)數(shù)據(jù)管理需求問卷調(diào)查結(jié)果表明,87.5%受訪者愿意在一定條件下共享部分?jǐn)?shù)據(jù),最大動(dòng)機(jī)是數(shù)據(jù)曝光度和使用率提升帶來的成果引用率提升和數(shù)據(jù)增值[17]。從學(xué)術(shù)成果發(fā)表和傳播的角度看,學(xué)術(shù)期刊通過一定的標(biāo)識(shí)技術(shù)和機(jī)制,強(qiáng)制要求論文作者對(duì)所使用的科學(xué)數(shù)據(jù)資源進(jìn)行描述,標(biāo)識(shí)數(shù)據(jù)的來源,不僅體現(xiàn)了對(duì)科研數(shù)據(jù)知識(shí)產(chǎn)權(quán)的保護(hù),也能提高科研數(shù)據(jù)的影響力和重用率。美國(guó)全國(guó)民意調(diào)查研究中心(National opinion Research Center)創(chuàng)立的綜合社會(huì)調(diào)查(General Social Survey,GSS)是美國(guó)除人口普查局以外,在社會(huì)科學(xué)領(lǐng)域被分析利用最頻繁的數(shù)據(jù),截至2015年有超過2.5萬個(gè)研究項(xiàng)目使用GSS的數(shù)據(jù)[18]。IRDR聯(lián)盟為科研人員提供了跨學(xué)科和跨機(jī)構(gòu)學(xué)術(shù)交流的平臺(tái),無疑能夠在更大范圍內(nèi)幫助科研人員提高科研數(shù)據(jù)影響力。
(1)通過資源共享與互補(bǔ)來提升機(jī)構(gòu)服務(wù)水平。IRDR的服務(wù)水平最直觀地體現(xiàn)在知識(shí)庫所收錄的數(shù)據(jù)資源數(shù)量和學(xué)科范圍兩個(gè)方面。在re3data.org平臺(tái)注冊(cè)的211個(gè)高??蒲袛?shù)據(jù)知識(shí)庫中,只有7%的數(shù)據(jù)類型涵蓋生命科學(xué)、自然科學(xué)、人文科學(xué)和工程科學(xué)四個(gè)學(xué)科內(nèi)容,其他數(shù)據(jù)知識(shí)庫所涉學(xué)科不夠完整;各高??蒲袛?shù)據(jù)知識(shí)庫的存儲(chǔ)規(guī)模普遍較小,且以標(biāo)準(zhǔn)文檔、文本和圖片等為主,可重用的元數(shù)據(jù)和數(shù)據(jù)集資源較少[19]。由此可見,單個(gè)IRDR的服務(wù)能力普遍較弱,難以滿足科研人員的多元需求,不利于可持續(xù)發(fā)展。相反,IRDR聯(lián)盟能夠通過數(shù)據(jù)合作和共享,幫助各個(gè)成員機(jī)構(gòu)擴(kuò)展數(shù)據(jù)資源體系,實(shí)現(xiàn)機(jī)構(gòu)之間數(shù)據(jù)資源互補(bǔ),避免科研數(shù)據(jù)的分散,彌補(bǔ)個(gè)體不足,最大程度地增強(qiáng)聯(lián)盟成員的科研支持和服務(wù)能力。以美國(guó)國(guó)家生物技術(shù)信息中心(NCBI)建立的基因序列數(shù)據(jù)庫GenBank為例,是國(guó)際核苷酸序列數(shù)據(jù)庫協(xié)作組織的重要成員,為保證數(shù)據(jù)覆蓋面,GenBank與該組織其他兩個(gè)成員——日本DNA數(shù)據(jù)銀行(DDBJ)和歐洲分子生物實(shí)驗(yàn)室(EMBL)建立了相互交換數(shù)據(jù)的合作關(guān)系[20],增強(qiáng)了服務(wù)能力。
(2)減小單個(gè)機(jī)構(gòu)運(yùn)行下的人力負(fù)擔(dān)和管理成本。單個(gè)IRDR相對(duì)獨(dú)立,設(shè)有自己的一套運(yùn)行模式,包括組織機(jī)構(gòu)、人員設(shè)置、數(shù)據(jù)管理方法和流程。而一些國(guó)家級(jí)資助項(xiàng)目或重大攻關(guān)項(xiàng)目,往往是由多個(gè)高?;蜓芯繖C(jī)構(gòu)合作完成的,其數(shù)據(jù)資源屬于共有資源,如果各個(gè)高?;蜓芯繖C(jī)構(gòu)單獨(dú)建設(shè),不僅會(huì)出現(xiàn)數(shù)據(jù)資源重復(fù)建設(shè)的情況,也會(huì)增加數(shù)據(jù)管理人員的負(fù)擔(dān)。IRDR聯(lián)盟打破了各個(gè)機(jī)構(gòu)獨(dú)立運(yùn)行的局面,通過部門重組、權(quán)責(zé)分工或協(xié)調(diào)等形式,解決了單個(gè)機(jī)構(gòu)運(yùn)行下的人力負(fù)擔(dān)和管理成本問題。比如,Data-PASS的成員各有關(guān)注的領(lǐng)域,這種差異性成為成員間分工協(xié)作的基礎(chǔ),成員在數(shù)據(jù)管理過程中分工推薦特定領(lǐng)域的社會(huì)科學(xué)數(shù)據(jù),運(yùn)營(yíng)委員會(huì)集中審核后,各成員再根據(jù)審核結(jié)果進(jìn)行數(shù)據(jù)采集與加工,保障了數(shù)據(jù)鑒定、采集和加工的高效性,也避免了數(shù)據(jù)重復(fù)采集和保存帶來的資金浪費(fèi)[21]。
21世紀(jì)以來,信息技術(shù)發(fā)展為IRDR聯(lián)盟提供了技術(shù)條件。IRDR聯(lián)盟的關(guān)鍵工作就是建設(shè)一個(gè)實(shí)現(xiàn)多機(jī)構(gòu)數(shù)據(jù)融合和協(xié)同工作的平臺(tái),滿足聯(lián)盟成員和科研人員一站式瀏覽、檢索、管理和利用科研數(shù)據(jù)的需求。從現(xiàn)實(shí)情況看,現(xiàn)代信息技術(shù)能夠幫助IRDR聯(lián)盟解決一系列的技術(shù)問題:DSpace、Dataverse、Fedora等數(shù)據(jù)倉儲(chǔ)開源軟件為IRDR聯(lián)盟平臺(tái)的基礎(chǔ)設(shè)施建設(shè)提供了技術(shù)基礎(chǔ);都柏林核心元數(shù)據(jù)標(biāo)準(zhǔn)(Dublin Core Metadata)和OAI協(xié)議為IRDR聯(lián)盟基礎(chǔ)元數(shù)據(jù)記錄管理提供了標(biāo)準(zhǔn),使用OAI-PMH協(xié)議并在其記錄中嵌入特定領(lǐng)域的元數(shù)據(jù)為收割元數(shù)據(jù)和開發(fā)聯(lián)合目錄提供最佳途徑;DataCite和DOI為數(shù)據(jù)引用提供了全球唯一標(biāo)識(shí)符;數(shù)據(jù)知識(shí)庫在實(shí)踐探索和發(fā)展過程運(yùn)用的技術(shù)和標(biāo)準(zhǔn)能夠?yàn)镮RDR聯(lián)盟提供有益的參考,4TU、Data-PASS、Australian Data archive等已積累了開發(fā)和實(shí)踐經(jīng)驗(yàn),可作為機(jī)構(gòu)科研數(shù)據(jù)知識(shí)庫合作的最佳實(shí)踐,為IRDR聯(lián)盟的創(chuàng)建提供參考。綜上所述,目前在數(shù)據(jù)管理平臺(tái)開發(fā)和資源整合領(lǐng)域已有各種成熟的技術(shù),為IRDR聯(lián)盟數(shù)據(jù)平臺(tái)建設(shè)提供了技術(shù)支持,IRDR聯(lián)盟需要根據(jù)實(shí)際情況和需求,選擇最佳方案,實(shí)現(xiàn)平臺(tái)的易用性、便捷性、關(guān)聯(lián)性。
任何組織的生存和發(fā)展都要以利益相關(guān)者的廣泛、平等參與作為組織治理的前提和基礎(chǔ)[22]。所謂“利益相關(guān)者”就是“能夠影響組織目標(biāo)實(shí)現(xiàn),或者能夠被組織實(shí)現(xiàn)目標(biāo)的過程影響的任何個(gè)人和群體”[23]。IRDR聯(lián)盟的創(chuàng)建和發(fā)展涉及多方利益相關(guān)者,包括科研機(jī)構(gòu)、科研人員、數(shù)據(jù)管理與服務(wù)提供者、資助者等。各利益相關(guān)者根據(jù)資源優(yōu)勢(shì)、技術(shù)優(yōu)勢(shì)、管理優(yōu)勢(shì)和利益差異而扮演不同的角色,享有相應(yīng)的責(zé)任和權(quán)利。首先,IRDR聯(lián)盟應(yīng)該設(shè)置科學(xué)合理的組織架構(gòu),包括聯(lián)盟協(xié)調(diào)組織、理事會(huì)、監(jiān)管委員會(huì)、秘書處和工作組等。其次,IRDR聯(lián)盟需要分配和協(xié)調(diào)各主體的角色與權(quán)責(zé)。對(duì)科研機(jī)構(gòu)而言,他們是聯(lián)盟的核心主體,將在決策、管理與執(zhí)行層面扮演關(guān)鍵角色。re3data.org將IRDR聯(lián)盟成員所承擔(dān)的角色和責(zé)任主要?jiǎng)澐譃榫C合管理、技術(shù)支持和資金資助三大類。4TU科研數(shù)據(jù)中心(4TU.Centre for Research Data)由荷蘭埃因霍芬理工大學(xué)、代爾伏特理工大學(xué)、特文特大學(xué)和瓦格寧根大學(xué)組成,代爾伏特理工大學(xué)圖書館負(fù)責(zé)聯(lián)盟的整體運(yùn)作,承擔(dān)綜合管理、技術(shù)支持和資助責(zé)任;埃因霍芬理工大學(xué)承擔(dān)資助工作;特文特大學(xué)負(fù)責(zé)綜合管理;瓦格寧根大學(xué)負(fù)責(zé)綜合管理和資助[24]。IRDR聯(lián)盟各利益相關(guān)者之間的的角色和權(quán)責(zé)不是單一的,具有交叉性和復(fù)雜性,IRDR聯(lián)盟在創(chuàng)建之前就應(yīng)該合理統(tǒng)籌,具有同一職責(zé)的成員在執(zhí)行中需相互協(xié)調(diào),加強(qiáng)溝通。
由于數(shù)據(jù)的復(fù)雜性和標(biāo)準(zhǔn)差異性明顯,要有效集成各機(jī)構(gòu)的科研數(shù)據(jù),IRDR聯(lián)盟需要在若干技術(shù)問題上達(dá)成一致。
(1)選擇合適的數(shù)據(jù)管理系統(tǒng)。目前科研數(shù)據(jù)管理主流系統(tǒng)包括Dataverse、CKAN、Dryad、Figshare和Nesstar等,北京大學(xué)在建設(shè)開放研究數(shù)據(jù)平臺(tái)前期比較了多種系統(tǒng),強(qiáng)調(diào)標(biāo)準(zhǔn)的元數(shù)據(jù)和良好的互操作性、管理權(quán)限劃分和靈活的訪問控制、基于DOI和版本的發(fā)布、在線分析和可視化等功能,認(rèn)為Dataverse更符合要求[17]。
(2)搭建合理的數(shù)據(jù)架構(gòu)。數(shù)據(jù)架構(gòu)是指數(shù)據(jù)系統(tǒng)和應(yīng)用的技術(shù)實(shí)現(xiàn)、技術(shù)部署和技術(shù)環(huán)境,合理的數(shù)據(jù)架構(gòu)包括數(shù)據(jù)存儲(chǔ)、編程、數(shù)據(jù)分析和數(shù)據(jù)應(yīng)用等模塊,要重點(diǎn)關(guān)注數(shù)據(jù)表示和描述、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析的方式和過程,以及數(shù)據(jù)交換機(jī)制、數(shù)據(jù)接口等,為結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用提供技術(shù)支撐,確保數(shù)據(jù)的可用性。
(3)確定統(tǒng)一的數(shù)據(jù)資源整合方式。資源整合有多種模式,IRDR聯(lián)盟以異構(gòu)數(shù)據(jù)庫資源整合模式為主,主要技術(shù)有三種:Z39.50,支持不同數(shù)據(jù)結(jié)構(gòu)、內(nèi)容、格式的系統(tǒng)間數(shù)據(jù)傳輸,實(shí)現(xiàn)異構(gòu)平臺(tái)、異構(gòu)系統(tǒng)之間的互聯(lián)與查詢;公共對(duì)象請(qǐng)求代理體系結(jié)構(gòu)(Common Object Request Broker Architecture),結(jié)合面向?qū)ο蠹夹g(shù)和分布式處理技術(shù)實(shí)現(xiàn)應(yīng)用層交互;中間件(Middleware),是獨(dú)立的系統(tǒng)軟件或服務(wù)程序,能實(shí)現(xiàn)分布式軟件模塊之間的交互[25]。
(4)實(shí)現(xiàn)元數(shù)據(jù)互操作。IRDR聯(lián)盟平臺(tái)匯集的數(shù)據(jù)來源和學(xué)科廣泛、格式多樣、結(jié)構(gòu)各異,不僅要構(gòu)建多維的數(shù)據(jù)分類體系,還要致力于元數(shù)據(jù)的互操作。元數(shù)據(jù)互操作可分為語法互操作和語義互操作,應(yīng)用廣泛的語法互操作方法有元數(shù)據(jù)映射、復(fù)用、集成、互操作協(xié)議與應(yīng)用程序接口等,而語義互操作則有本體技術(shù)和關(guān)聯(lián)數(shù)據(jù)等[26]。只有在上述問題上制定統(tǒng)一標(biāo)準(zhǔn),IRDR聯(lián)盟才能在各個(gè)環(huán)節(jié)實(shí)現(xiàn)無縫鏈接和高效運(yùn)作。
在大數(shù)據(jù)時(shí)代,科學(xué)研究的價(jià)值很大程度上取決于數(shù)據(jù)質(zhì)量。IRDR聯(lián)盟平臺(tái)匯集了不同機(jī)構(gòu)的科研數(shù)據(jù),其質(zhì)量往往是參差不齊的,需要制定科學(xué)的數(shù)據(jù)監(jiān)護(hù)流程,形成系統(tǒng)的數(shù)據(jù)審查標(biāo)準(zhǔn),保障數(shù)據(jù)的質(zhì)量。
首先,根據(jù)英國(guó)聯(lián)合信息系統(tǒng)委員會(huì)(JISC)的定義,數(shù)據(jù)監(jiān)管是指為確保數(shù)據(jù)當(dāng)前使用目的,并能用于未來再發(fā)現(xiàn)及再利用,從數(shù)據(jù)產(chǎn)生伊始即對(duì)其進(jìn)行管理和完善的活動(dòng)[27]。一些研究機(jī)構(gòu)和學(xué)者提出了不同的數(shù)據(jù)監(jiān)護(hù)流程,比較有代表性的是英國(guó)數(shù)據(jù)監(jiān)管中心(Digital Curation Center)提出的數(shù)據(jù)監(jiān)管生命周期模型(Curation Lifecycle Model),它結(jié)合了數(shù)據(jù)生命周期理論將數(shù)據(jù)監(jiān)管流程劃分為八個(gè)階段:概念化—?jiǎng)?chuàng)造或接收—評(píng)估與選擇—吸收—保存行為—儲(chǔ)存—訪問、使用與重用—轉(zhuǎn)換[28]。IRDR聯(lián)盟可根據(jù)具體情況將數(shù)據(jù)監(jiān)護(hù)流程嵌入到集成平臺(tái)管理系統(tǒng)中,加強(qiáng)數(shù)據(jù)質(zhì)量管理。
其次,IRDR聯(lián)盟需要制定科學(xué)的數(shù)據(jù)質(zhì)量審查標(biāo)準(zhǔn),對(duì)數(shù)據(jù)文件、數(shù)據(jù)文檔說明、科研數(shù)據(jù)本身以及源代碼等內(nèi)容進(jìn)行核檢。可參照Wang和Strong提出的四維度數(shù)據(jù)質(zhì)量判定標(biāo)準(zhǔn):內(nèi)在數(shù)據(jù)質(zhì)量(可信度、準(zhǔn)確性、客觀性、聲譽(yù));語境數(shù)據(jù)質(zhì)量(增值性、相關(guān)性、時(shí)效性、完整性、適量性);可表現(xiàn)型數(shù)據(jù)質(zhì)量(可解釋、易于理解、一致性、表達(dá)簡(jiǎn)潔);可訪問性數(shù)據(jù)質(zhì)量(可訪問性、安全性)[29]。也可參照數(shù)據(jù)認(rèn)可印章(Data Seal of Approval)制定的數(shù)據(jù)知識(shí)庫可信賴認(rèn)證16條核心要求[30]。
課題組前期調(diào)查發(fā)現(xiàn)創(chuàng)建IRDR聯(lián)盟還面臨一些障礙,其中“部分科研人員不愿意共享科研數(shù)據(jù)”占最大比重(約76.5%)。盡管科研人員普遍認(rèn)同為科學(xué)進(jìn)步實(shí)施數(shù)據(jù)共享有其共同潛在利益,然而多數(shù)人在執(zhí)行時(shí)有所顧忌,主要擔(dān)憂涉及科研數(shù)據(jù)知識(shí)產(chǎn)權(quán)問題、不正當(dāng)使用、隱私問題、數(shù)據(jù)損毀或篡改等。要消除這些顧慮,IRDR聯(lián)盟需要從兩進(jìn)行完善。
(1)制定科研人員激勵(lì)機(jī)制,設(shè)置激勵(lì)措施來鼓勵(lì)科研人員提交數(shù)據(jù)。例如,明確數(shù)據(jù)提交者享有免費(fèi)存儲(chǔ)定量數(shù)據(jù)、更新元數(shù)據(jù)、設(shè)置開放時(shí)滯期等權(quán)益;根據(jù)科研人員的研究領(lǐng)域推薦相關(guān)科研項(xiàng)目和數(shù)據(jù)以便進(jìn)行研究合作;對(duì)數(shù)據(jù)提交貢獻(xiàn)較大者提供一定的研究支持基金。
(2)制定科研數(shù)據(jù)使用規(guī)范和政策。IRDR聯(lián)盟應(yīng)根據(jù)內(nèi)容、產(chǎn)權(quán)為不同數(shù)據(jù)設(shè)置不同等級(jí)的訪問權(quán)限,強(qiáng)化數(shù)據(jù)安全防護(hù)力度,并制定相應(yīng)的使用標(biāo)準(zhǔn)或強(qiáng)制性政策。對(duì)科研人員而言,他們既是數(shù)據(jù)的提交者,也是數(shù)據(jù)的利用者,應(yīng)該遵守聯(lián)盟的政策、規(guī)定、授權(quán)和許可協(xié)議,積極且合法地分享科研數(shù)據(jù),同時(shí)在使用中規(guī)范引用,保護(hù)其他科研人員的知識(shí)產(chǎn)權(quán)和隱私。加拿大的聯(lián)合科研數(shù)據(jù)知識(shí)庫(FRDR)在開發(fā)階段就設(shè)計(jì)了全面的用戶條款和隱私保護(hù)(Terms of Use and Privacy Policy),其中用戶協(xié)議包括:遵守領(lǐng)域或?qū)W科的學(xué)術(shù)誠(chéng)信規(guī)范,提供數(shù)據(jù)來用和標(biāo)注引用;遵守知識(shí)共享許可協(xié)議(Creative Commons Public Domain Dedication CC0 1.0),下載和使用不會(huì)將內(nèi)容中的任何知識(shí)產(chǎn)權(quán)轉(zhuǎn)讓給用戶;用戶對(duì)內(nèi)容的使用負(fù)全部責(zé)任,而該聯(lián)盟的主要運(yùn)行組織—加拿大研究圖書館協(xié)會(huì)和加拿大計(jì)算機(jī)協(xié)會(huì)對(duì)用戶的下載和/或使用行為不負(fù)責(zé)任[31]。
數(shù)據(jù)管理者是連接IRDR聯(lián)盟平臺(tái)和科研人員的樞紐,其綜合能力和素養(yǎng)直接反映IRDR聯(lián)盟的管理和服務(wù)水平,影響科研人員的數(shù)據(jù)使用效果和持續(xù)使用意愿。基于IRDR聯(lián)盟的跨機(jī)構(gòu)、跨學(xué)科和跨系統(tǒng)特性,IRDR聯(lián)盟的數(shù)據(jù)管理和服務(wù)提供者至少需要具備三種能力。
(1)數(shù)據(jù)監(jiān)護(hù)和分析能力。高效和持續(xù)地收集數(shù)據(jù),利用集成系統(tǒng)進(jìn)行數(shù)據(jù)監(jiān)護(hù),保證數(shù)據(jù)質(zhì)量、安全和長(zhǎng)期保存,在此基礎(chǔ)上進(jìn)行合理的評(píng)估和分析并形成分析報(bào)告。
(2)溝通協(xié)調(diào)能力。了解科研人員的數(shù)據(jù)需求和使用效果,做好資源調(diào)度,處理數(shù)據(jù)提交與使用中的利益問題,規(guī)避潛在風(fēng)險(xiǎn)。
(3)宣傳推廣能力。制定宣傳策略,開發(fā)多種形式的宣傳方法,擴(kuò)大IRDR聯(lián)盟的知名度和影響力,從而吸納更多的合作伙伴,為IRDR聯(lián)盟提供技術(shù)、資金和數(shù)據(jù)支持。
當(dāng)前IRDR成員類型以高校圖書館為主,這就對(duì)高校數(shù)據(jù)館員提出較高的要求。高校圖書館或研究機(jī)構(gòu)應(yīng)該招聘數(shù)據(jù)管理專業(yè)人才,或?qū)ΜF(xiàn)有數(shù)據(jù)館員進(jìn)行全方面的培訓(xùn),在強(qiáng)調(diào)信息素養(yǎng)、數(shù)字素養(yǎng)和數(shù)據(jù)素養(yǎng)的同時(shí),強(qiáng)化宣傳、管理、溝通和協(xié)調(diào)等方面的能力,提升IDRD聯(lián)盟的服務(wù)效果。
數(shù)據(jù)密集化和協(xié)作化是科學(xué)研究的重要發(fā)展方向。IRDR聯(lián)盟作為一種創(chuàng)新的科研機(jī)構(gòu)合作模式,將從更大范圍促進(jìn)科研人員的數(shù)據(jù)共享,從更高層次滿足科研人員的數(shù)據(jù)利用和學(xué)術(shù)交流需求。本文對(duì)IRDR聯(lián)盟創(chuàng)建的動(dòng)因與條件進(jìn)行分析,發(fā)現(xiàn)IRDR聯(lián)盟的創(chuàng)建不是單一因素作用的結(jié)果,而是政策驅(qū)動(dòng)、科研人員需求驅(qū)動(dòng)、機(jī)構(gòu)管理驅(qū)動(dòng)以及技術(shù)驅(qū)動(dòng)等綜合作用的產(chǎn)物。而在實(shí)踐中,聯(lián)盟成員權(quán)責(zé)聲明、聯(lián)盟平臺(tái)的技術(shù)標(biāo)準(zhǔn)、聯(lián)盟平臺(tái)數(shù)據(jù)監(jiān)護(hù)流程、科研人員激勵(lì)機(jī)制和使用規(guī)范、數(shù)據(jù)管理人員的能力與素養(yǎng)等條件則保障了IRDR聯(lián)盟科學(xué)高效和可持續(xù)的發(fā)展。驅(qū)動(dòng)因素和保障條件相互作用,共同為我國(guó)IRDR聯(lián)盟的創(chuàng)建和發(fā)展提供了科學(xué)的實(shí)踐指導(dǎo),有利于進(jìn)一步推動(dòng)科學(xué)創(chuàng)新和知識(shí)發(fā)現(xiàn)。