(上海中醫(yī)藥大學(xué)圖書館 上海 201203)
隨著E-science、開放存取運(yùn)動(dòng)和科研大數(shù)據(jù)研究的迅速發(fā)展,科研數(shù)據(jù)的價(jià)值越來越凸顯,數(shù)據(jù)的創(chuàng)建、存儲(chǔ)、管理和再利用變得越來越重要,從而催生了科研數(shù)據(jù)策管(Data/Digital Curation)。“Digital Curation”一詞最早出現(xiàn)在2001年10月由數(shù)字保存聯(lián)盟和英國(guó)國(guó)家空間中心在倫敦組織召開的名為“Digital Curation:Digital Archives,Libraries and e-Science Seminar”的研討會(huì)上[1],“Data Curation”一詞則是由美國(guó)微軟首席研究員、計(jì)算機(jī)圖靈獲得者Jim Gray等人2002年7月在預(yù)印本文庫“arXiv”上發(fā)表的文章“Online Scientific Data Curation, Publication,and Archiving”中首次提出[2]。
英國(guó)聯(lián)合信息系統(tǒng)委員會(huì)JISC(Joint Information Systems Committee)將“Data”的概念解釋為“原始的研究數(shù)據(jù)”[3];美國(guó)國(guó)家科學(xué)基金會(huì)NSF(the National Science Foundation)將“Data”的定義進(jìn)行了細(xì)化,認(rèn)為是“所有通過觀察、計(jì)算和實(shí)驗(yàn)等手段獲得的可以用數(shù)字化形式存儲(chǔ)的信息,包括數(shù)字、文本、圖像、音頻、視頻、動(dòng)畫、軟件、算法、方程式、模型、模擬等”[4],由此可見數(shù)據(jù)策管的“數(shù)據(jù)”專指科學(xué)數(shù)據(jù)或科研數(shù)據(jù)(下文中將“科研數(shù)據(jù)策管”簡(jiǎn)稱為“數(shù)據(jù)策管”)?!癈uration”來源于拉丁語,本意是照顧,博物館學(xué)中將其翻譯為“策展”,表示對(duì)館內(nèi)藏品進(jìn)行持續(xù)保管、維護(hù)和保養(yǎng),并推出新主題的展覽,最終達(dá)到提高館藏利用率的目的[5]。JISC發(fā)布的e-Science Curation Report認(rèn)為“Curation”一詞是指在科學(xué)數(shù)據(jù)產(chǎn)生時(shí)就開始的對(duì)數(shù)據(jù)進(jìn)行管理和促進(jìn)數(shù)據(jù)利用的活動(dòng),此項(xiàng)活動(dòng)確保數(shù)據(jù)符合當(dāng)前的應(yīng)用目的,且能被發(fā)現(xiàn)和被重新利用,同時(shí)不僅包括對(duì)數(shù)據(jù)的管理,還包括對(duì)相關(guān)數(shù)據(jù)的內(nèi)容進(jìn)行標(biāo)注以及對(duì)數(shù)據(jù)內(nèi)容關(guān)系的管理,對(duì)于動(dòng)態(tài)的數(shù)據(jù)集,還要不斷對(duì)數(shù)據(jù)進(jìn)行豐富和更新[3,6]。
英國(guó)JISC對(duì)數(shù)據(jù)策管解釋為:“在數(shù)據(jù)的整個(gè)生命周期內(nèi),對(duì)數(shù)據(jù)進(jìn)行評(píng)估管理、維護(hù)、完善增值,以便于數(shù)據(jù)在當(dāng)前和未來被利用”[7]。英國(guó)數(shù)據(jù)策管中心DCC(Digital Curation Centre)對(duì)數(shù)據(jù)策管解釋為:“在數(shù)據(jù)整個(gè)生命周期內(nèi)對(duì)數(shù)據(jù)進(jìn)行維護(hù)、保存以及增值的活動(dòng)”[8]。
國(guó)內(nèi)目前對(duì)Digital Curation/Data Curation的翻譯不一,秦健教授于2011年在上海舉行的高校圖書館發(fā)展論壇上作的“e-Science圖書館服務(wù)前沿:學(xué)術(shù)圖書館的新創(chuàng)舉”的主題報(bào)告中,把“Data Curation”一詞譯為“數(shù)據(jù)策管”[9],任樹懷、時(shí)婉璐等延續(xù)了這種翻譯[10],楊鶴林等在其文獻(xiàn)中將其譯為數(shù)據(jù)監(jiān)護(hù)[11],譚榕、亓靖濤等將其譯為數(shù)據(jù)監(jiān)管[12],丁培等將其譯為數(shù)據(jù)策展[13],孟寶祥、錢鵬等將其譯為數(shù)據(jù)管理[14],唐義、肖希明等將其譯為數(shù)字監(jiān)控[15],另外還有學(xué)者將其譯為數(shù)據(jù)管護(hù)、數(shù)據(jù)典藏、數(shù)據(jù)掌管、數(shù)據(jù)保管、數(shù)據(jù)醫(yī)療等。
筆者認(rèn)為譯為“數(shù)據(jù)策管”為佳,數(shù)據(jù)策管是以數(shù)據(jù)保存、再利用和增值為主要目的的有計(jì)劃、有策略的數(shù)據(jù)管理,是貫穿數(shù)據(jù)整個(gè)生命周期(從創(chuàng)建、初始存儲(chǔ)到為未來研究存檔,直至過時(shí)被刪除)的管理,數(shù)據(jù)策管的過程涉及數(shù)據(jù)創(chuàng)建、數(shù)據(jù)保存、數(shù)據(jù)共享、數(shù)據(jù)存檔、數(shù)據(jù)維護(hù)、數(shù)據(jù)出版等活動(dòng)。
數(shù)據(jù)策管生命周期模型是進(jìn)行數(shù)據(jù)策管活動(dòng)的基礎(chǔ),為了幫助科研人員和圖書館員進(jìn)行數(shù)據(jù)策管工作,不同組織機(jī)構(gòu)提出了很多的數(shù)據(jù)生命周期模型。本文選取了3個(gè)典型的數(shù)據(jù)策管生命周期模型,即DCC、ICPSR和JISC的數(shù)據(jù)策管生命周期模型進(jìn)行分析和比較。
DCC是自數(shù)據(jù)策管概念提出后成立的全球第一個(gè)國(guó)家級(jí)數(shù)據(jù)策管中心,該中心2008年制定并發(fā)布了其數(shù)據(jù)策管生命周期模型[16],該模型用圖形高度概述了成功進(jìn)行數(shù)據(jù)策管和保存數(shù)據(jù)的活動(dòng)內(nèi)容、實(shí)施步驟和行動(dòng)路線,具體參見圖1。
圖1 DCC數(shù)據(jù)策管生命周期模型
該模型分7層,中心層為數(shù)據(jù)層,第2層到第5層為數(shù)據(jù)策管生命周期功能活動(dòng)層,第6層為數(shù)據(jù)生命周期順序步驟層,第7層為特別處理層。也即DCC模型可以解析為4個(gè)模塊:“數(shù)據(jù)”對(duì)象、數(shù)據(jù)策管生命周期功能活動(dòng)、數(shù)據(jù)生命周期順序步驟以及特別處理。
2.1.1 “數(shù)據(jù)”對(duì)象
DCC模型中的“數(shù)據(jù)”既包含數(shù)字對(duì)象,也包含數(shù)據(jù)庫。數(shù)字對(duì)象包括相對(duì)獨(dú)立的簡(jiǎn)單的數(shù)據(jù)項(xiàng)以及與其相關(guān)的標(biāo)識(shí)符和元數(shù)據(jù),也包括由其諸多其他數(shù)字對(duì)象組成的復(fù)雜數(shù)字對(duì)象集,前者諸如文本、圖像、視頻、音頻,后者諸如網(wǎng)站等;數(shù)據(jù)庫則包括各種結(jié)構(gòu)化的文檔記錄集,也包括存儲(chǔ)在計(jì)算機(jī)系統(tǒng)中的數(shù)據(jù)集[17]。
2.1.2 數(shù)據(jù)策管生命周期功能活動(dòng)
數(shù)據(jù)策管整個(gè)生命周期的活動(dòng),主要包括4個(gè)活動(dòng):①描述和表示信息;②數(shù)據(jù)保存計(jì)劃;③社區(qū)守望和參與;④創(chuàng)造和保存。描述和表示信息是利用具有描述性、結(jié)構(gòu)性、技術(shù)性、管理性和保存性的元數(shù)據(jù)對(duì)數(shù)據(jù)進(jìn)行表示和描述,目的是為了有利于數(shù)據(jù)的長(zhǎng)期保存。數(shù)據(jù)保存計(jì)劃則是制定貫穿于數(shù)據(jù)策管整個(gè)生命周期的數(shù)據(jù)保存計(jì)劃,包括策管生命周期里的所有管理活動(dòng)和保管活動(dòng)。社區(qū)守望和參與包括保持對(duì)研究社區(qū)進(jìn)行高度關(guān)注,并參與開發(fā)共享標(biāo)準(zhǔn),以及開發(fā)共享工具和軟件。創(chuàng)造和保存活動(dòng)包括數(shù)據(jù)的監(jiān)管,以及知識(shí)增強(qiáng)和數(shù)據(jù)維護(hù)。
2.1.3 數(shù)據(jù)生命周期順序步驟
數(shù)據(jù)生命周期順序步驟是圍繞數(shù)據(jù)的處理而進(jìn)行的8個(gè)活動(dòng):①概念化;②創(chuàng)建或接收數(shù)據(jù);③評(píng)估和選擇;④攝取;⑤保存活動(dòng);⑥存儲(chǔ);⑦訪問和使用及再利用;⑧轉(zhuǎn)換。概念化步驟是指構(gòu)思和計(jì)劃科學(xué)數(shù)據(jù)的創(chuàng)造,包括數(shù)據(jù)捕獲方法和數(shù)據(jù)存儲(chǔ)選項(xiàng);創(chuàng)建數(shù)據(jù)步驟包括創(chuàng)建結(jié)構(gòu)性、描述性、技術(shù)性以及管理性的元數(shù)據(jù),接收數(shù)據(jù)步驟則是在收集政策文件指導(dǎo)下,從數(shù)據(jù)的創(chuàng)建者以及其他存儲(chǔ)庫或數(shù)據(jù)中心等接收數(shù)據(jù)的過程;評(píng)估和選擇步驟是指評(píng)估和選擇那些用于長(zhǎng)期策管和保存的科學(xué)數(shù)據(jù);攝取步驟指將科學(xué)數(shù)據(jù)傳輸?shù)酱鎯?chǔ)庫、檔案庫、數(shù)據(jù)中心或其他保管人;保存步驟包括科學(xué)數(shù)據(jù)清理和數(shù)據(jù)驗(yàn)證,分配保存元數(shù)據(jù)以及分配標(biāo)識(shí)信息,并確??山邮艿目茖W(xué)數(shù)據(jù)結(jié)構(gòu)或文件格式;存儲(chǔ)數(shù)據(jù)步驟要求以符合相關(guān)的存儲(chǔ)標(biāo)準(zhǔn)并安全的方式存儲(chǔ)科學(xué)數(shù)據(jù);訪問和使用及再利用步驟需要確保既定用戶以及再利用用戶均可隨時(shí)訪問科學(xué)數(shù)據(jù),可以通過公開發(fā)布數(shù)據(jù)或通過身份驗(yàn)證來控制訪問;轉(zhuǎn)換步驟則是由原始科學(xué)數(shù)據(jù)來創(chuàng)建新的數(shù)據(jù),例如轉(zhuǎn)換到不同數(shù)據(jù)格式,或者創(chuàng)建一個(gè)數(shù)據(jù)子集,或者公開發(fā)表出版等。
2.1.4 特別處理
特別處理是在某些情況下或某些學(xué)科可能需要進(jìn)行的額外活動(dòng),包括處理、重新評(píng)估和遷移3種活動(dòng)。處理是指處理那些不符合指南、政策文件或法律要求的科學(xué)數(shù)據(jù),一般采取的方式是將其轉(zhuǎn)移到其他庫或其他保管者,或者基于法律的原因,安全地進(jìn)行破壞;重新評(píng)估是針對(duì)那些未通過驗(yàn)證的科學(xué)數(shù)據(jù)進(jìn)行進(jìn)一步評(píng)估和重新選擇;遷移一般是為了符合存儲(chǔ)環(huán)境或者確??茖W(xué)數(shù)據(jù)免受硬件或軟件過時(shí)而淘汰,將科學(xué)數(shù)據(jù)遷移成其他格式。
ICPSR是美國(guó)校際社會(huì)科學(xué)數(shù)據(jù)共享聯(lián)盟,其數(shù)據(jù)策管生命周期參見圖2,一共分為6個(gè)階段[18]。
圖2 ICPSR數(shù)據(jù)策管生命周期模型
ICPSR的數(shù)據(jù)策管生命周期的1~2階段為科研生命周期前兩個(gè)階段,3~6階段為科研生命周期的項(xiàng)目實(shí)施階段,在這個(gè)階段整合了圍繞數(shù)據(jù)處理的數(shù)據(jù)生命周期。具體為:第1階段是科研生命周期的撰寫項(xiàng)目申請(qǐng)書階段,這個(gè)階段需要制定數(shù)據(jù)管理計(jì)劃,同時(shí)獲取數(shù)據(jù)存檔相關(guān)建議,以使科學(xué)數(shù)據(jù)能夠長(zhǎng)期可利用。第2階段是科研生命周期的項(xiàng)目啟動(dòng)階段,在此階段科研人員需要預(yù)測(cè)科學(xué)數(shù)據(jù)的內(nèi)容以及數(shù)據(jù)的格式,可以通過抽樣的方法對(duì)科研數(shù)據(jù)和科研方法進(jìn)行測(cè)試。第3階段是數(shù)據(jù)生命周期的數(shù)據(jù)收集和文檔創(chuàng)建階段,這個(gè)階段科研人員需要考慮科研數(shù)據(jù)的完整性,對(duì)科研數(shù)據(jù)進(jìn)行分組、編碼、建立標(biāo)簽、確定變量名稱等活動(dòng);如果是文檔,需要參照數(shù)據(jù)文件倡議DDI的元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行處理。第4階段為數(shù)據(jù)生命周期的數(shù)據(jù)分析階段,在此階段數(shù)據(jù)策管活動(dòng)有管理科研數(shù)據(jù)集,建立科研數(shù)據(jù)文件,文件結(jié)構(gòu)需要進(jìn)行合理的設(shè)置,科研數(shù)據(jù)以及科研文檔還需要備份以防丟失。第5階段是科研數(shù)據(jù)生命周期的數(shù)據(jù)共享階段,這個(gè)階段需要科研人員了解公開科研數(shù)據(jù)可能存在的問題,明確科研數(shù)據(jù)存儲(chǔ)的格式和地點(diǎn)。第6階段是科研數(shù)據(jù)生命周期的數(shù)據(jù)存檔階段,在此階段需要科研人員參照數(shù)據(jù)共享和傳播的有關(guān)協(xié)議,將科研數(shù)據(jù)打包完整并進(jìn)行存檔。
JISC是英國(guó)聯(lián)合信息系統(tǒng)委員會(huì),該機(jī)構(gòu)提出的數(shù)據(jù)策管生命周期模型分為科研生命周期和數(shù)據(jù)生命周期[19],參見圖3。
圖3 JISC數(shù)據(jù)策管生命周期模型
其中科研生命周期包括5個(gè)階段:①研究思路/靈感;②組建研究團(tuán)隊(duì);③撰寫項(xiàng)目申請(qǐng)書;④研究過程;⑤研究成果出版。數(shù)據(jù)生命周期嵌入在研究過程中,包括4個(gè)環(huán)節(jié):①數(shù)據(jù)產(chǎn)生;②數(shù)據(jù)管理;③數(shù)據(jù)分析;④數(shù)據(jù)共享。模型的說明中指出:科研生命周期第1階段的研究思路/靈感的產(chǎn)生需要進(jìn)行的策管活動(dòng)為文獻(xiàn)檢索,查找文獻(xiàn)資源和閱讀背景材料??蒲猩芷诘?階段的組建研究團(tuán)隊(duì)可以采用線下方式,也可以利用社交網(wǎng)絡(luò)??蒲猩芷诘牡?階段即撰寫項(xiàng)目申請(qǐng)書階段需要同時(shí)撰寫數(shù)據(jù)管理計(jì)劃??蒲猩芷诘牡?階段即研究過程包含數(shù)據(jù)生命周期的4個(gè)環(huán)節(jié),涉及科學(xué)數(shù)據(jù)的產(chǎn)生到共享,不同學(xué)科的研究過程差異比較大:科學(xué)數(shù)據(jù)的產(chǎn)生環(huán)節(jié)可能來源于觀察、實(shí)驗(yàn)或者模擬等;數(shù)據(jù)管理環(huán)節(jié)主要依據(jù)數(shù)據(jù)管理計(jì)劃進(jìn)行;數(shù)據(jù)分析環(huán)節(jié)主要通過統(tǒng)計(jì)和計(jì)算進(jìn)行;數(shù)據(jù)共享環(huán)節(jié)主要是對(duì)原始或者已經(jīng)處理的數(shù)據(jù)進(jìn)行管理并保存,以便其他人可以進(jìn)行訪問和使用??蒲猩芷诘牡?階段為研究成果出版,其出版形式可以選擇傳統(tǒng)期刊,也可以選擇出版在開放獲取期刊或發(fā)布在開放獲取倉儲(chǔ)中[20]。
表1從模型結(jié)構(gòu)、核心要素的差異以及各自的特點(diǎn)比較詳細(xì)地比較和分析了DCC、ICPSR、JISC3個(gè)機(jī)構(gòu)數(shù)據(jù)策管生命周期模型。
表1 數(shù)據(jù)策管模型比較和特點(diǎn)分析
DCC數(shù)據(jù)策管生命周期模型非常詳盡,有涵蓋了數(shù)據(jù)對(duì)象內(nèi)涵的描述。數(shù)據(jù)策管生命周期各種功能活動(dòng),也有數(shù)據(jù)的順序處理步驟,以確保進(jìn)行數(shù)據(jù)策管時(shí)順序執(zhí)行所有必要的階段,同時(shí)又有特殊情況下需要進(jìn)行的數(shù)據(jù)處理活動(dòng),可以直接用于指導(dǎo)組織或聯(lián)盟的策管計(jì)劃,或者借鑒該模型用來構(gòu)建標(biāo)準(zhǔn)化的技術(shù)及實(shí)施框架。ICPSR模型相對(duì)簡(jiǎn)單,只是一個(gè)單鏈結(jié)構(gòu),特點(diǎn)是將科研生命周期和數(shù)據(jù)生命周期進(jìn)行了整合,依據(jù)科研生命周期及項(xiàng)目啟動(dòng)后的數(shù)據(jù)生命周期開展相應(yīng)的數(shù)據(jù)策管活動(dòng)。JISC模型則將數(shù)據(jù)生命周期嵌入在科研生命周期的研究過程,并將科研生命周期從研究思路的產(chǎn)生開始探索數(shù)據(jù)策管活動(dòng)。
通過以上3個(gè)典型的數(shù)據(jù)策管生命周期模型分析和比較,可以看出數(shù)據(jù)策管生命周期模型呈現(xiàn)多樣化的同時(shí)又有其共通之處,多樣化表現(xiàn)在模型結(jié)構(gòu)、角度、核心要素的數(shù)量和內(nèi)涵、模型的特點(diǎn)、詳略程度等,共通之處表現(xiàn)在都是針對(duì)科學(xué)研究,數(shù)據(jù)對(duì)象都是科研數(shù)據(jù),核心要素都有數(shù)據(jù)產(chǎn)生、數(shù)據(jù)保存、數(shù)據(jù)維護(hù)、數(shù)據(jù)出版和共享。
總之,數(shù)據(jù)策管活動(dòng)是貫穿了科學(xué)數(shù)據(jù)整個(gè)生命周期以及科研生命周期的策管活動(dòng),以數(shù)據(jù)保存、再利用和增值為主要目的。在具體的數(shù)據(jù)策管實(shí)踐中,可以參考DCC、ICPSR、JISC等典型的數(shù)據(jù)策管生命周期模型,也可以根據(jù)科研生命周期或者科研機(jī)構(gòu)的需求和所需服務(wù)的學(xué)科特點(diǎn)設(shè)置適合本機(jī)構(gòu)的數(shù)據(jù)策管生命周期模型。