陳天翔 劉慧圓 韓國霞 包伯堅 李敏 許哲平 覃海寧
摘 要:? 該文系統(tǒng)介紹了植物子平臺所采取的以數(shù)字標(biāo)本質(zhì)量為導(dǎo)向的數(shù)字化技術(shù)規(guī)范和管理策略,以及CVH網(wǎng)站數(shù)據(jù)共享規(guī)則, 并指出存在的問題及今后努力方向。
關(guān)鍵詞: 數(shù)字標(biāo)本, 技術(shù)規(guī)范, 質(zhì)量控制, 管理策略, 共享原則
中圖分類號:? Q94
文獻(xiàn)標(biāo)識碼:? A
文章編號:? 1000-3142(2022)增刊1-0018-11
收稿日期:? 2022-09-12
基金項目:? 國家植物標(biāo)本資源庫項目 (E0117G1001)。
第一作者: 陳天翔(1996-),助理工程師,主要從事生物多樣性數(shù)據(jù)庫建設(shè)和共享平臺開發(fā)與運(yùn)維,(E-mail)chentx@ibcas.ac.cn。
通信作者:? 覃海寧, 博士, 主要從事植物分類學(xué)、生物多樣性信息化和生物多樣性保護(hù)研究,(E-mail )hainingqin@ibcas.ac.cn; 許哲平, 博士, 副研究館員, 主要從事科學(xué)數(shù)據(jù)、科技情報和開放科學(xué)研究, (E-mail)xuzp@mail.las.ac.cn。
Curating and administrating? the Plant Specimen Sub-Platform
and CVH: activities, experience and lessons learned
CHEN Tianxiang1, LIU Huiyuan1, HAN Guoxia1, BAO Bojian1,
LI Min1, XU Zheping2,3,4*, QIN Haining1*
( 1. State Key Laboratory of Systematic and Evolutionary Botany, Institute of Botany, Chinese Academy of Sciences, Beijing 100093, China;
2. Key Laboratory of Intelligent Information, National Science Library, Chinese Academy of Sciences, Beijing 100190, China; 3. Key
Laboratory of New Publishing and Knowledge Services for Scholarly Journals, Beijing 100190, China; 4. School of
Economics and Management, University of Chinese Academy of Sciences, Beijing 100190, China)
Abstract:? There is a account in this paper on the technical criteria and management policies of digitized specimens used in the Plant Specimen Sub-Platform as well as the sharing principles used in CVH, and the existing problems and challenges are described.
Key words: digitized specimens, technical criteria, quality control, management policies, sharing principles
1 前言
過去十余年間,植物子平臺課題組致力于組織全國科研院所標(biāo)本館及部分大學(xué)標(biāo)本館開展標(biāo)本數(shù)字化工作,最終形成了覆蓋百余家植物標(biāo)本館近800萬份標(biāo)本的數(shù)字化標(biāo)本數(shù)據(jù)庫,并建立中國數(shù)字植物標(biāo)本館(Chinese Virtual Herbarium,CVH)網(wǎng)站,實現(xiàn)數(shù)據(jù)在線共享,成為國家標(biāo)本資源共享平臺中的骨干子平臺和重要門戶網(wǎng)站。
作為姐妹篇,前文(劉慧圓等,2022)介紹了植物子平臺暨CVH作為國家標(biāo)本資源共享平臺項目的主要課題所經(jīng)歷的發(fā)展過程和對我國生物信息共享事業(yè)發(fā)揮的作用,本文則主要介紹植物標(biāo)本子平臺及其共享網(wǎng)站CVH運(yùn)行管理的技術(shù)特點,尤其是子平臺作為課題操作的管理方式和制訂及推廣的技術(shù)規(guī)范等。
高質(zhì)量的標(biāo)本數(shù)據(jù)庫是實現(xiàn)信息共享的基礎(chǔ)和開展標(biāo)本館現(xiàn)代化管理等活動的重要依據(jù),而標(biāo)本數(shù)字化技術(shù)流程及管理策略既是實現(xiàn)高質(zhì)量數(shù)據(jù)的路徑,也是提高工作效率、實施數(shù)字化項目的保障。歐美同行無論是開展單一標(biāo)本館的數(shù)字化(Haston et al., 2012; Tulig et al., 2012; van Oever & Gofferjé, 2012)還是整個國家層面的數(shù)字化(Barkworth & Murrell, 2012; Borsch, 2020)都十分重視數(shù)字化技術(shù)流程的設(shè)計。我國科學(xué)家在20世紀(jì)數(shù)字化早期工作中就已經(jīng)采用正確合理的技術(shù)和方法(凌萍萍和湯儆杉,1995;李鳴光和余萍,2007)。
正如劉慧圓等(2022)指出,21世紀(jì)初國家科技基礎(chǔ)條件平臺在啟動時,標(biāo)本資源平臺項目就在考察分析國內(nèi)外標(biāo)本數(shù)字化及其共享經(jīng)驗基礎(chǔ)上,對國家戰(zhàn)略性植物標(biāo)本資源的收集、保藏及數(shù)字化和共享系統(tǒng)進(jìn)行梳理,形成頂層設(shè)計,包括制訂國家標(biāo)本資源共享平臺建設(shè)框架、主要技術(shù)路線(圖1)及一系列技術(shù)規(guī)范和標(biāo)準(zhǔn)。
自2004年國家自然科技資源共享平臺“植物標(biāo)本描述標(biāo)準(zhǔn)和規(guī)范的修訂及共享試點”項目啟動,2006年中國數(shù)字植物標(biāo)本館網(wǎng)站上線,到2014年植物子平臺(課題)成立直至2019年完成歷史使命,子平臺暨CVH在十余年中一直遵循上述主體思想和技術(shù)路線進(jìn)行建設(shè),并根據(jù)數(shù)字化過程中出現(xiàn)的新情況進(jìn)行修訂、完善和調(diào)整,形成良性循環(huán),促進(jìn)數(shù)字化及其共享工作平穩(wěn)有序推進(jìn), 從而在項目管理、技術(shù)支撐等方面形成了一套完整的標(biāo)本數(shù)字化平臺運(yùn)作模式。許哲平和趙莉娜(2010)和許哲平等(2012)介紹了在CVH早期建設(shè)中嘗試引入國際主流生物多樣性信息學(xué)標(biāo)準(zhǔn)以對CVH數(shù)據(jù)挖掘和集成,并嘗試與全球生物多樣性信息共享建立聯(lián)系。本文主要介紹植物標(biāo)本子平臺課題的管理模式以及為保障數(shù)字標(biāo)本質(zhì)量所采取的技術(shù)路線和技術(shù)服務(wù)等內(nèi)容。
1.1 數(shù)字化標(biāo)準(zhǔn)和規(guī)范先行
標(biāo)本資源共享平臺項目組基于“資源共享,制度先行”的原則,在開展大規(guī)模標(biāo)本數(shù)字化工作之前,優(yōu)先著手制訂植物標(biāo)本數(shù)字化相關(guān)標(biāo)準(zhǔn)和規(guī)范。主要是在2004、2005兩年間制訂了36項標(biāo)準(zhǔn)和規(guī)范,內(nèi)容涉及標(biāo)本質(zhì)量評價標(biāo)準(zhǔn)、標(biāo)本資源信息描述規(guī)范、標(biāo)本數(shù)據(jù)庫建設(shè)規(guī)范等,并邀請分類學(xué)家制訂高等植物各個類群的標(biāo)準(zhǔn)名錄、物種描述規(guī)范以及標(biāo)本采集、制作及保藏規(guī)范等。這些標(biāo)準(zhǔn)和規(guī)范的討論和制訂,為后期開展大規(guī)模標(biāo)本數(shù)字化提供了工作框架和范本以及技術(shù)標(biāo)準(zhǔn),為實現(xiàn)植物標(biāo)本信息共享奠定了堅實的基礎(chǔ)。
1.2 標(biāo)本數(shù)字化共享試點
國家標(biāo)本資源共享平臺在2004、2005兩年間,以“植物標(biāo)本描述標(biāo)準(zhǔn)和規(guī)范的修訂及共享試點”為題目開展工作。一方面制訂標(biāo)本數(shù)字化規(guī)范和標(biāo)準(zhǔn),另一方面選擇代表性標(biāo)本館開展試點工作,積累經(jīng)驗,掌握實際的數(shù)字化流程。試點單位主要為中國科學(xué)院系統(tǒng)標(biāo)本館和幾所重要大學(xué)標(biāo)本館,均為歷史較長、館藏量較大和技術(shù)力量較強(qiáng)的標(biāo)本館,兩年數(shù)字化共計150多萬份植物標(biāo)本。項目組(課題組)通過前期小規(guī)模的試點,掌握了組織多家標(biāo)本館基于同一技術(shù)方案開展標(biāo)本數(shù)字化及其信息共享的基本工作方法,以及可能碰到的困難和解決辦法。
1.3 標(biāo)本數(shù)字化建設(shè)高峰時期
2006年以后,植物子平臺進(jìn)入標(biāo)本數(shù)字化高峰時期。這一時期分為兩個階段。第一個高峰階段是2006—2008年,主要完成中國科學(xué)院系統(tǒng)標(biāo)本館和部分地方科研院所(園、館)標(biāo)本館的數(shù)字化,這也是項目原初給植物子平臺分配的數(shù)字化范圍,以及少數(shù)幾所大學(xué)標(biāo)本館等,共計28家,完成331萬份普通標(biāo)本和1.7萬份模式標(biāo)本的數(shù)字化表達(dá)(許哲平和趙莉娜,2010)。第二個高峰為2014—2019年,共完成230萬份標(biāo)本的數(shù)字化及共享,參建單位達(dá)92家。第二期92家參建單位(標(biāo)本館)中,除了涵蓋前期建設(shè)未及的大部分地方科研院所外,還包括50所高校標(biāo)本館。92家參建標(biāo)本館中,74家是2014年后首次參加數(shù)字化工作,其中59家為館藏10萬份以下的標(biāo)本館,包括小型標(biāo)本館(3萬~10萬份)41家、微型標(biāo)本館(3萬份以下)18家,這些標(biāo)本館中不乏標(biāo)本保藏有特色的標(biāo)本館,如重慶自然博物館(CQNM,2.9萬份)、山東大學(xué)(JSPC,1.3萬份)、福建省藥品檢驗所(FJIDC,2萬份)、四川農(nóng)業(yè)大學(xué)小麥研究所(SAUT,0.6萬份)等(劉慧圓等,2017;覃海寧等,2019)。 可以說,這是近二十年標(biāo)本集中數(shù)字化進(jìn)程中,涉及標(biāo)本館數(shù)量最多、影響面最廣的時期。
截至2019年,子平臺組織全國100余家植物標(biāo)本館完成近800萬份標(biāo)本的數(shù)字化表達(dá)及共享任務(wù)(劉慧圓等,2022)。
2 數(shù)據(jù)質(zhì)量管理策略
植物子平臺按照國家科技基礎(chǔ)條件平臺統(tǒng)一部署,在實施對全國植物標(biāo)本數(shù)字化的進(jìn)程中,積極探索,逐步形成了以數(shù)字化增量為目標(biāo)、質(zhì)量為核心的項目(課題)管理機(jī)制和技術(shù)方法,主要是通過嚴(yán)格把關(guān)/簽訂任務(wù)書、抓中期進(jìn)展和嚴(yán)格清查結(jié)題數(shù)據(jù)質(zhì)量的“兩頭嚴(yán)、中間抓”三步策略來實現(xiàn),并實施課題啟動前的摸底調(diào)查和實施過程中的技術(shù)培訓(xùn)及保障護(hù)航服務(wù)。
2.1 調(diào)研并掌握本底情況
實體植物標(biāo)本館的式微(衰落),如缺乏活力、標(biāo)本館信息更新不及時、維護(hù)人手及經(jīng)費(fèi)不足甚至缺乏等,是世界性的難題(Barkworth & Murrell,2012;Thiers, 2018; Borsch, 2020),中國也不例外(覃海寧和殷學(xué)波,2003a;覃海寧等,2019;葛斌杰等,2020)。中國植物標(biāo)本館數(shù)量眾多,有300多家植物標(biāo)本館,館藏量達(dá)到2 000多萬份,是全球標(biāo)本館藏量大國(Thiers, 2018; 覃海寧等,2019), 但絕大多數(shù)標(biāo)本館成立時間不超過百年,80%是1950年后成立的,標(biāo)本館(對外發(fā)布)信息陳舊、缺乏管理員、處于“休眠”關(guān)門狀態(tài)等現(xiàn)象時有發(fā)生,有些還相當(dāng)嚴(yán)重(Qin, 1999;覃海寧和殷學(xué)波,2003b;覃海寧等,2019;葛斌杰等,2020)。
顯然,對中國植物標(biāo)本館資源進(jìn)行全面系統(tǒng)的調(diào)查,了解各家標(biāo)本館的館藏狀況、數(shù)字化及利用狀況和人力資源狀況等,對開展全國性標(biāo)本數(shù)字化工作具有重要的意義。早在2000年,我們針對《中國植物標(biāo)本館索引》(傅立國,1993)出版后的狀況對全國100家標(biāo)本館做了調(diào)查(覃海寧等,2002;覃海寧和殷學(xué)波,2003a); 2003年我們根據(jù)科技基礎(chǔ)條件平臺建設(shè)的基本要求,對我國植物標(biāo)本資源的保存、利用和資源管理等方面的信息展開了較為全面、系統(tǒng)的調(diào)查,并建成我國標(biāo)本資源指南數(shù)據(jù)庫,為啟動科技基礎(chǔ)條件平臺提供前提保障,為標(biāo)本資源共享平臺建設(shè)以及信息共享提供決策依據(jù)(賈渝等,2005;曹一化等,2006;杜占元等,2007)。
國家標(biāo)本資源共享平臺(NSII)經(jīng)過10年建設(shè),到2013年時共完成植物標(biāo)本數(shù)字化500余萬份并實現(xiàn)共享。此時,平臺的發(fā)展面臨著一個重要的瓶頸時期?;A(chǔ)條件較好的大中型標(biāo)本館基本完成大部分標(biāo)本的數(shù)字化工作,沒有數(shù)字化的標(biāo)本大多為標(biāo)本質(zhì)量參差不齊、缺乏人手的小型微型標(biāo)本館中的標(biāo)本,以及大中型標(biāo)本館中的疑難標(biāo)本。結(jié)果導(dǎo)致數(shù)字化難度增大,包括標(biāo)本數(shù)字化成本提高、質(zhì)量下滑、增量放緩以及合格參建單位(標(biāo)本館)減少等(劉慧圓等, 2017,2022)。
植物子平臺在此時啟動了新一輪的標(biāo)本資源調(diào)查工作,以突破上述發(fā)展瓶頸。 此次調(diào)查以實地調(diào)查為主,由子平臺負(fù)責(zé)人、技術(shù)員等人員組隊,重點走訪未來數(shù)字化潛力較大和目前工作存在困難較大的標(biāo)本館。調(diào)查隊每到一地(館)都詳細(xì)了解館藏標(biāo)本狀況,如標(biāo)本數(shù)量、產(chǎn)地及采集時間段、定名情況、保存條件、數(shù)字化比例,以及管理技術(shù)力量等,并現(xiàn)場教學(xué)和解答數(shù)字化技術(shù)相關(guān)問題。2014至2018五年間共出隊20次抵達(dá)15座城市調(diào)查走訪50家植物標(biāo)本館(表1,封三圖片)。
經(jīng)過調(diào)查走訪,子平臺不僅現(xiàn)場解決了各家標(biāo)本館數(shù)字化技術(shù)上遇到難題和相關(guān)疑問,而且掌握了這些標(biāo)本館的實時現(xiàn)狀,尤其是標(biāo)本資源狀況的第一手材料。我們依據(jù)這些最新信息評估各家標(biāo)本館的標(biāo)本重要程度、數(shù)字化能力及參與課題的時間點,制訂數(shù)字化短期(1年)、中長期(3~5年及5年以上)目標(biāo)和任務(wù)。 在實際操作中,我們結(jié)合對標(biāo)本館現(xiàn)況的調(diào)查結(jié)果,對每年參建單位申報數(shù)字化數(shù)量進(jìn)行必要的調(diào)整,從源頭上確保數(shù)字化任務(wù)穩(wěn)步進(jìn)行,同時為了增加標(biāo)本的特色和代表性,也給新單位參加數(shù)字化建設(shè)預(yù)留了機(jī)會。
2.2 嚴(yán)格簽訂年度任務(wù)書
植物子平臺參建單位(又稱CVH成員館)一年一(次)簽專題任務(wù)書。通常,國家標(biāo)本資源共享平臺下達(dá)任務(wù)后,植物子平臺通過自愿報名和邀請參加兩種途徑并結(jié)合調(diào)查摸底,確定年度數(shù)字化參加單位,簽訂年度專題任務(wù)書。專題任務(wù)書經(jīng)過多年修訂趨于完善。其內(nèi)容涵蓋甲方(子平臺)、乙方(參加單位)責(zé)任和權(quán)利,如標(biāo)本數(shù)字化數(shù)量、完成時段及經(jīng)費(fèi)額度和撥款時間等,并以考核指標(biāo)的形式對標(biāo)本數(shù)字化質(zhì)量作了明確規(guī)定,要求選擇“三有標(biāo)本(有花或果、有采集記錄簽和鑒定簽)”進(jìn)行數(shù)字化,并對標(biāo)本圖像尺寸、標(biāo)本信息錄入字段要求和錯誤率允許值等,均作了明確的規(guī)定。子平臺工作人員常常為了考核指標(biāo)落地,反復(fù)多次與參建單位聯(lián)系和說明,確保任務(wù)書落實到位。
2.3? 抓好中期檢查
中期檢查是了解和掌握子平臺年度參加單位工作進(jìn)展的最佳辦法,通常是在年中舉行。各家參建單位按照任務(wù)書要求,向子平臺提供標(biāo)本數(shù)字化任務(wù)量的二分之一 (數(shù)據(jù),包括圖像)接受審查。子平臺將審查中發(fā)現(xiàn)的問題反饋給參建單位,要求補(bǔ)充、修改和完善,并于年終結(jié)題驗收時一并提交,子平臺同時將中期檢查結(jié)果存檔,作為年終專題驗收的參考材料之一。
子平臺通過開展當(dāng)年任務(wù)的中期檢查工作,全面掌握各個標(biāo)本館數(shù)字化任務(wù)進(jìn)度以及面臨的困難,提出解決問題方案,督促標(biāo)本館按計劃完成任務(wù)。
2.4 嚴(yán)格把控年度驗收數(shù)據(jù)
參建單位(標(biāo)本館)在完成年度任務(wù)后需要向子平臺匯交標(biāo)本數(shù)據(jù)和圖像,進(jìn)行驗收。子平臺需要對標(biāo)本館匯交的數(shù)據(jù)和圖像進(jìn)行審核,確保數(shù)據(jù)數(shù)量、質(zhì)量符合標(biāo)準(zhǔn)和要求。數(shù)據(jù)在驗收之前一般需要經(jīng)過2次審核。第1次經(jīng)子平臺審核,抽取一定比例(任務(wù)量的5%)的數(shù)據(jù)和圖像,通過計算機(jī)軟件和人工審核結(jié)合的方式審核數(shù)據(jù)和圖像是否符合數(shù)據(jù)驗收標(biāo)準(zhǔn)。數(shù)據(jù)和圖像審核合格標(biāo)準(zhǔn)為95%,若低于此值,將返回原單位請求返修后重新提交驗收。對于抽查數(shù)據(jù)不合格的, 返修后,第2次抽查數(shù)據(jù)量為原來的2倍,第3次抽查為第2次抽查數(shù)量的2倍,數(shù)據(jù)抽查3次后仍然達(dá)不到95%的,下一年度將暫停該單位參加數(shù)字化分配任務(wù)。第2次,子平臺將審查后的數(shù)據(jù)和圖像上交至NSII項目組復(fù)審,重復(fù)上面的流程,如還有問題則直接返給參建單位進(jìn)行修改。
植物子平臺從兩個維度對標(biāo)本數(shù)據(jù)進(jìn)行驗收:一是驗收數(shù)據(jù)數(shù)量是否滿足任務(wù)要求,是否有往年重復(fù)提交的數(shù)據(jù)且復(fù)份標(biāo)本的重復(fù)率不應(yīng)超過5%;二是驗收數(shù)據(jù)質(zhì)量是否合格,驗收項目包括數(shù)據(jù)的正確性、準(zhǔn)確性、完整性、一致性等指標(biāo)。合格數(shù)據(jù)在格式和內(nèi)容上應(yīng)是統(tǒng)一、規(guī)范、準(zhǔn)確的,并且數(shù)據(jù)內(nèi)容與標(biāo)本實物上的信息一致,也就是“忠于原文”原則。符合標(biāo)準(zhǔn)規(guī)范的數(shù)據(jù)易于整理、關(guān)聯(lián)、分析、共享,能夠保證平臺數(shù)據(jù)管理、用戶數(shù)據(jù)利用的良好體驗。標(biāo)本圖像的審核在數(shù)量方面,要求每條標(biāo)本數(shù)據(jù)記錄必須對應(yīng)至少一幅標(biāo)本圖像;質(zhì)量方面,則依據(jù)發(fā)布的圖像質(zhì)量標(biāo)準(zhǔn),對圖片的分辨率、內(nèi)容、拍攝參數(shù)進(jìn)行審核,檢查圖片是否能夠還原標(biāo)本的原貌。近年來,相機(jī)、掃描儀、硬盤和互聯(lián)網(wǎng)等硬件的發(fā)展可以支持超高分辨率標(biāo)本圖像的獲取、存儲和在線共享,項目組也隨之提升圖像質(zhì)量標(biāo)準(zhǔn),以呈現(xiàn)更好的在線共享效果。
標(biāo)本數(shù)據(jù)和圖像驗收的具體流程及內(nèi)容見附件3(http://www.guihaia-journal.com在線發(fā)表)。
3 數(shù)字化技術(shù)服務(wù)及技術(shù)支持
植物子平臺為參建單位提供的技術(shù)服務(wù)和技術(shù)支持,主要圍繞獲得高質(zhì)量數(shù)字標(biāo)本數(shù)據(jù)及圖像來開展。一方面是發(fā)放“標(biāo)本數(shù)字化流程及技術(shù)指南”(附件1,http://www.guihaia-journal.com在線發(fā)表)和標(biāo)本信息錄入系統(tǒng)軟件及其使用指南(附件2,http://www.guihaia-journal.com在線發(fā)表)供參建單位使用;另一方面是舉行專門的數(shù)字化技術(shù)培訓(xùn)班,請熟練技術(shù)人員和分類學(xué)家授課,內(nèi)容以數(shù)字化技術(shù)講解和實際操作演示為主,并涉及標(biāo)本管理使用和分類學(xué)等相關(guān)知識,以全面提升標(biāo)本館數(shù)字化技術(shù)人員的業(yè)務(wù)水平。在項目實施期間,子平臺技術(shù)人員會不斷通過郵件、微信等聯(lián)系方式為參建單位排憂解惑和提供技術(shù)指導(dǎo)及服務(wù)。
3.1 發(fā)放數(shù)字化技術(shù)指南及標(biāo)本信息錄入軟件
自標(biāo)本資源共享平臺啟動建設(shè)以來,我們就一直注意建立一套標(biāo)本數(shù)字化技術(shù)方法體系,并在實踐中不斷補(bǔ)充完善。2015年前,數(shù)字化技術(shù)方法組件,如標(biāo)本數(shù)據(jù)錄入規(guī)范、圖像采集規(guī)程等文件都是分別發(fā)放給參建單位使用的,顯得零碎,甚至出現(xiàn)組分之間相互矛盾的現(xiàn)象。2015年起,子平臺將數(shù)字化技術(shù)各個組分聯(lián)合打包為 “標(biāo)本數(shù)字化流程及技術(shù)指南”(附件1,http://www.guihaia-journal.com在線發(fā)表)和標(biāo)本信息錄入系統(tǒng)指南(附件2,http://www.guihaia-journal.com在線發(fā)表),隨年度專題任務(wù)書發(fā)放給平臺參建單位,同時在CVH網(wǎng)上在線發(fā)布。該指南主要包含標(biāo)本數(shù)字化流程、圖像采集、數(shù)據(jù)錄入、圖像質(zhì)量評價四部分內(nèi)容,從數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范出發(fā),對標(biāo)本整理、數(shù)據(jù)錄入、影像采集3個環(huán)節(jié)進(jìn)行了全面的梳理和詳細(xì)的闡述(劉慧圓等,2017)。其中圖像采集部分包含了推薦設(shè)備的使用方法、圖像質(zhì)量標(biāo)準(zhǔn)等內(nèi)容,提供了一套完整的標(biāo)本圖像采集工作流程,有效指導(dǎo)標(biāo)本館尤其是初次參建館在數(shù)字化初期階段對于攝影設(shè)備的選擇和部署,讓平臺的新加入單位(標(biāo)本館)能夠快速建立起符合標(biāo)準(zhǔn)的標(biāo)本數(shù)字化的硬件系統(tǒng)。
早在21世紀(jì)初,當(dāng)科技基礎(chǔ)條件平臺尚在醞釀階段,中國科學(xué)院植物研究所標(biāo)本館就安排包伯堅先生開發(fā)植物標(biāo)本信息采集系統(tǒng)(Cathaya系統(tǒng)),供本單位線上使用。平臺項目啟動后,我們基于Cathaya系統(tǒng)研制單機(jī)版植物標(biāo)本與物種信息系統(tǒng)(圖2), 后升級為Ginkgo系統(tǒng)供參建單位使用。 Ginkgo系統(tǒng)實現(xiàn)了植物標(biāo)本信息的錄入、物種信息的查詢檢索和編輯、數(shù)據(jù)統(tǒng)計、數(shù)據(jù)備份和導(dǎo)出、查詢結(jié)果的地理分布圖(GIS圖像)等功能,后臺數(shù)據(jù)庫均使用平臺研制的數(shù)據(jù)標(biāo)準(zhǔn)。該系統(tǒng)(含各個版本)推廣使用后顯著提高了標(biāo)本數(shù)字化的效率及植物標(biāo)本的管理水平。
2015年,子平臺發(fā)布了體積更小、安裝更簡單的標(biāo)本數(shù)據(jù)錄入軟件Ginkgo-s。Ginkgo-s軟件設(shè)計了高效科學(xué)的數(shù)據(jù)錄入和管理功能,解決了部分?jǐn)?shù)據(jù)錄入時的常見困難。在保證數(shù)據(jù)符合標(biāo)準(zhǔn)規(guī)范的同時,降低了錄入數(shù)據(jù)的人員數(shù)量、時間等成本,提高了數(shù)據(jù)錄入效率(附件2,http://www.guihaia-journal.com在線發(fā)表)。
3.2 舉辦數(shù)字化技術(shù)培訓(xùn)班
2013—2018年間,植物子平臺共組織開辦4次全國性的植物標(biāo)本數(shù)字化技術(shù)培訓(xùn)班(表2,封二圖片)。共有來自中國科學(xué)院系統(tǒng)、大專院校及地方院所園館90余家單位的200多位學(xué)員參加,均為平臺參建單位的技術(shù)骨干人員,培訓(xùn)導(dǎo)師(講師)則由實踐經(jīng)驗豐富的專家擔(dān)任。培訓(xùn)班核心內(nèi)容為植物標(biāo)本規(guī)范化整理、信息錄入、圖像采集和數(shù)據(jù)匯交共享等數(shù)字化關(guān)鍵環(huán)節(jié),此外,還有標(biāo)本采集和植物分類學(xué)原理等學(xué)科基本技能和基礎(chǔ)理論,以及標(biāo)本數(shù)字化共享國內(nèi)外動態(tài)等(表3)。
標(biāo)本數(shù)字化技術(shù)培訓(xùn)班的開辦對統(tǒng)一數(shù)字化技術(shù)規(guī)范、高質(zhì)量完成數(shù)字化任務(wù)和培養(yǎng)全國性數(shù)字化技術(shù)隊伍等起到很好的推動作用。培訓(xùn)班為平臺參建單位數(shù)字化技術(shù)人員提供了一次難得的集中式、系統(tǒng)性的學(xué)習(xí)機(jī)會,也是他們與子平臺成員當(dāng)面咨詢,與其他同行交流和研討的良好平臺。為了方便沒有參與技術(shù)培訓(xùn)的用戶學(xué)習(xí)相關(guān)內(nèi)容,子平臺還依托培訓(xùn)班錄制了《植物臘葉標(biāo)本數(shù)字化技術(shù)》視頻、編寫《標(biāo)本數(shù)字化流程及技術(shù)指南》等培訓(xùn)班課件,上傳至CVH網(wǎng)站在線共享,為用戶提供多媒體形式的標(biāo)本數(shù)字化技術(shù)學(xué)習(xí)方式。
4 平臺數(shù)據(jù)共享機(jī)制
自國家科技基礎(chǔ)條件平臺項目啟動以來,植物子平臺(課題)一方面從制度上建立起一套完整的標(biāo)本數(shù)字化共享體系和技術(shù)標(biāo)準(zhǔn),另一方面從隊伍和機(jī)構(gòu)上維持一支穩(wěn)定的平臺管理技術(shù)隊伍和專家咨詢團(tuán)隊,包括植物子平臺及CVH專家委員會、用戶委員會, 并持續(xù)地按照共享規(guī)則實現(xiàn)標(biāo)本等信息共享和提升數(shù)據(jù)質(zhì)量。
4.1 數(shù)字化標(biāo)本共享原則
早在科技基礎(chǔ)條件平臺建設(shè)初期,我們就對國內(nèi)外植物標(biāo)本資源共享政策法規(guī)開展研究,并對中國生物(植物)標(biāo)本資源共享政策法規(guī)制訂及信息共享機(jī)制提出建議(賈渝等,2005)。在2009年內(nèi)蒙古錫林浩特召開的數(shù)字標(biāo)本館(CVH)建設(shè)研討會上,全體平臺參建單位一起討論并通過了《中國數(shù)字植物標(biāo)本館(CVH)數(shù)據(jù)共享管理暫行條例》(以下簡稱《條例》)(https://www.cvh.ac.cn/public/uploaded/files/support/r090826.pdf)?!稐l例》對網(wǎng)絡(luò)管理、數(shù)據(jù)管理、用戶管理、組織機(jī)構(gòu)和職責(zé)、考核及罰則進(jìn)行了規(guī)范,并明確了各個參建單位負(fù)責(zé)人的權(quán)責(zé),規(guī)范了數(shù)據(jù)聯(lián)邦式共享模式等。這是我國有關(guān)生物標(biāo)本信息共享原則的最早文件之一,它的發(fā)布使得CVH的數(shù)據(jù)服務(wù)從此步上正軌(許哲平等,2012 )。
為了在滿足用戶批量獲取并使用標(biāo)本數(shù)據(jù)用于研究的需求的同時,確保數(shù)據(jù)不被濫用,子平臺制定了線下數(shù)據(jù)共享使用原則,規(guī)范用戶線下獲取數(shù)據(jù)的流程。用戶在閱讀并同意遵守數(shù)據(jù)共享原則后,需要向子平臺提交數(shù)據(jù)申請表(附件4,http://www.guihaia-journal.com在線發(fā)表)。子平臺會對用戶身份、數(shù)據(jù)用途、外發(fā)數(shù)據(jù)量和數(shù)據(jù)敏感程度進(jìn)行審核,決定是否給用戶發(fā)送其所要求的標(biāo)本數(shù)據(jù)。數(shù)據(jù)共享使用原則除了規(guī)范數(shù)據(jù)發(fā)放原則及流程外,還統(tǒng)一了數(shù)據(jù)引用方式,同時也約束了用戶使用數(shù)據(jù)的權(quán)力和義務(wù)。據(jù)劉慧圓等(2022)統(tǒng)計,2007—2020年間,用戶基于對從CVH申請獲得的標(biāo)本數(shù)據(jù),發(fā)表研究論文多達(dá)1 400余篇,包括中文(含學(xué)位論文)1 000余篇、英文400余篇,文章涵蓋了氣候變化、外來入侵物種管理、生物多樣性調(diào)查、分類學(xué)研究、瀕危物種評估、植物保護(hù)和中醫(yī)藥植物分析等50多個主題。
在CVH網(wǎng)站建設(shè)上,則關(guān)注于應(yīng)用共享技術(shù)標(biāo)準(zhǔn)。一方面數(shù)據(jù)庫管理中引入國際數(shù)據(jù)標(biāo)準(zhǔn)軟件工具,如引入國際生物多樣性標(biāo)準(zhǔn)Darwin Core,對標(biāo)本數(shù)據(jù)做了大量的規(guī)范化整理,大大提高了數(shù)據(jù)質(zhì)量; 另一方面采用生命科學(xué)標(biāo)識LSID國際標(biāo)準(zhǔn)對基于物種名的各類數(shù)據(jù)進(jìn)行關(guān)聯(lián),通過為每個物種名賦予一個全球唯一的標(biāo)識符,然后利用該標(biāo)識符進(jìn)行站內(nèi)物種、標(biāo)本、文獻(xiàn)、圖片、植物園等數(shù)據(jù)的關(guān)聯(lián),與EOL、uBio、BHL、IPNI等國際主流生物多樣性信息平臺之間的關(guān)聯(lián),為全球生物多樣性信息共享奠定了基礎(chǔ)。此外,通過KML文件,還可以將地標(biāo)整理后的標(biāo)本數(shù)據(jù)在Google Map、GIS等工具上進(jìn)行展示和分析,大大改善了數(shù)據(jù)獲取途徑和分析效果,促進(jìn)了多源數(shù)據(jù)的共享和集成(許哲平和趙莉娜,2010)。
4.2 數(shù)據(jù)共享中的數(shù)據(jù)質(zhì)量提升
數(shù)據(jù)匯交并非標(biāo)本數(shù)據(jù)生命周期的終點,子平臺后續(xù)會持續(xù)進(jìn)行數(shù)據(jù)修訂、數(shù)據(jù)標(biāo)準(zhǔn)化等數(shù)據(jù)質(zhì)量提升相關(guān)工作。逐字錄入的標(biāo)本數(shù)據(jù)有人名、地名拼寫不統(tǒng)一,日期、經(jīng)緯度、海拔、性狀測量數(shù)據(jù)格式和單位不統(tǒng)一等問題,導(dǎo)致數(shù)據(jù)檢索結(jié)果容易出現(xiàn)缺漏。子平臺定期檢查數(shù)據(jù)質(zhì)量,修正錄入錯誤,包括行政區(qū)劃、地名、人名等字段值進(jìn)行標(biāo)準(zhǔn)化、統(tǒng)一化,對經(jīng)緯度、海拔、日期等字段值的格式、進(jìn)制和計量單位進(jìn)行統(tǒng)一化等數(shù)據(jù)標(biāo)準(zhǔn)化操作,建立標(biāo)準(zhǔn)化字段。通過使用標(biāo)準(zhǔn)化字段進(jìn)行檢索,符合條件但格式不規(guī)范的數(shù)據(jù)也能展示至檢索結(jié)果中,從而增加檢索結(jié)果的完整性,使數(shù)據(jù)能夠更有效地利用和共享。同時,CVH開通了供用戶反饋數(shù)據(jù)問題的渠道,建立了基于網(wǎng)站用戶的數(shù)據(jù)修訂機(jī)制:用戶通過反饋渠道將發(fā)現(xiàn)的數(shù)據(jù)問題提交至CVH,子平臺定期整理、審核收集的問題,并針對有效的反饋集中修改標(biāo)本數(shù)據(jù)。通過建立這種用戶貢獻(xiàn)的機(jī)制,在進(jìn)一步提升在線共享標(biāo)本數(shù)據(jù)質(zhì)量的同時,增加網(wǎng)站用戶對于科學(xué)數(shù)據(jù)庫建設(shè)的參與感。
5 存在的一些問題
植物子平臺在存續(xù)的15年間(劉慧圓等,2022),按照總平臺要求,在平臺項目領(lǐng)導(dǎo)的指導(dǎo)下,編制大量的標(biāo)本數(shù)字化標(biāo)準(zhǔn)規(guī)范,建立了一套較為完備的子平臺(課題)及CVH共享網(wǎng)站運(yùn)行機(jī)制,形成了頗具成效的數(shù)據(jù)質(zhì)量管理體系。這些經(jīng)驗和做法作為國家級的數(shù)據(jù)集成共享范式,對于其他類似項目的運(yùn)行管理有良好的指導(dǎo)和借鑒意義。同時,子平臺及CVH在運(yùn)行和共享工作中仍存在一些問題未能得到有效的解決,包括:(1)存量數(shù)字標(biāo)本中不少照片可用率低——早期工作受當(dāng)時數(shù)碼相機(jī)和掃描儀性能所限,所制作標(biāo)本圖像分辨率偏低,細(xì)節(jié)模糊,這些標(biāo)本又多是大型標(biāo)本館的館藏,重新翻拍難度很大;(2)存留數(shù)字標(biāo)本數(shù)據(jù)清理進(jìn)展緩慢——如鑒定名稱修訂、采集地名新舊對比,以及信息錄入錯誤的糾正等;(3)在CVH平臺上搭建分類學(xué)輔助研究系統(tǒng)——未能成功;(4)CVH共享平臺與參加單位/實體館的關(guān)聯(lián)未能打通——如相互間未能及時有效地傳遞標(biāo)本信息增加和更改的信息,成員館子站系統(tǒng)久建未成等。這些問題都由來已久,并且子平臺(課題)都嘗試努力,但“久攻未下”,半途而廢或效果不佳。此外,許哲平等(2012)還指出植物子平臺及CVH缺乏有效的評估機(jī)制和評價指標(biāo),以及技術(shù)人才隊伍的穩(wěn)定性等問題;劉慧圓等(2017)則從頂層設(shè)計的角度分析人才隊伍建設(shè)所存在的問題等。希望上述問題和我們過往嘗試解決過程中積累的經(jīng)驗和教訓(xùn)能在“國家植物標(biāo)本資源庫”建設(shè)中予以借鑒、思考和解決。
致謝 本文所介紹的標(biāo)本數(shù)字化技術(shù)規(guī)范是百余家植物子平臺參建單位暨CVH成員館千余人長期實踐的經(jīng)驗和總結(jié)。感謝他們的支持和幫助!感謝嚴(yán)令斌同學(xué)、王加國同學(xué)(貴州大學(xué))、孟世勇博士(北京大學(xué))和上官法智工程師(中國科學(xué)院昆明植物所)幫助撰寫標(biāo)本影像制作技術(shù)指南!感謝國家標(biāo)本資源共享平臺項目負(fù)責(zé)人馬克平老師和陳鐵梅老師的指導(dǎo)和幫助!感謝原研究組李奕、何強(qiáng)、王利松、趙莉娜、單章建、謝丹等同事同學(xué)的支持和幫助。感謝賈渝、陳建平、林祁等老師的支持、指導(dǎo)和幫助!
參考文獻(xiàn):
BERENDSOHN WG, GNTSCH A, 2012. OpenUp! Creating a cross-domain pipeline for natural history data [J]. ZooKeys 209: 47-54.
BORSCH T, STEVENS AD, H?FFNER E, et al., 2020. A complete digitization of German herbaria is possible, sensible and should be started now [J]. Res Ideas Outcomes, 6: e50675.
曹一化, 劉旭, 許增泰, 等, 2006. 自然科技資源共性描述規(guī)范 [M]. 北京: 中國科學(xué)技術(shù)出版社: 46-53.
CHEN T, CHEN D, WU DL, 1995. An introduction to the data system for computer-aided label preparation of specimen collection [J]. J Trop Subtrop Bot, 3(2): 90-92. [陳濤, 陳都, 吳德鄰, 1995. 植物標(biāo)本采集標(biāo)簽計算機(jī)印制數(shù)據(jù)系統(tǒng) [J]. 熱帶亞熱帶植物學(xué)報, 3(2): 90-92.]
杜占元, 劉旭, 郭志偉, 等, 2007. 自然科技資源共享平臺建設(shè)的理論與實踐 [M]. 北京: 科學(xué)出版社: 523-532.
FU LG, ZHANG XC, QIN HN, et al., 1993. Index Herbariorum Sinicorum [M].Beijing: China Science and Technology Press.? [傅立國, 張憲春, 覃海寧, 等, 1993. 中國植物標(biāo)本館索引 [M]. 北京: 中國科學(xué)技術(shù)出版社.]
GE BJ, YAN J, DU C, et al., 2020. A brief introduction to world and Chinese herbaria [J].? Plant Sci J, 38(2): 288-292.? [葛斌杰, 嚴(yán)靖, 杜誠, 等, 2020. 世界與中國植物標(biāo)本館概況 [J]. 植物科學(xué)學(xué)報, 38(2): 288-292.]
HASTON E, CUBEY R, PULLAN M, et al., 2012. Developing integrated workflows for the digitisation of herbarium specimens using a modular and scalable approach [J]. Zookeys, 209: 93-102.
賈渝, 馬克平, 覃海寧, 2005. 生物標(biāo)本資源 [M]//王東陽. 自然科技資源共享政策法規(guī)研究. 北京: 科學(xué)出版社: 232-263.
KNIGHT-DAVIS S, BRUNS T, TUCKER GC, 2015. Big things have small beginnings: Curating a large natural history collection-processes and lessons learned [J]. J Libr Scholarly Commun, 3(2). DOI:/0.7710/2162-3309.1240.
林祁, 楊志榮, 包伯堅, 等, 2017. 植物模式標(biāo)本的考證與數(shù)字化: 以中國國家植物標(biāo)本館為例 [J]. 科研信息化技術(shù)與應(yīng)用, 8(4): 63-76.
LI M, XUAN J, ZHAO MY, et al., 2018. Birth and development prospect of iHerbarium [J]. Front Data Comput, 9(5): 36-40.? [李敏, 宣晶, 趙明月, 等, 2018. 標(biāo)本館伴侶的誕生與發(fā)展前景 [J]. 科研信息化技術(shù)與應(yīng)用, 9(5): 36-40.]
LI MG, XU ZR, GUAN DF, et al., 1995. Conceptual issues in the development of? English-Chinese bilingual botanical databases [J]. Acta Sci Nat Univ Sunyatseni, 34(4): 76-81. [李鳴光, XU Zhaoran, 關(guān)朵霏, 等, 1995. 植物標(biāo)本漢英雙語數(shù)據(jù)庫管理系統(tǒng)的概念與實踐 [J]. 中山大學(xué)學(xué)報(自然科學(xué)版), 34(4): 76-81.]
李鳴光, 余萍, 2006. 原始數(shù)據(jù)與標(biāo)準(zhǔn)化數(shù)據(jù)必需在植物標(biāo)本數(shù)據(jù)庫中并存 [C]//國際生物多樣性計劃中國委員會(Chinese National Committee for DIVERSITAS), 中國科學(xué)院生物多樣性委員會(Biodiversity Committee, the Chinese Academy of Sciences), 國家環(huán)境保護(hù)總局自然生態(tài)保護(hù)司(Department of Ecological and Natural Conservation, State Environment Protection Administration). 中國生物多樣性保護(hù)與研究進(jìn)展Ⅶ——第七屆全國生物多樣性保護(hù)與持續(xù)利用研討會論文集. 北京: 氣象出版社, 4: 220-223.
凌萍萍, 湯儆杉, 1987. 江蘇省植物研究所微型計算機(jī)標(biāo)本管理系統(tǒng) [C]. 南京中山植物園研究論文集: 39-42.
LIU HY, QIN HN, LI M, 2017. Plant specimen resource sharing platform and plant specimen digital capability construction [J]. e-Sci Technol Appl, 8(4): 13-23.? [劉慧圓, 覃海寧, 李敏, 2017. 植物標(biāo)本資源共享平臺與標(biāo)本數(shù)字化能力建設(shè) [J]. 科研信息化技術(shù)與應(yīng)用, 8(4): 13-23.]
LIU HY, QIN HN, BAO BJ, et al., 2022. An analysis of digital specimens of higher plants in China? [J]. Guihaia, 42(Suppl. 1): 48-64. [劉慧圓, 覃海寧, 包伯堅, 等, 2022. 中國高等植物數(shù)字化標(biāo)本分析 [J]. 廣西植物, 42(增刊1): 48-64.]
QIN HN, YIN XB, 2003a. Recent Advances in the Conservation of Biological Collections [C]//QIN HN. Procedings of the Third Internationla Conference on the Preservation of Botanical Collections, Herbarium Techniques, Beijing, September,23-26, 2001. Beijing: China Science and Technology Press: 41-51.? [覃海寧, 殷學(xué)波, 2003a. 國外生物標(biāo)本保藏工作新進(jìn)展 [C]//覃海寧. 第三屆國際生物標(biāo)本保藏會議(2001年9月23-26, 北京)論文集. 北京: 中國科學(xué)技術(shù)出版社: 41-51.]
QIN HN, YIN XB, 2003b. Preliminary results and analysis of a survey of China herbaria [C]//QIN HN. Procedings of the Third Internationla Conference on the Preservation of Botanical Collections, Herbarium Techniques, Beijing, September, 23-26, 2001. Beijing: China Science and Technology Press: 124-130.? [覃海寧, 殷學(xué)波, 2003b. 全國植物標(biāo)本館現(xiàn)狀調(diào)查初步分析報告 [C]// 覃海寧. 第三屆國際生物標(biāo)本保藏會議(2001年9月23-26, 北京)論文集 . 北京: 中國科學(xué)技術(shù)出版社: 328-341.]
QIN HN, 1999. Herbaria in China: past, present and future [J]. Korea J Plant Taxon, 29(4): 363-382.
QIN HN, LIU HY, HE Q, et al., 2019. Index herbariorum sinicorum [M]. 2nd ed. Beijing: Science Press.? [覃海寧, 劉慧圓, 何強(qiáng), 等, 2019. 中國植物標(biāo)本館索引 [M]. 2版. 北京: 科學(xué)出版社.]
THIERS B, 2018.? Index Herbariorum: A global directory of public herbaria and associated staff. New York Botanical Gardens Virtual Herbarium [J]. [2017-07-16]. http://sweetgum.nybg.org/science/ih/.
TULIG M, TARNOWSKY N, BEVANS M, et al., 2012.Increasing the efficiency of digitization workflows for herbarium specimens [J]. ZooKeys, 209: 103-113.
VAN OEVER JP, GOFFERJ M, 2012. ‘From Pilot to production: Large Scale Digitisation project at Naturalis Biodiversity Center [J]. ZooKeys, 209: 87.
WANG YH, WU X, ZHAO W, 2009. Research on users and characteristics of shared services for natural scientific and technological resources [J]. Sci Technol Manage? Res, 29(3): 310-312. [王運(yùn)紅, 吳霞, 趙偉, 2009. 自然科技資源共享服務(wù)用戶及共享服務(wù)的特點研究 [J]. 科技管理研究, 29(3): 310-312.]
WANG YH, ZHANG G, SHEN XY, 2008. Research and practice on national infrastructure of natural resources for science and technology of China [J]. Chin Sci Technol Resour Rev, 4: 16-19. [王運(yùn)紅, 張莞, 沈欣媛, 2008. 國家自然科技資源e-平臺建設(shè)實踐 [J]. 中國科技資源導(dǎo)刊, 4: 16-19.]
伍玉明, 張春光, 覃海寧, 等, 2010. 生物標(biāo)本的采集、制作、保存與管理 [M]. 北京: 科學(xué)出版社: 297-384.]
XU ZF, 2017.Kingdonia project: A herbarium based citizen science practice [J]. e-Sci Technol Appl, 8(4): 97-105. [徐洲鋒, 2017. 結(jié)合公民科學(xué)的Kingdonia協(xié)同工作平臺的構(gòu)建與應(yīng)用 [J]. 科研信息化技術(shù)與應(yīng)用, 8(4):97-105.]
XU ZP, QIN HN, MA KP, et al., 2012.Research on management, sharing and application of natural science and technology resources: Taking Chinese Virtual Herbarium (CVH) for an example [J]. Chin Sci Technol Resour Rev, 44(1): 27-33. [許哲平, 覃海寧, 馬克平, 等, 2012. 自然科技資源的管理、共享和應(yīng)用研究——以中國數(shù)字植物標(biāo)本館為例 [J]. 中國科技資源導(dǎo)刊, 44(1): 27-33.]
XU ZP, ZHAO LN, 2010. Chinese Virtual Herbarium (CVH) platform [J]. Sci Data Commun, 3: 33-36. [許哲平, 趙莉娜, 2010. 中國數(shù)字植物標(biāo)本館平臺(CVH) [J]. 科學(xué)數(shù)據(jù)通訊, 3: 33-36.]
(責(zé)任編輯 蔣巧媛 鄧斯麗)