• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      科學數(shù)據倉儲元數(shù)據標準研究與啟示*

      2019-07-22 05:35:22崔佳偉吳思竹鄔金鳴修曉蕾錢慶
      數(shù)字圖書館論壇 2019年6期
      關鍵詞:科學標準

      崔佳偉 吳思竹 鄔金鳴 修曉蕾 錢慶

      (中國醫(yī)學科學院醫(yī)學信息研究所,北京 100020)

      隨著數(shù)據密集型科學研究成為常態(tài),各類科學數(shù)據呈爆炸式增長,這為科研人員存儲、管理以及共享數(shù)據帶來了巨大的困難與挑戰(zhàn)??茖W數(shù)據倉儲的出現(xiàn)雖然為科學數(shù)據的存儲和共享提供了途徑,但如何實現(xiàn)對倉儲內數(shù)據進行有效管理和統(tǒng)一檢索則成為另一個重要問題??茖W數(shù)據元數(shù)據是對科學數(shù)據外部形式和內部特征的詳細描述[1],能夠為科學數(shù)據的組織、整合、交換、發(fā)現(xiàn)和獲取等提供信息。為充分發(fā)揮科學數(shù)據倉儲的功能與作用,必須構建、應用能夠滿足倉儲功能目標、資源特點和用戶需求的科學數(shù)據元數(shù)據標準,鑒于此類科學數(shù)據元數(shù)據標準主要應用于科學數(shù)據倉儲,故也可稱之為科學數(shù)據倉儲元數(shù)據標準。國外的科學數(shù)據倉儲元數(shù)據標準發(fā)展已經較為成熟,但國內的相關標準還大多處于建設之中。本文擬對國外現(xiàn)有科學數(shù)據倉儲相關的元數(shù)據標準的內容設計及實際應用情況進行系統(tǒng)梳理與深入探究,以期為我國科學數(shù)據倉儲元數(shù)據標準的構建和應用提供可資借鑒的參考。

      1 科學數(shù)據倉儲元數(shù)據標準概述

      在過去的幾十年里,為實現(xiàn)跨學科、跨領域的科學數(shù)據發(fā)現(xiàn)與共享,生物醫(yī)學、物理學和社會科學等領域都建立了相應的元數(shù)據標準與規(guī)范。尤其在生物醫(yī)學領域,隨著高通量測序技術的快速發(fā)展,臨床實驗和人群隊列研究的不斷深化,科學數(shù)據的膨脹驅動了該領域科學數(shù)據倉儲的設計,致使該領域科學數(shù)據倉儲元數(shù)據標準的構建與應用均處于較為前沿位置,對其他學科領域科學數(shù)據倉儲元數(shù)據標準以及通用科學數(shù)據倉儲元數(shù)據標準的建設具有較高的借鑒價值,故本研究將生物醫(yī)學領域科學數(shù)據倉儲元數(shù)據標準與通用科學數(shù)據倉儲元數(shù)據標準進行綜合性分析。通過對國際科學數(shù)據倉儲注冊系統(tǒng)Re3Data.org中收錄的倉儲所應用的元數(shù)據標準進行統(tǒng)計與歸納[2],結合FAIRsharing[3]和英國數(shù)字監(jiān)護中心(Digital Curation Center)[4]中收錄的科學數(shù)據元數(shù)據標準,并針對能夠存儲科學數(shù)據的相關倉儲及倉儲所使用的元數(shù)據標準進行調研,在綜合考慮每個標準的權威性、應用廣泛性、領域影響力及內容覆蓋力的基礎上,選取了3個通用的科學數(shù)據倉儲元數(shù)據標準,分別為Dublin Core、DataCite和Dataverse科學數(shù)據倉儲元數(shù)據標準,以及3個生物醫(yī)學領域科學數(shù)據倉儲元數(shù)據標準,分別為DatA Tag Suite、W3C HCLS Dataset Description和Dryad科學數(shù)據倉儲元數(shù)據標準。

      1.1 Dublin Core

      1995年3月,都柏林核心集(Dublin Core)誕生于美國俄亥俄州都柏林鎮(zhèn)召開的第一屆元數(shù)據研討會上[5]。會議目的是希望建立一套簡單通用的描述網絡資源的方法,降低檢索難度,從而提高網絡資源利用率。而后經過多次修正和補充,逐漸形成現(xiàn)在包含15個元素的元數(shù)據標準。目前 Dublin Core已被多個機構作為正式標準發(fā)布(ISO15836、NISOZ3985、RFC5013),我國與其對應的標準為GB/T 25100—2010。

      1.2 DataCite

      DataCite Metadata Schema由DataCite國際聯(lián)盟(the DataCite Consortium)制定[6],該聯(lián)盟創(chuàng)建的主要目標是支持科學數(shù)據存儲并將科學數(shù)據的地位提升至合法的、可被引用的科學記錄,使科學數(shù)據更易在網上獲取。其創(chuàng)建的DataCite元數(shù)據標準包含一系列核心元數(shù)據元素,通過為數(shù)據集提供永久性唯一標識符(DOI)以及準確、一致性的描述,輔助科學數(shù)據的檢索、共享、重用、應用和關聯(lián)。

      1.3 Dataverse科學數(shù)據倉儲元數(shù)據標準

      Dataverse是哈佛-麻省理工數(shù)據中心(Harvard MIT Data Center,HMDC)于2007年開發(fā)的一個科學數(shù)據管理系統(tǒng),能夠對科學數(shù)據進行發(fā)布、引用、存儲、發(fā)現(xiàn)和在線分析[7]。Dataverse的元數(shù)據標準是以DDI(Data Document Initiative)元數(shù)據標準為基礎擴展而成,根據不同的類型分為不同的區(qū)塊,包括引用通用元數(shù)據區(qū)塊和學科專有元數(shù)據區(qū)塊。其中,引用通用元數(shù)據區(qū)塊包含引用數(shù)據集所需的相關信息,是平臺所有數(shù)據集的必備元數(shù)據區(qū)塊,適用于描述所有類型和所有學科的數(shù)據集[8];學科專有元數(shù)據區(qū)塊則提供針對某一學科數(shù)據的元數(shù)據元素,覆蓋生命科學、人文與社會科學、地理空間、天文與天體物理和政治學等多個領域。

      1.4 DatA Tag Suite

      DatA Tag Suite(DATS)是由NIH的bioCADDIE(biomedical and healthCAre Data Discovery Index Ecosystem)開發(fā)的元數(shù)據模型[9-10],設計初衷是滿足科學數(shù)據倉儲DataMed的資源索引和檢索需求[11-12]。DATS以實現(xiàn)跨數(shù)據倉儲的數(shù)據集發(fā)現(xiàn)和獲取為目的,其核心實體可用于描述任何類型的數(shù)據集,包括“數(shù)據集”“數(shù)據集分布”“獲取”等實體,涵蓋了數(shù)據集的基本信息;擴展實體則主要針對生物醫(yī)學領域,包括“疾病”“研究”“生物”“分子”等實體,以期對生物醫(yī)學領域的數(shù)據進行揭示。

      1.5 W3C HCLS Dataset Description

      W3C HCLS Dataset Description是由the W3C Semantic Web for Health Care and the Life Sciences Interest Group(HCLSIG)通過重用18個已有詞表構建的RDF詞表[13-14],目的是為生物醫(yī)學領域數(shù)據集提供一個高質量標準,以滿足數(shù)據集的描述、關聯(lián)、交互、更新、內容總結、索引和發(fā)現(xiàn)等功能需求。W3C HCLS Dataset Description對數(shù)據集的描述分為3個層級:①Summary層級,該層級對于數(shù)據集的描述獨立于特定版本或格式;②Distribution層級,側重于描述特定數(shù)據文件的格式及可下載位置;③Version層級,主要描述特定版本數(shù)據集的屬性,并利用VersionNumber將Summary層級的描述與Distribution層級的描述相關聯(lián)。除此之外,該標準中的元數(shù)據元素又分為5個專題模塊,分別為:核心元素元數(shù)據;標識符;出處和變化;訪問、獲??;統(tǒng)計。

      1.6 Dryad科學數(shù)據倉儲元數(shù)據標準

      Dryad是由美國國家進化分析中心等機構建立的科學數(shù)據倉儲[15],旨在實現(xiàn)對進化生物學、生態(tài)學及相關領域出版物的支撐數(shù)據的保存、發(fā)現(xiàn)、復用和管理。該倉儲將元數(shù)據管理納入科學數(shù)據管理的全過程,成為科學數(shù)據倉儲元數(shù)據管理的典范,被稱為元數(shù)據的“最佳實踐”[16]。Dryad的元數(shù)據從描述內容來看可以分為3個模塊(即出版物元數(shù)據、數(shù)據集元數(shù)據和文件元數(shù)據[17]),通過利用特定元數(shù)據元素值之間的繼承,實現(xiàn)科學數(shù)據之間以及科學數(shù)據與期刊文章之間的相互關聯(lián)。

      2 科學數(shù)據倉儲元數(shù)據標準分析

      本文圍繞科學數(shù)據倉儲元數(shù)據標準的特點,提出分析框架,從基礎信息、內容設計和實際應用3個維度對這些元數(shù)據標準進行深入分析,以期為我國科學數(shù)據倉儲元數(shù)據標準的構建和應用提供可資借鑒的參考。

      2.1 基礎信息

      通過調研各元數(shù)據標準及其相關科學數(shù)據倉儲,對各標準的基礎信息進行整理,包括標準正文語種、發(fā)布機構/組織、發(fā)布國家、最初版發(fā)布時間、最新版發(fā)布時間、最新版版本號和可下載格式,具體內容見表1。通過比較可以發(fā)現(xiàn),美國在元數(shù)據標準制定和發(fā)布方面發(fā)揮了重要作用,主要體現(xiàn)在其起步較早且發(fā)布的標準應用廣泛。如Dryad科學數(shù)據倉儲元數(shù)據標準和Dataverse科學數(shù)據倉儲元數(shù)據標準的最初版均于2007年發(fā)布,2015年發(fā)布的DATS更是被DataMed、OmicsDI、ICPSR等多個科學數(shù)據倉儲采用。

      隨著科學數(shù)據倉儲的持續(xù)發(fā)展,倉儲收錄的數(shù)據資源及提供的服務類型不斷豐富,這就需要倉儲的元數(shù)據標準持續(xù)優(yōu)化升級,實現(xiàn)多個版本的更迭。以DataCite為例,其最初版發(fā)布于2009年,而后每隔一年或兩年便更新一次,2019年發(fā)布的最新版版本號為4.2。

      同時,為適應不同類型科學數(shù)據的特點,支持數(shù)據的人機理解與處理,各元數(shù)據標準的格式也趨于多樣化,從而滿足用戶多樣性的需求。如JSON格式能夠簡潔清晰地揭示元數(shù)據標準內容元素的層次結構,XML格式的通用性有助于元數(shù)據標準在不同應用場景的共享與快速解析,RDF格式能夠準確描述出標準中各元素間的關系等。

      2.2 內容設計

      在科學數(shù)據倉儲元數(shù)據標準內容設計分析部分,分為設計概況分析和內容元素分析兩個部分,逐層揭示現(xiàn)有標準值得借鑒之處與不足,輔助我國相關標準的制定。

      2.2.1 設計概況

      根據各元數(shù)據標準提供的創(chuàng)建指南或最佳實踐,對標準的整體設計架構進行分析,主要包括元數(shù)據標準設計目標、元素總數(shù)、元素分類、核心/必備元素個數(shù)、復用標準、是否提供受控詞表和是否提供數(shù)據集引用標準或格式7個方面(見表2),進而從宏觀層面對各元數(shù)據標準的內容設計進行較為直觀的比較與分析。

      在元素設置及分類方面,除Dublin Core外,其他5個標準都對自身的元數(shù)據元素進行分類,其中“Must”“Mandatory”“Requried”類元素均代表必備元素,(即在描述數(shù)據時必須出現(xiàn)的元素),占總元素的6%~80%,主要為10%左右。以DataCite為例,該標準共收錄元數(shù)據元素75個,分為必備元素、推薦元素(在描述數(shù)據時推薦出現(xiàn)的元素)和可選元素(在描述數(shù)據時可不出現(xiàn)的元素)3類,其中必備元素9個,占總元素的12%。從理論上看,元數(shù)據標準中設置的元素越多,其對數(shù)據集內容和特征的揭示也就越全面,更有利于促進科學數(shù)據的共享與發(fā)現(xiàn)。但在實際應用中,如果元數(shù)據標準中的元素過多,尤其是必備元素過多時,將導致數(shù)據著錄過程過于煩瑣和冗長,影響用戶上傳數(shù)據和倉儲收集數(shù)據的效率,反而不利于科學數(shù)據的共享。而如果必備元素過少,雖然能夠減少著錄負擔,但可能導致對數(shù)據資源的揭示程度不夠,阻礙科學數(shù)據的發(fā)現(xiàn)與再利用。同時,通過對科學數(shù)據倉儲進行調查發(fā)現(xiàn),許多倉儲雖然直接應用特定的元數(shù)據標準,但也會依據自身需求對標準元素進行增減或修改。以科學數(shù)據倉儲Zendo為例,其在應用元數(shù)據標準DataCite時,不僅使用了該標準的必備元素和推薦元素,還在此基礎上進行一些額外的補充[18],從而為用戶提供豐富的資源描述和多角度資源服務,保證數(shù)據的可發(fā)現(xiàn)性和可重用性。

      表2 元數(shù)據標準內容設計比較

      在提供受控詞表方面,各標準均通過提供自建的受控詞表或引用已有受控詞表對部分元數(shù)據元素的值域進行限定。以Dataverse科學數(shù)據倉儲元數(shù)據標準中的元數(shù)據元素“Subject”為例,該項可填入的內容只能從標準自建的受控詞表中選擇,即從“Agricultural Sciences”“Medicine,Health and Life Sciences”“Chemistry”和“Other”等中選擇一個或多個。通過此種方式,有助于用戶了解和選擇恰當?shù)脑~,從而在創(chuàng)建數(shù)據集描述之始提高元數(shù)據質量,確保元數(shù)據描述的規(guī)范性和一致性,以便科學數(shù)據倉儲未來提供更深層次的服務(如數(shù)據分析服務、知識發(fā)現(xiàn)服務等)。

      元數(shù)據復用是指在一個元數(shù)據標準中復用一個或多個元數(shù)據標準中的部分元素,利用不同元數(shù)據標準共同描述復雜資源,以便擴展元數(shù)據標準的適用范圍,增強不同系統(tǒng)之間元數(shù)據的互操作性,促進元數(shù)據的相互轉換[19]。由“復用標準”列可見,超過60%的元數(shù)據標準在構建時都會借鑒其他元數(shù)據標準,復用已有元數(shù)據標準的部分元素,從而在降低標準構建復雜性的同時提高自身實用性,并為實現(xiàn)元數(shù)據標準間的互映射提供很好的基礎保障。以Dryad科學數(shù)據倉儲元數(shù)據標準為例,其在構建時便復用了“the Bibliographic Ontology”“Dublin Core”和“Darwin Core”這3個標準中的元素。

      規(guī)范的數(shù)據引用標準或格式在數(shù)據認證、數(shù)據再利用以及追蹤數(shù)據影響等方面均發(fā)揮了重要作用。由“是否提供數(shù)據集引用標準或格式”列可見,DataCite和Dataverse科學數(shù)據倉儲元數(shù)據標準均提供數(shù)據集引用標準或格式,而Dublin Core、DATS、W3C HCLS Dataset Description和Dryad科學數(shù)據倉儲元數(shù)據標準并未提供。

      2.2.2 內容元素

      基于不同的設計目標和應用需求,各科學數(shù)據倉儲元數(shù)據標準的結構框架和內容元素設計均存在明顯差異。Dublin Core、DATS和Dryad科學數(shù)據倉儲元數(shù)據標準的設計目標較為類似,主要為促進資源的存儲、管理、發(fā)現(xiàn)與獲取,并不需要對資源內容進行詳細的說明與揭示,此類標準的元素相對較少。相比于Dublin Core,Dryad科學數(shù)據倉儲元數(shù)據標準和DATS更加注重不同類型資源間的整合,其中Dryad科學數(shù)據倉儲元數(shù)據標準利用不同元數(shù)據模塊中特定元數(shù)據元素值之間的繼承關系將出版物與數(shù)據集相關聯(lián);而DATS是基于“被引用”“使用”“存儲”“符合”等實體間關系將科學數(shù)據資源與出版物、軟件以及其他科學數(shù)據倉儲和數(shù)據標準相聯(lián)系,同時還針對生物醫(yī)學相關科學數(shù)據構建擴展實體。與上述3個標準不同的是DataCite、Dataverse科學數(shù)據倉儲元數(shù)據標準和W3C HCLS Dataset Description,這3個標準的總元素較多,必備元素卻較少,利用可選元素對數(shù)據資源進行靈活描述,對于數(shù)據集的揭示更具有完整性,尤其是Dataverse科學數(shù)據倉儲元數(shù)據標準和W3C HCLS Dataset Description,分別利用學科專有元數(shù)據區(qū)塊和分層級的資源描述方法,深入到科學數(shù)據描述的微觀層面。

      通過對各科學數(shù)據倉儲元數(shù)據標準的內容元素展開分析,探究各標準的元數(shù)據元素共有情況,可以發(fā)現(xiàn)內容關聯(lián)性和相似性較高的標準,為實現(xiàn)標準間的映射及互操作奠定基礎,同時也為新標準的構建提供備選元素。為保證比較分析的元素在同一層面,本文只選取各標準中描述數(shù)據集的元素進行分析。依據元素被各標準共有的情況,可將元素分為3個大類,分別為公共元素、基本元素和擴展元素,每類元素具體涵蓋的內容如圖1所示。

      雖然各元數(shù)據標準具體應用領域不同,描述數(shù)據集的細粒度也不同,但實現(xiàn)數(shù)據描述和數(shù)據檢索都是其首要功能,因此在各元數(shù)據標準中,標題、標識符、描述、時間等記錄數(shù)據集基本屬性的公共元素都是必備的。在公共元素基礎上,各標準圍繞自身構建目標及需求,對數(shù)據集的內容和形式展開進一步說明,歸納后形成基本元素和擴展元素。以DATS和Dryad為例,DATS標準的設計目標是幫助用戶實現(xiàn)跨數(shù)據倉儲的數(shù)據集發(fā)現(xiàn)和獲取,故其基本元素和擴展元素主要描述數(shù)據集的形式特征,提供關于數(shù)據集的分發(fā)信息(如數(shù)據集的格式、版本、存儲位置、獲取方式等),同時為滿足生物醫(yī)學科學數(shù)據的專業(yè)性,DATS還提供一些非核心實體,用于記錄數(shù)據集內生物體的分類情況、經歷的研究過程和治療過程等;Dryad科學數(shù)據倉儲元數(shù)據標準為滿足自身功能目標——實現(xiàn)生物醫(yī)學科學數(shù)據之間以及科學數(shù)據與期刊文章之間的相互關聯(lián),在基于公共元素對數(shù)據集的內容和形式進行簡單描述的基礎上,利用擴展元素“Associated Dryad Publication Record Identifier”和“Associated Dryad Data File Record Identifier”記錄數(shù)據集、出版物和數(shù)據文件間的聯(lián)系。

      2.3 實際應用

      在上文對各元數(shù)據標準結構及內容進行分析的基礎上,結合各標準在科學數(shù)據倉儲中的實際應用情況,表3對它們的特點、不足、使用難度、適用范圍以及應用實踐進行總結,不僅為我國科學數(shù)據倉儲提供選擇元數(shù)據標準的依據,也為新標準的構建提供參考和借鑒。

      圖1 元數(shù)據標準元素分類

      表3 元數(shù)據實際應用比較

      基于上述元數(shù)據標準的層級深度、結構復雜度、元素豐富度和元素易理解度,可將它們的使用難度分為三級。一星級使用難度相對較低,包括2個標準,分別為Dublin Core和Dryad科學數(shù)據倉儲元數(shù)據標準;二星級包括3個標準,分別為DataCite、Dataverse科學數(shù)據倉儲元數(shù)據標準和DATS;三星級使用難度相對較高,僅有標準W3C HCLS Dataset Description。分析可發(fā)現(xiàn),Dublin Core、Dryad科學數(shù)據倉儲元數(shù)據標準描述的內容相對較少,雖然增加了標準的易用性,但同時也導致它們存在數(shù)據細粒度、數(shù)據關系等方面揭示不足等問題。Dataverse科學數(shù)據倉儲元數(shù)據標準雖然描述的內容較多,使數(shù)據描述的準確性與全面性得到保證,但由于元素的順序和層次劃分欠清晰,對其應用范圍的擴大造成限制。由此可見,對于科學數(shù)據倉儲元數(shù)據標準的設計,應考慮著錄者(包括專業(yè)和非專業(yè)著錄人員及科學數(shù)據管理人員)和使用者(指共享科學數(shù)據的使用者)的需求、著錄對象(被描述的各類科學數(shù)據)的特性,并在期間尋求最佳平衡和組配,兼顧元數(shù)據標準的描述準確性與應用便捷性,促進科學數(shù)據加工的規(guī)范化與標準化。

      在標準的適用范圍方面,Dublin Core、DataCite和Dataverse科學數(shù)據倉儲元數(shù)據標準的元素設置均與學科無關,主要描述數(shù)據集的宏觀層面,適用于綜合性科學數(shù)據倉儲。DATS和Dryad科學數(shù)據倉儲元數(shù)據標準雖然都是為支持生物醫(yī)學相關科學數(shù)據倉儲而設計,但因DATS的核心實體和Dryad全部元素均與學科無關,故也可用于綜合性科學數(shù)據倉儲。W3C HCLS Dataset Description是基于對15個生物醫(yī)學相關數(shù)據集實例的分析而構建的元數(shù)據標準,對生物醫(yī)學科學數(shù)據集進行了深入內容層面的組織,主要適用于生物醫(yī)學相關科學數(shù)據倉儲。

      結合現(xiàn)有元數(shù)據標準在科學數(shù)據倉儲中的實際應用情況,可以分析出元數(shù)據標準在科學數(shù)據倉儲中發(fā)揮的作用。本文以應用上述元數(shù)據標準的6個科學數(shù)據倉儲為例,對目前元數(shù)據標準在科學數(shù)據倉儲中發(fā)揮作用的功能模塊進行分析與總結(見表4)。在數(shù)據上傳和數(shù)據著錄模塊,科學數(shù)據倉儲依據元數(shù)據標準設定用戶上傳數(shù)據時必填寫的數(shù)據的元數(shù)據描述,進而形成數(shù)據的著錄信息,以便用戶在不必瀏覽數(shù)據的情況下,能夠對數(shù)據有基本的了解和認識。DataMed作為數(shù)據集檢索系統(tǒng),其并不提供數(shù)據上傳功能,而是通過收錄科學數(shù)據倉儲,利用DATS元數(shù)據標準將各科學數(shù)據倉儲內數(shù)據集的元數(shù)據描述進行統(tǒng)一與規(guī)范化,進而實現(xiàn)跨數(shù)據倉儲的數(shù)據集檢索。在數(shù)據檢索和數(shù)據瀏覽模塊,各科學數(shù)據倉儲依據元數(shù)據標準設定用戶可選的檢索項、檢索結果篩選項以及分類瀏覽的分類依據。在數(shù)據獲取和數(shù)據引用模塊,許多科學數(shù)據倉儲不僅提供數(shù)據集的獲取方式及獲取路徑,還基于科學數(shù)據倉儲的元數(shù)據描述提供規(guī)范的數(shù)據引用格式。但也有部分倉儲并未提供數(shù)據引用模塊,如DataMed和EBI RDF Platform。在普通數(shù)據轉RDF模塊,僅利用標準W3C HCLS Dataset Description的科學數(shù)據倉儲EBI RDF Platform能夠實現(xiàn),即將ChEMBL、Ensembl、UniProt等數(shù)據庫中的數(shù)據轉換為RDF格式,從而使這些數(shù)據集能夠通過利用語義網技術進行訪問。在API接口和OAI-PMH模塊,部分科學數(shù)據倉儲依據元數(shù)據標準為用戶提供批量數(shù)據上傳、數(shù)據下載、數(shù)據檢索以及數(shù)據的元數(shù)據項下載等功能。圖2從左至右分別展示了:①科學數(shù)據倉儲Zenodo的數(shù)據上傳界面,包括用戶上傳數(shù)據時必填元數(shù)據描述項、推薦填寫元數(shù)據描述項和選填元數(shù)據描述項,對應元數(shù)據標準DataMed的必備元素、推薦元素和可選元素;②科學數(shù)據倉儲Dryad的數(shù)據著錄信息詳情頁面,不僅提供了數(shù)據集的基本信息說明,還提供了數(shù)據的獲取路徑以及引用數(shù)據的標準格式;③科學數(shù)據倉儲DataMed的高級檢索界面,為用戶提供了22個可選檢索項,如“Title”“Author”“Description”等。

      3 對我國科學數(shù)據倉儲元數(shù)據標準構建及應用啟示

      2002年,在科技部的主導下,我國開始實施科學數(shù)據共享工程,制定了數(shù)據共享工程的核心元數(shù)據標準,并陸續(xù)啟動醫(yī)藥衛(wèi)生、氣象、農業(yè)等9個學科領域科學數(shù)據共享中心的建設與共享服務試點。近年來,隨著科學研究的不斷深入,我國科學數(shù)據的數(shù)量和規(guī)模不斷擴大,元數(shù)據標準也越來越多。但與國外相比,我國科學數(shù)據倉儲元數(shù)據標準的規(guī)范化程度還不夠高,體系有待完善,應用也未達到預期。在未來的發(fā)展中,我國科學數(shù)據倉儲不僅要加強自身技術建設,更應增加與國外前沿機構的合作學習,深層次地擴展科學數(shù)據倉儲元數(shù)據標準的構建與應用工作。

      (1)應用已有元數(shù)據標準,根據需求進行修改。不斷涌現(xiàn)的科學數(shù)據倉儲和管理平臺亟需比較成熟的元數(shù)據標準進行管理,考慮到元數(shù)據格式規(guī)范設計和長期維護的復雜性以及國際化環(huán)境和互操作的需要,一般選擇復用相關領域現(xiàn)有標準。在選擇標準時,各平臺和倉儲應對自身功能目標進行探討,明確著錄科學數(shù)據的細粒度和層次,結合各元數(shù)據標準的特點與優(yōu)劣,從而選擇出適當?shù)臉藴?,并對選定的標準按需進行調整與修改。如倉儲主要收錄臨床實驗數(shù)據,并擬從微觀層面對數(shù)據進行深入內容的描述與組織,則可選用W3C HCLS Dataset Description標準,并在其基礎上增加相關專指性描述字段,從而對實驗的操作流程、方法以及時間進行詳細說明。

      (2)參考已有元數(shù)據標準,構建新的標準體系?,F(xiàn)有元數(shù)據標準雖種類多樣,各具特點,但在實際應用中并不能滿足所有科學數(shù)據倉儲和管理平臺的需求。這就需要部分機構、倉儲或平臺以解決倉儲內科學數(shù)據管理、共享、應用等方面的問題為導向,考慮科學數(shù)據的特有屬性、倉儲的功能需求和服務對象范圍,參考已有標準,構建具有實用性、準確性、可擴展性和前瞻性的科學數(shù)據倉儲元數(shù)據標準,推進科學數(shù)據的全生命周期管理與規(guī)范引用。

      表4 各元數(shù)據標準在科學數(shù)據倉儲中的應用情況

      圖2 科學數(shù)據倉儲Zenodo、Dryad和DataMed的部分界面

      (3)規(guī)整元數(shù)據標準應用,把控數(shù)據著錄質量。數(shù)據著錄是科學數(shù)據倉儲元數(shù)據標準應用過程中的一個重要環(huán)節(jié),數(shù)據的著錄質量嚴重影響數(shù)據在科學數(shù)據倉儲內的管理效率與后期復用情況。因此,在未來科學數(shù)據倉儲元數(shù)據標準應用的過程中,需要嚴格把控科學數(shù)據著錄質量,主要可從以下方面展開:一是制定科學數(shù)據著錄的質量控制方案和相關原則,并以此為指導開展著錄工作,如為數(shù)據提交者制訂元數(shù)據創(chuàng)建指南或者最佳實踐等;二是建立科學數(shù)據元數(shù)據描述質量評估指標,將數(shù)據著錄結果交由專業(yè)人員進行審核和評估,并加強專業(yè)人員對元數(shù)據質量控制素養(yǎng)的培訓,保證他們對元數(shù)據標準以及每個元數(shù)據項有較為全面的理解。

      4 結語

      科學數(shù)據的開放共享離不開數(shù)據倉儲和元數(shù)據標準的支持,為數(shù)據附加高質量的元數(shù)據描述,是實現(xiàn)科學數(shù)據有效存儲與管理的基礎。目前我國科學數(shù)據倉儲元數(shù)據標準的構建與應用還處于探索階段,尚未形成良好的實踐成果和合作機制。本文在概述國外典型通用科學數(shù)據倉儲元數(shù)據標準和生物醫(yī)學科學數(shù)據倉儲元數(shù)據標準的基礎上,圍繞它們的內容設計與實際應用開展多維分析,以期為我國科學數(shù)據倉儲元數(shù)據標準的構建和應用提供理論根基和實踐參考。

      猜你喜歡
      科學標準
      2022 年3 月實施的工程建設標準
      點擊科學
      點擊科學
      科學大爆炸
      小小藝術家(2019年6期)2019-06-24 17:39:44
      忠誠的標準
      當代陜西(2019年8期)2019-05-09 02:22:48
      美還是丑?
      你可能還在被不靠譜的對比度標準忽悠
      科學
      一家之言:新標準將解決快遞業(yè)“成長中的煩惱”
      專用汽車(2016年4期)2016-03-01 04:13:43
      2015年9月新到標準清單
      尤溪县| 江陵县| 太湖县| 龙里县| 库车县| 时尚| 霍城县| 青冈县| 宜都市| 邹城市| 新疆| 精河县| 大连市| 蚌埠市| 彰化县| 牡丹江市| 民县| 屏东市| 临沭县| 治多县| 吉木乃县| 博乐市| 海原县| 佛冈县| 唐河县| 周宁县| 锡林浩特市| 栾川县| 将乐县| 兰坪| 宜君县| 咸宁市| 佛冈县| 盐池县| 徐汇区| 化州市| 汝州市| 宣城市| 兴化市| 松滋市| 亚东县|