紀(jì) 珍 佟繼周 胡曉彥 鄒自明 馬福利 熊森林
(1.中國(guó)科學(xué)院國(guó)家空間科學(xué)中心,北京 100190;2.國(guó)家空間科學(xué)數(shù)據(jù)中心,北京 100190)
空間科學(xué)是具有前沿性、拓展性及發(fā)展急迫性的交叉學(xué)科領(lǐng)域,主要對(duì)發(fā)生在日地空間、行星際空間乃至整個(gè)宇宙空間的物理、天文、化學(xué)以及生命等自然現(xiàn)象及規(guī)律進(jìn)行研究,涵蓋了空間物理、空間天文、太陽物理、空間地球科學(xué)、微重力科學(xué)及空間生命科學(xué)等學(xué)科領(lǐng)域。在空間科學(xué)大數(shù)據(jù)時(shí)代[1-2],科學(xué)研究呈現(xiàn)全球化、鏈條式及定量化等特點(diǎn),對(duì)科學(xué)數(shù)據(jù)分析挖掘與綜合利用的依賴性日益增強(qiáng)。利用天基、地基一體化探測(cè)網(wǎng)絡(luò)所產(chǎn)生的數(shù)據(jù)資源,綜合不同學(xué)科數(shù)據(jù)資源的物理要素,開展空間科學(xué)前沿問題的智能化研究,探索數(shù)據(jù)驅(qū)動(dòng)的研究方法,深入挖掘數(shù)據(jù)的科學(xué)價(jià)值,為空間科學(xué)數(shù)據(jù)管理提出了新的挑戰(zhàn)。
同時(shí),科學(xué)數(shù)據(jù)是國(guó)家科技創(chuàng)新和經(jīng)濟(jì)社會(huì)發(fā)展的重要基礎(chǔ)性戰(zhàn)略資源,也是大數(shù)據(jù)時(shí)代開發(fā)利用潛力最大的科技資源,對(duì)其的收集、保存、共享和利用是國(guó)家科技投入效益的直接體現(xiàn)。在確立大數(shù)據(jù)國(guó)家戰(zhàn)略的大背景下,2018年3月,頒布了首個(gè)國(guó)家層面的數(shù)據(jù)管理政策《科學(xué)數(shù)據(jù)管理辦法》[3],在加強(qiáng)科學(xué)數(shù)據(jù)全生命周期管理、保障數(shù)據(jù)安全、建立共享交流的審查機(jī)制、充分發(fā)揮科學(xué)數(shù)據(jù)的重要作用等方面,為國(guó)家科學(xué)數(shù)據(jù)中心開展科學(xué)數(shù)據(jù)管理與共享工作確定了行動(dòng)綱領(lǐng)。
在空間科學(xué)數(shù)據(jù)管理全過程中,數(shù)據(jù)產(chǎn)品規(guī)范化組織是數(shù)據(jù)匯交與管理階段的重要環(huán)節(jié),對(duì)多學(xué)科多類型的數(shù)據(jù)進(jìn)行統(tǒng)一管理與標(biāo)準(zhǔn)組織是其中急需解決的問題之一。國(guó)內(nèi)外學(xué)者大多是對(duì)空間科學(xué)數(shù)據(jù)的時(shí)空組織模式進(jìn)行研究,而對(duì)數(shù)據(jù)產(chǎn)品組織模型設(shè)計(jì)的探討較少。如美國(guó)國(guó)家航空航天局(National Aeronautics and Space Administration,NASA)聯(lián)合國(guó)家空間物理研究所提出的空間物理檔案搜索與提取系統(tǒng)SPASE模型[4]和行星科學(xué)數(shù)據(jù)系統(tǒng)PDS[5-7]模型等數(shù)據(jù)模型。這些模型為空間物理和行星科學(xué)領(lǐng)域的數(shù)據(jù)組織存儲(chǔ)與統(tǒng)一歸檔進(jìn)行指導(dǎo)與約束,給出了用于資源描述的元數(shù)據(jù)規(guī)范,但其應(yīng)用程度及范圍均局限于單一學(xué)科領(lǐng)域??臻g科學(xué)領(lǐng)域需要建立一套適用于所有學(xué)科領(lǐng)域數(shù)據(jù)資源的產(chǎn)品組織規(guī)范,實(shí)現(xiàn)對(duì)多學(xué)科數(shù)據(jù)的統(tǒng)一管理、關(guān)聯(lián)發(fā)現(xiàn)及綜合應(yīng)用。
作為我國(guó)空間科學(xué)領(lǐng)域的首個(gè)數(shù)據(jù)中心,國(guó)家空間科學(xué)數(shù)據(jù)中心(以下簡(jiǎn)稱“數(shù)據(jù)中心”)立足于科學(xué)數(shù)據(jù)全生命周期過程及空間科學(xué)數(shù)據(jù)過程管理模型,充分吸納SPASE和PDS等國(guó)際數(shù)據(jù)模型優(yōu)勢(shì),綜合各學(xué)科領(lǐng)域數(shù)據(jù)特點(diǎn),構(gòu)建了空間科學(xué)數(shù)據(jù)產(chǎn)品組織模型[8],實(shí)現(xiàn)對(duì)數(shù)據(jù)資源的分層次實(shí)體管理,并按照不同層級(jí)定義相應(yīng)的輔助性文件,提升了數(shù)據(jù)應(yīng)用的便捷性,為數(shù)據(jù)開放共享活動(dòng)奠定了堅(jiān)實(shí)基礎(chǔ)。同時(shí),數(shù)據(jù)中心將空間科學(xué)數(shù)據(jù)產(chǎn)品組織模型應(yīng)用于中國(guó)科學(xué)院信息化專項(xiàng)等項(xiàng)目[9-11]的數(shù)據(jù)管理過程中,并在實(shí)踐基礎(chǔ)上對(duì)空間科學(xué)數(shù)據(jù)產(chǎn)品組織模型進(jìn)行進(jìn)一步簡(jiǎn)化與修正??茖W(xué)數(shù)據(jù)產(chǎn)品組織模型考慮了學(xué)科特色與數(shù)據(jù)應(yīng)用的共性特征,定義了數(shù)據(jù)資源的層級(jí)結(jié)構(gòu)與廣義元數(shù)據(jù),從而實(shí)現(xiàn)對(duì)各層級(jí)數(shù)據(jù)資源進(jìn)行統(tǒng)一管理與發(fā)現(xiàn);設(shè)計(jì)數(shù)據(jù)說明等輔助性資料,對(duì)數(shù)據(jù)資源的質(zhì)量、內(nèi)容等詳細(xì)信息進(jìn)行描述,同時(shí)將與數(shù)據(jù)處理應(yīng)用相關(guān)的軟件工具與數(shù)據(jù)進(jìn)行關(guān)聯(lián)管理,進(jìn)一步提升了數(shù)據(jù)的應(yīng)用便捷性與科學(xué)易用性。
作為數(shù)據(jù)中心的指導(dǎo)性規(guī)范,科學(xué)數(shù)據(jù)產(chǎn)品組織模型貫穿于空間科學(xué)數(shù)據(jù)標(biāo)準(zhǔn)化組織、規(guī)范化管理等數(shù)據(jù)活動(dòng)全過程,并應(yīng)用于空間科學(xué)先導(dǎo)專項(xiàng)、國(guó)家子午圈計(jì)劃等重大科技任務(wù)及國(guó)家重點(diǎn)研發(fā)計(jì)劃中。本文將結(jié)合國(guó)家重大空間科學(xué)任務(wù)的數(shù)據(jù)管理實(shí)踐活動(dòng),系統(tǒng)地介紹科學(xué)數(shù)據(jù)產(chǎn)品組織模型及其在空間科學(xué)數(shù)據(jù)管理中的應(yīng)用,總結(jié)模型應(yīng)用的效果。
科學(xué)數(shù)據(jù)產(chǎn)品組織模型描述了學(xué)科數(shù)據(jù)實(shí)體資源、數(shù)據(jù)描述資源和數(shù)據(jù)標(biāo)注資源的組織層次關(guān)系結(jié)構(gòu),是空間物理、空間天文、行星科學(xué)等學(xué)科領(lǐng)域科學(xué)數(shù)據(jù)產(chǎn)品組織的基本框架。對(duì)數(shù)據(jù)組織、數(shù)據(jù)描述、數(shù)據(jù)發(fā)現(xiàn)和共享應(yīng)用都具有重要的指導(dǎo)意義。
科學(xué)數(shù)據(jù)產(chǎn)品組織模型劃分為3 個(gè)層級(jí):數(shù)據(jù)產(chǎn)品文件、數(shù)據(jù)集及數(shù)據(jù)卷(圖1)。針對(duì)不同層級(jí)的數(shù)據(jù)實(shí)體進(jìn)行不同粒度的組織與管理。
圖1 科學(xué)數(shù)據(jù)產(chǎn)品組織模型框架
(1)數(shù)據(jù)產(chǎn)品文件:是由一個(gè)或多個(gè)數(shù)據(jù)對(duì)象配合數(shù)據(jù)標(biāo)簽組成,是數(shù)據(jù)產(chǎn)品組織管理的最小粒度實(shí)體,也是數(shù)據(jù)集的最小組成單元。
(2)數(shù)據(jù)集:是具有相同的起源、處理過程、應(yīng)用價(jià)值或相互關(guān)聯(lián)的一系列數(shù)據(jù)產(chǎn)品文件的集合,并配備學(xué)科元數(shù)據(jù)、核心元數(shù)據(jù)以及相關(guān)輔助文檔和軟件工具,以支持在數(shù)據(jù)集層次的統(tǒng)一管理、檢索和釋義。數(shù)據(jù)集是數(shù)據(jù)管理與發(fā)布共享的主要形態(tài)。
(3)數(shù)據(jù)卷:是由一系列具有關(guān)聯(lián)關(guān)系的數(shù)據(jù)集組成,并配置卷編目與卷索引支持?jǐn)?shù)據(jù)卷的定位與解析,是科學(xué)數(shù)據(jù)長(zhǎng)期歸檔存儲(chǔ)的組織形態(tài)。
廣義元數(shù)據(jù)包括組織模型中定義的所有數(shù)據(jù)描述資源和數(shù)據(jù)標(biāo)注資源,用于對(duì)不同粒度的數(shù)據(jù)屬性信息的描述,其功能與內(nèi)容也有所區(qū)別。各層級(jí)數(shù)據(jù)實(shí)體必須配置相應(yīng)的元數(shù)據(jù),主要包括數(shù)據(jù)標(biāo)簽、核心元數(shù)據(jù)、學(xué)科元數(shù)據(jù)、輔助性文檔、卷編目及卷索引。
(1)數(shù)據(jù)標(biāo)簽:是對(duì)數(shù)據(jù)產(chǎn)品文件中的數(shù)據(jù)對(duì)象組織形式進(jìn)行細(xì)致描述,以關(guān)鍵字、文件頭等形式出現(xiàn),用于產(chǎn)品文件的自解釋。
(2)核心元數(shù)據(jù):是面向數(shù)據(jù)集查詢而設(shè)計(jì)的共性屬性,包括數(shù)據(jù)集名稱、摘要描述、觀測(cè)來源等基本信息,可以跨學(xué)科使用。
(3)學(xué)科元數(shù)據(jù):是依據(jù)學(xué)科規(guī)范對(duì)數(shù)據(jù)集的詳細(xì)描述,包括數(shù)據(jù)集的承繼關(guān)系、質(zhì)量信息、參量信息等,可用于學(xué)科精細(xì)化檢索與應(yīng)用。
(4)輔助性文檔:是輔助數(shù)據(jù)集釋義與應(yīng)用的技術(shù)文檔,如數(shù)據(jù)說明、質(zhì)量報(bào)告、處理報(bào)告等。
(5)卷編目:是數(shù)據(jù)卷摘要性信息與組織結(jié)構(gòu)信息,包括卷主題、質(zhì)量信息、內(nèi)容描述等。
(6)卷索引:分為數(shù)據(jù)集索引和數(shù)據(jù)卷,主要描述數(shù)據(jù)集或數(shù)據(jù)卷的目錄結(jié)構(gòu)、文件路徑等信息,用于對(duì)數(shù)據(jù)集或數(shù)據(jù)卷內(nèi)容的快速定位。
在空間科學(xué)數(shù)據(jù)管理活動(dòng)中,依據(jù)科學(xué)數(shù)據(jù)組織模型,數(shù)據(jù)生產(chǎn)者負(fù)責(zé)生產(chǎn)規(guī)范化數(shù)據(jù)產(chǎn)品文件,并與數(shù)據(jù)中心共同制定學(xué)科元數(shù)據(jù)規(guī)范,編制元數(shù)據(jù)與輔助性資料,進(jìn)一步根據(jù)使用慣例組織成數(shù)據(jù)集。數(shù)據(jù)生產(chǎn)者將數(shù)據(jù)產(chǎn)品文件或數(shù)據(jù)集后匯交至數(shù)據(jù)中心,數(shù)據(jù)中心負(fù)責(zé)對(duì)匯交的數(shù)據(jù)產(chǎn)品文件或數(shù)據(jù)集進(jìn)行校驗(yàn)、質(zhì)量復(fù)核;配置所需的元數(shù)據(jù)信息、索引信息等,將數(shù)據(jù)產(chǎn)品組織成數(shù)據(jù)集;根據(jù)數(shù)據(jù)分級(jí)分類管理要求,最終制作成標(biāo)準(zhǔn)數(shù)據(jù)卷,開展長(zhǎng)期安全存儲(chǔ)管理;根據(jù)數(shù)據(jù)共享范圍及途徑要求進(jìn)行數(shù)據(jù)集的開放共享。
為了實(shí)現(xiàn)空間科學(xué)數(shù)據(jù)的全生命周期管理,數(shù)據(jù)中心設(shè)計(jì)了包含基礎(chǔ)設(shè)施、業(yè)務(wù)應(yīng)用及公眾服務(wù)3 個(gè)層次的數(shù)據(jù)系統(tǒng)(圖2)。
圖2 空間科學(xué)數(shù)據(jù)系統(tǒng)架構(gòu)
基礎(chǔ)設(shè)施主要用于支持?jǐn)?shù)據(jù)中心各業(yè)務(wù)系統(tǒng)的網(wǎng)絡(luò)資源、計(jì)算資源、存儲(chǔ)資源及基礎(chǔ)軟件資源。其中,網(wǎng)絡(luò)資源主要包括國(guó)際科技網(wǎng)、中國(guó)科技網(wǎng)、重大項(xiàng)目數(shù)據(jù)專網(wǎng)等,計(jì)算資源包括CPU集群、GPU集群等,存儲(chǔ)系統(tǒng)包括NAS存儲(chǔ)系統(tǒng)、磁帶庫、光盤庫等,基礎(chǔ)軟件資源包括數(shù)據(jù)庫系統(tǒng)、基礎(chǔ)設(shè)施綜合管理系統(tǒng)等。這些資源共同構(gòu)成了數(shù)據(jù)中心一體化的基礎(chǔ)運(yùn)行環(huán)境。
業(yè)務(wù)應(yīng)用層是面向數(shù)據(jù)全生命周期的各個(gè)環(huán)節(jié)設(shè)計(jì),包括數(shù)據(jù)匯集系統(tǒng)、處理系統(tǒng)、管理系統(tǒng)、檔案系統(tǒng)及發(fā)布系統(tǒng)。數(shù)據(jù)匯集系統(tǒng)與重大專項(xiàng)的數(shù)據(jù)系統(tǒng)底層對(duì)接,并為科技計(jì)劃提供在線服務(wù),支持自動(dòng)與人工兩種數(shù)據(jù)匯集模式,并支持對(duì)匯集的數(shù)據(jù)資源進(jìn)行標(biāo)準(zhǔn)化與質(zhì)量復(fù)核。數(shù)據(jù)處理系統(tǒng)主要完成元數(shù)據(jù)編目、數(shù)據(jù)集/數(shù)據(jù)卷制備及質(zhì)量審核,確保元數(shù)據(jù)信息齊全,數(shù)據(jù)集/數(shù)據(jù)卷內(nèi)容完整、連續(xù),格式規(guī)范。數(shù)據(jù)管理系統(tǒng)對(duì)數(shù)據(jù)集進(jìn)行管理,形成按照標(biāo)準(zhǔn)數(shù)據(jù)集庫,對(duì)數(shù)據(jù)集采用“在線—近線—離線”三級(jí)存儲(chǔ)機(jī)制進(jìn)行統(tǒng)一管理,支持對(duì)數(shù)據(jù)集進(jìn)行常規(guī)管理,如出入庫、檢索、瀏覽及統(tǒng)計(jì)分析等。數(shù)據(jù)檔案系統(tǒng)是數(shù)據(jù)卷進(jìn)行統(tǒng)一管理并進(jìn)行分級(jí)存儲(chǔ)、本地備份及遠(yuǎn)程災(zāi)備。數(shù)據(jù)發(fā)布系統(tǒng)是面向數(shù)據(jù)中心門戶提供數(shù)據(jù)分發(fā)與推送服務(wù),保證數(shù)據(jù)共享的實(shí)時(shí)性、靈活性及便捷性。同時(shí),整個(gè)系統(tǒng)還具有相應(yīng)的安全保障體系與數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范體系,為業(yè)務(wù)系統(tǒng)設(shè)計(jì)與建設(shè)提供技術(shù)、接口、數(shù)據(jù)標(biāo)準(zhǔn)等保障,并對(duì)數(shù)據(jù)、用戶、系統(tǒng)等進(jìn)行權(quán)限管理與實(shí)時(shí)監(jiān)控,為業(yè)務(wù)系統(tǒng)的信息安全及穩(wěn)定運(yùn)行提供支持。
數(shù)據(jù)質(zhì)量是數(shù)據(jù)價(jià)值的重要體現(xiàn),只有經(jīng)過數(shù)據(jù)質(zhì)量評(píng)估的數(shù)據(jù)才能具備應(yīng)用價(jià)值,才能在科研創(chuàng)新活動(dòng)中做出應(yīng)有的貢獻(xiàn)。為此,數(shù)據(jù)中心專門數(shù)據(jù)管理系統(tǒng)中設(shè)計(jì)了數(shù)據(jù)質(zhì)量審核軟件,針對(duì)不同領(lǐng)域或項(xiàng)目數(shù)據(jù)的規(guī)范性、完整性、標(biāo)準(zhǔn)性制定不同的質(zhì)量審核策略,利用新技術(shù)、新算法研發(fā)系列審核工具。如在空間科學(xué)先導(dǎo)項(xiàng)目中,針對(duì)衛(wèi)星遙測(cè)數(shù)據(jù)采用了大數(shù)據(jù)異常識(shí)別算法,對(duì)數(shù)據(jù)中的異常值進(jìn)行定位,并對(duì)異常發(fā)生原因進(jìn)行初判,為數(shù)據(jù)異常情況時(shí)的快速處置提供輔助性依據(jù)。
數(shù)據(jù)中心建設(shè)了數(shù)據(jù)門戶網(wǎng)站(https://www.nssdc.ac.cn),面向公眾提供數(shù)據(jù)共享、軟件工具應(yīng)用、動(dòng)態(tài)信息及科普宣傳服務(wù),并提供基于工作流的數(shù)據(jù)應(yīng)用環(huán)境,極大地節(jié)省了用戶的數(shù)據(jù)查詢、獲取及應(yīng)用的時(shí)間成本,有效地提升了科研創(chuàng)新活動(dòng)的效率。
在中國(guó)科學(xué)院戰(zhàn)略性空間科學(xué)先導(dǎo)專項(xiàng)實(shí)施過程中,國(guó)家空間科學(xué)數(shù)據(jù)中心依據(jù)數(shù)據(jù)全生命周期過程管理指南,深入?yún)⑴c項(xiàng)目數(shù)據(jù)管理活動(dòng),指導(dǎo)項(xiàng)目各方開展數(shù)據(jù)匯集與處理、管理、歸檔及發(fā)布等關(guān)鍵數(shù)據(jù)活動(dòng),積極推動(dòng)科學(xué)數(shù)據(jù)組織模型在各環(huán)節(jié)的應(yīng)用。
第一,在數(shù)據(jù)匯集與處理階段,根據(jù)數(shù)據(jù)的處理程度將數(shù)據(jù)產(chǎn)品進(jìn)行分級(jí)分類,制定標(biāo)準(zhǔn)的數(shù)據(jù)產(chǎn)品分級(jí)定義與格式說明;對(duì)各級(jí)各類數(shù)據(jù)產(chǎn)品文件的數(shù)據(jù)標(biāo)簽內(nèi)容、產(chǎn)品存儲(chǔ)格式、數(shù)據(jù)對(duì)象組織方式等進(jìn)行明確描述,確保數(shù)據(jù)產(chǎn)品能夠具備數(shù)據(jù)解析與檢索的必要信息。
數(shù)據(jù)中心負(fù)責(zé)原始數(shù)據(jù)的處理,針對(duì)常用的數(shù)據(jù)存儲(chǔ)格式,對(duì)數(shù)據(jù)標(biāo)簽基本信息提出了要求,包括但不限于數(shù)據(jù)名稱、數(shù)據(jù)級(jí)別、數(shù)據(jù)時(shí)間及生產(chǎn)機(jī)構(gòu)、數(shù)據(jù)校驗(yàn)碼等10 余項(xiàng)屬性。在上述規(guī)范性文檔的指導(dǎo)下,數(shù)據(jù)中心將數(shù)據(jù)處理生成規(guī)范的數(shù)據(jù)產(chǎn)品文件,并配置相應(yīng)的數(shù)據(jù)產(chǎn)品文件處理報(bào)告,便于數(shù)據(jù)管理者及使用者掌握數(shù)據(jù)處理程度。
科學(xué)應(yīng)用系統(tǒng)負(fù)責(zé)標(biāo)定級(jí)數(shù)據(jù)的處理與匯集,與數(shù)據(jù)中心共同制定數(shù)據(jù)歸檔計(jì)劃,明確數(shù)據(jù)產(chǎn)品匯集的方式、內(nèi)容及時(shí)頻等,并持續(xù)開展數(shù)據(jù)匯集工作。依據(jù)數(shù)據(jù)分級(jí)定義及格式說明,對(duì)數(shù)據(jù)進(jìn)行標(biāo)定處理,生成具備詳盡標(biāo)簽信息的數(shù)據(jù)產(chǎn)品文件。并根據(jù)學(xué)科使用慣例及組織模型,將數(shù)據(jù)產(chǎn)品文件按照一定規(guī)則組織成文件集合,如按時(shí)間序列、觀測(cè)號(hào)、實(shí)驗(yàn)號(hào)等,再按照數(shù)據(jù)歸檔計(jì)劃的約定將數(shù)據(jù)提交至數(shù)據(jù)中心。數(shù)據(jù)中心負(fù)責(zé)對(duì)匯交的數(shù)據(jù)產(chǎn)品文件進(jìn)行校驗(yàn)與復(fù)核,對(duì)數(shù)據(jù)產(chǎn)品文件進(jìn)行形式審查,包括但不僅限于數(shù)據(jù)集目錄結(jié)構(gòu)、數(shù)據(jù)產(chǎn)品文件的標(biāo)簽信息與存儲(chǔ)格式等。
第二,在數(shù)據(jù)管理階段,數(shù)據(jù)中心對(duì)經(jīng)過審核的數(shù)據(jù)產(chǎn)品文件進(jìn)行標(biāo)準(zhǔn)化編目形成數(shù)據(jù)集,并制定元數(shù)據(jù)規(guī)范,完成核心元數(shù)據(jù)、學(xué)科元數(shù)據(jù)、數(shù)據(jù)說明等廣義元數(shù)據(jù)的編制。數(shù)據(jù)中心將同一設(shè)備產(chǎn)生的同級(jí)同類同版本的數(shù)據(jù)產(chǎn)品文件按照規(guī)范的數(shù)據(jù)集目錄(圖3)進(jìn)行組織與管理,將數(shù)據(jù)產(chǎn)品文件、廣義元數(shù)據(jù)、相關(guān)的軟件工具及其他示意性資料(數(shù)據(jù)樣例、縮略圖等)作為整體進(jìn)行統(tǒng)一管理。
圖3 空間科學(xué)衛(wèi)星數(shù)據(jù)集目錄結(jié)構(gòu)示意
制定核心元數(shù)據(jù)和數(shù)據(jù)說明規(guī)范,并遵循學(xué)科元數(shù)據(jù)標(biāo)準(zhǔn)開展數(shù)據(jù)集與數(shù)據(jù)卷的制備。面向空間科學(xué)先導(dǎo)專項(xiàng)數(shù)據(jù)資源的多學(xué)科、多級(jí)別、多類型等特點(diǎn),數(shù)據(jù)中心設(shè)計(jì)了涵蓋數(shù)據(jù)基本信息、生產(chǎn)信息、共享信息、機(jī)構(gòu)信息、來源信息等31 項(xiàng)內(nèi)容的核心元數(shù)據(jù),并通過核心元數(shù)據(jù)實(shí)現(xiàn)跨學(xué)科數(shù)據(jù)查詢。同時(shí),依據(jù)不同衛(wèi)星所屬的學(xué)科領(lǐng)域,制定標(biāo)準(zhǔn)元數(shù)據(jù)及其數(shù)據(jù)字典規(guī)范,對(duì)物理要素、觀測(cè)設(shè)備、溯源與承繼關(guān)系、管理發(fā)布機(jī)構(gòu)等進(jìn)行詳細(xì)描述,對(duì)數(shù)據(jù)內(nèi)容進(jìn)行詳細(xì)描述,從而支持?jǐn)?shù)據(jù)集的參數(shù)檢索與關(guān)聯(lián)應(yīng)用。制定了數(shù)據(jù)說明模板,對(duì)數(shù)據(jù)的處理方法、數(shù)據(jù)質(zhì)量、使用要求、權(quán)益聲明等信息進(jìn)行細(xì)致描述,并根據(jù)實(shí)際情況自由擴(kuò)展模板提綱,輔助數(shù)據(jù)使用者在無需獲取數(shù)據(jù)集的情況下,快速、系統(tǒng)及全面地了解數(shù)據(jù)集的基本信息。
第三,在數(shù)據(jù)歸檔階段,遵循科學(xué)數(shù)據(jù)組織模型,將數(shù)據(jù)集按照其關(guān)聯(lián)關(guān)系以規(guī)范的目錄結(jié)構(gòu)組織成標(biāo)準(zhǔn)數(shù)據(jù)卷,進(jìn)行長(zhǎng)期存儲(chǔ)管理、本地備份和異地災(zāi)備??茖W(xué)衛(wèi)星在軌觀測(cè)時(shí)會(huì)同時(shí)產(chǎn)生科學(xué)數(shù)據(jù)、工程輔助數(shù)據(jù),并依據(jù)衛(wèi)星的科學(xué)目標(biāo)及有效載荷的性能情況開展儀器定標(biāo)、地面對(duì)比實(shí)驗(yàn)、仿真模擬等活動(dòng),進(jìn)而產(chǎn)生定標(biāo)數(shù)據(jù)、對(duì)比實(shí)驗(yàn)數(shù)據(jù)、仿真數(shù)據(jù)等。因此,數(shù)據(jù)中心提出了數(shù)據(jù)卷命名規(guī)則、卷索引及卷編目格式要求,將這些不同種類的數(shù)據(jù)集進(jìn)行關(guān)聯(lián)編目,作為整體存儲(chǔ)在同一目錄下,形成標(biāo)準(zhǔn)數(shù)據(jù)卷(圖4)。卷索引主要包含數(shù)據(jù)卷中各類文件的位置信息,便于數(shù)據(jù)系統(tǒng)快速定位數(shù)據(jù)卷的內(nèi)容;卷編目則對(duì)數(shù)據(jù)卷摘要信息及目錄結(jié)構(gòu)進(jìn)行描述,主要包括數(shù)據(jù)卷的生產(chǎn)信息、版本信息、與其他數(shù)據(jù)卷的關(guān)聯(lián)關(guān)系等。
圖4 空間科學(xué)衛(wèi)星數(shù)據(jù)卷目錄結(jié)構(gòu)示意
第四,在數(shù)據(jù)發(fā)布階段,數(shù)據(jù)中心制備完成的數(shù)據(jù)集通過國(guó)家空間科學(xué)數(shù)據(jù)中心門戶網(wǎng)站和各衛(wèi)星任務(wù)數(shù)據(jù)網(wǎng)站進(jìn)行線上及線下共享。所有核心元數(shù)據(jù)同步發(fā)布在中國(guó)科技資源共享網(wǎng)。用戶可以在發(fā)布頁面上通過元數(shù)據(jù)進(jìn)行數(shù)據(jù)的查詢、瀏覽與下載,并獲取在線共享數(shù)據(jù)集的目錄結(jié)構(gòu)與數(shù)據(jù)說明信息,有效地提升了數(shù)據(jù)獲取效率。
在空間科學(xué)先導(dǎo)專項(xiàng)的實(shí)施過程中,數(shù)據(jù)中心將科學(xué)數(shù)據(jù)組織模型貫穿數(shù)據(jù)處理、匯集、管理、歸檔與發(fā)布的全過程,并制定了一系列的元數(shù)據(jù)規(guī)范、格式要求及技術(shù)文檔,為“悟空”“慧眼”“墨子”等在軌科學(xué)衛(wèi)星的數(shù)據(jù)規(guī)范化生產(chǎn)、標(biāo)準(zhǔn)化管理及高效共享提供了有力支持,實(shí)現(xiàn)了跨學(xué)科數(shù)據(jù)的統(tǒng)一管理。
本文從空間科學(xué)數(shù)據(jù)管理系統(tǒng)設(shè)計(jì)及實(shí)踐活動(dòng)入手,系統(tǒng)地介紹了科學(xué)數(shù)據(jù)產(chǎn)品組織模型在空間科學(xué)數(shù)據(jù)管理過程中的應(yīng)用。應(yīng)用結(jié)果表明,從數(shù)據(jù)產(chǎn)品文件粒度對(duì)數(shù)據(jù)資源進(jìn)行規(guī)范化有序管理,能夠有效地降低科學(xué)數(shù)據(jù)管理的復(fù)雜程度,對(duì)保證數(shù)據(jù)資源的規(guī)范性、完整性、易操作性具有重要意義??茖W(xué)數(shù)據(jù)產(chǎn)品組織模型能夠較好地滿足國(guó)家空間科學(xué)數(shù)據(jù)中心對(duì)多類型、多來源數(shù)據(jù)管理與共享的業(yè)務(wù)需求,較好地在項(xiàng)目數(shù)據(jù)匯交過程中發(fā)揮指導(dǎo)性作用。同時(shí),在學(xué)科資源交叉管理方面,組織模型不存在明顯的學(xué)科壁壘,能夠便捷地推廣至其他學(xué)科領(lǐng)域,并且通過調(diào)整元數(shù)據(jù)的體系設(shè)計(jì)和標(biāo)準(zhǔn)規(guī)范保證了數(shù)據(jù)的專業(yè)性與學(xué)科特色,為數(shù)據(jù)資源關(guān)聯(lián)發(fā)現(xiàn)、綜合分析與應(yīng)用提供保障。
在應(yīng)用實(shí)踐活動(dòng)中,使用了國(guó)家空間科學(xué)中心公共技術(shù)服務(wù)中心空間科學(xué)數(shù)據(jù)融合計(jì)算平臺(tái)提供的計(jì)算服務(wù)。同時(shí),感謝國(guó)家科技資源共享服務(wù)平臺(tái)—國(guó)家空間科學(xué)數(shù)據(jù)中心(https://www.nssdc.ac.cn)為本文中的實(shí)踐活動(dòng)提供的支持。