李然 朱明
摘 要FAST作為目前世界口徑最大、最靈敏的單天線射電望遠(yuǎn)鏡,其每天都產(chǎn)生龐大的觀測(cè)數(shù)據(jù)。為提高科學(xué)數(shù)據(jù)的使用和管理,設(shè)計(jì)了天文數(shù)據(jù)歸檔存儲(chǔ)系統(tǒng)以優(yōu)化數(shù)據(jù)管理過程。本文闡述了FAST望遠(yuǎn)鏡的數(shù)據(jù)產(chǎn)品、數(shù)據(jù)量的特點(diǎn),提出系統(tǒng)需求并概述了FAST的數(shù)據(jù)流程。結(jié)合FAST實(shí)際情況并參考國(guó)內(nèi)外望遠(yuǎn)鏡的歸檔模式,提出了適用于FAST的數(shù)據(jù)歸檔存儲(chǔ)系統(tǒng)的功能架構(gòu),為FAST未來(lái)的數(shù)據(jù)管理提供技術(shù)支持。
【關(guān)鍵詞】FAST 天文數(shù)據(jù) 數(shù)據(jù)歸檔 數(shù)據(jù)存儲(chǔ) 系統(tǒng)設(shè)計(jì)
500m口徑球面射電望遠(yuǎn)鏡(Five-hundred-meter Aperture Spherical radio Telescope, FAST) 作為國(guó)家 “十一五”重大科學(xué)工程國(guó)家九大科技基礎(chǔ)設(shè)施之一,已于2016年9月建成并投入使用。FAST的科學(xué)研究?jī)?nèi)容豐富,主要為巡視宇宙中的中性氫、觀測(cè)脈沖星、主導(dǎo)國(guó)際VLBI低頻觀測(cè)、探測(cè)星際分子,以及搜尋可能的星際通信信號(hào)。FAST的計(jì)算性能需求至少需達(dá)到200萬(wàn)億次以上,存儲(chǔ)容量需求達(dá)到10PB以上。隨著時(shí)間推移和科學(xué)任務(wù)的深入,其存儲(chǔ)和處理的數(shù)據(jù)還將成爆炸式增長(zhǎng)。為了對(duì)龐大的科學(xué)數(shù)據(jù)進(jìn)行高效的管理和使用,設(shè)計(jì)一套FAST天文數(shù)據(jù)歸檔存儲(chǔ)系統(tǒng)。系統(tǒng)能將已有的觀測(cè)數(shù)據(jù)實(shí)現(xiàn)自動(dòng)化有效歸檔,為后續(xù)的數(shù)據(jù)計(jì)算和分析奠定堅(jiān)實(shí)的基礎(chǔ)。
1 FAST天文數(shù)據(jù)產(chǎn)生
FAST產(chǎn)生的數(shù)據(jù)主要是觀測(cè)數(shù)據(jù),觀測(cè)數(shù)據(jù)包含相互關(guān)聯(lián)的各級(jí)數(shù)據(jù)和總控反饋的相關(guān)參數(shù),如饋源艙位置、姿態(tài)、位置精度以及風(fēng)速、溫度、濕度等,所以在數(shù)據(jù)產(chǎn)品入庫(kù)和調(diào)出時(shí)必須保留數(shù)據(jù)對(duì)象內(nèi)部的關(guān)聯(lián)信息。
1.1 調(diào)試階段
望遠(yuǎn)鏡在正式運(yùn)行之前會(huì)經(jīng)歷2-3年的調(diào)試階段,調(diào)試階段數(shù)據(jù)主要是頻譜儀記錄的譜線數(shù)據(jù),計(jì)算終端記錄的脈沖星數(shù)據(jù)以及由數(shù)字后端直接導(dǎo)出的基帶數(shù)據(jù)。除了原始數(shù)據(jù),GPU上數(shù)據(jù)處理系統(tǒng)實(shí)時(shí)產(chǎn)生的圖像也將存檔。在調(diào)試階段,F(xiàn)AST產(chǎn)生的各階段數(shù)據(jù)都將被保留存檔,使用格式為FITS。
1.2 運(yùn)行階段
待調(diào)試參數(shù)符合標(biāo)準(zhǔn),通過國(guó)家驗(yàn)收后,望遠(yuǎn)鏡進(jìn)入正式運(yùn)行階段。科學(xué)家會(huì)對(duì)觀測(cè)原始數(shù)據(jù)進(jìn)行科學(xué)處理。以譜線數(shù)據(jù)為例,對(duì)數(shù)據(jù)進(jìn)行分級(jí):0級(jí)數(shù)據(jù)是數(shù)字后端導(dǎo)出的整體時(shí)間序列,由若干通道的電壓信號(hào)的時(shí)間序列、望遠(yuǎn)鏡指向的時(shí)間序列和望遠(yuǎn)鏡其他狀態(tài)參數(shù)整合成的。1級(jí)數(shù)據(jù)是在0級(jí)數(shù)據(jù)基礎(chǔ)上將時(shí)間序列轉(zhuǎn)化為空間分布,通道轉(zhuǎn)化為頻率,重新采樣、射頻干擾處理、基線擬合得到的三維數(shù)據(jù)塊。2級(jí)數(shù)據(jù)由1級(jí)數(shù)據(jù)流量定標(biāo)而來(lái),格式和文件頭與1級(jí)數(shù)據(jù)相同。
1.3 數(shù)據(jù)量
FAST自巡天產(chǎn)生的數(shù)據(jù)是歸檔存儲(chǔ)的主要研究對(duì)象,且數(shù)據(jù)量較大,其它觀測(cè)如定源觀測(cè)等產(chǎn)生的數(shù)據(jù)量相比較小。
19波束巡天數(shù)據(jù)率為:
則19波束10min脈沖星銀道面巡天數(shù)據(jù)量為:
中銀緯和反銀心方向巡天的數(shù)據(jù)量也接近此。未來(lái)使用相位陣饋源進(jìn)行巡天觀測(cè),數(shù)據(jù)量將有5倍以上的提升。
2 系統(tǒng)分析設(shè)計(jì)
2.1 需求分析
2.1.1 角色需求分析
FAST科學(xué)數(shù)據(jù)歸檔存儲(chǔ)系統(tǒng)的用戶角色包含科學(xué)家、數(shù)據(jù)處理程序、數(shù)據(jù)庫(kù)管理員等,具體的角色需求如下:
(1)科學(xué)家用戶:檢索、訪問、下載各級(jí)數(shù)據(jù)產(chǎn)品。
(2)數(shù)據(jù)處理程序:通過特定接口實(shí)現(xiàn)檢索和訪問數(shù)據(jù)。
(3)數(shù)據(jù)庫(kù)管理員:管理歸檔隊(duì)列和注冊(cè)用戶,維護(hù)系統(tǒng)。
2.1.2 系統(tǒng)功能需求分析
FAST歸檔存儲(chǔ)系統(tǒng)提供的功能主要如下:
(1)數(shù)據(jù)產(chǎn)品歸檔入庫(kù):系統(tǒng)歸檔存儲(chǔ)各級(jí)數(shù)據(jù)產(chǎn)品。
(2)數(shù)據(jù)檢索:系統(tǒng)根據(jù)用戶的查詢要求,檢查合法性后對(duì)元數(shù)據(jù)庫(kù)進(jìn)行匹配查詢,再通過關(guān)系映射找到數(shù)據(jù)所在位置,返回?cái)?shù)據(jù)地址信息。
(3)下載和發(fā)送數(shù)據(jù):系統(tǒng)將數(shù)據(jù)產(chǎn)品發(fā)送到用戶計(jì)算機(jī)或數(shù)據(jù)處理系統(tǒng)。
(4)用戶管理:系統(tǒng)提供統(tǒng)一的用戶管理功能,如用戶注冊(cè)、登錄等。
2.2 業(yè)務(wù)流程設(shè)計(jì)
FAST歸檔存儲(chǔ)系統(tǒng)業(yè)務(wù)流程如圖1所示,以數(shù)據(jù)流為導(dǎo)向,分為數(shù)據(jù)采集階段、數(shù)據(jù)處理階段、數(shù)據(jù)歸檔階段和數(shù)據(jù)檢索階段四個(gè)部分。具體如下:
(1)數(shù)據(jù)采集階段:FAST面板將信號(hào)反射至接收機(jī)接收,將電壓信號(hào)經(jīng)放大器和濾波器處理后,分為兩路——頻譜儀和兩路數(shù)字后端(譜線+脈沖星),再通過頻譜儀和數(shù)字后端進(jìn)行模數(shù)轉(zhuǎn)換成數(shù)字信號(hào)。
(2)數(shù)據(jù)處理階段:該階段主要針對(duì)存儲(chǔ)于集群上的大規(guī)模巡天和計(jì)時(shí)觀測(cè)得到FITS數(shù)據(jù)進(jìn)行處理。不同的科學(xué)任務(wù),需要的數(shù)據(jù)處理流程也不同。
(3)數(shù)據(jù)歸檔階段:系統(tǒng)通過提取FITS文件頭信息和總控反饋的相關(guān)信息組成元數(shù)據(jù)信息,并將數(shù)據(jù)產(chǎn)品信息和元數(shù)據(jù)信息存入文件系統(tǒng)數(shù)據(jù)庫(kù)中,由系統(tǒng)自動(dòng)或系統(tǒng)管理員識(shí)別項(xiàng)目歸檔類別后,傳入歸檔信息以初始化模塊。數(shù)據(jù)產(chǎn)品存入檔案庫(kù)中后,獲得其具體的存儲(chǔ)位置信息,待系統(tǒng)確認(rèn)項(xiàng)目副本與狀態(tài)成功寫入后,再將位置信息添加進(jìn)相對(duì)應(yīng)的元數(shù)據(jù)中形成映射,然后刪除暫存文件系統(tǒng)中的項(xiàng)目信息和元數(shù)據(jù)信息。
(4)數(shù)據(jù)檢索階段:用戶通過網(wǎng)頁(yè)或其他程序連接到系統(tǒng),用戶與系統(tǒng)對(duì)話得到檢索請(qǐng)求,在檢查請(qǐng)求合法性后即向元數(shù)據(jù)庫(kù)中進(jìn)行檢索,得到符合的結(jié)果列表,用戶按需選擇具體的數(shù)據(jù)對(duì)象后,系統(tǒng)通過檢查數(shù)據(jù)的具體存儲(chǔ)位置,發(fā)送位置并調(diào)取數(shù)據(jù)給終端用戶。
3 系統(tǒng)實(shí)現(xiàn)
在整個(gè)FAST數(shù)據(jù)歸檔存儲(chǔ)系統(tǒng)中,歸檔控制器模塊、歸檔作業(yè)模塊和數(shù)據(jù)訪問檢索模塊是主要的功能模塊,下面將對(duì)這三個(gè)功能模塊進(jìn)行具體的分析介紹。
3.1 歸檔控制器模塊
該模塊是將所有級(jí)別的數(shù)據(jù)產(chǎn)品存儲(chǔ)到歸檔服務(wù)器中的控制器。對(duì)于每個(gè)文件集,將安排一個(gè)攝取作業(yè)。同時(shí),能夠通過控制隊(duì)列減少并發(fā)。
如圖2所示,事務(wù)監(jiān)聽器模塊自動(dòng)檢測(cè)RTC(real time computer)中的數(shù)據(jù)產(chǎn)品,創(chuàng)建一個(gè)新的任務(wù)來(lái)處理數(shù)據(jù)并將其進(jìn)程注冊(cè)到作業(yè)控制器模塊中。作業(yè)控制器模塊用于創(chuàng)建存檔作業(yè)和安排調(diào)度,系統(tǒng)管理員可通過用戶界面與運(yùn)行作業(yè)通信,能夠暫停、恢復(fù)和取消作業(yè)。隊(duì)列管理器模塊能夠管理命令和優(yōu)先化隊(duì)列,每次能擁有多個(gè)作業(yè)。該隊(duì)列可以動(dòng)態(tài)配置,特別是并發(fā)級(jí)別,也可通過調(diào)度動(dòng)態(tài)靜默以停止作業(yè)。對(duì)象關(guān)系映射層允許將狀態(tài)和數(shù)據(jù)的內(nèi)部表示轉(zhuǎn)換成適于數(shù)據(jù)庫(kù)存取的形式。
3.2 歸檔作業(yè)模塊
該模塊負(fù)責(zé)將特定的數(shù)據(jù)產(chǎn)品集存儲(chǔ)到檔案服務(wù)器中。它能夠生成或鏈接到元數(shù)據(jù),在歸檔過程中存儲(chǔ)數(shù)據(jù)產(chǎn)品的多個(gè)副本,配置訪問限制,創(chuàng)建索引以支持搜索和訪問。
如圖3所示,作業(yè)控制模塊能跟蹤作業(yè),允許作業(yè)開始、暫停、恢復(fù)等,還負(fù)責(zé)響應(yīng)任何異常狀況,包括已知和未知的問題類型。訪問控制模塊提供訪問控制信息給其他數(shù)據(jù)歸檔模塊。在這種情況下,它負(fù)責(zé)向已歸檔資源提供授權(quán)信息。為此,它將使用存儲(chǔ)在數(shù)據(jù)庫(kù)中的元數(shù)據(jù)信息。文件索引模塊負(fù)責(zé)掃描數(shù)據(jù)產(chǎn)品中的每個(gè)文件并確保它已被索引。它將使用一個(gè)合適的元數(shù)據(jù)讀取器來(lái)解析元數(shù)據(jù)并將這些元數(shù)據(jù)記錄到數(shù)據(jù)庫(kù)和搜索索引中,可能會(huì)加載目錄到數(shù)據(jù)庫(kù)中。元數(shù)據(jù)讀取模塊用于讀取元數(shù)據(jù),通常從提供的元數(shù)據(jù)文件中讀取,有時(shí)也從個(gè)別文件中創(chuàng)建日期和文件大小,然后通過文件索引模塊形成一個(gè)適于處理和存儲(chǔ)的元數(shù)據(jù)記錄。
3.3 數(shù)據(jù)訪問檢索模塊
該模塊負(fù)責(zé)處理來(lái)自科學(xué)團(tuán)隊(duì)、天文學(xué)家和公眾的請(qǐng)求,用于檢索和訪問數(shù)據(jù)。
如圖4所示,用戶通過網(wǎng)頁(yè)客戶端或者其他符合VO(Virtual Observatory)協(xié)議的客戶端程序檢索并訪問科學(xué)數(shù)據(jù)。模塊使用搜索服務(wù)執(zhí)行所需操作,對(duì)于檢索得到的可下載的源,通過web服務(wù)或VO服務(wù)返回一個(gè)URI給下載管理器以供用戶下載。訪問控制模塊負(fù)責(zé)用戶身份驗(yàn)證和授權(quán)信息存檔,為此,它需要使用存放在數(shù)據(jù)庫(kù)的元數(shù)據(jù)信息和其他訪問信息來(lái)源。下載管理器模塊負(fù)責(zé)下載請(qǐng)求的同步和異步處理。它接收到一個(gè)資源下載請(qǐng)求,檢查所請(qǐng)求的資源是否可以在規(guī)定時(shí)間內(nèi)直接下載。如果可以,啟動(dòng)下載程序。如果是其他回答,它將在準(zhǔn)備資源過程中,如從磁帶拷貝到磁盤以及執(zhí)行數(shù)據(jù)過濾時(shí)發(fā)送郵件,通知資源準(zhǔn)備下載并附上資源鏈接。
4 總結(jié)
數(shù)據(jù)歸檔存儲(chǔ)系統(tǒng)將使得FAST數(shù)據(jù)得到科學(xué)、自動(dòng)化的規(guī)范存取并極大提高使用效率,能夠?qū)崿F(xiàn)FAST數(shù)據(jù)的統(tǒng)一歸檔、檢索、提取、維護(hù)、分析與安全控制等功能。本文介紹了FAST數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)量及需求,概括了FAST歸檔存儲(chǔ)流程,設(shè)計(jì)了FAST天文數(shù)據(jù)歸檔存儲(chǔ)系統(tǒng)的基本功能,為科學(xué)存儲(chǔ)和管理天文數(shù)據(jù)提供高效方案。目前的歸檔系統(tǒng)項(xiàng)目還存在一定缺陷,未來(lái)將繼續(xù)改進(jìn)并完善,使其成為符合國(guó)際天文協(xié)會(huì)標(biāo)準(zhǔn)的通用的歸檔存儲(chǔ)系統(tǒng)。
參考文獻(xiàn)
[1]南仁東.射電天文學(xué)——500m球反射面射電望遠(yuǎn)鏡FAST[J].中國(guó)學(xué)術(shù)期刊文摘,2006(09):51-51.
[2]Chapman J M.CASDA:The CSIRO ASKAP Science Data Archive[J].Iau General Assembly,2015,22.
[3]王玉涵,黃茂海,劉飛飛.SVOM數(shù)據(jù)檔案庫(kù)軟件原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].天文研究與技術(shù),2015,12(03):331-341.
[4]李育嶺.海量數(shù)據(jù)歸檔與恢復(fù)系統(tǒng)技術(shù)研究與實(shí)現(xiàn)[D].南京航空航天大學(xué),2013.
[5]李文.虛擬天文臺(tái)環(huán)境下的海量數(shù)據(jù)存儲(chǔ)與訪問技術(shù)研究[D].天津大學(xué),2007.
[6]余駿.面向海量天文數(shù)據(jù)的分布式存儲(chǔ)引擎的研究[D].天津大學(xué),2013.
作者簡(jiǎn)介
李然(1993-),女,貴州省遵義市人。碩士學(xué)位?,F(xiàn)為中國(guó)科學(xué)院國(guó)家天文臺(tái)與貴州大學(xué)聯(lián)合培養(yǎng)碩士。研究方向?yàn)樘煳臄?shù)據(jù)處理。
作者單位
1.貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 貴州省貴陽(yáng)市 550025
2.中國(guó)科學(xué)院國(guó)家天文臺(tái) 北京市 100012