楊 芳,邢麗平,楊代才
(湖北省氣象信息與技術(shù)保障中心,武漢 430074)
作為首個MICAPS4(MICAPS系列最新版本)系統(tǒng)運行省級試點,該系統(tǒng)已在湖北省氣象局試運行一年多時間。此系統(tǒng)以首次集成集合預(yù)報、格點預(yù)報等業(yè)務(wù)功能,讀取衛(wèi)星、雷達以及數(shù)值預(yù)報產(chǎn)品的效率達到毫秒級響應(yīng)時間,分布式存儲系統(tǒng)零故障等特點,實現(xiàn)了全省MICAPS客戶端直連省級分布式存儲系統(tǒng),為湖北現(xiàn)代天氣預(yù)報業(yè)務(wù)提供了很好的支撐。其采取的非關(guān)系型分布式數(shù)據(jù)庫為氣象實時數(shù)據(jù)量身打造了一套集群存儲系統(tǒng),其讀寫性能優(yōu)異,從上億個數(shù)據(jù)中檢索一個數(shù)據(jù)用時僅幾毫秒[1];為確保該實時數(shù)據(jù)庫其優(yōu)異的讀取性能,對所存儲的數(shù)據(jù)產(chǎn)品有嚴格的時間限制,如:存儲最新30天的數(shù)值預(yù)報產(chǎn)品、衛(wèi)星云圖資料;90天的高空地面實況資料等。
對于預(yù)報業(yè)務(wù)人員而言,MICAPS資料是進行天氣分析跟蹤,天氣衍變規(guī)律總結(jié)的重要數(shù)據(jù)基礎(chǔ),特別是關(guān)鍵性、災(zāi)害性、轉(zhuǎn)折性天氣的歷史資料更是提高預(yù)報準確率的前提[2]。盡管MICAPS4系統(tǒng)提供數(shù)據(jù)訪問接口,然而對大部分基層臺站預(yù)報技術(shù)人員而言,通過數(shù)據(jù)訪問接口來保存歷史天氣個例資料依舊比較困難。因此在省級搭建一個穩(wěn)定、可靠、能充分考慮資料共享與使用便利性的MICAPS歷史資料存儲架構(gòu)環(huán)境,成為MICAPS4在湖北省正式業(yè)務(wù)運行前迫切需要解決的問題。
系統(tǒng)能實時采集CIMISS數(shù)據(jù)庫中的實況數(shù)據(jù),接收不同系統(tǒng)或服務(wù)器所推送MICAPS原始數(shù)據(jù),并進行實時解碼處理,生成文件格式的數(shù)據(jù)產(chǎn)品;同時將接收到的原始數(shù)據(jù)進行自動備份,最終為用戶提供一個以文件形式存儲的涵蓋MICAPS原始數(shù)據(jù)與數(shù)據(jù)產(chǎn)品的數(shù)據(jù)平臺。省級以及省內(nèi)各級臺站可通過文件共享或FTP下載方式來訪問該平臺以獲取所需的數(shù)據(jù)。
系統(tǒng)在省級部署,可確保能為歷史資料的應(yīng)用提供完整準確的數(shù)據(jù)源,同時極大減輕市縣兩級維護系統(tǒng)與數(shù)據(jù)的工作量。對所備份資料進行分類[3],每種數(shù)據(jù)采用一天一個壓縮包的保存方式(逐日定時分類壓縮過去24小時的MICAPS數(shù)據(jù)文件)。數(shù)據(jù)存儲的目錄結(jié)構(gòu)定為4級,第1級目錄為數(shù)據(jù)生成的年份,第2級目錄為數(shù)據(jù)生成的月份,第3級目錄為資料類型,第4級目錄為資料類型名+日期的數(shù)據(jù)文件(例:ECMWF_HR20180102.zip),清晰的目錄結(jié)構(gòu)便于日后對歷史數(shù)據(jù)進行管理和維護。
系統(tǒng)所存儲的業(yè)務(wù)數(shù)據(jù)量主要來自于兩個部分,一是解碼后的數(shù)據(jù)產(chǎn)品文件(用戶通過MICAPS客戶端可以直接調(diào)用),至少保存3個月;二是備份的經(jīng)壓縮過的原始數(shù)據(jù)及數(shù)據(jù)產(chǎn)品,至少存儲1年(表1)。考慮到今后業(yè)務(wù)發(fā)展趨勢,本系統(tǒng)建設(shè)初期具備240 TB的存儲能力,支持至少1年的在線數(shù)據(jù)服務(wù)。
針對MICAPS數(shù)據(jù)產(chǎn)品小文件數(shù)目多、整體數(shù)據(jù)量大等特點,采用一體化的存儲解決方案,選擇NAS的存儲架構(gòu)。NAS(網(wǎng)絡(luò)附加存儲),即將存儲設(shè)備通過網(wǎng)絡(luò)連接到現(xiàn)有的服務(wù)器上(用戶通過訪問服務(wù)器來獲取NAS里的數(shù)據(jù)文件),基于TCP/IP協(xié)議提供數(shù)據(jù)和文件級數(shù)據(jù)的存取服務(wù)。在支持大容量的同時,也具備大規(guī)模橫向擴展能力,即在不做數(shù)據(jù)遷移的前提下,實現(xiàn)存儲容量和性能的平滑擴展。
表1 存儲的資料類型與在線存儲時間
注:表中數(shù)據(jù)產(chǎn)品與原始數(shù)據(jù)是指將數(shù)據(jù)經(jīng)壓縮程序處理過的壓縮包;“—”表示無此類數(shù)據(jù)文件
解碼后的數(shù)據(jù)產(chǎn)品文件,直接存放在NAS指定目錄下(不列入下表1)。對需要壓縮備份的MICAPS原始數(shù)據(jù)與產(chǎn)品,可根據(jù)數(shù)據(jù)量大小、目錄結(jié)構(gòu)、業(yè)務(wù)需求的不同,選擇不同備份方式[4];對原始數(shù)據(jù),采取直接壓縮備份方式(ZIP壓縮包);對數(shù)據(jù)產(chǎn)品先使用Rsync精確同步指定格式文件再壓縮備份(TAR包)。用于數(shù)據(jù)備份的腳本運行在Linux系統(tǒng)下,主要使用Python語言完成。
正常情況下,系統(tǒng)在每天設(shè)定的時間分別對10類MICAPS原始數(shù)據(jù)、3類MICAPS數(shù)據(jù)產(chǎn)品前一天的資料進行自動壓縮備份,具體信息見表1;同時部署數(shù)據(jù)監(jiān)控腳本,當自動備份不成功時,可以運行手動備份腳本完成相關(guān)數(shù)據(jù)文件的備份。
該系統(tǒng)由數(shù)據(jù)處理服務(wù)器(Red Hat Enterprise Linux 7.1操作系統(tǒng))、NAS網(wǎng)絡(luò)附加存儲兩部分組成(Linux下NFS掛載NAS)(見圖1),系統(tǒng)能實時處理由CTS或省級文件服務(wù)器推送的MICAPS原始數(shù)據(jù),同時讀取CIMISS數(shù)據(jù)庫中的地面、高空實況數(shù)據(jù)并進行解碼處理,最后生成以文件形式存儲的MICAPS格式的數(shù)據(jù)產(chǎn)品,保存在NAS指定目錄中。對于原始數(shù)據(jù)與數(shù)據(jù)產(chǎn)品的備份[5],則是利用Linux的Crontab功能每天定時調(diào)用資料備份腳本對相關(guān)數(shù)據(jù)進行壓縮備份,存儲至相應(yīng)的目錄(見圖2),其中實時數(shù)據(jù)流式解析系統(tǒng)(DPC)與站點輪詢系統(tǒng)(JobSchedule)均來源于CIMISS-MICAPS4后臺數(shù)據(jù)環(huán)境。
圖1 MICAPS資料處理、存儲流程圖
圖2 數(shù)值預(yù)報數(shù)據(jù)處理與補傳流程
通過部署在該平臺上的監(jiān)控腳本來判定所備份數(shù)據(jù)的完整性(檢測所存儲數(shù)據(jù)壓縮包的大小),并將告警信息寫入監(jiān)控日志。值班人員通過查看監(jiān)控日志,來判斷是否需要補調(diào)原始數(shù)據(jù)、恢復(fù)數(shù)據(jù)產(chǎn)品以及手動運行備份腳本等。
湖北省各級氣象臺站不僅可以通過CIMISS-MICAPS4分布式數(shù)據(jù)環(huán)境提供的數(shù)據(jù)接口(GDS)調(diào)用MICAPS數(shù)據(jù)產(chǎn)品,也可以通過FTP或文件共享方式連接到該存儲平臺獲取3個月以內(nèi)的文件數(shù)據(jù)產(chǎn)品以及1年以上的原始數(shù)據(jù);對于超過三個月的數(shù)據(jù)產(chǎn)品,可由系統(tǒng)管理員將備份的原始數(shù)據(jù)導(dǎo)入該系統(tǒng)后,用戶再行調(diào)用。該存儲系統(tǒng)的應(yīng)用,不僅降低了省級技術(shù)人員運維壓力,也確保了MICAPS原始數(shù)據(jù)與數(shù)據(jù)產(chǎn)品的完整性。
2.2.1 華東數(shù)值預(yù)報數(shù)據(jù) 隨著各地精細化預(yù)報服務(wù)需求的日益增長,各區(qū)域氣象中心均建立3~9 km的高分辨率區(qū)域數(shù)值天氣預(yù)報業(yè)務(wù)系統(tǒng)。為推進區(qū)域高分辨率數(shù)值預(yù)報產(chǎn)品的快速共享,提升區(qū)域高分辨率數(shù)值預(yù)報模式對短時臨近、精細化預(yù)報等業(yè)務(wù)的支撐能力,基于INTERNET和公共云資源,由上海市氣象局牽頭建立了數(shù)值預(yù)報云,為全國各省提供華北、華東等數(shù)值預(yù)報產(chǎn)品實時下載等服務(wù)。以華東數(shù)值預(yù)報產(chǎn)品為例,梳理該數(shù)據(jù)傳遞給預(yù)報員并提供數(shù)據(jù)共享的流程。
省級數(shù)值預(yù)報云客戶端實時下載華東模式預(yù)報產(chǎn)品,采用FTP方式共享。省級文件共享服務(wù)器從該客戶端上下載華東模式產(chǎn)品后,F(xiàn)TP推送給MICAPS4及MICAPS歷史資料存儲平臺。兩個平臺在完成數(shù)據(jù)的解析后,將解碼后的數(shù)據(jù)保存至Cassandra或NAS中,供全省各級臺站業(yè)務(wù)人員調(diào)用(見圖2)。
2.2.2 歐洲高分辨率模式數(shù)值預(yù)報產(chǎn)品 與華東、華南數(shù)值預(yù)報產(chǎn)品由數(shù)值預(yù)報云提供相比,大部分氣象模式數(shù)據(jù)由CTS推送。以歐洲高分辨率模式數(shù)值預(yù)報產(chǎn)品為例(見圖2),對該類數(shù)據(jù)共享、補傳、歷史數(shù)據(jù)恢復(fù)流程進行介紹。
歐洲高分辨率數(shù)據(jù)由CTS推送給MICAPS4后臺數(shù)據(jù)環(huán)境及MICAPS歷史資料存儲平臺。一旦該原始數(shù)據(jù)出現(xiàn)缺失,可由省級文件共享服務(wù)器從國家級文件共享服務(wù)器上調(diào)取原始數(shù)據(jù)至MICAPS歷史資料存儲平臺,完成資料的補傳,確保存儲平臺上原始數(shù)據(jù)與解碼后數(shù)據(jù)的完整性。MICAPS歷史資料存儲平臺上完整的數(shù)據(jù)源,也可成為MICAPS4系統(tǒng)的另一數(shù)據(jù)來源,在局域網(wǎng)環(huán)境下提升數(shù)據(jù)補調(diào)效率。
用戶通過FTP或文件共享可獲取的MICAPS歷史資料(類型見表1),若需要3個月以前的數(shù)值預(yù)報數(shù)據(jù),則需要省級系統(tǒng)管理員進行歷史數(shù)據(jù)恢復(fù)操作。操作流程見圖3,首先將保存在NAS中的原始數(shù)據(jù)壓縮包解壓至數(shù)據(jù)處理服務(wù)器的指定目錄,再通過DPC控制臺交互程序,手動恢復(fù)數(shù)據(jù)(可同時恢復(fù)不同種類不同時段的數(shù)據(jù)),恢復(fù)出的數(shù)據(jù)產(chǎn)品直接寫入NAS數(shù)據(jù)產(chǎn)品的目錄中,供用戶調(diào)用。
圖3 歐洲高分數(shù)值預(yù)報歷史數(shù)據(jù)恢復(fù)流程
為更好推進MICAPS4在湖北省的全面業(yè)務(wù)化,利用NAS搭建MICAPS歷史資料存儲系統(tǒng),為各級氣象臺站提供多種MICAPS數(shù)據(jù)產(chǎn)品獲取方式。試運行以來,系統(tǒng)穩(wěn)定,實現(xiàn)了市縣兩級運維人員對該系統(tǒng)“零”維護?;贜AS的存儲方式,將存儲設(shè)備與服務(wù)器分離管理,減少了服務(wù)器負擔(dān),提高了存儲效率。
參考文獻:
[1] 王若曈,黃向東,張博,等.海量氣象數(shù)據(jù)實時解析與存儲系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機工程與科學(xué),2015,37(11):2045-2054.
[2] 李月安,曹莉,高嵩,等.MICAPS預(yù)報業(yè)務(wù)平臺現(xiàn)狀與發(fā)展[J].氣象,2010,36(7):50-55.
[3] 竇以文,盧俐,劉旭林,等.氣象數(shù)據(jù)存貯管理系統(tǒng)[J].計算機系統(tǒng)應(yīng)用,2011(7):116-120
[4] 林玉成,趙瑞,羅兵.基于Rsync的中央氣象臺數(shù)據(jù)備份機制及優(yōu)化設(shè)計[J].高原山地氣象研究,2014(1):81-85.
[5] 劉斌.基于Linux的文件實時備份系統(tǒng)設(shè)計與實現(xiàn)[D].北京:華北電力大學(xué),2014
[6] MarkLutz.Learning Python[M].北京:機械工業(yè)出版社,2011.