江蕾 邱玲
1. 高原與盆地暴雨旱澇災(zāi)害四川省重點(diǎn)實(shí)驗(yàn)室 四川 成都 610072;
2. 四川省氣象探測(cè)數(shù)據(jù)中心 四川 成都 610072
在數(shù)據(jù)分析的過(guò)程中,我們會(huì)接觸到很多的數(shù)據(jù),這些數(shù)據(jù)根據(jù)結(jié)構(gòu)分類(lèi)可劃分為3種:結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。其中結(jié)構(gòu)化數(shù)據(jù)指是由二維表結(jié)構(gòu)來(lái)邏輯表達(dá)和實(shí)現(xiàn)的數(shù)據(jù),嚴(yán)格地遵循數(shù)據(jù)格式與長(zhǎng)度規(guī)范,主要通過(guò)關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)和管理(在氣象領(lǐng)域應(yīng)用主要是地面、高空的站點(diǎn)氣象要素?cái)?shù)據(jù))[1]。與結(jié)構(gòu)化數(shù)據(jù)相對(duì)的是不適于由數(shù)據(jù)庫(kù)二維表來(lái)表現(xiàn)的非結(jié)構(gòu)化數(shù)據(jù),包括所有格式的二進(jìn)制文件(衛(wèi)星、雷達(dá))、文檔、圖片、XML文件等;最后是半結(jié)構(gòu)化數(shù)據(jù),這類(lèi)數(shù)據(jù)采用冗余方式進(jìn)行存儲(chǔ)服務(wù),數(shù)據(jù)索引信息保存在某個(gè)指定的關(guān)系數(shù)據(jù)庫(kù)中,數(shù)據(jù)文件按照非結(jié)構(gòu)化數(shù)據(jù)的組織形式進(jìn)行存儲(chǔ),采用此方式的原因是查詢(xún)統(tǒng)計(jì)比較方便,并且能夠靈活地進(jìn)行擴(kuò)展與檢索。
目前四川自有產(chǎn)品中最具特色而且應(yīng)用頻度高的是高原所生成的西南區(qū)域數(shù)值模式預(yù)報(bào)產(chǎn)品,產(chǎn)品包括兩個(gè)子模式產(chǎn)品:9km產(chǎn)品SWC-WARMS和3km產(chǎn)品SWC-WARR,每個(gè)子模式產(chǎn)品每天起報(bào)4次:02時(shí)、08時(shí)、14時(shí)、20時(shí)(北京時(shí)),產(chǎn)品1天的數(shù)據(jù)量至少130GB,未來(lái)隨著精細(xì)化氣象預(yù)報(bào)的應(yīng)用和預(yù)報(bào)要素、預(yù)報(bào)時(shí)效的精細(xì)化程度提高以及用戶(hù)數(shù)的激增,數(shù)據(jù)量會(huì)越來(lái)越大,而且對(duì)于氣象應(yīng)用來(lái)說(shuō),數(shù)據(jù)的共享服務(wù)的橫向、縱向都會(huì)有涉及,因此從數(shù)據(jù)量和數(shù)據(jù)服務(wù)來(lái)說(shuō),問(wèn)題越發(fā)明顯,基于以上從數(shù)據(jù)量以及數(shù)據(jù)應(yīng)用的角度來(lái)看,簡(jiǎn)單的數(shù)據(jù)轉(zhuǎn)發(fā)或者推送已經(jīng)無(wú)法滿(mǎn)足目前多元?dú)庀髷?shù)據(jù)的應(yīng)用[2-3]。
為了解決以上問(wèn)題,基于四川省局?jǐn)?shù)據(jù)中心對(duì)數(shù)值模式產(chǎn)品的管理方式(原始產(chǎn)品的轉(zhuǎn)發(fā)保存、CMADAAS規(guī)范的要素級(jí)產(chǎn)品管理與共享服務(wù)、要素級(jí)產(chǎn)品接入MICAPS4分布式數(shù)據(jù)環(huán)境與代理下載服務(wù)),考慮到系統(tǒng)集約化要求和目前用戶(hù)對(duì)下行共享存儲(chǔ)的原始產(chǎn)品的需求越來(lái)越少,因?yàn)槿氐漠a(chǎn)品數(shù)據(jù)量大并且只能提供單一的服務(wù)方式(FTP),并且CMADAAS和MICAPS4兩個(gè)系統(tǒng)實(shí)現(xiàn)了數(shù)值預(yù)報(bào)服務(wù)產(chǎn)品細(xì)粒度、多維度、高效的管理服務(wù),因此數(shù)值模式產(chǎn)品需要進(jìn)入CMADAAS和MICAPS4分布式數(shù)據(jù)環(huán)境(MDFS)才能更好更全面地為氣象用戶(hù)提供共享服務(wù)[4]。
根據(jù)CMADAAS對(duì)數(shù)值預(yù)報(bào)模式的處理流程,西南區(qū)域模式產(chǎn)品在CMADAAS里的接入包括CTS系統(tǒng)、DPC系統(tǒng)、SOD系統(tǒng)、MUSIC系統(tǒng)的流程配置,其中CTS系統(tǒng)按照CMADAAS對(duì)數(shù)值預(yù)報(bào)模式產(chǎn)品規(guī)范進(jìn)行產(chǎn)品接入,DPC系統(tǒng)、SOD系統(tǒng)、MUSIC系統(tǒng)的配置需要按照產(chǎn)品本身的氣象元數(shù)據(jù)信息配置。
數(shù)據(jù)處理系統(tǒng)(DPC)涉及產(chǎn)品的處理有產(chǎn)品預(yù)報(bào)場(chǎng)的拆分和GRIB的解碼模塊的加載,根據(jù)已有算法對(duì)數(shù)值模式產(chǎn)品的處理,DPC子系統(tǒng)將四級(jí)編碼為F.0027.0006.R001的9km西南區(qū)域數(shù)值產(chǎn)品(GRIB1格式)由系統(tǒng)的GRIB1算法解碼,并且解碼出兩種產(chǎn)品,一個(gè)是產(chǎn)品文件,一個(gè)是產(chǎn)品描述文件。系統(tǒng)解碼出的預(yù)報(bào)要素如下表:
表1 解碼的預(yù)報(bào)要素
續(xù)表
從上表中可以看到其中前面11個(gè)預(yù)報(bào)要素為數(shù)字,代表西南區(qū)域數(shù)值模式產(chǎn)品存在DPC系統(tǒng)未定義的預(yù)報(bào)要素,剩下的用具體字母的代表西南區(qū)域數(shù)值模式產(chǎn)品的預(yù)報(bào)要素在DPC系統(tǒng)中存在定義并已經(jīng)被正確解碼[5]。因此,未正確解碼出預(yù)報(bào)要素的產(chǎn)品需要使用WGRIB查看具體的預(yù)報(bào)要素并且更新DPC系統(tǒng)的GRIB解碼配置文件,下表是使用WGRIB解碼上述11個(gè)預(yù)報(bào)要素為數(shù)字的產(chǎn)品,得到的結(jié)果。
表2 WGRIB解碼后預(yù)報(bào)要素
續(xù)表
西南區(qū)域數(shù)值模式產(chǎn)品在數(shù)據(jù)存儲(chǔ)系統(tǒng)中的管理包括結(jié)構(gòu)化部分和非結(jié)構(gòu)化部分,即索引入庫(kù)和產(chǎn)品歸檔。為了方便管理與提供服務(wù),存儲(chǔ)結(jié)構(gòu)的管理和產(chǎn)品歸檔的配置需要通過(guò)數(shù)據(jù)處理系統(tǒng)解碼出來(lái)的產(chǎn)品描述文件確定存儲(chǔ)結(jié)構(gòu)的要素和存儲(chǔ)的細(xì)節(jié)[6]。
首先是索引入庫(kù)配置。這一部分包括了存儲(chǔ)結(jié)構(gòu)管理和入庫(kù)策略配置,存儲(chǔ)結(jié)構(gòu)管理根據(jù)產(chǎn)品描述文檔里解碼出的要素和消息內(nèi)容確定,存儲(chǔ)結(jié)構(gòu)的字段應(yīng)該包括文件大小、入庫(kù)時(shí)間、存儲(chǔ)路徑、年月日時(shí)分秒等時(shí)間要素,文件格式(GRIB1、GRIB2、netCDF等)、文件名、原文件名、預(yù)報(bào)氣象要素代碼、加工中心、預(yù)報(bào)時(shí)效、層次等。其次是入庫(kù)策略配置,這一個(gè)配置會(huì)最終生成入庫(kù)的SQL語(yǔ)句,主要配置的是數(shù)據(jù)處理系統(tǒng)傳過(guò)來(lái)的消息內(nèi)容和產(chǎn)品描述文檔確定對(duì)應(yīng)入庫(kù)的字段[7]。
其次是產(chǎn)品歸檔存儲(chǔ)配置(NAS存儲(chǔ))。這一部分涉及了入庫(kù)位置和入庫(kù)位置的目錄策略。
以上索引入庫(kù)和產(chǎn)品歸檔配置完成后,重啟入庫(kù)策略即可生效,下表是9km西南區(qū)域數(shù)值模式產(chǎn)品在數(shù)據(jù)存儲(chǔ)系統(tǒng)中的配置。
表3 9km西南區(qū)域數(shù)值模式產(chǎn)品數(shù)據(jù)存儲(chǔ)系統(tǒng)配置
在CMADAAS氣象數(shù)據(jù)統(tǒng)一服務(wù)接口(MUSIC)中配置9km西南區(qū)域數(shù)值模式產(chǎn)品的模式描述,預(yù)報(bào)要素和接口等,根據(jù)數(shù)值模式產(chǎn)品應(yīng)用場(chǎng)景,獲取9km西南區(qū)域數(shù)值預(yù)報(bào)模式產(chǎn)品常用要素應(yīng)用的MUSIC接口列表有表4所示。
表4 獲取9KM西南區(qū)域數(shù)值預(yù)報(bào)模式產(chǎn)品服務(wù)接口
針對(duì)海量實(shí)時(shí)氣象數(shù)據(jù)的預(yù)報(bào)應(yīng)用需求,MICAPS4不僅提升了數(shù)據(jù)顯示、統(tǒng)計(jì)分析效率,而且增加了數(shù)據(jù)“顯示樣式”自定義的靈活性,西南區(qū)域數(shù)值模式產(chǎn)品加入MICAPS4分布式數(shù)據(jù)環(huán)境并直接支撐MICAPS4客戶(hù)端應(yīng)用成為數(shù)據(jù)中心對(duì)新模式產(chǎn)品應(yīng)用的關(guān)鍵之一[8-9]。
針對(duì)海量實(shí)時(shí)氣象數(shù)據(jù)處理需求,實(shí)現(xiàn)西南區(qū)域模式產(chǎn)品加入非結(jié)構(gòu)化產(chǎn)品高速加工處理流水線(xiàn)(DPC),并且按照MICAPS4定義的數(shù)據(jù)規(guī)則持久化到分布式存儲(chǔ)(Cassandra)中,用戶(hù)不僅可以通過(guò)客戶(hù)端直接使用此產(chǎn)品而且可以通過(guò)MICAPS4分布式數(shù)據(jù)環(huán)境系統(tǒng)提供的數(shù)據(jù)下載代理服務(wù)(GDS)下載此產(chǎn)品。
目前通過(guò)CMADAAS氣象數(shù)據(jù)統(tǒng)一服務(wù)接口(MUSIC)方式獲取西南區(qū)域模式產(chǎn)品的應(yīng)用主要在四川省省、市、縣三級(jí)預(yù)報(bào)業(yè)務(wù)平臺(tái)、四川省精細(xì)化預(yù)報(bào)業(yè)務(wù)平臺(tái)和市州局的一些應(yīng)用或者系統(tǒng)平臺(tái)中,下圖是三級(jí)預(yù)報(bào)業(yè)務(wù)平臺(tái)對(duì)西南區(qū)域數(shù)值模式產(chǎn)品的站點(diǎn)插值應(yīng)用和MICAPS4客戶(hù)端應(yīng)用截圖[10]。
圖1 省市縣三級(jí)預(yù)報(bào)業(yè)務(wù)平臺(tái)應(yīng)用截圖
圖2 MICAPS客戶(hù)端應(yīng)用截圖
基于CMADAAS氣象數(shù)據(jù)統(tǒng)一服務(wù)接口,根據(jù)CMADAAS氣象數(shù)據(jù)產(chǎn)品、處理流程規(guī)范和數(shù)值模式產(chǎn)品的表格驅(qū)動(dòng)碼編碼規(guī)范接入四川氣象大數(shù)據(jù)云平臺(tái)(天擎CMADAAS)的西南區(qū)域數(shù)值模式產(chǎn)品為全省氣象部門(mén)提供應(yīng)用支撐,確保數(shù)據(jù)底層支撐在數(shù)據(jù)中心的集約化、統(tǒng)一性和可維護(hù)性。
同時(shí),西南區(qū)域數(shù)值模式產(chǎn)品接入面向海量氣象數(shù)據(jù)實(shí)時(shí)處理的分布式MICAPS4數(shù)據(jù)環(huán)境并直接支撐MICAPS客戶(hù)端應(yīng)用,保證了數(shù)據(jù)應(yīng)用的多樣性和數(shù)據(jù)的可用性。