王沛東,侯 靈,孫周軍,江銘諾,周嘉健
(1.廣東省氣象探測(cè)數(shù)據(jù)中心,廣東 廣州 510080;2.廣東省氣象公共服務(wù)中心,廣東 廣州 510080)
氣象數(shù)據(jù)是一切氣象業(yè)務(wù)、科研和服務(wù)的基礎(chǔ)和源頭,其中歷史數(shù)據(jù)資料更是對(duì)一個(gè)地區(qū)特定歷史時(shí)期天氣、氣候狀況的觀測(cè)記載,對(duì)于氣候?qū)W、天氣學(xué)等氣象科學(xué)領(lǐng)域的研究與應(yīng)用具有重要的現(xiàn)實(shí)意義和寶貴的使用價(jià)值。
廣東省歷史氣象報(bào)表文件是各氣象臺(tái)站將實(shí)時(shí)觀測(cè)的氣象數(shù)據(jù)根據(jù)特定格式按月、按年生成的報(bào)表文件,這些文件記錄了地面、輻射、大氣成分、高空等觀測(cè)值和統(tǒng)計(jì)值,經(jīng)人工審核后進(jìn)入廣東省歷史氣象檔案進(jìn)行歸檔。主要包括地面氣象小時(shí)觀測(cè)月報(bào)數(shù)據(jù)文件(A文件、A0文件、A6文件)、廣東區(qū)域站地面氣象小時(shí)觀測(cè)月報(bào)數(shù)據(jù)文件(DG文件)、地面氣象分鐘觀測(cè)月報(bào)數(shù)據(jù)文件(J文件)、地面氣象年報(bào)數(shù)據(jù)文件(Y文件)、輻射氣象小時(shí)觀測(cè)月報(bào)數(shù)據(jù)文件(R文件)、酸雨日值月報(bào)數(shù)據(jù)文件(S文件)、高空氣象探測(cè)月報(bào)數(shù)據(jù)文件(G文件)。該數(shù)據(jù)作為人工審核后的歷史數(shù)據(jù),具有比一般歷史數(shù)據(jù)更高的數(shù)據(jù)質(zhì)量,對(duì)歷史氣象研究有著頗高價(jià)值。
而在本省當(dāng)前業(yè)務(wù)中,對(duì)此類數(shù)據(jù)的應(yīng)用較少,已經(jīng)實(shí)現(xiàn)數(shù)據(jù)庫(kù)存儲(chǔ)的基本上也只有地面小時(shí)觀測(cè)月報(bào),對(duì)于其他種類、其他時(shí)間尺度的報(bào)表數(shù)據(jù)還沒(méi)有充分利用起來(lái)。因此,本工作在充分搜集各類歷史氣象報(bào)表文件及其數(shù)據(jù)格式規(guī)范[1-4]的基礎(chǔ)之上,對(duì)這些文件進(jìn)行分類解析,將文件信息提取寫(xiě)入到本省數(shù)據(jù)庫(kù),建立了廣東省審核氣象歷史資料專題庫(kù)數(shù)據(jù)集,并通過(guò)本省的一體化數(shù)據(jù)訪問(wèn)平臺(tái)服務(wù)于用戶。
同時(shí),由于該數(shù)據(jù)集是一種歷史檔案資料,具有很高的保密性,通過(guò)一體化數(shù)據(jù)訪問(wèn)平臺(tái)對(duì)該數(shù)據(jù)集進(jìn)行了訪問(wèn)權(quán)限的控制,只有被授權(quán)的用戶才可使用。
廣東省審核氣象歷史資料專題庫(kù)數(shù)據(jù)集的建設(shè)和數(shù)據(jù)服務(wù)流程如圖1所示。首先由全省各氣象觀測(cè)站點(diǎn)進(jìn)行實(shí)時(shí)觀測(cè),將采集到的數(shù)據(jù)以數(shù)據(jù)文件或數(shù)據(jù)流的方式傳輸?shù)绞〖?jí)通信系統(tǒng)進(jìn)行分發(fā),其中有一路數(shù)據(jù)會(huì)進(jìn)入到MDOS系統(tǒng)(氣象資料業(yè)務(wù)系統(tǒng))進(jìn)行質(zhì)量控制,質(zhì)控算法會(huì)將疑誤數(shù)據(jù)標(biāo)記出來(lái),省級(jí)審核人員會(huì)加以人工審核判斷,將結(jié)果返回至氣象臺(tái)站進(jìn)行確認(rèn)或訂正,訂正完畢后將重新發(fā)送更正數(shù)據(jù)至省級(jí)服務(wù)器作為實(shí)時(shí)觀測(cè)數(shù)據(jù)供用戶使用[5]。到每月或每年結(jié)束,各氣象臺(tái)站會(huì)根據(jù)上月或上年的觀測(cè)數(shù)據(jù)進(jìn)行記錄或統(tǒng)計(jì),按照全國(guó)通用的標(biāo)準(zhǔn)格式生成月報(bào)表、年報(bào)表文件,經(jīng)人工審核檢查后上傳至省級(jí)氣象審核部門,省級(jí)審核員會(huì)對(duì)文件格式和內(nèi)容進(jìn)行再次人工審核,確認(rèn)無(wú)誤后進(jìn)行歷史氣象歸檔。本業(yè)務(wù)對(duì)這些報(bào)表文件進(jìn)行統(tǒng)一收集并推送到解碼服務(wù)器進(jìn)行分類解碼,將數(shù)據(jù)寫(xiě)入到MySQL數(shù)據(jù)庫(kù)進(jìn)行統(tǒng)一存儲(chǔ),通過(guò)實(shí)時(shí)歷史一體化數(shù)據(jù)訪問(wèn)平臺(tái)(IDEA接口平臺(tái))進(jìn)行統(tǒng)一數(shù)據(jù)管理,并通過(guò)該平臺(tái)與數(shù)據(jù)庫(kù)的交互接口提供給全省各氣象業(yè)務(wù)和科研用戶使用。
圖1 廣東省審核氣象歷史資料專題庫(kù)數(shù)據(jù)集的建設(shè)和數(shù)據(jù)服務(wù)流程示意圖
基于各類歷史氣象報(bào)表的格式規(guī)范和文件內(nèi)容[1-4],在MySQL數(shù)據(jù)庫(kù)中設(shè)計(jì)并建立數(shù)據(jù)表,以資料時(shí)間+站號(hào)作為主鍵和唯一索引,將大數(shù)據(jù)量的小時(shí)和分鐘級(jí)別的數(shù)據(jù)按照時(shí)間和站號(hào)進(jìn)行分庫(kù)分表,減輕數(shù)據(jù)訪問(wèn)壓力,提高數(shù)據(jù)讀寫(xiě)速率。
采用C/S架構(gòu),使用Java語(yǔ)言,基于開(kāi)源的Apache Mina框架開(kāi)發(fā)的基于文件傳輸協(xié)議的氣象數(shù)據(jù)流式處理平臺(tái),定義了數(shù)據(jù)流從到達(dá)、觸發(fā)解碼、觸發(fā)持久化、觸發(fā)處理完成或失敗的整個(gè)業(yè)務(wù)流程接口,能夠?qū)⑻幚砗蟮臄?shù)據(jù)進(jìn)行分類存儲(chǔ),還能支持以插件方式進(jìn)行多種資料解碼的擴(kuò)展。
軟件的技術(shù)功能:①FTP服務(wù)。軟件啟動(dòng)后會(huì)自動(dòng)搭建FTP服務(wù),IP地址為軟件部署服務(wù)器的地址,而端口號(hào)、賬號(hào)、密碼可通過(guò)配置文件設(shè)置。②多線程數(shù)據(jù)解析。對(duì)多路上傳的文件進(jìn)行多線程解析,提高解碼速度。③多線程數(shù)據(jù)持久化。對(duì)多并發(fā)數(shù)據(jù)解析過(guò)程進(jìn)行多線程持久化處理,提高結(jié)果的存儲(chǔ)效率。
在該軟件基礎(chǔ)上進(jìn)行二次開(kāi)發(fā),即根據(jù)各類歷史氣象報(bào)表文件的格式內(nèi)容及設(shè)計(jì)好的數(shù)據(jù)表,編寫(xiě)插件式解碼程序完成后部署在一臺(tái)服務(wù)器上,一鍵運(yùn)行即可,只需將數(shù)據(jù)文件以FTP的方式傳輸至該服務(wù)器,就能完成數(shù)據(jù)的快速解碼和入庫(kù)存儲(chǔ)。主要的邏輯流程如圖2所示。
圖2 數(shù)據(jù)處理平臺(tái)解碼入庫(kù)流程示意圖
廣東省氣象局一體化數(shù)據(jù)訪問(wèn)平臺(tái)(IDEA平臺(tái))是一個(gè)包括了海量氣象行業(yè)的實(shí)時(shí)、歷史數(shù)據(jù)的,涵蓋了氣象、旅游、交通、水利、水文、環(huán)保、海事、漁業(yè)等多部門的,融合了豐富的地球多圈層氣象科研資料的數(shù)據(jù)訪問(wèn)平臺(tái)。平臺(tái)通過(guò)通用接口、圖形接口、格點(diǎn)接口等數(shù)據(jù)接口將不同類型和格式的資料提供給全省氣象部門的用戶。其中通用數(shù)據(jù)接口實(shí)現(xiàn)與關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行交互,從而將結(jié)構(gòu)化數(shù)據(jù)便捷地提供給用戶。
本業(yè)務(wù)在IDEA平臺(tái)上對(duì)應(yīng)的資料分類里配置了若干通用的數(shù)據(jù)接口,用戶可通過(guò)時(shí)間、站號(hào)、行政區(qū)劃(省、市、縣)等信息對(duì)數(shù)據(jù)進(jìn)行檢索和下載。同時(shí)利用平臺(tái)的賬戶權(quán)限管理機(jī)制,以白名單的方式對(duì)用戶可訪問(wèn)的接口進(jìn)行授權(quán),保證數(shù)據(jù)的安全性,實(shí)現(xiàn)數(shù)據(jù)的合理化管理和服務(wù)。
廣東省審核氣象歷史資料專題庫(kù)數(shù)據(jù)集由主要幾類歷史氣象報(bào)表文件(A、A0、A6、DG、J、Y、R、S、G文件)解析所得,目前資料一共有4大類、8小種,涵蓋了從分鐘尺度到年尺度的長(zhǎng)時(shí)間歷史序列的多個(gè)氣象要素觀測(cè)值或統(tǒng)計(jì)值,所有資料中用到的時(shí)間統(tǒng)一為世界時(shí),其中高空觀測(cè)時(shí)次為每日00:00和12:00,資料的類別、名稱、來(lái)源、時(shí)間和頻率、站點(diǎn)范圍等說(shuō)明信息如表1所示。其中需要說(shuō)明的是,國(guó)家地面自動(dòng)氣象站歷史小時(shí)數(shù)據(jù)的來(lái)源——地面氣象小時(shí)觀測(cè)月報(bào)經(jīng)過(guò)多年演變,歷經(jīng)3種格式:2004年之前為A0和A62這種文件,其中A6文件的要素為A0文件的補(bǔ)充,兩者共同組成了2004年以前的小時(shí)觀測(cè)月報(bào);2004年演變?yōu)锳文件,之后一直沿用至今。
表1 廣東省審核氣象歷史資料專題庫(kù)數(shù)據(jù)集說(shuō)明信息
高準(zhǔn)確性。廣東省審核氣象歷史資料專題庫(kù)數(shù)據(jù)集的數(shù)據(jù)源是人工審核后的月報(bào)表、年報(bào)表文件,相當(dāng)于是在MDOS系統(tǒng)質(zhì)控的基礎(chǔ)上再加入人工審核的“自動(dòng)+人工”雙重機(jī)制,這些報(bào)表會(huì)進(jìn)入氣象歷史檔案,因此具有更高的準(zhǔn)確性。
高系統(tǒng)性和高完整性。本省原來(lái)的長(zhǎng)時(shí)間序列的歷史數(shù)據(jù)多集中于地面小時(shí)資料,其余類別相對(duì)較少,而本數(shù)據(jù)集包含了地面、輻射、酸雨、高空等多種類,分鐘、小時(shí)、日、月、年等多時(shí)間尺度的數(shù)據(jù)信息,具有更加系統(tǒng)和更加完整的特點(diǎn)。
數(shù)據(jù)調(diào)用。一體化數(shù)據(jù)訪問(wèn)平臺(tái)提供http和webservice方式供用戶調(diào)用數(shù)據(jù),只需將地址和參數(shù)按照一定格式拼接成URL和XML,即可在開(kāi)發(fā)應(yīng)用中使用,并且可指定數(shù)據(jù)的返回格式(html、txt、xml、json、suffer、csv、arff等)。
數(shù)據(jù)下載。一體化數(shù)據(jù)訪問(wèn)平臺(tái)提供了數(shù)據(jù)下載工具,使用時(shí)只需選擇對(duì)應(yīng)的數(shù)據(jù)接口,設(shè)置相關(guān)參數(shù)(如時(shí)間、站號(hào)、行政區(qū)劃等),選擇數(shù)據(jù)格式(html、txt、xml、json、suffer、csv、arff等)和存放路徑即可。
廣東省審核氣象歷史資料專題庫(kù)數(shù)據(jù)集因其高準(zhǔn)確性、高系統(tǒng)性和高完整性的特點(diǎn),可廣泛應(yīng)用于氣候分析、歷史天氣過(guò)程分析、生態(tài)環(huán)境氣象研究、歷史格點(diǎn)實(shí)況數(shù)據(jù)檢驗(yàn)、歷史數(shù)據(jù)質(zhì)控回算等氣象業(yè)務(wù)和科研領(lǐng)域,尤其是在數(shù)據(jù)檢驗(yàn)中可作為檢驗(yàn)真值數(shù)據(jù),有著很高的應(yīng)用價(jià)值。
本文介紹了廣東省審核氣象歷史資料專題庫(kù)數(shù)據(jù)集的來(lái)源背景、業(yè)務(wù)流程、建設(shè)技術(shù),并且對(duì)該數(shù)據(jù)集的使用進(jìn)行了說(shuō)明,主要總結(jié)如下:①?gòu)V東省審核氣象歷史資料專題庫(kù)數(shù)據(jù)集來(lái)源于7種由各氣象臺(tái)站將實(shí)時(shí)觀測(cè)的氣象數(shù)據(jù)根據(jù)特定格式按月、按年生成并經(jīng)人工審核后的報(bào)表文件。②該數(shù)據(jù)集主要是經(jīng)過(guò)臺(tái)站觀測(cè)、MDOS質(zhì)控、疑誤反饋、報(bào)表制作、人工審核、數(shù)據(jù)解析、存儲(chǔ)管理、數(shù)據(jù)服務(wù)等8個(gè)業(yè)務(wù)過(guò)程而形成。③數(shù)據(jù)存儲(chǔ)使用MySQL數(shù)據(jù)庫(kù);數(shù)據(jù)解碼程序采用C/S架構(gòu),使用Java語(yǔ)言,在基于文件傳輸協(xié)議的氣象數(shù)據(jù)流式處理平臺(tái)的基礎(chǔ)之上開(kāi)發(fā);數(shù)據(jù)管理服務(wù)依托廣東省氣象局一體化數(shù)據(jù)訪問(wèn)平臺(tái)實(shí)現(xiàn)。④該數(shù)據(jù)集一共有4大類、8小種,涵蓋了從分鐘尺度到年尺度的長(zhǎng)時(shí)間歷史序列的多個(gè)氣象要素觀測(cè)值或統(tǒng)計(jì)值,可通過(guò)http、webservice或數(shù)據(jù)下載工具等多種方式獲取,由于其高準(zhǔn)確性、高系統(tǒng)性和高完整性,因此,可廣泛應(yīng)用于多個(gè)氣象業(yè)務(wù)和科研領(lǐng)域。
最后,需要說(shuō)明的是,本工作成果只是建設(shè)了一套廣東省審核氣象歷史資料專題庫(kù)數(shù)據(jù)集,但還并沒(méi)有對(duì)該數(shù)據(jù)集進(jìn)行深度、全面的評(píng)估和應(yīng)用,有關(guān)工作將在今后進(jìn)一步展開(kāi),以期為該數(shù)據(jù)集的價(jià)值和影響力提供更多的支撐。