溫華洋 朱華亮 陳鳳嬌 侯燦 段春鋒 劉惠蘭
(1 安徽省氣象信息中心,合肥 230031;2 安徽省氣象科學(xué)研究所,合肥 230031;3 安徽省氣候中心,合肥 230031)
科學(xué)試驗觀測相較于傳統(tǒng)常規(guī)業(yè)務(wù)觀測,具有觀測儀器設(shè)備多樣,觀測方案設(shè)計理念先進,觀測目的性和針對性強的特點。如1998、1999年在壽縣開展的淮河流域能量和水循環(huán)試驗(HUBEX),應(yīng)用了微波輻射計、移動通量觀測、多普勒雷達、天氣雷達等多種觀測設(shè)備開展協(xié)同觀測,形成了大量科學(xué)試驗數(shù)據(jù),在揭示東亞大尺度環(huán)流、梅雨鋒降水特征、開發(fā)陸面過程模式、水文模式預(yù)報等方面取得了重大突破,相關(guān)成果于2000年陸續(xù)公開[1-6]??茖W(xué)試驗數(shù)據(jù)在科研和業(yè)務(wù)中具有廣闊的應(yīng)用前景,但另一方面,科學(xué)試驗數(shù)據(jù)科學(xué)性要求高、觀測時間相對較短連續(xù)性較差、人力物力保障條件要求高和資料共享相對滯后等問題,也是不容忽視的。對于數(shù)據(jù)集研制而言,常規(guī)業(yè)務(wù)觀測數(shù)據(jù)形成數(shù)據(jù)集,用戶更多關(guān)注數(shù)據(jù)是否易用(如格式簡潔、質(zhì)控方法和業(yè)務(wù)中一致、更新頻次高),而科學(xué)試驗數(shù)據(jù)集用戶更關(guān)注原始數(shù)據(jù)處理方法、質(zhì)量控制方法、儀器設(shè)備參數(shù)說明、設(shè)備協(xié)同情況等,這些對科學(xué)試驗數(shù)據(jù)集研制技術(shù)提出了更高的要求。
安徽省壽縣位于淮河流域,天氣氣候復(fù)雜多樣,為全球獨具特色的東亞季風(fēng)區(qū)的典型區(qū)域,也是中國氣候觀測系統(tǒng)(CCOS)確定的黃淮農(nóng)業(yè)生態(tài)觀測區(qū)。壽縣氣象站始建于1955年,歷經(jīng)國家基本站、基準(zhǔn)氣候站、國家氣候觀象臺變遷,開展觀象臺綜合氣象觀測系統(tǒng)的設(shè)計和示范建設(shè),開展了常規(guī)自動氣候站、近地面層通量、大氣成分、風(fēng)廓線、輻射和農(nóng)業(yè)氣象觀測,以及大量的中外重大科學(xué)試驗觀測,至今已經(jīng)積累了寶貴的常規(guī)觀測和科學(xué)試驗觀測資料。截止到2019年底,壽縣觀象臺收集的各類長期、連續(xù)、穩(wěn)定的準(zhǔn)業(yè)務(wù)化科學(xué)試驗觀測資料已經(jīng)超過了6 TB。
為進一步發(fā)揮這些科學(xué)數(shù)據(jù)的價值,提升壽縣科學(xué)數(shù)據(jù)的共享服務(wù)能力,安徽省氣象局組織開展包括科學(xué)試驗數(shù)據(jù)匯交、數(shù)據(jù)集研制,共享服務(wù)平臺開發(fā)等一系列工作。而提升共享服務(wù)能力迫切需要解決的問題是如何在大量的原始資料中經(jīng)過客觀、科學(xué)的處理分析,形成一批直接為科學(xué)研究與其他公益性活動利用的數(shù)據(jù)集產(chǎn)品。2017年以來,安徽省氣象局先后完成了包括地面、輻射、雷達、大氣成分、農(nóng)業(yè)氣象和科學(xué)試驗等6類氣象觀測資料38個數(shù)據(jù)集研制工作。本文對本次數(shù)據(jù)集研制過程,包括源數(shù)據(jù)的確定、質(zhì)量控制、實體數(shù)據(jù)集制作與處理、數(shù)據(jù)集檢驗評估和數(shù)據(jù)集說明文檔編制進行介紹,并討論了數(shù)據(jù)集在相關(guān)等領(lǐng)域的應(yīng)用情況。以期進一步提升科學(xué)數(shù)據(jù)產(chǎn)品研制能力和標(biāo)準(zhǔn)化水平,加強科學(xué)試驗數(shù)據(jù)在數(shù)值天氣預(yù)報模式、水文預(yù)報模式的應(yīng)用,為人民生產(chǎn)和生活提供氣象保障。
數(shù)據(jù)集研制過程一般包括源數(shù)據(jù)的確定、源數(shù)據(jù)質(zhì)量控制、實體數(shù)據(jù)集制作與處理、數(shù)據(jù)集檢驗評估、說明文檔編制等環(huán)節(jié)。這些環(huán)節(jié)中要求遵循科學(xué)性、規(guī)范性和便捷性的基本原則,具體而言要求數(shù)據(jù)集設(shè)計中充分對接用戶需求,內(nèi)容格式編排上從用戶角度出發(fā)使數(shù)據(jù)集使用方便,從而保證數(shù)據(jù)集是用戶需要的,用戶方便用的;研制過程則遵循現(xiàn)行的標(biāo)準(zhǔn)、技術(shù)規(guī)范和應(yīng)用指南等,本次數(shù)據(jù)集研制參考了大量行業(yè)標(biāo)準(zhǔn)[7-10],相關(guān)文獻[11-15]以及“氣象資料共享系統(tǒng)建設(shè)”[13]過程中形成的一些技術(shù)規(guī)范,如《氣象數(shù)據(jù)集元數(shù)據(jù)格式標(biāo)準(zhǔn)》《氣象數(shù)據(jù)集說明文檔格式標(biāo)準(zhǔn)》《氣象數(shù)據(jù)集組織及命名規(guī)定》等,這些規(guī)范實現(xiàn)數(shù)據(jù)集具有統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)、統(tǒng)一的分類編碼和統(tǒng)一的命名規(guī)則??茖W(xué)性則貫穿了整個研制過程,重點要求數(shù)據(jù)處理過程要科學(xué)客觀,有充分的依據(jù)。
源數(shù)據(jù)的確定依據(jù)觀測數(shù)據(jù)本身特性和研制目的及用戶需求所確定。其中地面觀測資料因時間長、儀器變化多、探測環(huán)境變化、信息化手段等原因?qū)е缕溆葹閺?fù)雜。壽縣地面資料包含了1955年以來長期一直開展的人工觀測資料、2003年以來自動觀測資料、2012—2013年的新舊址平行觀測資料(原址壽縣縣城城南郊外,新址窯口鎮(zhèn)井圩村農(nóng)田),以及不同時期不同型號儀器觀測資料。這些地面資料不同時期信息化形成了地面各類報表記錄文件如A0/A1、A6/A7、A、J、R01/R60文件(自記紙記錄的分鐘和小時降水?dāng)?shù)據(jù)文件)和Y文件等。如研制的分鐘降水?dāng)?shù)據(jù)集,其服務(wù)于用戶的長序列氣候資料分析,則源數(shù)據(jù)包括如下幾個部分:在2003年以前數(shù)據(jù)源為自記紙觀測資料,該部分源自2016年開展的地面降水自記紙跡線提取項目完成的分數(shù)數(shù)據(jù)集[16],通過R01文件獲取;2004年起則為自動雨量傳感器形成的觀測資料,主要源自J文件,其中2012年及之前使用的為壽縣城南郊外原址資料,而2013年及以后使用的為窯口新址資料。若小時降水?dāng)?shù)據(jù)集則在1955—1990年源自R60文件,1991—2003年源自A7文件,2004及以后源自A文件。
科學(xué)試驗觀測數(shù)據(jù)中經(jīng)常出現(xiàn)觀測儀器多、數(shù)據(jù)文件多且格式復(fù)雜的情況。如近地層通量觀測試驗形成的通量、梯度、風(fēng)能類數(shù)據(jù)文件有8種之多,各類文件中包含多種儀器的觀測數(shù)據(jù),如梯度定時觀測文件包含了125個要素觀測值(對應(yīng)文件命名為PBL_VG_FT_IIiii_YYYYMM.TXT,其中IIiii為區(qū)站號,YYYYMM為年月),數(shù)據(jù)文件復(fù)雜。在研制梯度觀測平均風(fēng)速數(shù)據(jù)集時,從該定時觀測數(shù)據(jù)文件中抽取風(fēng)速觀測設(shè)備所有層(2 m、4 m、10 m、20 m和30 m高)的平均風(fēng)速觀測數(shù)據(jù),形成只包含10個觀測要素的數(shù)據(jù)集,數(shù)據(jù)格式簡明,且便于用戶綜合分析使用。
地面、輻射、大氣成分、農(nóng)氣等月報表文件資料一般均經(jīng)過嚴格的質(zhì)量控制。但在數(shù)據(jù)集研制前尚需要進一步進行質(zhì)控,防止在轉(zhuǎn)儲等過程出現(xiàn)數(shù)據(jù)異常。其質(zhì)量控制的方法(科學(xué)試驗中的常規(guī)資料亦同)依據(jù)相應(yīng)的行業(yè)標(biāo)準(zhǔn)[7-8]開展。對于標(biāo)準(zhǔn)格式的數(shù)據(jù)可以直接利用地面自動站觀測資料三級質(zhì)量控制軟件(CDQC)以及地面氣象測報業(yè)務(wù)軟件(OSSMO)進行質(zhì)控和修訂。
科學(xué)試驗形成的資料,涉及新型探測設(shè)備的觀測資料,一般無成熟的質(zhì)量控制方法標(biāo)準(zhǔn)規(guī)范,此時一般結(jié)合科技文獻以及世界氣象組織(WMO)等國際組織推薦使用的方法進行探索性質(zhì)控。如壽縣開展的輻射觀測是依據(jù)世界氣象組織世界氣候研究計劃(WCRP)下地面輻射基準(zhǔn)站網(wǎng)(BSRN)[10]的要求建立起來的。其數(shù)據(jù)集研制中,對于源數(shù)據(jù)的質(zhì)控,除了常規(guī)的格式檢查外,對各要素采用如下方法:1)太陽直接輻射、散射輻射、總輻射、反射輻射、大氣長波輻射和地球長波輻射等要素依據(jù)中行業(yè)標(biāo)準(zhǔn)[7]完成氣候界限值、要素一致性和時間一致性的檢查,標(biāo)記可疑的數(shù)據(jù)約4.79%。2)大氣長波輻射、地球長波輻射要素等還結(jié)合BSRN建議的檢查方法,如物理可能值檢查、極端值檢查和數(shù)據(jù)比較檢查等方法。通過檢查標(biāo)記可疑的數(shù)據(jù)約1.64%。3)紫外輻射和光合有效輻射無文獻提供檢查方法,主要通過BSRN建議的目視檢查法。如圖1中給出了紫外輻射和光合有效輻射10月小時平均值,可以看出日出前和日落后無紫外輻射和光合有效輻射,日出后紫外輻射大于光合有效輻射,且12時前后輻射最大。基于上述規(guī)律將逐日變化數(shù)據(jù)與平均值疊加,用目視檢查法看逐日的小時數(shù)據(jù)是否符合上述規(guī)律,或者數(shù)值存在較大量級的差異,發(fā)現(xiàn)異常的數(shù)據(jù)需要結(jié)合地面觀測的日照、云量等數(shù)據(jù)進行一致性分析,確認是否異常。目前該項檢查項目未發(fā)現(xiàn)明顯異常。
質(zhì)量控制方法將影響用戶對數(shù)據(jù)的判斷和分析工作,應(yīng)在源數(shù)據(jù)中充分說明使用的方法、步驟或遵循的標(biāo)準(zhǔn)規(guī)范。
圖1 2014—2018年10月小時平均紫外輻射和光合有效輻射變化曲線
各類資料經(jīng)過質(zhì)量控制后,形成規(guī)范標(biāo)準(zhǔn)實體數(shù)據(jù)集,對實體數(shù)據(jù)集的格式、內(nèi)容、命名均有一定的要求。主要包括:
1)一般要求格式便于計算機識別,目前研制發(fā)布的數(shù)據(jù)集存儲格式均以TXT文件為主。內(nèi)容格式以數(shù)據(jù)為主,不宜出現(xiàn)漢字和字母,特殊標(biāo)記宜使用固定格式的字符表征。如微量降水一般使用“*”表示,缺測一般使用“/”表示等。
2)內(nèi)容中一般要求包含區(qū)站號、經(jīng)度、緯度、海拔高度、時間(如年份、月份、日期、時次等),對于風(fēng)速、氣壓等對儀器高度敏感的要素還應(yīng)該包含儀器高度(或者在數(shù)據(jù)集說明文檔中統(tǒng)一說明)。數(shù)據(jù)的單位無特殊情況宜使用常用國際通用單位,如海拔高度使用m作為單位,氣壓使用hPa作為單位,精度無特殊情況應(yīng)與相應(yīng)觀測規(guī)范[11]一致,如氣溫精度為0.1 ℃。個別要素存在較為復(fù)雜的情況,如能見度的觀測,1979年前使用等級觀測,1980—2014年起單位使用為km,精度為0.1 km,2015年起采用自動觀測使用單位為m,精度為1 m。為便于用戶使用,本次能見度數(shù)據(jù)集的研制中將單位進行統(tǒng)一轉(zhuǎn)換為米,統(tǒng)一精度為1 m。質(zhì)控碼與文獻[8]中要求一致。
3)數(shù)據(jù)集按照《氣象數(shù)據(jù)集組織及命名規(guī)定》要求進行命名,一般要求命名能夠表征數(shù)據(jù)的資料分類、內(nèi)容屬性、區(qū)域?qū)傩?、時間屬性和要素等。如CAWN_AER_BXSO_HOR_ASP.TXT,是壽縣國家氣候觀象臺氣溶膠散射特性數(shù)據(jù)集,由濁度計觀測而來,其中CAWN表示大氣成分資料[9],AER表示為氣溶膠資料[9-10],BXSO表示壽縣,HOR表示小時數(shù)據(jù)[9],ASP表示散射特性[10]。
4)無法處理成標(biāo)準(zhǔn)規(guī)范格式和內(nèi)容的應(yīng)在數(shù)據(jù)集說明文檔中詳細說明現(xiàn)有的數(shù)據(jù)格式、組織結(jié)構(gòu)、單位和精度等。
圖2 2014—2018年逐年NOx體積濃度日變化曲線(1ppb=10-9)
數(shù)據(jù)集的檢驗評估往往被認為是非必要,事實上,檢驗評估是數(shù)據(jù)集研制必不可少的環(huán)節(jié)。數(shù)據(jù)集檢驗評估中將對數(shù)據(jù)集原始資料的處理、數(shù)據(jù)完整性、質(zhì)量狀況進行詳細描述分析,還可以進一步分析其典型應(yīng)用情況,為用戶提供直觀印象,確定是該資料的價值和自身研究需要的相符性,減少大量重復(fù)勞動。此外,數(shù)據(jù)完整性和質(zhì)量評估過程實際上是對數(shù)據(jù)集的一次質(zhì)量控制,通過檢驗可能需要對數(shù)據(jù)集進行必要的調(diào)整。如在對大氣成分數(shù)據(jù)集研制檢驗評估中發(fā)現(xiàn), 2016年后 NOx體積濃度日變化規(guī)律發(fā)生了明顯變化(圖2),其波谷在14時前后,而2016年后波谷在06時前后,但儀器觀測規(guī)范、軟件使用說明書等均未發(fā)現(xiàn)變化。技術(shù)人員通過對現(xiàn)場觀測設(shè)備和運行軟件的觀察,以及與廠家和軟件開發(fā)人員反復(fù)溝通,確定是觀測時制發(fā)生了變化,其中2016年1月26日13時25分前氮氧化物(NO、NO2、NOx)體積濃度按照北京時進行觀測,同日13時31分開始觀測時制改為世界時。據(jù)此將數(shù)據(jù)集中觀測數(shù)據(jù)的時制統(tǒng)一為北京時,修改后2014—2018年每年的氮氧化物體積濃度日變化規(guī)律基本一致(圖略)。
為了描述這些數(shù)據(jù)集,需要編制數(shù)據(jù)集說明文檔、數(shù)據(jù)集元數(shù)據(jù)說明文檔和必要的附加說明文檔等。
數(shù)據(jù)集說明文檔是數(shù)據(jù)集實體的說明性、標(biāo)注性文件,描述數(shù)據(jù)來源、數(shù)據(jù)集實體內(nèi)容、數(shù)據(jù)的存儲信息、數(shù)據(jù)的時空屬性、數(shù)據(jù)處理方法、數(shù)據(jù)質(zhì)量狀況、數(shù)據(jù)的完整性和其他有關(guān)數(shù)據(jù)特征的信息,對準(zhǔn)確利用氣象數(shù)據(jù)是不可或缺的。以數(shù)據(jù)的時空屬性為例,壽縣前后有11次的拔海高度(包含2次遷站造成的)調(diào)整,不對其詳細說明將造成明顯的分析誤判。以氣壓為例,謝偉等[17]利用均值和標(biāo)準(zhǔn)差等統(tǒng)計描述特征對人工站和自動站差值研究表明(圖略,參見文獻[17]圖2),其差值的分布為“雙峰”分布,在研究其氣壓表海拔高度變化后發(fā)現(xiàn),2006年11月人工觀測的氣壓表海拔高度由23.5 m調(diào)整到27.7 m,造成了約0.46 hPa的誤差,進行訂正后其差值分布變?yōu)椤皢畏濉狈植肌M瑫r這些數(shù)據(jù)也是均一化檢驗的基礎(chǔ),吳必文等[18]的檢驗表明氣壓表高度調(diào)整造成了壽縣氣壓序列的非均一。
數(shù)據(jù)集元數(shù)據(jù)說明文檔內(nèi)容包括:數(shù)據(jù)集名稱、數(shù)據(jù)集代碼、數(shù)據(jù)來源、數(shù)據(jù)集質(zhì)量狀況、數(shù)據(jù)集分類、數(shù)據(jù)集時空標(biāo)識、數(shù)據(jù)集共享級別和數(shù)據(jù)集責(zé)任人等信息[14]。其中數(shù)據(jù)集的共享級別決定了數(shù)據(jù)集共享的對象和范圍。此次研制的數(shù)據(jù)集為有條件開放共享,面向?qū)ο笾饕獮閲鴥?nèi)從事非盈利性氣象工作的機構(gòu)和個人、國內(nèi)從事省部級以上非盈利性科研項目、公益項目的機構(gòu)和個人(符合條件的機構(gòu)或個人可以通過聯(lián)系本文通訊作者獲取本次研制的數(shù)據(jù)集。)
附加說明文檔是對數(shù)據(jù)集說明文檔的細化和補充,可包括但不限于數(shù)據(jù)集格式說明文檔、站點基本信息文檔、數(shù)據(jù)集檢驗評估文檔、觀測儀器設(shè)備功能規(guī)格書、軟件操作使用手冊和數(shù)據(jù)集建設(shè)背景評審應(yīng)用相關(guān)文檔。如前文所述的謝偉等[17]和吳必文等[18]的文獻可以作為地面氣壓數(shù)據(jù)集的附件文檔,便于用戶較為全面地了解氣壓序列的狀況。
本次研發(fā)數(shù)據(jù)集面向氣象部門內(nèi)、部門外的科研機構(gòu)和高校開放,相關(guān)機構(gòu)基于數(shù)據(jù)集開展專項研究,并嘗試了將準(zhǔn)業(yè)務(wù)化的科學(xué)試驗數(shù)據(jù)應(yīng)用于氣候變化、大氣環(huán)境評價等業(yè)務(wù)和服務(wù)中,使得業(yè)務(wù)和服務(wù)工作的創(chuàng)新性和科學(xué)性得到明顯增強,也取得了明顯的社會效益。如安徽省氣候中心等機構(gòu)利用研制的通量和梯度氣象觀測數(shù)據(jù)集,用于監(jiān)測評估中國東部季風(fēng)區(qū)典型農(nóng)田生態(tài)系統(tǒng)主要溫室氣體通量和碳循環(huán)過程變化,重點分析了碳通量變化特征,評估了農(nóng)田生態(tài)系統(tǒng)碳收支狀況和固碳能力(圖略,參見文獻[19]圖4.8)。相關(guān)結(jié)論應(yīng)用于《安徽省氣候變化監(jiān)測公報》《中國氣象局氣候變化監(jiān)測公報(2019年)》《中國氣候變化藍皮書(2019)》[19]等。安徽省氣象科學(xué)研究所利用大氣成分數(shù)據(jù)集,分析了顆粒物、黑碳氣溶膠和反應(yīng)性氣體變化特征,評估了典型農(nóng)田區(qū)的污染狀況,并支撐2018年1月中國中東部地區(qū)發(fā)生的嚴重污染過程分析[20]。相關(guān)結(jié)論應(yīng)用于《安徽省生態(tài)遙感年度報告(簡版)(2019年)》《壽縣國家氣候觀象臺年報(2019年)》等服務(wù)材料中。
通過標(biāo)準(zhǔn)化的研制步驟和規(guī)范的文檔要求,完成2019年的壽縣科學(xué)試驗氣象數(shù)據(jù)集的研發(fā)工作,為相關(guān)資料共享服務(wù)奠定基礎(chǔ)。本文通過示例的方法簡要介紹了此次研制的基本過程和研發(fā)數(shù)據(jù)集的應(yīng)用情況,同時認為今后需要關(guān)注如下幾個問題:
1)壽縣氣象數(shù)據(jù)中包含大量新型探測資料,其中部分數(shù)據(jù)的解碼、質(zhì)量控制、統(tǒng)計加工存在標(biāo)準(zhǔn)規(guī)范欠缺,造成一些數(shù)據(jù)集尚以原始觀測資料為主提供共享服務(wù)。完善統(tǒng)計加工規(guī)范,開發(fā)新型探測資料的質(zhì)量控制算法,特別是基于人工智能的質(zhì)量控制算法研制,在未來值得進一步深入挖掘。
2)元數(shù)據(jù)對數(shù)據(jù)集的研制和后期的分析至關(guān)重要,現(xiàn)有科學(xué)試驗過程中儀器設(shè)備的性能、維修維護、數(shù)據(jù)處理過程等元數(shù)據(jù)經(jīng)常出現(xiàn)記錄或移交不完整的情況,容易造成數(shù)據(jù)分析結(jié)論出現(xiàn)明顯偏差。因此,形成完整規(guī)范的元數(shù)據(jù)是今后科學(xué)試驗工作中需要關(guān)注并強化的環(huán)節(jié)之一。
3)數(shù)據(jù)集研制規(guī)范尚需向深度統(tǒng)一,在研制過程中還存在各類數(shù)據(jù)的內(nèi)容格式、檢驗評估深度和元數(shù)據(jù)描述的詳略上存在差異,需要通過不斷完善研制規(guī)范細節(jié)上實現(xiàn)。
4)隨著中外野外氣象試驗基地建設(shè)和常規(guī)氣象觀測業(yè)務(wù)中目標(biāo)觀測的推進,準(zhǔn)業(yè)務(wù)化各類氣象科學(xué)試驗數(shù)據(jù)越來越多,如何與常規(guī)業(yè)務(wù)觀測數(shù)據(jù)進行互補,提升業(yè)務(wù)的科學(xué)性,實現(xiàn)業(yè)務(wù)的持續(xù)創(chuàng)新性,是科學(xué)數(shù)據(jù)進一步發(fā)揮應(yīng)用效益的重要方向。
Advances in Meteorological Science and Technology2020年5期