王立俊,江 益,程洪濤,鄭虹暉
(海南省氣象信息中心,海南 ???570203)
南海區(qū)域站實時氣象數(shù)據(jù)質(zhì)控系統(tǒng)研究
王立俊,江 益,程洪濤,鄭虹暉
(海南省氣象信息中心,海南 ???570203)
近年來,各類型區(qū)域站提供的氣象資料對天氣預(yù)報及氣候研究等方面的作用越來越大。由于南海區(qū)域站位于島礁上,數(shù)據(jù)采集易受到周圍多變環(huán)境的影響,會造成數(shù)據(jù)產(chǎn)生偏差或錯誤。為保證海島站數(shù)據(jù)的可靠性和可用性,提出了HV-Process(Horizontal and Vertical Process)算法。該算法利用雙重判斷和處理機制,對原有質(zhì)量控制得出的疑誤數(shù)據(jù)進行分析處理,降低了南海區(qū)域站氣象數(shù)據(jù)的誤檢率。在此基礎(chǔ)上,設(shè)計并研發(fā)了一套實時氣象資料質(zhì)控系統(tǒng),實現(xiàn)了實時質(zhì)控、全庫質(zhì)控和數(shù)據(jù)查詢等功能,實時處理最新入庫的疑誤數(shù)據(jù),并提供簡易的實時查詢。應(yīng)用演練情況表明,所設(shè)計構(gòu)建的實時氣象資料質(zhì)控系統(tǒng)在日常業(yè)務(wù)中提高了甄別南海區(qū)域站氣象疑誤數(shù)據(jù)的準確性,有效地保障了實時氣象數(shù)據(jù)的質(zhì)控業(yè)務(wù)。
南海區(qū)域站;氣象數(shù)據(jù);HV-Process算法;實時質(zhì)控
近年來,對著中尺度、短時效和特殊行業(yè)的天氣預(yù)報不斷發(fā)展以及全球氣候和大氣環(huán)境的深入研究,對氣象資料服務(wù)的需要越來越高。目前,氣象部門在全國已建的自動站超過30 000個,其中很多為無人值守的區(qū)域站,又由于站點數(shù)量眾多,區(qū)域站數(shù)據(jù)質(zhì)量具有不確定性,所以要對區(qū)域站數(shù)據(jù)進行質(zhì)控[1-3],這樣才能確保數(shù)據(jù)的代表性和準確性[1,4]。對此,中國氣象局聯(lián)合各省級氣象局,研發(fā)了臺站-省級-國家級的MDOS(Meteorological Data Operation System,氣象資料業(yè)務(wù)系統(tǒng))。通過該系統(tǒng)對各種類型的區(qū)域自動站數(shù)據(jù)進行質(zhì)控,對質(zhì)控后的疑誤數(shù)據(jù),再通過人機交互的形式進行審核。
南海是我國領(lǐng)土的重要組成部分,具有重要的戰(zhàn)略軍事意義,因此預(yù)報南海區(qū)域的天氣,南海氣象資料顯得尤為重要。由于南海區(qū)域自動站分布在南海的各個島礁上,其位置具有特殊性,且數(shù)據(jù)采集易受周圍環(huán)境的影響,會造成數(shù)據(jù)出現(xiàn)偏差甚至錯誤,為確保自動站資料的可靠性和可用性,需要探索適用于海島區(qū)域自動站資料的質(zhì)控方法。
針對南海區(qū)域自動站數(shù)據(jù)的質(zhì)控特點,在MDOS的質(zhì)控數(shù)據(jù)基礎(chǔ)上,提出了HV-Process算法。該算法利用雙重判斷和處理機制,再次對原有質(zhì)控數(shù)據(jù)進行質(zhì)控,剔除掉不滿足數(shù)據(jù)對比一致性的記錄,降低南海區(qū)域站數(shù)據(jù)的誤檢率;在此基礎(chǔ)上,研發(fā)了一套具有實時質(zhì)控、全控質(zhì)控和數(shù)據(jù)查詢等功能的南海區(qū)域站實時氣象數(shù)據(jù)質(zhì)控系統(tǒng)。應(yīng)用演練表明,在日常業(yè)務(wù)工作中,系統(tǒng)提高了甄別南海區(qū)域站氣象數(shù)據(jù)的準確性和值班人員的工作效率,有效地保障了南海區(qū)域站實時氣象數(shù)據(jù)的質(zhì)控業(yè)務(wù)。
1.1 質(zhì)控技術(shù)
針對不同的氣象數(shù)據(jù),國內(nèi)外研制了不同的質(zhì)控系統(tǒng),例如:在地面觀測業(yè)務(wù)中,北歐采用臺站級質(zhì)控、入庫前實時質(zhì)控、入庫后非實時質(zhì)控和人工質(zhì)控的方式對自動站數(shù)據(jù)進行質(zhì)控[4],美國則采用臺站級、州級和國家級的三級質(zhì)控方式對地面觀測數(shù)據(jù)進行質(zhì)控[3];與國外相比,國內(nèi)是對自動站資料進行臺站級、省級和國家級的三級質(zhì)控[5]。
針對不同質(zhì)控系統(tǒng)中數(shù)據(jù)的質(zhì)量檢查過程,主要分為以下幾種檢查方法[6-13]:要素主要變化檢查、要素內(nèi)部一致性檢查、要素時間一致性檢查和空間一致性檢查。
(1)要素主要變化檢查:指某個固定站點歷史上出現(xiàn)過的最大(最小)值[6],超出主要變化范圍的數(shù)據(jù),為歷史極值,需要進一步確認,同樣主要通過站點歷史數(shù)據(jù)的統(tǒng)計分析得到。
(2)要素內(nèi)部一致性檢查:不同要素之間是否符合一定的物理聯(lián)系[7],例如:日最低氣溫數(shù)值≤當日各時次的氣溫值≤日最高氣溫數(shù)值;極大降水量≥最大降水量。當相關(guān)數(shù)據(jù)不滿足這類關(guān)系時,其中有一方的數(shù)據(jù)至少為錯誤數(shù)據(jù)。
(3)要素時間一致性檢查:不同要素要滿足隨時間變化的特定規(guī)律[8],如小時氣溫有明顯的日變化,如果連續(xù)24小時無變化,數(shù)據(jù)為可疑或錯誤。
(4)空間一致性檢查:根據(jù)要素的空間分布特點,檢查待測測站的數(shù)據(jù)與鄰近測站的數(shù)據(jù)是否滿足一定的空間連續(xù)性,目前較常用的方法有Madsen方法[10]和空間回歸檢查法[11]。
1.2 SSH框架
SSH框架是目前主流的輕量級J2EE軟件架構(gòu),根據(jù)Struts2、Spring和Hibernate三者的應(yīng)用特性進行整合而成,其基本架構(gòu)如圖1所示。Struts2為表現(xiàn)層,是所有業(yè)務(wù)邏輯的最終展現(xiàn)層,充當邏輯層的客戶端,實現(xiàn)人機交互;Spring為業(yè)務(wù)邏輯層,負責業(yè)務(wù)對象轉(zhuǎn)換傳遞、業(yè)務(wù)邏輯組織及事務(wù)控制等工作,由spring framework實現(xiàn)業(yè)務(wù)beans間的依賴關(guān)系管理和運行時的注入和事務(wù)控制等功能;Hibernate為數(shù)據(jù)持久層,負責業(yè)務(wù)數(shù)據(jù)的持久化存儲,采用O/R Mapping技術(shù)實現(xiàn)。
圖1 SSH框架基本架構(gòu)圖
其中,Struts2是基于MVC(模型-視圖-控制器)開發(fā)模式的開源Web層應(yīng)用框架,主要采用Servlet和JSP技術(shù)實現(xiàn),具有很高的可配置型。Spring為企業(yè)提供了一種輕量級的業(yè)務(wù)解決方案,通過簡單的配置,可以實現(xiàn)“快速裝配式企業(yè)組件”,在此基礎(chǔ)上,Spring提供了包括多種持久化數(shù)據(jù)庫,聲明式事務(wù)管理和Web Services遠程訪問業(yè)務(wù)邏輯的解決方案。Hibernate是一個優(yōu)秀、輕量級對象持久化的框架,通過配置映射文件對Java對象和數(shù)據(jù)庫建立映射關(guān)系,實現(xiàn)操控對象即操作數(shù)據(jù)庫的目的,也提供了數(shù)據(jù)查詢和恢復(fù)機制。相對于傳統(tǒng)地使用JDBC和SQL來手工操作數(shù)據(jù),使用Hibernate,可以大大減少操作數(shù)據(jù)庫的工作。
通過使用SSH這三種框架的優(yōu)化組合實現(xiàn)系統(tǒng)分層解耦,一方面有利于項目組各角色的明確分工,提高開發(fā)效率,縮短系統(tǒng)開發(fā)周期,另一方面使系統(tǒng)具有良好的擴展能力和可維護性[14-15]。
在地面觀測數(shù)據(jù)質(zhì)控業(yè)務(wù)中,國內(nèi)采用臺站-省級-國家級三級質(zhì)控的方式,并研發(fā)了MDOS系統(tǒng)來實時質(zhì)控采集到的地面觀測數(shù)據(jù)。在此基礎(chǔ)上,針對南海區(qū)域自動站數(shù)據(jù)的質(zhì)控特性,提出HV-Process算法,對經(jīng)MDOS質(zhì)控后得到的疑誤數(shù)據(jù)進行橫向-縱向雙重判斷和處理,剔除不滿足數(shù)據(jù)對比一致性的疑誤數(shù)據(jù),約簡原有疑誤數(shù)據(jù)的條數(shù),并降低質(zhì)控數(shù)據(jù)的誤檢率。
2.1 算法思路
南海區(qū)域自動站每個島礁都建有兩個測站,每個測站通過雙通道來傳輸采集數(shù)據(jù)。因此,算法利用雙站對比和累計對比的方法過濾原有的質(zhì)控數(shù)據(jù)。其中,雙站對比方法是指在同一地理區(qū)域內(nèi)的島礁,遍歷MDOS質(zhì)控后的數(shù)據(jù),根據(jù)同個島礁的不同區(qū)站號,逐一進行雙站雙通道的、同要素編碼的數(shù)值對比;累計對比則是指在同一地理區(qū)域具有多個島礁,遍歷質(zhì)控后的數(shù)據(jù),根據(jù)當前區(qū)站號,逐一與要素編碼相同的其他站點進行計算。
整個流程主要分為四個部分,如圖2所示。
圖2 HV-Process算法流程圖
(1)數(shù)據(jù)縱向判斷:遍歷當前時次的所有疑誤記錄,統(tǒng)計在當前時次中,出現(xiàn)與當前記錄的要素編碼相同的其他記錄(同一區(qū)域不同島礁的臺站),累計值超過數(shù)值2的記錄,置該記錄的標志為刪除標識;否則,置該記錄的標志為保留標識。
(2)數(shù)據(jù)橫向判斷:遍歷當前時次的所有疑誤記錄,與當前記錄的要素編碼相同的其他記錄做數(shù)值對比(同一區(qū)域同一島礁的其他臺站),參考自動氣象站測量性能指標要求[13]和自動站與備份站之間各要素的差值范圍,確定當前記錄的標識,超過設(shè)定閾值,標記該記錄的標志為刪除標識;否則,標記為保留標識。
(3)數(shù)據(jù)橫向處理:遍歷上述橫向判斷后的所有記錄,剔除掉所有標有刪除標識的記錄。
(4)數(shù)據(jù)縱向處理:遍歷(3)階段處理完的所有記錄,剔除掉所有標有刪除標識的記錄。
2.2 實 驗
2.2.1 實驗環(huán)境
使用Java編程語言來實現(xiàn)算法,算法的實驗環(huán)境如表1所示。
表1 實驗環(huán)境參數(shù)表
2.2.2 數(shù)據(jù)集
由于MDOS質(zhì)控系統(tǒng)是2015年7月后正式運行的,所以,算法的實驗數(shù)據(jù)集為MDOS數(shù)據(jù)庫中2015年9月至2016年9月的海島區(qū)域自動站的疑誤數(shù)據(jù)。
2.2.3 實驗結(jié)果及分析
根據(jù)上述的方法,將HV-Process算法拆分成橫向和縱向兩類操作,分別對數(shù)據(jù)集進行了以下操作:
(a)15次橫向判斷-處理操作;
(b)15次縱向判斷-處理操作;
(c)15次橫縱向判斷-處理操作。
實驗結(jié)果見表2(均取執(zhí)行15次操作后的平均值)。
表2 實驗結(jié)果
其中,記錄數(shù)(前)為質(zhì)控后的數(shù)據(jù)記錄條數(shù);記錄數(shù)(后)為執(zhí)行上述某操作后的數(shù)據(jù)記錄條數(shù);有效剔除率為經(jīng)處理后正確刪除的數(shù)據(jù)記錄與處理前正確數(shù)據(jù)被檢測為異常的數(shù)據(jù)記錄之比;耗時為執(zhí)行上述某操作的時間。
實驗結(jié)果表明:在有效剔除率方面,由于數(shù)據(jù)集中存在某些島礁只有單個區(qū)站的質(zhì)控數(shù)據(jù),執(zhí)行(a)操作時,不能進行質(zhì)控數(shù)據(jù)的橫向?qū)Ρ取⑴袛?,所以有效剔除率只?4.9%,而執(zhí)行(b)操作后的有效剔除率會接近99%,效果與操作(c)相近。但如果出現(xiàn)同個區(qū)域內(nèi),僅有3個以內(nèi)的島礁的質(zhì)控數(shù)據(jù)的情形,執(zhí)行(b)操作后的有效剔除率將會明顯下降。在時間消耗方面,由于算法在對比-處理過程中有效地使用了數(shù)據(jù)緩存機制,執(zhí)行操作(c)的時間消耗僅比執(zhí)行操作(a)和(b)多一些,但能保證較高的有效剔除率。
因此,文中算法將操作(a)和(b)整合在一起,有效地降低了質(zhì)控數(shù)據(jù)的誤檢率,且對于正確數(shù)據(jù)被檢測為異常的情況,與原有質(zhì)控方式相比,該算法利用雙重判斷-處理機制(操作(c)),有效地刪除掉被檢測為異常的正確數(shù)據(jù),大大約簡了質(zhì)控后的數(shù)據(jù)記錄,保證了南海區(qū)域站氣象質(zhì)控數(shù)據(jù)的正確性和可用性,提高了MDOS值班工作人員的工作效率。
為了能更好、更快地對疑誤數(shù)據(jù)進行校對,提高值班人員的工作效率,在上述基礎(chǔ)上,根據(jù)MDOS值班人員的工作需求,經(jīng)分析得到如圖3所示的系統(tǒng)工作流程,并研發(fā)了一套島礁區(qū)域自動站的,集實時質(zhì)控、數(shù)據(jù)查詢和全庫質(zhì)控于一體的實時質(zhì)控系統(tǒng)。
3.1 系統(tǒng)整體架構(gòu)
系統(tǒng)的工作流程如圖3所示。
圖3 系統(tǒng)工作流程圖
首先,如果是第一次安裝、部署系統(tǒng),需由管理員判斷數(shù)據(jù)庫是否執(zhí)行過全庫質(zhì)控操作,若沒執(zhí)行過,執(zhí)行全庫質(zhì)控操作,若已執(zhí)行過,跳過全庫質(zhì)控操作,進入實時質(zhì)控環(huán)節(jié)。
主要分為兩個部分:
(1)全庫質(zhì)控部分:導(dǎo)入歷史數(shù)據(jù)庫或者還原備份數(shù)據(jù)庫后,須由管理人員執(zhí)行該操作,使用HV-Process算法處理當前數(shù)據(jù)庫中的區(qū)域站疑誤數(shù)據(jù)表中的數(shù)據(jù),接著將處理后的數(shù)據(jù)展示在客戶端。
(2)實時質(zhì)控部分:系統(tǒng)正常運行時,會實時監(jiān)控最新時次的區(qū)域站疑誤數(shù)據(jù)的入庫行為,若監(jiān)控發(fā)現(xiàn)有數(shù)據(jù)的入庫行為,則調(diào)用HV-Process算法進行處理,并在客戶端展示處理后的數(shù)據(jù)。
3.2 系統(tǒng)功能實現(xiàn)
根據(jù)圖3,將系統(tǒng)功能主要劃分為三個部分:實時質(zhì)控、全庫質(zhì)控和數(shù)據(jù)查詢,它們都通過文中算法來處理原有的質(zhì)控數(shù)據(jù),并將處理后的數(shù)據(jù)展示到客戶端的瀏覽器上。
系統(tǒng)主要分為應(yīng)用服務(wù)器和數(shù)據(jù)庫服務(wù)器兩個組成部分,前者部署業(yè)務(wù)應(yīng)用系統(tǒng),后者部署各種數(shù)據(jù)庫管理工具。應(yīng)用服務(wù)器與數(shù)據(jù)庫服務(wù)器是分離的。該業(yè)務(wù)系統(tǒng)的運行環(huán)境為已安裝、配置JDK 1.7的Windows 7以上操作系統(tǒng),中間件服務(wù)選用Tomcat 6.0;數(shù)據(jù)庫服務(wù)器的運行環(huán)境為Windows Server 2008以上操作系統(tǒng),數(shù)據(jù)庫服務(wù)器選用Microsoft SQL Server 2008 R2,采用集中式數(shù)據(jù)管理。
系統(tǒng)遵循MVC開發(fā)原則,基于多層組件式B/S架構(gòu)和SSH框架,采用Java編程語言,整個系統(tǒng)操作簡易且人性化,具有良好的可維護性和可拓展性,為MDOS業(yè)務(wù)值班提供了極大的支持。
在日常值班業(yè)務(wù)中,值班人員只需將系統(tǒng)的后臺服務(wù)開啟,系統(tǒng)會自動監(jiān)控、處理最新入庫的疑誤數(shù)據(jù),無需額外的人工操作。
系統(tǒng)的主界面如圖4所示。當用戶登錄到主界面時,系統(tǒng)后臺會自動啟動實時質(zhì)控功能,監(jiān)控MDOS數(shù)據(jù)庫的入庫行為,處理當前最新時次的質(zhì)控數(shù)據(jù),并將處理后的結(jié)果顯示在用戶的瀏覽器上。
圖4 系統(tǒng)主頁面
圖5為全庫質(zhì)控功能界面。當用戶導(dǎo)入歷史數(shù)據(jù)庫或還原備份數(shù)據(jù)庫后,可點擊頁面的“處理全部記錄”按鈕,系統(tǒng)后臺會調(diào)用HV-Process算法,處理當前MDOS數(shù)據(jù)庫的區(qū)域站疑誤數(shù)據(jù)表中的數(shù)據(jù),完成全庫質(zhì)控的操作后,將處理完后的數(shù)據(jù)展示在前臺頁面。
圖5 全庫質(zhì)控執(zhí)行頁面
根據(jù)工作人員的使用習慣,系統(tǒng)還提供了特定時間段的數(shù)據(jù)查詢頁面,用戶可自定義查詢時間段和搜索字段,后臺根據(jù)用戶提交的搜索信息,在不刷新當前頁面的提前下,即可獲取搜索結(jié)果,如圖6所示。
為提高南海氣象數(shù)據(jù)的準確性,在分析研究南海區(qū)域自動站數(shù)據(jù)的質(zhì)控特點及MDOS數(shù)據(jù)質(zhì)量控制的基礎(chǔ)上,提出了HV-Process算法。該算法利用雙重判斷-處理機制來約簡質(zhì)控后的數(shù)據(jù),降低了南海區(qū)域自動站質(zhì)控數(shù)據(jù)的誤檢率。在此基礎(chǔ)上,設(shè)計并研發(fā)了一套集實時質(zhì)控、全庫質(zhì)控和數(shù)據(jù)查詢等功能的質(zhì)控系統(tǒng)。該系統(tǒng)構(gòu)建完成后,經(jīng)過了應(yīng)用演練的檢驗,各個功能模塊運行穩(wěn)定,有效地提高了值班人員的工作效率。
[1] World Meteorological Organization.Guide to meteorological instruments and methods of observation[M].[s.l.]:Secretariat of the World Meteorological Organization,1983.
[2] Shafer M A,Fiebrich C A,Arndt D S.Quality assurance procedures in the Oklahoma Mesonetwork[J].Journal of Atmospheric and Oceanic Technology,2000,17(4):474-494.
[3] Jiménez P A,González-Rouco J F,Navarro J,et al.Quality assurance of surface wind observations from automated weather stations[J].Journal of Atmospheric and Oceanic Technology,2010,27(7):1101-1122.
[4] 任芝花,熊安元.地面自動站觀測資料三級質(zhì)量控制業(yè)務(wù)系統(tǒng)的研制[J].氣象,2007,33(1):19-24.
[5] 熊安元.北歐氣象觀測資料的質(zhì)量控制[J].氣象科技,2003,31(5):314-320.
[6] 周 林,李 湘.關(guān)于美國自動地面觀測系統(tǒng)(ASOS)的考察報告[J].氣象科技合作動態(tài),2002(4):18.
[7] 王新華,羅四維,劉小寧,等.國家級地面自動站A文件質(zhì)量控制方法及軟件開發(fā)[J].氣象,2006,32(3):107-112.
[8] 任芝花,趙 平,張 強,等.適用于全國自動站小時降水資料的質(zhì)量控制方法[J].氣象,2010,36(7):123-132.
[9] 趙煜飛,任芝花,張 強.適用于全國氣象自動站正點相對濕度資料的質(zhì)量控制方法[J].氣象科學,2011,31(6):687-693.
[10] 鞠曉慧,曹麗娟,朱建華.地面自動站氣壓的臺站極值檢查方法研究[J].氣象與環(huán)境學報,2010,26(3):48-52.
[11] Lanzante J R.Resistant,robust and non-parametric techniques for the analysis of climate data:theory and examples,including applications to historical radiosonde station data[J].International Journal of Climatology,1996,16(11):1197-1226.
[12] 王海軍,劉 瑩.綜合一致性質(zhì)量控制方法及其在氣溫中的應(yīng)用[J].應(yīng)用氣象學報,2012,23(1):69-76.
[13] 何志軍,封秀燕,何利德,等.氣象觀測資料的四方位空間一致性檢驗[J].氣象,2010,36(5):118-122.
[14] 黃美林,馬建華,李 東.基于SSH框架與泛型的通用分頁方法設(shè)計與實現(xiàn)[J].計算機技術(shù)與發(fā)展,2012,22(1):67-71.
[15] 付更麗,曹寶香.SOA-SSH分層架構(gòu)的設(shè)計與應(yīng)用[J].計算機技術(shù)與發(fā)展,2010,20(1):74-77.
Study on Quality Control System of Real Time Meteorological Data from Regional Stations on South China Sea
WANG Li-jun,JIANG Yi,CHENG Hong-tao,ZHENG Hong-hui
(Meteorological Information Center of Hainan Province,Haikou 570203,China)
In recent years,the role of meteorological data provided by various types of regional stations in weather forecasting and climate research has becoming more and more large.Since the regional stations are located in the islands or reefs of the South China Sea,data collecting is vulnerable to be affected by the surrounding environment,which may result in the deviation or error for the data.To ensure the reliability and availability of the data from island stations,HV-Process algorithm to analyze and process the suspect data of the preceding quality control by using the mechanism of dual judging and processing is proposed,which reduces the false detection rate of meteorological data obtained from regional stations.And thus a system of quality control for real time meteorological data is developed,which implements so many functions,including quality control for real-time and whole database,and data query,real-time processing of the latest data and providing a simple real-query.The applications practice show that it has improved the accuracy of distinguishing the meteorological suspect data of regional stations and effectively guaranteed the quality control service for real-time meteorological data in the daily business.
regional stations on the South China Sea;meteorological data;HV-Process algorithm;real-time quality control
2016-10-05
2017-01-09 網(wǎng)絡(luò)出版時間:2017-07-05
國家科技支撐計劃課題(2013BAK05B03);海南省氣象局科技創(chuàng)新項目(HNQXQN201405)
王立俊(1989-),男,助理工程師,研究方向為氣象數(shù)據(jù)理論和應(yīng)用。
http://kns.cnki.net/kcms/detail/61.1450.TP.20170705.1652.078.html
TP311
A
1673-629X(2017)08-0177-05
10.3969/j.issn.1673-629X.2017.08.037