亓東霞++王馨++朱大銘++馬琳++楊小龍
摘要:近年來,氣象服務進入高速發(fā)展階段,從提供簡單的氣象信息服務,逐步轉變?yōu)楫a生經濟效益的社會生產力,為人民生活趨利避害、防災減災和應對氣候變化發(fā)揮著越來越重要的作用。技術的不斷發(fā)展對氣象服務技術也提出了更高的要求,大數據技術為提高氣象服務速度和服務質量提供了技術手段,氣象行業(yè)的大數據分析及應用也有了很大的進步。
關鍵詞:氣象行業(yè);大數據;數據分析
中圖分類號:TP393 文獻標識碼:A 文章編號:1007-9416(2017)10-0233-02
隨著社會、經濟和科技的發(fā)展,氣象與國計民生的關系越來越密切,氣象服務對經濟建設、社會發(fā)展和人民生活的影響日益明顯,氣象工作也前所未有地受到全社會的關注。農業(yè)、交通業(yè)、建筑業(yè)、旅游業(yè)、銷售業(yè)、保險業(yè)和電力行業(yè)等,都與天氣變化息息相關。隨著社會氣象意識、氣象觀念的提升,氣象服務也發(fā)揮著越來越重要的作用。
氣象業(yè)務從最初的天氣預報發(fā)展到現(xiàn)在氣候預測、氣候可行性論證、公共氣象服務、專業(yè)專項氣象服務、氣象防災減災等,大數據技術也成為氣象服務不斷創(chuàng)新和完善的重要支撐。
1 大數據發(fā)展現(xiàn)狀
大數據相關技術從國外開始率先研究,IBM、SAP等服務公司爭相涌入大數據行業(yè),技術平臺提供者甲骨文、SAS、EMC、Google、亞馬遜等都從中盈利[1]。國內大數據是用傳統(tǒng)的IT技術、軟硬件工具和數學分析方法,感知、獲取、管理、處理和分析數據集合[2]。
2012年,美國提出“大數據研究和發(fā)展倡議”,積極推進大數據核心技術研究和應用。麻省理工大學等6所大學建立了大數據科學技術中心,英國牛津大學也成立了首個綜合運用大數據的醫(yī)藥衛(wèi)生科研中心[4]。
2012年,中國計算機學會和中國通信學會都成立了大數據專家委員會,專門研究大數據分析及應用,旨在推動我國大數據發(fā)展。
2013年,國家氣象信息中心開始著手氣象數據與云計算的研究探索。
2015年,國務院印發(fā)《促進大數據發(fā)展行動綱要》,全面推進我國大數據發(fā)展和應用,探索開展氣象、交通、公安、安監(jiān)、地震、測繪、旅游、農業(yè)等跨部門、跨地域數據融合和協(xié)同創(chuàng)新,加快建設數據強國。
2 大數據理論
大數據的定義不是一成不變的,而是呈現(xiàn)多樣化發(fā)展的狀態(tài)。廣泛通用的定義是2011年國際數據中心IDC定義的大數據:“大數據技術描述了一個技術和體系的新時代,被設計用于從大規(guī)模多樣化的數據中通過高速捕獲、發(fā)現(xiàn)和分析技術提取數據的價值”。這個定義刻畫了大數據的4個顯著特征,即體量(Volume)、多樣性(Variety)、價值(Value)和速度(Velocity)。
Volume:數據體量大,一般在TB級及以上;
Variety:數據多源異構多樣,包括傳統(tǒng)的關系數據庫存儲類型的結構化數據和以文本、圖像、視頻、音頻、e-mail、網頁等形式存在的未加工、半結構化或非結構化數據;
Value:數據價值低,隱藏在海量數據中的有用信息所占比例較小。通過各種分析手段提取有用信息,提高數據質量及其價值;
Velocity:處理速度快,對海量數據實現(xiàn)近乎實時的分析處理。
大數據價值鏈可分為數據生成、數據獲取、數據存儲、數據分析等四個階段[5]。
3 氣象行業(yè)大數據
氣象大數據是現(xiàn)有各種氣象數據加上其他行業(yè)數據分析得出行業(yè)事件變化規(guī)律和對未來的一些預測,即要將多種跨行業(yè)跨領域的異構數據融合,并應用大數據分析方法確立一定的規(guī)則,對未來進行預測。氣象大數據可分為“行業(yè)大數據”和“互聯(lián)網大數據”兩類。
氣象行業(yè)大數據由與氣象部門各項工作相關、且產生自氣象部門內部的所有數據組成,包括:由氣象部門建設的、具有國內最高專業(yè)水準的氣象探測體系所產生的氣象專業(yè)探測數據,其它部門自行采集、通過數據共享/交換等方式匯聚到氣象部門、且經過氣象部門嚴格質量控制的氣象要素探測數據,由氣象業(yè)務部門和業(yè)務系統(tǒng)產生的各類氣象服務產品數據、派生數據及中間產品數據,職能部門各管理系統(tǒng)如項目管理系統(tǒng)等所產生和管理的數據,各業(yè)務和管理系統(tǒng)的狀態(tài)數據和日志數據等[6]。
本文主要講述氣象的行業(yè)大數據,是從氣象服務的具體業(yè)務角度出發(fā),將大數據分析應用分為數據整合、數據存儲、數據計算、數據分析、可視化服務五個部分內容。
3.1 數據整合
數據整合采用消息隊列、數據導入工具、數據抽取工具、數據復制工具等多種技術手段,實現(xiàn)結構化、非結構化、海量歷史數據、準實時數據、地理空間等數據接入。
國家氣象信息中心副總工程師沈文海說,在2014年整個中國氣象局所保存的數據在4~5PB左右,每年大概增加數百TB。這些數據包含了地面觀測、衛(wèi)星、雷達和數據預報產品等觀測數據。
其中,地面氣象站觀測所獲取的數據是需要永久保存的,其使用率非常高,除了常規(guī)天氣預報業(yè)務需要用到外,諸如氣候預測、氣象農業(yè)、環(huán)境氣象、交通氣象、電力氣象以及科研等領域,都需要用到這些數據。目前,我國地面觀測臺站已達到約4萬個,遍布我國各個地區(qū)。由于自動觀測技術的發(fā)展以及地面自動氣象站的推廣普及,地面觀測業(yè)務擺脫了人工觀測居住環(huán)境的要求,觀測站點可布設到許多環(huán)境十分嚴苛的地域,如:荒島、沙漠、高原等。
以氣象衛(wèi)星和多普勒天氣雷達為代表的遙感遙測業(yè)務領域近三十年來取得了飛速發(fā)展,這些領域一方面每天產生著數TB級的觀測數據,另一方面也需要地面觀測等實測數據作為其遙感數據的訂正依據。
地面及高空觀探測數據為結構化數據,氣象衛(wèi)星、天氣雷達數據則為非結構化數據。以這些數據為主,構成了“氣象大數據”。雖然“氣象大數據”與目前業(yè)界公認的以“4V”為特征的大數據的存在一定差異,但數據量的巨大以及迅速膨脹的速度則是十年前完全無法想象的。
3.2 數據存儲
數據存儲是對各類接入數據按照統(tǒng)一數據規(guī)范按照標準化格式進行存儲,依據應用需求存儲在分布式文件系統(tǒng)、分布式數據倉庫、非關系型數據庫、關系型數據庫,實現(xiàn)各類數據的集中存儲與統(tǒng)一管理,滿足大量、多樣化數據的低成本存儲需求。
數據存儲管理使用基礎數據管理、數據質量管理、數據流轉監(jiān)測、數據權限管理和數據運維輔助管理,管理內容如下:
(1)基礎數據管理:提供對大數據元數據資源的統(tǒng)一管理,保證數據資源的標準化應用,為質量監(jiān)測、流轉監(jiān)測提供基礎數據。
(2)數據質量管理:提供業(yè)務明細數據、指標數據等多數據模型的數據質量分析和校核規(guī)則,持續(xù)提升數據質量。
(3)數據流轉監(jiān)測:從數據接入環(huán)節(jié)、抽取環(huán)節(jié)、業(yè)務處理環(huán)節(jié)對過程處理進行逐級監(jiān)測、層層控制。
(4)數據權限管理:提供訪問各類數據的授權功能,保證數據的安全及可靠性。
(5)數據運維輔助管理:提供數據日常管理和監(jiān)控等輔助管理。
3.3 數據計算
氣象大數據的數據計算采用流計算、內存計算、批量計算、查詢計算等分布式計算技術,滿足不同時效性的計算需求。
流計算支持實時處理,內存計算支持交互性分析,批量計算支持大批量數據的離線分析,查詢計算支持類似SQL查詢分析。
3.4 數據分析
氣象大數據分析在融合傳統(tǒng)數據挖掘算法的基礎上,優(yōu)化分布式挖掘算法,形成數據挖掘基礎算法庫,在此基礎上,構建支撐氣象行業(yè)大數據分析算法模型。
對于建模算法選擇,主要依賴于所要解決的問題,即大數據分析應用的具體業(yè)務需求。對于預測類的問題,有回歸和分類預測兩種,算法可以選擇決策樹、邏輯回歸、神經網絡、機器深度學習應用等;對于描述類的問題,可以選擇聚類分析、關聯(lián)分析、最優(yōu)化分析等。最后根據所選擇的建模算法,通過分析建模工具建立模型。
4 總結和展望
目前,氣象行業(yè)大數據分析及應用在跨行業(yè)數據融合分析有了很大的進步,但社會上大多數行業(yè)的大數據應用仍局限在行業(yè)數據自身價值的深度挖掘。跨行業(yè)數據壁壘是當前大數據應用推廣的一個實實在在的障礙,建立一個行業(yè)間雙方及多方的信息共享基礎環(huán)境,進行跨行業(yè)跨領域的數據融合及深度分析,更大地實現(xiàn)氣象行業(yè)大數據的價值,為社會創(chuàng)造更多的財富仍是未來一個技術探索領域。
參考文獻
[1]維克托·邁爾·舍恩伯格,肯尼斯·庫克耶.大數據時代[M].杭州:浙江人民出版社,2012.
[2]李國杰,程學旗大數據研究:未來科技及經濟社會發(fā)展的重大戰(zhàn)略領域——大數據的研究現(xiàn)狀與科學思考[J].中國科學院院刊,2012,27(6):647-657.
[3]高志鵬,牛琨,劉杰.面向大數據的分析技術[J].北京郵電大學學報,2015,38(3):1-12.
[4]李學龍,龔海剛.大數據系統(tǒng)綜述[J].中國科學:信息科學,2015,45(1):1-44.
[5]方巍,鄭玉,徐江.大數據:概念、技術及應用研究綜述[J].南京信息工程大學學報:自然科學版,2014,5:405-419.
[6]沈文海.再析氣象大數據及其應用[J].中國信息化,2016,(1):85-96.