孫瑞 馮春莉
關(guān)鍵詞:徐州市;隨機深林;時空序列;臭氧預測
中圖分類號:X511 文獻標志碼:A
前言
近年來,徐州市PM2.5等污染物濃度呈現(xiàn)顯著下降趨勢。但是,臭氧濃度卻在不斷升高,臭氧成為徐州市春夏季大氣污染控制的重要對象。
目前,大量環(huán)境空氣自動站點、氣象和衛(wèi)星遙感站點均已積累了較長時間序列的觀測數(shù)據(jù),為我們提供了非常有價值的、描述當時地表綜合環(huán)境特征的變量。如果能基于深度學習算法,學習并建立這些時空影響因素與大氣污染物濃度間的對應關(guān)系,則可構(gòu)建時間序列預測模型,通過對特定時段預測值和實測值的對比,定量評估人為措施的效用,或被用于對未來的預測,以輔助環(huán)境管理部門做高精度大氣污染預警。王馨陸等利用多元線性回歸模型和隨機森林模型對成都市臭氧和PM2.5預測,均表現(xiàn)出相對最佳的預報性能。蔡旺華運用機器學習方法預測臭氧濃度,預報等級準確率達到90%。丁愫等利用決策樹模型對徐州市臭氧進行預報,預報準確率高于75%。
利用大氣、氣象、衛(wèi)星遙感等數(shù)據(jù),建立高精度臭氧時間序列預測模型,對未來臭氧濃度及時空動態(tài)變化進行預測,以期基于歷史時間序列數(shù)據(jù)對未來臭氧濃度進行預報,在空間上鎖定高污染濃度區(qū)域及其影響因素,探究污染來源及其形成機制,對大氣污染防治、預警等工作提供數(shù)據(jù)基礎(chǔ)及技術(shù)支持。
1數(shù)據(jù)來源與方法
1.1數(shù)據(jù)來源
研究利用徐州市7個國控站點、省控監(jiān)測站點、網(wǎng)格化站點觀測的六參數(shù)(SO2、NO2、PM10、CO、O3、PM2.5)小時數(shù)據(jù),該數(shù)據(jù)均來自徐州環(huán)境監(jiān)測中心。逐小時地面氣象觀測數(shù)據(jù)來自氣象站,其中氣象數(shù)據(jù)主要包括溫度、濕度、風向、風速、氣壓和太陽輻射等。地理類變量包括植被指數(shù)、濕度指數(shù)、道路密度、到道路的距離、坡度、到市中心的距離、X坐標、Y坐標;其中道路數(shù)據(jù)來自高德地圖,X坐標和Y坐標分別為所在位置的UTM投影坐標,植被指數(shù)和濕度指數(shù)均基于美國地質(zhì)調(diào)查局網(wǎng)站下載的Landsat 8遙感影像計算得到,坡度變量基于美國地質(zhì)調(diào)查局的SRTM DEM數(shù)據(jù)計算得到。人口變量來自美國橡樹嶺國家實驗室,空間分辨率為1千米。站點觀測數(shù)據(jù)用于模型建立和驗證前首先按照HJ 633-2012及HJ 663-2013進行質(zhì)量控制,質(zhì)量控制中剔除明顯異常值同時盡可能保證可用數(shù)據(jù)量。
1.2預測方法
隨機森林是一種集成學習的方法,集成學習包括bagging算法和boosting算法,是目前使用較為廣泛的一種機器學習方法,該方法在大氣污染物時空預測中的應用也較多。隨機森林是集成學習bagging算法中的一種方法,它的各個弱分類器之間沒有關(guān)聯(lián),可以進行并行擬合。國內(nèi)外大量的理論和應用研究從不同的角度證明了隨機森林模型的準確性,該模型對數(shù)據(jù)集中的異常值及噪聲具有良好的包容度,是目前公認最好的機器學習模型之一。
研究首先使用隨機森林方法利用2019年一2020年徐州市167個站點的小時臭氧濃度進行建模,去除異常情況后共16000個小時,得到了每個小時對應的隨機森林模型和空間分布圖。隨機森林方法中有許多參數(shù)設(shè)置,如分類器的個數(shù)、最大特征數(shù)目、最大深度,在構(gòu)建模型前需要選擇最優(yōu)的參數(shù)。隨機森林在建立決策樹時對于訓練集進行有放回的抽取,對于每棵樹大約有三分之一的訓練集沒有參與該樹的生成,從而得到袋外誤差,研究利用隨機森林的袋外誤差選取最優(yōu)參數(shù),即計算袋外誤差最低的參數(shù)組合為最優(yōu)參數(shù)。
1.3模型評價
研究針對每個小時建立一個模型,即每小時167個站點的臭氧濃度空間預測結(jié)果。為檢驗預測結(jié)果,對模型精度進行評價。模型精度評價指標:決定系數(shù)(R2)、均方根誤差(RMSE)、平均絕對誤差(MAE),評估模型預測的準確性。以下為各統(tǒng)計量度指標的定義公式如下:
2結(jié)果與分析
目前,大氣污染防治工作進入到精細化管理的新階段,需要更加及時、科學、精準的空氣質(zhì)量預測預報。為提供更好的短期突發(fā)污染與長期污染預測分析,分別選取2小時及月度進行預測,研究預測準確性。
2.1預測2小時臭氧濃度效果
研究選取2019年3月1日00時-2019年6月20日23時各監(jiān)測點臭氧小時濃度數(shù)據(jù)及2019年3月1日00時-2019年6月20日23時的小時氣象數(shù)據(jù)使用隨機森林方法利用氣象變量、地理類變量、人口變量和其他相關(guān)污染物變量訓練小時臭氧濃度空間預測模型。在建模時計算了每個小時的變量重要性,并利用袋外誤差選取了最優(yōu)參數(shù)。在對臭氧濃度進行時空預測,采用以下建模流程:選取每天最大8小時滑動平均中對應的最大8個小時的臭氧濃度,以七天為周期,學習七天內(nèi)的徐州市近地面最大8小時臭氧濃度與相應時間、相應位置的氣象數(shù)據(jù)和N02數(shù)據(jù)間的非線性關(guān)系,從而獲取臭氧的空間預測模型,將第八天的氣象數(shù)據(jù)N02數(shù)據(jù)、地形數(shù)據(jù)、土地利用數(shù)據(jù)、社會經(jīng)濟數(shù)據(jù)、道路數(shù)據(jù)作為預測因子代人該模型,從而得到第八天內(nèi)的臭氧濃度空間分布結(jié)果。在機器學習后使用該模型對徐州市桃園路站點和農(nóng)科院站點的未來2小時臭氧濃度進行預測。在具體操作上,使用臭氧監(jiān)測站點前12小時的臭氧濃度數(shù)據(jù)和未來2小時的氣象數(shù)據(jù),預測未來2小時的臭氧濃度。輸入數(shù)據(jù)首先按時間順序排序,然后將其等分為10份,每次選取其中1份作為測試集,其余9份作為訓練集和驗證集。使用訓練集和驗證集訓練模型,使用測試集驗證模型精度,共訓練10個模型,分別驗證不同測試集下模型的預測效果。以下為預測結(jié)果與觀測結(jié)果的對比。(見圖1、圖2)
預測結(jié)果表明,系統(tǒng)在對未來2小時進行預測時,展示了優(yōu)秀的預測能力,預測結(jié)果能與實際觀測結(jié)果較好地吻合,波動趨勢基本相同,R2可達0.8~0.9。模型預測精度均值約為RMSE=13μg/m3,MAE =12μg/m3。(見表1)
2.2預測月度臭氧濃度效果
在對2小時臭氧預測時,效果較好,為驗證長期預測效果,對徐州市2020年8月的臭氧濃度空間預測結(jié)果如圖3和圖4所示(由于8月19日的臭氧監(jiān)測站點缺失值較多,因此不參與建模)。圖3中ModelR2為建模精度,CV R2為交叉驗證精度,HV R2為獨立驗證精度。徐州市2020年8月份的建模精度在0.7~0.9左右;交叉驗證精度在0.2~0.9左右,且大部分位于0.6以上;獨立驗證精度在-1.2~0.7左右,其中存在兩天是負值的情況,該兩天可能存在較大的異常導致結(jié)果較差,大部分結(jié)果位于0.4~0.6之間。圖4為建模點30天的RMSE和MAE統(tǒng)計結(jié)果,其中同樣存在RMSE和MAE較高的幾天,但大部分RMSE低于6μg/m3,MAE低于4μg/m3。
根據(jù)時間序列預測結(jié)果,可以利用隨機森林空間插值進行高精度空間制圖,選取2020年8月9日和8月11日的結(jié)果進行空間制圖,空間分辨率為30米。分布圖可以精細地展示出徐州市臭氧濃度的空間分布情況。局部存在較高值,可以根據(jù)空間分布情況,對于高值區(qū)進行污染的過程、成因、影響因素進行重點分析。(見圖5)
3結(jié)論
通過融合地面、遙感及氣象等多源數(shù)據(jù),以徐州市167個站點為例建立基于隨機森林空間插值的臭氧精細空間預測模型,該模型可以通過變量的重要性來顯示每個預測因子變量的貢獻。研究發(fā)現(xiàn),利用模型對未來2小時臭氧濃度進行預測,模型展示了優(yōu)秀的預測能力,波動趨勢基本相同,R2可達0.8-0.9,預測精度均值約為RMSE=13μg/m3,MAE=12μg/m3。利用模型對1個月臭氧濃度進行預測,除部分異常值外,趨勢大致相同,大部分RMSE低于6μg/m3,MAE低于4μg/m3。此外,研究得到的是日空間圖的真實預測精度,預測結(jié)果較傳統(tǒng)插值方法有很大提高。同時,利用隨機森林空間插值進行高精度空間制圖,可以精細地展示出徐州市臭氧濃度的空間分布情況,從而為臭氧污染防治、預警等工作奠定方法基礎(chǔ)。