劉穎 陳旭東 周覓 鄭乃瑞 陳元櫞
(1.西南交通大學(xué) 地球科學(xué)與環(huán)境工程學(xué)院,成都 610031;2.重慶工商大學(xué) 計(jì)算機(jī)科學(xué)與信息工程學(xué)院,重慶 400067;3.重慶高新區(qū)飛馬創(chuàng)新研究院,重慶 400051)
大范圍、長(zhǎng)時(shí)間、高濃度空氣污染頻發(fā),嚴(yán)重影響人們生產(chǎn)生活及身體健康。定量描述空氣質(zhì)量狀況對(duì)于地區(qū)空氣污染預(yù)防及制定相應(yīng)對(duì)策意義重大。目前空氣質(zhì)量預(yù)測(cè)模型可分為機(jī)理模型和統(tǒng)計(jì)模型2類[1]。機(jī)理模型即通過(guò)對(duì)大氣污染形成的機(jī)理,污染物的傳輸和擴(kuò)散過(guò)程進(jìn)行建模,代表性模型有社區(qū)多尺度空氣質(zhì)量模型(CMAQ)[2-3]、嵌套網(wǎng)格空氣質(zhì)量預(yù)報(bào)模式系統(tǒng)(NAQPMS)[4]、區(qū)域性氣象和化學(xué)預(yù)報(bào)模型(WRF-Chem)[5]。但由于其機(jī)理復(fù)雜,建模難度大,且排放源、氣象場(chǎng)和理化過(guò)程參數(shù)具有不確定性,預(yù)測(cè)精度難以提升[6-7]。統(tǒng)計(jì)模型通過(guò)對(duì)歷史數(shù)據(jù)的學(xué)習(xí)與分析,挖掘數(shù)據(jù)內(nèi)在特征,得到污染物濃度變化規(guī)律,并基于當(dāng)前的狀態(tài)對(duì)未來(lái)給出比較合理的預(yù)測(cè)[8]。統(tǒng)計(jì)模型不用考慮復(fù)雜的物理化學(xué)過(guò)程,建模過(guò)程相對(duì)簡(jiǎn)單,受到許多研究者的關(guān)注。
常見(jiàn)的AQI統(tǒng)計(jì)預(yù)測(cè)模型有多元回歸模型,時(shí)間序列模型,神經(jīng)網(wǎng)絡(luò)模型等。非神經(jīng)網(wǎng)絡(luò)模型需要做出假設(shè)分析,在眾多特征因子與預(yù)測(cè)結(jié)果中挖掘相應(yīng)的數(shù)學(xué)關(guān)系,有一定的主觀性;神經(jīng)網(wǎng)絡(luò)模型能夠像人腦一樣自動(dòng)學(xué)習(xí)相關(guān)的特征,建立相應(yīng)的預(yù)測(cè)模型,但現(xiàn)有研究大多沒(méi)有考慮時(shí)序特征。隨著深度學(xué)習(xí)成為機(jī)器學(xué)習(xí)的新方向,循環(huán)神經(jīng)網(wǎng)絡(luò)因其在時(shí)序數(shù)據(jù)分析中具有更強(qiáng)的適應(yīng)性,開(kāi)始應(yīng)用于空氣質(zhì)量的預(yù)測(cè),其中應(yīng)用最廣泛的是長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM,Long-Short Term Memory)。
但是上述基于LSTM的空氣質(zhì)量預(yù)測(cè)模型僅考慮了污染物歷史濃度來(lái)預(yù)測(cè)空氣質(zhì)量,忽略了氣象條件對(duì)污染物傳遞、擴(kuò)散的影響。所以本研究根據(jù)歷史氣象要素和歷史AQI指數(shù),提出了一種基于時(shí)間多步長(zhǎng)的多維LSTM網(wǎng)絡(luò)模型。
研究采集2017年1月1日至2020年11月30日重慶市空氣質(zhì)量指數(shù)和空氣污染物濃度與氣象要素?cái)?shù)據(jù),共15個(gè)輸入變量(SO2、NO2、PM10、PM2.5、O3、CO氣溫、相對(duì)濕度、風(fēng)力等級(jí)、風(fēng)速、氣壓、能見(jiàn)度、降水量、平均總云量)。
1.2.1 LSTM簡(jiǎn)介
LSTM是一種改進(jìn)的時(shí)間RNN,關(guān)鍵是細(xì)胞狀態(tài),將信息從上一個(gè)單元傳遞到下一個(gè)單元,通過(guò)“門(mén)”來(lái)控制丟棄或增加信息,從而實(shí)現(xiàn)遺忘或記憶的功能,如圖1。
這3個(gè)門(mén)分別為遺忘門(mén)、輸入門(mén)和輸出門(mén):
1)遺忘門(mén):
2)輸入門(mén):
式(2)是input gate layer的輸入,式(3)是tanh層向量生成,式(4)是將前兩部分信息結(jié)合起來(lái)對(duì)cell狀態(tài)的更新。
3)輸出門(mén):
式(5)是過(guò)濾后的信息,式(6)是tanh層處理。
1.2.2 基于多步長(zhǎng)的多維LSTM模型建立
將2017年1月1日至2019年12月31日數(shù)據(jù)作為訓(xùn)練集,2020年1月1日至2020年11月30日數(shù)據(jù)作為測(cè)試集S。
式中,xti為輸入數(shù)據(jù),表示前i個(gè)時(shí)刻的氣象要素?cái)?shù)據(jù)和AQI指數(shù),yt為預(yù)測(cè)輸出數(shù)據(jù)研究日的AQI指數(shù)。
式中,yi為AQI實(shí)測(cè)值,為AQI預(yù)測(cè)值,m為預(yù)測(cè)樣本數(shù)量。
1.2.3 模型訓(xùn)練調(diào)參步驟
基于時(shí)間多步長(zhǎng)的多維LSTM模型的訓(xùn)練調(diào)參步驟如下(基于keras Tensorflow框架的python實(shí)現(xiàn)):
1)根據(jù)特征變量與AQI指數(shù)相關(guān)性分析結(jié)果,篩選出最重要的特征變量作為輸入,訓(xùn)練多維LSTM模型。
2)用MinMaxScaler函數(shù)將數(shù)據(jù)樣本歸一化。
3)設(shè)置LSTM網(wǎng)絡(luò)基本結(jié)構(gòu),首先采用單層的隱藏層,設(shè)置hidden_size=30,采用keras框架默認(rèn)的初始化學(xué)習(xí)率learning rate=0.01,設(shè)置迭代次數(shù)Epoch=200,batch_size=16。
4)在步驟2)設(shè)置的基本網(wǎng)絡(luò)結(jié)構(gòu)上進(jìn)行訓(xùn)練,使用網(wǎng)格調(diào)參方式確定learning rate、hiden_size、hiden_layer、dropout的最優(yōu)參數(shù)組合。
5)在步驟4)的基礎(chǔ)上,調(diào)整預(yù)測(cè)所用的時(shí)間步長(zhǎng),設(shè)置time_step分別為(2,3,4,5,6,7,8,9,10),訓(xùn)練并預(yù)測(cè),觀察輸出值收斂曲線和預(yù)測(cè)結(jié)果反歸一化后的loss。確定最優(yōu)的時(shí)間步長(zhǎng)數(shù)(時(shí)間步長(zhǎng)的取值表示為提前幾日的氣候要素和空氣污染物濃度)。
重慶市2017年1月1日至2020年11月30日各空氣污染物濃度、氣象要素和空氣質(zhì)量指數(shù)AQI的時(shí)間序列變化趨勢(shì)見(jiàn)圖2。由圖可見(jiàn),AQI指數(shù)呈現(xiàn)出較強(qiáng)的季節(jié)性。AQI指數(shù)除與臭氧這一特征變量物無(wú)明顯規(guī)律外,與其他5項(xiàng)空氣污染物濃度的走勢(shì)呈現(xiàn)較強(qiáng)的一致性,尤其與PM10和PM2.5的變化曲線高度重合。AQI指數(shù)除與氣壓變化規(guī)律相似外,AQI指數(shù)與其他7項(xiàng)氣候要素均負(fù)相關(guān),尤其與能見(jiàn)度和降水量負(fù)相關(guān)性較強(qiáng)。
為進(jìn)一步定量分析氣候要素和空氣污染物濃度指數(shù)特征變量對(duì)AQI指數(shù)的影響,研究計(jì)算了AQI與各特征變量的pearson相關(guān)系數(shù),如圖3所示。AQI指數(shù)與6項(xiàng)空氣污染物濃度都呈現(xiàn)出正相關(guān)性,大小排序?yàn)镻M10>PM2.5>CO>SO2>NO2>O3;AQI指數(shù)除與氣壓呈現(xiàn)出非常弱的正相關(guān)性以外,與其他7項(xiàng)要素均呈現(xiàn)出較強(qiáng)負(fù)相關(guān)性,其排序?yàn)槟芤?jiàn)度>總降水量>平均溫度>濕度>風(fēng)級(jí)>風(fēng)速>平均總云量。
根據(jù)相關(guān)性分析,采用多維LSTM網(wǎng)絡(luò)基本架構(gòu)篩選對(duì)AQI指數(shù)預(yù)測(cè)精度最高的特征變量,不同變量輸入的模型精度如表1所示??梢?jiàn)采用PM10、PM2.5、能見(jiàn)度、總降水量、濕度、平均溫度和歷史AQI作為特征變量來(lái)構(gòu)建多維多步長(zhǎng)LSTM網(wǎng)絡(luò)來(lái)進(jìn)行空氣質(zhì)量指數(shù)AQI的預(yù)測(cè)精度最高。
表1 不同輸入變量模型的精度對(duì)比
當(dāng)設(shè)置LSTM網(wǎng)絡(luò)為單層隱含層、隱含層神經(jīng)單元數(shù)為50,學(xué)習(xí)率learning rate=0.000 1時(shí)達(dá)到較好收斂曲線。在此基礎(chǔ)上設(shè)置時(shí)間步長(zhǎng)訓(xùn)練模型,預(yù)測(cè)精度如表2所示。
表2 模型預(yù)測(cè)精度評(píng)價(jià)
從表2分析可知,當(dāng)time_step=7,模型的預(yù)測(cè)效果達(dá)到最優(yōu),RMSE=12.206 0,MAE=9.403 0。模型訓(xùn)練與測(cè)試曲線如圖4所示,當(dāng)訓(xùn)練到150 Epoch后無(wú)論是訓(xùn)練集數(shù)據(jù)還是測(cè)試集數(shù)據(jù)其損失曲線收斂到區(qū)域平穩(wěn),訓(xùn)練數(shù)據(jù)順利穩(wěn)定在0.061 1左右,測(cè)試集數(shù)據(jù)損失穩(wěn)定在0.046 7左右。此時(shí),AQI預(yù)測(cè)值與真實(shí)值對(duì)比如圖5。
不同模型預(yù)測(cè)的誤差分析如表3所示,顯然多維多步長(zhǎng)LSTM網(wǎng)絡(luò)空氣質(zhì)量指數(shù)AQI預(yù)測(cè)模型具有較好的預(yù)測(cè)結(jié)果。通過(guò)特征變量相關(guān)性分析,篩選出對(duì)AQI指數(shù)有重要影響的特征變量作為輸入,減少了模型輸入變量個(gè)數(shù),同時(shí)提高了空氣質(zhì)量指數(shù)AQI的預(yù)測(cè)精度。
表3 各類模型預(yù)測(cè)精度對(duì)比
1)AQI與氣候要素、空氣污染物濃度等特征變量直接呈現(xiàn)出且表現(xiàn)出較強(qiáng)的相關(guān)性、時(shí)序性。通過(guò)pearson相關(guān)性分析篩選出對(duì)AQI有重要影響的輸入變量,減少了模型復(fù)雜度,提高了模型預(yù)測(cè)精度。
2)通過(guò)與其他預(yù)測(cè)模型實(shí)驗(yàn)對(duì)比,且對(duì)多維多步長(zhǎng)LSTM網(wǎng)絡(luò)不同時(shí)間步長(zhǎng)輸入變量預(yù)測(cè)精度進(jìn)行實(shí)驗(yàn)對(duì)比分析可知,基于多維多步長(zhǎng)LSTM網(wǎng)絡(luò)的AQI指數(shù)預(yù)測(cè)模型能根據(jù)歷史氣象要素和歷史空氣污染物濃度預(yù)測(cè)研究日AQI,預(yù)測(cè)精度更高,擬合效果更好。