馬風濱
(山東科技大學,山東 青島 266590)
隨著中國經濟的快速發(fā)展和城鎮(zhèn)化步伐的加快,環(huán)境問題日益突出,空氣質量問題成為人們關注的焦點。青島是我國知名旅游城市,空氣質量管理是青島環(huán)境保護的重要一環(huán)[1]?;诖吮尘?,本文探討了青島市空氣質量指數(Air Quality Index,AQI)與各污染物的變化規(guī)律,并對青島市AQI進行了預測。
AQI是描述城市環(huán)境空氣質量綜合狀況的無量綱指數[2],根據《環(huán)境空氣質量評價技術規(guī)范(試行)》,它綜合考慮了SO2、NO2、PM10、PM2.5、CO、O3等污染物的危害程度,AQI值越小,表明空氣污染程度越小[3]。建立一個可靠的模型來預測AQI的變化趨勢,對防止環(huán)境污染和改善空氣質量具有重要意義。焦東方和孫志華[4]基于多元回歸分析模型,對青島市空氣質量進行了分析和預測。Gogikar等[5]基于多元線性回歸估算方法建立了印度阿格拉市和魯吉拉市的PM2.5預測模型,指出兩市的工業(yè)發(fā)展方向。溫情等[6]基于長短期記憶網絡實現了對鄭州市PM2.5的長期預測。
本文基于深度學習網絡中的多層感知機(Multilayer Perceptron,MLP)建立青島市AQI預報模型,通過均方根誤差、標準化平均誤差、Pearson相關系數等進行模型檢驗,建立準確可靠的AQI預報模型,為更好地實現青島市空氣質量管控提供參考。
本文中的空氣質量數據參考了中國空氣質量在線監(jiān)測分析平臺(https://www.aqistudy.cn/historydata/)公布的2014—2021年青島市空氣質量月統(tǒng)計歷史數據,包括6種主要污染物的濃度值及AQI值,其中PM2.5、PM10、SO2、NO2、O3的單位為ug/m3,CO的單位為mg/m3。青島市2014年1月—2021年12月AQI變化趨勢存在明顯的季節(jié)性差異,見圖1。
圖1 2014—2021年青島市AQI趨勢圖
1.2.1 數據標準化
在利用深度學習算法訓練神經網絡的過程中,因為原始數據非常容易受到異常點的影響,如果數據集中的最大值和最小值差距較大,對輸出結果將產生很大影響,此時數據整體魯棒性比較差,只適合數據量比較小和比較精確的情況。鑒于此種情況,通常需要對原始數據集進行標準化處理,以防止某些數據對結果影響過大。通過標準化處理,可以得到服從標準正態(tài)分布的數據,其均值為0,標準差為1,這時數據集中所有數據變化范圍相同。數據標準化的應用場景之一是當數據各個特征的取值范圍差別較大時,或各特征單位具有較大差異時,需要使用標準化方法對數據進行預處理。
本文采用的標準化方法是Z-score方法,該方法根據原始數據的均值(Mean)和標準差(Standard Deviation)對數據進行標準化,計算公式為
式中:x為原始數據集中的數據;μ為原始數據的均值;σ為原始數據的標準差。
在本文的原始數據集中,AQI值和各污染物濃度值均有明顯異常值,所以本文對輸入數據和輸出數據進行了標準化處理,以建立更準確的模型。
1.2.2 相關性分析
相關性分析主要是研究兩個變量間線性相關程度的強弱,即密切程度[7]。本文采用皮爾遜(Pearson)相關系數來檢驗預測值與實際值之間的密切程度及擬合情況。皮爾遜相關系數也被稱為皮爾遜積矩相關系數,通常用ρX,Y表示,它被廣泛應用于度量隨機變量X和Y之間的相關程度,計算公式為
式中:cov(X,Y)為變量X和變量Y之間的協(xié)方差;σX為變量X的標準差;σY為變量Y的標準差。
2.1.1 MLP模型構建
MLP也叫人工神經網絡,它除了輸入層和輸出層,中間還可以有很多隱藏層,最簡單的MLP具有3層結構。本文采用的是6層結構,即具有1個輸入層、4個隱藏層、1個輸出層,見圖2。
圖2 六層感知機網絡結構圖
MLP具有6個輸入神經元,代表6種主要污染物,1個輸出神經元代表AQI,模型含有的隱藏層的神經元越多,代表模型的擬合能力越強。
2.1.2 激活函數引入
本文中所構建的MLP模型由于AQI值和各個污染物濃度值之間并沒有簡單的線性關系,因此必須引入激活函數到MLP模型中,并在神經元中增加非線性因素,讓神經網絡可以任意逼近非線性函數。在激活函數研究早期主要是以Sigmoid函數為主,近些年在多層神經網絡中使用較多的是ReLU函數。因為在反向傳播時Sigmoid函數比較容易產生梯度消失的情形,對本文所研究的數據擬合比較不利,所以本文選擇了更有利于處理本數據集的ReLU函數作為激活函數。
ReLU函數的解析式為
ReLU函數是一個分段線性函數,它的非線性很弱,因此網絡一般要做得很深[8],網絡越深,模型的泛化能力越好,這正好迎合了本文的需求。
2.1.3 優(yōu)化器選擇
神經網絡中的參數很多,對參數的學習和更新需要優(yōu)化器來完成,優(yōu)化器是神經網絡架構的重要環(huán)節(jié)。本文選擇隨機梯度下降(Stochastic Gradient Descend,SGD)算法作為優(yōu)化器。隨機梯度下降算法是梯度下降算法的擴展,其核心是梯度期望[9],它每次選擇一個mini-batch,而不是全部樣本。使用梯度下降算法來更新模型參數,計算公式為
與自適應矩估計(Adaptive Moment Estimation,Adam)優(yōu)化器相比,SGD優(yōu)化器除了計算快外還有很多其他的優(yōu)良性質。圖3-a和圖3-b分別展示了使用SGD優(yōu)化器與使用Adam優(yōu)化器在相同迭代次數(100次)情況下的損失函數的對數值變化曲線。相比之下,本文的優(yōu)化器選擇SGD更為合適。
圖3 優(yōu)化器損失函數變化曲線圖
SGD可以自動避開鞍點和一些不符合要求的局部最優(yōu)解,最終的計算結果具有普遍性,它可以在具有相同分布的數據集上表現出很好的性能。
2.1.4 時間序列模型構建
差分自回歸移動平均(Autoregressive Integrated Moving Average,ARIMA)模型是一種時間序列分析、預測方法,于20世紀70年代初由統(tǒng)計學家Box和Jenkins提出,主要用于擬合平穩(wěn)序列或可以被轉換為平穩(wěn)序列的時間序列,結合了自回歸和移動平均的長處,具備不受數據類型束縛和適應性強的特征[10]。ARIMA模型在AQI預測中得到了廣泛應用,但在影響AQI的6個主要污染物的預測中應用較少。
由于本文研究的污染物濃度存在季節(jié)性差異,采用ARIMA模型效果不理想。為更準確地對數據進行分析和預測,選擇季節(jié)性差分自回歸移動平均(Seasonal Autoregressive Integrated Moving Average,SARIMA)模型。SARIMA模型是ARIMA模型的拓展,對有季節(jié)性成分的變量具有很強的適應性,它的參數表示式為SARIMA(p,d,q)(P,D,Q)m,其中:模型的非季節(jié)部分用(p,d,q)表示;模型的季節(jié)部分用(P,D,Q)表示;m為時序的周期性,本文中以月為單位,即m=12。
2.1.5 SARIMA模型定階
時間序列的平穩(wěn)性要求從樣本時間序列中得到的擬合曲線在未來可以沿著現有的形式延續(xù)下去,即時間序列的預測能在過去的數據中找到規(guī)律,因此要將非平穩(wěn)的時間序列轉換為平穩(wěn)的時間序列[11]。通過單位根檢驗(ADF檢驗),只要統(tǒng)計量小于1%,5%和10%水平的臨界值,且P值小于0.05,則可以拒絕原假設[12]。本研究中以PM10濃度為例的原始序列的P值為0.672,大于0.05,因此不能拒絕原假設,原序列不平穩(wěn)。
由于原始數據是不穩(wěn)定的,為了得到一個穩(wěn)定的序列,需要對原始數據進行一階差分[13]。以PM10為例,序列y1經過一階差分后的自相關函數(Autocorrelation Function,ACF)圖和偏自相關函數(Partial Autocorrelation Function,PACF)圖分別見圖4-a和圖4-b。
圖4 序列y1一階差分后的ACF圖和PACF圖
從圖中可以看出,一階差分后的PACF圖突刺明顯,效果并不顯著,說明y1中有季節(jié)成分。為了消除數據的季節(jié)性,對序列y1求一階差分后得到序列y2,對y2進行單位根檢驗(ADF檢驗),檢驗結果見表1。可以看出P值遠小于0.05,因此可以認為原假設不成立,說明序列y2已經是平穩(wěn)序列[14]。
表1 序列y2的單位根檢驗結果
序列y2的ACF圖和PACF圖分別見圖5-a和第65頁圖5-b,由圖可以初步確定p=1,q=1。
圖5 序列y2的ACF圖和PACF圖(續(xù))
圖5 序列y2的ACF圖和PACF圖
直觀上通過ACF圖和PACF圖確定模型的最優(yōu)參數仍然很困難。為了確定最優(yōu)模型階數,本文根據最小信息量準則(Akaike Information Criterion,AIC)選擇AIC最小的模型作為候選模型[15]。通過對各候選模型進行篩選和比較,模型SARIMA:(1,1,1)x(0,1,1,12)的AIC值為421.63,在所有候選模型中為最小值,因此本研究選擇該模型為最優(yōu)模型。
2.2.1 MLP模型評估
1)均方根誤差。均方根誤差(Root Mean Square Error,RMSE)表示測量值與實際值之間曲線的擬合水平。RMSE值越小,表示具有更高的測量精度,其表達式為
2)標準化平均誤差。標準化平均誤差(Normalized Mean Error,NME)表示測量值與真實值之間的平均絕對誤差[7],其表達式為
3)標準化平均偏差。標準化平均偏差(Normalized Mean Bias,NMB)表示模型預報值與實際值的平均偏離水平[16],其表達式為
2.2.2 SARIMA模型評估
對擬合好的模型的準確性進行檢驗,主要是確保模型殘差部分互不相關,并且呈零均值正態(tài)分布。實際觀察值與擬合值之間的差在統(tǒng)計學中稱為殘差,利用殘差信息對所建模型的準確性進行診斷的過程稱為殘差分析[17]。
為了快速得到模型診斷結果,并調查有無異常行為,可以通過調用模型診斷函數來完成。圖6為PM2.5的預測模型診斷圖。在殘差圖中,直方圖和估計密度圖展示了密度,基本符合均值為零的正態(tài)分布;Q-Q圖展示了殘差遵循標準正態(tài)分布的線性趨勢。可以確定該模型的選擇是合適的。
圖6 PM2.5模型診斷圖
為方便觀察MLP模型的準確程度,圖7展示了測試集的AQI預測值與實際值的散點圖。從圖中可以看出,預測值比實際值略大,所以通過計算各誤差值進行更加準確的評估。
圖7 AQI預測值與實際值散點圖
MLP模型的誤差檢驗結果見表2,模型預測值與實際值的Pearson相關系數為0.93,表示二者極度相關。結合評估結果分析,AQI預測模型能夠滿足實際預測要求。
表2 MLP模型AQI預測值評估分析
SARIMA模型很好地擬合了過去時間段的數據,并通過了模型評估檢驗。圖8為PM2.5的時間序列預測曲線。
圖8 PM2.5預測趨勢圖
訓練集選擇2014年1月—2020年5月的各污染物濃度數據,將2020年6月—2021年12月數據作為測試集?;跁r間序列預測各污染物在2022年1月—2022年5月的濃度值,見表3。
表3 各污染物濃度預測值
基于SARIMA模型預測的數據,通過MLP預測模型,預報未來2個月的AQI值,見圖9。實線表示2014年1月—2020年5月訓練集數據,短劃線表示2020年6月—2021年12月測試集數據,點線表示2022年1月—2022年5月預測數據。
圖9 AQI預測曲線圖
本文研究了基于MLP的AQI預報模型,通過調整隱藏層的神經元個數和隱藏層層數,降低模型的預測誤差,不斷嘗試數據在不同激活函數和優(yōu)化器下的擬合值,選擇最適合本文數據的優(yōu)化器和激活函數。通過模型評估檢驗,建立AQI與PM2.5、PM10、NO2、CO、SO2、O3的可靠的MLP預報模型,實現未來幾個月的AQI預測。同時,由于各污染物濃度存在季節(jié)性差異,ARIMA模型不能很好地擬合本研究中的數據,因此本文選擇SARIMA模型對6種主要污染物進行時間序列分析及預測??紤]到原始數據波動性較大,因此對原始數據進行Z-score標準化處理后再進行分析預測,效果優(yōu)于基于原始序列的預測。
通過本文的研究結果可以看出,6種主要污染物對空氣質量都有不同程度的影響,所以對青島市空氣質量管控提出以下3點建議。
1)發(fā)展公共交通和新能源汽車,減少人們對燃油車的依賴,減少汽車尾氣對空氣質量的影響。
2)加強對污染物超標排放企業(yè)的治理,對現有排放設施進行改造升級,大力發(fā)展綠色產業(yè),限制高能耗產業(yè)的投產。
3)政府和相關部門強化環(huán)境監(jiān)督管理,做好環(huán)境規(guī)劃,注重節(jié)能減排,提高能源利用率。
(責任編輯 石志榮)