張鈺潔,王 鈺,楊杏麗
(1.山西大學 數(shù)學科學學院,山西 太原 030006;2.山西大學 現(xiàn)代教育技術學院,山西 太原 030006)
霧霾天氣是一種大氣污染狀態(tài),霧霾是對大氣中各種懸浮顆粒物含量超標的籠統(tǒng)表述。霧霾的主要成分包括PM2.5顆粒物、PM10顆粒物、臭氧、二氧化氮、二氧化硫和一氧化碳等,尤其是由有毒物質如重金屬和致癌物質等組成的有機化合物PM2.5(空氣動力學當量直徑小于等于2.5微米的顆粒物)被認為是造成霧霾天氣的“元兇”[1-2]。
PM2.5對人類健康的危害極大,會導致心血管和心肺部疾病、呼吸系統(tǒng)問題,增加癌癥的發(fā)病幾率,也可能會造成嬰兒的畸形發(fā)育等[3-4]。另外,PM2.5霧霾污染對氣候變化和生態(tài)環(huán)境也有很大影響,PM2.5濃度的增加可能是極端天氣和氣候事件增加的主要原因之一,如引起城市大氣酸雨、光化學煙霧現(xiàn)象,導致大氣能見度下降,極大阻礙空中、水面和陸面交通的正常運行。
因此,準確監(jiān)測霧霾變化,獲取霧霾相關信息,尤其是及時準確預報霧霾污染物的濃度,對于大氣科學、大氣環(huán)境監(jiān)測、氣候分析、氣象預報、環(huán)境保護、國民經(jīng)濟和軍事等諸多方面均具有重要意義[5-6]。
目前,文獻中已經(jīng)提出了多種霧霾污染濃度的預測模型和技術,如差分自回歸滑動平均(Autoregressive Integrated Moving Average,ARIMA)模型[7]、多元線性回歸模型[8]、季節(jié)性差分自回歸滑動平均(Seasonal Autoregressive Integrated Moving Average,SARIMA)模型[9]、向量自回歸模型[10]、支持向量機(Support Vector Machine,SVM)模型[11]、決策樹[12]、隨機森林[13-14]、長短期記憶網(wǎng)絡(Long and Short-Term Memory,LSTM)[15-17]等。進一步,朱旭輝等[18]針對單個SVM方法的不魯棒問題,通過使用多數(shù)投票算法對多個SVM模型進行選擇性集成,給出了一種集成的霧霾天氣預測方法,實驗結果表明集成后的SVM方法具有更高的精度和魯棒性。劉夢煬等[19]構建了一種基于LSTM和全連接神經(jīng)網(wǎng)絡的混合神經(jīng)網(wǎng)絡模型,并提出了數(shù)據(jù)桶劃分的訓練方式來解決由于訓練數(shù)據(jù)與預測數(shù)據(jù)存在較長時間間隔導致精度下降的問題,進而實現(xiàn)PM2.5濃度的精確預測。然而,上述方法都僅僅使用了霧霾數(shù)據(jù)本身的信息,但實際上溫度、壓力、相對濕度等氣象因子對于霧霾的預測都有顯著的影響。為此,該文考慮融合溫度、壓力、相對濕度的氣象數(shù)據(jù)和霧霾數(shù)據(jù)給出更為準確的霧霾預測結果。
然而發(fā)現(xiàn),簡單融合三個常用氣象因子的ARIMAX霧霾預測模型并不能得到滿意的預測結果。這是因為霧霾的形成和發(fā)展過程是非常復雜的,這些模型可能無法充分有效地模擬復雜的霧霾過程,從而無法捕獲重要的深度語義特征,造成預測結果不準確。
特別地,深度神經(jīng)網(wǎng)絡模型由于其強大的特征表示能力得到了極大的關注,為此,該文考慮將深度卷積神經(jīng)網(wǎng)絡模型提取的深度語義特征融入到ARIMAX模型,給出一種新的霧霾序列預測框架。首先,由于卷積神經(jīng)網(wǎng)絡[20]能夠自動準確地學習圖像空間相關性等深度語義信息,將數(shù)值氣象因子數(shù)據(jù)轉化為圖像數(shù)據(jù);然后,基于具有優(yōu)越性能的ResNet-50 (Residual Network-50)卷積神經(jīng)網(wǎng)絡模型[21]提取氣象因子圖像序列中的深層特征,進一步采用主成分分析(Principal Component Analysis,PCA)技術處理高維特征,得到最佳深度語義特征組合;最后,用簡單有效的ARIMAX模型建模捕獲霧霾的時間序列相關信息。
ARIMAX模型是指帶回歸項的ARIMA模型,又稱擴展的ARIMA模型,通過回歸項的引入進一步提高模型的預測效果。此模型把輸出序列表示為隨機波動的過去值和預測因子序列的過去值的結合,即:
其中,Yt表示輸出序列,{X1t},{X2t},…,{Xkt}表示輸入變量序列,{εt}為回歸殘差序列,{at}為零均值白噪聲序列,B為滯后操作算子,Θi(B)為第i個輸入變量的自回歸系數(shù)多項式,Φi(B)為第i個輸入變量的滑動平均系數(shù)多項式,li為第i個輸入變量的滯后階數(shù),且:
Φ(B)=1-φ1B-…-φpBp
Θ(B)=1-θ1B-…-θqBq
ResNet-50模型是目前深度學習中的主流卷積神經(jīng)網(wǎng)絡模型,其內(nèi)部的殘差塊使用了跳躍連接,極大地緩解了梯度消失問題,克服了由于網(wǎng)絡深度加深而產(chǎn)生的學習效率變低與準確率無法有效提升的問題。因此,該文使用ResNet-50模型提取深度語義圖像特征。具體地,ResNet-50模型的網(wǎng)絡結構如表1所列,它包含了49個卷積層、1個全連接層,總共由16個殘差塊組成,如圖1所示,每個殘差塊包含3個卷積層、1個跳轉連接和激活函數(shù)。經(jīng)過前五部分的卷積計算,輸出7×7×2 048的特征圖,然后池化層將其轉化成一個2 048維特征向量。
表1 RestNet-50結構
圖1 殘差塊網(wǎng)絡結構
提出的預測框架如圖2所示。
圖2 預測框架
首先,將三因素氣象因子數(shù)值型數(shù)據(jù)轉化為三通道氣象因子圖像,即根據(jù)目標城市和鄰近城市的經(jīng)緯度等相關信息生成目標城市和鄰近城市的地圖,并用歸一化后的三個基本氣象因子數(shù)值數(shù)據(jù)填充相應城市地圖的像素,生成三通道氣象因子圖,其中溫度、氣壓和相對濕度各對應t時刻圖像的一個通道。繼而運用ResNet-50模型提取三通道氣象因子圖像深度語義特征,每個圖像的特征均為2 048維。由于圖像的特征維度較高,可能對后續(xù)的預測性能帶來不好的影響。因此,用PCA技術進行降維,使用MSE評價準則選取主成分的最優(yōu)個數(shù),該個數(shù)記為n*,使用前n*個主成分得到最優(yōu)的特征組合,即{X1t},{X2t},…,{Xn*t}。該組合包含了數(shù)據(jù)氣象因子的大部分信息,作為后續(xù)ARIMAX模型的Xt,PM2.5序列數(shù)據(jù)作為ARIMAX模型中的Yt。由于ARIMAX模型要求輸入的時間序列數(shù)據(jù)是平穩(wěn)序列,因此在建立模型前檢驗{X1t},{X2t},…,{Xn*t},PM2.5序列的平穩(wěn)性和方差齊性。若數(shù)據(jù)是平穩(wěn)的,則運用最優(yōu)特征組合和PM2.5數(shù)據(jù)建立ARIMAX模型實現(xiàn)PM2.5的高精度多步預測。若數(shù)據(jù)不平穩(wěn),則對數(shù)據(jù)進行差分變換至平穩(wěn)序列再建立模型。具體地,融合深度卷積神經(jīng)網(wǎng)絡特征的ARIMAX霧霾PM2.5濃度預測算法過程如下:
輸入:三因素氣象數(shù)據(jù)、PM2.5數(shù)據(jù);
a)數(shù)值數(shù)據(jù)轉化為三通道圖像
b)ResNet-50提取圖像特征,特征維數(shù)為2 048
c)forn=1 to 2 048
End
e)將前n*個主成分{X1t},{X2t},…,{Xn*t}作為最佳特征組合
f)檢驗{X1t},{X2t},…,{Xn*t},PM2.5序列的平穩(wěn)性
g)如果序列是平穩(wěn)的,則轉到第i步,否則第h步
h)對數(shù)據(jù)進行(一次或多次)差分操作
i)檢驗方差齊性,如果序列是異方差,轉到第j步,否則轉到第k步
j)對原始數(shù)據(jù)進行數(shù)據(jù)變換,轉到第g步
k)識別模型,確定p和q
輸出:預測值。
為了驗證提出的霧霾預測框架的有效性,收集了一個數(shù)據(jù)量大小為1 826的PM2.5 濃度和氣象因子數(shù)據(jù)集,并在此數(shù)據(jù)集上將提出的預測框架與廣泛使用的ARIMA模型、三因素ARIMAX模型、多元回歸模型、ResNet-多元回歸模型、LSTM模型和SVM模型在四個常用的性能評價指標上進行了對比。
主要收集了山西省11個城市(太原、大同、朔州、忻州、陽泉、呂梁、晉中、長治、晉城、臨汾、運城)2015年1月至2019年12月的空氣質量和氣象數(shù)據(jù):(a)主要空氣污染源PM2.5濃度數(shù)據(jù);(b)三個基本氣象因子:溫度、氣壓和相對濕度數(shù)據(jù)。然后,將三個基本氣象因子數(shù)值數(shù)據(jù)轉化為圖像數(shù)據(jù)。具體地,根據(jù)目標城市和鄰近城市的經(jīng)緯度等相關信息生成目標城市和鄰近城市的地圖,并用歸一化后的三個基本氣象因子數(shù)值數(shù)據(jù)填充相應城市地圖的像素,生成1 826張的三通道氣象因子圖像,如圖3所示。
圖3 三通道氣象因子圖
基于生成的圖像,通過ResNet-50模型提取2 048維特征,繼而為了保證模型的預測精度,采用PCA降維,找到最佳的特征組合。經(jīng)過實驗,如圖4所示,因子個數(shù)為34時得到了最小的RMSE,即34維特征為PCA提取的最佳特征組合。最后,基于上述34維重要深度語義特征和PM2.5序列,經(jīng)過平穩(wěn)性、方差齊性和白噪聲檢驗后,建立ARIMAX模型預測PM2.5濃度。例如,在大同市地區(qū),大同市氣象和霧霾序列數(shù)據(jù)通過平穩(wěn)性、方差齊性和白噪聲檢驗后,建立ARIMAX(2,1,3)模型,對大同市未來PM2.5濃度進行預測。
圖4 特征個數(shù)與RMSE變化關系
使用幾種常用的霧霾污染預測評價指標評估預測模型性能:皮爾遜相關系數(shù)(Pearson’s Correlation Coefficient,PCC)、均方誤差(Mean Square Error,MSE)、均方根誤差(Root Mean Squared Error,RMSE)和平均絕對誤差(Mean Absolute Error,MAE),它們的表達式如下:
將該文提出的方法與LSTM模型、SVM(三因素)模型、多元回歸(三因素)模型、ResNet-多元回歸模型、ARIMA模型、ARIMAX(三因素)模型進行比較:
(1)LSTM模型:原始LSTM模型,直接使用PM2.5序列建立模型。
(2)SVM(三因素)模型:直接使用三個氣象因子作為PM2.5預測的影響因素,建立SVM回歸模型。
(3)多元(三因素)模型:直接使用三個氣象因子作為PM2.5預測的影響因素,建立多元回歸模型。
(4)ResNet-多元回歸模型:首先使用ResNet神經(jīng)網(wǎng)絡提取三通道氣象因子圖深度語義特征,經(jīng)過主成分分析找到最佳特征組合,繼而基于最佳特征組合建立多元回歸模型。
(5)ARIMA模型:僅使用PM2.5序列建立ARIMA模型。
(6)ARIMAX(三因素)模型:直接使用三個氣象因子作為PM2.5預測的影響因素,建立ARIMAX模型。
表2~表5給出了11個城市的平均MSE、RMSE、MAE和PCC值對于1、3、5、7天的長短期PM2.5預測的多個模型的對比結果,圖5給出了預測長度為1天時,各個城市的多個模型的MSE、RMSE、MAE和PCC對比結果。
表2 其他模型與提出框架對四種度量的1天PM2.5濃度預測比較
表3 其他模型與提出框架對四種度量的3天PM2.5濃度預測比較
表4 其他模型與提出框架對四種度量的5天PM2.5濃度預測比較
接著,鑒于單純使用ARIMA模型預測PM2.5濃度模型性能較差,該文將影響霧霾濃度的三個氣象因子加入到ARIMA模型,建立了三因素ARIMAX模型。在1、3、5、7天長短期PM2.5預測下,提出的預測框架在四個指標下始終優(yōu)于三因素ARIMAX模型。在某些情況下,提出的預測框架改進達到了10%~30%。例如,如表5所列,在7天PM2.5濃度預測的情況下,所提出的預測框架分別與三因素ARIMAX模型的MSE、RMSE、MAE和PCC度量進行比較,性能提高了27.9%、16.5%、15.5%、27.2%。這是因為,霧霾的形成和發(fā)展過程是非常復雜的,而直接將三因素數(shù)據(jù)建??赡軣o法充分有效地模擬復雜的霧霾過程,從而導致模型性能較低。這一原因在多元回歸中也得到了驗證。例如,在四個粒度下,使用卷積神經(jīng)網(wǎng)絡提取的特征作為自變量建立的多元回歸模型的性能均遠遠超過直接用三個氣象因素建立的多元回歸模型的性能。
表5 其他模型與提出框架對四種度量的7天PM2.5濃度預測比較
圖5 山西省11個城市的七種模型的四種評價指標比較
首先,在1、3、5、7天長短期PM2.5預測下,提出的預測框架在四個指標下始終優(yōu)于ARIMA模型。例如,如表2所列,在預測時長為1天時,11個城市的平均MSE、RMSE、MAE和PCC值,ARIMA模型分別為992.043、30.978、21.486、0.632,而提出的預測框架分別為327.135、17.275、12.958、0.769,顯著優(yōu)于ARIMA模型。這些結果驗證了單純使用ARIMA模型預測PM2.5濃度是遠遠不夠的,ARIMA模型無法考慮到影響霧霾濃度的因素,導致預測結果不準確。
然后,該文使用卷積神經(jīng)網(wǎng)絡提取的特征作為自變量建立多元回歸模型,實驗結果驗證了單獨利用卷積提取圖像特征做預測是有缺陷的,這樣的預測模型只關注了數(shù)據(jù)之間深度語義特征,如空間相關性,忽略了序列相關性,而ARIMA模型更擅長捕獲序列相關性進行短期預測,進而驗證了提出的預測框架能夠同時利用序列相關性和空間相關性等信息進行建模的有效性。另外,提出的預測框架在1、3、5和7天長短期PM2.5預測和四個指標下的性能始終優(yōu)于SVM模型和LSTM模型,產(chǎn)生了最佳的實驗結果。
最后,給出了預測長度為1時,山西省每個城市的七個預測模型的MSE、RMSE、MAE和PCC值的對比結果。如圖5所示,ARIMA模型、三因素ARIMAX模型、多元回歸模型、ResNet-多元回歸模型、LSTM模型和SVM模型在MSE、RMSE和MAE度量下的線條明顯高于提出的預測框架的線條,上述六個模型在PCC度量下的線條明顯低于提出的預測框架的線條。這進一步證實了提出的預測框架無論是11個城市的平均結果還是各個城市獨立結果上均展示了最優(yōu)的性能,進一步驗證提出預測框架的有效性。
綜上所述,該文提出了一個融合卷積神經(jīng)網(wǎng)絡特征的ARIMAX霧霾序列預測框架。運用ResNet-50卷積神經(jīng)網(wǎng)絡捕獲霧霾影響因素序列中的深度語義特征,如鄰近城市的霧霾的空間相關信息,用ARIMAX模型建模捕獲霧霾的時間序列相關信息。在真實的空氣質量和氣象數(shù)據(jù)集(中國山西省)上驗證了提出的霧霾PM2.5濃度預測框架的有效性。實驗結果表明,在1、3、5、7天長短期PM2.5濃度預測中,提出的預測框架始終優(yōu)于當前廣泛使用的ARIMA模型、三因素ARIMAX模型、多元回歸模型、ResNet-多元回歸模型、LSTM模型和SVM模型。