史江振 竇燕
摘要隨著社會的發(fā)展和公眾環(huán)保意識的增強,空氣質(zhì)量日益成為公眾關(guān)注的問題。預(yù)測未來空氣質(zhì)量情況,有利于提前采取污染防治措施和居民活動選擇。以污染物因素和氣象因素作為空氣質(zhì)量指數(shù)預(yù)測指標(biāo),建立基于Stacking融合的預(yù)測模型,利用新疆烏魯木齊市2016年1月至2021年12月的空氣污染物監(jiān)測數(shù)據(jù)和氣象數(shù)據(jù),對烏魯木齊市空氣質(zhì)量情況進行了預(yù)報,并與其他算法進行了對比。研究結(jié)果表明:Stacking融合模型在AQI數(shù)值預(yù)測方面的性能優(yōu)于其他對比模型,具有良好的預(yù)測效果。
關(guān)鍵詞 空氣質(zhì)量預(yù)測;Stacking融合模型;空氣質(zhì)量指數(shù)
中圖分類號:X51 文獻標(biāo)識碼:B 文章編號:2095–3305(2023)04–0125-04
隨著工業(yè)和制造業(yè)的發(fā)展、車輛保有量的增加,以及城市化的發(fā)展,大氣環(huán)境問題愈加突出[1]。大氣污染物的濃度對大氣環(huán)境質(zhì)量有很大的影響,尤其是PM2.5、PM10等,它們直接影響能見度,會對吸入者的心血管系統(tǒng)產(chǎn)生不良影響。因此,如何提高空氣質(zhì)量預(yù)測的準確性引起了眾多學(xué)者的關(guān)注。選擇空氣質(zhì)量指數(shù)(AQI)作為大氣污染預(yù)報的對象。AQI的變化受多種因素的影響,如PM2.5、PM10、SO2、CO、NO2、O3、溫度、氣壓、濕度、可見度、露點等。
目前,空氣質(zhì)量預(yù)測法主要有潛式預(yù)報、數(shù)值預(yù)報、統(tǒng)計預(yù)報3類[2]。主要被應(yīng)用于數(shù)值預(yù)報,污染天氣的出現(xiàn)是多種因素綜合作用的結(jié)果,研究表明,污染天氣與細微顆粒物濃度存在一定的關(guān)系[3]。楊思琪等[4]將隨機森林分類和回歸算法應(yīng)用于預(yù)測城市空氣質(zhì)量狀況的研究,發(fā)現(xiàn)隨機森林算法在AQI等級和AQI數(shù)值的預(yù)測方面,表現(xiàn)出了較好的性能。肖德林等[5]采用CMAQ模型進行預(yù)測,發(fā)現(xiàn)對PM2.5濃度、主要污染物和空氣質(zhì)量等級的預(yù)測準確率低于人工預(yù)測,對AQI的預(yù)測準確率高于人工預(yù)測。鄭紅等[6]提出一種聯(lián)合訓(xùn)練模型MLP&ST模型模擬對北京市未監(jiān)測區(qū)域未來時刻的AQI值進行預(yù)測,綜合考慮氣象因素和時空相關(guān)性對空氣質(zhì)量的影響。萬永權(quán)等[7]考慮到氣象因素對污染物濃度變化的巨大影響,提出了一種神經(jīng)網(wǎng)絡(luò)模型two-phase neural network(2-NN),該模型在短期內(nèi)對空氣質(zhì)量指數(shù)進行預(yù)測時比傳統(tǒng)方法的準確率更高。張春露[8]應(yīng)用LSTM時間序列模型對太原市空氣質(zhì)量AQI指數(shù)進行預(yù)測,該模型具有精度高、預(yù)測時間長、適應(yīng)性強等優(yōu)點,能夠完全逼近非線性映射。史學(xué)良等[9]提出了改良后的EEMD-LSTM預(yù)測模型,與以往的模型相比,其具有更強的泛化能力和更高的預(yù)測精度。方偉等[10]提出了基于時空相似LSTM的空氣質(zhì)量預(yù)測模型,通過結(jié)合STS-LSTM模型,可以得出更穩(wěn)定的最終空氣質(zhì)量預(yù)測結(jié)果。楊張婧等[11]提出了時空特性空氣質(zhì)量預(yù)測算法,以LSTM-CNN混合模型在開放數(shù)據(jù)集中得到了更好的預(yù)測結(jié)果。有學(xué)者研究了LSTM-RNN模型在空氣質(zhì)量預(yù)測任務(wù)中的性能,并設(shè)計了低成本的傳感器節(jié)點,以形成監(jiān)測空氣質(zhì)量的無線傳感器網(wǎng)絡(luò)。
此處建立了一種基于Stacking融合模型的空氣質(zhì)量預(yù)測方法,將GBDT、Lasso和XGBoost作為基學(xué)習(xí)器,將線性回歸Linear Regression作為元學(xué)習(xí)器構(gòu)建Stacking預(yù)測模型。該算法考慮了不同模型的差異,并結(jié)合了不同算法的優(yōu)點,通過種異質(zhì)算法的融合,取長補短,而且通過采用交叉驗證的方法,可以避免數(shù)據(jù)泄露,增強預(yù)測效果,實現(xiàn)比單一模型更強的預(yù)測性能。
1 算法介紹
1.1 Stacking算法
Stacking模型本質(zhì)上是一種分層結(jié)構(gòu),個體學(xué)習(xí)器被稱為初級學(xué)習(xí)器,組合的學(xué)習(xí)器被稱為次級學(xué)習(xí)器或元學(xué)習(xí)器,次級學(xué)習(xí)器用于訓(xùn)練的數(shù)據(jù)被稱為次級訓(xùn)練集。二次訓(xùn)練集在訓(xùn)練集上用一次學(xué)習(xí)器得到。通過將不同的算法融合,達到比組成它的基算法具有更高的準確率和更強的泛化能力[12]。其主要算法步驟如下:
第一步,為輸入訓(xùn)練集、初級學(xué)習(xí)算法和次級學(xué)習(xí)算法。
第二步,為訓(xùn)練初級學(xué)習(xí)器,使用訓(xùn)練過的初級學(xué)習(xí)器進行預(yù)測,將預(yù)測結(jié)果作為次級學(xué)習(xí)器的訓(xùn)練集。
第三步,為將初級學(xué)習(xí)器預(yù)測的結(jié)果訓(xùn)練到次級學(xué)習(xí)器,得到最終訓(xùn)練的模型。
1.2 XGBoost
XGBoost是一個提升樹可擴展的機器學(xué)習(xí)系統(tǒng)[15]。XGBoost的核心算法思想大致如下:
第一步,添加樹,重復(fù)特征分裂使一棵樹生成,每次添加樹意味著學(xué)習(xí)新的函數(shù)f(x),以便與前次預(yù)測的殘差擬合。
第二步,模型完成訓(xùn)練后,XGBoost模型由k個樹模型組成,要預(yù)測1個樣本的特征,這是指根據(jù)樣本的輸入特征,在每棵樹中都必須找到1個對應(yīng)的葉子節(jié)點,每個葉子節(jié)點對應(yīng)1個值。
第三步,將k棵樹對應(yīng)葉子節(jié)點的值加起來得出模型的輸出值,即樣本某個特征的預(yù)測值。
1.3 Lasso算法
使用L1正則化的模型被稱為Lasso回歸,是一種客觀選取有效變量,解決多重共線性等問題的估計方法。為了使回歸模型的殘差平方和最小,對回歸系數(shù)的絕對值的和施加懲罰項。對等于零的回歸系數(shù)進行篩選?;貧w的核心是在普通線性回歸的基礎(chǔ)上添加L1懲罰項。
其中,t與λ一一對應(yīng),為調(diào)節(jié)系數(shù)。
令t0=(OLS),當(dāng)t<t0時,一些參數(shù)值被壓縮為0,自動篩除,使線性回歸模型的參數(shù)維度減小。
1.4 GBDT算法
GBDT (Gradient Boosting Decision Tree)是機器學(xué)習(xí)中成熟的模型,它的優(yōu)點是訓(xùn)練效果好,不易過擬合等。為了得到最佳模型,需要用弱分類器(決策樹)反復(fù)訓(xùn)練。實現(xiàn)GBDT算法的框架是Light GBM,支持高效的并行訓(xùn)練、更快的訓(xùn)練速度、更低的內(nèi)存消耗、更高的精度,支持分布式快速處理、大量數(shù)據(jù)等優(yōu)點。它將弱學(xué)習(xí)器模型以迭代的方式組合成強學(xué)習(xí)器,可以處理稀疏數(shù)據(jù),靈活實現(xiàn)分布式并行計算,已經(jīng)被廣泛應(yīng)用于分類、回歸預(yù)測等機器學(xué)習(xí)問題。
2 實例分析
2.1 數(shù)據(jù)獲取
所用數(shù)據(jù)為2016年1月1日至2021年12月31日烏魯木齊市6項污染物監(jiān)測數(shù)據(jù)和氣象數(shù)據(jù),空氣質(zhì)量指數(shù)和污染物濃度數(shù)據(jù)來源于中國環(huán)境總站全國城市空氣質(zhì)量實時監(jiān)測平臺(http://www.aqistudy.cn/),該平臺數(shù)據(jù)均來自國家環(huán)境保護部,污染物數(shù)據(jù)選取PM10、PM2.5、SO2、NO2、O3、CO日平均濃度。氣象數(shù)據(jù)來源于RP5國際交換氣象站(rp5.ru),實際天氣數(shù)據(jù)由地面氣象站通過氣象數(shù)據(jù)國際自由交換系統(tǒng)提供,包括溫度、大氣壓、濕度、風(fēng)速、可見度、露點等指標(biāo)。
2.2 數(shù)據(jù)處理
通常在獲取的數(shù)據(jù)中有缺失和離群值,缺失值會影響模型預(yù)測的準確性,因此,訓(xùn)練之前要對所收集的樣本進行預(yù)處理。由于這一時段前后的污染濃度對大氣污染的影響較大,而最近鄰插值更能反映出與原始數(shù)據(jù)相近的數(shù)據(jù)抖動,因此用最近鄰插值處理缺失值。
數(shù)據(jù)歸一化,將不同尺度、數(shù)量級的資料合并在一起,會產(chǎn)生很大的誤差,因此,選用一種基于標(biāo)準差法的歸一化調(diào)整。
其中,u和σ分別為向量x的均值和標(biāo)準差。
在數(shù)據(jù)集的劃分中,模型要有好的泛化能力,需要在訓(xùn)練過的數(shù)據(jù)集和沒有訓(xùn)練過的數(shù)據(jù)集上同時得出良好的結(jié)果。因此,將數(shù)據(jù)集分成2個部分,訓(xùn)練集和測試集的比例為4∶1。
2.3 主要大氣污染物與氣象條件相關(guān)性分析
采用Pearson相關(guān)系數(shù)法計算大氣污染物濃度與氣象條件的相關(guān)關(guān)系,公式如下:
分別計算各個指標(biāo)間的相關(guān)系數(shù),可看出AQI值與PM10、PM2.5、CO相關(guān)性較大,相關(guān)系數(shù)熱力如圖1所示。
在圖1中,橫縱坐標(biāo)為各個指標(biāo),顏色代表相關(guān)性,通過對烏魯木齊市主要污染物濃度實測數(shù)據(jù)與氣象因素的相關(guān)性分析,得到結(jié)果如下:在各要素中,PM10、PM2.5、O3、SO2與濕度呈顯著正相關(guān)性;PM10、PM2.5、NO2、SO2、CO與溫度呈負相關(guān),O3與溫度呈正相關(guān);O3與風(fēng)速呈正相關(guān);PM10、PM2.5、CO、NO2、SO2與氣壓呈顯著正相關(guān)。
2.4 評價指標(biāo)
采用以下3個指標(biāo)評價所涉及空氣質(zhì)量預(yù)測模型的性能,分別是平均絕對誤差(MAE)、均方根誤差(RMSE)和決定系數(shù)(R2)。其中,平均絕對誤差MAE經(jīng)常被用于對回歸模型的誤差判斷。回歸模型的預(yù)測誤差越小,MAE越小,反之則越大。
均方根誤差RMSE是真實值與預(yù)測值之差的平方與觀測次數(shù)比值的平方根,可以很好地表示測量的精密度。RMSE越小,表示模型精密度越高。
可決系數(shù)R2表示自變量解釋的變異程度占總的變異程度的比例,2越接近1,表示該模型的準確度越高,2有可能為負值。
3 結(jié)果及分析
如表2所示,在這3個模型中,測試集中衡量指標(biāo)值的大小按照模型的順序排列為:RMSE:Lasso>XGBoost>GBDT>Stacking;MAE:Lasso> XGBoost>GBDT>Stacking;R2:Stacking>GBDT>XGBoost>Lasso;綜合分析可知,與另外幾種算法相比,Stacking模型對AQI的預(yù)測效果更好,測試集上的均方誤差也較為穩(wěn)定,穩(wěn)健性能也更好,在一定程度上體現(xiàn)了算法的優(yōu)勢,所以可考慮將該算法被用于AQI的預(yù)測。結(jié)合圖2可以發(fā)現(xiàn),Stacking融合模型對AQI的預(yù)測近乎與實際數(shù)據(jù)曲線重合,預(yù)測十分有效,具有極高的準確度。
4 結(jié)束語
利用Stacking融合模型預(yù)測了空氣質(zhì)量指數(shù),在數(shù)據(jù)處理階段,填補了缺失值,并對數(shù)據(jù)做了歸一化處理,以此減輕奇異樣本數(shù)據(jù)導(dǎo)致的不良影響。然后搭建Stacking融合模型,選擇損失函數(shù)及優(yōu)化器,劃分訓(xùn)練集與測試集。最后,將歸一化后的烏魯木齊市2016—2021年數(shù)據(jù)輸入搭建好的模型中,使用訓(xùn)練集數(shù)據(jù)訓(xùn)練模型,測試集被用于最后評估模型的性能。通過與其他算法作對比,結(jié)果表明Stacking融合模型在AQI數(shù)值預(yù)測方面的性能優(yōu)于上述算法,Stacking融合模型充分結(jié)合了基學(xué)習(xí)器的優(yōu)勢與差異,以不同基學(xué)習(xí)器的優(yōu)勢提升和彌補其模型的不足,達到“揚長避短”,可以有效地提高模型的預(yù)測精度和泛化能力,能為污染預(yù)警、空氣污染治理及公民出行提供一定的支持。
參考文獻
[1] 陳誠,陳婷.長江沿線化工企業(yè)拆遷與搬離對荊州市空氣質(zhì)量的影響[J].公共衛(wèi)生與預(yù)防醫(yī)學(xué),2022,33(2):35-41.
[2] 張美根,韓志偉,雷孝恩.城市空氣污染預(yù)報方法簡述[J].氣候與環(huán)境研究, 2001(1):113-118.
[3] 謝潔嵐,廖志恒,許欣祺,等.基于車載雷達探測的一次華北冬季重污染天氣成因研究[J].環(huán)境科學(xué)學(xué)報,2023,43(1): 255-263.
[4] 楊思琪,趙麗華.隨機森林算法在城市空氣質(zhì)量預(yù)測中的應(yīng)用[J].統(tǒng)計與決策,2017(20):83-86.
[5] 肖德林,鄧仕槐,鄧小函,等.達州市城區(qū)環(huán)境空氣質(zhì)量變化趨勢及CMAQ模型預(yù)報分析[J].中國環(huán)境監(jiān)測,2021,37 (4):92-103.
[6] 鄭紅,程云輝,胡陽生,等.基于MLP&ST模型的空氣質(zhì)量預(yù)測[J].應(yīng)用科學(xué)學(xué)報,2022,40(2):302-315.
[7] 萬永權(quán),徐方勤,燕彩蓉,等.融合氣象參數(shù)及污染物濃度的空氣質(zhì)量預(yù)測方法[J].計算機應(yīng)用與軟件,2018,35(8): 113-117.
[8] 張春露.基于Tensorflow的LSTM在太原空氣質(zhì)量AQI指數(shù)中的分析與預(yù)測[D].太原:中北大學(xué),2019.
[9] 史學(xué)良,李梁,趙清華.基于改進LSTM網(wǎng)絡(luò)的空氣質(zhì)量指數(shù)預(yù)測[J].統(tǒng)計與決策,2021,37(16):57-60.
[10] 方偉,朱潤蘇.基于時空相似LSTM的空氣質(zhì)量預(yù)測模型[J].計算機應(yīng)用研究,2021,38(9):2640-2645.
[11] 楊張婧,閻威武,王國良,等.基于大數(shù)據(jù)的城市空氣質(zhì)量時空預(yù)測模型[J].控制工程,2020,27(11):1859-1866.
[12] 陸萬榮,許江淳,李玉惠.面向Stacking集成的改進分類算法及其應(yīng)用[J].計算機應(yīng)用與軟件,2022,39(2):281-286.
責(zé)任編輯:黃艷飛
Abstract With the development of society and the improvement of public environmental awareness, air quality has increasingly become a public concern. Predicting the future air quality will help the government to take pollution prevention measures and residents choice of activities in advance. In this paper, pollutant factors and meteorological factors were used as the prediction indicators of air quality index, and a prediction model based on Stacking fusion was established. The air pollution monitoring data and meteorological data of Urumqi from January 2016 to December 2021 are used to forecast the air quality of Urumqi, and compared with other algorithms. The research results show that the Stacking fusion model has better performance in AQI numerical prediction than other comparison models, and has good prediction effect.
Key words Air quality prediction; Stacking fusion model; Air quality index
作者簡介 史江振(1995—),男,湖北宜昌人,主要從事大數(shù)據(jù)分析研究。*通信作者,竇燕(1981—),女,新疆烏魯木齊人,教授,主要從事資源環(huán)境統(tǒng)計和大數(shù)據(jù)應(yīng)用研究,E-mail:douyan129@126.com。