摘 要:
霧霾影響生活,危及健康,霧霾的形成主要在于空氣中PM2.5的含量值。在大數(shù)據(jù)背景下,科學(xué)合理的霧霾預(yù)測(cè),及時(shí)的霧霾預(yù)警至關(guān)重要。本文基于多元線性回歸方法,建立了空氣中PM2.5含量的預(yù)測(cè)模型,并收集了長(zhǎng)春市2018年10—11月的空氣質(zhì)量數(shù)據(jù),進(jìn)行實(shí)驗(yàn)驗(yàn)證。結(jié)果表明,該模型對(duì)于霧霾的預(yù)測(cè)準(zhǔn)確率較高,預(yù)測(cè)結(jié)果科學(xué)、有效。
關(guān)鍵詞:
霧霾;多元線性回歸;預(yù)測(cè)
中圖分類號(hào):S16
文獻(xiàn)標(biāo)識(shí)碼:A
DOI:10.19754/j.nyyjs.20191130058
基金項(xiàng)目:吉林省教育廳“十三五”規(guī)劃課題“大數(shù)據(jù)背景下“霧霾”天氣預(yù)測(cè)方法研究”(項(xiàng)目編號(hào):JJKH20180651KJ)
引言
隨著社會(huì)的進(jìn)步,經(jīng)濟(jì)的發(fā)展,環(huán)境問題越來越受到重視??諝赓|(zhì)量與人們的生活息息相關(guān)[1]。為了實(shí)時(shí)了解空氣質(zhì)量狀況,我國(guó)很多地區(qū)均建立了實(shí)時(shí)的監(jiān)測(cè)站,長(zhǎng)春市目前已建立的空氣質(zhì)量監(jiān)測(cè)站有10處,主要監(jiān)測(cè)空氣中PM2.5、PM10、CO、SO2、氮氧化物(NOx)、O3等含量,通過監(jiān)測(cè)數(shù)據(jù)可以對(duì)空氣質(zhì)量情況作出預(yù)報(bào)。每年的10月以后,隨著供暖季的到來,發(fā)生霧霾情況的概率大大增加。霧霾對(duì)人們的生產(chǎn)生活以及身體健康產(chǎn)生極大的危害。準(zhǔn)確的預(yù)測(cè)霧霾天氣,可以指導(dǎo)性的做好防護(hù)措施,最大限度地減少霧霾帶來的危害,具有重要的研究意義[2]。
近幾年,很多學(xué)者都對(duì)霧霾的預(yù)測(cè)與預(yù)警做了相關(guān)研究,主要使用的研究方法包括人工神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、支持向量機(jī)等。這些方法所建立的模型,對(duì)霧霾的預(yù)測(cè)與預(yù)警起到了一定的積極作用[3]。本文針對(duì)霧霾的主要污染物PM2.5指數(shù)進(jìn)行預(yù)測(cè),采用了統(tǒng)計(jì)學(xué)中常用的多元線性回歸(MLR)方法預(yù)測(cè)模型,并應(yīng)用SPSS軟件進(jìn)行了分析預(yù)測(cè),結(jié)果表明,該模型在預(yù)測(cè)霧霾情況準(zhǔn)確率較高。該模型具有節(jié)省性、高度擬合性、可識(shí)別性等優(yōu)點(diǎn),并達(dá)到了理論一致性[4]。
1 多元線性回歸
1.1 回歸分析
統(tǒng)計(jì)分析在很多研究領(lǐng)域有著廣泛的應(yīng)用,回歸分析是統(tǒng)計(jì)分析的重要組成部分,回歸分析主要包括線性回歸分析和非線性回歸分析,在線性回歸分析中根據(jù)因素的個(gè)數(shù)又可分為一元線性回歸和多元線性回歸分析?;貧w分析也是大數(shù)據(jù)背景下進(jìn)行數(shù)據(jù)挖掘的重要方法之一[5]。它不僅可以將隱藏在海量數(shù)據(jù)集合中的有價(jià)值的信息挖掘出來,還可以基于回歸分析可以得到回歸方程(數(shù)學(xué)表達(dá)式),有助于把握數(shù)據(jù)的主要特征[6]?;貧w方程是否科學(xué)有效,可根據(jù)概率統(tǒng)計(jì)知識(shí)進(jìn)行判斷?;貧w分析的重要意義更在于可以利用函數(shù)關(guān)系式,由自變量預(yù)測(cè)因變量,得到預(yù)測(cè)結(jié)果。
回歸分析的主要內(nèi)容包括以下4個(gè)方面:確定回歸模型;對(duì)回歸模型的擬合度進(jìn)行統(tǒng)計(jì)檢驗(yàn),驗(yàn)證其可信度;顯著性檢驗(yàn);預(yù)測(cè)分析。
1.2 多元線性回歸模型
多元線性回歸的數(shù)學(xué)模型一般可表示為式:
y=β0+β1x1+β2x2+β3x3+…+βp-1xp-1+ε
式中,ε為隨機(jī)因素,并且服從N(0,δ2)分布,β0,β1,β2,…βp為回歸方程的系數(shù),系數(shù)βi表示在其他自變量不變的情況下,自變量xi變動(dòng)到1個(gè)單位時(shí)引起的因變量y的平均單位。從集合角度說,多元線性回歸是多維空間上的1個(gè)平面[7]。
對(duì)y和x0,x1,x2,…xp分別進(jìn)行n次獨(dú)立觀測(cè),取得n組數(shù)據(jù)yi,xi1,xi2,…xip-1,(i=1,2,3,…,n)
則有:y1=β0+β1x11+β2x12+…+βp-1x1p-1+ε1y2=β0+β1x21+β2x22+…+βp-1x2p-1+ε2…yn=β0+β1xn1+β2xn2+…+βp-1xnp-1+εn
令
Y=y1y2ynβ=β1β2βp-1ε=ε1ε2εp-1x=1x11x12…x1p-11x21x22…x2p-1…1xn1xn2…xnp-1
則有:y=xβ+ε
1.3 模型檢驗(yàn)
多元線性回歸方程中回歸系數(shù)的估計(jì)采用最小二乘法。殘差平方和SSE=∑y-=0根據(jù)微積分中求極小值的原理,SSE存在極小值,SSE對(duì)β0,β1,β2,…βp的偏導(dǎo)數(shù)必須為零。
多元線性回歸需要進(jìn)行3方面檢驗(yàn)分別為:回歸方程的擬合度檢驗(yàn);回歸方程的顯著性檢驗(yàn);回歸系數(shù)的顯著性檢驗(yàn)。多元線性回歸的擬合度檢驗(yàn)主要應(yīng)用多重判定系數(shù),具體為:
R2=SSRSST=1-SSESST
式中,SSR為回歸平方和,SSE為殘差平方和,SST為離差平方和。擬合優(yōu)度一般由R2表示,0≤R2≤1R2越接近1,則擬合度越好,R2越接近0,擬合度則較差。一般情況下認(rèn)為R2≥0.85則該回歸方程可用。進(jìn)而用該回歸方程進(jìn)行預(yù)測(cè)分析。
2 仿真實(shí)驗(yàn)
2.1 數(shù)據(jù)來源及處理
目前,長(zhǎng)春市已經(jīng)建立了10處空氣質(zhì)量實(shí)時(shí)監(jiān)測(cè)站,分別為郵電學(xué)院、食品廠、甩彎子、岱山公園、園林處、勞動(dòng)公園、客車廠、高新區(qū)管委會(huì)、經(jīng)開區(qū)環(huán)衛(wèi)處、凈月潭等。這些監(jiān)測(cè)站實(shí)時(shí)監(jiān)測(cè)空氣質(zhì)量的相關(guān)參數(shù)數(shù)據(jù)[5]。為了保證預(yù)測(cè)分析的準(zhǔn)確率,數(shù)據(jù)必須真實(shí)、可靠。本文將長(zhǎng)春市10處監(jiān)測(cè)點(diǎn)的各項(xiàng)實(shí)時(shí)指標(biāo)值統(tǒng)計(jì)為每天的均值進(jìn)行研究,由于每年的供暖季是長(zhǎng)春市霧霾的高發(fā)時(shí)期,所以選擇了2018年10—11月共61d的各項(xiàng)統(tǒng)計(jì)數(shù)據(jù),原始數(shù)據(jù)如表1所示。
通過表1 可以看出各項(xiàng)監(jiān)測(cè)數(shù)據(jù)值存在量綱上的差別,為了得到擬合度較高回歸方程,得到較好的霧霾預(yù)測(cè)效果,所以對(duì)原始數(shù)據(jù)進(jìn)行了預(yù)處理,主要包括缺失值和離群值處理、消除量綱差別處理。
2.2 基于MLR模型的數(shù)據(jù)分析
本文基于SPSS軟件對(duì)空氣質(zhì)量數(shù)據(jù)進(jìn)行分析,采用的方法為多元線性回歸(MLR)。其中,設(shè)定PM10、CO、NO2、O3、SO2為自變量,PM2.5為因變量。其中自變量與因變量的散點(diǎn)如圖1所示(部分)。
通過散點(diǎn)圖可以看出PM2.5含量與其它空氣污染物密切相關(guān)。通過進(jìn)一步驗(yàn)證,得到因變量PM2.5與自變量的擬合優(yōu)度達(dá)到R2為0.912,調(diào)整后的R2為0.898 ,明顯大于經(jīng)驗(yàn)值0.85,表明擬合度較好。在回歸方程的顯著性檢驗(yàn)中,殘差平方和為2535.231,F(xiàn)值為62.074,顯著性水平的伴隨概率為0.000。表明該回歸方程有效,用該方法進(jìn)行預(yù)測(cè)效果較理想。
根據(jù)該回歸方程得到的實(shí)際觀測(cè)值與擬合值的折線圖如圖2所示。
通過圖2可以看出,預(yù)測(cè)值與觀測(cè)值的折線圖對(duì)比基本達(dá)到了吻合狀態(tài),所以用該模型對(duì)長(zhǎng)春市進(jìn)行未來幾天PM2.5進(jìn)行預(yù)測(cè)是可靠的。基于該回歸方程對(duì)長(zhǎng)春市2018年12月1—5日的PM2.5含量進(jìn)行了預(yù)測(cè)。預(yù)測(cè)結(jié)果如表2所示。
對(duì)應(yīng)的折線圖如圖3所示。
2.3 結(jié)果分析
通過該模型對(duì)長(zhǎng)春市未來5d的PM2.5含量進(jìn)行了預(yù)測(cè),預(yù)測(cè)結(jié)果在表2和圖3中給出,通過結(jié)果可以看出,用該模型進(jìn)行PM2.5含量的預(yù)測(cè)是可行的,并且準(zhǔn)確度較高,平均準(zhǔn)確率為81.82%,預(yù)測(cè)效果較為理想。只有12月4日的預(yù)測(cè)值與實(shí)際值偏差較大,通過查詢當(dāng)日的氣候條件,發(fā)現(xiàn)當(dāng)日風(fēng)力為5級(jí),表明PM2.5含量值與風(fēng)力等氣候條件有關(guān)。通過大量的實(shí)驗(yàn)表明,基于多元統(tǒng)計(jì)分析方法的預(yù)測(cè)模型能夠較理想的預(yù)測(cè)PM2.5含量值,進(jìn)而預(yù)測(cè)霧霾天氣的發(fā)生。
3 結(jié)束語
霧霾天氣的預(yù)測(cè)與預(yù)警受到了廣泛和深入的研究,本文基于統(tǒng)計(jì)學(xué)的多元統(tǒng)計(jì)分析方法建立了PM2.5含量預(yù)測(cè)模型。收集了長(zhǎng)春市的空氣質(zhì)量數(shù)據(jù),并經(jīng)過實(shí)驗(yàn)驗(yàn)證,結(jié)果表明,應(yīng)用該模型對(duì)長(zhǎng)春市的PM2.5含量進(jìn)行預(yù)測(cè)分析是科學(xué)和有效的,并達(dá)到了理想的預(yù)測(cè)精度。該模型的運(yùn)算復(fù)雜度較小,效果較理想,為霧霾天氣的預(yù)測(cè)提供很好的研究方法,本文建立的PM2.5含量預(yù)測(cè)模型具有一定的參考價(jià)值和應(yīng)用意義,能夠?yàn)殚L(zhǎng)春市的霧霾預(yù)警提供參考。
參考文獻(xiàn)
[1]蘇維,賴新云,賴勝男,等.南昌市城市空氣PM2.5和PM10時(shí)空變異特征及其與景觀格局的關(guān)系[J].環(huán)境科學(xué)學(xué)報(bào).2017,37(7):2432-2439.
[2]趙金霞,沈岳峰,范蘇丹.天津市濱海新區(qū)持續(xù)性重度霧霾成因分析[J].沙漠與綠洲氣象,2017,11(6):69-74.
[3]牛玉霞.基于遺傳算法和BP神經(jīng)網(wǎng)絡(luò)的空氣質(zhì)量預(yù)測(cè)模型研究[J].軟件,2017,38(12):49-53.
[4]劉小兵.基于支持向量回歸機(jī)的PM2.5濃度預(yù)測(cè)模型分析與研究[D].成都:西南財(cái)經(jīng)大學(xué),2016.
[5]尹琪,胡紅萍,白艷萍,等.基于GA-SVM的太原市空氣質(zhì)量指數(shù)預(yù)測(cè)[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2017,47(12):113-120.
[6]付倩嬈.基于多元線性回歸的霧霾預(yù)測(cè)方法研究[J].計(jì)算機(jī)科學(xué).2016,43(6):526-528.
[7]周晨,馮宇東,肖匡心,等.基于多元線性回歸模型的東北地區(qū)需水量分析[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2014,44(1):118-123.
作者簡(jiǎn)介:
艾洪福(1980-),男,碩士,講師。研究方向:數(shù)據(jù)挖掘、環(huán)境質(zhì)量。