敖希琴, 費(fèi)久龍, 陳家麗, 鄭 陽, 汪金婷
(安徽新華學(xué)院信息工程學(xué)院,安徽 合肥 230088))
近年來中國環(huán)境污染日益嚴(yán)重,許多城市出現(xiàn)霧霾天氣,監(jiān)控和預(yù)測大氣污染已成為空氣質(zhì)量研究中的一個(gè)重要部分。PM2.5指的是大氣中粒徑小于或等于2.5μm的顆粒物,表示每立方米空氣中這種顆粒的含量,其值越高,就代表空氣污染越嚴(yán)重[1]。PM2.5從客觀上對(duì)空氣中的細(xì)小微粒能夠做出描述和衡量,體現(xiàn)空氣中微粒的濃度,已經(jīng)成為人們?nèi)粘I钪幸粋€(gè)不可或缺的一項(xiàng)空氣質(zhì)量指標(biāo)。
由于對(duì)PM2.5造成影響的因素有很多,統(tǒng)計(jì)分析中的多元回歸分析模型可以處理這種情況,并且在氣象、經(jīng)濟(jì)等領(lǐng)域已經(jīng)有相當(dāng)多的研究。例如唐猛分析了PM10濃度的統(tǒng)計(jì)學(xué)分布及預(yù)測[2];趙廣華等將多元回歸模型應(yīng)用在區(qū)域經(jīng)濟(jì)預(yù)測中[3]。由國內(nèi)諸多的文獻(xiàn)可以看出,多元回歸分析是預(yù)測方法中一種比較主流的的方法,在以往的研究中得到廣泛的應(yīng)用。
多元線性回歸分析是以多個(gè)解釋變量的給定值為條件的回歸分析,是研究一個(gè)因變量和多個(gè)自變量之間的線性關(guān)系方法[4],多元線性回歸模型的一般形式為:
Y=β0+β1X1+β2X2+β3X3+…+βjXj+…
+βkXk+μ
(1)
式中,K為解釋變量的數(shù)目,βj(j=1,2,…,k)為回歸系數(shù),μ為去除k個(gè)自變量時(shí)對(duì)Y影響后的隨機(jī)誤差。
為驗(yàn)證多元統(tǒng)計(jì)方法在PM2.5分析及預(yù)測方面的適用性,選取了合肥地區(qū)的PM2.5數(shù)據(jù)進(jìn)行了相關(guān)實(shí)驗(yàn)。數(shù)據(jù)來源于“天氣后報(bào)網(wǎng)[5]”,選取了時(shí)間段為2015年1月至2015年12月全年數(shù)據(jù)進(jìn)行分析。
2.2.1 數(shù)據(jù)的篩選
由于該網(wǎng)站提供的數(shù)據(jù)項(xiàng)目比較多,基于實(shí)驗(yàn)?zāi)康?,?015年全年的數(shù)據(jù)中的“AOI指數(shù)”、“當(dāng)天AQI排名”這兩列數(shù)據(jù)剔除,剩下的“日期”、“質(zhì)量等級(jí)”、“PM2.5”、“PM10”、“SO2”、“NO2”、“CO”、“O3”等列保留。
2.2.2 數(shù)據(jù)處理
該網(wǎng)站提供的數(shù)據(jù)當(dāng)中,經(jīng)過排查,出現(xiàn)了若干缺失值,需要進(jìn)行填補(bǔ),以滿足數(shù)據(jù)的完整性要求。實(shí)驗(yàn)缺失值的處理方法是利用簡單(非隨機(jī))插補(bǔ),即用某個(gè)值(如平均值、中位數(shù)、眾數(shù))來替換變量中的缺失值,此處采用缺失值相鄰兩個(gè)值的平均值進(jìn)行替代。
數(shù)據(jù)中存在一些影響模型效果的觀測點(diǎn),這些觀測點(diǎn)或大或小,需要對(duì)其進(jìn)行排查處理,以減小異常值對(duì)于整個(gè)數(shù)據(jù)模型的影響。異常值是指樣本中的個(gè)別值,其數(shù)值明顯偏離它所屬樣本的其余觀察值[6]。對(duì)于異常值,可以通過箱線圖判斷。
圖1 箱線圖
由圖1可以看出,數(shù)據(jù)中存在著一些異常值,如2015年1月17日、2015年1月25日、2015年2月04日、2015年2月14日、2015年2月17日、2015年5月27日、2015年8月10日等異常值。采取的處理方法是直接刪除異常值。
2.2.3 數(shù)據(jù)分割
為體現(xiàn)實(shí)驗(yàn)的科學(xué)性,將合肥地區(qū)2015年的數(shù)據(jù)進(jìn)行分割,2015年1月1日至2015年9月30日的數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù)集,用于分析建模;2015年10月1日至2015年12月31日的數(shù)據(jù)為驗(yàn)證數(shù)據(jù)集,用于驗(yàn)證模型預(yù)測的準(zhǔn)確性。
相關(guān)分析是指對(duì)不同變量進(jìn)行定量分析,由此來判斷他們之間是否存在較為密切的關(guān)系,以及關(guān)系的密切程度。課題研究的是PM2.5和各個(gè)影響因素的關(guān)系,因此首先要進(jìn)行PM2.5和各個(gè)影響因素相關(guān)性的考察,可以通過觀察變量間的散點(diǎn)圖來進(jìn)行相關(guān)性分析。
借助于R軟件,可做PM2.5和各個(gè)影響因素之間的散點(diǎn)圖,如圖2所示。并計(jì)算二者之間的相關(guān)系數(shù),如表1所示。
表1 PM2.5與各影響因素間相關(guān)系數(shù)
圖2 綜合散點(diǎn)圖
由圖2可觀察到PM2.5和PM10、CO之間有較為明顯的線性趨勢關(guān)系,其關(guān)系系數(shù)分別為0.803和0.838;PM2.5和SO2、NO2之間有一定的線性趨勢關(guān)系,其關(guān)系系數(shù)分別為0.615和0.456,這四個(gè)影響因素與PM2.5呈正相關(guān),說明當(dāng)其濃度高增大時(shí),PM2.5的濃度也會(huì)相應(yīng)的增大。而PM2.5和PM10之間的散點(diǎn)圖較為分散,其關(guān)系系數(shù)為-0.343。
圖3 五個(gè)影響因素為整體時(shí)與PM2.5之間的散點(diǎn)圖
通過相關(guān)性分析的結(jié)果,可以發(fā)現(xiàn)PM2.5與各個(gè)變量之間的關(guān)系基本呈現(xiàn)出線性趨勢,為更好地研究PM2.5與各個(gè)影響因素之間的關(guān)系,選擇PM10、SO2、NO2、CO、O3五個(gè)影響因素為自變量,建立多元回歸模型。
首先將五個(gè)影響因素看成整體,做與PM2.5之間的散點(diǎn)圖,從而大致的判斷點(diǎn)的趨勢,如圖3所示。
從圖3中可以看出大概呈現(xiàn)出線性的趨勢,于是借助于R軟件建立多元線性回歸方程,得到結(jié)果如表2所示。
表2 系數(shù)表
根據(jù)實(shí)驗(yàn)結(jié)果,可得到該多元線性回歸模型的表達(dá)式:
PM2.5=0.37PM10+0.20SO2-0.76MO2+
64.44CO-0.22O3-6.75
(2)
為驗(yàn)證模型的有效性,采用擬合優(yōu)度檢驗(yàn)、方程顯著性檢驗(yàn)、參數(shù)顯著性檢驗(yàn)對(duì)模型進(jìn)行檢驗(yàn)和評(píng)價(jià)。
3.3.1 擬合優(yōu)度檢驗(yàn)
在多元線性回歸模型中,Multiple R-Square為決定系數(shù),又稱擬合優(yōu)度,反映了自變量對(duì)因變量解釋程度的高低,其值越大,說明自變量對(duì)因變量解釋程度越高;Adjusted R-Square為可調(diào)整的擬合優(yōu)度,反映了回歸方程對(duì)樣本的擬合程度,其值越大,回歸方程對(duì)樣本的擬合程度越高。借助于R軟件中的summary函數(shù),可得到擬合優(yōu)度檢驗(yàn)結(jié)果,如表3所示:
表3 擬合優(yōu)度檢驗(yàn)結(jié)果
由表3可知,Multiple R-Square的值為0.813,Adjusted R-Square的值為0.810,接近于1,表明擬合優(yōu)度較好。
圖4 預(yù)測值與實(shí)際值的對(duì)比圖
3.3.2 方程顯著性檢驗(yàn)
在多元線性回歸模型中,方程的顯著性檢驗(yàn)通常用F檢驗(yàn),即當(dāng)p-value<0.05,即通過顯著性檢驗(yàn)。通過R軟件,計(jì)算出來的p-value小于2.2e-16,遠(yuǎn)小于0.05,即滿足顯著性要求。
3.3.3 參數(shù)顯著性檢驗(yàn)
在多元線性回歸模型中,參數(shù)的顯著性檢驗(yàn)是對(duì)自變量的顯著性進(jìn)行判定,即當(dāng)Pr(>|t|)<0.05,通過顯著性檢驗(yàn)。借助于R軟件中的summary函數(shù),可得到參數(shù)顯著性檢驗(yàn)結(jié)果,如表4所示。
表4 參數(shù)顯著性檢驗(yàn)結(jié)果
由表4可知,除SO2剩余四個(gè)自變量均通過參數(shù)顯著性檢驗(yàn)。但是結(jié)合實(shí)際來看,SO2顯然是對(duì)PM2.5有影響的。而作為模型選擇的重要方法之一,逐步回歸分析法可以用來篩選模型。
3.4.1 逐步回歸分析
逐步回歸就是在許多自變量共同影響著一個(gè)因變量的關(guān)系中,判斷哪個(gè)( 或哪些) 自變量的影響是顯著的,哪些自變量的影響是不顯著的,然后將影響顯著的自變量選入和將影響不顯著的變量剔除[7],逐步回歸分析結(jié)果如表5所示。
表5 逐步回歸分析模型參數(shù)分析
由表5可知,又得到了一個(gè)預(yù)測模型:
PM2.5=0.37PM10+0.20SO2-0.76MO2+
64.44CO-0.22O3-6.75
(3)
由逐步回歸分析可知,相對(duì)于原來的模型,新模型去除SO2、為驗(yàn)證新的模型是否滿足課題需要,同理采用擬合優(yōu)度檢驗(yàn)、方程顯著性檢驗(yàn)、參數(shù)顯著性檢驗(yàn)等指標(biāo)驗(yàn)證模型。
其中擬合優(yōu)度檢驗(yàn)結(jié)果,Multiple R-Square的值為0.8117,Adjusted R-Square的值為0.8089,相比于原來的模型,略有下降;方程顯著性檢驗(yàn)中,p-value: < 2.2e-16,可以得知方程通過了顯著性檢驗(yàn);方程的顯著性檢驗(yàn)結(jié)果中,所有自變量均通過參數(shù)顯著性檢驗(yàn)。
3.4.2 模型選擇
AIC準(zhǔn)則又稱最小信息準(zhǔn)則,是衡量統(tǒng)計(jì)模型擬合優(yōu)良性的一種標(biāo)準(zhǔn),是尋找可以最好地解釋數(shù)據(jù)但包含最少自由參數(shù)的模型,因此優(yōu)先考慮的模型是應(yīng)該是AIC最小的一個(gè)[8]。
表6 AIC模型比較
從上述實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn)第二種模型的AIC相對(duì)較小,并且在考慮自變量盡可能少的原則下,選擇逐步回歸分析后的模型為最終的預(yù)測模型。
PM2.5=0.30PM10-0.76NO2+64.16CO-
0.26O3-3.51
(4)
通過以上分析得到的模型,用于預(yù)測合肥市2015年10月至12月合肥市的PM2.5。采用均方根誤差(RMSE)準(zhǔn)則(公式5)、平均絕對(duì)誤差(MAE)準(zhǔn)則(公式6)和Theil不相等系數(shù)準(zhǔn)(公式7)則用于檢驗(yàn)?zāi)P偷念A(yù)測效果,并做預(yù)測值與實(shí)際值的對(duì)比圖如圖4所示。
(5)
(6)
(7)
其中yi表示真實(shí)值,gi表示預(yù)測值,RMSE值和MAE值都是越小,表示預(yù)測值與真實(shí)值越接近,預(yù)測準(zhǔn)確度越高;U取值在0到1之間,U越接近0,模型預(yù)測越準(zhǔn)確。
由公式可得均方根誤差(RMSE)為24.56,平均絕對(duì)誤差(MAE)為15.65, Theil不相等系數(shù)為0.14,由于PM2.5的數(shù)據(jù)是在0~500甚至更大范圍內(nèi)波動(dòng),相比之下,該預(yù)測模型的RMSE、MAE、和Theil不相等系數(shù)較為理想,由此推斷模型整體預(yù)測效果較好。
通過分析合肥市2015年P(guān)M2.5相關(guān)數(shù)據(jù),建立一種以PM2.5為核心的多元線性回歸模型。該模型指標(biāo)共包括PM10、SO2、NO2、CO、O3五項(xiàng)。通過建立PM2.5與各個(gè)指標(biāo)之間的散點(diǎn)圖,大致判斷各個(gè)指標(biāo)是否與PM2.5呈現(xiàn)出一定的線性關(guān)系,從而建立一個(gè)“強(qiáng)行”的多元線性回歸模型;采用擬合優(yōu)度檢驗(yàn)、方程顯著性檢驗(yàn)、參數(shù)顯著性檢驗(yàn)以及逐步回歸分析對(duì)模型進(jìn)行驗(yàn)證;最后得到一個(gè)較為滿意的模型。運(yùn)用該模型預(yù)測了2015年合肥市10月至12月份的PM2.5,且擬合優(yōu)度和調(diào)整的擬合優(yōu)度分別為0.81,0.81,均方根誤差(RMSE)為24.56,平均絕對(duì)誤差(MAE)為15.65,Theil不相等系數(shù)為0.14,模型預(yù)測效果較好。
雖然提出的多元線性回歸模型可以在一定程度上較好的預(yù)測PM2.5,但仍然存在一些不足,具體如下:
1)該模型在建模前剔除了異常值,所以得到的模型較為穩(wěn)健,對(duì)于一些較為極端的天氣,預(yù)測效果不理想,如何將這些異常值納入預(yù)測模型,提高模型對(duì)極端天氣的預(yù)測準(zhǔn)確性,這方面的工作有待進(jìn)一步研究。
2)結(jié)合實(shí)際分析來看,PM2.5的變化與時(shí)間存在一定的關(guān)系,可以在多元線性回歸模型的基礎(chǔ)上結(jié)合時(shí)間序列模型,從而得到一個(gè)更為精確的模型。
[1] 百度百科.PM2.5.https://www.sogou.com/sie?hdq=AQxRG-4492&query=PM2.5&ie=utf8.
[2] 唐猛.長沙市顆粒物PM10濃度統(tǒng)計(jì)學(xué)分布特性與預(yù)測[D].長沙:中南大學(xué),2010.
[3] 趙廣華,劉煒.多元回歸模型在經(jīng)濟(jì)預(yù)測區(qū)域中的應(yīng)用[J].中國商貿(mào),2009(08):180-181.
[4] 張景陽,潘光友.多元線性回歸與BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型對(duì)比與運(yùn)用研究[J].昆明理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,38(06):61-67.
[5] 天氣后報(bào)網(wǎng).http://www.tianqihoubao.com/ .
[6] 王懷亮.統(tǒng)計(jì)數(shù)據(jù)異常值的識(shí)別及r語言實(shí)現(xiàn)[J].電子技術(shù),2012(05):6-8.
[7] 姜新華,劉霞,薛河儒,等.基于逐步回歸的空氣質(zhì)量影響因素分析——以呼和浩特市區(qū)為例[J].內(nèi)蒙古農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,36(02):123-126.
[8] Guofeng, SongXiaogang, DongJiafeng etc. Blockwise AIC for Model Selection in Generalized Linear Models[J].Environmental Modeling & Assessment, 2017 (1) :1-11.