張云云,朱家明*,高子云,高彥文
基于多元線性回歸的PM2.5含量的影響因素研究
張云云a,朱家明a*,高子云b,高彥文c
(安徽財經(jīng)大學(xué)a.統(tǒng)計與應(yīng)用數(shù)學(xué)學(xué)院;b.會計學(xué)院;c.管理科學(xué)與工程學(xué)院,安徽蚌埠233030)
針對PM2.5含量的影響因素,利用搜集到的2015年1月1日至7月31日蚌埠地區(qū)每日的AQI指數(shù)和AQI六項基本監(jiān)測指標(biāo)數(shù)據(jù),建立了多元線性回歸模型,對PM2.5含量與其它5項分指標(biāo)及其對應(yīng)污染物含量之間的關(guān)系進(jìn)行定量研究,并通過擬合優(yōu)度檢驗、F檢驗、t檢驗等方法對模型進(jìn)行檢驗,最后得到了準(zhǔn)確可靠的多元線性回歸模型,此模型具有擬合程度高、簡易、直觀等優(yōu)勢,為多元線性回歸模型在PM2.5含量分析中的應(yīng)用提供了有力參考。
PM2.5;多元線性回歸模型;t檢驗;MATLAB
PM2.5[1]是指環(huán)境空氣中空氣動力學(xué)當(dāng)量直徑≤2.5 um的顆粒物,環(huán)境保護(hù)部于2012年2月29日頒布了新修訂的《環(huán)境空氣質(zhì)量標(biāo)準(zhǔn)》,新標(biāo)準(zhǔn)首次將PM2.5作為空氣質(zhì)量AQI基本監(jiān)測指標(biāo)之一。AQI的其他5項監(jiān)測指標(biāo)分別是二氧化硫SO2、二氧化氮NO2、可吸入顆粒物PM10、臭氧O3和一氧化碳CO。有一種研究[2]認(rèn)為,AQI監(jiān)測指標(biāo)中的二氧化硫(SO2)二氧化氮(NO2)一氧化碳(CO)等是在一定環(huán)境條件下形成PM2.5前的主要氣態(tài)物體,因而本文將其他5項基本監(jiān)測指標(biāo)作為影響空氣中PM2.5含量的因素,利用多元線性回歸模型對PM2.5含量與其它5項分指標(biāo)及其對應(yīng)污染物含量之間的關(guān)系進(jìn)行定量研究。
多元線性回歸模型是計量經(jīng)濟(jì)學(xué)中最重要的模型之一,它可以刻畫被解釋變量與多個解釋變量之間的線性關(guān)系,并通過最小二乘估計來得到各個回歸系數(shù),以此來達(dá)到對某些經(jīng)濟(jì)變量之間進(jìn)行定量研究的目的。多元線性回歸模型發(fā)展到如今,其應(yīng)用領(lǐng)域已不僅限于經(jīng)濟(jì)領(lǐng)域,還包括管理、勞動、教育等多個領(lǐng)域。本文想要利用多元線性回歸模型來對PM2.5含量與AQI其它5項分指標(biāo)及其對應(yīng)污染物含量之間的關(guān)系進(jìn)行定量研究,首先必須對多元線性回歸模型應(yīng)用到該問題上的可行性進(jìn)行檢驗。我們知道被解釋變量與各個解釋變量的相關(guān)關(guān)系越強,被解釋變量與各個解釋變量越有可能存在線性關(guān)系,在這里利用收集到的2015年1月1日至7月31日蚌埠地區(qū)每日的AQI指數(shù)和AQI六項基本監(jiān)測指標(biāo)數(shù)據(jù),通過MATLAB畫出PM2.5與AQI其它5項分指標(biāo)之間的散點圖,如圖1-5。
圖1 PM2.5-PM10散點圖
圖2 PM2.5-SO2散點圖
圖3 PM2.5-CO散點圖
圖4 PM2.5-NO2散點圖
圖5 PM2.5-O3散點圖
從圖1-5可以看出除PM2.5-O3的散點圖較為分散,其余均在一定程度上呈現(xiàn)一定的相關(guān)性,因而可以使用多元線性回歸模型。在這里用Y來表示被解釋變量變量PM2.5,用X1、X2、X3、X4和X5分別來表示解釋變量PM10、SO2、CO、NO2和O3,于是各變量的向量形式為:
由此可寫出Y與X之間的多元線性回歸模型的矩陣形式為:
建立多元線性回歸模型,解釋變量的選擇尤其重要,計量經(jīng)濟(jì)學(xué)中一般結(jié)合經(jīng)濟(jì)學(xué)意義選擇解釋變量,在經(jīng)濟(jì)學(xué)意義符合的條件下,還要對模型進(jìn)行變量的顯著性檢驗來確定最終留在模型中的解釋變量。在這里首先利用MATLAB對PM2.5與AQI其它5項分指標(biāo)進(jìn)行回歸分析,得到各回歸系數(shù)的估計值及其對應(yīng)的置信區(qū)間如表1所示。
表1 回歸系數(shù)及其置信區(qū)間
由表1可以看到只有β5的置信區(qū)間包含零,意味著一定的置信區(qū)間內(nèi),β5的估計值可能為0,若在一定的顯著性水平下β5顯著為0,則說明X5對Y的影響不顯著,所以在這里決定要不要保留變量X5,則需要對變量X5做顯著性檢驗。
對某變量Xi做顯著性t檢驗,原假設(shè)與備擇假設(shè)分別為:H0∶βj=0,H1∶βj≠0,對構(gòu)造的t統(tǒng)計量做雙側(cè)檢驗,在原假設(shè)成立的條件下,計算t統(tǒng)計量的雙邊概率p值,再與給定的顯著性水平作對比來決定接受或是拒絕原假設(shè)。
在剔除變量X5之后,再利用MATLAB對Y和剩下的解釋變量X1、X2、X3和X4進(jìn)行回歸。得到的回歸系數(shù)估計值與對應(yīng)的置信區(qū)間如表2所示。
表2 回歸系數(shù)估計值及其置信區(qū)間
由表2可看到回顧系數(shù)估計值的在顯著性水平為95%的置信區(qū)間內(nèi)不包含零點,由置信水平與顯著性水平之間的關(guān)系[4],可知所有的解釋變量均可通過顯著性檢驗,從而不用再給變量做顯著性檢驗,所有變量均可保留在模型中,因而可得多元線性回歸模型:
Y=-13.9628+0.5131X1+0.5391X2+24.948X3-0.349X4
上式是用未經(jīng)標(biāo)準(zhǔn)化的原數(shù)據(jù)進(jìn)行回歸得到的多元線性回歸模型,由于被解釋變量與各個解釋變量的單位量綱均不一樣,因而得到的回歸系數(shù)不能用以比較各個解釋變量對被解釋變量的影響大小。為了比較各個解釋變量的影響大小,對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理后再進(jìn)行回歸,得出標(biāo)準(zhǔn)化后的多元線性回歸模型:
Y=0.709X1+0.167X2+0.365X3-0.154X4
由標(biāo)準(zhǔn)化后的多元線性回歸模型中的各個回歸系數(shù)可以看出,PM10、SO2、CO含量與PM2.5含量之間存在正相關(guān)關(guān)系,NO2含量與PM2.5含量之間存在負(fù)相關(guān)關(guān)系,且由標(biāo)準(zhǔn)化后回歸系數(shù)可知各個解釋變量對被解釋變量的影響大小排序為PM10> CO>SO2>NO2,且調(diào)整后的回歸系數(shù)具體數(shù)值量化了各個解釋變量對被解釋變量的影響大小,從而達(dá)到了定量研究的目的。
4.1 擬合優(yōu)度檢驗
多元線性回歸方程的的擬合優(yōu)度檢驗[3]采用R2檢驗統(tǒng)計量,稱為可決系數(shù),其數(shù)學(xué)定義為:
R2反映了回歸方程所能解釋的部分(回歸平方和)占總離差平方和的比例。由上式可知,R2取值在0~1之間,越接近于1,說明回歸方程對樣本數(shù)據(jù)點的擬合優(yōu)度越高;反之,越接近于0,說明回歸方程對樣本數(shù)據(jù)點擬合優(yōu)度越低。利用上面公式可計算得到模型的R2等于0.844 1,可知擬合優(yōu)度較好。
4.2 回歸方程的顯著性檢驗
多元線性回歸方程顯著性檢驗[3]的原假設(shè)為各個偏回歸系數(shù)與零同時無差異,它意味著當(dāng)偏相關(guān)系數(shù)同時為零時,無論各個xi取值如何變化都不會引起Y的線性變化,所有X無法解釋Y的線性變化,Y與X全體不存在線性關(guān)系。在原假設(shè)成立的條件下,統(tǒng)計量
服從自由度為(p,n-p-1)的F分布。如果概率p值小于給定的顯著性水平a,則應(yīng)拒絕原假設(shè),認(rèn)為偏相關(guān)系數(shù)不同時為零,被解釋變量y與解釋變量x全體的線性關(guān)系顯著,可以用線性模型反映它們之間的關(guān)系;反之,如果概率p值大于給定的顯著性水平,則不應(yīng)拒絕原假設(shè),認(rèn)為偏相關(guān)系數(shù)同時為零,被解釋的變量Y與解釋變量的全體的線性關(guān)系不顯著,用線性模型描述和反映它們之間的關(guān)系是不恰當(dāng)?shù)摹?/p>
利用上述F值計算公式,通過MATLAB計算可得出F值為280.239 2,對應(yīng)計算出的p值為0,在顯著性水平為0.01的情況下拒接原假設(shè)。因而可知模型通過了回歸方程的顯著性檢驗,即被解釋變量Y與解釋變量全體的線性關(guān)系顯著,可以用線性模型反映它們之間的關(guān)系。
4.3 異方差性的檢驗
建立多元線性回歸模型的基本假設(shè)之一是隨機誤差項具有零均值同方差性,若對于不同的樣本點,隨機誤差項不再是常數(shù),而是互不相同,則認(rèn)為出現(xiàn)了異方差性。隨機誤差項存在異方差會引起參數(shù)估計量、變量的顯著性檢驗失去意義等后果,因而我們有必要在這里對隨機誤差項是否存在異方差性進(jìn)行檢驗,隨機誤差項用來近似估計,其中:
圖6 隨機誤差項近似估計量序列
可以證明,在同方差性的假設(shè)下,從該輔助回歸得到的可決系數(shù)R2與樣本容量的乘積漸近地服從自由度為輔助回歸方程中解釋變量個數(shù)的x2分布[3],在這里即為:
4.4 異常值處理
利用MATLAB對殘差及其置信區(qū)間進(jìn)行分析,其異常值情況如圖7所示。
由圖7可知在置信水平為95%的情況下殘差置信區(qū)間不包含殘差真值的樣本量為11,其占樣本總量的5%左右,符合置信水平的概率解釋,也即置信水平為95%是指能保證95%的由樣本計算出的置信區(qū)間,包含估計量真值。圖7中紅線就是指由樣本計算出的置信區(qū)間不包含殘差真值的區(qū)間,對異常值進(jìn)行剔值處理,發(fā)現(xiàn)異常值始終保持在10個左右,且每一次剔值都會減少樣本量,從而剔值處理反而增大了異常值的比例,因而在這里不對異常值進(jìn)行剔值處理,異常值比例較低,不會對模型產(chǎn)生太大的影響。
圖7 置信水平為95%的殘差的置信區(qū)間
本文利用2015年1月1日至7月31日212 d的AQI指數(shù)和AQI六項基本監(jiān)測指標(biāo)數(shù)據(jù)建立了多元線性回歸模型,對PM2.5含量與其它5項分指標(biāo)及其對應(yīng)污染物含量之間的關(guān)系進(jìn)行了定量研究。研究結(jié)果表明AQI其他5項分指標(biāo)除O3外其余的指標(biāo)確實都是影響PM2.5含量的因素,且影響作用最大的是指標(biāo)PM2.5,其次是CO,再其次為SO2,影響作用最小的為NO2,且通過調(diào)整后的回歸系數(shù),具體量化了各個指標(biāo)對PM2.5含量的影響。
另外,經(jīng)過適當(dāng)修改,完全可以應(yīng)用到其他空氣污染物、河流污染物和土壤污染物含量的影響因素的相關(guān)問題中,可以為多元線性回歸模型在環(huán)境領(lǐng)域的應(yīng)用提供了一定的參考。
[1]黃輝軍,劉紅年,蔣維楣,等.南京市PM2·5物理化學(xué)特性及來源解析[J].氣候與環(huán)境研究,2006,11(6):715-716
[2]劉潔,張小玲,徐曉峰,等.北京地區(qū)SO2、NOx、O3和PM2·5變化特征的城郊對比分析[J].環(huán)境科學(xué),2008,29(4):1060-1061
[3]李子奈,潘文卿.計量經(jīng)濟(jì)學(xué)[M].北京:高等教育出版社,2010:73-77.
[4]茆詩松,程依明.概率論與數(shù)理統(tǒng)計教程[M].北京:高等教育出版社,2011:236-240.
[5]覃太貴,尹輝.PM2.5相關(guān)因素及分布演變的研究[J].數(shù)學(xué)的實踐與認(rèn)知,2014,44(15):7-10.
Research on the FactorsAffecting the Content of PM2.5 Based on Multiple Linear Regression Model
ZHANG Yun-yuna,ZHU Jia-minga,Gao Zi-yunb,Gao Yan-wenc
(a.School of Statistics and Apply Math;b.Accounting Institute;c.Management Science and Engineering,Anhui University of Finance and Economics,Bengbu,Auhui 233030,China)
Aiming at the problem about factors affecting the content of PM2.5,Using collected data about January 1, 2015 to July 31,2015 daily AQI index and the six basic monitoring indicators in Bengbu,conducting quantitative research about the relationship between PM2.5 content and other five sub-indicators and their corresponding levels of contaminants by applying multiple iinear regression model,and through the goodness of fit test,F test,t test method to test the model,and finally get accurate and reliable multiple linear regression model,this model has a high degree of fit,simple and intuitive,and other advantages,providing a strong reference for the multiple linear regression model in PM2.5 content analysis.
PM2.5;multiple linear regression model;t test;MATLAB
X511
A
1673-1891(2016)01-0017-04
10.16104/j.issn.1673-1891.2016.01.005
2015-05-27
國家自科基金項目(11301001);安徽財經(jīng)大學(xué)教研項目(acjyyb2014104)。
張云云(1993—),女,安徽六安人,研究方向:應(yīng)用數(shù)學(xué)與數(shù)學(xué)建模。*為通信作者。
西昌學(xué)院學(xué)報(自然科學(xué)版)2016年1期