劉 鋒, 李春燕, 譚祥勇, 王鵬飛
(1.重慶理工大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,重慶400054;2.上海財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與管理學(xué)院, 上海 200433)
基于機(jī)器學(xué)習(xí)在空氣質(zhì)量指數(shù)中的應(yīng)用*
劉 鋒1, 李春燕1, 譚祥勇2, 王鵬飛1
(1.重慶理工大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,重慶400054;2.上海財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與管理學(xué)院, 上海 200433)
利用機(jī)器學(xué)習(xí)和多元線性回歸模型對(duì)西安市近一年的空氣質(zhì)量指數(shù)進(jìn)行了研究, 首先利用隨機(jī)森林思想對(duì)數(shù)據(jù)進(jìn)行了補(bǔ)齊, 然后運(yùn)用交叉驗(yàn)證對(duì)神經(jīng)網(wǎng)絡(luò)模型選取最優(yōu)的隱層節(jié)點(diǎn)數(shù)和訓(xùn)練周期數(shù),最后,通過(guò)比較兩種模型的擬合效果發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)模型在對(duì)空氣質(zhì)量指數(shù)的預(yù)測(cè)效果明顯好于多元線性回歸模型。
神經(jīng)網(wǎng)絡(luò);多元線性回歸模型;空氣質(zhì)量指數(shù)
目前,隨著人類科學(xué)技術(shù)的迅猛發(fā)展,大氣污染狀況日益加劇,空氣質(zhì)量成了人們密切關(guān)注的一個(gè)熱門(mén)話題??諝赓|(zhì)量監(jiān)測(cè)局采用空氣質(zhì)量指數(shù)(Air Quality Index,AQI)對(duì)空氣質(zhì)量進(jìn)行度量,數(shù)值是定量描述空氣質(zhì)量的無(wú)量綱指數(shù),數(shù)值越大說(shuō)明空氣污染狀況越嚴(yán)重??諝赓|(zhì)量指數(shù)的分項(xiàng)監(jiān)測(cè)指標(biāo)為SO2,NO2、可吸入顆粒物、細(xì)粒顆粒物PM2.5、O3和CO,其中的罪魁禍?zhǔn)拙褪荘M2.5,此物質(zhì)粒徑小,面積大,活性強(qiáng),易附帶有毒、有害物質(zhì),且在大氣中的停留時(shí)間長(zhǎng)、輸送距離遠(yuǎn),對(duì)人體健康有非常嚴(yán)重的影響。有研究認(rèn)為,AQI監(jiān)測(cè)指標(biāo)中的SO2,NO2、CO等是在一定環(huán)境條件下形成的PM2.5的主要?dú)鈶B(tài)物體。因此,通過(guò)其他幾個(gè)指標(biāo)來(lái)對(duì)PM2.5指標(biāo)進(jìn)行預(yù)測(cè)是可行的。出于對(duì)人們健康的考慮,對(duì)PM2.5指標(biāo)的預(yù)測(cè)具有相當(dāng)重要的意義。
關(guān)于空氣質(zhì)量指數(shù)方面已有很多學(xué)者[1-2]分別采用不同的模型對(duì)其進(jìn)行了研究?,F(xiàn)研究是基于神經(jīng)網(wǎng)絡(luò)模型中應(yīng)用最為廣泛的BP神經(jīng)網(wǎng)絡(luò)模型,以西安市2015-08-17—2016-08-16共364 d的日全市平均空氣質(zhì)量指數(shù)為研究對(duì)象。通過(guò)多元線性回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型分別對(duì)數(shù)據(jù)進(jìn)行研究,最終對(duì)兩模型的預(yù)測(cè)結(jié)果進(jìn)行擬合,對(duì)比發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)效果明顯優(yōu)于多元線性回歸模型。
1.1 神經(jīng)網(wǎng)絡(luò)
在人工神經(jīng)網(wǎng)絡(luò)中,多層感知器是運(yùn)用最為廣泛的模型,關(guān)于神經(jīng)網(wǎng)絡(luò)的研究可見(jiàn)文獻(xiàn)[3-5]。一個(gè)典型的神經(jīng)網(wǎng)絡(luò)模型由3部分組成:輸入層、隱藏層和輸出層。對(duì)于一個(gè)具有r個(gè)輸入變量,t個(gè)隱節(jié)點(diǎn),s個(gè)輸出節(jié)點(diǎn)的單一隱藏層神經(jīng)網(wǎng)絡(luò)模型,αs和βs分別代表對(duì)應(yīng)節(jié)點(diǎn)之間的權(quán)值,f和g分別表示隱節(jié)點(diǎn)和輸出節(jié)點(diǎn)的激活函數(shù)。用X=(X1,X2,...,Xr)T表示輸入節(jié)點(diǎn)向量,Y=(Y1,Y2,...,Yr)T表示輸出節(jié)點(diǎn)向量,Z=(Z1,Z2,...,ZT)T表示隱節(jié)點(diǎn)向量。記Uj=β0j+XTβj,Vk=α0k+ZTαk。則,
Zj=fj(Uj),j=1,2,…,t
μk(X)=gk(Vk),k=1,2,…s
其中,βmj表示輸入節(jié)點(diǎn)Xm與隱節(jié)點(diǎn)Zj之間的權(quán)值,β0j表示對(duì)于隱節(jié)點(diǎn)的偏差;αjk表示隱節(jié)點(diǎn)Zj與輸出節(jié)點(diǎn)YK之間的權(quán)值,α0k表示對(duì)于輸出節(jié)點(diǎn)的偏差。βj=(β1j,β2j,...,βrj)T,αk=(α1k,α2k,...,αtk)T。因此,第k個(gè)輸出節(jié)點(diǎn)如下:
其中,
通常通過(guò)極小化誤差平方和ESS來(lái)確定節(jié)點(diǎn)之間的最優(yōu)權(quán)值:
對(duì)于BP神經(jīng)網(wǎng)絡(luò)模型,模型的主要特點(diǎn)是:包含隱層,反向傳播,激活函數(shù)采用(0,1)型Sigmoid函數(shù)。通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,尋找出使該模型達(dá)到最好效果的隱層節(jié)點(diǎn)數(shù)和最優(yōu)迭代次數(shù)。此過(guò)程是一個(gè)不斷向樣本學(xué)習(xí)的過(guò)程,因?yàn)槊總€(gè)樣本都會(huì)提供關(guān)于輸入輸出變量數(shù)量關(guān)系的信息,因此需要依次向每個(gè)觀測(cè)學(xué)習(xí)。如果所有觀測(cè)學(xué)習(xí)結(jié)束后,模型給出的預(yù)測(cè)誤差仍然較大,則需進(jìn)行新一輪學(xué)習(xí),直到滿足學(xué)習(xí)終止條件為止。
1.2 隨機(jī)森林
隨機(jī)森林[6]是一種很新的機(jī)器學(xué)習(xí)模型,其具有自身獨(dú)特之處并且能夠達(dá)到很好的分類效果。在20世紀(jì)80年代,Breiman等人就發(fā)明了分類樹(shù)算法。直到2001年,Breiman等把分類樹(shù)組合成隨機(jī)森林。其算法的實(shí)質(zhì)是基于決策樹(shù)的分類器算法。通過(guò)自助法(Boot-Strap)重采樣技術(shù)[7],從原始訓(xùn)練樣本集N中有放回地重復(fù)隨機(jī)抽取k個(gè)樣本生成新的訓(xùn)練樣本集,然后根據(jù)自助樣本集生成k個(gè)決策樹(shù)組成的隨機(jī)森林,新數(shù)據(jù)的分類結(jié)果按決策投票多少形成的分?jǐn)?shù)而定。其實(shí)就是對(duì)決策樹(shù)算法的一個(gè)改進(jìn),將多個(gè)決策樹(shù)合并在一起。單棵決策樹(shù)的分類能力畢竟有限,在隨機(jī)產(chǎn)生大量決策樹(shù)后,分類能力會(huì)有很大的提高。這樣就可以通過(guò)綜合每一棵樹(shù)的分類結(jié)果后對(duì)測(cè)試樣本選擇最可能的分類,因而達(dá)到較好的分類效果。
研究對(duì)象是西安市2015-08-17—2016-08-16共364 d的日全市平均的空氣質(zhì)量指數(shù),數(shù)據(jù)來(lái)源于http://www.xianemc.gov.cn/sxmpcp_qt.asp?ld=%D6%CA%C1%BF%C8%D5%B1%A8。
把數(shù)據(jù)分為測(cè)試集(2016-07-12至2016-08月16共有34組數(shù)據(jù))和訓(xùn)練集(剩下的330組數(shù)據(jù))兩部分。運(yùn)用訓(xùn)練集建立模型,測(cè)試集評(píng)判模型。表1列出了觀測(cè)數(shù)據(jù)的連續(xù)某幾天的指標(biāo)值。
從表1中可以很明顯地看出統(tǒng)計(jì)的數(shù)據(jù)中有缺失值的存在,這是數(shù)據(jù)中常會(huì)出現(xiàn)的問(wèn)題,缺失數(shù)據(jù)的存在會(huì)對(duì)分析工作的進(jìn)行造成很大影響。但數(shù)據(jù)的使用者和分析者往往缺乏處理缺失值方面的知識(shí),僅僅對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的刪除或插補(bǔ)會(huì)影響數(shù)據(jù)規(guī)模和數(shù)據(jù)結(jié)構(gòu),進(jìn)而影響分析結(jié)果。
表1 西安市日平均空氣質(zhì)量指數(shù)
2.1 缺失值補(bǔ)全
要確保分析結(jié)果的可信度,必須對(duì)缺失值補(bǔ)全,常見(jiàn)的缺失值補(bǔ)全方法有個(gè)案剔除法、均值替換法、熱卡填充法、回歸替換法、多重替代法等。采用R語(yǔ)言中的MissForest函數(shù)對(duì)缺失值進(jìn)行補(bǔ)齊,函數(shù)是通過(guò)隨機(jī)森林的相關(guān)理論來(lái)實(shí)現(xiàn)的,它可以適用于離散、連續(xù)類型的數(shù)據(jù),達(dá)到的效果很好,
2.2 數(shù)據(jù)歸一化
在神經(jīng)網(wǎng)絡(luò)模型中,輸入變量的取值范圍通常要求為0~1,其目的是取消各維度數(shù)據(jù)間數(shù)量級(jí)的差別,避免輸入變量的不同數(shù)量級(jí)直接影響權(quán)值的確定、加法器的計(jì)算結(jié)果以及最終的預(yù)測(cè)結(jié)果,造成網(wǎng)絡(luò)預(yù)測(cè)誤差較大。在對(duì)缺失值補(bǔ)全后,再對(duì)數(shù)據(jù)進(jìn)行歸一化處理,采用極差法對(duì)數(shù)據(jù)進(jìn)行歸一,即
其中,xmax和xmin分別為向量x的最大值和最小值。
分別運(yùn)用了多元線性回歸和BP神經(jīng)網(wǎng)絡(luò)兩個(gè)模型進(jìn)行研究。
3.1 BP神經(jīng)網(wǎng)絡(luò)模型
研究是基于BP反向傳播模型,模型為多層感知機(jī)結(jié)構(gòu),其中不僅包含輸入和輸出節(jié)點(diǎn),而且還有一層或多層隱層。首先必須確定出該模型的結(jié)構(gòu),即隱藏層數(shù)和隱節(jié)點(diǎn)個(gè)數(shù)。然而,在對(duì)于隱藏層數(shù)這個(gè)問(wèn)題上據(jù)實(shí)驗(yàn)表明:選擇一個(gè)隱層的網(wǎng)絡(luò)是最合適的。因此,只需要選取一個(gè)合適的隱節(jié)點(diǎn)數(shù)。采用10折交叉驗(yàn)證(10-fold cross validation)選取合適的隱節(jié)點(diǎn)數(shù),在隱節(jié)點(diǎn)數(shù)確定的基礎(chǔ)上再次使用10折交叉驗(yàn)證確定出訓(xùn)練周期。
3.1.1 交叉驗(yàn)證
用交叉驗(yàn)證的目的是為了得到一個(gè)可靠穩(wěn)定的模型,目的是要使預(yù)測(cè)誤差達(dá)到最小。運(yùn)用10折交叉驗(yàn)證將數(shù)據(jù)集分成10份,輪流將其中9份做訓(xùn)練,1份做測(cè)試。最終通過(guò)NRESS值來(lái)選取出最優(yōu)節(jié)點(diǎn)數(shù)和訓(xùn)練周期,通過(guò)選取使值達(dá)到最小或值不再變小的參數(shù)來(lái)作為最優(yōu)節(jié)點(diǎn)數(shù)和訓(xùn)練周期。NRESS值表達(dá)式如下:
3.1.2 選取節(jié)點(diǎn)數(shù)與訓(xùn)練周期
一個(gè)合適的隱節(jié)點(diǎn)數(shù)與訓(xùn)練周期對(duì)于一個(gè)神經(jīng)網(wǎng)絡(luò)模型起著相當(dāng)重要的作用,隱節(jié)點(diǎn)數(shù)與訓(xùn)練周期過(guò)多都可能會(huì)導(dǎo)致過(guò)擬合問(wèn)題。在先確定出隱節(jié)點(diǎn)數(shù)的基礎(chǔ)上再確定出訓(xùn)練周期。
由圖1可知隱節(jié)點(diǎn)數(shù)為6個(gè),由圖2可知練周期確定為800。最終,確定了神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu),即含有一個(gè)隱藏層,隱藏層節(jié)點(diǎn)數(shù)為6個(gè),訓(xùn)練周期為800。具體神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可見(jiàn)圖3。
圖1 隱藏層節(jié)點(diǎn)數(shù)Fig.1 Number of hidden layer nodes
圖2 訓(xùn)練周期Fig.2 Training period
圖3 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Structure of neural network
3.2 多元線性回歸模型
PM2.5為響應(yīng)變量Y,自變量SO2,NO2、可吸入顆粒物、O3和CO分別對(duì)應(yīng)為X1,X2,…,X5,通過(guò)R軟件計(jì)算可得
0.78X3+0.32X4+0.98X5
最后對(duì)模型做測(cè)試時(shí)需把數(shù)據(jù)還原,在此基礎(chǔ)上分別運(yùn)用多元線性模型和神經(jīng)網(wǎng)絡(luò)模型對(duì)PM2.5的值進(jìn)行預(yù)測(cè)。圖4展示了神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)值與真實(shí)值的擬合:在圖4中可以清楚看出,神經(jīng)網(wǎng)絡(luò)模型的擬合效果能夠很接近真實(shí)值。
圖4 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)值與真實(shí)值對(duì)比Fig.4 Comparison of the predictive value and the real value of the neural network
表2列出了2016-07-12—2016-08-14的32組PM2.5的真實(shí)值,分別運(yùn)用神經(jīng)網(wǎng)絡(luò)模型和多元線性回歸模型做出的預(yù)測(cè)與真實(shí)值之間的比較:
表2 兩模型預(yù)測(cè)值與實(shí)際值對(duì)比 單位:ug/m3
從表2中可以看出神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)比多元線性回歸模型值更接近真實(shí)值。最后分別計(jì)算出兩種模型的殘差平方和:多元線性模型殘差平方和NRSS1=5 578.06,神經(jīng)網(wǎng)絡(luò)模型殘差平方和NRSS2=1 972.99。通過(guò)綜合分析,神經(jīng)網(wǎng)絡(luò)模型的擬合效果比多元線性回歸模型要好。
通過(guò)統(tǒng)計(jì)分析對(duì)PM2.5的值進(jìn)行預(yù)測(cè),分別運(yùn)用了神經(jīng)網(wǎng)絡(luò)模型和多元線性回歸模型。在對(duì)神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)確定中,運(yùn)用了10折交叉驗(yàn)證選取隱層節(jié)點(diǎn)數(shù),在此基礎(chǔ)上選取出最優(yōu)的訓(xùn)練周期并運(yùn)用建立好的神經(jīng)網(wǎng)模型和多元線性回歸模型分別對(duì)數(shù)據(jù)進(jìn)行擬合。最后通過(guò)對(duì)兩種模型進(jìn)行比較,結(jié)果顯示神經(jīng)網(wǎng)絡(luò)模型在對(duì)PM2.5濃度進(jìn)行預(yù)測(cè)的效果遠(yuǎn)遠(yuǎn)優(yōu)于多元線性回歸模型。
[1] 劉鋒,銀利,張星.部分線性模型在空氣質(zhì)量指數(shù)細(xì)顆粒物PM2.5中的分析應(yīng)用[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2014,44(9):130-134
LIU F,YIN L,ZHANG X.Analysis and Application of Partially Linear Model in the Air Quality Index of Fine Particles in PM2.5[J].Mathematics in Practice and Theory,2014,44(9):130-134
[2] 姜新華,薛河儒,張存厚,等.基于主成分分析的呼和浩特市空氣質(zhì)量影響因素研究[J].安全與環(huán)境工程,2016,23(1):75-79
JIANG X H,XUE H R,ZHANG C H,et al.Research on the Influencing Factors of Air Quality in Hohhot City Based on Principal Component Analysis[J].Safety and Environmental Engineering,2016,23(1):75-79
[3] 石慶喜,華杰.基于神經(jīng)網(wǎng)絡(luò)BP算法的市場(chǎng)預(yù)測(cè)研究[J].重慶工商大學(xué)學(xué)報(bào)(自然科學(xué)版),2004,21(1):69-71
SHI Q X,HUA J.Research on Market Fore-cast Based on Neural Networks Bp Algo-rithms[J].Journed of Technology and Business University(Natural Science Edition),2004,21(1):69-71
[4] 沈路路,王聿絢,段雷.神經(jīng)網(wǎng)絡(luò)模型在O_3濃度預(yù)測(cè)中的應(yīng)用[J].環(huán)境科學(xué),2011,32(8):2231-2235
SHEN L L,WANG Y X,DUAN L.Application of Artificial Neural Networks on the Prediction of Surface Ozone Concentra-tions[J].Environmental Science,2011,32(8):2231-2235
[5] 許興軍,顏鋼鋒.基于BP神經(jīng)網(wǎng)絡(luò)的股價(jià)趨勢(shì)分析[J].浙江金融,2011(11):57-59
XU X J,YAN G F.Stock Price Trend Analys-is Based on BP Neural Network[J].Zhe-jiang Finance,2011(11):57-59[6] 方匡南,吳見(jiàn)彬,朱建平,等.隨機(jī)森林方法研究綜述[J].統(tǒng)計(jì)與信息論壇,2011,26(3):32-38
FANG K N,WU J B,ZHU J P,et al.A Revi-ew of Technologies on Random Forests[J].Statistics&Information Forum,2011,26(3):32-38
[7] 畢華,梁洪力,王玨.重采樣方法與機(jī)器學(xué)習(xí)[J].計(jì)算機(jī)學(xué)報(bào),2009,32(5):862-877
BI H,LIANG H L,WANG J.Resampling Me-thods and Machine Learning[J].Chinese Journal of Computers,2009,32(5):862-877
[8] 黃文,王正林.數(shù)據(jù)挖掘:R語(yǔ)言實(shí)戰(zhàn)[M].北京:電子工業(yè)出版社,2014
HUANG W,WANG Z L.Data Mining:Rin Act-ion[M].Beijing:Electronic Industry Publishing House,2014
責(zé)任編輯:田 靜
Application of Machine Learning to Air Quality Index
LIU Feng1, LI Chun-yan1, TAN Xiang-yong2, WANG Peng-fei1
(1. School of Mathematics and Statistics, Chongqing University of Technology, Chongqing 400054, China; 2. School of Statistics and Management, Shanghai University of Finance and Economics, Shanghai 200433, China)
This paper uses machine learning and multivariate linear regression model to study air quality index of Xian City in nearly one year, firstly uses random forest philosophy to complete the data, then uses cross-validation on the neural network model to select the optimal number of hidden layer nodes and iterations, and finally by comparing the fitting effect of the two models, finds that neural network model is significantly better than multivariate linear regression model for the prediction effect of air quality index.
neural network; multivariate linear regression model; air quality index
10.16055/j.issn.1672-058X.2017.0003.015
2016-09-12;
2016-10-18. * 基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目資助(11471060).
劉鋒(1973-),男,湖北新化人,博士,副教授,從事非參數(shù)統(tǒng)計(jì)研究.
O141.4
A
1672-058X(2017)03-0082-06