南方醫(yī)科大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計(jì)學(xué)系(510515) 尹安琪 林愿儀 林偉俊 歐春泉
基于PSO-BP神經(jīng)網(wǎng)絡(luò)預(yù)測廣州市日均PM10濃度*
南方醫(yī)科大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計(jì)學(xué)系(510515) 尹安琪 林愿儀 林偉俊 歐春泉△
目的應(yīng)用多元線性回歸模型和PSO-BP神經(jīng)網(wǎng)絡(luò)模型對(duì)廣州市日均PM10濃度進(jìn)行提前一天的預(yù)測,比較兩種模型的預(yù)測效果,為環(huán)境管理決策提供依據(jù)。方法利用廣州市2008年1月1日至2011年11月30日的PM10濃度和氣象資料分別構(gòu)建兩種模型,并使用2011年12月1日至12月31日的數(shù)據(jù)檢驗(yàn)兩模型的預(yù)測效果。結(jié)果前一天的PM10、極大風(fēng)速、最小相對(duì)濕度、日平均氣溫、能見度為預(yù)測第二天PM10濃度的5個(gè)主要影響因素,其中前一天的PM10濃度與預(yù)測的PM10濃度相關(guān)性最高(0.66)。PSO-BP神經(jīng)網(wǎng)絡(luò)模型的決定系數(shù)(R2)為0.80,相比于多元線性回歸模型,其均方根誤差(RMSE)降低6.20%,平均絕對(duì)誤差(MAE)降低8.73%,平均絕對(duì)百分比誤差(MAPE)降低13.33%,平均絕對(duì)偏差百分比(PMAD)降低8.67%。結(jié)論P(yáng)SO-BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測效果優(yōu)于多元線性回歸模型,能有效模擬、預(yù)測未來一日的PM10濃度,可為大氣顆粒物濃度預(yù)測提供一定的方法學(xué)參考。
多元線性回歸 PSO-BP神經(jīng)網(wǎng)絡(luò) PM10氣象因素 預(yù)測
世界衛(wèi)生組織最新估計(jì)數(shù)據(jù)顯示:每年有700萬例的過早死亡與大氣污染有關(guān)。大氣中懸浮顆粒物(particulate matter,PM)濃度的升高可導(dǎo)致人體肺功能的降低以及心肺疾病發(fā)病和死亡風(fēng)險(xiǎn)的上升[1-3]。直徑小于或等于10μm的顆粒物(PM10)是影響人群健康的主要顆粒污染物。及時(shí)、準(zhǔn)確地預(yù)測PM10濃度,有利于大眾采取積極的應(yīng)對(duì)措施以降低對(duì)健康的影響。目前,國內(nèi)許多學(xué)者開始研究城市大氣污染物濃度預(yù)測模型。吳嘉榮[4]通過建立線性回歸模型對(duì)福建泉州的PM10濃度進(jìn)行了簡單預(yù)測,但未進(jìn)行預(yù)測效果評(píng)價(jià)。李祚泳等[5]率先將神經(jīng)網(wǎng)絡(luò)應(yīng)用于大氣污染預(yù)測的探索性研究,預(yù)測了SO2的濃度,并指出BP網(wǎng)絡(luò)的預(yù)測精度優(yōu)于模糊識(shí)別模型的預(yù)測精度。石靈芝等[6]基于BP人工神經(jīng)網(wǎng)絡(luò)對(duì)長沙市PM10每小時(shí)濃度進(jìn)行預(yù)測,但預(yù)測時(shí)間較短(2008年1月5日至2008年1月9日,共五天),整體R2為0.62。國內(nèi)現(xiàn)有文獻(xiàn)普遍采用當(dāng)天的氣象數(shù)據(jù)預(yù)測當(dāng)天的PM10濃度,而當(dāng)天的氣象數(shù)據(jù)作為預(yù)報(bào)指標(biāo)本身也存在準(zhǔn)確性的問題,勢必影響PM10濃度的預(yù)測效果;其次,不同模型的預(yù)測效果尚有待比較,尤其是復(fù)雜的神經(jīng)網(wǎng)絡(luò)方法是否優(yōu)于傳統(tǒng)的多元線性模型有必要予以探討。
廣州市作為珠江三角洲重點(diǎn)經(jīng)濟(jì)發(fā)展城市,尚未深入開展有關(guān)顆粒物預(yù)測的研究。本研究基于廣州市2008年1月1日至2011年11月30日PM10濃度和氣象數(shù)據(jù),建立傳統(tǒng)的多元線性回歸模型以及PSO-BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測PM10濃度,并對(duì)兩模型預(yù)測效果進(jìn)行比較,可為環(huán)境管理決策提供依據(jù),同時(shí)也可為其他地區(qū)的同類研究提供方法學(xué)上的借鑒。
1.資料來源
從廣州市環(huán)境保護(hù)局官網(wǎng)獲得2008-2011年廣州市9個(gè)監(jiān)測站點(diǎn)的日均PM10濃度數(shù)據(jù)。從中國氣象科學(xué)數(shù)據(jù)共享服務(wù)網(wǎng)獲得廣州市2008年-2011年氣象因素?cái)?shù)據(jù);從Weather Underground網(wǎng)站獲得2008-2011年能見度數(shù)據(jù)。
2.方法原理
經(jīng)過逐步回歸方法篩選出與預(yù)測日期相對(duì)應(yīng)的前一天氣象因素等變量:PM10(PM10t-1)、極大風(fēng)速(JDFSt-1)、最小相對(duì)濕度(M inRHt-1)、日平均氣溫(Tempt-1)、能見度(Seet-1)等5個(gè)主要預(yù)測變量來預(yù)測當(dāng)日PM10(PM10t)濃度。利用2008年1月1日至2011年11月30日的PM10濃度和氣象資料分別構(gòu)建以下兩種模型,并用2011年12月1日至12月31日的數(shù)據(jù)檢驗(yàn)兩模型的預(yù)測效果。
(1)多元線性回歸模型
多元線性回歸模型是探討一個(gè)變量和多個(gè)變量之間關(guān)系的常用方法,主要以多個(gè)自變量的最優(yōu)組合共同預(yù)測或估計(jì)因變量,其在環(huán)境大氣污染研究中也常被使用。多元線性回歸模型的主要形式如下:
其中,Y是因變量(預(yù)測變量),β0是常數(shù),β1,β2,…,βp是自變量X1,X2……Xp的回歸系數(shù),ε是殘差(觀測值與預(yù)測值的差值)?;貧w系數(shù)β0,β1,β2,…,βp常用最小二乘法求得[7-8]。
(2)PSO-BP神經(jīng)網(wǎng)絡(luò)模型
BP神經(jīng)網(wǎng)絡(luò)屬于多層感知器(multi-layer perceptions,MLP)的一種,能夠解決預(yù)測中的線性不可分問題。多層感知器除了輸入層和輸出層外,還具有若干隱含層。上下層之間實(shí)現(xiàn)全連接,而每層單元之間無連接。大部分情況下多層感知器采用誤差反向傳播(back propagation)的算法進(jìn)行權(quán)值調(diào)整,即當(dāng)一學(xué)習(xí)樣本提供給網(wǎng)絡(luò)之后,神經(jīng)元的激活值從輸入層經(jīng)中間層向輸出層傳播,在輸出層的各個(gè)神經(jīng)元獲得網(wǎng)絡(luò)的輸入響應(yīng)。隨后,按照減小目標(biāo)輸出與實(shí)際誤差的方向,從輸出層經(jīng)過中間層逐層修正各層的連接權(quán)值,最后回到輸入層。
粒子群優(yōu)化算法(PSO)是一種實(shí)現(xiàn)簡單、全局搜索能力強(qiáng)且性能優(yōu)越的啟發(fā)式搜索技術(shù)。在PSO算法中,每個(gè)粒子都代表極值優(yōu)化問題的一個(gè)潛在最優(yōu)解,用位置、速度和適應(yīng)度值三項(xiàng)指標(biāo)表示該粒子的特征,適應(yīng)度值由適應(yīng)度函數(shù)計(jì)算得到,其值的好壞表示粒子的優(yōu)劣。粒子在解空間中運(yùn)動(dòng),通過跟蹤個(gè)體極值Pbest和群體極值Gbest更新個(gè)體位置,個(gè)體極值Pbest是指個(gè)體所經(jīng)歷位置中計(jì)算得到的適應(yīng)度值最優(yōu)位置,群體極值是指種群中的所有粒子搜索到的適應(yīng)度最優(yōu)位置。粒子每更新一次位置,就計(jì)算一次適應(yīng)度值,并且通過比較新粒子的適應(yīng)度值和個(gè)體極值、群體極值的適應(yīng)度值更新個(gè)體極值Pbest和群體極值Gbest。
PSO-BP神經(jīng)網(wǎng)絡(luò)模型可優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值,避免BP神經(jīng)網(wǎng)絡(luò)陷入局部極小值和增加其泛化性能,提高預(yù)測精度。PSO的適應(yīng)度函數(shù)為神經(jīng)網(wǎng)絡(luò)的輸出誤差,公式為:
其中,ni為訓(xùn)練樣本的個(gè)數(shù),Oiq、Tiq分別為訓(xùn)練樣本q在第i粒子的位置所確定的網(wǎng)絡(luò)權(quán)值和閾值下的網(wǎng)絡(luò)實(shí)際輸出和期望輸出[9]。
PSO-BP神經(jīng)網(wǎng)絡(luò)算法的具體步驟為:
①初始化BP神經(jīng)網(wǎng)絡(luò)和粒子群
根據(jù)樣本數(shù)據(jù)設(shè)計(jì)BP網(wǎng)絡(luò)的輸入、輸出和隱含層神經(jīng)元數(shù)目、學(xué)習(xí)函數(shù)及訓(xùn)練函數(shù);根據(jù)粒子群的規(guī)模,按照個(gè)體結(jié)構(gòu)產(chǎn)生一定數(shù)目的粒子群,其中不同的個(gè)體代表神經(jīng)網(wǎng)絡(luò)的1組不同的權(quán)值。同時(shí),初始化粒子的速度、位置、個(gè)體歷史最優(yōu)pi、全局最優(yōu)pg、迭代誤差精度和最大迭代次數(shù)等[10]。
②迭代與更新
更新粒子的速度和位置,并計(jì)算粒子的適應(yīng)值。判斷當(dāng)前迭代次數(shù)是否大于最大迭代次數(shù)或當(dāng)前最優(yōu)適應(yīng)值是否小于設(shè)定精度,若滿足條件,則輸出全局最優(yōu)粒子位置及BP網(wǎng)絡(luò)的權(quán)值和閾值。
③訓(xùn)練BP網(wǎng)絡(luò)
根據(jù)輸出的BP網(wǎng)絡(luò)權(quán)值和閾值訓(xùn)練BP神經(jīng)網(wǎng)絡(luò),并運(yùn)用測試樣本進(jìn)行檢驗(yàn),PSO-BP神經(jīng)網(wǎng)絡(luò)完成。
(3)模型評(píng)價(jià)指標(biāo)
采用以下指標(biāo)評(píng)價(jià)模型的預(yù)測準(zhǔn)確性:均方根誤(RMSE),平均絕對(duì)誤差(MAE),平均絕對(duì)百分比誤差(即相對(duì)誤差,MAPE),平均絕對(duì)偏差百分比(PMAD)和決定系數(shù)(R2)[11]。
(4)數(shù)據(jù)預(yù)處理
2008-2011年,日均PM10數(shù)據(jù)有17個(gè)缺失值(占PM10數(shù)據(jù)的1.16%),能見度數(shù)據(jù)有12個(gè)缺失值(0.82%),對(duì)缺失數(shù)據(jù)采用線性插值方法填補(bǔ),得到R2相差0.05以內(nèi),為保證時(shí)間序列的連續(xù)性,本文對(duì)缺失值進(jìn)行填補(bǔ)。為了解極端值對(duì)模型的影響,本文將極端值定義為±3SD,其中,本研究PM10數(shù)據(jù)有22個(gè)極大值,12個(gè)均出現(xiàn)在冬季。廣州市屬于亞熱帶海洋性季風(fēng)氣候,冬季來自北方大陸的冷風(fēng)形成低溫、干燥、少雨的氣候,且冬季大氣層結(jié)穩(wěn)定,較易出現(xiàn)逆溫,冬季氣候和逆溫層的出現(xiàn)會(huì)直接影響污染物的擴(kuò)散,容易導(dǎo)致污染物濃度急劇上升。此外,冬季工業(yè)排放、汽車尾氣排放等產(chǎn)生的大氣顆粒物不能及時(shí)擴(kuò)散,使PM10濃度大大增加,達(dá)到最大值。在剔除22個(gè)極端值后,模型R2僅降低0.01。為保留數(shù)據(jù)的原有特征,本文的最終分析并未剔除極端值。
(5)統(tǒng)計(jì)軟件
利用SPSS 20.0軟件構(gòu)建多元線性回歸模型,利用Matlab 2014a軟件實(shí)現(xiàn)PSO-BP神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建。
1.日均PM10濃度的季節(jié)性特征
2008年到2011年廣州市年均PM10濃度見圖1。四年間PM10濃度一直維持在70μg/m3左右的較高水平,2009年的PM10濃度的最大值甚至達(dá)到284.70 μg/m3。PM10濃度呈現(xiàn)冬春季高,夏秋季低的季節(jié)特征。
圖1 2008-2011年日均PM10濃度時(shí)序圖
2.模型的構(gòu)建
(1)多元線性回歸模型
運(yùn)用最小二乘法對(duì)多元線性回歸模型的參數(shù)進(jìn)行估計(jì),結(jié)果見表1。
表1 多元線性回歸模型參數(shù)估計(jì)值
表中可見各參數(shù)均有統(tǒng)計(jì)學(xué)意義,構(gòu)建的PM10濃度預(yù)測的多元線性回歸模型為:
(2)PSO-BP神經(jīng)網(wǎng)絡(luò)模型
根據(jù)所設(shè)定的參數(shù),將相同的5個(gè)主要影響因素作為BP神經(jīng)網(wǎng)絡(luò)的輸入層節(jié)點(diǎn),對(duì)數(shù)據(jù)進(jìn)行歸一化處理,相應(yīng)地,對(duì)訓(xùn)練后輸出數(shù)據(jù)進(jìn)行反歸一化處理。通過訓(xùn)練,最終構(gòu)建了PSO-BP預(yù)測模型,并對(duì)31天(2011年12月)的日均PM10濃度進(jìn)行預(yù)測。
3.兩個(gè)模型預(yù)測效果的評(píng)估和比較
兩個(gè)模型對(duì)2011年12月日均PM10濃度的預(yù)測值與實(shí)際觀測值的數(shù)據(jù)結(jié)果如表2所示。
表2 兩種模型的預(yù)測結(jié)果比較
根據(jù)表2我們對(duì)兩模型作圖比較(圖2)。
圖2 兩模型的預(yù)測值與觀測值比較
兩模型的預(yù)測效果的具體評(píng)價(jià)指標(biāo)如表3所示,與多元線性回歸模型相比,PSO-BP神經(jīng)網(wǎng)絡(luò)模型的RMSE、MAE、MAPE、PMAD均更小,決定系數(shù)更大。其中,PSO-BP神經(jīng)網(wǎng)絡(luò)模型的平均絕對(duì)百分比誤差為16.9%,R2達(dá)到0.80,可認(rèn)為此模型對(duì)廣州市日均PM10的預(yù)測效果較好,擬合效果與實(shí)際數(shù)據(jù)的誤差較小。由圖2可以看出,PSO-BP神經(jīng)網(wǎng)絡(luò)對(duì)于波峰和波谷的擬合尤為精確。
表3 模型預(yù)測效果比較
近些年來,國內(nèi)大氣顆粒物污染問題非常嚴(yán)峻,導(dǎo)致城市霧霾頻繁出現(xiàn)。目前,國內(nèi)對(duì)于大氣質(zhì)量預(yù)報(bào)范圍過大不夠精準(zhǔn),只將我國簡單劃分為京津冀、長三角、珠三角等區(qū)域,且大都僅限于用當(dāng)天的氣象數(shù)據(jù)預(yù)測當(dāng)天的顆粒物濃度,預(yù)測效果欠佳。
廣州市作為珠江三角洲重點(diǎn)經(jīng)濟(jì)發(fā)展城市,按照WHO日均PM10濃度標(biāo)準(zhǔn)計(jì)算,廣州市2008年至2011年,PM10濃度超標(biāo)率均大于60%,2009年日均PM10濃度最高甚至達(dá)到284.7μg/m3,超過WHO標(biāo)準(zhǔn)的四倍多。但目前廣州尚未深入開展有關(guān)顆粒物預(yù)測的研究。
本研究提出了構(gòu)建BP算法和PSO算法結(jié)合的模型對(duì)廣州市日均PM10濃度進(jìn)行提前一天的預(yù)測,發(fā)現(xiàn)PSO-BP神經(jīng)網(wǎng)絡(luò)模型較普通多元線性回歸模型有更好的預(yù)測效果。多元線性回歸模型只能解決線性可分問題,而BP神經(jīng)網(wǎng)絡(luò)模型能夠解決預(yù)測中的線性不可分問題,但其學(xué)習(xí)效率低、收斂速度慢,易陷入局部極小值,在應(yīng)用中網(wǎng)絡(luò)結(jié)構(gòu)的確定基本依賴經(jīng)驗(yàn),主要是采用遞增或遞減的試探方法來確定網(wǎng)絡(luò)的隱節(jié)點(diǎn),這些缺陷使得神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本和測試樣本的輸出具有不一致性和不可預(yù)測性,極大地限制了神經(jīng)網(wǎng)絡(luò)在實(shí)際預(yù)報(bào)中的應(yīng)用[12]。本文將PSO優(yōu)化算法與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,是在BP網(wǎng)絡(luò)算法誤差反向傳播進(jìn)行權(quán)值調(diào)整的基礎(chǔ)上,引入PSO算法對(duì)權(quán)值進(jìn)行修正。此混合算法有效結(jié)合了兩者的優(yōu)點(diǎn),彌補(bǔ)了各自的不足。在基于PSO算法的BP網(wǎng)絡(luò)的權(quán)值修正過程中,BP網(wǎng)絡(luò)的權(quán)值作為PSO算法的粒子速度,根據(jù)適應(yīng)度函數(shù)得到適應(yīng)度值,根據(jù)適應(yīng)度值找個(gè)體極值和群體極值,然后更新粒子速度和位置,輸出BP網(wǎng)絡(luò)的權(quán)值和閾值,從而達(dá)到訓(xùn)練神經(jīng)網(wǎng)絡(luò)的目的,此過程增加了模型的泛化性能,提高了預(yù)測精度。
本研究發(fā)現(xiàn)PM10濃度存在自相關(guān),前一日的PM10濃度對(duì)預(yù)測當(dāng)日的PM10濃度有較強(qiáng)的影響。前一日的氣象因素對(duì)于PM10有滯后影響,風(fēng)速越大,越利于PM10的稀釋與擴(kuò)散;濕度高,利于PM10凝結(jié)沉淀;溫度高,大氣對(duì)流作用強(qiáng),利于PM10稀釋擴(kuò)散;PM10濃度越高,能見度越低。本研究利用了氣象因素的滯后性和PM10濃度的自相關(guān)性,建立了適合廣州市的PM10預(yù)測模型,對(duì)日均PM10濃度實(shí)現(xiàn)了提前一天的預(yù)測。不過,由于廣州市監(jiān)測站點(diǎn)有限,且均分布在廣州市中心城區(qū),本文基于9個(gè)監(jiān)測站點(diǎn)的數(shù)據(jù)僅能預(yù)測廣州市中心城區(qū)的日均PM10濃度。
[1]牟喆,彭麗,楊丹丹,等.上海市天氣和污染對(duì)兒童哮喘就診人次的影響.中國衛(wèi)生統(tǒng)計(jì),2014,31(5):827-829.
[2]Gilmour PS,Brown DM,Lindsay TG,et al.Adverse health effects of PM10particles:involvement of iron in generation of hydroxyl radical.Occup Environ Med,1996,53(12):817-822.
[3]Pope CR,Bates DV,Raizenne ME.Health effects of particulate air pollution:time for reassessment?Environ Health Perspect,1995,103(5):472-480.
[4]吳嘉榮.用線性回歸法建立城市環(huán)境空氣質(zhì)量預(yù)報(bào)模式.引進(jìn)與咨詢,2005,12:29-30.
[5]曹蘭.空氣中PM_(10)濃度的BP神經(jīng)網(wǎng)絡(luò)預(yù)報(bào)研究.環(huán)境研究與監(jiān)測,2010,02:29-32.
[6]石靈芝,鄧啟紅,路蟬,等.基于BP人工神經(jīng)網(wǎng)絡(luò)的大氣顆粒物PM lo質(zhì)量濃度預(yù)測.中南大學(xué)學(xué)報(bào),2012,43(5):1969-1974.
[7]Ul-Saufie AZ.Comparison Between Multiple Linear Regression And Feed forward Back propagation Neural Network Models For Predicting PM10Concentration Level Based On Gaseous And Meteorological Parameters.International Journal of Applied Science and Technology,2011,1(4):42-49.
[8]馬雁軍,楊洪斌,張?jiān)坪#諝馕廴绢A(yù)測與地面氣象要素應(yīng)用.氣象科技,2004,32(2):123-125.
[9]王愛萍,江麗.基于PSO的BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法.計(jì)算機(jī)工程,2012,38(21):193-196.
[10]李慧民,李振雷,何榮軍,等.基于粒子群算法和BP神經(jīng)網(wǎng)絡(luò)的沖擊危險(xiǎn)性評(píng)估.采礦與安全工程學(xué)報(bào),2014,31(2):203-207.
[11]李驪,錢俊,楊軍,等.三種模型對(duì)廣東省傷寒副傷寒逐月發(fā)病數(shù)預(yù)測的比較.中國衛(wèi)生統(tǒng)計(jì),2014,31(2):197-201.
[12]吳建生,劉麗萍,金龍.粒子群-神經(jīng)網(wǎng)絡(luò)集成學(xué)習(xí)算法氣象預(yù)報(bào)建模研究.熱帶氣象學(xué)報(bào),2008,24(6):679-686.
(責(zé)任編輯:劉 壯)
Prediction of Daily Averaged PM10Concentrations Based on PSO-BP Neural Networks in Guangzhou
Yin Anqi,Lin Yuanyi,Lin Weijun,et al.
(Department of Biostatistics,School of Public Health,Southern Medical University(510515),Guangzhou)
ObjectiveTo apply Multiple Linear Regression model(MLR)and PSO-BP neural networks model to forecasting daily averaged PM10concentrations,and compare the performance of these two prediction models.MethodsBased on data of PM10concentrations and meteorology in Guangzhou from January 1,2008 to November 30,2011,we constructed the MLR model and PSO-BP neural networks model,and data from December 1 to December 31 in 2011 were used to assess the predictive validity of the models.ResultsThe previous day′s PM10,extreme wind speed,minimum relative humidity,daily averaged temperature and visibility were the main factors in forecasting PM10,particularly,the previous day′s PM10was strongly correlated with the forecasting PM10(0.66).The determination coefficient(R2)of PSO-BPwas 0.80.Compared to MLR,PSOBP had a decrease of 6.20%in the root mean square error(RMSE),8.73%in the mean absolute error(MAE),13.33%in the mean absolute percenterror(MAPE);and 8.67%in the percent mean absolute deviation(PMAD).ConclusionThe results indicate that the PSO-BPNeural Networks is better than MLR in forecasting PM10.This research can provide some methodological references for forecasting ambient particulate matter.
MLRmodel;PSO-BP;PM10;Meteorology factor;Forecasting
*國家自然科學(xué)基金項(xiàng)目(81573249);廣東省自然科學(xué)基金(2016A030313530)
△通信作者:歐春泉,E-mail:ouchunquan@hotmail.com