方 蕓, 曹宇軒, 閆 超
(曲阜師范大學(xué)計(jì)算機(jī)學(xué)院,276826,山東省日照市)
城市空氣質(zhì)量問題一直受到社會(huì)各界的關(guān)注.如何監(jiān)控和預(yù)測(cè)空氣質(zhì)量是當(dāng)前工業(yè)界和學(xué)術(shù)界的研究熱點(diǎn)之一.空氣質(zhì)量指數(shù)AQI作為最新的空氣質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn),分為6個(gè)等級(jí)[1],將空氣污染程度量化,直觀反應(yīng)了空氣污染的狀況.AQI等級(jí)越高,表明空氣污染的程度越深.當(dāng)AQI達(dá)到四級(jí)及以上時(shí),對(duì)人們的出行和戶外活動(dòng)已有很大的影響.AQI包含6個(gè)評(píng)價(jià)指標(biāo)即空氣污染源,二氧化硫(SO2)、二氧化氮(NO2)、一氧化碳(CO)、地面臭氧(O3)、可吸入顆粒物(PM2.5和PM10).
空氣質(zhì)量的日數(shù)據(jù)可以看作是時(shí)間序列,因此,我們將通過(guò)時(shí)間序列預(yù)測(cè)的方法來(lái)對(duì)未來(lái)的空氣質(zhì)量進(jìn)行預(yù)測(cè).此外,對(duì)于空氣質(zhì)量的預(yù)測(cè),尤其是一周甚至一天內(nèi)的預(yù)測(cè),準(zhǔn)確性和實(shí)時(shí)性至關(guān)重要,更小的時(shí)間成本讓預(yù)測(cè)結(jié)果的實(shí)時(shí)性更高,更具應(yīng)用的意義.差分移動(dòng)平均自回歸模型(ARIMA)[2]由Box等人于1968年提出,已被廣泛應(yīng)用于時(shí)間序列預(yù)測(cè).近年來(lái),ARIMA模型在空氣質(zhì)量預(yù)測(cè)中也得到了的應(yīng)用[3].但對(duì)于多個(gè)時(shí)間序列,ARIMA模型只能逐個(gè)進(jìn)行預(yù)測(cè),特別是需要處理大量的時(shí)間序列時(shí)需要較高的時(shí)間成本.并且,ARIMA模型并沒有將不同時(shí)間序列之間的內(nèi)在關(guān)系考慮在內(nèi),這可能在一定程度上限制了ARIMA的預(yù)測(cè)性能[4].
本文基于已有的ARIMA模型,提出了一種改進(jìn)的P-ARIMA模型.使用主成分分析(PCA)對(duì)原始空氣質(zhì)量矩陣進(jìn)行降維和特征提取,可以獲取不同序列之間內(nèi)在的相關(guān)性.相對(duì)現(xiàn)有的方法提高了預(yù)測(cè)精度,減少了計(jì)算時(shí)間.
本文在426天的真實(shí)空氣質(zhì)量數(shù)據(jù)集上,對(duì)空氣質(zhì)量包括AQI指數(shù)及其6個(gè)評(píng)價(jià)指標(biāo)進(jìn)行預(yù)測(cè),并對(duì)結(jié)果進(jìn)行分析.
令yt表示第t天實(shí)際數(shù)據(jù)的值,則自回歸模型(AR)可表示為
(1)
移動(dòng)平均模型(MA)可表示為
(2)
ARMA(p,q)模型可表示為
(3)
其中μ為常數(shù),εt表示隨機(jī)誤差,εt的均值為零,方差為常數(shù).αi和βi分別為AR和MA的參數(shù).p表示自回歸項(xiàng)數(shù);q表示移動(dòng)平均項(xiàng)數(shù).
由于時(shí)間序列數(shù)據(jù)通常并非都是平穩(wěn)的,ARIMA模型對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行差分處理,將非平穩(wěn)數(shù)據(jù)轉(zhuǎn)換成平穩(wěn)數(shù)據(jù).令d表示差分的階數(shù),那么原始序列yt的d階差分可表示為Δdyt.差分移動(dòng)平均自回歸模型ARIMA (p,d,q)可表示為
(4)
1.2.1 主成分分析(PCA)
主成分分析(PCA)是一種很常用的降維方法,可以提取數(shù)據(jù)的主要特征,減少數(shù)據(jù)冗余[5].對(duì)于一個(gè)給定的任意m行n列矩陣A,X為A中心化后的矩陣,Z為X的協(xié)方差矩陣.對(duì)協(xié)方差矩陣進(jìn)行奇異值分解,如下所示,
(5)
s.t.PPT=I,
1.2.2 基于PCA的ARIMA
χ={χd+1χd+2…χt…χT}表示1-T時(shí)的空氣質(zhì)量的矩陣序列,可以視為一個(gè)時(shí)間序列,其中χt表示t時(shí)的空氣質(zhì)量矩陣.χ的d階差分Δdχ可表示為
Δdχ={Δdχd+1Δdχd+2…ΔdχT}.
(6)
使用主成分分析對(duì)空氣質(zhì)量的差分矩陣進(jìn)行壓縮,
ΔdKt=ΔdχtVreduce,
(7)
(8)
將壓縮后的空氣質(zhì)量矩陣,帶入到ARIMA模型中,以降低計(jì)算成本.那么,改進(jìn)后的ARIMA模型可以表示為
(9)
εt-j表示過(guò)去p時(shí)隙觀測(cè)的隨機(jī)誤差,εt表示當(dāng)前t時(shí)隙預(yù)測(cè)的隨機(jī)誤差.第二個(gè)優(yōu)化目標(biāo)就是將εt最小化到0.因此,將目標(biāo)函數(shù)定義為
(10)
其中s=p+d+q,是時(shí)隙的最小長(zhǎng)度.對(duì)于公式(10)的兩部分,我們認(rèn)為二者是同等重要的,因此權(quán)重均為1/2.采用增廣拉格朗日法,對(duì)上述目標(biāo)函數(shù)進(jìn)行優(yōu)化.首先確定Vi,εt-i,αi和βi,ΔdKt的更新公式為
(11)
公式(10)中的Vreduce部分為
(12)
1.2.3 預(yù)測(cè)
通過(guò)下面的公式來(lái)對(duì)ΔdKT+1進(jìn)行計(jì)算,
本文所用空氣質(zhì)量數(shù)據(jù)均源自http://www.tianqihoubao.com/,選取日照市及其周邊7個(gè)城市(臨沂市、濰坊市、青島市、淄博市、泰安市、濟(jì)寧市、棗莊市)2020年5月1日至2021年6月31日共計(jì)426天的空氣質(zhì)量數(shù)據(jù).包括當(dāng)日的AQI及6項(xiàng)空氣污染指標(biāo),PM2.5、PM10、SO2、NO2、CO、和O3.每日的AQI數(shù)據(jù)和PM2.5濃度數(shù)據(jù)是根據(jù)每小時(shí)數(shù)據(jù)進(jìn)行算術(shù)平均得到的結(jié)果.
本文采用平均絕對(duì)誤差(MAE)和均方根誤差(RMSE)作為評(píng)價(jià)指標(biāo),來(lái)衡量所提方法的精確性.
MAE的計(jì)算公式如下所示
RMSE的計(jì)算公式如下所示
基于歷史的T-1個(gè)時(shí)隙來(lái)對(duì)第T個(gè)時(shí)隙進(jìn)行預(yù)測(cè).因此,我們把最后一個(gè)時(shí)隙的數(shù)據(jù)作為測(cè)試集,其余數(shù)據(jù)作為訓(xùn)練集,將提出的P-ARIMA與BHT-ARIMA[4]進(jìn)行對(duì)比.
對(duì)于提出的P-ARIMA模型,通過(guò)ACF和PACF函數(shù),發(fā)現(xiàn)最好的參數(shù)設(shè)置為p=3,q=1.對(duì)原始數(shù)據(jù)進(jìn)行一階差分后,數(shù)據(jù)已經(jīng)平穩(wěn),將d設(shè)置為1;在對(duì)P-ARIMA的訓(xùn)練過(guò)程中,發(fā)現(xiàn)當(dāng)?shù)螖?shù)達(dá)到10~20左右時(shí),算法已經(jīng)收斂,完全足以獲得最好的預(yù)測(cè)精度.因此,將最大迭代次數(shù)設(shè)置為20. 另外,采用網(wǎng)格搜索法,對(duì)可能選取的不同壓縮矩陣大小的結(jié)果進(jìn)行對(duì)比,選擇預(yù)測(cè)效果最好的矩陣,將P-ARIMA的壓縮矩陣大小設(shè)置為(8,5).
設(shè)置時(shí)隙為80,即基于過(guò)去79天的歷史數(shù)據(jù)對(duì)第80天的數(shù)據(jù)預(yù)測(cè)的方式,來(lái)對(duì)未來(lái)165天的空氣質(zhì)量進(jìn)行預(yù)測(cè).圖1所示的預(yù)測(cè)結(jié)果為日照市2021年6月31日及其前164天的AQI,將AQI的預(yù)測(cè)值與實(shí)際值繪制成曲線.為研究不同的時(shí)間序列長(zhǎng)度對(duì)預(yù)測(cè)的精確度的影響,選取了20到120間不同的時(shí)序長(zhǎng)度進(jìn)行了對(duì)比試驗(yàn).另外,為減小數(shù)據(jù)的偶然性對(duì)分析預(yù)測(cè)結(jié)果的影響,對(duì)于不同的時(shí)序長(zhǎng)度,分別選取30個(gè)不同時(shí)間段的數(shù)據(jù)作為樣本進(jìn)行預(yù)測(cè).并對(duì)這30次結(jié)果的MAE和RMSE取平均值,來(lái)對(duì)兩種不同方法的預(yù)測(cè)效果進(jìn)行的對(duì)比.
圖1 P-ARIMA和BHT-ARIMA的預(yù)測(cè)結(jié)果與實(shí)際值對(duì)比
圖2 不同時(shí)序長(zhǎng)度下的預(yù)測(cè)精度比較
通過(guò)對(duì)比BHT-ARIMA和P-ARIMA模型的預(yù)測(cè)結(jié)果(MAE和RMSE),如圖2所示,可以看出本文提出的P-ARIMA與BHT-ARIMA相比,具有更好預(yù)測(cè)精度.對(duì)于不同時(shí)序長(zhǎng)度T,預(yù)測(cè)的精度有所不同.當(dāng)T在20到60之間時(shí),預(yù)測(cè)精度隨著T增大而且快速下降;當(dāng)T在80到140之間時(shí),MAE和RMSE都比較穩(wěn)定.并且本文提出的P-ARIMA所需的計(jì)算時(shí)間只有BHT-ARIMA的1/3(如圖3所示),計(jì)算的時(shí)間成本與之相比大幅降低.
圖3 不同時(shí)序長(zhǎng)度下的計(jì)算成本比較
本文提出了P-ARIMA模型來(lái)進(jìn)行空氣質(zhì)量的時(shí)間序列預(yù)測(cè).采用了426天的空氣質(zhì)量數(shù)據(jù),構(gòu)成時(shí)間序列.通過(guò)PCA對(duì)空氣質(zhì)量矩陣進(jìn)行列壓縮,得到特征矩陣,并將其與ARIMA結(jié)合.本文在真實(shí)的空氣質(zhì)量數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn),并將其與BHT-ARIMA進(jìn)行了對(duì)比.結(jié)果表明,本文提出的方法可以提高預(yù)測(cè)的精度,并顯著提高計(jì)算速度.