周凱 劉萍
(陸軍炮兵防空兵學(xué)院 合肥 230000)
“綠水青山就是金山銀山”,十八大以來,人們逐漸把生態(tài)文明建設(shè)放在突出位置。在各種有力措施的治理下,空氣質(zhì)量作為生態(tài)文明建設(shè)的重要一環(huán),其情況得到了有效改善。但大氣污染物對身體健康的影響還持續(xù)存在。像華北地區(qū),進入秋冬季,霧霾便會籠罩全城,引起一系列呼吸道疾病,嚴(yán)重的造成交通事故危及生命。據(jù)世界衛(wèi)生組織稱,每年因空氣污染導(dǎo)致疾病而死亡的人數(shù)高達700萬[1]。因此在大數(shù)據(jù)技術(shù)浪潮興起的今天,如何通過數(shù)據(jù)挖掘和分析對未來空氣質(zhì)量,進行實時有效的預(yù)測預(yù)警,以避免各種災(zāi)難的發(fā)生,成為一個亟待研究的課題。
數(shù)據(jù)挖掘技術(shù)在20世紀(jì)90年代得到了飛速的發(fā)展,所謂數(shù)據(jù)挖掘,顧名思義即是在大量的關(guān)系或非關(guān)系數(shù)據(jù)庫中發(fā)掘出隱含的、未知的有價值信息。它是一種決策支持過程,主要為決策者提供信息支持。主要基于機器學(xué)習(xí)、人工智能、傳統(tǒng)統(tǒng)計學(xué)等數(shù)理手段。通常由數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘和數(shù)據(jù)分析三階段組成??諝赓|(zhì)量數(shù)據(jù)經(jīng)過數(shù)十年的積累,其隱含的價值是可觀的??諝赓|(zhì)量指數(shù)(AQI)是衡量一個地區(qū)此刻空氣質(zhì)量水平的一個重要指標(biāo),指數(shù)越大,危害越大[2]。
空氣質(zhì)量數(shù)據(jù)是典型的時序數(shù)據(jù),主要來自地面監(jiān)測、氣象衛(wèi)星等采集站點。通過對空氣質(zhì)量數(shù)據(jù)進行數(shù)理分析已經(jīng)成為空氣質(zhì)量預(yù)測的可行性途徑之一。傳統(tǒng)的空氣質(zhì)量預(yù)測主要分為數(shù)值預(yù)測和統(tǒng)計學(xué)預(yù)測兩種,所謂數(shù)值預(yù)測過去幾十年主流的一種預(yù)測方式,它主要是通過已有的空氣質(zhì)量數(shù)據(jù),推導(dǎo)總結(jié)出一系列的物理學(xué)和化學(xué)狀態(tài)方程,這些方程通常是高階微分方程,通過導(dǎo)入相應(yīng)參數(shù)得到未來空氣質(zhì)量數(shù)值,但這種預(yù)測方式需要規(guī)模龐大的計算力,而且考慮的影響方面相當(dāng)有限,比如像人力活動等,數(shù)值預(yù)測的參數(shù)就很難把握并量化。而統(tǒng)計學(xué)預(yù)測則是通過數(shù)學(xué)建模分析已有數(shù)據(jù),像非線性數(shù)值分析、多元統(tǒng)計、灰色分析、車貝雪夫展開等,但統(tǒng)計學(xué)預(yù)測存在周期長,操作復(fù)雜等限制,難以及時迅速準(zhǔn)確地提供空氣質(zhì)量數(shù)據(jù)的相關(guān)信息。隨著時間的推移和空氣質(zhì)量數(shù)據(jù)采集處理技術(shù)的多元發(fā)展,人們開始逐步采用機器學(xué)習(xí)等新技術(shù)進行空氣質(zhì)量數(shù)據(jù)的預(yù)測以彌補傳統(tǒng)預(yù)測方法的不足。但傳統(tǒng)機器學(xué)習(xí)等預(yù)測方法一般采用的是批處理的學(xué)習(xí)和預(yù)測方式,即在一次樣本學(xué)習(xí)和預(yù)測后,便不會對新樣本進行學(xué)習(xí),這就加大了空氣質(zhì)量預(yù)測的誤差,偏離了實時預(yù)測的軌道,很難有效地應(yīng)用到實際工程之中[3]。
基于空氣質(zhì)量預(yù)測的實際需求,本文在前人研究的基礎(chǔ)之上,對比、研究和采納不同計算框架的優(yōu)缺點,選取兩種分別代表不同類型架構(gòu)的模型進行空氣質(zhì)量預(yù)測。以尋求一種理想的空氣質(zhì)量預(yù)測模型。
為了對比不同模型在預(yù)測上的精度優(yōu)勢,我們首先比較傳統(tǒng)的時間序列分析法,ARIMA(自回歸移動平均模型)是傳統(tǒng)統(tǒng)計模型最常見的時間序列預(yù)測模型。自20世紀(jì)70年代提出后,與不少算法模型組合在預(yù)測領(lǐng)域取得矚目的成績,其基本思想是將時序數(shù)據(jù)看成一個隨機序列,通過數(shù)學(xué)模型對其內(nèi)部構(gòu)造和復(fù)雜特性進行近似描述,以最小方差為目標(biāo)的最佳預(yù)測[4]。時間序列的分析主要從頻域和時域兩種角度進行分析,頻域分析在此不做贅述,
在時域方面,如果時間序列特征隨時間而變化,則可說時間序列是非平穩(wěn)的,反之是平穩(wěn)的。如果去除均值和確定性因素的隨機過程可以用式(1)表示[5]:
則可說該過程是p階自回歸過程,其中φi是自回歸參數(shù),lt是白噪聲,可用AR(p)表示。
如果去除均值和確定性因素的隨機過程可用上式表示,則稱該過程為q階移動平均過程,其中θi是自回歸參數(shù),lt是白噪聲。如果去除均值和確定性因素的隨機過程由上述兩過程共同表示,就可稱其為自回歸移動平均過程[6],表示如下:
差分過程為現(xiàn)實值與滯后值的差為固定值的冪,幾次冪就稱為幾次差分。如果一個隨機過程經(jīng)過d次差分后變換為一個平穩(wěn)的自回歸移動平均過程,則稱該過程為單積自回歸移動平均過程,ARIMA預(yù)測模型的一般形式如下:
其中,p表示預(yù)測模型中采用的時序數(shù)據(jù)本身的滯后數(shù),d表示時序數(shù)據(jù)需要進行幾階差分化,才是穩(wěn)定的,q表示需要移動平均的階數(shù)??諝赓|(zhì)量數(shù)據(jù)是在固定間隔的時間差采集的離散數(shù)據(jù),其變量前后必然存在某種聯(lián)系,ARIMA預(yù)測正是尋找這種聯(lián)系對未來一定時間內(nèi)的變量進行預(yù)測[7]。
實現(xiàn)神經(jīng)網(wǎng)絡(luò)在時序問題上的應(yīng)用,繞不開對遞歸神經(jīng)網(wǎng)絡(luò)的研究,遞歸神經(jīng)網(wǎng)絡(luò)RNN也叫循環(huán)神經(jīng)網(wǎng)絡(luò),其在結(jié)構(gòu)設(shè)計上與傳統(tǒng)的前饋式神經(jīng)網(wǎng)絡(luò)不同,它也由輸入層、隱含層和輸出層組成。它考慮到前置樣本對當(dāng)前樣本的影響,突出時序?qū)δP皖A(yù)測的作用[8],其數(shù)學(xué)表達式為
其中,V、W和U分別為輸出層權(quán)值矩陣、上一層隱含層作為這次輸入的權(quán)值矩陣、輸入層權(quán)值矩陣,f和g都為激活函數(shù),st是隱含層狀態(tài),xt是輸入值。
其中LSTM(長短期記憶)網(wǎng)絡(luò)為典型的遞歸神經(jīng)網(wǎng)絡(luò)RNN的一種變型,標(biāo)準(zhǔn)RNN中只有一個神經(jīng)元細(xì)胞,一個隱含層進行學(xué)習(xí),這樣由于在結(jié)構(gòu)上的限制就會在長期記憶方面存在一定的不足,為了實現(xiàn)長期記憶,LSTM在RNN的基礎(chǔ)上,增加了記憶單元[9]。
LSTM網(wǎng)絡(luò)在結(jié)構(gòu)增加門單元,來控制前置信息影響力的大小,實現(xiàn)了對長距離數(shù)據(jù)對現(xiàn)時數(shù)據(jù)的有效影響。設(shè)置了三個門,這三個門分別是遺忘門、輸入門和輸出門。每個門實現(xiàn)不同的功能,其中遺忘門控制保留多少狀態(tài)到目前時刻;輸入門控制輸入多少當(dāng)前時刻到當(dāng)前狀態(tài);輸出門控制當(dāng)前時刻的輸出[10]。基本公式如下:
σ單元輸出0到1的值,可以通過權(quán)值控制每部分輸入的量。遺忘門,讀取輸入xt和前置神經(jīng)元的h信息,并通過函數(shù)值確定要丟棄多少信息。
輸入門,通過控制量函數(shù)和tanh函數(shù)更新細(xì)胞狀態(tài)。
輸出門,控制舊細(xì)胞狀態(tài),將細(xì)胞舊狀態(tài)通過權(quán)值控制,忘記需要丟棄的信息,加上新的候選值,舊細(xì)胞狀態(tài)得以更新[11]。
最后的輸出為ht,通過一個權(quán)值控制層確定哪些細(xì)胞狀態(tài)輸出出去,然后將舊細(xì)胞狀態(tài)通過tanh處理后與輸出相乘確定最終輸出。
LSTM是RNN的變體,GRU則是LSTM的變體,LSTM實現(xiàn)了對遠(yuǎn)距離依賴的有效處理,GRU則實現(xiàn)處理速度的提升。GRU在網(wǎng)絡(luò)結(jié)構(gòu)上與LSTM類似,但它只有兩個門,它們分別是更新門和重置門。更新門控制先前狀態(tài)的保留,其值越大,先前狀態(tài)的影響就越大。復(fù)位門控制新輸入與先前狀態(tài)的關(guān)系,其值越小,記憶先前狀態(tài)影響越小。公式如下[12]:
圖1 GRU單元結(jié)構(gòu)
選取北京市2014年1月1日~2014年12月31日的AQI小時數(shù)據(jù)作為各個模型的研究對象,經(jīng)過數(shù)據(jù)缺失值和異常值處理后,一共得到8760條數(shù)據(jù)。選取的AQI數(shù)據(jù)是典型的時序數(shù)據(jù),符合各時間點上數(shù)值序列的特征。本文對一年之中的AQI時間序列作二維曲線圖,XY軸分別表示測量序列及濃度值,便于形象直觀地展現(xiàn)出AQI的變化規(guī)律。
為了方便所選模型訓(xùn)練學(xué)習(xí),減少數(shù)據(jù)偏移、幅度縮放、線性趨勢和噪聲對后續(xù)計算的影響。對所選數(shù)據(jù)進行歸一化處理,公式如下:
基于ARIMA的空氣質(zhì)量預(yù)測模型我們選取后280個樣本數(shù)據(jù)進行模型預(yù)測,其基本預(yù)測步驟可以分為以下四步。
1)首先考察空氣質(zhì)量數(shù)據(jù)序列是否平穩(wěn),觀察是否具有季節(jié)性,是否為白噪聲,依據(jù)空氣質(zhì)量數(shù)據(jù)的ACF(自相關(guān))系數(shù)和PACF(偏自相關(guān))系數(shù)我們得到圖2。
圖2 自相關(guān)與偏自相關(guān)圖
在自相關(guān)圖系數(shù)是一個衰減的趨勢,我們可以判定為拖尾,偏自相關(guān)圖在3階長的時候系數(shù)趨于零,可以看出是截尾。因此我們可以判定空氣質(zhì)量時序數(shù)據(jù)是不平穩(wěn)的,需要進一步作差分分析。
2)空氣質(zhì)量數(shù)據(jù)平穩(wěn)處理。雖然空氣質(zhì)量數(shù)據(jù)受季節(jié)影響,但在圖形曲線中并沒有呈現(xiàn)季節(jié)性變化,我們只考慮通過差分方法使時間序列平穩(wěn),分別嘗試差分階數(shù)為1、2、3、4,繪制時序圖如圖3。
圖3 差分圖
從經(jīng)過差分處理的圖中,我們發(fā)現(xiàn)當(dāng)差分階數(shù)取4時時序數(shù)據(jù)趨于平穩(wěn)。
3)確定ARIMA模型參數(shù)及類型,空氣質(zhì)量時序數(shù)據(jù)平穩(wěn)處理后,再次通過繪制自相關(guān)和偏自相關(guān)圖,通過下圖可知,平穩(wěn)序列的自相關(guān)函數(shù)和偏自相關(guān)函數(shù)均為拖尾,因此我們選用ARIMA模型,偏自相關(guān)圖在滯后為5以后趨于零,我們暫定P參數(shù)為5;自相關(guān)系數(shù)圖中顯著不為0的自相關(guān)數(shù)為2,我們暫定q參數(shù)為2,至此我們選擇模型ARIMA(5,4,2)。
圖4 4階差分后的自相關(guān)和偏自相關(guān)圖
4)根據(jù)選定模型進行預(yù)測分析。通過模型代入,給出ARIMA殘差自相關(guān)和偏自相關(guān)函數(shù)圖,從圖中可知ACF和PACF圖皆沒有明顯拖尾和截尾,表明預(yù)測模型的選取是恰當(dāng)?shù)摹?/p>
圖5 ARIMA殘差相關(guān)函數(shù)圖
將原始數(shù)據(jù)代入模型,我們得到ARIMA擬合預(yù)測圖,從圖中我們可知,擬合值與輸入值擬合效果較好。擬合度均方誤差3.664,平均絕對誤差均值1.975(如表1所示),達到了擬合的預(yù)期。然后對后12h進行預(yù)測,從結(jié)果我們可以看出在前3h置信區(qū)間較小,預(yù)測精度較高,但隨著預(yù)測時長的增長,ARIMA空氣質(zhì)量模型的置信區(qū)間隨之增大,預(yù)測精度減低。如果我們需要實現(xiàn)長期預(yù)測,還需尋求對遠(yuǎn)端樣本有明顯精度預(yù)測的模型。
表1 模型擬合統(tǒng)計
根據(jù)前文數(shù)據(jù)樣本分析,我們知道選取的AQI樣本為單純的時序樣本,所謂AQI指數(shù)是將六種主要污染物中最高的污染指數(shù)作為AQI指數(shù),基于上述分析,AQI數(shù)據(jù)樣本的時序分析沒有其他變量可以輸入,我們選取后8000個樣本作為訓(xùn)練樣本,用后48h的數(shù)據(jù)作為樣本檢測。GRU空氣質(zhì)量預(yù)測模型的學(xué)習(xí)衰減率選為0.002,隱含層單元設(shè)置為9,經(jīng)過訓(xùn)練5000次,可得空氣質(zhì)量預(yù)數(shù)據(jù)在訓(xùn)練計算過程中損失函數(shù)情況[13]。
表2 GRU模型訓(xùn)練損失函數(shù)值
經(jīng)過樣本訓(xùn)練5000次,模型損失函數(shù)值逐漸減少,當(dāng)訓(xùn)練5000次時損失函數(shù)值為0.3012,使用經(jīng)過訓(xùn)練的模型對指定48h時間步長進行預(yù)測,預(yù)測結(jié)果對比圖如圖6。
圖6 GRU空氣預(yù)測模型精度對比圖
圖中實線為實際測量,虛線為實時預(yù)測數(shù)值??梢钥闯?,在輸入數(shù)據(jù)后得到的48h內(nèi)的預(yù)測結(jié)果與實際結(jié)果較吻合,證明本文提出的預(yù)測模型有較好的預(yù)測精度,實現(xiàn)了短期預(yù)測的設(shè)計目的。說明本文提出的模型切實可行,到此證明了預(yù)測模型的可行性,然后將提出的兩種模型進行對比[14]。
對比方法我們采用均方根誤差法進行對比,均方根誤差法(RMSE)是通過預(yù)測值減去實際值,將差平方后累加,除以樣本個數(shù),最后將商開方,具體公式如下:
其中y1為預(yù)測值,y2為實際值,d為樣本個數(shù)。通過均方根誤差可以很好評價一個模型預(yù)測精度的好壞,其計算值越小,預(yù)測能力越好。表3為兩種預(yù)測模型均方根誤差比較[15]。
表3 預(yù)測模型RMSE對比
通過表3,我們對兩種預(yù)測模型進行均方誤差對比,發(fā)現(xiàn)基于GRU網(wǎng)絡(luò)的預(yù)測模型在空氣質(zhì)量預(yù)測方面有較突出的記憶能力和通用性,對提高空氣質(zhì)量模型的預(yù)測精度有很高的學(xué)術(shù)價值。
本文根據(jù)空氣質(zhì)量時序數(shù)據(jù)的特點,分析了提高空氣質(zhì)量預(yù)測精度的必要性,總結(jié)了前人經(jīng)驗,先對空氣質(zhì)量數(shù)據(jù)的平穩(wěn)性進行了分析,隨后根據(jù)ARIMA模型建立步驟,進行時序數(shù)據(jù)平穩(wěn)化,根據(jù)自相關(guān)和偏自相關(guān)圖確定ARIMA模型,進行了擬合預(yù)測;隨后從新興循環(huán)神經(jīng)網(wǎng)絡(luò)的角度出發(fā),提出了一種基于門控循環(huán)單元網(wǎng)絡(luò)的預(yù)測模型,通過樣本選擇后進行了預(yù)測。實驗很好地證明了本文提出的模型通過各種參數(shù)設(shè)置,其可行性和出色的性能是確實存在的。并計劃在將來合并更多種類的深度學(xué)習(xí)模型并應(yīng)用更多最先進的機器學(xué)習(xí)算法,預(yù)測更豐富的空氣質(zhì)量數(shù)據(jù),為進一步設(shè)計出一個具有實用性的空氣質(zhì)量預(yù)測系統(tǒng)打下了堅實的理論基礎(chǔ)。