基于數(shù)據(jù)挖掘的空氣質(zhì)量預(yù)測模型研究*

2021-09-15 08:34:56周凱劉萍

計算機與數(shù)字工程 2021年8期

周凱劉萍

（陸軍炮兵防空兵學(xué)院合肥 230000）

1 引言

“綠水青山就是金山銀山”，十八大以來，人們逐漸把生態(tài)文明建設(shè)放在突出位置。在各種有力措施的治理下，空氣質(zhì)量作為生態(tài)文明建設(shè)的重要一環(huán)，其情況得到了有效改善。但大氣污染物對身體健康的影響還持續(xù)存在。像華北地區(qū)，進入秋冬季，霧霾便會籠罩全城，引起一系列呼吸道疾病，嚴(yán)重的造成交通事故危及生命。據(jù)世界衛(wèi)生組織稱，每年因空氣污染導(dǎo)致疾病而死亡的人數(shù)高達700萬［1］。因此在大數(shù)據(jù)技術(shù)浪潮興起的今天，如何通過數(shù)據(jù)挖掘和分析對未來空氣質(zhì)量，進行實時有效的預(yù)測預(yù)警，以避免各種災(zāi)難的發(fā)生，成為一個亟待研究的課題。

數(shù)據(jù)挖掘技術(shù)在20世紀(jì)90年代得到了飛速的發(fā)展，所謂數(shù)據(jù)挖掘，顧名思義即是在大量的關(guān)系或非關(guān)系數(shù)據(jù)庫中發(fā)掘出隱含的、未知的有價值信息。它是一種決策支持過程，主要為決策者提供信息支持。主要基于機器學(xué)習(xí)、人工智能、傳統(tǒng)統(tǒng)計學(xué)等數(shù)理手段。通常由數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘和數(shù)據(jù)分析三階段組成?？諝赓|(zhì)量數(shù)據(jù)經(jīng)過數(shù)十年的積累，其隱含的價值是可觀的?？諝赓|(zhì)量指數(shù)（AQI）是衡量一個地區(qū)此刻空氣質(zhì)量水平的一個重要指標(biāo)，指數(shù)越大，危害越大［2］。

空氣質(zhì)量數(shù)據(jù)是典型的時序數(shù)據(jù)，主要來自地面監(jiān)測、氣象衛(wèi)星等采集站點。通過對空氣質(zhì)量數(shù)據(jù)進行數(shù)理分析已經(jīng)成為空氣質(zhì)量預(yù)測的可行性途徑之一。傳統(tǒng)的空氣質(zhì)量預(yù)測主要分為數(shù)值預(yù)測和統(tǒng)計學(xué)預(yù)測兩種，所謂數(shù)值預(yù)測過去幾十年主流的一種預(yù)測方式，它主要是通過已有的空氣質(zhì)量數(shù)據(jù)，推導(dǎo)總結(jié)出一系列的物理學(xué)和化學(xué)狀態(tài)方程，這些方程通常是高階微分方程，通過導(dǎo)入相應(yīng)參數(shù)得到未來空氣質(zhì)量數(shù)值，但這種預(yù)測方式需要規(guī)模龐大的計算力，而且考慮的影響方面相當(dāng)有限，比如像人力活動等，數(shù)值預(yù)測的參數(shù)就很難把握并量化。而統(tǒng)計學(xué)預(yù)測則是通過數(shù)學(xué)建模分析已有數(shù)據(jù)，像非線性數(shù)值分析、多元統(tǒng)計、灰色分析、車貝雪夫展開等，但統(tǒng)計學(xué)預(yù)測存在周期長，操作復(fù)雜等限制，難以及時迅速準(zhǔn)確地提供空氣質(zhì)量數(shù)據(jù)的相關(guān)信息。隨著時間的推移和空氣質(zhì)量數(shù)據(jù)采集處理技術(shù)的多元發(fā)展，人們開始逐步采用機器學(xué)習(xí)等新技術(shù)進行空氣質(zhì)量數(shù)據(jù)的預(yù)測以彌補傳統(tǒng)預(yù)測方法的不足。但傳統(tǒng)機器學(xué)習(xí)等預(yù)測方法一般采用的是批處理的學(xué)習(xí)和預(yù)測方式，即在一次樣本學(xué)習(xí)和預(yù)測后，便不會對新樣本進行學(xué)習(xí)，這就加大了空氣質(zhì)量預(yù)測的誤差，偏離了實時預(yù)測的軌道，很難有效地應(yīng)用到實際工程之中［3］。

基于空氣質(zhì)量預(yù)測的實際需求，本文在前人研究的基礎(chǔ)之上，對比、研究和采納不同計算框架的優(yōu)缺點，選取兩種分別代表不同類型架構(gòu)的模型進行空氣質(zhì)量預(yù)測。以尋求一種理想的空氣質(zhì)量預(yù)測模型。

2 模型原理

2.1 ARIMA原理

為了對比不同模型在預(yù)測上的精度優(yōu)勢，我們首先比較傳統(tǒng)的時間序列分析法，ARIMA（自回歸移動平均模型）是傳統(tǒng)統(tǒng)計模型最常見的時間序列預(yù)測模型。自20世紀(jì)70年代提出后，與不少算法模型組合在預(yù)測領(lǐng)域取得矚目的成績，其基本思想是將時序數(shù)據(jù)看成一個隨機序列，通過數(shù)學(xué)模型對其內(nèi)部構(gòu)造和復(fù)雜特性進行近似描述，以最小方差為目標(biāo)的最佳預(yù)測［4］。時間序列的分析主要從頻域和時域兩種角度進行分析，頻域分析在此不做贅述，

在時域方面，如果時間序列特征隨時間而變化，則可說時間序列是非平穩(wěn)的，反之是平穩(wěn)的。如果去除均值和確定性因素的隨機過程可以用式（1）表示［5］：

則可說該過程是p階自回歸過程，其中φi是自回歸參數(shù)，lt是白噪聲，可用AR（p）表示。

如果去除均值和確定性因素的隨機過程可用上式表示，則稱該過程為q階移動平均過程，其中θi是自回歸參數(shù)，lt是白噪聲。如果去除均值和確定性因素的隨機過程由上述兩過程共同表示，就可稱其為自回歸移動平均過程［6］，表示如下：

差分過程為現(xiàn)實值與滯后值的差為固定值的冪，幾次冪就稱為幾次差分。如果一個隨機過程經(jīng)過d次差分后變換為一個平穩(wěn)的自回歸移動平均過程，則稱該過程為單積自回歸移動平均過程，ARIMA預(yù)測模型的一般形式如下：

其中，p表示預(yù)測模型中采用的時序數(shù)據(jù)本身的滯后數(shù)，d表示時序數(shù)據(jù)需要進行幾階差分化，才是穩(wěn)定的，q表示需要移動平均的階數(shù)?？諝赓|(zhì)量數(shù)據(jù)是在固定間隔的時間差采集的離散數(shù)據(jù)，其變量前后必然存在某種聯(lián)系，ARIMA預(yù)測正是尋找這種聯(lián)系對未來一定時間內(nèi)的變量進行預(yù)測［7］。

2.2 GRU神經(jīng)網(wǎng)絡(luò)原理

實現(xiàn)神經(jīng)網(wǎng)絡(luò)在時序問題上的應(yīng)用，繞不開對遞歸神經(jīng)網(wǎng)絡(luò)的研究，遞歸神經(jīng)網(wǎng)絡(luò)RNN也叫循環(huán)神經(jīng)網(wǎng)絡(luò)，其在結(jié)構(gòu)設(shè)計上與傳統(tǒng)的前饋式神經(jīng)網(wǎng)絡(luò)不同，它也由輸入層、隱含層和輸出層組成。它考慮到前置樣本對當(dāng)前樣本的影響，突出時序?qū)δＰ皖A(yù)測的作用［8］，其數(shù)學(xué)表達式為

其中，V、W和U分別為輸出層權(quán)值矩陣、上一層隱含層作為這次輸入的權(quán)值矩陣、輸入層權(quán)值矩陣，f和g都為激活函數(shù)，st是隱含層狀態(tài)，xt是輸入值。

其中LSTM（長短期記憶）網(wǎng)絡(luò)為典型的遞歸神經(jīng)網(wǎng)絡(luò)RNN的一種變型，標(biāo)準(zhǔn)RNN中只有一個神經(jīng)元細(xì)胞，一個隱含層進行學(xué)習(xí)，這樣由于在結(jié)構(gòu)上的限制就會在長期記憶方面存在一定的不足，為了實現(xiàn)長期記憶，LSTM在RNN的基礎(chǔ)上，增加了記憶單元［9］。

LSTM網(wǎng)絡(luò)在結(jié)構(gòu)增加門單元，來控制前置信息影響力的大小，實現(xiàn)了對長距離數(shù)據(jù)對現(xiàn)時數(shù)據(jù)的有效影響。設(shè)置了三個門，這三個門分別是遺忘門、輸入門和輸出門。每個門實現(xiàn)不同的功能，其中遺忘門控制保留多少狀態(tài)到目前時刻；輸入門控制輸入多少當(dāng)前時刻到當(dāng)前狀態(tài)；輸出門控制當(dāng)前時刻的輸出［10］。基本公式如下：

σ單元輸出0到1的值，可以通過權(quán)值控制每部分輸入的量。遺忘門，讀取輸入xt和前置神經(jīng)元的h信息，并通過函數(shù)值確定要丟棄多少信息。

輸入門，通過控制量函數(shù)和tanh函數(shù)更新細(xì)胞狀態(tài)。

輸出門，控制舊細(xì)胞狀態(tài)，將細(xì)胞舊狀態(tài)通過權(quán)值控制，忘記需要丟棄的信息，加上新的候選值，舊細(xì)胞狀態(tài)得以更新［11］。

最后的輸出為ht，通過一個權(quán)值控制層確定哪些細(xì)胞狀態(tài)輸出出去，然后將舊細(xì)胞狀態(tài)通過tanh處理后與輸出相乘確定最終輸出。

LSTM是RNN的變體，GRU則是LSTM的變體，LSTM實現(xiàn)了對遠(yuǎn)距離依賴的有效處理，GRU則實現(xiàn)處理速度的提升。GRU在網(wǎng)絡(luò)結(jié)構(gòu)上與LSTM類似，但它只有兩個門，它們分別是更新門和重置門。更新門控制先前狀態(tài)的保留，其值越大，先前狀態(tài)的影響就越大。復(fù)位門控制新輸入與先前狀態(tài)的關(guān)系，其值越小，記憶先前狀態(tài)影響越小。公式如下［12］：

圖1 GRU單元結(jié)構(gòu)

3 實驗與結(jié)果分析

3.1 數(shù)據(jù)準(zhǔn)備與分析

選取北京市2014年1月1日～2014年12月31日的AQI小時數(shù)據(jù)作為各個模型的研究對象，經(jīng)過數(shù)據(jù)缺失值和異常值處理后，一共得到8760條數(shù)據(jù)。選取的AQI數(shù)據(jù)是典型的時序數(shù)據(jù)，符合各時間點上數(shù)值序列的特征。本文對一年之中的AQI時間序列作二維曲線圖，XY軸分別表示測量序列及濃度值，便于形象直觀地展現(xiàn)出AQI的變化規(guī)律。

為了方便所選模型訓(xùn)練學(xué)習(xí)，減少數(shù)據(jù)偏移、幅度縮放、線性趨勢和噪聲對后續(xù)計算的影響。對所選數(shù)據(jù)進行歸一化處理，公式如下：

3.2 基于ARIMA時序分析預(yù)測的空氣質(zhì)量預(yù)測模型

基于ARIMA的空氣質(zhì)量預(yù)測模型我們選取后280個樣本數(shù)據(jù)進行模型預(yù)測，其基本預(yù)測步驟可以分為以下四步。

1）首先考察空氣質(zhì)量數(shù)據(jù)序列是否平穩(wěn)，觀察是否具有季節(jié)性，是否為白噪聲，依據(jù)空氣質(zhì)量數(shù)據(jù)的ACF（自相關(guān)）系數(shù)和PACF（偏自相關(guān)）系數(shù)我們得到圖2。

圖2 自相關(guān)與偏自相關(guān)圖

在自相關(guān)圖系數(shù)是一個衰減的趨勢，我們可以判定為拖尾，偏自相關(guān)圖在3階長的時候系數(shù)趨于零，可以看出是截尾。因此我們可以判定空氣質(zhì)量時序數(shù)據(jù)是不平穩(wěn)的，需要進一步作差分分析。

2）空氣質(zhì)量數(shù)據(jù)平穩(wěn)處理。雖然空氣質(zhì)量數(shù)據(jù)受季節(jié)影響，但在圖形曲線中并沒有呈現(xiàn)季節(jié)性變化，我們只考慮通過差分方法使時間序列平穩(wěn)，分別嘗試差分階數(shù)為1、2、3、4，繪制時序圖如圖3。

圖3 差分圖

從經(jīng)過差分處理的圖中，我們發(fā)現(xiàn)當(dāng)差分階數(shù)取4時時序數(shù)據(jù)趨于平穩(wěn)。

3）確定ARIMA模型參數(shù)及類型，空氣質(zhì)量時序數(shù)據(jù)平穩(wěn)處理后，再次通過繪制自相關(guān)和偏自相關(guān)圖，通過下圖可知，平穩(wěn)序列的自相關(guān)函數(shù)和偏自相關(guān)函數(shù)均為拖尾，因此我們選用ARIMA模型，偏自相關(guān)圖在滯后為5以后趨于零，我們暫定P參數(shù)為5；自相關(guān)系數(shù)圖中顯著不為0的自相關(guān)數(shù)為2，我們暫定q參數(shù)為2，至此我們選擇模型ARIMA（5，4，2）。

圖4 4階差分后的自相關(guān)和偏自相關(guān)圖

4）根據(jù)選定模型進行預(yù)測分析。通過模型代入，給出ARIMA殘差自相關(guān)和偏自相關(guān)函數(shù)圖，從圖中可知ACF和PACF圖皆沒有明顯拖尾和截尾，表明預(yù)測模型的選取是恰當(dāng)?shù)摹?/p>

圖5 ARIMA殘差相關(guān)函數(shù)圖

將原始數(shù)據(jù)代入模型，我們得到ARIMA擬合預(yù)測圖，從圖中我們可知，擬合值與輸入值擬合效果較好。擬合度均方誤差3.664，平均絕對誤差均值1.975（如表1所示），達到了擬合的預(yù)期。然后對后12h進行預(yù)測，從結(jié)果我們可以看出在前3h置信區(qū)間較小，預(yù)測精度較高，但隨著預(yù)測時長的增長，ARIMA空氣質(zhì)量模型的置信區(qū)間隨之增大，預(yù)測精度減低。如果我們需要實現(xiàn)長期預(yù)測，還需尋求對遠(yuǎn)端樣本有明顯精度預(yù)測的模型。

表1 模型擬合統(tǒng)計

3.3 基于GRU的空氣質(zhì)量預(yù)測模型

根據(jù)前文數(shù)據(jù)樣本分析，我們知道選取的AQI樣本為單純的時序樣本，所謂AQI指數(shù)是將六種主要污染物中最高的污染指數(shù)作為AQI指數(shù)，基于上述分析，AQI數(shù)據(jù)樣本的時序分析沒有其他變量可以輸入，我們選取后8000個樣本作為訓(xùn)練樣本，用后48h的數(shù)據(jù)作為樣本檢測。GRU空氣質(zhì)量預(yù)測模型的學(xué)習(xí)衰減率選為0.002，隱含層單元設(shè)置為9，經(jīng)過訓(xùn)練5000次，可得空氣質(zhì)量預(yù)數(shù)據(jù)在訓(xùn)練計算過程中損失函數(shù)情況［13］。

表2 GRU模型訓(xùn)練損失函數(shù)值

經(jīng)過樣本訓(xùn)練5000次，模型損失函數(shù)值逐漸減少，當(dāng)訓(xùn)練5000次時損失函數(shù)值為0.3012，使用經(jīng)過訓(xùn)練的模型對指定48h時間步長進行預(yù)測，預(yù)測結(jié)果對比圖如圖6。

圖6 GRU空氣預(yù)測模型精度對比圖

圖中實線為實際測量，虛線為實時預(yù)測數(shù)值?？梢钥闯?，在輸入數(shù)據(jù)后得到的48h內(nèi)的預(yù)測結(jié)果與實際結(jié)果較吻合，證明本文提出的預(yù)測模型有較好的預(yù)測精度，實現(xiàn)了短期預(yù)測的設(shè)計目的。說明本文提出的模型切實可行，到此證明了預(yù)測模型的可行性，然后將提出的兩種模型進行對比［14］。

對比方法我們采用均方根誤差法進行對比，均方根誤差法（RMSE）是通過預(yù)測值減去實際值，將差平方后累加，除以樣本個數(shù)，最后將商開方，具體公式如下：

其中y1為預(yù)測值，y2為實際值，d為樣本個數(shù)。通過均方根誤差可以很好評價一個模型預(yù)測精度的好壞，其計算值越小，預(yù)測能力越好。表3為兩種預(yù)測模型均方根誤差比較［15］。

表3 預(yù)測模型RMSE對比

通過表3，我們對兩種預(yù)測模型進行均方誤差對比，發(fā)現(xiàn)基于GRU網(wǎng)絡(luò)的預(yù)測模型在空氣質(zhì)量預(yù)測方面有較突出的記憶能力和通用性，對提高空氣質(zhì)量模型的預(yù)測精度有很高的學(xué)術(shù)價值。

4 結(jié)語

本文根據(jù)空氣質(zhì)量時序數(shù)據(jù)的特點，分析了提高空氣質(zhì)量預(yù)測精度的必要性，總結(jié)了前人經(jīng)驗，先對空氣質(zhì)量數(shù)據(jù)的平穩(wěn)性進行了分析，隨后根據(jù)ARIMA模型建立步驟，進行時序數(shù)據(jù)平穩(wěn)化，根據(jù)自相關(guān)和偏自相關(guān)圖確定ARIMA模型，進行了擬合預(yù)測；隨后從新興循環(huán)神經(jīng)網(wǎng)絡(luò)的角度出發(fā)，提出了一種基于門控循環(huán)單元網(wǎng)絡(luò)的預(yù)測模型，通過樣本選擇后進行了預(yù)測。實驗很好地證明了本文提出的模型通過各種參數(shù)設(shè)置，其可行性和出色的性能是確實存在的。并計劃在將來合并更多種類的深度學(xué)習(xí)模型并應(yīng)用更多最先進的機器學(xué)習(xí)算法，預(yù)測更豐富的空氣質(zhì)量數(shù)據(jù)，為進一步設(shè)計出一個具有實用性的空氣質(zhì)量預(yù)測系統(tǒng)打下了堅實的理論基礎(chǔ)。