• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于數(shù)據(jù)挖掘的空氣質(zhì)量預(yù)測模型研究*

      2021-09-15 08:34:56周凱劉萍
      計算機與數(shù)字工程 2021年8期
      關(guān)鍵詞:時序差分空氣質(zhì)量

      周凱 劉萍

      (陸軍炮兵防空兵學(xué)院 合肥 230000)

      1 引言

      “綠水青山就是金山銀山”,十八大以來,人們逐漸把生態(tài)文明建設(shè)放在突出位置。在各種有力措施的治理下,空氣質(zhì)量作為生態(tài)文明建設(shè)的重要一環(huán),其情況得到了有效改善。但大氣污染物對身體健康的影響還持續(xù)存在。像華北地區(qū),進入秋冬季,霧霾便會籠罩全城,引起一系列呼吸道疾病,嚴(yán)重的造成交通事故危及生命。據(jù)世界衛(wèi)生組織稱,每年因空氣污染導(dǎo)致疾病而死亡的人數(shù)高達700萬[1]。因此在大數(shù)據(jù)技術(shù)浪潮興起的今天,如何通過數(shù)據(jù)挖掘和分析對未來空氣質(zhì)量,進行實時有效的預(yù)測預(yù)警,以避免各種災(zāi)難的發(fā)生,成為一個亟待研究的課題。

      數(shù)據(jù)挖掘技術(shù)在20世紀(jì)90年代得到了飛速的發(fā)展,所謂數(shù)據(jù)挖掘,顧名思義即是在大量的關(guān)系或非關(guān)系數(shù)據(jù)庫中發(fā)掘出隱含的、未知的有價值信息。它是一種決策支持過程,主要為決策者提供信息支持。主要基于機器學(xué)習(xí)、人工智能、傳統(tǒng)統(tǒng)計學(xué)等數(shù)理手段。通常由數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘和數(shù)據(jù)分析三階段組成??諝赓|(zhì)量數(shù)據(jù)經(jīng)過數(shù)十年的積累,其隱含的價值是可觀的??諝赓|(zhì)量指數(shù)(AQI)是衡量一個地區(qū)此刻空氣質(zhì)量水平的一個重要指標(biāo),指數(shù)越大,危害越大[2]。

      空氣質(zhì)量數(shù)據(jù)是典型的時序數(shù)據(jù),主要來自地面監(jiān)測、氣象衛(wèi)星等采集站點。通過對空氣質(zhì)量數(shù)據(jù)進行數(shù)理分析已經(jīng)成為空氣質(zhì)量預(yù)測的可行性途徑之一。傳統(tǒng)的空氣質(zhì)量預(yù)測主要分為數(shù)值預(yù)測和統(tǒng)計學(xué)預(yù)測兩種,所謂數(shù)值預(yù)測過去幾十年主流的一種預(yù)測方式,它主要是通過已有的空氣質(zhì)量數(shù)據(jù),推導(dǎo)總結(jié)出一系列的物理學(xué)和化學(xué)狀態(tài)方程,這些方程通常是高階微分方程,通過導(dǎo)入相應(yīng)參數(shù)得到未來空氣質(zhì)量數(shù)值,但這種預(yù)測方式需要規(guī)模龐大的計算力,而且考慮的影響方面相當(dāng)有限,比如像人力活動等,數(shù)值預(yù)測的參數(shù)就很難把握并量化。而統(tǒng)計學(xué)預(yù)測則是通過數(shù)學(xué)建模分析已有數(shù)據(jù),像非線性數(shù)值分析、多元統(tǒng)計、灰色分析、車貝雪夫展開等,但統(tǒng)計學(xué)預(yù)測存在周期長,操作復(fù)雜等限制,難以及時迅速準(zhǔn)確地提供空氣質(zhì)量數(shù)據(jù)的相關(guān)信息。隨著時間的推移和空氣質(zhì)量數(shù)據(jù)采集處理技術(shù)的多元發(fā)展,人們開始逐步采用機器學(xué)習(xí)等新技術(shù)進行空氣質(zhì)量數(shù)據(jù)的預(yù)測以彌補傳統(tǒng)預(yù)測方法的不足。但傳統(tǒng)機器學(xué)習(xí)等預(yù)測方法一般采用的是批處理的學(xué)習(xí)和預(yù)測方式,即在一次樣本學(xué)習(xí)和預(yù)測后,便不會對新樣本進行學(xué)習(xí),這就加大了空氣質(zhì)量預(yù)測的誤差,偏離了實時預(yù)測的軌道,很難有效地應(yīng)用到實際工程之中[3]。

      基于空氣質(zhì)量預(yù)測的實際需求,本文在前人研究的基礎(chǔ)之上,對比、研究和采納不同計算框架的優(yōu)缺點,選取兩種分別代表不同類型架構(gòu)的模型進行空氣質(zhì)量預(yù)測。以尋求一種理想的空氣質(zhì)量預(yù)測模型。

      2 模型原理

      2.1 ARIMA原理

      為了對比不同模型在預(yù)測上的精度優(yōu)勢,我們首先比較傳統(tǒng)的時間序列分析法,ARIMA(自回歸移動平均模型)是傳統(tǒng)統(tǒng)計模型最常見的時間序列預(yù)測模型。自20世紀(jì)70年代提出后,與不少算法模型組合在預(yù)測領(lǐng)域取得矚目的成績,其基本思想是將時序數(shù)據(jù)看成一個隨機序列,通過數(shù)學(xué)模型對其內(nèi)部構(gòu)造和復(fù)雜特性進行近似描述,以最小方差為目標(biāo)的最佳預(yù)測[4]。時間序列的分析主要從頻域和時域兩種角度進行分析,頻域分析在此不做贅述,

      在時域方面,如果時間序列特征隨時間而變化,則可說時間序列是非平穩(wěn)的,反之是平穩(wěn)的。如果去除均值和確定性因素的隨機過程可以用式(1)表示[5]:

      則可說該過程是p階自回歸過程,其中φi是自回歸參數(shù),lt是白噪聲,可用AR(p)表示。

      如果去除均值和確定性因素的隨機過程可用上式表示,則稱該過程為q階移動平均過程,其中θi是自回歸參數(shù),lt是白噪聲。如果去除均值和確定性因素的隨機過程由上述兩過程共同表示,就可稱其為自回歸移動平均過程[6],表示如下:

      差分過程為現(xiàn)實值與滯后值的差為固定值的冪,幾次冪就稱為幾次差分。如果一個隨機過程經(jīng)過d次差分后變換為一個平穩(wěn)的自回歸移動平均過程,則稱該過程為單積自回歸移動平均過程,ARIMA預(yù)測模型的一般形式如下:

      其中,p表示預(yù)測模型中采用的時序數(shù)據(jù)本身的滯后數(shù),d表示時序數(shù)據(jù)需要進行幾階差分化,才是穩(wěn)定的,q表示需要移動平均的階數(shù)??諝赓|(zhì)量數(shù)據(jù)是在固定間隔的時間差采集的離散數(shù)據(jù),其變量前后必然存在某種聯(lián)系,ARIMA預(yù)測正是尋找這種聯(lián)系對未來一定時間內(nèi)的變量進行預(yù)測[7]。

      2.2 GRU神經(jīng)網(wǎng)絡(luò)原理

      實現(xiàn)神經(jīng)網(wǎng)絡(luò)在時序問題上的應(yīng)用,繞不開對遞歸神經(jīng)網(wǎng)絡(luò)的研究,遞歸神經(jīng)網(wǎng)絡(luò)RNN也叫循環(huán)神經(jīng)網(wǎng)絡(luò),其在結(jié)構(gòu)設(shè)計上與傳統(tǒng)的前饋式神經(jīng)網(wǎng)絡(luò)不同,它也由輸入層、隱含層和輸出層組成。它考慮到前置樣本對當(dāng)前樣本的影響,突出時序?qū)δP皖A(yù)測的作用[8],其數(shù)學(xué)表達式為

      其中,V、W和U分別為輸出層權(quán)值矩陣、上一層隱含層作為這次輸入的權(quán)值矩陣、輸入層權(quán)值矩陣,f和g都為激活函數(shù),st是隱含層狀態(tài),xt是輸入值。

      其中LSTM(長短期記憶)網(wǎng)絡(luò)為典型的遞歸神經(jīng)網(wǎng)絡(luò)RNN的一種變型,標(biāo)準(zhǔn)RNN中只有一個神經(jīng)元細(xì)胞,一個隱含層進行學(xué)習(xí),這樣由于在結(jié)構(gòu)上的限制就會在長期記憶方面存在一定的不足,為了實現(xiàn)長期記憶,LSTM在RNN的基礎(chǔ)上,增加了記憶單元[9]。

      LSTM網(wǎng)絡(luò)在結(jié)構(gòu)增加門單元,來控制前置信息影響力的大小,實現(xiàn)了對長距離數(shù)據(jù)對現(xiàn)時數(shù)據(jù)的有效影響。設(shè)置了三個門,這三個門分別是遺忘門、輸入門和輸出門。每個門實現(xiàn)不同的功能,其中遺忘門控制保留多少狀態(tài)到目前時刻;輸入門控制輸入多少當(dāng)前時刻到當(dāng)前狀態(tài);輸出門控制當(dāng)前時刻的輸出[10]。基本公式如下:

      σ單元輸出0到1的值,可以通過權(quán)值控制每部分輸入的量。遺忘門,讀取輸入xt和前置神經(jīng)元的h信息,并通過函數(shù)值確定要丟棄多少信息。

      輸入門,通過控制量函數(shù)和tanh函數(shù)更新細(xì)胞狀態(tài)。

      輸出門,控制舊細(xì)胞狀態(tài),將細(xì)胞舊狀態(tài)通過權(quán)值控制,忘記需要丟棄的信息,加上新的候選值,舊細(xì)胞狀態(tài)得以更新[11]。

      最后的輸出為ht,通過一個權(quán)值控制層確定哪些細(xì)胞狀態(tài)輸出出去,然后將舊細(xì)胞狀態(tài)通過tanh處理后與輸出相乘確定最終輸出。

      LSTM是RNN的變體,GRU則是LSTM的變體,LSTM實現(xiàn)了對遠(yuǎn)距離依賴的有效處理,GRU則實現(xiàn)處理速度的提升。GRU在網(wǎng)絡(luò)結(jié)構(gòu)上與LSTM類似,但它只有兩個門,它們分別是更新門和重置門。更新門控制先前狀態(tài)的保留,其值越大,先前狀態(tài)的影響就越大。復(fù)位門控制新輸入與先前狀態(tài)的關(guān)系,其值越小,記憶先前狀態(tài)影響越小。公式如下[12]:

      圖1 GRU單元結(jié)構(gòu)

      3 實驗與結(jié)果分析

      3.1 數(shù)據(jù)準(zhǔn)備與分析

      選取北京市2014年1月1日~2014年12月31日的AQI小時數(shù)據(jù)作為各個模型的研究對象,經(jīng)過數(shù)據(jù)缺失值和異常值處理后,一共得到8760條數(shù)據(jù)。選取的AQI數(shù)據(jù)是典型的時序數(shù)據(jù),符合各時間點上數(shù)值序列的特征。本文對一年之中的AQI時間序列作二維曲線圖,XY軸分別表示測量序列及濃度值,便于形象直觀地展現(xiàn)出AQI的變化規(guī)律。

      為了方便所選模型訓(xùn)練學(xué)習(xí),減少數(shù)據(jù)偏移、幅度縮放、線性趨勢和噪聲對后續(xù)計算的影響。對所選數(shù)據(jù)進行歸一化處理,公式如下:

      3.2 基于ARIMA時序分析預(yù)測的空氣質(zhì)量預(yù)測模型

      基于ARIMA的空氣質(zhì)量預(yù)測模型我們選取后280個樣本數(shù)據(jù)進行模型預(yù)測,其基本預(yù)測步驟可以分為以下四步。

      1)首先考察空氣質(zhì)量數(shù)據(jù)序列是否平穩(wěn),觀察是否具有季節(jié)性,是否為白噪聲,依據(jù)空氣質(zhì)量數(shù)據(jù)的ACF(自相關(guān))系數(shù)和PACF(偏自相關(guān))系數(shù)我們得到圖2。

      圖2 自相關(guān)與偏自相關(guān)圖

      在自相關(guān)圖系數(shù)是一個衰減的趨勢,我們可以判定為拖尾,偏自相關(guān)圖在3階長的時候系數(shù)趨于零,可以看出是截尾。因此我們可以判定空氣質(zhì)量時序數(shù)據(jù)是不平穩(wěn)的,需要進一步作差分分析。

      2)空氣質(zhì)量數(shù)據(jù)平穩(wěn)處理。雖然空氣質(zhì)量數(shù)據(jù)受季節(jié)影響,但在圖形曲線中并沒有呈現(xiàn)季節(jié)性變化,我們只考慮通過差分方法使時間序列平穩(wěn),分別嘗試差分階數(shù)為1、2、3、4,繪制時序圖如圖3。

      圖3 差分圖

      從經(jīng)過差分處理的圖中,我們發(fā)現(xiàn)當(dāng)差分階數(shù)取4時時序數(shù)據(jù)趨于平穩(wěn)。

      3)確定ARIMA模型參數(shù)及類型,空氣質(zhì)量時序數(shù)據(jù)平穩(wěn)處理后,再次通過繪制自相關(guān)和偏自相關(guān)圖,通過下圖可知,平穩(wěn)序列的自相關(guān)函數(shù)和偏自相關(guān)函數(shù)均為拖尾,因此我們選用ARIMA模型,偏自相關(guān)圖在滯后為5以后趨于零,我們暫定P參數(shù)為5;自相關(guān)系數(shù)圖中顯著不為0的自相關(guān)數(shù)為2,我們暫定q參數(shù)為2,至此我們選擇模型ARIMA(5,4,2)。

      圖4 4階差分后的自相關(guān)和偏自相關(guān)圖

      4)根據(jù)選定模型進行預(yù)測分析。通過模型代入,給出ARIMA殘差自相關(guān)和偏自相關(guān)函數(shù)圖,從圖中可知ACF和PACF圖皆沒有明顯拖尾和截尾,表明預(yù)測模型的選取是恰當(dāng)?shù)摹?/p>

      圖5 ARIMA殘差相關(guān)函數(shù)圖

      將原始數(shù)據(jù)代入模型,我們得到ARIMA擬合預(yù)測圖,從圖中我們可知,擬合值與輸入值擬合效果較好。擬合度均方誤差3.664,平均絕對誤差均值1.975(如表1所示),達到了擬合的預(yù)期。然后對后12h進行預(yù)測,從結(jié)果我們可以看出在前3h置信區(qū)間較小,預(yù)測精度較高,但隨著預(yù)測時長的增長,ARIMA空氣質(zhì)量模型的置信區(qū)間隨之增大,預(yù)測精度減低。如果我們需要實現(xiàn)長期預(yù)測,還需尋求對遠(yuǎn)端樣本有明顯精度預(yù)測的模型。

      表1 模型擬合統(tǒng)計

      3.3 基于GRU的空氣質(zhì)量預(yù)測模型

      根據(jù)前文數(shù)據(jù)樣本分析,我們知道選取的AQI樣本為單純的時序樣本,所謂AQI指數(shù)是將六種主要污染物中最高的污染指數(shù)作為AQI指數(shù),基于上述分析,AQI數(shù)據(jù)樣本的時序分析沒有其他變量可以輸入,我們選取后8000個樣本作為訓(xùn)練樣本,用后48h的數(shù)據(jù)作為樣本檢測。GRU空氣質(zhì)量預(yù)測模型的學(xué)習(xí)衰減率選為0.002,隱含層單元設(shè)置為9,經(jīng)過訓(xùn)練5000次,可得空氣質(zhì)量預(yù)數(shù)據(jù)在訓(xùn)練計算過程中損失函數(shù)情況[13]。

      表2 GRU模型訓(xùn)練損失函數(shù)值

      經(jīng)過樣本訓(xùn)練5000次,模型損失函數(shù)值逐漸減少,當(dāng)訓(xùn)練5000次時損失函數(shù)值為0.3012,使用經(jīng)過訓(xùn)練的模型對指定48h時間步長進行預(yù)測,預(yù)測結(jié)果對比圖如圖6。

      圖6 GRU空氣預(yù)測模型精度對比圖

      圖中實線為實際測量,虛線為實時預(yù)測數(shù)值??梢钥闯?,在輸入數(shù)據(jù)后得到的48h內(nèi)的預(yù)測結(jié)果與實際結(jié)果較吻合,證明本文提出的預(yù)測模型有較好的預(yù)測精度,實現(xiàn)了短期預(yù)測的設(shè)計目的。說明本文提出的模型切實可行,到此證明了預(yù)測模型的可行性,然后將提出的兩種模型進行對比[14]。

      對比方法我們采用均方根誤差法進行對比,均方根誤差法(RMSE)是通過預(yù)測值減去實際值,將差平方后累加,除以樣本個數(shù),最后將商開方,具體公式如下:

      其中y1為預(yù)測值,y2為實際值,d為樣本個數(shù)。通過均方根誤差可以很好評價一個模型預(yù)測精度的好壞,其計算值越小,預(yù)測能力越好。表3為兩種預(yù)測模型均方根誤差比較[15]。

      表3 預(yù)測模型RMSE對比

      通過表3,我們對兩種預(yù)測模型進行均方誤差對比,發(fā)現(xiàn)基于GRU網(wǎng)絡(luò)的預(yù)測模型在空氣質(zhì)量預(yù)測方面有較突出的記憶能力和通用性,對提高空氣質(zhì)量模型的預(yù)測精度有很高的學(xué)術(shù)價值。

      4 結(jié)語

      本文根據(jù)空氣質(zhì)量時序數(shù)據(jù)的特點,分析了提高空氣質(zhì)量預(yù)測精度的必要性,總結(jié)了前人經(jīng)驗,先對空氣質(zhì)量數(shù)據(jù)的平穩(wěn)性進行了分析,隨后根據(jù)ARIMA模型建立步驟,進行時序數(shù)據(jù)平穩(wěn)化,根據(jù)自相關(guān)和偏自相關(guān)圖確定ARIMA模型,進行了擬合預(yù)測;隨后從新興循環(huán)神經(jīng)網(wǎng)絡(luò)的角度出發(fā),提出了一種基于門控循環(huán)單元網(wǎng)絡(luò)的預(yù)測模型,通過樣本選擇后進行了預(yù)測。實驗很好地證明了本文提出的模型通過各種參數(shù)設(shè)置,其可行性和出色的性能是確實存在的。并計劃在將來合并更多種類的深度學(xué)習(xí)模型并應(yīng)用更多最先進的機器學(xué)習(xí)算法,預(yù)測更豐富的空氣質(zhì)量數(shù)據(jù),為進一步設(shè)計出一個具有實用性的空氣質(zhì)量預(yù)測系統(tǒng)打下了堅實的理論基礎(chǔ)。

      猜你喜歡
      時序差分空氣質(zhì)量
      時序坐標(biāo)
      基于Sentinel-2時序NDVI的麥冬識別研究
      數(shù)列與差分
      “空氣質(zhì)量發(fā)布”APP上線
      一種毫米波放大器時序直流電源的設(shè)計
      電子制作(2016年15期)2017-01-15 13:39:08
      車內(nèi)空氣質(zhì)量標(biāo)準(zhǔn)進展
      汽車與安全(2016年5期)2016-12-01 05:22:14
      重視車內(nèi)空氣質(zhì)量工作 制造更環(huán)保、更清潔、更健康的汽車
      汽車與安全(2016年5期)2016-12-01 05:22:13
      開展“大氣污染執(zhí)法年”行動 加快推動空氣質(zhì)量改善
      基于差分隱私的大數(shù)據(jù)隱私保護
      相對差分單項測距△DOR
      太空探索(2014年1期)2014-07-10 13:41:50
      珠海市| 宝鸡市| 上犹县| 桃江县| 墨竹工卡县| 龙口市| 西平县| 珠海市| 江山市| 都昌县| 砀山县| 乐陵市| 新密市| 青田县| 唐河县| 古田县| 瑞安市| 海城市| 安顺市| 商城县| 河西区| 云林县| 会同县| 桦甸市| 邢台县| 临沧市| 日照市| 博客| 老河口市| 沁水县| 开阳县| 滁州市| 阳春市| 新巴尔虎左旗| 昌平区| 白水县| 福建省| 汉寿县| 巴中市| 清水河县| 耒阳市|