• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于多階段聚類(lèi)的PM2.5質(zhì)量濃度預(yù)測(cè)及對(duì)比研究

    2023-06-17 06:51:52金宇凱李志生歐耀春張華剛曾江毅陳搏超
    關(guān)鍵詞:聚類(lèi)階段預(yù)測(cè)

    金宇凱,李志生,歐耀春,張華剛,曾江毅,陳搏超

    (廣東工業(yè)大學(xué) 土木與交通工程學(xué)院,廣東 廣州 510006)

    近年來(lái),隨著我國(guó)經(jīng)濟(jì)和工業(yè)的發(fā)展,空氣污染逐漸成為了一個(gè)不容忽視的問(wèn)題。PM2.5是最主要的空氣污染物,其直徑≤2.5 μm,是一種能夠懸浮于大氣中的細(xì)顆粒物。在許多流行病學(xué)研究中PM2.5都與對(duì)公眾健康的不利影響有關(guān)[1-2]。研究報(bào)告還認(rèn)為,PM2.5暴露是影響心血管發(fā)病率和死亡率的因素[3-4]。隨著我國(guó)對(duì)于環(huán)境的進(jìn)一步治理,PM2.5以及其他空氣污染物體積分?jǐn)?shù)的增長(zhǎng)有所放緩,但由于局部氣象條件的改變,仍會(huì)使空氣污染加劇[5]。因此,準(zhǔn)確預(yù)測(cè)PM2.5變得尤為重要。

    近年來(lái),隨著機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)的發(fā)展,許多學(xué)者開(kāi)始使用深度學(xué)習(xí)技術(shù)進(jìn)行預(yù)測(cè),例如白盛楠[6]、趙文芳[7]等使用長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM)方法進(jìn)行PM2.5質(zhì)量濃度預(yù)測(cè),此外,還發(fā)現(xiàn)門(mén)控循環(huán)單元 (Gate Recurrent Unit,GRU)在計(jì)算時(shí)間和性能方面優(yōu)于 LSTM。并且在不同的地區(qū)表現(xiàn)出不同的情況,如與時(shí)間和空間有關(guān)的不同情況[8-10],因此空氣質(zhì)量預(yù)測(cè)可能有不同的結(jié)果。因此,單個(gè)預(yù)測(cè)模型可能不足以在不同情況下進(jìn)行預(yù)測(cè)。

    考慮到上述方法的局限性,混合模型已廣泛應(yīng)用于空氣污染預(yù)測(cè)?;旌夏P涂梢哉厦總€(gè)算法的優(yōu)勢(shì),以實(shí)現(xiàn)更好的模型性能。許多相關(guān)研究表明,混合模型往往具有更好的預(yù)測(cè)性能[11-15],能在PM2.5質(zhì)量濃度預(yù)測(cè)中廣泛應(yīng)用。

    隨著混合聚類(lèi)算法的興起,改良的混合模型在數(shù)據(jù)挖掘與分析領(lǐng)域得到了廣泛應(yīng)用[16-17]。Huang[18]等開(kāi)發(fā)了一種深度Kmeans算法,Alguliyev[19]等將Kmeans算法應(yīng)用于大數(shù)據(jù),李如梅[20]等使用Kmeans分析夏季VOC的來(lái)源,周軍鋒[21]等構(gòu)建BIRCH模型并應(yīng)用于搜索領(lǐng)域,喬少杰[22]等利用高斯混合模型進(jìn)行軌跡預(yù)測(cè),崔瑋[23]等基于高斯混合模型開(kāi)發(fā)定位算法,宋董飛[24]等構(gòu)建并優(yōu)化了DBSCAN算法。

    不過(guò),已有研究仍然存在不足之處,神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)技術(shù)預(yù)測(cè)精度高,但容易陷入局部極小化[25]且收斂速度慢。Kmeans算法具有原理簡(jiǎn)單、計(jì)算速度快、集群效果優(yōu)異等優(yōu)點(diǎn)[26],高斯混合模型是Kmeans算法的優(yōu)化,HDBSCAN[27]和Agglomerative[28]等聚類(lèi)算法也得到了較為廣泛的應(yīng)用,然而利用這些聚類(lèi)算法多階段疊加,并與深度神經(jīng)網(wǎng)絡(luò)[29-31]預(yù)測(cè)相結(jié)合,目前國(guó)內(nèi)尚未有人研究。

    本研究基于多階段聚類(lèi)結(jié)合PM2.5質(zhì)量濃度預(yù)測(cè)構(gòu)建混合模型,探討多個(gè)模型的差異,通過(guò)對(duì)比各模型的預(yù)測(cè)結(jié)果,建立適用 PM2.5質(zhì)量濃度預(yù)測(cè)的多階段預(yù)測(cè)模型。

    1 方法

    1.1 HDBSCAN聚類(lèi)

    HDBSCAN (Hierarchical Density-based Spatial Clustering of Applications with Noise, 簡(jiǎn)稱(chēng)HDB)是一種分層密度聚類(lèi)算法,這種算法擴(kuò)展了DBSCAN,并將其轉(zhuǎn)化為一個(gè)層次聚類(lèi)算法,然后利用一種基于聚類(lèi)穩(wěn)定性的技術(shù)提取平面聚類(lèi)。HDBSCAN相比于DBSCAN的最大優(yōu)勢(shì)在于不用人工選擇領(lǐng)域半徑和MinPts,只需選擇最小生成類(lèi)簇的大小,算法可以自動(dòng)地推薦最優(yōu)的簇類(lèi)結(jié)果。同時(shí)定義了一種新的距離衡量方式,相互可達(dá)密度(mutual reachability distance),可以更好地反映點(diǎn)之間的密度:

    式中:corek(a)、corek(b)分別為第a、b個(gè)點(diǎn)到第k個(gè)點(diǎn)的距離。

    HDBSCAN首先計(jì)算數(shù)據(jù)集中所有數(shù)據(jù)點(diǎn)關(guān)于參數(shù)m的核心距離。其中,核心距離定義為某個(gè)數(shù)據(jù)點(diǎn)到第m個(gè)點(diǎn)的近鄰歐氏距離:

    式中:D為點(diǎn)(xi,yi)與點(diǎn)(xj,yj)之間的歐氏距離。

    接下來(lái)通過(guò)Prim算法構(gòu)建最小生成樹(shù)。Prim算法是圖論中的一種算法,最早由捷克數(shù)學(xué)家沃伊捷赫·亞爾尼克[27]提出,該算法可在加權(quán)連通圖里搜索最小生成樹(shù),構(gòu)建連通圖的集群層次結(jié)構(gòu)。按權(quán)重遞增順序?qū)ψ钚∩蓸?shù)的邊進(jìn)行排序、迭代,為每個(gè)邊創(chuàng)建一個(gè)新的合并集群,壓縮集群層次結(jié)構(gòu)。對(duì)于樹(shù)的根,為所有對(duì)象分配相同的標(biāo)簽,并按權(quán)重遞減順序從層次結(jié)構(gòu)中迭代刪除所有邊。每次刪除后,將標(biāo)簽分配給包含已刪除邊的末端頂點(diǎn)的簇,得到最終聚類(lèi)標(biāo)簽,若簇中的數(shù)據(jù)個(gè)數(shù)小于m,那該簇將會(huì)標(biāo)記為離群點(diǎn)。

    1.2 Kmeans聚類(lèi)

    Kmeans通常被稱(chēng)為勞埃德算法。Kmeans的算法步驟為:

    (1) 選擇初始化的K個(gè)樣本作為初始聚類(lèi)中心;

    (2) 針對(duì)數(shù)據(jù)集中每個(gè)樣本xi計(jì)算它到K個(gè)聚類(lèi)中心的距離并將其分到距離最小的聚類(lèi)中心所對(duì)應(yīng)的類(lèi)中,使用歐氏距離公式(式(2))計(jì)算距離;

    (3) 針對(duì)每個(gè)類(lèi)別aj,重新計(jì)算它的聚類(lèi)中心(即屬于該類(lèi)所有樣本的質(zhì)心);

    重復(fù)上面(2)、(3)兩步操作,直到達(dá)到某個(gè)中止條件(迭代次數(shù)、最小誤差變化等)。

    1.3 Agglomerative聚類(lèi)

    凝聚層次聚類(lèi)(Agglomerative Hierarchical Clustering, AHC)可在不同層次上對(duì)數(shù)據(jù)集進(jìn)行劃分[28],形成樹(shù)狀的聚類(lèi)結(jié)構(gòu),其原理是:最初將每個(gè)對(duì)象看成一個(gè)簇,接下來(lái)將這些簇通過(guò)算法一步步合并,直到達(dá)到預(yù)設(shè)的簇類(lèi)個(gè)數(shù)。Agglomerative聚類(lèi)使用歐氏距離計(jì)算不同類(lèi)別數(shù)據(jù)點(diǎn)間的距離(相似度)。

    1.4 高斯混合聚類(lèi)

    高斯混合模型(Gaussian Mixture Model, GMM),是一種流行的聚類(lèi)算法,該方法使用了高斯分布作為參數(shù)模型[22],并使用了期望最大(Expectation Maximization, EM)算法進(jìn)行訓(xùn)練。

    其概率分布為

    式中:K為聚類(lèi)的個(gè)數(shù);ak為第k個(gè)高斯的概率;p為第k個(gè)高斯的概率密度,其均值向量為μk;Σk為協(xié)方差矩陣。

    1.5 BIRCH聚類(lèi)

    綜合層次聚類(lèi)算法 (Balanced Iterative Reducing and Clustering Using Hierarchies, BIRCH)適合于數(shù)據(jù)量大的數(shù)據(jù)集,運(yùn)行速度快,只需單遍掃描數(shù)據(jù)集就能進(jìn)行聚類(lèi)[21]。

    BIRCH算法的原理為利用一個(gè)樹(shù)結(jié)構(gòu)來(lái)幫助實(shí)現(xiàn)快速的聚類(lèi)。結(jié)構(gòu)類(lèi)似于平衡B+樹(shù),一般將它稱(chēng)為聚類(lèi)特征樹(shù)(Clustering Feature Tree)。樹(shù)的每一個(gè)節(jié)點(diǎn)由若干個(gè)聚類(lèi)特征(Clustering Feature,CF)組成。每個(gè)節(jié)點(diǎn)包括葉子節(jié)點(diǎn)都有若干個(gè)CF,而內(nèi)部節(jié)點(diǎn)的CF有指向葉子節(jié)點(diǎn)的指針,所有的葉子節(jié)點(diǎn)用一個(gè)雙向鏈表鏈接起來(lái)。CF可以用PCF三元組來(lái)表示

    式中:Ncluster為該聚類(lèi)簇下點(diǎn)的數(shù)量;S為簇內(nèi)各點(diǎn)之間的線(xiàn)性向量之和;R為簇內(nèi)各向量的平方和。

    1.6 DNN

    深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)是深度學(xué)習(xí)的一種框架[30],它是一種具備至少一個(gè)隱含層的神經(jīng)網(wǎng)絡(luò)。DNN結(jié)構(gòu)如圖1所示。與淺層神經(jīng)網(wǎng)絡(luò)類(lèi)似,深度神經(jīng)網(wǎng)絡(luò)也能夠?yàn)閺?fù)雜非線(xiàn)性系統(tǒng)提供建模,但多出的層次為模型提供了更高的抽象層次,因而提高了模型的能力[29]。DNN的激活函數(shù)在本文選擇ReLU,ReLU的有效性體現(xiàn)在2個(gè)方面:克服梯度消失的問(wèn)題,加快訓(xùn)練速度[31]。

    圖1 深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Deep neural network structure

    式中:x為輸入值。

    2 案例研究

    2.1 研究區(qū)

    深圳是我國(guó)的一線(xiàn)城市,也是粵港澳大灣區(qū)的中心城市之一。同時(shí)深圳是中國(guó)車(chē)流量最大的口岸城市,經(jīng)濟(jì)和工業(yè)發(fā)展速度快,是中國(guó)現(xiàn)代化城市的代表。本文選取了荔園、洪湖、華僑城、南油、鹽田、龍崗、西鄉(xiāng)、南澳、葵涌、梅沙、觀瀾共計(jì)11個(gè)空氣質(zhì)量監(jiān)測(cè)站(如圖2所示),為了更好地分析深圳市的PM2.5質(zhì)量濃度,本文計(jì)算所有監(jiān)測(cè)站的平均值作為整個(gè)城市的空氣質(zhì)量特征[32]。

    圖2 深圳市空氣質(zhì)量監(jiān)測(cè)站分布Fig.2 Distribution of air quality monitoring stations in Shenzhen

    2.2 數(shù)據(jù)源

    本研究采用的數(shù)據(jù)主要包括深圳市2015年全年的空氣質(zhì)量監(jiān)測(cè)歷史數(shù)據(jù)、氣象監(jiān)測(cè)站歷史數(shù)據(jù)。其中,空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù)來(lái)自中國(guó)環(huán)境監(jiān)測(cè)總站的全國(guó)城市空氣質(zhì)量實(shí)時(shí)發(fā)布平臺(tái)(http://106.37.208.233:20035/)的逐時(shí)數(shù)據(jù),氣象監(jiān)測(cè)站歷史數(shù)據(jù)來(lái)自全國(guó)溫室數(shù)據(jù)系統(tǒng)(http://data.sheshiyuanyi.com/WeatherData/)。

    2.3 數(shù)據(jù)預(yù)處理

    首先進(jìn)行數(shù)據(jù)劃分,使用sklearn的train_test_split函數(shù)對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)劃分,消除偶然性,取訓(xùn)練集7 008條(80%),測(cè)試集1 752條(20%)。

    其次,由于實(shí)際監(jiān)測(cè)數(shù)據(jù)存在異常離群值或缺失值等情況,需要對(duì)初始數(shù)據(jù)進(jìn)行篩選和填補(bǔ)。通過(guò)對(duì)樣本進(jìn)行四分位法分析,得出數(shù)據(jù)中共有552條缺失值,約占據(jù)了總數(shù)據(jù)(8 760)的6.3%,直接刪除可能會(huì)產(chǎn)生精度影響,因此選擇線(xiàn)性插值[33]對(duì)數(shù)據(jù)進(jìn)行插補(bǔ)。相比于傳統(tǒng)的均值填補(bǔ)降低數(shù)據(jù)方差的方法,本方法對(duì)于相鄰時(shí)間段內(nèi)缺失的數(shù)據(jù),使用前后兩個(gè)時(shí)刻的數(shù)據(jù)進(jìn)行線(xiàn)性插值,能夠有效地減小誤差:

    式中:t為缺失值的時(shí)間節(jié)點(diǎn);u和v分別為t時(shí)刻前和t時(shí)刻后未缺失數(shù)據(jù)的時(shí)間節(jié)點(diǎn);yu,yv為u,v時(shí)刻的監(jiān)測(cè)值;L(t)為計(jì)算結(jié)果,即插補(bǔ)值。

    從圖3中可以看出,PM2.5反映出周期性與相似性。因此,在模型的設(shè)計(jì)中加入了時(shí)間特性,能更好地預(yù)測(cè)數(shù)值趨勢(shì)。

    圖3 2015全年深圳市PM2.5逐時(shí)質(zhì)量濃度Fig.3 Hourly concentration of PM2.5 in Shenzhen in 2015

    2.4 相關(guān)性分析

    相關(guān)性分析采用皮爾森相關(guān)系數(shù):

    式中:rxy為變量x和y的Pearson相關(guān)系數(shù),n為觀測(cè)對(duì)象的數(shù)量,xi為x的第i個(gè)觀測(cè)值,yi為y的第i個(gè)觀測(cè)值。

    從圖4可以看出,PM2.5與5個(gè)空氣污染物體積分?jǐn)?shù)以及氣壓和日照時(shí)數(shù)呈現(xiàn)正相關(guān),與風(fēng)速、氣溫和濕度為負(fù)相關(guān)。其中,與NO2和CO較為相關(guān),相關(guān)系數(shù)分別達(dá)到了0.69,0.68。應(yīng)當(dāng)指出,如果自變量和因變量之間的相關(guān)性過(guò)強(qiáng)(>0.8)[32],則兩者之間沒(méi)有區(qū)別。如果自變量和因變量之間的相關(guān)性太弱(<0.55)[34],則它們之間沒(méi)有相關(guān)性。這兩種情況下聚類(lèi)是沒(méi)有效果的[32]。因此,為了確保輸入樣本的多樣性,需要綜合考慮自變量和因變量之間的相關(guān)性和獨(dú)立性。NO2與PM2.5的相關(guān)系數(shù)的絕對(duì)值符合要求,因此本文選擇NO2與PM2.5進(jìn)行聚類(lèi)。

    2.5 實(shí)驗(yàn)流程

    本次實(shí)驗(yàn)的環(huán)境搭建使用的是Python3.7.6,Tensorflow2.2.0。

    PM2.5質(zhì)量濃度預(yù)測(cè)共分為數(shù)據(jù)預(yù)處理、模型建立以及預(yù)測(cè)輸出3個(gè)部分,如,如圖5所示。

    圖5 實(shí)驗(yàn)路線(xiàn)圖Fig.5 Experimental Roadmap

    2.5.1 數(shù)據(jù)預(yù)處理

    數(shù)據(jù)預(yù)處理如上文所述。自變量共包含風(fēng)速、氣溫、日照時(shí)數(shù)、氣壓、濕度、PM10質(zhì)量濃度(wPM10)、O3體積分?jǐn)?shù)( φO3)、NO2體積分?jǐn)?shù)(φNO2)、CO體積分?jǐn)?shù)(φCO)、SO2體積分?jǐn)?shù)(φSO2)共10個(gè)變量。

    2.5.2 模型建立

    (1) 第1階段聚類(lèi)。第1階段使用密度聚類(lèi)識(shí)別離群值。與傳統(tǒng)離群值監(jiān)測(cè)方法相比,密度聚類(lèi)更加準(zhǔn)確[35],能夠有效減少誤刪。并且,由于Kmeans、BIRCH等算法對(duì)噪點(diǎn)較為敏感,第1階段聚類(lèi)需要識(shí)別出噪點(diǎn)并進(jìn)行剔除(剔除后使用線(xiàn)性插值進(jìn)行插補(bǔ))。HDBSCAN較為符合這個(gè)特點(diǎn)。

    (2) 第2階段聚類(lèi)。Kmeans、高斯、AHC聚類(lèi)算法需確定一個(gè)超參數(shù),即簇?cái)?shù),使用輪廓系數(shù)法確定。BIRCH需要選擇簇?cái)?shù)以及權(quán)重系數(shù)2個(gè)參數(shù),首先采用網(wǎng)格搜索進(jìn)行權(quán)重系數(shù)的選擇,然后采用輪廓系數(shù)法進(jìn)行簇?cái)?shù)選擇

    (3) DNN預(yù)測(cè)。首先根據(jù)DNN的特性,進(jìn)行算法初始參數(shù)設(shè)置。再根據(jù)輸出結(jié)果的情況,進(jìn)行調(diào)節(jié)參數(shù)以及參數(shù)選取設(shè)置。然后利用訓(xùn)練集進(jìn)行模型訓(xùn)練,保存最優(yōu)模型。經(jīng)過(guò)調(diào)參,最優(yōu)模型的隱藏層為4層,節(jié)點(diǎn)數(shù)分別為128,64,32,32。激活函數(shù)選擇ReLu,學(xué)習(xí)率設(shè)置為0.1。

    2.5.3 預(yù)測(cè)輸出

    建立好模型并且精度達(dá)到要求后,將預(yù)測(cè)數(shù)據(jù)輸入模型,最后得到預(yù)測(cè)結(jié)果。

    2.6 模型評(píng)價(jià)

    為了合理評(píng)價(jià)模型的綜合性能,本文分別構(gòu)建平均絕對(duì)誤差MAE、均方差RMSE、平均絕對(duì)百分比誤差 MAPE 、相關(guān)系數(shù)R這4個(gè)指標(biāo)對(duì)模型進(jìn)行評(píng)估。MAE能更好地反映觀測(cè)值誤差的實(shí)際情況,RMSE 用來(lái)衡量觀測(cè)值和真實(shí)值之間的偏差,兩者的研究目的不同。4個(gè)指標(biāo)的定義公式為

    式中:n為數(shù)據(jù)的數(shù)量;cti為第i個(gè)樣本點(diǎn)污染物質(zhì)量濃度真實(shí)值(μg/m3);cpi為第i個(gè)樣本點(diǎn)污染物質(zhì)量濃度預(yù)測(cè)值(μg/m3);cp和ct分別為預(yù)測(cè)結(jié)果和真實(shí)結(jié)果的平均值(μg/m3)。

    3 結(jié)果分析

    3.1 第1階段聚類(lèi)

    3.1.1 輪廓系數(shù)法

    聚類(lèi)前,首先對(duì)數(shù)據(jù)進(jìn)行歸一化處理。在本模型中,使用HDBSCAN作為第1階段聚類(lèi)算法,HDBSCAN只需調(diào)節(jié)1個(gè)超參數(shù),即最小聚類(lèi)規(guī)模(min_cluster_size),通過(guò)調(diào)節(jié)該參數(shù)可以自動(dòng)計(jì)算簇?cái)?shù)。本文采用輪廓系數(shù)法(Silhouette Coefficient, 以下簡(jiǎn)稱(chēng)S)確定超參數(shù),S越大,表明聚類(lèi)效果愈好[36]。

    式中:di為第i個(gè)簇,N為點(diǎn)的個(gè)數(shù)。

    3.1.2 聚類(lèi)結(jié)果

    如圖6(a)所示,輪廓系數(shù)最大值為最小聚類(lèi)規(guī)模等于9的時(shí)候,輪廓系數(shù)為0.432。圖6(b)為聚類(lèi)后的結(jié)果,可以看出,大部分的離群值被識(shí)別出,并使用了灰色進(jìn)行標(biāo)識(shí)。此外,還有兩團(tuán)微小簇,個(gè)數(shù)分別為9和10,考慮到這兩簇的位置更接近離群值,因此也將這兩簇歸為噪聲,共得到329條(3.7%)噪聲值,采用線(xiàn)性插值進(jìn)行插補(bǔ)。

    圖6 HDBSCAN輪廓系數(shù)圖和聚類(lèi)結(jié)果圖Fig.6 Contour coefficient graph and clustering result graph of HDBSCAN

    3.2 第2階段聚類(lèi)

    確定簇?cái)?shù)。如圖7所示,4種聚類(lèi)算法均在K=2,即在2簇時(shí)達(dá)到了輪廓系數(shù)最大值,高斯混合聚類(lèi)輪廓系數(shù)較低,為0.45,AHC、BIRCH、Kmeans聚類(lèi)較為接近,分別為0.54,0.56,0.54。圖8顯示了4種聚類(lèi)的結(jié)果。

    圖7 第2階段聚類(lèi)輪廓系數(shù)圖Fig.7 Second stage clustering contour coefficient graph

    圖8 4種模型第2階段聚類(lèi)結(jié)果Fig.8 The second stage clustering results of four models

    3.3 DNN預(yù)測(cè)

    精度分析。為了分析多階段聚類(lèi)的性能,本文選擇了單階段聚類(lèi)以及不進(jìn)行聚類(lèi)的6個(gè)預(yù)測(cè)模型作為對(duì)照。所有模型都以原始數(shù)據(jù)計(jì)算精度。預(yù)測(cè)結(jié)果如圖9所示。

    圖9 4種模型預(yù)測(cè)值與真實(shí)值的對(duì)比Fig.9 Comparison of predicted value and real value of four models

    通過(guò)分析,一階段和多階段聚類(lèi)的預(yù)測(cè)模型較DNN模型均獲得了不同幅度的提升(見(jiàn)表1)。在單階段聚類(lèi)模型中,BIRCH-DNN模型是最優(yōu)模型,4個(gè)指標(biāo)均獲得了20%左右的提升。在多階段聚類(lèi)模型中,HDB-Kmeans-DNN模型提升最大,4個(gè)指標(biāo)較單步預(yù)測(cè)模型分別提升了3.39,3.23,2.36,0.08,約提升了20%。HDB-AHC-DNN模型提升較不明顯,HDBGMM-DNN模型和HDB-BIRCH-DNN模型預(yù)測(cè)能力較為接近,但后者的時(shí)間消耗更短。

    表1 不同模型預(yù)測(cè)結(jié)果Table 1 Predict results of different models

    4 結(jié)論

    本研究建立了基于多階段聚類(lèi)的PM2.5預(yù)測(cè)模型,以預(yù)測(cè)和分析PM2.5的小時(shí)平均質(zhì)量濃度。并用多階段聚類(lèi)預(yù)測(cè)模型與其他的非聚類(lèi)預(yù)測(cè)模型以及單階段聚類(lèi)預(yù)測(cè)模型進(jìn)行比較,以證明其有效性。相關(guān)性分析結(jié)果表明,NO2和CO的體積分?jǐn)?shù)在預(yù)測(cè)PM2.5質(zhì)量濃度方面發(fā)揮重要作用,其中NO2與PM2.5更為相關(guān),相關(guān)系數(shù)為0.69。

    聚類(lèi)結(jié)果顯示,PM2.5聚類(lèi)處理后,噪聲基本消除,PM2.5的周期性變得更加穩(wěn)定。

    本研究的不足之處在于,PM2.5極高質(zhì)量濃度值的預(yù)測(cè)不太理想,今后可能需要優(yōu)化聚類(lèi)算法以及預(yù)測(cè)算法,以提升極端空氣污染的預(yù)警能力。

    本研究的結(jié)論如下。

    (1) 提出了基于多階段聚類(lèi)的PM2.5預(yù)測(cè)模型,較傳統(tǒng)深度學(xué)習(xí)模型大幅度提升了精度,預(yù)測(cè)效果較好。

    (2) 提出了一種基于HDBSCAN聚類(lèi)的去除噪點(diǎn)方法,實(shí)驗(yàn)結(jié)果表明,這種方法適用于多階段聚類(lèi)預(yù)測(cè)模型。

    (3) 對(duì)比了多種常規(guī)聚類(lèi)算法,實(shí)驗(yàn)結(jié)果表明,不同的算法在聚類(lèi)效果和預(yù)測(cè)效果上具有顯著差異,其中HDB-Kmeans-DNN模型精度和誤差較為理想,可以應(yīng)用于實(shí)際預(yù)測(cè)。

    猜你喜歡
    聚類(lèi)階段預(yù)測(cè)
    無(wú)可預(yù)測(cè)
    黃河之聲(2022年10期)2022-09-27 13:59:46
    選修2-2期中考試預(yù)測(cè)卷(A卷)
    選修2-2期中考試預(yù)測(cè)卷(B卷)
    關(guān)于基礎(chǔ)教育階段實(shí)驗(yàn)教學(xué)的幾點(diǎn)看法
    在學(xué)前教育階段,提前搶跑,只能跑得快一時(shí),卻跑不快一生。
    莫愁(2019年36期)2019-11-13 20:26:16
    基于DBSACN聚類(lèi)算法的XML文檔聚類(lèi)
    不必預(yù)測(cè)未來(lái),只需把握現(xiàn)在
    基于改進(jìn)的遺傳算法的模糊聚類(lèi)算法
    大熱的O2O三個(gè)階段,你在哪?
    兩岸婚戀邁入全新階段
    海峽姐妹(2015年6期)2015-02-27 15:11:19
    门头沟区| 南川市| 蕲春县| 嘉禾县| 克什克腾旗| 米易县| 沂源县| 南靖县| 绥棱县| 湘潭县| 关岭| 乐业县| 安新县| 江源县| 杨浦区| 绍兴市| 静乐县| 葫芦岛市| 盱眙县| 金山区| 淮滨县| 阳西县| 沙田区| 虎林市| 满洲里市| 津南区| 白朗县| 秭归县| 长寿区| 三明市| 河津市| 湟中县| 洛阳市| 九江县| 宁蒗| 鄂托克前旗| 阿克苏市| 武宣县| 吉水县| 铜川市| 淮安市|