金宇凱,李志生,歐耀春,張華剛,曾江毅,陳搏超
(廣東工業(yè)大學(xué) 土木與交通工程學(xué)院,廣東 廣州 510006)
近年來(lái),隨著我國(guó)經(jīng)濟(jì)和工業(yè)的發(fā)展,空氣污染逐漸成為了一個(gè)不容忽視的問(wèn)題。PM2.5是最主要的空氣污染物,其直徑≤2.5 μm,是一種能夠懸浮于大氣中的細(xì)顆粒物。在許多流行病學(xué)研究中PM2.5都與對(duì)公眾健康的不利影響有關(guān)[1-2]。研究報(bào)告還認(rèn)為,PM2.5暴露是影響心血管發(fā)病率和死亡率的因素[3-4]。隨著我國(guó)對(duì)于環(huán)境的進(jìn)一步治理,PM2.5以及其他空氣污染物體積分?jǐn)?shù)的增長(zhǎng)有所放緩,但由于局部氣象條件的改變,仍會(huì)使空氣污染加劇[5]。因此,準(zhǔn)確預(yù)測(cè)PM2.5變得尤為重要。
近年來(lái),隨著機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)的發(fā)展,許多學(xué)者開(kāi)始使用深度學(xué)習(xí)技術(shù)進(jìn)行預(yù)測(cè),例如白盛楠[6]、趙文芳[7]等使用長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM)方法進(jìn)行PM2.5質(zhì)量濃度預(yù)測(cè),此外,還發(fā)現(xiàn)門(mén)控循環(huán)單元 (Gate Recurrent Unit,GRU)在計(jì)算時(shí)間和性能方面優(yōu)于 LSTM。并且在不同的地區(qū)表現(xiàn)出不同的情況,如與時(shí)間和空間有關(guān)的不同情況[8-10],因此空氣質(zhì)量預(yù)測(cè)可能有不同的結(jié)果。因此,單個(gè)預(yù)測(cè)模型可能不足以在不同情況下進(jìn)行預(yù)測(cè)。
考慮到上述方法的局限性,混合模型已廣泛應(yīng)用于空氣污染預(yù)測(cè)?;旌夏P涂梢哉厦總€(gè)算法的優(yōu)勢(shì),以實(shí)現(xiàn)更好的模型性能。許多相關(guān)研究表明,混合模型往往具有更好的預(yù)測(cè)性能[11-15],能在PM2.5質(zhì)量濃度預(yù)測(cè)中廣泛應(yīng)用。
隨著混合聚類(lèi)算法的興起,改良的混合模型在數(shù)據(jù)挖掘與分析領(lǐng)域得到了廣泛應(yīng)用[16-17]。Huang[18]等開(kāi)發(fā)了一種深度Kmeans算法,Alguliyev[19]等將Kmeans算法應(yīng)用于大數(shù)據(jù),李如梅[20]等使用Kmeans分析夏季VOC的來(lái)源,周軍鋒[21]等構(gòu)建BIRCH模型并應(yīng)用于搜索領(lǐng)域,喬少杰[22]等利用高斯混合模型進(jìn)行軌跡預(yù)測(cè),崔瑋[23]等基于高斯混合模型開(kāi)發(fā)定位算法,宋董飛[24]等構(gòu)建并優(yōu)化了DBSCAN算法。
不過(guò),已有研究仍然存在不足之處,神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)技術(shù)預(yù)測(cè)精度高,但容易陷入局部極小化[25]且收斂速度慢。Kmeans算法具有原理簡(jiǎn)單、計(jì)算速度快、集群效果優(yōu)異等優(yōu)點(diǎn)[26],高斯混合模型是Kmeans算法的優(yōu)化,HDBSCAN[27]和Agglomerative[28]等聚類(lèi)算法也得到了較為廣泛的應(yīng)用,然而利用這些聚類(lèi)算法多階段疊加,并與深度神經(jīng)網(wǎng)絡(luò)[29-31]預(yù)測(cè)相結(jié)合,目前國(guó)內(nèi)尚未有人研究。
本研究基于多階段聚類(lèi)結(jié)合PM2.5質(zhì)量濃度預(yù)測(cè)構(gòu)建混合模型,探討多個(gè)模型的差異,通過(guò)對(duì)比各模型的預(yù)測(cè)結(jié)果,建立適用 PM2.5質(zhì)量濃度預(yù)測(cè)的多階段預(yù)測(cè)模型。
HDBSCAN (Hierarchical Density-based Spatial Clustering of Applications with Noise, 簡(jiǎn)稱(chēng)HDB)是一種分層密度聚類(lèi)算法,這種算法擴(kuò)展了DBSCAN,并將其轉(zhuǎn)化為一個(gè)層次聚類(lèi)算法,然后利用一種基于聚類(lèi)穩(wěn)定性的技術(shù)提取平面聚類(lèi)。HDBSCAN相比于DBSCAN的最大優(yōu)勢(shì)在于不用人工選擇領(lǐng)域半徑和MinPts,只需選擇最小生成類(lèi)簇的大小,算法可以自動(dòng)地推薦最優(yōu)的簇類(lèi)結(jié)果。同時(shí)定義了一種新的距離衡量方式,相互可達(dá)密度(mutual reachability distance),可以更好地反映點(diǎn)之間的密度:
式中:corek(a)、corek(b)分別為第a、b個(gè)點(diǎn)到第k個(gè)點(diǎn)的距離。
HDBSCAN首先計(jì)算數(shù)據(jù)集中所有數(shù)據(jù)點(diǎn)關(guān)于參數(shù)m的核心距離。其中,核心距離定義為某個(gè)數(shù)據(jù)點(diǎn)到第m個(gè)點(diǎn)的近鄰歐氏距離:
式中:D為點(diǎn)(xi,yi)與點(diǎn)(xj,yj)之間的歐氏距離。
接下來(lái)通過(guò)Prim算法構(gòu)建最小生成樹(shù)。Prim算法是圖論中的一種算法,最早由捷克數(shù)學(xué)家沃伊捷赫·亞爾尼克[27]提出,該算法可在加權(quán)連通圖里搜索最小生成樹(shù),構(gòu)建連通圖的集群層次結(jié)構(gòu)。按權(quán)重遞增順序?qū)ψ钚∩蓸?shù)的邊進(jìn)行排序、迭代,為每個(gè)邊創(chuàng)建一個(gè)新的合并集群,壓縮集群層次結(jié)構(gòu)。對(duì)于樹(shù)的根,為所有對(duì)象分配相同的標(biāo)簽,并按權(quán)重遞減順序從層次結(jié)構(gòu)中迭代刪除所有邊。每次刪除后,將標(biāo)簽分配給包含已刪除邊的末端頂點(diǎn)的簇,得到最終聚類(lèi)標(biāo)簽,若簇中的數(shù)據(jù)個(gè)數(shù)小于m,那該簇將會(huì)標(biāo)記為離群點(diǎn)。
Kmeans通常被稱(chēng)為勞埃德算法。Kmeans的算法步驟為:
(1) 選擇初始化的K個(gè)樣本作為初始聚類(lèi)中心;
(2) 針對(duì)數(shù)據(jù)集中每個(gè)樣本xi計(jì)算它到K個(gè)聚類(lèi)中心的距離并將其分到距離最小的聚類(lèi)中心所對(duì)應(yīng)的類(lèi)中,使用歐氏距離公式(式(2))計(jì)算距離;
(3) 針對(duì)每個(gè)類(lèi)別aj,重新計(jì)算它的聚類(lèi)中心(即屬于該類(lèi)所有樣本的質(zhì)心);
重復(fù)上面(2)、(3)兩步操作,直到達(dá)到某個(gè)中止條件(迭代次數(shù)、最小誤差變化等)。
凝聚層次聚類(lèi)(Agglomerative Hierarchical Clustering, AHC)可在不同層次上對(duì)數(shù)據(jù)集進(jìn)行劃分[28],形成樹(shù)狀的聚類(lèi)結(jié)構(gòu),其原理是:最初將每個(gè)對(duì)象看成一個(gè)簇,接下來(lái)將這些簇通過(guò)算法一步步合并,直到達(dá)到預(yù)設(shè)的簇類(lèi)個(gè)數(shù)。Agglomerative聚類(lèi)使用歐氏距離計(jì)算不同類(lèi)別數(shù)據(jù)點(diǎn)間的距離(相似度)。
高斯混合模型(Gaussian Mixture Model, GMM),是一種流行的聚類(lèi)算法,該方法使用了高斯分布作為參數(shù)模型[22],并使用了期望最大(Expectation Maximization, EM)算法進(jìn)行訓(xùn)練。
其概率分布為
式中:K為聚類(lèi)的個(gè)數(shù);ak為第k個(gè)高斯的概率;p為第k個(gè)高斯的概率密度,其均值向量為μk;Σk為協(xié)方差矩陣。
綜合層次聚類(lèi)算法 (Balanced Iterative Reducing and Clustering Using Hierarchies, BIRCH)適合于數(shù)據(jù)量大的數(shù)據(jù)集,運(yùn)行速度快,只需單遍掃描數(shù)據(jù)集就能進(jìn)行聚類(lèi)[21]。
BIRCH算法的原理為利用一個(gè)樹(shù)結(jié)構(gòu)來(lái)幫助實(shí)現(xiàn)快速的聚類(lèi)。結(jié)構(gòu)類(lèi)似于平衡B+樹(shù),一般將它稱(chēng)為聚類(lèi)特征樹(shù)(Clustering Feature Tree)。樹(shù)的每一個(gè)節(jié)點(diǎn)由若干個(gè)聚類(lèi)特征(Clustering Feature,CF)組成。每個(gè)節(jié)點(diǎn)包括葉子節(jié)點(diǎn)都有若干個(gè)CF,而內(nèi)部節(jié)點(diǎn)的CF有指向葉子節(jié)點(diǎn)的指針,所有的葉子節(jié)點(diǎn)用一個(gè)雙向鏈表鏈接起來(lái)。CF可以用PCF三元組來(lái)表示
式中:Ncluster為該聚類(lèi)簇下點(diǎn)的數(shù)量;S為簇內(nèi)各點(diǎn)之間的線(xiàn)性向量之和;R為簇內(nèi)各向量的平方和。
深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)是深度學(xué)習(xí)的一種框架[30],它是一種具備至少一個(gè)隱含層的神經(jīng)網(wǎng)絡(luò)。DNN結(jié)構(gòu)如圖1所示。與淺層神經(jīng)網(wǎng)絡(luò)類(lèi)似,深度神經(jīng)網(wǎng)絡(luò)也能夠?yàn)閺?fù)雜非線(xiàn)性系統(tǒng)提供建模,但多出的層次為模型提供了更高的抽象層次,因而提高了模型的能力[29]。DNN的激活函數(shù)在本文選擇ReLU,ReLU的有效性體現(xiàn)在2個(gè)方面:克服梯度消失的問(wèn)題,加快訓(xùn)練速度[31]。
圖1 深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Deep neural network structure
式中:x為輸入值。
深圳是我國(guó)的一線(xiàn)城市,也是粵港澳大灣區(qū)的中心城市之一。同時(shí)深圳是中國(guó)車(chē)流量最大的口岸城市,經(jīng)濟(jì)和工業(yè)發(fā)展速度快,是中國(guó)現(xiàn)代化城市的代表。本文選取了荔園、洪湖、華僑城、南油、鹽田、龍崗、西鄉(xiāng)、南澳、葵涌、梅沙、觀瀾共計(jì)11個(gè)空氣質(zhì)量監(jiān)測(cè)站(如圖2所示),為了更好地分析深圳市的PM2.5質(zhì)量濃度,本文計(jì)算所有監(jiān)測(cè)站的平均值作為整個(gè)城市的空氣質(zhì)量特征[32]。
圖2 深圳市空氣質(zhì)量監(jiān)測(cè)站分布Fig.2 Distribution of air quality monitoring stations in Shenzhen
本研究采用的數(shù)據(jù)主要包括深圳市2015年全年的空氣質(zhì)量監(jiān)測(cè)歷史數(shù)據(jù)、氣象監(jiān)測(cè)站歷史數(shù)據(jù)。其中,空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù)來(lái)自中國(guó)環(huán)境監(jiān)測(cè)總站的全國(guó)城市空氣質(zhì)量實(shí)時(shí)發(fā)布平臺(tái)(http://106.37.208.233:20035/)的逐時(shí)數(shù)據(jù),氣象監(jiān)測(cè)站歷史數(shù)據(jù)來(lái)自全國(guó)溫室數(shù)據(jù)系統(tǒng)(http://data.sheshiyuanyi.com/WeatherData/)。
首先進(jìn)行數(shù)據(jù)劃分,使用sklearn的train_test_split函數(shù)對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)劃分,消除偶然性,取訓(xùn)練集7 008條(80%),測(cè)試集1 752條(20%)。
其次,由于實(shí)際監(jiān)測(cè)數(shù)據(jù)存在異常離群值或缺失值等情況,需要對(duì)初始數(shù)據(jù)進(jìn)行篩選和填補(bǔ)。通過(guò)對(duì)樣本進(jìn)行四分位法分析,得出數(shù)據(jù)中共有552條缺失值,約占據(jù)了總數(shù)據(jù)(8 760)的6.3%,直接刪除可能會(huì)產(chǎn)生精度影響,因此選擇線(xiàn)性插值[33]對(duì)數(shù)據(jù)進(jìn)行插補(bǔ)。相比于傳統(tǒng)的均值填補(bǔ)降低數(shù)據(jù)方差的方法,本方法對(duì)于相鄰時(shí)間段內(nèi)缺失的數(shù)據(jù),使用前后兩個(gè)時(shí)刻的數(shù)據(jù)進(jìn)行線(xiàn)性插值,能夠有效地減小誤差:
式中:t為缺失值的時(shí)間節(jié)點(diǎn);u和v分別為t時(shí)刻前和t時(shí)刻后未缺失數(shù)據(jù)的時(shí)間節(jié)點(diǎn);yu,yv為u,v時(shí)刻的監(jiān)測(cè)值;L(t)為計(jì)算結(jié)果,即插補(bǔ)值。
從圖3中可以看出,PM2.5反映出周期性與相似性。因此,在模型的設(shè)計(jì)中加入了時(shí)間特性,能更好地預(yù)測(cè)數(shù)值趨勢(shì)。
圖3 2015全年深圳市PM2.5逐時(shí)質(zhì)量濃度Fig.3 Hourly concentration of PM2.5 in Shenzhen in 2015
相關(guān)性分析采用皮爾森相關(guān)系數(shù):
式中:rxy為變量x和y的Pearson相關(guān)系數(shù),n為觀測(cè)對(duì)象的數(shù)量,xi為x的第i個(gè)觀測(cè)值,yi為y的第i個(gè)觀測(cè)值。
從圖4可以看出,PM2.5與5個(gè)空氣污染物體積分?jǐn)?shù)以及氣壓和日照時(shí)數(shù)呈現(xiàn)正相關(guān),與風(fēng)速、氣溫和濕度為負(fù)相關(guān)。其中,與NO2和CO較為相關(guān),相關(guān)系數(shù)分別達(dá)到了0.69,0.68。應(yīng)當(dāng)指出,如果自變量和因變量之間的相關(guān)性過(guò)強(qiáng)(>0.8)[32],則兩者之間沒(méi)有區(qū)別。如果自變量和因變量之間的相關(guān)性太弱(<0.55)[34],則它們之間沒(méi)有相關(guān)性。這兩種情況下聚類(lèi)是沒(méi)有效果的[32]。因此,為了確保輸入樣本的多樣性,需要綜合考慮自變量和因變量之間的相關(guān)性和獨(dú)立性。NO2與PM2.5的相關(guān)系數(shù)的絕對(duì)值符合要求,因此本文選擇NO2與PM2.5進(jìn)行聚類(lèi)。
本次實(shí)驗(yàn)的環(huán)境搭建使用的是Python3.7.6,Tensorflow2.2.0。
PM2.5質(zhì)量濃度預(yù)測(cè)共分為數(shù)據(jù)預(yù)處理、模型建立以及預(yù)測(cè)輸出3個(gè)部分,如,如圖5所示。
圖5 實(shí)驗(yàn)路線(xiàn)圖Fig.5 Experimental Roadmap
2.5.1 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理如上文所述。自變量共包含風(fēng)速、氣溫、日照時(shí)數(shù)、氣壓、濕度、PM10質(zhì)量濃度(wPM10)、O3體積分?jǐn)?shù)( φO3)、NO2體積分?jǐn)?shù)(φNO2)、CO體積分?jǐn)?shù)(φCO)、SO2體積分?jǐn)?shù)(φSO2)共10個(gè)變量。
2.5.2 模型建立
(1) 第1階段聚類(lèi)。第1階段使用密度聚類(lèi)識(shí)別離群值。與傳統(tǒng)離群值監(jiān)測(cè)方法相比,密度聚類(lèi)更加準(zhǔn)確[35],能夠有效減少誤刪。并且,由于Kmeans、BIRCH等算法對(duì)噪點(diǎn)較為敏感,第1階段聚類(lèi)需要識(shí)別出噪點(diǎn)并進(jìn)行剔除(剔除后使用線(xiàn)性插值進(jìn)行插補(bǔ))。HDBSCAN較為符合這個(gè)特點(diǎn)。
(2) 第2階段聚類(lèi)。Kmeans、高斯、AHC聚類(lèi)算法需確定一個(gè)超參數(shù),即簇?cái)?shù),使用輪廓系數(shù)法確定。BIRCH需要選擇簇?cái)?shù)以及權(quán)重系數(shù)2個(gè)參數(shù),首先采用網(wǎng)格搜索進(jìn)行權(quán)重系數(shù)的選擇,然后采用輪廓系數(shù)法進(jìn)行簇?cái)?shù)選擇
(3) DNN預(yù)測(cè)。首先根據(jù)DNN的特性,進(jìn)行算法初始參數(shù)設(shè)置。再根據(jù)輸出結(jié)果的情況,進(jìn)行調(diào)節(jié)參數(shù)以及參數(shù)選取設(shè)置。然后利用訓(xùn)練集進(jìn)行模型訓(xùn)練,保存最優(yōu)模型。經(jīng)過(guò)調(diào)參,最優(yōu)模型的隱藏層為4層,節(jié)點(diǎn)數(shù)分別為128,64,32,32。激活函數(shù)選擇ReLu,學(xué)習(xí)率設(shè)置為0.1。
2.5.3 預(yù)測(cè)輸出
建立好模型并且精度達(dá)到要求后,將預(yù)測(cè)數(shù)據(jù)輸入模型,最后得到預(yù)測(cè)結(jié)果。
為了合理評(píng)價(jià)模型的綜合性能,本文分別構(gòu)建平均絕對(duì)誤差MAE、均方差RMSE、平均絕對(duì)百分比誤差 MAPE 、相關(guān)系數(shù)R這4個(gè)指標(biāo)對(duì)模型進(jìn)行評(píng)估。MAE能更好地反映觀測(cè)值誤差的實(shí)際情況,RMSE 用來(lái)衡量觀測(cè)值和真實(shí)值之間的偏差,兩者的研究目的不同。4個(gè)指標(biāo)的定義公式為
式中:n為數(shù)據(jù)的數(shù)量;cti為第i個(gè)樣本點(diǎn)污染物質(zhì)量濃度真實(shí)值(μg/m3);cpi為第i個(gè)樣本點(diǎn)污染物質(zhì)量濃度預(yù)測(cè)值(μg/m3);cp和ct分別為預(yù)測(cè)結(jié)果和真實(shí)結(jié)果的平均值(μg/m3)。
3.1.1 輪廓系數(shù)法
聚類(lèi)前,首先對(duì)數(shù)據(jù)進(jìn)行歸一化處理。在本模型中,使用HDBSCAN作為第1階段聚類(lèi)算法,HDBSCAN只需調(diào)節(jié)1個(gè)超參數(shù),即最小聚類(lèi)規(guī)模(min_cluster_size),通過(guò)調(diào)節(jié)該參數(shù)可以自動(dòng)計(jì)算簇?cái)?shù)。本文采用輪廓系數(shù)法(Silhouette Coefficient, 以下簡(jiǎn)稱(chēng)S)確定超參數(shù),S越大,表明聚類(lèi)效果愈好[36]。
式中:di為第i個(gè)簇,N為點(diǎn)的個(gè)數(shù)。
3.1.2 聚類(lèi)結(jié)果
如圖6(a)所示,輪廓系數(shù)最大值為最小聚類(lèi)規(guī)模等于9的時(shí)候,輪廓系數(shù)為0.432。圖6(b)為聚類(lèi)后的結(jié)果,可以看出,大部分的離群值被識(shí)別出,并使用了灰色進(jìn)行標(biāo)識(shí)。此外,還有兩團(tuán)微小簇,個(gè)數(shù)分別為9和10,考慮到這兩簇的位置更接近離群值,因此也將這兩簇歸為噪聲,共得到329條(3.7%)噪聲值,采用線(xiàn)性插值進(jìn)行插補(bǔ)。
圖6 HDBSCAN輪廓系數(shù)圖和聚類(lèi)結(jié)果圖Fig.6 Contour coefficient graph and clustering result graph of HDBSCAN
確定簇?cái)?shù)。如圖7所示,4種聚類(lèi)算法均在K=2,即在2簇時(shí)達(dá)到了輪廓系數(shù)最大值,高斯混合聚類(lèi)輪廓系數(shù)較低,為0.45,AHC、BIRCH、Kmeans聚類(lèi)較為接近,分別為0.54,0.56,0.54。圖8顯示了4種聚類(lèi)的結(jié)果。
圖7 第2階段聚類(lèi)輪廓系數(shù)圖Fig.7 Second stage clustering contour coefficient graph
圖8 4種模型第2階段聚類(lèi)結(jié)果Fig.8 The second stage clustering results of four models
精度分析。為了分析多階段聚類(lèi)的性能,本文選擇了單階段聚類(lèi)以及不進(jìn)行聚類(lèi)的6個(gè)預(yù)測(cè)模型作為對(duì)照。所有模型都以原始數(shù)據(jù)計(jì)算精度。預(yù)測(cè)結(jié)果如圖9所示。
圖9 4種模型預(yù)測(cè)值與真實(shí)值的對(duì)比Fig.9 Comparison of predicted value and real value of four models
通過(guò)分析,一階段和多階段聚類(lèi)的預(yù)測(cè)模型較DNN模型均獲得了不同幅度的提升(見(jiàn)表1)。在單階段聚類(lèi)模型中,BIRCH-DNN模型是最優(yōu)模型,4個(gè)指標(biāo)均獲得了20%左右的提升。在多階段聚類(lèi)模型中,HDB-Kmeans-DNN模型提升最大,4個(gè)指標(biāo)較單步預(yù)測(cè)模型分別提升了3.39,3.23,2.36,0.08,約提升了20%。HDB-AHC-DNN模型提升較不明顯,HDBGMM-DNN模型和HDB-BIRCH-DNN模型預(yù)測(cè)能力較為接近,但后者的時(shí)間消耗更短。
表1 不同模型預(yù)測(cè)結(jié)果Table 1 Predict results of different models
本研究建立了基于多階段聚類(lèi)的PM2.5預(yù)測(cè)模型,以預(yù)測(cè)和分析PM2.5的小時(shí)平均質(zhì)量濃度。并用多階段聚類(lèi)預(yù)測(cè)模型與其他的非聚類(lèi)預(yù)測(cè)模型以及單階段聚類(lèi)預(yù)測(cè)模型進(jìn)行比較,以證明其有效性。相關(guān)性分析結(jié)果表明,NO2和CO的體積分?jǐn)?shù)在預(yù)測(cè)PM2.5質(zhì)量濃度方面發(fā)揮重要作用,其中NO2與PM2.5更為相關(guān),相關(guān)系數(shù)為0.69。
聚類(lèi)結(jié)果顯示,PM2.5聚類(lèi)處理后,噪聲基本消除,PM2.5的周期性變得更加穩(wěn)定。
本研究的不足之處在于,PM2.5極高質(zhì)量濃度值的預(yù)測(cè)不太理想,今后可能需要優(yōu)化聚類(lèi)算法以及預(yù)測(cè)算法,以提升極端空氣污染的預(yù)警能力。
本研究的結(jié)論如下。
(1) 提出了基于多階段聚類(lèi)的PM2.5預(yù)測(cè)模型,較傳統(tǒng)深度學(xué)習(xí)模型大幅度提升了精度,預(yù)測(cè)效果較好。
(2) 提出了一種基于HDBSCAN聚類(lèi)的去除噪點(diǎn)方法,實(shí)驗(yàn)結(jié)果表明,這種方法適用于多階段聚類(lèi)預(yù)測(cè)模型。
(3) 對(duì)比了多種常規(guī)聚類(lèi)算法,實(shí)驗(yàn)結(jié)果表明,不同的算法在聚類(lèi)效果和預(yù)測(cè)效果上具有顯著差異,其中HDB-Kmeans-DNN模型精度和誤差較為理想,可以應(yīng)用于實(shí)際預(yù)測(cè)。