摘要:流域降雨的時(shí)空分布是影響洪水形成的重要因素,而聚類算法是分析提取樣本數(shù)據(jù)典型類型的最常用方法。為定量描述流域的典型降雨時(shí)空分布,以雅礱江流域內(nèi)兩河口以上、兩河口到楊房溝區(qū)間、楊房溝到錦屏區(qū)間3個(gè)不同子流域?yàn)檠芯繉?duì)象,利用高斯混合模型、譜聚類和K-Means這3種經(jīng)典聚類算法分別對(duì)各個(gè)子流域的站點(diǎn)降雨數(shù)據(jù)進(jìn)行聚類分析,采用Davies-Bouldin指數(shù)對(duì)聚類效果進(jìn)行評(píng)價(jià),進(jìn)而對(duì)比分析不同類型聚類算法的適用性,最終得到各流域的典型降雨時(shí)空分布。研究結(jié)果表明:采用K-Means算法所得到的3個(gè)子流域的聚類結(jié)果,其平均Davies-Bouldin指數(shù)相對(duì)譜聚類偏小約34%,相對(duì)高斯混合模型偏小約21%,表明K-Means算法相較于譜聚類和高斯混合分布模型對(duì)不同流域的降雨數(shù)據(jù)都有更好的聚類效果。同時(shí)基于最優(yōu)的聚類結(jié)果可以得到,在出現(xiàn)概率前80%的條件下,3個(gè)子流域分別有4,3,2個(gè)典型降雨時(shí)空分布類型,通過(guò)這些典型降雨時(shí)空分布類型的樣本可以定量有效地描述流域降雨在時(shí)間和空間維度上的分布特征。
關(guān) 鍵 詞:降雨時(shí)空分布;Davies-Bouldin指數(shù);高斯混合模型;譜聚類;K-Means;雅礱江流域
中圖法分類號(hào):TV125 文獻(xiàn)標(biāo)志碼:ADOI:10.16232/j.cnki.1001-4179.2024.S2.011
0 引言
在洪水預(yù)報(bào)中,降雨總量的大小直接影響預(yù)報(bào)洪水的總洪量,降雨的時(shí)空分布則直接影響著預(yù)報(bào)斷面洪水的時(shí)序過(guò)程[1],而任意區(qū)域的降雨落區(qū)和集中時(shí)間通常具有一定的典型分布特征[2-3],因此分析和研究流域的降雨時(shí)空分布特征有利于了解流域降雨規(guī)律,尤其是在難以獲取高時(shí)空分辨率的降雨預(yù)報(bào)時(shí),對(duì)于提高洪水預(yù)報(bào)精度、控制洪水調(diào)度風(fēng)險(xiǎn)等方面具有重要意義。
當(dāng)前短期降雨時(shí)空分布的研究方法主要有兩類。一類研究方法是根據(jù)描述歷史降雨時(shí)間和空間分布的特征值進(jìn)行間接分析[4],該方法能夠?qū)⒏呔S的降雨數(shù)據(jù)降低到低維,一定程度上降低分析難度,但容易損失部分降雨時(shí)空分布特征。例如林木生等[5]通過(guò)次降雨量、暴雨相對(duì)中心、暴雨時(shí)間變差系數(shù)等指標(biāo)描述了暴雨的時(shí)空分布特征,建立了暴雨與洪水的多元回歸關(guān)系;鄭彥辰等[6]基于降雨數(shù)據(jù)的一階、二階時(shí)間空間矩描述降雨的時(shí)空分布特征,并通過(guò)這些特征值對(duì)洪水過(guò)程進(jìn)行了聚類。另一類是直接對(duì)歷史降雨時(shí)空分布數(shù)據(jù)進(jìn)行分析,主要采用對(duì)高維數(shù)據(jù)具有較強(qiáng)分析能力的機(jī)器學(xué)習(xí)方法,這類方法能夠充分利用歷史降雨數(shù)據(jù),得出定量的降雨時(shí)空分布結(jié)果。例如劉媛媛等[7]通過(guò)機(jī)器學(xué)習(xí)中的動(dòng)態(tài)聚類算法,對(duì)北京城區(qū)高維時(shí)空降雨數(shù)據(jù)等進(jìn)行聚類,將該區(qū)域暴雨時(shí)空分布?xì)w納為3種類型,并提取了各個(gè)類型的暴雨特征。這些研究中對(duì)降雨時(shí)空分布類型的歸納主要都采用了聚類算法。
聚類算法是一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法,常用于挖掘數(shù)據(jù)的特征、結(jié)構(gòu)和內(nèi)在性質(zhì)[8-9]。然而針對(duì)不同的樣本數(shù)據(jù),不同的聚類算法得到的聚類結(jié)果有一定的差異,影響最終的聚類分析結(jié)果。因此為了得到最準(zhǔn)確的降雨時(shí)空分布結(jié)果,本文采用幾種典型聚類算法提取歸納流域降雨時(shí)空分布規(guī)律,對(duì)比研究降雨時(shí)空分布特征分析最適宜的聚類算法,從而得到最優(yōu)的聚類結(jié)果。
1 研究數(shù)據(jù)
本文以雅礱江流域?yàn)檠芯繉?duì)象,該流域面積13.6萬(wàn)km2。由于流域面積較廣,不同區(qū)域氣候規(guī)律差距較大,而實(shí)際生產(chǎn)中主要以各個(gè)電站壩址作為洪水預(yù)報(bào)主要斷面,因此常常將流域劃分為各個(gè)子流域進(jìn)行研究(圖1)。
根據(jù)已建成運(yùn)行電站情況,本文選取兩河口電站以上片區(qū)、兩河口電站到楊房溝電站區(qū)間和楊房溝電站到錦屏一級(jí)電站區(qū)間作為研究對(duì)象,分別記為L(zhǎng)U、LY、YJ流域。其中LY流域由兩河口到牙根一級(jí)、牙根一級(jí)到楞古、楞古到孟底溝、孟底溝到楊房溝組合而成;YJ流域則是由楊房溝到卡拉、卡拉到錦屏一級(jí)組合而成。收集3個(gè)流域共81個(gè)雨量站點(diǎn)2011~2022年共12 a的逐小時(shí)降雨資料進(jìn)行研究。
為了研究降雨的時(shí)空分布,需要根據(jù)雨量站歷史降雨數(shù)據(jù)構(gòu)建降雨時(shí)空分布數(shù)據(jù)樣本。本文首先對(duì)研究區(qū)域雨量站歷史降雨數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,刪除重復(fù)、缺失和異常值,得到每日24 h N個(gè)站點(diǎn)降雨量組成的樣本集Ω={X1,X2,…,Xd,…,XD},其中Xd為24×N的矩陣,表示為
式中:xt,n表示日內(nèi)第t個(gè)小時(shí)第n個(gè)站點(diǎn)的雨量數(shù)值。
計(jì)算每日降雨的面平均雨量Rd,通常面雨量的計(jì)算方法有算術(shù)平均法、泰森多邊形法等[10],算術(shù)平均法通常適用于站點(diǎn)分布較為均勻的區(qū)域。為了簡(jiǎn)化計(jì)算,本文以算術(shù)平均法進(jìn)行面雨量計(jì)算,其計(jì)算公式為
Rd=∑N/n=1∑24/t=1xt,n/N(2)
剔除面雨量為0的日數(shù)據(jù)后,將各日降雨矩陣Xd轉(zhuǎn)化為降雨分布比例矩陣Pd,即:
Pd=Xd/NRd(3)
該矩陣描述了第d日內(nèi)降雨在時(shí)間和空間上的分布情況,至此可以得到該區(qū)域降雨時(shí)空分布的樣本集。
不同降雨量級(jí)通常有著不同降雨分布特征。流域小量級(jí)降雨樣本數(shù)目相對(duì)較多,對(duì)聚類分析結(jié)果的影響較大,然而小量級(jí)降雨卻難以在預(yù)報(bào)斷面產(chǎn)生洪水過(guò)程,因此本文僅選取面雨量大于一定閾值的降雨數(shù)據(jù)進(jìn)行分析,統(tǒng)計(jì)得到的各個(gè)子流域的降雨時(shí)空分布樣本數(shù)目和面雨量四分位數(shù),如表1所列。本文根據(jù)表中結(jié)果分別選取了LU、LY和YJ流域面雨量在4.6,5.8 mm和5.1 mm以上的樣本進(jìn)行后續(xù)分析。
2 研究方法
2.1 聚類分析算法
常用的聚類算法包括基于概率的高斯混合模型(GMM)、基于距離的K-Means、基于密度的DBSCAN、基于圖論的譜聚類(Spectral Clustering)等[11]。這些模型聚類理論不同,需要確定的參數(shù)也不同,其中GMM、譜聚類以及K-Means的主要參數(shù)均為聚類數(shù)目,而DBSCAN需要確定鄰域半徑和鄰域最小樣本數(shù)目?jī)蓚€(gè)參數(shù)[12]。因此,為了便于比較不同算法在降雨時(shí)空分布聚類中的適用性,本文選擇GMM、譜聚類以及K-Means這3種經(jīng)典算法進(jìn)行對(duì)比分析。
高斯混合模型是基于概率的聚類模型[13]。高斯混合分布由多個(gè)高斯分布組合而成。假設(shè)樣本是由K個(gè)高斯模型生成,且每個(gè)高斯分布模型代表了數(shù)據(jù)樣本的一個(gè)類別[14]。高斯混合分布的概率密度函數(shù)如下:
P(x)=∑K/k=1p(k)p(x|k)=∑K/k=1ΠkN(x|μk,δk)(4)
式中:N(x|μk,δk)表示第k個(gè)高斯模型的概率密度函數(shù);p(k)=Πk表示第k個(gè)高斯模型的權(quán)重,也被稱為選擇第k個(gè)模型的先驗(yàn)概率。通過(guò)EM算法求解后可得到高斯混合模型的參數(shù),其中的先驗(yàn)概率Πk最大的類別即為樣本所屬的類別。
譜聚類是一種基于圖論的聚類方法。該方法把樣本空間中所有的數(shù)據(jù)看作空間中的點(diǎn),將這些點(diǎn)兩兩相連,這些連接線成為連接邊,對(duì)每個(gè)點(diǎn)的連接邊賦予不同的權(quán)重,這個(gè)權(quán)重與該連接邊的長(zhǎng)度成反比。對(duì)所有數(shù)據(jù)點(diǎn)組成的圖進(jìn)行切圖,通過(guò)切圖以達(dá)到不同子圖間的連接邊權(quán)重之和盡可能的小,而子圖內(nèi)的連接邊權(quán)重之和盡可能的大,最終達(dá)到聚類的目的[15]。
K-Means聚類是一種基于距離的聚類方法。該方法一般用歐式距離作為衡量樣本點(diǎn)間相似度的指標(biāo),距離越近則越相似,即更偏向于屬于統(tǒng)一類別。算法需要預(yù)先指定初始聚類數(shù)目,并隨機(jī)初始化相應(yīng)的聚類中心,根據(jù)數(shù)據(jù)對(duì)象與聚類中心之間的距離,將樣本數(shù)據(jù)分配到各個(gè)聚類中心的類別中,通過(guò)各個(gè)類別中的樣本不斷更新聚類中心的位置,直到聚類中心不再變化,由此得到最終聚類結(jié)果[16-17]。
2.2 聚類結(jié)果評(píng)價(jià)方法
聚類模型的聚類效果在高維樣本數(shù)據(jù)下通常通過(guò)各類量化指標(biāo)進(jìn)行評(píng)價(jià),當(dāng)樣本類別未知時(shí),常用的評(píng)價(jià)指標(biāo)有誤差平方和(SSE)、輪廓系數(shù)(Silhouette Coefficient)、Calinski-Harabasz指數(shù)(CHI)、Davies-Bouldin指數(shù)(DBI)等。其中,SSE指標(biāo)需要通過(guò)肘部法則人為確認(rèn)聚類模型的損失函數(shù)和聚類類別數(shù)目K間的關(guān)系曲線拐點(diǎn),對(duì)于某些數(shù)據(jù)該拐點(diǎn)難以直觀確定。輪廓系數(shù)是衡量聚類結(jié)果中各個(gè)類別輪廓清晰度的指標(biāo),相對(duì)CHI其計(jì)算消耗更多,計(jì)算時(shí)間較長(zhǎng),但輪廓系數(shù)和CHI都對(duì)于簇結(jié)構(gòu)為凸的數(shù)據(jù)輪廓系數(shù)較高,對(duì)于簇結(jié)構(gòu)非凸的輪廓系數(shù)較低,不適用于比較不同聚類算法的聚類效果[18-19]。本文需要以統(tǒng)一的指標(biāo)評(píng)價(jià)不同類型聚類算法的聚類效果,而DBI通過(guò)比較類中距離和類間距離來(lái)判別聚類效果的好壞,相較其他指標(biāo)適用范圍更廣[20],因此選擇DBI來(lái)對(duì)聚類結(jié)果進(jìn)行評(píng)價(jià)選擇。DBI的計(jì)算公式為
DBI=1/M∑M/m=1maxj≠mσi+σm/d(ci,cj)(5)
式中:M為樣本數(shù)目;σi為第i個(gè)類別中所有點(diǎn)到類別中心的平均距離,表示類別中數(shù)據(jù)的分散程度;ci為第i個(gè)類別的中心;d(ci,cj)為第i個(gè)類別中心點(diǎn)到第j個(gè)類別中心點(diǎn)的距離。
聚類結(jié)果中類別間的距離越大、類別中樣本到中心的距離越小,那么DBI就會(huì)越小,相應(yīng)聚類效果越好。
2.3 典型降雨時(shí)空分布類型篩選
根據(jù)選擇的最優(yōu)聚類結(jié)果可以將每個(gè)降雨時(shí)空分布樣本歸類到不同類型,每個(gè)類型對(duì)應(yīng)的樣本數(shù)目即可代表出現(xiàn)該類降雨的概率。因此為了定量描述該流域降雨的典型時(shí)空分布,本文按每個(gè)降雨時(shí)空分布類型的出現(xiàn)概率由大到小依次選取分布類型,直到累計(jì)的概率達(dá)到一定閾值為止。
對(duì)于選取得到的每個(gè)分布類型,計(jì)算該類型所有樣本的中心點(diǎn),該中心點(diǎn)即可作為該流域的一種典型的降雨時(shí)空分布。其中,樣本中心點(diǎn)的計(jì)算公式為
式中:Ck表示第k類聚類類別的中心點(diǎn);Mk為第k個(gè)聚類類別中樣本數(shù)目;pmt,n表示第k個(gè)聚類類別中第m個(gè)降雨時(shí)空分布樣本第t行第n列的值。
3 結(jié)果分析
采用GMM、譜聚類和K-Means分別對(duì)各個(gè)流域降雨時(shí)空分布樣本集進(jìn)行聚類并采用DBI對(duì)聚類結(jié)果進(jìn)行評(píng)價(jià)優(yōu)選,按累計(jì)占比不超過(guò)80%為閾值選取該區(qū)域的典型降雨時(shí)空分布類型,得到的各個(gè)流域聚類結(jié)果如表2所列。
從表2中不同聚類算法的聚類效果來(lái)看,K-Means算法在3個(gè)不同流域聚類結(jié)果的最優(yōu),DBI均明顯小于其他兩種算法,其中K-Means的平均DBI相對(duì)譜聚類平均偏小約34%,最大偏小約41%;相對(duì)GMM平均偏小約21%,最大偏小約30%。因此K-Means對(duì)本文的降雨時(shí)空分布數(shù)據(jù)的聚類效果相對(duì)更優(yōu)于譜聚類和GMM。通過(guò)K-Means聚類后得到LU、LY和YJ流域的典型降雨時(shí)空分布數(shù)目分別為4類、3類和2類。
對(duì)于各流域的每一類典型降雨時(shí)空分布,其分布特征值如表3所列。其中LU、LY和YJ流域最容易出現(xiàn)的降雨時(shí)空分布類型對(duì)應(yīng)的概率分別為28%,31%和49%。以LY流域的降雨時(shí)空分布結(jié)果為例,將對(duì)應(yīng)的3類典型降雨時(shí)空分布類型的樣本中心點(diǎn)繪制時(shí)空分布熱力圖、柱狀圖如圖2~4所示。
從圖2~4中可以看出,3種降雨時(shí)空分布類型在時(shí)間和空間維度上的分布各不相同,但在時(shí)間上均為單峰型分布,而空間上則差異較大。其中,類型1的降雨在站點(diǎn)空間上的分布都較為平均,15個(gè)站點(diǎn)中雨量占比峰值出現(xiàn)在第11號(hào)站點(diǎn),達(dá)到約9.6%,而在時(shí)間上主要集中于日內(nèi)16∶00~23∶00時(shí)段,雨量占比峰值出現(xiàn)時(shí)間為19∶00。類型2和類型3在站點(diǎn)空間分布上差異明顯,類型2的降雨主要集中在編號(hào)1~11站點(diǎn),雨量占比峰值出現(xiàn)在6號(hào)站點(diǎn),為10.1%,而類型3的降雨則集中在11~15號(hào)站點(diǎn),雨量占比峰值出現(xiàn)在13號(hào)站點(diǎn),為10.4%;在時(shí)間分布上,類型2的雨量占比峰值出現(xiàn)時(shí)間為23∶00,最大值為13.1%,而類型3的雨量占比峰值時(shí)間為20∶00,峰值為9.8%。因此通過(guò)對(duì)流域典型降雨時(shí)空分布類型下的歷史樣本統(tǒng)計(jì),能夠定量描述流域降雨時(shí)空分布特征。
4 結(jié)論
本文基于雅礱江兩河口電站以上片區(qū)、兩河口電站到楊房溝電站區(qū)間、楊房溝電站到錦屏一級(jí)電站區(qū)間3個(gè)子流域各站點(diǎn)的歷史降雨資料,基于Davies-Bouldin指數(shù)從K-Means、譜聚類和高斯混合模型3種經(jīng)典聚類算法的聚類結(jié)果中選取聚類效果最好的歷史樣本分類結(jié)果,最終得到3個(gè)流域的典型降雨時(shí)空分布類型。主要結(jié)論如下:
(1)對(duì)于本文所研究的雅礱江3個(gè)子流域降雨時(shí)空分布對(duì)象,K-Means算法的Davies-Bouldin指數(shù)相對(duì)譜聚類和GMM平均偏低約34%和21%,表現(xiàn)出更好的聚類效果。
(2)雅礱江流域兩河口電站以上片區(qū)、兩河口電站到楊房溝電站區(qū)間、楊房溝電站到錦屏一級(jí)電站區(qū)間3個(gè)子流域降雨時(shí)空分布出現(xiàn)概率在前80%的主要有4,3,2個(gè)類型,最常出現(xiàn)的類型對(duì)應(yīng)出現(xiàn)概率分別為28%,31%和49%。
(3)對(duì)于聚類提取得到的流域典型降雨時(shí)空分布類型,通過(guò)對(duì)歷史樣本的統(tǒng)計(jì)可以定量有效地描述流域的降雨時(shí)空分布特征。
參考文獻(xiàn):
[1] 朱奎,強(qiáng)思遠(yuǎn),母小苗,等.不同降雨特征對(duì)徑流過(guò)程的影響研究[J].中國(guó)農(nóng)村水利水電,2021(4):33-37.
[2] 李潔,徐強(qiáng)強(qiáng),王正華.考慮降雨空間異質(zhì)性的洪水預(yù)報(bào)模型研究[J].人民長(zhǎng)江,2023,54(增1):11-15.
[3] 黃瓊.降雨變異性對(duì)水文過(guò)程模擬影響研究[D].南京:河海大學(xué),2006.
[4] 謝雅潔,劉曙光,周正正.汶川縣降雨時(shí)空分布特征及設(shè)計(jì)暴雨頻率分析[J].人民長(zhǎng)江,2024,55(1):105-112.
[5] 林木生,陳興偉,陳瑩.晉江西溪流域洪水與暴雨時(shí)空分布特征的相關(guān)分析[J].資源科學(xué),2011,33(12):2226-2231.
[6] 鄭彥辰,李建柱,榮佑同,等.降雨時(shí)空分布量化及其在洪水過(guò)程分類中的應(yīng)用[J].水利學(xué)報(bào),2022,53(5):560-573.
[7] 劉媛媛,劉洪偉,霍風(fēng)霖,等.基于機(jī)器學(xué)習(xí)短歷時(shí)暴雨時(shí)空分布規(guī)律研究[J].水利學(xué)報(bào),2019,50(6):773-779.
[8] 賀玲,吳玲達(dá),蔡益朝.數(shù)據(jù)挖掘中的聚類算法綜述[J].計(jì)算機(jī)應(yīng)用研究,2007(1):10-13.
[9] 陳茗,胡邊,李靖.基于多源信號(hào)融合的燈泡貫流式機(jī)組故障特征提?。跩].人民長(zhǎng)江,2023,54(8):185-189,210.
[10]郭廣芬,杜良敏,肖鶯,等.長(zhǎng)江流域夏季極端降水時(shí)空分布特征[J].干旱氣象,2021,39(2):235-243.
[11]侯海薇,丁世飛,徐曉.基于無(wú)監(jiān)督表征學(xué)習(xí)的深度聚類研究進(jìn)展[J].模式識(shí)別與人工智能,2022,35(11):999-1014.
[12]KHAN K,REHMAN SU,AZIZ K,et al.DBSCAN:past,present and future[C]∥The fifth international conference on the applications of digital information and web technologies(ICADIWT 2014),2014:232-238.
[13]HE X,CAI D,SHAO Y,et al.Laplacian regularized gaussian mixture model for data clustering[J].IEEE Transactions on Knowledge and Data Engineering,2010,23(9):1406-1418.
[14]李婧.基于GMM的EM優(yōu)化算法的應(yīng)用與研究[D].哈爾濱:哈爾濱工程大學(xué),2019.
[15]NG A,JORDAN M,WEISS Y.On spectral clustering:analysis and an algorithm[C]∥NIPS'01:Proceedings of the 14th international conference on neural information processing systems:natural and synthetic,2001.
[16]楊俊闖,趙超.K-Means聚類算法研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(23):7-14,63
[17]陶葉輝,趙壽為.面向不平衡數(shù)據(jù)基于高斯混合聚類的SMOTE改進(jìn)算法[J].軟件導(dǎo)刊,2022,21(5):110-114.
[18]孫林,劉夢(mèng)含,徐久成.基于優(yōu)化初始聚類中心和輪廓系數(shù)的K-means聚類算法[J].模糊系統(tǒng)與數(shù)學(xué),2022,36(1):47-65.
[19]WANG X,XU Y.An improved index for clustering validation based on Silhouette index and Calinski-Harabasz index[C]∥IOP Conference series:materials science and engineering.bristol:IOP Publishing,2019,569(5):052024.
[20]姜宏維,程雨,段志.基于K均值+Davies—Bouldin指數(shù)+PCA法的橋梁結(jié)構(gòu)性能綜合評(píng)估算法研究[J].公路,2024,69(4):124-132.
(編輯:謝玲嫻)