林康聆,周研來,陳 華,郭生練,王 俊
(武漢大學水資源與水電工程科學國家重點實驗室,湖北武漢 430072)
洪水分類將時空異質(zhì)性強的洪水事件歸類為具有相似特征的典型洪水類型[1],可為洪水預(yù)報提供相似洪水參考,指導水庫實施分類洪水調(diào)度,有助于水資源演變規(guī)律解析,是防洪減災(zāi)和洪水資源化的基礎(chǔ)[2]。
聚類算法是洪水分類研究的主要方法,如人工免疫算法、人工魚群算法、主成分投影方法和K-means算法等[3-6],其聚類主體為雨洪特征指標。常用的降水特征指標有前期影響雨量、最大暴雨強度和不同歷時降水量等[5];常用的洪水特征指標有最高水位、洪峰、洪水歷時和不同歷時最大洪量等[3-4]。這些聚類算法以離散的雨洪特征指標表征連續(xù)的洪水過程,存在信息損失的弊端。此外,特征指標選取存在主觀性,當選取較少的特征指標時,只能反映洪水過程局部特征;當選取較多的特征指標時,特征間可能高度相似,計算冗余度增加,進而造成分類結(jié)果不確定性增大。如當前針對三峽水庫洪水的分類研究就存在上述問題,其洪水特征指標常采用最高水位、洪峰和不同歷時最大洪量[3,7-9],均為離散型指標,分類結(jié)果難以反映三峽水庫洪水演變過程。全球氣候變化[10]和強人類活動(水電工程、城市化[11])改變了河流水文情勢和流域產(chǎn)匯流過程,使得洪水要素時空變異更加顯著,加大了洪水分類和管控的難度[2]。然而基于離散型雨洪特征的洪水分類方法尚無法滿足精細化調(diào)度決策的需求。
自組織映射神經(jīng)網(wǎng)絡(luò)(Self-Organizing Map,SOM)屬于非監(jiān)督式神經(jīng)網(wǎng)絡(luò),由輸入層和輸出層組成,可有效識別輸入向量的分布特性和拓撲結(jié)構(gòu),主要用于對輸入向量進行聚類分析[12]。該神經(jīng)網(wǎng)絡(luò)能自組織尋找輸入數(shù)據(jù)間固有的、內(nèi)在的特征,從而進行映射分布和類別劃分,可以有效解決高維度非線性分布樣本的聚類分析問題[13]。在水文領(lǐng)域,SOM已成功應(yīng)用于洪水淹沒圖[13-14]分類、子流域劃分以及近海水質(zhì)分析等問題[15-16]研究,但是直接使用SOM進行洪水過程分類的研究鮮有報道。鑒于此,本文提出基于連續(xù)過程與SOM的分類方法,并將其應(yīng)用于辨識連續(xù)洪水過程的分類特征。SOM[12]是一種模仿生物神經(jīng)元自組織功能的機器學習方法,通過神經(jīng)元對外界刺激的競爭性學習,可將高維洪水全過程映射到二維分類,同時保持數(shù)據(jù)原有的拓撲邏輯關(guān)系?;谶B續(xù)過程與SOM的洪水分類方法,不僅可避免基于特征指標洪水分類的信息損失、主觀性強和不確定性大等缺陷,而且可解決基于洪水過程分類存在的輸入維度高、分類結(jié)果可視化困難等實際問題。
本文以長系列洪水過程訓練不同維度的SOM網(wǎng)絡(luò),考慮代表性和拓撲性評價指標,優(yōu)選SOM網(wǎng)絡(luò)維度(分類數(shù)),基于最優(yōu)網(wǎng)絡(luò)的洪水分類結(jié)果,結(jié)合洪水強度、速率及形態(tài)特征,論證分類方法于三峽水庫洪水分類研究的可靠性。
SOM用于聚類分析的計算過程簡述如下:
(1)
(4) 定義優(yōu)勝鄰域(Nj*(t))。以j*為中心確定t時刻的權(quán)值調(diào)整域,一般初始鄰域(Nj*(0))較大,訓練時Nj*(t)會隨訓練時間逐漸收縮。
(5) 調(diào)整權(quán)值。按式(2)對Nj*(t)內(nèi)的所有神經(jīng)元調(diào)整權(quán)值。
ωij(t+1)=ωij(t)+η(t,N)[xip-ωij(t)]
(2)
式中:i為一個神經(jīng)元所有輸入的序標;ωij(t)和ωij(t+1)分別為訓練時間t和t+1時刻第i個序標第j個神經(jīng)元的權(quán)值;η(t,N)為訓練時間t和鄰域內(nèi)第j個神經(jīng)元與j*之間的拓撲距離N的函數(shù)(代表學習率);xip為第i個序標第p個輸入向量值。
(6) 判定計算終止并輸出聚類結(jié)果。當學習率η(t)大于給定的閾值ηmin時,轉(zhuǎn)至步驟(2)繼續(xù)迭代計算;否則,終止計算并輸出洪水樣本的聚類分析結(jié)果。
(1) 覆蓋率(RC)。定義為各神經(jīng)元權(quán)重均值覆蓋區(qū)間與各樣本均值覆蓋區(qū)間的比值,反映神經(jīng)元對于樣本的代表性,計算公式見式(3)[13]。
(3)
式中:Sn為神經(jīng)元權(quán)重均值向量;So為樣本均值向量;max/min為求向量最大/最小元素的函數(shù)。RC越大分類代表性越好。
(2) 翻轉(zhuǎn)率(RF)。在訓練完成的SOM中,神經(jīng)元權(quán)重均值一般沿著某一方向遞增。如果在該方向相鄰的2個神經(jīng)元權(quán)重均值并沒有遵循遞增關(guān)系,稱這2個神經(jīng)元發(fā)生翻轉(zhuǎn)。RF定義為翻轉(zhuǎn)神經(jīng)元權(quán)重均值差與較小神經(jīng)元權(quán)重均值的比值,反映神經(jīng)元發(fā)生翻轉(zhuǎn)的程度,計算公式見式(4)[13]。
(4)
式中:s1、s2分別為發(fā)生翻轉(zhuǎn)的神經(jīng)元權(quán)重均值,且s2>s1。RF越小分類拓撲性越好。
本研究采用的洪水特征指標不用作SOM算法輸入,而是用于分類結(jié)果后評估。采用的洪水特征指標(表1)包括洪水強度、速率和形態(tài)[1-2]指標。
表1 洪水特征指標Table 1Flood characteristics indicators
綜合考慮控制流域的雨期和汛期界定[19-20],本研究采用1882—2020年每年5月1日至10月31日的三峽水庫長系列洪水(日時段)過程進行分類,其中分類樣本總數(shù)為139 a(1882—2020年),且均為完整的汛期洪水過程,不僅包含了洪峰、不同歷時最大洪量和洪水漲落等信息,還保留了非線性、洪水全過程特征??紤]到1882—2002年流量系列僅受庫容較少的二灘水庫調(diào)節(jié),流量過程受調(diào)節(jié)影響較小,且該序列包括了1954年、1968年、1981年、1982年和1998年歷史典型大洪水,資料代表性較好。對2003—2020年流量,考慮了上游梯級水庫群調(diào)蓄影響,進行了還原處理,并最終與1882—2002年流量系列合并為一致性較好的流量序列。數(shù)據(jù)來源于水利部長江水利委員會水文局的整編資料,本文所使用的數(shù)據(jù)通過了“三性”審查,為洪水分類方法提供了可靠輸入。
考慮到洪水全過程維度高(184d),需通過訓練不同規(guī)模的網(wǎng)絡(luò)以確定分類數(shù)目。首先,使用2×2維、2×3維、2×4維和3×3維4種規(guī)模SOM,經(jīng)10 000次訓練輪次,將1882—2020年三峽水庫洪水過程分為4類、6類、8類和9類;其次,采用代表性和拓撲性指標以優(yōu)選最可靠的網(wǎng)絡(luò)規(guī)模;最后,基于最優(yōu)規(guī)模網(wǎng)絡(luò)的分類結(jié)果,結(jié)合洪水強度、速率及形態(tài)特征指標評價分類結(jié)果的可靠性。
圖1給出了不同維度SOM網(wǎng)絡(luò)的神經(jīng)元權(quán)重均值隨訓練輪次的變化圖,其中左下角為不同規(guī)模SOM輸出層拓撲圖,每個神經(jīng)元以不同顏色的圓形表示,它們的權(quán)重均值隨訓練輪次變化如圖所示,訓練完成時RC值和各神經(jīng)元權(quán)重均值的標準差(DST)值見圖中右下角標注。據(jù)圖1可知,各神經(jīng)元初始權(quán)重均值分布較為集中,經(jīng)10 000次訓練后,權(quán)重均值分布較為分散,且隨著網(wǎng)絡(luò)規(guī)模增大,RC值逐漸增大,最大RC值為57.9%。SOM的神經(jīng)元并非在最大最小區(qū)間平均分布,而是趨向于分布在樣本密集出現(xiàn)的區(qū)間,這樣能保證訓練神經(jīng)元有更高概率獲勝。無論RC值高低,SOM都已學習了所有樣本信息,故RC值僅用于在不同大小的網(wǎng)絡(luò)中比較代表性。不同大小網(wǎng)絡(luò)中,2×2維網(wǎng)絡(luò)規(guī)模太小,RC值僅為33.4%,對于洪水分類代表性較差,因此不推薦使用。2×3維、2×4維和3×3維網(wǎng)絡(luò)的RC值接近,都在57%左右。在訓練完成后,2×4維網(wǎng)絡(luò)仍有神經(jīng)元重疊在一起,這些神經(jīng)元包含的洪水類別邊界不明顯,因此不推薦使用。3×3維網(wǎng)絡(luò)RC值最大,2×3維網(wǎng)絡(luò)DST值最大,2個網(wǎng)絡(luò)各有優(yōu)勢,接下來將做進一步比較分析。
圖1 SOM網(wǎng)絡(luò)的神經(jīng)元權(quán)重均值隨訓練輪次的變化Fig.1 Changes of the mean neuron weight of the SOM neural networks with the training epochs
圖2給出了2×3維和3×3維SOM網(wǎng)絡(luò)拓撲結(jié)構(gòu)對比圖,圖中以圓形大小和顏色深淺反映神經(jīng)元權(quán)重均值大小(如圖例所示),圓形中的數(shù)字是具體神經(jīng)元權(quán)重均值,方括號內(nèi)的數(shù)字是神經(jīng)元的位置,神經(jīng)元由小到大的方向由黑色箭頭表示,神經(jīng)元之間發(fā)生翻轉(zhuǎn)由紅色箭頭表示,RF值以紅色數(shù)字表示。由圖2(a)可知,2×3維網(wǎng)絡(luò)僅在[1,1]和[1,2]之間的神經(jīng)元發(fā)生了翻轉(zhuǎn),RF值為3.4%,其余神經(jīng)元權(quán)重均值都隨著副對角線(由左下至右上)逐步上升。由圖2(b)可知,在3×3維網(wǎng)絡(luò)中,左上角神經(jīng)元的權(quán)重均值最小,但右下角神經(jīng)元的權(quán)重均值并非最大,進而造成[2,2]、[2,3]、[3,2]和[3,3]神經(jīng)元之間存在多處翻轉(zhuǎn)。[2,2]和[2,3]神經(jīng)元之間翻轉(zhuǎn)程度最低,RF值為2.4%;[3,2]和[3,3]神經(jīng)元之間RF值最高,達到17.9%。2×3維網(wǎng)絡(luò)的翻轉(zhuǎn)個數(shù)和RF均值都小于3×3維網(wǎng)絡(luò)翻轉(zhuǎn)個數(shù)和RF均值,說明2×3維網(wǎng)絡(luò)拓撲結(jié)構(gòu)優(yōu)于3×3維網(wǎng)絡(luò)。
圖2 2×3維網(wǎng)絡(luò)與3×3維網(wǎng)絡(luò)的拓撲結(jié)構(gòu)對比Fig.2 Comparison of topological structures corresponding to the 2×3-dimensional and 3×3-dimensional neural networks
3×3維網(wǎng)絡(luò)的RC值相比2×3維網(wǎng)絡(luò)僅高出2%,兩者代表性基本沒有區(qū)別,但2×3維網(wǎng)絡(luò)拓撲結(jié)構(gòu)顯著優(yōu)于3×3維網(wǎng)絡(luò),又考慮到洪水分類過多會加大決策難度,因此使用2×3維網(wǎng)絡(luò)作為三峽水庫洪水的分類網(wǎng)絡(luò)。
3.2.1 洪水類別歸納
基于2×3維SOM網(wǎng)絡(luò),進一步分析洪水分類結(jié)果。首先按神經(jīng)元位置繪制了分類洪水過程圖(圖3),其中各圖的上、下位置分別標注每類所含洪水樣本數(shù)(如31)和所屬神經(jīng)元在2×3維網(wǎng)絡(luò)中的位置(如[1,1])。表2給出了分類洪水特征值及其代表洪水。以洪水較顯著的特征來命名各類洪水,洪水分類命名中的“大/中/小”由強度指標決定,“高/矮”和“胖/瘦/尖瘦”由強度和形態(tài)指標共同決定,“急/緩”由速率指標決定。
圖3 基于2×3維SOM網(wǎng)絡(luò)的洪水過程分類Fig.3 Classification of flood processes based on the 2×3-dimensional SOM neural network
由表2可知,位置為[1,3]的類別3洪水為高胖/急漲型/大洪水,7 d、15 d和30 d最大洪量為分別為282億m3、564億m3和1 121億m3,洪峰流量為48 900 m3/s,強度特征指標均遠高于其他5類洪水。另外,該類洪水漲洪速率(459 m3/s)最快,變差系數(shù)(0.40)最大,因此,類別3洪水具有較大的防洪風險,代表洪水有1954年和2020年等大洪水。結(jié)合圖3,可發(fā)現(xiàn)該類洪水漲洪時間在6—7月,對此類峰高量大漲洪快的洪水,水庫需在此前騰空庫容迎接來水,確保防洪安全。與類別3洪水相距最遠的是類別4洪水,2類洪水有明顯差異。類別4洪水是矮胖/緩退型/小洪水,為6類洪水中防洪風險最小的洪水,具有最小的強度指標、退水速率、洪峰時間偏度和變差系數(shù)值,分別反映了此類洪水強度低、退水慢、峰現(xiàn)時間靠前和變化平緩的特點。對于這類洪水,水庫可在不增加防洪風險的前提下相機開展汛期運行水位動態(tài)控制和提前蓄水調(diào)度工作,以提高洪水資源利用率。結(jié)合圖3和表2,可發(fā)現(xiàn)強度差異最大的2類洪水(類別3和類別4)位于輸出層的對角線兩端。考慮到SOM的拓撲特性,本文將強度顯著區(qū)別于其他洪水的類別3和類別4分別命名為大洪水和小洪水,其他洪水類別命名為中洪水。大洪水的分類樣本數(shù)最少(12個),符合洪水重現(xiàn)期規(guī)律。與傳統(tǒng)排頻分類法不同,本研究中的小洪水是指強度顯著低于其他洪水的洪水類別,其樣本數(shù)并非最多。
表2 分類洪水特征值及代表洪水Table 2Characteristics and typical floods of flood classification
對于中洪水,類別1是高矮雙峰/急漲型/中洪水,洪峰出現(xiàn)在7月中旬,在所有中洪水中峰現(xiàn)時間最早。此外,該類洪水的樣本數(shù)最多,需編制相應(yīng)預(yù)案以應(yīng)對其高頻特性。類別6與類別1洪水相距最遠,是矮高雙峰/緩漲快退型/中洪水,峰現(xiàn)時間最晚(9月中旬)。類別1和類別2洪水所屬神經(jīng)元位置都在輸出層的左上角,擁有非常相似的強度特征,如7 d、15 d和30 d最大洪量均分別在230億m3、480億m3和900億m3左右,洪峰流量皆略大于39 000 m3/s。類別1和類別2洪水的主要差別在于洪水形態(tài)和漲退水速率。洪水形態(tài)方面,類別1洪水是雙峰洪水,而類別2洪水為單峰洪水,且峰腰較窄,是高瘦型洪水,因此兩者的洪峰時間偏度和高脈沖歷時占比等形態(tài)特征指標差異明顯;速率指標方面,類別1洪水漲洪速率僅次于類別3洪水,是急漲型洪水,而類別2洪水漲退水速率間的差別,在6類洪水中最小,因此類別2洪水屬于漲退接近型洪水。類似地,類別5和類別6洪水所屬神經(jīng)元都在輸出層右下角,兩者除了30 d最大洪量和高脈沖歷時占比2項特征指標略有差異外,其他特征指標尤為相似。速率指標方面,兩者皆可歸類為緩漲快退型洪水。此外,類別5洪水是尖瘦型洪水(圖3),從5月至9月中旬一直處于漲水階段,而類別6洪水具有雙峰特征。雖然2類洪水特征指標值大多相近,但是兩者的洪水過程卻有明顯區(qū)別,不可簡單歸于一類。這也進一步說明了開展洪水過程分類研究的必要性,洪水過程分類能充分考慮連續(xù)洪水全過程的差異性,避免了以離散特征指標反映洪水過程時的信息損失。
3.2.2 典型洪水分類
為了說明分類的實用性和可靠性,以長江1954年、1968年、1981年、1982年、1998年和2020年的汛期洪水過程為典型進行分類,圖4給出6場典型洪水的過程線和所屬分類。
據(jù)圖4可知,1954年、1998年和2020年洪水被歸為類別3洪水。類別3洪水最為明顯的特征是洪水強度大,防洪風險高,1954年和1998年分別因阻塞高壓和厄爾尼諾現(xiàn)象發(fā)生了全流域洪水,在7月后洪水快速上漲,最大洪峰流量分別達到了66 100 m3/s和61 700 m3/s,造成了長江中下游重大人員傷亡和財產(chǎn)損失[21],因此這2 a洪水被歸為類別3洪水,合理可靠;2020年長江受長期、大范圍梅雨影響[21],發(fā)生了新中國成立以來僅次于1954年和1998年的全流域性大洪水[22],雖因大型水庫群聯(lián)合調(diào)度及錯峰調(diào)節(jié),避免了特大洪災(zāi)的發(fā)生[23],但2020年洪水洪峰流量接近80 000 m3/s,在6場典型洪水中最大,故歸類為風險最高的類別3洪水。
1968年長江也發(fā)生全流域性洪水,但是中下游降雨較少[24],沒有形成洪水遭遇的不利情形,在8月初洪水出現(xiàn)了短暫的消退,洪水風險小于類別3洪水。1968年洪水被劃分為類別6洪水,網(wǎng)絡(luò)拓撲位置接近類別3洪水位置,說明SOM能有效地通過拓撲位置對全流域洪水進行歸類,且類別6洪水的洪水強度僅次于類別3洪水(表2),因此,1968年洪水被歸于類別6較為合理。
1981年長江上游的岷江、沱江和嘉陵江同時發(fā)生特大暴雨,三江洪水注入長江干流,相遇疊加形成洪水[21]。據(jù)圖4和圖3可發(fā)現(xiàn),1981年洪水具有類別1洪水的形狀特征,為高矮雙峰,且洪峰出現(xiàn)在7月,漲水較快,說明該分類合理可靠。
圖4 典型洪水分類結(jié)果Fig.4 Typical flood classification results
1982年7月,三峽庫區(qū)連續(xù)暴雨,區(qū)間徑流總量達65.58億m3,約占入庫洪水總量的70%。三峽區(qū)間雨洪占比大,造成1982年7—8月洪峰高瘦,漲洪和落洪受流域調(diào)蓄影響較少,故速率接近。這些特征與類別2洪水十分接近,因此,1982年洪水被劃分為類別2洪水。
所選的6場洪水都是洪水特征明顯、防洪風險高、影響范圍大的典型洪水,極具代表性。需要說明的是,類別4和類別5洪水所屬神經(jīng)元皆位于輸出層左下角,洪水強度較小,故沒有典型洪水歸于這2類實屬正常。
傳統(tǒng)洪水分類方法以水文要素(如洪峰流量/時段最大洪量等)的重現(xiàn)期(P)劃分洪水大小,P≤10 a、10
50 a分別對應(yīng)一般、較大、大和特大洪水[25],如1954年、1968年、1981年、1982年、1998年和2020年洪水被分別劃分為大/特大洪水、一般洪水、大/較大洪水、一般洪水、較大/大洪水和特大洪水??梢园l(fā)現(xiàn),傳統(tǒng)洪水分類方法以水文要素的重現(xiàn)期作為分類依據(jù),即使洪峰流量/時段最大洪量等洪水強度特征相似,其分類結(jié)果仍存在不唯一的弊端(如1954年、1981年和1998年洪水)。在強度方面,本研究所提方法和傳統(tǒng)方法結(jié)果類似,可以相互印證。本文所提出的分類方法,能有效考慮連續(xù)洪水過程的共性特征,形成穩(wěn)定、唯一的分類結(jié)果,不僅降低了傳統(tǒng)分類方法的主觀性和信息損失量,而且可根據(jù)神經(jīng)元權(quán)重形成分類洪水過程(圖3)。本文采用洪水特征指標對洪水分類結(jié)果進行后評價和洪水類別命名,可進一步論證分類結(jié)果的合理性。
洪水分類方法通過提取洪水相似特征,將數(shù)目繁多、過程各異的洪水分為具有代表性的若干典型洪水類別??梢越梃b典型洪水特征進行預(yù)報、調(diào)度和水資源管理。比如,在洪水預(yù)報時,可將待預(yù)報洪水的現(xiàn)階段漲勢與典型洪水類別對比,研判待預(yù)報洪水量級以及演變過程;在洪水調(diào)度時,可針對典型洪水類別(如屬于類別3的1954年、1998年和2020年大洪水)編制調(diào)度規(guī)程,當出現(xiàn)與典型洪水相似洪水時,就可依照該規(guī)程調(diào)度,為水庫防洪調(diào)度提供預(yù)案及風險決策支撐;在水資源管理時,可據(jù)不同典型洪水類別(如屬于類別1、類別2和類別6的中洪水)編制水庫洪水資源化調(diào)度方案,以提升流域水資源利用水平和供水保障能力。
本文構(gòu)建了基于連續(xù)過程和自組織映射神經(jīng)網(wǎng)絡(luò)(SOM)的洪水分類方法,分析了不同維度SOM網(wǎng)絡(luò)的代表性和拓撲性,給出了基于最優(yōu)網(wǎng)絡(luò)的洪水分類結(jié)果,實現(xiàn)了基于洪水全過程的拓撲邏輯關(guān)系挖掘及分類,結(jié)合洪水強度、速率及形態(tài)特征對分類結(jié)果進行合理性評價,以三峽水庫洪水過程作為實例,進行了洪水分類研究。主要結(jié)論如下:
(1) 2×2維SOM網(wǎng)絡(luò)的代表性明顯差于其他網(wǎng)絡(luò),2×4維網(wǎng)絡(luò)分類邊界不清晰,3×3維網(wǎng)絡(luò)拓撲結(jié)構(gòu)較差,而2×3維網(wǎng)絡(luò)代表性較高,拓撲結(jié)構(gòu)良好,且分類數(shù)目適中,能有效辨識三峽水庫洪水過程的分類特征。
(2) 三峽水庫洪水過程可分為6類,分別是高矮雙峰/急漲型/中洪水(類別1)、高瘦/漲退接近型/中洪水(類別2)、高胖/急漲型/大洪水(類別3)、矮胖/緩退型/小洪水(類別4)、尖瘦/緩漲快退型/中洪水(類別5)和矮高雙峰/緩漲快退型/中洪水(類別6)。不同類型洪水的強度、速率及形態(tài)指標各有側(cè)重,且所屬神經(jīng)元的拓撲結(jié)構(gòu)可合理表征分類間的聯(lián)系和差異,說明SOM可有效挖掘洪水全過程特征,洪水分類結(jié)果合理可靠。
(3) 傳統(tǒng)洪水分類方法的分類結(jié)果不唯一,而SOM的分類結(jié)果穩(wěn)定可靠,且可保留洪水全過程信息,以洪水強度、速率和形態(tài)特征輔助命名洪水分類,提升了洪水分類結(jié)果在水文預(yù)報、水庫調(diào)度和水資源管理中的實用性。
本研究提出基于水庫洪水過程的分類方法,可為水庫規(guī)劃設(shè)計和汛情洪水規(guī)律辨識提供理論支撐。面臨實際運行調(diào)度階段,還需要結(jié)合洪水預(yù)報開展洪水分類調(diào)度研究,以進一步驗證方法的普適性和可靠性。SOM僅能針對洪水過程進行洪水分類,未來還需研究可耦合多種水文氣象過程的分類方法以提供更全面的結(jié)果。