孫 前,陳 方,劉金濤,吳國(guó)群
(1.太湖流域水文水資源監(jiān)測(cè)中心,江蘇 無(wú)錫 214024; 2.河海大學(xué)水文水資源學(xué)院, 江蘇 南京 210098)
基于影響因子數(shù)據(jù)年際分類的太湖典型口門流量估算方法
孫 前1,2,陳 方1,劉金濤2,吳國(guó)群2
(1.太湖流域水文水資源監(jiān)測(cè)中心,江蘇 無(wú)錫 214024; 2.河海大學(xué)水文水資源學(xué)院, 江蘇 南京 210098)
基于太湖典型口門瓜涇口站1966—2014年(1989—2005年缺)的流量、水位、降水及周圍站點(diǎn)水位等數(shù)據(jù),采用多元線性回歸分析法構(gòu)建太湖流量估算模型。采用聚類分析方法,對(duì)流量的影響因子年際序列矩陣進(jìn)行相似分類,找出與目標(biāo)年(待估算流量的年份)相似的年份,然后依據(jù)相似年份數(shù)據(jù)率定回歸模型參數(shù)。通過(guò)與基于常系列數(shù)據(jù)建立的回歸模型進(jìn)行比較發(fā)現(xiàn),基于相似年份數(shù)據(jù)建立的回歸模型的估算精度更高。
太湖瓜涇口站;聚類分析;流量估算;多元線性回歸
太湖流域重要河湖口門取水總量的估算,對(duì)開(kāi)展太湖取水總量控制和計(jì)劃用水工作,細(xì)化流域水量分配,以及實(shí)現(xiàn)依法治水、依法管水等具有重要意義。估算水量的傳統(tǒng)一潮推流法,使用廣泛,能夠達(dá)到精度要求,但不適合所有情形的口門,特別是對(duì)于閘門變動(dòng)較大的水閘,每年需重新校測(cè),測(cè)驗(yàn)任務(wù)繁重,目前還沒(méi)有較好的解決方法[1]。國(guó)內(nèi)學(xué)者在水量估算方面做了眾多研究,如萬(wàn)曉凌等[2]改進(jìn)的水位差關(guān)系法,較為簡(jiǎn)易可行,但對(duì)測(cè)次及使用條件有一定要求。左一鳴等[3]、朱漫莉等[4]采用動(dòng)力學(xué)方法進(jìn)行流域水量平衡過(guò)程模擬,此類研究能有效提高計(jì)算速度,縮短計(jì)算時(shí)間,但建模過(guò)程較為復(fù)雜,工作量大,且計(jì)算時(shí)間較長(zhǎng)[3]。此外,遙感與同位素技術(shù)也被應(yīng)用于太湖河網(wǎng)區(qū)的水量估算。如陸寶宏等[5]利用水量平衡與同位素質(zhì)量守恒原理構(gòu)建了河網(wǎng)地區(qū)水量分配模型,可以用來(lái)近似估算河網(wǎng)區(qū)不同地點(diǎn)的受水量;張國(guó)慶等[6]結(jié)合湖面高程與面積變化對(duì)區(qū)域氣候變化的響應(yīng),利用遙感衛(wèi)星數(shù)據(jù)快速有效估算湖泊水量平衡。然而,水樣同位素測(cè)試和遙感信息提取對(duì)人員和設(shè)備的要求較高,限制此類方法的推廣。
傳統(tǒng)的基于數(shù)理統(tǒng)計(jì)的水文學(xué)方法,根據(jù)收集的歷年數(shù)據(jù),利用多元線性回歸推求估算公式,特點(diǎn)是方法簡(jiǎn)單,精度較高[7],可方便地進(jìn)行流量估算。且太湖局采用由基點(diǎn)站和巡測(cè)斷面所組成的水文駐測(cè)與巡測(cè)相結(jié)合的水文觀測(cè)方式,可為此方法提供大量數(shù)據(jù)[8]。但是,由于環(huán)湖口門水文條件可能隨時(shí)間發(fā)生改變[9],數(shù)據(jù)系列會(huì)存在不一致現(xiàn)象。因此,在建立回歸模型的過(guò)程中,需要對(duì)數(shù)據(jù)系列進(jìn)行分類,以消除這種影響。為此,筆者通過(guò)引入聚類分析方法,對(duì)瓜涇口站流量影響因子的時(shí)間序列數(shù)據(jù)[10-11]進(jìn)行分類,進(jìn)而建立流量的估算回歸模型,以期提高估算精度。
圖1 太湖流域水資源分區(qū)與瓜涇口站及周圍站點(diǎn)分布Fig.1 Water resources division and locations of Guajingkou Station and surrounding stations in Taihu Lake Basin
1.1 資料來(lái)源
根據(jù)太湖流域水系特點(diǎn)及行政分區(qū),將其分為8個(gè)四級(jí)水資源區(qū)(圖1),其中與環(huán)太湖出入湖水量最為密切的有5個(gè)區(qū),分別為湖西區(qū)、浙西區(qū)、陽(yáng)澄淀泖區(qū)、武澄錫虞區(qū)和杭嘉湖區(qū)[12]。
依據(jù)太湖流域水文監(jiān)測(cè)站點(diǎn)的分布情況以及計(jì)算方法對(duì)資料系列的要求,以位于太湖東側(cè)、資料最全面的瓜涇口站為研究對(duì)象,建立模型估算1966—1988年、2006—2014年(共32 a)中任一目標(biāo)年的流量。建模時(shí)以同期的瓜涇口站水位、降水[13]、蒸發(fā)及瓜涇口下游與其具有較密切水力聯(lián)系的水位站陳墓站、商榻站[14]的水位作為可能的影響因子,同時(shí)各數(shù)據(jù)均采用月平均值。
1.2 研究方法
首先,收集瓜涇口站及鄰近站點(diǎn)的相關(guān)數(shù)據(jù),基于SPSS軟件,采用單相關(guān)系數(shù)法(Pearson法)遴選與流量相關(guān)的影響因子;然后,確定目標(biāo)年,并分別采用常規(guī)方法與分類方法構(gòu)建流量估算公式。常規(guī)方法采用目標(biāo)年之前所有年份的數(shù)據(jù),利用多元線性回歸分析方法建立月平均流量與所遴選的影響因子之間的關(guān)系模型,并通過(guò)最小二乘法確定該模型各項(xiàng)的系數(shù)。分類方法通過(guò)引入聚類分析,對(duì)瓜涇口站影響因子的多年數(shù)據(jù)進(jìn)行分類,從而選出與目標(biāo)年數(shù)據(jù)相似的年份,依據(jù)相似年份的數(shù)據(jù)進(jìn)行多元線性回歸分析,構(gòu)建流量估算模型。
如果以年為單位,以目標(biāo)預(yù)測(cè)年的流量為對(duì)象,則某些年份的輸入矩陣可能會(huì)與其他年份的相似。分類方法在建立回歸模型前,對(duì)數(shù)據(jù)矩陣進(jìn)行分類,得出與目標(biāo)年數(shù)據(jù)相似的年份,然后用該年份的影響因子矩陣率定模型參數(shù),估算精度會(huì)顯著提高。
根據(jù)遴選的影響因子(自變量x1、x2、…、xm)對(duì)流量(因變量y)建立的多元線性回歸模型為
y=β0+β1x1+β2x2+…+βmxm+ε
(1)
式中:ε——相互獨(dú)立且服從N(0,σ2)的隨機(jī)變量;m——自變量個(gè)數(shù);β0~βm——系數(shù)。假設(shè)共有n組實(shí)測(cè)數(shù)據(jù),可以根據(jù)實(shí)測(cè)值采用最小二乘法對(duì)參數(shù)β0~βm做出估計(jì)。
1.3 結(jié)果評(píng)價(jià)
選用年總流量累計(jì)誤差δ(式(2))及確定性系數(shù)R2(式(3))對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià)。
(2)
(3)
2.1 水文影響因子遴選
由于瓜涇口站、陳墓站、商榻站數(shù)據(jù)較全,因此為了保證數(shù)據(jù)系列的一致性,選取瓜涇口站水位Zg、瓜涇口站降水Pg、陳墓站水位Zcm、商榻站水位Zst、瓜涇口站與陳墓站水位差(Zg-Zcm)、瓜涇口站與商榻站水位差(Zg-Zst)6個(gè)因子進(jìn)行影響因子分析。所選站點(diǎn)數(shù)據(jù)均采用月平均數(shù)據(jù),水位數(shù)據(jù)均為黃?;?。
采用Pearson法對(duì)多年以及單個(gè)年份的影響因子數(shù)據(jù)進(jìn)行相關(guān)性分析,結(jié)果見(jiàn)表1。由表1可知,Zg、Pg、Zg-Zcm、Zg-Zst與流量Qg的相關(guān)系數(shù)較高,t檢驗(yàn)的顯著性概率均小于0.05,表明瓜涇口站Qg與這些影響因子始終呈顯著相關(guān)。而Zcm、Zst與Qg的相關(guān)性較差,未通過(guò)顯著性檢驗(yàn)。由表1可知,顯著影響因子沒(méi)有因年份的不同發(fā)生改變,故最終選定的影響因子為:Zg、Pg、Zg-Zcm、Zg-Zst。
表1 各影響因子與流量Qg的相關(guān)分析結(jié)果
2.2 聚類分析
因各影響因素的單位不同,因此需要對(duì)指標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,本文采用Z-score標(biāo)準(zhǔn)化方法,也稱為標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化。
由聚類樹(shù)狀圖(圖2)可知,瓜涇口站1966—1988年數(shù)據(jù)與2006—2014年數(shù)據(jù)被分成2類。這是由于2002年后,“引江濟(jì)太”工程以及瓜涇口的疏浚工程的實(shí)施,使得瓜涇口站的數(shù)據(jù)情況發(fā)生了質(zhì)的變化[13],所以1966—1988年的數(shù)據(jù)無(wú)法用于2002年后流量情況的估算。因此,分別在2類數(shù)據(jù)中進(jìn)行分析,并各選取一個(gè)目標(biāo)年進(jìn)行流量的推求。為使目標(biāo)年所具有的歷史數(shù)據(jù)足夠長(zhǎng),且保障在數(shù)據(jù)系列中目標(biāo)年具有一個(gè)最為相似的年份,故以年份相對(duì)靠后以及在圖2中位置相對(duì)靠上的1988年和2011年為例進(jìn)行聚類分析。根據(jù)圖2及聚類分析中的相似性水平λ值,同一組中相對(duì)位置靠上的2樣本,相似度更高,因此與1988年數(shù)據(jù)最接近的年份為1985年,而與2011年數(shù)據(jù)最接近的年份為2008年。
圖2 瓜涇口站1966—1988年、2006—2014年數(shù)據(jù)聚類結(jié)果Fig.2 Data hierarchical diagram during periods from 1966 to 1988 and from 2006 to 2014 at Guajingkou Station
2.3 流量計(jì)算
2.3.1 1988年流量計(jì)算
由圖2可知,與1988年最接近的是1985年的數(shù)據(jù)。所以用1985年數(shù)據(jù)做多元線性回歸,得出流量計(jì)算公式:
Qg=-66.388+157.801Zg+0.008Pg-129.398(Zg-Zcm)-18.981(Zg-Zst)
(4)
同時(shí)采用瓜涇口站1966—1987年歷史數(shù)據(jù)推求1988年流量,得到常規(guī)方法的流量估算公式:
Qg=-61.322+25.202Zg-0.023Pg+2.038(Zg-Zcm)-1.017(Zg-Zst)
(5)
圖3給出了常規(guī)方法與分類方法推求的1988年流量過(guò)程線,從圖3可以看出,分類方法推求的結(jié)果較好,不僅趨勢(shì)一致,且系統(tǒng)誤差也大大降低,僅個(gè)別月份出現(xiàn)較大誤差,結(jié)果較為理想。
圖3 常規(guī)方法與分類方法推求的1988年流量過(guò)程線Fig.3 Discharge hydrographs in 1988 obtained from conventional method and classification method
2.3.2 2011年流量計(jì)算
由圖2可知,與2011年最接近的是2008年的數(shù)據(jù),所以用2008年數(shù)據(jù)做多元線性回歸,得出的2011年瓜涇口站流量計(jì)算公式為
Qg=-168.108+229.435Zg-0.009Pg+1.646(Zg-Zcm)+199.527(Zg-Zst)
(6)
采用瓜涇口站2006—2010年歷史數(shù)據(jù)推求2011年流量,得出常規(guī)方法的流量估算公式:
Qg=-186.485+200.760Zg-0.024Pg-6.376(Zg-Zcm)-149.617(Zg-Zst)
(7)
圖4給出了常規(guī)方法與分類方法推求的2011年流量過(guò)程線。由圖4可知,使用與2011年最為接近的2008年推求出的結(jié)果與常規(guī)方法推求的結(jié)果均較好,趨勢(shì)基本一致。
圖4 常規(guī)與分類方法推求的2011年流量過(guò)程線Fig.4 Discharge hydrographs in 2011 obtained from conventional method and classification method
2.3.3 誤差分析
由圖3~4、表2可得,1988年確定性系數(shù)由常規(guī)方法的0.58上升到分類方法的0.77,年流量相對(duì)誤差相應(yīng)地由50.5%下降到15.7%,各月的總流量相對(duì)誤差也有大幅下降,因此,分類方法相較于常規(guī)方法,無(wú)論是流量過(guò)程還是流量的預(yù)測(cè)精度均有較大幅度的提升。分類方法需要長(zhǎng)系列年的數(shù)據(jù)予以支撐,數(shù)據(jù)年份較多的時(shí)候,更容易找到相似程度較高的年份,推求出的效果也會(huì)更佳。例如2011年,常規(guī)方法與聚類分析的方法推求出的結(jié)果差別不大,這正是由于缺少與2011年數(shù)據(jù)相似程度較高的年份來(lái)率定模型參數(shù),在這種情況下,可以分別計(jì)算和比較2種方法的確定性系數(shù)及相對(duì)誤差,選擇預(yù)測(cè)精度相對(duì)較高的方法。
需要說(shuō)明的是,2種方法對(duì)不同目標(biāo)年的預(yù)測(cè)效果存在不同程度的差異,主要是由于瓜涇口站每年的水文條件不盡相同,收集的影響因子數(shù)據(jù)可能不夠全面[15],或者存在較大或較小的“特殊值”,文中所建立的多元線性回歸模型仍屬于統(tǒng)計(jì)學(xué)范疇,容易受到特殊值的擾動(dòng),影響預(yù)測(cè)效果,同時(shí)對(duì)于波峰、波谷數(shù)據(jù)的預(yù)測(cè)誤差也相對(duì)較大[16]。
表2 常規(guī)方法與分類方法估算的流量相對(duì)誤差
建立了基于多元回歸方程的太湖典型口門流量估算模型,建模時(shí)嘗試引入水文時(shí)間序列相似分析方法,即以年份為單位,通過(guò)聚類分析方法對(duì)已收集的歷史數(shù)據(jù)序列進(jìn)行分類,據(jù)此建立回歸模型并進(jìn)行目標(biāo)年流量估算。對(duì)瓜涇口站1966—2014年(缺1989—2005年)資料序列的聚類分析,分別選用常系列數(shù)據(jù)和最相似年份(1985年和2008年)數(shù)據(jù)建立回歸模型。預(yù)測(cè)結(jié)果顯示,基于聚類分析的線性回歸方法明顯優(yōu)于常規(guī)方法。這表明,在具備足夠長(zhǎng)的歷史資料的前提下,這種改進(jìn)方法可以有效提高太湖主要口門流量估算的精度。
值得注意的是,分類方法需要一定序列長(zhǎng)度的歷史數(shù)據(jù),通常為20 a以上,所以對(duì)目標(biāo)站點(diǎn)的選取是有一定要求的。此外,系列中數(shù)據(jù)相似程度較高的年份,采用該方法的改進(jìn)效果更為顯著(例如對(duì)1988年的預(yù)測(cè)效果提升要好于2011年)。
[ 1 ] 仲兆林. 常州沿江感潮河道水文站水位流量關(guān)系綜合定線分析[J]. 廣東水利水電, 2009(11):33-34.(ZHONG Zhao lin. Comprehensive alignment analysison the stage-discharge relation at hydrological station intided channel along the river in Changzhou[J]. Guangdong Water Resources and Hydropower,2009(11):33-34.(in Chinese))
[ 2 ] 萬(wàn)曉凌, 陸小明, 周毅,等. 感潮水閘引水量計(jì)算方法研究[J]. 長(zhǎng)江科學(xué)院院報(bào), 2013, 30(4):17-20.(WAN Xiaoling, LU Xiaoming, ZHOU Yi,et al.Method of calculating water diversion amount of tidal sluice[J].Journal of YangtzeRiver Scientific Research Institute,2013, 30(4):17-20. (in Chinese))
[ 3 ] 左一鳴, 崔廣柏. 二維水動(dòng)力模型的并行計(jì)算研究[J]. 水科學(xué)進(jìn)展, 2008, 19(6):846-850.(ZUO Yiming, CUI Guangbai.Parallel computation for 2D flow model [J].Advances in Water Science,2008, 19(6):846-850. (in Chinese))
[ 4 ] 朱漫莉,高海鷹,徐力剛,等.基于系統(tǒng)動(dòng)力學(xué)方法的鄱陽(yáng)湖流域水量平衡過(guò)程模擬與分析[J].水資源保護(hù),2015,31(3):46-52. (ZHU Manli, GAO Haiying, XU Ligang, et al.Simulation and analysis of water balance process in Poyang Lake Basin based on system dynamic approach [J]. Water Resources Protection, 2015,31(3):46-52. (in Chinese))
[ 5 ] 陸寶宏, 孫營(yíng)營(yíng), 馬樂(lè)軍,等. 利用同位素質(zhì)量守恒原理估算太湖河網(wǎng)受水量[J]. 河海大學(xué)學(xué)報(bào)(自然科學(xué)版), 2009, 37(6):645-649. (LU Baohong, SUN Yingying, MA Lejun,et al.Estimation of water amount in river network of Taihu Lake based on isotopic mass conservation [J]. Journal ofHohaiUniversity(Natural Sciences),2009, 37(6):645-649.(in Chinese))
[ 6 ] 張國(guó)慶, XIE Hongjie,姚檀棟,等. 基于ICESat和Landsat的中國(guó)十大湖泊水量平衡估算[J]. 科學(xué)通報(bào), 2013(26):2664-2678.(ZHANG Guoqing, XIE HongJie, YAO Tandong, et al. Water balance estimates of ten greatest lakes in China using ICESat and Landsat data[J]. Chin Sci Bull, 2013(26):2664-2678.(in Chinese))
[ 7 ] 向速林, 劉占孟, 尤本勝.地下水流量預(yù)測(cè)的多元線性回歸分析模型研究[J]. 水文, 2006, 26(6):36-37.(XIANG Sulin, LIU Zhanmeng, YOU Bensheng.Study on multivariate linear regression analyzing model for groundwater discharge forecasting [J]. Journal of ChinaHydrology,2006, 26(6):36-37. (in Chinese))
[ 8 ] 劉文龍,壽祥,張文龍. 太湖進(jìn)出水量平衡計(jì)算與分析[J]. 中國(guó)西部科技,2010,9(14):34-35.(LIU Wenlong, SHOU Xiang, ZHANG Wenlong.Estamites and analysisofTaihu Lake Water Balance. [J] Science and Technology of West China,2010,9(14):34-35. (in Chinese))
[ 9 ] 沈國(guó)華, 王謙. 太湖進(jìn)出水量變化對(duì)水環(huán)境的影響[J]. 水資源保護(hù), 2013, 29(1):46-50.(SHEN Guohua, WANG Qian.Influences of input and output flow on water environment in Taihu Lake [J].Water Resources Protection,2013, 29(1):46-50.(in Chinese))
[10] 湯成友, 郭麗娟, 王瑞. 水文時(shí)間序列逐步回歸隨機(jī)組合預(yù)測(cè)模型及其應(yīng)用[J]. 水利水電技術(shù), 2007, 6(6):1-4.(TANG Chengyou, GUO Lijuan, WANG Rui.Application of prediction model for stochastic combination of stepwise regression of hydrologic time series[J].Water Resources and Hydropower Engineering,2007, 6(6):1-4. (in Chinese))
[11] 歐陽(yáng)如琳, 任立良, 周成虎. 水文時(shí)間序列的相似性搜索研究[J]. 河海大學(xué)學(xué)報(bào)(自然科學(xué)版), 2010, 3(3):241-245.(OUYANG Rulin,REN Liliang,ZHOU Chenghu.Similarity search in hydrological time series[J]. Journal of Hohai University(Natural Sciences), 2010, 3(3):241-245.(in Chinese))
[12] 申金玉, 甘升偉, 陳潤(rùn),等. 環(huán)太湖出入湖水量影響因素分析及對(duì)策措施研究[J]. 水資源保護(hù), 2011, 27(6):48-52.(SHEN Jinyu, GAN Shengwei, CHEN Run,et al. Analysis of influencing factors of inflow and outflow around Taihu Lake andcountermeasures[J].Water Resources Protection, 2011, 27(6):48-52. (in Chinese))
[13] 申金玉,石亞?wèn)|,甘升偉,等. 太湖流域湖西區(qū)入湖水量變化趨勢(shì)及成因分析[J]. 水資源保護(hù),2011,27(4):48-50.(SHEN Jinyu, SHI Yadong, GAN Shengwei, et al. Changing trend of water entering western area of Taihu Lake Basin and causalanalysis[J]. Water Resources Protection, 2011,27(4):48-50. (in Chinese))
[14] 戈禮賓,潘彩英,張泉榮,等.太湖水位資料系列分析與水位特征值計(jì)算[J]. 水資源研究,2008,29(4):7-8.(GE Libing, PAN Caiying, ZHANG Quanrong, et al. The analysis with the water leveland eigenvalue calculation in Taihu Lake [J]. Water Resources Research, 2008, 29(4): 7-8. (in Chinese))
[15] 李文運(yùn),張偉,戈建民,等. 水量平衡分析方法及應(yīng)用[J]. 水資源保護(hù), 2011, 27(6):83-87.(ZHANG Wenyun, ZHANG Wei, GE Jianmin, et al.Water balance analysis method and its application[J]. Water Resources Protection,2011, 27(6):83-87. (in Chinese))
[16] 周文斌,車倩. 多元線性回歸法在水文預(yù)報(bào)中的應(yīng)用[J]. 山西建筑,2009, 35(1):359-360.(ZHOU Wenbin, CHE Qian. Use of multi factor line regression method for hydrogicalforecast[J]. Shanxi Architecture,2009, 35(1):359-360. (in Chinese))
Method for estimation of discharge at typical entrance of TaihuLake based on annual classification of impact factor data
SUN Qian1, 2, CHEN Fang1, LIU Jintao2, WU Guoqun2
(1.MonitoringCenterofHydrologyandWaterResourcesofTaihuBasinAuthority,Wuxi214024,China;2.CollegeofHydrologyandWaterResources,HohaiUniversity,Nanjing210098,China)
Based on discharge, water level, and precipitation data at the Guajingkou Station and water level data at surrounding stations from 1966 to 2014 (with data missing from 1989 to 2005), a model for estimation of discharge in Taihu Lake was established with multiple linear regression. The annual sequence matrixes of the impact factors of the discharge were classified using clustering analysis according to the similarity, the years similar to the objective years were determined, and, finally, the regression model parameters were calibrated based on the data from similar years. Compared with the regression model based on the common series data, the regression model based on the data from similar years has a higher accuracy.
Guajingkou Station in Taihu Lake;clustering analysis; discharge estimation;multiple linear regression
10.3876/j.issn.1000-1980.2017.03.005
2016-05-17
國(guó)家“十三五”重點(diǎn)研發(fā)計(jì)劃(2016YFC0401501)
孫前(1991—),男,河南鄭州人,碩士研究生,主要從事流域水文模擬研究。E-mail:qhsqsc2006@163.com
P333.1
A
1000-1980(2017)03-0218-06