李小奇,鄭東健,鞠宜朋
(1.河海大學(xué)水文水資源與水利工程科學(xué)國家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210098;2.河海大學(xué)水資源高效利用與工程安全國家工程研究中心,江蘇 南京 210098;3.中國電子科技集團(tuán)公司第十五研究所,北京 100083)
?
基于Copula熵理論的大壩滲流統(tǒng)計(jì)模型因子優(yōu)選
李小奇1,2,鄭東健1,2,鞠宜朋3
(1.河海大學(xué)水文水資源與水利工程科學(xué)國家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京210098;2.河海大學(xué)水資源高效利用與工程安全國家工程研究中心,江蘇 南京210098;3.中國電子科技集團(tuán)公司第十五研究所,北京100083)
針對大壩滲流統(tǒng)計(jì)模型需要考慮較多的前期項(xiàng),造成參選的因子數(shù)量較大,進(jìn)而導(dǎo)致常規(guī)方法的建模誤差較高的問題,研究引入Copula熵理論,利用Copula熵和偏互信息(partial mutual information,PMI)相結(jié)合的方法,對輸入因子的選取進(jìn)行優(yōu)化。針對Copula熵的求取,Copula函數(shù)采用Gumbel函數(shù),分布采用柯西分布代替正態(tài)分布,并引入Hample準(zhǔn)則來精確選取因子。將該方法在糯扎渡大壩滲流監(jiān)測中進(jìn)行應(yīng)用,并與常規(guī)的因子選擇方法進(jìn)行對比分析,結(jié)果表明,采用基于Copula熵的因子優(yōu)化選取方法的滲流統(tǒng)計(jì)模型具有更好的預(yù)測效果。
大壩安全監(jiān)控;滲流統(tǒng)計(jì)模型;Copula熵;輸入因子;偏互信息
HohaiUniversity,Nanjing210098,China;2.NationalEngineeringResearchCenterofWaterResourcesEfficientUtilizationandEngineeringSafety,HohaiUniversity,Nanjing210098,China;3.TheFifteenthResearchInstitute,ChinaElectronicTechnologyGroupCorporation,Beijing100083,China)
隨著大壩安全監(jiān)測對預(yù)測模型的精度要求越來越高,影響模型精度的預(yù)報(bào)因子選取日益重要。目前,滲流統(tǒng)計(jì)模型預(yù)報(bào)因子的選擇最常用的是線性相關(guān)系數(shù)[1]、主成分分析、灰色關(guān)聯(lián)度分析等方法。表1列舉了滲流統(tǒng)計(jì)模型因子的幾種主要選擇方法,并對其優(yōu)劣進(jìn)行了簡要分析。
表1 滲流統(tǒng)計(jì)模型因子選擇的幾種主要方法Table 1 Several methods for input factor selection of seepage statistical model
先驗(yàn)知識方法最為簡便,但誤差也最大。逐步回歸分析中,由F檢驗(yàn)剔除的因子有可能組成最佳因子集,并且在對因子集進(jìn)行聯(lián)合分析時(shí)只能識別一個(gè)因子集合[2]。主成分分析法對相關(guān)變量的要求較高,當(dāng)
變量的共線性較差時(shí),降維處理得到的綜合指標(biāo)精度也較低[3]。利用關(guān)聯(lián)度進(jìn)行因子選擇時(shí),只能將因子按照關(guān)聯(lián)度值進(jìn)行排序,沒有具體引入指標(biāo)[2]。模糊隸屬度函數(shù)選擇對樣本分布的依賴性較大,隸屬度函數(shù)選擇對結(jié)果精度的影響較高[4]。AIC信息量準(zhǔn)則法中,計(jì)算量與因子組合數(shù)量成正比,當(dāng)因子組合過多時(shí)工作量巨大[5]。鑒于以上不足,需要提出一種新的理論來滿足大壩安全監(jiān)控中對滲流統(tǒng)計(jì)模型因子選擇的需求。
目前,一種可供選擇的方法是互信息(mutual information, MI)法以及MI改進(jìn)算法[6]。趙銅鐵鋼等[7]利用MI法選擇了神經(jīng)網(wǎng)絡(luò)模型的輸入因子。盧迪等[8]利用互信息法對BP網(wǎng)絡(luò)模型的中長期徑流預(yù)報(bào)因子進(jìn)行了篩選。Sharma[9]改進(jìn)了MI法,提出偏互信息(partial mutual information, PMI )的概念,并得到了廣泛應(yīng)用。Kan等[10]利用PMI法對集合神經(jīng)網(wǎng)絡(luò)(ENN)的徑流預(yù)報(bào)因子進(jìn)行了優(yōu)化選取。Yuan等[11]利用PMI法對時(shí)間序列模型的輸入因子進(jìn)行了選取。應(yīng)用和研究證明了PMI法可以有效提高模型因子選擇的精度。然而,PMI法仍有缺陷:(a)水位、位移、沉降等均為連續(xù)變量,而PMI主要基于離散數(shù)據(jù);(b)對多元分布變量的邊緣和聯(lián)合概率密度進(jìn)行估計(jì)時(shí),概率密度函數(shù)難以求得[6-7]。
針對上述不足,本文提出了Copula熵和PMI相結(jié)合的方法。在已有的大壩滲流統(tǒng)計(jì)模型基礎(chǔ)上,通過專家經(jīng)驗(yàn)確定備選因子集,采用Copula函數(shù)和信息熵結(jié)合的Copula熵法計(jì)算PMI值,然后基于PMI的選入準(zhǔn)則,對大壩滲流影響量的實(shí)測數(shù)據(jù)進(jìn)行計(jì)算,確定最終的輸入因子集。最后,將此方法在糯扎渡大壩的滲流監(jiān)測中進(jìn)行了應(yīng)用和對比。
1.1滲流統(tǒng)計(jì)模型方程
滲流量的大小反映了混凝土壩壩體和地基帷幕以及土石壩防滲體的防滲效果,是評價(jià)大壩運(yùn)行安全的重要依據(jù)。大壩滲流主要受上下游水位、降雨和溫度的影響,模型方程表示為[12]
Q=QSH+QXH+QR+QP+Qθ
(1)
式中:Q——滲流量實(shí)測值;QSH——上游水位分量;QXH——下游水位分量;QR——溫度分量;QP——降雨分量;Qθ——時(shí)效分量。
1.2Copula函數(shù)
F(x1,…,xn)=C(F1(x1),…,Fn(xn))
(2)
式中:F——n維變量的聯(lián)合累積分布函數(shù);x1,…,xn——n個(gè)隨機(jī)變量;Fi——各變量的邊緣分布函數(shù)。
如果F1…Fn是連續(xù)的,那么C是唯一的;反之C不唯一。
在多變量的研究中,Archimedean型Copula函數(shù)具有模型構(gòu)造方便和計(jì)算簡單的優(yōu)點(diǎn),因此應(yīng)用廣泛[14]。本研究采用Archimedean型最常用的Gumbel Copula函數(shù)來進(jìn)行計(jì)算,它主要描述例如某變量劇增時(shí),效應(yīng)量會發(fā)生同樣劇增情形時(shí)的正相關(guān)特性。為了便于計(jì)算,本文一律取二維變量的情形,它的二維聯(lián)合分布函數(shù)和密度函數(shù)如下:
(3)
(4)
式中:u——變量x的邊緣分布F(x);v——變量y的邊緣分布F(y);θ——Gumbel Copula函數(shù)的參數(shù),在[1,+)內(nèi)取值。
1.3Copula熵
熵理論是1948年Shannon將玻爾茲曼熵的概念引入信息論中,用來度量隨機(jī)事件的不確定性或信息量的方法[15]。大壩監(jiān)測信息多為連續(xù)隨機(jī)變量,n維隨機(jī)變量的聯(lián)合熵可以表示為
(5)
式中:H(x)——n維連續(xù)性隨機(jī)變量的熵函數(shù);f(x)——變量x的概率密度函數(shù),可用分布函數(shù)的偏微分來表示。
若式(3)中的u=F(x),v=F(y),則Copula熵的表達(dá)式為
(6)
對Copula熵的求解,轉(zhuǎn)化為求變量x和y的邊緣分布F和Copula聯(lián)合分布的參數(shù)θ的過程。θ可以通過Kendall系數(shù)來求取[16],它與Kendall系數(shù)τ的關(guān)系為
(7)
本文選取柯西分布函數(shù)作為隨機(jī)變量ξ的邊緣分布函數(shù),與正態(tài)分布相比,柯西分布產(chǎn)生的隨機(jī)點(diǎn)具有較廣泛的覆蓋范圍,能真實(shí)地反映隨機(jī)向量的分布情況,同時(shí)能較快擺脫局部最優(yōu)值的現(xiàn)象[17]??挛鞣植嫉母怕拭芏群瘮?shù)和分布函數(shù)分別為
(8)
(9)
式中:μ——分布峰值位置的位置參數(shù);γ——最大值1/2處的1/2寬度的尺度參數(shù)。
對μ采用中位數(shù)作為估計(jì)量,對γ采用分位數(shù)作為估計(jì)量[18]。假設(shè)求得μ的中位數(shù)為μn/2,則γ=μ3n/4-μn/2。
求得單變量的邊緣分布函數(shù)F(x)的參數(shù)μ、γ后,代入式(3)的聯(lián)合分布函數(shù)C(u,v),再根據(jù)求得的θ,即可得到Gumbel Copula分布函數(shù)和密度函數(shù)。然后將聯(lián)合分布密度函數(shù)帶入式(6),求得Copula熵的值。
1.4Copula熵的PMI計(jì)算
偏互信息(PMI)是Sharma提出的,它度量了在消除多余變量影響的條件下,某兩變量之間的相關(guān)性。通過計(jì)算某兩變量的CPMI值,設(shè)定一定的過濾標(biāo)準(zhǔn),即可得到篩選后的輸入因子集合。以二維情形計(jì)算,假設(shè)兩變量為x、y,由偏互信息的定義可知:
(10)
其中
式中:x′——x的殘余信息;y′——y的殘余信息;Z2——二級備選因子集合。
(11)
式中:N——樣本數(shù);αj——平滑參數(shù),本文取高斯核密度估計(jì)的窗寬進(jìn)行計(jì)算[9];ξ——高斯分布的參數(shù);Szz——Z2中變量Z2i樣本的協(xié)方差;Sxz——變量x和Z2中變量Z2i樣本的互協(xié)方差。
根據(jù)多維聯(lián)合熵的定義,多維變量的聯(lián)合熵可以用n個(gè)變量的邊緣熵的和與Copula函數(shù)熵的和來表達(dá)。由于du=dxf(x),dv=dyf(y),f(x,y)=c(u,v)f(x)f(y),二維聯(lián)合熵的表達(dá)式可以寫為
(12)
對于本文二維變量(x′,y′)的情形,式(12)可以寫為
H(x′,y′)=H(x′)+H(y′)+HC(u′,v′)
(13)
式(13)代入式(10)可知,CPMI=-HC(u′,v′),即偏互信息為Copula函數(shù)的負(fù)熵,u′為變量x′的分布函數(shù),v′為變量y′的分布函數(shù)。通過Copula熵計(jì)算PMI值的過程如圖1所示。
圖1 CPMI值計(jì)算過程Fig. 1 Calculation process of CPMI
1.5因子選入準(zhǔn)則
PMI算法需要給定一個(gè)標(biāo)準(zhǔn),來判定CPMI多大時(shí)將變量x納入模型的輸入因子集。本文采用Fernando和May等推薦的Hampel檢驗(yàn)作為算法的停止準(zhǔn)則[19-20],其表達(dá)式為
(14)
根據(jù)標(biāo)準(zhǔn)差的3σ準(zhǔn)則,當(dāng)Hj>3時(shí),因子被選入。
2.1概況
土石壩滲流一直是壩體安全監(jiān)測的關(guān)鍵指標(biāo),本研究以糯扎渡黏土心墻堆石壩為例。糯扎渡大壩是世界同類型中第三高壩,位于中國云南省瀾滄江上,最大壩高261.5 m,壩頂長度627.87 m,壩頂寬度18 m,水庫正常蓄水位812 m。壩體于2008年11月開始填筑,2012年12月21日填筑到壩頂。蓄水初期水位變化較大,加上壩體填筑過程中的數(shù)據(jù)缺失以及外部環(huán)境的改變,對壩體安全監(jiān)測模型的因子選擇造成了障礙。因此,考慮利用Copula熵和PMI法相結(jié)合的理論進(jìn)行計(jì)算。心墻滲流是土石壩滲漏監(jiān)測的重點(diǎn),這里以蓄水期最關(guān)鍵的心墻中下部617m高程的DB-C-P-14~DB-C-P-17滲壓計(jì)測點(diǎn)為例,取2011-11-30—2013-01-18時(shí)段內(nèi)的數(shù)據(jù)進(jìn)行分析。為了敘述方便,以DB-C-P-14測點(diǎn)的計(jì)算過程為例進(jìn)行演示。
2.2備選因子
通過資料分析和知識經(jīng)驗(yàn),考慮溫度對壩體材料的影響,引入上游水位HSH、下游水位HXH、溫度T、降雨P(guān)和時(shí)效θ等作為備選因子來進(jìn)行篩選,具體結(jié)果見表2。
表2 二級輸入因子集Z2統(tǒng)計(jì)表Table 2 Statistical table of second-level input factor set Z2
2.3因子優(yōu)選
2.4結(jié)果對比
為了顯示方法的優(yōu)越性,將利用經(jīng)驗(yàn)知識、相關(guān)性和Copula熵得到的輸入因子集合進(jìn)行了對比分析和計(jì)算,模型采用逐步回歸法,結(jié)果如表3所示。針對2011-11-30—2013-01-18數(shù)據(jù)進(jìn)行分析,以2011-11-30—2013-01-01作為擬合區(qū)間,2013-01-01—2013-01-18為預(yù)測區(qū)間,得到擬合結(jié)果如圖4所示,典型日期預(yù)測結(jié)果如表4所示。由圖表對比可知,采用Copula熵法輸入因子的滲流統(tǒng)計(jì)模型擬合值更貼近實(shí)測值,擬合精度和預(yù)測精度都更高。
表3 DB-C-P-14~DB-C-P-17測點(diǎn)擬合結(jié)果對比Table 3 Comparison of fitted results at monitoring points DB-C-P-14 through DB-C-P-17
圖2 模型擬合曲線對比Fig. 2 Comparison of fitted curves by present model for different monitoring points
表4 DB-C-P-14~DB-C-P-17測點(diǎn)水頭預(yù)測結(jié)果對比Table 4 Comparison of predicted results of hydraulic heads at monitoring points DB-C-P-14 through DB-C-P-17 m
a. 依據(jù)大壩監(jiān)測樣本,采用Archimedean型Copula函數(shù)進(jìn)行計(jì)算,為了計(jì)算簡便,采用二維的Gumbel Copula函數(shù)。利用Kendall秩相關(guān)系數(shù),求解了Gumbel Copula函數(shù)的相關(guān)參數(shù)。
b. 對于變量的邊緣分布,采用柯西分布代替正態(tài)分布,并利用中位數(shù)和分位數(shù)的方法,對柯西分布參數(shù)進(jìn)行求取,從而進(jìn)一步精確了Gumbel Copula聯(lián)合分布函數(shù)。
c. 引入PMI方法,推導(dǎo)得到Copula函數(shù)的負(fù)熵等于偏互信息值。通過PMI的計(jì)算,并引入Hample檢驗(yàn)作為停止準(zhǔn)則,建立了因子引入的標(biāo)準(zhǔn)和具體步驟。
d. 建立基于Copula熵的因子選擇流程,并根據(jù)優(yōu)選后的因子建立了滲流統(tǒng)計(jì)模型。通過與常規(guī)方法對比,證明新的因子優(yōu)化方法建立的預(yù)測模型效果更好。
[1] 陳西江, 魯鐵定, 譚成芳. 大壩位移BP網(wǎng)絡(luò)模型影響因子的優(yōu)選[J]. 江西科學(xué), 2010, 28(1):72-76. (CHEN Xijiang, LU Tieding, TAN Chengfang. Optimization for influence factors of dam displacement base on BP neural network model [J]. Jiangxi Science, 2010, 28(1):72-76.(in Chinese))
[2] 姚遠(yuǎn), 李姝昱, 張博. 逐步回歸-PLS模型在大壩位移監(jiān)控中的應(yīng)用[J].水電能源科學(xué), 2011,29(4):81-82.(YAO Yuan, LI Shuyu, ZHANG Bo. Application of stepwise regression-PLS model to dam displacement monitoring [J]. Water Resources & Power, 2011, 29(4):81-82. (in Chinese))
[3] YU Hong, WU Zhongru, BAO Tengfei, et al. Multivariate analysis in dam monitoring data with PCA[J]. Science China Technological Sciences, 2010, 53(4):1088-1097.
[4] 王季方, 盧正鼎. 模糊控制中隸屬度函數(shù)的確定方法[J]. 河南科學(xué), 2000, 18(4): 348-351. (WANG Jifang, LU Zheng ding. The determine method of membership function in fuzzy control [J]. Henan Science, 2000, 18(4): 348-351. (in Chinese))
[5] HU S. Akaike information criterion [M]. North Carolina State: Center for Research in Scientific Computation, 2007.
[6] CHEN Lu, GUO Shenglian. Copula entropy and its application in hydrological correlation analysis [J]. Journal of Water Resources Research, 2013, 2(2): 103-108.
[7] 趙銅鐵鋼, 楊大文. 神經(jīng)網(wǎng)絡(luò)徑流預(yù)報(bào)模型中基于互信息的預(yù)報(bào)因子選擇方法[J]. 水力發(fā)電學(xué)報(bào), 2011, 30(1):24-30. (ZHAO Tongtiegang, YANG Dawen. Mutual information-based input variable selection method for runoff-forecasting neural network model [J]. Journal of Hydroelectric Engineering, 2011, 30(1):24-30. (in Chinese))
[8] 盧迪, 周惠成. 基于互信息量與BP神經(jīng)網(wǎng)絡(luò)的中長期徑流預(yù)報(bào)方法研究[J]. 水文, 2014,4(4):8-14.(LU Di, ZHOU Huicheng. Medium and long-term runoff forecasting based on mutual information and BP neural network [J]. Journal of China Hydrology, 2014,4(4):8-14. (in Chinese))
[9] SHARMA A. Seasonal to interannual rainfall probabilistic forecasts for improved water supply management(part 1): a strategy for system predictor identification [J]. Journal of Hydrology, 2000, 239(1): 232-239.
[10] KAN Guangyuan, YAO Cheng, LI Qiaoling, et al. Improving event-based rainfall-runoff simulation using an ensemble artificial neural network based hybrid data-driven model [J]. Stochastic Environmental Research & Risk Assessment, 2015, 29(5):1-26.
[11] YUAN Conggui, ZHANG Xinzheng, XU Shuqiong. Partial mutual information for input selection of time series prediction[C]// Northeastern University. Proceedings of the 2011 Chinese Control and Decision Conference. New York: IEEE, 2011: 2010-2014.
[12] 吳中如. 大壩與壩基安全監(jiān)控理論和方法及其應(yīng)用[J]. 江蘇科技信息, 2005(12):1-6. (WU Zhongru. Dam and dam foundation safety monitoring theory and method and its application [J]. Jiangsu Science and Technology Information, 2005(12):1-6. (in Chinese))
[13] SKLAR M.Fonctions de répartition à n dimensions et leurs marges [M]. Paris: Université Paris, 1959.
[14] 趙婷. Copula理論及其在金融分析上的應(yīng)用[D]. 長沙:湖南大學(xué), 2011.
[15] GRAY R M. Entropy and information theory [M]. New York: Springer Science & Business Media, 2011.
[16] 郭生練, 閆寶偉, 肖義, 等. Copula函數(shù)在多變量水文分析計(jì)算中的應(yīng)用及研究進(jìn)展[J]. 水文, 2008, 28(3):1-7. (GUO Shenglian, YAN Baowei, XIAO Yi, et al. Multivariate hydrological analysis and estimation [J]. Journal of China Hydrology, 2008, 28(3):1-7. (in Chinese))
[17] 趙慧. 基于K-S檢驗(yàn)copula分布估計(jì)算法中邊緣分布的研究[D]. 太原:太原科技大學(xué), 2013.
[18] 吳慶波, 李再興, 景平. 一元Cauchy分布族中兩參數(shù)的分位數(shù)估計(jì)及其性質(zhì)[J]. 廊坊師范學(xué)院學(xué)報(bào)(自然科學(xué)版), 2010, 10(1):8-9. (WU Qingbo, LI Zaixing, JING Ping. Quantile estimators of the two parameters in the univariate Cauchy distribution and their property [J]. Journal of Langfang Teachers College(Natural Sciences), 2010, 10(1):8-9. (in Chinese))
[19] FERNANDO T, MAIER H R, DANDY G C. Selection of input variables for data driven models: an average shifted histogram partial mutual information estimator approach [J]. Journal of Hydrology, 2009, 367(3): 165-176.
[20] MAY R J, MAIER H R, DANDY G C, et al. Non-linear variable selection for artificial neural networks using partial mutual information [J]. Environmental Modeling & Software, 2008, 23:1312-1326.
Input factor optimization study of dam seepage statistical model based on copula entropy theory
LI Xiaoqi1, 2, ZHENG Dongjian1, 2, JU Yipeng3
(1.StateKeyLaboratoryofHydrology-WaterResourcesandHydraulicEngineering,
In order to avoid the conventional method’s requirement of selecting large quantities of input factors as well as its large errors in development of a dam seepage statistical model, problems caused by the need for many items to be considered in the earlier stage of model development, the copula entropy theory combined with partial mutual information was used to optimize the input factor selection. To obtain the copula entropy, the Gumbel function was used as the copula function, the Cauchy distribution was used to replace the normal distribution, and the Hample criterion was used to select the input factors accurately. This approach was applied to seepage detection for the Nuozhadu Dam. Comparison of the present results with those obtained from the conventional factor selection approach shows that the seepage statistical model for optimizing input factor selection based on the copula entropy has a better prediction effect.
dam safety monitoring; seepage statistical model; copula entropy; input factor; partial mutual information
1000-1980(2016)04-0370-07
10.3876/j.issn.1000-1980.2016.04.015
2015-11-29
國家自然科學(xué)基金(51279052);水文水資源與水利工程科學(xué)國家重點(diǎn)實(shí)驗(yàn)室項(xiàng)目(20145028312)
李小奇(1986—),男,山東青州人,博士研究生,主要從事大壩安全監(jiān)控及健康診斷研究。E-mail:lxq0920@gmail.com
TV64;TV698
A