顧 莉,王蘭蘭,華祖林1,,褚克堅(jiān)1,
(1. 河海大學(xué)淺水湖泊綜合治理與資源開發(fā)教育部重點(diǎn)實(shí)驗(yàn)室,南京 210098; 2. 河海大學(xué)水資源高效利用與工程安全國家工程研究中心, 南京 210098; 3. 河海大學(xué)環(huán)境學(xué)院, 南京 210098)
· 試驗(yàn)研究 ·
影響分汊河道縱向離散的因子權(quán)重及相關(guān)性研究
顧莉1,2,3,王蘭蘭3,華祖林1,3,褚克堅(jiān)1,3
(1. 河海大學(xué)淺水湖泊綜合治理與資源開發(fā)教育部重點(diǎn)實(shí)驗(yàn)室,南京210098; 2. 河海大學(xué)水資源高效利用與工程安全國家工程研究中心, 南京210098; 3. 河海大學(xué)環(huán)境學(xué)院, 南京210098)
河流縱向離散系數(shù)是反映污染物在河流中縱向離散特性的關(guān)鍵性參數(shù)。前人研究主要針對(duì)順直和彎曲河道,對(duì)于水流結(jié)構(gòu)與邊界條件更為復(fù)雜的分汊河道研究甚少。本文采用分類回歸樹(CART)挖掘技術(shù)結(jié)合示蹤試驗(yàn)數(shù)據(jù),對(duì)分汊河道的不同流速,分流比,寬度比,寬深比及壁面糙度等共108個(gè)工況的試驗(yàn)進(jìn)行分析,研究了各變量因子對(duì)于縱向離散系數(shù)影響的重要程度,量化了各影響因子的權(quán)重大小,其中流速的影響權(quán)重最大、其次分流比與寬度比并列,寬深比次之,壁面糙度影響最?。淮送?,還分析了縱向離散系數(shù)與各因子間的響應(yīng)關(guān)系,流速正相關(guān),寬深比負(fù)相關(guān),分流比或?qū)挾缺鹊扔?.5,即兩汊對(duì)稱情形下離散系數(shù)最小。研究成果對(duì)于了解與掌握分汊型河道縱向離散特性具有重要意義。
分汊河道;縱向離散系數(shù);分類回歸樹;影響因子權(quán)重;相關(guān)性
縱向離散系數(shù)反映了河流中污染物的摻混能力,對(duì)確定河流的納污能力和污染物擴(kuò)散過程至關(guān)重要,縱向離散系數(shù)的研究一直以來受到學(xué)者們廣泛關(guān)注[1~4]。研究縱向離散系數(shù)的常用方法有理論公式、示蹤試驗(yàn)以及經(jīng)驗(yàn)公式法[5~10]。近年來,由于計(jì)算機(jī)技術(shù)的發(fā)展,一些學(xué)者開始采用各種統(tǒng)計(jì)類數(shù)學(xué)模型來估算河流縱向離散能力,模糊邏輯、自適應(yīng)神經(jīng)模糊推理技術(shù)、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò),M5’ 模型及人工智能[11~16]等方法都被應(yīng)用于對(duì)縱向離散系數(shù)的估算。前人的研究多針對(duì)單一的順直和彎曲型河道,且研究結(jié)果多是得到離散系數(shù)的量值或計(jì)算離散系數(shù)的公式,而對(duì)于影響因子對(duì)縱向離散系數(shù)影響的相對(duì)重要程度研究很少,尤其是對(duì)邊界和水流條件更為復(fù)雜的分汊型河道的研究更為少見。分汊河道的研究多為其河床演變規(guī)律、分流比計(jì)算方法、水沙運(yùn)動(dòng)特征,以及分汊口與交匯口的水動(dòng)力特性[17],還有少量關(guān)于污染物在分汊口或交匯口的濃度分布規(guī)律研究[18,19]。分類回歸樹(CART)模型可以分析變量之間的相互作用,識(shí)別對(duì)響應(yīng)變量的變化具有顯著貢獻(xiàn)的參量。分類回歸樹(CART)模型最早由Breiman等人[20]提出,已經(jīng)在統(tǒng)計(jì)領(lǐng)域和數(shù)據(jù)挖掘技術(shù)中廣泛應(yīng)用,但是在環(huán)境水力學(xué)方面未見使用。
本文針對(duì)分汊河道縱向離散特性開展研究,利用室內(nèi)示蹤試驗(yàn)數(shù)據(jù),采用分類回歸樹方法,在對(duì)影響離散系數(shù)變量分析過程中,通過反復(fù)驗(yàn)證,給出了各變量對(duì)于縱向離散系數(shù)影響的相對(duì)重要性,并分析了各變量與縱向離散系數(shù)之間的相關(guān)關(guān)系,從而深入了解分汊河道的縱向離散能力。
CART方法是一種二元遞歸分解方法,可以產(chǎn)生基于樹的模型[20]。樹的構(gòu)建可以看作是一個(gè)變量選擇的過程,所有問題可以歸結(jié)為兩點(diǎn):選擇哪個(gè)變量作為拆分點(diǎn)以及怎樣拆分。選擇變量及選擇變量分裂點(diǎn)的標(biāo)準(zhǔn)是使得分裂點(diǎn)的不純度最小,CART算法中使用基尼系數(shù)Gini(T)來衡量節(jié)點(diǎn)的不純度,基尼系數(shù)計(jì)算步驟[21]如下:
(1)假設(shè)訓(xùn)練集中有N類樣本X1,X2,…,Xj,…,XN,每類樣本的樣本容量為n,根節(jié)點(diǎn)的基尼系數(shù)為
(1)
式中:Pj為j類樣本在總體中概率,T為相應(yīng)的樹。
(2)指定分組變量的某個(gè)取值為分割閾值,計(jì)算各組的基尼系數(shù),再加權(quán)平均值基尼系數(shù),即
(2)
其中,j[1,N]為樣本分類,i[1,n]為每類樣本的樣本容量
(3)計(jì)算根節(jié)點(diǎn)與其下一層基尼系數(shù)加權(quán)值的差值:
△=Gini(T)-Ginisplit(i)(T)
(3)
2.1數(shù)據(jù)來源
2.2結(jié)果分析
本文使用分類回歸樹方法(CART)對(duì)雙汊型河道縱向離散特性進(jìn)行研究,分類回歸樹方法可以給出影響變量的相對(duì)重要性,這是由于分類回歸樹法存在如下特性:(1)變量的重要性表現(xiàn)為該變量出現(xiàn)在樹干的起始部位,或離起始部位很近;(2)重要性還表現(xiàn)為同一變量多次在模型中出現(xiàn)。
圖1 實(shí)驗(yàn)設(shè)備平面布置示意Fig.1 Schematic layout of experimental model
表1 實(shí)驗(yàn)工況
在確定影響因子重要性之前,首先需要構(gòu)建決策樹,并結(jié)合數(shù)據(jù)特點(diǎn),確定出影響程度大的主要因子,排除影響小的次要因子。圖2是原始情況下的決策樹,是將所有的影響因子作為輸入變量得到的,此時(shí)的決策樹比較復(fù)雜,圖形難以辨認(rèn)。因此,必須對(duì)決策樹進(jìn)行剪枝,圖3(a)給出了模型復(fù)雜性參數(shù)圖,由圖3(a),模型在4次分解前,交叉驗(yàn)證誤差隨著分解次數(shù)的增加迅速減少,而接下來的模型相對(duì)誤差處于波動(dòng)狀態(tài),因此,選擇CP=0.02將模型進(jìn)行簡(jiǎn)化,簡(jiǎn)化后的決策樹見圖3(b)。
圖2 原始分類回歸樹Fig.2 Classification and regression tree of original data
圖3 參數(shù)復(fù)雜性(CP)圖及剪枝后決策樹(a為CP圖,b為剪枝后決策樹)Fig.3 The figure of CP and prune classification and regression tree(a. figure of CP; b. prune CART)
對(duì)于圖3(b),每個(gè)節(jié)點(diǎn)的數(shù)值,表示的是縱向離散系數(shù)Kx在這種情況下的平均值,n表示108個(gè)工況中被分入該類的工況數(shù),因?yàn)樵诩糁^程中,經(jīng)過反復(fù)的交叉驗(yàn)證,刪除了對(duì)樹貢獻(xiàn)較小的變量,因此修剪后的樹的節(jié)點(diǎn)變量可能會(huì)發(fā)生變化,每個(gè)節(jié)點(diǎn)處的分類變量,表示當(dāng)Kx在該范圍時(shí),此變量對(duì)Kx的影響較大。對(duì)于給定數(shù)值的工況,在畫出決策樹后,決策者可以根據(jù)樹形圖的走向很容易預(yù)測(cè)未知因變量的取值范圍,以圖3b為例,當(dāng)在U<0.0981,h≥8.707時(shí),Kx的值約為0.006,而當(dāng)0.0981≤U<0.1507,h<8.707時(shí),Kx的值約為0.009,以此類推,可以得出其他情況下的Kx取值。
表2給出了當(dāng)所有變量均作為輸入變量以及減少某種輸入變量時(shí),各輸入變量的權(quán)重大小。由表2可知,對(duì)縱向離散系數(shù)影響最重要的因子為平均流速U;而分流比與寬度比對(duì)縱向離散系數(shù)影響的相對(duì)重要性參數(shù)相同;寬深比對(duì)于縱向離散系數(shù)的影響相較于平均流速U,分流比和寬度比都?。欢鴮?duì)縱向離散系數(shù)影響最小的變量為邊壁情況。
表2 變量的影響權(quán)重值
通過結(jié)合變量的影響權(quán)重值和決策樹可進(jìn)一步分析各變量與縱向離散系數(shù)的關(guān)系。在得出變量影響權(quán)重后,對(duì)于重要性相同的因子通過進(jìn)一步分析可知其是否為非獨(dú)立變量。由圖4a與圖3b,在不考慮分流比影響時(shí),寬度比替代了分流比,而節(jié)點(diǎn)的縱向離散系數(shù)值始終未改變,而不考慮寬度比時(shí),生成的決策樹與圖3b完全相同(圖略),由于在本實(shí)驗(yàn)中兩支汊水深與流速差異很小,且支汊斷面為矩形,所以分流比和寬度比呈正相關(guān),兩者為不獨(dú)立變量,所以當(dāng)輸入變量中無寬度比時(shí),其他變量的相對(duì)重要性值與無分流比時(shí)相同,兩種情況下分流比與寬度比的相對(duì)重要性相同,見表2。
當(dāng)缺少變量寬深比時(shí),比較圖4b和圖3b可知,除平均流速為U的節(jié)點(diǎn)外,其他節(jié)點(diǎn)變量均被寬度比所替代,且決策樹的樹形圖與圖3b也有所差異,可見,寬深比的相對(duì)重要性雖沒有平均流速U,分流比,寬度比大,但是其仍占有一定比重,且寬深比為獨(dú)立變量,所以當(dāng)變量寬深比缺失時(shí),會(huì)對(duì)結(jié)果產(chǎn)生明顯影響,因此在輸入變量選擇時(shí)要考慮寬深比。
對(duì)于影響權(quán)重小的變量,在分析中若缺失這些變量將不會(huì)對(duì)結(jié)果產(chǎn)生顯著影響,仍可以得到較可信的結(jié)果。如不考慮邊壁情況作為決策樹的輸入變量時(shí),決策樹也與圖3b完全相同,因?yàn)檫叡谇闆r對(duì)縱向離散系數(shù)影響較??;當(dāng)同時(shí)不考慮次要變量和非獨(dú)立變量時(shí),仍可以不對(duì)分類結(jié)果產(chǎn)生明顯影響,圖3b與圖4c的分類結(jié)果也是相同的,由表2也可以看出,在輸入變量無寬度比和邊壁情況時(shí),對(duì)其他變量的權(quán)重量值改變不大。
在實(shí)際工作中,得到大量數(shù)據(jù)后,可先通過分類回歸樹進(jìn)行變量篩選,得到對(duì)結(jié)果影響顯著的變量,去除噪聲變量后,再進(jìn)行分析,可以得到更為直觀準(zhǔn)確的結(jié)果,從而避免了由于數(shù)據(jù)過于冗雜,導(dǎo)致計(jì)算結(jié)果精度差,缺少針對(duì)性的現(xiàn)象。
圖4 剪枝后的CART圖(a為輸入變量無分流比,b為輸入變量無寬深比,c為輸入變量無寬度比及邊壁情況)Fig.4 The figure of prune classification and regression tree(a. input variable without diversion ratio; b. input variable without width-depth ratio; c. input variable without width ratio and roughness of side and roughness of bottom )
此外,由分類回歸樹方法生成的決策樹,每個(gè)分支均可讀出該分支節(jié)點(diǎn)變量與縱向離散系數(shù)之間的相關(guān)關(guān)系,如圖4a(U<0.1507時(shí)Kx等于0.009而當(dāng)U>0.1507時(shí)Kx等于0.02,),縱向離散系數(shù)與平均流速呈遞增關(guān)系,這是由于水流運(yùn)動(dòng)越快,斷面流速差異越大,縱向離散系數(shù)越大;而縱向離散系數(shù)與寬深比呈遞減關(guān)系,因主河道寬度B0保持不變,所以寬深比對(duì)于縱向離散系數(shù)的影響可以概括為水深對(duì)它的影響,寬深比越小,縱向離散系數(shù)越大,即縱向離散系數(shù)與水深呈遞增關(guān)系,因?yàn)樗钤黾?,河道中的水流流速分布更加不均勻,?dǎo)致縱向分散能力增強(qiáng),離散系數(shù)與各變量的相關(guān)關(guān)系分析結(jié)論與文獻(xiàn)[23]圖示分析的結(jié)論一致。由圖4a與4c可見,縱向離散系數(shù)與分流比和寬度比均呈遞減關(guān)系,分流比或者寬度比越接近0.5,兩汊的寬度以及汊道里的流速分布差異越小,分汊口與交匯口流速分布差異性也隨之減小,因此縱向離散系數(shù)越小。
本文將分類回歸樹(CART)方法引入河流污染物縱向離散系數(shù)的分析,研究不同變量對(duì)分汊河道縱向離散系數(shù)的影響,該方法不僅可以量化不同影響因子的權(quán)重大小,還可以分析變量與縱向離散系數(shù)相關(guān)關(guān)系。通過對(duì)大量繁雜數(shù)據(jù)的整理分析,確定出影響的主次因子,在對(duì)縱向離散系數(shù)后續(xù)研究中,可重點(diǎn)控制影響重要的變量來提高計(jì)算的準(zhǔn)確度;且可為分汊型河流中水污染防治,排污口設(shè)計(jì),納污能力計(jì)算等工作提供理論指導(dǎo)。
[1]Fischer H B, List E J, Koh R C Y, et al. Mixing in inland and coastal waters[M]. New York: Academic Press,1979.
[2]Seo I W, Cheong T S. Predicting longitudinal dispersion coefficient in natural streams[J]. Journal of Hydraulic Engineering, 1998, 124(1): 25-31.
[3]槐文信,徐孝平. 蜿蜒河道中縱向分散系數(shù)的水力估測(cè)[J]. 武漢大學(xué)學(xué)報(bào)(工學(xué)版),2002, 35(4): 9-12.
[4]Shucksmith J D, Boxall J B, and Guymer I. Effects of emergent and submerged natural vegetation on longitudinal mixing in open channel flow[J]. Water Resource Research, 2010, 46(4): W04504.
[5]Christensen B A. Predicting dispersion coefficient of stream[J]. Journal of the Enviromental Engineering Division-ASCE, 1977, 103(6): 1144-1146.
[6]葉志成. 彎曲河流中縱向混合過程的研究[J]. 華東工學(xué)院學(xué)報(bào),1985,(34):289-299.
[7]李錦秀,黃真理,呂平毓. 三峽庫區(qū)江段縱向離散系數(shù)研究[J]. 水利學(xué)報(bào),2000,(8):84-87.
[8]陳永燦,朱德軍. 梯形斷面明渠中縱向離散系數(shù)研究[J]. 水科學(xué)進(jìn)展,2005,16(4):511-517.
[9]郭建青,李彥,王洪勝,等. 確定河流水質(zhì)參數(shù)的拋物方程近似擬和法[J]. 水利水電科技進(jìn)展,2005,25(2):11-13.
[10]Sahay R R, Dutta S. Prediction of longitudinal dispersion coefficients in natural rivers using genetic algorithm[J]. Hydrology Research, 2009, 40(6): 544-552.
[11]Toprak Z F, and Savci M E. Longitudinal dispersion coefficient modeling in natural channels using fuzzy logic[J]. Clean-Soil Air Water, 2007, 35(6): 626-637.
[12]Riahi-Madvar H, Ayyoubzadeh S A, Khadangi E,et al. An expert system for predicting longitudinal dispersion coefficient in natural streams by using ANFIS[J]. Expert Systems Application, 2009, 36(4): 8589-8596.
[13]Noori R, Karbassi A R, Farokhnia A, et al. Predicting the longitudinal dispersion coefficient using support vector machine and adaptive neuro-fuzzy inference system techniques[J]. Environmental Engineering, 2009, 26(10): 1503-1510.
[14]Sahay R R. Prediction of longitudinal dispersion coefficients in natural rivers using artificial neural network[J]. Environmental Fluid Mechanics, 2011, 11(3): 247-261.
[15]Amir Etemad-Shahidi, and Milad Taghipour. Predicting Longitudinal Dispersion Coefficient in Natural Streams Using M5′ Model Tree[J]. Journal of Hydraulic Engineering, 2012, 138(6): 542-554.
[16]Fuat Toprak Z, Nizamettin Hamidi, Ozgur Kisi, et al. Modeling dimensionless longitudinal dispersion coefficient in natural streams using artificial intelligence methods[J]. KSCE Journal of Civil Engineering, 2014, 18(2): 718-730.
[17]顧莉,華祖林,褚克堅(jiān),等. 分汊型河道水流運(yùn)動(dòng)特性和污染物輸移規(guī)律研究進(jìn)展[J]. 水利水電科技進(jìn)展, 2011,31(5):88-94.
[18]李克鋒,羅麟,李嘉,等.河渠分汊處流量與污染物分配[J].水動(dòng)力研究與進(jìn)展,A 輯,1993,8(1):89-96
[19]魏娟,李然,康鵬,等. 水流交匯區(qū)污染物輸移擴(kuò)散特性[J]. 水科學(xué)進(jìn)展,2012,23(6):822-828.
[20]Breiman L, Friedman J, Olshen R, et al. Classification and Regression Trees [M]. New York: Wadsworth International Group, 1984.
[21]井彥林,仵彥卿,曹廣祝,等.基于數(shù)據(jù)挖掘技術(shù)的黃土分類問題研究[J].巖土力學(xué)與工程學(xué)報(bào), 2005,(24):4545-4551.
[22]顧莉. 分汊河道污染物輸移特性及縱向離散系數(shù)的試驗(yàn)研究[D]. 南京:河海大學(xué),2008.
[23]Gu L, Hua Z L, Chu K J, et al. Evaluation of longitudinal dispersion in braided river from transient tracer tests[J]. Fresenius Environmental Bulletin, 2012, 21(3):774.
Study on Weight and Correlation of Impact Factors of the Longitudinal Dispersion in Braided Rivers
GU Li1,2,3, WANG Lan-lan3, HUA Zu-lin1,3, CHU Ke-jian1,3
(1.KeyLaboratoryofIntegratedRegulation&ResourceDevelopmentonShallowLakesofMinistryofEducation,HohaiUniversity,Nanjing210098,China; 2.NationalEngineeringResearchCenterofWaterResourcesEfficientUtilization&EngineeringSafety,HohaiUniversity,Nanjing210098,China; 3.CollegeofEnvironment,HohaiUniversity,Nanjing210098,China)
In the natural river, longitudinal dispersion coefficient is a key parameter to reflect the longitudinal dispersion characteristics of pollutants. Previous researches mainly focused on straight and curved channels, however there had little studies on the braided river with complex flow structures and boundary conditions. In this study, a data mining techniques CART combined with tracer test were used to study the factor importance and factor weights. 108 tests were undertaken, considering different flow velocity, diversion ratio, width ratio, width-depth ratio, roughness of side and roughness of bottom. The results showed that, the greatest impact weight was flow velocity, diversion ratio and width ratio tied for second place, then followed by width-depth ratio, and the roughness impact was minimal. The relationship between longitudinal dispersion and impact factors was also analyzed in this article. Velocity was positive correlated with longitudinal dispersion coefficient, while width-depth ratio was negative related with it. When width ratio and diversion ratio were equal to 0.5(namely the two branches were symmetric), the longitudinal dispersion were minimum. This study results had great significance in the research of the longitudinal dispersion of braided rivers.
Braided river; longitudinal dispersion coefficient; CART; impact factor weights; correlatio
2014-11-17
國家科技支撐計(jì)劃項(xiàng)目(2012BAB03B04);國家自然科學(xué)基金資助項(xiàng)目(51379058,51179052,51479064);水體污染控制與治理科技重大專項(xiàng)課題(2012ZX07103-005);江蘇省六大人才高峰計(jì)劃(08-C)。
顧莉(1981-),女,江蘇淮安人,2008年畢業(yè)于河海大學(xué)環(huán)境科學(xué)與工程專業(yè),副教授,博士, 研究方向?yàn)榄h(huán)境與生態(tài)水力學(xué)。
華祖林,E-mial:zulinhua@hhu.edu.cn。
X522
A
1001-3644(2015)01-0001-06