王丹丹, 馮民權(quán),焦 夢
(西安理工大學(xué) 西北旱區(qū)生態(tài)水利工程國家重點實驗室培育基地,西安 710048)
?
基于支持向量機(jī)的汾河下游河流健康評價
王丹丹, 馮民權(quán)*,焦 夢
(西安理工大學(xué) 西北旱區(qū)生態(tài)水利工程國家重點實驗室培育基地,西安 710048)
為識別汾河下游河流健康狀況,以汾河下游段為研究對象進(jìn)行了河流健康評價。構(gòu)建了基于支持向量機(jī)(SVM)的河流健康評價模型,對不同樣本容量的模型性能進(jìn)行比選后,計算不同級別及不同指標(biāo)的評價決策函數(shù),確定河流健康狀況級別;并采用熵權(quán)物元模糊法評價結(jié)果對支持向量機(jī)的評價結(jié)果進(jìn)行驗證。由綜合指標(biāo)可見汾河下游健康安全水平處于4級差的級別;由單指標(biāo)可見,大部分指標(biāo)處于4級、5級差與較差水平;評價結(jié)果反映出該河段生態(tài)系統(tǒng)本底環(huán)境非常脆弱,健康狀態(tài)較差。對比發(fā)現(xiàn)SVM評價法與基于熵權(quán)物元模糊法得到的評價結(jié)果一致,且該法避免了傳統(tǒng)方法的人為因素影響,表明采用SVM模型進(jìn)行河流健康評價是合理可行的,其結(jié)果也是可信的,該評價方法也可為小樣本河流健康評價提供一定的方法依據(jù)。
支持向量機(jī);健康河流評價;熵權(quán)物元模糊模型
河流水系是地球水資源的重要載體,河流的健康狀況評價是該河流管理決策的依據(jù),密切關(guān)系著沿河流域人們的生產(chǎn)生活質(zhì)量[1-2],目前河流健康被絕大多數(shù)人理解為所研究區(qū)域內(nèi)的河流具有良好的自然功能、社會服務(wù)功能以及健康的生態(tài)狀況?;诖吮狙芯靠紤]河流現(xiàn)狀即包括河流自然、社會及生態(tài)3方面內(nèi)容的評價指標(biāo)均處于良好,即認(rèn)定該河流健康。如何運(yùn)用評價方法得出河流生態(tài)系統(tǒng)的健康狀況以對流域生態(tài)系統(tǒng)進(jìn)行保護(hù)是國內(nèi)外學(xué)者廣泛關(guān)注的熱點。上世紀(jì)80年代左右,歐美國家開始重點關(guān)注河流的健康安全狀況,并采取了一些安全措施對流域河流進(jìn)行保護(hù),河流健康則應(yīng)運(yùn)而生。之后健康黃河、健康長江等概念相繼出現(xiàn),由此河流健康逐漸受到重視[3]。目前評價健康河流的方法主要有:理化參數(shù)評價法、指示物種的監(jiān)測和評價法、綜合指標(biāo)法[4]。國外的河流健康判斷方法,例如:美國可以通過河流中的魚類等生物對河流健康狀況作出評價,被稱為快速生物監(jiān)測協(xié)議法(RSP);澳大利亞對原始的河流狀況與現(xiàn)狀的河流基本特征指數(shù)作對比,提出河流的形態(tài)結(jié)構(gòu)框架法(GRS)[5-6]。國內(nèi)學(xué)者羅曉麗等[7]通過構(gòu)建改進(jìn)的模糊物元可拓模型對灤河河流生態(tài)健康進(jìn)行了評價,研究得到基于尺度劃分的河流健康評價理論;石教智等[8]為判別東江河流系統(tǒng)的多年健康狀況,分別采用了模糊數(shù)學(xué)理論法以及層次分析法構(gòu)建起了層次模糊診斷模型;鄧曉軍等[9]則建立了單一的層次模糊分析法對漓江市區(qū)的健康狀況進(jìn)行了分析評價,最終得到影響河流健康的主要影響因素;高明[10]構(gòu)建了改進(jìn)的SPA模型,采用結(jié)合熵值法及AHP對指標(biāo)權(quán)重進(jìn)行組合賦權(quán),對河流健康狀況等級作出評價;徐宗學(xué)等[11]依據(jù)土地利用指數(shù)、棲息地質(zhì)量指數(shù)和水質(zhì)參數(shù)構(gòu)建一個綜合指數(shù),用于渾太河流域參照點的定量篩選,構(gòu)建F-IBI指數(shù)得到渾太河流域河流健康狀況評價;楊哲等[12]采用組合賦權(quán)法確定各指標(biāo)權(quán)重建立了改進(jìn)灰色聚類-SPA耦合模型應(yīng)用于河流健康評價,得到河流的綜合評價結(jié)果。
雖然河流健康評價的方法越來越多,但不同的河流水系自然、社會、經(jīng)濟(jì)條件差異較大,變化復(fù)雜,這些方法雖各有優(yōu)點,較多方法卻過分依賴于專家咨詢意見,這樣往往會忽略重要信息,無法客觀以及準(zhǔn)確地反映河流健康的真實情況;且很多方法在解決實際問題中,面對小樣本容量的方案會出現(xiàn)無法收斂或者參數(shù)等選擇難的情況[13]。而支持向量機(jī)的方法正好在解決小樣本及非線性問題中有著優(yōu)勢,同時也很少在此領(lǐng)域中應(yīng)用。因此本研究采用支持向量機(jī)(support vector machine,簡稱SVM)方法作為河流健康評價模型,并用熵權(quán)物元模糊評價結(jié)果進(jìn)行驗證,以汾河下游段(洪洞縣-入黃口)為例,以探討新的模式識別方法在河流健康評價中的實際應(yīng)用,為河流健康評價提供借鑒與參考。
汾河下游是汾河流域的關(guān)鍵及典型區(qū)域,由于流域內(nèi)生態(tài)和水環(huán)境失衡導(dǎo)致河流水污染嚴(yán)重,河流健康受到嚴(yán)重威脅。汾河下游河流健康評價可看作一個健康安全級別評價指標(biāo)間的非線性函數(shù)關(guān)系問題。在進(jìn)行河流健康評價前選取能夠最真實反映河流健康的評價體系是一項重要工作。故對汾河下游進(jìn)行評價時,依據(jù)自然環(huán)境、社會服務(wù)以及河流生態(tài)現(xiàn)狀,選出7方面、10指標(biāo)構(gòu)成汾河下游的健康評價指標(biāo)體系,見圖1。
圖1 河流健康評價指標(biāo)體系Fig.1 River health evaluation index system
汾河下游河流指標(biāo)體系建立后,依據(jù)流域的實際情況、相關(guān)研究成果,同時參考文獻(xiàn)[14]進(jìn)行分析并對河流健康標(biāo)準(zhǔn)進(jìn)行等級劃分,見表1。將河流健康標(biāo)準(zhǔn)劃分為5級,即優(yōu)、良、中、差、極差,對應(yīng)每一級別,每個指標(biāo)都有各自的閾值范圍(其中方括號表示包括該值,圓括號表示不包括該值),用這5個等級評判汾河下游河流健康級別。
表1 評價指標(biāo)各等級標(biāo)準(zhǔn)值Table 1 Grade standard of different evaluation indexs
2.1 支持向量機(jī)原理
支持向量機(jī)基于統(tǒng)學(xué)識別原理,其目的在于結(jié)構(gòu)合理及風(fēng)險最小化,能夠解決實際應(yīng)用中的非線性小樣本問題及高維模式識別問題。假如給定一個訓(xùn)練樣本集{(xi,yi),i=1,2,3,…,n},其中xi∈Rd,yi∈{1,-1};通過訓(xùn)練學(xué)習(xí)找到g(x)模式,使其對于訓(xùn)練樣本集滿足yi=g(xi),且對預(yù)測數(shù)據(jù)集{xn+1,…,xm},能得到較好的對應(yīng)的預(yù)測值yi。線性可分樣本的線性判別函數(shù)形式為g(x)=ω·x+b,則其對應(yīng)的分類面方程為:
ω·x+b=0
(1)
使樣本均滿足|g(x)|≥1,即yi[ω·x+b]-1≥0,其中i=1,2,…,n。此時分類間隔為2/‖ω‖,為使間隔最大‖ω‖應(yīng)最小。最優(yōu)分類線指其對所有樣本均分類正確,因此最優(yōu)分類線要滿足:
yi[ω·xi+b]=1,i=1,2,…,n
(2)
最優(yōu)分類面可使兩類樣本正確分開,且使得分類間隔為最大。最優(yōu)分類面問題可表示為在約束條件下,求如下函數(shù)的最小值,即:
(3)
函數(shù)存在唯一解,最后得到的最優(yōu)分類面函數(shù)即為:
(4)
非線性問題即本研究所需采用的方法通過最先確定內(nèi)積核函數(shù)K(xi·xj),它的選擇需要滿足Mercer條件。接著把非線性數(shù)據(jù)映射到高位空間,將其轉(zhuǎn)化為線性可分問題。其最優(yōu)對偶問題為:
(5)
相應(yīng)的分類函數(shù)也變?yōu)椋?/p>
(6)
2.2 支持向量機(jī)網(wǎng)絡(luò)性能訓(xùn)練
為了使結(jié)果更加合理,先進(jìn)行SVM網(wǎng)絡(luò)訓(xùn)練,選出性能高的方案進(jìn)行評價。首先對各個指標(biāo)進(jìn)行歸一化處理,以消除不同指標(biāo)不同單位之間的計算不便問題。其次在5個級別的標(biāo)準(zhǔn)中隨機(jī)生成4個方案不同容量的樣本,同時選出訓(xùn)練樣本及隨機(jī)樣本。本研究選擇每個方案每級樣本的60%為訓(xùn)練樣本,剩余作為檢驗樣本,對4種方案進(jìn)行訓(xùn)練與檢驗。由核函數(shù)的定義可知,其模型中的懲罰因子與核函數(shù)參數(shù)對模型的精確度有很大影響[15-16],因此先確定徑向基核函數(shù)懲罰因子C為1.2,g為2.8,其他參數(shù)按默認(rèn)值選取。在研究中,采用了隨機(jī)生成樣本的方法,同時訓(xùn)練樣本及檢驗樣本均是隨機(jī)選取,每次的模型運(yùn)行產(chǎn)生的參數(shù)可能會有所不同。通過對不同容量的平均相對誤差和運(yùn)行時間判斷模型性能的好壞,見表2。
表2 不同樣本容量的模型性能Table 2 Model performance of different sample sizes
由表2可見,方案1至方案4模型的平均相對誤差分別為2.5%~3.8%,其誤差小于10%在合理范圍之內(nèi),表明其評價結(jié)果是可信的;隨著樣本容量增加,誤差也有小幅度的增加,表明在小樣本情況下,模型精度較高;從模型的運(yùn)行時間來看,隨著樣本容量增加,運(yùn)行時間也隨之增加(除方案4外),表明樣本容量增加對于提高模型性能沒有幫助。因此,本研究選取方案2,即100個樣本作為評價模型分類器訓(xùn)練的基礎(chǔ)。
經(jīng)比選確定在每級的評價范圍之內(nèi)各隨機(jī)產(chǎn)生20個樣本,即總共有100個樣本,分別將其目標(biāo)值設(shè)為對應(yīng)的1至5。令評價數(shù)據(jù)為xij,則i表示評價級別(i=1,…,5),j表示評價指標(biāo)(j=1,…,10)。為使訓(xùn)練樣本精確,選擇樣本容量的80%作為訓(xùn)練樣本,剩余樣本則為測試樣本。本研究中確定了優(yōu)、良、中、差、極差共5個級別,因此為5分類問題并依此建立起5個兩分類器。即選擇其中1級作為正類,設(shè)其標(biāo)簽為1;則其余4級為負(fù)類,設(shè)其標(biāo)簽為-1,依次類推。選擇徑向基核函數(shù)作為核函數(shù),懲罰因子等參數(shù)值與上述討論相同,均不作任何改變。將2014年的數(shù)據(jù)作為本研究的待測樣本,見表3。
表3 汾河下游河流評價指標(biāo)值Table 3 Evaluation indexes of the lower reaches of Fenhe River
把待測樣本的數(shù)據(jù)依此輸入訓(xùn)練后的分類器,可以分別得到10個樣本之下的對應(yīng)的5級決策值,即可待測樣本的決策值及它所在的分類;同時得到汾河下游的綜合決策值及分類。5個健康等級相對應(yīng)1級至5級決策函數(shù),結(jié)果見表4。
表4 指標(biāo)決策函數(shù)值及評價結(jié)果Table 4 Indicator decision function value and evaluation results
由表4可見,待測樣本及其對應(yīng)的決策函數(shù)級別在生態(tài)流量滿足程度、河岸穩(wěn)定性等方面表現(xiàn)不足,綜合指標(biāo)汾河下游健康安全水平處于4級差的級別;單指標(biāo)的安全級別,大部分指標(biāo)處于4級、5級差與較差的水平,評價結(jié)果反映出該河段生態(tài)系統(tǒng)本底環(huán)境非常脆弱,健康狀態(tài)較差。另一方面也表明支持向量機(jī)可以應(yīng)用于河流健康評價模型及判別,同時在判別過程中該模型不會像專家打分一樣,對決策結(jié)果造成主觀影響,這樣得出的評價結(jié)果更具有說服力。
為驗證支持向量機(jī)方法的評價結(jié)果是否準(zhǔn)確,本研究采用了熵權(quán)物元模糊評價結(jié)果作對比分析。即在物元的基礎(chǔ)上,結(jié)合模糊集合和熵權(quán)的概念,建立起基于歐氏貼近度的熵權(quán)模糊物元模型[17-20],將其應(yīng)用于河流健康評價的方法。與支持向量機(jī)一致確定優(yōu)、良、中、差、極差為1~5級,將表3汾河下游2014年的各指標(biāo)狀況與5級評價標(biāo)準(zhǔn)合起來得到6個簡單物元。同時依據(jù)表3構(gòu)造由6物元、10指標(biāo)確定出的復(fù)合物元。
4.1 確定從優(yōu)隸屬度
在本研究建立的復(fù)合物元中,分別采用越大越優(yōu)公式和越小越優(yōu)公式計算對應(yīng)的從優(yōu)隸屬度模糊物元Rnm。其中河岸帶狀況、生態(tài)流量滿足度、河流生物多樣性指數(shù)、岸坡植物完整性指數(shù)、防洪工程合格率、群眾滿意度、供水保障、水功能區(qū)水質(zhì)達(dá)標(biāo)率指標(biāo)屬于在本研究中越大越優(yōu)型指標(biāo);而流量過程變異、水質(zhì)綜合系數(shù)指標(biāo)屬于越小越優(yōu)型指標(biāo)。
4.2 確定標(biāo)準(zhǔn)方案模糊物元
確定從優(yōu)隸屬度后,對不同級方案的指標(biāo)進(jìn)行隸屬度計算,本研究取各方案中最大值作為標(biāo)準(zhǔn)方案模糊物元,由計算得到u(x0i)=1.0。
確定標(biāo)準(zhǔn)方案模糊物元后,通過與復(fù)合物元每項數(shù)值間的差平方計算得到差平方復(fù)合模糊物元R△。
4.3 確定各項指標(biāo)權(quán)重
確定各指標(biāo)權(quán)重,采用熵值法分別得到10個指標(biāo)的權(quán)重系數(shù)Wi,其目的在于降低評價人的主觀對于評價結(jié)果精確性的影響,權(quán)重計算結(jié)果見表5。
表5 指標(biāo)熵權(quán)計算結(jié)果Table 5 Entropy weight calculation result of index
4.4 評價結(jié)果
計算差平方復(fù)合物元以及10項指標(biāo)的權(quán)重,繼而分別得到各級標(biāo)準(zhǔn)與待評價樣本之間的貼近度Rph,具體數(shù)值如下:
由熵權(quán)物元模糊數(shù)學(xué)的貼近度計算可知,2014年汾河下游河流健康處于3級與4級水平之間,計算歐式貼近距離可得健康級別應(yīng)屬于4級水平,即健康狀況差。評價結(jié)果表明河流的水體環(huán)境質(zhì)量和水生生態(tài)系統(tǒng)現(xiàn)狀壓力大,亟需改善,與支持向量機(jī)的評價結(jié)果是一致的。但兩種方法仍存在差別:熵權(quán)法要計算權(quán)重,側(cè)重于對內(nèi)部影響因子的分析。由指標(biāo)權(quán)重來看,流量變異過程和水質(zhì)綜合系數(shù)為主要影響因子,因此需要優(yōu)先考慮如何減少河道流量不必要的損失及加強(qiáng)河流水質(zhì)管理。而支持向量機(jī)評價法則體現(xiàn)的是綜合質(zhì)量的分析,由分類器分別得到各項指標(biāo)的級別,結(jié)果表明河岸穩(wěn)定指數(shù)、生態(tài)流量不能滿足、水功能區(qū)水質(zhì)不達(dá)標(biāo)、防洪工程不達(dá)標(biāo)等是目前存在的問題,因此為了實現(xiàn)水資源的可持續(xù)利用及生態(tài)修復(fù),需加大力度整改河道,確保良好的生態(tài)環(huán)境,同時加強(qiáng)防洪工作及水質(zhì)管理。
本研究結(jié)合汾河下游河流現(xiàn)狀從自然環(huán)境、社會服務(wù)以及河流生態(tài)現(xiàn)狀下的7個方面選定了10個指標(biāo)構(gòu)成起了河流健康評價指標(biāo)體系及標(biāo)準(zhǔn);同時為確定樣本精確性,構(gòu)建了不同樣本容量的數(shù)據(jù)樣本進(jìn)行比對,最終對汾河下游河流健康狀況進(jìn)行了評價,得到以下結(jié)論:
1)本文采用了一種有效的、基于SVM的河流健康評估模型,分別得到10項指標(biāo)的決策函數(shù),判斷出汾河下游河流健康狀況處于4級差的水平。同時以熵權(quán)物元模糊評價對河流健康評價結(jié)果進(jìn)行了驗證,其結(jié)果一致,表明采用該模型進(jìn)行河流健康評價是可行的,結(jié)論是可靠的。兩種方法雖有差異,綜合其結(jié)果可見,要著重加強(qiáng)汾河下游的河道整治及水質(zhì)監(jiān)管工作,以建立起一個健康的河流生態(tài)系統(tǒng)。
2)SVM評價方法與熵權(quán)物元模糊法相比,沒有賦權(quán)和確定隸屬的過程,避免了人為影響,表明其更具有客觀性;且構(gòu)造分類器后,只需輸入實測數(shù)據(jù)便可得出結(jié)果,具有簡便易行性;通過SVM的樣本訓(xùn)練可見其適應(yīng)各種樣本容量,能夠解決小樣本或樣本不足的問題,實用性強(qiáng),因此基于SVM的河流健康評估模型可作為河流健康評價研究一種有效方法。
[1] Arthington A H,Naiman R J,Mcclain M E ,et al. Preserving the biodiversity and ecological services of rivers; new challenges and research opportunities; Preserving the biodiversity and ecological services of rivers[J].Freshwater Biology,2010,55(1):1-16.
[2] 殷會娟.河流生態(tài)需水及生態(tài)健康評價研究[D].天津:天津大學(xué),2005.
[3] 何興軍,李琦,宋令勇.河流生態(tài)健康評價研究綜述[J].地下水,2011,33(2):63-66.
[4] Ma Huiqun, Liu Ling,Chen Tao. Water security assessment in Haihe River Basin using principle component analysis based on Kendall[J]. Environ Monit Assess,2009,10(4):1-6.
[5] Ladson A R,White L J,Doolan J A,et a1.Development and tesdng of an Index of Stream Condition for waterway management in Austral— ia[J].Freshwater Biology,1999,41:453-468.
[6] Brierley G J, Cohen T, Fryirs K,et a1.Post—European changes to the fluvial geomorphology of Bega catchment, Australia: implications for river ecology[J].Freshwater Biology,1999,41:839-848.
[7] 羅曉麗,董增川,徐偉,等.基于尺度劃分的灤河河流生態(tài)健康評價[J].南水北調(diào)與水利科技,2016,14(5):91-95.
[8] 石教智,吳文嬌,吳龍華,等.東江河流系統(tǒng)健康診斷及分析[J].水電能源科學(xué),2016,34(1):35-39.
[9] 鄧曉軍,許有鵬,翟祿新,等.城市河流健康評價指標(biāo)體系構(gòu)建及其應(yīng)用[J].生態(tài)學(xué)報,2014,34(4):993-1001.
[10] 高明.基于改進(jìn)SPA模型在河流健康評價中的應(yīng)用[J].水科學(xué)與工程技術(shù),2016(3):33-36.
[11] 徐宗學(xué),李艷利.河流健康評價指標(biāo)體系構(gòu)建及其應(yīng)用——以渾太河流域為例[J].南水北調(diào)與水利科技,2016,14(1):1-9.
[12] 楊哲,楊侃,蔣立偉,等.引入SPA理論的灰色聚類河流健康評價耦合模型[J].水電能源科學(xué),2016,34(8):1-5.
[13] 田雨波.混合神經(jīng)網(wǎng)絡(luò)技術(shù)[M]. 北京:科學(xué)出版社,2009.
[14] 閆峰,劉凌,徐麗娜,等.隸屬度向量分析法在河流健康評價中的應(yīng)用[J].水電能源科學(xué),2012,30(10):30-32,214.
[15] 崔東文.支持向量機(jī)在湖庫營養(yǎng)狀態(tài)識別中的應(yīng)用研究[J].水資源保護(hù),2013,29(4):26-30.
[16] 孔憲喻,蘇榮國.基于支持向量機(jī)的黃東海富營養(yǎng)化快速評價技術(shù)[J].中國環(huán)境科學(xué),2016(1):143-148.
[17] 李朦,汪妮,解建倉,等.基于模糊物元模型的再生水資源價值評價[J].西北農(nóng)林科技大學(xué)學(xué)報:自然科學(xué)版,2016(1):223-229.
[18] 雷勛平,邱廣華. 基于熵權(quán)TOPSIS模型的區(qū)域資源環(huán)境承載力評價實證研究[J].環(huán)境科學(xué)學(xué)報,2016,36(1):314-323.
[19] 余健,房莉,倉定幫,等.熵權(quán)模糊物元模型在土地生態(tài)安全評價中的應(yīng)用[J].農(nóng)業(yè)工程學(xué)報,2012,28(5):260-266.
[20] 劉大海,宮偉,邢文秀,等.基于AHP—熵權(quán)法的海島海岸帶脆弱性評價指標(biāo)權(quán)重綜合確定方法[J].海洋環(huán)境科學(xué),2015(3):462-467.
Health evaluation of the lower reaches of Fenhe River based on support vector machine
WANG Dan-Dan, FENG Min-Quan*, JIAO Meng
(StateKeyLaboratoryBaseofEco-hydraulicEngineeringinAridArea,Xi’anUniversityofTechnology,Xi’an710048,China)
To identify the health status of the lower reaches of the Fenhe River, a river health assessment was conducted in the lower reaches of the Fenhe River. The river health evaluation model based on support vector machine(SVM) is constructed, and after comparing the performance of different model capacity, the evaluation function of different grades and different indexes is calculated to determine the river health status; the evaluation results of SVM are verified by the evaluation results of fuzzy entropy matter-element evaluation method. The comprehensive index shows that the health and safety level of Fenhe River downstream is at the level of 4 grades; single index show that most indicators is at the poor level of 4, 5 and poor grades; the evaluation results show that the background environment of the river ecosystem is very fragile and the health status is poor. It is found that the SVM method is consistent with the evaluation result based on the fuzzy entropy matter-element evaluation method, and this method avoids the influence of human factors, which indicated that it is reasonable and feasible to use the SVM model to evaluate the river health, and the results are credible, the evaluation method can also provide a methodological basis for the river health evaluation of small samples.
support vector machine(SVM); healthy river evaluation; fuzzy entropy matter-element model
10.13524/j.2095-008x.2017.01.003
2016-12-21
http://www.cnki.net/kcms/detail/23.1566.T.20170224.1023.014.html
國家自然科學(xué)基金資助項目(51679191);山西省水利科學(xué)技術(shù)研究與推廣項目(2014-6)
王丹丹(1992-),女,陜西延安人,碩士研究生,研究方向:水環(huán)境模擬與預(yù)測,E-mail:810394144@qq.com;*通訊作者:馮民權(quán)(1964-),男,山西永濟(jì)人,教授,博士,博士研究生導(dǎo)師,研究方向:水環(huán)境模擬與污染控制,E-mail:mqfeng@xaut.edu.cn。
X820.2
A
2095-008X(2017)01-0017-08