郭美葉
(河北省張家口水文水資源勘測局,河北 張家口 075000)
水是人類生存發(fā)展和維系生態(tài)系統(tǒng)正常運(yùn)轉(zhuǎn)的基質(zhì)[1],也是地球陸地表層生物、物理、化學(xué)能量與物質(zhì)遷移轉(zhuǎn)化最活躍的場所之一[2],水環(huán)境質(zhì)量對環(huán)境變化及人類活動(dòng)的響應(yīng)十分敏感。在全球變化的背景下,水質(zhì)量受環(huán)境污染、氣候變化、水侵蝕、人類不合理開發(fā)利用的干擾愈來愈烈。水體質(zhì)量評價(jià)主要反映了水體的生物、化學(xué)、物理等綜合條件狀況,為水質(zhì)量的優(yōu)化管理提供依據(jù)。
隨著機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等現(xiàn)代數(shù)據(jù)挖掘算法的應(yīng)用與推廣,就水環(huán)境質(zhì)量評價(jià)方法而言,逐漸由傳統(tǒng)的模糊隸屬度函數(shù)評價(jià)法轉(zhuǎn)化為模式識別法。學(xué)者對灰色GM模型、可拓分析、BP和RBF神經(jīng)網(wǎng)絡(luò)等評價(jià)方法進(jìn)行了嘗試,并取得一定成果[3-6]。但傳統(tǒng)評價(jià)方法注重回歸分析和時(shí)間序列模型分析,不能全面、科學(xué)地反映各項(xiàng)要素之間內(nèi)在機(jī)理,損失信息量較大,難以取得較好的評價(jià)效果,而神經(jīng)網(wǎng)絡(luò)方法又不能很好解決小樣本、非線性、高維數(shù)和局部極小等問題[7]。支持向量機(jī)(Support Vector Machine,SVM)作為一種新的機(jī)器學(xué)習(xí)方法,避開了從歸納到演繹的傳統(tǒng)過程,實(shí)現(xiàn)了從訓(xùn)練樣本到預(yù)報(bào)樣本的“轉(zhuǎn)導(dǎo)推理”[8],而且其采用的風(fēng)險(xiǎn)最小化準(zhǔn)則有效克服了神經(jīng)網(wǎng)絡(luò)的固有缺陷,已被很多學(xué)者運(yùn)用于圖像解譯、語音識別、文本分離,并取得了良好效果。據(jù)此,本研究嘗試運(yùn)用SVM分類模型,以陜西省為例,對其水質(zhì)發(fā)展趨勢予以模擬與評價(jià),以期為陜西省土地生態(tài)規(guī)劃提供實(shí)踐經(jīng)驗(yàn)和理論依據(jù)。
洋河為桑干河支流之一,是北京官廳水庫重要水源。其貫穿張家口多個(gè)縣區(qū),流域跨度介于E113°50′~E116°30′,N39°30′~N42°10′。區(qū)域?qū)儆诘蜕较螂A地、盆地過渡區(qū),海拔在500~800 m之間,高程相差不大。由于地形抬升和盆地效應(yīng),在迎風(fēng)坡段降水較豐,多年均降水量為330~400 mm。洋河張家口段水源補(bǔ)給主要為降水和地下水,由于區(qū)域暖干化趨勢加劇,地表水域萎縮、水流活性下降。近年來,隨著張家口城鎮(zhèn)化、工業(yè)化發(fā)展日趨深入,工業(yè)三廢、農(nóng)用污水、生活廢物排放增多,對地表徑流、地下水造成一定污染,當(dāng)前眉縣段渭河水質(zhì)質(zhì)量堪憂。
為了便于全面掌握洋河張家口段水環(huán)境質(zhì)量概況,按照全局性、均勻性、一般性的布點(diǎn)原則,并且考慮河段附近的土地利用類型、工業(yè)分布、支流狀況等,在河段干流上設(shè)置45個(gè)監(jiān)測面。監(jiān)測時(shí)間為2016年10月,在每個(gè)監(jiān)測點(diǎn)約10 m2的范圍進(jìn)行隨機(jī)采集3~5水體樣本,混合均勻后帶回實(shí)驗(yàn)室進(jìn)行化驗(yàn)分析,同時(shí)應(yīng)用GPS儀記錄樣點(diǎn)的經(jīng)緯度坐標(biāo)。監(jiān)測的指標(biāo)有溶解氮(DO)、高錳酸鉀指數(shù)(COD)、氨氮(NH4-N)、總磷(TP)、總氮(TN)。其中按照《水質(zhì)高錳酸鹽指數(shù)的測定》(GB/T 11892-1989)對各項(xiàng)指標(biāo)測定, DO以硫酸鉀濕氧化法測定,COD以草酸鈉法測定,氨氮(NH4-N)以納氏劑分光光度法,TP以碳酸氫鈉浸提—鉬銻抗比色法,總氮以半微量凱氏法測定[9]。
支持向量機(jī)(Support Vector Machine,SVM)是由Vapnik[10]提出的基于統(tǒng)計(jì)學(xué)習(xí)理論的一種新的機(jī)器學(xué)習(xí)方法,其利用某一種預(yù)先選擇的非線性映射將輸入向量映射到一個(gè)高維特征空間, 并在該高維特征空間構(gòu)造出最優(yōu)分類超平面, 最后利用該超平面進(jìn)行擬合或分類。SVM評價(jià)分析則是利用其回歸算法。對于樣本數(shù)據(jù)[xi,yi],其中i= 1,2 …,n,n為樣本數(shù)據(jù)總數(shù),xi∈Rn為樣本輸入,yi∈R為樣本輸出期望值。SVM的回歸函數(shù)描述如下:
f(x)=ω·φ(x)+b
(1)
φ∶Rn→G,ω∈G
對優(yōu)化目標(biāo)函數(shù)求極值:
(2)
式中:C為懲罰系數(shù);Remp(f)為損失函數(shù);設(shè)定ε不敏感函數(shù)為損失函數(shù),則ε定義如下:
Lε(d,y)=|f(xi)-yi|-ε
(3)
其中,|f(xi)-yi|>ε
(4)
s.t.yi-[ω·φ(xi)+b]≤ε+ξi
(5)
將上式帶入SVM回歸方程,即可得到相關(guān)樣本輸出值,即:
(6)
由于SVM理論只考慮高維特征空間的點(diǎn)積運(yùn)算K(xi,x)=φ(xi)·φ(x),不直接使用映射函數(shù),所以式(6)表達(dá)為:
式中:K(xi,x*)為核函數(shù)。
常用的核函數(shù)有:線性核函數(shù)、多項(xiàng)式核函數(shù)、RBF核函數(shù)和Sigmoid核函數(shù)等。
應(yīng)用支持向量機(jī)算法對16個(gè)監(jiān)測樣點(diǎn)的水質(zhì)進(jìn)行模式識別,其關(guān)鍵在于基于水體測定的單一指標(biāo)豐度與水質(zhì)等級之間的聯(lián)系構(gòu)造分類規(guī)則,建模過程如下:
Steep1:依據(jù)地表水環(huán)境質(zhì)量分級標(biāo)準(zhǔn)(GB 3838-2002)[11]確定區(qū)域水體單一指標(biāo)與水體質(zhì)量的綜合評價(jià)分級準(zhǔn)則,見表1。由于該分級標(biāo)準(zhǔn)為國家標(biāo)準(zhǔn),因而具有廣闊的適用性和客觀性、規(guī)范性。另外,以DO、COD、NH、TP、TN等單一指標(biāo)組建的水體質(zhì)量評價(jià)體系代表了水體絕大部分性質(zhì),能夠較好地反映水體綜合質(zhì)量。
表1 地表水環(huán)境質(zhì)量的分級標(biāo)準(zhǔn)Table 1 The classification standard of five kinds of the evaluated soil nutrients
Steep 2:基于樣本地表水環(huán)境分級標(biāo)準(zhǔn)生成樣本數(shù)據(jù)與確定模型準(zhǔn)則。樣本數(shù)據(jù)的生成應(yīng)用runif函數(shù),在各等級區(qū)間進(jìn)行內(nèi)插,每個(gè)區(qū)間生存100組數(shù)據(jù),其中每一個(gè)等級內(nèi)均包含該等級內(nèi)水體單一指標(biāo)數(shù)據(jù)。各單一指標(biāo)如果隸屬于同一類別,則表明該水質(zhì)也屬于這個(gè)級別,以此確定模型準(zhǔn)則,這是應(yīng)用支持向量機(jī)算法進(jìn)行水體質(zhì)量模式識別的主要內(nèi)涵。
Steep 3:模型參數(shù)優(yōu)化選擇。 客觀來講,模型參數(shù)對于模型的精度有著顯著影響,為了提供保證評價(jià)效果,對模型參數(shù)調(diào)優(yōu)是極有必要的。由于該SVM模型屬于非線性分類,需要確定懲罰因子cost和核參數(shù)gamma。根據(jù)訓(xùn)練誤差最小原則,選取最優(yōu)cost為16,最優(yōu)gamma為2,見圖1。
圖1 SVM模型表現(xiàn)與參數(shù)Fig.1 The performance and parameters of SVM
Rank一二三四五一1000000二0100000三0010000四0001000五000199
Steep 4:模型精度評價(jià)。表2中,對角線中數(shù)字為分類正確的樣本數(shù),矩陣中其他數(shù)字為分類錯(cuò)誤的樣本數(shù)。SVM算法內(nèi)含判別函數(shù),能夠直接顯示模型分類精度的結(jié)果,SVM模型對各級水化學(xué)肥力的判別正確率為999.9%。綜合而言,SVM模型分類精度較高,具有良好的模式識別能力,能夠用于對新的樣本數(shù)據(jù)進(jìn)行分類評價(jià)。
Steep 5。將訓(xùn)練好的水質(zhì)評價(jià)模型對研究區(qū)16組水養(yǎng)分?jǐn)?shù)據(jù)進(jìn)行識別,以綜合評價(jià)研究區(qū)水化學(xué)質(zhì)量。
水體化學(xué)指標(biāo)描述性分析與相關(guān)性分析在SPSS19.0中進(jìn)行。基于支持向量機(jī)模式識別的水體質(zhì)量評估模型的數(shù)據(jù)生成在R3.3.1中運(yùn)用runif函數(shù)完成,模型構(gòu)建與分類識別R3.3.1軟件中Support vector machine包中進(jìn)行。此外,將SVM機(jī)器學(xué)習(xí)模型評價(jià)識別的洋河張家口段16個(gè)水樣點(diǎn)進(jìn)行分類。
見表4。
表3 水化學(xué)指標(biāo)描述統(tǒng)計(jì)Table 3 Descriptive statistics of soil chemical indicators
表4 水體化學(xué)指標(biāo)相關(guān)性分析Table 4 The relationships between water chemical indicators
相關(guān)性分析能夠幫助我們推斷水體中各物質(zhì)之間遷移轉(zhuǎn)化機(jī)理及其來源是否相同。皮爾遜(Person)相關(guān)分析表明(表4),DO與COD、 DO與NH、 DO與TN、DO與TP呈正相關(guān)關(guān)系,并在0.01水平上(雙側(cè))達(dá)到極顯著程度,說明它們的水污染源相近,可能由工農(nóng)業(yè)污染、生活排污產(chǎn)生。由于DO是COD的重要的物質(zhì)源,因此DO與COD之間的相關(guān)系數(shù)高達(dá)0.935。TN與DO在0.01水平上是反向關(guān)系,表明它們具有逆向分布特性,與營養(yǎng)元素之間的化學(xué)過程有關(guān)。
應(yīng)用SVM的模式識別是在因變量的幾個(gè)分類水平明確的條件下,依據(jù)多個(gè)自變量性質(zhì)表現(xiàn),通過判別每個(gè)自變量的類別歸屬,進(jìn)而達(dá)到對因變量模式類別區(qū)分的目的。本研究中,因變量為水體質(zhì)量,其具有(I、II、III、IV和V)5個(gè)類別特征,自變量為DO、COD、NH、TP、TN。16個(gè)水體樣點(diǎn)評價(jià)結(jié)果見圖2。
圖2 16個(gè)水質(zhì)樣點(diǎn)評價(jià)結(jié)果Fig.2 The evaluation result of 16 water quality samples
由圖2可知,洋河張家口段水體質(zhì)量等級分布不均勻。16個(gè)監(jiān)測點(diǎn)中,2個(gè)點(diǎn)水質(zhì)屬于I等,5個(gè)點(diǎn)屬于II等,6個(gè)點(diǎn)屬于III等,3個(gè)點(diǎn)屬于1V等,0個(gè)點(diǎn)屬于V等??傮w來說,洋河張家口段水體質(zhì)量一般,仍須加強(qiáng)保護(hù)。
應(yīng)用指出向量機(jī)模式識別將水體質(zhì)量評價(jià)轉(zhuǎn)化模式識別問題,支持向量機(jī)中的核函數(shù)能夠模擬各指標(biāo)與肥力量級間的多分類非線性映射關(guān)系,經(jīng)過充分訓(xùn)練獲得水質(zhì)量級識別能力,不僅解決了線性不可分的問題,還確保了評價(jià)結(jié)果的客觀性。在模型構(gòu)建中,機(jī)器學(xué)習(xí)模型維數(shù)擴(kuò)充靈活,能夠根據(jù)需要調(diào)節(jié)自身形態(tài)特征與屬性特征,因而具有廣闊的適用性。
研究經(jīng)驗(yàn)表明,基于中國地表水環(huán)境質(zhì)量分級標(biāo)準(zhǔn)與支持向量機(jī)分類算法的水體質(zhì)量評價(jià)模型,訓(xùn)練精度高、運(yùn)算速率快,非線性識別能力好,能夠應(yīng)用于水體質(zhì)量評價(jià)的研究中。