張?jiān)苹? 熊玨
摘要:指出了隨著經(jīng)濟(jì)社會(huì)的高速發(fā)展,水資源安全問(wèn)題日益凸顯。竹皮河及其支流作為荊門(mén)城區(qū)的納污河流,承接荊門(mén)中心城區(qū)90%以上工業(yè)廢水和生活污水,竹皮河及其支流的地表水情況關(guān)乎荊門(mén)市的經(jīng)濟(jì)發(fā)展與社會(huì)民生。以竹皮河流域?yàn)檠芯繉?duì)象,通過(guò)機(jī)器學(xué)習(xí)的方法對(duì)地表水水污染等級(jí)進(jìn)行預(yù)報(bào),對(duì)竹皮河肖家崗水質(zhì)自動(dòng)監(jiān)測(cè)站的周度數(shù)據(jù)進(jìn)行了分析,運(yùn)用最小二乘支持向量機(jī)對(duì)8周的數(shù)據(jù)進(jìn)行了測(cè)試。分析結(jié)果可知:只有第六個(gè)污染等級(jí)預(yù)報(bào)錯(cuò)誤,其他的七個(gè)污染等級(jí)均預(yù)報(bào)正確。這可充分的說(shuō)明,五個(gè)指標(biāo)與水污染等級(jí)之間存在一種強(qiáng)烈的對(duì)應(yīng)關(guān)系,也說(shuō)明所使用的LS-SVM算法的正確性和有效性。同時(shí)為了對(duì)比說(shuō)明,運(yùn)用RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行了預(yù)測(cè)。訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)與LS-SVM預(yù)測(cè)法一致。對(duì)比預(yù)測(cè)結(jié)果發(fā)現(xiàn):RBF神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果與LS-SVM預(yù)測(cè)結(jié)果相比,存在預(yù)測(cè)精度不高的問(wèn)題。同時(shí),LS-SVM算法具有簡(jiǎn)便的操作性。通過(guò)對(duì)竹皮河水質(zhì)自動(dòng)監(jiān)測(cè)站評(píng)價(jià)和預(yù)報(bào),可為將來(lái)的優(yōu)化空間布局、調(diào)整產(chǎn)業(yè)結(jié)構(gòu)和劃定重點(diǎn)生態(tài)保護(hù)區(qū)等措施提供理論支撐。
關(guān)鍵詞:竹皮河;水污染;最小二乘支持向量機(jī)
中圖分類(lèi)號(hào):X703文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-9944(2019)16-0100-05
1研究意義
研究選定竹皮河為研究對(duì)象,評(píng)價(jià)各個(gè)監(jiān)測(cè)站的優(yōu)劣,并對(duì)水污染的等級(jí)進(jìn)行實(shí)時(shí)預(yù)報(bào),推進(jìn)解決水污染共同治理機(jī)制建設(shè)。通過(guò)實(shí)時(shí)預(yù)報(bào)地表水水污染等級(jí),為處理突發(fā)環(huán)保事件做好預(yù)警,并提供相應(yīng)的應(yīng)對(duì)措施,推動(dòng)健全相關(guān)水域協(xié)調(diào)機(jī)制的運(yùn)行。通過(guò)對(duì)湖北荊門(mén)市境內(nèi)的各個(gè)監(jiān)測(cè)站進(jìn)行評(píng)價(jià)和預(yù)報(bào),為未來(lái)的優(yōu)化空間布局、調(diào)整產(chǎn)業(yè)結(jié)構(gòu)和劃定重點(diǎn)生態(tài)保護(hù)區(qū)等措施提供行政支撐和保障。
2研究?jī)?nèi)容
通過(guò)機(jī)器學(xué)習(xí)的手段,對(duì)竹皮河肖家崗水質(zhì)自動(dòng)監(jiān)測(cè)站的數(shù)據(jù)進(jìn)行了深度挖掘。本文欲求得挖掘溶解氧、化學(xué)需氧量、氨氮、水溫和pH值五個(gè)指標(biāo)與水污染等級(jí)之間的對(duì)應(yīng)關(guān)系,通過(guò)最小二乘支持向量機(jī)(LSS-VM)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練得到了指標(biāo)與污染等級(jí)之間的關(guān)系模型,將測(cè)試數(shù)據(jù)導(dǎo)人該模型中,即可得到測(cè)試數(shù)據(jù)的污染等級(jí)。為了說(shuō)明最小二乘支持向量機(jī)算法的有效性,利用神經(jīng)網(wǎng)絡(luò)算法對(duì)數(shù)據(jù)進(jìn)行了同樣的處理,并將結(jié)果進(jìn)行了對(duì)比。
3基于LS-SVM的地表水污染等級(jí)預(yù)報(bào)機(jī)制
3.1數(shù)據(jù)分析與算法流程
3.1.1數(shù)據(jù)分析
通過(guò)荊門(mén)市環(huán)保局監(jiān)測(cè)站獲得了竹皮河肖家崗水質(zhì)自動(dòng)監(jiān)測(cè)站的2017年1月12日到2017年8月20日的31周的周度數(shù)據(jù)。數(shù)據(jù)內(nèi)容包括:pH值、溶解氧(mg/L)、化學(xué)需氧量(mg/L)、氨氮(mg/L)、水溫(℃)和水污染等級(jí)。數(shù)值大小為一周之內(nèi)的平均值。圖1為周數(shù)與各個(gè)指標(biāo)的關(guān)系圖。
由圖1可知:水污染等級(jí)決定于pH值、溶解氧(mg/L)、化學(xué)需氧量(mg/L)、氨氮(mg/L)和水溫(℃)5個(gè)指標(biāo)。本文通過(guò)機(jī)器學(xué)習(xí)中的最小二乘支持向量機(jī)來(lái)挖掘5個(gè)指標(biāo)和水污染等級(jí)的關(guān)系。
3.1.2算法流程算法流程見(jiàn)圖2。
3.2主成分分析法
對(duì)各個(gè)監(jiān)測(cè)站的數(shù)據(jù)進(jìn)行提取后,可知樣本的特征變量間存在著某些程度的相關(guān)性,即變量間所對(duì)應(yīng)的特征信息存在著一定程度的互相涵蓋。主成分分析(Principal Component,Analysis,PCA),這一分析方法有著對(duì)所挑選出的樣本特征其提取出的因子進(jìn)行二次篩選的能力,繼而建立數(shù)量較小的全新的變量(理論上當(dāng)提取的特征能夠表現(xiàn)總體特征的85%時(shí),即可認(rèn)為降維成功),使所得到的新變量之間的相關(guān)性更小,各個(gè)新變量更能有效地反映其所代表的特征,相比于原變量,極大地降低了特征間的信息冗余,從而成功地提高了對(duì)于樣本特征的有效信息和噪聲的有效性,同時(shí)也提高了向量機(jī)回歸時(shí)的精度。
假設(shè)某變量的樣本數(shù)據(jù)xo,x1,…,xp,運(yùn)用PCA后篩選出m個(gè)新變量E1,E2,…,Ex,m
假設(shè)X是具有n個(gè)樣本點(diǎn)和p個(gè)變量的一個(gè)樣本數(shù)據(jù)矩陣,即:
3.3支持向量機(jī)
支持向量機(jī)(Support Vector Machines)開(kāi)始出現(xiàn)于20世紀(jì)90年代,Vapnik等用于解決數(shù)據(jù)分類(lèi)問(wèn)題,隸屬機(jī)器學(xué)習(xí)方法。SVM的作用在于可憑借著有限的樣本信息,平衡著模型的復(fù)雜度和學(xué)習(xí)能力兩個(gè)不可調(diào)和的矛盾,尋求獲得最佳推廣能力。當(dāng)支持向量線(xiàn)性可分時(shí),SVM可以根據(jù)使用的支持向量將數(shù)據(jù)分開(kāi);當(dāng)支持向量線(xiàn)性不可分時(shí),SVM可以使用核函數(shù)來(lái)將數(shù)據(jù)映射到高維空間,從而將數(shù)據(jù)分開(kāi)。SVM不僅進(jìn)行二分類(lèi)和多分類(lèi),也可以用于回歸。回歸和分類(lèi)在本質(zhì)上是一樣的。在回歸問(wèn)題上,可以簡(jiǎn)單的理解為將分類(lèi)類(lèi)別替換為回歸數(shù)值。圖3為支持向量機(jī)兩種分類(lèi)情況。
求解式(6)可得最優(yōu)分類(lèi)超平面,其中支持矢量滿(mǎn)足距最優(yōu)超平面最近的點(diǎn)λi>O,其余點(diǎn)滿(mǎn)足λi=O,即支持矢量可反映最多的分類(lèi)信息,其數(shù)量同時(shí)可反映出超平面所依賴(lài)的獨(dú)立界面。決策函數(shù)表示如下:
3.4最小二乘支持向量機(jī)
在1999年Suykens和Vandewalle提出最小二乘支持向量機(jī)(LS-SVM),LS-SVM對(duì)于目標(biāo)函數(shù)的表示,用誤差的平方來(lái)表示目標(biāo)函數(shù),用等式條件來(lái)表示其約束條件,則面臨的情況即為符合KKT(Karush-Kuhn-Tucker)時(shí),算出一組N維線(xiàn)性方程組的解,最終得到所需的決策函數(shù)。綜上可知,相比SVM在解決大規(guī)模問(wèn)題方面的表現(xiàn),LS-SVM簡(jiǎn)化了整個(gè)計(jì)算過(guò)程的復(fù)雜程度,同時(shí)提升了其訓(xùn)練過(guò)程的工作效率。
3.5預(yù)報(bào)結(jié)果分析及對(duì)比
經(jīng)過(guò)主成分分析后,將數(shù)據(jù)分為23組訓(xùn)練數(shù)據(jù)和8組預(yù)測(cè)數(shù)據(jù)。將23組訓(xùn)練數(shù)據(jù)置入最小二乘支持向量機(jī)中,選擇RBF內(nèi)核為核函數(shù),并將參數(shù)gam設(shè)置為r1.038e+001 1.7435e+006]、sig2設(shè)置為[13.6777357]。經(jīng)過(guò)訓(xùn)練后,即可得到5個(gè)指標(biāo)和水污染等級(jí)的對(duì)應(yīng)關(guān)系模型。將8組測(cè)試數(shù)據(jù)置入得到的模型,即可得到預(yù)測(cè)的水污染等級(jí)大小,結(jié)果如圖5所示。