黃天天 張麒 彭佳紅
摘要:控制農(nóng)業(yè)面源污染,保護農(nóng)業(yè)生產(chǎn)環(huán)境具有重大意義。采用數(shù)據(jù)挖掘技術(shù)中的聚類Kmeans算法對2011年我國各地區(qū)農(nóng)用化肥、農(nóng)藥、農(nóng)膜、地膜、農(nóng)用柴油以及畜禽糞尿排泄使用密度進行聚類分析,結(jié)果顯示全國有15個省份屬于畜禽養(yǎng)殖重污染區(qū)域,13個省份屬于農(nóng)資污染偏高,畜禽養(yǎng)殖污染偏低區(qū)域,4個省份屬于農(nóng)資污染嚴重區(qū)域,從結(jié)果中了解到了各地農(nóng)業(yè)面源污染形成的原因,能夠輔助農(nóng)業(yè)面源污染的預(yù)防和治理。
關(guān)鍵詞:農(nóng)業(yè)面源污染;數(shù)據(jù)挖掘;聚類算法
中圖分類號: TP301 文獻標識碼:A 文章編號:1009-3044(2014)25-5988-03
1 概述
長期以來,我國農(nóng)業(yè)生產(chǎn)為了提高產(chǎn)量,大量使用化肥、農(nóng)藥等投入品,引發(fā)了嚴重的農(nóng)業(yè)面源污染,破壞了農(nóng)業(yè)生態(tài)環(huán)境,制約了農(nóng)業(yè)經(jīng)濟社會的可持續(xù)發(fā)展,引起了我國政府的高度重視,并在《國民經(jīng)濟和社會發(fā)展第十一個五年規(guī)劃綱要》明確提出要“防治農(nóng)藥、化肥和農(nóng)膜等面源污染”[1]。農(nóng)業(yè)面源污染,又稱農(nóng)業(yè)非點源污染,也稱農(nóng)業(yè)擴散性污染,是指在農(nóng)業(yè)生產(chǎn)活動中,氮素和磷素等營養(yǎng)物質(zhì)、農(nóng)藥以及其它有機或無機污染物通過農(nóng)田的地表徑流和農(nóng)田滲漏造成水環(huán)境的污染,主要包括化肥污染、農(nóng)藥污染、畜禽養(yǎng)殖污染[2]。農(nóng)業(yè)面源污染的特點是面廣、分散、隱蔽、來源多、增長快、處理率低。
聚類分析是多元統(tǒng)計分析方法中的一種,是非監(jiān)督模式識別的一個重要分支。聚類是按照事物的某些屬性,把事物聚集成簇,使簇內(nèi)的對象之間具有較高的相似性,而不同簇的對象之間的相似程度較差。采用數(shù)據(jù)挖掘的聚類技術(shù)從現(xiàn)有的農(nóng)業(yè)生產(chǎn)中關(guān)于化肥、農(nóng)藥、農(nóng)膜的投入以及畜禽污染物排泄的數(shù)據(jù)中獲取相關(guān)知識,以加強對農(nóng)業(yè)面源污染的形成原因進行更加全面的認識,輔助快速而有效的控制面源污染,便于農(nóng)業(yè)面源污染的預(yù)防和治理。
2 材料與方法
2.1 數(shù)據(jù)來源
數(shù)據(jù)來源于2013年中國農(nóng)村統(tǒng)計年鑒[4]和2012年中國農(nóng)業(yè)年鑒[5]。針對造成農(nóng)業(yè)土壤污染的污染面源,選取化肥使用密度、農(nóng)藥使用密度、農(nóng)膜使用密度、地膜使用密度、農(nóng)用柴油使用密度和畜禽糞尿排泄密度六項項指標進行測算,其中化肥、農(nóng)藥、農(nóng)膜、地膜和柴油使用密度這 5 項指標分別用農(nóng)作物單位耕地面積的化肥使用量、農(nóng)藥使用量、農(nóng)膜使用量、地膜使用量和柴油使用量來表示。畜禽糞尿排泄密度用農(nóng)作物單位面積的畜禽糞尿排放量表示, 其中畜禽糞尿排放量用畜禽年末出欄數(shù)量和年排泄系數(shù)[6]的乘積來表示,處理后的數(shù)據(jù)如表1所示。
2.2 聚類技術(shù)Kmeans算法
聚類通常指一個類簇內(nèi)的實體是相似的,不同類簇的實體不相似;一個類簇是測試空間中點的會聚,同一類簇的任意兩個點間的距離小于不同類簇的任意兩個點間的距離。類簇可以描述為一個包含密度相對較高的點集的多維空間中的連通區(qū)域 [7]。聚類算法的選取主要取決于所研究數(shù)據(jù)的類型、聚類的目的和應(yīng)用等。聚類算法大致上可分為層次聚類算法、劃分式聚類算法、基于密度的聚類算法、基于網(wǎng)格的聚類算法、基于模型的聚類算法等[8]。
Kmeans算法是一種基于劃分的聚類算法,它通過不斷的迭代過程來進行聚類,當算法收斂到一個結(jié)束條件時就終止迭代過程輸出聚類結(jié)果。該算法的基本流程:先指定需要劃分的簇的個數(shù)k值;然后隨機地選擇幾個初始數(shù)據(jù)對象點作為初始的聚類中心;第三,計算其余的各個數(shù)據(jù)對象到這個初始聚類中心的距離,把數(shù)據(jù)對象劃歸到距離它最近的那個中心所處在的簇類中;最后,調(diào)整新類并且重新計算出新類的中心,如果兩次計算出來的聚類中心未曾發(fā)生任何的變化,那么就可以說明數(shù)據(jù)對象的調(diào)整已經(jīng)結(jié)束,也就是說聚類釆用的準則函數(shù)是收斂的,算法結(jié)束[9]。
2.3 數(shù)據(jù)處理
利用Weka軟件,采用Kmeans聚類算法,對表1的數(shù)據(jù)進行聚類處理,得到的挖掘結(jié)果如下所示:
kMeans
Number of iterations: 3
Within cluster sum of squared errors: 4.435785382426557
Missing values globally replaced with mean/mode
Cluster centroids:
Attribute Full Data ① 第1類包含15個省份,這些省份單位面積畜禽糞尿排放密度(均值20167.0667)很高,而其他污染面源使用密度較低。
② 第2類包含12個省份,這些省份農(nóng)用化肥使用密度很高(均值646.275),農(nóng)藥使用密度(均值22.3725)偏高,地膜使用密度(均值96.0375)偏低,其余污染面源均在全國平均水平。
③ 第3類包含4個省份,這一區(qū)域單位面積畜禽糞尿排放密度(均值15811.5)明顯偏低,而其他污染面源使用密度都非常高。
3 結(jié)果分析
分析聚類Kmeans算法聚類結(jié)果,我們可以得出以下結(jié)論:
第一類的15個省份,分別是山西,內(nèi)蒙古,遼寧,吉林,黑龍江,重慶,四川,貴州,云南,西藏,陜西,甘肅,青海,寧夏,新疆,具有畜禽養(yǎng)殖污染嚴重以及單位面積農(nóng)農(nóng)資投入量較低的特點。該區(qū)域畜牧業(yè)發(fā)達,種植業(yè)欠發(fā)達,畜禽糞尿排放密度高于其它地區(qū),屬于畜禽養(yǎng)殖重污染區(qū)域。
第二類的13個省份,包括北京,天津,河北,江蘇,安徽,江西,山東,河南,湖北,湖南,廣東,廣西,具有化肥使用密度偏高和畜禽養(yǎng)殖污染較低的特點,該類區(qū)域農(nóng)業(yè)生產(chǎn)有一定規(guī)模,畜牧業(yè)也有一定發(fā)展,屬于農(nóng)資污染偏高,畜禽養(yǎng)殖偏低區(qū)域。
第三類的4個省份,分別是上海,浙江,福建,海南,具有畜禽養(yǎng)殖污染明顯偏低以及單位面積農(nóng)資使用密度突出的特點。該類區(qū)域農(nóng)業(yè)生產(chǎn)規(guī)模大,農(nóng)資投入量很高,各類農(nóng)資單位面積使用量遠超全國平均水平,屬于農(nóng)資污染嚴重區(qū)域。
4 結(jié)論
農(nóng)業(yè)面源污染具有污染源多樣性、非特定性、不確定性等特點,已經(jīng)對我國農(nóng)業(yè)現(xiàn)代化和農(nóng)村發(fā)展產(chǎn)生嚴重的影響,因此進一步提高對農(nóng)業(yè)面源污染認識,了解其形成原因,輔助快速而有效的控制面源污染具有重大意義。采用數(shù)據(jù)挖掘聚類技術(shù)Kmeans算法對各省份的農(nóng)業(yè)面源污染數(shù)據(jù)進行聚類處理,將全國各地區(qū)以農(nóng)資和畜禽養(yǎng)殖污染程度為標準分為三個區(qū)域,從分析結(jié)果中我們了解到了各地農(nóng)業(yè)面源污染形成的原因,從而對其面源污染進行預(yù)警,便于農(nóng)業(yè)面源污染的預(yù)防和治理,從根源上控制農(nóng)業(yè)面源污染。
參考文獻:
[1] 周早弘.農(nóng)業(yè)面源污染實證分析與政策選擇[D].南京:南京林業(yè)大學(xué),2009.
[2] 黃春田.泰山區(qū)農(nóng)業(yè)面源污染狀況及防治策略研究[D].泰安:山東農(nóng)業(yè)大學(xué),2011.
[3] 楊林章,馮彥房,施衛(wèi)明.我國農(nóng)業(yè)面源污染治理技術(shù)研究進展[J].中國生態(tài)農(nóng)業(yè)學(xué)報,2013,21(1):96-101.
[4] 中華人民共和國國家統(tǒng)計局.中國農(nóng)村統(tǒng)計年鑒[M].北京:中國統(tǒng)計出版社,2013:47-50.
[5] 中華人民共和國國家統(tǒng)計局.中國農(nóng)業(yè)年鑒[M].北京:中國統(tǒng)計出版社,2012.
[6] 劉培芳,陳振樓,許世遠,等.長江三角洲城郊畜禽糞便的污染負荷及其防治對策[J].長江流域資源與環(huán)境, 2002(5):456-460.
[7] 孫吉貴.聚類算法研究[J].軟件學(xué)報,2008(1):48-61.
[8] 喻彪.數(shù)據(jù)挖掘聚類算法研究[J].現(xiàn)代制造工程,2009(3):141-145.
[9] 崔丹丹.K_Means聚類算法的研究與改進[D].合肥:安徽大學(xué),2012.