呂志學(xué), 孫雪文, 劉鳳飛
(黑龍江省水土保持科學(xué)研究所, 黑龍江 哈爾濱 150070)
K-means聚類(lèi)方法在黑龍江省低山丘陵區(qū)坡耕地類(lèi)型區(qū)劃分中的應(yīng)用
呂志學(xué), 孫雪文, 劉鳳飛
(黑龍江省水土保持科學(xué)研究所, 黑龍江 哈爾濱 150070)
摘要:[目的] 探索K-means聚類(lèi)方法在黑龍江省坡耕地類(lèi)型區(qū)劃分上應(yīng)用的可行性,為各市(縣)坡耕地水土保持規(guī)劃和治理提供依據(jù)。[方法] 利用K-means聚類(lèi)方法對(duì)黑龍江省70個(gè)低山丘陵區(qū)市(縣)進(jìn)行科學(xué)區(qū)劃。[結(jié)果] 低山區(qū)市(縣)共21個(gè),丘陵區(qū)縣市共49個(gè)。[結(jié)論] 所選16個(gè)分類(lèi)指標(biāo)的顯著性均小于0.05,證明分類(lèi)結(jié)果令人滿(mǎn)意。
關(guān)鍵詞:K-means聚類(lèi)方法; 低山丘陵區(qū); 坡耕地; 類(lèi)型區(qū)劃分
中國(guó)人口眾多,人均資源較少,特別是作為人類(lèi)賴(lài)以生存的耕地資源十分匱乏,人均只有0.09 hm2,為世界平均水平的1/4,美國(guó)的1/9。而且這些耕地資源中大多為低山丘陵區(qū)坡耕地,耕地質(zhì)量差,環(huán)境惡劣,直接影響中國(guó)的糧食安全[1]。中國(guó)東北黑土區(qū)是目前世界上僅有的3大黑土區(qū)之一,該地區(qū)是中國(guó)的主要商品糧基地,年生產(chǎn)糧食約占全國(guó)糧食總產(chǎn)量的20%,黑龍江省約占其中的1/2[2],如何提高作為全國(guó)重要商品糧基地—黑龍江省坡耕地的糧食產(chǎn)量,對(duì)確保中國(guó)糧食安全將起至關(guān)重要的作用。黑龍江省幅員面積較大,地貌類(lèi)型多樣,坡耕地水土流失各具特色,治理措施差異顯著,特別是低山區(qū)坡耕地與丘陵區(qū)坡耕地。如低山區(qū)耕地作為山地的延伸部分,坡度大、匯流急,雨滴濺蝕地表土壤,而后出現(xiàn)超滲產(chǎn)流,產(chǎn)生水土流失。在治理措施上因該區(qū)域主要土壤以棕色針葉林土和山地暗棕壤為主,土層薄而不易于修筑水平梯田,多采用復(fù)合地埂[3]等措施進(jìn)行坡耕地水土流失治理;丘陵區(qū)坡耕地坡長(zhǎng)坡緩,匯流面積大,地表徑流大,降雨出現(xiàn)超滲產(chǎn)流后易形成股狀匯流,不僅面蝕嚴(yán)重,在坡面匯水線處更易發(fā)生溝蝕。治理措施上因坡耕地黑土層較厚,一般根據(jù)不同坡度選擇梯田、地埂和改壟措施進(jìn)行治理[4]。因此,如何科學(xué)界定黑龍江省低山區(qū)和丘陵區(qū)市縣,對(duì)科學(xué)選擇、布設(shè)水土保持措施將起至關(guān)重要的作用。本文在黑龍江省已經(jīng)確定的70個(gè)低山丘陵區(qū)市縣的基礎(chǔ)上,選取影響坡耕地質(zhì)量的16項(xiàng)指標(biāo),運(yùn)用成熟的聚類(lèi)方法,對(duì)低山丘陵區(qū)市縣進(jìn)行了分類(lèi),旨在為不同類(lèi)型區(qū)進(jìn)行科學(xué)治理創(chuàng)造條件。
1材料與方法
影響坡耕地質(zhì)量的因素很多,根據(jù)已掌握的資料,選取了市縣高程>200 m耕地加權(quán)高程、年均氣溫、5—9月平均氣溫、年降雨量、5—9月降雨量、年日照時(shí)數(shù)、≥10 ℃積溫、全氮含量、全磷含量、全鉀含量、有機(jī)質(zhì)含量、土地人口承載密度、糧食產(chǎn)量、農(nóng)用化肥施用折純量、農(nóng)用機(jī)械總動(dòng)力、耕地侵蝕面積占總耕地面積比共16項(xiàng)指標(biāo)作為類(lèi)型區(qū)劃分指標(biāo)。這些指標(biāo)分別來(lái)自于黑龍江省遙感調(diào)查數(shù)據(jù)、黑龍江省農(nóng)業(yè)地圖集[5]及研究數(shù)據(jù)。
K-means聚類(lèi)是聚類(lèi)方法中的一種,是常見(jiàn)4類(lèi)聚類(lèi)方法(劃分方法、層次方法、基于密度的方法和基于網(wǎng)絡(luò)的方法)中最典型的“劃分方法”,又稱(chēng)作K中心聚類(lèi),屬硬聚類(lèi)算法。通常我們要預(yù)先確定分類(lèi)數(shù),然后才能進(jìn)行這個(gè)聚類(lèi)分析?;舅枷胧浅跏茧S機(jī)給定K個(gè)簇中心,按照最鄰近原則把待分類(lèi)樣本點(diǎn)分到各個(gè)簇。然后按平均法重新計(jì)算各個(gè)簇的質(zhì)心,從而確定新的簇心。一直迭代,直到簇心的移動(dòng)距離小于某個(gè)給定的值或達(dá)到給定的迭代次數(shù)[6]。
K-Means聚類(lèi)算法主要分為3個(gè)步驟:
第1步是為待聚類(lèi)的點(diǎn)尋找聚類(lèi)中心。
第2步是計(jì)算每個(gè)點(diǎn)到聚類(lèi)中心的距離,將每個(gè)點(diǎn)聚類(lèi)到離該點(diǎn)最近的聚類(lèi)中去。
第3步是計(jì)算每個(gè)聚類(lèi)中所有點(diǎn)的坐標(biāo)平均值,并將這個(gè)平均值作為新的聚類(lèi)中心。
反復(fù)執(zhí)行第2,3步,直到聚類(lèi)中心不再進(jìn)行大范圍移動(dòng)或者聚類(lèi)次數(shù)達(dá)到要求為止。
具體操作步驟:(1) 先準(zhǔn)備好數(shù)據(jù),在打開(kāi)軟件的菜單欄上選定“K-均值聚類(lèi)”分類(lèi)方法; (2) 輸入聚類(lèi)用到的指標(biāo)變量和市縣名稱(chēng); (3) 設(shè)置聚類(lèi)的類(lèi)別數(shù)目。這個(gè)數(shù)目的確定主要依據(jù)工作經(jīng)驗(yàn)和前人的研究證明。本研究欲將黑龍江省低山丘陵區(qū)市縣劃分成2個(gè)類(lèi)型區(qū),所以設(shè)置的類(lèi)別數(shù)為2; (4) 在主對(duì)話(huà)框中,設(shè)置最大迭代次數(shù),默認(rèn)值一般為10,但是數(shù)據(jù)量越大,迭代次數(shù)就應(yīng)該越多,所以我們?cè)O(shè)置為100; (5) 點(diǎn)擊“確定”按鈕,開(kāi)始運(yùn)行數(shù)據(jù),并輸出數(shù)據(jù)結(jié)果。具體操作步驟詳見(jiàn)圖1。
圖1 K-means聚類(lèi)具體操作步驟
2結(jié)果與討論
黑龍江省低山丘陵區(qū)坡耕地類(lèi)型劃分初始聚類(lèi)中心見(jiàn)表1。它列出每一個(gè)類(lèi)別初始的中心點(diǎn),如低山區(qū)這個(gè)類(lèi)別中,16項(xiàng)指標(biāo)中的“市(縣)高程>200 m耕地加權(quán)高程”這個(gè)指標(biāo)的初始中心點(diǎn)為-0.365 91,即該類(lèi)別中所有市縣的該項(xiàng)指標(biāo)都是距離這個(gè)中心點(diǎn)相對(duì)較近,而距離丘陵區(qū)0.347 78這個(gè)中心點(diǎn)相對(duì)較遠(yuǎn),其他15項(xiàng)指標(biāo)也是如此,最終根據(jù)16項(xiàng)指標(biāo)的“綜合距離”確定某個(gè)市縣應(yīng)該劃歸為那個(gè)類(lèi)別中,即確定初步分類(lèi)結(jié)果。這些中心點(diǎn)都是SPSS自動(dòng)生成的。
表1 黑龍江省低山丘陵區(qū)坡耕地類(lèi)型劃分初始聚類(lèi)中心
黑龍江省低山丘陵區(qū)坡耕地類(lèi)型劃分最終聚類(lèi)中心見(jiàn)表2。它列出每一個(gè)類(lèi)別最終的中心點(diǎn),如低山區(qū)這個(gè)類(lèi)別中,16項(xiàng)指標(biāo)中的“市縣高程>200 m耕地加權(quán)高程”這個(gè)指標(biāo)的最終中心點(diǎn)為-0.188 21,即該類(lèi)別中所有市縣的該項(xiàng)指標(biāo)都是距離這個(gè)中心點(diǎn)相對(duì)較近,而距離丘陵區(qū)0.690 09這個(gè)中心點(diǎn)相對(duì)較遠(yuǎn)的,其他15項(xiàng)指標(biāo)也是如此,最終根據(jù)16項(xiàng)指標(biāo)的“綜合距離”確定某個(gè)市縣應(yīng)該劃歸為那個(gè)類(lèi)別中,即確定最終分類(lèi)結(jié)果。依據(jù)這些最終中心點(diǎn),即可自動(dòng)生成最終聚類(lèi)結(jié)果表。
表3是我們根據(jù)最終聚類(lèi)結(jié)果表整理后的聚類(lèi)結(jié)果。從表3中我們可以看出,低山區(qū)這個(gè)類(lèi)別中主要包含尚志市、雞西市、雞東縣等21個(gè)市縣,主要位于黑龍江省北部和東南腳的大小興安嶺及張廣才嶺、老爺嶺低山區(qū)。該區(qū)耕地為山地的延伸部分,坡度大、匯流急,耕地總面積27 329.55 km2,耕地水土流失面積14 842.50 km2,占耕地總面積的54.31%,主要土壤以棕色針葉林土和山地暗棕壤為主;丘陵區(qū)主要包含哈爾濱市、方正縣、木蘭縣等49個(gè)市縣,主要位于松嫩平原和三江平原內(nèi)。該區(qū)耕地總面積104 726.52 km2,耕地水土流失總面積36 232.48 km2,占耕地總面積的34.60%。該區(qū)地勢(shì)波狀起伏,坡長(zhǎng)坡緩,匯流面積大,地表徑流大,主要土壤為黑土、黑鈣土。
表2 黑龍江省低山丘陵區(qū)坡耕地類(lèi)型最終聚類(lèi)中心
表3 黑龍江省低山丘陵區(qū)坡耕地類(lèi)型聚類(lèi)結(jié)果
表4給出了計(jì)算機(jī)的原始方差分析結(jié)果。從表4中看出,自由度為一組數(shù)據(jù)中能獨(dú)立變化數(shù)據(jù)的多少。本文欲將70個(gè)市縣劃分成2類(lèi),因此總的自由度為70-1=69,即最多有69個(gè)市縣可自由劃分為1類(lèi),其余自然確定為另一類(lèi)。并且,因?yàn)橹粍澐譃?類(lèi),所以類(lèi)間自由度為1,即最多只有1類(lèi)可自由確定,剩下的自然為另一類(lèi);類(lèi)內(nèi)自由度為68,即每類(lèi)中最多有68個(gè)能獨(dú)立變化的數(shù)據(jù)[7]。F檢驗(yàn)值即為類(lèi)間平均方差與類(lèi)內(nèi)平均方差的比值,該F值越大,即類(lèi)間均方大于類(lèi)內(nèi)均方,也就是類(lèi)間變異量大于類(lèi)內(nèi)變異量,說(shuō)明各類(lèi)間的差異遠(yuǎn)超出總期望值離差,代表各類(lèi)的平均數(shù)存在明顯的差異,同時(shí),F(xiàn)值越大說(shuō)明其在分類(lèi)中所起的作用越大[8]。如表中≥10 ℃積溫、年均氣溫等。判斷文中所選影響坡耕地質(zhì)量的16項(xiàng)指標(biāo)是否具有代表性取決于其顯著性檢驗(yàn)結(jié)論,顯著性水平一般確定為0.05,即當(dāng)顯著性計(jì)算結(jié)果小于0.05時(shí),所選指標(biāo)對(duì)整體具有很好的代表性,否則代表性不強(qiáng)[9]。從表4中看,所選分類(lèi)指標(biāo)的顯著性均小于0.05,說(shuō)明該分類(lèi)指標(biāo)在統(tǒng)計(jì)學(xué)有意義,即所選分類(lèi)指標(biāo)具有很好的代表性,分類(lèi)結(jié)果有效。
3結(jié) 論
最初我們選擇了21個(gè)分類(lèi)指標(biāo)進(jìn)行上機(jī)運(yùn)算,經(jīng)多次反復(fù),篩選確定其中的16個(gè)指標(biāo)為最終分類(lèi)指標(biāo),指標(biāo)涵蓋了地形地貌、自然條件、經(jīng)濟(jì)條件、社會(huì)條件和水土流失等方面。其中“市縣高程>200 m耕地加權(quán)高程”來(lái)自于課題研究結(jié)論,“耕地侵蝕面積占總耕地面積比”來(lái)自于遙感調(diào)查數(shù)據(jù),其他來(lái)自于黑龍江省農(nóng)業(yè)地圖集。該圖集資料比較完整、系統(tǒng),雖然年代較早,但仍是目前最新的圖集,其中的指標(biāo)能很好的代表黑龍江省70個(gè)低山丘陵區(qū)市縣耕地整體質(zhì)量。
表4 黑龍江省低山丘陵區(qū)坡耕地類(lèi)型原始方差分析
K-means聚類(lèi)算法是一種比較成熟的聚類(lèi)方法,本文將該方法首次應(yīng)用在黑龍江省低山丘陵區(qū)市縣劃分上,采用計(jì)算機(jī)程序進(jìn)行運(yùn)算,獲得了較為理想滿(mǎn)意的分類(lèi)結(jié)果,通過(guò)對(duì)劃分的2個(gè)類(lèi)型區(qū)進(jìn)一步統(tǒng)計(jì)分析。
可以看出低山區(qū)與丘陵區(qū)的平均數(shù)差異顯著,如山區(qū)平均土地人口承載密度為68人,市縣高程>200 m耕地加權(quán)高程為341 m,耕地侵蝕面積占總耕地面積比為54.31%。
丘陵區(qū)平均土地人口承載密度為156人,市縣高程>200 m耕地加權(quán)高程為256 m,耕地侵蝕面積占總耕地面積比為34.60%,也進(jìn)一步驗(yàn)證了分類(lèi)結(jié)果的可信性,這對(duì)今后不同類(lèi)型區(qū)坡耕地采取分類(lèi)治理具有十分現(xiàn)實(shí)的意義。
同時(shí)由于影響坡耕地質(zhì)量的因素很多,很多因素還在不斷變化,因此今后應(yīng)根據(jù)掌握的最新數(shù)據(jù)進(jìn)一步對(duì)分類(lèi)結(jié)果進(jìn)行核試驗(yàn)證。
[參考文獻(xiàn)]
[1]崔秀珍,吳國(guó)梁.新時(shí)期我國(guó)耕地資源總量動(dòng)態(tài)平衡的維持與可持續(xù)利用的途徑[J].安徽農(nóng)業(yè)科學(xué),2006,34(2):298-299.
[2]劉興土,閻百興.東北黑土區(qū)水土流失與糧食安全[J].中國(guó)水土保持,2009(1):17-19.
[3]屈遠(yuǎn)強(qiáng),勇麗波.穆棱市水保生態(tài)建設(shè)措施體系構(gòu)建與實(shí)踐[J].水土保持應(yīng)用技術(shù),2010(3):24-26.
[4]王樹(shù)清.拜泉縣生態(tài)農(nóng)業(yè)發(fā)展戰(zhàn)略與實(shí)踐[J].中國(guó)生態(tài)農(nóng)業(yè)學(xué)報(bào),1995(4):77-78,76.
[5]黑龍江省地圖集編纂委員會(huì).黑龍江省農(nóng)業(yè)地圖集[M].哈爾濱:哈爾濱地圖出版社,1999.
[6]張建輝.K-means聚類(lèi)算法研究及應(yīng)用[D].武漢:武漢理工大學(xué),2007.
[7]盧淑華.社會(huì)統(tǒng)計(jì)學(xué)[M].北京:北京大學(xué)出版社,2005.
[8]靳庭良,張寶青.回歸分析中t檢驗(yàn)與F檢驗(yàn)關(guān)系的進(jìn)一步探討[J].統(tǒng)計(jì)與決策,2009(21):7-9.
[9]孫逸敏.利用SPSS軟件分析變量間的相關(guān)性[J].新疆教育學(xué)院學(xué)報(bào),2007,23(2):120-123.
Application of K-means Clustering Method in Regionalization of Slope Farmland in Low Mountain and Hill Area of Heilongjiang Province
Lü Zhixue, SUN Xuewen, LIU Fengfei
(HeilongjiangProvincialSoilandWaterConservationScientificResearchInstitutes,Harbin,Heilongjiang150070,China)
Abstract:[Objective] To explore the feasibility of the K-means clustering method in the classification of farmland types in Heilongjiang Province and provide support for the planning and management of soil and water conservation in slope farmland.[Methods] We made a clustering of farmlands in 70 cities(or counties) in low mountain and hilly areas in Heilongjiang Province using K-means clustering method.[Results] The cities or counties in the low mountain is 21 and hill area is 49.[Conclusion] The 16 classification indexes were significant at the level of 0.05, indicating the fitness of classification.
Keywords:K-means clustering method; low mountain and hill area; slope farmland; regionalization
文獻(xiàn)標(biāo)識(shí)碼:B
文章編號(hào):1000-288X(2015)01-0124-04
中圖分類(lèi)號(hào):S157
收稿日期:2014-01-17修回日期:2014-02-17
資助項(xiàng)目:黑龍江省科技攻關(guān)項(xiàng)目“黑龍江省山丘區(qū)坡耕地綜合整治措施體系研究”(GC05 B304)
第一作者:呂志學(xué)(1968—),男(漢族),黑龍江省哈爾濱市人,碩士,教授級(jí)高工,主要從事水土保持基礎(chǔ)和應(yīng)用研究。E-mail:sbslzx@163.com。