楊陽,葉江霞,王艷霞,蔡志勇,周汝良
(1.西南林業(yè)大學(xué) 地理與生態(tài)旅游學(xué)院,云南 昆明 650224;2.西南林業(yè)大學(xué) 林學(xué)院,云南 昆明 650224;3.中航通飛研究院有限公司/中國特種飛行器研究所,廣東 珠海 519000)
土壤多樣性與生物多樣性聯(lián)系緊密[1]。無機(jī)環(huán)境所代表的生境多樣性是形成生物群落多樣性的基本條件[2],土壤多樣性的精確研究取決于土壤類型與屬性的數(shù)字化精確調(diào)查,土壤類型是土壤數(shù)字化調(diào)查的重要內(nèi)容,前人研究表明,土壤類型是影響土壤生態(tài)系統(tǒng)和土壤生物活動(dòng)的主要因素[2]。明確土壤類型的精確分布,是土壤生態(tài)系統(tǒng)多樣性研究的前提和基礎(chǔ)[1],也是生態(tài)修復(fù)工作的前提[3]。數(shù)字土壤地圖將為生態(tài)保護(hù)、精準(zhǔn)農(nóng)業(yè)的研究和應(yīng)用等提供新的科技手段。當(dāng)前,我國的土壤類型圖仍然是以第二次土壤普查數(shù)據(jù)為主,土壤類型圖為手工繪制,誤差相對(duì)較大[4-6]。隨著大數(shù)據(jù)時(shí)代的來臨,各種生態(tài)環(huán)境因子的數(shù)字化工作都需要更精確的數(shù)字化土壤類型圖。數(shù)字土壤制圖作為土壤制圖的新方法,具有省時(shí)省力、精度較高的優(yōu)點(diǎn)[4-5,7]。決策樹與隨機(jī)森林模型是數(shù)字土壤制圖中的常用方法,可以很好的捕捉土壤與環(huán)境的非線性關(guān)系,如:張振華等[8]利用包括決策樹與隨機(jī)森林在內(nèi)的3種機(jī)器學(xué)習(xí)方法,對(duì)新疆渭干河三角洲土壤pH等3種屬性進(jìn)行建模;周紫燕等[9]利用隨機(jī)森林模型對(duì)小流域土壤圖進(jìn)行了更新;陳芳[10]利用隨機(jī)森林模型建立了湖北省棗陽市的土壤類型圖,并認(rèn)為土壤類型圖與實(shí)際結(jié)果中等吻合(Kappa=0.59)。當(dāng)前,樹形模型在數(shù)字土壤領(lǐng)域應(yīng)用依舊較少,且局限于土壤元素或有機(jī)質(zhì)建模中[9],尤其少見于土壤類型制圖。僅有的土壤類型制圖研究中,多是以行政區(qū)域?yàn)檫吔绲男〕叨葒L試,缺乏以自然地理區(qū)域?yàn)檠芯繉?duì)象的較大尺度研究,樹形模型在大尺度區(qū)域應(yīng)用的效果還有待深入研究。
紅壤是我國亞熱帶和熱帶地區(qū)土壤受到中度富鐵鋁化作用的產(chǎn)物[11],是滇中高原的基帶土壤,廣泛分布于曲靖、昆明的大部分地區(qū),文山、紅河、玉溪的北部等地區(qū)。紅壤土體深厚、質(zhì)地黏重、膠而不板,鹽基不飽和,土壤pH<7,養(yǎng)分含量低[12]。紅壤的主要植被類型是亞熱帶常綠闊葉林,以云南松(Pinusyunnanensis)為主要次生植被。前人研究[13-15]通過典型剖面研究了紅壤的理化性質(zhì)、發(fā)生過程和農(nóng)業(yè)活動(dòng)狀況。張蕓萍等[13]使用決策樹和多元回歸計(jì)算了土壤pH與主要養(yǎng)分之間的關(guān)系;趙文軍等[14]對(duì)撫仙湖流域四種土壤的理化性質(zhì)進(jìn)行了研究,認(rèn)為紅壤最適合煙草種植;羅亞芬等[15]測(cè)量了陸良縣典型山原紅壤的剖面養(yǎng)分狀況。當(dāng)前的研究主要通過挖掘剖面對(duì)滇中紅壤的理化性質(zhì)進(jìn)行研究,對(duì)紅壤空間分布的研究相對(duì)缺乏。明確紅壤的空間分布,對(duì)于掌握云南省土壤多樣性和土壤生物多樣性具有重要的價(jià)值。云南省自然地理?xiàng)l件復(fù)雜多樣,依據(jù)元江河谷將云南省分為滇東高原區(qū)和滇西橫斷山縱谷區(qū)[16],土壤類型和環(huán)境變量之間的關(guān)系受到多種環(huán)境因素的共同影響,這些環(huán)境因素相互耦合,表現(xiàn)出復(fù)雜的非線性關(guān)系[17]。滇東高原是云南紅壤分布最集中的地區(qū),利用樹形模型模擬滇東高原紅壤分布,對(duì)于推廣樹形模型在大尺度地形復(fù)雜區(qū)的應(yīng)用價(jià)值具有重要意義,也是將數(shù)字化方法引入土壤多樣性研究的一次嘗試。
云南是典型的亞熱帶氣候區(qū),干濕季分明。植被分布以云南松和常綠闊葉林為主[18-21]。紅壤是云南省的代表性土壤,主要分布于24°N~27°N之間的滇中高原及海拔2 500 m以下的中低山和丘陵地區(qū)[22]。云南16個(gè)州(市)中,紅壤分布區(qū)包括昆明、曲靖、玉溪、楚雄、大理、保山及麗江南部地區(qū)。其中,滇中和滇南是云南省紅壤分布最集中的地區(qū)。本研究以哀牢山—元江河谷為界,將昆明、文山、曲靖全境,玉溪、紅河位于元江河谷以東的區(qū)域作為研究區(qū)域,依據(jù)1∶250萬云南省地圖劃分了研究區(qū),見圖1,
圖1 研究區(qū)的位置
(1)土壤樣本數(shù)據(jù)采集 本研究以云南省1995年土壤分布圖為基礎(chǔ)選取訓(xùn)練樣本,并利用第二次土壤普查[23]和《云南土種志》[24]中所核定的31個(gè)土壤剖面信息作為檢驗(yàn)數(shù)據(jù),訓(xùn)練與檢測(cè)樣點(diǎn)見圖2。
圖2 研究區(qū)DEM及其樣點(diǎn)分布
采樣原則為:①以1995年云南土壤類型分布圖為采樣基礎(chǔ),采樣樣點(diǎn)遍歷研究區(qū),采樣類型為紅壤樣本與非紅壤樣本;②為保證紅壤樣本采樣的典型性,盡量在紅壤區(qū)中心采樣,紅壤區(qū)與非紅壤區(qū)交界處1個(gè)柵格范圍內(nèi)不作為采樣區(qū)域;③對(duì)于地形復(fù)雜區(qū),盡可能多設(shè)立采樣點(diǎn)。采樣點(diǎn)標(biāo)簽為紅壤和非紅壤,利用采樣點(diǎn)數(shù)據(jù)作為機(jī)器學(xué)習(xí)算法的訓(xùn)練和檢驗(yàn)數(shù)據(jù)。最終得到訓(xùn)練樣本1 145個(gè),其中紅壤樣本916個(gè),非紅壤樣本229個(gè)。
(2)環(huán)境因子數(shù)據(jù)獲取 Mcbratney等[25]提出的clorpt方程建議使用土壤發(fā)生學(xué)理論中的地形、植被因子進(jìn)行建模預(yù)測(cè);朱阿興等[5]提出較大空間范圍內(nèi)氣候因子如年均溫度、年均降水等因子可作為氣候因子的衡量變量、數(shù)字高程模型(digital elevation model, DEM)及其衍生因子可以作為地形因子的主要變量、生物因子主要通過植被影響土壤發(fā)育,歸一化植被指數(shù)(normalized difference vegetation Index,NDVI)是最常采用的因子。通過綜合過往文獻(xiàn)的變量選擇和不同成土因子最有代表性的變量,最終選擇了以下變量,歸一化后參與建模。
地形數(shù)據(jù) 全國數(shù)字地形模型SRTM DEM 90 m分辨率數(shù)據(jù)(m)(來源于地理空間數(shù)據(jù)云http://www.gscloud.cn/),通過ArcGIS利用DEM計(jì)算出的全國坡向、坡度(°)、曲率數(shù)據(jù)、全國地貌隆起切割數(shù)據(jù)(計(jì)算方法來源自專利:CN111127646A)。
氣候數(shù)據(jù) 中國235°西南風(fēng)場(chǎng)數(shù)據(jù)來源于文獻(xiàn)[26],全國多年平均降水量(mm)和平均溫度(℃)數(shù)據(jù)來源于https://www.worldclim.org/。
植被數(shù)據(jù) 全國NDVI數(shù)據(jù)來源于http://www.gscloud.cn/。
1.3.1 決策樹模型
決策樹模型(decision tree classifier)是一種樹形的分類與回歸模型,由一個(gè)根節(jié)點(diǎn)、一系列中間節(jié)點(diǎn)和一系列葉子節(jié)點(diǎn)構(gòu)成。決策樹通過對(duì)指定任務(wù)的多級(jí)遞歸分割方法,使用信息熵(information entropy)或者基尼系數(shù)(gini)作為分類依據(jù),將一組訓(xùn)練數(shù)據(jù)劃分為同質(zhì)的數(shù)據(jù)集。決策樹建模簡單易懂且可以展示決策過程,具有良好的模型可視化能力,常被用于分類問題中。本研究通過調(diào)用sklearn庫中的Decision Tree Classifier函數(shù)在Python中實(shí)現(xiàn)了決策樹的建模,調(diào)用格式為Sklearn.DecisionTreeClassifier(criterion,random_state,max_depth,min_samples_split,min_samples_leaf)。
其中:criterion是分類標(biāo)準(zhǔn);random_state是控制隨機(jī)性的參數(shù);max_depth是樹的最大深度,是決策樹泛化能力的關(guān)鍵參數(shù);min_samples_split和min_samples_leaf分別決定了樹分叉的最小個(gè)數(shù)和葉子節(jié)點(diǎn)的最小分類個(gè)數(shù)。
使用網(wǎng)格搜索(grid search)確定參數(shù)最優(yōu)值。網(wǎng)格搜索的原理是使用窮舉法將可能的取值進(jìn)行排列組合,并使用交叉驗(yàn)證對(duì)各組合的效果進(jìn)行評(píng)估,選擇最優(yōu)解。利用sklearn中的train_test_split函數(shù)劃分訓(xùn)練集和測(cè)試集,通過分類得分(score)對(duì)結(jié)果進(jìn)行精度評(píng)價(jià)。應(yīng)用柵格空間轉(zhuǎn)換數(shù)據(jù)庫(geospatial data abstraction library,GDAL)進(jìn)行模型可視化。在ArcGIS 10.7中制圖輸出。
1.3.2 隨機(jī)森林模型
隨機(jī)森林模型(random forest classifier,RF)是一種由多顆決策樹組成的集成算法,2001年由美國統(tǒng)計(jì)學(xué)家Breiman提出。該模型通過對(duì)多顆決策樹構(gòu)成的“森林”取平均值或少數(shù)服從多數(shù)的原則,達(dá)到最終效果大于單顆訓(xùn)練優(yōu)異的決策樹的目的[17]。隨機(jī)森林采用了重復(fù)隨機(jī)抽樣(bootstrap)的建模方法,即對(duì)數(shù)據(jù)進(jìn)行有放回的抽樣作為決策樹的訓(xùn)練集。本研究在python中使用Sklearn.RandomForestClassifier進(jìn)行了隨機(jī)森林建模,調(diào)用格式為,Sklearn.Random ForestClassifier(n_estimators,random_state,max_depth,min_samples_split,min_samples_leaf)。
其中:n_estimators是決策樹的關(guān)鍵參數(shù),決定了隨機(jī)森林中樹的數(shù)量,樹的數(shù)量直接決定了模型擬合能力的強(qiáng)弱。使用學(xué)習(xí)曲線確定最佳的n_estimators取值。學(xué)習(xí)范圍設(shè)定為1~200。其他參數(shù)設(shè)定方法都與決策樹相同。使用GDAL庫進(jìn)行模型可視化,在ArcGis 10.7中制圖輸出。
1.3.3 精度評(píng)價(jià)
收集第二次土壤普查和《云南土種志》收錄的研究區(qū)內(nèi)31個(gè)紅壤剖面作為檢驗(yàn)樣地,使用分類得分來衡量測(cè)試集分類精度;使用混淆矩陣來驗(yàn)證空間制圖分類的準(zhǔn)確性,使用總精度代表混淆矩陣的結(jié)果,總精度計(jì)算公式如下。
式中:Pii為混淆矩陣中第i行第i列的像元數(shù),表示分類正確的個(gè)數(shù);N表示總樣本個(gè)數(shù);K表示總分類正確的總個(gè)數(shù)。
2.1.1 決策樹參數(shù)最優(yōu)取值
使用0.8∶0.2的比例劃分訓(xùn)練集和測(cè)試集,將Random_state參數(shù)待調(diào)值設(shè)定為1~200。根據(jù)過往研究[27],最大深度超過20后會(huì)出現(xiàn)嚴(yán)重的過擬合現(xiàn)象,max_depth設(shè)定為1~20。min_samples_leaf和min_samples_split均設(shè)定為1~10(樣本量的0.1%),使用網(wǎng)格搜索對(duì)決策樹參數(shù)進(jìn)行調(diào)優(yōu)。得到?jīng)Q策樹random_state最優(yōu)解為163,max_depth最優(yōu)解為5,min_samples_leaf和min_samples_split最優(yōu)解均為3,criterion最優(yōu)參數(shù)為gini,決策樹訓(xùn)練集精度為0.812 3,驗(yàn)證集精度為0.82。
2.1.2 隨機(jī)森林參數(shù)最優(yōu)取值
隨機(jī)森林模型的精度很大程度上取決于構(gòu)成森林的決策樹數(shù)量。隨機(jī)森林需要調(diào)試的參數(shù)包括森林中樹的棵數(shù)n_estimators,樹的最大深度max_depth,最小樣本數(shù)min_samples_leaf和最小分裂個(gè)數(shù)min_samples_split,隨機(jī)模式random_state。除了樹的棵數(shù)之外,其他參數(shù)與決策樹相同。根據(jù)過往文獻(xiàn)[10,17,24,28],樹的棵數(shù)對(duì)于隨機(jī)森林精度的影響最高,因此,將n_estimators先設(shè)為默認(rèn)值100,在其他參數(shù)得到最優(yōu)解后通過學(xué)習(xí)曲線對(duì)給定范圍內(nèi)的值求最優(yōu)解。隨機(jī)森林使用bootstrap進(jìn)行有放回的重復(fù)抽樣,不需要?jiǎng)澐钟?xùn)練集和測(cè)試集,一個(gè)抽樣樣本大約包含了63%的原始訓(xùn)練數(shù)據(jù),而剩余數(shù)據(jù)則作為測(cè)試集使用。除n_estimators外,其余參數(shù)設(shè)定均與決策樹相同,利用網(wǎng)格搜索進(jìn)行窮舉得到參數(shù)最優(yōu)解:random_state最優(yōu)解為14,max_depth最優(yōu)解為3,min_samples_leaf和min_samples_split最優(yōu)解均為3。在確定了其他參數(shù)的最優(yōu)組合后,使用學(xué)習(xí)曲線對(duì)n_estimators參數(shù)進(jìn)行調(diào)試,預(yù)設(shè)范圍為1~200(默認(rèn)值±100%),學(xué)習(xí)曲線見圖3??梢?,隨著決策樹棵數(shù)的提高,隨機(jī)森林的精度在0.798~0.803之間波動(dòng),n_estimators最優(yōu)解為9,測(cè)試集精度為0.803 18。不同方法在訓(xùn)練集和測(cè)試集的精度見表1,在給定最優(yōu)參數(shù)條件下,決策樹在訓(xùn)練集和測(cè)試集上的精度略高于隨機(jī)森林(+1.34%,+1.97%),但二者沒有顯著差異。
圖3 隨機(jī)森林參數(shù)調(diào)優(yōu)結(jié)果
為判定決策樹和隨機(jī)森林在不同隨機(jī)場(chǎng)景下在測(cè)試集上的精度差異,使用交叉驗(yàn)證對(duì)兩種方法進(jìn)行50次交叉驗(yàn)證,結(jié)果見圖4??梢钥闯?,絕大多數(shù)情況下,兩者變化的趨勢(shì)較為相似,隨機(jī)森林的精度略高于決策樹。僅在少數(shù)情況下,決策樹精度高于隨機(jī)森林??傮w而言,決策樹和隨機(jī)森林在測(cè)試集上的精度差異不顯著。
圖4 決策樹與隨機(jī)森林交叉驗(yàn)證結(jié)果
采用隨機(jī)森林方法對(duì)影響模型精度的10種因子進(jìn)行變量重要性排序,得到圖5結(jié)果。隨機(jī)森林預(yù)測(cè)變量重要性的方法為平均降低精度,即將一個(gè)變量替換為隨機(jī)數(shù)后模型精度降低的程度,降低程度越大表示該變量越重要。由圖5可知,影響隨機(jī)森林結(jié)果的參數(shù)重要性前5的變量為DEM(0.328 0),Tem.(0.281 9),t_cut(0.216 4),habt(0.062 9)和slope(0.055 7),其余變量對(duì)紅壤分布的影響相對(duì)較低。其中,DEM可以識(shí)別分布區(qū)海拔高度,云南省是山地主導(dǎo)的省份,海拔的變化直接影響了土壤種類的分布;Tem.是分布區(qū)溫度,熱量條件是影響土壤種類分布的重要因素;t_cut、habt是地形切割和地形起伏度的指標(biāo),slope是坡度指標(biāo),這3個(gè)指標(biāo)可以衡量地形的起伏變化程度。在重要性前5的指標(biāo)中,4個(gè)是DEM及衍生指標(biāo),這比較適合云南省山地主導(dǎo)的自然地理格局,與任必武等[29]的研究結(jié)論相似??梢哉J(rèn)為,RF對(duì)變量重要性的排序比較合理。
圖5 RF環(huán)境變量重要性排序
表1 不同機(jī)器學(xué)習(xí)方法精度對(duì)比
2.3.1 決策樹的空間制圖與精度檢驗(yàn)
決策樹空間制圖結(jié)果見圖6。整個(gè)研究區(qū)除北部轎子雪山部分地區(qū)(圖6黑框部分)之外,大部分都被劃分為紅壤區(qū)。紅壤區(qū)連續(xù)分布且不隨地形地貌的變化而變化。決策樹空間制圖顯示出與測(cè)試集精度極不匹配的空間分布。滇東地區(qū)除紅壤(面積占比55.26%)外,還包括石灰土(8.85%)、紫色土(8.33%)、棕壤(6.93%)等地帶性土壤分布,除此以外,還有水稻土、新積土等面積占比小于5%的土壤。決策樹模型不能準(zhǔn)確的判斷紅壤與其他土壤的區(qū)別,很容易將其他類型的土壤全部劃分為紅壤。與郭鵬濤等[17]在小尺度橡膠園的結(jié)果(r=0.69)相比,決策樹模型在大尺度的制圖工作中缺乏土壤空間細(xì)節(jié)和空間變化,表明了決策樹算法沒有捕捉到整體數(shù)據(jù)中標(biāo)簽與樣本的準(zhǔn)確關(guān)系。因此可以認(rèn)為,決策樹算法在大尺度的數(shù)字土壤類型制圖中是過擬合的,不適合在大范圍、大尺度的數(shù)字土壤制圖中使用。
圖6 決策樹模型的紅壤空間分布
2.3.2 隨機(jī)森林的空間制圖與精度檢驗(yàn)
隨機(jī)森林模型的空間制圖(圖7)精度為67.74%(21/31),比1995年版云南土壤圖58.06%(18/31)的精度提高了9.68%,與陳芳[10]以棗陽市為研究區(qū)的中尺度土壤制圖精度相似。與測(cè)試集相比,空間制圖精度減少了近13%,這與小尺度復(fù)雜的微環(huán)境導(dǎo)致的模型辨別能力下降和變量的尺度變化影響有關(guān)。由圖6可知,隨機(jī)森林模型展現(xiàn)出了與地形地貌較為吻合的紅壤分布區(qū)。由此可見,雖然隨機(jī)森林在訓(xùn)練集和驗(yàn)證集上的精度略低于決策樹,但是由于集成算法的優(yōu)勢(shì),隨機(jī)森林具有較強(qiáng)的泛化能力,對(duì)空間數(shù)據(jù)的處理不易出現(xiàn)過度擬合,更適合大范圍的數(shù)字土壤制圖。
圖7 隨機(jī)森林模型的紅壤空間分布
總體分布上,以南盤江河谷和文山盤龍江河谷為界,將整個(gè)區(qū)域分為3個(gè)部分,南盤江河谷以北為滇中高原,南盤江河谷以南,盤龍江以西為元江河谷區(qū),以東為滇東南喀斯特地貌區(qū)。滇中高原山系多呈南北走向,由西到東包括了三臺(tái)山、拱王山、梁王山、轎子雪山南部和烏蒙山系。在上述山系,紅壤基本沿山系呈南北走向(圖8),尤其是滇中昆明一帶,紅壤呈現(xiàn)非常清晰的南北帶狀分布趨勢(shì),紅壤在本區(qū)域分布于山谷區(qū)和山南坡尤其是山西南坡,山北坡根據(jù)海拔的高低分布棕壤、黃棕壤、暗棕壤等半淋溶土;山體不同坡向土壤類型的不同與山體不同坡向水熱條件有關(guān)[30-32];元江河谷區(qū)紅壤同樣受到地形走勢(shì)的影響,基本沿西北—東南山系走向分布(圖9),相比于滇中高原區(qū),元江河谷區(qū)位于熱帶與亞熱帶氣候過渡區(qū),水熱條件好于滇中高原區(qū),如個(gè)舊(年均溫18.1 ℃,年降水1 101 mm[11])比昆明(年均溫14.25 ℃,年均降水924 mm[33-35])年均溫高近4 ℃,年均降水量高近200 mm。在河谷地區(qū)分布赤紅壤、紫色土等亞熱帶土壤,隨著海拔的升高,分布有黃壤、黃棕壤等土類;文山盤龍江以東為滇東南喀斯特地貌區(qū),海拔范圍為618~3 000 m,喀斯特地貌強(qiáng)烈發(fā)育導(dǎo)致了地表隆起切割強(qiáng)烈,缺乏高大山系。滇東南喀斯特地形區(qū)位于熱帶地區(qū),水熱條件優(yōu)越,紅壤與磚紅壤、赤紅壤,石灰土、黑色石灰土等土壤混雜分布,缺乏明顯的地帶性規(guī)律(圖10)。
圖8 滇中高原紅壤分布區(qū)
圖9 元江河谷紅壤分布區(qū)
圖10 滇東南喀斯特區(qū)紅壤分布區(qū)
地形地貌對(duì)紅壤分布的影響主要體現(xiàn)在影響成土的水熱條件上。研究區(qū)地形起伏較大,山南坡為陽坡和迎風(fēng)坡,王艷霞等[36]通過計(jì)算滇中地區(qū)陰陽坡氣溫直減率認(rèn)為陽坡(0.52 ℃)氣溫直減率小于陰坡(0.55 ℃)和平均值(0.53 ℃),表明陽坡在同等光照條件下可以獲得更多熱量;徐八林等[37]記錄了2018年文山麻栗坡縣9月2日降水?dāng)?shù)據(jù),山南側(cè)的猛硐鄉(xiāng)站4 h降水量為196.0 mm,而山北側(cè)的楊萬站同時(shí)段降水僅為45.3 mm,相差達(dá)100 mm以上??梢姡匦蔚孛灿绊懲寥婪植嫉闹饕獧C(jī)制是通過水熱條件的再分配間接地影響成土過程和土壤發(fā)生學(xué)特性[12]。對(duì)于紅壤,水熱條件的改變直接影響淋溶作用的強(qiáng)度,進(jìn)而影響紅壤的分布區(qū)域。
在大數(shù)據(jù)時(shí)代,手工繪制的土壤類型圖無論在精度和成本上都難以滿足數(shù)字農(nóng)業(yè)和精細(xì)化林業(yè)管理的需要。利用空間大數(shù)據(jù),通過機(jī)器學(xué)習(xí)方法進(jìn)行數(shù)字土壤圖更新,對(duì)于提高土壤類型分布圖的精度和制圖效率具有重要的意義。本研究以滇東地區(qū)紅壤為研究對(duì)象,通過機(jī)器學(xué)習(xí)對(duì)滇東地區(qū)紅壤進(jìn)行了空間分布模擬,對(duì)比1995年版土壤類型圖,本文有以下新的突破:通過機(jī)器學(xué)習(xí)方法,將滇東紅壤分布圖精度提高了9.68%,新的紅壤分布圖展現(xiàn)了更符合滇東地區(qū)自然地理?xiàng)l件的空間分布,更能表現(xiàn)出山地對(duì)土壤形成的間接主導(dǎo)作用;將機(jī)器學(xué)習(xí)方法引入云南數(shù)字土壤制圖工作中,得出了以隨機(jī)森林為代表的集成算法更適用于大尺度數(shù)字土壤制圖的結(jié)論。
(1)決策樹與隨機(jī)森林模型泛化能力的對(duì)比 決策樹模型在訓(xùn)練集和測(cè)試集上的精度分別高于隨機(jī)森林1.34%和1.97%,但在最終的空間模擬中缺乏可信性。這表明相比于隨機(jī)森林,決策樹存在較嚴(yán)重的過擬合現(xiàn)象。可能的原因是:①關(guān)鍵參數(shù)max_depth數(shù)值的差異導(dǎo)致了模型復(fù)雜度的不同。決策樹的最大深度為5,隨機(jī)森林為3,這使得決策樹的模型更為復(fù)雜,也更能捕捉到訓(xùn)練集中標(biāo)簽與數(shù)據(jù)的特定模式,而不能準(zhǔn)確地捕捉到整體數(shù)據(jù)與標(biāo)簽之間的關(guān)系。②決策樹使用與標(biāo)簽強(qiáng)相關(guān)的指標(biāo)—如海拔和溫度—進(jìn)行預(yù)測(cè),而放棄相對(duì)弱相關(guān)的指標(biāo)。而隨機(jī)森林使用隨機(jī)選擇方法選擇變量,高相關(guān)度和低相關(guān)度的變量都會(huì)被選擇,從而促進(jìn)了樹的多樣性。隨機(jī)森林生成的決策樹是去相關(guān)性的,這使得隨機(jī)森林對(duì)過擬合具有更好的魯棒性。③模型過擬合還跟訓(xùn)練集規(guī)模有關(guān)系,由于訓(xùn)練集劃分的關(guān)系,決策樹(80%)比隨機(jī)森林(63%)訓(xùn)練集規(guī)模大17%,這也導(dǎo)致了決策樹更能挖掘訓(xùn)練集中標(biāo)簽與樣本的關(guān)系。綜上所述,更復(fù)雜的模型和強(qiáng)相關(guān)變量為主的構(gòu)建方法使決策樹有更好的統(tǒng)計(jì)精度,而隨機(jī)森林相對(duì)簡單的模型和去相關(guān)化的構(gòu)建方法犧牲了相對(duì)較小的統(tǒng)計(jì)預(yù)測(cè)精度換得了更好的魯棒性。對(duì)于大尺度的土壤制圖來說,在相似的統(tǒng)計(jì)精度水平下,擁有更好泛化能力的隨機(jī)森林模型是比決策樹更優(yōu)的選擇。
(2)影響紅壤分布的主要環(huán)境變量 決策樹模型和隨機(jī)森林模型都表明海拔是主導(dǎo)紅壤分布的關(guān)鍵因子(0.328),這與Zeraatpisheh等[38]、楊煜岑等[39]、任麗等[40]、張厚喜等[41]研究結(jié)論類似。其他影響紅壤分布的因子包括地表切割、地表隆起、溫度。海拔是對(duì)紅壤分布影響最大的地理因子,這是因?yàn)樵颇洗怪睔夂虿町惷黠@,不同的海拔高度有完全不同的水熱環(huán)境,海拔與地表隆起和地表切割度相互耦合,造就了滇東地區(qū)多樣的水熱因子組合。水熱是土壤發(fā)育的主導(dǎo)因子,溫度是影響紅壤分布的第二大因子(0.281 9),溫度影響土壤形成過程中物質(zhì)的積累、分解和轉(zhuǎn)化過程,進(jìn)而影響土壤類型與土壤性質(zhì)[12]。這與任必武等[29]在福建亞熱帶復(fù)雜地貌區(qū)的結(jié)論類似。滇東地區(qū)海拔和地表切割隆起強(qiáng)烈,地形地貌的巨大差異使得溫度變化差異巨大。Van’t Hoff溫度定律表明,溫度每上升10 ℃,化學(xué)風(fēng)化的速率增加一倍;根據(jù)Ramann風(fēng)化因數(shù)定律,化學(xué)風(fēng)化作用的強(qiáng)弱受到土壤絕對(duì)溫度和一年中可以發(fā)生風(fēng)化的時(shí)間兩個(gè)因素的控制[11],溫度差異直接導(dǎo)致了風(fēng)化強(qiáng)度和風(fēng)化時(shí)間的差異,進(jìn)而影響了風(fēng)化和淋溶作用發(fā)生的程度,導(dǎo)致了土壤類型的差異。
一般情況下,降水也應(yīng)當(dāng)是影響土壤類型分布的重要因素,但在本研究中,降水的影響卻比較微弱,這可能是由于滇東地區(qū)降水差異相對(duì)較小且訓(xùn)練樣點(diǎn)集中于滇中高原造成的。后期的工作將會(huì)增加對(duì)滇南區(qū)域的訓(xùn)練。用于空間精度檢驗(yàn)的現(xiàn)有剖面數(shù)據(jù)過少且分布不均勻是本研究另一個(gè)不足之處,現(xiàn)有檢驗(yàn)剖面集中于滇中高原地區(qū),對(duì)于北側(cè)、南側(cè)的地形復(fù)雜區(qū)剖面數(shù)量不足,增加檢驗(yàn)剖面數(shù)量也是未來需要進(jìn)行的工作。
本研究以第二次土壤普查數(shù)據(jù)和《云南土種志》數(shù)據(jù)為基礎(chǔ),利用決策樹和隨機(jī)森林模型,預(yù)測(cè)了滇東地區(qū)紅壤的空間分布格局,并利用現(xiàn)有的31個(gè)剖面進(jìn)行了檢驗(yàn),得到了如下結(jié)論:
(1)隨機(jī)森林比決策樹更適合進(jìn)行大尺度的紅壤制圖,利用隨機(jī)森林模型得到的紅壤分布圖精度為67.74%,比現(xiàn)行的土壤類型圖精度提高9.68%,展示了更精細(xì)的紅壤空間分布格局。海拔是影響紅壤分布最重要的因素,溫度、地形切割度、地形隆起度是影響紅壤分布的次要因素。
(2)隨機(jī)森林模型雖然能較好地捕獲土壤類型與環(huán)境變量之間的非線性關(guān)系,但隨機(jī)森林在驗(yàn)證集上和利用剖面獲得的精度仍有近13%的差異,可能原因是訓(xùn)練樣點(diǎn)仍然不足或者影響土壤類型的變量未被列入到模型中。在未來的研究中,如何彌補(bǔ)精度的差異以及如何引入更多相關(guān)變量是值得進(jìn)一步研究的問題。