陳玉藍(lán),梁太波,張艷玲,王 勇,袁大剛,朱 俊,李德成
基于特征集成學(xué)習(xí)的四川省土壤厚度預(yù)測①
陳玉藍(lán)1,梁太波2,張艷玲2,王 勇1,袁大剛3,朱 俊4*,李德成5
(1 四川省煙草公司涼山州公司,四川西昌 615000;2 中國煙草總公司鄭州煙草研究院,鄭州 450001;3 四川農(nóng)業(yè)大學(xué)資源學(xué)院,成都 611130;4 南京工業(yè)職業(yè)技術(shù)大學(xué)計算機(jī)與軟件學(xué)院,南京 210023;5 中國科學(xué)院南京土壤研究所,南京 210008)
以四川省土壤厚度預(yù)測為例,為農(nóng)業(yè)生產(chǎn)與生態(tài)環(huán)境評價中土壤厚度空間分布圖的編制提供方法支持。對比分析了隨機(jī)森林、分位數(shù)回歸森林、支持向量機(jī)、集成學(xué)習(xí)模型對連續(xù)型土壤厚度的預(yù)測精度,并提出了一種基于特征集成學(xué)習(xí)的土壤厚度類型預(yù)測算法。研究結(jié)果表明:①四川省土壤厚度具有較高的空間異質(zhì)性,控制其空間變化的主要地形因子包括谷底平坦綜合指數(shù)、高程與地形濕度指數(shù);②四川省土壤厚度預(yù)測模型的決定系數(shù)為0.32 ~ 0.47,均方根誤差為0.28 ~ 0.41 m;③面向連續(xù)型土壤厚度預(yù)測的集成模型具有較高的預(yù)測精度與穩(wěn)健性,能夠充分集成子模型的優(yōu)勢。特征集成學(xué)習(xí)能夠有效集成并融合了連續(xù)型土壤厚度預(yù)測與離散型土壤厚度類型預(yù)測結(jié)果,通過減少方差來提高預(yù)測結(jié)果的穩(wěn)健性。
數(shù)字土壤制圖;機(jī)器學(xué)習(xí);集成學(xué)習(xí);四川省
土壤厚度是土壤質(zhì)量評價、土壤碳庫估算與水土保持最重要的物理指標(biāo)之一[1]。土壤性質(zhì)的垂直變異程度受到土壤厚度的直接影響,因此土壤厚度是土壤屬性空間變化模擬乃至土壤時空變異特征研究的重要主題[2]。
通常情況下,土壤厚度是通過土壤剖面的調(diào)查來獲得的。我國中西部山地地區(qū)道路可達(dá)性較差、面積較大,這就導(dǎo)致我國部分地區(qū)難以獲得詳實的土壤厚度調(diào)查數(shù)據(jù)?;谕寥括C景觀范式,數(shù)字土壤制圖通過集成地理信息系統(tǒng)技術(shù)、遙感分析技術(shù)與計算機(jī)模擬技術(shù)來量化土壤屬性的時空變異特征,已受到國內(nèi)外土壤學(xué)界的普遍接受。目前,數(shù)字土壤制圖的主流技術(shù)已從傳統(tǒng)的地統(tǒng)計學(xué)發(fā)展為機(jī)器學(xué)習(xí)[3]。有別于其他土壤理化屬性,土壤厚度與成土要素(例如氣候、地形)的相關(guān)性較低,常規(guī)的機(jī)器學(xué)習(xí)算法預(yù)測性能往往不夠理想。國內(nèi)外學(xué)者對土壤厚度預(yù)測過程中的數(shù)據(jù)獲取[4]、環(huán)境變量篩選[5-7]、預(yù)測模型改進(jìn)[8-11]、預(yù)測不確定性分析[12-13]進(jìn)行了探討。相關(guān)研究表明,地形是預(yù)測土壤厚度最重要的環(huán)境變量之一[14],機(jī)器學(xué)習(xí)算法在表征土壤厚度空間變異方面具有較高的適宜性[6]。
在實際生產(chǎn)過程中,技術(shù)人員往往不太關(guān)心土壤厚度的準(zhǔn)確數(shù)值,而更關(guān)注土體厚度是否能夠滿足特定的應(yīng)用。例如,如果土壤剖面中A層與B層厚度之和大于60 cm,在不考慮地形對于水土流失影響的情況下,該土壤可能就適宜于農(nóng)業(yè)生產(chǎn)。需要指出的是,野外調(diào)查獲取到的土壤厚度數(shù)據(jù)往往基于挖掘或觀察到的土壤剖面,受限于調(diào)查手段而無法獲取到準(zhǔn)確的土壤厚度信息,尤其是在土壤厚度大于2 m時。因此,獲取準(zhǔn)確的土壤厚度類型數(shù)據(jù)在實際應(yīng)用上具有重要的意義。由于影響土壤厚度空間分布的環(huán)境變量種類較多,準(zhǔn)確量化土壤厚度與環(huán)境變量之間的關(guān)系往往受到預(yù)測模型性能的影響,而且預(yù)測模型往往基于不同的理論假設(shè),其預(yù)測結(jié)果在不同地形區(qū)的不確定性也不盡相同。因此,如何使用集成學(xué)習(xí)方法有機(jī)結(jié)合復(fù)雜景觀區(qū)的預(yù)測模型,進(jìn)而獲得比單一種類預(yù)測模型更加優(yōu)越的泛化性能是一個迫切需要解決的科學(xué)問題。
在前人已有相關(guān)工作的基礎(chǔ)上,本文以四川省的土壤厚度預(yù)測為例,對比分析不同機(jī)器學(xué)習(xí)算法預(yù)測土壤厚度的精度,提出一種基于特征集成學(xué)習(xí)的土壤厚度預(yù)測方法,以提升土壤厚度空間預(yù)測的精度與穩(wěn)健性。
四川省是我國的第五大省份,位于長江中下游平原和青藏高原地區(qū)的過渡帶,地勢西高東低,地形復(fù)雜多樣,以山地為主,山地、丘陵約占全省面積的89%,這也導(dǎo)致了四川省土壤厚度空間變化的異質(zhì)性較大。四川省絕大部分地區(qū)受季風(fēng)環(huán)流影響,東部地區(qū)主要受東南季風(fēng)控制,西部地區(qū)則主要受西南季風(fēng)控制,因此四川省氣候可以分為三大類,分別是川西北高山高原高寒氣候、川西南山地亞熱帶半濕潤氣候與四川盆地中亞熱帶濕潤氣候。全省年平均氣溫7.97 ℃,平均日照1 830 h,平均年降水量858.32 mm。四川省的耕地面積為6.72萬km2,林地面積為22.20萬km2。按照中國土壤系統(tǒng)分類,四川省土壤類型主要是雛形土 (71%)、淋溶土(14%)與人為土(4%)。
本文的土壤樣本數(shù)據(jù)主要是四川省的土系調(diào)查[15](=195)與第二次全國土壤普查的數(shù)據(jù)[16](=99)(圖1)。土系調(diào)查數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集用來訓(xùn)練預(yù)測模型,歷史土壤數(shù)據(jù)作為獨立驗證數(shù)據(jù)集評估預(yù)測模型的精度。土系調(diào)查樣點的布置主要考慮到交通可達(dá)性以及第二次土壤普查已采集樣點的位置與氣候、植被、母質(zhì)、地形等成土因素的空間分布特征。土系調(diào)查樣點的成土環(huán)境與發(fā)生層樣品主要依據(jù)《野外土壤描述與采樣手冊》[17]進(jìn)行描述,詳細(xì)記錄了各采樣點的景觀、剖面與新生體特寫照片、成土條件描述、土壤剖面層次劃分與各層次形態(tài)特征。
圖1 四川省土壤采樣點空間分布
本文共收集了17個環(huán)境變量(表1),包括地形因子、遙感因子、成土母質(zhì)、土地利用。地形因子包括高程、坡向、坡度、平面曲率、剖面曲率、地形濕度指數(shù)等變量。氣候變量包括年均氣溫、年均降雨。其他的變量包括土壤類型(土綱)、歸一化植被指數(shù)、土地利用類型等。地形因子使用SRTM數(shù)據(jù),遙感因子使用Landsat8數(shù)據(jù),土地利用數(shù)據(jù)使用多年的平均值[18]。連續(xù)型環(huán)境變量使用Z-score方法進(jìn)行標(biāo)準(zhǔn)化處理。
表1 環(huán)境變量介紹
傳統(tǒng)研究將土壤厚度作為連續(xù)型的因變量。本文重點關(guān)注土壤厚度類型的空間分布規(guī)律及其主要驅(qū)動因素,提出一種基于特征集成學(xué)習(xí)的土壤厚度預(yù)測方法,將面向連續(xù)型土壤厚度的預(yù)測結(jié)果進(jìn)行重分類,作為新的特征進(jìn)行集成。具體的預(yù)測流程包括:
1) 使用機(jī)器學(xué)習(xí)算法預(yù)測連續(xù)型土壤厚度的空間分布。訓(xùn)練的機(jī)器學(xué)習(xí)算法包括:隨機(jī)森林(Random Forest,RF)、分位數(shù)回歸森林(Quantile Regression Forest,QRF)與支持向量機(jī)(Support Vector Machine,SVM)。
3) 對于上一步中的土壤厚度空間分布圖進(jìn)行重分類。由于本文土壤厚度數(shù)據(jù)較為有限(=195),考慮到土壤厚度數(shù)據(jù)的頻率分布與土壤厚度預(yù)測精度對比的可操作性,將重分類的閾值設(shè)定為0 ~ 60 cm、60 ~ 100 cm與 >100 cm,對應(yīng)的土壤厚度類型標(biāo)識分別為1、2、3,該圖層記為Depth1。如果研究區(qū)的土壤樣點數(shù)據(jù)較多,也可以考慮劃分更多的土壤厚度類型。
4) 基于訓(xùn)練數(shù)據(jù)集(=195),將采樣點的土壤觀測數(shù)據(jù)進(jìn)行重分類,重分類的閾值為0 ~ 60、60 ~ 100 與>100 cm,對應(yīng)的土壤厚度標(biāo)識分別為1、2、3。使用隨機(jī)森林、分位數(shù)回歸森林與支持向量機(jī)算法分別進(jìn)行土壤厚度類型的預(yù)測,篩選出預(yù)測精度最高的預(yù)測模型,并使用該方法預(yù)測四川省的土壤厚度類型空間分布圖Depth2,分類精度為cla。因為因變量不同,該步驟與步驟2是完全獨立的。
5) 使用特征集成機(jī)制,將兩類土壤厚度類型空間分布圖進(jìn)行集成:
式中:ensm、cla分別是步驟2中連續(xù)型土壤厚度集成模型的預(yù)測精度和步驟4中離散型土壤厚度類型的預(yù)測精度。最終的預(yù)測結(jié)果采用四舍五入的方式生成土壤厚度類型的空間分布圖。
采集的土壤厚度統(tǒng)計信息如表2、表3所示。根據(jù)《中華人民共和國水土保持法》[30],在5°以上地區(qū)的坡地植樹造林、撫育幼林等需要采取水土保持措施,本文以5° 為閾值對采樣點的土壤厚度進(jìn)行了統(tǒng)計(表2)。方差分析結(jié)果表明沖積物、洪積物、泥巖成土母質(zhì)條件下的土壤厚度呈現(xiàn)顯著性差異(<0.05),不同土地利用、土壤類型條件下土壤厚度也呈現(xiàn)顯著性差異(表3)。這說明四川省土壤厚度具有較高的空間異質(zhì)性,需要綜合考慮多種成土因素對土壤厚度的影響。
表2 采樣點土壤厚度統(tǒng)計結(jié)果
表3 不同成土母質(zhì)、土地利用與土壤類型條件下土壤厚度(基于土系調(diào)查數(shù)據(jù))
注:同列數(shù)據(jù)小寫字母不同表示差異達(dá)<0.05顯著水平。
由于收集的環(huán)境變量間具有一定的相關(guān)性,為了避免多重共線性問題,本文使用逐步回歸方法選擇最優(yōu)自變量集合,并計算篩選環(huán)境變量的方差膨脹因子(Variance Inflation Factor,VIF),移除VIF》5的環(huán)境變量。使用隨機(jī)森林模型量化了不同環(huán)境變量對于土壤厚度空間變異的表征能力(圖2)。分析結(jié)果表明:氣候因子、地形因子與植被指數(shù)被遴選為最有效的環(huán)境變量,其中地形因子(谷底平坦綜合指數(shù)、高程與地形濕度指數(shù))能夠較好地表征土壤厚度的空間變異。
圖2 基于隨機(jī)森林的環(huán)境變量重要性
在獨立執(zhí)行100次試驗之后,子模型與集成模型預(yù)測連續(xù)型土壤厚度的預(yù)測精度平均值如表4所示??傮w上,子模型與集成模型的標(biāo)準(zhǔn)誤差均接近0,隨機(jī)森林與分位數(shù)回歸森林的預(yù)測精度較為接近,均略高于支持向量機(jī)。集成模型的精度較子模型略有提升(2=0.47)。將土壤厚度樣點數(shù)據(jù)進(jìn)行重分類后構(gòu)建分類預(yù)測模型,使用獨立驗證數(shù)據(jù)集對不同的預(yù)測模型進(jìn)行精度評價(表5),結(jié)果表明特征集成模型的預(yù)測精度顯著高于子模型與基于連續(xù)型土壤厚度的集成模型。使用獨立驗證數(shù)據(jù)的平均值作為預(yù)測結(jié)果,獲取到的預(yù)測精度(分類精度)為0.29,特征集成模型的預(yù)測精度是以平均值作為預(yù)測結(jié)果的2.1倍(表5),本文提出的預(yù)測方法顯著優(yōu)于各子模型與以平均值作為預(yù)測結(jié)果的精度。
基于3種機(jī)器學(xué)習(xí)與集成學(xué)習(xí)預(yù)測的土壤厚度值空間分布如圖3所示。3種子模型與集成學(xué)習(xí)模型預(yù)測的平均土壤厚度基本一致(1.17 ~ 1.19 m),預(yù)測的土壤厚度最小值為0.36 m,最大值為2.10 m(表6)。集成學(xué)習(xí)預(yù)測結(jié)果的標(biāo)準(zhǔn)差比其他3種子模型的預(yù)測結(jié)果小,說明集成學(xué)習(xí)模型具有較高的穩(wěn)健性。宏觀分布上,成都平原、川西高原呈現(xiàn)截然不同的土壤厚度空間分布特征,這主要歸因于地形地貌對于土壤厚度的影響。成都平原雖然屬于四川盆地內(nèi)的平原,但是其平均厚度遠(yuǎn)大于1 m。川西高原地形起伏大,自然條件復(fù)雜,土壤形成過程也復(fù)雜多變,因此該地區(qū)的土壤厚度具有極高的空間異質(zhì)性。
表4 面向連續(xù)型土壤厚度子模型與集成模型的預(yù)測精度(基于土系調(diào)查數(shù)據(jù))
表5 面向土壤厚度類型子模型與集成模型的預(yù)測精度(基于獨立驗證數(shù)據(jù))
使用分位數(shù)回歸森林預(yù)測的90% 置信區(qū)間來分析預(yù)測結(jié)果的不確定性(圖4)。連續(xù)型土壤厚度的5%分位數(shù)與95% 分位數(shù)(圖4)與其他預(yù)測結(jié)果呈現(xiàn)類似的空間分布特征,也即土壤厚度自西向東呈現(xiàn)逐步下降的趨勢。山地區(qū)域,尤其是四川盆地至川西高山高原區(qū)過渡區(qū)域土壤厚度的空間預(yù)測不確定性較高,說明在山地區(qū)域需要收集更多的土壤樣點來降低預(yù)測結(jié)果的不確定性?;陬A(yù)測的連續(xù)型土壤厚度(圖3D)、子模型(分位數(shù)回歸森林)預(yù)測的土壤厚度類型與預(yù)測精度,生成最終的土壤厚度類型空間分布圖(圖5),其中<0.6、0.6 ~ 1.0和>1.0 m 3種類型的面積百分比分別為5.6%、31.4% 和63.0%。
表6 不同預(yù)測算法預(yù)測土壤厚度的統(tǒng)計結(jié)果
(A. 5%分位數(shù);B. 95%分位數(shù))
圖5 基于集成學(xué)習(xí)生成的土壤厚度類型空間分布
土壤厚度是指導(dǎo)農(nóng)業(yè)生產(chǎn)與生態(tài)環(huán)境評價的重要基礎(chǔ)信息,然而傳統(tǒng)的土壤調(diào)查僅能獲取采樣點的土壤厚度數(shù)據(jù),難以獲取土壤厚度的空間分布圖層。本文使用基于權(quán)重的機(jī)器學(xué)習(xí)模型,針對地形復(fù)雜的平原與山地地貌區(qū)域提出了一種基于特征集成學(xué)習(xí)的土壤厚度預(yù)測算法,該算法充分利用了集成學(xué)習(xí)能夠充分結(jié)合多個機(jī)器學(xué)習(xí)算法的優(yōu)點,并融合了連續(xù)型土壤厚度預(yù)測與離散型土壤厚度類型預(yù)測結(jié)果,通過減少方差來提高預(yù)測結(jié)果的穩(wěn)健性。在前期的預(yù)試驗過程中,也嘗試了人工神經(jīng)網(wǎng)絡(luò)、普通克里格、多元線性回歸方法,但是這些子模型的精度比本文使用的3種機(jī)器學(xué)習(xí)算法精度低。在提出的特征集成學(xué)習(xí)的框架下,用戶可以根據(jù)需求遴選不同數(shù)量、不同種類的子模型。由于土壤厚度數(shù)據(jù)有限,本文使用歷史土壤數(shù)據(jù)作為獨立驗證數(shù)據(jù)集評估預(yù)測模型的精度。有別于其他土壤屬性,土壤厚度隨時間的推移變化較小,而且本研究中土壤厚度類型分類閾值跨度較大(0 ~ 60 cm、60 ~ 100 cm與>100 cm)。盡管驗證數(shù)據(jù)集與建模數(shù)據(jù)集的采樣時間相差30多年,歷史土壤厚度數(shù)據(jù)的使用并未影響本文的獨立驗證。
有別于以往的集成學(xué)習(xí)模型,本文提出的方法使用子模型進(jìn)行土壤厚度類型預(yù)測,這主要是考慮到機(jī)器學(xué)習(xí)算法在構(gòu)建回歸與分類預(yù)測模型上的差異性。同時,需要特別指出的是,與常規(guī)的土壤理化屬性不同,土壤厚度一般為實際觀測到的最大采樣深度,這取決于調(diào)查人員挖掘剖面的實際調(diào)查深度,因此使用土壤厚度分類機(jī)制能夠較好地表征土壤類型的空間分布特征,避免給出不夠準(zhǔn)確的土壤厚度信息。盡管獨立驗證數(shù)據(jù)集平均值略低于建模樣點(表2),但是模型預(yù)測精度評價結(jié)果表明特征集成模型能夠較好地預(yù)測土壤厚度類型的空間分布(表5)。
在實際的土壤調(diào)查過程中,土壤厚度往往只記錄了觀測數(shù)據(jù),事實上的土壤厚度可能遠(yuǎn)遠(yuǎn)大于實際的觀測值[1],這種“不準(zhǔn)確的”土壤厚度觀測數(shù)據(jù)會給預(yù)測模型帶來一定的預(yù)測誤差,導(dǎo)致部分地區(qū)的土壤厚度出現(xiàn)嚴(yán)重的低估情況。針對這種情況,國內(nèi)外也有部分學(xué)者將土壤厚度定義為刪失數(shù)據(jù)(right censored data)[12],并構(gòu)建了隨機(jī)生存森林來預(yù)測超過一定土壤厚度閾值概率的空間分布。分析預(yù)測的土壤厚度的宏觀分布特征(圖3、圖4)可以發(fā)現(xiàn),土壤厚度與地形因子之間絕非簡單的線性關(guān)系,而是存在十分復(fù)雜的非線性關(guān)系。地統(tǒng)計模型需要滿足空間自相關(guān)假設(shè)條件,而土壤厚度在不同地形條件下呈現(xiàn)迥異的分布特征(圖3),因此本文未考慮使用地統(tǒng)計技術(shù)作為對比模型。
基于隨機(jī)森林的變量重要性分析僅能量化環(huán)境變量對土壤厚度空間變異的表征能力,不能給出具體的驅(qū)動作用的解釋。由于土壤演化受到多種成土因素的長期綜合作用,因此土壤厚度的主要驅(qū)動因素也復(fù)雜多樣。方差分析結(jié)果顯示土壤厚度在不同的土壤類型、成土母質(zhì)條件下呈現(xiàn)顯著性差異(表3),但是環(huán)境變量篩選過程卻剔除了這些分類變量。因此,在現(xiàn)有篩選的環(huán)境變量集的基礎(chǔ)上(圖2)增加了這些分類變量并測試了模型的預(yù)測精度。結(jié)果表明,無論是增加一個分類變量還是多個分類變量,集成模型的預(yù)測精度均沒有顯著提升(>0.05)。這可能是由于表3中的環(huán)境變量信息是基于野外調(diào)查的結(jié)果,而收集到的覆蓋整個研究區(qū)的分類變量的精度與分辨率還不足以表征土壤厚度的空間變異特征。
總體上,本文連續(xù)型土壤厚度預(yù)測模型的決定系數(shù)為0.47(表4),比相關(guān)研究在區(qū)域尺度(0.16 ~ 0.34)與國家尺度(0.11 ~ 0.41)的預(yù)測準(zhǔn)確度高[10, 13],這說明本文使用的環(huán)境變量能夠較好地表征土壤厚度的空間變化特征,擬合的預(yù)測模型能夠準(zhǔn)確地量化土壤–景觀關(guān)系。例如,地形濕度指數(shù)通常在靠近流域網(wǎng)絡(luò)的區(qū)域值較高,這些區(qū)域比其他區(qū)域具有更多的河流沖積物,因此其土壤厚度也可能比其他地區(qū)高,地形濕度指數(shù)能夠較好地表征山地區(qū)域土壤厚度的空間分布特征[9]。Ryland等人[4]在約16 hm2的Calhoun地球關(guān)鍵帶觀測站使用電磁感應(yīng)設(shè)備(Dualem-21S EMI)調(diào)查了3.7萬個觀測點,并使用地統(tǒng)計方法獲得了該地區(qū)土壤黏化層的厚度空間分布圖。該研究指出坡底由于受到更嚴(yán)重的土壤侵蝕而具有較淺的沖積物,這也說明土壤厚度空間預(yù)測模型的準(zhǔn)確擬合需要足夠土壤數(shù)據(jù)的支持。
1) 四川省土壤厚度具有較高的空間異質(zhì)性,難以使用單一的成土要素進(jìn)行量化。
2) 地形因子(谷底平坦綜合指數(shù)、高程與地形濕度指數(shù))能夠較好地表征山地區(qū)土壤厚度的空間變異特征。
3) 面向連續(xù)型土壤厚度預(yù)測的集成模型具有較高的預(yù)測精度與穩(wěn)健性,能夠充分集成子模型的優(yōu)勢。特征集成學(xué)習(xí)能夠有效集成并融合了連續(xù)型土壤厚度預(yù)測與離散型土壤厚度類型預(yù)測結(jié)果,通過減少方差來提高預(yù)測結(jié)果的穩(wěn)健性。
但由于研究區(qū)較大,樣本數(shù)據(jù)有限,本文提出的算法還需要在收集到更多的土壤數(shù)據(jù)或類似的研究區(qū)進(jìn)行完善。
[1] 易晨, 李德成, 張甘霖, 等. 土壤厚度的劃分標(biāo)準(zhǔn)與案例研究[J]. 土壤學(xué)報, 2015, 52(1): 220–227.
[2] 張甘霖, 史舟, 朱阿興, 等. 土壤時空變化研究的進(jìn)展與未來[J]. 土壤學(xué)報, 2020, 57(5): 1060–1070.
[3] Wadoux A M J C, Minasny B, McBratney A B. Machine learning for digital soil mapping: Applications, challenges and suggested solutions[J]. Earth-Science Reviews, 2020, 210: 103359.
[4] Ryland R C, Thompson A, Sutter L A, et al. Mapping depth to the argillic horizon on historically farmed soil currently under forests[J]. Geoderma, 2020, 369: 114291.
[5] Lu Y Y, Liu F, Zhao Y G, et al. An integrated method of selecting environmental covariates for predictive soil depth mapping[J]. Journal of Integrative Agriculture, 2019, 18(2): 301–315.
[6] Horst-Heinen T Z, Dalmolin R S D, ten Caten A, et al. Soil depth prediction by digital soil mapping and its impact in pine forestry productivity in South Brazil[J]. Forest Ecology and Management, 2021, 488: 118983.
[7] Wang Q, Wu B F, Stein A, et al. Soil depth spatial prediction by fuzzy soil-landscape model[J]. Journal of Soils and Sediments, 2018, 18(3): 1041–1051.
[8] Pení?ek V, Bor?vka L. Soil depth prediction supported by primary terrain attributes: A comparison of methods[J]. Plant, Soil and Environment, 2006, 52(9): 424–430.
[9] Wu S W, Lin C Y, Sun M Y, et al. Estimation of soil depth in the Liukuei Experimental Forest by using conceptual model[J]. CATENA, 2022, 209: 105839.
[10] Dharumarajan S, Vasundhara R, Suputhra A, et al. Prediction of soil depth inusing digital soil mapping approach[J]. Journal of the Indian Society of Remote Sensing, 2020, 48(11): 1593–1600.
[11] 王改粉, 趙玉國, 楊金玲, 等. 流域尺度土壤厚度的模糊聚類與預(yù)測制圖研究[J]. 土壤, 2011, 43(5): 835–841.
[12] Chen S C, Mulder V L, Martin M P, et al. Probability mapping of soil thickness by random survival forest at a national scale[J]. Geoderma, 2019, 344: 184–194.
[13] Chen S C, Richer-de-Forges A C, Leatitia Mulder V, et al. Digital mapping of the soil thickness of loess deposits over a calcareous bedrock in central France[J]. Catena, 2021, 198: 105062.
[14] 于全波, 張浪, 黃紹敏, 等. 城鎮(zhèn)搬遷地土壤厚度劃分與案例研究[J]. 土壤, 2021, 53(5): 1081–1086.
[15] 張甘霖, 袁大剛. 中國土系志·四川卷[M]. 北京: 科學(xué)出版社, 2020.
[16] 全國土壤普查辦公室. 中國土種志·第六卷[M]. 北京: 中國農(nóng)業(yè)出版社, 1996.
[17] 張甘霖, 李德成. 野外土壤描述與采樣手冊[M]. 北京: 科學(xué)出版社, 2022.
[18] Li X C, Yu L, Sohl T, et al. A cellular automata downscaling based 1 km global land use datasets (2010—2100)[J]. Science Bulletin, 2016, 61(21): 1651–1661.
[19] Jarvis A, Reuter H I, Nelson A, et al. Hole-filled SRTM for globe (Version 4)[OL]. 2018-11-01(2023-07-04). http:// srtm.csi.cgiar.org.
[20] 熊毅主編. 王鶴林, 黃翠琴編繪. 中國土壤圖集[M]. 北京: 地圖出版社, 1986.
[21] Maisongrande P, Duchemin B, Dedieu G. VEGETATION/ SPOT: An operational mission for the Earth monitoring; presentation of new standard products[J]. International Journal of Remote Sensing, 2004, 25(1): 9–14.
[22] Yang L Q, Jia K, Liang S L, et al. Comparison of four machine learning methods for generating the GLASS fractional vegetation cover product from MODIS data[J]. Remote Sensing, 2016, 8(8): 682.
[23] Xiao Z Q, Liang S L, Jiang B. Evaluation of four long time-series global leaf area index products[J]. Agricultural and Forest Meteorology, 2017, 246: 218–230.
[24] Zhang G L, Song X D, Wu K N. A classification scheme for Earth’s critical zones and its application in China[J]. Science China Earth Sciences, 2021, 64(10): 1709–1720.
[25] Brungard C, Nauman T, Duniway M, et al. Regional ensemble modeling reduces uncertainty for digital soil mapping[J]. Geoderma, 2021, 397: 114998.
[26] Song X D, Wu H Y, Ju B, et al. Pedoclimatic zone-based three-dimensional soil organic carbon mapping in China[J]. Geoderma, 2020, 363: 114145.
[27] Meyer D, Dimitriadou E, Hornik K, et al. e1071: Misc functions of the department of statistics, probability theory group (Formerly: E1071), TU Wien[OL]. 2023-02-01 (2023-07-04). https://CRAN.R-project.org/package=e1071.
[28] Liaw A, Wiener M. Classification and regression by randomForest[J]. R News, 2002, 2(3): 18–22.
[29] Meinshausen N. quantregForest: Quantile Regression Forests[OL]. 2017-12-19 (2023-07-04). https://CRAN.R- project.org/package=quantregForest.
[30] 劉志仁, 王嘉奇. 黃河流域中上游水土保持法律制度研究[J]. 干旱區(qū)資源與環(huán)境, 2022, 36(11): 10–18.
Spatial Prediction of Soil Thicknesses in Sichuan Province Based on Feature-Ensemble Learning
CHEN Yulan1, LIANG Taibo2, ZHANG Yanling2, WANG Yong1, YUAN Dagang3, ZHU Jun4*, LI Decheng5
(1 Liangshan Branch of Sichun Tobacco Company, Xichang, Sichuan 615000, China; 2 Zhengzhou Tobacco Research Institute of CNTC, Zhengzhou 450001, China; 3 College of Resources, Sichuan Agricultural University, Chengdu 611130, China; 4 School of Computer and Software, Nanjing Vocational University of Industry Technology, Nanjing 210023, China; 5 Institute of Soil Science, Chinese Academy of Sciences, Nanjing 210008, China)
This study compared the prediction accuracy of random forest, quantile regression forest, support vector machine and ensemble learning in mapping soil thickness taken as a continuous variable, where the machine learning models were weighted as individual models. Furthermore, a feature-ensemble learning algorithm was proposed for mapping soil thickness, in which soil thicknesses was classified as a new categorical variable, and the discrete predictions were further weighted with the predicted continuous soil thicknesses.The results showed that soil thicknesses in Sichuan Province were characterized with high spatial variation, of which the dominated drivers included multiresolution index of valley bottom flatness, elevation and topographic wetness index. The overall performance of prediction models in terms of coefficients of determinations and root mean square errors were 0.32–0.47 and 0.28–0.41 m, respectively. For the prediction of continuous soil thickness, ensemble models had low errors than those of individual models. For soil thickness types, the proposed feature-ensemble learning algorithm achieved higher robustness than other considered models by reducing the variance of prediction.
Digital soil mapping; Machine learning, Ensemble learning; Sichuan Province
S158.3
A
10.13758/j.cnki.tr.2023.04.024
陳玉藍(lán), 梁太波, 張艷玲, 等. 基于特征集成學(xué)習(xí)的四川省土壤厚度預(yù)測. 土壤, 2023, 55(4): 894–902.
中國煙草總公司四川省公司科技項目(SCYC202103)、中國煙草總公司重點研發(fā)項目(110202102038)和南京工業(yè)職業(yè)技術(shù)大學(xué)引進(jìn)人才科研啟動基金項目資助。
(zj_zijin@163.com)
陳玉藍(lán)(1990—),女,四川宜賓人,博士研究生,主要研究領(lǐng)域為土壤肥料。E-mail: 369507968@qq.com