吳家林,彭 杰*,白建鐸,王佳文,紀文君,王 楠
(1.塔里木大學 植物科學學院,新疆 阿拉爾 843300;2.中國農業(yè)大學 土地科學與技術學院, 北京 100083;3.浙江大學 環(huán)境與資源學院,杭州 310058)
【研究意義】土壤鹽漬化是現今世界干旱地區(qū)的主要農業(yè)問題[1-3]。新疆地處西北干旱地區(qū),2018年棉花種植面積已經占全國棉花種植面積的4/5,同時作為我國最大的鹽土區(qū),其鹽漬土面積達1 100 萬hm2[4-5]。南疆作為棉花的主產區(qū),棉花產業(yè)長期受高蒸降比和灌溉排水不暢導致的土壤鹽漬化以及次生鹽漬化危害,土壤鹽漬化已成為新疆棉花產量和品質提升及持續(xù)發(fā)展的重大限制條件和障礙因素。表層土壤鹽漬化信息由于時空變異性強烈,不利于土壤鹽漬化程度的客觀診斷,從而很難為土壤鹽漬化改良和精準灌溉提供可靠的支撐依據,而土壤剖面鹽分信息相對于表層土壤鹽分信息來講,其時空變異性相對較弱,信息相對較穩(wěn)定。掌握棉田土壤鹽分空間變異性,前提是大面積、準確、及時地掌握棉田鹽漬化土壤剖面的鹽分空間分布特征信息。傳統(tǒng)的土壤剖面鹽漬化調查方法為野外定點采樣結合室內分析測定,多以挖剖面、土鉆鉆孔等侵入式為主,且相關研究多局限于田間小尺度。在費時耗力和代表性差的雙重影響下,難以滿足目前針對區(qū)域尺度的農田土壤鹽漬化管理所急需的大面積土壤剖面鹽分信息獲取的需求[6-9]。
【研究進展】電磁感應技術可非接觸直接獲取土壤剖面表觀電導率信息,具有快速、代表性強和精度高等優(yōu)點,適用于大面積土壤鹽漬化的監(jiān)測,已被廣泛應用于土壤鹽漬化的調查與研究中[10-12]。近年來,大地電導率儀在土壤屬性(土壤鹽分、有機質、土壤含水率、陽離子交換量等)監(jiān)測方面發(fā)揮著重要作用[13-18]。楊勁松等[19]以黃河三角洲海涂區(qū)為研究對象,基于電磁感應數據并結合GIS 與地統(tǒng)計學確定了最佳的空間插值方式,分析了不同植被類型下土壤鹽漬剖面分布特征。吳亞坤等[20]利用線性建模方法構建了不同季節(jié)及不同土層土壤含鹽量的解譯模型,從三維角度評估了不同季節(jié)土壤鹽分變異特征。國內外學者同時期也進行了相關研究[21-27]。【切入點】以往基于電磁感應數據所建立的土壤鹽分解譯模型研究區(qū)域多以田間尺度為主,建模方法主要以線性模型居多。而不同條田的土壤鹽分、土壤水分、陽離子交換量、土壤有機質以及土壤質地等均具有較大差異,造成模型參數難以統(tǒng)一。因此,基于田間尺度建立的電磁感應線性解譯模型能否外延至區(qū)域尺度,有待于進一步研究。此外,將非線性建模方法應用于區(qū)域尺度構建基于表觀電導率的土壤電導率反演模型的報道甚少。在區(qū)域尺度上,探明表觀電導率與土壤電導率之間是否滿足線性關系,不同線性建模方法能否適用于區(qū)域尺度的土壤電導率反演模型研究,以及非線性建模方法相較于線性建模方法在區(qū)域尺度上是否有更好的應用前景,是電磁感應技術應用于大面積農田土壤剖面鹽分信息獲取所需解決的關鍵問題?!緮M解決的關鍵問題】利用新疆南疆阿拉爾墾區(qū)內30 個不同地點的棉田剖面表觀電導率與土壤電導率數據,通過區(qū)域尺度模型與田間尺度模型的模型精度對比,不同線性模型和不同非線性模型在區(qū)域尺度下的模型精度對比,提出構建棉田土壤電導率反演模型的思路和方法,研究結果為EM38-MK2 在區(qū)域尺度棉田土壤鹽漬化監(jiān)測中提供理論參考,為發(fā)展精準農業(yè)提供新思路。
研究區(qū)為新疆南部阿拉爾墾區(qū)(圖1),地理位置介于(80°30′—81°58′E,40°22′—40°57′N),全墾區(qū)東西相距281 km,南北相距180 km。平均海拔高度1 011 m,北部為沖積扇平原,南部為塔克拉瑪干沙漠,地勢北高南低,屬典型暖溫帶極端大陸性干旱荒漠氣候。且水土資源豐富,年均氣溫10.7 ℃,年日照2 556.3~2 991.8 h,無霜期220 d,年均蒸發(fā)量為1 988 mm,年均降水量50 mm,蒸降比約為40 倍。土壤質地類型主要為壤土、沙壤土以及沙土。土壤鹽分主要由硫酸鹽、亞硫酸鹽和氯化鹽構成。地下水礦化度0.6~6 g/L,地下水埋深1~3 m[28],土壤pH 值在7.26~9.23 之間變化。主要種植作物包括棉花、紅棗、蘋果和水稻等,其中棉花種植面積最大,約1.55×105hm2,土壤樣品采集與表觀電導率數據采集均在棉田中。受地形、強蒸發(fā)、降雨稀少以及高蒸降比、土地開墾、灌溉排鹽系統(tǒng)不配套的影響,墾區(qū)內土壤鹽漬化現象明顯且鹽漬化土壤分布廣泛,致使農作物受到不同程度的鹽漬化危害。
EM38-MK2 測量點和土樣采集點如圖2 所示,本研究使用加拿大GEONICS 公司生產的新式大地電導率儀EM38-MK2 采集土壤表觀電導率數據(ECa,mS/m),采用美國犀牛鉆機公司生產的Rhino S1 土壤采集系統(tǒng)采集土壤剖面樣品。EM38-MK2 工作時提供2 種測定模式EMH 和EMV,每種模式可測定2 個不同深度土壤剖面的表觀電導率,EMH 模式下的測定深度為0~0.375、0~0.750 m,表觀電導率數據分別記錄為EMH0.375和EMH0.75,EMV 模式下的測定深度為0~0.750 和0~1.500 m,表觀電導率數據分別記錄為EMV0.75和EMV1.5。
Rhino S1 土壤采集系統(tǒng)取樣管長度為1 m,內置中空PVC 取芯管,取芯管直徑36 mm,可完整保存土壤樣品的原狀性。田間作業(yè)時,單管取樣時間約30~60 s。完成后取出取芯管獲得深度為1 m 的完整土壤剖面樣品,用密封橡皮塞分別將取芯管底部和上部密封(底紅頂黑)以防止水分蒸發(fā)和鹽分流失。
綜合考慮墾區(qū)面積大小、土壤鹽漬化程度、棉花種植集中度、交通道路狀況等因素,在阿拉爾墾區(qū)內棉花種植區(qū)域選取30 個棉田布設樣方,采集土壤表觀電導率數據和土壤剖面樣品。采樣時間為2019年3月中下旬,如圖1 所示,在研究區(qū)中選取30 個不同鹽漬化程度棉田(面積均大于10 hm2),棉田內布設大小為100 m×100 m 的樣方。
圖1 研究區(qū)地理位置與調查樣方分布 Fig.1 The geographical location of the study area and the distribution of survey samples
圖2 EM38-MK2 測量點和土樣采集點分布 Fig.2 Distribution of EM38-MK2 measuring points and soil sample collection points
如圖2 所示,采集表觀電導率數據時,為了解樣方內表觀電導率數據的閾值范圍,便于采樣點位的選取,采集6 條平行棉花種植方向和6 條垂直棉花種植方向的EMH 和EMV 模式下連續(xù)線狀表觀電導率數據,形狀為網格狀,數據間距約3 m。根據連續(xù)線狀表觀電導率數據采集時觀測的閾值范圍,樣方內遵循代表性原則在連續(xù)線狀表觀電導率數據行走路線上采集18 個特征樣點表觀電導率數據,每個樣點EMH 和EMV 模式各測定3 次,獲取的表觀電導率數據取平均值。并在18 個表觀電導率數據測定位上使用Rhino S1 土壤采集系統(tǒng)采集18 管深度為0~1 m 的土壤剖面樣本數據,30 個樣方共采集540 組特征樣點的表觀電導率數據,每組包含4 種表觀電導率數據,共計2 160 個樣點表觀電導率數據。采集540管土壤樣品數據,用手持GPS 記錄每個采樣點的緯度和經度(誤差精度小于8 m),每管土壤樣品實驗室處理為3 個深度(0~0.375、0~0.750、0~1.000 m),共計1 620 個土壤樣品。在去除石子、植物根和地膜等殘留物后將土壤樣本置于牛皮紙上自然風干,取風干土樣研磨過2 mm 篩備用,每個深度樣本數據保留300 g 土壤,按土水比為(1∶1)比例制備濾液,測定其土壤電導率,用于構建電導率與表觀電導率之間的反演模型。
本研究以Rhino S1 土壤采集系統(tǒng)采集、處理、測定的540 組土壤電導率和對應EM38-MK2 測定的540 組土壤表觀電導率數據為樣本總體,以3 個不同深度土壤剖面(0~0.375、0~0.750、0~1.000 m)電導率為因變量,4 種測定位下的土壤表觀電導率(EMH0.375、EMH0.75、EMV0.75、EMV1.5)為自變量,建立研究區(qū)棉田不同深度土壤剖面(0~0.375、0~0.750、0~1.000 m))電導率的反演模型。
建模方法為多元線性回歸(MLR)、主成分回歸(PCR)、偏最小二乘回歸(PLSR)、支持向量機(SVM)、隨機森林(RF)、神經網絡(NN)6 種。其中,RF 是一種構建神經網絡,利用多棵決策樹對樣本數據進行訓練、分類和預測的機器學習方法,各決策樹單元間相互無關聯(lián)且隨機排列,有效降低了單一分類器的分析誤差,其計算量大,但提升了分類準確度和模型預測精度,適用于大規(guī)模數據的高效處理[29]。NN 是基于大量樣本經過反復訓練的學習過程,能被賦予完成某項任務的具體功能,在擁有傳統(tǒng)數學模型中能處理海量多維數據的優(yōu)點的同時,還具有高度自由的非線性、泛化性等優(yōu)良特性[30]。建模思路為區(qū)域尺度模型與田間尺度模型2 種,區(qū)域尺度模型是將30 個樣方的表觀電導率數據和土壤電導率數據匯總,建立統(tǒng)一的反演模型,田間尺度模型針對單一樣方的表觀電導率數據和土壤電導率數據建立單獨的反演模型。
模型預測精度和穩(wěn)定性的評價指標為決定系數(R2)、均方根誤差(RMSE)、平均絕對百分比誤差(MAPE)、相對分析誤差(RPD)。R2反映觀測值與預測值間的相關性強度;RMSE檢驗模型的預測能力;MAPE檢驗模型的精度。相對于RPD而言,預測精度分為5 個等級,當RPD<1.5 時表明模型無法進行預測,當1.5<RPD<2 時表明模型可進行粗略估計,當2≤RPD<2.5 時表明模型有較好的預測能力,當2.5≤RPD<3.0時模型具有很好的預測能力,當RPD≥3.0時模型具有極好的預測能力[4]。R2和RPD大、RMSE和MAPE 小的模型,其預測能力好,穩(wěn)定性高。
土壤剖面電導率統(tǒng)計特征見表1。由表1 可知,不同深度土壤剖面的電導率介于0.120~11.015 dS/m之間,變幅較大,最小值分布于0~0.375 m 土壤剖面中,最大值分布于0~0.750 m 土壤剖面中,其中,0~0.375 m 土壤剖面電導率范圍為0.120~8.963 dS/m,0~0.750 m 土壤剖面的為0.185~11.015 dS/m,0~1.000 m 土壤剖面的為0.354~10.650 dS/m。不同深度土壤剖面的電導率平均值在2.080~3.769 dS/m,0~0.375 m 的電導率最低,0~0.750 m 的次之,0~1.000 m 的最高,具有隨土壤剖面深度增加而增加的趨勢,這是棉花冬季灌水將表層土壤鹽分淋溶到深層土壤中的結果。從變異系數來看,各層土壤電導率的變異系數差異明顯,0~0.375、0~0.750、0~1.500 m 土壤剖面變異系數分別為65.10%、57.00%、53.90%。通常情況下,變異系數小于10%為弱變異,變異系數10%~100%為中等變異,變異系數大于100%為強變異[31],不同土壤深度下土壤電導率均呈中等變異強度。
表1 剖面土壤電導率的統(tǒng)計特征值 Table 1 Statistical characteristic value of profile soil conductivity
為驗證線性建模方法在田間尺度模型中的可靠性,選用MLR、PLSR 和PCR 等線性建模方法建立田間尺度模型。以每個棉田樣方采集的18 個土壤樣本為總體,采用分層抽樣的方法按2∶1 比例分為建模集與預測集,其中建模集12 組樣本,預測集6 組樣本,將30 個棉田總體樣本數累加。
不同線性模型反演精度見表2。由表2 可知,在建模集中,3 種線性建模方法的不同深度土壤剖面模型精度差異較小,0~0.375 m 土壤深度MLR 模型精度低于PLSR 和PCR,R2為0.88,RMSE、MAPE分別為0.50 dS/m 和0.21,0~0.750 m 和0~1.000 m 土壤深度下,PLSR 和PCR 基本保持一致,0~0.750 m 的PLSR 模型精度最高,R2為0.95,RMSE、MAPE分別為0.41 dS/m 和0.12。在驗證集中,3 種不同深度土壤剖面電導率反演模型的各指標相較于建模集模型精度均有一定程度下降,但不同建模方法R2在0.83以上,表明模型穩(wěn)定不同模型預測集中RPD最高值為2.78,最低值為2.35,可見模型具有較好或很好的預測能力。不同深度土壤剖面電導率模型反演效果優(yōu)劣排序依次為PLSR>PCR>MLR。在田間尺度模型中表觀電導率與土壤電導率滿足線性關系,所選用的3 種線性建模方法在區(qū)域尺度棉田中適用性較好。
表2 不同線性建模方法的田間尺度模型精度 Table 2 Field scale model accuracy of different linear modeling methods
選取MLR、PLSR 和PCR3 種建模方法對土壤電導率進行預測并進行模型精度檢驗,將田間尺度模型的建模集與預測集分別匯總后得到區(qū)域尺度模型的建模集與預測集,其中建模集360 組土壤樣本數據,預測集180 組土壤樣本數據。表觀電導率數據為自變量,土壤電導率為因變量,構建基于線性建模方法的區(qū)域尺度模型。
表3 不同線性建模方法的區(qū)域尺度模型精度 Table 3 Regional scale model accuracy of different linear modeling methods
不同線性建模方法的區(qū)域尺度模型精度評價結果如表3 所示,在建模集中,3 種建模方法的模型精度差異不明顯,0~0.375 m 土壤深度PLSR 模型精度略優(yōu)于MLR 和PCR,R2為0.35,RMSE、MAPE分別為1.08 dS/m 和0.57,0~0.750 m 和0~1.000 m 土壤深度下,PLSR 和PCR 模型精度基本保持一致,且均低于MLR,在0~0.750 m 的MLR 模型精度最高,R2為0.53,RMSE、MAPE分別為1.26 dS/m 和0.41。在驗證集中,3 種模型的各指標相較于建模集均沒有明顯下降,表明模型比較穩(wěn)定,MLR 模型的各項指標略優(yōu)于PLSR 和PCR。MLR、PLSR 和PCR 建模方法的RPD均<1.5,說明3 種線性模型不具備對全區(qū)樣本數據進行預測的能力。由于土壤中大多數溶解鹽類均以離子狀態(tài)存在,EM38-MK2 測定的表觀電導率數據反映的是土壤空間范圍內游離態(tài)電解質量,同一棉田樣方中土壤質地和土壤含水率等影響表觀電導率數據的因素變化基本穩(wěn)定,田間尺度模型對樣本有較好或很好的預測能力。區(qū)域尺度模型考慮到不同棉田樣方的地域跨度較大,土壤質地、地下水位和土壤含水率等因素變化強烈,降低了區(qū)域尺度模型的精度,導致區(qū)域尺度模型的預測能力大幅下降。
選用RF、NN 和SVM3 種非線性建模方法構建基于表觀電導率數據的土壤剖面電導率反演模型。結果如表4 所示,相較于MLR、PLSR 和PCR 線性建模方法,RF、NN 和PCR 區(qū)域尺度模型精度均有明顯提高。在建模集中,3 種建模方法的精度差異較大,0~0.750 m深度RF 模型精度最高,R2為0.85,RMSE和MAPE分別為0.78 dS/m 和0.27,0~0.375 m 深度剖面的R2、RMSE和MAPE分別為0.80、0.61 dS/m 和0.33,為RF 模型中最低值。0~1.000 m 剖面的模型精度介于二者之間,略低于0~0.750 m 深度下模型精度。NN 和SVM 模型精度有不同程度的降低,但不同深度的模型精度變化趨勢與RF 保持一致,具有隨土壤剖面電導率增加而升高的趨勢。綜上所述,建模集中,RF 模型性能明顯優(yōu)于NN 和SVM 模型,反演效果優(yōu)劣排序依次為RF 模型>NN 模型>SVM 模型。在驗證集中,不同深度的RF 模型精度相較于建模集均沒有明顯差異,且RPD指標均>2.0,說明模型比較穩(wěn)定,能在區(qū)域尺度下較好地對樣本數據進行預測。NN 模型的R2高于SVM,RMSE和MAPE低于SVM。不同深度下NN 和SVM 的RPD指標均介于1.5~2.0 之間,R2指標介于0.54~0.72 之間,說明NN 和SVM 兩模型均只能對樣本數據進行粗略估計。綜合考察各模型建模集與預測集的評價指標,3 種模型的預測性能和穩(wěn)定性從高到低排序依次為RF 模型>NN 模型>SVM 模型,表明非線性建模方法可有效改善基于土壤剖面電導率的區(qū)域尺度模型的預測精度。
表4 不同非線性建模方法的區(qū)域尺度模型精度對比 Table 4 Comparison of regional scale model accuracy of different nonlinear modeling methods
圖3 RF 模型不同樣本數據量下的精度指標Fig.3 RF model accuracy index under different sample data sizes
區(qū)域尺度模型中應用效果最優(yōu)的為RF 模型,為探究其能否在縮小數據量的條件下獲得同樣的模型精度,以期達到減少樣本數據獲取量,減少人力、物力以及時間成本的投入,對模型可靠性進行驗證的目的,隨機抽取總樣本數量分別設置540、360、240、160 共4 個樣本數據量梯度,總樣本數據量為160 時,無法按照2∶1 的比例進行建模和預測,調整建模集數據量為107,預測集數據量為53。結果如圖3 所示,從0~0.375 m 深度來看,540、360 和240樣本數據量梯度下模型精度差異不大,R2均為0.80,RMSE在0.60~0.62 dS/m 波動,MAPE在0.33~0.35 之間,2.0<RPD<2.5,不同樣本數據量下模型均有較好的預測能力。當樣本數據量為160 時,R2從0.80 降低至0.77,RMSE和MAPE數值上升,1.50<RPD<2.0,說明模型對樣本數據具有粗略估計的能力。
0~0.750 m 深度下,4 種不同數據量的RF 模型R2穩(wěn)定,RMSE在0.78~0.85 dS/m 波動,MAPE在0.26~0.28,RPD保持在2.35~2.47 之間,表明樣本數據量減少模型仍具有較好的預測能力。在0~1.000 m深度下,隨樣本數據量的減少R2由0.84 降低至0.81,RMSE和MAPE呈上升趨勢,RPD由2.34降低為1.94,模型預測能力由較好預測等級降低至粗略估計等級。總體分析,樣本數據量540、360、240 共3 個梯度時,RF 模型保留了原有對樣本數據的預測能力。在樣本數據量為160 時,模型精度有所下降,但能對樣本數據進行粗略估計。4 個不同樣本數據梯度中,RMSE、MAPE和RPD等精度評價指標出現隨樣本數據量的減少反而略微升高的現象,造成該現象的原因可能是在縮減樣本數據時剔除了異常樣本數據。
本研究表明,采用線性建模方法時,區(qū)域尺度模型反演精度明顯低于田間尺度模型,二者具有明顯差異性,不同線性建模方法無法有效提高區(qū)域尺度模型的反演精度,且各線性模型的預測能力均較低。采用非線性建模方法時,區(qū)域尺度模型的模型反演精度顯著提高,最佳模型預測能力提升至對樣本數據有較好的預測能力。根據田間實地采樣考察,實驗室分析和EM38-MK2 工作原理,其原因可能有以下幾點:①土壤含水率不同,表觀電導率受土壤含水率影響[4,32],研究區(qū)棉田冬季和春季灌溉用水主要引于塔里木河和阿克蘇河,灌溉順序大致為由西向東,部分地區(qū)由于灌溉配套系統(tǒng)不完善和灌水量不足,不進行冬季和春季灌水或少灌,導致各棉田土壤含水率不同,造成了區(qū)域尺度模型和田間尺度模型的精度差異。②土壤質地類型不同,在土壤溫度、土壤含水率相對一致的前提下,質地越輕,表觀電導率讀數越小。而全墾區(qū)內各棉田地域跨度較大,棉田土壤質地類型主要有壤土、沙壤土和沙土3 種,不同土壤質地類型對線性建模方法在區(qū)域尺度下模型的精度造成了影響。③土壤有機質不同,土壤中固體土粒由礦物質和有機質組成,而形成有機質腐殖質具有帶電性,其在土壤中量的多少可引起大地電導率儀磁場的變化。在土壤質地和含水率相對一致的前提下,土壤有機質量的多少會造成表觀電導率測定值的高低,二者正相關。不同棉田由于本身肥力和施用有機肥量各不相同,造成了線性模型無法對區(qū)域尺度的土壤電導率進行反演[33]。④建模方法不同,非線性建模方法相較于線性建模方法具有各決策樹單元互無關聯(lián)且隨機排列,能有效降低區(qū)域尺度模型的分析誤差,提高了模型的精度。綜上,在同一棉田中,土壤含水率、土壤質地類型和土壤有機質相對保持一致,模型參數穩(wěn)定,表觀電導率和土壤電導率二者保持線性關系,線性建模方法在田間尺度高度適用,而不同棉田中,土壤含水率、土壤質地類型和土壤有機質量各不相同,導致土壤電導率反演模型參數不同,從而造成了在區(qū)域尺度下線性建模方法無法對樣本進行預測,而非線性建模方法由于其本身具備的高度非線性可有效提高區(qū)域尺度土壤電導率反演模型精度。
如何有效篩選出能進一步提高區(qū)域尺度模型反演精度的建模方法,對利用EM38-MK2 獲取區(qū)域尺度農田土壤鹽漬化信息有重要意義。面對區(qū)域尺度更大,種植作物類型更復雜的土壤鹽漬化信息獲取的研究,還有待于進一步探索。
適用于田間尺度模型的MLR、PLSR 和PCR 線性建模方法無法對區(qū)域尺度模型的樣本數據進行預測。在田間尺度模型中不同線性建模方法R2在0.88~0.95 之間,在區(qū)域尺度模型中不同線性建模方法R2降低至0.34~0.53 之間,無法對樣本數據進行有效預測。將RF、NN 和SVM 等非線性建模方法應用于區(qū)域尺度模型中,相較于線性建模方法,區(qū)域尺度模型的模型精度明顯提高,不同非線性建模方法的R2在0.60~0.85 之間,其中,NN 和SVM 建模方法只能對樣本數據進行粗略估計,模型精度最高、預測能力最好的RF 模型在不同深度下均保持了對樣本數據較好的預測能力。通過縮減RF 區(qū)域尺度模型的樣本數量,驗證了RF 區(qū)域尺度模型可大幅降低采集土壤剖面的樣本數量,從而提高采樣效率和降低采樣成本。