GPR、XGBoost和CatBoost模擬江西地區(qū)參考作物蒸散量的適應(yīng)性研究

2021-01-27 01:02:16劉小強(qiáng)代智光吳立峰張富倉(cāng)董建華陳志月

灌溉排水學(xué)報(bào) 2021年1期

劉小強(qiáng)，代智光，吳立峰，張富倉(cāng)，董建華，陳志月

劉小強(qiáng)1, 2，代智光1，吳立峰1*，張富倉(cāng)2，董建華3，陳志月4

（1.南昌工程學(xué)院水利與生態(tài)工程學(xué)院，南昌 330099；2.西北農(nóng)林科技大學(xué) 旱區(qū)農(nóng)業(yè)水土工程教育部重點(diǎn)實(shí)驗(yàn)室，陜西楊凌 712100；3.昆明理工大學(xué) 農(nóng)業(yè)與食品學(xué)院，昆明 650500；4.河海大學(xué) 水文水資源學(xué)院，南京 210098）

【】提高機(jī)器學(xué)習(xí)模型模擬參考作物蒸散量在江西省適應(yīng)性和精度?；诮髂喜?5個(gè)氣象站2001—2015年日值氣象數(shù)據(jù)（最高氣溫、最低氣溫、地表輻射、大氣頂層輻射、相對(duì)濕度和2 m高風(fēng)速），以FAO-56 Penman-Monteith（P-M）公式的計(jì)算結(jié)果作為對(duì)照，建立了計(jì)算0的高斯過(guò)程回歸（GPR）、極限梯度提升（XGBoost）和梯度提升決策樹(shù)（CatBoost）模型，并分別與經(jīng)驗(yàn)?zāi)Ｐ瓦M(jìn)行比較。各氣象參數(shù)對(duì)機(jī)器學(xué)習(xí)模型模擬0的精度影響由大到小依次為：s、max和min、、2，且采用max、min、s和氣象參數(shù)組合的機(jī)器學(xué)習(xí)模型（0.2 mm/d）模擬0精度高。此外，3種機(jī)器學(xué)習(xí)模型在有限的氣象數(shù)據(jù)時(shí)具有較好的適用性，且優(yōu)于傳統(tǒng)經(jīng)驗(yàn)?zāi)Ｐ停渲蠫PR和CatBoost模型的預(yù)測(cè)精度高，但GPR模型穩(wěn)定性最好?？紤]到所研究模型調(diào)參的復(fù)雜性、預(yù)測(cè)精度和穩(wěn)定性，GPR模型可作為江西地區(qū)參考作物蒸散量模擬的推薦方法。

參考作物蒸散量；高斯過(guò)程回歸；極限提升增強(qiáng)；梯度提升決策樹(shù)；經(jīng)驗(yàn)?zāi)Ｐ?/p>

0 引言

【研究意義】作物需水量是農(nóng)田土壤水分循環(huán)的關(guān)鍵因子，對(duì)水資源優(yōu)化配置和灌溉制度的制定有重要意義，而計(jì)算作物需水量的關(guān)鍵是確定參考作物蒸散量（0）[1]?！狙芯窟M(jìn)展】國(guó)內(nèi)外通常將FAO-56 Penman-Monteith（P-M）作為估算0的標(biāo)準(zhǔn)方法[2]，而P-M法需要的氣象數(shù)據(jù)完整性高，多數(shù)氣象觀測(cè)數(shù)據(jù)無(wú)法達(dá)到該方法要求，使得P-M法的應(yīng)用受到一定程度的限制，于是利用有限氣象數(shù)據(jù)的經(jīng)驗(yàn)法就得到了廣泛應(yīng)用，如基于輻射的Irmak法[3]和Makkink法[4]等。張倩等[5]比較了基于輻射和溫度等9種方法在新鄉(xiāng)的適用性，發(fā)現(xiàn)輻射法中Irmak模型的精度高于溫度法。胡興波等[6]在青海高寒地區(qū)發(fā)現(xiàn)Makkink法可直接用于計(jì)算極端干旱區(qū)以外的0。

近年來(lái)，神經(jīng)網(wǎng)絡(luò)方法[7]、支持向量機(jī)[8]、基因表達(dá)式編程[9]和隨機(jī)森林[10]以及各種優(yōu)化模型（蝙蝠算法優(yōu)化極限學(xué)習(xí)機(jī)[11]和極限學(xué)習(xí)機(jī)優(yōu)化遺傳算法[12]等）由于輸入?yún)?shù)組合靈活以及精度優(yōu)于經(jīng)驗(yàn)?zāi)Ｐ投玫綇V泛研究，并且在某些特定區(qū)域具有更高的精度[9-10]?！厩腥朦c(diǎn)】江西地處我國(guó)華東地區(qū)，水熱資源豐富，但由于經(jīng)常旱澇急轉(zhuǎn)嚴(yán)重制約了作物的高產(chǎn)穩(wěn)產(chǎn)。此外，江西不同區(qū)域氣候差異較大，但具有長(zhǎng)系列氣象觀測(cè)資料的氣象站點(diǎn)卻匱乏，無(wú)法滿足農(nóng)業(yè)生產(chǎn)對(duì)氣象資料的需要。因此，確定適宜的0計(jì)算方法極其重要。而大多數(shù)學(xué)者運(yùn)用機(jī)器學(xué)習(xí)模擬0時(shí)，以模型預(yù)測(cè)精度為研究對(duì)象較多[7-9]，而綜合考慮其精度和穩(wěn)定性[13]的比較研究在江西地區(qū)還缺乏報(bào)道。

【擬解決的關(guān)鍵問(wèn)題】為此，以FAO-56 P-M計(jì)算的0結(jié)果為對(duì)照，建立基于有限的氣象數(shù)據(jù)的3種機(jī)器學(xué)習(xí)模型（GPR、XGBoost和CatBoost），分析不同氣象要素對(duì)江西地區(qū)0預(yù)測(cè)精度的影響和穩(wěn)定性；并將機(jī)器學(xué)習(xí)模型與Irmak和Makkink模型進(jìn)行比較，評(píng)估機(jī)器學(xué)習(xí)模型的精度和穩(wěn)定性，以便篩選出氣象數(shù)據(jù)不足條件下江西地區(qū)最適宜的0估算替代方法，以期為江西地區(qū)灌溉制度制定和水資源優(yōu)化配置提供科學(xué)指導(dǎo)。

1 材料與方法

1.1 試驗(yàn)區(qū)概況

江西?。?4°29′—30°04′N，113°34′—118°28′E）位于長(zhǎng)江中下游地區(qū)，屬中亞熱帶濕潤(rùn)季風(fēng)氣候，全省多年年均氣溫為16.3~19.5 ℃，且一般自北向南遞增。省內(nèi)降水豐沛，主要集中在4—9月，多年平均降水量1 341~1 940 mm。降水的季節(jié)性變化大，汛期河水暴漲，易泛濫成災(zāi)。

1.2 數(shù)據(jù)收集與處理

選取江西省修水、宜春、吉安、遂川、贛縣、廬山、鄱陽(yáng)、景德鎮(zhèn)、南昌、樟樹(shù)、貴溪、玉山、南城、廣昌、尋烏15個(gè)氣象站2001—2015年的地面觀測(cè)數(shù)據(jù)中的日值數(shù)據(jù)集（包括最高氣溫（max）、最低氣溫（min）、相對(duì)濕度（）、2 m高風(fēng)速（2）、大氣頂層輻射（a）、地表輻射（s））。其中2001—2010年用于訓(xùn)練，2011—2015年用于驗(yàn)證。

1.3 研究方法

1.3.1 FAO-56 Penman-Monteith模型

FAO-56 Penman-Monteith（P-M）公式被聯(lián)合國(guó)糧農(nóng)組織推薦為最適宜估算參考作物蒸散量的方法[2]，其具體表達(dá)式為：

式中：0為參考作物蒸散量；n為地表凈輻射；為土壤熱通量密度；為2 m高處的平均氣溫；2為2 m高處的風(fēng)速；s和a分別為飽和水汽壓和實(shí)際水汽壓；為蒸汽壓曲線的斜率；為溫度計(jì)常數(shù)。

1.3.2 高斯過(guò)程回歸模型

給定訓(xùn)練集={(x,y)|=1,2,…}，其中為維輸入向量，為輸出的標(biāo)量，為訓(xùn)練樣本數(shù)，輸入矩陣為×列的向量，為目標(biāo)輸出，因此記為=(,)。高斯過(guò)程回歸模型（GPR）是給定輸入向量時(shí)確定目標(biāo)輸出的聯(lián)合高斯分布，由均值函數(shù)()和協(xié)方差函數(shù)(,＇)[14]給出：

1.3.3 極端梯度提升模型

極端梯度提升（XGBoost）是由Chen和Guestrin[15]于2016年提出的一個(gè)梯度增強(qiáng)機(jī)（GBMs）的新型算法。XGBoost模型旨在防止過(guò)度擬合，同時(shí)通過(guò)簡(jiǎn)化和正則化使預(yù)測(cè)保持最佳計(jì)算效率而降低計(jì)算成本。XGBoost算法源于“提升”的概念，它結(jié)合了一組弱學(xué)習(xí)者的所有預(yù)測(cè)，通過(guò)特殊訓(xùn)練培養(yǎng)強(qiáng)學(xué)習(xí)者。其計(jì)算式為：

，（3）

式中：f(x)為步驟的學(xué)習(xí)者；f(t)和f1是步驟為和1；x是輸入變量。

1.3.4 梯度提升決策樹(shù)模型

梯度提升決策樹(shù)（CatBoost）是一種新的梯度提升決策樹(shù)（GBDT）算法[16]。它成功地處理了分類特征，并利用訓(xùn)練過(guò)程中對(duì)分類特征處理，而不是預(yù)處理。該算法的另一個(gè)優(yōu)點(diǎn)是它在選擇樹(shù)結(jié)構(gòu)時(shí)用新模式計(jì)算葉值，這有助于減少過(guò)度擬合并允許使用整個(gè)訓(xùn)練數(shù)據(jù)集，即對(duì)每個(gè)示例數(shù)據(jù)集進(jìn)行隨機(jī)排列并計(jì)算該示例的平均值。該方法對(duì)于回歸任務(wù)，需要將獲取的數(shù)據(jù)平均值用于先驗(yàn)計(jì)算。

式中：為先驗(yàn)值；參數(shù)是先驗(yàn)值的權(quán)重。

1.4 統(tǒng)計(jì)指標(biāo)

本研究使用了3個(gè)常用的統(tǒng)計(jì)指標(biāo)，分別為平均絕對(duì)誤差（）、均方根誤差（）和決定系數(shù)（2）。

2 結(jié)果與分析

2.1 3種機(jī)器學(xué)習(xí)模型精度的比較

表1為3種機(jī)器學(xué)習(xí)模型不同輸入組合下的預(yù)測(cè)0的性能評(píng)估結(jié)果。由表1可知，對(duì)于訓(xùn)練期，組合1~9的模型精度表現(xiàn)為XGBoost>CatBoost>GPR，而組合10表現(xiàn)為CatBoost>XGBoost>GPR。在驗(yàn)證期，由于多數(shù)組合的和的誤差都在2.7%以內(nèi)，故CatBoost和GPR模型具有相似的精度，整體上CatBoost和GPR模型預(yù)測(cè)0的精度比XGBoost模型高。

合理的輸入?yún)?shù)組合對(duì)模型模擬的精度有顯著提高，如采用max、min、s、，max、min、s、2和max、min、s作為輸入?yún)?shù)的模型比采用max、min、a、，max、min、a、2和max、min、a模型模擬的效果好，這表明s比a對(duì)模型模擬效果影響大。另外，模型9和模型10的性能優(yōu)于模型8，表明、2對(duì)模型模擬的精度有一定的影響。余下組合則展示s對(duì)于預(yù)測(cè)0的影響最大，max/min次之，2最小。在驗(yàn)證期，模型CatBoost10的和的值是最低的，2最高（2=0.998，=0.073 mm/d，=0.050 mm/d），與上述情況一致。因此考慮到組合8僅有溫度和地表輻射資料就可獲得較高的模擬精度，推薦模型8作為該地區(qū)0適宜模型。

表1 GPR、XGBoost和CatBoost模型的平均統(tǒng)計(jì)指標(biāo)

本研究通過(guò)分析2的大小比較3種機(jī)器學(xué)習(xí)模型的差異（表1），可得，GPR模型中有5個(gè)組合預(yù)測(cè)0的2最高，其中組合max、min、R、U的最高2為0.987；XGBoost模型有3個(gè)組合預(yù)測(cè)0的2最高，這些組合包含s、、2，而最高2為0.943；CatBoost模型含有風(fēng)速時(shí)預(yù)測(cè)0的2最高，其2為0.998。此外，有5個(gè)組合預(yù)測(cè)0的2排在第2位?？傮w上看，在驗(yàn)證期中，XGBoost模型2排序最大，排第3位，CatBoost模型排第2位，而GPR模型2的排序最小，排第1位。

2.2 3種機(jī)器學(xué)習(xí)模型的穩(wěn)定性比較

由表1加粗字體可知，在訓(xùn)練期，總體上XGBoost模型優(yōu)于GPR和CatBoost模型，然而驗(yàn)證期，GPR模型卻優(yōu)于CatBoost和XGBoost模型。通過(guò)分析機(jī)器學(xué)習(xí)模型驗(yàn)證期相對(duì)訓(xùn)練期的平均及其百分比（表2）可知：對(duì)于3種機(jī)器學(xué)習(xí)模型，XGBoost模型驗(yàn)證期平均的百分比在各個(gè)組合均最大，其最大百分比是193.4%；而GPR模型其百分比增長(zhǎng)幅度最小，都在8%以內(nèi)；對(duì)于CatBoost模型，在前5個(gè)組合中，其百分比在10%以內(nèi)，而后5個(gè)組合中其介于20%~41%之間，說(shuō)明GPR模型模擬時(shí)穩(wěn)定性最好，其次是CatBoost模型，而XGBoost模型最差。

表2 機(jī)器學(xué)習(xí)模型驗(yàn)證期相對(duì)訓(xùn)練期的平均及其百分比

Table 2 The average RMSE and percentage of machine learning models during the texting period relative to the training period

表3 經(jīng)驗(yàn)?zāi)Ｐ秃蜋C(jī)器學(xué)習(xí)模型的平均統(tǒng)計(jì)指標(biāo)

2.3 3種機(jī)器學(xué)習(xí)模型與經(jīng)驗(yàn)?zāi)Ｐ偷谋容^

本研究分析了經(jīng)驗(yàn)?zāi)Ｐ团c相同輸入?yún)?shù)的機(jī)器學(xué)習(xí)模型預(yù)測(cè)0的平均統(tǒng)計(jì)指標(biāo)（表3），可得機(jī)器學(xué)習(xí)模型的精度都高于經(jīng)驗(yàn)?zāi)Ｐ?。在max、min和s的輸入組合下，Irmak模型預(yù)測(cè)精度最低（驗(yàn)證期2=0.922，=0.430 mm/d，=0.342 mm/d），而GPR8模型預(yù)測(cè)精度最高（驗(yàn)證期2=0.966，=0.277 mm/d，=0.205 mm/d）；在max、min、s和的輸入組合下，驗(yàn)證期中Makkink模型預(yù)測(cè)0的精度最低（2=0.931，=0.440 mm/d，=0.333 mm/d）。

3 討論

3.1 氣象參數(shù)輸入組合方式

輸入氣象參數(shù)組合方式是機(jī)器學(xué)習(xí)模型預(yù)測(cè)高精度的0的關(guān)鍵因子。本研究中，當(dāng)使用相對(duì)濕度和風(fēng)速時(shí)，機(jī)器學(xué)習(xí)模型的模擬值與世界糧農(nóng)組織推薦的標(biāo)準(zhǔn)方法[2]計(jì)算值偏差最大，然而使用溫度（max/min）和輻射數(shù)據(jù)時(shí)，機(jī)器學(xué)習(xí)模型的模擬值精度高，與Fan等[10]和Feng等[17]在亞熱帶季風(fēng)性濕潤(rùn)地區(qū)基于溫度和地表輻射的機(jī)器學(xué)習(xí)模型預(yù)測(cè)0的精度高和基于溫度和大氣頂層輻射模擬精度較高的結(jié)果一致。主要是因?yàn)樵谧魑锷L(zhǎng)過(guò)程中，太陽(yáng)輻射和溫度是不可替代的關(guān)鍵因素。當(dāng)使用組合max、min、s、2時(shí)，2與s的耦合作用對(duì)CatBoost模型預(yù)測(cè)精度影響巨大，具體出現(xiàn)的原因還有待進(jìn)一步研究。此外，模型預(yù)測(cè)精度隨著輸入氣象參數(shù)個(gè)數(shù)增加而提高，與前人研究[18-20]結(jié)果一致。

3.2 機(jī)器學(xué)習(xí)模型的預(yù)測(cè)精度

本研究GPR模型在驗(yàn)證期預(yù)測(cè)0的精度高。Holman等[14]發(fā)現(xiàn)，在高原地區(qū)高斯過(guò)程比最小二乘回歸的精度高。Karbasi等[21]研究表明：GPR模型隨著使用時(shí)間序列的增長(zhǎng)其預(yù)測(cè)的精度越高，但具體能否在江西地區(qū)獲得相同的結(jié)果，還有待進(jìn)一步驗(yàn)證。Jhaveri等[22]在其他領(lǐng)域也應(yīng)用CatBoost和XGBoost模型，由于XGBoost模型存在過(guò)度擬合的問(wèn)題，故XGBoost模型精度較差。Huang等[23]發(fā)現(xiàn)，由于CatBoost模型是將該模型獲得最佳的訓(xùn)練精度來(lái)獲得最優(yōu)結(jié)果，故CatBoost模型的精度較高，但本研究中GPR和CatBoost模型在max、min、s、的組合下和的誤差都在0.9%以內(nèi)，當(dāng)輸入3個(gè)參數(shù)時(shí)，和的誤差都在2.7%內(nèi)而輸入1個(gè)參數(shù)的和的誤差都在0.7%內(nèi)，表明GPR模型模擬江西地區(qū)0的精度高。

3.3 機(jī)器學(xué)習(xí)模型的穩(wěn)定性

機(jī)器學(xué)習(xí)模型的穩(wěn)定性是預(yù)測(cè)0時(shí)需要考慮的關(guān)鍵因素。研究表明，在機(jī)器學(xué)習(xí)模型中，XGBoost模型驗(yàn)證期相對(duì)訓(xùn)練期的百分比增長(zhǎng)最大，其次是CatBoost模型，GPR模型可能是因?yàn)槟軌蛱幚矸蔷€性關(guān)系使其增長(zhǎng)最小，但具體原因還有待后續(xù)研究。此結(jié)果揭示了XGBoost模型極不穩(wěn)定，且隨著使用氣象參數(shù)個(gè)數(shù)的增加，XGBoost模型預(yù)測(cè)穩(wěn)定性出現(xiàn)顯著下降，與Fan等[24]利用XGBoost模型預(yù)測(cè)太陽(yáng)輻射時(shí)，驗(yàn)證期增長(zhǎng)幅度比其他模型大，而CatBoost模型對(duì)早期預(yù)測(cè)不正確的點(diǎn)賦予額外的權(quán)重后進(jìn)行加權(quán)預(yù)測(cè)使CatBoost模型的百分比增加幅度比XGBoost模型小的結(jié)果一致。

4 結(jié)論

機(jī)器學(xué)習(xí)模型提高了江西地區(qū)參考作物蒸散量的精度，且各氣象要素對(duì)機(jī)器學(xué)習(xí)模型模擬效果的影響由大到小依次為：s、max/min、、2。

使用max、min和s作為輸入組合的GPR模型，驗(yàn)證期2=0.966，=0.277 mm/d，=0.205 mm/d，為江西地區(qū)適宜的參考作物蒸散量模型。

[1] MEHDIZADEH S. Estimation of daily reference evapotranspiration (0) using artificial intelligence methods: Offering a new approach for lagged0data-based modeling [J]. Journal of Hydrology, 2018, 559: 794-812.

[2] ALLEN R G, PEREIRA L S, RAES D, et al. Crop evapotranspiration (guidelines for computing crop water requirements) [M]. Rome: FAO, 1998.

[3] IRMAK S, IRMAK A, ALLEN R G, et al. Solar and net radiation-based equations to estimate reference evapotranspiration in humid climates[J]. Journal of Irrigation and Drainage Engineering, 2003, 129(5): 336-347.

[4] MAKKINK G F. Testing the Penman formula by means of lysimeters [J]. Journal of the Instition of Water Engineers, 1957, 11(3): 277-288.

[5] 張倩, 段愛(ài)旺, 高陽(yáng), 等. 基于溫度資料估算參考作物騰發(fā)量的方法比較[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2015, 46(2): 104-109.

ZHANG Qian, DUAN Aiwang, GAO Yang, et al. Comparative analysis of reference evapotranspiration estimation methods using temperature data [J]. Transactions of the Chinese Society for Agricultural Machinery, 2015, 46(2): 104-109.

[6] 胡興波, 蘆新建, 董梅, 等. 簡(jiǎn)化參照作物蒸散量(0)計(jì)算公式在青海省高寒區(qū)的適用性分析[J]. 西北農(nóng)林科技大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013, 41(11): 201-208.

HU Xingbo, LU Xinjian, DONG Mei, et al. Applicability of simplified reference crop evapotranspiration equations in high altitude and cold area of Qinghai Province[J]. Journal of Northwest A & F University (Natural Science Edition), 2013, 41(11): 201-208.

[7] 趙文剛, 馬孝義, 劉曉群, 等. 基于神經(jīng)網(wǎng)絡(luò)算法的廣東省典型代表站點(diǎn)0簡(jiǎn)化計(jì)算模型研究[J]. 灌溉排水學(xué)報(bào), 2019, 38(5): 91-99.

ZHAO Wengang, MA Xiaoyi, LIU Xiaoqun, et al. Using neural network model to simplify0calculation for representative stations in Guangdong Province[J]. Journal of Irrigation and Drainage, 2019, 38(5): 91-99.

[8] YAO Y J, LIANG S L, LI X L, et al. Improving global terrestrial evapotranspiration estimation using support vector machine by integrating three process-based algorithms[J]. Agricultural and Forest Meteorology, 2017, 242: 55-74.

[9] WANG S, FU Z Y, CHEN H S, et al. Modeling daily reference ET in the Karst area of northwest Guangxi (China) using gene expression programming (GEP) and artificial neural network (ANN)[J]. Theoretical and Applied Climatology, 2016, 126(3): 493-504.

[10] FAN J L, YUE W J, WU L F, et al. Evaluation of SVM, ELM and four tree-based ensemble models for predicting daily reference evapotranspiration using limited meteorological data in different climates of China[J]. Agricultural and Forest Meteorology, 2018, 263: 225-241.

[11] DONG J H, WU L F, LIU X G, et al. Estimation of daily dew point temperature by using bat algorithm optimization based extreme learning machine[J]. Applied Thermal Engineering, 2020, 165: 114569.

[12] WU L F, ZHOU H M, MA X, et al. Daily reference evapotranspiration prediction based on hybridized extreme learning machine model with bio-inspired optimization algorithms: Application in contrasting climates of China[J]. Journal of Hydrology, 2019, 577: 123960.

[13] HASSAN M A, KHALIL A, KASEB S, et al. Exploring the potential of tree-based ensemble methods in solar radiation modeling[J]. Applied Energy, 2017, 203: 897-916.

[14] HOLMAN D, SRIDHARAN M, GOWDA P H, et al. Gaussian process models for reference ET estimation from alternative meteorological data sources[J]. Journal of Hydrology, 2014, 32: 28-35.

[15] CHEN T, GUESTRIN C. Xgboost: A scalable tree boosting system. In Proceedings of the 22nd acmsigkdd international conference on knowledge discovery and data mining [EB/OL], 2016(8): 785-794.

[16] DOROGUSH A V, ERSHOV V, GULIN A. CatBoost: gradient boosting with categorical features support [EB/OL]. 2018: arXiv: 1810.11363[cs.LG]. https://arxiv.org/abs/1810.11363

[17] FENG Y, PENG Y, CUI N B, et al. Modeling reference evapotranspiration using extreme learning machine and generalized regression neural network only with temperature data[J]. Computers and Electronics in Agriculture, 2017, 136: 71-78.

[18] TORRES A F, WALKER W R, MCKEE M. Forecasting daily potential evapotranspiration using machine learning and limited climatic data[J]. Agricultural Water Management, 2011, 98(4): 553-562.

[19] TABARI H, KISI O, EZANI A, et al. SVM, ANFIS, regression and climate based models for reference evapotranspiration modeling using limited climatic data in a semi-arid highland environment[J]. Journal of Hydrology, 2012, 444: 78-89.

[20] ANTONOPOULOS V Z, ANTONOPOULOS A V. Daily reference evapotranspiration estimates by artificial neural networks technique and empirical equations using limited input climate variables[J]. Computers and Electronics in Agriculture, 2017, 132: 86-96.

[21] KARBASI M. Forecasting of multi-step ahead reference evapotranspiration using wavelet- Gaussian process regression model[J]. Water Resources Management, 2018, 32(3): 1 035-1 052.

[22] JHAVERI S, KHEDKAR I, KANTHARIA Y, et al. Success Prediction using Random Forest, CatBoost, XGBoost and AdaBoost for Kickstarter Campaigns[C]//2019 3rd International Conference on Computing Methodologies and Communication (ICCMC). IEEE, 2019(2): 1 170-1 173.

[23] HUANG G M, WU L F, MA X, et al. Evaluation of CatBoost method for prediction of reference evapotranspiration in humid regions[J]. Journal of Hydrology, 2019, 574: 1 029-1 041.

[24] FAN J L, WU L F, MA X, et al. Hybrid support vector machines with heuristic algorithms for prediction of daily diffuse solar radiation in air-polluted regions[J]. Renewable Energy, 2020, 145: 2 034-2 045.

Comparing the Performance of GPR, XGBoost and CatBoost Models for Calculating Reference Crop Evapotranspiration in Jiangxi Province

LIU Xiaoqiang1,2, DAI Zhiguang1, WU Lifeng1*, ZHANG Fucang2, DONG Jianhua3, CHEN Zhiyue4

（1.College of water conservancy and ecological engineering, Nanchang Institute of Technology, Nanchang 330099, China; 2. Key Laboratory of Agricultural Soil and Water Engineering in Arid and Semiarid Areas, Ministry of Education, Northwest A&F University, Yangling 712100, China; 3. Faculty of Agriculture and Food, Kunming University of Science and Technology,Kunming 650500, China; 4. College of Hydrology and Water Resources, Hohai University, Nanjing 210098, China）

【】Alternate drought and waterlogging increasingly occurring in Jiangxi province means that rational irrigation strategies are required to safeguard its agricultural production.【】The objective of this paper is to select a suitable machine learning model to calculate reference crop evapotranspiration across the province.【】Meteorological data - including daily maximum (max) and minimum (min) ambient temperature, global solar radiation, extra-terrestrial solar radiation(s), relative humidity (RH) and 2m-height wind speed (U2) - were measured from 2001 to 2015 at 15 stations across the province; they were then used to train and test three models: Thegaussian process regression (GPR), the extreme gradient boosting (XGBoost), and the gradient boosting with categorical features support (CatBoost). We compared accuracy with empirical model for estimating the reference evapotranspiration.【】The meteorological factors that impacted the accuracy of the machine learning model for estimating0was ranked in the descending order as follows based on their significance:s>max>min>>2. Models usingmax,min,sand2gave the most accurate0estimate with0.2 mm/d. All three models have a good applicability by using limited meteorological data, and are superior to the traditional empirical model. In particular, GPR and CatBoost were more accurate, and GPR was most stable.【】In terms of complexity, accuracy and stability, GPR was the most suitable model for estimating reference crop evapotranspiration in Jiangxi province.

reference crop evapotranspiration; gaussian process regression; extreme gradient boosting; gradient boosting with categorical features support; empirical model

S274.1；S274.4

10.13522/j.cnki.ggps.2020056

1672 - 3317（2021）01 - 0091 - 06

2020-02-10

江西省教育廳研究項(xiàng)目青年基金項(xiàng)目（GJJ180952）；江西省科技廳自然科學(xué)基金項(xiàng)目（20171BAB216051）

劉小強(qiáng)（1995-），男，江西進(jìn)賢人。碩士研究生，主要從事節(jié)水灌溉理論與技術(shù)研究。E-mail: liuxiaoqiangyx@163.com

吳立峰（1985-），男，黑龍江阿城人。講師，博士，研究方向?yàn)楣?jié)水灌溉理論與技術(shù)研究。E-mail: china.sw@163.com

劉小強(qiáng), 代智光, 吳立峰, 等. GPR?XGBoost和CatBoost模擬江西地區(qū)參考作物蒸散量的適應(yīng)性研究[J]. 灌溉排水學(xué)報(bào), 2021, 40(1): 91-96.

LIU Xiaoqiang, DAI Zhiguang, WU Lifeng, et al. Comparing the Performance of GPR, XGBoost and CatBoost Models for Calculating Reference Crop Evapotranspiration in Jiangxi Province[J]. Journal of Irrigation and Drainage, 2021, 40(1): 91-96.

責(zé)任編輯：韓洋

GPR、XGBoost和CatBoost模擬江西地區(qū)參考作物蒸散量的適應(yīng)性研究

0 引言

1 材料與方法

1.1 試驗(yàn)區(qū)概況

1.2 數(shù)據(jù)收集與處理

1.3 研究方法

1.4 統(tǒng)計(jì)指標(biāo)

2 結(jié)果與分析

2.1 3種機(jī)器學(xué)習(xí)模型精度的比較

2.2 3種機(jī)器學(xué)習(xí)模型的穩(wěn)定性比較

2.3 3種機(jī)器學(xué)習(xí)模型與經(jīng)驗(yàn)?zāi)Ｐ偷谋容^

3 討論

3.1 氣象參數(shù)輸入組合方式

3.2 機(jī)器學(xué)習(xí)模型的預(yù)測(cè)精度

3.3 機(jī)器學(xué)習(xí)模型的穩(wěn)定性

4 結(jié)論

GPR、XGBoost和CatBoost模擬江西地區(qū)參考作物蒸散量的適應(yīng)性研究