陳志君,朱振闖,孫仕軍,王秋瑤,蘇通宇,付玉娟
·農(nóng)業(yè)水土工程·
Stacking集成模型模擬膜下滴灌玉米逐日蒸散量和作物系數(shù)
陳志君,朱振闖,孫仕軍,王秋瑤,蘇通宇,付玉娟※
(沈陽農(nóng)業(yè)大學水利學院,沈陽 110866)
為準確模擬膜下滴灌玉米逐日蒸散量和作物系數(shù),該研究以4個經(jīng)典機器學習模型:隨機森林(Random Forest,RF)、支持向量機(Support Vector Machine,SVM)、BP神經(jīng)網(wǎng)絡(BackPropagation Neural Network,BP)和Adaboost集成學習模型(Adaboost,ADA)為基礎,基于Stacking算法建立了集成學習模型(Linear Stacking Model,LSM)對膜下滴灌玉米逐日蒸散量和作物系數(shù)進行模擬。并將LSM的模擬精度與RF、SVM、BP和ADA模型的模擬精度相比較,結(jié)果表明:1)RF、SVM、BP和ADA模型模擬膜下滴灌玉米的逐日蒸散量和作物系數(shù)時的相對均方根誤差均大于0.2;2)相比RF、SVM、BP和ADA模型,LSM模型提高了玉米逐日蒸散量和作物系數(shù)模擬精度。LSM模擬的膜下滴灌玉米的作物系數(shù)相比于FAO推薦值更接近實測值;3)日序數(shù)、平均溫度、株高、葉面積指數(shù)和短波輻射5個特征對玉米膜下滴灌玉米日蒸散量和作物系數(shù)影響最高,基于這5個特征建立的LSM模型模擬膜下滴灌玉米的蒸散量和作物系數(shù)的R分別為0.9和0.89,相對均方根誤差分別為0.23和0.16。因此,建議在該研究區(qū)使用日序數(shù)、平均溫度、株高、葉面積指數(shù)和短波輻射5個特征參數(shù)建立LSM模型模擬膜下滴灌玉米蒸散量和作物系數(shù)。該研究可為高效節(jié)水條件下作物蒸散量和作物系數(shù)的精準模擬和合理制定灌溉制度提供參考。
蒸散;模型;溫度;機器學習;Stacking集成學習;膜下滴灌;作物系數(shù)
作物實際蒸散量(Crop Evapotranspiration, ETa)是指作物實際通過地表和葉面的蒸發(fā)和植株蒸騰作用損失的水量[1]。ETa的準確計算和模擬對于提高農(nóng)業(yè)水利用效率和制定合理的灌溉制度具有重要意義[2]。FAO-56文件中提供了各類作物(玉米、水稻和小麥等)在不同生育階段作物系數(shù)的推薦值[1]。但FAO-56推薦的作物系數(shù)多是關于時間的函數(shù),并沒有考慮土壤環(huán)境、作物生長情況和氣象條件等對其的影響[3]。大量研究表明作物系數(shù)隨著作物種類、地區(qū)和氣象環(huán)境等變化而變化,因而使用FAO推薦的作物系數(shù)計算ETa存在較大的誤差[4-5]。這種差異在非常規(guī)條件下(如地膜覆蓋等)顯得更加突出[3]。這是因為地膜覆蓋一方面顯著減少了土壤蒸發(fā)量降低了土壤蒸發(fā)系數(shù),另一方面增加了作物的蒸騰量,進而增加了作物系數(shù)[6]。為此FAO也提出了修正方法,認為覆膜使作物系數(shù)降低了約10%~30%[1]。但即使修正后的推薦值與實際值之間仍存在較大誤差[7-8]。Li等[9]研究表明,對于覆膜種植的春小麥而言,F(xiàn)AO-56文件提供的作物系數(shù)明顯小于實際值;Shrestha等[10]研究表明,覆膜種植的西瓜和辣椒的實際作物系數(shù)與FAO-56推薦值之間的差異較大。為進一步提高ETa計算精度,很多學者在不同地區(qū)采用蒸滲儀試驗,通過基于水文過程的物理模型探索特定條件下的作物系數(shù)值[11]。但傳統(tǒng)試驗成本較高,而且基于水文理論模型對復雜的自然環(huán)境進行簡化,也會導致最終計算精度不理想[12]。隨著機器學習算法的發(fā)展,一些學者開始使用機器學習代替?zhèn)鹘y(tǒng)的基于水文理論模型進行ETa計算和模擬,通過機器學習的強大非線性功能,描述復雜的自然環(huán)境對作物蒸散量的影響[3,5,13-14]。Shrestha等[3]在佛羅里達州使用支持向量機模型,利用灌水頻率、降水頻率、氣象資料和播種后天數(shù)等指標模擬和計算了半個月尺度的作物系數(shù)和ETa,結(jié)果表明,支持向量機模型能夠較為準確地計算作物系數(shù)和ETa。然而,該模型缺點是并未考慮作物生長和田間水熱環(huán)境對耗水的影響。此外,有研究表明,集成多個單一經(jīng)典機器學習模型能夠有效提高模型的模擬精度,尤其是基于Stacking策略的集成學習模型[15]。袁培森等[16]使用Stacking策略融合了支持向量機和隨機森林等基礎模型對水稻表型組學實體進行分類,發(fā)現(xiàn)基于Stacking策略的集成學習模型相比于基礎模型精度平均提高了6.78%。劉波等[17]研究也發(fā)現(xiàn),基于Stacking策略的集成學習模型提高了基礎模型對母線負荷的模擬精度。
目前,雖然基于Stacking算法的集成學習模型在機器視覺和自然語言處理等領域應用較廣,但基于Stacking策略的集成學習模型對膜下滴灌玉米耗水和作物系數(shù)進行的探索尚不多見。同時,基于機器學習方法對作物蒸散量和作物系數(shù)的模擬研究中,所選擇的研究尺度多為月尺度或半個月尺度[10],對于作物逐日蒸散量和作物系數(shù)的研究較為缺乏。事實上,對于作物蒸散量和作物系數(shù)的模擬尺度越小,對于提高農(nóng)業(yè)水利用效率和制定合理的灌溉制度的意義越大[1]。
因此,本文建立基于Stacking策略的集成學習模型對膜下滴灌玉米逐日蒸散量和作物系數(shù)進行模擬;并綜合評價基于Stacking策略的集成學習模型和經(jīng)典機器學習模型對膜下滴灌玉米逐日蒸散量和作物系數(shù)的模擬精度和可行性;在此基礎上探索不同輸入特征對模擬膜下滴灌玉米逐日蒸散量和作物系數(shù)模擬精度的影響,并最終選定模型的最佳輸入特征組合。
田間試驗于2016-2018年在遼寧省灌溉試驗中心(120°30′44 ″E,42°08′59″N,海拔47 m)進行。試驗在2個大型稱重式蒸滲儀測坑內(nèi)進行,測坑長和寬分別為2.5 和2 m,深度為3.5 m。測坑內(nèi)土壤為壤土,耕層0~20 cm土壤含有機質(zhì)、全氮、速效鉀和速效磷分別為21.6 g/kg、108.0 mg/kg、142.5 mg/kg和23.1 mg/kg,土壤容重1.37 g/cm3, 田間持水量為21%。試驗選用的玉米品種在2016和2017年為鄭丹958, 2018年為良玉99。蒸滲儀測坑內(nèi)布置3條壟種植玉米,種植密度為60 000株/hm2,黑色塑料地膜(膜寬120 cm,膜厚0.008 mm)僅覆蓋在壟臺之上,滴灌帶置于地膜和土壤之間,膜下滴灌布置如圖1所示。如圖1所示,滴灌帶布置在壟中間,在測坑中間每隔10 cm深度埋放1個水熱傳感器(美國),用于自動檢測土壤水分和溫度。試驗期間膜下滴灌的灌水上限設置為田間持水量的90%,下限在玉米苗期設置為田間持水量的65%,在其他生長時期均設置為70%。實際灌水量如圖2所示。為排除降雨對蒸滲儀測坑的影響,在試驗區(qū)設置了遮雨棚。玉米于2016年5月9日播種,9月13日收獲;2017年4月27日播種,9月15日收獲;2018年4月29日播種,9月12日收獲。播種時一次性施底肥,其中氮、磷、鉀肥均為66 kg/hm2,其他田間管理同當?shù)剞r(nóng)戶。
1.2.1 氣象數(shù)據(jù)特征
氣象數(shù)據(jù)由試驗站安裝的氣象站(FT-QC9)每隔30 min記錄1次氣溫、濕度、風速和日照時數(shù),其中日照時數(shù)用以計算實際太陽短波輻射(R,MJ/(m2·d)),同時根據(jù)日序數(shù)計算天頂輻射(R,MJ/(m2·d))。計算式如式(1)~式(2)[1]所示。
式中G為太陽常數(shù)0.082 MJ/(m2·min);d為日地間相對距離的倒數(shù);ω為太陽時角,rad;為所在地區(qū)的緯度,rad;為太陽磁偏角,rad;為實際日照時數(shù),h;為理論日照時數(shù),h。2016-2018年氣象變量的統(tǒng)計特征如表1所示。
表1 2016-2018年試驗站氣象變量統(tǒng)計
1.2.2 玉米生長指標
試驗中使用卷尺定株測量玉米株高;使用直尺測量玉米植株上所有展開葉的葉寬和葉長,并通過式(3)計算葉面積指數(shù),測量頻率約10 d/次。
式中LAI為葉面積指數(shù);為玉米種植密度,株/hm2;和分別為展開玉米植株葉片的長和寬,m;為土地面積,本文取值10 000 m2。
為進一步獲得玉米株高和葉面積生長逐日數(shù)據(jù),本文使用式(4)[18]擬合玉米株高數(shù)據(jù);使用式(5)[19-20]擬合玉米葉面積指數(shù)數(shù)據(jù)。
式中為玉米逐日株高,cm;最大株高,cm;LAImax為最大葉面積指數(shù);LAId為逐日葉面積指數(shù);、t、、和為擬合參數(shù);為播種后天數(shù),d。
1.2.3 玉米田間水熱情況
考慮到田間表層(0~20 cm)土壤的含水率和土壤溫度對土壤蒸發(fā)有著顯著影響[1],因此本研究將玉米田間表層的平均含水率和溫度作為輸入特征。表層土壤含水率和土壤溫度采用探頭自動監(jiān)測,監(jiān)測精度分別為0.01 cm3/cm3和0.01 ℃,每隔30 min記錄1次數(shù)據(jù)。將每日由測坑內(nèi)埋置的自動觀測探頭記錄的48個0~20 cm土壤含水率和溫度數(shù)據(jù)取平均值作為當日的平均含水率和溫度值。
1.2.4 數(shù)據(jù)預處理
在膜下滴灌條件下玉米蒸散量的模擬研究中,模型的輸入特征為平均氣溫、相對濕度、風速、天頂輻射、短波輻射、株高、葉面積指數(shù)、表層土壤含水率、表層土壤溫度和日序數(shù)共10個特征參數(shù)。由于試驗期間安裝的蒸滲儀和土壤水熱探頭會有缺失值和異常值出現(xiàn),本研究在建模之前對數(shù)據(jù)集中出現(xiàn)的缺失值和異常值進行了剔除,最終數(shù)據(jù)集中包含的有效樣本點為543個。同時,為了降低不同特征的數(shù)量級對模型精度的影響,本研究使用式(6)[21]對所選10個特征參數(shù)進行標準化。
式中X為觀測數(shù)據(jù),min為最小值,max為最大值。
1.3.1 作物系數(shù)計算
本文使用FAO-56推薦的式(7)計算作物系數(shù)[1]。
c=ETa/ET0(7)
式中ETa為作物實際蒸散量,mm;ET0為參考作物蒸散量,mm;c為實際作物系數(shù)。ET0采用Penman-Monteith公式計算得到[22]。本研究中根據(jù)蒸滲儀測坑相鄰2 d的差值計算得到玉米實際蒸散量ETa。
1.3.2 機器學習模型
隨機森林模型(Random Forest,RF):它是在以決策樹為基本學習器,在Bagging集成學習算法的基礎上,進一步采用自助采樣法對特征進行隨機選擇[23-25]。支持向量機模型(Support Vector Machine,SVM):它可將給定的數(shù)據(jù)集正確分開,同時使得不同類別之間的間隔最大化[26-27]。神經(jīng)網(wǎng)絡模型(Back Propagation Neural Network,BP):本文采用含有3層隱含層的BP神經(jīng)網(wǎng)絡模型。前一層和后一層之間通過全連接層連接(圖3a),激活函數(shù)使用Relu函數(shù)[20]。Adaboost集成學習模型(Adaboost,ADA):它的基本思路是首先建立一個基礎學習器,然后根據(jù)基礎學習器在給定數(shù)據(jù)集上的表現(xiàn)將數(shù)據(jù)集重新劃分。將學習器表現(xiàn)不好的數(shù)據(jù)重新建立學習器,以此類推,直到學習器數(shù)量達到設定的數(shù)量為止,最終通過權(quán)重將所有學習器進行加權(quán)結(jié)合[28-29]。
基于Stacking算法的集成學習模型(Linear Stacking Model,LSM):為提高上述經(jīng)典機器學習對膜下滴灌玉米逐日蒸散量和作物系數(shù)的模擬精度,本文使用Stacking集成學習算法[15],融合上述經(jīng)典機器學習模型。LSM模型基本結(jié)構(gòu)如圖3b所示。如圖3b所示,LSM模型的基本思路是:1)使用觀測數(shù)據(jù)對上述4個經(jīng)典機器學習模型進行參數(shù)率定和驗證;2)使用率定好的經(jīng)典機器學習模型對玉米逐日蒸散量和作物系數(shù)進行模擬;3)將上述4個經(jīng)典機器學習模型的對玉米逐日蒸散量和作物系數(shù)的模擬輸出結(jié)果作為LSM模型中線性層的輸入,對線性層參數(shù)進行訓練,最終訓練好LSM模型并對玉米逐日蒸散量和作物系數(shù)進行模擬。
1.3.3 特征參數(shù)重要性評估
為評估平均氣溫、相對濕度、風速、天頂輻射、短波輻射、株高、葉面積指數(shù)、表層土壤含水率、表層土壤溫度和日序數(shù)與膜下滴灌玉米日蒸散量之間的相關程度,確定這些特征對于上述機器學習模型模擬膜下滴灌玉米日蒸散量的重要性。本研究選用最大互信息系數(shù)(Maximal Information Coefficient,MIC)來衡量所選特征與膜下滴灌玉米日蒸散量之間的線性或非線性的強度。MIC是用來度量特征和響應變量之間的相關程度,與相關系數(shù)相比,MIC值可以有效體現(xiàn)特征和響應變量之間的非線性關系。MIC值越大,說明特征對響應變量的重要程度越高[20]。本研究使用Python 3.0軟件中MINE函數(shù)包計算所選特征與膜下滴灌玉米日蒸散量之間的MIC值,并以MIC數(shù)值評估所選特征對模擬蒸散量時的重要程度。
本研究采用Python 3.0軟件中Scikit-learn庫進行模型的建立和訓練。將上述543個樣本點分成訓練集和測試集2個部分,其中考慮到2017年2號測坑中數(shù)據(jù)缺失最少,共有94個樣本(2017年6月1日—2017年9月15日)。因此選擇2017年2號測坑中共數(shù)據(jù)作為測試集,其余449個樣本為訓練集。在此基礎之上將訓練集再隨機平均分成3份,依次隨機選擇其中一份作為驗證集,剩下兩份作為訓練集(3折交叉驗證)。該研究采用決定系數(shù)(2)[14]、相對均方根誤差(Normal Root Mean Square Error,NRMSE)[20]、均方誤差(Mean Square Error,MSE)[14]和平均絕對誤差(Mean Absolute Error,MAE)[23]這4個指標判斷模型模擬精度好壞的評價指標。
2016-2018年0~20 cm土壤水熱變化動態(tài)如圖4所示。從圖4中可以看出,2016年、2017年和2018年,在生育期內(nèi)0~20 cm土層中的溫度分別為16~28.9 、22.4~30.7 和17~30.7 ℃。3 a的含水率分別為16~16.3、11.6~20.5和12.5~23.7 cm3/cm3。2016-2018年膜下滴灌玉米日實際蒸散量與作物系數(shù)動態(tài)如圖5所示。圖5表明,3 a的膜下滴灌玉米蒸散量和作物系數(shù)均隨著生育期的進行,呈現(xiàn)先增加后降低的趨勢,在玉米生育中期達到最大值。3 a的膜下滴灌玉米生育期內(nèi)蒸散量變化范圍分別為0.3~9.1、0.3~7.3和0.1~7.8 mm;玉米實測逐日作物系數(shù)變化范圍分別為0.12~2.8、0.19~1.6和0.02~2.01。
采用經(jīng)典生長模型擬合株高和葉面積指數(shù)擬合效果如圖6所示,玉米株高擬合的2為0.978~0.999而葉面積指數(shù)擬合2均不小于0.972,說明經(jīng)典生長模型擬合精度非常高,可將擬合獲得的玉米株高和葉面積指數(shù)作為機器學習模型模擬膜下滴灌玉米日蒸散量和作物系數(shù)的輸入特征變量。
本文所選的10個特征變量與膜下滴灌玉米蒸散量之間的MIC值按大小順序排列如下(表2):日序數(shù)、平均溫度、株高、葉面積指數(shù)、短波輻射、天頂輻射、相對濕度、表層土壤溫度、表層土壤含水率、風速。其中,排名前五位的特征變量對應的MIC值分別為0.99、0.86、0.86、0.75和0.65,說明日序數(shù)、平均溫度、株高、葉面積指數(shù)和短波輻射是對膜下滴灌玉米日蒸散量影響最大的5個特征變量。
為了提高模型模擬玉米蒸散量和作物系數(shù)的精度,同時降低獲取相關特征的難度,本文選擇MIC值排名靠前的3~10個特征作為輸入特征,設置了8個模擬情景,用于模擬玉米蒸散量,如表3所示。
表2 特征變量與玉米實際蒸散量之間的最大互信息系數(shù)
表3 模擬玉米蒸散量和作物系數(shù)的情景
各模型采用驗證集和測試集進行玉米蒸散量模擬的精度比較如表4所示,模擬玉米蒸散量時的主要參數(shù)率定結(jié)果如表5所示。
由表4可知,驗證集上,在S1~S8情景中,LSM模型相比于ADA、RF和SVM模型,提高了模擬蒸散量的2約0.1~0.32,分別降低了NRMSE、MSE和MAE約0.11~0.31、0.45~1.79和0.19~0.79 mm。另外,在8個情景中,BP模型模擬蒸散量精度均是最低,其2明顯低于其他4個機器學習模型,而且NRMSE、MSE和MAE高于另外4個模型。上述結(jié)果表明,在S1~S8情景中均是LSM模型模擬蒸散量精度最高,ADA、RF和SVM模型次之,BP模型最差。除此之外,從S3到S8情景,特征數(shù)據(jù)從5個增加到10個,但是LSM、ADA、RF和SVM模型模擬蒸散量的精度變化并不大,它們模擬蒸散量的2增加不到0.05、NRMSE降低不到0.05。其中LSM、ADA和RF模型模擬蒸散量的MSE和MAE減少均不到0.1 mm。
對于模擬ETa的測試集,在S1~S8情景中,與4個經(jīng)典機器學習模型相比,LSM模型使2提高了0.05~0.5,使得NRMSE、MSE和MAE值分別降低了0.08~0.33、0.21~1.82和0.17~0.73 mm??梢姡赟1~S8情景中,LSM模型對膜下滴灌玉米蒸散量模擬精度最高,其2為0.88~0.98,NRMSE為0.1~0.23。除此之外,與在驗證集中類似,從S3到S8情景,各模型模擬蒸散量的2、NRMSE變化并不大,尤其是LSM、RF、SVM和ADA模型,2增加不到0.1,而NRMSE減低不到0.05,說明使用S3情景中的5個特征進行日蒸散量模擬便可獲得較高精度。
綜上,考慮到LSM模型模擬精度最高且S3~S8情景中LSM模型精度變化不大,因此該研究僅對LSM模型在S1、S2、S3和S8情景中對膜下滴灌玉米日蒸散量的模擬值和實際值進行了對比,結(jié)果如圖7所示。在S1情景中,實測值和LSM模擬值之間的差異較大。在S1基礎之上增加葉面積指數(shù)只之后,實測值和LSM模擬值之間差異較在S1情景中有明顯降低趨勢。進一步增加了短波輻射特征,LSM模型對膜下滴灌玉米日蒸散量擬合程度進一步提高。但是,相比于S3情景,S8情景中雖然增加了5個特征,但在S8情景中LSM對膜下滴灌玉米日蒸散量的模擬精度并沒有明顯改善。這說明在S3情景中LSM模型不僅取得了較高的模擬精度,還減少了特征的輸入量。因此,本研究推薦使用日序數(shù)、平均溫度、株高、葉面積指數(shù)和短波輻射5個特征對膜下滴灌玉米日蒸散量進行模擬。
表4 各模型在不同情景中模擬玉米蒸散量和作物系數(shù)的精度
注:2、NRMSE、MSE和MAE分別為決定系數(shù)、相對均方根誤差、均方誤差和平均絕對誤差。
Note:2, NRMSE, MSE and MAE are coefficient of determination, normal root mean square error, mean square error, mean absolute error, respectively.
表5 4個經(jīng)典機器學習模型參數(shù)率定結(jié)果
各模型在驗證集和測試集上對玉米作物系數(shù)模擬精度如表4所示。從表4中可以看出,驗證集上,在S1~S8情景中,LSM、ADA、RF和SVM模型模擬作物系數(shù)的2差別并不大,尤其是在S3到S8情景中,LSM、ADA、RF和SVM模型模擬作物系數(shù)的2均在0.86~0.91之間。但相比于ADA、RF和SVM模型,LSM模型使得NRMSE、MSE和MAE分別降低了0.09~0.28,0.09~0.32和0.08~0.25。另外,在文中5個機器學習模型中,BP模型模擬作物系數(shù)的精度最低,其2在0.59~0.83之間,NRMSE在0.44~0.68之間。值得提出的是,從S3到S8模型中,雖然特征數(shù)量增加了1倍,但LSM、ADA、RF和SVM模型模擬作物系數(shù)的2增加了不到0.03,RNMSE、MSE和MAE均降低了不到0.05。
在測試集上,從S1到S8情景中仍然是LSM模型模擬作物系數(shù)精度最高,其2為0.64~0.94,NRMSE為0.12~0.42。相比于ADA、RF和SVM模型,LSM模型使得2提高了0.1~0.42,使得NRMSE、MSE和MAE分別降低了0.08~0.62,0.03~0.66和0.06~0.35。另外,從S3到S8情景中,LSM模型隨著特征數(shù)量的增加,模擬作物系數(shù)的2提高了不到0.05,NRMSE、MSE和MAE均降低不到0.05。綜上,從各模型在驗證和測試集上的精度對比表明,LSM模型模擬作物系數(shù)精度最高,ADA、RF和SVM次之,BP模型最差。同時,使用S3情景中的5個特征進行作物系數(shù)模擬便可以得到較高精度。
綜上,在S1到S8情景中,LSM模型對膜下滴灌玉米作物系數(shù)模擬精度較高且在S3~S8情景中模型的精度變化不大。因此本文僅將LSM模型在S1、S2、S3和S8情景的模擬值與實測值以及FAO推薦覆膜條件下玉米作物系數(shù)進行對比,如圖8所示。從玉米生長的不同生長時期來看,在快速生長期(2017年5月29日—2017年7月7日)膜下滴灌玉米日作物系數(shù)平均值為0.75。FAO-56推薦值低估了膜下滴灌玉米作物系數(shù)約17.3%,而LSM模型在上述4個情景中分別高估了6.7%、6.7%、4%和1.3%。在中期(2017年7月8日—2017年8月6日),實測作物系數(shù)為1.17,F(xiàn)AO-56推薦值低估了約8.3%,而LSM模型在4個情景中分別高估了6.3%、0、1.2%和?2.1%。在末期(2017年8月7日—2017年9月15日),相比于實測作物系數(shù),F(xiàn)AO-56推薦值高估了約13.8%,LSM模型在4個情景中模擬值分別增加了13%、4.3%、?4.3%和0。綜上,在玉米生育期內(nèi),使用LSM模型在4個情景中對膜下滴灌玉米日作物系數(shù)模擬精度均高于FAO-56推薦值。
大量研究表明,作物蒸散量受到氣候條件(日最高溫度、日最低溫度、日平均風速、日平均溫度、短波輻射、天頂輻射和日平均相對濕度等)、作物生長情況(株高和葉面積等)以及土壤水熱條件(土壤溫度和土壤含水率等)的影響[1,3,20]。本文使用互信息法,計算了每個特征與膜下滴灌玉米日蒸散量之間的互信息指數(shù)。結(jié)果發(fā)現(xiàn),互信息大于0.6的特征主要是日序數(shù)、平均溫度、株高、葉面積指數(shù)、短波輻射。其中播種后天數(shù)與玉米日蒸散量之間互信息最大,為0.99。表明播種后天數(shù)是模擬膜下滴灌玉米日蒸散量的最重要特征,這與Shrestha等的研究結(jié)果一致[10]。這是因為玉米蒸散量與播種后天數(shù)之間具有顯著的非線性關系。一般而言,膜下滴灌玉米日蒸散量和作物系數(shù)均隨著日序數(shù)增加呈現(xiàn)先增加后降低的趨勢(圖5),這也是FAO-56推薦的作物系數(shù)是時間函數(shù)的原因。平均溫度與膜下滴灌玉米日蒸散量之間互信息為0.86,僅次于日序數(shù)。這可能是因為日平均氣溫往往對應著較高的膜間蒸發(fā)和作物蒸騰量,進而增加了作物的蒸散量。同時日平均氣溫最高的時期也是玉米生長最旺盛的時期,使得日平均氣溫與玉米逐日蒸散量和作物系數(shù)有較強的相關性。葉面積指數(shù)和株高對玉米蒸散量模擬的重要性也較高,它們與膜下滴灌玉米日蒸散量互信息分別為0.75和0.86。葉面積和株高對膜下滴灌日蒸散量重要性較高,可能原因是:1)葉面積和株高是作物主要的生長指標,影響和田間蒸發(fā)和作物蒸騰量[1];2)葉面積指數(shù)和株高與播種后天之間存在顯著的非線性關系,甚至他們之間的關系可以用的函數(shù)(如logistics函數(shù))進行準確描述;3)葉面積指數(shù)和株高影響著空氣動力阻力和水汽湍流方式,同時它們還會通過影響地面反射率影響大氣與土壤的能量交換,進而影響作物耗水[1]。短波輻射也是影響膜下滴灌日蒸散量的一個重要特征,其與膜下滴灌玉米日蒸散量互信息為0.65。主要原因是太陽短波輻射是影響作物生長的主要因素[3]。需要提出的是,本研究中土壤溫度和土壤含水率對膜下滴灌玉米的模擬重要性較低,而Allen等[1]認為土壤溫度和含水率是影響作物蒸散量的關鍵因素。產(chǎn)生這種不一致結(jié)論的原因,主要是因為本試驗是在覆膜條件下進行灌溉,2016-2018年土壤平均溫度為25.1 ℃,表層土壤平均含水率為18.7%,約是田間持水量的89%,而且灌水下限設置在田間持水量的65%。表明本文中膜下滴灌生長在較為適宜的土壤水熱條件下,因而土壤溫度和含水率對膜下滴灌玉米蒸散量的對模擬玉米蒸散量的重要程度不大。這與Shrestha等[10]的研究結(jié)果一致,認為在在膜下滴灌條件下土壤含水率和溫度一般適宜作物生長,因而表層土壤含水率和溫度其對作物耗水的模擬的貢獻率較低。
本文使用RF、SVM、BP和ADA模型在4種情景下對膜下滴灌玉米逐日蒸散量和作物系數(shù)進行模擬過程中發(fā)現(xiàn),雖然這4種經(jīng)典機器學習得到的2較大,但是它們的NRMSE值均大于0.2。說明使用這4種經(jīng)典機器學習模擬膜下滴灌玉米的逐日蒸散量和作物系數(shù)時誤差相對較大。然而,Shrestha等[10]研究發(fā)現(xiàn),使用SVM模型可以相對準確地模擬花椒和西瓜的半個月平均ETa和作物系數(shù)值,其模擬精度高于BP模型。產(chǎn)生這類不一致結(jié)果的原因,一方面可能是因為機器學習模型在不同的數(shù)據(jù)集上的表現(xiàn)不同[20,30],另一方面可能是因為模擬的尺度不同。在Shrestha等[3]研究中采用的時間尺度為半個月尺度,而本文中采用的為日尺度。一般而言時間尺度越大,作物逐日蒸散量和作物系數(shù)在日尺度上的波動就會被弱化,使得模型的模擬精度越高,因而同樣的模型在Shrestha等研究中精度會比本研究更高一些。這也說明,逐日蒸散量和作物系數(shù)更容易受到日尺度天氣、生長和田間水熱情況的影響。雖然4個經(jīng)典機器學習模型對于日尺度膜下滴灌玉米蒸散量和作物系數(shù)模擬誤差較大,但融合了這4個經(jīng)典機器學習模型的LSM模型在S3到S8情景中,模擬膜下滴灌玉米蒸散量和作物系數(shù)的2和NRMSE均優(yōu)于4個經(jīng)典機器學習模型。該結(jié)果表明,相比于4個經(jīng)典機器學習模型,基于Stacking算法框架下的LSM模型提高了模擬膜下滴灌玉米蒸散量和作物系數(shù)的精度。LSM模型能夠顯著提高模擬精度,這一定程度上說明使用Stacking算法集合了基礎機器學習模型的優(yōu)勢[16-17]。Stacking集成學習算法核心思想是先訓練1組模型,然后將這1組模型的輸出作為輸入再訓練1個模型,最終得到模擬值。雖然該思想比較簡單,但是大量研究表明基于Stacking算法建立的集成機器學習模型能夠顯著提高模型在回歸和分類任務上的表現(xiàn)[31]。Sun等[32]使用Stacking集成學習模型對河冰破碎日期進行模擬,也發(fā)現(xiàn)基于Stacking集成學習模型能夠提高基礎模型的模擬精度。另外,值得提出的是,LSM模型模擬的膜下滴灌玉米生育期平均作物系數(shù)值比FAO推薦值更接近實測值。原因可能是:1)FAO推薦的作物系數(shù)是時間的函數(shù),而且是根據(jù)生育期來確定推薦值。FAO推薦值一旦確定之后,就沒有再考慮氣候、品種、土壤等因素的影響。這也說明FAO推薦值在實際使用過程中必然會存在較大的誤差,尤其是在覆膜等非標準農(nóng)田中;2)本文在模擬玉米日作物系數(shù)時,綜合考慮了氣候、玉米生長和玉米田間水熱情況等多種因素。
特征的選擇對機器學習模型模擬精度有著較大的影響[33]。Khalid等[34]認為好的特征集合應該是包含盡量少的特征數(shù)量同時對模型的精度貢獻最大。本研究通過互信息方法對所選的10個特征進行重要性排序,然后分別選擇排序前3~10個特征和所有特征建立LSM模型模擬膜下滴灌玉米ETa和作物系數(shù)。結(jié)果發(fā)現(xiàn),使用前5個特征建立的LSM模型對膜下滴灌玉米ETa和作物系數(shù)的模擬精度既高于使用前4個特征的和前3個特征的LSM模型又不低于甚至高于基于5個特征的LSM模型?;谇?個特征的LSM模型,相比于基于前3個特征和前4個特征的LSM模型提高了模擬精度,同時相比于基于所有特征的LSM模型顯著降低了收集特征的難度和時間成本。這也說明在了膜下滴灌玉米逐日蒸散量和作物系數(shù)主要受日序數(shù)、平均溫度、株高、葉面積指數(shù)和短波輻射的影響。
本文基于氣象特征、玉米生長特征和土壤水熱特征數(shù)據(jù),建立4個經(jīng)典機器學習模型:隨機森林(Random Forest,RF)、支持向量機(Support Vector Machine,SVM)、BP神經(jīng)網(wǎng)絡(Back Propagation Neural Network,BP)和Adaboost集成學習模型(Adaboost,ADA)和1個基于Stacking算法融合這4個機器學習模型的LSM(Linear Stacking Model)模型,對膜下滴灌春玉米逐日蒸散量和作物系數(shù)進行模擬估算。研究結(jié)果表明:
1)RF、SVM、BP和ADA模型模擬膜下滴灌玉米的逐日蒸散量和作物系數(shù)時精度較低,它們的相對均方根誤差值均大于0.2;
2)相比于RF、SVM、BP和ADA模型,基于Stacking算法建立的LSM模型顯著提高了膜下滴灌玉米蒸散量和作物系數(shù)模擬精度;同時,LSM模型模擬的作物系在玉米快速生長期、中期和末期均比FAO-56推薦值的更接近實測值;
3)使用日序數(shù)、平均溫度、株高、葉面積指數(shù)和短波輻射5個特征建立的LSM模型在準確模擬膜下滴灌玉米的蒸散量和作物系數(shù)的同時,還能降低特征輸入量。綜上,本研究推薦使用日序數(shù)、平均溫度、株高、葉面積指數(shù)和短波輻射5個特征建立LSM模型模擬膜下滴灌玉米蒸散量和作物系數(shù)。
[1]Allen R G, Pereira L S, Raes D, et al. Crop Evapotranspiration[M]. Rome, Italy: United Nations FAO, 1998.
[2]Dou X, Yang Y. Evapotranspiration estimation using four different machine learning approaches in different terrestrial ecosystems[J]. Computers and Electronics in Agriculture, 2018, 148: 95-106.
[3]Shrestha N K, Shukla S. Support vector machine based modeling of evapotranspiration using hydro-climatic variables in a sub-tropical environment[J]. Agricultural and Forest Meteorology, 2015, 200: 172-184.
[4]Allen R G, Smith M, Wright J L, et al. FAO-56 Dual crop coefficient method for estimating evaporation from soil and application extensions[J]. Journal of Irrigation and Drainage Engineering, 2005, 131(1): 2-13.
[5]Agam N, Evett S R, Tolk J A, et al. Evaporative loss from irrigated interrows in a highly advective semi-arid agricultural area[J]. Advances in Water Resources, 2012, 50(6): 20-30.
[6]Liu C M, Zhang X Y, Zhang Y Q. Determination of daily evaporation and evapotranspiration of winter wheat and maize by large-scale weighing lysimeter and micro-lysimeter[J]. Journal of Hydraulic Engineering, 1998, 111(2): 109-120.
[7]任新茂,孫東寶,王慶鎖. 覆膜和種植密度對旱作春玉米產(chǎn)量和蒸散量的影響[J]. 農(nóng)業(yè)機械學報,2017,48(1):206-211.
Ren Xinmao, Sun Dongbao, Wang Qingsuo. Effects of plastic film mulching and plant density on yield and evapotranspiration of rainfed spring maize[J]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(1): 206-211. (in Chinese with English abstract)
[8]文冶強,楊健,尚松浩. 基于雙作物系數(shù)法的干旱區(qū)覆膜農(nóng)田耗水及水量平衡分析[J]. 農(nóng)業(yè)工程學報,2017,33(1):138-147.
Wen Yeqiang, Yang Jian, Shang Songhao. Analysis on evapotranspiration and water balance of cropland with plastic mulch in arid region using dual crop coefficient approach[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(1): 138-147. (in Chinese with English abstract)
[9]Li S, Kang S, Li F, et al. Evapotranspiration and crop coefficient of spring maize with plastic mulch using eddy covariance in northwest China[J]. Agricultural Water Management, 2008, 95(11): 1214-1222.
[10]Shrestha N K, Shukla S. Basal crop coefficients for vine and erect crops with plastic mulch in a sub-tropical region[J]. Agricultural Water Management, 2014, 143: 29-37.
[11]Polhamus A, Fisher J B, Tu K P. What controls the error structure in evapotranspiration models?[J]. Agricultural and Forest Meteorology, 2013, 169: 12-24.
[12]Kim S, Shiri J, Kisi O, et al. Estimating daily pan evaporation using different data-driven methods and lag-time patterns[J]. Water Resources Management, 2013, 27: 2267-2286.
[13]馮禹,崔寧博,龔道枝,等. 利用溫度資料和廣義回歸神經(jīng)網(wǎng)絡模擬參考作物蒸散量[J]. 農(nóng)業(yè)工程學報,2016,32(10):81-89.
Feng Yu, Cui Ningbo, Gong Daozhi, et al. Modeling reference evapotranspiration by generalized regression neural network combined with temperature data[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016, 32(10): 81-89. (in Chinese with English abstract)
[14]王升,付智勇,陳洪松,等. 基于隨機森林算法的參考作物蒸發(fā)蒸騰量模擬計算[J]. 農(nóng)業(yè)機械學報,2017,48(3):302-309.
Wang Sheng, Fu Zhiyong, Chen Hongsong, et al. Simulation of reference evapotranspiration based on random forest method[J]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(3): 302-309. (in Chinese with English abstract)
[15]Czarnowski I, Piotr J. An approach to machine classification based on stacked generalization and instance selection[C]// 2016 IEEE International Conference on Systems, Man, and Cybernetics ( SMC). Budapest, Hungary: IEEE, 2016.
[16]袁培森,楊承林,宋玉紅,等. 基于Stacking集成學習的水稻表型組學實體分類研究[J]. 農(nóng)業(yè)機械學報,2019,50(11):144-152.
Yuan Peiseng, Yang Chenglin, Song Yuhong, et al. Classification of rice phenomics entities based on stacking ensemble learning[J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(11): 144-152. (in Chinese with English abstract)
[17]劉波,秦川,鞠平,等. 基于XGBoost與Stacking模型融合的短期母線負荷預測[J]. 電力自動化設備,2020,40(3):1-7.
Liu Bo, Qin Chuan, Ju Ping, et al.Short-term bus load forecasting based on XGBoost and Stacking model fusion[J]. Electric Power Automation Equipment, 2020, 40(3): 1-7. (in Chinese with English abstract)
[18]Darroch B A, Baker R J. Grain filling in three spring wheat genotypes: Statistical analysis[J]. Crop Science, 1990, 30(3): 525-529.
[19]王玲,謝德體,劉海隆,等. 玉米葉面積指數(shù)的普適增長模型[J]. 西南農(nóng)業(yè)大學學報:自然科學版,2004,26(3):303-306.
Wang Ling, Xie Deti , Liu Hailong, et al. A universal growth model for maize leaf area index[J]. Southwest Agriculture University, 2004, 26: 303-306. (in Chinese with English abstract)
[20]Chen Z, Sun S, Wang Y, et al. Temporal convolution- network-based models for modeling maize evapotranspiration under mulched drip irrigation[J]. Computers and Electronics in Agriculture, 2020, 169: 105206.
[21]陳英義,程倩倩,方曉敏,等. 主成分分析和長短時記憶神經(jīng)網(wǎng)絡預測水產(chǎn)養(yǎng)殖水體溶解氧[J]. 農(nóng)業(yè)工程學報,2018,34(17):183-191.
Chen Yingyi, Cheng Qianqian, Fang Xiaomin, et al. Principal component analysis and long short-term memory neural network for predicting dissolved oxygen in water for aquaculture[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(17): 183-191. (in Chinese with English abstract)
[22]Monteith J L. Evaporation and the Environment[M]. Swansea: Cambridge University Press, 1965: 205-234.
[23]周志華. 機器學習[M]. 北京:清華大學出版社,2016.
[24]Wang X, Liu T, Zheng X, et al. Short-term prediction of groundwater level using improved random forest regression with a combination of random features[J]. Applied Water Science, 2018, 8: 125.
[25]Wang Y, Song Q, Du Y, et al. A random forest model to predict heatstroke occurrence for heatwave in China[J]. Science of The Total Environment, 2019, 650: 3048-3053.
[26]Fan J, Yue W, Wu L, et al. Evaluation of SVM, ELM and four tree-based ensemble models for predicting daily reference evapotranspiration using limited meteorological data in different climates of China[J]. Agricultural and Forest Meteorology, 2018, 263: 225-241.
[27]Mehdizadeh S, Behmanesh J, Khalili K. Using MARS, SVM, GEP and empirical equations for estimation of monthly mean reference evapotranspiration[J]. Computers and Electronics in Agriculture, 2017, 139: 103-114.
[28]Baig M M, Awais M M, El-Alfy E M. AdaBoost-based artificial neural network learning[J]. Neurocomputing, 2017, 248: 120-126.
[29]Asim K M, Idris A, Iqbal T, et al. Seismic indicators based earthquake predictor system using Genetic Programming and AdaBoost classification[J]. Soil Dynamics and Earthquake Engineering, 2018, 111: 1-7.
[30]Ferreira L B, da Cunha F F, de Oliveira R A, et al. Estimation of reference evapotranspiration in Brazil with limited meteorological data using ANN and SVM: A new approach[J]. Journal of Hydrology, 2019, 572: 556-570.
[31]Mawloud G, Farid M, Kacem G, et al. A comprehensive review of hybrid models for solar radiation forecasting[J]. Journal of Cleaner Production, 2020, 258: 120357.
[32]Sun W, Trevor B. A Stacking ensemble learning framework for annual river ice breakup dates[J]. Journal of Hydrology, 2018, 561: 636-650.
[33]Chandrashekar G, Sahin F. A survey on feature selection methods[J]. Computers and Electrical Engineering, 2014, 40(1): 16-28.
[34]Khalid S, Khalil T, Nasreen S. A survey of feature selection and feature extraction techniques in machine learning[C]// 2014 Science and Information Conference. London, UK: IEEE, 2014.
Estimation of daily evapotranspiration and crop coefficient of maize under mulched drip irrigation by Stacking ensemble learning model
Chen Zhijun, Zhu Zhenchuang, Sun Shijun, Wang Qiuyao, Su Tongyu, Fu Yujuan※
(,,110866,)
Accurate prediction of crop actual evapotranspiration (ETa) and crop coefficient has great significance for designing irrigation plans and improving the water resources use efficiency. To improve the accuracy for predicting actual evapotranspiration and crop coefficient of maize under mulched drip irrigation, in this study, a Stacking Ensemble Learning Model (LSM) was developed to estimate evapotranspiration and crop coefficient of maize under drip irrigation with plastic film mulch. The LSM model included four classical machine learning methods including Random Forest (RF), Support Vector Machine (SVM), Back Propagation Neural Network (BP), and Adaboost (ADA). The maximal information coefficient (MIC) method was applied to calculate the MIC value between ten proposed features, including days after sowing, average temperature, plant height, leaf area index, solar radiation, extraterrestrial radiation, relative humidity, surface soil temperature, surface soil water content and wind speed at 2 m, and maize evapotranspiration. The MIC values were used to evaluate the importance of ten features. The results showed that in the test dataset the LSM model improved the coefficient of determination (2) and decreased Normal Root Mean Square (NRMSE), Mean Absolute Error (MSE), and Mean Square Error (MSE), compared to SVM, RF, and ADA model. The BP model had the lowest2and the highest NRMSE. It revealed that the LSM model obtained the highest precision for modeling maize evapotranspiration, followed by SVM, ADA, and RF model, and BP model had the poorest performance for modeling maize evapotranspiration. Similarly, compared to four classical machine learning models, the LSM model increased2and decreased NRMSE, MSE, and MAE, indicating that LSM increased the precision for modelling maize crop coefficient under drip irrigation with film mulch. The MIC values of days after planting, average daily air temperature, leaf area index, plant height, and solar radiation were higher than those of the other features. It indicated that the five features above are important for maize evapotranspiration. Besides, compared to the LSM model with input of five top features, the LSM model with input of all the ten features didn’t show any obvious improvement in model simulation since the2was increased little and the NRMSE value was decreased by less than 0.05. The average crop coefficient values obtained by the LSM model with input of five top features were increased by 4%, 0, and ?4.3% at developed stage, midseason stage, and late stage of maize, respectively, compared to the actual value. However, the crop coefficient values based on FAO-56 recommendation were 17.3%, 8.3%, and 13.8% lower or higher than actual crop coefficient in maize developed stage, mid stage, and late stage, respectively. This result indicated that the average crop coefficient values of LSM model with input of five top features were closer to actual crop coefficient value than that modified by FAO-56. Thus, the LSM model with input of days after planting, average daily air temperature, leaf area index, plant height, and solar radiation was recommended to estimate evapotranspiration and crop coefficient of maize under drip irrigation with plastic film mulch.
evapotranspiration; models; temperature; machine learning; Stacking ensemble learning; mulched drip irrigation; crop coefficient
陳志君,朱振闖,孫仕軍,等. Stacking集成模型模擬膜下滴灌玉米逐日蒸散量和作物系數(shù)[J]. 農(nóng)業(yè)工程學報,2021,37(5):95-104.doi:10.11975/j.issn.1002-6819.2021.05.011 http://www.tcsae.org
Chen Zhijun, Zhu Zhenchuang, Sun Shijun, et al. Estimation of daily evapotranspiration and crop coefficient of maize under mulched drip irrigation by Stacking ensemble learning model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(5): 95-104. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.05.011 http://www.tcsae.org
2020-11-19
2021-02-13
國家重點研發(fā)計劃重點專項(2018YFD0300301);遼寧省高??蒲许椖浚↙SNFW201913);遼寧省自然科學基金項目( 20180550617)
陳志君,博士生,研究方向為農(nóng)業(yè)高效用水。Email:867389547@qq.com
付玉娟,博士,講師,研究方向為作物高效用水和水資源綜合利用。Email:fyj0249@sina.com
10.11975/j.issn.1002-6819.2021.05.011
S161
A
1002-6819(2021)-05-0095-10