摘" 要:玉米是我國種植面積最廣、產(chǎn)量最高、食用最多的3種主要農(nóng)作物之一,掌握科學預測玉米產(chǎn)量的技術(shù),可以為農(nóng)業(yè)的種植規(guī)劃、糧食儲存加工、市場調(diào)控提供技術(shù)支持。該文兼顧氣象因素和土壤因素,建立BP神經(jīng)網(wǎng)絡(luò)模型、RBF徑向基神經(jīng)網(wǎng)絡(luò)模型、GBDT梯度提升決策樹模型,對吉林省各縣市玉米產(chǎn)量進行回歸分析,對比分析其誤差。實驗結(jié)果中,GBDT模型預測的產(chǎn)量和真實產(chǎn)量間的擬合程度較高,R2達到0.92,可以在吉林省各縣市玉米產(chǎn)量預測中表現(xiàn)出較好的效果。結(jié)果表明該模型對吉林省40個縣市玉米產(chǎn)量進行預測的可行性,數(shù)據(jù)易于獲取,能夠幫助政府農(nóng)業(yè)部門制定相關(guān)政策和方針指導生產(chǎn)。
關(guān)鍵詞:玉米產(chǎn)量;GBDT;預測模型;氣象因素;回歸分析
Abstract: Corn is one of the three main crops with the widest planting area, the highest yield and the most eaten in China. Mastering the technology of scientific prediction of corn yield can provide technical support for agricultural planting planning, grain storage and processing, as well as market regulation. Taking into account meteorological factors and soil factors, this paper establishes BP neural network model, RBF radial basis neural network model, and GBDT gradient lifting decision tree model; then, the paper makes a regression analysis of corn yield in various counties and cities of Jilin Province, and a comparative analysis of their errors. In the experimental results, the fitting degree between the predicted yield and the real yield of GBDT model is high, R2 is up to 0.92, which can show a good effect in the prediction of corn yield in various counties and cities of Jilin Province. The results show that the model is feasible to predict the corn yield of 40 counties and cities in Jilin Province, and the data are easy to obtain, thereby can guide the agricultural departments of the government to formulate relevant policies and guidelines to guide production.
Keywords: corn yield; GBDT; forecasting model; meteorological factors; regression analysis
吉林省又被稱為“黑土地之鄉(xiāng)”,土壤肥力高,是適合玉米種植生長的黃金地帶,提前預測玉米產(chǎn)量可以對吉林省農(nóng)業(yè)活動、貿(mào)易進行指導。
人工智能算法在作物估產(chǎn)方面展示出了極強的問題解決能力,不需要外部指令就可以在計算機內(nèi)輸入的數(shù)據(jù)中找到規(guī)則[1-3]。Cheng等[4]將機器學習算法與多指標相結(jié)合,采用隨機森林回歸(RFR)和梯度提升決策樹(GBDT)機器學習方法來預估玉米產(chǎn)量。周修理等[5]利用GA-RF模型探究不同深度的土壤堅實度對大豆產(chǎn)量的影響。
由于氣象因素和土壤因素易于獲取,耗費的時間和人力成本低,因此更適用于大田作物。Christopher等[6]預測季風天氣對水稻收獲面積的影響,再通過水稻收獲面積預測產(chǎn)量。Nishigandha等[7]利用多元線性回歸和ANN天氣模型預測印度油菜籽和芥末產(chǎn)量。丁鵬等[8]分析97個氣象特征和5個社會發(fā)展特征等多種特征變量的組合對茶葉產(chǎn)量預測的影響,建立基于梯度提升決策樹算法的多特征非線性回歸模型。Nyéki等[9]比較了CP-ANN算法、XY-F算法、XGBoost算法的優(yōu)劣,建立玉米產(chǎn)量與氣象、土壤因素之間的機器學習模型,結(jié)果表明XGBoost算法能夠有效預測中高產(chǎn)區(qū)玉米產(chǎn)量。
通過上述文獻梳理可知,人工智能模型大量應(yīng)用于作物的產(chǎn)量預測,因其可以通過對以往經(jīng)驗進行運用,自動優(yōu)化改良算法,是產(chǎn)量預測的最佳方法之一。本研究利用人工智能模型提前預測吉林省各縣市的玉米產(chǎn)量,輔助政府調(diào)整生產(chǎn)計劃,保障糧食市場的穩(wěn)定供應(yīng),指導資源合理配置。
1" 數(shù)據(jù)來源及數(shù)據(jù)預處理
1.1" 數(shù)據(jù)來源
本實驗中涉及吉林省40個縣市2005—2021年間的氣象因素、土壤數(shù)據(jù)及產(chǎn)量信息。氣象數(shù)據(jù)選取各年度5—9月的月均數(shù)據(jù),包括地面氣壓、氣溫、降水量、相對濕度、蒸發(fā)量、風速和總太陽輻射度等,來自歐洲中期天氣預報中心(ECMWF)的ERA5數(shù)據(jù)集。土壤數(shù)據(jù)包括植被指數(shù)、蒸散量、10~100 cm濕度土壤和10~100 cm土壤溫度,其中植被指數(shù)來自美國國家航空航天局地球觀測網(wǎng)站(NASA Earth Observations),其余來自美國國家航空航天局的GES DISC網(wǎng)站。產(chǎn)量數(shù)據(jù)來自吉林省各縣市統(tǒng)計局發(fā)布的統(tǒng)計公告,包括農(nóng)安縣、長嶺縣、乾安縣等40個縣市的玉米產(chǎn)量。
1.2" 數(shù)據(jù)填補
對于數(shù)據(jù)中存在的部分缺失,本文采用回歸估計法插補產(chǎn)量數(shù)據(jù)缺失值,利用輔助變量與已知的數(shù)據(jù)建立回歸模型,使用服從正態(tài)分布的殘差作為隨機項,對缺失值進行估計。
1.3" Pearson相關(guān)性分析
由于影響產(chǎn)量的氣象、土壤因子較多,需要分析特征變量與產(chǎn)量之間的相關(guān)性程度。Pearson相關(guān)性分析可以判斷2個變量之間的相關(guān)性,篩選出影響玉米產(chǎn)量的關(guān)鍵影響因子。與最終產(chǎn)量相關(guān)性較高的影響因子見表1。
1.4" 數(shù)據(jù)歸一化
模型建立過程中使用的數(shù)據(jù)間量綱的差異巨大,直接進行建模會造成結(jié)果偏差較大,因此本文使用數(shù)據(jù)歸一化方法將數(shù)據(jù)統(tǒng)一映射將數(shù)據(jù)轉(zhuǎn)換到[0,1]的區(qū)間中。
2" 模型構(gòu)建
2.1" BP神經(jīng)網(wǎng)絡(luò)
BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)是由David Rumelhart 和 J.McClelland提出的一種誤差逆向傳播的神經(jīng)網(wǎng)絡(luò),通過反向傳播不斷調(diào)整權(quán)值和閾值以減小模型的誤差平方和。
根據(jù)影響玉米產(chǎn)量的影響因子建立相應(yīng)的神經(jīng)元個數(shù),輸出因子為玉米產(chǎn)量,具體隱含層神經(jīng)元個數(shù)通過公式(1)計算。
(1)
式中:Ns為訓練集樣本數(shù),Ni為輸入層神經(jīng)元個數(shù),No為輸出層神經(jīng)元個數(shù),α為2~10間常數(shù),經(jīng)過不斷測試微調(diào)可得到最優(yōu)的隱含層神經(jīng)元個數(shù)。
2.2" RBF徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)
RBF網(wǎng)絡(luò)是一種單隱含層前饋神經(jīng)網(wǎng)絡(luò),對非線性輸入輸出映射進行局部逼近,效率高、結(jié)構(gòu)簡單、訓練速度快,主要結(jié)構(gòu)包括輸入層、隱含層、輸出層,其中隱含層使用徑向基函數(shù)作為激活函數(shù)。RBF徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。
圖1" RBP神經(jīng)網(wǎng)絡(luò)算法的網(wǎng)絡(luò)結(jié)構(gòu)
RBF徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的基函數(shù)通常使用高斯函數(shù),其激活函數(shù)如公式(2)所示。
(2)
式中:‖xp-ci‖為歐幾里得范數(shù),σ為高斯函數(shù)方差,ci為高斯函數(shù)的中心。
2.3" GBDT梯度提升決策樹
GBDT是一種基于boosting集成學習的不斷擬合殘差的迭代決策樹算法,是提升樹利用加法模型和前向分步算法實現(xiàn)學習優(yōu)化的過程。適用于稠密數(shù)據(jù),可并行計算,計算速度快且泛化能力強。GBDT是M棵樹組合成的一個加法模型,采用的基學習器是決策樹,使用的是CART回歸樹,具體算法流程如下。
初始化弱學習器,見公式(3)估計使損失函數(shù)最小化的常數(shù)值 。
(3)
迭代訓練m=1,2,…,M棵樹。
對每個樣本i=1,2,…,N,計算損失函數(shù)的負梯度在當前模型的值,即殘差,如公式(4)所示。
(4)
將上步得到的殘差rim作為樣本新的真實值,并將數(shù)據(jù)(xi,rim),i=1,2,…N作為下棵樹的訓練數(shù)據(jù),得到一顆新的回歸樹fm(x),其對應(yīng)的葉子節(jié)點區(qū)域為Rjm,j=1,2,…,Jm。其中J為回歸樹的葉子節(jié)點的個數(shù)。
對葉子區(qū)域j=1,2,…J計算最佳擬合值,具體公式如公式(5)所示,使損失函數(shù)極小化,其中γjm是Rjm的平方損失最小值。
(5)
更新強學習器,I是指示函數(shù),若x∈Rjm則I=1,否則I=0,其計算過程如公式(6)所示。
(6)
3" 結(jié)果與分析
3.1" 模型對比
為了對比不同模型的精度,在對比分析時使用MAE平均絕對誤差(Mean Absolute Error)、MAPE平均絕對百分比誤差(Mean Absolute Percentage Error)、RMSE均方根誤差(Root Mean Squard Error)及R2(確定系數(shù))共4個評價指標。3個模型的模型評價指標見表2。
由表2可以看出,在吉林省40個縣市的玉米產(chǎn)量預測結(jié)果中,GBDT模型的R2達到0.92。GBDT模型的平均絕對誤差MAE比BP神經(jīng)網(wǎng)絡(luò)小41.271%,比RBF神經(jīng)網(wǎng)絡(luò)小34.688%;均方根誤差RMSE比BP神經(jīng)網(wǎng)絡(luò)小52.862%,比RBF神經(jīng)網(wǎng)絡(luò)小75.202%。
對比3個模型的預測結(jié)果,分別進行相應(yīng)擬合系數(shù)圖的分析,驗證其預測性能,如圖2所示。散點圖顯示,不同預測模型的擬合程度依次為GBDT模型大于BP模型大于RBF模型。
3.2" 結(jié)果驗證
在玉米產(chǎn)量模型構(gòu)建完成后,將2020、2021年2年間的數(shù)據(jù)單獨做驗證,對比玉米產(chǎn)量的預測值和真實值,如圖3所示,進一步證明模型的可靠性。
4" 結(jié)束語
本研究結(jié)合吉林省實際情況,針對玉米復雜生長過程中的氣溫、降水等氣象因素和土壤溫度、土壤濕度等土壤因素,建立GBDT模型對玉米產(chǎn)量進行預測。實驗結(jié)果表明,基于氣象、土壤等因素的GBDT模型的預測誤差R2達到0.92,BP、RBF模型的R2分別為0.803、0.677,說明GBDT模型具有較高的準確性,對玉米的產(chǎn)量預測具有一定的參考意義,未來將考慮應(yīng)用于更多地區(qū)及作物種類。
參考文獻:
[1] 路思恒,尹紅.基于BP神經(jīng)網(wǎng)絡(luò)對云南省糧食產(chǎn)量的預測模型[J].農(nóng)業(yè)裝備與車輛工程,2023,61(1):39-43.
[2] PIEKUTOWSKA M, NIEDBA?覵A G, PISKIER T, et al. The application of multiple linear regression and artificial neural network models for yield prediction of very early potato cultivars before harvest [J]. Agronomy, 2021,11(5):885.
[3] 顧麗麗,劉勇,王亮.基于ASSA-GRNN的施肥量預測與控制實現(xiàn)[J].農(nóng)機化研究,2021,43(10):1-6.
[4] CHENG M, PENUELAS J, MCCABE M F, et al. Combining multi-indicators with machine-learning algorithms for maize yield early prediction at the county-level in China [J]. Agricultural and Forest Meteorology, 2022,323:109057.
[5] 周修理,張萍萍,秦娜,等.基于GA-RF模型土壤堅實度對黑土區(qū)大豆產(chǎn)量的影響[J].東北農(nóng)業(yè)大學學報,2022,53(10):67-75.
[6] CHRISTOPHER B, TIMOTHY F, BEN P. Identifying links between monsoon variability and rice production in India through machine learning [J]. Scientific reports, 2023,13(1):2446.
[7] NISHIGANDHA K, LOCHAN D R, PARISHMITA D, et al. Forecasting yield of rapeseed and mustard using multiple linear regression and ANN techniques in the Brahmaputra valley of Assam, North East India[J].Theoretical and Applied Climatology,2022,150(3-4):1201-1215.
[8] 丁鵬,徐愛俊,周素茵.基于梯度提升決策樹多特征結(jié)合的茶葉產(chǎn)量預測[J].西南農(nóng)業(yè)學報,2021,34(7):56-63.
[9] NY?魪KI A, KEREPESI C, DAR?譫CZY B, et al. Application of spatio-temporal data in site-specific maize yield prediction with machine learning methods[J].Precision Agriculture,2021(22):1397-1415.
基金項目:吉林省科技發(fā)展計劃項目(YDZJ202201ZYTS692)
第一作者簡介:徐子曦(2000-),女,碩士研究生。研究方向為農(nóng)業(yè)信息化等。
通信作者:唐友(1979-),男,博士,教授。研究方向為農(nóng)業(yè)信息化等。