于海洋,陳圣波,楊北萍,安秦
1.吉林大學 地球探測科學與技術學院,長春 130026;2.山西能源學院 地質測繪工程系, 山西 晉中 030600
農作物產量的監(jiān)測對于中國糧食政策的制定和農業(yè)種植決策方案的安排有著重要的作用[1]。遙感數據具有數據范圍大、數據時相多的特點,能夠反映農作物在整個生育期一定區(qū)域上的生長狀況。目前應用廣泛的估產模型主要是經驗回歸模型,通常選擇與農作物生長關系密切的植被指數建模[2]。玉米單產可以通過歸一化差值植被指數(normalized difference vegetation index, NDVI)進行模擬[3--4],也可以構建比值植被指數(ratio vegetation index, RVI)和葉面積指數(leaf area index, LAI)與產量之間的關系模型[5]。通過時間序列NDVI與作物產量建立回歸模型,可以預測江蘇省的水稻產量[6],將多種植被指數進行組合成功建立了河北省冬小麥的估產模型[7]。經驗回歸模型是一種線性模型,而人工神經網絡是一種非線性模型[8],具有通過學習逼近任意非線性映射的能力,可以使產量的預測減少所需要的同時期的采樣數量,使得產量估算過程更加高效并減少人力物力資源的消耗。
BP神經網絡是一種流行的機器學習模型,通過訓練給出最接近期望輸出值的結果[9],利用BP神經網絡結合遙感數據進行產量估算的研究相對較少。遺傳算法可以優(yōu)化BP神經網絡的權重和閾值,改善BP神經網絡在學習過程中遇到的陷入局部最小值的問題。以BP神經網絡可以建立山東省禹城市的冬小麥產量的估算模型[10],平均相對誤差為13.1%。以BP神經網絡建立吳橋實驗站的冬小麥估產模型[11],最大相對誤差為3.42%。對于BP神經網絡的應用比較廣泛,但是對于利用植被指數進行大面積的產量估算研究較少,因此采用遙感數據可以提高估產效率,應用于較大面積。本文利用高分一號全色多光譜影像提取的內蒙古開魯縣4種植被指數為訓練數據,通過遺傳算法優(yōu)化BP神經網絡,得到預測玉米產量,以期使該地區(qū)的估產更加準確、高效、宏觀。
開魯縣位于內蒙古自治區(qū)東部,通遼市西部,屬于大陸性溫帶半干旱季風氣候,年平均氣溫5.9℃,平均降雨量338.3 mm。開魯縣種植的主要農作物為玉米,研究區(qū)玉米普遍在5月下旬播種,9月進入收獲期。
1.2.1 遙感數據
高分一號衛(wèi)星是中國于2013年發(fā)射的高分辨率對地觀測衛(wèi)星,其搭載了兩臺2 m分辨率全色/8 m分辨率多光譜相機,重訪周期為4 d;以及4臺16 m分辨率多光譜相機,重訪周期為2 d。采用高分一號衛(wèi)星16 m分辨率的數據,數據來源于中國資源衛(wèi)星應用中心(http://www.cresda.com/CN/)。在選取影像時,為使植被指數的運算更加準確并且覆蓋整個研究區(qū),選擇2018年8月2日一幅影像和2018年9月12日兩幅影像。
1.2.2 產量數據
本文產量數據均來源于實地采樣。2018年9月至10月,在開魯縣實地采樣46個點。根據實地采樣點采集的玉米棒,經過脫粒、烘干、測水和稱重等一系列操作,計算出采樣點處玉米產量值,單位為斤/畝。產量采樣點位于開魯縣12個鎮(zhèn),開魯縣地理位置及采樣點分布如圖1所示。
監(jiān)測作物長勢的有效方法是利用多光譜數據的多個通道反射率值得到植被指數。綠色植被的葉綠素a和葉綠素b對于各個波段的光譜吸收不同,因為植被指數可以反映植被的生長狀況,典型的植被指數有4種。歸一化差值植被指數NDVI表示為植被近紅外波段發(fā)射率與紅波段反射率的差值與兩者加和的比值,對于模擬地表作物的生長狀態(tài)有著重要作用。計算公式如下:
NDVI=(ρNIR-ρR/(ρNIR+ρR)
(1)
式中:ρNIR、ρR分別為近紅波段和紅光波段反射率。
比值植被指數RVI(red vegetation index)表示為植被近紅外波段反射率與紅波段反射率的比值,與植物葉綠素含量相關性較高。計算公式如下:
RVI=ρNIR/ρR
(2)
增強植被指數EVI(enhanced vegetation index)具有較強的識別作物的能力,計算公式如下:
EVI=2.5×(ρNIR-ρR)/(ρNIR+6.0×ρR-7.5×ρB+1)
(3)
式中:ρNIR、ρR、ρB分別為近紅、紅和藍波段反射率。EVI可以矯正土壤背景對植被反射率的影響。
圖1 開魯縣地理位置與采樣點分布圖Fig.1 Position of Kailu County and distribution of samples
另外,將近紅波段與綠波段反射率比值定為植被指數G(green),計算公式如下:
G=ρNIR/ρG
(4)
式中:ρNIR、ρG分別為近紅和綠波段反射率,反映植物的綠色程度。
NDVI、RVI、EVI和G為4種指數增強植被光譜信息并反映植被生長狀況,故選擇4種指數作為玉米產量模擬的訓練數據。
BP(back propagation)神經網絡是一種反向誤差傳播的神經網絡[12],一般分為3層,即輸入層、隱藏層和輸出層,BP神經網絡的結構示意如圖2所示。
圖2 BP神經網絡結構示意圖Fig.2 Schematic diagram of BP neural network structure
由圖2可知,Xi(i=1,2,…,n)為輸入層元素;Yj(j=1,2,…,m)為輸出層元素;ω、b分別為輸入層與隱藏層、隱藏層與輸出層之間的權重和閾值;Oj(j=1,2,…,m)為輸出層的期望輸出值。
遺傳算法(genetic algorithm,GA)來源于“優(yōu)勝劣汰、適者生存”理論,是一種通過模擬自然界當中生物的遺傳和進化過程,求解全局優(yōu)化概率最佳解的算法[12]。其中,適應度函數是確定所求解是否為最佳解的依據,也是遺傳算法的核心部分。初始化后種群中的個體,經過交叉、變異操作,對其進行篩選,最終得到滿足條件的新個體。新的個體相比于原始個體,更加接近于期望輸出。經歷反復的循環(huán)和篩選,得到滿足條件的新種群,即輸出值。
由于傳統(tǒng)的BP神經網絡,其初始的權重和閾值是幾組0到1之間的隨機數,網絡達到收斂需要較多的迭代次數,而遺傳算法可以通過全局的解算得到最佳解,因而采用遺傳算法將BP網絡的初始權重和閾值進行優(yōu)化,可提高BP神經網絡的運算速度并減少訓練網絡所需時間。將遺傳算法運用到BP神經網絡的技術路線如圖3所示。
圖3 遺傳算法優(yōu)化BP神經網絡Fig.3 Genetic algorithm optimized BP neural network
由圖3可知,遺傳算法首先對初始輸入數據進行編碼,以BP神經網絡訓練的誤差作為適應度函數,適應度函數F的表達式如公式(5)所示。
(5)
式中:yj是網絡第j個節(jié)點的期望輸出;Oj是網絡第j個節(jié)點的預測輸出;n為節(jié)點的個數;k是調節(jié)系數。將完成上述操作的個體進行適應度值判斷,滿足條件的個體作為BP神經網絡的優(yōu)化權重和優(yōu)化閾值。BP神經網絡的誤差值計算公式如(6)所示。
(6)
式中:yj是節(jié)點j的輸出值;Oj是節(jié)點j的期望輸出值,二者差值平方和的一半為整個網絡的誤差E(ω,b)。當網絡達到設定的循環(huán)次數或達到精度時,停止訓練并生成輸出結果。利用sim函數對結果進行仿真,得到最終的輸出數據,即采樣點的產量值。
本文構建BP神經網絡(BP)和遺傳算法優(yōu)化BP神經網絡(GA--BP)兩種估產模型。BP神經網絡設置輸入層、隱藏層和輸出層節(jié)點數分別為8個、9個、1個。選擇tansig函數作為隱藏層訓練函數,purelin函數作為輸出層訓練函數,訓練精度0.000 1,網絡學習速率設為0.1,同時設置訓練最大循環(huán)次數為2 000,利用sim函數對結果進行仿真。4種植被指數作為輸入,實測產量作為期望輸出。選取41個點為訓練點,5個點為驗證點。BP神經網絡結果與GA--BP神經網絡結果如圖4所示。
圖4 GA--BP和BP神經網絡結果Fig.4 GA--BP and BP neural network results
圖5 開魯縣預測產量分布圖Fig.5 Forecasted yield map of Kailu County
由圖4可知,GA--BP模型對于相對低產(800斤/畝±)和相對高產(1 200斤/畝)的模擬效果都比BP模型效果好。對比BP模型與GA--BP模型之間驗證點相對誤差,BP模型的最大相對誤差為-59.16%,最小相對誤差為12.20%,平均相對誤差為29.23%。GA--BP模型的最大相對誤差為11.59%,最小相對誤差為-0.86%,平均相對誤差為5.27%。BP模型對于低產量的模擬結果與實際值之差較大,GA--BP模型對于高產量和低產量的模擬情況誤差較小。
將生成的神經網絡保存,利用開魯地區(qū)全部玉米地4種植被指數影像作為輸入,生成開魯縣2018年玉米預測產量分布圖(圖5)。
由圖5可知,開魯2018年預測產量最大值為1 986.12斤/畝,預測產量最小值為812.27斤/畝。利用神經網絡可以生成區(qū)域性的產量圖(圖5),可以看出,開魯縣東南部產量集中在1 500斤/畝以下,高產地區(qū)集中在開魯縣中部。
相關系數(R2)和均方根誤差(RMSE)是用來判斷模型結果的參數,R2的計算公式如下:
(7)
均方根誤差RMSE是將誤差平方和做平均,再開平方,是表示樣本離散程度的數值,計算公式如下:
(8)
BP神經網絡模型和GA--BP神經網絡模型的R2值與RMSE值如表1所示:
表1 BP模型與GA--BP模型的R2與RMSE
由表1可知,利用BP神經網絡構建的玉米估產模型R2達到0.845 2,具有較好的產量估算能力,RMSE(%)為28.37,表明模型的預測值與真實值之間存在差異。利用遺傳算法優(yōu)化BP神經網絡構建的玉米估產模型R2達到0.985 0,RMSE(%)為6.70,表明模型的預測能力較強,且預測值與真實值之間的差值很小,起到了良好的產量估算作用,并且對于較大產量和較小產量的模擬均具有較強的學習能力。
(1)相對于BP神經網絡,經過遺傳算法優(yōu)化后的BP神經網絡(GA--BP)對于研究區(qū)內玉米產量的估算具有更高的精度和更好的效果,表明GA--BP神經網絡對于數值的預測因其結構的更加復雜而具有更好的預測效果。估產相對誤差由BP神經網絡的最大59.16%,縮小到GA--BP神經網絡的最大11.59%;RMSE(%)由BP神經網絡的28.37,縮小到GA--BP神經網絡的6.70。
(2)利用訓練后的GA--BP神經網絡,生成了開魯地區(qū)2018年玉米產量分布圖,準確反應了開魯縣玉米相對高產與低產分布情況,為大范圍的估產提供了方法。
(3)玉米產量由多種因素決定,本文僅選取乳熟期和成熟期的植被指數建立產量之間的聯系,沒有加入諸如溫度、降水和土壤條件等因素對于玉米產量的影響因子,對于多種因素的聯合作用沒有深入研究。這也成為建立更準確、高效、宏觀的遙感估產模型要思考的重點問題。