嚴(yán)志雁,王芳東,郭 熙,丁 建
(1.江西省農(nóng)業(yè)科學(xué)院農(nóng)業(yè)經(jīng)濟(jì)與信息研究所,江西南昌 330200;2.江西省農(nóng)業(yè)信息化工程技術(shù)研究中心,江西南昌 330200;3.江西省農(nóng)業(yè)科學(xué)院基地管理中心,江西南昌 330200;4.江西農(nóng)業(yè)大學(xué)江西省鄱陽湖流域農(nóng)業(yè)資源與生態(tài)重點(diǎn)實(shí)驗(yàn)室,江西南昌 330045)
【研究意義】葉綠素是植被光合作用的重要色素,研究表明便攜式葉綠素儀測定的葉片綠色度(SPAD值)與葉綠素含量正相關(guān),SPAD值能代替實(shí)驗(yàn)室檢測測定葉綠素含量[1?3]。構(gòu)建基于高光譜技術(shù)的水稻葉片SPAD估算模型,可實(shí)現(xiàn)對水稻葉片葉綠素含量的實(shí)時(shí)無損監(jiān)測?!厩叭搜芯窟M(jìn)展】已有學(xué)者采用不同數(shù)據(jù)預(yù)處理方法及預(yù)測模型對水稻葉片SPAD值進(jìn)行預(yù)測。武旭梅等[4]運(yùn)用水稻葉片波段組合的方式構(gòu)建了一系列植被指數(shù),篩選最佳植被指數(shù)作為自變量,應(yīng)用普通回歸分析方法和隨機(jī)森林算法估算水稻冠層SPAD。于滋洋等[5]對葉片光譜反射率進(jìn)行去包絡(luò)線(CR)處理,采用可見光近紅外波段提取水稻葉片反射光譜特征參數(shù)和植被指數(shù),采用隨機(jī)森林算法構(gòu)建不同輸入量的SPAD高光譜估算模型。孫玉婷等[6]采用歸一化法對數(shù)據(jù)進(jìn)行預(yù)處理,建立以葉色圖像RGB值為輸入?yún)?shù)、葉片SPAD值為輸出參數(shù)的支持向量機(jī)回歸模型。孫小香等[7]利用主成分分析對原始光譜數(shù)據(jù)進(jìn)行降維,將得到的主成分作為輸入變量,分別應(yīng)用逐步多元線性回歸分析法與支持向量回歸法構(gòu)建葉片SPAD值的高光譜估算模型。李永梅等[8]對水稻葉片反射光譜及SPAD值與氮素含量進(jìn)行相關(guān)分析,篩選診斷氮素含量的特征光譜并構(gòu)建氮素估算模型。還有學(xué)者用高光譜技術(shù)對小麥、油菜、生菜和柑橘等其他作物開展研究[9?12],分別采用基線校正、多元散射校正、標(biāo)準(zhǔn)正態(tài)變換、Savitzky?Golay(SG)卷積平滑濾波和一階導(dǎo)數(shù)等預(yù)處理方法,分析比較線性回歸、偏最小二乘、支持向量機(jī)、BP神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林等模型預(yù)測作物葉片營養(yǎng)元素[13?18]?!颈狙芯壳腥朦c(diǎn)】現(xiàn)有對水稻葉片SPAD值高光譜估測模型的研究僅采用一種或少數(shù)幾種方法進(jìn)行數(shù)據(jù)預(yù)處理,采用基線校正、多元散射校正、標(biāo)準(zhǔn)正態(tài)變換等數(shù)據(jù)校正預(yù)處理方式及模型選取對水稻葉片SPAD值預(yù)測結(jié)果精度的影響及原因尚不清楚。【擬解決的關(guān)鍵問題】為比較不同預(yù)處理方法及模型選取對水稻葉片SPAD值預(yù)測模型精度的影響,本文選用7種預(yù)處理方法,結(jié)合偏最小二乘回歸(partial least squares regression,PLSR)、支持向量機(jī)回歸(support vector regression,SVR)以及隨機(jī)森林回歸(random forest regressor,RFR)3種回歸建模算法,建立水稻葉片SPAD值的高光譜預(yù)測模型,對比篩選預(yù)測水稻葉片SPAD值的最佳預(yù)處理方法和模型。
為使樣本間葉綠素含量產(chǎn)生明顯差異,本文設(shè)計(jì)了不同氮肥運(yùn)籌田間試驗(yàn)。試驗(yàn)區(qū)位于江西省崇仁縣郭圩鄉(xiāng),水稻栽培品種為晚稻泰優(yōu)390,試驗(yàn)設(shè)置8個(gè)不同肥料運(yùn)籌試驗(yàn)處理:(1)不施肥(對照)、(2)10?0?0?0(基肥?分蘗肥?穗肥?粒肥,下同)、(3)6?4?0?0、(4)4?3?2?1、(5)4?2?2?2、(6)4?1?4?1、(7)3?2?3?2、(8)2?3?4?1,各施肥處理間氮、磷、鉀總量相同(氮肥27.75 kg/hm2、磷肥35.25 kg/hm2、鉀肥21.00 kg/hm2)。每個(gè)處理設(shè)置3次重復(fù),共24個(gè)試驗(yàn)小區(qū)。分別于水稻分蘗期、抽穗期、灌漿期、成熟期等4個(gè)關(guān)鍵生育時(shí)期進(jìn)行采樣,共獲取葉片光譜和葉片SPAD值96組。
水稻葉片光譜采用ASD FildSpec 4背掛型地物光譜儀和葉片夾進(jìn)行測定。每個(gè)試驗(yàn)小區(qū)取3株植株、每株選取5片劍葉,用葉片夾進(jìn)行葉片光譜測定,每次測量前及時(shí)進(jìn)行標(biāo)準(zhǔn)白板校正,每片葉片測定按照上、中、下不同位置(避開葉脈)進(jìn)行采集,取5個(gè)光譜反射率平均值作為該點(diǎn)的光譜反射率,取葉片光譜反射率平均值作為該植株樣本的光譜反射率,3株的葉片反射率平均值作為該試驗(yàn)小區(qū)的葉片反射率。共獲取葉片反射率數(shù)據(jù)96組。
研究表明水稻葉片綠色度(SPAD)值與葉綠素含量具有顯著的相關(guān)性[3],本文用SPAD值代表稻葉葉綠素含量,采用SPAD?502型手持式葉綠素儀測定SPAD值。每株水稻取5片稻葉,測定葉片中部的SPAD值,取均值作為該株葉片的SPAD值。每小區(qū)取3株水稻的SPAD值的平均值作為該小區(qū)的葉片SPAD值。共獲取葉片SPAD值96個(gè)。
本文選取基線校正、多元散射校正、標(biāo)準(zhǔn)正態(tài)變換、Savitzky?Golay平滑等數(shù)據(jù)校正算法對光譜進(jìn)行預(yù)處理,方法如表1所示。經(jīng)多次試驗(yàn),選取預(yù)測結(jié)果最佳的參數(shù)作為預(yù)處理方法的參數(shù),預(yù)處理后樣本的平均光譜圖像如圖1所示。
表1 光譜數(shù)據(jù)的預(yù)處理方法Tab.1 Pre-processing method supplied to the spectral curves
本文選用偏最小二乘回歸(PLSR)、支持向量機(jī)回歸(SVR)以及隨機(jī)森林回歸(RFR)3種方法進(jìn)行建模,模型的自變量為350~2 500 nm全波段光譜,因變量為SPAD值,依據(jù)決定系數(shù)R2、均方根誤差值(root means quare error,RMSE)及相對分析誤差(residual predictive deviation,RPD)來檢驗(yàn)?zāi)P偷木扰c可靠性,篩選模型。
PLSR、SVR、RFR模型于Python3環(huán)境編譯實(shí)現(xiàn),采用train_test_splitt()函數(shù)劃分訓(xùn)練集和驗(yàn)證集,驗(yàn)證集數(shù)量為樣本數(shù)的25%,采用ShuffleSplit()函數(shù)進(jìn)行隨機(jī)置換交叉驗(yàn)證,份數(shù)K=10,采用Grid-SearchCV()函數(shù)選取最佳超參數(shù)[19]。
圖1 預(yù)處理后的光譜反射率Fig.1 Spectral reflectance after pre?processing
結(jié)合不同預(yù)處理方法,采用PLSR模型建立葉片SPAD值估測模型,其建模精度與預(yù)測精度如表2所示。建模集所有預(yù)處理方法中,最優(yōu)預(yù)處理為BC法,決定系數(shù)R2為0.95、RMSE為8.27、RPD為4.67;驗(yàn)證集所有預(yù)處理方法中,最優(yōu)預(yù)處理也為SG+BC法,決定系數(shù)R2為0.82、RMSE為14.43、RPD為2.44。采用BC、SG、SG+BC、SG+SNV法均大幅提高了PLSR模型驗(yàn)證集的決定系數(shù)R2,MSC、SNV、SG+MSC降低了驗(yàn)證集的決定系數(shù)R2。圖2為PLSR高光譜模型預(yù)測SPAD值最佳結(jié)果(R2=0.82)。
表2 偏最小二乘回歸葉片SPAD值預(yù)測模型統(tǒng)計(jì)Tab.2 Statistics results for spectral models of SPAD value by PLSR
采用SVR模型,結(jié)合不同預(yù)處理方法建立水稻葉片SPAD值估測模型,其建模精度與預(yù)測精度如表3所示。訓(xùn)練集所有預(yù)處理方法中,最優(yōu)預(yù)處理為BC法,決定系數(shù)R2為0.98、RMSE為0.10、RPD為388.21;驗(yàn)證集所有預(yù)處理方法中,最優(yōu)預(yù)處理為SG+BC法,決定系數(shù)R2為0.86、RMSE為13.12、RPD為2.66。采用SG、SG+BC提高了SVR模型驗(yàn)證集的決定系數(shù)R2。圖3為SVR高光譜模型預(yù)測SPAD值最佳結(jié)果(R2=0.86)。
圖2 PLSR模型預(yù)測SPAD與實(shí)測數(shù)驗(yàn)證Fig.2 Result of validation between measured and predicted SPAD by using PLSR model
圖3 SVR模型預(yù)測SPAD與實(shí)測數(shù)驗(yàn)證Fig.3 Result of validation between measured and predicted SPAD by using SVR model
表3 支持向量機(jī)回歸葉片SPAD值預(yù)測模型統(tǒng)計(jì)Tab.3 Statistics results for spectral models of SPAD value by SVR
采用RFR模型,結(jié)合不同預(yù)處理方法,建立葉片SPAD值估測模型,其建模精度與預(yù)測精度如表4所示。訓(xùn)練集所有預(yù)處理方法建模處理后,預(yù)測精度最優(yōu)的預(yù)處理方法為SG法,決定系數(shù)R2為0.96、RMSE為7.80、RPD為4.95;驗(yàn)證集所有預(yù)處理方法建模后得到的決定系數(shù)R2平均系數(shù)為0.69,預(yù)測精度最優(yōu)的預(yù)處理方法為SG+BC法,決定系數(shù)R2為0.87、RMSE為12.38、RPD為2.82。采用SG、SG+BC、SG+MSC、SG+SNV提高了RFR模型驗(yàn)證集的決定系數(shù)R2。圖4為RFR高光譜模型預(yù)測SPAD值的最佳結(jié)果(R2=0.87)。
圖4 RFR模型預(yù)測SPAD與實(shí)測數(shù)驗(yàn)證結(jié)果Fig.4 Result of validation between measured and predicted SPAD by using RFR model
與原始光譜數(shù)據(jù)建模結(jié)論相比較,提高了驗(yàn)證集預(yù)測精度的預(yù)處理方法為有效預(yù)處理方法,有效預(yù)處理方法的模型平均預(yù)測精度如表5所示。由表2~表5結(jié)果可知,PLSR模型中,BC、SG、SG+BC、SG+SNV提高了驗(yàn)證集模型精度,這4種預(yù)處理與原始光譜建模的平均決定系數(shù)R2為0.67、平均RMSE為19.24、平均RPD為1.90。SVR模型中,SG、SG+BC提高了驗(yàn)證集模型精度2種,這2種預(yù)處理與原始光譜建模的平均決定系數(shù)R2為0.74、平均RMSE為17.28、平均RPD為2.11。RFR模型中,SG、SG+BC、SG+MSC、SG+SNV提高了驗(yàn)證集模型精度,這4種預(yù)處理與原始光譜建模的平均決定系數(shù)R2為0.84、平均RMSE為13.70、平均RPD為2.59。RFR模型比SVR和PLSR模型的驗(yàn)證集預(yù)測精度有明顯提高,訓(xùn)練集的平均決定系數(shù)R2提高為0.06~0.15,平均RMSE降低為3.46~7.78,平均RPD提高為0.51~2.24;預(yù)測集的平均決定系數(shù)R2提高為0.04~0.17,平均RMSE降低為1.36~5.54,平均RPD提高為0.20~0.69。
表4 隨機(jī)森林回歸葉片SPAD值預(yù)測模型統(tǒng)計(jì)Tab.4 Statistics results for spectral models of SPAD value by RFR
表5 有效預(yù)處理方法的模型預(yù)測精度均值Tab.5 Mean result of SPAD value prediction model by pretreatment methods
本文計(jì)算了7種光譜預(yù)處理方法結(jié)合PLSR、SVR、RFR 3種模型預(yù)測水稻葉片SPAD值,目的是針對不同建模模型篩選合適的預(yù)處理方法。
在PLSR模型中,所選BC、SG、SG+BC、SG+SNV法預(yù)處理后提高了驗(yàn)證集的模型精度。PLSR實(shí)質(zhì)是基于多項(xiàng)式的線性回歸模型,除自變量和因變量本身的相關(guān)性外,其建模精度的影響因素主要是去除噪音或不相關(guān)因素的影響[20];BC預(yù)處理使得光譜曲線擁有的水平基線同時(shí)除光譜信號(hào)中的基線干擾信號(hào)(低頻噪音)[21?22];SG平滑預(yù)處理使光譜曲線更加平滑,消除了光譜曲線上的細(xì)小噪聲,在一定程度上可以提高信噪比[23];SNV的作用是將數(shù)據(jù)標(biāo)準(zhǔn)化,并將數(shù)據(jù)調(diào)整為標(biāo)準(zhǔn)正態(tài)分布,其作用主要是消除固體顆粒大小、表面散射以及光程變化對漫反射光譜的影響[[24?25]。單獨(dú)采用SNV預(yù)處理沒有提高模型預(yù)測精度,SG平滑預(yù)處理大幅提高了模型精度,所以SG+SNV也提升了模型精度。
在SVR模型中,SG、SG+BC預(yù)處理提高了驗(yàn)證集的模型精度;單獨(dú)采用BC的訓(xùn)練集決定系數(shù)R2達(dá)到0.95,卻沒有提高模型驗(yàn)證集精度,說明單獨(dú)采用BC使SVR模型過擬合;SG+BC的精度提升,也是由于SG平滑預(yù)處理提高了驗(yàn)證集的模型精度。BC、SG+MSC、SG+SNV預(yù)處理提升了訓(xùn)練集的模型精度,降低了驗(yàn)證集的精度,說明對于SVR模型,這些預(yù)處理可能會(huì)使模型出現(xiàn)過擬合現(xiàn)象,使得模型泛化效果不佳。
在RFR模型中,原始光譜的訓(xùn)練集建模精度較高,驗(yàn)證集建模精度較低,說明在數(shù)據(jù)未預(yù)處理的情況下,RFR模型會(huì)出現(xiàn)過擬合現(xiàn)象。SG及SG符合預(yù)處理均提高了RFR模型的驗(yàn)證集建模精度,說明消除數(shù)據(jù)細(xì)小噪聲能明顯提高RFR模型精度。BC單項(xiàng)預(yù)處理提高了訓(xùn)練集的建模精度但未提高驗(yàn)證集合的精度,說明BC預(yù)處理可能會(huì)使RFR模型出現(xiàn)過擬合現(xiàn)象。
在所有預(yù)處理中,SG+BC均為最優(yōu)預(yù)處理方法,說明儀器操作等原因?qū)е滦盘?hào)不穩(wěn)定的噪聲、背景細(xì)小噪聲和信號(hào)的低頻干擾,對于水稻葉片高光譜反演精度有重大的影響。
由表5可知,RFR模型優(yōu)于SVR、PLSR模型的精度。PLSR能夠解決多變量和變量之間的多重相關(guān)性等問題,但在對數(shù)據(jù)進(jìn)行主成分變換后會(huì)損失部分有效信息,且PLSR在解決非線性問題時(shí)表現(xiàn)能力較弱,本文采用高光譜特征參數(shù)作為輸入估算水稻葉片SPAD值,數(shù)據(jù)多重相關(guān)性小,需要采用非線性模型進(jìn)行建模。RFR、SVR法能解決非線性問題,SVR對通過核函數(shù)來把數(shù)據(jù)從源空間映射到目標(biāo)空間來處理非線性問題,但建模精度受模型參數(shù)設(shè)置的影響很大,需要做大量參數(shù)的調(diào)試;RFR法將性能較弱的多個(gè)分類回歸樹經(jīng)過一定規(guī)則組合成一片森林,并通過森林中所有決策樹投票得出預(yù)測結(jié)果,RFR的參數(shù)設(shè)置對其建模精度較小,在多分類或回歸問題上,RFR的泛化能力顯著優(yōu)于支持向量機(jī)[26],因此,在估測水稻SPAD值時(shí),RFR有更為明顯的優(yōu)勢,在實(shí)際應(yīng)用中可為未來精準(zhǔn)農(nóng)業(yè)提供精準(zhǔn)的運(yùn)算模型。
本研究采用7種光譜預(yù)處理方法集合PLSR、SVR、RFR 3種建模方法預(yù)測水稻葉片SPAD值對比發(fā)現(xiàn),采用不同光譜預(yù)處理方法和建模方法對建模的精度有如下影響:
(1)對于采用350~2 500 nm光譜數(shù)據(jù)作為自變量,SPAD值作為因變量,BC、SG、SG+BC、SG+SNV預(yù)處理提高PLSR模型驗(yàn)證集建模精度,平均決定系數(shù)R2提高了0.21、平均RMSE降低了6.00,平均RPD提高了0.52;SG、SG+BC預(yù)處理提高了SVR模型驗(yàn)證集建模精度,平均決定系數(shù)R2提高了0.10、平均RMSE降低了3.77,平均RPD提高了0.53;SG、SG+BC、SG+MSC、SG+SNV提高RFR模型驗(yàn)證集建模精度,平均決定系數(shù)R2提高了0.23、平均RMSE降低了7.87,平均RPD提高了0.97。
(2)SG+BC預(yù)處理能提高PLSR、SVR、RFR模型建模精度,說明消除信號(hào)不穩(wěn)定造成的噪聲、背景細(xì)小噪聲和低頻信號(hào)干擾對于提高水稻葉片SPAD值的高光譜反演精度有重要的作用。
(3)數(shù)據(jù)預(yù)處理后隨機(jī)森林回歸模型RFR模型精度最佳,驗(yàn)證集的平均決定系數(shù)R2為0.84,RMSE為13.70,RPD為2.59,與PLSR與SVR兩種模型建模比較,驗(yàn)證集R2提高為0.04~0.17,平均RMSE降低為1.36~5.54,平均RPD提高為0.20~0.69。
綜上所述,采用SG及其復(fù)合預(yù)處理方法處理光譜數(shù)據(jù),可使隨機(jī)森林回歸模型估測稻葉SPAD值的精度最佳。SG預(yù)處理方法與隨機(jī)森林回歸模型結(jié)合使用,可作為高光譜估測稻葉SPAD值的參考方法。