陳 斌
(廣東生態(tài)工程設(shè)計(jì)研究院有限公司,廣州 510630)
葉綠素是植被進(jìn)行光合代謝的重要載體,其含量與植被光能轉(zhuǎn)化、生理固碳等功能有著密切的聯(lián)系,是監(jiān)測(cè)植被生長(zhǎng)狀況重要的生化參數(shù)之一,準(zhǔn)確快速地對(duì)葉綠素含量進(jìn)行定量估測(cè)對(duì)植被生境具有重要意義。高光譜遙感技術(shù)為估測(cè)植被葉綠素含量提供了極大的便利,當(dāng)前常用的方法主要可歸納為2種經(jīng)驗(yàn)?zāi)P秃臀锢砟P?。前者主要是基于植被光譜指數(shù)與葉綠素含量的經(jīng)驗(yàn)或半經(jīng)驗(yàn)關(guān)系,從而建立起有效的估算模型,該方法的主要優(yōu)點(diǎn)是建模方便,但模型的普適性較差。相比而言,物理模型具有較為清晰的機(jī)理,且模型通常具有一定的普適性,但該模型對(duì)調(diào)參的依賴(lài)高,尤其在缺參的條件下極大影響精度??偠灾谥脖蝗~綠素含量遙感估測(cè)研究方面,在方法上仍有進(jìn)一步改進(jìn)的空間。
隨機(jī)森林(random forest, RF)可以很好地預(yù)測(cè)上千個(gè)解釋變量的貢獻(xiàn),不需過(guò)多調(diào)參,具有抗噪能力強(qiáng)、多元共線(xiàn)性不敏感等優(yōu)點(diǎn)。隨機(jī)森林算法已經(jīng)被廣泛應(yīng)用到各方面的研究[1-2]。當(dāng)前RF模型應(yīng)用于濕地植被葉綠素含量估測(cè)的相關(guān)研究還鮮有報(bào)道。該文以洞庭湖濕地最大的建群種植物—苔草為研究對(duì)象,以6種植被光譜指數(shù)為輸入變量,在R軟件平臺(tái)上建立葉綠素含量隨機(jī)森林估測(cè)模型,以期為植被葉綠素定量估測(cè)提供新的方法和思路。
利用FieldSpec 4便攜式地物光譜儀,于2018年11月1到3號(hào)對(duì)洞庭湖濕地最大的建群種—苔草(Carexcinerascens)的光譜數(shù)據(jù)進(jìn)行采集。同時(shí)利用 SPAD-502葉綠素儀測(cè)定苔草葉綠素SPAD值。后續(xù)的實(shí)驗(yàn)中,劃分31組葉綠素SPAD值數(shù)據(jù)為訓(xùn)練樣本用以建模,另取30組數(shù)據(jù)用于檢驗(yàn)?zāi)P偷墓罍y(cè)效果[1-3]。
該文采用多種植被光譜指數(shù)作為RF模型的輸入變量,通過(guò)優(yōu)化模型的參數(shù),從而提高模型的預(yù)測(cè)精度。6種光譜指數(shù)具體表達(dá)及與SPAD值的相關(guān)系數(shù)如表1中所示。
表1 植被光譜指數(shù)選取
該研究基于R軟件平臺(tái),運(yùn)行(1)中的命令以建立隨機(jī)森林模型,運(yùn)行(2)中的命令利用檢驗(yàn)樣本對(duì)模型估測(cè)效果進(jìn)行檢驗(yàn)。
rf=randomForest(S1~.,data,ntree=1000,mtry=3)
(1)
predict(rf, new.data,type=”response”)
(2)
其中S1表示輸出變量,在該文中為葉綠素SPAD值;data表示輸入路徑;ntree表示隨機(jī)森林模型中單棵樹(shù)性能的樹(shù)節(jié)點(diǎn)預(yù)選變量個(gè)數(shù),一般ntree值應(yīng)不小于100;mtry表示分類(lèi)樹(shù)每個(gè)節(jié)點(diǎn)用以二分?jǐn)?shù)據(jù)的自變量個(gè)數(shù),mtry值等于解釋變量數(shù)目的平方根。在該文中先采用mtry=3、ntree=1 000進(jìn)行建立模型。predict為預(yù)測(cè)分類(lèi)函數(shù),其中rf為基于預(yù)測(cè)樣本的隨機(jī)森林建模結(jié)果,new.data在本文中表示輸入的檢驗(yàn)樣本,type表示對(duì)輸入樣本進(jìn)行預(yù)測(cè)[4-6]。
該文根據(jù)三項(xiàng)指標(biāo)對(duì)模型結(jié)果做出評(píng)價(jià),分別為平均絕對(duì)誤差(MAE)、平均誤差平方和(MSE)和相對(duì)誤差平方和(NMSE),指標(biāo)數(shù)值越小表示模型的預(yù)測(cè)值與真實(shí)值間的差異越小,隨機(jī)森林對(duì)葉綠素預(yù)測(cè)能力越強(qiáng)。三項(xiàng)指標(biāo)公式表示如(3)~(5)所示。
(3)
(4)
(5)
圖1為基于隨機(jī)森林模型的葉綠素SPAD預(yù)測(cè)值和真實(shí)值間的相關(guān)圖。同時(shí),將該模型效果與多元線(xiàn)性 (Multiple linear regression, MLR)和一元線(xiàn)性回歸模型(A linear regression, ALR)作為對(duì)比(圖2和表2)。結(jié)合圖表結(jié)果可見(jiàn),RF模型對(duì)植被葉綠素SPAD預(yù)測(cè)效果優(yōu)于其它兩種模型。總而言之,RF模型表現(xiàn)出了優(yōu)越的預(yù)測(cè)性能[7-9]。
圖1 基于RF的預(yù)測(cè)效果
圖2 基于MLR的預(yù)測(cè)效果
表2 光譜指數(shù)表現(xiàn)效果
該文利用隨機(jī)森林模型對(duì)洞庭湖典型植被苔草的葉綠素進(jìn)行了估測(cè)。在該方法中,首先選取了6種植被光譜指數(shù)作為隨機(jī)森林模型的輸入變量,通過(guò)優(yōu)化模型參數(shù),進(jìn)而對(duì)植被葉綠素含量進(jìn)行估測(cè),最后將該模型的估測(cè)效果與多元線(xiàn)性回歸模型進(jìn)行了比較分析[10-11]。研究表明,利用隨機(jī)森林模型可以很好地對(duì)植被葉綠素進(jìn)行估測(cè),隨機(jī)森林模型構(gòu)建簡(jiǎn)捷、數(shù)據(jù)處理能力強(qiáng)大。從模型預(yù)測(cè)的精度結(jié)果可以看出,相比較一元和多元線(xiàn)性回歸模型,隨機(jī)森林模型具有更優(yōu)的預(yù)測(cè)性能(R2=0.94)[12-13]。