陳蜀蓉,張 超,鄭超超,張 偉,伊力塔,2,余樹(shù)全,2*
公益林生物量估算方法研究
——以浙江省縉云縣公益林為例
陳蜀蓉1,張 超1,鄭超超1,張 偉1,伊力塔1,2,余樹(shù)全1,2*
(1. 浙江農(nóng)林大學(xué)林業(yè)與生物技術(shù)學(xué)院,浙江 臨安 311300;2. 亞熱帶森林培育國(guó)家重點(diǎn)實(shí)驗(yàn)室培育基地,浙江 臨安 311300)
以縉云縣公益林為例,利用2010年的117個(gè)公益林固定小班監(jiān)測(cè)數(shù)據(jù)和Landsat5 TM遙感數(shù)據(jù),選取遙感變量和地學(xué)變量等80個(gè)自變量,運(yùn)用多元線性回歸、偏最小二乘回歸、隨機(jī)森林回歸和Erf-BP神經(jīng)網(wǎng)絡(luò)四種模型,對(duì)縉云縣公益林生物量進(jìn)行建模估算,并比較四種方法的優(yōu)缺點(diǎn)。結(jié)果表明:在R2、PRECISION和RMSE方面,隨機(jī)森林回歸優(yōu)于其他方法,而在VR和BIAS方面,Erf-BP神經(jīng)網(wǎng)絡(luò)方法比其他方法更好,但從提高生物量精度和減少均方根誤差綜合評(píng)價(jià),隨機(jī)森林方法是較好的選擇。
生物量;多元線性回歸;偏最小二乘回歸;隨機(jī)森林;Erf-BP神經(jīng)網(wǎng)絡(luò)
森林是地球上最重要的資源之一,也是陸地上生物多樣性最豐富的生態(tài)系統(tǒng)。森林的生物量是研究生態(tài)系統(tǒng)功能和固碳能力的基礎(chǔ),通常以單位面積或單位時(shí)間積累的干物質(zhì)量或能量來(lái)表示,其變化受到森林自身演替、自然干擾、人類活動(dòng)、氣候變化等諸多因素的影響[1],準(zhǔn)確估算森林生物量對(duì)全球碳匯、碳循環(huán)、碳平衡研究以及全球變化的理解有舉足輕重的作用[2]。但由于森林多樣性、復(fù)雜性以及調(diào)查工作的艱巨性等多種原因,森林生物量的估算一直是學(xué)術(shù)界研究的熱點(diǎn)。
目前,由于遙感技術(shù)快速發(fā)展及本身具有諸多優(yōu)點(diǎn),在森林生物量、碳儲(chǔ)量及其空間分布研究中發(fā)揮著越來(lái)越重要的作用[3]。傳統(tǒng)地面樣方實(shí)測(cè)法只能獲得點(diǎn)上的數(shù)據(jù),不利于研究森林生物量的空間分布和變化[4],而遙感圖像光譜信息具有良好的綜合性和顯示性,與樣方實(shí)測(cè)數(shù)據(jù)結(jié)合,為大尺度森林生物量估算與長(zhǎng)時(shí)間動(dòng)態(tài)變化研究提供了重要途徑[5]。
利用遙感影像波段信息、各種衍生指數(shù)、地形及氣象因子與樣地實(shí)測(cè)生物量建立模型估測(cè)森林生物量是目前最為常見(jiàn)的技術(shù)手段之一[2],常用的有以多元線性逐步回歸算法為代表的回歸估計(jì)[6~7]、以BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)算法為代表的非參數(shù)模擬[8]、以序列高斯協(xié)同仿真(Sequential Gaussian Co-simulation)為代表的空間仿真模擬[3]和以隨機(jī)森林(Random Forest)為代表的算法模型估計(jì)[1]等?;貧w估計(jì)雖然可以探索變量間的機(jī)理關(guān)系,但受變量共線性影響,參數(shù)會(huì)隨時(shí)空變化而變化,預(yù)測(cè)精度不夠理想;神經(jīng)網(wǎng)絡(luò)模型雖然解決了生物量與各因子之間的非線性映射關(guān)系,提高了估測(cè)精度[9],但其存在易陷入局部最小點(diǎn)、泛化能力差、模型缺乏生物物理意義的缺點(diǎn)[10];空間仿真模擬盡管在保證局部估計(jì)精度、最大限度再現(xiàn)森林空間分布方面有其獨(dú)特優(yōu)勢(shì)[11],但受搜索半徑優(yōu)化算法的限制,其總體估計(jì)精度仍有待提高。
盡管相關(guān)研究認(rèn)為各類技術(shù)均有自身的優(yōu)缺點(diǎn),但總體來(lái)看,受研究區(qū)地理位置、地形因素、遙感影像數(shù)據(jù)質(zhì)量及信息特征、自變量篩選、不同森林類型及生長(zhǎng)狀況等諸多因素影響,目前要研究構(gòu)建基于生物物理機(jī)理、具有較強(qiáng)可移植性的森林生物量反演模型[12]難度還是很大的,因此近年來(lái)不少學(xué)者把研究重點(diǎn)放在了對(duì)現(xiàn)有模型算法的改進(jìn)修正方面。范文義等[13]和徐小軍等[14]采用集多元線性回歸分析、典型相關(guān)分析和主成分分析于一體的偏最小二乘回歸法分別對(duì)黑龍江長(zhǎng)白山地區(qū)森林生物量和臨安市雷竹林生物量進(jìn)行估算,發(fā)現(xiàn)該方法能夠很好的克服自變量之間的多重共線性,相比逐步回歸法能夠有效提高估算精度;范文義等[2]和余朝林等[12]采用基于高斯誤差函數(shù)的BP神經(jīng)網(wǎng)絡(luò)改進(jìn)模型(Gaussian Error Function,Erf-BP),分別對(duì)黑龍江長(zhǎng)白山地區(qū)森林生物量和浙江省臨安、安吉、龍泉3個(gè)地區(qū)毛竹林生物量進(jìn)行估算,發(fā)現(xiàn)該模型可將輸入變量通過(guò)隱含層非線性映射到更高維特征空間,從而更好地解釋非線性關(guān)系及降低噪聲的影響,避免了傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)模型的缺點(diǎn),估算精度更高;隨機(jī)森林是由Leo Breiman和Cutler Adele 在2001年開(kāi)發(fā)完成的一種現(xiàn)代分類與回歸技術(shù),具有一般分類回歸樹(shù)的所有優(yōu)點(diǎn),但又克服了其缺點(diǎn)[15],王云飛等[1]利用該算法對(duì)景洪市橡膠林生物量進(jìn)行估測(cè),認(rèn)為該方法能夠有效提高生物量反演的精度。
本研究采用地學(xué)參數(shù)和遙感參數(shù),利用Landsat5 TM遙感數(shù)據(jù)和浙江省縉云縣公益林固定小班監(jiān)測(cè)數(shù)據(jù),建立森林生物量與各因子的多元逐步回歸模型、偏最小二乘回歸模型、隨機(jī)森林回歸模型以及Erf-BP神經(jīng)網(wǎng)絡(luò)模型,旨在比較4種改進(jìn)模型算法在估算森林生物量方面上的精度,以尋求高效、準(zhǔn)確的森林生物量估算方法,為區(qū)域尺度森林生物量的估算提供借鑒參考。
浙江省縉云縣(28° 25' ~ 28° 57' N,119° 52' ~ 120° 25' E),位于浙江省麗水市東北部,屬中亞熱帶季風(fēng)氣候,四季分明,溫暖濕潤(rùn),雨量充沛,無(wú)霜期長(zhǎng),具有明顯的山地垂直氣候,年平均氣溫 17.9℃,最冷月平均氣溫7.6℃,極端最低氣溫為-10℃;最熱月平均氣溫27.9℃。縉云縣公益林總面積30 333.33 hm2,占土地總面積的20.17%,占全縣林業(yè)用地面積的26.24%,主要群落類型有松林、杉木林、闊葉林、針闊混交林、毛竹林和灌木林。
2.1 數(shù)據(jù)來(lái)源與處理
以縉云縣二類資源清查數(shù)據(jù)中公益林小班(3 887個(gè))為抽樣總體,按3%抽取117個(gè)固定監(jiān)測(cè)小班。2010 年8-10月,在對(duì)固定監(jiān)測(cè)小班全面普查的基礎(chǔ)上,選取典型地段設(shè)置面積為20 m×20 m的固定樣地,詳細(xì)記錄樣地基本信息,包括經(jīng)緯度、海拔、坡度、坡向等;樣地內(nèi)喬木層(胸徑大于5 cm)采用每木調(diào)查(包括測(cè)定樹(shù)高、胸徑、冠幅和枝下高等),同時(shí)在每塊樣地對(duì)角線上均勻設(shè)置3個(gè)2 m×2 m的灌草固定小樣方,詳細(xì)記錄灌木種類、株數(shù)、蓋度、高度以及草本種類、株數(shù)、蓋度等指標(biāo)。根據(jù)固定小班監(jiān)測(cè)數(shù)據(jù)和浙江省重點(diǎn)公益林生物量模型[16](表1),推算各樣方森林生物量(包括喬木層、灌木層以及草本層)。
表1 浙江省重點(diǎn)公益林生物量模型[16]Table 1 Biomass model for key ecological forest in Zhejiang province
以2010年05月24日的Landsat 5 TM 影像為數(shù)據(jù)源,從1:10 000地形圖上采集地面控制點(diǎn),使用ENVI 4.8遙感圖像處理軟件對(duì)遙感影像進(jìn)行幾何精校正和地形校正(改進(jìn)的C校正法)[17],誤差控制在 1個(gè)像元內(nèi),重采樣后像元大小為30 m×30 m。
2.2 自變量的選擇
模型自變量主要有遙感變量和地學(xué)變量?jī)深?,其中遙感變量包括6種原始波段(不包括第6波段即熱紅外波段)信息和69種原始波段的派生信息(包括6種波段倒數(shù)信息、4種波段組合信息,8種植被指數(shù)信息、3種纓帽變換信息以及48種紋理信息),地學(xué)變量包括經(jīng)緯度、海拔、坡度及坡向等,合計(jì)80個(gè)自變量作為建模的初始變量,自變量與樣地生物量的相關(guān)系數(shù)詳見(jiàn)表2。
2.3 模型的評(píng)價(jià)
隨機(jī)選擇84個(gè)樣地?cái)?shù)據(jù)(樣地?cái)?shù)量的70%)與相應(yīng)的遙感、地學(xué)數(shù)據(jù)構(gòu)建模型,33個(gè)樣地?cái)?shù)據(jù)(樣地?cái)?shù)量的30%)則進(jìn)行模型評(píng)價(jià)分析,采用擬合預(yù)測(cè)精度(Precision)和均方根誤差(Rmse)[2]及方差比(VR, Variance Ratio)與偏差(Bias)[18]來(lái)評(píng)價(jià)不同模型的精度,計(jì)算公式如下:
式中,Pr為擬合預(yù)測(cè)精度,Rm為均方根誤差,VR為方差比,Bi.為偏差,Ti為第i個(gè)驗(yàn)證樣本的真實(shí)值,Pi為第i個(gè)驗(yàn)證樣本的預(yù)測(cè)值,SDT為預(yù)測(cè)值的標(biāo)準(zhǔn)差,SDP為真實(shí)值的標(biāo)準(zhǔn)差,為預(yù)測(cè)值的平均值,為真實(shí)值的平均值。
表2 自變量因子與樣地生物量相關(guān)系數(shù)Table 2 Correlation coefficient of variable factor and plot biomass
3.1 多元線性回歸模型
根據(jù)表2相關(guān)性檢驗(yàn)結(jié)果,選取33個(gè)與生物量顯著相關(guān)的變量使用SPSS19.0軟件進(jìn)行逐步多元線性回歸分析,將超出2倍標(biāo)準(zhǔn)化差閾值的數(shù)據(jù)作為異常點(diǎn)剔除后重新建模,重復(fù)上述步驟直到?jīng)]有異常值剔除[14],最后得到的建模數(shù)據(jù)71個(gè),檢驗(yàn)數(shù)據(jù)33個(gè)(其他模型也使用其進(jìn)行建模與檢驗(yàn))。利用71個(gè)建模數(shù)據(jù)建立多元線性回歸模型,最終有2個(gè)變量通過(guò)檢驗(yàn),分別是紋理信息(Mean B5)和海拔(Elevation),其多元線性回歸模型表達(dá)式為:
式中,Bi.o為生物量,X1、X2分別為紋理信息和海拔。
表3 多元線性回歸模型描述Table 3 Description of regression model
表4 多元線性回歸模型系數(shù)、顯著性及共線性檢驗(yàn)結(jié)果Table 4 Results of regression model coefficients, significance and collinearity
3.2 偏最小二乘回歸模型
偏最小二乘回歸(PLS-Bootstrap)通過(guò)將主成分分析與典型相關(guān)分析進(jìn)行有機(jī)結(jié)合的方法,有效的解決了模型自變量之間的多重相關(guān)性及自變量較多的問(wèn)題[14]。其基本思路是從原始樣本N中逐步提取m(m < N)個(gè)樣本,求出偏最小二乘的回歸系數(shù),重復(fù)上述過(guò)程B次,得到B組回歸系數(shù){b1,b2,…,bn}(n為自變量個(gè)數(shù)),最后將這B組回歸系數(shù)減去由原始樣本得到的回歸系數(shù)an,cn= |bn-an|,將cn從大到小排列,并設(shè)置檢驗(yàn)水平α,取B×(1-α)出的值cα(n)作為拒絕域臨界值,如果|cn|>cα(n)則表明cn顯著不為 0,即自變量通過(guò)顯著性檢驗(yàn)。當(dāng)檢驗(yàn)水平α取不同值時(shí),PLS-Bootstrap法所篩選的自變量有較大的差別且對(duì)模型精度有較大的影響,具體算法詳見(jiàn)參考文獻(xiàn)[19]。本研究采用Bootstrap變量篩選法對(duì)自變量進(jìn)行篩選,設(shè)置檢驗(yàn)水平α為0.3,取試驗(yàn)次數(shù)為200次[14],Bootstrap樣本為84個(gè)。80個(gè)初始自變量中經(jīng)過(guò)第1次篩選留下的變量為變量集1,之后繼續(xù)對(duì)變量集1作自變量篩選,得到變量集2,依次類推,經(jīng)過(guò)5次自變量的篩選,最終有5個(gè)變量通過(guò)檢驗(yàn),分別是海拔(Elevation)、波段的倒數(shù)(1/B7、1/B5、1/B2)及紋理信息(MEAN B5),依次以x1、x2、x3、x4、x5表示。如圖1所示,模型的RMSE隨自變量篩選呈遞減趨勢(shì),用變量集 5構(gòu)建模型的RMSE(28.05 t/hm2)比變量集1構(gòu)建模型的RMSE(39.25 t/hm2)降低了28.53%。偏最小二乘回歸模型表達(dá)式為:
圖1 不同變量集建立的PLS模型的RMSE變化Figure 1 Changes of RMSE with different variable sets
3.3 隨機(jī)森林回歸模型
隨機(jī)森林是一種統(tǒng)計(jì)學(xué)習(xí)理論,預(yù)測(cè)準(zhǔn)確率高,不容易出現(xiàn)過(guò)擬合的情況,對(duì)異常值和噪聲具有很好的容忍度,在許多領(lǐng)域中都有應(yīng)用[20]。其基本思想是它是通過(guò)Bootstrap重抽樣方法從原始樣本中抽取多個(gè)樣本,并且對(duì)每個(gè)Bootstrap樣本都進(jìn)行決策樹(shù)建模,然后組合多棵決策樹(shù)的預(yù)測(cè),從而形成隨機(jī)森林[21]。其算法過(guò)程見(jiàn)參考文獻(xiàn)[22]。利用R軟件的randomForest函數(shù)包來(lái)建立隨機(jī)森林回歸模型,在建模的過(guò)程中有兩個(gè)重要的參數(shù):ntree和mtry,ntree表示使用bootstrap重抽樣的次數(shù),mtry表示使用到的輸入變量的個(gè)數(shù),其大小在回歸分析中通常為輸入變量數(shù)的1/3,當(dāng)變量數(shù) < 3時(shí)取1。如圖2所示,回歸誤差在回歸樹(shù)數(shù)量達(dá)到500后趨于穩(wěn)定,在本研究中為確保模型精度,選擇ntree為1 000,mtry為24。如圖3所示,根據(jù)importance參數(shù)所提供的各變量重要性,對(duì)自變量進(jìn)行逐一剔除,最后保留相關(guān)性最好的自變量,分別是地理坐標(biāo)(MapX、MapY)、原始波段(B2、B5)、波段倒數(shù)(1/B2、1/B5、1/B7)、TM7/TM3、紋理信息(Mean B5、Mean B7)。使用篩選的自變量及84個(gè)樣地?cái)?shù)據(jù)進(jìn)行隨機(jī)森林回歸模型的建立,由于隨機(jī)森林方法在回歸時(shí)是使用多個(gè)決策樹(shù)的預(yù)測(cè)結(jié)果平均后得到最終預(yù)測(cè)值,因此,不會(huì)產(chǎn)生一個(gè)具體的回歸方程[1]。
圖2 回歸誤差隨回歸樹(shù)數(shù)量變化趨勢(shì)Figure 2 Variation trend of regression error with number of regression tree
圖3 變量相對(duì)重要性Figure 3 Relative important of Variable
3.4 Erf-BP 神經(jīng)網(wǎng)絡(luò)
Erf-BP神經(jīng)網(wǎng)絡(luò)是基于高斯誤差函數(shù)的BP神經(jīng)網(wǎng)絡(luò)改進(jìn)模型,有效的避免了BP神經(jīng)網(wǎng)絡(luò)的收斂速度慢、泛化誤差能力差等缺點(diǎn)[2]。其基本思想是從隱含層激活函數(shù)及其導(dǎo)數(shù)的取值范圍與收斂速度的角度出發(fā),選取新的激活函數(shù)——高斯誤差函數(shù),輸出層激活函數(shù)則采用Logsig函數(shù),最后構(gòu)建Erf-Logsig激活函數(shù)組合BP神經(jīng)網(wǎng)絡(luò)。其建模過(guò)程詳見(jiàn)參考文獻(xiàn)[19]。本研究經(jīng)過(guò)多次試驗(yàn)比較,最終決定選用偏最小二乘法中篩選出的海拔(Elevation)、波段的倒數(shù)(1/B2、1/B5、1/B7)及紋理信息(MEAN B5)等5個(gè)自變量,使用3層網(wǎng)絡(luò)結(jié)構(gòu)Erf-BP神經(jīng)網(wǎng)絡(luò)進(jìn)行估算,第一層為輸入層,有 5個(gè)神經(jīng)元;第二層為隱含層,根據(jù)訓(xùn)練樣本數(shù)和輸入輸出層維數(shù)將隱含層神經(jīng)元范圍設(shè)為[3,13],按步長(zhǎng)1遞增;第三層為輸出層,其神經(jīng)元數(shù)與輸出層(因變量即生物量)個(gè)數(shù)相同。誤差函數(shù)采用誤差平方和(tol),范圍設(shè)為[0.8,1.0],按步長(zhǎng)0.1遞增,學(xué)習(xí)速率(eta)為0.05,動(dòng)量因子(α)為0.2,陡度因子λ = 0.5。最后選出隱含層和訓(xùn)練目標(biāo)的最優(yōu)組合[7,0.81],對(duì)最優(yōu)組合訓(xùn)練100次,當(dāng)預(yù)測(cè)和擬合平均相對(duì)誤差之和最小時(shí)(分別為25.58%和37.7%),估算森林生物量的精度達(dá)到最高,Erf-BP神經(jīng)網(wǎng)絡(luò)模型的表達(dá)式為:
式中:Ymax和Ymin分別為輸出變量(生物量)的最大值和最小值,X為輸入變量(自變量),IW和b1分別為隱含層與輸入層之間的連接權(quán)值和閾值(表5),LW和b2分別為輸出層與隱含層之間的連接權(quán)值和閾值(表6),N為樣本個(gè)數(shù)。
表5 隱含層與輸入層之間的連接權(quán)值和閾值Table 5 Connection weights and threshold values from input layer to hidden layer
表6 輸出層與隱含層之間的連接權(quán)值和閾值Table 6 Connection weights and threshold values from hidden layer to output layer
如表7與圖4至圖7所示,從模型精度(PRECISION)和決定系數(shù)(R2)方面來(lái)看,隨機(jī)森林回歸模型最高,多元逐步回歸模型的最低;從均方根誤差(RMSE)方面來(lái)看,隨機(jī)森林回歸模型的最低,其次為Erf-BP神經(jīng)網(wǎng)絡(luò)模型,最高為多元線性回歸模型;就方差比(VR)而言,Erf-BP神經(jīng)網(wǎng)絡(luò)比其他回歸模型的好,最差為偏最小二乘回歸;就偏差(Bias)而言,隨機(jī)森林回歸模型和Erf-BP神經(jīng)網(wǎng)絡(luò)模型明顯優(yōu)于多元線性回歸模型和偏最小二乘回歸模型,其中Erf-BP神經(jīng)網(wǎng)絡(luò)最接近于0,預(yù)測(cè)效果最好。
多元線性回歸模型解釋了自變量與生物量之間的相關(guān)性,但是并不能解決自變量之間的多重共線性的問(wèn)題;偏最小二乘回歸模型解決了多元線性回歸模型中存在的自變量之間的多重共線性,而且經(jīng)過(guò)自變量的篩選后模型的均方根誤差降低了28.53%,模型的精度優(yōu)于多元線性回歸模型;隨機(jī)森林運(yùn)算速度快,能處理大量數(shù)據(jù),本身又具有交叉檢驗(yàn)的功能,而且對(duì)多重共線性不敏感,提高了模型的預(yù)測(cè)精度;Erf-BP神經(jīng)網(wǎng)絡(luò)模型據(jù)具有高度的魯棒性和自組織自學(xué)習(xí)能力和容錯(cuò)能力,但是Erf-BP運(yùn)算量大速度慢,且對(duì)樣本代表性要求較高,由于本研究樣地?cái)?shù)據(jù)數(shù)量的限制,并未能達(dá)到較好的預(yù)測(cè)效果。
經(jīng)過(guò)對(duì)結(jié)果的對(duì)比和模型的比較分析后,本研究最終選用隨機(jī)森林回歸模型進(jìn)行研究區(qū)公益林生物量的估算。
表7 各個(gè)模型的比較Table 7 The comparison of each approach
注:下標(biāo)mod和pre分別表示為模型擬合與預(yù)測(cè)。
圖4 多元線性回歸結(jié)果Figure 4 The results of MLR model
圖5 偏最小二乘回歸結(jié)果Figure 5 The results of PLS model
圖6 隨機(jī)森林回歸結(jié)果Figure 6 The results of Random Forest model
圖7 Erf-BP神經(jīng)網(wǎng)絡(luò)結(jié)果Figure 7 The results of Erf-BP model
本研究利用隨機(jī)森林回歸方法建立的模型對(duì)研究區(qū)公益林生物量進(jìn)行反演,得到整個(gè)研究區(qū)公益林生物量(圖8)。統(tǒng)計(jì)結(jié)果表明,2010年研究區(qū)的公益林總生物量約為310.61×104t,生物量密度為102.4 t/hm2,大多處于60 ~ 120 t/hm2,而117個(gè)原始樣地監(jiān)測(cè)小班總生物量值(10 735.85 t)與隨機(jī)森林方法所建立的模型估算得到的總生物量值(10 959.36 t)相比,精度高達(dá)99.9%。
如圖8所示,研究區(qū)的南部公益林生物量比其他區(qū)域要高,這是由于南部多為山區(qū),公益林分布較多,且海海拔拔越越高高,,公公益益林林生生物物量量越越高高;;研研究究區(qū)區(qū)的的中中部部公公益益林林生生物物量量較較低低,,這這是是由由于于人人類類活活動(dòng)動(dòng),,影影響響了了森森林林的的分分布布,,減減少少了了森森林林生生物物量量;;研研究究區(qū)區(qū)的的東東北北部部公公益益林林的的生生物物量量相相對(duì)對(duì)較較高高,,由由于于該該區(qū)區(qū)域域?yàn)闉樯缴絽^(qū)區(qū),,人人為為干干擾擾少少。。
圖8 縉云縣公益林生物量Figure 8 Biomass in ecological service forest of Jinyun County
圖7 Erf-BP神經(jīng)網(wǎng)絡(luò)結(jié)果
Figure 7 The results of Erf-BP model
(1)本研究分別建立多元線性回歸、偏最小二乘回歸、隨機(jī)森林回歸和Erf-BP神經(jīng)網(wǎng)絡(luò)四種模型對(duì)研究區(qū)公益林生物量進(jìn)行了估算。經(jīng)過(guò)對(duì)四種模型對(duì)比分析,得出隨機(jī)森林回歸模型預(yù)測(cè)效果最好,其預(yù)測(cè)精度和均方根誤差分別為74.82%、21.96t/hm2,樣地真實(shí)值與預(yù)測(cè)值的決定系數(shù)為0.655,可用于研究區(qū)公益林生物量的估算。
(1)本研究分別建立多元線性回歸、偏最小二乘回歸、隨機(jī)森林回歸和Erf-BP神經(jīng)網(wǎng)絡(luò)四種模型對(duì)研究區(qū)公益林生物量進(jìn)行了估算。經(jīng)過(guò)對(duì)四種模型對(duì)比分析,得出隨機(jī)森林回歸模型預(yù)測(cè)效果最好,其預(yù)測(cè)精度和均方根誤差分別為74.82%、21.96t/hm2,樣地真實(shí)值與預(yù)測(cè)值的決定系數(shù)為0.655,可用于研究區(qū)公益林生物量的估算。
(2)利用隨機(jī)森林回歸模型對(duì)整個(gè)研究區(qū)進(jìn)行反演,最后得到研究區(qū)的公益林生物量的總估算值為310.61 ×104t,平均生物量為102.4 t/hm2。
(2)利用隨機(jī)森林回歸模型對(duì)整個(gè)研究區(qū)進(jìn)行反演,最后得到研究區(qū)的公益林生物量的總估算值為310.61 ×104t,平均生物量為102.4 t/hm2。
(3)研究結(jié)果表明,隨機(jī)森林回歸與Erf-BP神經(jīng)網(wǎng)絡(luò)的結(jié)果優(yōu)于多元線性回歸和偏最小二乘回歸,因此可以得出非參數(shù)模型比參數(shù)模型的預(yù)測(cè)效果要好。
(3)研究結(jié)果表明,隨機(jī)森林回歸與Erf-BP神經(jīng)網(wǎng)絡(luò)的結(jié)果優(yōu)于多元線性回歸和偏最小二乘回歸,因此可以得出非參數(shù)模型比參數(shù)模型的預(yù)測(cè)效果要好。
目前,有許多利用光學(xué)與生物物理數(shù)據(jù)來(lái)進(jìn)行估算地上生物量的建模技術(shù)[18],就如本研究的四種模型,經(jīng)過(guò)對(duì)比分析后,4種方法有其各自的優(yōu)缺點(diǎn),但很難總結(jié)出一種模型優(yōu)于另一種模型,其主要取決于驗(yàn)證的方法和尺度。就R2、PRECISION及RMSE而言,隨機(jī)森林回歸方法優(yōu)于其他方法。因此,若減少均方根誤差、提高預(yù)測(cè)精度和決定系數(shù)是最終目的,可以使用隨機(jī)森林方法來(lái)建立模型。但是對(duì)于VR和Bias而言,隨機(jī)森林回
目前,有許多利用光學(xué)與生物物理數(shù)據(jù)來(lái)進(jìn)行估算地上生物量的建模技術(shù)[18],就如本研究的四種模型,經(jīng)過(guò)對(duì)比分析后,4種方法有其各自的優(yōu)缺點(diǎn),但很難總結(jié)出一種模型優(yōu)于另一種模型,其主要取決于驗(yàn)證的方法和尺度。就R2、PRECISION及RMSE而言,隨機(jī)森林回歸方法優(yōu)于其他方法。因此,若減少均方根誤差、提高預(yù)測(cè)精度和決定系數(shù)是最終目的,可以使用隨機(jī)森林方法來(lái)建立模型。但是對(duì)于VR和Bias而言,隨機(jī)森林回歸方法并不是最好的,反而Erf-BP神經(jīng)網(wǎng)絡(luò)方法最好。對(duì)于某些應(yīng)用方面的目的是保證方差比和降低偏差,可以選擇Erf-BP神經(jīng)網(wǎng)絡(luò)的方法來(lái)估算。而對(duì)于本研究的目的是為了提高估算精度與減少均方根誤差,還基于非參數(shù)模型、處理速度快、具有處理不同類型變量的預(yù)測(cè)能力和易于實(shí)現(xiàn)等特點(diǎn),隨機(jī)森林回歸方法是很好的選擇。
[1]王云飛,龐勇,舒清態(tài). 基于隨機(jī)森林算法的橡膠林地上生物量遙感反演研究[J]. 西南林業(yè)大學(xué)學(xué)報(bào),2013(6):38-45.
[2]范文義,張海玉,于穎,等. 三種森林生物量估測(cè)模型的比較分析[J]. 植物生態(tài)學(xué)報(bào),2011,35(4):402-410.
[3]張茂震,王廣興,葛宏立,等. 基于空間仿真的仙居縣森林碳分布估算[J]. 林業(yè)科學(xué),2014(11):13-22.
[4]婁雪婷,曾源,吳炳方. 森林地上生物量遙感估測(cè)研究進(jìn)展[J]. 國(guó)土資源遙感,2011(1):1-8.
[5]徐小軍,杜華強(qiáng),周國(guó)模,等. 基于遙感植被生物量估算模型自變量相關(guān)性分析綜述[J]. 遙感技術(shù)與應(yīng)用,2008,23(2):239-247.
[6]郭志華,彭少麟,王伯蘇. 利用TM數(shù)據(jù)提取粵西地區(qū)的森林生物量[J]. 生態(tài)學(xué)報(bào),2002,22(11):1 832-1 839.
[7]Hall R J, Skakun R S, Arsenault E J, et al. Modeling forest stand structure attributes using Landsat ETM+ data: Application to mapping of aboveground biomass and stand volume[J]. Forest Ecology and Management, 2006, 225(1~3):378-390.
[8]國(guó)慶喜,張鋒. 基于遙感信息估測(cè)森林的生物量[J]. 東北林業(yè)大學(xué)學(xué)報(bào),2003(2):13-16.
[9]Ingram J C, Dawson T P, Whittaker R J. Mapping tropical forest structure in southeastern Madagascar using remote sensing and artificial neural networks[J]. Remote Sensing of Environment,2005,94(4):491-507.
[10]張超,彭道黎. 基于PCA-RBF神經(jīng)網(wǎng)絡(luò)的森林碳儲(chǔ)量遙感反演模型研究[J]. 中國(guó)農(nóng)業(yè)大學(xué)學(xué)報(bào),2012(4):148-153.
[11]沈希,張茂震,祁祥斌. 基于回歸與隨機(jī)模擬的區(qū)域森林碳分布估計(jì)方法比較[J]. 林業(yè)科學(xué),2011(6):1-8.
[12]余朝林,杜華強(qiáng),周國(guó)模,等. 毛竹林地上部分生物量遙感估算模型的可移植性[J]. 應(yīng)用生態(tài)學(xué)報(bào),2012(9):2 422-2 428.
[13]范文義,李明澤,楊金明. 長(zhǎng)白山林區(qū)森林生物量遙感估測(cè)模型[J]. 林業(yè)科學(xué),2011(10):16-20.
[14]徐小軍,周國(guó)模,杜華強(qiáng),等. 基于Landsat TM數(shù)據(jù)估算雷竹林地上生物量[J]. 林業(yè)科學(xué),2011(9):1-6.
[15]張雷,王琳琳,張旭東,等. 隨機(jī)森林算法基本思想及其在生態(tài)學(xué)中的應(yīng)用 [J]. 生態(tài)學(xué)報(bào),2014,34(3):650-659.
[16]袁位高,江波,葛永金,等. 浙江省重點(diǎn)公益林生物量模型研究[J]. 浙江林業(yè)科技,2009,29(2):1-5.
[17]黃微,張良培,李平湘. 一種改進(jìn)的衛(wèi)星影像地形校正算法[J]. 中國(guó)圖象圖形學(xué)報(bào),2005,10(9):1 124-1 128.
[18]Powell S L, Cohen W B, Healey S P, et al. Quantification of live aboveground forest biomass dynamics with Landsat time-series and field inventory data: A comparison of empirical modeling approaches[J]. Remote Sensing of Environment, 2010, 114(5):1 053-1 068.
[19]徐小軍. 基于LANDSAT TM影像毛竹林地上部分碳儲(chǔ)量估算研究[D]. 臨安:浙江林學(xué)院,2009.
[20]方匡南,吳見(jiàn)彬,朱建平,等. 隨機(jī)森林方法研究綜述[J]. 統(tǒng)計(jì)與信息論壇,2011,26(3):32-38.
[21]Breiman L. Random Forests[J]. Machine Learning, 2001, 45(1):5-32.
[22]李欣海. 隨機(jī)森林模型在分類與回歸分析中的應(yīng)用[J]. 應(yīng)用昆蟲(chóng)學(xué)報(bào),2013,50(4):1 190-1197.
Estimation Methods for Biomass of Ecological Forest in Jinyun
CHEN Shu-rong1,ZHANG Chao1,ZHENG Chao-chao1,ZHANG Wei1,YI Li-ta1,2,YU Shu-quan1,2*
(1. School of Forestry and Biotechnology, Zhejiang A & F University, Lin’an 311300, China; 2. The Nurturing Station for the State Key Laboratory of Subtropical Siliviculture, Lin’an 311300, China)
Biomass of ecological forest in Jinyun county, Zhejiang province was estimated by multiple linear regression (MLR), partial least squares(PLS) regression, random forest regression and BP neutral network model based on Gaussian error function (Erf-BP), according to data from TM imagery and 117 permanent subcompartments forest management survey in 2010. There were 80 independent variables of geoscience and remote sensing. Results showed that random forest regression had better effect on R2, PRECISION and RMSE, while Erf-BP neural network on VR and BIAS. Comprehensive evaluation on precision and root mean square error indicated that random forest method was a better choice.
biomass; PLS regression; PLS-Bootstrap regression; random forest regression; BP neutral network model based on Gaussian error function (Erf-BP)
S718.55
A
1001-3776(2015)05-0020-09
2015-01-20;
2015-05-12
浙江省重點(diǎn)科技創(chuàng)新團(tuán)隊(duì)項(xiàng)目(2011R50027)
陳蜀蓉(1990-),女,浙江臺(tái)州人,碩士生,從事森林生態(tài)學(xué)研究。*通訊作者。