卯光憲,譚 偉,柴宗政,趙 楊,楊深鈞
(1. 貴州大學 林學院,貴州 貴陽 550025;2. 貴州大學 林業(yè)信息工程研究中心,貴州 貴陽 550025)
胸徑和樹高是林業(yè)調查的重要因子,胸徑通常易測且結果精準,但樹高的測量往往低效費時,結果偏差相對較大[1]。因此,為了更加方便準確地獲得林木樹高,李春明等[2]通過非線性混合效應模型很好地模擬了栓皮櫟Quercus variabilis樹高與胸徑的關系;張連金等[3]通過冪函數(shù)模擬了12種不同林分的胸徑與樹高關系;CHAI等[4]選取常用的16個林業(yè)模型對貴州省平壩區(qū)柳杉Cryptomeria fortunei人工林樹高-胸徑進行擬合,選出了擬合精度相對較高的3個模型。此類研究通常需要從常用的生長模型或其擴展模型中選出很多模型作為候選模型,再對它們分別進行擬合,通過一系列的模型評價指標對其進行篩選,再結合樹種生物學特性及模型的適用性選擇出表現(xiàn)最好的模型。然而候選模型的種類和數(shù)量常常因人而異,少則幾種[5?6],多則有幾十種[7],過少則精度不佳,過多則計算量大,費時費力。但是,林木的生長過程復雜,導致傳統(tǒng)的模型難以達到較高的預測精度。人工神經網絡不依賴現(xiàn)存模型,可以最大限度地逼近任意非線性變化趨勢。BP(back propagation)神經網絡也稱誤差反向傳播網絡,在很多領域均有應用,是當前應用最廣的神經網絡模型之一,也是林業(yè)研究中常用的模型。在林業(yè)調查中,通過建立樹高-胸徑的關系模型來預測樹高往往具有事半功倍的效果,同時在林木生長預測、生物量的估計,森林資源的監(jiān)測與評價中具有較高的使用價值[4]。劉鑫等[8]、董云飛等[9]運用BP神經網絡分別擬合了天然云冷杉Abies fabri針闊混交林和杉木Cunninghamia lanceolata的樹高曲線,表明BP神經網絡有操作簡單、擬合精度高、泛化能力強等特點。目前以BP神經網絡預測樹高的研究主要集中于長白山落葉松Larix olgensis[10]、油松Pinus tabuliformis[11]、興安落葉松Larix gmelinii[12]等樹種構成的林分。馬尾松Pinus massoniana作為南方主要用材樹種,由于經營不及時、地理環(huán)境特殊等原因,大面積馬尾松人工林林分結構不合理等[13?16],并且對其樹高模型預測方面的研究還較少。基于此,本研究以黔中馬尾松人工林為對象,通過胸徑-樹高建立BP神經網絡,并與6個候選模型中篩選出的最佳模型進行比較,探究模型在馬尾松人工林樹高預測中的表現(xiàn)和適用性,以期為馬尾松人工林樹高估測及森林資源的監(jiān)測與評價提供理論依據。
研究區(qū) (26°10′~27°21′N,106°59′~107°16′E)位于黔中息烽縣、開陽縣、烏當區(qū)、龍里縣、平壩區(qū)5個縣(區(qū)),該區(qū)地貌類型復雜多樣,按形態(tài)劃分為山地、丘陵和壩地三大類型;地勢起伏較大,大致呈東西向延展,西部、南部較高,東部、北部較低,地形坡度大多都在25°以下;平均海拔1 200 m左右,屬于亞熱帶濕潤溫和型氣候,年均氣溫15.3 ℃,年均降水量1 200 mm;森林土壤主要有黃壤、石灰土和紫色土。黃壤為地帶性土壤,一般土層較深厚。常見喬木主要有馬尾松、楓香Liquidambarformosana、華山松Pinusarmandii、柳杉、楸樹Catalpa bungei、梓樹Catalpa ovata、亮葉樺Betula luminifera、白櫟Quercus fabri、麻櫟Quercus acutissima等。
1.2.1 數(shù)據來源 數(shù)據來源于5個黔中縣(區(qū))馬尾松可持續(xù)經營試點區(qū)域經營對照樣地,起源為人工林,未實施過任何經營措施,且人為干擾相對較小。其中,樣地數(shù)為息烽縣4個,開陽縣8個,烏當區(qū)22個,龍里縣16個,平壩區(qū)32個,樣地大小為25 m×25 m,調查林分基本情況(坡向、坡位、海拔、郁閉度等),對樣地中胸徑大于5 cm的林木進行每木檢尺并通過網格計算其相對位置,記錄因子有樹高、胸徑、冠幅、第一活枝高、林木質量、相對位置,在樣地的4個角及中間設置5個5 m×5 m的樣方,記錄主要灌木的平均高度、地徑、株數(shù)、冠幅、蓋度,同時設置5個1 m×1 m的的樣方,記錄主要草本的平均高度、蓋度。
1.2.2 傳統(tǒng)胸徑-樹高模型的建立 基于胸徑-樹高散點圖(圖1)進行模型擬合,其中,訓練數(shù)據3 430株,驗證數(shù)據854株?;谀P偷臄?shù)學特性及模型參數(shù)的生物學意義,選擇常用的6個非線性生長模型(表1)。
圖1 馬尾松模型擬合胸徑-樹高散點圖Figure 1 Diameter-height scatter diagram for model fitting data for P. massoniana
表1 非線性胸徑-樹高候選模型Table 1 Nonliner diameter-height growth models selected for use
1.2.3 BP神經網絡 這是多層前饋神經網絡的一種,其特點為:信號向前傳播,誤差反向傳播(圖2)。過程主要分為2個階段:第1階段是信號向前傳播,由輸入層經過一到多個的隱藏層,最后到達輸出層;第2階段是誤差反向傳播的過程,從輸出層到隱藏層,再到輸入層,根據誤差調節(jié)隱藏層到輸出層的權重和偏置,直到達到目標誤差限或預設訓練次數(shù)為止。神經網絡的基本組成單元見圖3,x1~xn(1,2,3, ·· ·,n)為神經元的輸入信號,ω1~ωn(1,2,3, ·· ·,n)為權重,b為偏置,∑為求和節(jié)點,σ為激活函數(shù)。根據Kolmog-orov定理,單隱層的BP神經網絡就可以無限逼近任意連續(xù)的非線性曲線[16]。但過分擬合會導致模型的泛化能力差,所以在實際的應用中還要結合樣本本身的特性來控制擬合程度。
圖2 BP神經網絡結構圖Figure 2 BP neural network structure
圖3 神經元結構圖Figure 3 BP neural structure
1.2.4 BP神經網絡模型的建立 基于Matlab(2016a)軟件自帶工具箱nntool,建立單隱層的BP神經網絡以估測樹高,以輸入層為胸徑,以輸出層為樹高。根據BP神經網絡的隱層節(jié)點數(shù)可用Nh=,其中:Nh為隱層節(jié)點數(shù),Nin為輸入層節(jié)點數(shù),Nout為輸出層節(jié)點數(shù),h為1~10的整數(shù)[23]。本研究通過在范圍內逐個測試,對比其估測精確度及泛化能力以確定最佳隱層節(jié)點數(shù)。建模時,設置目標精度為0.001,最大迭代次數(shù)為1 000,學習率為0.01,因胸徑-樹高關系曲線形似“高關型曲線”,所以以sigmoid(logsig)函數(shù)為隱層傳遞函數(shù),以purelin函數(shù)輸出層傳遞函數(shù),Levenberg-Marquardt算法相對其他算法有縮短訓練時間的特點,因此以Levenberg-Marquardt算法為模型訓練算法。
1.2.5 模型擬合效果評價 對胸徑-樹高模型的選擇通過決定系數(shù)(R2)、相對平均絕對誤差(RMA)、均方根誤差(RMSE)和Akaike信息準則(AIC)評價模型的擬合效果(表2),R2越大、RMA越小、RMSE越小、AIC越小,模型的擬合精度越高。
1.2.6 數(shù)據處理 數(shù)據統(tǒng)計使用Excel 2016,BP神經網絡的構建及擬合使用Matlab(2016a)軟件自帶工具箱nntool,70%為訓練數(shù)據,15%為驗證數(shù)據,15%為測試數(shù)據;傳統(tǒng)的胸徑-樹高模型的擬合主要使用R語言sampling程序包進行分層抽樣,抽取80%為訓練數(shù)據,20%為檢測數(shù)據,借助lmfor程序包進行模型擬合,ggplot2程序包作圖。
所選樣地馬尾松平均年齡為18 a,胸徑為5.0~60.4 cm,樹高為 4.1~29.9 m(表 3)。訓練數(shù)據包括3 430株林木,胸徑為5.0~50.0 cm,樹高為4.1~29.9 m,覆蓋了整個徑階和樹高范圍。測試數(shù)據包括854株林木,胸徑為5.0~60.4 cm,樹高為4.1~27.8 m,基本覆蓋所有徑階和樹高范圍,說明分層抽樣的可靠性。
表2 模型評價指標Table 2 Model performance criteria selected for this study
表3 建模數(shù)據和檢測數(shù)據統(tǒng)計Table 3 Summary statis for all sampled trees and trees used for model calibration and validation
2.2.1 模型訓練 所有的模型擬合都是基于3 430株林木的胸徑,擬合結果如圖4所示。整體來看,Logistic模型擬合效果最差,對于胸徑較小和中等(5.0~25.0 cm)的林木,除Logistic模型外,其他模型的擬合效果都比較好;對于胸徑較大的林木,由于林木樹高分化嚴重,所以6個模型擬合效果都不是很好。
圖4 馬尾松人工林6個非線性模型胸徑-樹高曲線Figure 4 Six nonliner diamerter-height cureves for a P. massoniana plantation
從6個非線性模型中選擇出對馬尾松胸徑-樹高關系擬合效果最佳的模型,擬合結果如表4所示。由表4可知:除了Logistic模型外,其他模型擬合效果都較好,R2最小值為0.568,R2從小到大依次為Logistic模型、Gomperz模型、Curtis模型、Weibull模型、N?slund模型、Korf模型,RMSE從大到小依次為Logistic模型、Gomperz模型、Curtis模型、Weibull模型、Korf模型;RMSE最大值僅為4.218。綜合考慮4個評價標準,Korf模型擬合效果最佳。
2.2.2 模型測試 用于模型測試的林木854株,胸徑(5.0~60.4 cm)。由表4可知:表現(xiàn)最佳的是Korf模型,檢測樣本的模型擬合結果與訓練樣本一致,Korf模型和N?slund模型能夠較好地預測林木樹高,可選取這2個模型作為研究區(qū)馬尾松人工林胸徑-樹高預測模型。此外,由于Korf模型為3參數(shù)模型,較2參數(shù)模型復雜,但是當研究區(qū)大、樣本較復雜時有較好的擬合效果,而2參數(shù)模型較適合于小面積、數(shù)據量較小的情況。因此,選用Korf模型為最佳的胸徑-樹高模型。
表4 馬尾松人工林6個候選模型的參數(shù)估計及性能評價Table 4 Parmeter estimates and performance criteria of 6 nonlinear meight-diameter models for a P. massoniana plantation
2.3.1 隱層節(jié)點數(shù)的確定 以胸徑為輸入變量,以樹高為輸出變量,建立隱層為Nh的BP神經網絡。根據經驗公式求得隱層數(shù)為2.414~11.414,由于神經網絡訓練結果有一定的波動,為增加模型的容錯率,一次將隱層數(shù)設置為2~11的整數(shù),每個節(jié)點數(shù)訓練 10次并計算R2和RMSE的平均值 (表 5),隨著隱層節(jié)點數(shù)的增加,所有數(shù)據RMSE最大僅為3.742,大部分R2都大于0.700,但在測試數(shù)據中存在R2小于0.700的情況。對于訓練數(shù)據和驗證數(shù)據,隨著隱層節(jié)點的增大,R2也逐漸增大,RMSE對于訓練數(shù)據和驗證數(shù)據的變化情況與R2相同,隨著隱層節(jié)點數(shù)的增加逐漸減??;對于測試數(shù)據,因為是獨立驗證樣本,未參與建模,所以測試數(shù)據的R2和RMSE上下波動,最大和最小分別為0.717和3.513。
表5 不同隱層節(jié)點數(shù)的10次擬合統(tǒng)計量平均值Table 5 Average statistics of fitting with different hidden layers for 10 times
對于測試數(shù)據,隨著隱層數(shù)的增加,預測精度未得到明顯提升。為進一步確定隱層節(jié)點數(shù)量,將神經網絡的預測樹高與對應的胸徑建立散點圖,當數(shù)據出現(xiàn)過擬合時說明該隱層節(jié)點數(shù)已不可取。從圖5可見:從節(jié)點數(shù)為3開始就出現(xiàn)了分化及變形,所以確定此時已經出現(xiàn)過擬合的情況??紤]到模型的實用性及馬尾松的生物學特性,故選擇圖像出現(xiàn)過擬合時隱層節(jié)點數(shù)的前一個節(jié)點數(shù)作為最佳隱層節(jié)點數(shù),即最佳隱層節(jié)點數(shù)為2。
2.3.2 適宜模型 確定最佳隱層節(jié)點數(shù)后,在同一個隱層節(jié)點數(shù)的基礎上不斷訓練模型,最終選擇合適的結構[輸入層節(jié)點數(shù)(Nin)∶隱層節(jié)點數(shù) (Nh)∶輸出層節(jié)點數(shù) (Nout)=1∶2∶1]為最后的模型,經訓練得到的傳遞函數(shù)模型:h1=logsig(2.580 6+0.510 32D);h2=logsig(1.614 1+1.512 8D);H=purelin(1.111+2.155 1h1+1.403 5h2)。其中:hi為隱層神經元的輸出,i=1,2;D為胸徑;purelin為線性函數(shù);logsig為對數(shù)S型函數(shù);H為樹高。
圖5 過擬合前后胸徑-樹高散點圖Figure 5 Diameter-height scatter diagram for over-fitting
運用6個廣義非線性模型(表4)與BP神經網絡(表5)對82塊樣地的抽樣數(shù)據對比發(fā)現(xiàn):廣義非線性模型的R2均為0.500~0.700,RMSE最小為3.963;而BP神經網絡訓練數(shù)據、驗證數(shù)據、測試數(shù)據的R2均大于0.700,RMSE最大僅為3.742,優(yōu)于廣義非線性模型的最大值。因此,在馬尾松胸徑-樹高建模方面,BP神經網絡模型比廣義非線性模型效果好。
在研究胸徑-樹高的關系時,模型選擇不但要考慮模型的性能及擬合精度,還需考慮其生物學意義[24]。盡管所有模型都具有較好的擬合效果,但是Weibull、N?slund、Korf、Gomperz、Curtis這5個模型對馬尾松人工林胸徑-樹高關系擬合的效果相近,均具有較高的R2和較低的RMA、RMSE、AIC。與此前的大部分研究結果相似[25?27],CHAI等[4]表明:Weibull和N?slund模型的擬合精度最高。SHARMA等[28]通過對挪威云杉Picea abies胸徑-樹高關系的擬合也發(fā)現(xiàn):Weibull模型有較好的擬合精度。這可能是因為這幾個模型具有較好的靈活性,能夠通過參數(shù)來調節(jié)曲線形狀以適應各個樹種的生長情況。此外,樹高的生長隨著胸徑的生長逐漸變大后趨于平緩,生長曲線呈S型,而這5個函數(shù)都是S型模型,因而擬合效果較好。
本研究顯示:最佳模型結構(輸入節(jié)點數(shù)∶隱藏層節(jié)點數(shù)∶輸出層節(jié)點數(shù))為1∶2∶1,訓練數(shù)據、驗證數(shù)據、測試數(shù)據的R2分別達0.712、0.717、0.717,RMSE分別達3.546、3.655、3.513。與傳統(tǒng)模型相比,BP神經網絡模型的R2均明顯大于傳統(tǒng)模型,RMSE均小于傳統(tǒng)模型,這與黃旭光等[29]、徐志揚[30]的結果相似,說明BP神經網絡在建模方面比傳統(tǒng)模型更具有優(yōu)越性。杜志等[31]通過對杉木和馬尾松的樹高曲線擬合得到相同結論。王軼夫等[32]在對馬尾松生物量模型的研究中也發(fā)現(xiàn):BP神經網絡優(yōu)于傳統(tǒng)模型。由于無限逼近原理,所以在擬合過程中容易出現(xiàn)過擬合的情況,本研究通過輸入變量與輸出變量所形成的散點圖判斷得出:當隱層節(jié)點數(shù)為3時出現(xiàn)過擬合。本研究結果可為研究區(qū)馬尾松人工林的經營節(jié)約調查成本,提高經營效率。充分考慮地理因素所訓練出的模型具有較廣的適用性[33],后續(xù)研究應充分調查不同立地條件下的該類林分,增加樣本量和調查因子,增多神經網絡的輸入變量,以提高模型的泛化能力。
BP神經網絡在擬合效果上雖然較傳統(tǒng)模型好,但是其內部結構并不清楚,無法展示其詳細的內部計算過程,這是BP神經網絡的不足之處。同時,為了預防BP神經網絡過早的產生過擬合,后續(xù)研究可使用改進的自適應遺傳算法[34]、改進粒子群算法[35]等優(yōu)化BP神經網絡以達到更好的預測效果。
本研究選用6個林業(yè)常用的傳統(tǒng)模型,對胸徑-樹高關系進行擬合,結果發(fā)現(xiàn):除了Logistic模型外,其他5個候選模型均表現(xiàn)較好??紤]研究區(qū)較大,所以選擇具3個參數(shù)的Korf模型作為馬尾松胸徑-樹高模型。而用BP神經網絡對樹高進行估測顯示:最佳模型結構(輸入節(jié)點數(shù)∶隱藏層節(jié)點數(shù)∶輸出層節(jié)點數(shù))為1∶2∶1,BP神經網絡模型的R2均明顯大于傳統(tǒng)模型,RMSE均小于傳統(tǒng)模型,說明BP神經網絡在建模方面比傳統(tǒng)模型更具有優(yōu)越性,更適合黔中地區(qū)馬尾松人工林樹高預測。