何理深 張超
(西南林業(yè)大學(xué),昆明,650224)
森林蓄積量和生物量作為森林資源最基本的調(diào)查因子,是觀察、分析和評價森林狀態(tài)的重要指標(biāo)。通常情況下,對于某個地域上森林蓄積量和生物量的估測多數(shù)是以行政界線為對象,通過融合、裁剪多幅不同時期遙感影像作為基礎(chǔ)建模數(shù)據(jù),這種方法往往忽視了植物的季節(jié)性光譜差異。為滿足精準(zhǔn)森林監(jiān)測的發(fā)展需求,基于季節(jié)或時間序列數(shù)據(jù)的植被物候遙感信息估算森林參量已成為目前的研究熱點。Sun et al.[1]以15期MODIS-Terra MOD13Q1數(shù)據(jù)提取的歸一化植被指數(shù)(NDVI)為自變量,探討時間序列數(shù)據(jù)對估算森林生物量的有效性;Chrysafis et al.[2]基于多季節(jié)sentinel-2影像估測了希臘東北部地中海地區(qū)的森林蓄積量。多季節(jié)遙感在一定程度上提高了預(yù)測精度,但季節(jié)或時間序列的遙感研究往往受限于影像的可獲得性(影像數(shù)量、影像云量等)以及地表植被生長特性,單季節(jié)遙感建模相對容易。在森林參量模型構(gòu)建的過程中,線性回歸是最廣泛被使用的統(tǒng)計技術(shù)之一[3]。雖然線性回歸法使用簡單并容易解釋,但許多因子的關(guān)系通常是非線性的,在某些情況下選擇非線性回歸可能更為合適[4]。云南松(Pinusyunnanensis)是我國西部偏干性亞熱帶的典型代表群系,廣泛分布于我國西南大部分地區(qū),具有生境適應(yīng)性多樣、生態(tài)地理變異突出和天然更新能力強(qiáng)的特點。研究根據(jù)云南省大理州3景(春季、秋季和冬季)Landsat-5衛(wèi)星影像提取的單波段、植被指數(shù)和紋理因子作為自變量,結(jié)合2007年大理州森林資源連續(xù)清查樣地數(shù)據(jù),使用偏最小二乘法(PLS)進(jìn)行特征提取,經(jīng)過遺傳算法(GA)優(yōu)化支持向量機(jī)(SVM)估算大理州云南松林分蓄積量。為提高遙感估測蓄積量精度、準(zhǔn)確提取林分參數(shù)提供技術(shù)支持與參考。
大理白族自治州(98°52′~101°3′E,24°41′~26°42′N)位于云南省中部偏西,地處云貴高原與橫斷山脈的結(jié)合部位,區(qū)位優(yōu)勢得天獨厚。氣候?qū)儆诘途暩咴撅L(fēng)氣候,雨量適中,受地形氣候影響,北部降雨大于東南部。海拔一般在2 300 m以上,根據(jù)海拔不同,又分為南亞熱帶、中亞熱帶、北亞熱帶、暖溫帶、中溫帶和寒濕帶等6個氣候帶。大理州地質(zhì)地貌歷史悠久,土壤類型多樣,主要有亞高山草甸土,棕壤、紅壤、干燥紅土、黃壤和水稻土等土類。境內(nèi)動植物資源豐富,據(jù)統(tǒng)計,高等植物有182科、927屬,近3 000種;禽類有150多種,森林哺乳動物50多種。全州土地總面積283.57萬hm2,其中有林地面積占三分之一。
云南松一類調(diào)查數(shù)據(jù):以林業(yè)部門提供的2007年云南省大理州森林資源連續(xù)清查樣地數(shù)據(jù)為基礎(chǔ)數(shù)據(jù)。一類清查樣地的系統(tǒng)抽樣間距為6 km×8 km,方形固定樣地面積為0.08 hm2。調(diào)查的主要因子有樹種、胸徑、樹高、郁閉度、覆蓋度和蓄積量等。篩選遙感影像覆蓋區(qū)域、優(yōu)勢樹種為云南松的天然純林樣地共81個。從總樣本中隨機(jī)提取80%的數(shù)據(jù)作為訓(xùn)練樣地,20%作為驗證樣地。樣地分布情況見圖1。研究采用MATLAB編程軟件實現(xiàn)樣地數(shù)據(jù)的處理與建模,為消除因子間不同量綱產(chǎn)生的影響,對所有變量進(jìn)行數(shù)據(jù)歸一化。
遙感數(shù)據(jù):采用美國于1984年3月發(fā)射的光學(xué)對地觀測衛(wèi)星Landsat-5數(shù)據(jù),條帶號為131/042的3景同一地點不同季節(jié)、云量均小于10%的單季節(jié)遙感影像。分別對應(yīng)冬季(2006-01-25),春季(2006-05-17)和秋季(2006-12-11),如圖2所示。由于夏季的影像圖較少且云量較多,無法獲得該季節(jié)的可靠遙感影像進(jìn)行研究。所有單季節(jié)影像使用ENVI軟件進(jìn)行輻射定標(biāo)、大氣校正、幾何校正和地形校正等處理。
由于綠色植物對各個波段都有不同的吸收和反射特性,通過多光譜單波段數(shù)據(jù)的線性或非線性組合能較好的反應(yīng)植物的生長狀態(tài)和林分的空間信息,基于各波段反射率可構(gòu)造增強(qiáng)植被信息或抑制非植被信息的植被指數(shù)。其次,紋理信息可表現(xiàn)出圖像灰度在空間上的重復(fù)性變化,能夠反映物體表面的具有緩慢變化或者周期性變化的結(jié)構(gòu)排列規(guī)律。研究選取6個單波段灰度影像、20個植被指數(shù)和48個紋理信息,共74個因子作為建模的初始自變量。其中,紋理信息包括6個單波段的協(xié)同性(Homo)、對比度(Con)、相關(guān)性(Corr)、均值(M)、方差(V)、相異性(D)、熵(E)、二階矩(SM),植被指數(shù)包括歸一化植被指數(shù)(INDV)、綠通道歸一化植被指數(shù)(IGNDV)、重歸一化植被指數(shù)(IRDV)、三角植被指數(shù)(ITV)、紅外植被指數(shù)(IIPV)、轉(zhuǎn)化歸一化植被指數(shù)(ITNDV)、加權(quán)差分植被指數(shù)(IWDV)、可見大氣阻綠色指數(shù)(VARIg)、大氣阻抗植被指數(shù)(IGAR)、葉綠素綠色指數(shù)(CIg)、寬動態(tài)植被指數(shù)(IWDRV)、增強(qiáng)植被指數(shù)(IEV)、差值植被指數(shù)(IDV)、比值植被指數(shù)(SR)、歸一化綠色指數(shù)(NG)、葉綠素指數(shù)(IC)、歸一化葉綠素指數(shù)(INC)、歸一化紅色指數(shù)(NR)、歸一化近紅外指數(shù)(NNIR)、歸一化多波段干旱指數(shù)INMD)。具體計算公式如表1所示(以Landsat-5傳感器為例)。
表1 研究使用植被指數(shù)概要
PLS:PLS是一種集成了主成分分析(PCA)和典型相關(guān)分析(CCA)的統(tǒng)計方法。PCA提取的前若干個主成分能攜帶原始變量矩陣的大部分信息,但沒有考慮主成分對輸出變量的解釋能力,方差貢獻(xiàn)率很小但對輸出變量有很強(qiáng)解釋能力的主成分可能會被忽略。PLS用于尋找自變量和因變量之間的基本關(guān)系,即在這兩個空間中對協(xié)方差結(jié)構(gòu)建模的方法,在自變量空間中找到多維方向,以解釋因變量空間中的最大多維方差。當(dāng)預(yù)測變量矩陣的變量多于觀測值,并且自變量矩陣之間存在多重共線性時,使用PLS更優(yōu)[21]。
GA:懲罰系數(shù)c與核參數(shù)g的大小對SVM的影響至關(guān)重要,許多學(xué)者對于SVM的參數(shù)設(shè)定經(jīng)行了大量的研究[22]。GA是一種基于自然選擇原理和自然遺傳機(jī)制的搜索(尋優(yōu))算法,它模擬自然界“優(yōu)勝劣汰,適者生存”的生命進(jìn)化原理,在編碼系統(tǒng)中實現(xiàn)特定目標(biāo)的優(yōu)化。GA優(yōu)化的過程就是通過循環(huán)迭代獲取最優(yōu)解,主要包括對初始化種群(種群中每一個個體均編碼完成)、種群個體評價(根據(jù)計算適應(yīng)度函數(shù)進(jìn)行評估)、優(yōu)良個體進(jìn)行配對,隨機(jī)交叉染色體并隨機(jī)改變某些染色體的基因產(chǎn)生下一代種群。以此方式使種群不短迭代,直到滿足進(jìn)化終止條件。本次研究中,GA的適應(yīng)度函數(shù)評價指標(biāo)為均方誤差(EMS)、最大迭代次數(shù)設(shè)置為100、種群數(shù)量為50、c參數(shù)與g參數(shù)的范圍均為0~100、交叉概率為0.9、變異概率為0.01。
SVM:SVM雖然誕生只有短短的20多a,但是得益于它良好的分類性能自一誕生便被廣泛應(yīng)用在機(jī)器學(xué)習(xí)領(lǐng)域。其理論最初來源于對數(shù)據(jù)的分類處理,保證最終的分割平面位于兩類數(shù)據(jù)的中心位置,簡單解釋就是:尋求一個最優(yōu)分類超平面,使得超平面在保證分類精度的同時也能夠使超平面兩側(cè)空白區(qū)域最大化。雖然支持向量機(jī)方法是解決分類問題提出的,但是它一樣可以通過定義適當(dāng)?shù)膿p失函數(shù)推廣到函數(shù)擬合的問題中,就是讓一個集合的所有數(shù)據(jù)到該超平面的距離最近。研究中SVM核函數(shù)選擇徑向基函數(shù)(FRB),c、g參數(shù)通過GA計算,損失函數(shù)p采用設(shè)置默認(rèn)為0.1。模型均使用決定系數(shù)(R2)和均方根誤差(ERMS)評價訓(xùn)練集的預(yù)測精度與測試集的魯棒性。公式如下:
實驗使用中國臺灣大學(xué)林智仁教授開發(fā)的LibSVM庫,該庫運(yùn)算速度快,支持?jǐn)?shù)據(jù)集的分類和回歸估計,并提供5種核函數(shù)(線性核、多項式核、徑向基函數(shù)核、S型函數(shù)核、預(yù)計算核)。LibSVM開源且支持C++、Java、MATLAB和Python等編程語言,幫助其他領(lǐng)域的學(xué)者更簡單地使用SVM工具。
皮爾遜相關(guān)系數(shù)(Pearson)是度量兩個變量之間相互關(guān)系的指標(biāo),分析自變量與因變量的相關(guān)性有助于了解單季節(jié)遙感數(shù)據(jù)間的差異。光譜大理州云南松林分蓄積量與各季節(jié)單波段、光譜指數(shù)和紋理信息的相關(guān)系數(shù)如圖3所示,所有光譜自變量與林分蓄積量的相關(guān)性較低,相關(guān)系數(shù)絕對值均無法達(dá)到0.5以上;B1、B2、B3、B5、B7、Mean(B1)、Mean(B2)Mean(B3)Mean(B5)Mean(B7)、NG、CI、NR與林分蓄積量有相對高的負(fù)相關(guān)性;INDV、IIPV、ITNDV、VARIg、IEV、SR、NBR與林分蓄積量有相對高的正相關(guān)性;單波段B1、B2、B3、B5、B7相關(guān)性絕對值按從大到小的排序為春季、冬季、秋季,B4波段單季節(jié)遙感數(shù)據(jù)相關(guān)性的趨勢與其他波段明顯不同;冬季,春季和秋季影像提取的數(shù)據(jù)與林分蓄積量相關(guān)性整體趨勢保持一致,但Homo(B2)、Ent(B2)、ITV、IEV、INC的春季光譜數(shù)據(jù)相關(guān)性系數(shù)與秋季、冬季差異明顯。
PLS特征提取通過累計貢獻(xiàn)率確定主成分個數(shù)(見表2)。3個季節(jié)74個光譜因子的特征提取結(jié)果相對一致,說明不同季節(jié)的光譜信息總體上差異不大、各季節(jié)的單波段、光譜指數(shù)和紋理數(shù)據(jù)構(gòu)建的自變量與因變量的協(xié)方差也相對一致。前幾個主成分能反應(yīng)的總體信息變化程度不高,冬季、春季和秋季遙感數(shù)據(jù)前3主成分累計貢獻(xiàn)率分別為52.99%,54.40%,57.83%。整體從第1主成分到第13主成分的貢獻(xiàn)率依次下降,下降趨勢不明顯。冬季,秋季和冬季遙感數(shù)據(jù)均要提取前13個主成分才能保留90%的原始變量信息。因此,各季節(jié)皆提取PLS前13個主成分作為構(gòu)建SVM模型的自變量。
圖4顯示了各季節(jié)基于PLS降維的SVM模型尋優(yōu)情況。冬季影像數(shù)據(jù)的GA適應(yīng)度經(jīng)過50次進(jìn)化得到最優(yōu)c參數(shù)為2.45,最優(yōu)g參數(shù)為0.09,適應(yīng)度值為0.018。最佳適應(yīng)度經(jīng)過前7次迭代小幅下降至0.018,隨后進(jìn)化穩(wěn)定直至達(dá)到終止條件;平均適應(yīng)度在迭代初期從0.036迅速下降至第11代的0.022,第11代之后隨最佳適應(yīng)度的平穩(wěn)而趨于穩(wěn)定;最佳適應(yīng)度與平均適應(yīng)度均呈現(xiàn)適應(yīng)度值隨進(jìn)化代數(shù)增加而收斂的趨勢。春季影像數(shù)據(jù)GA適應(yīng)度同樣在第50代尋得最優(yōu)c參數(shù)為0.39,最優(yōu)g參數(shù)為0.21,適應(yīng)度值進(jìn)化至0.029。最佳適應(yīng)度前36次迭代沒有發(fā)生變化,在第44代斷崖式下降到0.029;平均適應(yīng)度經(jīng)過前6次進(jìn)化迅速靠近最佳適應(yīng)度,在第44代以后沒有隨最佳適應(yīng)度收斂而減小。秋季影像數(shù)據(jù)GA適應(yīng)度也在第50獲得最優(yōu)c參數(shù)為0.72,最優(yōu)g參數(shù)為0.20,適應(yīng)度值為0.028。最佳適應(yīng)度在迭代初期下降不明顯,在第25代之后呈現(xiàn)階梯狀下降至0.028;平均適應(yīng)度大體上與最佳適應(yīng)度保持相同趨勢,但后25次的迭代并沒有隨最佳適應(yīng)度收斂而穩(wěn)定。3個季節(jié)最終進(jìn)化得到的c參數(shù)與g參數(shù)都較小,說明構(gòu)建的PLS-GA-SVM模型能容忍較大誤差、能支持較多向量。
表2 主成分貢獻(xiàn)率
基于大理州云南松一類調(diào)查數(shù)據(jù)選取的64個訓(xùn)練樣本進(jìn)行歸一化后經(jīng)過PLS特征提取、c參數(shù)和g參數(shù)尋優(yōu)和SVM模型擬合得到訓(xùn)練樣本的擬合值,再經(jīng)過數(shù)據(jù)反歸一化函數(shù)計算對應(yīng)的真實林分蓄積量。計算結(jié)果如圖5所示:冬季影像數(shù)據(jù)訓(xùn)練樣本構(gòu)建的SVM對大部分蓄積量值低于40 m3的樣地擬合效果較好,對高蓄積量值大于60 m3的估算效果在3個季節(jié)中表現(xiàn)最優(yōu),峰值的預(yù)測誤差最小,訓(xùn)練集R2為0.67,ERMS為6.85 m3;秋季影像數(shù)據(jù)的SVM預(yù)測結(jié)果次之,低蓄積量值(<40 m3)擬合情況不如冬季,蓄積量值大于60 m3的估計并不準(zhǔn)確,只能對60 m3以下的樣地有較好的訓(xùn)練效果,整體R2為0.58,ERMS為8.17 m3;春季影像數(shù)據(jù)SVM擬合蓄積量值反應(yīng)原數(shù)據(jù)變異情況的能力與秋冬季節(jié)沒有明顯差異,R2為0.56,整體誤差不大,ERMS為8.17 m3。對比3個季節(jié)的模型訓(xùn)練情況,冬季影像數(shù)據(jù)擬合的云南松林分蓄積量具有最高的R2與最低的ERMS,大多數(shù)預(yù)測值估算準(zhǔn)確,但有部分樣本出現(xiàn)高值低估的情況;基于春季和秋季影像數(shù)據(jù)的訓(xùn)練結(jié)果相對一致。根據(jù)PLS-GA-SVM的訓(xùn)練效果按從優(yōu)到差的排序為冬季、秋季、春季。
將測試集導(dǎo)入訓(xùn)練好的的SVM模型進(jìn)行計算,同樣通過反歸一化得到蓄積量值。圖6顯示冬季、春季和秋季遙感數(shù)據(jù)基于SVM訓(xùn)練結(jié)果在測試集樣本上的泛化能力。冬季的泛化結(jié)果良好,R2和ERMS分別為0.66、10.70 m3。得益于冬季遙感數(shù)據(jù)的訓(xùn)練能力,高蓄積量在測試集上能較準(zhǔn)確地擬合,但仍然出現(xiàn)高值低估的現(xiàn)象。春季遙感數(shù)據(jù)的泛化能力在3個季節(jié)中表現(xiàn)最差,R2(0.10)遠(yuǎn)低于冬季和秋季,ERMS(13.86 m3)最高;PLS-GA-SVM無法擬合測試樣本的真實反映,說明春季影像的反射光譜復(fù)雜程度高、噪聲多,增加了模型學(xué)習(xí)的困難程度。秋季遙感數(shù)據(jù)的R2最高,為0.85,真實值與預(yù)測值整體上保持相對一致的變動趨勢,但ERMS(13.61 m3)并沒有降低。個別低蓄積量值能被準(zhǔn)確擬合,但大部分樣本的預(yù)測值皆低于實測值,二者之間的誤差較大,導(dǎo)致ERMS較高。因此,單季節(jié)遙感數(shù)據(jù)的泛化能力按從優(yōu)到差的排序為冬季、秋季、春季。
以云南省大理州2007年森林資源連續(xù)清查樣地數(shù)據(jù)做為因變量,3期(冬季。春季和秋季)單季節(jié)遙感影像提取的單波段、植被指數(shù)與紋理信息為自變量,通過PLS特征提取,利用GA優(yōu)化SVM擬合云南松蓄積量模型。結(jié)論如下。
1)林分蓄積量與單季節(jié)遙感數(shù)據(jù)相關(guān)性較弱;冬季、春季和秋季遙感影像提取的光譜信息整體差異不大,經(jīng)PLS降維后的主成分貢獻(xiàn)率相對一致。冬季遙感影像數(shù)據(jù)在蓄積量上的反應(yīng)更“清晰”,GA迭代優(yōu)化的平均適應(yīng)度和最佳適應(yīng)度收斂速度更快,更穩(wěn)定。
2)基于冬季遙感影像構(gòu)建的PLS-GA-SVM模型效果最好,泛化能力最佳。春季遙感數(shù)據(jù)復(fù)雜性較高,無法準(zhǔn)確反映預(yù)蓄積量變化情況。
3)高值低估現(xiàn)象普遍存在,但冬季遙感數(shù)據(jù)能更好的預(yù)測高蓄積量樣本。
云南松林分蓄積量與各季節(jié)單波段、植被指數(shù)和紋理信息的相關(guān)性分析結(jié)果不理想,與Lu et al.[23]的研究結(jié)論相類似,多數(shù)紋理與森林生物量的相關(guān)性較弱。一方面,森林生態(tài)系統(tǒng)的綠色植物包括喬木、灌木、草本和苔蘚,植物種群根據(jù)各自生長特性占據(jù)不同的生態(tài)位置。樹木與周圍環(huán)境相互影響形成一個穩(wěn)定的結(jié)構(gòu),一個像元的波段特征反映的是樣地植被的綜合,光學(xué)遙感估計林分蓄積量存在較多不確定性。Spanner et al.[24]研究表明,基于遙感光譜特征的生物量估計的困難在于植被林分結(jié)構(gòu)的非均一性和大林分林冠陰影帶來的影響。另一方面,植物受當(dāng)?shù)貧夂蚝图竟?jié)變化的影響,造成不同時間尺度的植被反射率差異。Zhou[25]采用長期遙感NDVI信息量化中國東北地區(qū)植被生長的季節(jié)特征,指出平均植被綠度在林區(qū)隨時間延長而(春季到冬季)減少以及溫暖的秋季有利于改善植被活動的長度和強(qiáng)度。這也許能解釋冬季遙感數(shù)據(jù)模型較秋季遙感數(shù)據(jù)模型更好的原因。根據(jù)大理州地區(qū)干濕分明的氣候特點,6—10月屬于雨季,冬季降雨量少,與Mauya et al.[26]的研究結(jié)果相反:基于sentinel-2遙感影像雨季的預(yù)測變量擬合松樹蓄積量模型的RMSEr最小。另外,自變量與蓄積量之間的低相關(guān)性沒有影響SVM的訓(xùn)練效果,基于結(jié)構(gòu)風(fēng)險最小化原則的SVM計算得到的是全局最優(yōu)點,保證機(jī)器學(xué)習(xí)具有良好的預(yù)測精度和泛化能力。而且SVM以統(tǒng)計學(xué)理論為基礎(chǔ),主要針對有限樣本,對小樣本回歸有較好的擬合優(yōu)勢[27]。對于高值低估的普遍現(xiàn)象,原因是研究使用的調(diào)查數(shù)據(jù)多數(shù)樣本林分蓄積量偏低,主要集中在10~60 m3,林分蓄積量大于60 m3的樣地只占少數(shù),加上森林遙感的不確定性,SVM對此類樣本得不到有效的訓(xùn)練,預(yù)測值普遍低于真實值。
通常情況下,地理位置與氣候信息對云南松蓄積量變化有顯著影響。由于數(shù)字高程模型數(shù)據(jù)與年氣象數(shù)據(jù)組成的自變量因子在季節(jié)尺度上保持恒定,個別因子可能因占據(jù)較大權(quán)重從而影響模型訓(xùn)練過程得到錯誤結(jié)論,故沒有將此類因子置入模型構(gòu)建。下一步將在確定影像季節(jié)的選取上,引入樣地經(jīng)度、緯度、海拔、年均氣溫和日照時數(shù)等信息,并結(jié)合更多性能優(yōu)異的機(jī)器學(xué)習(xí)算法,更大程度地提高云南松蓄積量模型精度。