趙慶展 江 萍 王學(xué)文 張麗紅 張建新
(1.石河子大學(xué)信息科學(xué)與技術(shù)學(xué)院, 石河子 832000; 2.兵團(tuán)空間信息技術(shù)研究中心, 石河子 832000;3.石河子大學(xué)機(jī)械電氣工程學(xué)院, 石河子 832000; 4.150團(tuán)農(nóng)業(yè)發(fā)展服務(wù)中心, 石河子 832000)
建設(shè)“三北”(西北、華北和東北)防護(hù)林體系工程是改善地區(qū)生態(tài)環(huán)境、解決生態(tài)災(zāi)難的根本措施,對(duì)于鞏固和發(fā)展我國(guó)綠色生態(tài)屏障具有重要意義[1]。樹種多樣性是評(píng)價(jià)防護(hù)林林分結(jié)構(gòu)的指標(biāo)之一,樹種類別屬性信息對(duì)于建設(shè)和監(jiān)測(cè)防護(hù)林生態(tài)系統(tǒng)意義重大,可為防護(hù)林規(guī)劃者提供監(jiān)測(cè)、管理、評(píng)估防護(hù)林的重要依據(jù),確保其發(fā)揮防風(fēng)固沙、農(nóng)田保護(hù)等作用[2]。
與常規(guī)的實(shí)地勘測(cè)相比,遙感技術(shù)可以快速高效地監(jiān)測(cè)林業(yè)生態(tài)系統(tǒng)[3-4]。林業(yè)遙感的一個(gè)重要方向就是樹種分類及識(shí)別技術(shù),被動(dòng)遙感和主動(dòng)遙感的迅速發(fā)展,使得研究人員能在更精細(xì)的尺度上識(shí)別森林各項(xiàng)屬性[5]。部分學(xué)者融合激光雷達(dá)和高光譜數(shù)據(jù)對(duì)森林樹種進(jìn)行分類研究并取得了積極進(jìn)展,但激光雷達(dá)數(shù)據(jù)的獲取成本昂貴且受飛行區(qū)域面積影響,應(yīng)用前景受到限制[6]。多光譜衛(wèi)星遙感受到空間分辨率和光譜分辨率的影響,對(duì)于地物精細(xì)分類同樣具有局限性[7]。高光譜數(shù)據(jù)能發(fā)掘更多的植被信息,當(dāng)前無人機(jī)高光譜數(shù)據(jù)獲取便捷、成本低、周期短、空間分辨率高,給樹種分類帶來新的遙感數(shù)據(jù)源。
高光譜影像具有高維特性,在樣本數(shù)量有限時(shí),直接分類易導(dǎo)致維數(shù)災(zāi)難,不僅增加了數(shù)據(jù)處理成本,而且會(huì)降低地物分類精度。有學(xué)者研究發(fā)現(xiàn),在不影響地物分類精度的前提下,高光譜的部分波段是冗余的[8]。因此對(duì)高光譜影像進(jìn)行分類之前先進(jìn)行降維處理。文獻(xiàn)[9]運(yùn)用最佳指數(shù)法(Optimum index factor,OIF)、自適應(yīng)波段選擇法(Adaptive band selection,ABS)、自動(dòng)子空間劃分(Automatic subspace partitioning,ASP)與自適應(yīng)波段相結(jié)合(ASP+ABS)3種方法進(jìn)行無人機(jī)高光譜數(shù)據(jù)波段選擇,提取信息量較大且波段間相關(guān)性較低的原始最佳波段組合,基于支持向量機(jī)(SVM)分類器對(duì)薇甘菊進(jìn)行分類。OIF、ASP、自適應(yīng)波段選擇法,或是基于類別可分性的標(biāo)準(zhǔn)距離、離散度、B距離法、J-M(Jeffrey-Matusia)距離法等依賴于大量的數(shù)學(xué)計(jì)算,且選取的波段在光譜覆蓋范圍內(nèi)分布不均勻[10]。對(duì)于荒漠區(qū)防風(fēng)固沙林,林地各樹種冠層原始光譜相似,僅靠原始光譜特征進(jìn)行樹種分類容易產(chǎn)生異物同譜現(xiàn)象,加入一些其他特征(紋理特征、植被指數(shù)、數(shù)理統(tǒng)計(jì)特征等)可有效提高分類精度[11-12]。支持向量機(jī)和隨機(jī)森林(RF)兩種分類器在面對(duì)樣本數(shù)據(jù)少、維數(shù)高的遙感數(shù)據(jù)時(shí)都表現(xiàn)出了優(yōu)良性能。而最大似然法(MLC)分類器在運(yùn)行速度上具有明顯優(yōu)勢(shì),但易產(chǎn)生休斯現(xiàn)象(Hughes phenomenon,HP)[12]。一些學(xué)者對(duì)SVM、RF、MLC分類器對(duì)于樹種分類精度的影響進(jìn)行了研究,當(dāng)面對(duì)不同遙感數(shù)據(jù)和不同特征變量時(shí),這3種分類器表現(xiàn)出了不同分類性能[13-20]。在實(shí)際應(yīng)用中,面對(duì)不同研究區(qū)和數(shù)據(jù)源,還無法確定樹種分類哪種算法最為適宜。
針對(duì)以上問題,本文采用基于交叉驗(yàn)證的SVM-RFE(遞歸特征消除)算法, 在RFE算法中引入交叉驗(yàn)證,對(duì)高光譜所有波段進(jìn)行5折交叉驗(yàn)證,并選出最優(yōu)波段的評(píng)分集合,根據(jù)評(píng)分對(duì)無人機(jī)高光譜數(shù)據(jù)進(jìn)行原始最佳波段組合的選擇,并與OIF進(jìn)行比較;結(jié)合紋理特征、植被指數(shù)以及數(shù)理統(tǒng)計(jì)特征,采用RF特征重要性分析與分類精度相結(jié)合的方法進(jìn)行特征優(yōu)化,并評(píng)估不同特征對(duì)分類結(jié)果的影響;采用4種分類方案分別基于最大似然法、支持向量機(jī)和隨機(jī)森林進(jìn)行研究區(qū)樹種分類,評(píng)價(jià)不同分類算法對(duì)于研究區(qū)樹種的分類性能,以選擇最適于研究區(qū)樹種分類的分類算法。
研究區(qū)位于新疆天山以北,準(zhǔn)噶爾盆地南緣,莫索灣墾區(qū)北端的150團(tuán)三北防護(hù)林區(qū)域(45°10′N,85°56′E,見圖1)。研究區(qū)防護(hù)林屬于防風(fēng)固沙林,考慮到150團(tuán)的地理?xiàng)l件和適生植物種類以及“三北”防護(hù)林工程樹種組成配置原則[1],林分形式為草類、灌木、喬木相結(jié)合,為固定沙地以及保護(hù)耕地,榆樹林、混合闊葉林分布在道路兩旁,其垂直結(jié)構(gòu)為喬木層、灌木層、草本層。總面積約為451 km2。該地區(qū)為大陸性暖溫帶荒漠干旱氣候,地勢(shì)平坦,海拔300~500 m,主要喬木樹種為榆樹、新疆楊、胡楊、沙棗、梭梭等,林下植被以雜灌為主。本研究選擇榆樹、新疆楊、胡楊以及沙棗作為優(yōu)勢(shì)樹種進(jìn)行分類。
所用無人機(jī)平臺(tái)為Matrice600型六旋翼無人機(jī),最大承受風(fēng)速可達(dá)8 m/s,最大平均飛行速度18 m/s,續(xù)航時(shí)間20 min左右,最大航程5 km,適配RONIN-MX型多功能云臺(tái),可搭載多種可見光與高光譜載荷設(shè)備。高光譜傳感器采用芬蘭SENOP公司生產(chǎn)的Rikola型高光譜成像儀,成像方式為框幅式成像,該成像光譜儀質(zhì)量輕(720 g)、體積小,既可手持測(cè)量又可以搭載在小型無人機(jī)上,默認(rèn)光譜范圍為500~900 nm,最多可達(dá)380個(gè)波段,可以根據(jù)數(shù)據(jù)采集要求調(diào)整光譜范圍和波段個(gè)數(shù)。
影像獲取時(shí)間為2019年10月9日,無人機(jī)飛行高度200 m。為滿足影像高分辨率要求以及飛行高度和相機(jī)參數(shù)需求,設(shè)置42個(gè)波段(光譜范圍為502~903 nm,間隔約為10 nm),航向重疊率為82%,旁向重疊率為80%,空間分辨率為0.12 m,同時(shí)在地面設(shè)置4塊地面輻射靶標(biāo),反射率分別為3%、22%、48%和64%,用于后期進(jìn)行影像輻射校正處理。
為了保證利用遙感影像進(jìn)行樣本數(shù)據(jù)標(biāo)注過程的準(zhǔn)確性,同期在研究區(qū)開展實(shí)地?cái)?shù)據(jù)調(diào)查,根據(jù)研究區(qū)林分具體情況,選取了3個(gè)典型區(qū)域作為研究區(qū)進(jìn)行采樣。樣地調(diào)查時(shí)間為2019年10月7日,采樣過程中利用便攜式GPS設(shè)備記錄采樣點(diǎn)位置信息,在各個(gè)樣地中記錄每棵單木樹種情況。調(diào)查完成后,將原始數(shù)據(jù)記錄整理至Excel表格,形成完整的調(diào)查記錄表,采樣共獲取了40個(gè)樣本點(diǎn)的樹種類型數(shù)據(jù),包括榆樹、新疆楊、胡楊和沙棗等。
首先對(duì)高光譜影像進(jìn)行預(yù)處理以及分類特征集的構(gòu)建,基于交叉驗(yàn)證的SVM-RFE(支持向量機(jī)-遞歸特征消除)算法選取原始波段最佳組合,再結(jié)合植被指數(shù)、紋理特征、數(shù)理統(tǒng)計(jì)特征等,構(gòu)建新的影像分類特征。其次基于RF算法進(jìn)行特征重要性分析,與分類精度相結(jié)合去除重要性得分排名靠后15%的特征。最后構(gòu)建4種分類方案進(jìn)行影像分類并作精度評(píng)價(jià),比較不同分類器的分類效果。本研究技術(shù)路線如圖2所示。
將獲取到的原始高光譜影像導(dǎo)出,使用Agis Photoscan軟件完成系統(tǒng)校正工作(包括暗電流校正、鏡頭漸暈校正、輻射定標(biāo)和圖像格式轉(zhuǎn)換),使用ENVI軟件將其轉(zhuǎn)換成標(biāo)準(zhǔn)TIFF格式的柵格影像數(shù)據(jù)。將POS數(shù)據(jù)(影像的經(jīng)緯度信息)與影像一一對(duì)應(yīng),在Agis Photoscan中進(jìn)行拼接處理,得到0.12 m空間分辨率的高光譜影像數(shù)據(jù)。對(duì)拼接完成的正射影像進(jìn)行輻射校正,機(jī)載高光譜影像的實(shí)際數(shù)字量化值DN與地面反射率Ref的關(guān)系表達(dá)式為
Ref=DNa+b
(1)
式中a——定標(biāo)增益系數(shù)b——偏移值
根據(jù)定標(biāo)方程,以繪制感興趣區(qū)域的方式分別統(tǒng)計(jì)4塊靶標(biāo)影像的DN值(實(shí)際數(shù)字量化值),并與4塊靶標(biāo)的標(biāo)準(zhǔn)反射率相對(duì)應(yīng),采用最小二乘法進(jìn)行擬合,從而獲得機(jī)載Rikola型高光譜儀輻射定標(biāo)系數(shù)a和偏移值b[21]。
根據(jù)采樣獲取的地面樣本點(diǎn)信息,對(duì)研究區(qū)主要樹種進(jìn)行記錄,排除了數(shù)量較少或被其他冠層遮擋的樹種,并根據(jù)實(shí)際分類效果選取地物樣本;通過ENVI的創(chuàng)建ROI工具直接在影像上選取感興趣區(qū)作為樣本點(diǎn)。根據(jù)各地物在研究區(qū)的分布,最終共選擇了33 689個(gè)像元作為樣本數(shù)據(jù),取3/4作為訓(xùn)練樣本,其余作為驗(yàn)證樣本。
訓(xùn)練樣本較少且各樹種樣本數(shù)量不均勻時(shí)會(huì)降低分類器的分類性能。為了避免此類問題,對(duì)高光譜影像進(jìn)行特征挖掘[22]非常必要,特征挖掘包括特征提取、波段選擇和其他用于特征空間重構(gòu)的運(yùn)算。
特征提取是通過對(duì)原始光譜數(shù)據(jù)進(jìn)行數(shù)學(xué)變換來降維和增強(qiáng)光譜特征,例如基于信息量正交線性變換的主成分分析法(Principal component analysis,PCA)、基于圖像數(shù)據(jù)相關(guān)性的最小噪聲分離(Maxmum noise fraction,MNF)等,通過PCA對(duì)數(shù)據(jù)進(jìn)行預(yù)處理一般需要假設(shè)數(shù)據(jù)服從高斯分布,由于高光譜數(shù)據(jù)非線性特點(diǎn),此類算法進(jìn)行降維后會(huì)丟失大量原始數(shù)據(jù)中的非線性信息[23]。波段選擇是按照一定標(biāo)準(zhǔn)選擇一個(gè)原始光譜數(shù)據(jù)的最優(yōu)波段子集,該波段子集保留了地物的光譜特征或是提高了地物類別可分性。波段組合就是一個(gè)組合優(yōu)化問題,其組合標(biāo)準(zhǔn)稱為目標(biāo)函數(shù)[24]。目前應(yīng)用較為廣泛的為最佳指數(shù)因子選擇法(OIF)[25]、波段相關(guān)性比較、波段指數(shù)法等。
最佳指數(shù)因子選擇法(OIF)綜合考慮單波段影像信息量以及各波段間相關(guān)性,更接近于波段選擇原則,且計(jì)算簡(jiǎn)單易于實(shí)現(xiàn)。OIF計(jì)算公式為
(2)
式中Si——第i個(gè)波段標(biāo)準(zhǔn)差
Rij——波段間相關(guān)系數(shù)
ROIF——最佳指數(shù)因子
OIF越大,說明波段組合質(zhì)量越好。
支持向量機(jī)算法也可被用于波段選擇,與遞歸特征消除算法結(jié)合應(yīng)用效果良好。SVM-RFE算法是一種嵌入式的特征選擇方法,與包裝法不同,嵌入法不將分類器視為黑盒,而是使用訓(xùn)練分類器獲得的信息來選擇特征。因此本研究采用SVM-RFE算法選擇原始最佳波段組合,其主要思想是構(gòu)建一個(gè)模型進(jìn)行多次訓(xùn)練,每輪訓(xùn)練移除若干權(quán)值系數(shù)較低的特征,再基于新的特征集進(jìn)行下一步訓(xùn)練,直至選出滿意的特征(利用SVM的分類性能進(jìn)行波段選擇,利用SVM的結(jié)果評(píng)價(jià)降維性能)[26]。在進(jìn)行高光譜數(shù)據(jù)降維時(shí)如何確定降維后特征數(shù)目非常困難,傳統(tǒng)的RFE算法需要在訓(xùn)練前確定降維后特征個(gè)數(shù),本文將交叉驗(yàn)證的思想引入RFE算法,提出了基于交叉驗(yàn)證的SVM-RFE算法,在REF的基礎(chǔ)上對(duì)不同的波段組合進(jìn)行交叉驗(yàn)證,學(xué)習(xí)器SVM本身不變,通過計(jì)算其決策系數(shù)之和,最終得到不同波段對(duì)于分類的重要程度,然后保留最佳的波段組合。
植被指數(shù)特征利用波段間數(shù)學(xué)變換對(duì)影像進(jìn)行指數(shù)特征提取,根據(jù)本研究區(qū)的地物種類以及高光譜數(shù)據(jù)可選波段,構(gòu)建了10個(gè)相關(guān)的植被指數(shù)進(jìn)行研究。在進(jìn)行指數(shù)計(jì)算后,對(duì)所有植被指數(shù)進(jìn)行歸一化處理,基于CART決策樹的特征重要性評(píng)估對(duì)各個(gè)植被指數(shù)進(jìn)行重要性評(píng)分,最終選取了5個(gè)重要性得分最高的植被指數(shù)特征,如表1所示。
表1 植被指數(shù)計(jì)算及基于CART決策樹特征重要性評(píng)估Tab.1 Vegetation index calculation and feature importance assessment based on CART decision tree
高光譜數(shù)據(jù)不僅包含地物連續(xù)的光譜信息,也包含豐富的地物空間分布信息,僅考慮光譜信息,難以準(zhǔn)確地對(duì)高光譜圖像進(jìn)行分析[27]??梢酝ㄟ^灰度共生矩陣構(gòu)建紋理特征引入空間信息,紋理特征是表達(dá)高光譜影像空間特征的有效方法之一[28]。
對(duì)影像數(shù)據(jù)通過主成分分析進(jìn)行降維處理,將影像信息壓縮至幾個(gè)主成分中,提取主成分包含信息量最高的第一主成分。通過對(duì)第一主成分進(jìn)行灰度共生矩陣計(jì)算,空間域選用二階概率統(tǒng)計(jì)濾波提取紋理特征。分別計(jì)算3×3、5×5、7×7濾波窗口紋理特征,發(fā)現(xiàn)7×7窗口的紋理特征標(biāo)準(zhǔn)差最大,因此將濾波窗口設(shè)置為7×7,獲得8項(xiàng)紋理特征,分別為均值、方差、同質(zhì)性、對(duì)比度、非相似性、熵、二階矩、相關(guān)性。
特征優(yōu)化選取了特征變量中重要性較高的特征變量。RF可以對(duì)特征變量的重要性和貢獻(xiàn)度進(jìn)行評(píng)估。在構(gòu)造決策樹時(shí),通過bootstrap抽樣法從訓(xùn)練樣本集中提取數(shù)據(jù),對(duì)于決策樹中的每個(gè)節(jié)點(diǎn),先從所有特征中隨機(jī)選取mtry個(gè)特征,根據(jù)基尼系數(shù)進(jìn)行分裂測(cè)試并找到最佳特征。訓(xùn)練過程中未被抽取的樣本被稱為袋外(Out of bag,OOB) 數(shù)據(jù),利用OOB 數(shù)據(jù)進(jìn)行分類結(jié)果的精度評(píng)價(jià)以及不同特征變量的重要性計(jì)算[29]。本文通過改變森林中樹的數(shù)量進(jìn)行多次實(shí)驗(yàn),實(shí)驗(yàn)中記錄特征重要性得分,最后與分類總體精度相結(jié)合,去除冗余的特征變量。
RF通過集成學(xué)習(xí)的思想將多棵決策樹集成,不僅能夠有效地運(yùn)行在大數(shù)據(jù)集,而且可以在無需降維的情況下處理具有高維特征的輸入樣本[28]。隨機(jī)森林分類需要設(shè)置兩個(gè)參數(shù),隨機(jī)森林樹的個(gè)數(shù)(ntree)以及樹節(jié)點(diǎn)預(yù)選的變量個(gè)數(shù)(mtry)。本研究通過多次實(shí)驗(yàn)發(fā)現(xiàn), ntree在550以后分類總體精度幾乎不變,因此將ntree設(shè)置為550,mtry默認(rèn)使用“Square Root”方法,即輸入分類器特征變量數(shù)的平方根。SVM可以自動(dòng)尋找那些對(duì)分類有較大區(qū)分能力的支持向量,由此構(gòu)造出分類器,將類與類間隔最大化[11]。支持向量機(jī)所選核函數(shù)為RBF函數(shù)(徑向基函數(shù)),最優(yōu)懲罰系數(shù)C為0.036。
分類方案為: 第1組選擇原始高光譜全部波段(n=42,n表示波段數(shù))作為分類器的輸入; 第2組選擇原始最佳波段組合(n=17)作為分類器的輸入; 第3組選擇全部特征變量(n=33)作為分類器的輸入; 第4組選擇優(yōu)化特征變量(n=28)作為分類器的輸入;分別基于SVM和RF以及MLC這3種分類器進(jìn)行分類。為了評(píng)估分類結(jié)果的準(zhǔn)確性以及無人機(jī)高光譜數(shù)據(jù)在防護(hù)林物種分類應(yīng)用中的有效性,利用采樣點(diǎn)建立地面真實(shí)的感興趣區(qū)并構(gòu)建混淆矩陣。對(duì)于每個(gè)分類結(jié)果,混淆矩陣提供了總體精度(Overall accuracy,OA)、Kappa系數(shù)、用戶精度(User accuracy,UA)和生產(chǎn)者精度(Producer accuracy,PA)來評(píng)價(jià)分類精度。
運(yùn)用監(jiān)督分類以及隨機(jī)森林基于像素的分類時(shí),分類結(jié)果中不可避免地會(huì)產(chǎn)生椒鹽現(xiàn)象和一些小的圖斑,為了增強(qiáng)分類效果,對(duì)初步的分類結(jié)果通過中值濾波對(duì)圖像進(jìn)行平滑,消除椒鹽噪聲和小的斑點(diǎn)(卷積核尺寸為5×5)。
對(duì)于分類類別中產(chǎn)生的錯(cuò)分像元,采用聚類分析工具(MajorityhMinority)進(jìn)行歸類(變換核尺寸為5×5,中心像元權(quán)重1)。對(duì)于因缺少空間連續(xù)性而產(chǎn)生的斑點(diǎn)和洞,采用聚類處理工具(Clump)解決。對(duì)圖像中出現(xiàn)的孤島點(diǎn),運(yùn)用過濾處理(Sieve)工具消除。
以研究區(qū)優(yōu)勢(shì)樹種為研究對(duì)象,分別使用OIF法(表2)和本文提出的基于交叉驗(yàn)證的SVM-RFE算法進(jìn)行原始最佳波段組合選擇。
預(yù)處理后的無人機(jī)高光譜數(shù)據(jù)有42個(gè)波段,計(jì)算所有波段組合的OIF指數(shù),選取指數(shù)排序前20的波段組合,如表2所示。本研究從OIF值前20的最佳波段組合中選取了11個(gè)波段進(jìn)行原始波段組合,所選波段序號(hào)為1、2、3、4、5、6、35、36、37、38、42。通過OIF算法選取原始波段最佳組合計(jì)算復(fù)雜度高、耗費(fèi)時(shí)間長(zhǎng),由表2可知,選擇的波段呈現(xiàn)兩極分化現(xiàn)象,分別集中在藍(lán)光波段和近紅外波段,綠色和紅色波段未被選擇,丟失了大量原始信息。
表2 OIF指數(shù)排序Tab.2 OIF index ranking
而基于本文提出的方法所選的原始波段為17個(gè),對(duì)選取的波段進(jìn)行波段組合,所選波段序號(hào)為1、2、3、8、11、13、17、20、21、23、26、28、35、36、40、42?;诒疚奶岢龅姆椒ㄋx的波段覆蓋了整個(gè)范圍,波段選擇均勻且計(jì)算量相對(duì)較小。將兩種波段組合選擇方法的榆樹光譜響應(yīng)曲線分別與原始的42個(gè)波段榆樹光譜響應(yīng)曲線進(jìn)行對(duì)比,如圖3所示,由圖3可知,基于交叉驗(yàn)證的SVM-RFE算法選出的波段特征組合,榆樹光譜響應(yīng)曲線與原始42個(gè)波段榆樹光譜響應(yīng)曲線擬合良好,較好地保留了原始光譜特征?;趦煞N方法選取的原始最佳波段組合得到的分類結(jié)果如表3所示,基于OIF法選取原始波段組合總體分類精度與Kappa系數(shù)與原始全波段相比都降低了,而基于本文提出的方法總體精度和Kappa系數(shù)與原始全波段相比幾乎不變。相比較于OIF法,本文提出的方法更適合用作高光譜數(shù)據(jù)的原始最佳波段組合選擇。
表3 原始波段選擇分類結(jié)果比較Tab.3 Comparison of original band selection and classification results
通過隨機(jī)森林的OOB誤差分析得到特征變量重要性分布(圖4,圖中ica1~ica3表示獨(dú)立主成分分析后3個(gè)主成分,bi(i=1,2,3…)表示原始波段,glcm1~glcm8分別表示均值、方差、同質(zhì)性、對(duì)比度、非相似性、熵、相關(guān)性、二階矩),重要性得分越高,該變量對(duì)分類結(jié)果的影響以及貢獻(xiàn)越大。通過改變決策樹的數(shù)量發(fā)現(xiàn),當(dāng)決策樹數(shù)量達(dá)到2 000,特征重要性排序以及刪除的特征變量基本不變。因此選擇RF決策樹數(shù)量為2 000時(shí)實(shí)驗(yàn)結(jié)果作為最終的特征重要性分析結(jié)果,如圖4所示,分析可知:植被指數(shù)以及數(shù)理統(tǒng)計(jì)特征重要性得分較高,綠色比值植被指數(shù)重要性排名第一,這是由于研究區(qū)榆樹占大多數(shù),且長(zhǎng)勢(shì)良好,葉綠素含量較高,因此在近紅外波段反射率較高。其他植被指數(shù)特征和數(shù)理統(tǒng)計(jì)特征均排在前20%,說明本文構(gòu)建的植被指數(shù)特征對(duì)于防護(hù)林樹種分類有重要作用;而數(shù)理統(tǒng)計(jì)特征選取的是獨(dú)立主成分分析的前3個(gè)主成分,其包含了原數(shù)據(jù)95%以上的信息量,因此重要性得分較高。
紋理特征重要性普遍較低,造成此現(xiàn)象的原因可能是因?yàn)榻?jīng)過主成分分析以后,排名靠后的紋理特征包含的原始數(shù)據(jù)信息量較少。
按照特征重要性排序和特征數(shù)量依次從1到33輸入RF分類器,利用地面真實(shí)感興趣區(qū)建立混淆矩陣,對(duì)分類結(jié)果進(jìn)行評(píng)價(jià),評(píng)價(jià)指標(biāo)為總體分類精度(OA)和Kappa系數(shù),特征變量數(shù)與分類精度關(guān)系如圖5所示。分類精度在特征變量數(shù)1~11時(shí)明顯提高,分類總體精度和Kappa系數(shù)分別為94.73%和0.93。特征變量數(shù)從11開始,分類精度呈上升趨勢(shì),但不明顯。當(dāng)n=28時(shí)分類精度最高,總體精度和Kappa系數(shù)分別為95.53%和0.947 5。伴隨著紋理特征的加入,分類精度呈略微下降趨勢(shì),說明特征變量過多易導(dǎo)致數(shù)據(jù)冗余和過擬合現(xiàn)象。最終確定重要性排名前85%的特征變量(n=28,包括17個(gè)光譜特征、3個(gè)紋理特征、5個(gè)植被指數(shù)和3個(gè)數(shù)理統(tǒng)計(jì)特征)作為分類器的輸入。
本研究使用28個(gè)優(yōu)選特征,基于同一訓(xùn)練樣本,分別采用 MLC、SVM和RF算法進(jìn)行樹種分類。從分類圖(圖6)來看,3種分類器對(duì)研究區(qū)的樹種都有不同程度的混分與錯(cuò)分現(xiàn)象,沙棗分類精度最低,MLC和SVM對(duì)于榆樹和沙棗混分比較多,原因是研究區(qū)域內(nèi)沙棗種植數(shù)量少,樹冠大,側(cè)斜枝較多,反映到圖像上光譜信息較強(qiáng),與區(qū)域中其他樹種(榆樹)混合種植,二者光譜特征相似,增加了分類難度,造成沙棗與榆樹混分的現(xiàn)象。
長(zhǎng)勢(shì)旺盛的新疆楊與胡楊光譜、紋理特征相似,不易分辨,故兩者有輕微混分現(xiàn)象。研究區(qū)周邊農(nóng)田棉花低矮,反映到圖像上光譜信息較弱,與區(qū)域中灌木較為相似,棉花地和灌木也有少量混分現(xiàn)象。
由于考慮到防護(hù)林的總體效應(yīng),種植時(shí)會(huì)綜合考慮特定的樹木種類與灌木混合,防護(hù)林下分布了大量灌木,增加了樹種精細(xì)分類的難度。此外,高光譜數(shù)據(jù)采集時(shí)間在研究區(qū)的深秋季節(jié),大部分植被已經(jīng)開始枯萎,部分胡楊、沙棗已經(jīng)枯萎或死亡而未被識(shí)別出來,影響了制圖精度。3種算法都有不同程度的椒鹽噪聲,造成此現(xiàn)象的原因是本研究所使用的傳感器空間分辨率較高。
表4匯總了基于特征優(yōu)化后不同的分類器分類精度評(píng)估結(jié)果。實(shí)驗(yàn)結(jié)果表明,RF分類精度最高,總體分類精度為95.93%(Kappa系數(shù)為0.947 5);MLC總體分類精度最低,為88.70%(Kappa系數(shù)為0.850 8)。與MLC和SVM相比,RF總體精度提高了6.83個(gè)百分點(diǎn)和1.32百分點(diǎn),Kappa系數(shù)提高了0.096 7和0.024 1,大多數(shù)防護(hù)林樹種的PA和UA都在80%以上。從單個(gè)樹種分類精度來看,與MLC相比,隨機(jī)森林分類器減少了白楊和榆樹的漏分和錯(cuò)分;與SVM相比,減少了胡楊與沙棗的漏分與錯(cuò)分,PA與UA較高證明了這一點(diǎn)。
表4 不同分類器分類結(jié)果Tab.4 Results classified by different classifiers
從表5來看,分類方案2的結(jié)果表明,本文提出的高光譜數(shù)據(jù)波段選擇方法是有效的。與僅使用光譜特征相比,植被指數(shù)和紋理特征以及數(shù)理統(tǒng)計(jì)特征的加入大大地提高了單個(gè)樹種的分類精度,用戶精度提高了 0.18~24.84個(gè)百分點(diǎn)。特征優(yōu)化后,分類總體精度提高了0.39個(gè)百分點(diǎn),Kappa系數(shù)提高了0.065,雖然精度提高不明顯,但數(shù)據(jù)處理效率提高,且挖掘出了適合于研究區(qū)樹種分類的特征。RF算法比MLC、SVM算法分類精度高,分類效果更好,對(duì)于研究區(qū)樹種分類具有很好的適用性。
表5 不同分類方案的RF分類結(jié)果Tab.5 RF classification results of different classification schemes
本研究最終使用28個(gè)優(yōu)選特征,基于同一訓(xùn)練樣本采用 RF 算法進(jìn)行樹種分類。對(duì)于初步分類結(jié)果,進(jìn)行了圖像分類后處理,采用中值濾波器去除椒鹽噪聲和較小圖斑,效果良好;使用聚類分析、聚類處理和過濾處理,解決了圖像中較大類別中的虛假像元問題,因缺少空間連續(xù)性而產(chǎn)生的斑點(diǎn)和洞以及圖像中的孤島問題,效果良好。從表6可以看到,處理后樹種分類OA和Kappa系數(shù)分別提高了1.01個(gè)百分點(diǎn)和0.012,本文的分類后處理方法可以有效增強(qiáng)分類效果。分類后處理效果如圖7所示。
表6 RF分類后處理結(jié)果Tab.6 RF (n=28) classification and post-processing results
(1)提出了基于交叉驗(yàn)證的SVM-RFE算法提取原始波段最佳組合,相比較于OIF指數(shù)法,所提出的方法計(jì)算量相對(duì)較小且很好地保留了原始光譜特征信息,降低維度的同時(shí)增加了樹種類別可分性,與最佳指數(shù)法相比,基于交叉驗(yàn)證的SVM-RFE算法更加適合于高光譜數(shù)據(jù)的波段選擇。
(2)紋理特征、植被指數(shù)以及數(shù)理統(tǒng)計(jì)特征的加入提高了單個(gè)樹種的分類精度。綠色比值植被指數(shù)(GRVI)、類胡蘿卜素指數(shù)(CRI)、修正型土壤調(diào)整植被指數(shù)(MSAI)、歸一化植被指數(shù)(NDVI)、歸一化綠度差值指數(shù)(NDGI)等植被指數(shù)特征對(duì)于提高研究區(qū)防護(hù)林樹種的分類精度是有效的?;赗F的特征重要性分析與分類精度相結(jié)合的方式進(jìn)行特征優(yōu)化后,分類總體精度提高了0.39個(gè)百分點(diǎn),Kappa系數(shù)提高了0.065,說明去除的紋理特征(方差、同質(zhì)性、對(duì)比度、非相似性、相關(guān)性以及二階矩)對(duì)于研究區(qū)的樹種分類具有干擾性,去除以后提高了分類器的分類性能。
(3)基于構(gòu)建的4種分類方案進(jìn)行樹種分類,特征優(yōu)化后的特征變量組合分類效果最好,RF分類精度最高,總體精度可達(dá)95.93%(Kappa系數(shù)為0.947 5),MLC分類精度最低,總體精度為88.70%(Kappa系數(shù)為0.850 8),SVM總體精度為94.21%(Kappa系數(shù)為0.923 4),3種分類方法比較,RF是最適合于研究區(qū)的分類算法。
(4)對(duì)初步分類結(jié)果分別進(jìn)行了中值濾波平滑、聚類分析、聚類處理和過濾處理,處理后分類總體精度和Kappa系數(shù)分別提高了1.01個(gè)百分點(diǎn)和0.012,本研究的分類后處理方法可以增強(qiáng)分類效果。