陳健, 李虎, 劉玉鋒, 常竹, 韓偉杰, 劉賽賽
(1.安徽師范大學(xué)地理與旅游學(xué)院,蕪湖 241003; 2.滁州學(xué)院計(jì)算機(jī)與信息工程學(xué)院,滁州 239000;3.資源環(huán)境與地理信息工程安徽省工程技術(shù)研究中心,蕪湖 241003)
農(nóng)作物種植面積是農(nóng)情監(jiān)測(cè)和農(nóng)業(yè)種植結(jié)構(gòu)調(diào)整的重要基礎(chǔ)數(shù)據(jù)。傳統(tǒng)農(nóng)作物種植面積統(tǒng)計(jì)通常采用抽樣和逐級(jí)上報(bào)的方式進(jìn)行,不僅費(fèi)時(shí)費(fèi)力,還受到一定的主觀因素影響[1]。衛(wèi)星遙感技術(shù)能夠?qū)崿F(xiàn)大面積、長(zhǎng)時(shí)間的對(duì)地觀測(cè),可以在短時(shí)間內(nèi)客觀、準(zhǔn)確地獲取農(nóng)作物的分布信息,是目前農(nóng)業(yè)遙感研究的一個(gè)熱點(diǎn)[2-3]。
由于存在“同物異譜、同譜異物”的現(xiàn)象,單一時(shí)相的遙感數(shù)據(jù)往往難以準(zhǔn)確反映農(nóng)作物的分布情況[4]。學(xué)者們選擇從多時(shí)相數(shù)據(jù)源入手,根據(jù)作物在遙感影像上的表征隨時(shí)間變化的特性實(shí)現(xiàn)作物分類,如王德軍等[5]、楊歡等[6]通過構(gòu)建能夠反映作物物候信息的時(shí)間序列植被指數(shù),有效識(shí)別出了不同農(nóng)作物。遙感分類過程中,如果將所有時(shí)相的特征都參與計(jì)算容易弱化分類器性能,造成維度災(zāi)難和信息冗余,從而降低精度和效率。因此,如何從多時(shí)相、多特征組合中優(yōu)選出最佳特征是解決農(nóng)作物分類問題的關(guān)鍵所在。
近年來,特征優(yōu)選在農(nóng)作物遙感分類中得到了不同程度的應(yīng)用,為更好地識(shí)別出農(nóng)作物提供了可能。RF_RFE由于能夠量化每個(gè)變量的相對(duì)重要性,通常被用于高維的特征優(yōu)選。梁繼等[7]采用RF_RFE算法分析了不同特征對(duì)農(nóng)作物識(shí)別的重要程度,篩選出有利于農(nóng)作物識(shí)別的特征,提高了農(nóng)作物分類的精度和效率。周小成等[8]使用RF_RFE算法優(yōu)選出有利于林地信息提取的特征,實(shí)現(xiàn)了基于無人機(jī)數(shù)據(jù)對(duì)竹林、針葉林和闊葉林的分類識(shí)別。Relief F是經(jīng)典的過濾式特征選擇算法,在特征優(yōu)選中具有運(yùn)算速度快、泛化能力強(qiáng)等特點(diǎn)。劉家福等[9]基于Landsat8數(shù)據(jù)研究提取濱海濕地信息時(shí),發(fā)現(xiàn)基于Relief F算法結(jié)合隨機(jī)森林(random forest,RF)分類器具有高精度、高效率的優(yōu)勢(shì)。劉瑩等[10]通過Relief F算法對(duì)Landsat8數(shù)據(jù)的71個(gè)特征進(jìn)行特征優(yōu)選,然后結(jié)合SVM分類器有效的識(shí)別出城市的不透水面覆蓋面積。張東彥等[11]在對(duì)安徽北部平原的大豆區(qū)進(jìn)行提取時(shí),使用Relief F算法提取特征,并對(duì)比了RF、反向傳播神經(jīng)網(wǎng)絡(luò)(back-propagation,BP)、支持向量機(jī)(support vector machine,SVM)等3種分類器的分類效果,結(jié)果表明RF分類器結(jié)合Relief F算法的識(shí)別結(jié)果更加接近真實(shí)情況?;谙嗨菩缘奶卣鲀?yōu)選(correlation-based feature selection,CFS)算法是用來綜合評(píng)價(jià)特征與分類結(jié)果之間的相關(guān)性和特征之間冗余度的方法。張文博等[12]對(duì)比了CFS算法和Relief F算法提取旱區(qū)植被的分類效果,結(jié)果表明CFS算法能夠在保證較少特征的同時(shí)具備較高的分類精度。
綜上所述,在基于遙感數(shù)據(jù)多特征優(yōu)選的分類識(shí)別研究中,分類特征的選擇固然重要,但還存在盲目性和不穩(wěn)定性,對(duì)不同的地物識(shí)別效果差異也較大,不同的特征優(yōu)選方法適用于何種遙感數(shù)據(jù)和分類場(chǎng)景尚未形成統(tǒng)一的定論。本研究以滁州市全椒縣為研究區(qū),借助GEE平臺(tái),基于Sentinel-2衛(wèi)星數(shù)據(jù)構(gòu)建多時(shí)相多維遙感特征,選用RF_RFE,Relief F,CFS這3種特征優(yōu)選算法,探究不同的特征優(yōu)選算法在農(nóng)作物分類中的效果優(yōu)劣,并確定可用于農(nóng)作物種植類型識(shí)別的最佳特征優(yōu)選方法; 在此基礎(chǔ)上,通過與其他的分類方法比較,進(jìn)一步探究最佳特征優(yōu)選算法在不同分類器中的識(shí)別農(nóng)作物種植結(jié)構(gòu)的性能差異。
全椒縣地處安徽省滁州市的最南端,E117°48′~118°24′、N31°50′~32°14′之間。位于江淮分水嶺和滁河之間,為亞熱帶季風(fēng)氣候,年平均氣溫范圍為11.4~16.6 ℃。北部為山區(qū),海拔最高396 m,南部為平原帶,東部為主城區(qū),上半年以種植小麥、油菜為主,下半年以種植水稻為主,地理位置及樣本點(diǎn)分布如圖1所示。
圖1 研究區(qū)地理位置及其樣本分布
1.2.1 Sentinel-2影像數(shù)據(jù)
相較于GF-2衛(wèi)星數(shù)據(jù)和Landsat衛(wèi)星數(shù)據(jù),Sentinel-2衛(wèi)星數(shù)據(jù)具有重訪周期短、分辨率高的綜合優(yōu)勢(shì),且具備對(duì)農(nóng)作物分類有重要影響的紅邊特征。依據(jù)全椒縣農(nóng)作物的物候特征(表1)以及相關(guān)的前期研究,選擇農(nóng)作物的返青期2022年2月25日、拔節(jié)期2022年3月12日、孕穗期2022年4月21日共3景Sentinel-2多光譜數(shù)據(jù)作為數(shù)據(jù)源。在GEE中選擇的Sentinel-2數(shù)據(jù)是經(jīng)過輻射定標(biāo)和幾何校正的Level-1C產(chǎn)品,其中包含13個(gè)光譜波段,本文剔除掉氣溶膠、水蒸氣以及卷云波段這3個(gè)無關(guān)波段,并利用QA60波段進(jìn)行去云掩模操作,除去卷云和厚云的影響,最終得到3個(gè)時(shí)相的全椒縣Sentinel-2無云影像。
表1 全椒縣午季農(nóng)作物生長(zhǎng)周期
1.2.2 樣本數(shù)據(jù)
本文根據(jù)全椒縣實(shí)地調(diào)查情況,將研究區(qū)土地覆蓋類型分為居民地、道路、裸地、冬閑田、小麥、油菜、水體和森林8類,并于2022年2月24日—2022年2月26日對(duì)研究區(qū)開展地面調(diào)查,獲取各種地物樣本以及農(nóng)作物的類型、種植結(jié)構(gòu)、地理位置并拍照記錄。共獲得512個(gè)樣本數(shù)據(jù),其中居民地68個(gè)、道路23個(gè)、裸地27個(gè)、冬閑田76個(gè)、小麥105個(gè)、油菜148個(gè)、水體26個(gè)、林地39個(gè),具體的樣本分布情況如圖1所示。本文將樣本數(shù)據(jù)按照7∶3的比例隨機(jī)分為訓(xùn)練樣本和驗(yàn)證樣本。
基于GEE平臺(tái)提取全椒縣農(nóng)作物種植類型的具體流程如圖2所示。首先通過GEE平臺(tái)獲取并處理覆蓋全椒縣的Sentinel-2數(shù)據(jù),從中提取出光譜特征、紋理特征、植被指數(shù)特征。然后采用RF_RFE,Relief F,CFS對(duì)多時(shí)相、多維遙感特征進(jìn)行優(yōu)選,分析不同特征在農(nóng)作物識(shí)別中的重要性程度,并采用混淆矩陣方法評(píng)估分類精度確定最佳的特征優(yōu)選算法。在此基礎(chǔ)上,對(duì)比RF,SVM、最小距離分類(minimum distance classification,MDC)3種分類方法,探究最佳特征優(yōu)選算法在不同分類器中的性能差異,采用全國(guó)第二次土地調(diào)查數(shù)據(jù)中的耕地范圍對(duì)分類結(jié)果做掩模處理,并將非農(nóng)作物類型合并在一起,只分析農(nóng)作物的識(shí)別結(jié)果。
圖2 研究區(qū)農(nóng)作物信息提取的技術(shù)流程圖
為了分析不同的特征對(duì)農(nóng)作物遙感識(shí)別的影響,提高農(nóng)作物的識(shí)別精度,本文選擇光譜特征、植被指數(shù)特征、紋理特征等共計(jì)90個(gè)特征構(gòu)成數(shù)據(jù)集,詳見表2。表中,光譜特征直接選擇每個(gè)時(shí)相影像的10個(gè)原始波段,3個(gè)時(shí)相的影像共計(jì)30個(gè)光譜特征。植被指數(shù)中,紅邊波段是哨兵數(shù)據(jù)特有的,且紅邊指數(shù)特征對(duì)植被更加敏感。本文不僅考慮常規(guī)植被指數(shù),而且加入了6個(gè)與農(nóng)作物生長(zhǎng)過程有關(guān)的紅邊指數(shù),分3個(gè)時(shí)相共計(jì)18個(gè)無紅邊植被特征和18個(gè)紅邊植被指數(shù)特征。
表2 農(nóng)作物遙感識(shí)別特征集
紋理特征[17]的構(gòu)建選擇灰度共生矩陣GLCM來提取,GEE平臺(tái)上提供了基于GLCM快速計(jì)算紋理特征的函數(shù),可以計(jì)算出18種不同的紋理特征,考慮到若將所有特征都用于分類必定會(huì)導(dǎo)致冗余。因此根據(jù)前人研究,通過對(duì)原始影像的10個(gè)波段進(jìn)行主成分分析,提取主成分的第一成分來計(jì)算最常見的紋理指標(biāo)用于區(qū)分不同地物的空間結(jié)構(gòu)差異[18],同樣分3個(gè)時(shí)相共計(jì)24個(gè)紋理特征。
2.2.1 基于RF_RFE算法的特征優(yōu)選
基于RF_RFE算法的特征優(yōu)選方法如下: 首先,對(duì)于隨機(jī)森林中的每一個(gè)決策樹而言,使用相應(yīng)的袋外數(shù)據(jù)來計(jì)算袋外誤差,記作errOOB1; 然后,隨機(jī)地對(duì)袋外數(shù)據(jù)OOB所有樣本的特征X加入噪聲干擾,再計(jì)算其袋外數(shù)據(jù)誤差,記作errOOB2; 最后,計(jì)算特征重要性X,計(jì)算公式如下:
,
(1)
式中N為樹的個(gè)數(shù),式中X的值越高,則說明特征X越重要[8]。把需要的特征子集初始化為整個(gè)特征子集,每次剔除掉重要性分?jǐn)?shù)最低的數(shù)據(jù),直到獲得最后的特征集。
2.2.2 基于Relief F算法的特征優(yōu)選
Relief F算法是根據(jù)樣本鄰近原則,賦予不同特征的權(quán)重。具體步驟如下: ①選擇特征樣本,從樣本集中隨機(jī)選擇一個(gè)樣本X,從不同類中找到一個(gè)最近鄰的樣本Y,從同類的樣本中找到一個(gè)最近鄰的樣本Z。②計(jì)算特征權(quán)重,在某個(gè)特征的條件下,比較X與Y之間的距離和X與Z之間的距離大小; 如果不同類之間的距離較大,說明該特征容易區(qū)分,增加特征的權(quán)重; 反之,則減少特征的權(quán)重。③重復(fù)上面的步驟,求取各個(gè)特征權(quán)重的平均值,特征權(quán)重越大代表該類的區(qū)分能力較強(qiáng)[19]。
2.2.3 基于CFS算法的特征優(yōu)選
基于相似性的特征選擇是過濾式選擇的一種的方法,該方法的核心是采用啟發(fā)的方式評(píng)估特征子集的價(jià)值,該方法假設(shè)思想是: 好的特征子集包含與類高度相關(guān)的特征,但特征之間彼此不相關(guān)。啟發(fā)方程式為:
,
(2)
式中:Merittk為包含k個(gè)特征子集t的啟發(fā)值;Zcf為特征與類之間的相關(guān)性的平均值;Zff為特征與特征之間的相關(guān)性;Z為相關(guān)系數(shù)。啟發(fā)值越大代表這個(gè)特征的分類效果越好[12]。
隨機(jī)森林分類是集成分類的一個(gè)子類,它依靠決策樹投票選擇來決定最后的分類結(jié)果,將若干個(gè)弱分類器的分類結(jié)果進(jìn)行投票選擇,從而組成強(qiáng)分類器。其具體操作步驟包括以下幾個(gè)方面: 首先,在原始的樣本中,隨機(jī)且有放回地抽取N(約為總體樣本集的2/3)個(gè)訓(xùn)練樣本組成訓(xùn)練樣本集,剩余的1/3樣本作為袋外數(shù)據(jù)進(jìn)行內(nèi)部交叉驗(yàn)證; 然后,根據(jù)抽取的樣本集分別建立N棵決策樹組成的隨機(jī)森林,每個(gè)決策樹隨機(jī)抽取M個(gè)特征,采用基尼系數(shù)最小的原則進(jìn)行節(jié)點(diǎn)分裂; 最后,將生成的多顆決策樹組成隨機(jī)森林分類器,采用投票的方式?jīng)Q定新樣本的類別[20]。
根據(jù)地面實(shí)測(cè)樣本數(shù)據(jù),采用混淆矩陣來評(píng)估不同模型的分類效果。使用制圖精度來反映分類中的漏分誤差、使用用戶精度來反映分類中的錯(cuò)分誤差。通過Kappa系數(shù)來評(píng)估不同分類模型的優(yōu)劣,其計(jì)算公式如下:
,
(3)
式中:N為像元的總數(shù);m為類別數(shù);xii為混淆矩陣對(duì)角線上的像元個(gè)數(shù);xi+和xj+分別為第i行和第j列的像元總數(shù)。
本文共選擇了90個(gè)特征參與全椒縣的農(nóng)作物遙感提取,通過GEE平臺(tái)以及分類樣本的特征值,結(jié)合RF_RFE,Relief F,CFS這3種特征優(yōu)選算法分別計(jì)算出相應(yīng)的特征重要性。為了避免傳統(tǒng)閾值方法的人為主觀性影響,本文參考前人已有的研究[18],根據(jù)特征重要性大小對(duì)不同特征進(jìn)行降序排列,并從中選出前50個(gè)特征組成特征集進(jìn)行實(shí)驗(yàn)。每次從特征集中刪除一個(gè)特征重要性排在最后的特征,并將保留下來的特征子集用于農(nóng)作物分類和計(jì)算分類精度。重復(fù)以上過程,通過逐次迭代計(jì)算,從而最終確定特征優(yōu)選結(jié)果變量數(shù)目與分類精度之間的關(guān)聯(lián)關(guān)系。為了方便統(tǒng)一比較,這里都選擇RF作為特征優(yōu)選后特征子集的分類器,保留下來的特征子集需要確保分類精度較高但特征個(gè)數(shù)較少,不同特征子集的特征個(gè)數(shù)對(duì)應(yīng)的Kappa系數(shù)見圖3。
圖3 不同特征數(shù)目下的Kappa系數(shù)
由圖3可知,隨著特征參入分類的特征個(gè)數(shù)的增加,分類精度開始隨著特征數(shù)的增加而逐漸增大,當(dāng)達(dá)到一定值的時(shí)候,Kappa系數(shù)出現(xiàn)小范圍的波動(dòng)。最終的RF_RFE算法、CFS算法、Relief F算法優(yōu)選特征的Kappa系數(shù)分別維持在0.89,0.88和0.83左右波動(dòng)。圖中用紅色標(biāo)記了特征優(yōu)選的最佳精度的位置,3種特征優(yōu)選算法的結(jié)果其對(duì)應(yīng)的特征見表3。
表3 3種優(yōu)選結(jié)果的特征分布
從表3中可以看出(表中特征名以特征加時(shí)間命名,如B20225代表2022年2月25日影像的B2波段,同一個(gè)特征在不同的特征優(yōu)選算法里面出現(xiàn)至少2次的用斜體顯示),3種特征優(yōu)選算法在4月份的特征數(shù)量最多,是農(nóng)作物提取的最佳時(shí)相,其原因是4月份是小麥和油菜的孕穗期和中花期,兩者之間的形態(tài)和光譜反射都會(huì)產(chǎn)生較大的差異,易于辨識(shí)區(qū)分。其次是3月份,此時(shí)的小麥和油菜正處于拔節(jié)期和初花期,此階段小麥和荒地之間有一定的差異。2月份的小麥和油菜正處于拔節(jié)期和現(xiàn)蕾期,小麥和油菜剛有成長(zhǎng),處于苗期,而樹林處于長(zhǎng)勢(shì)茂盛期,易于區(qū)分,此時(shí)間段容易產(chǎn)生“同譜異物”的現(xiàn)象,對(duì)分類結(jié)果存在一定的干擾。表3中有13個(gè)特征至少被2種優(yōu)選算法同時(shí)優(yōu)選出來,表明這13個(gè)特征在分類中起到重要作用,有利于農(nóng)作物的識(shí)別。這些重要的特征在RF_RFE算法、Relief F算法、CFS算法優(yōu)選的特征集中分別占比47.61%,42.10%和40.74%。因此,相比于Relief F和CFS,RF_RFE在Kappa系數(shù)和優(yōu)選出的特征穩(wěn)定性上均有利于農(nóng)作物的地物分類。
對(duì)于RF_RFE算法,優(yōu)選出來的特征集的特征重要性得分如圖4所示。在優(yōu)選的特征中,原始光譜特征占比最多,21個(gè)特征中包含15個(gè)原始光譜特征,其中的短波紅外B11和B12共出現(xiàn)4次,表明短波紅外的加入能夠在一定程度上提高農(nóng)作物的分類精度。其次,B5,B6,B7相關(guān)的紅邊特征在農(nóng)作物分類中也起到了重要的作用。此外,紋理特征中的逆差距有利于農(nóng)作物的分類,展現(xiàn)出較好的分類效果。
圖4 特征名稱及其對(duì)應(yīng)的重要性得分
為了比較3種不同的特征優(yōu)選方法在農(nóng)作物分類中的效果,本文以RF分類器為例進(jìn)行實(shí)驗(yàn)研究,表4展示了3種不同特征優(yōu)選方法在RF下的分類結(jié)果,表中3種分類結(jié)果的Kappa系數(shù)均高于0.83。RF_RFE的分類精度最高,在特征數(shù)目為21時(shí),總體精度為92%,Kappa系數(shù)為0.89。其余的特征優(yōu)選算法Kappa系數(shù)略低于RF_RFE,從相同的RF分類器下,對(duì)比不同的特征優(yōu)選方法來看,Relief F在特征變量19個(gè)時(shí),總體精度和Kappa系數(shù)分別為0.83和0.88,相比于RF_RFE算法,特征維度減少了2個(gè),但是總體精度和Kappa系數(shù)分別降低了4%和5%。CFS相比于RF_RFE,在Kappa系數(shù)略微降低0.01,同時(shí)在特征上多使用了6個(gè)特征參加計(jì)算。從用戶精度和生產(chǎn)者精度來看,小麥均高于油菜,說明小麥的可分離性要優(yōu)于油菜。在RF_RFE算法中,小麥和油菜的精度均達(dá)到了最大值,其中,小麥的生產(chǎn)者精度和用戶精度分別為96.2%和93.2%,油菜的生產(chǎn)者精度跟用戶精度分別為83.5%和88.8%。為了能夠更加清楚地知道分類結(jié)果,本文將其與2022年3月2日的高分一號(hào)衛(wèi)星多光譜與全色的融合影像進(jìn)行對(duì)比(表5)。
表4 基于不同特征優(yōu)選方法和隨機(jī)森林的地物分類精度
表5 不同特征優(yōu)選方法的局部結(jié)果圖
由表5可知,從高分一號(hào)融合影像上看,油菜和小麥在影像上呈現(xiàn)不一樣的色調(diào)。從RF的3種分類方法的局部結(jié)果圖中看,樣地一表示破碎地塊的農(nóng)作物分類結(jié)果,從中可以看出Relief F出現(xiàn)錯(cuò)分,誤分的情況較為嚴(yán)重,部分居民地旁邊的冬閑田被錯(cuò)誤識(shí)別為小麥,CFS和RF出現(xiàn)這種現(xiàn)象的程度較輕。樣地二表示地塊較完整的農(nóng)作物分類結(jié)果,3種分類結(jié)果中有部分將田埂、道路錯(cuò)分為農(nóng)作物的現(xiàn)象,導(dǎo)致這種現(xiàn)象的原因是10 m分辨率的Sentinel-2數(shù)據(jù)存在混合像元現(xiàn)象。但從整體上來看3個(gè)分類結(jié)果都較為準(zhǔn)確的識(shí)別出農(nóng)作物,局部的差異較小。樣地三表示林地附近的農(nóng)作物分類結(jié)果,其中Relief F和CFS都出現(xiàn)漏分現(xiàn)象,對(duì)圖中紅色標(biāo)記內(nèi)的農(nóng)作物,未能準(zhǔn)確的識(shí)別處理,而RF能夠較完整的識(shí)別農(nóng)作物。綜上所述,將RF_RFE作為最佳的優(yōu)選特征,主要有以下2個(gè)原因: ①從分類的精度來看,RF_RFE算法在不同的特征優(yōu)選結(jié)果中各項(xiàng)分類指標(biāo)都最高,且特征個(gè)數(shù)也偏少; ②從分類效果來看,分類結(jié)果中出現(xiàn)較少的錯(cuò)分或漏分的程度最輕。
基于RF_RFE特征優(yōu)選算法,對(duì)不同分類方法的農(nóng)作物識(shí)別精度進(jìn)行比較,結(jié)果見圖5。與SVM(圖5(a))和RF(圖5(b))相比,MDC(圖5(c))的分類結(jié)果存在明顯的差異,MDC在分類過程中存在將冬閑田錯(cuò)分和誤分為農(nóng)作物的狀況,并沒有準(zhǔn)確的將農(nóng)作物提取出來。而SVM與RF的分類結(jié)果較為接近,SVM和RF的農(nóng)作物主要分布在東北角的耕地區(qū),西南角的耕地區(qū)農(nóng)作物較少,這與西南角耕地區(qū)實(shí)施高標(biāo)準(zhǔn)農(nóng)田建設(shè)有關(guān)。從分類器的機(jī)理來看,這種現(xiàn)象可能是由于本實(shí)驗(yàn)特征數(shù)量較多,MDC處理大量的特征變量時(shí),出現(xiàn)負(fù)載情況導(dǎo)致分類效果較差,而SVM和RF能夠很好地使用小樣本和特征進(jìn)行分類。
(a) SVM (b) RF (c) MDC
對(duì)比不同分類方法的分類精度(表6)可知,RF的分類精度表現(xiàn)較為優(yōu)越,總體精度比SVM和MDC分別高0.7百分點(diǎn)和30.5百分點(diǎn); Kappa系數(shù)比SVM和MDC分別高 0.01和0.41,表明SVM和RF更適用于研究區(qū)的地物分類。在RF分類器下,小麥和油菜的用戶精度和生產(chǎn)者精度均高于83.5%。小麥的生產(chǎn)者精度和用戶精度和油菜的用戶精度均達(dá)到最大值96.2%,93.2%和88.8%; 在油菜的生產(chǎn)者精度略比SVM低1.2百分點(diǎn),從數(shù)值上來看,除了RF在油菜的生產(chǎn)者精度小于SVM以外,其余的分類精度均大于SVM。綜上所述可知,3種機(jī)器學(xué)習(xí)分類方法中,RF在農(nóng)作物信息提取的分類結(jié)果上與SVM分類結(jié)果相近,在總體精度上略高于SVM,而MDC 分類算法不適合高維度、大數(shù)據(jù)量的分類,對(duì)比可知,RF分類算法可以有效的識(shí)別出農(nóng)作物。
表6 RF_RFE特征優(yōu)選下基于不同機(jī)器學(xué)習(xí)分類的農(nóng)作物分類精度
1)根據(jù)RF_RFE的特征重要性得分可知,不同的特征影響著農(nóng)作物的識(shí)別精度,各類特征的得分值從高到低排列依次是光譜特征、紅邊特征、傳統(tǒng)植被指數(shù)特征、紋理特征。其中短波紅外波段B11和B12,紅邊波段B5和B6對(duì)農(nóng)作物的識(shí)別具有重要的作用。
2)對(duì)比RF分類器下的不同的特征優(yōu)選方法的分類精度?;赗F_RFE的特征優(yōu)選算法的分類精度最高,總體精度為92%,Kappa系數(shù)為0.88,且將特征維度從90維降低到21維。
3)基于相同的RF_RFE特征優(yōu)選的條件下,RF的Kappa系數(shù)比SVM,MDC分別高0.01和0.41,在分類結(jié)果中,RF相比于其他的分類,存在較少的錯(cuò)分和漏分現(xiàn)象。因此,RF結(jié)合RF_RFE算法是適用于農(nóng)作物種植結(jié)構(gòu)信息提取的方法。
本文基于從Sentinel-2衛(wèi)星數(shù)據(jù)中提取的多時(shí)相、多維度遙感特征,采取不同的特征優(yōu)選算法結(jié)合RF分類器實(shí)現(xiàn)對(duì)全椒縣的農(nóng)作物種植結(jié)構(gòu)信息提取。選擇有關(guān)農(nóng)作物生理狀況和形態(tài)結(jié)構(gòu)的特征構(gòu)造出多維特征,使用RF_RFE,Relief F和CFS計(jì)算出不同特征的重要性,依次消除特征重要性最小的特征,避免了采用傳統(tǒng)的閾值方法在判定最佳維度時(shí)存在的主觀性。B3,B5,B8A,B11,NDVI,NDTI,LSWI,EVI和pc1_contrast在至少2種特征優(yōu)選方法中出現(xiàn)過,表明紅邊、短波紅外以及紋理特征在農(nóng)作物種植結(jié)構(gòu)識(shí)別中具有顯著優(yōu)勢(shì),這與文獻(xiàn)[7,10,14]的研究結(jié)論一致。在特征子集相同的條件下,通過對(duì)比不同的機(jī)器學(xué)習(xí)分類方法,證明了RF結(jié)合RF_RFE算法在農(nóng)作物種植結(jié)構(gòu)的信息提取中的有效性。對(duì)于接下來的研究中,能否基于多時(shí)相多特征的特征優(yōu)選算法,結(jié)合高分辨率遙感影像并推廣應(yīng)用到其他地區(qū)需要進(jìn)一步探究。