楊昆 王加勝
摘要 應用高分辨率的Sentinel-2A數(shù)據(jù),提出了隨機森林算法結合多特征的烤煙遙感提取方法。然后將支持向量機和分類回歸樹算法與隨機森林算法進行了對比試驗,3種分類器與光譜+地形+紋理+纓帽特征組合的平均驗證精度分別為63%、88%和94%,隨機森林分類器結合光譜+地形+紋理+纓帽特征組合的分類精度最佳,制圖精度達到90%,用戶精度為98%,總體精度為96%,Kappa系數(shù)為0.94。結果顯示,研究區(qū)烤煙的最佳分類時相為4月下旬至5月下旬;隨機森林算法結合光譜+地形+紋理+纓帽特征的方法能夠精確地對研究區(qū)烤煙種植區(qū)進行遙感提取,為云南高原山區(qū)農(nóng)作物提取提供技術參考。
關鍵詞 烤煙;隨機森林;Sentinel-2A;特征優(yōu)化;曲靖市
Abstract A remote sensing extraction method of flue-cured tobacco based on high-resolution sentinel-2A data was proposed. Then the support vector machine and classification regression tree algorithm were compared with the random forest algorithm.The average verification accuracy of the three classifiers combined with spectrum,terrain,texture and tassel cap features were 63%,88% and 94%,respectively.The classification accuracy of RF classifier combined with spectral,terrain,texture and tassel cap features was the best ,with mapping accuracy of 90%,user accuracy of 98%,overall accuracy of 96% and Kappa coefficient of 0.94.Results showed that the best classification period of flue-cured tobacco in the study area was from late April to late May;RF algorithm combined with spectrum,terrain,texture and tassel cap features could accurately extract tobacco planting area in the study area,which provided technical reference for crop extraction in Yunnan plateau mountainous area.
Key words Flue-cured tobacco;Random forest;Sentinel-2A;Feature optimization;Qujing City
曲靖市借助得天獨厚的地理位置和氣候條件,生產(chǎn)出了優(yōu)質的煙葉,是亞洲最大的優(yōu)質烤煙生產(chǎn)基地。但是隨著近幾年來氣候條件的惡化,對烤煙的種植空間的時空變化產(chǎn)生了一定的影響。因此合理優(yōu)化烤煙種植空間結構,對烤煙種植區(qū)進行監(jiān)測和制圖具有重要的現(xiàn)實意義。
GEE(Google Earth Engine)云計算平臺是一個集數(shù)據(jù)獲取、數(shù)據(jù)運算以及可視化分析于一身的平臺。它強大的云計算能力能夠讓用戶幾秒鐘至幾分鐘之內(nèi)快速完成數(shù)據(jù)的獲取、數(shù)據(jù)的預處理、數(shù)據(jù)的分析以及展示,極大提高了影像處理的效率,節(jié)約時間成本。因此,近幾年來GEE云計算平臺被廣泛應用在農(nóng)情監(jiān)測領域,比如Dong等[1]基于GEE平臺,使用Landsat8影像對2014年東北亞地區(qū)的水稻種植區(qū)進行了提取,其中生產(chǎn)者精度為73%,用戶精度達到了92%。
目前,中分辨率影像在大面積農(nóng)作物識別領域廣泛應用。柳文杰等[2]利用國產(chǎn)衛(wèi)星和MODIS融合數(shù)據(jù)對湖南洞庭湖區(qū)域的水稻種植區(qū)進行了提取,結果表明NDVI+物候特征的方法參與水稻分類具有良好的效果。但是云南高原山區(qū)地形起伏不平,農(nóng)作物種類繁多,很多耕地不連成片且不規(guī)則,存在某個區(qū)域有多種農(nóng)作物種植,如果使用中分辨率的衛(wèi)星影像,很容易產(chǎn)生混合像元,大大降低制圖精度。因此,高精度的衛(wèi)星影像是高原山區(qū)農(nóng)作物提取的關鍵之一。
雖然研究人員對大量農(nóng)作物類型提取進行了研究,但是鮮見烤煙的遙感提取研究。鑒于此,筆者以云南省曲靖市馬龍、陸良、師宗以及羅平4區(qū)縣為研究區(qū),基于GEE平臺,應用高分辨率的Sentinel-2A數(shù)據(jù),提出了隨機森林算法結合多特征的烤煙遙感信息提取方法,并與支持向量機和分類回歸樹算法進行對比,研究隨機森林算法在該地區(qū)烤煙識別的適用性,以期為云南高原山區(qū)農(nóng)作物識別、農(nóng)業(yè)規(guī)劃和決策提供技術支持。
1 材料與方法
1.1 研究區(qū)概況
研究區(qū)馬龍、陸良、師宗以及羅平4區(qū)縣位于云南省曲靖市南部,東臨貴州省,西與昆明市接壤,南與紅河州、文山州毗鄰(103°16′~104°43′E,24°20′~25°37′N),面積9 655 km2左右,約占全市面積的33.4%。研究區(qū)地處云貴高原,珠江源頭,地形屬于高原山地地形,地勢由西北向東南傾斜。研究區(qū)為亞熱帶高原季風氣候,年平均氣溫14~16 ℃,年均降水量900~1 600 mm,年均日照時數(shù)1 500~2 500 h。烤煙的生長期為4—9月份,其物候歷信息如表1所示。
1.2 數(shù)據(jù)與預處理
該研究采用的數(shù)據(jù)包括Sentinel-2A影像數(shù)據(jù)、SRTM數(shù)字高程數(shù)據(jù)以及樣本數(shù)據(jù)。具體描述如下:①Sentinel-2A影像數(shù)據(jù)。與烤煙最難區(qū)分的農(nóng)作物類型就是玉米,烤煙與玉米的外形相似,因此光譜特征很相似,但它們的物候特征存在很大差異,烤煙在4月下旬到5月中旬移栽完之后要覆蓋地膜,以搶抓積溫,保持熱量充足,同時使墑內(nèi)水分充足,8月下旬至9月上旬進行采收,玉米則在3月下旬至4月上旬播種完之后覆膜,有些地區(qū)不覆膜,8月下旬至9月上旬進行采收。烤煙和玉米的覆膜時間相差1個多月,因此當4月下旬至5月下旬烤煙存在地膜的時候,玉米的覆膜期快要結束,除此之外其他農(nóng)作物這時期不需要覆蓋地膜。因此關鍵物候期影像為4月下旬至5月下旬,考慮云影像,收集了4月27號的云量低于20的影像5幅。數(shù)據(jù)來源為GEE平臺,產(chǎn)品級別為1C級,該級別經(jīng)過了數(shù)字高程模型校正,影像空間分辨率為10 m,總共13個波段。預處理:首先計算QA60波段Bit10和Bit11的值,設置2者的值為0得到云掩膜,利用云掩膜去除影像中的云信息,然后對5幅影像進行中值合成,最后裁剪研究區(qū)范圍,得到最佳分類影像。②SRTM數(shù)字高程數(shù)據(jù)。選用的是GEE平臺上由NASA噴氣推進實驗室提供的航天飛機雷達地形測繪任務(The Shuttle Radar Topography Mission,SRTM[3])數(shù)字高程數(shù)據(jù),分辨率為30 m,坐標系統(tǒng)采用WGS84,定位精度為1 m,高程精度為±16 m,影像集ID為“USGS/SRTMGL1_003”。預處理:將SRTM數(shù)據(jù)按照研究區(qū)進行裁剪即可。③樣本數(shù)據(jù)。樣本數(shù)據(jù)分為實地和線上采集2種方式進行,將研究區(qū)主要地物劃分為烤煙、其他農(nóng)作物、建筑用地、林地和水體,總共采集12 553個樣本,其中烤煙2 157個,其他農(nóng)作物6 077個,建筑用地1 883個,林地1 683個,水體753個。實地采集數(shù)據(jù)時間為2019年9月21—24日,實地總共采集131個點樣本。線上采集是在Google Earth Pro上通過目視解譯法完成的,樣本遵循隨機、均勻的原則。所有樣本數(shù)據(jù)70%用作訓練數(shù)據(jù),30%用作驗證數(shù)據(jù)。
1.3 研究方法
基于GEE平臺,通過物候分析選擇關鍵物候期哨兵2數(shù)據(jù)進行快速地去云、拼接與裁剪,得到最佳時相影像數(shù)據(jù),然后對光譜、紋理、地形以及纓帽特征進行構建與提取,利用J-M距離公式對特征集進行優(yōu)化,最后分別使用支持向量機(Support Vector Machine,SVM)、分類回歸樹(Classification And Regression Trees,CART)以及隨機森林(Random Forest,RF)算法結合優(yōu)化后的特征對影像進行分類以及精度評價(圖1)。
1.3.1 特征構建。
1.3.1.1 光譜特征。該研究光譜特征包括原始特征和光譜指數(shù)。原始特征包括其中的B2、B3、B4、B5、B6、B7、B8、B8A、B11和B12總共10個原始光譜波段 。通過計算NDVI[4](歸一化植被指數(shù))、EVI[5](增強型植被指數(shù))、MSAVI[6](修改型土壤調整植被指數(shù))、NDWI[7](歸一化水體指數(shù))、LSWI[7](地表水分指數(shù))以及NDBI[8](歸一化建筑指數(shù))6種常見光譜指數(shù),并將它們分別加入原始特征空間的構建。
1.3.1.2 地形特征。地形特征作為研究區(qū)的突出特點之一。研究區(qū)所處地形為高原山區(qū),烤煙一般需要連片的大田以及靠近水源,所以大體種植在相對平緩地勢較低的地方,很少種植在坡度較大海拔較高的區(qū)域。而其他農(nóng)作物和林地往往可以在坡地進行種植和生長,因此可以利用地形特征更好地區(qū)分烤煙與其他植被,提高烤煙的提取精度。由于研究區(qū)海拔差異不明顯,將研究區(qū)SRTM數(shù)字高程數(shù)據(jù)計算得到的坡度(Slope)、坡向(Aspect)以及山體陰影(Hillshade)3個特征分量分別作為獨立波段參與原始特征的構建。
1.3.1.3 紋理特征。紋理是遙感影像分類中重要的特征之一,它表現(xiàn)的是影像的表面或者結構屬性??緹熍c玉米的光譜特征以及紋理特征都很相似,但與其他農(nóng)作物紋理特征有很大不同,該研究可以很好地通過光譜的差異來解決烤煙和玉米、其他農(nóng)作物的混分,也可以通過紋理特征的差異區(qū)分烤煙與其他農(nóng)作物?;诨叶裙采仃嚕℅ray-Level Co-occurrence Matrix,GLCM)的統(tǒng)計方法[9-10]對紋理特征進行計算,將其中得到的角二階矩(NDVI_asm)、對比度(NDVI_contrast)、相關性(NDVI_corr)、方差(NDVI_var)、逆差矩(NDVI_idm)、熵(NDVI_ent)6個紋理特征統(tǒng)計量參與到原始特征的構建中。
1.3.1.4 纓帽變換特征。纓帽變換即坎斯-托馬斯變換(Kauth-Thomas Transformation,KT[12]),又稱纓帽變換(Tasselled Cap Transformation,TCT)。纓帽變換的轉換系數(shù)是固定的,依賴于影像的傳感器,纓帽變換通過這個轉換系數(shù)將多光譜影像變換到具有同樣多波段數(shù)的特征空間,其中得到的前3個特征分量為亮度指數(shù)、綠度指數(shù)、濕度指數(shù)。其變換公式如下:
式中,Y表示變換后的影像,C表示對應影像的轉換系數(shù)矩陣,X表示變換前的原始影像。該研究的影像為哨兵2影像,基于常用的6個波段(Blue、Green、Red、Nir、Swir1、Swir2)和哨兵2變換矩陣系數(shù)[12](表2),通過公式(7)經(jīng)過纓帽變換后選擇前3個重要波段Brightness、Greenness、Wetness作為獨立波段加入到原始特征的構建。
1.3.2 特征優(yōu)化方法。如果將所有的特征都加入到分類器中,會造成數(shù)據(jù)的冗余,加重分類器的負擔,最終導致分類精度大大降低,因此特征優(yōu)化極其重要。該研究選擇的是通過J-M距離公式計算樣本間分離度的特征選擇方法,J-M距離的基本思想是選擇對類與類之間區(qū)分度大的屬性?;谀硞€特征或特征組合的類與類之間的J-M距離計算公式如下:
式中,Bij為某個特征或特征組合的巴氏距離,反映了類與類之間的重疊量;Mi與Mj為對應的類別的某個特征的均值向量;Vi與Vj分別是對應的類別的某個特征的協(xié)方差矩陣。其中JM的取值范圍是0~2,取值越接近于0表示樣本分離度越小,說明該特征完全混淆類別,取值越接近于2表示樣本分離度越大,說明該特征區(qū)分類別越佳。為了更好地排除區(qū)分度小的特征,選擇JM距離大于1且接近2的前2位特征[13-16]作為優(yōu)化后的特征參與到分類中。
1.3.3 分類方法。隨機森林算法是一種近年來比較流行且廣泛應用的集成學習方法[17]。它的基本組成是決策樹,由成百上千個決策樹共同對樣本進行訓練和分類,綜合考慮多個學習器的預測結果最后做出決策。隨機森林的核心就是隨機性,體現(xiàn)在:①樣本的隨機。對于每一棵決策樹,使用bootstrap采樣方法從訓練樣本中有放回的隨機抽取一部分訓練樣本,作為每一棵決策樹的訓練集,沒有被抽到的樣本作為袋外樣本,用來評估隨機森林的袋外誤差。②特征的隨機。隨機從樣本的所有特征中選擇特征子集,每次樹分裂時,從特征子集中選擇最優(yōu)特征。有了這2個隨機性,在處理復雜且高維的數(shù)據(jù)時,隨機森林就不會出現(xiàn)過擬合現(xiàn)象,抗噪能力很強。
1.3.4 精度評價方法。采用混淆矩陣[18-19]的方法評估模型的優(yōu)劣。具體評價指標有制圖精度、用戶精度、總體精度以及Kappa系數(shù),它們從不同的角度評估分類精度。
2 結果與分析
2.1 特征優(yōu)化結果 通過計算每組地類組合的每種特征的J-M距離,選擇每組組合中每類特征的J-M距離大于1且排名前2位的特征,最后得到NDVI、MSAVI、NDBI、NDWI、EVI_min、slope、NDVI_asm、NDVI_idm、NDVI_ent和greenness共10個最優(yōu)特征。
2.2 3種分類器精度比較與分析 分類器選擇支持向量機、CART決策樹與隨機森林分類器進行對比試驗。特征優(yōu)化使用3個分類器和4種特征分別進行組合,采用交叉驗證策略進行精度的比較(表3),交叉驗證策略如下:①每次隨機取樣本的70%用來分類,其余30%用來驗證;②每種組合每次計算分類的總體精度作為驗證精度,總共計算10次,10次結果的平均值作為每種組合的平均驗證精度。
3種分類器中,SVM分類器的平均驗證精度最低,分類效果最差,SVM分類器平均驗證精度僅63%,而CART決策樹和隨機森林分類器的平均驗證精度分別為88%和94%。以隨機森林分類器為例,僅結合光譜特征的平均驗證精度為85%。加入地形特征之后提升了2%,說明在研究區(qū)復雜地形中加入坡度因子有助于區(qū)別地類;加入紋理特征(角二階矩陣、逆差矩和熵)之后提升了4%,達到了89%,說明對于表面差異大的地類能夠通過加入紋理特征很好地區(qū)分;加入纓帽特征(即綠度)之后提升為88%,說明綠度特征的加入能夠更好區(qū)分植被與非植被以及不同植被。結合地形+紋理+纓帽特征的平均驗證精度為81%,而結合光譜+地形+紋理+纓帽特征的平均驗證精度提升了13%,達到了94%,說明光譜特征在研究區(qū)的地物分類中扮演著至關重要的角色。
2.3 精度驗證以及烤煙種植區(qū)分布
由于隨機森林分類器結合光譜+地形+紋理+纓帽組合的分類效果最佳,其第6次精度驗證的混淆矩陣如表4所示,烤煙的生產(chǎn)者精度達到90%,烤煙測試樣本總計647個,其中正確分類580個,未正確分類67個,包括61個被分類為其他農(nóng)作物,6個被分類為建筑用地,用戶精度達到98%,10個其他農(nóng)作物和3個建筑用地被錯分為烤煙。總體精度為96%,Kappa系數(shù)為0.94。
圖2為2019年4月份烤煙、水體、其他農(nóng)作物、林地和建筑用地遙感提取結果,為了突出烤煙種植區(qū)分布,只保留水體,將其他農(nóng)作物、林地以及建筑用地歸并為其他類顯示。
從圖2可以看出,研究區(qū)烤煙馬龍縣主要分布在北部的王家營鎮(zhèn)、西部的舊縣鎮(zhèn)、西南的馬鳴鄉(xiāng)以及大莊鄉(xiāng)、東部以及東南部的月望鄉(xiāng)、納章鎮(zhèn),馬龍縣烤煙整體分布比較均勻,陸良縣包括中部的芳華鎮(zhèn)、西南的小百戶鎮(zhèn)以及大莫古鎮(zhèn)、東部和東南部的活水鄉(xiāng)以及龍海鄉(xiāng)、南部的召夸鎮(zhèn),師宗縣主要分布在彩云鎮(zhèn)以及龍慶鄉(xiāng),南部以及東南部地區(qū)多為山區(qū),地勢起伏太大,因此烤煙種植較少且零散分布,羅平縣烤煙主要分布在西北部的阿崗鎮(zhèn),羅平街道、臘山街道以及板橋鎮(zhèn)分布較少,主要原因是該地區(qū)油菜花與烤煙實行輪作制,此時有些油菜花還沒收割,因此烤煙分布較少。
3 結論
基于GEE云平臺,通過烤煙物候特征選取了最佳分類時相,對覆蓋研究區(qū)的2019年4月27號的四景影像進行去云、鑲嵌和裁剪等預處理,構建了光譜、地形、紋理和纓帽特征,并通過計算J-M距離來優(yōu)化原始特征空間得到最優(yōu)特征,之后進行了SVM、CART以及Random Forest共3種分類器與最優(yōu)特征的組合對比試驗,并對精度進行了評估,快速提取了曲靖市馬龍、陸良、師宗以及羅平4區(qū)縣的烤煙種植區(qū)空間分布信息,主要結論如下:
(1)烤煙提取的難點之一在于和玉米的區(qū)分,通過物候分析其存在覆膜的時間差且反射率差異大,從而得到研究區(qū)烤煙的最佳分類時相在4月下旬至5月下旬。
(2)隨機森林分類器結合光譜+地形+紋理+纓帽特征的分類效果最佳,提取精度較高,表明該方法能夠有效地運用于區(qū)域烤煙種植區(qū)遙感提取,可為云南高原山區(qū)農(nóng)作物識別提供技術參考。
由于云南地區(qū)云量較多,遮擋現(xiàn)象比較嚴重,對提取造成了一定的影響,因此獲得清晰且長時間序列的影像是后續(xù)農(nóng)作物提取的研究重點。除此之外,研究區(qū)地處滇東高原山區(qū),部分地區(qū)地勢起伏較大,農(nóng)作物類型復雜且某些地方存在間作套種,與平原地區(qū)成片平坦的農(nóng)田不同,很多耕地處在陡峭的斜坡上呈階梯狀(梯田),有些耕地會被斜坡陰影所遮蓋,給分類的精度帶來了一定的影響,雖然使用了10 m分辨率的哨兵數(shù)據(jù),但仍存在一定的混合像元現(xiàn)象,因此今后需要借助更高精度的影像來提升提取精度,實現(xiàn)對農(nóng)作物的精細化提取,進行農(nóng)作物面積變化、產(chǎn)量估算以及驅動力因素等研究。
參考文獻
[1]DONG J W,XIAO X M,MENARGUEZ M A,et al.Mapping paddy rice planting area in northeastern Asia with Landsat 8 images,phenology-based algorithm and Google Earth Engine[J].Remote sensing of environment,2016,185:142-154.
[2]柳文杰,曾永年,張猛.融合時間序列環(huán)境衛(wèi)星數(shù)據(jù)與物候特征的水稻種植區(qū)提取[J].遙感學報,2018,22(3):381-391.
[3]VAN ZYL J J.The Shuttle Radar Topography Mission (SRTM):A breakthrough in remote sensing of topography[J].Acta astronautica,2001,48(5/6/7/8/9/10/11/12):559-565.
[4]PETERS A J,WALTER-SHEA E A,JI L,et al.Drought monitoring with NDVI-based standardized vegetation index[J].Photogrammetric engineering and remote sensing,2002,68(1):71-75.
[5]王正興,劉闖,陳文波,等.MODIS增強型植被指數(shù)EVI與NDVI初步比較[J].武漢大學學報(信息科學版),2006,31(5):407-410,427.
[6]蔡宗磊,包妮沙,劉善軍.國產(chǎn)高分一號數(shù)據(jù)估算草地植被覆蓋度方法研究:以呼倫貝爾草原露天煤礦區(qū)為例[J].地理與地理信息科學,2017,33(22):32-38,44.
[7]YANG X C,ZHAO S S,QIN X B,et al.Mapping of urban surface water bodies from sentinel-2 MSI imagery at 10 m resolution via NDWI-based image sharpening[J].Remote sensing,2017,9(6):1-18.
[8]LI K N,CHEN Y H.A Genetic algorithm-based urban cluster automatic threshold method by combining VIIRS DNB,NDVI,and NDBI to monitor urbanization[J].Remote sensing,2018,10(2):1-21.
[9]宋榮杰,寧紀鋒,劉秀英,等.基于紋理特征和SVM的QuickBird影像蘋果園提取[J].農(nóng)業(yè)機械學報,2017,48(3):188-197.
[10]PUISSANT A,HIRSCH J,WEBER W.The utility of texture analysis to improve per-pixel classification for high to very high spatial resolution imagery[J].Znternational journal of remote sensing,2005,26(4):733-745.
[11]CRIST E P.A TM Tasseled Cap equivalent transformation for reflectance factor data[J].Remote sensing of environment,1985,17(3):301-306.
[12]NEDKOV R.Orthogonal transformation of segmented images from the satellite sentinel-2[J].Comptes rendus de l'Academie bulgare des ences:Sciences mathematiques et naturelles,2017,70(5):687-692.
[13]NUSSBAUM S,NIEMEYER I,CANTY M J.SEaTH-A new tool for automated feature extraction in the context of object-based image analysis[C]//Proceedings of the 1st international conference on object-based image analysis(OBIA 2006).Salzburg:[s.n.],2006.
[14]余曉敏,湛飛并,廖明生,等.利用改進SEaTH算法的面向對象分類特征選擇方法[J].武漢大學學報(信息科學版),2012,37(8):921-924.
[15]陳安旭,李月臣.基于Sentinel-2影像的西南山區(qū)不同生長期水稻識別[J].農(nóng)業(yè)工程學報,2020,36(7):192-199.
[16]蔣丹丹,盧剛,陳成.基于單極化TerraSAR-X影像提取建筑區(qū)研究[J].地理與地理信息科學,2016,32(1):60-65,127.
[17]BREIMAN L.Random forests[J].Machine learning,2001,45(1):5-32.
[18]HUANG D M,XU S J,SUN J Q,et al.Accuracy assessment model for classification result of remote sensing image based on spatial sampling[J/OL].Journal of applied remote sensing,2017,11(4)[2020-07-21].https://doi.org/10.1117/1.JRS.11.046023.
[19]鐘仕全,莫建飛,陳燕麗,等.基于HJ-1B衛(wèi)星遙感數(shù)據(jù)的水稻識別技術研究[J].遙感技術與應用,2010,25(4):464-468.