李 靖
(蘭州大學(xué) 資源環(huán)境學(xué)院,甘肅 蘭州730000)
遙感技術(shù)是土地覆被分類(lèi)的重要手段之一[1],在土地覆被信息提取與專(zhuān)題信息提取上具有重要意義。由于基于像元的影像分析存在較多的缺點(diǎn),在當(dāng)今遙感大數(shù)據(jù)的時(shí)代,難以滿(mǎn)足各部門(mén)制圖等要求[2]。因此,隨著高分影像的快速發(fā)展,數(shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng),如國(guó)產(chǎn)的高分系列衛(wèi)星,外國(guó)的Worldview 系列衛(wèi)星等,衛(wèi)星影像的分辨率越來(lái)越高,數(shù)據(jù)量越來(lái)越大,對(duì)影像分類(lèi)方法的要求也越來(lái)越高。目前,主要使用面向?qū)ο蟮挠跋穹治龇椒ㄟM(jìn)行研究,該方法可以充分利用影像的光譜、紋理、形狀、上下文特征,完成影像的信息提取,其效果明顯優(yōu)于基于像元的影像分類(lèi)方法[3]。國(guó)內(nèi)外學(xué)者在基于像元的遙感圖像分類(lèi)基礎(chǔ)上進(jìn)行了大量研究,引入許多新方法,如神經(jīng)網(wǎng)絡(luò)分類(lèi)器(Neural Net Classifier)、模糊集(Fuzzy Set)、分層聚類(lèi)(Hierar2chical Clustering)等,這些方法是基于像元層次,不能突破傳統(tǒng)分類(lèi)方法的局限性,也不能滿(mǎn)足對(duì)高分辨率遙感圖像分類(lèi)的要求[4]。
基于對(duì)象影像分析方法是由Baatz 等(2000)提出[5],其本質(zhì)是通過(guò)相關(guān)分割算法產(chǎn)生分割對(duì)象,并以此為最小分析單元進(jìn)行分類(lèi)或?qū)n}信息提取。與基于像元影像分析方法相比,對(duì)象具有更豐富的語(yǔ)義信息,并且可以模仿人的認(rèn)知過(guò)程和思維方式進(jìn)行分類(lèi),可以有效地解決“同物異譜、異物同譜”的問(wèn)題,消除基于像元分類(lèi)中存在的“椒鹽噪聲”現(xiàn)象,從而有效地提高分類(lèi)精度[6-7]。由于面向?qū)ο蟮挠跋穹诸?lèi)方法不斷發(fā)展,國(guó)內(nèi)外學(xué)者不斷提出方法、并不斷進(jìn)行改進(jìn)。黃慧萍等(2004)使用基于對(duì)象影像分析方法提取了城市綠地覆被信息,得到了較好結(jié)果[8]。王慧敏等(2011)使用海地區(qū)域地震后的Geo Eye-1 影像對(duì)受損的建筑物進(jìn)行了提取[9]。趙軍利等(2015)以ALOS 為基礎(chǔ)數(shù)據(jù),有效提取了烏蘭布和沙漠的荒漠植被[10]。
目前,機(jī)器學(xué)習(xí)算法逐漸成熟,也開(kāi)始成為遙感影像分類(lèi)的一個(gè)重要發(fā)展方法。利用機(jī)器學(xué)習(xí)算法對(duì)遙感影像進(jìn)行分類(lèi),可以有效的對(duì)遙感影像進(jìn)行分類(lèi),完成相應(yīng)的信息提取工作。
表1 土地覆被分類(lèi)體系
2.1.1 隨機(jī)森林分類(lèi)算法
隨機(jī)森林是一種比較新的機(jī)器學(xué)習(xí)模型。經(jīng)典的機(jī)器學(xué)習(xí)模型是神經(jīng)網(wǎng)絡(luò),有半個(gè)多世紀(jì)的歷史了。神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)精確,但是計(jì)算量很大。上世紀(jì)八十年代Breiman等人發(fā)明分類(lèi)樹(shù)的算法(Breiman et al. 1984),通過(guò)反復(fù)二分?jǐn)?shù)據(jù)進(jìn)行分類(lèi)或回歸,計(jì)算量大大降低。2001 年Breiman 把分類(lèi)樹(shù)組合成隨機(jī)森林(Breiman 2001a),即在變量(列)的使用和數(shù)據(jù)(行)的使用上進(jìn)行隨機(jī)化,生成很多分類(lèi)樹(shù),再匯總分類(lèi)樹(shù)的結(jié)果。隨機(jī)森林在運(yùn)算量沒(méi)有顯著提高的前提下提高了預(yù)測(cè)精度。隨機(jī)森林對(duì)多元共線(xiàn)性不敏感,結(jié)果對(duì)缺失數(shù)據(jù)和非平衡的數(shù)據(jù)比較穩(wěn)健,可以很好地預(yù)測(cè)多達(dá)幾千個(gè)解釋變量的作用(Breiman 2001b),被譽(yù)為當(dāng)前最好的算法之一(Iverson et al. 2008)。
2.1.2 J48 決策樹(shù)分類(lèi)算法
J48 即決策樹(shù)C4.5 算法,其核心算法為ID3 算法。C4.5 算法是一種高效的決策樹(shù)算法,采用信息增益率選取分類(lèi)屬性,遞歸構(gòu)造決策樹(shù)的各個(gè)分支,完成對(duì)連續(xù)屬性的離散化處理。C4.5 算法的優(yōu)點(diǎn)是:產(chǎn)生的分類(lèi)規(guī)則易于理解,準(zhǔn)確率較高。其缺點(diǎn)是:在構(gòu)造樹(shù)的過(guò)程中,需要對(duì)數(shù)據(jù)集進(jìn)行多次的順序掃描和排序,因而導(dǎo)致算法的低效。C4.5 算法是通過(guò)選擇具有最高的信息增益率的特征作為樹(shù)的節(jié)點(diǎn),進(jìn)行訓(xùn)練樣本集中各地物類(lèi)型的劃分,它具有三個(gè)特點(diǎn):(1)連續(xù)型和離散型的特征數(shù)據(jù)均可處理;(2)也可以處理缺失值數(shù)據(jù);(3)可對(duì)生成的樹(shù)剪枝以糾正過(guò)度擬合。
2.2.1 研究區(qū)概況
本次數(shù)據(jù)采用Wordview-2 影像,數(shù)據(jù)獲取日期為2014 年10 月2 日,地區(qū)為寧夏省中衛(wèi)市,多光譜波段空間分辨率為2m,全色波段空間分辨率為0.5m。本次實(shí)驗(yàn)數(shù)據(jù)的研究區(qū)大小為1024*1024,從原始Worldview-2 多光譜整景影像上截取下來(lái),作為本實(shí)驗(yàn)研究對(duì)象,空間分辨率為2m。研究區(qū)位于寧夏回族自治區(qū)中衛(wèi)市西南區(qū)域,地理范圍:105°2′42.03″~105°10′28.46″E,37°30′0.47″~37°35′54.24″N,平均海拔高度為1223m。
2.2.2 遙感影像預(yù)處理
根據(jù)此次影像分類(lèi)需要的特征與影像特點(diǎn),在ENVI5.3 中對(duì)研究區(qū)影像進(jìn)行以下預(yù)處理工作,(1)利用全球DEM 數(shù)據(jù)計(jì)算研究區(qū)平均海拔;(2)輻射定標(biāo);(3)FLAASH 大氣校正。
3.1.1 影像分割及其參數(shù)優(yōu)選介紹
文章研究在eCognition 9.0 中進(jìn)行多尺度分割,由尺度、光譜、形狀、光滑度與緊湊度5 個(gè)參數(shù)對(duì)分割結(jié)果進(jìn)行控制。在軟件中只需要預(yù)設(shè)尺度、形狀、緊湊度三個(gè)參數(shù)。分割對(duì)象作為基于對(duì)象的影像分析中的基礎(chǔ)單元,其分割質(zhì)量的優(yōu)劣將直接影響后續(xù)的分類(lèi)結(jié)果。劉勇等[11](2012)提取出了PSE、NSR 及ED2 3 個(gè)指標(biāo),文章將使用該方法進(jìn)行參數(shù)優(yōu)選。
3.1.2 影像分割及其參數(shù)優(yōu)選實(shí)現(xiàn)
由于分割尺度的多樣性,文章先通過(guò)分割嘗試與目視判斷,對(duì)WorldView-2 多光譜影像研究區(qū)選擇的分割尺度范圍為30-150,步長(zhǎng)為5;形狀、緊湊度的范圍均為0.1-0.9,步長(zhǎng)為0.1。通過(guò)自動(dòng)多尺度分割得到分割數(shù)據(jù)集,根據(jù)ED2 選取最優(yōu)分割參數(shù)組合。
本次實(shí)驗(yàn)根據(jù)研究區(qū)地理特征、自然狀況,應(yīng)用目視解譯的方法選取研究區(qū)訓(xùn)練樣本,本研究區(qū)的對(duì)象一共有1293 個(gè),綜合考慮后,決定選取的訓(xùn)練樣本個(gè)數(shù)為255 個(gè),具體的訓(xùn)練樣本個(gè)數(shù)分布與分類(lèi)體系如表1 所示。
影像分類(lèi)特征:
文章通過(guò)對(duì)研究區(qū)綜合考慮,選取光譜、幾何、紋理特征進(jìn)行分類(lèi),其中自定義的光譜指數(shù)如表2 所示。
本次實(shí)驗(yàn)選取的分類(lèi)特征如表2 所示,然后導(dǎo)出上述28 個(gè)屬性,選取255 個(gè)訓(xùn)練樣本,在Weka 中利用隨機(jī)森林算法與J48 決策樹(shù)完成分類(lèi)。
表2 自定義光譜特征指數(shù)
本次多尺度分割采用不一致評(píng)價(jià)法對(duì)影像分割參數(shù)進(jìn)行優(yōu)選,通過(guò)歐幾里得距離(ED2)與尺度因子的關(guān)系圖可以發(fā)現(xiàn),分割參數(shù)組合的最優(yōu)值尺度因子應(yīng)該在70-90 之間。查找ED2 結(jié)果表可以確定最小的ED2 對(duì)應(yīng)的尺度因子、形狀因子、緊湊度因子,優(yōu)選結(jié)果如表3 所示。
表3 基于ED2 算法的研究區(qū)分割參數(shù)優(yōu)選結(jié)果
4.2.1 基于隨機(jī)森林、J48 決策樹(shù)的分類(lèi)結(jié)果與混淆矩陣
本實(shí)驗(yàn)利用隨機(jī)森林得到的分類(lèi)結(jié)果影像如圖1 所示,在eCognition 9.0 中選取檢驗(yàn)樣本后的分類(lèi)精度混淆矩陣如表4 所示,其中檢驗(yàn)樣本對(duì)象個(gè)數(shù)共為391 個(gè),精度評(píng)價(jià)使用的方法為Error Martix based on Samples。
從該方法結(jié)果圖可以看出,隨機(jī)森林分類(lèi)方法好于J48 決策樹(shù)的分類(lèi)結(jié)果,但是依然存在一些錯(cuò)誤分類(lèi),可以綜合利用光譜、幾何、紋理、上下文特征進(jìn)行改進(jìn)。
4.2.2 隨機(jī)森林與J48 決策樹(shù)分類(lèi)精度對(duì)比
從表4 中可以看出,在檢驗(yàn)樣本相同的情況下,隨機(jī)森林分類(lèi)方法的總體精度與Kappa 系數(shù)明顯優(yōu)于J48 決策樹(shù)分類(lèi)算法,但是兩個(gè)方法出現(xiàn)的分類(lèi)錯(cuò)誤主要出現(xiàn)在草地與耕地的劃分上,因?yàn)閮蓚€(gè)類(lèi)別極易混淆,尤其在耕地作物處于成長(zhǎng)期時(shí),多項(xiàng)特征指數(shù)及其接近。后續(xù)對(duì)分類(lèi)結(jié)果進(jìn)行改進(jìn),由于基于隨機(jī)森林分類(lèi)方法的精度明顯高于基于J48 決策樹(shù)分類(lèi)方法,因此文章將對(duì)隨機(jī)森林分類(lèi)方法結(jié)果圖進(jìn)行優(yōu)化,并以此為基礎(chǔ)得到最終的土地覆被分類(lèi)圖。
圖1 基于對(duì)象的隨機(jī)森林法(圖左)與J48 決策樹(shù)(圖右)分類(lèi)結(jié)果圖
通過(guò)觀(guān)察基于隨機(jī)森林分類(lèi)方法的結(jié)果影像中的錯(cuò)誤分類(lèi),發(fā)現(xiàn)可以通過(guò)一些光譜、上下文特征等進(jìn)行優(yōu)化,使其分類(lèi)更加準(zhǔn)確。具體優(yōu)化方法如下:(1)通過(guò)NDVI 指數(shù)將錯(cuò)分到village(農(nóng)村居民地)中的grassland(草地)重新分類(lèi)到grassland 中,NDVI 閾值經(jīng)過(guò)比對(duì)各個(gè)對(duì)象,設(shè)置為0.41,大于0.41 的重新劃分為grassland;(2)將NDVI小于0 的farmland 重分類(lèi)為water;(3)通過(guò)觀(guān)察一些孤立的village 基本屬于farmland,所以利用RelBorder to 將該錯(cuò)誤分類(lèi)進(jìn)行正確分類(lèi),閾值確定為0.1,即將village 中Rel Border to village 小于0.1 的劃分到farmland;(4)利用merge region 算法執(zhí)行合并對(duì)象操作,美化影像;(5)合并后的影像存在大量長(zhǎng)條狀的小塊耕地,這些為錯(cuò)誤分類(lèi),利用緊湊度Compactness 進(jìn)行重分類(lèi),閾值為5,即Compactness 大于5 的farmland 重分類(lèi)為grassland;(6)再次利用merge region 算法執(zhí)行合并grassland 對(duì)象操作,美化影像。
表4 隨機(jī)森林與J48 決策樹(shù)分類(lèi)精度對(duì)比
圖2 中衛(wèi)市西南部分地區(qū)土地覆被分類(lèi)圖
在eCognition 中導(dǎo)出優(yōu)化后的影像的矢量圖層,在ArcGIS 中打開(kāi),完成土地覆被分類(lèi)圖制作,結(jié)果圖如圖2所示。
文章將隨機(jī)森林與J48 決策樹(shù)分別繼承與面向?qū)ο蟮挠跋穹治龇椒ㄖ校玫搅瞬诲e(cuò)的分類(lèi)精度,分類(lèi)效果較好。其中,隨機(jī)森林分類(lèi)方法優(yōu)于J48 決策樹(shù)方法,基于隨機(jī)森林的土地覆被總精度達(dá)到90.03%,Kappa 系數(shù)達(dá)到0.85?;陔S機(jī)森林分類(lèi)結(jié)果圖進(jìn)行優(yōu)化,并在ArcGIS 中制作了研究區(qū)的土地覆被分類(lèi)圖,顯示效果較好。面向?qū)ο蟮姆诸?lèi)方法可以充分利用影像的光譜、幾何、紋理、上下文等特征信息,完成相應(yīng)地物類(lèi)型的識(shí)別與分類(lèi),避免了基于像元結(jié)果中“椒鹽現(xiàn)象”的產(chǎn)生,從而提高了影像的分類(lèi)精度。文章充分使用了遙感影像的光譜、幾何、紋理特征,并使用機(jī)器學(xué)習(xí)算法隨機(jī)森林與J48 決策樹(shù),完成了土地覆被信息提取,其分類(lèi)精度較高,進(jìn)一步體現(xiàn)了基于對(duì)象分類(lèi)方法的優(yōu)越性。文章雖然使用了隨機(jī)森林與J48 決策樹(shù)機(jī)器學(xué)習(xí)算法進(jìn)行分類(lèi),并進(jìn)行了相應(yīng)的精度對(duì)比,但并未對(duì)兩個(gè)算法適用的分類(lèi)情況與各自?xún)?yōu)缺點(diǎn)進(jìn)行探究,需要后續(xù)進(jìn)行針對(duì)性的探討與研究。