• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于CatBoost算法的面向?qū)ο笸恋乩梅诸?/h1>
    2020-11-13 02:02:24姜琦剛楊秀艷楊長保趙振賀
    關(guān)鍵詞:沼澤面向?qū)ο?/a>土地利用

    姜琦剛, 楊秀艷, 楊長保, 趙振賀

    (1. 吉林大學(xué) 地球探測科學(xué)與技術(shù)學(xué)院, 長春 130026; 2. 北方自動控制技術(shù)研究所, 太原 030006)

    0 引 言

    實時精確的獲取土地利用的動態(tài)變化對社會經(jīng)濟的快速發(fā)展至關(guān)重要。遙感技術(shù)具有快速、動態(tài)和綜合獲取土地利用信息的特點, 目前已被廣泛地應(yīng)用于土地利用規(guī)劃中[1-3]。傳統(tǒng)的監(jiān)督分類大多是基于像元信息的提取, 利用光譜信息將像元歸為某一類, 孤立地考慮單個像元的歸屬問題, 忽略了影像的拓撲關(guān)系和空間特征等信息, 分類結(jié)果不可避免地會產(chǎn)生“椒鹽”現(xiàn)象[4]。面向?qū)ο蟮倪b感信息提取方法以含有更多語義信息的多個相鄰像元組成的對象為處理單元, 綜合考慮了光譜統(tǒng)計特征、 形狀、 大小和紋理等因素, 能有效地區(qū)分“同物異譜”和“同譜異物”現(xiàn)象, 實現(xiàn)較高層次的遙感影像分類和目標地物的提取[5-6]。

    結(jié)合機器學(xué)習(xí)算法與遙感數(shù)據(jù)進行土地利用分類一直是國內(nèi)外學(xué)者的研究熱點。李爽等[7]基于決策樹對遙感影像進行了分類方法研究。決策樹在邏輯上易于解釋, 而且對于輸入數(shù)據(jù)空間特征和分類標識具有很好的魯棒性, 但該算法非常容易過擬合, 導(dǎo)致泛化能力不強; Pal等[8]將支持向量機應(yīng)用于遙感分類中。在小樣本數(shù)據(jù)集上能得到很好的效果, 但是如果數(shù)據(jù)量很大, 則所需的訓(xùn)練時間較長; Castelluccio等[9]通過卷積神經(jīng)網(wǎng)絡(luò)進行了土地利用分類, 研究表明它具有良好的泛化能力, 但是訓(xùn)練需要大量參數(shù), 而且訓(xùn)練網(wǎng)絡(luò)的效率比較慢; 馬玥等[10]利用隨機森林算法對農(nóng)耕區(qū)土地利用進行了分類研究, 在降低數(shù)據(jù)維度的同時有效地保證了分類精度, 但是在某些噪音較大的分類問題上容易出現(xiàn)過擬合, 而且隨機森林模型過程是很難解釋清楚的黑箱。

    CatBoost(Category Boosting)是由俄羅斯搜索巨頭Yandex在2017年開發(fā)的一款梯度提升機器學(xué)習(xí)庫, 主要用于排列任務(wù)、 預(yù)測和提出建議。它易與谷歌的TensorFlow和蘋果公司的CoreML等深度學(xué)習(xí)框架相結(jié)合, 不需要像其他ML(Machine Learning)模型那樣進行廣泛的數(shù)據(jù)訓(xùn)練, 而且為更多的描述性數(shù)據(jù)格式提供了強大的“開箱即用”的支持。目前國外學(xué)者已將其應(yīng)用在商業(yè)預(yù)測[11]、 健康科學(xué)[12]、 社交網(wǎng)絡(luò)[13]、 基準測試[14]和地理數(shù)據(jù)質(zhì)量評估[15]等諸多領(lǐng)域。筆者嘗試將CatBoost算法應(yīng)用于Sentinel-2影像的面向?qū)ο笸恋乩梅诸愌芯恐? 并將該方法與RF(Random Forest)算法、 AdaBoost算法進行比較, 驗證該方法在土地利用分類中的可行性。

    1 研究區(qū)概況與數(shù)據(jù)源

    1.1 研究區(qū)概況

    研究區(qū)位于黑龍江省齊齊哈爾市西部龍江縣(見圖1), 地理坐標為47°10′33″N~47°23′47″N、 123°3′17″E~123°16′30″E。該區(qū)位于黑吉蒙3省區(qū)交匯處, 是大興安嶺-內(nèi)蒙古地槽褶皺區(qū)、 小興安嶺-松嫩地塊、 龍江隆起帶與松嫩中斷(坳)陷帶相接的過渡地段。龍江縣地形自西向東依次為低山-丘陵-平原, 屬于中溫帶大陸性季風(fēng)氣候, 日照充足, 雨熱同季, 全年日照時數(shù)約為2 661.1 h, 年平均氣溫和降水分別為4.6°C和469.8 mm, 有利于發(fā)展農(nóng)業(yè)。龍江縣作為全國糧食生產(chǎn)基地, 耕地面積較大, 主要以旱地為主, 土地利用類型豐富, 主要包括草地、 林地、 河流、 其他水域、 建設(shè)用地、 旱地、 水田和沼澤。

    圖1 研究區(qū)位置圖Fig.1 Location map of study area

    1.2 數(shù)據(jù)源及預(yù)處理

    Sentinel-2衛(wèi)星是高分辨率多光譜成像衛(wèi)星, 為歐洲哥白尼環(huán)境監(jiān)測計劃的組成部分, 主要用于包括陸地植被、 土壤以及水資源、 內(nèi)河水道和沿海區(qū)在內(nèi)的全球陸地觀測, 可用于氣候變化、 應(yīng)急響應(yīng)、 森林監(jiān)測、 土地利用變化、 植被健康監(jiān)測、 產(chǎn)量預(yù)測和食品安全管理等[16], 其主要任務(wù)是對全球陸地表面進行高分辨率多光譜成像。該衛(wèi)星獲取的多光譜數(shù)據(jù)包含13個波段, 不同波段的空間分辨率也略有不同, 包含10 m、 20 m和60 m[17]。在光學(xué)數(shù)據(jù)中, Sentinel-2數(shù)據(jù)是唯一一個在紅邊范圍含有3個波段的數(shù)據(jù), 這對監(jiān)測植被健康信息非常有效[18]。

    研究區(qū)采用的Sentinel-2遙感影像數(shù)據(jù)的獲取時間是2018年9月9日, 通過歐空局的數(shù)據(jù)發(fā)布中心進行下載(https://scihub.copernicus.eu/dhus/#/home), 研究區(qū)范圍內(nèi)的數(shù)據(jù)質(zhì)量良好, 清晰無云, 可用作后續(xù)研究。所有數(shù)據(jù)均為已經(jīng)進行過幾何校正處理的Level-1C級大氣頂反射率數(shù)據(jù), 因此, 只需對影像數(shù)據(jù)進行大氣校正, 獲得Level-2A級地表反射率數(shù)據(jù)[19]。筆者使用SNAP軟件中的Sen2Cor模塊進行大氣校正, 得到空間分辨率為10 m的藍、 綠、 紅和近紅外4個波段。

    2 模型與方法

    2.1 多尺度分割與光譜差異分割

    影像分割是面向?qū)ο筮b感影像分類中的基礎(chǔ)步驟, 分割的理想結(jié)果是影像對象內(nèi)部的異質(zhì)性最小, 影像對象間的異質(zhì)性最大, 過分割和欠分割都可能導(dǎo)致分類精度下降[20-21]。筆者采用多尺度分割(MS: Multiresolution Segmentation), 并借助ESP(Estimation of Scale Parameter)尺度評價工具獲取適宜分割參數(shù), 通過ESP工具獲取的對象最優(yōu)分割尺度為45, 形狀因子和緊致度因子分別為0.5和0.6。以上分割步驟均在eCognition 9.0軟件中實現(xiàn)。

    2.2 特征選擇

    分割后的影像對象包含很多不同的信息, 面向?qū)ο蠓诸惥褪且詫ο鬄閱挝贿M行特征信息的提取, 以此劃分地物[22]。遙感影像特征主要包括光譜、 指數(shù)、 幾何和紋理特征。筆者從原始特征中挑選具有代表性的特征共48個(見表1), 其中光譜特征14個, 指數(shù)特征3個, 幾何特征13個, 紋理特征18個。

    表1 特征參數(shù)統(tǒng)計

    2.3 樣本選擇

    相關(guān)研究表明, 為了保證分類精度, 一般要求每種地物類別所選取的訓(xùn)練樣本數(shù)據(jù)應(yīng)包括10n(其中n為特征維數(shù))個以上的樣本點[23-24]。筆者選取了各地物類別至少為特征維數(shù)的10倍的訓(xùn)練樣本量進行分類研究。通過計算J-M(Jeffries-Matusita)距離和轉(zhuǎn)換分離度(TD: Transformed Divergence)衡量訓(xùn)練樣本(ROI:Region Of Interest)的可分離性, 兩者的數(shù)值均大于1.8, 說明樣本間可分離性好, 屬合格樣本, 能滿足分類實驗要求。

    2.4 分類方法

    2.4.1 CatBoost算法原理

    CatBoost是一種支持類別特征、 基于梯度提升決策樹的機器學(xué)習(xí)方法。所有現(xiàn)存的梯度提升(GBDT: Gradient Boosting Decision Tree)算法都存在統(tǒng)計學(xué)上的問題: 經(jīng)過多次提升的預(yù)測模型F依賴于訓(xùn)練樣本的目標變量, 這會導(dǎo)致訓(xùn)練樣本中Xk的F(Xk)|Xk分布與測試樣本中X的F(Xk)|Xk分布發(fā)生偏移, CatBoost算法能很好地解決原始GBDT中的各種數(shù)據(jù)偏移問題, 魯棒性較好[25-26]。

    (1)

    圖2 特征重要性Fig.2 Feature importance

    CatBoost使用次序原則, 將TS值的計算依靠目前已經(jīng)觀察的樣本集?;谪澙匪惴ㄟx擇樹的結(jié)構(gòu), 找出所有可能的分割方式, 計算每種方式的懲罰函數(shù), 選擇最小的, 將結(jié)果分配給葉節(jié)點, 后續(xù)葉節(jié)點重復(fù)此過程, 在構(gòu)建新樹前進行隨機重排, 按梯度下降方向構(gòu)建新樹, CatBoost在不同的梯度提升步中使用不同的排列。CatBoost算法利用

    計算特征變量的重要性。其中c1,c2為葉節(jié)點中的文檔數(shù),v1,v2為葉節(jié)點中計算公式的值。通過計算48個特征變量的重要性, 并根據(jù)其重要程度提取前20個特征變量(見圖2)對高維數(shù)據(jù)進行降維, 減少信息冗余, 降低模型的時間復(fù)雜度。

    3 結(jié)果與分析

    3.1 CatBoost分類結(jié)果

    建立CatBoost模型對研究區(qū)的主要土地利用類型, 即建設(shè)用地、 旱地、 水田、 草地、 林地、 河流、 沼澤以及其他水域進行分類, 結(jié)果如圖3a所示, 并與RF模型(見圖3b)和AdaBoost模型(見圖3c)的分類圖對比可知, CatBoost算法仍然能清晰地區(qū)分各類地物以及在CatBoost特征選擇下的RF和AdaBoost模型均達到較好的分類效果。

    圖3 不同分類方案土地利用分類圖Fig.3 Land use classification maps with different classification methods

    計算混淆矩陣, 對應(yīng)的各類地物的制圖精度、 總體分類精度和Kappa系數(shù)如表2所示。CatBoost分類模型的總體精度為92.79%, Kappa系數(shù)為0.911 4, 建設(shè)用地、 旱地、 水田、 草地、 林地、 河流、 沼澤及其他水域的制圖精度分別為95.00%、95.45%、98.63%、73.91%、92.96%、90.00%、50.55%和93.33%。其中沼澤的分類情況較差, 主要是由于在草相對茂盛的區(qū)域, 沼澤與草地有相似的光譜特征, 而且部分沼澤與林地的邊界模糊, 研究區(qū)所選取的沼澤的樣本與河流和林地相鄰, 混合像元的數(shù)量相對較多, 這也是導(dǎo)致沼澤和草地錯分、 漏分現(xiàn)象的主要原因; 在本次研究中將內(nèi)陸灘涂與河流劃分為一類, 一定時期內(nèi)的內(nèi)陸灘涂與少量農(nóng)作物長勢較差的旱地有相似的紋理與光譜特征, 從而導(dǎo)致河流與旱地存在部分混淆; 其余地物間的混淆主要由于光譜特征的相似性造成。但在總體評價上, 該模型的分類精度較高, 適用于研究區(qū)的土地利用分類。

    表2 不同分類方法精度對比

    3.2 不同分類方案精度評價與比較

    為驗證CatBoost算法對土地利用分類的可行性, 將其與RF算法和AdaBoost算法的分類效果進行對比, 3種分類方案采用統(tǒng)一的分割尺度、 相同的特征變量以及同一拆分策略的訓(xùn)練集和測試集, CatBoost、 RF和AdaBoost 3種模型均選擇構(gòu)建1 000棵樹。采用混淆矩陣量化3種模型的分類精度, 對應(yīng)各類地物的制圖精度、 總體分類精度和Kappa系數(shù)如表2所示, 分類結(jié)果如圖3a~圖3c所示, 錯分誤差與漏分誤差如圖4a、 圖4b所示, 可得出以下結(jié)論。

    1) CatBoost分類模型與RF分類模型的總體分類精度相等; CatBoost的Kappa系數(shù)比RF略高出0.04個百分點; 在CatBoost分類較差的沼澤分類中, RF模型表現(xiàn)良好, CatBoost模型的漏分現(xiàn)象嚴重; 在建設(shè)用地、 水田、 草地、 河流和其他水域的分類中, CatBoost模型的分類精度均較RF模型有不同程度的提高; RF模型的錯分現(xiàn)象比較嚴重, 在草地、 河流和沼澤中尤為明顯; 由于部分沼澤易與草地混淆, 存在的混合像元數(shù)量較多, 導(dǎo)致在CatBoost模型中沼澤的分類效果最差, 在一定程度上也降低了草地的分類精度。

    2) CatBoost分類模型比AdaBoost分類模型在總體分類精度和Kappa系數(shù)上分別高出11.2個百分點和13.62個百分點。在各地物類別的分類中, CatBoost模型均較AdaBoost模型表現(xiàn)好, AdaBoost分類模型的漏分現(xiàn)象嚴重, 林地的錯分誤差達到57.75%, 總體的分類效果較差, 而CatBoost模型的總體分類精度和Kappa系數(shù)均在91%以上, 分類結(jié)果具有較高的可信度, 從而驗證了CatBoost模型在土地利用分類中的適用性。

    圖4 不同分類方案誤差對比Fig.4 Comparisons of classification errors with different methods

    4 結(jié) 論

    筆者結(jié)合機器學(xué)習(xí)算法與遙感數(shù)據(jù)進行土地利用信息提取, 以黑龍江省齊齊哈爾市西部龍江縣的Sentinel-2影像為數(shù)據(jù)源, 嘗試應(yīng)用CatBoost算法進行面向?qū)ο蟮耐恋乩梅诸? 并與RF和AdaBoost分類方法的實驗結(jié)果進行比較, 得出以下結(jié)論:

    1) CatBoost算法在面向?qū)ο蟮耐恋乩梅诸愔腥〉幂^好的分類效果, 對各地物分類的總體精度和Kappa系數(shù)分別為92.79%和0.911 4, 具有較高的分類精度;

    2) CatBoost算法在降低了數(shù)據(jù)維度的同時有效地保留了特征信息, 降低了模型的時間復(fù)雜度, 在同樣的分割尺度及特征變量的情況下使CatBoost、 RF和AdaBoost算法Kappa系數(shù)均在0.77以上。

    綜上, CatBoost算法適用于面向?qū)ο蟮耐恋乩梅诸? 而且在遙感各領(lǐng)域的應(yīng)用存在巨大潛力。

    筆者主要研究應(yīng)用CatBoost算法對Sentinel-2遙感影像進行面向?qū)ο蟮耐恋乩梅诸?。由于CatBoost算法是新興的機器學(xué)習(xí)算法, 并且影響分類的因素有很多, 所以今后還需從以下方面進行深入研究。

    1) 文中僅對Sentinel-2影像的紅、 綠、 藍、 近紅外4個波段進行分類, 如果加入其他波段是否能在同等條件下提高分類精度還有待研究。

    2) CatBoost算法擅長處理類別型特征, 在今后的研究中增加對遙感類別方面的特征的收集與提取, 例如嘗試添加遙感影像元數(shù)據(jù)類信息等。

    猜你喜歡
    沼澤面向?qū)ο?/a>土地利用
    面向?qū)ο蟮挠嬎銠C網(wǎng)絡(luò)設(shè)計軟件系統(tǒng)的開發(fā)
    電子測試(2018年15期)2018-09-26 06:01:34
    面向?qū)ο蟮臄?shù)據(jù)交換協(xié)議研究與應(yīng)用
    幫女兒走出“嫉妒沼澤”
    土地利用生態(tài)系統(tǒng)服務(wù)研究進展及啟示
    沼澤時代
    面向?qū)ο骔eb開發(fā)編程語言的的評估方法
    濱海縣土地利用挖潛方向在哪里
    Passage Seven
    面向?qū)ο笮畔⑻崛≈杏跋穹指顓?shù)的選擇
    河南科技(2014年10期)2014-02-27 14:09:03
    論低碳經(jīng)濟與轉(zhuǎn)變土地利用方式

    五华县| 滨海县| 华宁县| 溧水县| 赤壁市| 易门县| 榕江县| 卓尼县| 小金县| 岗巴县| 屯门区| 左权县| 沈丘县| 漯河市| 高安市| 荆州市| 抚远县| 庆元县| 汨罗市| 佳木斯市| 涿州市| 梨树县| 盖州市| 铜山县| 萨迦县| 喀喇沁旗| 桂平市| 攀枝花市| 沙雅县| 中方县| 商洛市| 洪湖市| 安岳县| 固阳县| 文成县| 灵川县| 固始县| 扶沟县| 化隆| 洛南县| 邵东县|