唐 芳 蒲 智 丁吉達(dá) 溫釗發(fā)
(新疆農(nóng)業(yè)大學(xué)計(jì)算機(jī)與信息工程學(xué)院 烏魯木齊 830052)
區(qū)域土地利用變化在區(qū)域環(huán)境變化研究中占有重要地位,對(duì)生態(tài)可持續(xù)發(fā)展具有重要意義[1]。由于區(qū)域尺度遙感影像數(shù)據(jù)量大,采用傳統(tǒng)分類方法要經(jīng)過(guò)繁瑣的預(yù)處理,對(duì)計(jì)算機(jī)硬件要求較高,會(huì)影響分類效率和精度。谷歌地球引擎(Google Earth Engine,GEE)是一個(gè)可以在線處理海量數(shù)據(jù)集的可視化云計(jì)算平臺(tái),具有強(qiáng)大的算法處理和數(shù)據(jù)計(jì)算能力[2~3],支持多種機(jī)器學(xué)習(xí)分類算法,能快速、實(shí)時(shí)、批量地處理大量數(shù)據(jù)[4~5]。隨機(jī)森林算法分類精度高且人工干預(yù)少,在GEE 云端服務(wù)器支持下,訓(xùn)練速度快且很少產(chǎn)生過(guò)擬合,已被廣泛應(yīng)用在遙感影像分類中[6~8]。
塔里木河流域位于絲綢之路經(jīng)濟(jì)帶建設(shè)的核心區(qū),擁有世界最大的天然胡楊林區(qū)及豐富的光熱、石油和天然氣等自然資源,同時(shí)也是生態(tài)環(huán)境最脆弱的地區(qū)之一[9~11]。過(guò)去半個(gè)多世紀(jì),不合理的水資源開(kāi)發(fā)利用,致使塔里木河下游斷流近30年,下游河岸大片胡楊、怪柳、駱駝刺等植被衰?。?2~13]。2000 年國(guó)家實(shí)施綜合治理工程,間歇性由大西海子水庫(kù)向下泄水,成功遏制了塔里木河下游生態(tài)環(huán)境的繼續(xù)惡化,輸水工程后的塔里木河下游土地利用變化成為中國(guó)西部生態(tài)環(huán)境問(wèn)題研究的熱點(diǎn)[14]。
本文以塔里木河下游為研究區(qū),基于google earth engine 遙感大數(shù)據(jù)云平臺(tái)提取2000 年~2020年3 期Landsat 系列遙感數(shù)據(jù),結(jié)合光譜、地形特征,采用隨機(jī)森林算法實(shí)現(xiàn)塔里木河下游土地利用分類,分析研究區(qū)近20年的土地利用時(shí)空變化。
塔里木河位于新疆塔里木盆地北部,沿塔克拉瑪干沙漠北緣,穿過(guò)阿克蘇、庫(kù)車、尉犁縣等地區(qū)流入臺(tái)特瑪湖。塔里木河下游河段為恰拉至臺(tái)特瑪湖,全長(zhǎng)約428km,位于尉犁、若羌縣境內(nèi)。塔里木河下游地勢(shì)呈西北高東南底,地形較平緩,最低海拔為801.50m,在臺(tái)特瑪湖區(qū),最高海拔達(dá)846.25m。區(qū)域干燥少雨,蒸發(fā)強(qiáng)烈,日照時(shí)間長(zhǎng)且氣候極端干旱;風(fēng)沙土、草甸土、鹽土等為主要土壤類型;主要植被為胡楊、怪柳、蘆葦、駱駝刺等耐鹽耐旱植物。
本研究使用的遙感數(shù)據(jù)為GEE 平臺(tái)(https://developers.google.com),提供的2020 年Landsat 系列數(shù)據(jù)的SR(地表反射率產(chǎn)品)以及2000 年、2010 年的Landsat 的TOA(大氣層頂反射率產(chǎn)品)數(shù)據(jù)。DEM 數(shù)據(jù)采用GEE 平臺(tái)提供的30m 空間分辨率的STRM V3 產(chǎn)品數(shù)據(jù)。結(jié)合塔里木河下游土地覆蓋特點(diǎn)并參考2007 年國(guó)土資源部頒布的《土地利用現(xiàn)狀分類標(biāo)準(zhǔn)》將土地利用類型劃分為耕地、林地、草地、水體、建設(shè)用地和未利用地六類。
2.3.1 數(shù)據(jù)選取與預(yù)處理
基于Google Earth Engine 平臺(tái),分別選取2000年、2010 年和2020 年3 期Landsat 影像數(shù)據(jù)(30m 分辨率)進(jìn)行土地利用分類研究。為提高分類精度,篩選云量小于5%且在當(dāng)年1月~12月成像的影像,共篩選出354 景遙感影像,其中,包含99 景2000 年Landsat 5 TM 影像數(shù)據(jù),2010 年數(shù)據(jù)102 景Landsat 7 TM 影像,2020年數(shù)據(jù)153 景Landsat 8 OLI 影像。由于GEE平臺(tái)的Landsat數(shù)據(jù)是經(jīng)過(guò)輻射校正后的數(shù)據(jù),因此只需要對(duì)該數(shù)據(jù)做去云處理、影像鑲嵌和融合、數(shù)據(jù)裁剪和數(shù)據(jù)類型轉(zhuǎn)換等預(yù)處理。
2.3.2 構(gòu)建樣本集
在2020 年Landsat-8 影像數(shù)據(jù)上根據(jù)Google Earth pro 提供的歷史高分辨率影像進(jìn)行目視解譯,選取塔里木河下游6 類土地利用類型的樣本數(shù)據(jù)。建立2020年樣本數(shù)據(jù)集,同時(shí)作為建立2010、2000年樣本數(shù)據(jù)集的標(biāo)準(zhǔn)數(shù)據(jù)集,依據(jù)塔里木河下游地物變化特征和先驗(yàn)知識(shí),對(duì)2010 年Landsat-7影像和2000 年Landsat-5 影像進(jìn)行樣本數(shù)據(jù)的修改和判別。最后將每一期樣本分別按照70%用作分類器的訓(xùn)練樣本,30%用做精度評(píng)價(jià)進(jìn)行分類。
表1 2000年~2020年塔里木河下游分類樣本數(shù)量表
2.3.3 特征選取
基于GEE 平臺(tái)選取研究區(qū)內(nèi)多光譜波段、光譜指數(shù)和地形特征作為分類器訓(xùn)練參數(shù),地形特征為通過(guò)SRTM、DEM 數(shù)據(jù)計(jì)算得到的高度(elevation)、坡度(slope)和高程數(shù)據(jù)。選取歸一化植被指數(shù)(NDVI)、歸一化建筑指數(shù)(NDBI)和歸一化差異水體指數(shù)(NDWI)為光譜特征,各指數(shù)計(jì)算公式如下:
式中:LNIR為L(zhǎng)andsat影像的近紅外波段,LRED為紅光波段,LMIR為中紅外波段,LCREEN為綠光波段。
2.3.4 隨機(jī)森林算法
隨機(jī)森林(Random Forest,RF)是一種基于分類回歸樹的組合分類算法模型[15],由于學(xué)習(xí)速度快、人工干預(yù)少、精度高且不容易產(chǎn)生過(guò)擬合,在遙感影像分類中具有極大優(yōu)勢(shì)[16~17]。其原理為采用Bootstrap 方法隨機(jī)有放回地抽取每組訓(xùn)練樣本集約為整體2/3 的X 組訓(xùn)練樣本集;將抽取的X 組訓(xùn)練樣本集構(gòu)建決策樹,生成X 棵決策樹構(gòu)成的隨機(jī)森林;綜合全部決策樹的預(yù)測(cè)結(jié)果通過(guò)投票決定新樣本類型。GEE環(huán)境下的隨機(jī)森林分類,設(shè)置決策樹的數(shù)量(ntree)為100,特征變量總數(shù)的平方根為變量默認(rèn)數(shù)量(mtry),對(duì)塔里木河下游土地利用分類[18]。
本文基于GEE 平臺(tái),設(shè)置分類樹的數(shù)量為50對(duì)訓(xùn)練樣本集進(jìn)行訓(xùn)練,并使用隨機(jī)森林算法提取每一目標(biāo)年份土地利用信息。得到2000 年~2020年土地利用分類圖(圖1)與分類結(jié)果混淆矩陣(表2)。
圖1 塔里木河下游土地利用分類圖
表2 塔里木河下游土地利用類型精度
由表2 可知,塔里木河下游2000 年、2010 年和2020 年3 期分類結(jié)果的總體精度分別為87.38%、85.48%和90.71%,Kappa 系數(shù)分別為0.84、0.82 和0.87,均在80%以上??傮w分類精度和Kappa 系數(shù)的最大值出現(xiàn)在2020年,最小值出現(xiàn)在2010年,與影像選擇和樣本數(shù)量有關(guān);從各類地物的生產(chǎn)者精度和消費(fèi)者精度來(lái)看,較難區(qū)分的林地、草地和未利用地也具有較高的分類精度,每種用地類型的三期分類精度均超過(guò)80%。表明基于GEE 平臺(tái)進(jìn)行的分類結(jié)果具有較好的分類精度。
2000 年~2020 年塔里木河下游各地類空間分布如圖1,結(jié)合表3 可知,主要土地利用類型為草地、未利用地和林地,每期面積占比和均超90%,林地主要集中在大西海子水庫(kù)及河道附近,總體呈增加趨勢(shì),草地主要分布于英蘇到臺(tái)特瑪湖,面積占比明顯減小,下降4.07%。水體、耕地和建設(shè)用地占地總面積較小,占比不超過(guò)10%,但呈逐年遞增,水體在臺(tái)特瑪湖及大西海子以下的舊河道增長(zhǎng)顯著,耕地和建設(shè)用地面積在恰拉到英蘇呈緩慢增加。
表3 2000年~2020年塔里木河下游各土地利用類型面積占比
由2000 年~2010 年塔里木河下游土地利用轉(zhuǎn)移矩陣(表4)及土地利用分類圖(圖1)可知,期間土地利用類型發(fā)生明顯變化。水體增幅面積最大,原于2000 年生態(tài)輸水工程自大西海子水庫(kù)向下泄水,臺(tái)特瑪湖重現(xiàn)大片水域,且逐年增長(zhǎng),新增面積達(dá)315.32km2,主要來(lái)源于草地和未利用地的轉(zhuǎn)入;二是新增未利用地,面積新增106.21km2,以草地轉(zhuǎn)入為主,在研究區(qū)內(nèi)呈均勻分布;變化總量最大的為草地,面積萎縮最多,達(dá)358.83km2,主要轉(zhuǎn)出為未利用地和林地;林地的轉(zhuǎn)出面積大于轉(zhuǎn)入面積,主要轉(zhuǎn)化為草地和耕地;耕地和建設(shè)用地變化程度不明顯。
表4 2000年~2010年塔里木河下游土地利用轉(zhuǎn)移矩陣(單位:km2)
表5 2010年~2020年塔里木河下游土地利用轉(zhuǎn)移矩陣(單位:km2)
2010 年~2020 年塔里木河下游土地利用變化以草地變化最為顯著,其次是未利用地和林地。草地的原始面積較大,面積萎縮135.67km2,主要轉(zhuǎn)化為未利用地和林地,主要分布于阿拉干到臺(tái)特瑪湖;未利用地主要轉(zhuǎn)為林地和水體,主要由草地轉(zhuǎn)入,總體面積縮小,減少面積308.47km2;林地凈增加80.17km2,主要來(lái)源為草地和未利用地的轉(zhuǎn)入,集中于英蘇以下的舊河道兩邊及臺(tái)特瑪湖附近;水體面積在臺(tái)特瑪湖以及大西海子水庫(kù)以下的舊河道持續(xù)增長(zhǎng),新增面積258.89 km2,主要來(lái)源于未利用地和草地的轉(zhuǎn)入;耕地變化面積較小,但面積新增了95.39km2,分布于大西海子水庫(kù)到阿拉干;建設(shè)用地總體面積保持穩(wěn)定。
本文選用隨機(jī)森林算法,基于GEE 遙感云平臺(tái),對(duì)2000 年~2020 年三期共354 景遙感影像進(jìn)行土地利用分類,實(shí)現(xiàn)2000 年~2020 年土地利用分類,并對(duì)研究區(qū)土地利用時(shí)空變化進(jìn)行分析,得出以下結(jié)論:
1)基于GEE 遙感大數(shù)據(jù)云平臺(tái)采用隨機(jī)森林算法,能快速實(shí)現(xiàn)流域尺度土地利用分類,總體精度均大于85%,Kappa 系數(shù)大于0.82,分類質(zhì)量高,結(jié)合光譜、植被指數(shù)和地形特征能有效提高復(fù)雜地物的分類精度。
2)塔里木河下游2000 年~2020 年的主要土地利用類型為草地、未利用地和林地,土地利用變化以林地、草地和未利用地的相互轉(zhuǎn)換以及水體的持續(xù)擴(kuò)增為主。未利用地和草地20 年面積持續(xù)縮減,減削區(qū)域遍及整個(gè)塔里木河下游;林地面積變化不穩(wěn)定,前十年面積減少,后十年面積增加,總體面積變化呈現(xiàn)增加,主要變化區(qū)域集中于河道兩岸;水體面積自生態(tài)輸水工程以來(lái),保持穩(wěn)定增長(zhǎng),20 年共增長(zhǎng)574.21km2,增長(zhǎng)區(qū)域集中于大西海子水庫(kù)以下的舊河道及臺(tái)特瑪湖,由此可見(jiàn),經(jīng)過(guò)20年的輸水工程,研究區(qū)的水資源得到合理利用,生態(tài)環(huán)境得到改善。