范天程, 賈云飛, 李云飛, 趙建林
(長(zhǎng)安大學(xué) 地質(zhì)工程與測(cè)繪學(xué)院, 西安 710054)
黃土高原位于我國(guó)西北部,覆蓋青海、甘肅、寧夏、陜西等省,是我國(guó)水土流失最嚴(yán)重的區(qū)域之一[1]。根據(jù)“中國(guó)水土流失與生態(tài)安全綜合科學(xué)考察”報(bào)告,黃土高原總面積約為64萬(wàn)km2,其中土壤侵蝕面積約占39萬(wàn)km2[2]。嚴(yán)重的土壤侵蝕使黃土高原形成了縱橫交錯(cuò)的溝壑系統(tǒng)和千溝萬(wàn)壑的地形景觀?;邳S土高原46個(gè)流域的溝壑密度與泥沙貢獻(xiàn)研究表明,當(dāng)溝壑區(qū)的溝壑密度大于30%時(shí),溝壑區(qū)對(duì)流域泥沙的貢獻(xiàn)率達(dá)到了75%以上[3]。因此,研究溝壑分布對(duì)于黃土高原生態(tài)系統(tǒng)和經(jīng)濟(jì)發(fā)展等問(wèn)題具有重要的意義。
溝壑分布圖的繪制是研究區(qū)域溝壑分布的主要手段,目前關(guān)于溝壑分布圖的繪制,主要方法為目視解譯法,目視解譯法是以影像為數(shù)據(jù)源,人工識(shí)別出溝壑區(qū)域。關(guān)于航空影像提取溝壑最早是從20世紀(jì)40年代開始,隨著科學(xué)技術(shù)的發(fā)展,到了20世紀(jì)60年代,遙感技術(shù)已經(jīng)成為大多數(shù)研究人員獲取數(shù)據(jù)信息的途徑,因?yàn)槠淇梢垣@取多個(gè)時(shí)間段的數(shù)據(jù),且成本較低,在提取溝壑分布的過(guò)程中,遙感技術(shù)成為人們的首選[4]。但是在大尺度的研究范圍內(nèi),人工提取方法費(fèi)時(shí)又費(fèi)力,工作效率不高,相比之下,機(jī)器學(xué)習(xí)方法運(yùn)算速度快,穩(wěn)定性高,具有明顯的優(yōu)越性。近年來(lái),不少學(xué)者采用面向像元的分析方法,基于高分辨率遙感影像在不同領(lǐng)域的大尺度范圍內(nèi)進(jìn)行研究,比如在國(guó)外研究中,Broeckx等[5]基于邏輯回歸模型分析了整個(gè)非洲區(qū)域的滑坡點(diǎn)分布情況;Vanmaercke等[6]基于隨機(jī)森林模型預(yù)測(cè)了東非大裂谷北部的溝壑密度。在國(guó)內(nèi)研究中,胡濤等[7]基于邏輯回歸模型對(duì)思南縣的滑坡易發(fā)性進(jìn)行研究;陳黔等[8]基于分類回歸樹(CART)模型和支持向量機(jī)(SVM)模型估算毛烏素沙地灌木覆蓋度,并對(duì)比兩種方法結(jié)果;修曉敏等[9]基于分類回歸樹(CART)模型、支持向量機(jī)(SVM)模型和普通最小二乘法(OLS)模型,估算安徽省零散草地生物量,并對(duì)比每種方法精度;楊敏等[10]基于Landsat8 OLI影像建立神經(jīng)網(wǎng)絡(luò)模型反演生成了南京市葉面積指數(shù)分布圖,模型可靠性較高。以往的研究表明機(jī)器學(xué)習(xí)方法在不同領(lǐng)域大范圍研究中得到了廣泛的應(yīng)用,同時(shí)目前對(duì)于溝壑地貌空間分布預(yù)測(cè)和制圖較少,特別是大尺度范圍的預(yù)測(cè)和制圖較少。
因此,本文以黃土高原延河流域?yàn)檠芯繉?duì)象,通過(guò)系統(tǒng)樣本和高清影像的人工勾繪延河流域溝壑地貌樣本,在此基礎(chǔ)上以光譜因子和輔助數(shù)據(jù)為變量因子,采用邏輯回歸模型研究延河流域溝壑樣本光譜特征,預(yù)測(cè)延河流域溝壑的像元概率分布。本研究結(jié)果為大尺度預(yù)測(cè)流域溝壑分布和模擬以及延河流域土壤侵蝕和泥沙治理提供方法和數(shù)據(jù)基礎(chǔ)。
延河流域位于陜北黃土高原中部,地理位置在36°21′—37°19′N和108°38′—110°29′E,流域面積為7 725 km2[11],地勢(shì)西北高,東南低。流域處于東部季風(fēng)濕潤(rùn)區(qū)和內(nèi)陸干旱區(qū)的交叉處,年降水量少,多年平均降水量為520 mm,降水量主要集中于夏季,冬季有少量降雪[12]。該流域是黃土高原水土流失最嚴(yán)重的區(qū)域區(qū)之一,大部分屬于黃土高原丘陵區(qū)第二副區(qū),地形破碎[13],溝壑密度為2.1~4.6 km/km2[14]。延河流域土壤侵蝕程度劇烈,溝壑分布廣泛,是研究溝壑分布的較好選擇。
Google Earth Pro平臺(tái)擁有豐富的高分辨率遙感影像數(shù)據(jù),其中延河流域范圍內(nèi)的遙感影像數(shù)據(jù)分辨率達(dá)到了0.3 m,能夠保證本研究的人工勾繪精度要求。本文基于Google Earth Pro平臺(tái),采用系統(tǒng)樣本法和人工勾繪,建立延河流域溝壑樣本庫(kù),并把溝壑提取的結(jié)果作為研究過(guò)程中的實(shí)測(cè)溝壑概率。如圖1所示,溝壑樣本提取的流程如下:首先,在研究區(qū)域內(nèi)均勻分布272個(gè)3 km×3 km的矢量樣本,樣本區(qū)覆蓋整個(gè)延河流域;其次,將樣本區(qū)導(dǎo)入Google Earth Pro平臺(tái)中,采用目視解譯的方法勾繪各樣本區(qū)內(nèi)的溝沿線:溝沿線的閉合區(qū)域即為溝壑地貌。樣本區(qū)內(nèi)溝壑地貌以外的區(qū)域?yàn)榉菧羡值孛?;最后,將勾繪的溝壑地貌做進(jìn)一步分析。
圖1 溝壑提取過(guò)程
本文選用的遙感影像的分辨率為30 m,為研究溝壑地貌的光譜特征,在提取矢量溝壑地貌后,將其轉(zhuǎn)換為對(duì)應(yīng)的30 m分辨率的柵格溝壑概率。轉(zhuǎn)換的方法如下:首先創(chuàng)建與遙感影像數(shù)據(jù)像元一致的緩沖區(qū),基于緩沖區(qū)對(duì)溝壑矢量和非溝壑矢量進(jìn)行分割,使得分割后的每一個(gè)區(qū)域完全覆蓋所對(duì)應(yīng)的像元,然后計(jì)算分割后溝壑區(qū)域和非溝壑區(qū)域內(nèi)像元對(duì)應(yīng)的矢量面積,再結(jié)合像元面積得到每一個(gè)像元的溝壑地貌面積占比,該面積比即為該像元的溝壑概率(GP),計(jì)算公式如下:
(1)
式中:GP為每個(gè)像元值,即像元的溝壑概率;A為每個(gè)像元中人工勾繪的溝壑面積(m2)。
(2)
式中:xi為自變量;bi為回歸系數(shù),該方程結(jié)果P為0~1的一個(gè)數(shù)字。在本研究中,P為某一像元的溝壑概率。
本文基于Landsat8 OLI(Operational Land Image,陸地成像儀傳感器)影像數(shù)據(jù)和DEM(Digital Elevation Model,數(shù)字高程模型)數(shù)據(jù)獲取光譜因子和輔助因子,Landsat8 OLI影像和DEM數(shù)據(jù)都來(lái)自地理空間數(shù)據(jù)云平臺(tái)(http:∥www.gscloud.cn),空間分辨率為30 m。
考慮到研究區(qū)域的大小和影像獲取過(guò)程中地表植被因素的影響,成像時(shí)間選擇為2018年10月29日(兩景)和2018年12月25日(一景),所選影像研究區(qū)域上空無(wú)云層遮擋,成像質(zhì)量良好。Landsat8 OLI多光譜遙感數(shù)據(jù)在獲取過(guò)程中已經(jīng)經(jīng)過(guò)系統(tǒng)的輻射和幾何校正,在此基礎(chǔ)上,基于ENVI平臺(tái)對(duì)影像進(jìn)行輻射定標(biāo)和大氣校正;對(duì)預(yù)處理后的影像進(jìn)行拼接和勻色處理,獲取研究區(qū)域的Landsat8 OLI多光譜影像??紤]到遙感影像各波段之間的相關(guān)性,需要對(duì)影像數(shù)據(jù)降維,去除冗余信息[15]。目前常用的方法主要有主成分分析和纓帽分析,如岳程鵬等[16]基于Landsat8 OLI影像使用主成分分析方法反演了烏梁素海浮游植物生物量;傅姣琪等[17]提出了一種基于衛(wèi)星遙感數(shù)據(jù)使用纓帽變換提取水邊線信息的方法。本文基于預(yù)處理后遙感影像,采用主成分分析獲得影像7個(gè)波段(B1—B7)前三個(gè)主成分波段因子,同時(shí)采用纓帽分析獲得影像前5個(gè)波段和第7波段(B1—B5,B7)中3個(gè)光譜因子。此外,歸一化植被指數(shù)NDVI(Normalized Difference Vegetation Index)能夠反映植被覆蓋率,且溝壑密度和植被分布存在聯(lián)系,因此本文選取NDVI作為一個(gè)變量因子,計(jì)算公式如下:
(3)
式中:NIR為近紅外波段反射率;R為紅光波段反射率。
對(duì)于DEM數(shù)據(jù),對(duì)其進(jìn)行投影變換后提取本研究所需要的相關(guān)地貌因子,主要包括高程、坡度和坡向信息。
最后本文選取主成分變換因子(3個(gè))和纓帽變換因子(3個(gè))為光譜因子,植被指數(shù)因子(1個(gè))和地形因子(3個(gè))為輔助因子,共10個(gè)變量因子(表1)建立邏輯回歸模型。
表1 建模因子
1.5.1 訓(xùn)練和驗(yàn)證樣本建立 本文基于邏輯回歸模型預(yù)測(cè)溝壑分布,建立溝壑與非溝壑的訓(xùn)練樣本。通過(guò)面積比例確定某一個(gè)像元是否為溝壑像元或者非溝壑像元。本研究定義當(dāng)一個(gè)像元的溝壑面積比例大于0.9時(shí),定義為溝壑像元,賦值為1;當(dāng)像元溝壑面積比例小于0.1時(shí),定義為非溝壑像元,賦值為0,剩下的混合像元?jiǎng)t舍棄。再?gòu)馁x值后的數(shù)據(jù)集中分別篩選出10 000個(gè)數(shù)據(jù)組成新的數(shù)據(jù)集,作為建立邏輯回歸模型的數(shù)據(jù)源。
在荒漠區(qū)樣方中,將探地雷達(dá)所測(cè)每條測(cè)線的土壤體積含水量進(jìn)行克里金插值,所得樣方內(nèi)土壤含水量的分布圖如圖2所示。
1.5.2 控制變量選取與模型建立 本文共建立了10個(gè)溝壑概率預(yù)測(cè)控制因子,基于單因子和多因子蒙特卡洛分析建立最優(yōu)的邏輯回歸預(yù)測(cè)模型,具體步驟如下:
首先,基于單因子分析,分析Wald檢驗(yàn)在p<0.05顯著性水平下各單個(gè)變量因子在邏輯回歸模型中的顯著性。
1.5.3 模型評(píng)估 基于上述確定的最優(yōu)因子組合和1.5.1所獲取的2/3訓(xùn)練樣本建立最終的預(yù)測(cè)模型,對(duì)剩余的1/3驗(yàn)證樣本進(jìn)行二分類驗(yàn)證。選取ROC曲線下面積AUC作為模型驗(yàn)證指標(biāo),ROC曲線是衡量分類精度的常用指標(biāo),以非溝壑像元被預(yù)測(cè)為溝壑像元的比例(假陽(yáng)性率,F(xiàn)PR)為橫軸,以溝壑像元被預(yù)測(cè)為溝壑像元的比例(真陽(yáng)性率,TPR)為縱軸繪制曲線。
(4)
式中:B為Brightness;G為Greenness;W為Wetrness;S為Slope。
表2 變量因子統(tǒng)計(jì)
注:M1為Brightenss,M2為M1+PCA1;M3為M2+Greenness;M4為M3+Wetness;M5為M4+PCA3;M6為M5+slope;M7為M6+aspect;M8為M7+elevation。
基于上述建立的最優(yōu)邏輯回歸模型,本文使用所建立模型對(duì)驗(yàn)證樣本的1/3溝壑?jǐn)?shù)據(jù)進(jìn)行預(yù)測(cè),其精度為73.72%。根據(jù)驗(yàn)證樣本的預(yù)測(cè)結(jié)果檢驗(yàn)邏輯回歸模型,其ROC曲線下面積AUC為0.80(圖3),表明模型預(yù)測(cè)結(jié)果準(zhǔn)確度較高[19]。
圖3 驗(yàn)證樣本ROC曲線
本文基于最優(yōu)邏輯回歸模型(公式4)預(yù)測(cè)延河流域溝壑分布概率,結(jié)果見圖4。整個(gè)延河流域中,像元溝壑概率最大值為98.28%,最小值為0.57%,均值為52.05%,若將像元溝壑概率假設(shè)為真實(shí)的像元溝壑地貌面積占比,則基于本模型預(yù)估的延河流域溝壑地貌面積占比為52.05%。將溝壑概率分布圖(圖4)以10%的間隔進(jìn)行分級(jí)評(píng)定,得到延河流域溝壑概率分級(jí)圖(圖5),結(jié)合圖5和表3,在整個(gè)延河流域內(nèi),溝壑概率在0~50%的區(qū)域(約占整個(gè)流域面積的44.95%)相對(duì)集中在西北地區(qū),溝壑概率在80%~100%的區(qū)域(約占16.11%)則集中分布在中部和東南部,而溝壑概率在50%~80%的區(qū)域(約占38.94%)則是均勻分布在整個(gè)延河流域。整體來(lái)看,從西北方向到東南方向,溝壑分布呈現(xiàn)越來(lái)越集中的特點(diǎn)。
圖4 延河流域溝壑概率預(yù)測(cè)
溝壑地貌作為黃土高原地區(qū)重要的地貌之一,是土壤侵蝕最嚴(yán)重的區(qū)域,也是黃河流域泥沙主要來(lái)源。因此開展溝壑地貌分布的研究對(duì)于黃土高原地區(qū)土壤侵蝕治理和泥沙輸移控制具有重要意義。本文研究基于遙感影像和邏輯回歸模型,以延河流域?yàn)檠芯繉?duì)象,對(duì)大尺度區(qū)域像元單位溝壑地貌概率分布進(jìn)行預(yù)測(cè)和建模?;诒狙芯拷Y(jié)果估算延河流域溝壑地貌約占整個(gè)流域面積的52.05%,且延河流域的溝壑分布呈現(xiàn)出從西北方向到東南方向逐漸集中分布的特點(diǎn),溝壑密度從西北向東南方向逐漸增大,這與前人研究結(jié)果一致[20]。因此,采用本文相關(guān)方法能夠在大尺度區(qū)域?qū)羡值孛驳目臻g分布進(jìn)行預(yù)測(cè)。
圖5 延河流域溝壑預(yù)測(cè)概率分級(jí)
表3 溝壑分級(jí)面積占比
但在本文研究中,也有一定的局限性,首先是人工提取的矢量溝壑,溝壑和非溝壑區(qū)域的界定并不明顯,因此溝壑提取過(guò)程中主觀性較強(qiáng),提取過(guò)程中存在一定誤差;其次是遙感影像的選取,本文選取的遙感影像分辨率為30 m,屬于中高分辨率,但隨著科學(xué)技術(shù)的發(fā)展和影像獲取手段的進(jìn)步,高分影像的獲取逐漸平民化。因此在未來(lái)的研究中,可以對(duì)上面提到的兩點(diǎn)不足加以改進(jìn),選取更高精度的遙感影像進(jìn)行分析,并把這種方法運(yùn)用到更大的研究區(qū)域中。
由于本文所建立模型的精度較高,本文所預(yù)測(cè)的延河流域溝壑概率圖和概率分級(jí)圖可以為相關(guān)部門改善延河流域環(huán)境和修復(fù)延河流域生態(tài)提供重要溝壑分布數(shù)據(jù),從而有針對(duì)性的提出合理的治理措施;同時(shí)也可以為相關(guān)學(xué)者研究延河泥沙變化和溝壑之間的聯(lián)系提供一定基礎(chǔ)數(shù)據(jù)。
(3) 對(duì)最優(yōu)邏輯回歸模型進(jìn)行評(píng)估,得到驗(yàn)證樣本預(yù)測(cè)精度為73.72%,ROC曲線與坐標(biāo)軸圍成的面積即AUC值為0.80,模型準(zhǔn)確度較高。
(4) 在延河流域,溝壑概率小于50%的區(qū)域集中分布在西北方向,而溝壑概率大于80%的區(qū)域則集中分布在中部和東南部,總體呈現(xiàn)從西北到東南方向溝壑概率逐漸增加的趨勢(shì),且溝壑地貌約占延河流域總面積的52.05%。