鄭文博
(安徽理工大學(xué)空間信息與測(cè)繪工程學(xué)院,安徽 淮南232001)
有機(jī)質(zhì)含量是衡量土壤肥沃度的重要指標(biāo)。它是指存在于土壤里面的各種含碳有機(jī)化合物的總稱。傳統(tǒng)的獲取土壤信息的方法是實(shí)地格網(wǎng)采樣,這種方法雖然被廣泛應(yīng)用,但是在很多方面仍然存在短板。遙感技術(shù)的發(fā)展給有機(jī)質(zhì)預(yù)測(cè)提供有效的途徑,土壤有機(jī)質(zhì)含量與對(duì)應(yīng)的影像光譜反射率之間有著緊密的聯(lián)系。Landsat5TM 影像具有可免費(fèi)獲取、重復(fù)觀測(cè)周期短等優(yōu)勢(shì)。光譜信息與地表有機(jī)質(zhì)含量之間的關(guān)系較為復(fù)雜,一般情況下線性模型是很難去進(jìn)行較好的解釋。機(jī)器學(xué)習(xí)作為非線性學(xué)習(xí)的代表,在處理復(fù)雜問題的表現(xiàn)一直不錯(cuò)。故本文考慮使用Landsat5TM 影像和機(jī)器學(xué)習(xí)中的一些方法去探究多光譜影像預(yù)測(cè)有機(jī)質(zhì)含量的可行性。
本文研究區(qū)是位于江西省北部的樂安河及其支流的沿岸平原區(qū)域,28.7°N~29.3°N,116.5°E~117.9°E 之間。研究區(qū)內(nèi)的土壤類型以紅壤為主,河流流經(jīng)沿岸的地區(qū)主要分布著潮土和水稻土。樣本數(shù)據(jù)的采集時(shí)間是2009 年10 月28 號(hào)到11月2 號(hào),野外采樣點(diǎn)的位置主要為沿著樂安河及其支流的沿岸平均10m 左右位置進(jìn)行采集的,本研究的采樣點(diǎn)共50 個(gè),其具體數(shù)據(jù)來自文獻(xiàn)[1]。選用2009 年10 月10 號(hào)和10 月3 號(hào)的LandsatTM5 遙感衛(wèi)星影像的波譜信息做為實(shí)驗(yàn)數(shù)據(jù)。(因?yàn)闃颖军c(diǎn)呈縱向分布,一張影像無法覆蓋所有樣本點(diǎn),故采用兩種影像拼接后做為單影像) 研究主要考慮地形因子中的坡度、坡向、高程、平面曲率和剖面曲率與土壤間有機(jī)質(zhì)含量的關(guān)系。地形因子的數(shù)據(jù)來自于地理空間數(shù)據(jù)云的ASTER GDEM 30M 分辨率數(shù)字高程數(shù)據(jù)。
本文采用的反演模型是SVR[2]和BP[3]及對(duì)其參數(shù)尋優(yōu)都GA[4]和ADAFSA[5]。上述方法都是常用的,ADAFSA 是在AFSA(人工魚群算法)上的改進(jìn)。
人工魚群算法全局搜索能力較強(qiáng),局部搜索能力較弱,非線性規(guī)劃函數(shù)局部搜索能力較強(qiáng),它能完美彌補(bǔ)人工魚群算法的不足。本文采用在魚群計(jì)算過程中當(dāng)?shù)螖?shù)達(dá)到10 的倍數(shù)時(shí),將此時(shí)狀態(tài)的魚群代入到(非線性規(guī)劃)函數(shù)中,去尋找局部最優(yōu)食物濃度,然后將得到的局部最優(yōu)解作為新的魚群個(gè)體代入到原魚群中繼續(xù)計(jì)算。
對(duì)影像的6 個(gè)波段、歸一化植被指數(shù)NDVI=(B4-B3)/(B4+B3)、比值植被指數(shù)RVI=B4/B3、結(jié)構(gòu)不敏感色素指數(shù)SIPI=(B4-B1)/(B4+B3)進(jìn)行相關(guān)性分析,得到B1 相關(guān)性為-0.337**、B2 為-0.348**、B3 為-0.312**、NDVI 為0.269*,B1、B2、B3、NDVI 通過了顯著性檢驗(yàn),以它們?yōu)檩斎胩卣?。再根?jù)Rand-KS算法進(jìn)行樣本劃分,訓(xùn)練集40 個(gè),驗(yàn)證集7 個(gè)。
以波段和波段指數(shù)為輸入, 建立SVR、GA-SVR、ADAFSA-SVR。預(yù)測(cè)值誤差如圖1,從圖中得到1 號(hào)點(diǎn)在三種尋優(yōu)方法下建立的SVR 模型得到的相對(duì)誤差都很小基本不超過10%,三個(gè)模型中2 號(hào)點(diǎn)和7 號(hào)點(diǎn)的相對(duì)誤差均較大。7 號(hào)點(diǎn)的有機(jī)質(zhì)含量是最低的,誤差較大的點(diǎn)其有機(jī)質(zhì)含量偏低,這可能是因?yàn)椴ㄗV信息對(duì)有機(jī)質(zhì)含量低的土壤敏感性差的原因。建立BP、GA-BP、ADAFSA-BP,得到1 號(hào)點(diǎn)在3 個(gè)模型里面的平均預(yù)測(cè)效果最好,誤差波動(dòng)不大,相對(duì)誤差都不超過20%。其次就是4 號(hào)點(diǎn)的平均預(yù)測(cè)效果最好,相對(duì)誤差在20%左右,在ADAFSA-BP 模型中還不超過10%。其余點(diǎn)號(hào)的相對(duì)誤差在三種模型中均超過了20%,尤其是7 號(hào)點(diǎn)的相對(duì)誤差,在三種模型中都是最高的。
圖1 模型預(yù)測(cè)值誤差
表1 預(yù)測(cè)模型精度分析
從表1 中可以看出,優(yōu)化后的兩種機(jī)器學(xué)習(xí)模型相比普通的模型在預(yù)測(cè)精度上有提升。從有機(jī)質(zhì)預(yù)測(cè)含量的相對(duì)誤差情況看,可能是因?yàn)椴ㄗV信息對(duì)有機(jī)質(zhì)含量低的土壤的敏感性低。訓(xùn)練集除了其中的兩個(gè)模型出現(xiàn)了R2超過0.6 的情況,別的模型訓(xùn)練集決定系數(shù)都低于0.5??梢缘贸瞿P偷木鹊褪且?yàn)檩斎胩卣鬏^少,建立的模型可解釋性低造成。
將高程和Arcgis 提取的坡度、坡向、平面曲率、剖面曲率做相關(guān)性分析,高程相關(guān)性為-0.217* 、坡度為0.298*、平面曲率-0.277**、坡向?yàn)?0.121、剖面曲率為0.302*,得到除了坡向外剩余的地形因子均通過了顯著性檢驗(yàn)。這說明了地形因子與有機(jī)質(zhì)之間確實(shí)存在著一定的聯(lián)系。接下來將地形因子同波信息一起作為輸入特征,來探究是否可以提升模型的精度。
圖2 加入地形因子后模型預(yù)測(cè)值誤差
以波段、波段指數(shù)和地形因子為模型輸入特征,建立SVR、GA-SVR、ADAFSA-SVR、BP、GA-BP、ADAFSA-BP。預(yù)測(cè)值誤差如圖2,從圖中可以看出,雖然1 號(hào)點(diǎn)受地形輸入特征的影響,相對(duì)之前的三種SVR 預(yù)測(cè)精度降低了,但是在7 號(hào)點(diǎn)上的預(yù)測(cè)精度均有很大的提升,別的點(diǎn)號(hào)對(duì)應(yīng)的相對(duì)誤差對(duì)比之前的SVR 有不同幅度的變化。說明引入地形因子對(duì)不同含量的有機(jī)質(zhì)預(yù)測(cè)精度影響是不一致的,有的呈正相關(guān)性,有的呈負(fù)相關(guān)性。對(duì)于波段信息敏感性不高的低有機(jī)質(zhì)含量土壤,地形因子具有非常高的正相關(guān)性。
表2 加入地形因子后預(yù)測(cè)模型精度分析
從表2 中可以看出,引入地形因子后模型的預(yù)測(cè)效果均有很明顯的提升。從訓(xùn)練集上同樣可以看出,加入地形因子增加了六種模型對(duì)訓(xùn)練集的解釋能力。ADAFSA-BP 相比GA-BP 和BP;ADAFSA-SVR 相比GA-SVR 和SVR 不管是再訓(xùn)練集和測(cè)試集上面表現(xiàn)的都更加優(yōu)秀。說明改進(jìn)魚群算法在優(yōu)化支持向量機(jī)超參數(shù)和神經(jīng)網(wǎng)絡(luò)初始權(quán)值和閾值上,相比遺傳算法、網(wǎng)格搜索法和隨機(jī)生成發(fā)都具有一定的優(yōu)勢(shì)。
以為指標(biāo),對(duì)R2超過0.45 的模型進(jìn)行計(jì)算得到GA-SVR為1.37;ADAFSA-SVR 為1.48;GA-BP 為1.39;ADAFSA-BP 為1.54。以大于1.5 為標(biāo)準(zhǔn),可以得出以加入地形因子后的ADAFSA-BP 和ADAFSA-SVR 算法進(jìn)行建模得到的模型對(duì)研究區(qū)土壤有機(jī)質(zhì)含量的預(yù)測(cè)是具有一定可靠性的。
以波段和波段指數(shù)為輸入特征的6 個(gè)模型中,7 號(hào)點(diǎn)的預(yù)測(cè)誤差均是最高的,說明在本研究區(qū)波段信息對(duì)低有機(jī)質(zhì)含量的土壤敏感性較低。加入地形因子做為輸入特征后,雖然別的預(yù)測(cè)點(diǎn)誤差出現(xiàn)了不同幅度的波動(dòng),但是7 號(hào)點(diǎn)的預(yù)測(cè)精度提升非常明顯,各個(gè)模型的訓(xùn)練集和預(yù)測(cè)集精度均有較明顯的提升,這說明地形因子對(duì)于提升有機(jī)質(zhì)含量反演具有較好的正相關(guān)作用。以波段信息和地形因子為輸入特征建立的ADAFSA-SVR 模型、ADAFSA-BP 模型可對(duì)研究區(qū)的有機(jī)質(zhì)含量進(jìn)行有效反演其R2分別為0.54、0.57,RPD 分別為1.48、1.54。