陳元鵬 張世文 羅 明 鄖文聚 鞠正山 李少帥
(1.自然資源部國土整治中心, 北京 100035; 2.安徽理工大學(xué)地球與環(huán)境學(xué)院, 淮南 232001)
作為地球生命的重要載體、國土資源的基本元素,土壤不僅是農(nóng)業(yè)生產(chǎn)的根基,也是國家糧食安全的重要保證,同時是水資源、生態(tài)環(huán)境優(yōu)化的重要基礎(chǔ)[1]。加強(qiáng)國土資源數(shù)量、質(zhì)量、生態(tài)“三位一體”監(jiān)測與管護(hù),對土壤進(jìn)行快速準(zhǔn)確的調(diào)查識別至關(guān)重要。然而,傳統(tǒng)土壤調(diào)查、評價、測量方法成本高、效率低,無法實現(xiàn)大范圍的快速檢測[2],與之相比,光譜技術(shù)快速、便捷,對土地?zé)o污染、無破壞,優(yōu)勢明顯,僅利用單一光譜便可獲取多種土壤理化屬性信息,同時還可以在野外直接進(jìn)行原位光譜采集[3-4],節(jié)省大量的人財物力,增強(qiáng)了大范圍土壤屬性數(shù)據(jù)測度的技術(shù)可行性,是土壤屬性信息獲取的重要技術(shù)手段。而光譜檢測中的高光譜遙感技術(shù)更具優(yōu)勢,其光譜分辨率高、波段連續(xù)性強(qiáng),能獲取連續(xù)的地物光譜曲線,使地物信息更加精細(xì)地體現(xiàn)在光譜曲線上,實現(xiàn)更準(zhǔn)確的反演和監(jiān)測。隨著技術(shù)的不斷進(jìn)步發(fā)展,高光譜遙感目前已被廣泛應(yīng)用于土壤資源調(diào)查、分類、評價、制圖等工作中[5]。
《土地復(fù)墾條例》(國務(wù)院令第592號)明確規(guī)定“復(fù)墾土地需要開展五年監(jiān)測”。但基于傳統(tǒng)方法的長期跟蹤監(jiān)測需要消耗大量的人財物力,為改變這一現(xiàn)狀迫切需要引入高光譜遙感技術(shù),以更加高效、便捷、成本節(jié)約的優(yōu)勢,對土地復(fù)墾項目開展土壤屬性數(shù)據(jù)的檢測和監(jiān)測,以新理論、新技術(shù)來突破傳統(tǒng)方法的弊端,為土壤調(diào)查監(jiān)測提供一個新的研究和工作方向?,F(xiàn)階段,高光譜數(shù)據(jù)已能夠準(zhǔn)確反映地物光譜的細(xì)微特征,變換后的光譜在消除背景和噪聲影響,放大提取光譜的吸收和反射特征等方面具有較優(yōu)效果[6],對挖掘光譜信息,構(gòu)建精度高、穩(wěn)健性好、泛化能力強(qiáng)的模型具有重要作用[7-10]。不少學(xué)者利用高光譜遙感數(shù)據(jù)針對不同區(qū)域的As、Cr、Cd、Cu、Fe、Zn、Ni等重金屬含量進(jìn)行建模反演,獲得了較好的反演精度。但目前利用高光譜數(shù)據(jù)反演工礦復(fù)墾區(qū)土壤重金屬含量的研究相對較少,且現(xiàn)有研究中對于反演模型、特征選擇方法的研究也有待進(jìn)一步深入。
本文基于ASD FieldSpec 4高光譜遙感數(shù)據(jù),結(jié)合土壤重金屬屬性數(shù)據(jù),利用機(jī)器學(xué)習(xí)方法包括線性(偏最小二乘回歸)與非線性(隨機(jī)森林與支持向量機(jī))回歸方法,開展基于高光譜數(shù)據(jù)的土壤重金屬含量反演研究與實驗,采用3種特征選擇方法包括粒子群算法、遺傳算法、Relief F 算法優(yōu)化經(jīng)驗?zāi)P停詼p少模型自變量數(shù)量并提高建模精度。
研究區(qū)為歷史遺留工礦廢棄地復(fù)墾項目區(qū),位于四川省瀘州市古藺縣,地理坐標(biāo)為27°59′43″~28°7′24″N,105°55′41″~106°4′47″E,區(qū)域內(nèi)海拔340~1 207 m,中亞熱帶氣候,年平均氣溫17.1~18.5℃、平均降雨量748.4~1 184.2 mm[11-13]。該項目分為5個復(fù)墾區(qū),項目區(qū)域東西寬3.4 km,南北長2.8 km,總面積297 hm2。研究區(qū)地理區(qū)位及遙感影像數(shù)據(jù)如圖1所示。
在研究區(qū)域內(nèi),綜合考慮復(fù)墾方向和復(fù)墾措施,采用網(wǎng)格布點、分層抽樣,共采集42個土壤樣品,實際有效采集了表層土壤樣品41個,剖面土壤樣品10個,樣點分布如圖2所示。
土壤樣品采集時間為2017年8月。表層土壤采樣深度為0~25 cm。剖面土壤采集0~25 cm、25~50 cm、50~75 cm 3個層次,采集時間在上茬作物玉米成熟或收獲以后,下茬作物尚未施用底肥和種植以前,該時間段能夠反映采樣地塊的真實養(yǎng)分狀況和供肥能力。野外采樣采用鐵鍬挖采樣坑,挖完坑后,用竹片去除與金屬采樣器接觸的土壤,再采集樣品。
圖1 研究項目區(qū)地理位置和遙感影像Fig.1 Location of study area and remote sensing image
圖2 樣點分布圖Fig.2 Map of samples distribution
在采樣點的布設(shè)上,以GPS定位點為中心,向四周輻射確定3~5個分樣點,組合成一個混合樣。每個分樣點的采土部位、深度均一致。采樣地塊為長方形時,采用“S”形布設(shè)分樣點;采樣地塊近似正方形時,采用“X”形或棋盤形布設(shè)分樣點。采樣時均避開了溝渠、林帶、田埂、路邊、舊房基、糞堆及微地形高低不平無代表性地段。采集各分樣點時將土壤掰碎,挑出根系、秸稈、石塊、蟲體等雜物,充分混合后,四分法留取1.0~1.5 kg裝入樣品袋。
土壤樣品在日光下干燥。在樣品干燥過程中采用揉搓法,以免膠結(jié)。干燥后的樣品在加工(過篩)前均用木槌輕輕敲打,以便使土壤樣品恢復(fù)至自然粒級狀態(tài)。
所有土壤樣本經(jīng)風(fēng)干、研磨并通過2 mm孔徑篩,采用四分法分成2份,分別供化學(xué)分析和光譜測試用。采用內(nèi)標(biāo)法定量處理樣土數(shù)據(jù),結(jié)果經(jīng)儀器校對、回收率校正,土壤理化性質(zhì)的測試分析方法見表1,表層土壤樣品測定結(jié)果見表2、3。
表1 土壤樣品分析方法檢出限Tab.1 Detection methods and limit of soil samples
表2 表層土壤元素含量特征值Tab.2 Eigenvalue of surface soil element contents
表3 項目區(qū)土壤本底元素含量特征值Tab.3 Eigenvalue statistics of soil background element content in project area
由表2、3可知: ①復(fù)墾區(qū)土壤環(huán)境指標(biāo)中重金屬元素鎘(Cd)、鉻(Cr)、砷(As)、鎳(Ni)有明顯的富集,鎘(Cd)、鉻(Cr)、砷(As)、鎳(Ni)含量分別是區(qū)域背景值的5.52、2.01、1.82、2.84倍,其均值含量均是區(qū)域背景值的1.5倍以上,特別是鎘(Cd),高達(dá)5倍。與區(qū)域土壤背景值相比,項目所在地區(qū)土壤本底元素鎘(Cd)、鉻(Cr)、砷(As)、鎳(Ni)含量分別是區(qū)域背景值的1.89、1.06、0.98、1.48倍,其中砷(As)含量沒有超過區(qū)域背景值。②復(fù)墾區(qū)內(nèi)監(jiān)測指標(biāo)的變異系數(shù)均較高,鎘(Cd)、鉻(Cr)、砷(As)、鎳(Ni)變異系數(shù)分別是92.39%、33.16%、43.35%、25.23%,特別是鎘(Cd)變異系數(shù)最大。這主要是先前采礦活動對環(huán)境擾動較大,不確定性因素多,致使鎘(Cd)分布發(fā)生突變。而項目區(qū)土壤本底元素中也是鎘(Cd)的變異系數(shù)最大,為83.33%,而鉻(Cr)、砷(As)、鎳(Ni)變異系數(shù)分別是26.38%、45.88%、20.51%。
土壤光譜數(shù)據(jù)測量采用美國ASD公司生產(chǎn)的ASD FieldSpec 4地物光譜儀。在室內(nèi)條件下用標(biāo)準(zhǔn)白板和鹵素光源獲取土壤樣本的反射光譜曲線,光譜波段范圍為350 ~2 500 nm。該光譜儀在不同的波段間有不同的間隔和分辨率,其中350~1 000 nm之間的采樣間隔為1.4 nm,光譜分辨率為3 nm,1 000~2 500 nm范圍內(nèi)的采樣間隔為2 nm,采樣光譜分辨率為10 nm。經(jīng)過間隔為1 nm光譜重采樣,兩者的輸出波段數(shù)均為2 151。由于光譜很容易受到外界光線的干擾,因此測試選擇在無光的暗室中進(jìn)行,選擇50 W的鹵素?zé)魹楣庠础?5°裸光纖鏡頭接收反射波段。測量時將樣本放入直徑為100 mm、高2 mm的透明玻璃培養(yǎng)皿中,光源距離樣品50 cm,光線與樣品呈15°,探頭距樣本10 cm位于光源對面,探頭光纖末端位于土壤樣本正上方。為保證測量的準(zhǔn)確性,以及最大限度的提高儀器的優(yōu)化性能,在測量前,先開機(jī)預(yù)熱30 min,再按照暗電流(DC)采集、儀器優(yōu)化(OPT)、白板校正(WR)順序?qū)x器進(jìn)行調(diào)整和校準(zhǔn)。為防止測量過程中有其他因素影響光譜信息收集的準(zhǔn)確性,每隔10個樣本進(jìn)行一次白板校正。在光譜采樣過程中由于光譜波段兩側(cè)產(chǎn)生不穩(wěn)定的噪聲區(qū),為此,實驗去除了350~399 nm和2 351~2 500 nm范圍內(nèi)的波段數(shù)據(jù),獲得1 950個波段數(shù)據(jù)。
光譜特性由土壤性質(zhì)決定,但土壤是一種復(fù)雜的混合物,具有極其復(fù)雜的多孔體系,由不同的礦物質(zhì)、水分、氣體和土壤有機(jī)質(zhì)組成,影響土壤光譜反射特性的主要因素包括土壤有機(jī)質(zhì)、重金屬元素含量、含水率以及土壤質(zhì)地和母質(zhì)等。對本次研究采集的41個土壤樣本光譜反射率測定數(shù)據(jù)進(jìn)行制圖,利用Savitzky-Golay(S-G)卷積平滑法[14]以10為窗口平滑處理,結(jié)果如圖3所示。
圖3 土壤樣點光譜曲線Fig.3 Spectracurves of soil samples
由圖3可知,雖然土壤樣本光譜反射率有所不同,但整體趨勢呈現(xiàn)共同特征,反射率介于0.2~0.8之間,各樣本土壤光譜曲線在波長范圍內(nèi)呈相似波動性,光譜反射率隨波長增加而增大,在400~780 nm可見光波段范圍內(nèi)反射率增加較快,在近紅外的780~2 350 nm波段范圍內(nèi)反射率增加減緩,800~1 400 nm范圍內(nèi)的近紅外光譜區(qū)的光譜反射率高于可見光波段,在1 400~1 500 nm、1 900~2 000 nm和2 200~2 300 nm 3個范圍內(nèi)存在明顯的水分吸收區(qū)間。綜上,光譜數(shù)據(jù)的波形、波動性、吸收峰等特征與已有的研究結(jié)論相符,表明光譜數(shù)據(jù)的采集情況良好。
為更好地反映土壤重金屬含量與光譜反射率之間的對應(yīng)關(guān)系,消除噪聲干擾,分離重疊樣本,更加準(zhǔn)確地尋找特征波段,對光譜曲線進(jìn)行一階微分變換、對數(shù)一階微分變換以及對數(shù)倒數(shù)的一階微分變換,結(jié)果如圖4~6所示。由圖可知,經(jīng)過一階微分變換后的光譜,有效地消除了基線和背景的干擾,提高了部分波段的分辨率和靈敏度,使重疊樣本得到分離,進(jìn)一步提取了原始數(shù)據(jù)中差異性不顯著的光譜信息,使光譜特征波段峰值更加明顯。
圖4 土壤樣點光譜一階微分變換Fig.4 First order differential transformation of soil sample spectra
圖6 土壤樣點光譜對數(shù)倒數(shù)一階微分變換Fig.6 Logarithmic inverse first order differential transformation of soil sample spectra
圖5 土壤樣點光譜對數(shù)一階微分變換Fig.5 Logarithmic first order differential transformation of soil sample spectra
為進(jìn)一步分析土壤光譜反射率與重金屬元素之間的關(guān)聯(lián),探究土壤重金屬含量與原始、一階微分變換、對數(shù)一階微分變換以及對數(shù)倒數(shù)一階微分變換光譜數(shù)據(jù)的相關(guān)性,運用相關(guān)系數(shù)法對其進(jìn)行分析,相關(guān)系數(shù)計算公式為
(1)
式中ri——土壤重金屬元素含量與高光譜反射率的相關(guān)系數(shù)
Rni——第n個土壤樣本第i波段的光譜反射率
y——第n個土壤樣本重金屬含量
表4為土壤重金屬元素與光譜最大相關(guān)系數(shù)絕對值和對應(yīng)波段。由表4可知,只經(jīng)過S-G平滑處理的光譜曲線相關(guān)系數(shù)絕對值在0.16~0.28之間;一階微分變換后的光譜曲線相關(guān)系數(shù)絕對值在0.36~0.47之間;對數(shù)一階微分變換后的光譜曲線相關(guān)系數(shù)絕對值在0.40~0.55之間;對數(shù)倒數(shù)一階微分變換后的光譜曲線相關(guān)系數(shù)絕對值在0.46~0.54之間。土壤重金屬元素含量與光譜曲線的相關(guān)性逐步增強(qiáng),說明土壤光譜經(jīng)過預(yù)處理變換后,均能在一定程度上消除背景因素或系統(tǒng)噪聲等影響,對于提高建模精度能夠起到一定作用。
相關(guān)系數(shù)絕對值中,不低于0.5的情況分別有:光譜對數(shù)一階微分變換下的鎘(Cd)元素相關(guān)系數(shù)、光譜對數(shù)倒數(shù)一階微分變換下的鉻(Cr)元素相關(guān)系數(shù)、光譜對數(shù)倒數(shù)一階微分變換下的鎳(Ni)元素相關(guān)系數(shù)。所以本文選擇對數(shù)一階微分、對數(shù)倒數(shù)一階微分變換后的光譜進(jìn)行建模。
表4 土壤重金屬與光譜最大相關(guān)系數(shù)絕對值和對應(yīng)波段Tab.4 Absolute value of maximum correlation coefficient between heavy metal elements and spectra and corresponding band
利用41個土壤樣點光譜的對數(shù)一階微分、對數(shù)倒數(shù)一階微分變換后光譜數(shù)據(jù)進(jìn)行重金屬的反演建模,分別選擇線性和非線性回歸模型開展建模實驗。
偏最小二乘回歸(Partial least squares regression, PLSR)集成了主成分、典型相關(guān)和線性回歸分析方法的優(yōu)點,其提供一種多對多的線性回歸建模的方法。PLSR是將因子分析和回歸分析結(jié)合的方法。
(1)因子分析。將X和Y作如下分解
X=TPT+E
(2)
Y=UQT+F
(3)
式中X——樣本光譜矩陣
Y——樣本待檢測屬性矩陣
T——X的得分矩陣
U——Y的得分矩陣
P——X的載荷(即主成分矩陣)
Q——Y的載荷(即主成分矩陣)
E——用PLSR模型擬合X時所引進(jìn)的殘差矩陣
F——用PLSR模型擬合Y時所引進(jìn)的殘差矩陣
(2)回歸分析。將T和U作線性回歸,得
U=TB
(4)
Y1=T1BQ=X1PTBQ
(5)
式中B——關(guān)聯(lián)系數(shù)矩陣
預(yù)測中,由未知樣品矩陣X1和校正得到的P,求出未知樣品X1的矩陣T1。
3.2.1隨機(jī)森林回歸
隨機(jī)森林(Random forest regression, RFR)是一種基于決策樹的高效機(jī)器學(xué)習(xí)算法,可用于對樣本進(jìn)行分類,也可用于回歸分析。它屬于非線性分類器,因此可挖掘變量之間復(fù)雜的非線性相互依賴關(guān)系[15-19]。
3.2.2支持向量機(jī)回歸
支持向量機(jī)(Support vector machine regression, SVMR)是一種在分類和回歸問題中應(yīng)用較為廣泛的模型,在分類和回歸問題中均能得到較優(yōu)效果,支持向量機(jī)在回歸分析中,目標(biāo)是在有限的噪聲樣本基礎(chǔ)上預(yù)測出未知的連續(xù)函數(shù)。支持向量機(jī)回歸包括線性回歸和非線性回歸。對于非線性回歸,只需要引入核函數(shù),通過非線性映射將輸入空間映射到高維的特征空間,在高維空間上進(jìn)行線性回歸。常用的核函數(shù)有:徑向基核函數(shù)(RBF)、Sigmoid核函數(shù)與多項式核函數(shù)等。本文選用RBF作為SVM的核函數(shù)[20-27]。
基于高光譜數(shù)據(jù)進(jìn)行回歸分析,通常自變量較多,過多的樣本數(shù)量或存在冗余信息導(dǎo)致建模精度降低,為此需要利用特征選擇算法進(jìn)行數(shù)據(jù)降維,減少自變量個數(shù)的同時保證建模精度不降低。為進(jìn)一步降低數(shù)據(jù)維度、減少冗余信息、提高運算效率、提升模型穩(wěn)定性與適應(yīng)性,本文選取3種光譜特征選擇方法來優(yōu)化模型預(yù)測能力,實現(xiàn)模型預(yù)測準(zhǔn)確性和穩(wěn)定性的進(jìn)一步提高[28-30]。
3.3.1粒子群算法
粒子群優(yōu)化算法(Particle swarm optimization, PSO)模擬的是鳥群覓食行為,是一種基于集群智能的隨機(jī)尋優(yōu)算法,鳥群通過自身經(jīng)驗和種群之間的交流調(diào)整自己的搜尋路徑,從而找到食物最多的地點。PSO算法步驟如下:初始化一個規(guī)模為m的粒子群,設(shè)定初始位置和速度;計算每個粒子的適應(yīng)值;對每個粒子,將其適應(yīng)值和其經(jīng)歷過的最好位置的適應(yīng)值進(jìn)行比較,若較好,則將其作為當(dāng)前最好位置;分別對粒子的速度和位置進(jìn)行更新,以達(dá)到滿足終止條件[31-33]。PSO算法涉及的參數(shù)包括:種群數(shù)量、迭代次數(shù)、慣性權(quán)重、學(xué)習(xí)因子、空間維數(shù)、位置限制和速度限制等。
3.3.2遺傳算法
遺傳算法(Genetic algorithm, GA)是模擬達(dá)爾文生物進(jìn)化論的自然選擇和遺傳學(xué)機(jī)理的生物進(jìn)化過程的計算模型,是一種通過模擬自然進(jìn)化過程搜索最優(yōu)解的方法[34-36]。GA從一組隨機(jī)產(chǎn)生的“種群”(初始可行解)開始搜索過程。其中可行解即被稱為 “染色體”,一個可行解一般由多個元素構(gòu)成,那么每一個元素就被稱為染色體上的一個“基因”。在算法執(zhí)行過程中,染色體通常在編碼后進(jìn)行迭代計算,每次迭代都會生成若干條染色體。采用適應(yīng)度函數(shù)分別計算每一條染色體的適應(yīng)程度,并根據(jù)適應(yīng)程度計算每一條染色體在下一次進(jìn)化中被選中的概率,對染色體進(jìn)行優(yōu)勝劣汰。在未達(dá)到算法終止條件時,通過選擇、交叉和變異3個算子產(chǎn)生下一代染色體。重復(fù)此過程直到算法收斂從而得到最優(yōu)解(最優(yōu)染色體)。
3.3.3Relief F 算法
Relief F算法是一種考慮了多變量和特征互相依賴作用的過濾式(Filter)特征選擇算法[37],算法通過“假設(shè)間隔”對特征的分類能力進(jìn)行評價,綜合考慮類間距與類內(nèi)距,若類間距大于類內(nèi)距,則增加其權(quán)值,若類間距小于類內(nèi)距,則降低其權(quán)值,通過類間距與類內(nèi)距不斷更新其權(quán)值,并根據(jù)計算的最終權(quán)值進(jìn)行特征選擇,權(quán)值更新公式為
(6)
假設(shè)間隔θ是指當(dāng)保持樣本類別不變時分類決策面可移動的最大距離,即
(7)
式中diff()——不同樣本間的距離
n——樣本數(shù)量f——評價特征
mclass(xi)——樣本抽樣次數(shù)
i——隨機(jī)抽中的樣本
H(x)、M(x)——樣本x的同類和異類最近鄰樣本點
線性模型選擇偏最小二乘回歸(PLSR)模型,將樣本按照3∶1的比例劃分進(jìn)行建模驗證(建模樣本30個,驗證樣本11個),回歸分析結(jié)果如表5所示,表中決定系數(shù)R2和均方根誤差(RMSE)均為驗證集的評價系數(shù)。其中鎘(Cd)元素與對數(shù)一階微分變換后的光譜曲線建模擬合效果最好,決定系數(shù)R2最大,達(dá)0.76,均方根誤差RMSE最小,為0.62 mg/kg,說明基于室內(nèi)處理的光譜在預(yù)測土壤中的重金屬元素鎘(Cd)時能夠達(dá)到良好效果;而重金屬元素鎳(Ni)在與經(jīng)對數(shù)一階微分變換的光譜曲線建模擬合中,最優(yōu)決定系數(shù)R2僅為0.29,均方根誤差RMSE為10.6 mg/kg,在與對數(shù)倒數(shù)一階微分變換的光譜曲線建模擬合中R2則更低,說明在研究區(qū)域中,高光譜數(shù)據(jù)無法滿足精確建模預(yù)測土壤重金屬元素鎳(Ni)含量的基本要求。元素砷(As)、鉻(Cr)與對數(shù)倒數(shù)一階微分變換后的光譜建模,決定系數(shù)R2分別為0.54、0.65,但均方根誤差RMSE差別較大,分別為1.94、16.1 mg/kg,雖然決定系數(shù)R2基本能夠滿足預(yù)測精度,但鉻(Cr)的RMSE為16.1 mg/kg,說明模型穩(wěn)定性和泛化能力有待進(jìn)一步增強(qiáng)。
表5 PLSR模型反演結(jié)果評價Tab.5 Assessment of PLSR inversion results
非線性模型選擇隨機(jī)森林(RFR)和支持向量機(jī)(SVMR)模型,同樣將樣本按照3∶1的比例劃分進(jìn)行建模驗證(建模樣本30個,驗證樣本11個),回歸分析結(jié)果如表6、7所示。由表6、7可知,利用隨機(jī)森林和支持向量機(jī)方法的反演結(jié)果中,依然是鎘(Cd)元素的決定系數(shù)R2最高,鎳(Ni)元素的R2最低,均方根誤差RMSE中鎘(Cd)元素分別為1.69、1.75 mg/kg,鉻(Cr)元素分別為18.20、18.70 mg/kg,結(jié)果呈現(xiàn)的整體趨勢與PLSR反演結(jié)果較為一致。與PLSR相比較,非線性模型對各重金屬元素擬合精度偏低,究其原因或是因為建模樣本數(shù)量過少,導(dǎo)致非線性建模效果不夠理想,在大樣本容量下,預(yù)測精度和模型的穩(wěn)定性將會有所提高。
表6 RFR模型反演結(jié)果評價Tab.6 Assessment of RFR inversion results
圖7 基于不同特征選擇的Cd含量反演結(jié)果Fig.7 Cd content inversion results based on feature selection
金屬元素最優(yōu)光譜變換方法R2RMSE/(mg·kg-1)砷(As)對數(shù)倒數(shù)一階微分0.407.87鎘(Cd)對數(shù)一階微分0.481.75鉻(Cr)對數(shù)倒數(shù)一階微分0.3318.70鎳(Ni)對數(shù)一階微分0.2513.65
由線性(PLSR)和非線性(RFR、SVMR)模型分析結(jié)果可知,在PLSR模型下鎘(Cd)元素與對數(shù)一階微分變換后的光譜曲線建模擬合效果最優(yōu),精度最高,決定系數(shù)R2最大,達(dá)到0.76,所以選擇PLSR模型下鎘(Cd)元素的反演作為優(yōu)化目標(biāo),以 PSO、GA、Relief F 3種特征選擇方法對高光譜數(shù)據(jù)進(jìn)行特征波段選擇后再進(jìn)行PLSR建模,以驗證特征選擇、模型優(yōu)化的效果。
PSO方法參數(shù)設(shè)置:初始種群數(shù)量20、迭代次數(shù)20、慣性權(quán)重0.33;GA方法參數(shù)設(shè)置:初始種群數(shù)量20,最大繁殖代數(shù)20、交叉概率0.6、變異概率0.03?;谝陨蟽煞N方法選擇的特征波段數(shù)量趨于一致,分別為535、537個。同時基于 Relief F 方法,選擇了535個特征變量。
以PSO、GA、Relief F 3種方法選擇的特征波段為自變量,基于 PLSR 模型對鎘(Cd)元素進(jìn)行回歸分析,反演結(jié)果如表8所示。由表8可知,基于PSO特征選擇的反演結(jié)果最優(yōu),R2為0.84;其次為基于GA的特征選擇的反演結(jié)果,R2為0.64;基于Relief F特征選擇的反演結(jié)果R2只有0.58。與未經(jīng)過特征選擇的反演結(jié)果比較,只有基于PSO特征選擇方法的反演精度有所提高,R2由0.76提高到0.84,基于GA、Relief F特征選擇方法的反演精度均出現(xiàn)了一定程度的降低,R2由0.76分別降至0.64和0.58。所以,在3種方法中,基于PSO優(yōu)化的PLSR模型能夠進(jìn)一步提高對實驗區(qū)內(nèi)鎘(Cd)元素反演的精度,并有效減少了特征波段的數(shù)量。
表8 基于不同特征選擇方法的PLSR模型反演結(jié)果評價Tab.8 Assessment of PLSR inversion results based on feature selection
圖7為鎘(Cd)元素反演模型的預(yù)測值散點圖與擬合結(jié)果。
(1)以工礦復(fù)墾區(qū)為實驗區(qū)域,進(jìn)行了基于高光譜數(shù)據(jù)的土壤重金屬含量反演研究和經(jīng)驗?zāi)P蛢?yōu)選。實驗結(jié)果表明,通過對光譜曲線進(jìn)行一階微分、對數(shù)一階微分以及對數(shù)倒數(shù)的一階微分等數(shù)學(xué)變換能夠有效提高光譜數(shù)據(jù)與土壤重金屬含量的相關(guān)性;針對實驗區(qū)數(shù)據(jù),PLSR對復(fù)墾區(qū)土壤重金屬含量的反演精度最優(yōu),尤其對區(qū)域內(nèi)主要障礙因子鎘(Cd)元素含量的反演效果最佳,驗證集的決定系數(shù)R2達(dá)到0.76;采用的 PSO、GA、Relief F 3種特征選擇方法中,PSO 在降低特征波段變量維度的基礎(chǔ)上,能夠有效提高 PLSR 模型對復(fù)墾區(qū)土壤重金屬含量反演的精度,使決定系數(shù)R2由0.76提至0.84。
(2)運用線性(PLSR)和非線性(RFR、SVMR)機(jī)器學(xué)習(xí)方法開展建模實驗,采用基于隨機(jī)搜索策略的3種特征選擇方法(PSO、GA、Relief F)進(jìn)行模型優(yōu)化,通過對3種機(jī)器學(xué)習(xí)方法和3種特征選擇方法分析優(yōu)選,得到基于 PSO-PLSR 的土壤重金屬含量高光譜反演方法,可以獲得較佳建模精度。