李 超,李 斌,張麗瓊,葉大鵬,鄭書河
1. 福建農(nóng)林大學(xué)機(jī)電工程學(xué)院,福建 福州 350012 2. 北京農(nóng)業(yè)信息技術(shù)研究中心,北京 100097 3. 農(nóng)業(yè)部農(nóng)業(yè)遙感機(jī)理與定量遙感重點(diǎn)實(shí)驗(yàn)室,北京 100097
重金屬具有生物毒性、 不可降解性及在生物體中的累積性,通過(guò)廢水、 大氣沉降持續(xù)釋放至周圍環(huán)境的表層土壤中,不斷累積的重金屬在土壤中通過(guò)有機(jī)體轉(zhuǎn)化為有機(jī)復(fù)合物,最終對(duì)自然生態(tài)系統(tǒng)和人類健康造成威脅[1-2]。鉛作為環(huán)境中典型的重金屬污染元素之一,在進(jìn)入土壤后,容易通過(guò)溶解、 沉淀、 絡(luò)合和吸附等方式以5種(可交換態(tài)、 碳酸鹽結(jié)合態(tài)、 鐵錳氧化物結(jié)合態(tài)、 有機(jī)結(jié)合態(tài)和殘?jiān)鼞B(tài))不同的化學(xué)結(jié)合態(tài)富集于土壤中[3]。因此土壤中鉛含量的檢測(cè)對(duì)于防控土壤重金屬污染具有重要意義。
目前利用光譜反演土壤重金屬含量的研究主要集中在重金屬種類、 重金屬分布區(qū)域等方面。相關(guān)研究人員以河灘平原[4]、 礦區(qū)[5-6]、 農(nóng)田[7]為例,利用近紅外光譜和高光譜探究了土壤光譜與Cd,Cu,As,Ni和Pb等重金屬含量之間的關(guān)系,通過(guò)光譜反演建立了含量預(yù)測(cè)模型。盡管上述土壤重金屬含量光譜反演建模都取得了不錯(cuò)的預(yù)測(cè)效果,然而對(duì)于利用太赫茲對(duì)不同pH土壤中重金屬含量反演的研究卻少有報(bào)道。相關(guān)研究[8-9]表明,土壤光譜信息與重金屬化學(xué)結(jié)合態(tài)的組分具有一定相關(guān)性,而pH值是影響土壤重金屬化學(xué)結(jié)合態(tài)的重要因素之一。因此,有必要探索并建立重金屬在不同pH土壤中的最佳反演模型,以實(shí)現(xiàn)土壤重金屬含量的準(zhǔn)確預(yù)測(cè)。
李斌[10]等開(kāi)展了土壤中鉛含量的初步研究,發(fā)現(xiàn)土壤樣品中鉛含量與對(duì)應(yīng)的太赫茲吸收譜之間存在一定的對(duì)應(yīng)關(guān)系,因而得出了利用太赫茲光譜技術(shù)對(duì)土壤重金屬含量進(jìn)行測(cè)定具有可行性的結(jié)論。以此為理論依據(jù),本文嘗試?yán)锰掌澒庾V技術(shù)建立不同pH土壤中鉛含量的反演預(yù)測(cè)模型。首先采集土壤樣品的太赫茲光譜,并對(duì)光譜做一定預(yù)處理,然后對(duì)預(yù)處理后的光譜數(shù)據(jù),利用SPA選取光譜的特征頻率,最后分別采用PLS,SVM和BPNN建立鉛含量的反演預(yù)測(cè)模型,并通過(guò)比較模型效果,確定鉛在不同pH土壤中的最佳預(yù)測(cè)模型。
制備樣品所需的純凈土壤采集于北京市農(nóng)林科學(xué)院院內(nèi)實(shí)驗(yàn)田,采集0~20 cm的表層土壤,約2.5 kg。取部分采集到的土壤樣品送至北京中科聯(lián)宏檢測(cè)技術(shù)公司進(jìn)行土壤的主要成分檢測(cè),根據(jù)國(guó)家標(biāo)準(zhǔn)《土壤環(huán)境質(zhì)量農(nóng)用地土壤污染風(fēng)險(xiǎn)管控標(biāo)準(zhǔn)》[11]檢測(cè)土壤樣品中的重金屬元素是否已經(jīng)超標(biāo)。經(jīng)檢測(cè)后,采集的土壤樣品中鉛含量背景值為29.476 mg·kg-1,符合國(guó)家標(biāo)準(zhǔn)。
為模擬鉛離子自然狀態(tài)下進(jìn)入不同pH的土壤,利用NaOH溶液和HCl溶液分別配制pH為5.5,7.0,8.5的土壤,選用0.1 mol·L-1的Pb(NO3)2標(biāo)準(zhǔn)溶液作為鉛源加入土壤中。每種pH條件下按鉛含量為50~1 000 mg·kg-1,梯度為50 mg·kg-1配制含鉛土壤樣品20組,每組2個(gè),共計(jì)120個(gè)。另配制5個(gè)不含鉛的土壤樣品用作比較和分析鉛進(jìn)入土壤前后的太赫茲光譜曲線變化。含鉛土壤經(jīng)過(guò)干燥、 研磨后稱取200 mg含鉛土壤樣品,使用手動(dòng)液壓型壓片機(jī)(Specac GS15011, 英國(guó))進(jìn)行壓片,壓力為3.5 T,壓制時(shí)間3 min。由于土壤樣品本身特性,在壓片過(guò)程中容易出現(xiàn)松散現(xiàn)象。為解決這一問(wèn)題,在土壤中加入少量聚乙烯粉末實(shí)現(xiàn)樣品制備工藝的優(yōu)化。最終成型的壓片,厚度約為1.0~1.1 mm,直徑約為13 mm。
實(shí)驗(yàn)采用德國(guó)Menlo Systems公司的太赫茲時(shí)域光譜系統(tǒng)TERA K15。為避免空氣中的水蒸氣對(duì)太赫茲波的強(qiáng)烈吸收所產(chǎn)生的干擾,將太赫茲波的產(chǎn)生與探測(cè)裝置置于透明亞克力密閉箱內(nèi),并連續(xù)充入干燥氮?dú)?,保證測(cè)試環(huán)境相對(duì)濕度小于5%,環(huán)境溫度在23 ℃左右。將壓片固定在樣品架上, 然后置于THz-TDS系統(tǒng)中進(jìn)行掃描以采集0~80 ps的時(shí)域光譜數(shù)據(jù),每一個(gè)壓片取不同部位3次測(cè)量的平均值作為該樣品的光譜數(shù)據(jù)。最后將時(shí)域光譜數(shù)據(jù)輸入到PC端的Teralyzer軟件程序處理,即可從時(shí)域光譜數(shù)據(jù)中得到相應(yīng)的吸收光譜數(shù)據(jù)。
樣品的光譜數(shù)據(jù)在首端和高頻段的信噪比較低,因此本文只取0.075~2 THz波段的數(shù)據(jù)用于后續(xù)分析。應(yīng)用MSC、 基線校正和Savitzky-Golay平滑對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理,減少噪聲、 樣品粒度和光程變化等因素對(duì)光譜產(chǎn)生的影響。其中,采用基線傾斜的方法對(duì)吸收光譜曲線進(jìn)行基線校正,采用三次多項(xiàng)式5點(diǎn)平滑的方法對(duì)吸收光譜曲線進(jìn)行Savitzky-Golay平滑。
PLS是一種結(jié)合了多元線性回歸分析、 典型相關(guān)分析和主成分分析三種算法優(yōu)點(diǎn)的化學(xué)計(jì)量分析法,廣泛應(yīng)用于光譜分析中[12]。在本研究的PLS建模中,根據(jù)樣品數(shù)量和維度,初始設(shè)定15個(gè)主因子數(shù),采用留一交互驗(yàn)證法對(duì)校正集進(jìn)行交互驗(yàn)證,取交互驗(yàn)證均方根誤差(RMSECV)最小值對(duì)應(yīng)的主因子個(gè)數(shù)作為建模的最佳主因子數(shù)。
SVM是一種有監(jiān)督的學(xué)習(xí)方法,用于數(shù)據(jù)分析和模式識(shí)別[13]。本研究以徑向基函數(shù)(RBF)為核函數(shù),采用粒子群算法計(jì)算c和g,初始設(shè)置種群的粒子為20,學(xué)習(xí)因子c1和c2分別為1.5和1.7;設(shè)定慣性權(quán)重λ初始值為0.9,終止迭代次數(shù)為200。粒子群算法在粒子的適應(yīng)度值趨于穩(wěn)定或達(dá)到最大迭代次數(shù)后,尋優(yōu)結(jié)束,得出最佳的SVM模型參數(shù)c和g。
BPNN是一種基于誤差反向傳播算法的非線性多層前饋神經(jīng)網(wǎng)絡(luò),它包括輸入層、 隱含層和輸出層[14]。本研究初始設(shè)置輸入層節(jié)點(diǎn)為樣本的特征維度,而輸出層節(jié)點(diǎn)、 目標(biāo)誤差、 最大迭代次數(shù)和學(xué)習(xí)率等參數(shù)分別為10,100,200和0.01,隱含層節(jié)點(diǎn)數(shù)根據(jù)經(jīng)驗(yàn)公式(1)選取,根據(jù)網(wǎng)絡(luò)訓(xùn)練效果確定最優(yōu)的隱含層節(jié)點(diǎn)數(shù)。當(dāng)網(wǎng)絡(luò)訓(xùn)練達(dá)到目標(biāo)誤差或最大迭代次數(shù)時(shí),網(wǎng)絡(luò)訓(xùn)練停止。
(1)
式(1)中,m為隱含層節(jié)點(diǎn)數(shù),n為輸入層節(jié)點(diǎn)數(shù),l為輸出層節(jié)點(diǎn)數(shù),α為1~10之間的常數(shù)。
在Matlab 2016a(MathWorks, USA)軟件中完成對(duì)原始光譜的預(yù)處理、 特征頻率的篩選、 PLS,SVM和BPNN模型的建立。在建立模型時(shí),每種pH條件下的40個(gè)樣本,按照3∶1的比例劃分成校正集和預(yù)測(cè)集。本文選用校正集相關(guān)系數(shù)(Rc),校正集均方根誤差(RMSEC),預(yù)測(cè)集相關(guān)系數(shù)(Rp),預(yù)測(cè)集均方根誤差(RMSEP)和剩余預(yù)測(cè)偏差(RPD)作為鉛含量預(yù)測(cè)效果的評(píng)價(jià)指標(biāo)。
重金屬鉛進(jìn)入土壤前后的吸收光譜曲線如圖1(a)所示??梢杂^察到,鉛含量為100 mg·kg-1的土壤樣品與純凈的土壤樣品相比,吸收系數(shù)增大且在1.75 THz處尤為明顯,這說(shuō)明鉛在進(jìn)入土壤后能對(duì)太赫茲光譜產(chǎn)生一定影響。樣品的原始吸收曲線經(jīng)過(guò)MSC、 基線校正和Savitzky-Golay平滑等預(yù)處理后的光譜曲線如圖1(b)所示。從圖中可以看出,經(jīng)過(guò)預(yù)處理后的光譜曲線,無(wú)效噪聲得到抑制,樣品之間的分辨信息得到增強(qiáng)。且不同樣品之間整體表現(xiàn)為吸收系數(shù)隨鉛含量的增加而逐漸增加。
圖1 樣品吸收曲線(a):鉛進(jìn)入土壤前后的吸收曲線;(b):預(yù)處理后的吸收曲線Fig.1 Absorption curves of samples(a):Absorption curves of lead before and after entering soil;(b):Absorption curves after pretreatment
全光譜的PLS模型最佳主因子個(gè)數(shù)和預(yù)測(cè)結(jié)果如表1所示。pH 8.5的樣品模型預(yù)測(cè)結(jié)果最好,Rc,RMSEC,Rp和RMSEP分別為0.991 3,27.51 mg·kg-1,0.983 9和33.35 mg·kg-1,RPD為6.85。pH 7.0的樣品相關(guān)系數(shù)和RPD結(jié)果較好,但均方根誤差偏大。而pH 5.5的樣品模型預(yù)測(cè)結(jié)果較差,Rc,RMSEC,Rp和RMSEP分別為0.688 9,133.53 mg·kg-1,0.604 3和164.88 mg·kg-1,RPD僅為1.25。結(jié)果表明pH 7.0和pH 5.5的樣品模型預(yù)測(cè)結(jié)果需要進(jìn)一步提高。
表1 全光譜的PLS建模及預(yù)測(cè)結(jié)果Table 1 The PLS modeling and prediction results of full spectrum
實(shí)驗(yàn)中發(fā)現(xiàn),0.075~2.0 THz的光譜數(shù)據(jù)量較大且數(shù)據(jù)之間存在共線性和大量冗余的問(wèn)題,容易造成模型不穩(wěn)定,預(yù)測(cè)效果較差。因此需要對(duì)原始數(shù)據(jù)進(jìn)行降維以提取特征變量,減少冗余以及共線性數(shù)據(jù)的影響[11]。連續(xù)投影算法(SPA)是一種使矢量空間共線性最小化的前向變量選擇算法,在光譜分析中有廣泛的應(yīng)用。本文對(duì)樣品的光譜數(shù)據(jù)進(jìn)行特征頻率選擇,選取性能好的特征頻率,將進(jìn)一步提高模型分析的準(zhǔn)確性。
如圖2所示,以SPA算法對(duì)樣品光譜數(shù)據(jù)進(jìn)行篩選,得到了特征頻率的分布圖,根據(jù)對(duì)應(yīng)編號(hào)最終篩選出特征頻率。pH 8.5的樣品篩選出11個(gè)特征頻率(0.2,0.419,0.6,0.788,0.888,1,1.206,1.306,1.406,1.469和1.544 THz)。pH 7.0和pH 5.5的樣品,分別篩選了10個(gè)特征頻率(0.144,0.581,0.775,1.038,1.094,1.206,1.325,1.425,1.531,1.569 THz)和13個(gè)特征頻率(0.081,0.219,1.356,1.431,1.513,1.588,1.656,1.731,1.8,1.844,1.875,1.925和1.95 THz)。
圖2 土壤樣本的特征頻率分布圖(a):pH 8.5;(b):pH 7.0;(c):pH 5.5Fig.2 Distribution of variables selected plot by SPA(a):pH 8.5;(b):pH 7.0;(c):pH 5.5
基于SPA選擇的特征頻率建立了SPA-PLS,SPA-SVM和SPA-BPNN的預(yù)測(cè)模型,其中SPA-PLS的最佳主因子個(gè)數(shù),SPA-SVM的最優(yōu)c和g,SPA-BPNN的最優(yōu)隱含層節(jié)點(diǎn)數(shù)以及三種模型的預(yù)測(cè)結(jié)果如表2所示??梢钥闯?,在經(jīng)過(guò)SPA選擇特征頻率后的建模效果普遍比全光譜效果好,這表明SPA算法選擇的特征頻率不僅含有原始光譜的有效信息,能代替原始光譜進(jìn)行建模,而且減少了數(shù)據(jù)量,達(dá)到簡(jiǎn)化模型并提高模型的精度以及穩(wěn)健性的目的。其中,pH 8.5的樣品模型預(yù)測(cè)結(jié)果中,效果最好的為SPA-PLS模型,Rc,Rp,RMSEC,RMSEP和RPD分別為0.997 7,0.994 6,14.52 mg·kg-1,22.70 mg·kg-1和9.63。pH 7.0的樣品模型預(yù)測(cè)結(jié)果較全光譜有了很大提升,其中效果最好的為SPA-SVM模型,Rc,Rp,RMSEC,RMSEP和RPD分別為0.996 2,0.975 7,20.25 mg·kg-1,33.04 mg·kg-1和4.56;pH 5.5樣品SPA-PLS模型中的預(yù)測(cè)效果相比于全光譜雖有所提升,但RMSEP仍然高于樣品的梯度值50 mg·kg-1,說(shuō)明pH 5.5條件下的樣品數(shù)據(jù)不適合類似于PLS的線性預(yù)測(cè)模型。但在非線性的預(yù)測(cè)模型SPA-SVM和SPA-BPNN中,得到了不錯(cuò)的預(yù)測(cè)效果,其中預(yù)測(cè)效果最好的是SPA-BPNN模型,Rc,Rp,RMSEC,RMSEP和RPD分別為0.968 7,0.974 4,48.83 mg·kg-1,55.03 mg·kg-1和4.44。基于同一種模型作比較,還可以得出3種pH條件下的樣品的預(yù)測(cè)效果高低排序依次為pH 8.5>pH 7.0>pH 5.5,可能是由于鉛在進(jìn)入堿性土壤后,更容易與土壤產(chǎn)生絡(luò)合反應(yīng),形成影響太赫茲光譜曲線的化學(xué)結(jié)合態(tài),而具體是哪種形態(tài)鉛影響太赫茲光譜的吸收,目前尚且不清楚,有待后續(xù)研究。其中三種pH條件下樣品的最佳模型預(yù)測(cè)圖如圖3所示。
表2 基于特征頻率的建模及預(yù)測(cè)結(jié)果Table 2 The modeling and prediction results based on sensitive frequencies
圖3 三種pH條件下樣品的最佳模型預(yù)測(cè)圖(a):pH 8.5;(b):pH 7.0;(c):pH 5.5Fig.3 The best prediction results(a):pH 8.5;(b):pH 7.0;(c):pH 5.5
應(yīng)用太赫茲光譜技術(shù)對(duì)不同pH土壤中鉛含量的最佳反演預(yù)測(cè)模型進(jìn)行了探索性研究。制備了3種不同pH的含鉛土壤樣品,采集樣品的太赫茲光譜并做預(yù)處理。對(duì)預(yù)處理后的光譜數(shù)據(jù)進(jìn)行了特征頻率選擇和建模分析,并通過(guò)模型評(píng)價(jià)參數(shù)對(duì)不同模型進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明:(1)在經(jīng)過(guò)SPA選擇特征頻率后的建模效果普遍比全光譜的效果好;(2)其中pH 8.5的樣品最佳預(yù)測(cè)模型為SPA-PLS,Rc,Rp,RMSEC,RMSEP和RPD分別為0.997 7,0.994 6,14.52 mg·kg-1,22.70 mg·kg-1和9.63;(3)pH 7.0的樣品最佳預(yù)測(cè)模型為SPA-SVM,Rc,Rp,RMSEC,RMSEP和RPD分別為0.996 2,0.975 7,20.25 mg·kg-1,33.04 mg·kg-1和4.56;(4)pH 5.5的樣品最佳預(yù)測(cè)模型為SPA-BPNN,Rc,Rp,RMSEC,RMSEP和RPD分別為0.968 7,0.974 4,48.83 mg·kg-1,55.03 mg·kg-1和4.44。(5)建模效果高低排序依次為pH 8.5>pH 7.0>pH 5.5。本研究為不同pH土壤中鉛含量的反演預(yù)測(cè)提供了一種新思路,但土壤取樣具有區(qū)域局限性,重金屬類型單一,且樣本數(shù)量也有待進(jìn)一步增加。在將來(lái)的研究工作中將進(jìn)一步完善實(shí)驗(yàn)的不足之處,探索更加精準(zhǔn)的土壤鉛及其他重金屬含量的反演預(yù)測(cè)模型。