尚相春,金倩,楊可明,高偉,吳兵
(1.淮北礦業(yè)股份有限公司孫疃煤礦,安徽 淮北 235000;2.河北省礦產(chǎn)資源與生態(tài)環(huán)境監(jiān)測重點實驗室,河北 保定 071051;3.中國礦業(yè)大學(xué)(北京)地球科學(xué)與測繪工程學(xué)院,北京 100083)
近百年來,隨著人類文明的發(fā)展和工業(yè)化進程的加速,礦山無序開采、礦石違規(guī)冶煉、超標廢水廢氣排放、農(nóng)藥化肥過量使用等現(xiàn)象屢見不鮮,導(dǎo)致大量重金屬流入到水土環(huán)境中,影響了重金屬的全球循環(huán)[1-3]。超過安全限值的重金屬會破壞生態(tài)系統(tǒng)的正常功能,它們難以被生物降解,會通過根部及葉面氣孔進入植物阻礙其生長[4],且極有可能沿食物鏈向農(nóng)作物與動物傳導(dǎo),進而在人類體內(nèi)富集,從多方面對人體造成損害[5-6]。由此可見,重金屬污染嚴重威脅著全球糧食安全與人類健康,已經(jīng)成為當今世界面臨的重大生態(tài)環(huán)境問題之一。Pb 和Cu 是常見的重金屬元素,但它們對于生命體的作用與危害差異極大。Pb 屬于生命體的非必需金屬元素,較低含量便會對生物體表現(xiàn)出嚴重毒性[7],環(huán)境中Pb超標輕則影響植物生長、產(chǎn)量和品質(zhì),重則導(dǎo)致植物死亡;而適量Cu對植物的生長有促進作用,只有過量Cu 才會對生命體產(chǎn)生有害影響[8];此外,Pb 和Cu 誘發(fā)的疾病也不盡相同,Pb 中毒會造成正常紅細胞性貧血等[9-10]疾病,Cu 中毒則會造成多種神經(jīng)系統(tǒng)退行性疾病[11-13]。由此可見,不同種類、不同程度的重金屬污染產(chǎn)生的危害存在差異,而作物是環(huán)境中重金屬沿食物鏈向人體轉(zhuǎn)移的重要環(huán)節(jié),因此鑒別作物的重金屬污染種類尤為重要。
高光譜遙感技術(shù)是一種新興的科學(xué)觀測手段,相較于傳統(tǒng)的化驗分析方法,其獲取的數(shù)據(jù)更加豐富多樣,監(jiān)測能力與效率更強,同時也更加綠色環(huán)保[14]。近年來,高光譜數(shù)據(jù)憑借其獨特優(yōu)勢,在土壤成分監(jiān)測、植物要素監(jiān)測、水土環(huán)境監(jiān)測等方面發(fā)揮了重要作用。在作物重金屬污染監(jiān)測中,較多研究聚焦于重金屬含量的反演預(yù)測,如RATHOD等[15]在研究過程中使用了水分脅迫指數(shù),計算其與葉片砷含量之間的相關(guān)系數(shù),探討植物生長狀態(tài),建立回歸模型,為監(jiān)測植物健康狀況提供了一種新思路。HEDE 等[16]探究了植被受重金屬污染的影響程度,通過與常規(guī)方法進行比較,結(jié)果表明所提出的植被指數(shù)對重金屬脅迫的靈敏度更高。HAN 等[17]對作物葉片光譜進行了奇異值分解,而后將獲得的能量值作為作物自適應(yīng)模糊神經(jīng)網(wǎng)絡(luò)模型的輸入層,進行了葉片Pb含量的反演。BANERJEE 等[18]通過構(gòu)建植被健康指數(shù),分析植被健康與其受重金屬污染的關(guān)系。MIRZAEI 等[19]以采集的葡萄葉片光譜數(shù)據(jù)為研究對象,采用偏最小二乘法、多元線性回歸以及支持向量機方法進行建模,預(yù)測葉片內(nèi)的重金屬含量并取得一定效果。
隨著作物重金屬污染種類鑒別意義的凸顯,該問題引發(fā)了部分研究人員的關(guān)注,如LI等[20]將變分模態(tài)分解應(yīng)用于光譜曲線分解,聯(lián)合主成分分析算法構(gòu)建二維分類平面,利用支持向量機中的超分類線對玉米Pb、Cu 污染進行了可視化分析,并取得了較好的效果。FU 等[21]繪制了重金屬污染環(huán)境下作物葉片的功率譜密度曲線,進而依據(jù)曲線形態(tài)區(qū)分了重金屬污染種類。LI等[22]構(gòu)建了區(qū)分Pb、Cu 污染的光譜指數(shù),通過樸素貝葉斯算法制定區(qū)分玉米葉片Pb、Cu 污染的判別規(guī)則。上述研究側(cè)重于從視覺角度進行種類鑒別,雖然結(jié)果清晰,但不適用于海量數(shù)據(jù),不能轉(zhuǎn)換為計算機語言進行結(jié)果統(tǒng)計,考慮到作物重金屬污染種類判別的最終目標是進行區(qū)域級的應(yīng)用,故應(yīng)探尋具備大面積應(yīng)用潛力的作物重金屬污染種類判別方法。
本研究擬依托于Pb、Cu 污染下玉米葉片光譜數(shù)據(jù)及對應(yīng)的重金屬污染種類信息,通過分數(shù)階、整數(shù)階的導(dǎo)數(shù)(Derivative,D)進行光譜處理,借助差值比光譜指數(shù)(Difference ratio spectral index,DRSI)結(jié)構(gòu)生產(chǎn)指數(shù)參量,進而基于優(yōu)勢指數(shù)參量構(gòu)建多維Pb、Cu 污染種類判別特征(DFLCPT),最終以DFLCPT 為驅(qū)動,結(jié)合隨機森林分類(Random forest classification,RFC)、K-最鄰近分類(K-nearest neighborhood classification,KNNC)、支持向量機分類(Support vector classification,SVC)、高斯過程分類(Gaussian process classification,GPC)原理,開展作物Pb、Cu 污染種類判別研究,以期為工業(yè)級的重金屬污染種類判別實踐提供技術(shù)支持或參考。
1.1.1 植株培育
為滿足作物Pb、Cu 污染高光譜甄別研究的數(shù)據(jù)需求,在溫室大棚內(nèi)開展重金屬脅迫下的玉米培育實驗。實驗從重金屬脅迫種類、重金屬脅迫程度兩個角度出發(fā),進行玉米植株差異化培育。通過對穗期玉米葉片的測量、檢驗,獲取不同種類、不同程度重金屬脅迫下的玉米葉片高光譜數(shù)據(jù)及Pb、Cu含量數(shù)據(jù),用于后續(xù)研究。其中,Pb、Cu污染源為Pb(NO3)2、CuSO4·5H2O,脅迫程度依據(jù)《土壤環(huán)境質(zhì)量標準》(GB 15618—1995)設(shè)置為50、100、150、200、300、400、600、800 mg·kg-1,對應(yīng)標記為Pb(50)、Cu(50)、Pb(100)、Cu(100)……Pb(800)、Cu(800)。同一污染種類下各脅迫程度的土壤均分為三盆,每盆中培育一組作物,對應(yīng)標記為Pb(50)a、Pb(50)b、Pb(50)c、Cu(50)a、Cu(50)b、Cu(50)c……Cu(800)c,共計48 組。培育過程中各植株的水、氣和養(yǎng)分條件適宜且一致。
1.1.2 數(shù)據(jù)獲取
在密閉暗室中,以50 W 鹵素燈為光源,利用ASD FieldSpec 4型光譜儀采集葉片光譜,光纖視場角為25°,采集時與葉片間距為5 cm。每盆植株均選擇三枚不同位置的葉片用于光譜采集,且每枚葉片均重復(fù)測量三次光譜,以單一植株多個葉片多次光譜的均值表示該植株的葉片光譜。其中,各葉片對應(yīng)標記為Pb(50)a1、Pb(50)a2、Pb(50)a3、Pb(50)b1、Pb(50)b2、Pb(50)b3……Cu(800)c1、Cu(800)c2、Cu(800)c3。
對葉片進行化學(xué)消解等預(yù)處理,而后利用電感耦合等離子發(fā)射光譜儀(ICP-OES)測定葉片中的Pb、Cu 含量。植物的生長培育環(huán)境除栽培土污染種類與程度不同外,其余條件均一致,故在重金屬污染種類與程度相同的前提下,植株葉片同種重金屬含量應(yīng)在同一范圍內(nèi)。依據(jù)四分位距法,篩查異常葉片,基于Pb 含量的篩查結(jié)果如圖1,基于Cu 含量的篩查結(jié)果見圖2。依據(jù)異常值篩查結(jié)果,剔除異常葉片,更新用于研究的相關(guān)數(shù)據(jù)。不含異常葉片的48 組植株樣本光譜見圖3,不含異常葉片的葉片Pb、Cu 含量見表1,基于剔除異常葉片后的數(shù)據(jù)集開展后續(xù)研究。
表1 剔除異常樣本后的葉片Pb、Cu含量(mg·kg-1)Table 1 Pb and Cu contents in leaves after the removal of abnormal samples(mg·kg-1)
圖1 基于Pb含量的異常葉片篩查結(jié)果Figure 1 Abnormal leaf screening results based on Pb content
圖2 基于Cu含量的異常葉片篩查結(jié)果Figure 2 Abnormal leaf screening results based on Cu content
圖3 剔除異常樣本后的葉片光譜Figure 3 Leaf spectra after the removal of abnormal samples
1.2.1 導(dǎo)數(shù)
導(dǎo)數(shù)變換是一項應(yīng)用廣泛的光譜處理技術(shù),在消除噪聲、獲取隱藏信息等方面發(fā)揮著重要作用[23]。傳統(tǒng)導(dǎo)數(shù)的階次一般為整數(shù),而分數(shù)階導(dǎo)數(shù)是傳統(tǒng)導(dǎo)數(shù)的拓展,其在光譜信號中常依據(jù)Grünwald-Letnikov(G-L)法[24-25]實現(xiàn)。由G-L 法可知,光譜f(x)在波長[bstart,bend]間的v階導(dǎo)數(shù)為:
式中:v為階次,且大于0;bstart為光譜的起始波長;bend為光譜的終止波長;INT()為取整運算;Γ為Gamma函數(shù);x為指定波段的光譜值;h為光譜的采樣間隔;z為自變量;u為積分變量。
故而,式(1)可以表示為:
1.2.2 Pb、Cu污染種類判別特征(DFLCPT)
為開展Pb、Cu污染種類判別,設(shè)計了一種多個要素(E)構(gòu)成的特征集以表征樣本的種類屬性,即DFLCPT。依據(jù)包含要素的數(shù)量,可分為不同維度的DFLCPT。
n維尺度的DFLCPT(DFLCPTnD)可表示為:
式中:E1,E2……En為DFLCPTnD構(gòu)成要素。
適宜的光譜指數(shù)能夠有效利用多波段信息,進一步提升對目標的表征能力,故以光譜指數(shù)作為DFLCPTnD的構(gòu)成要素。差值和比值是兩種常見的光譜指數(shù)形式,相關(guān)性分析能夠?qū)崿F(xiàn)面向?qū)傩缘男畔⑻崛?,故結(jié)合兩種指數(shù)的結(jié)構(gòu)優(yōu)勢,加入相關(guān)性最優(yōu)波,構(gòu)建了差值比光譜指數(shù)(DRSI)結(jié)構(gòu)。DRSI的具體參數(shù)受基準光譜(Basic spectrum,BS)、構(gòu)成波段的影響,因此將DRSI 記作DRSI[b1,b2,br]BS,DRSI[b1,b2,br]BS的計算方法為:
式中:br為相關(guān)性最強波段波長,Rbr為波長br處的光譜值。
1.2.3 判別模型原理
(1)隨機森林分類(RFC)
隨機森林是一種機器學(xué)習(xí)技術(shù),決策樹是其基分類器,該算法將隨機因素引入到?jīng)Q策樹的訓(xùn)練中,其主要思路:首先將預(yù)測空間分為多個樣本空間,然后再從各個決策樹中選取最優(yōu)特征分割點,選取時從每一子空間隨機選取部分特征,構(gòu)建一個特征數(shù)據(jù)集,最終匯總獲取結(jié)果。由于決策樹的訓(xùn)練集及候選集均為獨立選取,因此其預(yù)測結(jié)果具有獨立性。隨機森林的分類結(jié)果是由所有決策樹聯(lián)合表決確定的,與單一決策樹相比,其具有不過度擬合、所需參數(shù)少、泛化能力較強等特點,因此隨機森林的性能更佳。
(2)K-最鄰近分類(KNNC)
最鄰近分類算法是基于樣本的一種分類算法,其主要研究重心為提高模型的分類精度,其主要操作過程:確定待分類的對象,首先尋找訓(xùn)練樣本與待分類對象距離較近的樣本,然后計算相似度,并將相似度進行排名,在排列結(jié)果中,選擇最相似的K個樣本,K的取值在很大程度上依賴于訓(xùn)練樣本的大小,然后計算出K個樣本的所屬類別,從而決定出該測試樣本的類別。
(3)支持向量機分類(SVC)
支持向量機算法可應(yīng)用于樣本分類及回歸等問題處理方面,是一種按照監(jiān)督分類方式進行分類的機器學(xué)習(xí)方法,其基本原理是首先選定訓(xùn)練集與測試集,并確定核函數(shù),然后選取樣本的特征信息,映射到高維空間,在該空間尋找一個最優(yōu)超平面,從而在數(shù)據(jù)特征之間創(chuàng)建邊界,最終達到分類的目的。SVM算法的優(yōu)點是可以應(yīng)對樣本較少的情況,具有對樣本數(shù)據(jù)敏感的特點。
(4)高斯過程分類(GPC)
高斯過程分類與SVM 分類操作過程類似,同樣是基于核函數(shù)確立的算法模型,其屬于貝葉斯機器算法模型,被用來解決二分類等問題研究,GPC 的基本建立過程:首先依托訓(xùn)練樣本,劃分分類級次;其次進行訓(xùn)練學(xué)習(xí),確定似然函數(shù),求解最優(yōu)參數(shù);而后基于高斯理論及貝葉斯規(guī)則,綜合先驗知識,調(diào)整預(yù)測分布;最終得到分類結(jié)果。
網(wǎng)格搜索是機器學(xué)習(xí)與深度學(xué)習(xí)領(lǐng)域重要的超參數(shù)優(yōu)化方法,但其在非關(guān)鍵參數(shù)維度消耗了大量的算力。RSO是一種設(shè)計更加便捷的參數(shù)搜索方法,其將原參數(shù)空間劃分為規(guī)則的網(wǎng)格,而后從中均勻且獨立地抽取,以生產(chǎn)新的參數(shù)訓(xùn)練集。RSO 具備GS 的所有優(yōu)勢(原理簡單、易于實現(xiàn)、并行性小),并以低維搜索空間中效率的小幅降低換取了高維搜索空間中效率的大幅提高。
對葉片原始光譜(OS)進行不同階次導(dǎo)數(shù)(D)處理,階次分為整數(shù)階與分數(shù)階,使用的整數(shù)階次為1~10,使用的分數(shù)階次為0.1~0.9、1.1~1.9。不同階次背景下生成的28 種導(dǎo)數(shù)光譜,在本研究中記作“vD”光譜,v表示D的階次。
分析28 種導(dǎo)數(shù)光譜及OS 與樣本Pb、Cu 污染種類的相關(guān)性,統(tǒng)計光譜各波段與樣本Pb、Cu污染種類相關(guān)系數(shù)絕對值(| |r)的均值(rmean)與最大值(rmax),以及rmax對應(yīng)的波長(br),見表2。從與樣本Pb、Cu 污染種類的rmean來看,分數(shù)階導(dǎo)數(shù)變換與整數(shù)階導(dǎo)數(shù)變換均達到了預(yù)期效果,相較于OS 凸顯了更有價值的信息,整體上增強了數(shù)據(jù)與研究目標的相關(guān)程度;從與樣本重金屬污染種類的rmax來看,分數(shù)階導(dǎo)數(shù)變換與整數(shù)階導(dǎo)數(shù)變換同樣均達到了預(yù)期效果,提取的最有價值信息相對于OS 更具潛力,增強了最優(yōu)數(shù)據(jù)與研究目標的相關(guān)程度,但隨著導(dǎo)數(shù)階次的增長,光譜對應(yīng)的rmax并未一直增加。
表2 不同類型光譜與樣本Pb、Cu污染種類的相關(guān)程度表Table 2 Correlation between multiple types of spectra and types of Pb and Cu pollution in samples
基于不同階次的導(dǎo)數(shù)光譜與對應(yīng)的br信息構(gòu)建DRSI,共得到28 類BS 不同的DRSI,同一BS 下,共有4 624 650種組成波段不同的DRSI,即生產(chǎn)了129 490 200種DRSI。分析每種DRSI 與樣本Pb、Cu 污染種類的相關(guān)性,以DRSI 中b1、b2 波長值為自變量,以對應(yīng)的|r|為因變量進行制圖,見圖4??梢?,相較于其他階次導(dǎo)數(shù)光譜,0.5~1.2D 光譜生產(chǎn)的DRSI 與樣本Pb、Cu 污染種類相關(guān)系數(shù)整體上更高,對污染種類的表征能力更強。
圖4 各DRSI與樣本Pb、Cu污染種類的相關(guān)性Figure 4 Correlation between each DRSI and the Pb and Cu pollution types in the sample
續(xù)圖4 各DRSI與樣本Pb、Cu污染種類的相關(guān)性Continued figure 4 Correlation between each DRSI and the Pb and Cu pollution types in the sample
為準確獲取能力最強的DRSI,統(tǒng)計多種DRSI 與樣本Pb、Cu 污染種類的 |r|,最大的10 個 |r|及對應(yīng)的DRSI 構(gòu)成參數(shù)見表3。對Pb、Cu 污染種類的表征效果而言,基于分數(shù)階導(dǎo)數(shù)光譜的DRSI 相較于基于整數(shù)階導(dǎo)數(shù)光譜的DRSI 更好,說明導(dǎo)數(shù)階次并非越高越好,階次的分數(shù)化在適當?shù)沫h(huán)境中能獲得更好的效果。
統(tǒng)籌分析表3中相關(guān)數(shù)據(jù),依據(jù)對研究目標表征能力的強弱,依兩種指數(shù)構(gòu)型下各指數(shù)對研究目標表征能力的強弱順序,逐個納為DFLCPTnD的構(gòu)成要素。
表3 優(yōu)勢DRSI的性能及構(gòu)成參數(shù)Table 3 Performance and composition parameters of advantageous DRSI
以DFLCPTnD數(shù)據(jù)為驅(qū)動,結(jié)合SVC、RFC、KNNC、GPC 理論分別構(gòu)建Pb、Cu 污染甄別模型。DFLCPTnD可細化為多種不同維度的特征數(shù)據(jù),也意味驅(qū)動甄別模型的數(shù)據(jù)維度可能是不同的。隨著DFLCPTnD維度的上升,其各要素中有益信息的占比存在升高或降低的可能,進而對甄別模型的性能產(chǎn)生影響。因此,分析不同維度DFLCPTnD數(shù)據(jù)驅(qū)動下的甄別模型性能是必要的,故分別選取多個維度的DFLCPTnD為驅(qū)動數(shù)據(jù),進行甄別模型構(gòu)建,其中選取的DFLCPTnD數(shù)據(jù)維度為DFLCPT1D、DFLCPT11D、DFLCPT21D、DFLCPT31D、DFL-CPT41D、DFLCPT51D、DFLCPT61D、DFLCPT71D、DFLCPT81D、DFLCPT91D。部分建模算法中的參數(shù)對性能影響較大,同時考慮驅(qū)動數(shù)據(jù)維度的影響,故利用RSO算法求取各模型參數(shù)的動態(tài)最優(yōu)解。
以訓(xùn)練集樣本對應(yīng)的數(shù)據(jù)為自變量,訓(xùn)練不同維度DFLCPTnD數(shù)據(jù)為驅(qū)動下的甄別模型,獲得模型在訓(xùn)練集中的正確率;而后結(jié)合驗證集數(shù)據(jù)進行檢驗,獲得模型在驗證集中的正確率。由表4可知,RFC模型效果最優(yōu)時,對應(yīng)的訓(xùn)練集與驗證集正確率均為100%,SVC模型效果最優(yōu)時,對應(yīng)的訓(xùn)練集、驗證集正確率均分別為89%、100%。GPC 模型效果最優(yōu)時,訓(xùn)練集和驗證集正確率分別為92%、100%;KNNC 模型效果最優(yōu)時,訓(xùn)練集和驗證集正確率為100%、90%或89%、100%。綜上所述,基于DFLCPTnD數(shù)據(jù)的RFC模型在Pb、Cu污染甄別中精度較好,且穩(wěn)定性較強。
表4 各判別模型在訓(xùn)練集和驗證集中的正確率Table 4 Correct rate of each discrimination model in the training set and verification set
(1)葉片光譜的分數(shù)階導(dǎo)數(shù)變換、整數(shù)階導(dǎo)數(shù)變換均增強了其與Pb、Cu污染種類的相關(guān)程度,但相關(guān)程度的峰值并未隨著階次的增長而增長。
(2)在構(gòu)建的DRSI 中,DRSI[2 412,1 223,636]0.9D 與樣本Pb、Cu 污染種類的|r|最大,為0.764 1;以分數(shù)階導(dǎo)數(shù)光譜為基準光譜的指數(shù)對Pb、Cu 污染種類的表征能力更強。
(3)基于DFLCPTnD的RFC 污染判別模型的效果優(yōu)于SVC、KNNC、GPC 模型,其在訓(xùn)練集與驗證集中取得的最高正確率均為100%,精度較好,穩(wěn)定性較強。