馬瑋鍵,邢澤炳,韓春風(fēng),桑梓繁,尚愷霖,李宇航
(山西農(nóng)業(yè)大學(xué) 農(nóng)業(yè)工程學(xué)院,山西 太谷 030801)
氮素在作物生長(zhǎng)發(fā)育過(guò)程中發(fā)揮著重要的作用,而作物所吸收的氮素主要來(lái)源于土壤[1]。氮素作為土壤養(yǎng)分的重要組成成分,其土壤中的氮含量水平影響著作物生長(zhǎng)發(fā)育,氮含量過(guò)少會(huì)引起作物植株矮小,葉片枯黃等問(wèn)題,過(guò)多又會(huì)引起作物植株抗逆性差、環(huán)境污染等問(wèn)題,分析測(cè)定土壤中的氮含量對(duì)于了解土壤氮素供給水平和指導(dǎo)施肥具有重要意義[2-9]。目前,傳統(tǒng)的測(cè)量土壤氮含量方法如凱氏定氮法和堿解擴(kuò)散法,普遍存在測(cè)量時(shí)間長(zhǎng)、操作復(fù)雜等問(wèn)題,無(wú)法快速大規(guī)模測(cè)定土壤氮含量,難以滿足精確農(nóng)業(yè)的需求。近年來(lái),基于近紅外光譜技術(shù)(Near Infrared,NIR)的分析方法因其快速、無(wú)損的優(yōu)勢(shì)在食品檢測(cè)、藥物檢測(cè)、土壤養(yǎng)分檢測(cè)等領(lǐng)域被廣泛應(yīng)用[10-14]。近紅外波段的光譜特征往往與官能團(tuán)對(duì)紅外光的選擇性吸收有關(guān)(如O-H、N-H、C-H 結(jié)合的化學(xué)鍵對(duì)紅外光的吸收波長(zhǎng)和強(qiáng)度不同),所以,可以利用NIR 測(cè)定土壤中的水分、氮、有機(jī)質(zhì)等參數(shù)[15]。
多年來(lái),許多專家學(xué)者利用NIR 在檢測(cè)土壤氮含量方面做了大量研究。郭志新等[16]利用NIR 建立了林地土壤養(yǎng)分的預(yù)測(cè)模型,達(dá)到了良好的預(yù)測(cè)效果,為林地土壤肥力檢測(cè)提供了新的方法。彭海根等[17]利用NIR 結(jié)合競(jìng)爭(zhēng)自適應(yīng)重加權(quán)采樣(CARS)變量選擇算法,建立了昆明地區(qū)土壤水解氮的預(yù)測(cè)模型,有效預(yù)測(cè)了昆明地區(qū)土壤的水解氮含量。劉燕德等[18]利用NIR 檢測(cè)贛南臍橙果園土壤全氮和有機(jī)質(zhì),建立了全氮和有機(jī)質(zhì)預(yù)測(cè)模型。綜上所述,許多專家學(xué)者利用NIR 對(duì)不同類型土壤氮含量進(jìn)行檢測(cè),但對(duì)于山西玉米地土壤的近紅外檢測(cè)研究較少。
土壤的光譜特征是土壤內(nèi)在理化性質(zhì)的綜合反映,土壤的粒度、水分等因素都會(huì)對(duì)土壤的近紅外光譜特征造成影響,不同地區(qū)、不同類型的土壤光譜特征也不同[19]。玉米是山西主要種植作物之一,在我國(guó)糧食生產(chǎn)中具有重要作用。山西多為旱地,玉米作為耐旱作物主要種植在平原臺(tái)地、漫崗地和河谷階地,海拔30~1150 m,年降水量170~800 mm,土壤類型多為白漿土、褐土等,山西玉米地土壤因地理位置和氣候等因素使其不同于其他地區(qū)[20]。
本試驗(yàn)以山西玉米地土壤為研究對(duì)象,探究利用可見(jiàn)近紅外光譜建立土壤氮含量的預(yù)測(cè)模型,并利用不同的預(yù)處理和建模方法優(yōu)化預(yù)測(cè)模型,旨在為利用可見(jiàn)近紅外光譜對(duì)土壤養(yǎng)分分析提供理論依據(jù)。
試驗(yàn)使用FieldSpec3 光譜儀采集土壤光譜數(shù)據(jù),該光譜儀由美國(guó)ASD(Analytical Spectral Devices)公司生產(chǎn),光譜測(cè)量范圍為350~2500 nm,數(shù)據(jù)間隔為1 nm,波長(zhǎng)精度為±1 nm,波長(zhǎng)重復(fù)性為±0.02 nm,光譜分辨率在350~1000 nm 波段為3 nm,在1000~2500 nm 波段為10 nm。土壤氮含量由中國(guó)力辰科技(LICHEN)公司的全自動(dòng)凱氏定氮儀測(cè)量。
試驗(yàn)土壤來(lái)自山西農(nóng)業(yè)大學(xué)太谷區(qū)玉米試驗(yàn)田,土壤類型為褐土。試驗(yàn)田按8 kg/m2的用量均勻施用有機(jī)肥,經(jīng)過(guò)一季玉米生長(zhǎng)后,采集土壤樣本。采樣深度為0~20 cm,采用梅花法用土鉆采集5 點(diǎn)的混合樣本,挑去其中的樹(shù)葉和小石塊,自然風(fēng)干后研磨成粉末,過(guò)0.42 mm 的篩子,最終得到土壤樣本120 個(gè)。將每份樣本一分為二,一份用于采集光譜數(shù)據(jù),一份用于測(cè)量土壤全氮含量。試驗(yàn)所測(cè)土壤全氮含量如表1 所示,其中,校正集和預(yù)測(cè)集采用光譜-理化值共生距離(Sample set partitioning based on joint x-y distances,SPXY)算法[21]按2∶1 的比例劃分得到。
表1 土壤全氮實(shí)測(cè)統(tǒng)計(jì)Tab.1 Statistical table of actual measurement of soil total nitrogen
光譜數(shù)據(jù)由光譜儀采用漫反射的形式采集,數(shù)據(jù)采集前,關(guān)閉日光燈,打開(kāi)近紅外光源預(yù)熱20 min,這樣可以確保光源的穩(wěn)定。土壤樣本均勻放置于直徑80 mm 的黑色尼龍樣品盒中。光譜儀采集器置于樣品盒斜上方15 cm 處,光照入射角和采集器角度均為45°。對(duì)每個(gè)樣本采集3 次數(shù)據(jù),取平均值作為土壤樣本的標(biāo)準(zhǔn)光譜數(shù)據(jù),以減小噪聲和樣品顆粒大小所引起的散射等因素對(duì)光譜數(shù)據(jù)的影響,使光譜數(shù)據(jù)更有代表性。
1.4.1 數(shù)據(jù)處理軟件 光譜數(shù)據(jù)平均及轉(zhuǎn)換采用ViewSpecPro 數(shù)據(jù)處理軟件來(lái)完成。光譜預(yù)處理及建模由挪威CAMO 公司的Unscrambler v 10.4 軟件來(lái)完成。樣本集劃分采用SPXY 算法在MATLAB軟件中完成。數(shù)據(jù)圖由Origin 繪圖軟件繪制。
1.4.2 模型驗(yàn)證與評(píng)價(jià) 預(yù)測(cè)模型由決定系數(shù)(Determination coefficient,R2)、預(yù)測(cè)均方根誤差(Root mean square error of prediction,RMSEP)和校正均方根誤差(Root mean square error of calibration,RMSEC)來(lái)評(píng)價(jià)。R2越接近1,RMSE 越小,模型的擬合效果越好;當(dāng)R2>0.80 時(shí),就認(rèn)為模型是成功的(Moderately successful);當(dāng)R2>0.90 時(shí),模型為優(yōu)秀(successful)。
試驗(yàn)采集的土壤近紅外光譜數(shù)據(jù)不僅有土壤的光譜特征,還包含有大量的無(wú)關(guān)信息和噪聲,比如樣品背景和雜散光等因素都有可能對(duì)建模分析產(chǎn)生影響,所以,需要利用光譜預(yù)處理方法提高光譜的信噪比。為獲得更好的建模效果,本研究選擇可以消除光譜數(shù)據(jù)中隨機(jī)噪聲的平滑處理(Smoothing)、可以消除樣品顆粒大小和樣品表面散射影響的標(biāo)準(zhǔn)狀態(tài)變換(SNV)、可以提高光譜數(shù)據(jù)穩(wěn)定性和減小偏差的基線校正(Baseline)、可以消除數(shù)據(jù)偏移的去趨勢(shì)處理(Detrend)、可以歸納統(tǒng)一光譜數(shù)據(jù)統(tǒng)計(jì)分布性的歸一化(Normalize)和可以消除光譜散射效應(yīng)和顆粒分布不均勻影響的多元散射矯正(MSC)6 種光譜預(yù)處理方法對(duì)原始光譜數(shù)據(jù)進(jìn)行處理。
不同的建模方法由于原理不同,也會(huì)對(duì)模型精度產(chǎn)生影響。本研究采用可以在自變量存在嚴(yán)重多重相關(guān)性的條件下進(jìn)行回歸建模及更易于辨識(shí)系統(tǒng)信息與噪聲的偏最小二乘法(Partial least square,PLS)、可以有效地解決數(shù)據(jù)分析中高維特征回歸問(wèn)題的支持向量機(jī)(Support vector machine,SVM)和可以降低維數(shù)和解決多重共線性問(wèn)題的主成分回歸(Principal Component regression,PCR)3 種建模方法建立土壤氮含量預(yù)測(cè)模型。
將試驗(yàn)所采集的土壤近紅外漫反射光譜數(shù)據(jù)經(jīng)過(guò)平均和轉(zhuǎn)換成吸收光譜數(shù)據(jù)后,得到土壤近紅外光譜圖(圖1),因?yàn)樵?50~500、2300~2500 nm波段內(nèi)的噪聲較大,所以,本研究采用500~2300 nm波段內(nèi)的光譜數(shù)據(jù)。從圖1 可以看出,不同土壤樣本的光譜波形大致相同,在相近的位置都有比較明顯的吸收峰,波峰或波谷出現(xiàn)在1200、1450、1830、1940 nm 等位置。
圖1 土壤近紅外光譜Fig.1 Near-infrared spectroscopy of soil
經(jīng)過(guò)光譜預(yù)處理可有效消除噪聲,圖2 為經(jīng)過(guò)標(biāo)準(zhǔn)狀態(tài)變換(SNV)預(yù)處理后的光譜圖。由圖2可知,經(jīng)過(guò)處理后光譜數(shù)據(jù)的光譜特征更加明顯,噪聲的影響也大大減少,不同土壤樣本的光譜信息差別更容易被解析提取。
圖2 經(jīng)SNV 處理后的光譜Fig.2 The spectroscopy after SNV treatment
2.2.1 PLS 模型預(yù)測(cè)效果 利用原始光譜數(shù)據(jù)及6種預(yù)處理方法結(jié)合PLS建立Original-PLS、Baseline-PLS、Smoothing-PLS、SNV-PLS、Detrend-PLS、Normalize-PLS、MSC-PLS 等7 種土壤氮含量預(yù)測(cè)模型。相關(guān)模型結(jié)果如表2 所示,7 種模型校正集Rc2均大于0.8,可以認(rèn)為模型是成功的,其中Original-PLS、Baseline-PLS 和Smoothing-PLS 模型的預(yù)測(cè)集預(yù)測(cè)效果優(yōu)于其他模型,其均大于0.9,可以認(rèn)為模型的預(yù)測(cè)效果優(yōu)秀。由于試驗(yàn)樣本經(jīng)過(guò)充分過(guò)篩,顆粒大小均勻,且光譜采集時(shí)背景干擾小,儀器性能穩(wěn)定,所以,Original-PLS 與Smoothing-PLS 模型的預(yù)測(cè)效果優(yōu)于其他模型,Rp 2達(dá)到0.907,RMSEP 為0.086。因?yàn)镾moothing 預(yù)處理可以消除光譜數(shù)據(jù)中的隨機(jī)噪聲,所以,選擇Smoothing-PLS 為最佳模型。
表2 土壤光譜預(yù)處理后PLS 建模結(jié)果Tab.2 Modeling results of PLS after soil spectroscopy pre-processing
2.2.2 SVM 模型預(yù)測(cè)效果 土壤光譜預(yù)處理后SVM 建模結(jié)果如表3 所示。
表3 土壤光譜預(yù)處理后SVM 建模結(jié)果Tab.3 Modeling results of SVM after soil spectroscopy pre-processing
SVM 由于不包括主成分降維處理,所以,需要先利用主成分分析(Principal component analysis,PCA)進(jìn)行降維處理。經(jīng)過(guò)降維處理后,前4 個(gè)主成分累計(jì)貢獻(xiàn)率達(dá)到86.23%,包含了原始光譜數(shù)據(jù)的大部分特征信息,選擇這4 個(gè)主成分作為新的輸入變量,用80 份校正集樣本建立Original-SVM、Baseline-SVM、 Smoothing-SVM、 SNV-SVM、Detrend-SVM、Normalize-SVM、MSC-SVM 等7 種預(yù)測(cè)模型,之后利用剩余40 份預(yù)測(cè)集樣本對(duì)所建立的SVM 預(yù)測(cè)模型的精度和預(yù)測(cè)效果進(jìn)行驗(yàn)證。由表3 可知,7 種模型校正集Rc2均大于0.8,所構(gòu)建的模型是成功的,用預(yù)測(cè)集數(shù)據(jù)驗(yàn)證模型預(yù)測(cè)效果后,最佳的預(yù)測(cè)模型為基于Baseline 的SVM 模型,此模型Rp 2達(dá)到0.858,RMSEP 為0.120。與PLS 預(yù)測(cè)模型對(duì)比發(fā)現(xiàn),SVM 模型沒(méi)有達(dá)到理想的預(yù)測(cè)效果,其預(yù)測(cè)效果均弱于PLS 模型的預(yù)測(cè)效果。
2.2.3 PCR 模型預(yù)測(cè)效果 最后利用PCR 建模方法建立Original-PCR、Baseline-PCR、Smoothing-PCR、SNV-PCR、Detrend-PCR、Normalize-PCR、MSC-PCR等7種土壤氮含量預(yù)測(cè)模型。相關(guān)模型結(jié)果如表4 所示,PCR 模型的建模效果與PLS 模型相近,7 種模型校正集Rc2均大于0.8,可以認(rèn)為所建模型成功,用預(yù)測(cè)集驗(yàn)證預(yù)測(cè)模型精度及預(yù)測(cè)效果,其預(yù)測(cè)效果也與PLS 模型相近,分析對(duì)比7 種模型的預(yù)測(cè)效果,發(fā)現(xiàn)最佳的預(yù)測(cè)模型為基于Baseline的PCR 模型,此模型Rp2達(dá)到0.906,RMSEP為0.087。
表4 土壤光譜預(yù)處理后PCR 建模結(jié)果Tab.4 Modeling results of PCR after soil spectroscopy pre-processing
在原始數(shù)據(jù)和6 種預(yù)處理方法的基礎(chǔ)上,使用3 種建模方法建立的最佳模型為Smoothing-PLS、Baseline-SVM 和Baseline-PCR,3 種建模方法的預(yù)測(cè)模型Rc2均大于0.8,都可以有效預(yù)測(cè)土壤全氮含量,用驗(yàn)證集驗(yàn)證預(yù)測(cè)效果,Baseline-SVM 預(yù)測(cè)模型為0.850,預(yù)測(cè)效果弱于Smoothing-PLS 和Baseline-PCR 預(yù)測(cè)模型,Smoothing-PLS 和Baseline-PCR 預(yù)測(cè)模型Rp 2均大于0.9,模型精度達(dá)到了優(yōu)秀水平,其中,基于Smoothing 的PLS 預(yù)測(cè)模型效果更好,Rp2為0.907,RMSEP 為0.086,故Smoothing-PLS 為21 種模型中的最佳模型。圖3 和圖4 為80 個(gè)校正集和40 個(gè)預(yù)測(cè)集經(jīng)Smoothing 預(yù)處理后用PLS 建模的預(yù)測(cè)值和實(shí)測(cè)值的回歸圖,由圖可知,樣本點(diǎn)集中于回歸線附近,預(yù)測(cè)值和實(shí)測(cè)值很接近,達(dá)到了良好的擬合效果。
圖3 土壤全氮校正模型預(yù)測(cè)值與實(shí)測(cè)值關(guān)系Fig.3 Relation between prediction value of soil total nitrogen correction model and measured value
圖4 土壤全氮預(yù)測(cè)模型預(yù)測(cè)值與實(shí)測(cè)值關(guān)系Fig.4 Relation between prediction value of soil total nitrogen prediction model and measured value
對(duì)模型的穩(wěn)定性進(jìn)行分析,PLS、SVM 和PCR等3 種建模方法所建立的最佳模型Rc2分別為0.869、0.898、0.862,對(duì)應(yīng)的Rp 2分別為0.907、0.858、0.906,由此可知,3 種模型擬合效果較好,且校正結(jié)果與預(yù)測(cè)結(jié)果接近,模型不存在過(guò)擬合和欠擬合現(xiàn)象;其中,PLS 模型與PCR 模型效果類似,但PLS模型效果稍好,因?yàn)镻LS 模型是在PCR 模型的基礎(chǔ)上發(fā)展而來(lái),但PLS 建模方法更易于辨識(shí)系統(tǒng)信息與噪聲[22],綜合比較,Smoothing-PLS 模型最優(yōu)。張娟娟等[23]研究發(fā)現(xiàn),對(duì)于土壤鮮樣,基于Smoothing的PLS 預(yù)測(cè)模型效果最佳;對(duì)于土壤干樣,基于Smoothing+Normalize+MSC 的PLS 預(yù)測(cè)模型效果最佳,這與本研究結(jié)果類似,但在預(yù)處理方法選擇上有所不同。
土壤的光譜特征受多種因素的影響,不同地區(qū)不同類型的土壤光譜特征不同,所以,利用NIR 建立的預(yù)測(cè)模型往往也不能直接遷移,光譜模型的泛用性問(wèn)題一直都是NIR 應(yīng)用研究領(lǐng)域的難點(diǎn)[19]。針對(duì)這一問(wèn)題,近年來(lái)一些專家學(xué)者也做了一些研究,周鵬等[24]研究了不同土壤粒度對(duì)基于近紅外離散波長(zhǎng)土壤全氮預(yù)測(cè)精度影響,提出了土壤粒度修正法來(lái)解決土壤粒度的干擾,顯著減小了土壤粒度的影響。鄭文瑞等[25]利用遷移成分分析(TCA)提高了模型在另一地區(qū)使用時(shí)的精度,為速效磷光譜模型的廣泛應(yīng)用提供了新思路。關(guān)于光譜模型泛用性問(wèn)題的研究總體上還研究較少,即便是山西玉米地土壤,就有褐土、白漿土、潮土等類型,在光譜特征上也存在差異[20]。本研究土壤類型僅為褐土,未能全面反映山西土壤類型,模型泛用性不強(qiáng),將來(lái)通過(guò)加大不同地區(qū)不同類型的土壤樣本數(shù)量,共同建立預(yù)測(cè)模型可能會(huì)減小干擾因素和提高泛用性,今后應(yīng)進(jìn)一步研究。
本研究利用可見(jiàn)近紅外光譜檢測(cè)北方玉米地的土壤全氮含量,在原始數(shù)據(jù)的基礎(chǔ)上,結(jié)合6 種預(yù)處理方法和3 種建模方法建立了21 種預(yù)測(cè)模型,最后選出Smoothing-PLS 預(yù)測(cè)模型為最佳模型,利用模型對(duì)未知土壤全氮含量進(jìn)行預(yù)測(cè),模型預(yù)測(cè)效果良好,說(shuō)明利用可見(jiàn)近紅外光譜對(duì)土壤氮含量進(jìn)行預(yù)測(cè)是可行的。該模型可有效預(yù)測(cè)山西玉米地土壤全氮含量,為利用可見(jiàn)近紅外光譜對(duì)土壤養(yǎng)分分析提供參考。