史 楊, 王儒敬*, 汪玉冰
(1. 中國科學(xué)院 合肥智能機(jī)械研究所, 安徽 合肥 230031;2. 中國科學(xué)技術(shù)大學(xué) 自動化系, 安徽 合肥 230027)
土壤養(yǎng)分含量分析對農(nóng)業(yè)生產(chǎn)、研究非常重要,是研究土壤肥力分布、精準(zhǔn)施肥、農(nóng)田資源管理等的基礎(chǔ)。盡管傳統(tǒng)實(shí)驗(yàn)室檢測方法精度很高,但局限于時(shí)間成本和經(jīng)濟(jì)成本,在生產(chǎn)研究中的應(yīng)用難以大規(guī)模開展。近紅外光譜分析技術(shù)出現(xiàn)后,由于其非接觸式信息獲取、檢測成本低廉的特性,應(yīng)用前景廣闊,因此能否利用該技術(shù)對土壤養(yǎng)分進(jìn)行快速檢測吸引了大量研究人員的關(guān)注[1-2]。盡管利用土壤近紅外光譜在預(yù)測精度上不及實(shí)驗(yàn)室方法直接檢測,但是當(dāng)檢測樣本的數(shù)量巨大時(shí)(如土壤制圖),近紅外光譜是一種低成本的、有效的信息來源[3]。利用近紅外光譜技術(shù)對土壤各種信息進(jìn)行間接獲取的研究工作正在大量開展,已嘗試應(yīng)用在土壤質(zhì)地分類[4]、含水量預(yù)測[5-6]、氮素含量預(yù)測[7-9]、有機(jī)質(zhì)含量預(yù)測[10]等方面。
近紅外光譜儀器獲得土壤樣品光譜曲線,目的是獲得土壤信息,因此近紅外光譜分析是一種間接獲取信息的手段,需要通過化學(xué)計(jì)量學(xué)建立光譜與實(shí)驗(yàn)室測試土壤信息之間的校正模型,再將模型應(yīng)用在未知土壤樣本信息的預(yù)測中,校正模型如何建立直接影響預(yù)測的準(zhǔn)確性[11]。在利用近紅外光譜對土壤成分進(jìn)行定量分析時(shí),常采用多元線性回歸(MLR)、主成分回歸(PCR)、偏最小二乘回歸(PLSR)等線性回歸方法。光譜數(shù)據(jù)通常維度較高,不同波長的變量之間多重相關(guān),因此在進(jìn)行光譜分析時(shí),基于PCR、PLSR等的模型使用線性變換對高維度光譜數(shù)據(jù)進(jìn)行降維。近年來,研究人員開始嘗試將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用到光譜分析建模中,以提升預(yù)測效果。Nawar等[12-13]使用支持向量回歸(SVR)、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)、梯度提升機(jī)等算法對土壤中的有機(jī)質(zhì)、黏土和總碳含量進(jìn)行預(yù)測,比常用的線性回歸方法表現(xiàn)更優(yōu)秀。紀(jì)文君等[14]發(fā)現(xiàn),在使用全譜數(shù)據(jù)進(jìn)行挖掘來預(yù)測有機(jī)質(zhì)含量時(shí),先利用PLSR提取出若干主成分,再將其作為多層神經(jīng)網(wǎng)絡(luò)的輸入進(jìn)行建模,可以獲得較好的預(yù)測精度。在較大面積的土壤成分預(yù)測應(yīng)用中,由于土壤差異性較大,而線性模型表示能力有限,因此采用局部建模方法或者考慮模型容量更大的非線性模型。局部建模方法的思路是從大規(guī)模的光譜數(shù)據(jù)庫中根據(jù)定義的光譜距離量度,選出距離相近的樣本,僅利用這些相近的樣本進(jìn)行建模預(yù)測,是一種基于內(nèi)存的和基于模型的混合方法。陳頌超等[15]使用局部加權(quán)回歸算法成功預(yù)測了五個(gè)省范圍的土壤全氮含量。自動編碼器模型是基于神經(jīng)網(wǎng)絡(luò)的非線性模型,以重建輸入為目標(biāo),訓(xùn)練后的網(wǎng)絡(luò)可以獲得高維數(shù)據(jù)的非線性特征表示,降低了輸入數(shù)據(jù)的維度,可作為后續(xù)分類、回歸模型的輸入[16]。
本文提出了一種新的改進(jìn)自動編碼器算法,將傳統(tǒng)的用于重建輸出的自動編碼器與分類器相結(jié)合,即構(gòu)建一個(gè)多輸出的神經(jīng)網(wǎng)絡(luò)模型,同時(shí)獲得輸入光譜的非線性特征表示和非線性分類器的分類結(jié)果,并將其應(yīng)用在土壤近紅外光譜預(yù)測有機(jī)質(zhì)含量等級問題中。實(shí)驗(yàn)證明,利用改進(jìn)自動編碼器模型預(yù)測土壤有機(jī)質(zhì)含量等級比其他分類方法的準(zhǔn)確率更高。
自動編碼器模型屬于神經(jīng)網(wǎng)絡(luò)模型,可以認(rèn)為是前饋神經(jīng)網(wǎng)絡(luò)的一個(gè)特殊形式。自動編碼器由編碼器和解碼器兩部分組成。輸入向量X,通過編碼器fencoder(·)產(chǎn)生編碼表示R,編碼表示R再通過解碼器fdecoder(·)產(chǎn)生輸入向量X的重建Xrec,如下式所示:
R=fencoder(X),
(1)
Xrec=fdecoder(R),
(2)
其中編碼器fencoder(·)和解碼器fdecoder(·)常采用多層神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。自動編碼器的訓(xùn)練過程就是不斷更新編碼器和解碼器的神經(jīng)網(wǎng)絡(luò)模型參數(shù),以最小化重建Xrec與輸入向量X之間的差異。如果編碼表示R的維度小于輸入向量X的維度,則該編碼器為欠完備自動編碼器。訓(xùn)練欠完備自動編碼器時(shí),自動編碼器會捕捉訓(xùn)練數(shù)據(jù)中的顯著特征,這種特性常被用于數(shù)據(jù)降維或特征提取[17]。如果編碼器和解碼器均為非線性函數(shù),訓(xùn)練得到的編碼表示R即是原始輸入信號X的非線性特征表示,可用于后續(xù)分類或回歸模型的輸入。
在使用多層神經(jīng)網(wǎng)絡(luò)作為自動編碼器中編碼器和解碼器的實(shí)現(xiàn)對真實(shí)土壤樣本光譜信號進(jìn)行特征提取時(shí),由于實(shí)現(xiàn)編碼器和解碼器的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的模型容量較大,得到的非線性特征盡管能很好地重建輸入信號,但是在后續(xù)的預(yù)測土壤有機(jī)質(zhì)等級時(shí),往往效果較差。在對輸入光譜進(jìn)行降維或特征表示時(shí),傳統(tǒng)的自動編碼器與PCA算法類似,僅考慮輸入光譜X的特征。PLSR算法對輸入光譜X進(jìn)行分解時(shí),考慮了預(yù)測輸出Y的分布,通常預(yù)測效果更好。受該思路啟發(fā),本文提出一種新的改進(jìn)自動編碼器模型,將重建輸入信號的自動編碼器訓(xùn)練過程與預(yù)測土壤有機(jī)質(zhì)分類的分類器訓(xùn)練過程結(jié)合起來。
圖1為改進(jìn)自動編碼器的結(jié)構(gòu)示意圖,其中虛線框內(nèi)為傳統(tǒng)的自動編碼器。傳統(tǒng)的自動編碼器與預(yù)測分類器結(jié)合起來,形成一個(gè)單輸入多輸出的神經(jīng)網(wǎng)絡(luò)模型。訓(xùn)練改進(jìn)自動編碼器時(shí)得到的原始輸入的特征表示R,既能使用解碼器很好地重建原始輸入,又能準(zhǔn)確地預(yù)測土壤有機(jī)質(zhì)含量的級別。
圖1 改進(jìn)自動編碼器結(jié)構(gòu)
反向傳播算法建立在梯度下降法的基礎(chǔ)上,常用來對多層前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。反向傳播算法由正向傳播過程和反向傳播過程兩部分組成。在改進(jìn)自動編碼器模型訓(xùn)練的正向傳播過程中,輸入樣本經(jīng)過編碼器得到特征向量,然后分別通過解碼器、分類器分別得到輸入樣本光譜曲線的重建輸出和有機(jī)質(zhì)含量級別分類的預(yù)測輸出。將輸出與監(jiān)督信息進(jìn)行比對后,進(jìn)行神經(jīng)網(wǎng)絡(luò)損失函數(shù)的計(jì)算,計(jì)算的損失將作為反向傳播過程修改神經(jīng)網(wǎng)絡(luò)各層參數(shù)的依據(jù)。
對于改進(jìn)自動編碼器中解碼器的樣本重建輸出,其監(jiān)督信號為輸入信號,采用下式計(jì)算均方損失:
(3)
其中W和b分別為神經(jīng)網(wǎng)絡(luò)的權(quán)值和偏置,N為樣本數(shù)。
對于改進(jìn)自動編碼器中分類器的土壤有機(jī)質(zhì)含量分類預(yù)測輸出,其監(jiān)督信號為有機(jī)質(zhì)含量分類的標(biāo)注信息,由于采用softmax層作為多分類問題的輸出層,采用損失函數(shù)如下:
(4)
對于改進(jìn)自動編碼器整個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來說,由于兩種輸出損失量綱上的差異,采用的損失函數(shù)為兩者的加權(quán)和,即
J(W,b)=Jrec(W,b)+η·Jp(W,b),
(5)
反向傳播過程中,由輸出層到輸入層逐層計(jì)算損失函數(shù)對各層權(quán)值、偏置的偏導(dǎo)數(shù),更新神經(jīng)網(wǎng)絡(luò)模型中的對應(yīng)參數(shù)數(shù)值。改進(jìn)自動編碼器參數(shù)訓(xùn)練時(shí),將建模集中的樣本反復(fù)循環(huán)迭代,神經(jīng)網(wǎng)絡(luò)參數(shù)不斷依此修改,根據(jù)神經(jīng)網(wǎng)絡(luò)在建模集上的效果以及驗(yàn)證集上的效果綜合評估性能變化,確定訓(xùn)練是否完成。
對于多分類問題的評估,常采用混淆矩陣、準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)等指標(biāo)進(jìn)行綜合評估。混淆矩陣是評估樣本的真實(shí)分類和模型預(yù)測類別的匯總,準(zhǔn)確率是所有分類正確的樣本占所有樣本的比例。對于具體某一類別,精確率表示正確分為此類的樣本數(shù)與預(yù)測分為此類的樣本數(shù)之比,召回率表示正確分為此類的樣本數(shù)占應(yīng)分為此類的樣本數(shù)之比,F(xiàn)1分?jǐn)?shù)為前兩者的調(diào)和均值;對于多分類問題,精確率、召回率和F1分?jǐn)?shù)為各分類對應(yīng)評價(jià)的加權(quán)平均數(shù),權(quán)值為預(yù)測為該類別的樣本數(shù),此時(shí)準(zhǔn)確率與召回率的數(shù)值是一致的。
實(shí)驗(yàn)采用的數(shù)據(jù)集來自LUCAS土壤數(shù)據(jù)集。LUCAS土壤數(shù)據(jù)集包含2008—2012年歐盟開展歐洲土地利用及覆蓋統(tǒng)計(jì)調(diào)查(European Land Use/Cover Area frame Statistical Survey,LUCAS)期間收集的大量土壤樣本,其采樣點(diǎn)遍及歐洲23個(gè)國家[18-19]。LUCAS數(shù)據(jù)集中的所有采樣點(diǎn)使用了一致的樣本收集方法,土壤樣本的理化特性分析由ISO認(rèn)證的實(shí)驗(yàn)室完成。
LUCAS數(shù)據(jù)集中包含礦質(zhì)土樣共17 272個(gè)。土壤樣本的有機(jī)碳含量依據(jù)ISO 10694-1995干燒方法進(jìn)行測量,數(shù)據(jù)集中有機(jī)碳含量基本信息統(tǒng)計(jì)見表1。土壤樣本經(jīng)風(fēng)干、過篩處理后,消除了土壤水分、質(zhì)地、結(jié)構(gòu)及緊實(shí)度等因素對光譜的影響[5],最后使用FOSS XDS近紅外光譜分析儀進(jìn)行光譜測量,波長范圍為400~2 500 nm,光譜數(shù)據(jù)間隔為0.5 nm。
表1 LUCAS土壤數(shù)據(jù)集基本信息
土壤中的有機(jī)質(zhì)含量使用土壤中的有機(jī)碳比例乘以系數(shù)1.724進(jìn)行換算[1],并依據(jù)中國第二次土壤普查養(yǎng)分分級標(biāo)準(zhǔn)進(jìn)行分類,分類后樣本分布見表2。
表2 LUCAS數(shù)據(jù)集的有機(jī)質(zhì)含量分級
為了對所建立模型的評估具有說服力,從數(shù)據(jù)集包含的17 272個(gè)土壤樣本中隨機(jī)選擇15 000個(gè)樣本作為建模集,再從剩余的樣本里選擇1 000個(gè)樣本作為驗(yàn)證集,最后剩余的1 272個(gè)樣本作為最終評價(jià)建模性能的測試集。建模集、驗(yàn)證集、測試集中的土壤樣本獨(dú)立不交叉。
圖2是將土壤樣本按照有機(jī)質(zhì)含量等級進(jìn)行分類后,對每一個(gè)類別中所有土壤樣本的光譜計(jì)算平均,得到了不同有機(jī)質(zhì)含量級別的光譜平均曲線。從圖2中可以看出,不同有機(jī)質(zhì)含量等級的光譜均在1 400,1 900,2 200 nm左右有明顯的峰值,整體光譜曲線趨勢一致;有機(jī)質(zhì)含量級別越高的土壤樣本的平均光譜在整個(gè)可見光近紅外波段吸光度都高于有機(jī)質(zhì)含量級別較低的類別。
由于有機(jī)質(zhì)含量在20 g/kg以下區(qū)間是以10 g/kg、6 g/kg為分界分成了四級到六級,這3個(gè)類別的光譜平均曲線比較接近。
圖2 不同有機(jī)質(zhì)含量等級的土壤平均光譜曲線
改進(jìn)自動編碼器中的編碼器、解碼器和分類器可以通過不同的模型實(shí)現(xiàn),在基于土壤近紅外光譜的有機(jī)質(zhì)含量等級分類應(yīng)用中,編碼器、解碼器、分類器均通過多層前饋神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。調(diào)節(jié)神經(jīng)網(wǎng)絡(luò)模型層數(shù)及各層的屬性(如全連接層、卷積層等)可以控制模型容量、特征種類。實(shí)驗(yàn)中,編碼器、解碼器和分類器均采用兩個(gè)全連接層實(shí)現(xiàn)(圖3),3個(gè)部分各層的神經(jīng)元數(shù)目和激活函數(shù),根據(jù)多次嘗試后確定。表3為最終實(shí)現(xiàn)的改進(jìn)自動編碼器中各層神經(jīng)網(wǎng)絡(luò)的神經(jīng)元數(shù)目和激活函數(shù)的組合。
由于近紅外光譜原始數(shù)據(jù)的維度很高,而光譜數(shù)據(jù)中存在較強(qiáng)的共線性,因此在輸入模型前,將原始的4 200維光譜依據(jù)波長等間隔采樣為525維的數(shù)據(jù)作為模型的輸入,大大減少了神經(jīng)網(wǎng)絡(luò)中需要訓(xùn)練參數(shù)的數(shù)量。
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)算法中常使用雙曲正切函數(shù)或Sigmoid函數(shù)作為神經(jīng)元的激活函數(shù),然而應(yīng)用在較深層網(wǎng)絡(luò)時(shí),常發(fā)生神經(jīng)元飽和、梯度擴(kuò)散的問題。采用修正線性單元(Rectified linear unit,ReLU)能有效避免梯度擴(kuò)散問題,并具有加快網(wǎng)絡(luò)訓(xùn)練的效果[20-22],因此在改進(jìn)自動編碼器的實(shí)現(xiàn)中,E2、E3、D2、C2層均采用了ReLU作為神經(jīng)元激活函數(shù)??紤]到D3層的輸出為光譜信號的重建,考慮其取值范圍,采用線性單元作為激活函數(shù);C3層輸出為土壤有機(jī)質(zhì)含量等級的類別,采用輸出6類的Softmax函數(shù)作為激活函數(shù)。
圖3 改進(jìn)自動編碼器的編碼器、解碼器、分類器的實(shí)現(xiàn)。
表3 改進(jìn)自動編碼器各層超參數(shù)和激活函數(shù)
從圖1、圖3和表3可以看出,525維的光譜信號通過編碼器,首先維數(shù)降低到200維,然后被表示為40維的特征向量;特征向量通過與編碼器近似對稱的解碼器重建為525維的光譜信號;另外,特征向量通過兩層神經(jīng)網(wǎng)絡(luò)分類器分成了六類,即土壤有機(jī)質(zhì)含量等級的分類。
訓(xùn)練改進(jìn)自動編碼器模型前,將LUCAS數(shù)據(jù)集中的所有樣本的光譜信息統(tǒng)一進(jìn)行歸一化處理,并根據(jù)樣本的有機(jī)質(zhì)含量參照表2劃分為6個(gè)級別。訓(xùn)練模型時(shí),將建模集中土壤樣本光譜作為編碼器的輸入信號和解碼器的監(jiān)督信號,將土壤樣本有機(jī)質(zhì)含量類別作為分類器的監(jiān)督信號。改進(jìn)自動編碼器中的參數(shù)使用隨機(jī)梯度下降法進(jìn)行更新。訓(xùn)練完成后,將建模集、驗(yàn)證集、測試集中土壤樣本光譜輸入模型,預(yù)測對應(yīng)樣本的有機(jī)質(zhì)含量等級?;诟倪M(jìn)自動編碼器的土壤有機(jī)質(zhì)含量分類結(jié)果匯總見表4、表5。
表4 基于改進(jìn)自動編碼器的土壤有機(jī)質(zhì)等級分類結(jié)果
表5 基于改進(jìn)自動編碼器的土壤有機(jī)質(zhì)等級分類在測試集上的混淆矩陣
如表4所示,利用改進(jìn)自動編碼器模型對土壤有機(jī)質(zhì)含量進(jìn)行預(yù)測分類在建模集上的準(zhǔn)確率為85.84%,而在測試集上的準(zhǔn)確率為63.05%,與驗(yàn)證集上的準(zhǔn)確率59.80%比較接近。盡管模型在建模集上存在一定的過擬合現(xiàn)象,但模型總體泛化能力良好。實(shí)驗(yàn)結(jié)果表明,在利用土壤樣本的近紅外光譜預(yù)測有機(jī)質(zhì)含量分級問題中,使用覆蓋歐洲23國的、包含多種土壤的大尺度土壤數(shù)據(jù)集對提出的改進(jìn)自動編碼器進(jìn)行訓(xùn)練,訓(xùn)練好的模型預(yù)測土壤有機(jī)質(zhì)含量級別的準(zhǔn)確率達(dá)到63.05%;利用近紅外光譜間接獲取大尺度范圍的土壤有機(jī)質(zhì)含量信息具有可行性。
表5為利用改進(jìn)自動編碼器模型對土壤有機(jī)質(zhì)含量進(jìn)行預(yù)測分類在測試集上的混淆矩陣,其中,對角線上的數(shù)值為正確分類的樣本個(gè)數(shù)。測試集一共包含1 272個(gè)土壤樣本,其中一級到六級正確分類的樣本數(shù)和級別總樣本數(shù)占比分別為420/497,78/192,140/287,150/251,9/33,5/12。由混淆矩陣可以計(jì)算得出,在測試集中,一級土壤的分類精確率和召回率最高,分別為83.83%和84.51%;四級土壤的分類精確率最低,僅為37.50%; 五級土壤的分類召回率最低,僅為27.27%。
利用改進(jìn)自動編碼器模型對土壤光譜曲線進(jìn)行重建的結(jié)果見圖4。其中,圖片第一列為隨機(jī)從LUCAS數(shù)據(jù)集中選取的兩個(gè)樣本的光譜曲線;圖片第二列為對應(yīng)樣本經(jīng)過編碼器、解碼器后重建的光譜曲線。由圖4中樣本光譜曲線的對比觀察可以得出,重建得到的光譜曲線與原始曲線基本一致,保留了原始曲線的峰谷特征及數(shù)值特征。使用改進(jìn)自動編碼器可以有效地將525維原始光譜信息僅使用40維的特征向量進(jìn)行表示,并能很好地保留原始光譜中的信息。
圖4 基于改進(jìn)自動編碼器的土壤光譜曲線重建結(jié)果
為了更客觀地了解改進(jìn)自動編碼器在土壤有機(jī)質(zhì)含量等級預(yù)測的效果,本文還實(shí)現(xiàn)了常用于土壤成分預(yù)測建模的支持向量機(jī)模型、主成分回歸模型,并在LUCAS土壤數(shù)據(jù)集上進(jìn)行有機(jī)質(zhì)含量等級的預(yù)測實(shí)驗(yàn),模型的訓(xùn)練采用完全一致的建模集劃分,結(jié)果評價(jià)在完全一致的測試集上進(jìn)行。其中,支持向量機(jī)模型包括分類模型和回歸模型兩種,實(shí)驗(yàn)結(jié)果中用SVM、SVR-C表示;主成分回歸模型實(shí)驗(yàn)結(jié)果中用PCR-C表示。需要說明的是,SVR-C、PCR-C在建模時(shí)使用原始有機(jī)質(zhì)含量數(shù)值作為監(jiān)督輸入,分別訓(xùn)練基于SVR、PCR的回歸模型,再將回歸模型預(yù)測的數(shù)值使用表2的有機(jī)質(zhì)含量分級方法判定為各類別。SVM、SVR-C、PCR-C模型與提出的改進(jìn)自動編碼器算法性能對比見表6。
表6 不同建模方法分類結(jié)果對比
如表6所示,利用改進(jìn)自動編碼器模型對土壤有機(jī)質(zhì)含量進(jìn)行預(yù)測分類在測試集上的效果最好,準(zhǔn)確率、精確率、F1分?jǐn)?shù)分別為63.05%、62.98%和62.99%,3項(xiàng)指標(biāo)均優(yōu)于其他3種模型;SVM和SVR-C方法性能比較接近,準(zhǔn)確率分別為56.37%和55.82%,而SVM模型的精確率稍低于SVR-C模型;PCR-C模型準(zhǔn)確率最低,為51.65%。實(shí)驗(yàn)表明,在大尺度土壤數(shù)據(jù)集中,通過近紅外光譜預(yù)測有機(jī)質(zhì)含量級別,使用提出的改進(jìn)自動編碼器模型可以獲得比常用的主成分回歸模型、支持向量機(jī)模型更高的準(zhǔn)確率。
利用近紅外光譜預(yù)測有機(jī)質(zhì)含量等級是一種間接方法,本文中的預(yù)測模型訓(xùn)練采用歐洲23國范圍的土壤樣本,因此,該模型可用于同樣范圍的真實(shí)土壤樣本預(yù)測。模型使用時(shí),應(yīng)當(dāng)盡量保證待測樣本與訓(xùn)練樣本采用同樣的土壤采集方法、土壤預(yù)處理方法及光譜測量方法,并按同樣的波長間隔進(jìn)行采樣后輸入模型進(jìn)行有機(jī)質(zhì)含量等級的預(yù)測。
本文研究了利用近紅外光譜預(yù)測大尺度下土壤有機(jī)質(zhì)含量等級的分類問題,提出一種改進(jìn)自動編碼器模型,將傳統(tǒng)的用于重建輸出的自動編碼器與分類器相結(jié)合,并對改進(jìn)自動編碼器中的損失函數(shù)進(jìn)行定義。然后利用樣本覆蓋歐洲23國、土壤差異性較大的LUCAS數(shù)據(jù)集對改進(jìn)自動編碼器模型進(jìn)行訓(xùn)練。最后,將改進(jìn)自動編碼器模型的預(yù)測性能與主成分回歸、支持向量機(jī)等方法的效果進(jìn)行對比。實(shí)驗(yàn)結(jié)果證明:利用近紅外光譜間接獲取土壤有機(jī)質(zhì)含量信息具有可行性;在大尺度的土壤數(shù)據(jù)集中,基于本文提出的改進(jìn)自動編碼器模型的分類準(zhǔn)確率達(dá)到63.05%,比常用的主成分回歸、支持向量機(jī)等模型預(yù)測性能更好,基本滿足了間接獲取土壤有機(jī)質(zhì)含量等級分類的要求。