龍怡霖 蔡 騁
(西北農(nóng)林科技大學(xué)信息工程學(xué)院 陜西 楊凌 712100)
?
基于遙感的隨機(jī)森林農(nóng)田水肥等級分級算法
龍怡霖蔡騁*
(西北農(nóng)林科技大學(xué)信息工程學(xué)院陜西 楊凌 712100)
農(nóng)田水肥診斷對農(nóng)作物增產(chǎn)與維持生態(tài)平衡穩(wěn)定有重要意義。針對農(nóng)作物航空遙感圖像,提出用于農(nóng)田水肥等級分級的隨機(jī)森林分類模型,并討論隨機(jī)森林分類模型用于農(nóng)田水肥等級分級的適用性。提出的模型基于隨機(jī)森林分類器,通過對遙感圖像進(jìn)行特征提取與降維,將不同區(qū)域的遙感圖像特征和對應(yīng)的水、肥等級標(biāo)簽輸入隨機(jī)森林,訓(xùn)練分類模型,得到不同區(qū)域的分級結(jié)果。實驗結(jié)果表明,在植被覆蓋密度較高的區(qū)域中,隨機(jī)森林分類模型能夠為農(nóng)作物含水量分級提供較好的分級參考,具有一定的適用性。
遙感圖像特征提取主成分分析隨機(jī)森林
精確評估農(nóng)田肥水含量對增加農(nóng)作物產(chǎn)量與維持生態(tài)穩(wěn)定與平衡具有重要意義?,F(xiàn)階段農(nóng)作物產(chǎn)量增加主要基于大量施用化肥與改善灌溉條件實現(xiàn),我國農(nóng)作物的增產(chǎn), 30%~50% 依賴于化肥投入的增加,28% 依賴于灌溉[1,2]。日益短缺的水資源現(xiàn)狀要求在農(nóng)作物生產(chǎn)過程中進(jìn)行更加有效的作物水分管理,用以獲取較高產(chǎn)量和較高質(zhì)量的農(nóng)作物產(chǎn)品[3]。另一方面,化肥投入量的增加,帶來了農(nóng)作物產(chǎn)量的提升,但同時也造成了水體富營養(yǎng)化、土壤物理和化學(xué)屬性惡化、地下水污染等一系列生態(tài)問題,并對農(nóng)作物增產(chǎn)產(chǎn)生負(fù)反饋作用[4]。
農(nóng)作物產(chǎn)量與土壤水含量之間有密切關(guān)系,過多或過少的土壤含水量均能影響農(nóng)作物產(chǎn)量[5]。土壤肥含量對農(nóng)作物生產(chǎn)同樣起著關(guān)鍵作用,如在合適的水分條件下增加鉀肥和磷肥量能夠提升大豆的抗旱能力并增產(chǎn),而水分過多會對大豆生長產(chǎn)生負(fù)作用[6]。因此,需要對指定農(nóng)作物尋求適用的水肥等級分級模型,用以指導(dǎo)對作物灌水量和施肥量進(jìn)行合理地控制。
農(nóng)作物水肥含量的不同會導(dǎo)致葉片顏色、厚度以及形態(tài)結(jié)構(gòu)產(chǎn)生區(qū)別,進(jìn)而造成光譜反射特性的差異,基于光譜反射特性差異甄別物體的遙感技術(shù)使作物水肥含量的實時監(jiān)測和快速診斷成為可能[3]。近年來,利用快速發(fā)展的航空、航天定量遙感技術(shù)可以大面積、無破壞、快速地獲取農(nóng)作物生長信息,與傳統(tǒng)地農(nóng)作物水分營養(yǎng)快速診斷方法相比,具有更加快速、成本更低的優(yōu)點[7]。
通過農(nóng)田的遙感圖像可捕捉到農(nóng)作物的葉片光譜信息,進(jìn)而基于農(nóng)作物的葉片光譜信息可確定農(nóng)作物的水肥含量,從而對農(nóng)作物的生長狀況做出判斷。在已知農(nóng)作物生長狀況的情況下,可根據(jù)這些遙感圖像信息確定農(nóng)田的水肥等級。
在實際生產(chǎn)中,由于不同區(qū)域的氣候、土壤、作物與農(nóng)作管理存在較大空間差異,因而限制作物水肥診斷模型的適用范圍[4]。對某一較小范圍區(qū)域(如鄉(xiāng)鎮(zhèn))而言,應(yīng)探尋特定的基于遙感的水肥等級分類模型。
為了實現(xiàn)對楊凌農(nóng)業(yè)高新技術(shù)產(chǎn)業(yè)示范區(qū)轄區(qū)內(nèi)作物水肥含量的快速分級,為精準(zhǔn)灌溉與施肥提供參考,將隨機(jī)森林RF(Random Forest)算法與對應(yīng)區(qū)域內(nèi)航空遙感圖像結(jié)合,用于水肥等級分級作業(yè)中。通過對航空遙感圖像進(jìn)行特征提取與降維,將降維后的特征新信息作為隨機(jī)森林的輸入特征用于分級作業(yè)。實驗結(jié)果表明,在植被覆蓋密度較大的區(qū)域(JL, 巨良)內(nèi),隨機(jī)森林算法與多光譜遙感圖像相結(jié)合,能夠為作物含水量等級分級提供良好的分級效果。
1.1遙感圖像介紹
遙感圖像由楊凌農(nóng)業(yè)高新技術(shù)產(chǎn)業(yè)示范區(qū)提供,于2014年6月在楊凌示范區(qū)轄區(qū)內(nèi)的巨良、揉谷、杏林以及果業(yè)示范田使用 Tetracam ADC3 多光譜數(shù)碼相機(jī)航拍及后處理得到,收集到紅、綠和近紅外三個波段的數(shù)據(jù),通過正射投影與拼接處理,得到最終的整體遙感圖像[8]。圖1為果業(yè)示范田多光譜遙感圖像。
圖1 果業(yè)示范田多光譜遙感圖像
在圖1中,果業(yè)示范田多光譜遙感圖像分別率為3000×900像素,遙感圖像區(qū)域?qū)嶋H面積約為1200 m×360 m,根據(jù)遙感圖像與圖像區(qū)域?qū)嶋H面積之間的對應(yīng)關(guān)系,圖像區(qū)域被劃分為150×45個8 m×8 m的子區(qū)域,對應(yīng)于遙感圖像上20×20像素大小的塊。由專家標(biāo)記出每個子區(qū)域的含水量等級(澇、水量過多、水量適宜、缺水、嚴(yán)重缺水)和肥力等級(肥過量、適宜、缺肥)。
1.2特征提取與降維
在分級作業(yè)中,使用遙感圖像的RGB三通道的像素值特征作為分級算法的輸入特征。根據(jù)1.1節(jié)對遙感圖像及其對應(yīng)區(qū)域關(guān)系的介紹,將遙感圖像劃分為20×20像素的子塊,對每一個子塊進(jìn)行RGB三通道特征提取及規(guī)范化操作,每個子塊可得到1200維RGB三通道特征。圖2為圖1的子塊劃分對應(yīng)圖像。
圖2 圖1的對應(yīng)分塊圖像
RGB三通道特征提取后每個樣本( 像素的圖像塊)得到1200維特征,這1200維特征對隨機(jī)森林分類器而言,仍然偏高,會導(dǎo)致分類器訓(xùn)練速度慢,訓(xùn)練時間過長。為提高分離器訓(xùn)練速度和消除噪聲,需要對原始特征進(jìn)行降維預(yù)處理。使用主成分分析法(PCA)進(jìn)行降維[9]。使用主成分分析法對樣本的原始特征矩陣進(jìn)行特征值分解,得到原始特征矩陣的能量分布。以果業(yè)示范田遙感圖像子塊的特征矩陣為例,原始特征的能量分布與累積能量分布如圖3所示。
圖3 果業(yè)示范田遙感圖像子塊特征矩陣能量分布
從圖3中可以看出,85%的能量集中在前50個特征維度中,在實驗中,使用主成分分析法將特征維度從原始的1200維降至200維。
在實驗中,將由巨良、揉谷、杏林以及果業(yè)示范田的多光譜遙感圖像進(jìn)行分塊處理產(chǎn)生的像素大小的圖像塊作為樣本,對應(yīng)地由專家標(biāo)記出每個圖像塊的含水量等級(澇、水量過多、水量適宜、缺水、嚴(yán)重缺水)和肥力等級(肥過量、適宜、缺肥)作為標(biāo)簽。對樣本進(jìn)行特征提取與降維后的特征作為分級模型的輸入特征,樣本的含水量等級和肥力等級作為分級模型的輸入類別,分別訓(xùn)練含水量等級分級模型和肥力等級分級模型。
針對水肥等級分級作業(yè),設(shè)計隨機(jī)森林分級模型,用于水肥等級分級。
隨機(jī)森林RF是多棵決策樹的集合,基于統(tǒng)計學(xué)習(xí)理論應(yīng)用于分類、回歸等方面[10]。針對分類作業(yè),隨機(jī)森林通過隨機(jī)選擇特征子集和樣本子集,訓(xùn)練每一棵決策樹,并將每一棵決策樹用于測試樣本的預(yù)測,得到每一棵樹對測試樣本的類別分布的概率模型,然后組合森林中所有決策樹對測試樣本類別分布的概率模型,得到最終的類別分布概率輸出,判定具有最大概率的類別為測試樣本的輸出類別。隨機(jī)森林用于分類時,有兩個階段,即訓(xùn)練階段和測試階段,通過“離線”的訓(xùn)練,得到隨機(jī)森林模型,再將模型應(yīng)用在測試數(shù)據(jù)上,即“在線”的測試,得到待測樣本的類別歸屬。
隨機(jī)森林用于水肥等級分級時,主要有以下參數(shù)。
(1) 每棵樹的最大深度D。最大深度D的取值對森林的分類性能有著明顯影響,D取值過小時,容易產(chǎn)生低度擬合,分類準(zhǔn)確率會降低;D取值過大時,容易產(chǎn)生過擬合,分類準(zhǔn)確率也會降低[11]。
(2) 森林的隨機(jī)度ρ及其類型。兩種常見的隨機(jī)度類型為:
裝袋[12,13]。森林中每一棵樹使用不同的子集來訓(xùn)練,這些子集從訓(xùn)練數(shù)據(jù)集中隨機(jī)抽樣得到。裝袋方法可以避免過擬合并且能夠提高森林的泛化性能,但使用裝袋方法訓(xùn)練得到的森林中每棵樹沒有使用到全部的訓(xùn)練樣本,會忽略掉一些有用的信息。
隨機(jī)結(jié)點最優(yōu)化RNO(Randomized Node Optimization)[14,15]。使用隨機(jī)結(jié)點最優(yōu)化方法訓(xùn)練的森林中,每棵樹都基于全部的訓(xùn)練樣本構(gòu)造,在建樹過程中沒有對訓(xùn)練樣本的抽樣操作。在建樹過程中,每棵樹的內(nèi)部結(jié)點隨機(jī)選擇ρ個特征和離散閾值對Γj={(i1,τρ)},其中j表示單棵決策樹中的第j個結(jié)點(內(nèi)部結(jié)點),特征il從全部的d維特征空間中一致抽樣得到,即(il≠im,?1≤l (3) 森林中樹的總數(shù),即森林的規(guī)模T。森林的規(guī)模T越大,分類準(zhǔn)確率越高[16,17]。T的選擇僅僅取決于計算開銷,即時空復(fù)雜度。 (4) 分裂函數(shù)的選擇。分裂函數(shù)在訓(xùn)練和測試過程中起關(guān)鍵作用。分裂函數(shù)的參數(shù)定義為: 1.1 高溫發(fā)酵消毒:在夏季高溫的6~8月間,起出舊床土或其它育苗用土,與圈糞或秸棵、草皮、雜草、粉碎的植物秸稈等,分層堆積,每層厚度約16厘米,堆底直徑3~5米,高度2米左右,呈饅頭型,外面用鍬拍實后抹一層泥,上面留一個口,從口處倒入大糞稀或淘米水使堆內(nèi)充分濕潤,用泥封口,蓋上塑料,底邊壓嚴(yán),進(jìn)行高溫發(fā)酵。此法簡便易行,不但能殺死床土中的病原菌,還能殺死蟲卵和草籽,而且肥沃、疏松。封凍前過篩備用。 θ=(φ,ψ,τ) (1) 其中φ=φ(v)為特征選擇函數(shù),從全部的特征向量v中選出當(dāng)前結(jié)點計算所使用特征;ψ定義了分裂數(shù)據(jù)所使用的幾何模型,如坐標(biāo)對齊的超平面、傾斜超平面和普通表面等;τ包含了二值輸出的不等式測試中所使用的閾值。分裂函數(shù)類型主要有線性和非線性兩種[14,18]。線性數(shù)據(jù)劃分的分裂函數(shù)定義為: h(v,θ)=[τ1>φ(v)·ψ>τ2] (2) 其中[·]為示性函數(shù),例如,在二維特征空間中,可選擇φ(v)=(x1,x2,1)T,ψ∈3為同輪坐標(biāo)系中的線性劃分,如圖4和圖5所示,令ψ=(1,0,ψ3)或ψ=(0,1,ψ3),即可得到基于坐標(biāo)對齊的線性數(shù)據(jù)劃分分裂函數(shù)。 非線性數(shù)據(jù)劃分的分裂函數(shù)通過使用高自由度表面替換特征超平面得到,如在二維特征空間中,可使用圓錐曲線實現(xiàn)非線性的數(shù)據(jù)劃分,其分裂函數(shù)定義為: h(v,θ)=[τ1>φT(v)ψφ(v)>τ2] (3) 其中ψ∈3×3表示同輪坐標(biāo)系中的圓錐曲面,如圖6所示。 圖4 基于坐標(biāo)對齊的線性數(shù)據(jù)劃分分裂函數(shù)示例 圖5 基于一般線性數(shù)據(jù)劃分分裂函數(shù)示例 圖6 基于圓錐曲線非線性劃分的分裂函數(shù)示例 (5) 訓(xùn)練目標(biāo)函數(shù)的選擇。訓(xùn)練過程中目標(biāo)函數(shù)的選擇對森林的性能有著重要影響,決定著每棵樹的預(yù)測與評估準(zhǔn)則。熵和信息增益的概念,構(gòu)建出基本的目標(biāo)函數(shù)模型。 將信息論和信息增益應(yīng)用于樹中分裂結(jié)點的目標(biāo)函數(shù),可得到以下常用的三種目標(biāo)函數(shù)。 使用信息增益作為目標(biāo)函數(shù),定義為: (4) 其中S為分裂結(jié)點的屬性數(shù)據(jù)集,將S分為左、右兩個子集,即SL和SR,H為信息熵,|·|表示數(shù)據(jù)集中的樣本總數(shù)。針對類別標(biāo)簽為離散值的分類問題,即在離散概率分布下,H(S)定義為Shannon信息熵,即: H(S)=-∑c∈Cp(c)log(p(c)) (5) 使用信息增益率作為目標(biāo)函數(shù),定義為: (6) 其中S、H(S)定義與式(4)中定義相同,v為當(dāng)前分裂屬性的取值,V為當(dāng)前分裂屬性的所有可能取值的集合,p(v)表示集合S中的樣本的當(dāng)前分裂屬性取值為v的概率。信息增益率目標(biāo)函數(shù)選擇具有最大信息增益率的屬性作為分裂屬性。 使用基尼指標(biāo)度量作為目標(biāo)函數(shù)?;嶂笜?biāo)度量數(shù)據(jù)劃分的不純凈度,定義為: (7) 其中S定義與式(4)中定義相同,G(S)定義為: G(S)=1-∑c∈C(p(c))2 (8) 其中c、C、p(c)的定義與式(5) 中定義相同。基尼指標(biāo)目標(biāo)選擇函數(shù)選擇具有最大不純凈度的屬性作為分裂屬性。 (6) 森林中每棵樹對測試樣本預(yù)測結(jié)果的組合。隨機(jī)森林作為多棵決策樹的集合,其預(yù)測結(jié)果由森林中所有決策樹的預(yù)測結(jié)果組合決定,組合策略有兩種方式: 平均全部決策樹的預(yù)測結(jié)果,即: (9) 其中T為森林的規(guī)模,pt(c|v)表示第t棵樹對測試樣本v的后驗概率[13]。森林的最終預(yù)測結(jié)果為p(c|v)的最大取值所對應(yīng)的類別,即{c|max(pt(c|v)),?t∈(1,…,T)}。 將全部決策樹的預(yù)測結(jié)果相乘,即: (10) 其中劃分函數(shù)Z用以保證概率分布的歸一化,與式(9)類似,森林的最終預(yù)測結(jié)果為p(c|v)的最大取值所對應(yīng)的類別。 實驗中,將20×20像素大小遙感圖像塊的樣本特征集及其對應(yīng)的等級標(biāo)簽隨機(jī)分為訓(xùn)練集和測試集,訓(xùn)練集和測試集的樣本比例為8∶2,并通過訓(xùn)練集和測試集的多次劃分進(jìn)行十輪交叉驗證。以下實驗結(jié)果數(shù)據(jù)取十輪交叉驗證的均值。 隨機(jī)森林模型的訓(xùn)練過程中,使用基于坐標(biāo)對齊的分裂函數(shù),使用信息增益率作為目標(biāo)函數(shù),每棵樹的最大深度為4,森林規(guī)模為2000。 表1為含水量等級分級準(zhǔn)確率,并將文獻(xiàn)[8]的實驗結(jié)果作為對比。 表1 含水量等級分級準(zhǔn)確率 表2為肥力等級分級準(zhǔn)確率。 表2 肥力等級分級準(zhǔn)確率 由表1及表2可以看出,使用隨機(jī)森林進(jìn)行含水量等級分級時,在巨良示范田遙感圖像中取得了最好的分級準(zhǔn)確率(83.67%),具有一定的實際參考意義;而在其他區(qū)域的分級準(zhǔn)確率不夠理想。使用隨機(jī)森林進(jìn)行肥力等級分級時,在果業(yè)示范田遙感圖像中取得了最好的分級準(zhǔn)確率(68.98%),但分級效果仍不理想。同時,在實驗中發(fā)現(xiàn),十輪交叉驗證下果業(yè)示范田遙感圖像的分級準(zhǔn)確率的方差較大(15.7397),即分級準(zhǔn)確率波動較大,結(jié)果不穩(wěn)定。通過對比四個區(qū)域的遙感圖像發(fā)現(xiàn),植被覆蓋密度能夠影響到實驗結(jié)果,與果業(yè)示范田(主要作物為果樹,果樹之間有較大間隙,這些間隙對應(yīng)到遙感圖像上,會造成大面積的無效數(shù)據(jù),即噪聲)相比,巨良示范田的植被覆蓋密度較大(作物為玉米,作物間的間隙相對較小,產(chǎn)生的噪聲較小),因而取得了較好的分級準(zhǔn)確率。 將隨機(jī)森林算法用于基于遙感圖像的水肥等級分級作業(yè)中,通過對遙感圖像進(jìn)行分塊與特征提取及降維,使用對應(yīng)的專家鑒別信息作為特征標(biāo)簽,討論隨機(jī)森林算法用于基于遙感圖像的水肥等級分級作業(yè)的適用性。實驗結(jié)果表明,在植被覆蓋密度較高的區(qū)域中,隨機(jī)森林算法能夠?qū)ψ魑锖康燃夁M(jìn)行較為有效的分類,具有一定適用性。 在后續(xù)工作中,會討論更加有效的特征提取,以降低作物間較大間隙等類型噪聲對分級性能的影響。 [1] Jin J. Strenthening research and technology transfer to improve fertilizer use in China[C]//Proceedings of the IFA Regional conference for Asia and the Pacific. Hong Kong,1998:21. [2] Xie J C, Xing W Y, Zhou J M. Current use of, and requirement for, nutrients for sustainable food production in China[C]//Nutrient management for sustainable crop prodcution in Asia. Wallingford,1998:267-277. [3] 薛利紅, 羅衛(wèi)紅, 曹衛(wèi)星,等.作物水分和氮素光譜診斷研究進(jìn)展 [J].遙感學(xué)報,2003,7(1):73-80. [4] 陳健. 基于遙感和作物模型的冬小麥水肥生產(chǎn)力及產(chǎn)量差研究[D]. 北京: 中國農(nóng)業(yè)大學(xué), 2007. [5] 馬強, 宇萬太, 沈善敏,等. 下遼河平原水肥交互作用及對玉米產(chǎn)量的影響 [J].農(nóng)業(yè)工程學(xué)報,2007,23(4):29-33. [6] 馬強, 宇萬太, 周樺,等.不同水肥條件對大豆產(chǎn)量的影響 [J].土壤通報,2009,40(6):1311-1315. [7] 王之杰. 冬小麥冠層氮素分布與品質(zhì)遙感的研究[D]. 北京: 中國農(nóng)業(yè)大學(xué), 2004. [8] 張弘煬, 蔡騁, 李書琴. 基于遙感的PCA-KNN農(nóng)田蓄水等級分類算法[C]//第17屆全國圖像圖形學(xué)學(xué)術(shù)會議. 珠海, 北京交通大學(xué)出版社,2014:616-620. [9] Pearson K. On lines and planes of closest fit to systems of points in space[J].Philosophical Magazine,1901,2(6):559-572. [10] Criminisi A, Shotton J. Decision Forests for Computer Vision and Medical Image Analysis[M].London, U.K.:Springer,2013:10-23. [11] Shotton J, Fitzgibbon A,Cook M, et al. Real-time human pose recognition in parts from single depth images[C]//IEEE conference on computer vision and pattern recognition (CVPR). Providence,2011:1297-1304. [12] Breiman L. Bagging predictors[J].Machine Learning, 1996, 24(2):123-140. [13] Breiman L. Random Forests[J].Machine Learning, 2001,45(1):5-32. [14] Lin Y, Jeon Y. Random Forests and Adaptive Nearest Neighbors[J].Journal of the American Statistical Association, 2006, 101(474):578-590. [15] Ho T. The random subspace method for constructing decision forests[J].IEEE transactions on pattern analysis and machine intelligence (TPAMI), 1998, 20(8):832-844. [16] Shotton J, Johnson M, Cipolla R. Semantic texton forests for image categorization and segmentation[C]//IEEE conference on computer vision and pattern recognition (CVPR). Anchorage,2008:1-8. [17] Pei Y, Criminisi A, Winn J, et al. Tree-based Classifiers for Bilayer Video Segmentation[C]//IEEE conference on computer vision and pattern recognition (CVPR) Minneapolis,2007:1-8. [18] Yao B, Khosla A, Li F F. Combining randomization and discrimination for fine-grained image categorization[C]//IEEE conference on computer vision and pattern recognition (CVPR) Providence,2011:1577-1584. REMOTE SENSING-BASED FARMLAND WATER CONTENT AND FERTILITY GRADING ALGORITHM VIA RANDOM FOREST Long YilinCai Cheng* (CollegeofInformationEngineering,NorthwestA&FUniversity,Yangling712100,Shaanxi,China) Diagnosis of water content and fertility of farmland has great significance on increasing crop yield and maintaining ecological balance. We propose a random forest classification model for grading the water content and fertility of farmland aiming at the aviation remote sensing image of crops, and discuss the applicability of the model in such grading. The proposed model is based on random forest classifier, by carrying out feature extraction and dimension reduction on remote sensing images, it inputs the features of remote sensing images in different regions and the corresponding water content and fertility grading labels into random forest, trains the classification model, and derives grading results for different regions. Experimental results show that in those regions with higher density of vegetation coverage, random forest classification model can offer quite good grading reference for crops water content grading, and has certain applicability. Remote sensing imageFeature extractionPrincipal component analysisRandom forest 2015-03-13。國家自然科學(xué)基金項目(61202188)。龍怡霖,碩士生,主研領(lǐng)域:機(jī)器視覺與模式識別。蔡騁,副教授。 TP391.4 A 10.3969/j.issn.1000-386x.2016.08.0583 實驗結(jié)果與分析
4 結(jié) 語