李 楊, 李翠玲, 王 秀, 范鵬飛, 李余康, 翟長遠(yuǎn), 3*
1. 江蘇大學(xué)農(nóng)業(yè)工程學(xué)院, 江蘇 鎮(zhèn)江 212013 2. 北京市農(nóng)林科學(xué)院智能裝備技術(shù)研究中心, 北京 100097 3. 國家農(nóng)業(yè)智能裝備工程技術(shù)研究中心, 北京 100097
黃瓜是我國重要農(nóng)業(yè)經(jīng)濟(jì)作物, 市場需求量大, 經(jīng)濟(jì)效益高, 在全國各地均有種植[1]。 黃瓜生長過程中病蟲害較多且傳染速度快, 如果不及時正確防治, 會造成嚴(yán)重經(jīng)濟(jì)損失。 霜霉病是溫室黃瓜生產(chǎn)中最嚴(yán)重的流行性病害之一, 可以使黃瓜葉片在短期內(nèi)迅速枯干, 然后全株枯死, 導(dǎo)致黃瓜質(zhì)量和產(chǎn)量大大降低[2]。 斑潛蠅是黃瓜上危害最嚴(yán)重的害蟲之一, 成蟲會刺傷葉片吸取汁液并在葉片中產(chǎn)卵, 孵化出的幼蟲取食葉片和葉柄, 造成葉片水分散失和葉綠素受損, 使黃瓜嚴(yán)重減產(chǎn)[3]。 傳統(tǒng)黃瓜生產(chǎn)過程中, 病蟲害識別主要依賴于人工識別, 通過種植人員和專業(yè)人員的經(jīng)驗來判斷病蟲害種類。 這種方式主觀性強(qiáng), 易混淆病情, 可能導(dǎo)致防治不及時和錯誤用藥。 因此, 準(zhǔn)確識別病蟲害對黃瓜生產(chǎn)和環(huán)境安全有著重要意義。
高光譜成像技術(shù)能同時獲得作物的圖像信息和光譜信息, 目前已廣泛用于作物病蟲害檢測的研究。 Susic等[4]利用高光譜成像對番茄植株的線蟲侵害和水分缺水脅迫進(jìn)行了早期檢測, 采用偏最小二乘判別分析(PLS-DA)和偏最小二乘支持向量機(jī)(PLS-SVM)分類方法, 最終得到PLS-SVM模型對水分充足植株和缺水植株識別準(zhǔn)確率達(dá)到100%, 對線蟲侵害的植株識別準(zhǔn)確率達(dá)到90%以上。 Li等[5]針對黃瓜炭疽病和褐斑病的識別問題, 提出一種基于擴(kuò)展協(xié)同表示(ECR)的分類模型, 對黃瓜無癥狀葉片、 炭疽病葉片、 褐斑病葉片的識別準(zhǔn)確率高于94%。 白雪冰[6]等針對黃瓜白粉病的識別問題, 提出一種基于可見光譜圖像聯(lián)合區(qū)間的偏最小二乘回歸判別模型(SI-PLSR), 校正集和驗證集的相關(guān)系數(shù)分別達(dá)到0.975 2和0.919 5, 實現(xiàn)了白粉病的快速無損檢測。 秦立峰等[7]針對黃瓜霜霉病早期檢測問題, 采集不同感染天數(shù)的黃瓜葉片高光譜圖像, 提出了Dis-CARS-SPA-LSSVM模型, 對染病早期的黃瓜葉片識別率達(dá)到95%以上。 謝傳奇等[8]使用格拉姆斯密特(MGS)模型和貝葉斯羅蒂斯克回歸(BlogReg)提取特征波段, 建立最小二乘-支持向量機(jī)(LS-SVM)和線性判別分析(LDA)模型, 對健康番茄葉片和早疫病番茄葉片識別率達(dá)到96%以上。 上述研究表明高光譜成像用于作物病蟲害識別已取得較好的效果, 但目前針對黃瓜病蟲害一體化識別的研究較少, 同時, 利用高光譜成像識別黃瓜斑潛蠅蟲害的研究還鮮有報道。
以黃瓜葉片霜霉病和斑潛蠅蟲害為研究對象, 通過無癥狀葉片、 霜霉病葉片和斑潛蠅蟲害葉片的高光譜圖像, 研究識別黃瓜病蟲害的方法, 探究黃瓜病蟲害識別的特征波長。 利用直接正交信號校正、 多元散射校正、 移動窗口平均平滑三種方法對原始光譜數(shù)據(jù)進(jìn)行預(yù)處理, 采用空間迭代收縮法、 競爭性自適應(yīng)重加權(quán)算法、 迭代保留信息變量法、 隨機(jī)蛙跳算法對預(yù)處理后的光譜數(shù)據(jù)進(jìn)行特征波長提取, 然后使用連續(xù)投影算法分別對特征波長光譜數(shù)據(jù)進(jìn)行二次降維, 分別對全波段光譜數(shù)據(jù)、 一次降維光譜數(shù)據(jù)、 二次降維光譜數(shù)據(jù)進(jìn)行支持向量機(jī)、 Elman神經(jīng)網(wǎng)絡(luò)、 隨機(jī)森林建模, 以期為開發(fā)實用性強(qiáng)、 成本低的黃瓜病蟲害識別設(shè)備提供科學(xué)基礎(chǔ)。
樣品來自國家精準(zhǔn)農(nóng)業(yè)研究基地溫室, 品種為春秋綠8號, 黃瓜植株在自然狀態(tài)下感染霜霉病和斑潛蠅。 采集60片無癥狀葉片, 58片霜霉病葉片, 60片斑潛蠅蟲害葉片, 存放于恒溫箱, 快速運(yùn)回實驗室進(jìn)行高光譜圖像采集。
高光譜成像系統(tǒng)如圖1(a)所示, 主要由計算機(jī)、 高光譜相機(jī)、 光源等組成。 高光譜相機(jī)采用美國SOC公司的SOC710Enhanced, 波長范圍為400~1 000 nm, 光譜分辨率為2.3 nm, 光譜波段數(shù)為260。 相機(jī)內(nèi)置推掃裝置。 光源為兩個135W的鹵素?zé)簟?/p>
圖1 高光譜成像系統(tǒng)
高光譜圖像采集時的物距為45 cm, 光圈為f/5.6, 曝光時間為35 ms, 采集的圖像大小為696×696。 采集后將高光譜圖像原始數(shù)據(jù)的像元亮度值(digital number, DN)轉(zhuǎn)化成光譜反射率供后續(xù)處理。 圖2為三類黃瓜葉片RGB顯示下的高光譜圖像, 圖2(a)為無癥狀葉片、 圖2(b)為霜霉病葉片、 圖2(c)為斑潛蠅蟲害葉片。
圖2(a) 無癥狀葉片
使用ENVI5.1對高光譜圖像進(jìn)行數(shù)據(jù)提取后將數(shù)據(jù)導(dǎo)入float文件, 顯示464、 513和660 nm三個波段圖像合成的RGB圖像, 如圖3所示, 根據(jù)病斑區(qū)域大小選擇若干個10×10的感興趣區(qū)域(region of interest, ROI), 提取每個ROI的平均反射率數(shù)據(jù)作為葉片的原始光譜數(shù)據(jù), 共提取2 656組數(shù)據(jù)。 由于光譜曲線的兩邊緣區(qū)噪聲較大, 故去除保留450~850 nm的159個波段作為有效光譜范圍, 圖4為所有葉片原始光譜曲線圖, 圖5為三類葉片的平均光譜曲線, 由圖5可知三類葉片的平均光譜曲線整體走勢相似, 由于葉綠素對藍(lán)紫光和紅光吸收能力強(qiáng), 對綠光吸收能力弱, 光譜曲線在450nm處反射率最低, 在550 nm處形成波峰, 在680 nm處形成波谷。 曲線在680~750 nm反射率急劇上升, 在750~850 nm具有較高的反射率。 病蟲害葉片在400~700 nm波段反射率高于無癥狀葉片, 在720~850 nm波段反射率低于無癥狀葉片, 分析原因是病蟲害導(dǎo)致葉片葉綠素和細(xì)胞結(jié)構(gòu)受損。 由于斑潛蠅侵害葉片后會留下白色蟲道, 所以斑潛蠅葉片在400~700 nm波段反射率更高。
圖3 ENVI中葉片ROI提取
圖4 樣本原始光譜曲線
圖5 三類葉片平均光譜曲線
高光譜圖像采集過程中, 受高光譜相機(jī)性能和測量環(huán)境的影響, 光譜信號會受到雜散光、 噪聲、 基線漂移等因素的干擾。 為了消除干擾, 建立穩(wěn)定、 可靠的模型, 需要對光譜數(shù)據(jù)進(jìn)行預(yù)處理。 利用直接正交信號校正(direct orthogonal signal correction, DOSC)、 多元散射校正(multiplicative scatter correction, MSC)、 移動窗口平均平滑(moving average, MA)3種方法對光譜數(shù)據(jù)進(jìn)行預(yù)處理。
高光譜圖像的光譜數(shù)據(jù)量大, 存在冗余信息, 會增加判別模型的計算量, 降低模型的計算效率和精度[9], 所以需要對光譜數(shù)據(jù)進(jìn)行降維處理, 提取其中和樣品類型相關(guān)性強(qiáng)的波長數(shù)據(jù)。 采用空間迭代收縮法(variable iterative space shrinkage approach, VISSA)、 競爭性自適應(yīng)重加權(quán)算法(competitive adaptive reweight sampling method, CARS)、 迭代保留信息變量法(iteratively retains informative variables, IRIV)、 隨機(jī)蛙跳算法(shuffled frog leaping algorithm, SFLA)進(jìn)行特征波長提取, 使用連續(xù)投影算法(successive projections algorithm, SPA)對特征波長光譜數(shù)據(jù)進(jìn)行二次降維。
1.6.1 支持向量機(jī)
支持向量機(jī)(SVM)建立在機(jī)器學(xué)習(xí)理論的結(jié)構(gòu)風(fēng)險最小化原則上, 能夠在小樣本情況下獲得最優(yōu)解。 SVM的主要思想是在n維空間中尋找能區(qū)分正例和反例的最佳分類面, 面對非線性問題時, 借助核函數(shù)將輸入空間變換到一個高維空間, 然后在這個新空間中求取最佳分類面。 選擇適當(dāng)?shù)暮撕瘮?shù)可以提高分類效率, 并且使樣本的劃分更為清晰, 選擇徑向基核函數(shù)(radical basis function, RBF)作為核函數(shù)。
1.6.2 Elman神經(jīng)網(wǎng)絡(luò)
Elman神經(jīng)網(wǎng)絡(luò)是一種典型的動態(tài)遞歸神經(jīng)網(wǎng)絡(luò), 由輸入層、 隱含層、 承接層和輸出層構(gòu)成[10]。 基于Elman神經(jīng)網(wǎng)絡(luò)的四層結(jié)構(gòu), Elman神經(jīng)網(wǎng)絡(luò)具有全局穩(wěn)定性高, 計算速度快, 自適應(yīng)和學(xué)習(xí)能力強(qiáng)的優(yōu)點(diǎn)。 選擇Elman神經(jīng)網(wǎng)絡(luò)的激活函數(shù)為tansig, 輸出層激活函數(shù)為purelin。
1.6.3 隨機(jī)森林
隨機(jī)森林(random forests, RF)是將多棵決策樹集成的一種算法。 面對分類問題時, 每棵決策樹都是一個分類器。 每顆決策樹都隨機(jī)且有放回地從訓(xùn)練集中抽取樣本作為該樹的訓(xùn)練集。 對于一個輸入樣本, 每棵樹會產(chǎn)生一個分類結(jié)果, 隨機(jī)森林將投票次數(shù)最多的類別指定為最終的輸出結(jié)果[11]。 隨機(jī)森林具有不容易陷入過擬合, 抗噪能力強(qiáng)的優(yōu)點(diǎn)。
采用測試集的總分類精度(overall accuracy, OA)和Kappa系數(shù)作為模型評價標(biāo)準(zhǔn)。 測試集的OA是測試集所有分類準(zhǔn)確的樣本占測試集全部樣本的比例。 Kappa系數(shù)為檢驗預(yù)測結(jié)果和實際分類結(jié)果是否一致的指標(biāo)。
本研究共提取2 656組光譜數(shù)據(jù), 使用Kennard-Stone算法將數(shù)據(jù)集以3∶1比例劃分為訓(xùn)練集和測試集, 劃分結(jié)果如表1所示。
表1 樣本劃分
表2 全波段光譜數(shù)據(jù)建模結(jié)果
2.3.1 基于VISSA的特征波長提取
VISSA基于模型集群分析(model population analysis, MPA)的思想, 利用加權(quán)二進(jìn)制采樣法構(gòu)造變量子空間, 每一次迭代過程滿足變量空間逐漸收縮和變量空間逐漸優(yōu)化兩個準(zhǔn)則[12]。 設(shè)定VISSA的加權(quán)二進(jìn)制矩陣采樣數(shù)為5 000, 選擇子模型比率為0.05, 交叉驗證次數(shù)為5, 最終選擇出53個特征波長, 如圖6(a)所示, VISSA提取出的特征波長主要分布于450~700和725~850 nm。
圖6(d) SFLA提取特征波長
2.3.2 基于CARS的特征波長提取
CARS基于達(dá)爾文理論中的“適者生存”原則, 以PLS模型中回歸系數(shù)的絕對值大小作為變量重要性的評價指標(biāo), 根據(jù)PLS模型交叉驗證均方根誤差大小選擇最優(yōu)特征變量組合[13]。 設(shè)定CARS的蒙特卡洛采樣次數(shù)為50, 交叉驗證次數(shù)為5, 最終選擇出20個特征波長, 如圖6(b)所示, CARS提取出的特征波長主要分布于450~500和530~580 nm。
2.3.3 基于IRIV的特征波長提取
IRIV將變量進(jìn)行多次隨機(jī)組合并建立PLS模型, 觀察每個變量是否存在于模型中時交互驗證預(yù)測誤差的變化, 根據(jù)MPA的思想將變量分為強(qiáng)信息變量、 弱信息變量、 無信息變量和干擾變量, 逐個分析每個變量后去除無信息變量和干擾變量, 進(jìn)行多次迭代分析, 直到剩下的變量均為強(qiáng)信息變量和弱信息變量, 最終保留的變量即為所需的特征變量[14]。 設(shè)定交叉驗證次數(shù)為5, 最終選擇出26個特征波長, 如圖6(c)所示, IRIV提取出的特征波長主要分布于450~555 nm。
2.3.4 基于SFLA的特征波長提取
SFLA是一種后啟發(fā)式群體進(jìn)化算法, 結(jié)合了基于模因進(jìn)化的模因演算法和基于群體行為的粒子群算法的優(yōu)點(diǎn), 計算速度快, 全局搜索尋優(yōu)能力強(qiáng)[15]。 本研究中SFLA最終選擇出10個特征波長, 如圖6(d)所示, SFLA提取出的特征波長主要分布于450~515和550 nm。
2.3.5 模型建立
表3 一次降維光譜數(shù)據(jù)建模結(jié)果
由表3可知, 模型對無癥狀葉片的識別率均能達(dá)到94%以上, 對斑潛蠅蟲害葉片的識別率均能達(dá)到92%以上。 MA-SFLA-Elman神經(jīng)網(wǎng)絡(luò)和MA-SFLA-RF模型對霜霉病葉片的識別率較低, 分別為88.51%和87.08%, 其他模型對霜霉病葉片的識別率均能達(dá)到90%以上。 所有模型中, MA-VISSA-RF和MA-CARS-RF模型對無癥狀葉片的識別率最高, 識別率均為100%; MA-CARS-Elman神經(jīng)網(wǎng)絡(luò)模型對霜霉病葉片的識別率最高, 識別率為99.04%; MA-VISSA-SVM模型對斑潛蠅蟲害葉片識別率最高, 識別率為98.24%。
2.4.1 光譜數(shù)據(jù)二次降維
由于VISSA、 CARS、 IRIV、 SFLA提取出的特征波長仍然較多, 使用SPA對數(shù)據(jù)進(jìn)行二次降維。 SPA是一種可以使矢量空間共線性最小化的前向變量選擇算法[16], 該方法首先任意選擇一個波長投影到其他波長上, 然后將其中最大投影向量對應(yīng)的波長引入變量組合, 使用變量組合建立多元線性回歸分析(MLR)模型, 最終選擇MLR模型中交互驗證均方根誤差最小時的變量組合作為特征波長。 根據(jù)實際需要, 將SPA提取特征波長個數(shù)范圍設(shè)定為1~5, 最終在VISSA所選波長中提取出4個特征波長, 如圖7(a)所示, 分別為455、 536、 615和726 nm; CARS所選波長中提取出4個特征波長, 如圖7(b)所示, 分別為452、 501、 548和578 nm; IRIV提取波長中提取出4個特征波長, 如圖7(c)所示, 分別為452、 513、 543和553 nm; SFLA提取波長中提取出4個特征波長, 如圖7(d)所示, 分別為462、 484、 500和550 nm。
圖7(a) VISSA-SPA提取特征波長
圖7(b) CARS-SPA提取特征波長
2.4.2 模型建立
表4 二次降維光譜數(shù)據(jù)建模結(jié)果
由特征波長數(shù)據(jù)所建模型的識別效果如表5所示。 由表5可知, 由一次降維光譜數(shù)據(jù)所建模型的OA均高于93%, Kappa系數(shù)均高于0.89, 其中MA-VISSA-RF模型的OA和Kappa系數(shù)最高, 分別為98.19%和0.97, 相較于MA預(yù)處理下全波段數(shù)據(jù)建立的RF模型, OA和Kappa系數(shù)均有所提升。 由二次降維光譜數(shù)據(jù)所建模型中, MA-IRIV-SPA-SVM的OA最高, OA為96.69%; MA-IRIV-SPA-SVM和MA-VISSA-SPA-SVM的Kappa系數(shù)最高, Kappa系數(shù)均為0.95。 由表4可知, MA-IRIV-SPA-SVM對黃瓜病蟲害葉片的識別率相較于VISSA-SPA-SVM更高, 所以MA-IRIV-SPA-SVM模型的效果更好。 相較于MA-VISSA-RF模型, 建立MA-IRIV-SPA-SVM模型所用特征波長減少了49個, OA只降低了1.5%, Kappa系數(shù)只降低了0.02, 分類精度仍然較高。 本研究中的MA-IRIV-SPA-SVM模型和文獻(xiàn)[7]的Dis-CARS-SPA-LSSVM模型相比, 所用特征波長減少了43個, OA降低了5.26%, 分析原因是為提取霜霉病和斑潛蠅蟲害識別共同的特征波長, 損失了對霜霉病識別貢獻(xiàn)度較大的波長, 但MA-IRIV-SPA-SVM模型所用特征波長大幅減少, 同時實現(xiàn)了對黃瓜斑潛蠅蟲害葉片96.04%的識別率, 可以認(rèn)為MA-IRIV-SPA-SVM模型具有較好的效果, 452、 513、 543和553 nm可以作為識別黃瓜霜霉病和斑潛蠅蟲害的特征波長。
表5 特征波長光譜數(shù)據(jù)建模結(jié)果
使用VISSA-SPA和IRIV-SPA提取的特征波長建立的SVM模型實現(xiàn)了對黃瓜霜霉病和斑潛蠅蟲害94%以上的識別率, 說明通過VISSA-SPA和IRIV-SPA方法提取特征波長具有良好的效果, 但總體來看, 模型對霜霉病葉片和斑潛蠅蟲害葉片的識別率要明顯低于無癥狀葉片, 為了提高模型的魯棒性和準(zhǔn)確性, 未來可以使用光譜特征結(jié)合病斑的形態(tài)特征等建立識別模型。 在實際生產(chǎn)中, 還可以結(jié)合黃瓜的發(fā)病時間、 發(fā)病葉片的位置等進(jìn)行病蟲害種類的判斷, 提高對病蟲害識別的準(zhǔn)確率。 本研究中只選擇了典型的黃瓜病蟲害葉片進(jìn)行光譜特征提取和建模, 將來可以選擇更多的黃瓜病蟲害種類建立黃瓜全病蟲害類型的識別模型, 為設(shè)計專用的黃瓜病蟲害一體化識別設(shè)備提供基礎(chǔ)。
為了研究快速識別黃瓜病蟲害的方法, 探究黃瓜病蟲害識別的特征波長, 利用高光譜成像技術(shù)獲取黃瓜無癥狀葉片、 霜霉病葉片、 斑潛蠅蟲害葉片的高光譜圖像, 使用ENVI5.1提取ROI的平均反射率數(shù)據(jù)。 采用MSC、 DOSC、 MA對光譜數(shù)據(jù)進(jìn)行預(yù)處理, 使用VISSA、 CARS、 IRIV、 SFLA提取特征波長, 然后使用SPA對特征波長光譜數(shù)據(jù)進(jìn)行二次降維, 分別對全波段光譜數(shù)據(jù)、 一次降維光譜數(shù)據(jù)、 二次降維光譜數(shù)據(jù)進(jìn)行SVM、 Elman神經(jīng)網(wǎng)絡(luò)、 RF建模, 得到結(jié)論如下:
(1)MA預(yù)處理方法下全波段光譜數(shù)據(jù)建立的模型效果最優(yōu), 各模型總分類精度均可達(dá)到95%以上, Kappa系數(shù)均可達(dá)到0.91以上。
(2)VISSA、 CARS、 IRIV、 SFLA分別提取出53、 20、 26、 10個特征波長, 提取的特征波長光譜數(shù)據(jù)所建模型中, VISSA-RF模型的OA和Kappa系數(shù)最高, 分別為98.19%和0.97。
(3)VISSA-SPA、 CARS-SPA、 IRIV-SPA、 SFLA-SPA分別提取出4個特征波長, 提取的特征波長光譜數(shù)據(jù)所建模型中, IRIV-SPA-SVM模型的效果最好, OA和Kappa系數(shù)分別為96.69%和0.95。 452、 513、 543和553 nm可以作為黃瓜霜霉病和斑潛蠅蟲害識別的特征波長, 為研發(fā)黃瓜病蟲害快速識別設(shè)備提供了理論依據(jù)。