桂江生,吳子嫻,李凱
(1.浙江理工大學信息學院,杭州 310018;2.南京農(nóng)業(yè)大學農(nóng)學院,南京 210095)
近年來,隨著大豆輪作周期不斷縮短,因病蟲害預防不及時,致使大豆產(chǎn)量明顯降低。大豆在生長過程中所面臨的病害主要有大豆花葉病毒(soybean mosaic virus)、菜豆黃化花葉病毒(bean yellow mosaic virus)、煙 草 環(huán) 斑 病 毒(tobacco ringspot virus)等[1]。其中大豆花葉病在我國乃至全球大豆種植區(qū)均有出現(xiàn),嚴重影響大豆產(chǎn)量。因此,在大豆花葉病的病害初期檢測顯得尤為重要。
目前,針對作物病害檢測常用的方法主要有:人工感官判斷、基于化學和生物學方法檢測[2-4]、圖像處理和光譜數(shù)據(jù)分析[5-7]。其中:人工感官判斷具有滯后性,效率較低,準確率差且檢測難度較大,因此很難大面積推廣?;诨瘜W和生物學方法的病害檢測,對檢測樣品的精度及檢測人員的操作技術(shù)要求都很高,且成本高,耗時長,不利于田間推廣。對于圖像處理和光譜數(shù)據(jù)分析方法,由于圖像處理算法復雜,處理速度較慢,而光譜數(shù)據(jù)分析只對病害的局部光譜進行處理,缺少空間信息,因而診斷效果也不太理想。隨著高光譜技術(shù)的不斷發(fā)展,由于其具有圖譜合一的優(yōu)點,所以近年來在作物病害診斷中應(yīng)用非常廣泛[8]。謝傳奇等[9]采用高光譜成像技術(shù)建立了早期番茄早疫病的提取有效波長-最小二乘支持向量機(effectivewavelength-least squaresupport vector machine,EW-LS-SVM)和有效波長-線性判別分析(effective wavelength-linear discriminant analysis,EW-LDA)預測模型;KRISHNA等[10]建立了基于偏最小二乘法和多元線性回歸的高光譜模型來評估冬小麥作物中黃銹病的嚴重性;CAPORASO等[11]通過采集咖啡豆的平均光譜,采用偏最小二乘法實現(xiàn)了咖啡豆中脂肪和水分可視化分布;ZHANG等[12]利用高光譜成像技術(shù)建立基于Fisher線性判別分析來識別小麥的銹病、白粉病和蚜蟲;LIAGHAT等[13]采用k近鄰算法實現(xiàn)了對油棕櫚莖腐病的高光譜檢測,準確率達到97%;劉思伽等[14]采用人工神經(jīng)網(wǎng)絡(luò)模型實現(xiàn)了對蘋果病害的無損檢測;ZHAO等[15]利用高光譜成像技術(shù)測定并建立了黃瓜葉片對角斑病的葉綠素空間分布和類胡蘿卜素含量的偏最小二乘回歸模型。
縱觀國內(nèi)外對于農(nóng)作物病害診斷的現(xiàn)狀,采用高光譜成像技術(shù)能夠?qū)崿F(xiàn)對農(nóng)作物病害的診斷檢測,但是在處理過程中,存在大量數(shù)據(jù)冗余,因此過程較為煩瑣,處理速度不太理想。另外,在現(xiàn)有研究報道中大多采用傳統(tǒng)機器學習方法對農(nóng)作物病害中后期進行檢測識別,而在大豆花葉病害初期的檢測方面,還沒有學者進行研究探索。本文通過高光譜圖像技術(shù),利用卷積神經(jīng)網(wǎng)絡(luò)具有處理海量數(shù)據(jù)的特點,采用高光譜成像技術(shù)建立大豆花葉病的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)模型[16-18],對大豆花葉病害初期進行檢測,旨在探索高光譜圖像技術(shù)在大豆花葉病檢測方面的應(yīng)用,為后續(xù)的大豆花葉病分級檢測及生長監(jiān)測奠定理論基礎(chǔ)。
實驗采用的大豆品種為南京農(nóng)業(yè)大學大豆研究所培育的南農(nóng)1138-2。分別采集生長早期(大豆發(fā)芽30 d)且長勢良好的正常葉與分別接種SC3、SC7這2種花葉病毒7 d后的葉各80片,共計240片。其中,從正常葉和患病葉中各隨機選取40片用于建立正常大豆與花葉病大豆的檢測模型,剩余120片作為預測集。
實驗采用的高光譜圖像采集系統(tǒng)如圖1所示,主要包括高光譜成像儀(Imperx IPX-2M30)、相機、一套電控平移臺和平移控制器、4個150 W的鹵素燈及1臺計算機。其中:高光譜所采集的光譜范圍為383.70~1 032.70 nm,光譜波段數(shù)為256個,光譜分辨率為2.73 nm,圖像數(shù)據(jù)采集使用SpecView完成。整個實驗采集過程在暗箱中完成,避免環(huán)境中雜散光帶來的影響。
1.3.1 黑白校正
為避免光照不均等因素對高光譜圖像的影響,對其進行黑白校正,將白板放置在與大豆相同距離的照明位置處并充滿相機一幀采集范圍進行白板數(shù)據(jù)采集,然后關(guān)閉光源,蓋上鏡頭蓋,進行暗背景數(shù)據(jù)采集。其中黑白校正公式為:
圖1 高光譜成像系統(tǒng)Fig.1 Hyperspectral imaging system
式中:R為校正后的葉片數(shù)據(jù);Rs為采集的葉片高光譜數(shù)據(jù);Rd為黑板數(shù)據(jù);Rw為白板數(shù)據(jù)。
1.3.2 光譜預處理
在光譜預處理階段為了降低采集過程中由于樣本不均勻、基線漂移等對光譜信號的影響,提高后續(xù)的預測模型準確率,對大豆光譜數(shù)據(jù)進行Savitzky-Golay(SG)平滑處理[19],去除基線偏移和解決重疊峰問題。該濾波器能夠在濾除噪聲的同時使信號的形狀、寬度保持不變,可以在去除干擾的前提下較為完整地保留光譜的有用信息。
1.3.3 分類模型的建立
卷積神經(jīng)網(wǎng)絡(luò)(CNN)[20-21]是深度學習中常用的一種算法,在圖像識別、文件、文本分析和自然語言處理[22-24]等方面獲得了巨大成功,由于其優(yōu)異的學習性能與處理速度,使之得到了廣泛應(yīng)用。CNN是具有多層感知機的分類模型,采用類似于生物神經(jīng)網(wǎng)絡(luò)的局部鏈接方式,從而達到權(quán)值共享,減少了權(quán)值的數(shù)量,提高了數(shù)據(jù)處理的速度,并且可以有效減小模型過擬合問題。與傳統(tǒng)的方法相比,CNN模型具有更高的容錯性,能夠更準確地提取數(shù)據(jù)特征信息,從而提高模型性能。
卷積神經(jīng)網(wǎng)絡(luò)分為輸入層、卷積層、池化層、全連接層和輸出層。其中:卷積層中相同特征采用相同的卷積核,同一特征圖的權(quán)值是共享的;池化層,也稱為下采樣層,是對卷積層提取的特征信息進行子采樣,大大地提高了網(wǎng)絡(luò)的統(tǒng)計效率。本文采用的LeNet卷積網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示,卷積神經(jīng)網(wǎng)絡(luò)處理流程如圖3所示。
圖2 LeNet卷積網(wǎng)絡(luò)的結(jié)構(gòu)Fig.2 Structure of the LeNet convolutional network
最小二乘支持向量機(LS-SVM)[25],采用最小二乘線性系統(tǒng)代替?zhèn)鹘y(tǒng)的支持向量,即采用二次規(guī)劃方法解決模式識別問題,將等式約束取代不等式約束,求解速度大大提高。在實驗中對大豆葉片的樣本通過非線性映射函數(shù),在高維特征空間建立最優(yōu)分類面,從而實現(xiàn)樣本的線性可分。該方法在解決小樣本、高維數(shù)的分類問題中具有很大優(yōu)勢。
圖3 卷積神經(jīng)網(wǎng)絡(luò)處理流程Fig.3 Flow chart of convolutional neural network processing
極限學習機(extreme learning machine,ELM)[26]是一種單隱層前饋神經(jīng)網(wǎng)絡(luò)分類算法。它不但能保證學習精度,而且學習速度比支持向量機(SVM)更快,泛化能力更強,并且具有不過擬合的優(yōu)點。
實驗采用 MATLAB 2014[27]、ENVI 5.1[28]和 Excel 2016[29]軟件進行數(shù)據(jù)處理。本文的實驗軟件運行平臺選用Linux系統(tǒng)和Caffe[30]框架,磁盤容量為1 TB、內(nèi)存容量為16 GB、處理器為Intel@CoreTMi5-4460CPU@3.20GHZ×4,顯卡為GeForce GTX 1070/PCIe/SSE2,顯存容量為8 GB。
高光譜采集使用的軟件為SpecView,所用儀器的參數(shù)為曝光時間15 ms,平移臺的移動速度1.25 cm/s,4個鹵素燈與平移臺的夾角50°,從而確保采集圖像的清晰度,并按組對所有的大豆樣本進行采集。之后采用反射率為99%的白板圖像Rw和全黑的暗背景圖像Rd進行黑白校正處理。采集的大豆樣本的高光譜圖像如圖4所示??梢钥闯?,大豆花葉病在發(fā)病初期,肉眼難以識別,因此采用傳統(tǒng)圖像方法識別難度較大。
圖4 大豆樣本高光譜圖像Fig.4 Hyperspectral image of soybean samples
本文統(tǒng)一選取樣本中心區(qū)域40×40像素的正方形區(qū)域作為感興趣區(qū)域。計算該正方形內(nèi)所有像素的平均值,得到平均光譜數(shù)據(jù)。平均光譜的計算公式如下:
式中:x是捕獲樣本中的像素;y是不同波長的高光譜信息;x0為樣本的所選像素;Δx為平均像素數(shù)的一半;E(x,y)為大豆葉片圖像的實際光譜。
由于在曲線的結(jié)尾部分噪聲較大,因此去除后20個波段的光譜數(shù)據(jù),從而提高整體的信噪比,得到大豆樣本從380~1 000 nm的236個波段的光譜數(shù)據(jù)。為提高后續(xù)的預測模型準確率,對大豆光譜數(shù)據(jù)進行SG平滑處理,去除基線偏移和解決重疊峰問題。將得到的3種樣本各40條光譜取平均值得到光譜曲線,如圖5所示。從中可以看出,原始的光譜曲線圖的變化趨勢與綠色植物光譜反射規(guī)律相吻合,且有無花葉病害的大豆光譜曲線差異較為明顯。
圖5 3種大豆樣本的平均光譜曲線Fig.5 Average spectral curve of normal and mosaic soybean samples
針對大豆花葉病的初期病害,隨機從接種SC3、SC7的葉中各抽取40片,從正常的大豆葉中抽取40片,共計120片葉作為訓練集。為提高實驗訓練樣本個數(shù),從每片大豆樣本的原始光譜圖像中選取40×40像素大小感興趣區(qū)域的光譜圖像,分成4個20×20像素大小的光譜數(shù)據(jù),從而得到480個光譜數(shù)據(jù),其余120片葉作為測試集,采用相同的方法增加測試樣本的數(shù)量。另外,由于原始高光譜數(shù)據(jù)具有波段多、冗余性強、數(shù)據(jù)量大等特點,如果直接采用全波段數(shù)據(jù)進行建模,則會導致建模效率降低,模型性能變差,所以根據(jù)每個波段的光譜圖成像質(zhì)量,從波長380~1 000 nm的范圍內(nèi)選取46個高光譜波段作為特征波段(光譜波段選擇間隔為5),對樣本進行歸一化處理,調(diào)整為相同大小,并做標簽處理,隨后采用梯度下降的方法對權(quán)重系數(shù)進行迭代更新,當?shù)螖?shù)或者誤差達到預定值時訓練停止,從而得到訓練模型,再將測試集輸入訓練好的模型中。
卷積神經(jīng)網(wǎng)絡(luò)通常有3級:卷積層、激勵層和池化層。在第1級卷積層中加入一組線性激活函數(shù)(由多個卷積運算得出),在激勵層中加入ReLu非線性激活函數(shù),在池化層中由池化函數(shù)進行調(diào)整。卷積層通過卷積運算實現(xiàn)圖像去噪,增強原始圖像的特征,卷積核的數(shù)量決定特征提取程度,通常數(shù)量越多,提取越充分。池化層又稱下采樣層,將采用池化函數(shù)得到的總體特征取代此位置的輸出結(jié)果,實現(xiàn)數(shù)據(jù)降維的同時保留了有效信息。整個卷積神經(jīng)網(wǎng)絡(luò)通過多次卷積操作減小特征向量后連接全連接層和輸出層,完成識別任務(wù)。
本文的CNN模型建立了2個卷積層,其中第1層共32個卷積核,大小為7×7,第2層共64個卷積核,大小為5×5。池化層大小為4×4,選用最大池化單元,激活函數(shù)采用修正線性單元ReLu。SVM中學習參數(shù)為C=10,ξ=0.001,核函數(shù)中的懲罰因子c和核函數(shù)參數(shù)γ均為默認參數(shù)。ELM模型選用sigmoid做隱含層的激勵函數(shù),結(jié)點初始化個數(shù)為15,以4為周期增加,采用交叉驗證方法對其優(yōu)化,得出最佳節(jié)點個數(shù)為35。3種分類模型的分類結(jié)果如表1所示??梢钥闯?,大豆花葉病害的CNN模型訓練集正確率為94.79%,預測集正確率達到92.08%,無論是不同種類大豆樣本集的識別率,還是總體數(shù)據(jù)集的識別率,CNN模型的識別率都比LS-SVM和ELM的高。
目前,高光譜成像技術(shù)已經(jīng)廣泛應(yīng)用于病害檢測中,但是大多數(shù)學者采用的分類方法為傳統(tǒng)學習方法如SVM、ELM等。本研究利用高光譜圖像技術(shù)采集SC3患病初期葉片、SC7患病初期葉片及正常葉片3種大豆葉片樣本,建立了基于高光譜成像技術(shù)的大豆花葉病害CNN檢測模型。在CNN模型中,卷積層通過卷積運算實現(xiàn)對大豆圖像去噪,增強了原始圖像的特征,更能充分提取特征信息,池化層在實現(xiàn)數(shù)據(jù)降維的同時保留了有效信息,因此與傳統(tǒng)的LS-SVM和ELM模型對比,CNN模型的檢測效果更為精確,最終模型訓練集正確率為94.79%,預測集正確率達到92.08%。綜上,CNN模型能夠更精確地實現(xiàn)對大豆花葉病初期檢測,增大了檢測模型的識別率,提高了處理速度。然而,本研究只對大豆花葉病害初期進行了檢測,對大豆花葉病分級及大豆生長監(jiān)測將是下一步研究的重點。
表1 不同分類模型的檢測結(jié)果Table 1 Recognition rates of different models %