徐 妍
(浙江農(nóng)林大學(xué),浙江 杭州 310000)
根據(jù)聯(lián)合國糧食及農(nóng)業(yè)組織發(fā)布的一份報告指出,每年農(nóng)業(yè)生產(chǎn)自然損失的30%以上是由農(nóng)作物病害[1]造成的,農(nóng)作物病害問題成為目前影響農(nóng)業(yè)生產(chǎn)和糧食安全[2]的最重要因素。依賴于實驗室觀察和試驗的傳統(tǒng)方法很容易導(dǎo)致錯誤的診斷。此外,由于缺乏專業(yè)的農(nóng)業(yè)技術(shù)人員,往往很難快速查明農(nóng)作物的疾病和蟲害,以便采取適當?shù)难a救行動。為了克服這些問題,一些研究人員轉(zhuǎn)向使用機器學(xué)習(xí)方法和計算機視覺技術(shù)來識別農(nóng)作物病蟲害。
近年來,研究人員將現(xiàn)有的植物病理學(xué)知識和相關(guān)知識整合到圖像識別技術(shù)的研究中來支持這一觀點。一般來說圖像識別技術(shù)的過程,首先涉及分析和處理與農(nóng)作物病害有關(guān)的圖像數(shù)據(jù);然后建立機器學(xué)習(xí)模型,得到對應(yīng)層次的不同圖像特征;最后利用分類器對不同類型的農(nóng)作物疾病進行快速準確的識別,最終目的都是為農(nóng)作物病害的防治提供技術(shù)指導(dǎo)[3]。
公開數(shù)據(jù)集PlantVillage 數(shù)據(jù)集是實驗室采集的農(nóng)作物葉片病害圖像數(shù)據(jù)集,共55 448 張圖片,39 類。本文拍攝真實場景葉部病害圖像共5 645 張,采用隨機光照增強、隨機對比度增強、上下翻轉(zhuǎn)、左右翻轉(zhuǎn)、隨機旋轉(zhuǎn)縮放等方法進行數(shù)據(jù)增強后共15 190 張。將增強的PlantVillage 數(shù)據(jù)集和真實場景下的數(shù)據(jù)并為MultiplePlant數(shù)據(jù)集。真實場景下感染病害的農(nóng)作物葉片在采集時容易遇到葉片自遮擋、果實遮擋、葉片卷曲、人手遮擋等各種復(fù)雜的情況,相對于實驗室采集的圖像,其特征更不容易提取。MultiplePlant 數(shù)據(jù)集中測試集中每類50 張測試圖片,全都為真實場景的自采圖片(其中包含物體遮擋、葉片自遮擋、復(fù)雜背景的圖片)。剩下的圖片數(shù)據(jù)分別按90%、10%的比例隨機選取圖片劃分訓(xùn)練集、測試集和驗證集。
利用圖像級別特征變換,對圖像中的目標進行協(xié)同定位DDT(Deep Deor Transforming)[4],尋找每一類圖像最具有正關(guān)聯(lián)性的目標葉片病斑區(qū)域,并將其作為目標對象潛在區(qū)域,和訓(xùn)練圖像合并作為訓(xùn)練數(shù)據(jù)集,用于訓(xùn)練對象級別細粒度圖像分類器。本方法將特征變換與深度卷積神經(jīng)網(wǎng)絡(luò)EfficientNet 結(jié)合,以層進式的形式,逐步找到能夠有效提高細粒度圖像分類任務(wù)準確性的目標潛在區(qū)域以及最具有判別能力的部件區(qū)域,取得較高的細粒度圖像分類準確率。圖1 展示MultiplePlant數(shù)據(jù)集種圖片通過DDT方法定位到葉片邊界框的過程。
將預(yù)先訓(xùn)練好的模型進行微調(diào)并,使用遷移學(xué)習(xí)的方式在ImageNet上對CNN 模型的權(quán)值進行預(yù)訓(xùn)練。在PyTorch 平臺上進行對象級別分類器參數(shù)訓(xùn)練,然后設(shè)置各個參數(shù)的數(shù)值為:學(xué)習(xí)率為base_lr=1×10-3,迭代次數(shù)為max_iter=100 00,學(xué)習(xí)率衰減系數(shù)為gamma=0.1。
DDT-EfficientNet-B4 分類模型在MultiplePlant 數(shù)據(jù)集訓(xùn)練的分類網(wǎng)絡(luò)中,VGG16、inception-V3、ResNet50、Efficient-Net-B4表現(xiàn)最好的是EfficientNet-B4,在MultiplePlant數(shù)據(jù)集中測試集平均準確率為96.52%;在分類網(wǎng)絡(luò)結(jié)構(gòu)前添加DDT預(yù)訓(xùn)練網(wǎng)絡(luò)進行目標定位,DDT+EfficientNet-B4 展現(xiàn)了98.39%的測試集準確率,在同樣的數(shù)據(jù)集下模型測試集準確率提升了1.87%,在真實場景取樣分類場景下具有更好的泛化性與魯棒性。
從表1 可以看出,DDT+EfficientNet-B4 的模型大小為268.62 M,與 VGG16、inception-V3、ResNet50 和原 Efficient-Net-B4網(wǎng)絡(luò)相比僅比輕量化網(wǎng)絡(luò)inception-V3和原Efficient-Net-B4 的模型略大,但在MultiplePlant 測試集上的分類準確率卻提升了1.87%,可以說DDT+EfficientNet-B4 在兼顧了模型準確率的同時,實現(xiàn)了模型的精簡和壓縮,為模型在硬件受限的場景下部署奠定了基礎(chǔ)。
表1 協(xié)同定位基礎(chǔ)上分類試驗結(jié)果Tab.1 The experimental results
本文提出的基于Co-Location 的的弱監(jiān)督細粒度圖像分類方法在復(fù)雜背景的MultiplePlant 圖像數(shù)據(jù)集中,在識別精度上相較于傳統(tǒng)CNN卷積神經(jīng)網(wǎng)絡(luò)圖像識別方法,分類準確率提升了1.87%。用于訓(xùn)練的復(fù)雜場景的數(shù)據(jù)集較少的情況下,基于Co-Location的DDT-EfficientNet-B4方法可以導(dǎo)特征提取的網(wǎng)絡(luò)能對患病的葉片部位更加敏感,在農(nóng)作物田間監(jiān)測場景下具有實際的使用價值。