• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Transformer的強泛化蘋果葉片病害識別模型

      2023-01-12 13:26:24徐艷蕾孔朔琳陳清源高志遠李陳孝
      農業(yè)工程學報 2022年16期
      關鍵詞:分支準確率卷積

      徐艷蕾,孔朔琳,陳清源,高志遠,李陳孝

      基于Transformer的強泛化蘋果葉片病害識別模型

      徐艷蕾,孔朔琳,陳清源,高志遠,李陳孝※

      (吉林農業(yè)大學信息技術學院,長春 130118)

      模型泛化能力是病害識別模型多場景應用的關鍵,該研究針對不同環(huán)境下的蘋果葉片病害數據,提出一種可以提取多類型特征的強泛化蘋果葉片病害識別模型CaTNet。該模型采用雙分支結構,首先設計了一種卷積神經網絡分支,負責提取蘋果葉片圖像的局部特征,其次構建了具有擠壓和擴充功能的視覺Transformer分支,該分支能夠提取蘋果葉片圖像的全局特征,最后將兩種特征進行融合,使Transformer分支可以學習局部特征,使卷積神經網絡分支學習全局特征。與多種卷積神經網絡模型和Transformer模型相比,該模型具有更好的泛化能力,僅需學習實驗室環(huán)境葉片數據,即可在自然環(huán)境數據下達到80%的識別精度,相較卷積神經網絡EfficientNetV2的72.14%精度和Transformer網絡PVT的52.72%精度均有較大提升,能夠有效提升對不同環(huán)境數據的識別精度,解決了深度學習模型訓練成本高,泛化能力弱的問題。

      圖像識別; 農業(yè);卷積神經網絡;蘋果葉片病害;Transformer模型;強泛化性;特征融合

      0 引 言

      蘋果是重要的農業(yè)經濟作物,具有很高的營養(yǎng)價值和經濟價值。然而,蘋果葉片極易感染銹病、炭疽病等病害,導致蘋果產量和質量嚴重下降。因此,對蘋果病害的高效、精準識別是防治蘋果病害的關鍵。

      近年來,基于卷積神經網絡(Convolutional Neural Networks)的蘋果病害識別成為代替人工識別和傳統(tǒng)機器學習識別的方法。很多研究人員針對蘋果葉片的實驗室數據進行了相應的研究,取得了較好的識別結果。郝菁等[1]以4種蘋果葉片病害圖像作為研究對象,對Resnet 50、Mobilenet v2、Vgg16、Vgg19、Inception v3進行遷移學習,其中識別效果最佳的模型正確率達97.40%。Zhong等[2]在DenseNet-121網絡的基礎上,分別使用Focal損失函數、邏輯回歸和多標簽分類方法對不平衡的蘋果葉片病害進行識別,達到93.51%、93.31%和93.71%識別準確率。劉斌等[3]以Inception- ResNet V2為基礎模型,引入CBAM模塊和焦點損失函數,實現(xiàn)蘋果黑星病和銹病程度90.82%的平均識別精準度。

      這些研究雖然識別準確率高,但不適合應用在實際生產中。針對復雜自然環(huán)境下的蘋果病害識別,很多研究人員也進行了深入的研究。Singh等[4]提出一種僅有8層深度的CNN網絡,以田間拍攝的兩種蘋果病害葉片圖像作為試驗數據,獲得99.2%的準確率。Chao等[5]以SENet為基礎,設計出的SE-DEEPBlock與Xception模型結合,在復雜背景的蘋果葉片病害上得到99.40%的識別準確率。Li等[6]使用NAS搜索算法設計出輕量CNN網絡RegNet,在具有復雜背景的蘋果葉片病害上實現(xiàn)了99.23%的識別準確率。Fu等[7]使用多尺度模塊、空洞卷積對AlexNet進行輕量化改進,并應用于五類復雜背景的蘋果葉片病害識別任務中,獲得97.36%的準確率。

      以上研究無論是針對實驗室數據還是自然環(huán)境數據,識別準確率都很高,然而很多研究證明以數據驅動的深度學習模型在訓練與識別數據為不同地點的圖像時,會造成模型識別精度的衰退。Mohanty等[8]發(fā)現(xiàn),使用卷積神經網絡GoogLeNet模型分類病害圖像,能獲得99.34%的極高準確率,但對不同條件下拍攝的圖像進行識別時,模型的準確性大幅降低,僅略高于31%。Ferentinos等[9]使用PlantVillage數據和自然環(huán)境數據,分別對模型進行訓練,試驗表明AlexNetOWTBn與VGG模型使用實驗室條件圖像進行訓練并識別自然圖像時準確度僅為32.23%和33.27%。因此,目前迫切需要研究一種泛化性強的深度學習模型,對不同背景、不同采集地點的蘋果葉片病害都能夠進行高效精準的識別。

      最近,受Transformer模型在自然語言處理領域成功應用的啟發(fā),Dosovitskiy等[10]提出一種適用于計算機視覺的Transformer模型ViT。該模型是一種提取全局特征的非局部(Non-local)模型[11],在不使用卷積核的情況下能夠達到極高的識別精度,并且具有較強泛化能力[12-14]。此外,該模型在圖像上加入了可學習的位置信息,解決了CNN中沒有可用的空間信息[15]以及在圖像中融入不同的紋理會導致CNN識別出現(xiàn)極大偏差[16]的問題,相較于CNN模型,ViT模型具有更好的穩(wěn)健性。PVT模型[17]是對ViT模型的進一步改進,通過卷積的方式,以卷積核的尺寸控制數據塊的尺寸,降低了Transformer模型的計算量。此外,Transformer模型具有更高的魯棒精度,更科學的特征學習方式[18-20]。視覺Transformer模型作為一種Non-local模型,雖然依靠弱偏置歸納、易并行結構成為計算機視覺(Computational Vision)領域中的新熱點,但目前并沒有研究證明全局信息絕對優(yōu)于局部信息。并且因為Transformer模型幾乎沒有偏置歸納,導致在小數據上有著更高的過擬合風險以及訓練成本高的問題[21]。

      為了提升深度學習模型泛化能力,使蘋果病害識別模型可以在更多場景達到較高識別精準度。該研究以5中蘋果葉片為研究對象,從多尺度特征融合模型得到啟發(fā)[22-24],將CNN和Transformer模型進行改進并結合,設計了一種通過雙分支結構提取全局特征和局部特征的強泛化深度學習模型CaTNet。該研究有效降低了深度學習模型訓練成本,為設計泛化能力強的深度學習模型提供了思路。

      1 材料與方法

      1.1 蘋果葉片病害數據采集

      為驗證模型的泛化能力,不僅需要簡單背景的實驗室數據還需要復雜背景的自然數據。該研究數據集由3個公開數據具和自建數據構成,涉及蘋果健康葉片、銹病、炭疽病、斑點落葉病和花葉病,公開數據集來自PlantVillage[25]、Plant pathology[26]、Ai Studio[27]。自建數據集為自然環(huán)境與實驗室數據混合的5種蘋果葉片病害數據。其中自然環(huán)境數據拍攝于吉林省延邊朝鮮族自治州安圖縣蘋果園。首先,在自然環(huán)境中直接拍攝蘋果葉片獲取自然環(huán)境蘋果葉片數據。其次,采摘各類別蘋果葉片,放置于實驗室桌面上,葉片下鋪墊白色PVC板進行拍攝。拍攝工具為智能手機,型號為Oneplus8pro,共拍攝973張RGB圖像,圖像像素3 000×3 000。PlantVillage數據集為多種作物病害實驗室數據,該研究采用PlantVillage數據集中蘋果健康葉片和炭疽病葉片圖像數據。Plant pathology數據集為4種蘋果葉片病害自然環(huán)境數據,Ai Studio數據集為自然環(huán)境與實驗室數據混合的5種蘋果葉片病害數據。為更客觀驗證模型泛化能力,該研究數據集中,除了使用自建數據中實驗室數據構建訓練數據集,使用自然環(huán)境數據構建測試數據集。還在健康葉片訓練數據中加入PlantVillage數據,測試數據中加入Plant pathology數據;在銹病訓練數據中加入Ai Studio數據,測試數據中加入Plant pathology數據;在炭疽病訓練數據中加入PlantVillage數據,測試數據中加入Plant pathology自然環(huán)境數據;在斑點落葉病的訓練數據和測試數據中加入Ai Studio數據;在花葉病訓練數據和測試數據中加入Ai Studio數據。蘋果葉片病害數據集中,部分實驗室數據如圖1a所示,部分自然數據如圖1b所示。從圖中可以看出,不同條件下的蘋果葉片圖像中,蘋果葉片擺放姿態(tài)不同,特征差異較大,證明以該數據集為訓練數據將有效證明模型泛化能力。

      圖1 蘋果葉片病害圖像

      1.2 數據預處理

      經過整理后的每類病害以及數據來源和數據量如表 1所示,其中銹病、斑點落葉病和花葉病數據過多,炭疽病數據過少。數據不平衡會導致模型對稀疏樣本識別能力下降,因此該研究對數據進行預處理來平衡各數據數量,提高模型識別精度。

      表1 蘋果葉片數據詳細信息

      首先對圖像數據尺寸統(tǒng)一至224×224像素。其次對取自Ai Studio數據集的銹病訓練數據,斑點落葉病測試數據,花葉病測試數據中部分相似圖像進行刪減。然后,對炭疽病和健康葉片數據進行擴充,擴充操作為隨機色彩抖動和添加噪點。最后,對自然環(huán)境數據進行裁剪,保留大部分病害特征,減少復雜背景面積。通過對數據的預處理得到最終數據集,總共15 567張RGB圖像數據。蘋果葉片數據信息如表1所示,其中訓練數據均為實驗室數據,測試數據均為自然環(huán)境數據,訓練集數據處理后總量達12 567張,測試集數據處理后總量達3 728張,訓練集與測試集比約7∶3。

      2 CaTNet網絡模型

      CaTNet模型由CNN分支和Transformer分支構成,兩分支輸出的特征進行融合促使深度學習模型同時關注全局與局部特征,增強了模型的泛化能力,而且CNN網絡解決了Transformer網絡計算速度慢,計算量大的問題。CaTNet模型結構如圖2所示,其主體結構由多個Block、降采樣、自適應池化和全連接層構成。Block由CNN分支與Transformer分支組成。CNN分支中包含多個CNN塊,CNN塊由深度卷積層和點卷積層構成。其中深度卷積層由尺寸3×3大小,分組數為輸入特征圖通道數的卷積核、批歸一化和激活函數構成。點卷積層由尺寸1×1大小的卷積核、批歸一化、激活函數構成。兩分支通過融合操作將特征進行融合,在輸入下一個Block前進行降采樣減少特征圖尺寸,因此模型具有特征金字塔結構。最后一個Block將不再進行降采樣操作,經過融合的特征將直接輸入1×1自適應池化層,然后輸入全連接層得到蘋果葉片圖像的病害類型。

      注:Block為多個CaTNet Block堆疊結構,Conv(Ks=3 G=Input)表示以卷積核大小為3×3,分組數為輸入通道的卷積層(Convolution),其中Ks為卷積核大?。↘ernel size),G為分組數(Group),Conv(Ks=1)表示以卷積核大小為1×1的卷積層,BN表示批歸一化層,ReLU表示ReLU激活函數,F(xiàn)ull connection layer表示全連接層,Multi-head attention layer表示多頭注意力層。

      CaTNet模型不同層中特征圖尺寸、分支中塊的重復次數和不同分支間融合方式如表2所示,模型在Block1-4采用維度融合(Concat),在Block5采用數值融合(Add)。維度融合利于雙分支學習不同特征,數值融合利于分類操作。CNN分支與Transformer分支中塊的重復次數相同,如表2中塊重復次數所示。

      表2 CaTNet網絡參數

      2.1 構建CaTNet中Transformer分支

      為了解決上述問題,提高Transformer模型計算速度,降低訓練成本,本文首先對Transformer分支進行改進,其次對分支中Transformer塊(TR塊)進行改進。

      針對Transformer分支部分,本文設計出一種具有擠壓功能的擠壓模塊,將輸入特征圖通道維度進行縮減,擠壓模塊由卷積層、歸一化層構成,卷積層由1×1大小的卷積核組成,使用卷積對通道維度進行縮減,將盡可能避免因通道維度縮減導致的信息流失,解決Softmax激活函數易造成顯存溢出的問題。其次,在Transformer分支最后添加了通道擴充模塊,對通道維度進行擴充,與來自卷積神經網絡分支的特征圖通道維度匹配。擴充模塊與擠壓模塊結構相似,通過卷積層對特征通道維度進行擴充,在歸一化操作后使用激活函數ReLU6對特征進行非線性化處理。ReLU6相較ReLU激活函數,最大輸出值為6,對多數以Float16作為計算單位的移動設備更加友好,模型更易于移植到小型移動設備上。具有通道擠壓和通道擴充模塊的Transformer分支結構如圖3所示,其中TR塊為Transformer模型。

      圖3 CaTNet中Transformer分支結構

      針對Transformer塊部分,Transformer模型結構過于復雜,本文對Transformer分支中每個負責提取全局信息的TR塊進行優(yōu)化。首先對Transformer模型結構進行優(yōu)化,僅使用一個多頭注意力和兩個全連接神經網絡搭建,大幅簡化傳統(tǒng)Transformer模型,確保Transformer塊僅提取序列數據間的序列關系特征。其次,使用全連接網絡替換傳統(tǒng)前饋神經網絡。TR塊結構如圖4所示,首先將數據輸入全連接層得到、和向量,然后進入多頭注意力層得到全局特征,之后將特征輸入全連接神經網絡得到最終序列特征。在全連接網絡后添加Dropout層對低權重神經元進行刪減,降低Transformer模型在小數據上的過擬合風險。

      圖4 Transformer塊結構

      Transformer分支中設定的參數也會影響模型的性能與訓練成本。為了保持Transformer分支提取全局信息的能力并提高計算速度,本文設置序列數據為特征圖尺寸的1/8,多頭注意力中頭初始數量設置為2并從第二個Block后每次增加2,從而保證模型具有較高計算精度的同時,盡可能減少模型算力消耗。Transformer分支中,每個Transformer模塊中頭的數量,序列數據尺寸以及通過通道縮減模塊后輸出的通道數如表3所示。

      表3 Transformer分支在各Block中輸入的超參數

      2.2 構建CaTNet中CNN分支

      目前多數CNN網絡如MobileNet系列[28-30],EfficientNet系列[31-32]均以輕量化為前提對網絡進行設計,為匹配計算量較大的Transformer分支并提供局部特征,該研究同樣以輕量化為前提設計CaTNet的CNN分支。CNN分支中由多個CNN塊構成,CNN塊結構如圖 5所示,由深度卷積層、歸一化、激活函數和點卷積層構成。相較多種CNN網絡,本文首先在深度卷積層同時進行特證信息擴充和局部特證信息提取,避免計算冗余。其次,點卷積層并未對通道數進行縮減,避免了信息的流失,提高特征信息流動性。最后將輸出數據和輸入該塊的原始數據進行相加,構成短路連接并輸入激活函數,使模型學習不同層次特征,解決網絡退化問題。

      圖5 CaTNet中CNN塊結構

      2.3 CaTNet模型的4種變體

      降采樣使得深度學習模型具有金字塔結構,幫助深度學習模型提取不同尺寸的特征信息,提高模型性能,擴大模型應用場景。過去,深度學習模型多以不可學習的最大池化和平均池化操作進行降采樣[33-34]。隨著CNN模型的發(fā)展,模型開始使用卷積核進行降采樣。CaTNet模型中Transformer模型負責提取全局信息,如果使用卷積核進行降采樣操作,存在破壞全局特征的可能。由于目前沒有研究證明卷積核對全局特征具有破壞性,因此該研究針對CaTNet模型的每個Block中的降采樣層,設計了多種使用不同降采樣操作的CaTNet模型變體,并在后續(xù)(3.3節(jié))進行大量試驗充分驗證各種降采樣層對全局特征的影響。

      這些變體分別是,使用3×3尺寸卷積核進行降采樣的CaTNet(conv)模型,使用1×1尺寸卷積核進行降采樣的CaTNet(pconv)模型,使用最大池化進行降采樣的CaTNet(mp)模型,使用平均池化進行降采樣的CaTNet(ap)模型。

      2.4 試驗環(huán)境與參數配置

      試驗基于Pytorch1.9.1深度學習框架和Python3.9.0搭建,使用TitanX GPU對模型進行訓練。在訓練過程中,使用SGD優(yōu)化器[35]更新模型參數,使用交叉熵損失函數計算模型輸出與真實值的差異,SGD優(yōu)化器學習率每10輪訓練衰退0.1倍,計算動量0.7。模型共經歷40輪訓練,每批次輸入16張圖片。

      2.5 評價指標

      該研究使用準確率(Accuracy),F(xiàn)1值(F1score),精準率(Precision, P)和召回率(Recall, R)衡量模型識別性能。準確率計算如式(4)所示。TP(True Positive)為正確分類的正樣本數,TN(True Negative)為正確分類為負樣本數,F(xiàn)P(False Positive)為錯誤分類的正樣本數,F(xiàn)N(False Negative)為錯誤分類的負樣本數。訓練準確率為使用實驗室數據對模型訓練得到的準確率,測試準確率為模型對自然環(huán)境數據識別得到的準確率。F1值均衡了精準率與召回率,同時使用F1值和準確率可以更客觀地衡量模型性能,F(xiàn)1值計算如式(5)所示。為了避免出現(xiàn)F1值相差較小導致無法衡量模型性能的情況發(fā)生,該研究還使用精準率和召回率對模型進行評價。精準率代表預測為正的結果中,有多少是真實為正,如式(6)所示。召回率代表模型對正樣本預測效果,即預測了多少真實為正,如式(7)所示。

      3 試驗與分析

      3.1 不同CaTNet模型變體性能比較及選擇

      使用不同池化操作的CaTNet模型各變體在實驗室數據(訓練)與自然數據(測試)的準確率如表4所示??梢钥闯觯心P驮趯嶒炇覕祿露歼_到理想準確率,約99%。但各模型在自然數據下的識別效果參差不齊。CaTNet(ap)與CaTNet(mp)模型識別準確率達近80%,遠大于使用卷積進行降采樣的CaTNet(conv)與CaTNet(pconv)模型74.06%與67.95%的準確率,這證明了使用卷積核進行降采樣對特征具有一定的破壞性,導致模型精度下降。

      表4 不同降采樣的CaTNet訓練結果

      CaTNet模型4種變體的F1值、精準率和召回率,如表5所示。其中,使用卷積核進行降采樣的CaTNet(conv)和CaTNet(pconv)模型在4種病害及健康葉片的F1值均低于使用池化進行降采樣的CaTNet(mp)和CaTNet(ap)模型,進一步證明使用卷積核進行降采樣會降低模型識別精度。其次,使用最大池化的CaTNet(mp)模型雖然在健康葉片,炭疽病獲得78.52%和71.96%的F1值,高于CaTNet(ap)模型但相差不大。CaTNet(mp)模型在銹病、炭疽病和斑點落葉病的精準率為90.41%、70.96%和72.16%,對比CaTNet(ap)模型精確率更高,說明CaTNet(mp)模型判定為這3類病害中真正為這3類病害的比重更大,可信度更高。此外CaTNet(ap)模型在銹病,炭疽病,斑點落葉病和花葉病的召回率為82.21%、75.30%、89.15%和63.97%,對比CaTNet(mp)模型召回率更高,證明CaTNet(ap)模型可以將更多上述3類病害圖像識別出來,對正例的查全能力更強。

      表5 CaTNet各模型在5種葉片類型的識別F1、精準率和召回率

      CaTNet模型4種變體訓練過程中,模型每個步長的準確率曲線(Accuracy)和損失值曲線(Loss)如圖6所示。圖6a、6b為使用4種降采樣的CaTNet變體模型在實驗室數據中40次迭代下的準確率與損失曲線,圖6c、6d為這些變體對自然環(huán)境數據進行識別得到的準確率與損失曲線。結合這些信息可以發(fā)現(xiàn),這些變體在實驗室數據下,不論是準確率曲線還是損失曲線都非常平滑,但這些模型在實際自然數據上的識別準確率與損失曲線卻有著較大波動,說明雖然在數值上各模型在實驗室數據上已經達到擬合,但實際上,這些模型經過每一次迭代后,所學習的具體特征有著較大差距。

      CaTNet變體模型中,使用平均池化進行降采樣的CaTNet(ap)模型準確率和損失曲線相對其余3種模型更加平滑,如圖6a、6b所示。此外,CaTNet(ap)模型相較CaTNet(mp)召回率更高,在實際作業(yè)中較高的召回率還有助于模型進行檢測與分割等任務,因此選擇CaTNet(ap)模型進行后續(xù)試驗。

      a. 實驗室數據準確率曲線a. Accuracy curve of laboratory datab. 實驗室數據損失曲線b. Loss curve of laboratory datac. 自然環(huán)境數據準確率曲線c. Accuracy curve of natural datad. 自然環(huán)境數據損失曲線d. Loss curve of natural data

      3.2 模型有效性分析

      為驗證CaTNet模型有效性,該研究選擇CNN模型和Transformer模型同時與CaTNet(ap)模型進行對比,其中CNN模型包括EfficientNetV2、ResNext[36]、ShuffleNetV2[37]。Transformer模型包括ViT與PVT。各模型訓練指標如表6所示,所有模型在實驗室數據上的表現(xiàn)較好,均能達到98%以上。而對自然數據的測試準確率中,本文設計的CaTNet(ap)模型的自然數據測試準確率達到79.35%,F(xiàn)1值達到78.33%,遠遠高于其他模型。

      表6 多種模型蘋果葉片病害識別結果

      從計算速度上看,CaTNet(ap)計算單張圖片時間為0.108 2 s,僅慢于ShuffleNetV2 0.5和ShuffleNetV2 1.0。但ShuffleNetV2為單分支網絡,并且測試準確率極低(58.77%),因此證明了CaTNet(ap)模型很好的平衡了計算效率和計算精度。相較CNN中精度最高的EfficientNetV2 s 模型計算速度更快,證明并行的雙分支結構可以在更短時間內調動更多神經元進行計算,具有高效計算能力的模型能夠適用于更多場景,極大地拓寬了深度學習的使用范圍。

      從該表中還可以發(fā)現(xiàn),CNN模型在自然數據準確率普遍比Transformer模型高,CNN模型中表現(xiàn)最佳的EfficientNetV2 s準確率為72.14%,F(xiàn)1值為73.76%,大幅超越Transformer模型中表現(xiàn)最佳的PVT m模型,驗證了Transformer模型在小數據集中不易提取正確信息特征,而使用雙分支結構的CaTNet模型解決了CNN的泛化能力弱和Transformer模型在小數據集表現(xiàn)不佳的問題。

      為了進一步對比CNN模型、Transformer模型和CaTNet模型的性能,該研究對CaTNet(ap)、EfficientNetV2 s、ResNext50、ShuffleNetV2 1.0、ViT和PVT m模型的準確率和損失曲線進行對比,結果如圖7所示。由圖7a、7b中各模型在實驗室數據準確率、損失曲線可以看出,這些模型的訓練曲線非常平滑,且都在最后達到了擬合。而對自然數據進行識別的準確度曲線,如圖7d、7c所示,CNN模型(EfficientNetV2 s,ResNext50,ShuffleNetV2 1.0)與Transformer模型(ViT,PVT m)有較大不同。相對CNN模型,Transformer模型的自然數據曲線不論是準確率還是損失曲線,都隨著訓練趨近平滑,即模型對特征的提取穩(wěn)定,但由于Transformer弱偏置歸納的缺點導致其準確率較低,損失較高,并產生了過擬合現(xiàn)象。而CNN模型,包括本文設計的CaTNet(ap)模型,它們的自然數據準確率和損失曲線在后期都有一定程度的振蕩,但CaTNet(ap)曲線相對兩種CNN模型更平滑,沒有出現(xiàn)每輪學習后,模型準確率值變化較大的情況。這證明通過Transformer分支提取全局特征有效的緩解了CNN分支中局部特征造成的特征偏離,使CaTNet(ap)模型的精度相較CNN模型和Transformer模型更高。同時CaTNet(ap)模型的CNN分支也使CaTNet模型獲得偏置歸納能力,有效解決了Transformer模型在小數據集上識別精度低,易過擬合的缺點。

      a. 實驗室數據準確率曲線a. Accuracy curve of laboratory datab. 實驗室數據損失曲線b. Loss curve of laboratory datac. 自然環(huán)境數據準確率曲線c. Accuracy curve of natural datad. 自然環(huán)境數據損失曲線d. Loss curve of natural data

      3.3 模型先進性分析

      為驗證該研究提出模型CaTNet先進性,本文首先和對作物葉片病害識別模型泛化能力的研究進行對比。由于各研究試驗所用硬件環(huán)境不同,為了更客觀地對比各研究中給出的計算速度,本文對各研究中給出的目標模型計算速度進行標準化,即使用對比研究中給出的某一易復現(xiàn)的模型,計算出該模型在本文環(huán)境下的計算速度S并記錄該模型在對比研究中計算的速度S。之后通過二者的比值與需要對比的模型計算速度S相乘,得到對比模型在本文實驗環(huán)境中的近似計算速度,標準化速度計算過程如式(8)所示。

      如表7所示,本文提出的CaTNet(ap)測試準確率為79.35%,相較Mohanty等[8]、Ferentinos等[9]測試準確率(31%,32.23%,33.27%)有極大提升,計算速度相較Ferentinos等[9]研究中使用的模型計算速度更快。

      表7 作物病害識別模型泛化能力對比

      其次,目前多數蘋果葉片病害識別研究,使用的訓練數據集和測試數據集為同源數據。為了進一步驗證模型先進性,和同源數據病害識別研究進行對比,本文對CaTNet模型重新進行了訓練。與針對實驗室數據研究進行對比中,本文使用1.1節(jié)中采集的實驗室數據數據對模型進行訓練。與針對自然環(huán)境數據研究進行對比中,使用本文采集的自然環(huán)境數據對模型進行訓練。這些試驗中所用數據以7∶3比例進行訓練并測試數據集劃分并進行2倍隨機角度旋轉擴充。

      表8中的各項研究數據可以看出,本文模型在實驗室環(huán)境數據與自然環(huán)境數據上的準確率均高于其他6種研究,相較Fu等[7]以輕量化為主題的模型計算速度更快,充分證明了CaTNet模型先進性。

      表8 多種蘋果葉片病害模型對比

      4 結 論

      本文基于CNN模型與Transformer模型,研究開發(fā)了可以增強模型泛化能力的雙分支深度學習模型CaTNet,并用于對蘋果健康和患病的葉片圖像進行識別。通過對降采樣層、CNN模型、Transformer模型以及模型結構對模型的影響進行了分析,并得出以下結論:

      1)使用卷積進行降采樣的CaTNet(conv)獲得74.06%測試準確率,遠低于使用池化進行降采樣的CaTNet(ap)測試準確率為79.35%,證明使用卷積進行降采樣會破壞來自Transformer的全局特征信息。

      2)CNN模型EfficientNetV2 s的測試準確率為72.14%,遠高于Transformer模型PVT m的52.72%,說明Transformer模型在小型數據集中更難擬合。

      3)CaTNet(ap)獲得79.35%的測試準確率,相較CNN模型72.14%和Transformer模型52.72%的測試準確率大幅提升。相較文獻[8-9]的研究,準確率從30%提升至79%,為提升模型泛化能力提供了更細致和科學的方法。

      4)具有雙分支結構的CaTNet模型雖然集成了兩套模型,但訓練成本并未增加,計算速度0.108 2 s/幀,證明本文提出的雙分支結構以及各種優(yōu)化方法可以降低訓練成本,提高神經元利用效率。

      [1] 郝菁,賈宗維. 基于圖像識別的蘋果葉片病害識別模型對比研究[J]. 中國農學通報,2022,38(12):153-158.

      Hao Qing, Jia Zongwei. Comparative study on apple leaf disease identification models based on image recognition[J]. Chinese Agricultural Science Bulletin, 2022, 38(12): 153-158. (in Chinese with English abstract)

      [2] Zhong Y, Zhao M. Research on deep learning in apple leaf disease recognition[J]. Computers and Electronics in Agriculture, 2020, 168: 105146.

      [3] 劉斌,徐皓瑋,李承澤,等. 基于快照集成卷積神經網絡的蘋果葉部病害程度識別[J]. 農業(yè)機械學報,2022,53(6):286-294.

      Liu Bin, Xu Haowei, Li Chengze, et al. Identification of apple leaf disease degree based on snapshot integrated convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Machinery, 2022, 53(6): 286-294. (in Chinese with English abstract)

      [4] Singh S, Gupta I, Gupta S, et al. Deep learning based automated detection of diseases from apple leaf images[J]. CMC-Computers, Materials & Continua, 2022, 71(1): 1849-1866.

      [5] Chao F, Hu X, Feng Z, et al. Construction of apple leaf diseases identification networks based on xception fused by SE module[J]. Applied Sciences, 2021, 11(10): 4614.

      [6] Li L, Zhang J, Wang B. Apple leaf disease identification with a small and Imbalanced dataset based on lightweight convolutional networks[J]. Sensors, 2021, 22(1): 173.

      [7] Fu L, Li S, Sun Y, et al. Lightweight-convolutional neural network for apple leaf disease identification[J]. Frontiers in Plant Science, 2022, 13: 831219.

      [8] Mohanty S P, Hughes D P, Salathé M. Using deep learning for image-based plant disease detection[J]. Frontiers in Plant Science, 2016, 7: 1419.

      [9] Ferentinos K P. Deep learning models for plant disease detection and diagnosis[J]. Computers and electronics in agriculture, 2018, 145: 311-318.

      [10] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[EB/OL]. (2020-06-03)[2022-04-18]. org/abs/2010. 11929.

      [11] Wang L, Girshick R B, Gupta A, et al. Non-local neural networks[EB/OL]. (2018-04-13)[2022-04-18]. https://arxiv. org/abs/1711. 07971.

      [12] Zhang C, Zhang M, Zhang S, et al. Delving deep into the generalization of vision transformers under distribution shifts[C]/IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans: IEEE, 2022: 7277-7286.

      [13] Fang Y, Liao B, Wang X, et al. You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection[EB/OL]. (2021-10-27)[2022-04-18]. https://arxiv. org/abs/2106. 00666.

      [14] Nasser M, Ranasinghe K, Khan S, et al. Intriguing Properties of Vision Transformers[EB/OL]. (2021-3-21)[2022-04-18]. https://arxiv.org/abs/2105. 10497.

      [15] Sabour S, Frosst N, Hinton G E. Dynamic routing between capsules[J]. Advances in Neural Information Processing Systems, 2017, 30: 3859-3869.

      [16] Geirhos R, Rubisch P, Michaelis C, et al. ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness[EB/OL]. (2019-01-14)[2022-04-18]. https://arxiv.org/abs/1811. 12231.

      [17] Wang H, Xie E, Fan P, et al. Pyramid vision Transformer: A versatile backbone for dense prediction without convolutions[C]//International Conference on Computer Vision (ICCV). Online: IEEE, 2021: 568-578.

      [18] 賈偉寬,孟虎,馬曉慧,等. 基于優(yōu)化Transformer網絡的綠色目標果實高效檢測模型[J]. 農業(yè)工程學報,2021,37(14):163-170.

      Jia Weikuan, Meng Hu, Ma Xiaohui, et al. Efficient detection model of green target fruit based on optimized Transformer network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(14): 163-170. (in Chinese with English abstract)

      [19] Tuli S, Dasgupta I, Grant E, et al. Are Convolutional Neural Networks or Transformers more like human vision?[EB/OL]. (2021-07-01)[2022-04-18]. https://arxiv.org/abs/2105. 07197.

      [20] Landau B, Smith L B, Jones S. Syntactic context and the shape bias in children's and adults' lexical learning[J]. Journal of Memory and Language, 1992, 31(6): 807-825.

      [21] Lin Y, Wang X, Liu Y, et al. A survey of Transformers[EB/OL]. (2021-06-15)[2022-04-18]. https:// arxiv.org/abs/2106. 04554.

      [22] Gong J, Shen H, Zhang M, et al. Highly Efficient 8-bit Low Precision Inference of Convolutional Neural Networks with Intelcaffe[M]. NewYork: IEEE, 2018.

      [23] Wang F, Wang J, Li R, et al. T-CNN: Trilinear convolutional neural networks model for visual detection of plant diseases[J]. Computers and Electronics in Agriculture, 2021, 190: 106468.

      [24] Gao M, Yang Y, Chen H, et al. A multiscale dual-branch feature fusion and attention network for hyperspectral images classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021, 14: 8180-8192.

      [25] Hughes D, Salathé M. An open access repository of images on plant health to enable the development of mobile disease diagnostics[EB/OL]. (2016-04-12)[2022-04-18]. https://arxiv. org/abs/1511. 08060.

      [26] Thapa R, Snavely N, Belongie S, et al. The Plant Pathology 2020 challenge dataset to classify foliar disease of apples[EB/OL]. (2020-04-24)[2022-04-18]. https://arxiv.org/abs/2004. 11958.

      [27] AiStudio. Pathological image of apple leaves[EB/OL]. (2019-11-17)[2022-04-18]. https: //aistudio. baidu. com/aistudio/datasetdetail/11591/0.

      [28] 孫俊,朱偉棟,羅元秋,等. 基于改進MobileNet-V2的田間農作物葉片病害識別[J]. 農業(yè)工程學報,2021,37(22):161-169.

      Sun Jun, Zhu Weidong, Luo Yuanqiu, et al. Recognizing the diseases of crop leaves in fields using improved Mobilenet-V2[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(22): 161-169. (in Chinese with English abstract)

      [29] Sandler M, Howard A, Zhu M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lack: IEEE, 2018: 4510-4520.

      [30] Howard A, Sandler M, Chu G, et al. Searching for mobilenetv3[C]/IEEE/CVF International Conference on Computer Vision (ICCV). Seoul: IEEE, 2019: 1314-1324.

      [31] 甘雨,郭慶文,王春桃,等. 基于改進EfficientNet模型的作物害蟲識別[J]. 農業(yè)工程學報,2022,38(1):203-211.

      Gan Yu, Guo Qingwen, Wang Chuntao, et al. Recognizing crop pests using an improved EfficientNet model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(1): 203-211. (in Chinese with English abstract)

      [32] Tan Mingxing, Le Q. Efficientnetv2: Smaller models and faster training[C]//International Conference on Machine Learning (ICML). Online: IMLS, 2021: 10096-10106.

      [33] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2014-09-04)[2022-04-18]. https: //arxiv. org/abs/1409. 1556.

      [34] Krizhevsky A, Sutskever I, Hinton G E. Imagenet ilassification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems, 2012, 25: 84-90.

      [35] Bottou L. Stochastic Gradient Descent Tricks[M]. Berlin: Springer, 2012.

      [36] 宋磊,李嶸,焦義濤,等. 基于ResNeXt單目深度估計的幼苗植株高度測量方法[J]. 農業(yè)工程學報,2022,38(3):155-163.

      Song Lei, Li Rong, Jiao Yitao, et al. Method for measuring seedling height based on ResNeXt monocular depth estimation[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(3): 155-163. (in Chinese with English abstract)

      [37] Ma N, Zhang X, Zheng H T, et al. Shufflenet v2: Practical guidelines for efficient cnn architecture design[C]//15th European Conference on Computer Vision (ECCV). Munich: Springer, 2018: 116-131.

      Model for identifying strong generalization apple leaf disease using Transformer

      Xu Yanlei, Kong Shuolin, Chen Qingyuan, Gao Zhiyuan, Li Chenxiao※

      (,,130118,)

      Apple diseases have pose a serious risk on the income of orchards in recent years. An accurate and rapid identification of apple diseases can be great benefit to better prevent and control diseases. Most effort has been made in the laboratory to train the identification model, due mainly to the limited condition for the deliberately infect apples in the real orchard. However, most models cannot fully meet the requirement of the disease detection in the large-scale production. In this study, a deep learning model (called CaTNet) was proposed to extract both the global and local information from the diseases of apple leaf. The image data of disease was collected from the apple orchards in the Jilin Province of China. A total of 16,464 images were obtained from the several publicly available datasets with the laboratory and natural environmental data collected from the field. Firstly, a model structure was constructed with both Transformer and convolutional neural network (CNN). Global and local information was extracted from the original images using the two branches. The strong generalization ability of the model was improved to learn a wider variety of features. Meanwhile, the global features were acquired to improve the resistance of the model to interference. Secondly, the Transformer block in the Transformer branch was optimized to make the structure simpler. In addition, a channel compression and expansion module was designed in the Transformer branch, in order to reduce the training cost of CaTNet for the less channel dimension of the input features. Afterwards, the multiple multilayer perceptrons were replaced by the grouped convolutional layers to further improve the computational speed of the model. Thirdly, the lightweight CNN branch was constructed with an inverse residual structure to fuse the point convolution of the expanded channels with the 3×3 convolution of the extracted information. The CNN branch was utilized to extract the local features of the image. As such, the model was more sensitive to the fine-grained features. Finally, the concat operation was implemented to fuse the different output of features from the two branches. After that, the CNN branch was selected to extract the local features from the global ones, whereas, the Transformer branch was extracted the global from the local. The multiple features to be cycled were also improved the generalization of the model. A comparison was made to clarify the effect of different down-sampling on the two-branch network. Specifically, an accuracy rate of 79.35%, 74.06% and 67.95% were obtained using pooling, 3×3 size convolution kernel, and 1×1 size convolution kernel for the down-sampling, respectively. The CaTNet model with two branches showed a computational speed of 0.108 2 s/Frame), which was faster than the various deep learning models, such as the EfficientNetV2 s (0.383 2 s/Frame) and PVT t (0.177 8 s/Frame). Consequently, the two-branch structure can be expected to accommodate more computation for the much higher computational speed. This finding can provide a design approach to build the deep learning models with the high generalization capability, particularly on the training with the high accuracy under only easily accessible data.

      image identification;agriculture; convolutional neural networks; apple leaf disease; Transformer model; strong generalization ability; feature fusion

      10.11975/j.issn.1002-6819.2022.16.022

      TP391.4

      A

      1002-6819(2022)-16-0198-09

      徐艷蕾,孔朔琳,陳清源,等. 基于Transformer的強泛化蘋果葉片病害識別模型[J]. 農業(yè)工程學報,2022,38(16):198-206.doi:10.11975/j.issn.1002-6819.2022.16.022 http://www.tcsae.org

      Xu Yanlei, Kong Shuolin, Chen Qingyuan, et al. Model for identifying strong generalization apple leaf disease using Transformer[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(16): 198-206. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.16.022 http://www.tcsae.org

      2022-04-18

      2022-08-01

      吉林省科技廳國際科技合作項目(20200801014GH);長春市科技局重點科技攻關項目(21ZGN28)

      徐艷蕾,博士,教授,博士生導師,研究方向為農業(yè)信息化。Email:yanleixu@jlau.edu.cn

      李陳孝,博士,講師,碩士生導師,研究方向為智能傳感器及農業(yè)信息化。Email: licx@jlau.edu.cn

      猜你喜歡
      分支準確率卷積
      基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
      2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
      巧分支與枝
      學生天地(2019年28期)2019-08-25 08:50:54
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      高速公路車牌識別標識站準確率驗證法
      基于傅里葉域卷積表示的目標跟蹤算法
      一類擬齊次多項式中心的極限環(huán)分支
      一種基于卷積神經網絡的性別識別方法
      電視技術(2014年19期)2014-03-11 15:38:20
      错那县| 榆社县| 南溪县| 柳林县| 永福县| 都江堰市| 西青区| 砀山县| 上饶市| 新邵县| 长顺县| 祁连县| 乌苏市| 宣武区| 友谊县| 盱眙县| 东丽区| 仁寿县| 泸州市| 肇庆市| 濮阳市| 新干县| 辽阳县| 铁力市| 北宁市| 晋城| 金平| 兴义市| 丹棱县| 体育| 万山特区| 藁城市| 西充县| 高雄市| 江津市| 绥滨县| 泸西县| 佛冈县| 兴安盟| 武宣县| SHOW|