摘要:針對草莓病害在區(qū)域分割時存在背景復(fù)雜、目標較小導(dǎo)致難以被有效分割等問題,提出一種基于多感受野與多尺度融合的草莓病害分割算法。首先搭建了U-Net基礎(chǔ)模型,使用結(jié)合注意力機制與殘差網(wǎng)絡(luò)的主干特征提取網(wǎng)絡(luò)(CBAM-ResNet50)替代U-Net中的主干特征提取網(wǎng)絡(luò)VGG16,一方面來加強目標區(qū)域的表征能力,抑制背景區(qū)域,以此實現(xiàn)復(fù)雜背景下的病害區(qū)域分割問題;另一方面通過殘差減少梯度消失,提升模型的收斂速度;接著在特征融合層,設(shè)計基于3D無參注意力機制(SimAM)的多尺度自適應(yīng)特征融合模塊,通過鄰近特征信息彌補當前層特征的信息丟失,以此提升小目標的檢測能力;最后在網(wǎng)絡(luò)底層設(shè)計基于膨脹卷積的多感受野模塊,通過不同膨脹率的膨脹卷積來增加特征的全局感受野以實現(xiàn)整體分割區(qū)域的感知。結(jié)果表明,本研究提出的方法mPA達90.30%,相比于標準U-Net模型提高了7.13百分點,本研究提出的方法能更好地對復(fù)雜背景下及小目標病害進行精準分割。
關(guān)鍵詞:草莓病害分割算法;U-Net;注意力機制;多尺度融合;多感受野
中圖分類號:TP391.41" 文獻標志碼:A
文章編號:1002-1302(2024)04-0206-10
收稿日期:2023-03-30
基金項目:國家自然科學(xué)基金(編號:62203285);陜西省自然科學(xué)基礎(chǔ)研究計劃 (編號:2022JQ-181);西安市科技計劃(編號:23NYGG0070)。
作者簡介:亢 潔(1973—),女,陜西渭南人,博士,副教授,碩士生導(dǎo)師,主要從事機器視覺、智慧農(nóng)業(yè)方面的研究。E-mail:kangjie@sust.edu.cn。
草莓病害圖像分割是病害檢測和病害類型識別方法中的一個重要步驟,其分割效果直接影響到后續(xù)的檢測和識別結(jié)果。由于草莓病害圖像的形狀和顏色復(fù)雜、多樣、無規(guī)律且多變,圖像分割技術(shù)能還原病害不規(guī)則分布區(qū)域,為后續(xù)病害類型識別與病害診斷提供有效依據(jù),具有重要意義[1-3]。之前草莓病害檢測主要為傳統(tǒng)人工檢測,需要消耗大量的人力物力,且容易受到檢測人員主觀因素的影響,檢測效率低,所以實現(xiàn)病害檢測的自動化具有很高的研究價值和應(yīng)用前景[4-7]。
隨著計算機視覺的發(fā)展,基于數(shù)字圖像處理的目標檢測方法被應(yīng)用于農(nóng)作物病害檢測中。孫俊等改進OTSU (大津法—最大類間方差)算法,利用粒子群優(yōu)化算法尋找最優(yōu)閾值并用于生菜葉片分割[8]。Zhang等提出利用K-means(K均值聚類)算法對圖像進行分割處理,從分割圖像中提取PHOG(pyramid histogram of oriented gradient)特征識別病害從而達到分割效果[9-10]。Ma等提出了一種利用綜合顏色特征進行蔬菜病害葉斑分割的方法,實現(xiàn)對病害葉片病斑和雜波背景的強識別[11]。上述基于傳統(tǒng)圖像處理方法需要進行特征提取和選擇,然而,由于農(nóng)作物病害圖像病變區(qū)域非常復(fù)雜和不規(guī)則,傳統(tǒng)的方法從圖像中選擇和提取出用于病害識別的最佳特征比較困難,傳統(tǒng)病害檢測成本高、耗時長,因而網(wǎng)絡(luò)的靈活性不高,應(yīng)用范圍有所限制。
近年來,由于深度學(xué)習(xí)具有更好的泛化性能,并且具備良好的抗噪聲能力,逐漸被應(yīng)用在病害的分割中[12]。不同程度地實現(xiàn)了多尺度提取特征目標,提高模型的精度和分割速度,普適性較好,泛化性較強。王翔宇等結(jié)合黃瓜褐斑病可見光譜圖像,利用U-Net(一種卷積神經(jīng)網(wǎng)絡(luò)方法)深度學(xué)習(xí)網(wǎng)絡(luò)構(gòu)建黃瓜褐斑病語義分割模型,實現(xiàn)了病斑分割[13]。朱立學(xué)等對香蕉果串識別系統(tǒng)中傳統(tǒng)的 U-Net 網(wǎng)絡(luò)存在實時性差、參數(shù)量多、下采樣后丟失空間信息等問題,提出基于U-Net模型的輕量化分割網(wǎng)絡(luò)[14]。張會敏等提出一種基于多尺度融合卷積神經(jīng)網(wǎng)絡(luò)的黃瓜病害葉片分割方法,提出使用多尺度卷積網(wǎng)絡(luò)與線性插值算法,改進后的網(wǎng)絡(luò)準確率可達93.12%[15]。何自芬等提出了由編碼、解碼器構(gòu)成的多尺度融合神經(jīng)網(wǎng)絡(luò),此法避免了傳統(tǒng)的人工特征提取,且比現(xiàn)有的分割網(wǎng)絡(luò)結(jié)構(gòu)簡單[16-17]。上述研究均在農(nóng)作物病害檢測中取得一定的成果,但是其中農(nóng)作物病害檢測的種類較為單一,一般只針對農(nóng)作物某一種病害,同時農(nóng)作物病害分割時背景復(fù)雜且目標小的問題處理的不夠好。
因此本研究針對草莓病害區(qū)域在分割時存在背景復(fù)雜且目標小而導(dǎo)致目標難以被有效分割的問題,提出一種基于多感受野與多尺度融合的草莓病害分割算法,并應(yīng)用于草莓病害分割,通過7種病害圖像分割試驗進行驗證。
1 草莓病害分割網(wǎng)絡(luò)結(jié)構(gòu)
1.1 基于多感受野與多尺度融合的草莓病害分割網(wǎng)絡(luò)
U-Net模型在醫(yī)學(xué)圖像分割中備受好評,但在草莓病害分割上還存在一定問題。例如草莓病害占比較小,屬于小目標檢測,其特征信息很少,為網(wǎng)絡(luò)特征提取帶來極大難度;且草莓生長環(huán)境較復(fù)雜,常伴隨泥土、石頭、雜草等外界因素,充分考慮復(fù)雜的生長環(huán)境因素,是提高分割精度的關(guān)鍵之一。
針對草莓病害區(qū)域存在背景復(fù)雜且目標小而導(dǎo)致目標難以被有效分割的問題,本研究提出一種基于多感受野與多尺度融合的草莓病害分割算法,整體網(wǎng)絡(luò)見圖1。首先搭建了 U-Net 基礎(chǔ)模型,如圖1左側(cè)虛線框所示,在主干特征提取網(wǎng)絡(luò)層融合CBAM(convolutional block attention module)注意力機制與殘差網(wǎng)絡(luò),構(gòu)成CBAM-ResNet50主干特征提取網(wǎng)絡(luò),來加強目標區(qū)域的表征能力,抑制背景區(qū)域,以此實現(xiàn)復(fù)雜背景下的病害區(qū)域分割問題,并通過殘差減少梯度消失,提升模型的收斂速度;其次在特征融合處,設(shè)計基于3D無參注意力機制(SimAM)的多尺度自適應(yīng)特征融合模塊(SimAM multi scale adaptive feature fusion module),實現(xiàn)過程是將左側(cè)編碼器的4個輸出層進行基于輸出尺度下的融合,即解碼器的每一層輸入均來自編碼器各層輸出的融合表達,防止其因為特征尺度的降低而出現(xiàn)目標丟失的問題,同時將融合后的結(jié)果使用SimAM注意力機制優(yōu)化,從能量分布角度來有效增強目標區(qū)域的顯現(xiàn)。模塊共計4層,模塊第1層如圖1中黃色虛線框所示,模塊的第1~4層的輸出分別由SM0~SM3表征;最后在網(wǎng)絡(luò)底層設(shè)計基于膨脹卷積的多感受野模塊(multi receptive field module),如圖1底層藍色模塊所示,通過不同膨脹率的膨脹卷積來擴大特征的全局感受野以實現(xiàn)小目標分割區(qū)域的感知。
1.1.1 基于注意力機制與殘差結(jié)構(gòu)的主干特征提取網(wǎng)絡(luò)
U-Net使用VGG16作為其特征提取網(wǎng)絡(luò),但是VGG16模型易導(dǎo)致特征提取網(wǎng)絡(luò)梯度消失,且極大的參數(shù)量和計算量造成計算資源浪費。為了解決這個問題,本研究選取ResNet50做為主干特征提取網(wǎng)絡(luò),有效緩解了梯度彌散和網(wǎng)絡(luò)退化,更好地保留缺陷區(qū)域的特征信息,輕量化網(wǎng)絡(luò)的引入,能有效降低計算冗余。
由于草莓病害區(qū)域在分割時存在背景復(fù)雜且目標小而導(dǎo)致目標難以被有效分割的問題,使得在分割時對細節(jié)特征提取要求較高,且小目標分割時容易混入更大比例的復(fù)雜背景,合理地使用注意力機制可以幫助提取網(wǎng)絡(luò)重點關(guān)注目標區(qū)域,從特征中學(xué)習(xí)分布規(guī)律,對其重新校準,聚焦位置,使模型更高效地捕獲關(guān)鍵信息,提高模型的分割能力。CBAM就是空間和通道混合注意力機制中具有代表性的網(wǎng)絡(luò),結(jié)構(gòu)見圖2,CBAM模塊首先通過通道注意力模塊根據(jù)不同通道的重要性對通道進行加權(quán)操作,提高重要通道在運算中所占的比重,使得表達小目標的特征通道對最終特征有更大的貢獻率;
再利用空間注意力模塊來突出目標區(qū)域,引導(dǎo)網(wǎng)絡(luò)加強目標區(qū)域的表征能力,抑制背景區(qū)域,以此實現(xiàn)復(fù)雜背景下的病害區(qū)域分割問題。
將具有任務(wù)信息定位特性的注意力模塊嵌入主干特征提取網(wǎng)絡(luò)ResNet50中,并充分保留ResNet50的殘差結(jié)構(gòu),如圖3-A所示,在網(wǎng)絡(luò)編碼階段引入了CBAM注意力模型,將其嵌入到殘差模塊之后,形成基于注意力機制與殘差結(jié)構(gòu)(convolutional block attention module and resdiual network 50,CBAM-ResNet50)的主干特征提取網(wǎng)絡(luò),圖3-B中以3層Bottleneck為例解釋了本研究中殘差模塊的使用情況。改進后的主干特征提取網(wǎng)絡(luò)一方面能加強目標區(qū)域的表征能力,抑制背景區(qū)域,以此實現(xiàn)復(fù)雜背景下的病害區(qū)域分割問題;另一方面通過殘差減少梯度消失,提升模型的收斂速度。
1.1.2 基于3D無參注意力機制的多尺度自適應(yīng)特征融合模塊
隨著模型深度的不斷加大,與輸入圖像輪廓特征有關(guān)的信息會逐層丟失。傳統(tǒng)的語義分割模型在編碼層和解碼層之間通過直接相連的方式進行特征圖和信息的傳遞,因此在編碼階段,特征圖各個位置均以相同的感受野獲取輸入圖像的信息。但是對于病害區(qū)域與背景區(qū)域,感受野需求往往是不一樣的。同時由于草莓病害區(qū)域在分割時存在背景復(fù)雜導(dǎo)致目標難以被有效分割的問題,使得在分割時對細節(jié)特征提取要求較高,且小目標分割時容易混入更大比例的復(fù)雜背景,基于此,本研究設(shè)計了基于3D無參注意力機制的多尺度自適應(yīng)特征融合模塊,結(jié)構(gòu)見圖4,實現(xiàn)過程是將左側(cè)編碼器的4個輸出層進行基于輸出尺度下的融合,即解碼器的每一層輸出均來自編碼器各層輸出的融合表達,濾除特征層上的無用信息,區(qū)分特征融合過程中不同特征的重要程度,提高多尺度自適應(yīng)目標特征的融合度,防止其因為特征尺度的降低而出現(xiàn)目標丟失的問題,同時將融合后的結(jié)果進行SimAM注意力機制優(yōu)化,從能量分布角度來有效增強目標區(qū)域的顯現(xiàn),輸出為4層不同尺度融合后的結(jié)果,由SM0~SM3表征。
借助自適應(yīng)特征融合思想,將主干特征提取網(wǎng)絡(luò)每層輸出的特征依次作為基于3D無參注意力機制的多尺度自適應(yīng)特征融合模塊的第0、1、2、3層輸入特征(Level 0、Level 1、Level 2、Level 3),先將4層不同尺度的特征層進行自適應(yīng)特征融合,再對融合后輸出的特征進行SimAM注意力機制特征提取,構(gòu)成一個新的基于3D無參注意力的多尺度自適應(yīng)特征融合模塊。在融合之前,需要將4個不同尺度特征通過上采樣作調(diào)整到統(tǒng)一尺寸,然后再根據(jù)自適應(yīng)學(xué)習(xí)到的權(quán)重進行加權(quán)融合,得到融合后的特征:
Ylij=αlij·X0→lij+βlij·X1→lij+γlij·X2→lij+λlij·X3→lij;(1)
αlij+βlij+γlij+λlij=1;(2)
αlij=eulαijeulαij+eulβij+eulγij+eulλij。 (3)
式中:Ylij表示在Yl通道輸出特征圖(i,j)處的特征向量;Xn→lij表示從Level n的特征縮放到Level l的特征尺寸大小后在(i,j)處的特征向量,其中n表示 0~3層,l表示0~3層;αlij、βlij、γlij、λlij為4個不同尺度的輸入特征在(i,j)處的權(quán)重,通過1×1卷積得到ulα、ulβ、ulγ、ulλ。
為降低土壤、其他健康葉片等復(fù)雜背景的干擾,提升網(wǎng)絡(luò)模型的抗干擾能力,本研究在構(gòu)建多尺度模塊時,引入3D無參數(shù)注意力機制——SimAM注意力機制[18],結(jié)構(gòu)見圖5,與現(xiàn)有的通道注意力機制或空間注意力機制相比,該注意力可在不引入額外參數(shù)的情況下更全面高效地評估特征權(quán)重,即可直接為特征圖推導(dǎo)出三維權(quán)值,使得網(wǎng)絡(luò)學(xué)習(xí)更多有辨別性的神經(jīng)元以提高網(wǎng)絡(luò)的特征提取能力。同時SimAM的大部分操作均基于優(yōu)化能量函數(shù)選擇,避免了過多的結(jié)構(gòu)調(diào)整,加速了注意力權(quán)值的計算,從而確保基于3D無參注意力機制的多尺度自適應(yīng)特征融合模塊能有效提升模型性能,增強重要特征的有效提取,強化草莓病害特征并抑制背景特征,從能量分布角度來有效增強目標區(qū)域的顯現(xiàn),有效解決了草莓病害分割時復(fù)雜背景干擾的問題。按照注意力機制的定義,對特征進行增強處理:
X~′=sigmoid1E⊙X′;(4)
X~′=sigmoid1E⊙(αlij·X0→lij+βlij·X1→lij+γlij·X2→lij+λlij·X3→lij)。(5)
其中:式(4)為SimAM注意力機制模塊增強后的特征,式(5)為本研究構(gòu)建的基于3D無參注意力機制的多尺度自適應(yīng)特征融合模塊增強后的特征;X~′為基于3D無參注意力機制的多尺度自適應(yīng)特征融合模塊的輸出特征;X′為特征融合后的輸入特征;⊙為點積運算;E為每個通道上的能量函數(shù),sigmoid函數(shù)用于限制E中可能出現(xiàn)的過大值。
1.1.3 基于膨脹卷積的多感受野模塊
由于草莓病害在區(qū)域分割時存在小目標病害現(xiàn)象,當需要通過上采樣操作將圖像擴大到原始尺寸時,會導(dǎo)致圖像數(shù)據(jù)丟失,空間層級化信息以及有關(guān)小目標病害重建等問題。為使淺層特征圖也富含語義信息,采用不同膨脹率大小的膨脹卷積進行多感受野提取,擴大特征圖感受野,充分獲取特征的上下文語義信息。膨脹卷積的提出是為了解決圖像分割算法中圖像分辨率降低、細節(jié)丟失的問題。而膨脹卷積操作可以在增加感受野的同時保持特征圖的尺寸不變,從而代替下采樣和上采樣的操作。膨脹卷積的計算方式:
假設(shè)原始的卷積核大小為f,膨脹系數(shù)為r,則經(jīng)過膨脹后卷積核的大小f′為
f′=r(f-1)+1。(6)
卷積核經(jīng)過膨脹后的感受野大小為
[(f+1)×(r-1)+f]×[(f+1)×(r-1)+f]×[(f+1)×(r-1)+f]。(7)
本研究設(shè)計的基于膨脹卷積的多感受野模塊見圖6。試驗過程為將模型第4層輸出的特征圖采用不同膨脹率大小的膨脹卷積擴大感受野,本研究采用的是3×3大小的卷積核,使用膨脹率為6、12、18的膨脹卷積對輸入圖像進行采樣,得到豐富的圖像上下文信息,并將3條分支的輸出進行特征融合,得到新的特征圖,新特征圖的大小保持不變,以此來獲取不同尺度的感受野,提取多尺度的信息,同時彌補在解碼過程中利用縮小的特征圖還原至原圖大小時造成的精度損失問題。
2 結(jié)果與分析
2.1 試驗設(shè)計
本研究試驗操作平臺為Ubuntu 16.04系統(tǒng),采用PyTorch深度學(xué)習(xí)框架,PU型號為Intel Xeon E5-2678 v3@2.5 GHz,顯卡(GPU)的型號為NVIDIA GeForce RTX 2080 Ti,顯卡內(nèi)存11 GB,編程語言為Python。設(shè)置試驗初始學(xué)習(xí)率為0.001,學(xué)習(xí)動量為0.9,權(quán)重衰減率為0.000 5。本次試驗周期為2022年10月至2023年1月,試驗地點為陜西科技大學(xué)電氣與控制工程學(xué)院實驗樓。
2.2 數(shù)據(jù)樣本結(jié)構(gòu)
下載公開的草莓病害數(shù)據(jù)集(https://www.kaggle.com),本數(shù)據(jù)集包括角斑病、果腐病、花枯病、灰霉病、葉斑病、白粉葉病、白粉果病7種病害,共包含2 499幅圖像,預(yù)測結(jié)果中不同顏色分割圖代表不同類別病害,每類草莓病害圖像數(shù)量和比例分布見表1。對所下載的數(shù)據(jù)集進行Labelme標注,Labelme界面中央?yún)^(qū)域為需要標注的圖像,對目標物體進行像素點標注,標注過程見圖7。
2.3 試驗結(jié)果分析
2.3.1 評價指標
草莓病害分割預(yù)測結(jié)果可以分為真陽性(TP)、真陰性(TN)、假陽性(FP)、假陰性(FN),由此可以衍生出以下評價指標:
PA(pixel accuracy)指像素準確率,準確率可以綜合地反映檢測器的性能,用PA評價單個類別的檢測結(jié)果。像素準確率PA又由召回率R(recall)與精準率P(precision)決定,是單個類別檢測性能結(jié)果的直觀標準。召回率計算公式為
R=TPTP+FN×100%。(8)
精準率計算公式為
P=TPTP+FP×100%。(9)
對多個類別的檢測效果使用平均像素準確率均值(mean pixel accuracy,mPA)進行評價。PA、mPA的值越高,表示檢測器的性能越好,F(xiàn)1分數(shù)同時兼顧模型的精確率和召回率。使用mIoU(mean intersection over union)驗證預(yù)測值于真實值的平均交并比。使用準確率(accuracy)檢驗正確分類樣本占總樣本數(shù)的概率。
2.3.2 消融試驗對比
為驗證改進算法的效果,在相同環(huán)境下進行了消融試驗。將本研究提出的模型(U-Net+CBAM-ResNet50+SMSAFU+MRFU)與標準U-Net模型(VGG-U-Net)、基于CBAM-ResNet50主干特征提取網(wǎng)絡(luò)的U-Net模型(U-Net+CBAM-ResNet50)、基于CBAM-ResNet50主干特征提取網(wǎng)絡(luò)與3D無參多尺度自適應(yīng)特征融合的U-Net模型(U-Net+CBAM-ResNet50+SMSAFU)進行消融試驗性能評估分析,其中SMSAFU為基于3D無參注意力機制的多尺度自適應(yīng)特征融合模塊,MRFU為基于膨脹卷積的多感受野模塊,表2為測試集在消融試驗的參數(shù)對比結(jié)果。
從表2可以看出,對于本研究使用的數(shù)據(jù)集而言,基于CBAM-ResNet50主干特征提取網(wǎng)絡(luò)的 U-Net 模型與原U-Net模型相比,參數(shù)規(guī)模減小,mPA、F1分數(shù)、mIoU與準確率值均有提升,其中模型尺寸減小最明顯,由原來的167.9 MB減少至 42.5 MB,證明ResNet50主干特征網(wǎng)絡(luò)比VGG16主干特征網(wǎng)絡(luò)性能優(yōu)越,改變主干特征提取網(wǎng)絡(luò)確實減小了模型參數(shù),但是對于模型整體性能的提升還存在一定的改進空間。
當在U-Net+CBAM-ResNet50模型基礎(chǔ)上增加SMSAFU模塊后,網(wǎng)絡(luò)性能明顯有所提升,其中mPA、F1分數(shù)、mIoU及準確率值均提升了0.79百分點、0.024 2、2.67百分點、1.29百分點,損失值降低 0.024 6。證明增加SMSAFU模塊對復(fù)雜背景病害分割模型精度提升具有非常明顯的效果。
當在U-Net+CBAM-ResNet50+SMSAFU模型基礎(chǔ)上增加MRFU后,進一步幫助模型提高草莓病害分割準確率,使特征提取網(wǎng)絡(luò)重點關(guān)注目標區(qū)域,有效降低了模型的錯檢率和漏檢率。改進后 U-Net+CBAM-ResNet50+SMSAFU+MRFU模型與標準U-Net模型相比,模型大小降低了75.4 MB,mPA提高了7.13百分點、F1分數(shù)值提高了0.093 5、mIoU提高了8.52百分點并且損失值降低了 0.359 5,因此本研究提出模型比原始U-Net模型更適用于草莓病害區(qū)域分割。
2.3.3 不同分割模型性能對比分析
為了驗證本研究所提網(wǎng)絡(luò)對草莓病害圖像分割的有效性,將本研究網(wǎng)絡(luò)與FCN、SegNet、VGG-U-Net及Res-U-Net分割網(wǎng)絡(luò)對比。由表3可知,改進后的網(wǎng)絡(luò)綜合表現(xiàn)最好,在測試集上的平均召回率、平均精確率、mPA、mIoU分別為90.30%、93.15%、90.30%、82.67%。FCN網(wǎng)絡(luò)模型最大,計算量過大使其需要大量計算資源,不適合配置較低的設(shè)備使用。SegNet的表現(xiàn)最差,mIoU僅為60.21%,但其模型尺寸相比FCN與VGG-U-Net均有減少。Res-Unet模型大小約為VGG-U-Net的23.7%。綜合各組數(shù)據(jù)比對,證明本研究設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)可以精準分割出草莓病害區(qū)域。
為了驗證本研究所提注意力機制對草莓病害圖像分割的有效性,引入了基于通道注意力機制和空間注意力機制不同對應(yīng)方式的多種注意力機制,將本研究試驗中的CBAM-ResNet50主干特征提取網(wǎng)絡(luò)中的CBAM注意力機制替換為Eca-Net(efficient channel attention neural networks)、scSE(spatial and channel squeeze&excitation)與SA(shuffle attention)注意力機制。評價指標結(jié)果見表4,損失曲線對比見圖8。
由圖8可知,在數(shù)據(jù)集訓(xùn)練過程中,各網(wǎng)絡(luò)模型的損失值都隨著迭代次數(shù)的增加不斷收斂,其中CBAM注意力機制與其他注意力機制相比損失值與損失波動更小,證明CBAM注意力機制適用于本研究所提方法。
從表4可以看出,在主干特征提取層嵌入4種不同注意力機制后,模型各項指標相較于標準U-Net模型均有提高。對比其他3種注意力機制,CBAM機制雖然參數(shù)規(guī)模比最小的Eca-Net和SA大0.33%,mIoU比最大的Eca-Net低1.01百分點,但mPA、損失值和F1分數(shù)均為最優(yōu)。CBAM注意力充分混合空間與通道信息,對于模型的定位能力mPA至少優(yōu)于其他3種注意力機制1.16百分點,損失值至少下降1.6%,與此同時F1分數(shù)為0.884 3,充分提高了本研究算法的檢測精度。綜合來看,CBAM嵌入ResNet50形成本研究算法的主干特征提取網(wǎng)絡(luò)較為合適。
2.3.4 可視化結(jié)果
為直觀地展示本研究所提網(wǎng)絡(luò)對草莓病害圖像的檢測效果,將本研究所提網(wǎng)絡(luò)與標準U-Net網(wǎng)絡(luò)在測試集中的分割效果進行了對比分析。圖9為草莓角斑病原圖、標簽圖、本研究算法與原始U-Net的分割示意圖,其中黑色為背景,紅色為角斑病病害。
當圖像中病害面積較小且背景有較大干擾時,如圖9第1列所示,本研究所提網(wǎng)絡(luò)能較好地分割出邊緣信息與病害區(qū)域面積;當圖像邊緣信息較復(fù)雜時,如圖9第2列所示,原始U-Net網(wǎng)絡(luò)分割的草莓病害圖像缺失明顯,而本研究提出的網(wǎng)絡(luò)雖然也存在漏檢現(xiàn)象,但病害結(jié)構(gòu)比較完整;當圖像中病害多區(qū)域分布時,如圖9第3、第4列所示,原始 U-Net 網(wǎng)絡(luò)分割將多病害區(qū)域整合為一個病害區(qū)域,而本研究提出的網(wǎng)絡(luò)能非常清晰地區(qū)別病害區(qū)域。因此選用本研究提出的網(wǎng)絡(luò)能有效抑制各種干擾,提高檢測性能。
為直觀地展示不同注意力對草莓病害圖像的分割效果,將本研究試驗中的CBAM-ResNet50主干特征提取網(wǎng)絡(luò)中的CBAM注意力機制替換為 Eca-Net、scSE與SA注意力機制。圖10為花枯病、白粉葉病、角斑病和灰霉病在不同注意力下的分割示意圖,其中黑色為背景,黃色為花枯病,灰色為白粉葉病,紅色為角斑病,藍色為灰霉病。
原始圖像從左到右依次為小目標病害情況、復(fù)雜背景情況、病害被遮擋情況和圖像質(zhì)量差情況。由圖10可以看出,改進后的CBAM-ResNet50主干特征提取網(wǎng)絡(luò)相較于結(jié)合其他注意力機制的主干特征提取網(wǎng)絡(luò)可以分割出較完整的病害區(qū)域,證明嵌入CBAM注意力機制可以使網(wǎng)絡(luò)整體以及局部分割效果都能達到最好,實現(xiàn)更加準確的分割。
3 結(jié)論
針對現(xiàn)有模型在草莓病害區(qū)域分割時背景復(fù)雜且目標小而導(dǎo)致目標難以被有效分割的問題,本研究提出了一種基于多感受野與多尺度融合的草莓病害分割網(wǎng)絡(luò)。從試驗結(jié)果可以得出,本研究提出的方法相比標準U-Net模型,模型大小降低了 75.4 MB,
mPA提高了7.13百分點,F(xiàn)1分數(shù)提高了0.093 5、mIoU提高了8.52百分點,并且損失值降低了 0.359 5,減少了模型的漏檢錯檢情況。與FCN、SegNet、VGG-Unet 及Res-Unet其他分割網(wǎng)絡(luò)進行比較,本研究算法在相同數(shù)據(jù)集的條件下,mPA均高于FCN、SegNet、VGG-Unet與ResUnet網(wǎng)絡(luò)模型。因此,本研究提出的網(wǎng)絡(luò)模型對小目標病害和復(fù)雜背景情況也具有較好的分割效果,證明本研究模型可實現(xiàn)草莓病害的準確分割,能夠為精準農(nóng)業(yè)的發(fā)展提供支持。
參考文獻:
[1]Li H A,Chen C B,Zhao S R,et al. Color disease leaf image segmentation using NAMS superpixel algorithm[J]. Technology and Health Care,2018,26(S1):151-156.
[2]楊晉丹,楊 濤,苗 騰,等. 基于卷積神經(jīng)網(wǎng)絡(luò)的草莓葉部白粉病病害識別[J]. 江蘇農(nóng)業(yè)學(xué)報,2018,34(3):527-532.
[3]Zhang S W,You Z H,Wu X W. Plant disease leaf image segmentation based on superpixel clustering and EM algorithm[J]. Neural Computing and Applications,2019,31(2):1225-1232.
[4]宋余慶,謝 熹,劉 哲,等. 基于多層EESP深度學(xué)習(xí)模型的農(nóng)作物病蟲害識別方法[J]. 農(nóng)業(yè)機械學(xué)報,2020,51(8):196-202.
[5]郭旭超,郝 霞,姚曉闖,等. 農(nóng)業(yè)病蟲害知識問答意圖識別與槽位填充聯(lián)合模型研究[J]. 農(nóng)業(yè)機械學(xué)報,2023,54(1):205-215.
[6]孫 紅,李 松,李民贊,等. 農(nóng)業(yè)信息成像感知與深度學(xué)習(xí)應(yīng)用研究進展[J]. 農(nóng)業(yè)機械學(xué)報,2020,51(5):1-17.
[7]黃林生,羅耀武,楊小冬,等. 基于注意力機制和多尺度殘差網(wǎng)絡(luò)的農(nóng)作物病害識別[J]. 農(nóng)業(yè)機械學(xué)報,2021,52(10):264-271.
[8]孫 俊,宋 佳,武小紅,等. 基于改進Otsu算法的生菜葉片圖像分割方法[J]. 江蘇大學(xué)學(xué)報(自然科學(xué)版),2018,39(2):179-184.
[9]Zhang S W,Wang H X,Huang W Z,et al. Plant diseased leaf segmentation and recognition by fusion of superpixel,K-means and PHOG[J]. Optik,2018,157:866-872.
[10]Wang Z B,Wang K Y,Pan S H,et al. Segmentation of crop disease images with an improved K-means clustering algorithm[J]. Applied Engineering in Agriculture,2018,34(2):277-289.
[11]Ma J C,Du K M,Zhang L X,et al. A segmentation method for greenhouse vegetable foliar disease spots images using color information and region growing[J]. Computers and Electronics in Agriculture,2017,142:110-117.
[12]戴久竣,馬肄恒,吳 堅,等. 基于改進殘差網(wǎng)絡(luò)的葡萄葉片病害識別[J]. 江蘇農(nóng)業(yè)科學(xué),2023,51(5):208-215.
[13]王翔宇,李海生,呂麗君,等. 基于U-net和可見光譜圖像的黃瓜褐斑病分割[J]. 光譜學(xué)與光譜分析,2021,41(5):1499-1504.
[14]朱立學(xué),伍榮達,付根平,等. 基于多尺度串聯(lián)空洞卷積的輕量
化UNet香蕉圖像分割[J]. 農(nóng)業(yè)工程學(xué)報,2022,38(13):194-201.
[15]張會敏,謝澤奇,張善文. 基于注意力膠囊網(wǎng)絡(luò)的作物病害識別方法[J]. 江蘇農(nóng)業(yè)科學(xué),2022,50(6):101-106.
[16]何自芬,黃俊璇,劉 強,等. 基于非對稱混洗卷積神經(jīng)網(wǎng)絡(luò)的蘋果葉部病害分割[J]. 農(nóng)業(yè)機械學(xué)報,2021,52(8):221-230.
[17]顧興健,朱劍峰,任守綱,等. 多尺度U網(wǎng)絡(luò)實現(xiàn)番茄葉部病斑分割與識別[J]. 計算機科學(xué),2021,48(增刊2):360-366,381.
[18]Yang L,Zhang R Y,Li L,et al. Simam:a simple,parameter-free attention module for convolutional neural networks[C]//International conference on machine learning. PMLR,2021:11863-11874.