鐘昌源,胡澤林,李 淼,李華龍,楊選將,劉 飛
(1. 中國(guó)科學(xué)院合肥物質(zhì)科學(xué)研究院智能機(jī)械研究所,合肥 230031;2. 中國(guó)科學(xué)技術(shù)大學(xué)研究生院科學(xué)島分院,合肥 230026;3. 浙江大學(xué)華南工業(yè)技術(shù)研究院,廣州 510700;4. 浙江大學(xué)生物系統(tǒng)工程與食品科學(xué)學(xué)院 杭州 310058)
農(nóng)業(yè)是中國(guó)經(jīng)濟(jì)建設(shè)與發(fā)展的支柱,隨著科技的發(fā)展和數(shù)字農(nóng)業(yè)技術(shù)的推進(jìn),農(nóng)業(yè)獲得廣泛的發(fā)展,但是仍然有許多因素制約著農(nóng)業(yè)的進(jìn)一步發(fā)展。其中,農(nóng)作物病害嚴(yán)重制約農(nóng)業(yè)的發(fā)展。傳統(tǒng)農(nóng)作物病害主要是通過農(nóng)業(yè)專家進(jìn)行診斷,效率低,治理慢,成本高,準(zhǔn)確度隨個(gè)人主觀意愿波動(dòng),嚴(yán)重限制現(xiàn)代農(nóng)業(yè)的發(fā)展。所以,現(xiàn)代農(nóng)業(yè)亟需高效、準(zhǔn)確和智能的農(nóng)作物病害識(shí)別技術(shù)。
圖像處理技術(shù)作為農(nóng)作物病害識(shí)別的方法之一,其首先對(duì)農(nóng)作物圖片進(jìn)行預(yù)處理和病斑區(qū)域分割,然后提取特征參數(shù)訓(xùn)練傳統(tǒng)分類器識(shí)別農(nóng)作物病害種類。傳統(tǒng)分類器有貝葉斯判別模型[1]和支持向量機(jī)(Support Vector Machine,SVM)[2],具有較好的分類效果。柴阿麗等[3]使用貝葉斯判別模型對(duì)番茄葉病害進(jìn)行識(shí)別,準(zhǔn)確率達(dá)到94.7%。Camargo等[4]通過使用支持向量機(jī)提取棉花病害的不同特征對(duì)3種棉花病害進(jìn)行識(shí)別,準(zhǔn)確率達(dá)到90%。但是傳統(tǒng)圖像處理方法受限于數(shù)據(jù)集樣本少,特征參數(shù)提取復(fù)雜,魯棒性弱,泛化能力差,難以擴(kuò)展到不同的農(nóng)作物且無法應(yīng)用于自然環(huán)境下的農(nóng)作物病害檢測(cè),導(dǎo)致無法廣泛推廣應(yīng)用。
隨著深度學(xué)習(xí)(Deep Learning,DL)的發(fā)展和應(yīng)用,特別是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的出現(xiàn),農(nóng)業(yè)領(lǐng)域逐漸成為研究熱點(diǎn)。卷積神經(jīng)網(wǎng)絡(luò)是一種高效的圖像處理技術(shù),能有效克服傳統(tǒng)圖像處理技術(shù)的弊端,具有自動(dòng)提取特征、擬合特征方程等特點(diǎn)。Liu等[5]利用卷積神經(jīng)網(wǎng)絡(luò)模型識(shí)別蘋果葉片病害,準(zhǔn)確度達(dá)到97.6%。馬浚誠(chéng)等[6]基于卷積神經(jīng)網(wǎng)絡(luò)識(shí)別溫室黃瓜病害,識(shí)別準(zhǔn)確率為95.7%。Mohanty等[7]利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)包含了14類農(nóng)作物、26種病害的PlantVillage公共農(nóng)作物數(shù)據(jù)集進(jìn)行病害分類,識(shí)別精度高達(dá)99.3%。
上述研究表明了卷積神經(jīng)網(wǎng)絡(luò)在農(nóng)作物病害識(shí)別方面有著獨(dú)特的優(yōu)勢(shì),但高性能卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)數(shù)據(jù)依賴嚴(yán)重。由于農(nóng)作物和病害的多樣性,農(nóng)業(yè)圖像資源規(guī)模仍然太小。近年來,遷移學(xué)習(xí)(Transfer Learning,TL)能夠從相關(guān)領(lǐng)域的大量標(biāo)注數(shù)據(jù)中學(xué)習(xí)知識(shí)結(jié)構(gòu)和模型參數(shù),直接改善小規(guī)模數(shù)據(jù)量級(jí)農(nóng)作物病害的識(shí)別性能,有效緩解過擬合,受到越來越多的關(guān)注。龍滿生等[8]借助遷移學(xué)習(xí)將AlexNet模型[9]在ImageNet[10]數(shù)據(jù)集學(xué)習(xí)的知識(shí)遷移到油茶病害識(shí)別任務(wù),準(zhǔn)確率達(dá)到96.53%。趙立新等[11]利用 PlantVillage數(shù)據(jù)集預(yù)訓(xùn)練模型,對(duì)棉花病害數(shù)據(jù)集進(jìn)行參數(shù)微調(diào),精確率達(dá)到97.16%。李淼等[12]基于遷移學(xué)習(xí)機(jī)制使用VGGNet[13]模型對(duì)黃瓜和水稻病害進(jìn)行特征提取,準(zhǔn)確率達(dá)到98.33%。
為了擴(kuò)大農(nóng)作物病害識(shí)別應(yīng)用領(lǐng)域,F(xiàn)uentes等[14]將番茄葉片病害識(shí)別從分類問題擴(kuò)展到檢測(cè)問題,利用快速區(qū)域卷積網(wǎng)絡(luò)(Faster Region-based Convolutional Neural Network,F(xiàn)aster R-CNN)、單次檢測(cè)器(Single Shot Detector,SSD)構(gòu)建病害檢測(cè)模型,有效提高病害的識(shí)別和檢測(cè)性能。劉小剛等[15]使用改進(jìn)YOLO模型[16]對(duì)大量的草莓圖像進(jìn)行訓(xùn)練學(xué)習(xí),實(shí)現(xiàn)了草莓的定位識(shí)別。趙兵等[17]替換傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的全連接層為卷積層,對(duì)葡萄葉片進(jìn)行特征提取,實(shí)現(xiàn)了葡萄病害葉片的語義分割效果。
盡管基于深度學(xué)習(xí)的語義分割模型在場(chǎng)景分割領(lǐng)域取得較好的分割效果,但是其在農(nóng)作物病害葉片分割場(chǎng)景的應(yīng)用文獻(xiàn)鮮有報(bào)道。由于農(nóng)作物病害發(fā)生受季節(jié)、環(huán)境、采集等多種因素影響,準(zhǔn)確的分割農(nóng)作物病害葉片具有相當(dāng)大的挑戰(zhàn)性。為了克服傳統(tǒng)方法在病害葉片分割應(yīng)用的缺點(diǎn),本研究基于卷積神經(jīng)網(wǎng)絡(luò)建立實(shí)時(shí)農(nóng)作物病害葉片語義分割模型,結(jié)合編碼-解碼框架和多流框架的優(yōu)點(diǎn)提升模型分割性能,并進(jìn)行試驗(yàn)驗(yàn)證,擬為現(xiàn)代農(nóng)業(yè)病害識(shí)別、自動(dòng)施肥和精準(zhǔn)灌溉等應(yīng)用提供可行方案。
本研究以黃瓜和水稻2種農(nóng)作物作為研究對(duì)象,采集了黃瓜霜霉病、黃瓜靶斑病、黃瓜白粉病、水稻胡麻斑病、水稻稻瘟病和水稻紋枯病,共6類病害(圖1)。在安徽省農(nóng)業(yè)科學(xué)院試驗(yàn)基地開展采集工作,采集時(shí)間從2017年1月起至2018年9月,采集設(shè)備為Canon EOS 6D數(shù)碼單反相機(jī),圖片分辨率為900×600像素。本研究共采集原始圖片2 337張,其中黃瓜白粉病202張、黃瓜霜霉病200張、黃瓜靶斑病147張、水稻紋枯病893張、水稻稻瘟病694張、水稻胡麻斑病201張。使用圖像標(biāo)注工具VGG Image Annotator[18]標(biāo)注農(nóng)作物病害葉片的類別和輪廓,建立農(nóng)作物病害葉片語義分割數(shù)據(jù)集。
本研究還從PlantVillage數(shù)據(jù)集獲取高質(zhì)量圖片,包括玉米灰斑病1 000張、馬鈴薯早疫病1 000張、番茄葉霉病1 000張、胡椒細(xì)菌斑1 000張、大豆灰斑病1 000張、南瓜白粉病1 000張,共6類6 000張(圖1)。
為了增加農(nóng)作物病害數(shù)據(jù)集的多樣性,增強(qiáng)模型的泛化能力和魯棒性,本研究共采用4種圖片增強(qiáng)技術(shù):1)翻轉(zhuǎn):將圖片隨機(jī)反轉(zhuǎn)0°、90°、180°和270°;2)噪聲:對(duì)圖片添加高斯噪聲;3)縮放:隨機(jī)縮放圖片,縮放因子為[0.5,2];4)裁剪:在縮放的圖片上隨機(jī)裁剪分辨率為900×600像素的圖片。如果裁剪前圖片的分辨率小于900×600像素,采用填充0像素的方式將圖片的分辨率擴(kuò)充至900×600像素。
為避免農(nóng)作物病害樣本數(shù)量不均衡現(xiàn)象,采用上述數(shù)據(jù)增強(qiáng)方法將黃瓜白粉病、黃瓜霜霉病、黃瓜靶斑病和水稻胡麻斑病擴(kuò)充至5倍,對(duì)水稻紋枯病和水稻稻瘟病分別擴(kuò)充至2倍和3倍。增強(qiáng)的農(nóng)作物病害葉片數(shù)據(jù)集共包含16 375張圖片。訓(xùn)練集、驗(yàn)證集和測(cè)試集按7∶1∶2的比例進(jìn)行劃分,數(shù)據(jù)集詳細(xì)信息如表1所示。
語義分割性能常見評(píng)價(jià)指標(biāo)有像素精度(Pixel Accuracy,PA,%)、平均像素精度(mean Pixel Accuracy,mPA,%)、平均交并比(mean Intersection over Union,mIoU,%)等。本研究采用像素精度和平均交并比作為評(píng)價(jià)指標(biāo)。為了便于解釋評(píng)估指標(biāo)公式,假設(shè)數(shù)據(jù)集共有k+1個(gè)類別,Pnm表示將n類別預(yù)測(cè)成m類別的像素個(gè)數(shù),Pnn表示預(yù)測(cè)正確的像素個(gè)數(shù),Pnm和Pmn分別表示假負(fù)和假正的像素個(gè)數(shù)。
1.3.1 像素精度
基于像素的精度(PA,%)計(jì)算是語義分割性能評(píng)估的基本指標(biāo),其衡量預(yù)測(cè)正確像素占總像素的比例,如式(1)所示。
1.3.2 平均交并比
平均交并比(mIoU,%)是語義分割和目標(biāo)檢測(cè)常用的衡量指標(biāo),用于評(píng)價(jià)預(yù)測(cè)物體與目標(biāo)物體的重合比例。相比于像素精度,平均交并比提供更多的信息:預(yù)測(cè)目標(biāo)的完整度和與實(shí)際目標(biāo)的重合度。平均交并比定義如式(2)所示。
表1 增強(qiáng)的農(nóng)作物病害葉片數(shù)據(jù)集Table 1 Enhanced dataset of crop disease leaves
基于深度學(xué)習(xí)的語義分割模型主要分為兩類,一類是采用編碼-解碼框架,首先利用逆卷積層[19]提高高階特征的分辨率,接著融合低階特征和高階特征,預(yù)測(cè)結(jié)果。編碼-解碼框架具有高準(zhǔn)確度,但計(jì)算量大,運(yùn)行較慢,經(jīng)典模型有U-Net[20]、SegNet[21]等。另一類是采用多流框架提取不同感受野尺寸的特征,通過融合多種尺寸特征預(yù)測(cè)結(jié)果,達(dá)到精度和運(yùn)行速度的平衡,經(jīng)典模型有BiSeNet[22]、ICNet[23]等。為了實(shí)現(xiàn)高精度且實(shí)時(shí)運(yùn)行的農(nóng)作物病害葉片語義分割模型,本研究結(jié)合編碼-解碼框架和多流框架的優(yōu)點(diǎn),將編碼-解碼模型的逆卷積層替換為普通上采樣層,降低計(jì)算量,同時(shí)設(shè)計(jì)分組注意力模塊利用高階特征指導(dǎo)加強(qiáng)低階特征,最后融合多階特征提高農(nóng)作物病害葉片的語義分割性能。
特征提取是深度學(xué)習(xí)的關(guān)鍵,不同特征提取網(wǎng)絡(luò)具有不同的參數(shù)量、速度和性能。常見特征提取網(wǎng)絡(luò)有VGGNet[13],ResNet[24]和GooLeNet[25]等。得益于ImageNet數(shù)據(jù)集和遷移學(xué)習(xí)的發(fā)展,特征提取網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集預(yù)訓(xùn)練后再遷移到特定數(shù)據(jù)集可以獲得更高精度。
He等[24]利用恒等映射原理有效解決由于神經(jīng)網(wǎng)絡(luò)層數(shù)過深導(dǎo)致的梯度退化問題,提出了具有101層的殘差網(wǎng)絡(luò)(Residual Network,ResNet)并贏得了2015年ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽的冠軍。相比于VGGNet[13]和GoogLeNet[25],ResNet[24]具有更少的計(jì)算量和更高的性能。為了實(shí)現(xiàn)實(shí)時(shí)語義分割目的,本研究采用計(jì)算量更少、性能更優(yōu)的ResNet18[24]作為特征提取網(wǎng)絡(luò)。
為了加強(qiáng)特征表達(dá)能力,提高模型的分割性能,本研究提出基于分組激活策略的分組注意力模塊。傳統(tǒng)注意力模塊從輸入特征通道方向計(jì)算特征間的關(guān)系系數(shù)并重構(gòu)特征圖,凸顯有效特征,同時(shí)抑制無用特征。為避免梯度爆炸和消失,注意力機(jī)制常使用Softmax激活函數(shù)對(duì)關(guān)系系數(shù)y進(jìn)行歸一化,Softmax激活函數(shù)σ如式(3)所示。
式中yv為第v個(gè)關(guān)系系數(shù)變量,uy為第u個(gè)關(guān)系系數(shù)變量,假設(shè)共有N個(gè)關(guān)系系數(shù)變量。
但是由于Softmax激活函數(shù)的特點(diǎn),即分母為特征關(guān)系系數(shù)的總和,特征之間會(huì)產(chǎn)生抑制作用,歸一化后關(guān)系系數(shù)普遍偏低。受到分組卷積[9]的啟發(fā),由于特征提取網(wǎng)絡(luò)的特征具有不同類型的語義概念,因此將特征的關(guān)系系數(shù)分為不同的組單獨(dú)進(jìn)行Softmax激活函數(shù)歸一化,能有效避免特征組之間的抑制作用,發(fā)掘組內(nèi)關(guān)聯(lián)信息,增強(qiáng)特征。
融合高階特征和低階特征能有效提高語義分割性能:高階特征提供高級(jí)語義信息,而低階特征提供細(xì)節(jié)信息并優(yōu)化語義分割結(jié)果。由于低階特征包含較少語義信息,傳統(tǒng)注意力模塊不能有效加強(qiáng)低階特征。本研究利用高階特征計(jì)算低階特征的關(guān)系系數(shù),達(dá)到加強(qiáng)低階特征目的,進(jìn)而提高語義分割性能。
綜上所述,本研究結(jié)合分組激活策略和由高階特征指導(dǎo)加強(qiáng)低階特征的想法,設(shè)計(jì)了分組注意力模塊(圖 2)。分組注意力模塊一共有2個(gè)輸入,分別來自特征提取網(wǎng)絡(luò)的第L-1層和第L層,輸出經(jīng)由分組注意力模塊加強(qiáng)的第L-1層特征。假設(shè)特征XL∈?C×W×H來自特征提取網(wǎng)絡(luò)的第L層,C、W和H分別為特征XL的通道數(shù)、寬度和高度。為了計(jì)算特征間的關(guān)系系數(shù),首先采用全局平均池化降低特征XL的維度,獲得僅保留特征通道維度的特征ZL∈?C,如公式(4)所示。然后通過矩陣乘法計(jì)算第L-1層特征的關(guān)系系數(shù)yL-1∈?C-1,如式(5)所示。
式中X L(h,w)為特征XL在高度h和寬度w處的通道向量,AL-1∈?CL-1×CL為計(jì)算第L-1層特征關(guān)系系數(shù)的可學(xué)習(xí)參數(shù),CL-1和CL分別為第L-1層和第L層的特征通道數(shù)。
受到分組卷積[9]的啟發(fā)和鑒于特征具有不同的語義概念,特征關(guān)系系數(shù)分組激活可以有效避免不同語義特征間的抑制作用,從而增強(qiáng)同類語義特征,分組激活并增強(qiáng)特征的公式如式(6)所示。
首先將第L-1層特征XL-1和關(guān)系系數(shù)yL-1分成G組,即每組關(guān)系系數(shù)分別進(jìn)行Softmax激活函數(shù)歸一化。為了避免因關(guān)系系數(shù)趨于0造成原始特征信息消失,將歸一化的關(guān)系系數(shù)加1。最后將加強(qiáng)的特征進(jìn)行拼接。
本研究的語義分割模型包含ResNet18[24]特征提取網(wǎng)絡(luò)、2個(gè)分組注意力模塊以及一個(gè)特征融合模塊(圖3)。模型首先使用特提取網(wǎng)絡(luò)提取特征,分別獲得來自第二層、第三層和第四層的特征X2、X3和X4。然后使用2個(gè)分組注意力模塊分別加強(qiáng)特征X2和X3,即特征X3和特征X4作為分組注意力模塊二的輸入并輸出加強(qiáng)特征特征X2和加強(qiáng)特征作為分組注意力模塊一的輸入并輸出加強(qiáng)特征
受到多流語義分割模型的啟發(fā),充分利用具有不同感受野的不同階特征能有效提高語義分割性能。為了復(fù)用特征X4、加強(qiáng)特征和加強(qiáng)特征本研究改進(jìn)了多流語義分割網(wǎng)絡(luò)中的融合模塊(圖3),首先將特征X4和加強(qiáng)特征上采樣至加強(qiáng)特征的分辨率并進(jìn)行拼接。然后使用卷積核大小為3×3的卷積層、批歸一化層(Batch Normalization,BN)、激活層Relu[26]作為調(diào)整層充分融合三者的特征信息。最后通過卷積核大小為1×1的卷積層輸出語義分割結(jié)果。
為進(jìn)一步提高模型的分割效果,本研究采用遷移學(xué)習(xí)將ResNet18[24]在PlantVillage公共數(shù)據(jù)集學(xué)習(xí)的農(nóng)作物共性知識(shí)遷移到本研究數(shù)據(jù)集。首先以0.001學(xué)習(xí)率和200次迭代的超參數(shù)利用PlantVillage公共數(shù)據(jù)集預(yù)訓(xùn)練ResNet18[24]模型,病害識(shí)別準(zhǔn)確率達(dá)到98.6%,即正確分類的樣本數(shù)與總樣本數(shù)之比。然后將ResNet18[24]預(yù)訓(xùn)練模型加載到本研究的語義分割模型,進(jìn)行參數(shù)微調(diào)訓(xùn)練:
1)凍結(jié)ResNet18[24]預(yù)訓(xùn)練模型的所有批歸一化層,被凍結(jié)層不參與訓(xùn)練。
2)采用隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD)微調(diào)模型參數(shù)。學(xué)習(xí)率初始化為0.01,更新策略采用多項(xiàng)式衰減法,避免因?qū)W習(xí)率較大而產(chǎn)生激烈振蕩,迭代200次。
3)采用交叉熵計(jì)算分類損失,附加類權(quán)重參數(shù)進(jìn)行懲罰,以減輕過擬合現(xiàn)象和樣本不均衡現(xiàn)象。損失函數(shù)Loss(x)和類權(quán)重Qclass如式(7)和式(8)所示。
式中x為訓(xùn)練樣本集,M為訓(xùn)練樣本集數(shù)量,x r為第r個(gè)訓(xùn)練樣本,p(xr)為樣本xr真實(shí)類別,Qp(xr)為訓(xùn)練樣本xr真實(shí)類別對(duì)應(yīng)的類權(quán)重,q(xr)為模型預(yù)測(cè)樣本xr類別概率,Sclass為類別占類別數(shù)量的比例。
本研究提出的語義分割模型采用ResNet18[24]模型作為特征提取網(wǎng)絡(luò),在保持性能的同時(shí)降低計(jì)算量。為驗(yàn)證模型的計(jì)算優(yōu)勢(shì),本研究在單張NVIDIA GTX1080Ti顯卡上測(cè)試運(yùn)行幀率(Frame rate,F(xiàn)PS,幀/s),試驗(yàn)將不同分辨率的單張圖片送入模型計(jì)算幀率,重復(fù)1 000次,以平均值作為模型的幀率。
為了對(duì)比本研究模型的計(jì)算性能,本研究復(fù)現(xiàn)了目前流行的語義分割模型:UNet[20]和BiSeNet[22]。UNet[20]采用編碼-解碼框架,為了保證公平性,UNet[20]改用ResNet18[24]模型作為特征提取網(wǎng)絡(luò)。BiSeNet[22]屬于多流語義分割模型,采用ResNet18[24]作為特征提取網(wǎng)絡(luò),在保證性能的同時(shí)降低計(jì)算量。3種模型對(duì)不同分辨率圖片的幀率如表2所示。得益于分組注意力模塊和融合模塊的輕量化設(shè)計(jì),在不同分辨率的情況下,本研究的語義分割模型計(jì)算性能都優(yōu)于UNet[20]和BiSeNet[22]。對(duì)分辨率為900×600像素的圖片,本研究模型幀率達(dá)到每秒130.1幀。
表2 不同像素下各種模型的幀率對(duì)比Table 2 Frame rate comparison of different models at different pixels
比較試驗(yàn)UNet[20]和BiSeNet[22]的語義分割性能,驗(yàn)證本研究模型的分割性能。為了保證公平性,所有的模型的訓(xùn)練和預(yù)測(cè)使用相同的農(nóng)作物病害數(shù)據(jù)集和遷移學(xué)習(xí)訓(xùn)練機(jī)制。對(duì)比試驗(yàn)結(jié)果如表3所示,本研究的語義分割模型的平均交并比達(dá)到78.6%,與UNet[20]和BiSeNet[22]相比分別提高1.6個(gè)百分點(diǎn)和1.2個(gè)百分點(diǎn)。3種模型對(duì)本研究自采集數(shù)據(jù)集和PlantVillage數(shù)據(jù)集的語義分割結(jié)果分別如圖4和圖5所示,其中本研究模型對(duì)局部黃瓜健康葉片具有更優(yōu)分割效果(圖4a~圖4c)。
表3 各模型的分割性能對(duì)比Table 3 Segmentation performance comparison of different models
試驗(yàn)驗(yàn)證分組注意力模塊性能,首先驗(yàn)證分組注意力模塊在不同分組個(gè)數(shù)情況下對(duì)分辨率為900×600像素的圖片分割性能和幀率(表4),共進(jìn)行8種試驗(yàn),每個(gè)試驗(yàn)分組個(gè)數(shù)分別為1、2、4、8、16、32、64和128。當(dāng)分組個(gè)數(shù)為1時(shí),分組注意力模塊退化為傳統(tǒng)注意力模塊。分組注意力模塊在不損失幀率的情況下提高分割性能,當(dāng)分組個(gè)數(shù)為16時(shí),本研究模型像素精度和平均交并比分別達(dá)到93.9%和78.6%,對(duì)比傳統(tǒng)注意力模塊(分組個(gè)數(shù)為1),平均交并比提高了1.6個(gè)百分點(diǎn)。
表4 不同分組個(gè)數(shù)下分組注意力模塊的性能對(duì)比Table 4 Performance comparison of group attention module under different number of groups
為了進(jìn)一步驗(yàn)證分組注意力模塊對(duì)特征加強(qiáng)的效果,本研究分別采集了傳統(tǒng)注意力模塊(分組個(gè)數(shù)為1的試驗(yàn))和分組注意力模塊(分組個(gè)數(shù)為16的試驗(yàn))對(duì)來自特征提取網(wǎng)絡(luò)第二層特征2X前16個(gè)特征通道的關(guān)系系數(shù)y(圖6)。分組注意力模塊的關(guān)系系數(shù)普遍優(yōu)于傳統(tǒng)注意力模塊,進(jìn)一步強(qiáng)化特征,讓關(guān)鍵特征發(fā)揮主要效果,同時(shí)抑制無用特征。
本研究基于分組激活策略改進(jìn)傳統(tǒng)注意力模塊,提出分組注意力模塊,利用高階特征指導(dǎo)加強(qiáng)低階特征,能有效避免特征之間互相抑制、加強(qiáng)效果偏弱的現(xiàn)象。分組注意力模塊在大幅度加強(qiáng)關(guān)鍵特征表達(dá)能力的同時(shí),抑制無用特征,提升模型整體性能。
基于分組注意力模塊,本研究提出了一種融合編碼-解碼語義分割模型和多流語義分割模型優(yōu)點(diǎn)的實(shí)時(shí)高效農(nóng)作物病害葉片語義分割模型,本研究模型具有以下特點(diǎn):
1)采用輕量級(jí)ResNet18模型作為特征提取網(wǎng)絡(luò),提取有效特征的同時(shí)降低計(jì)算量,為模型的實(shí)時(shí)運(yùn)算提供基礎(chǔ)。
2)使用遷移學(xué)習(xí)將ResNet18在PlantVillage公共數(shù)據(jù)集學(xué)習(xí)的農(nóng)作物共性知識(shí)遷移到本研究數(shù)據(jù)集。
3)分組注意力模塊利用高階特征指導(dǎo)加強(qiáng)低階特征,進(jìn)一步提高特征的表達(dá)能力。
4)通過融合模塊復(fù)用不同感受野的特征,有效提高語義分割性能。
本研究模型對(duì)農(nóng)作物病害葉片的語義分割像素精度達(dá)到93.9%,平均交并比達(dá)到78.6%,優(yōu)于UNet和BiSeNet模型。在單張NVIDIA GTX1080Ti顯卡的硬件環(huán)境下,輸入分辨率為900×600像素的圖片,模型計(jì)算速度達(dá)到每秒130.1幀。
農(nóng)業(yè)工程學(xué)報(bào)2021年4期