基于注意力模型和輕量化YOLOv4的林業(yè)害蟲檢測方法

2022-11-30 08:26:56孫海燕陳云博封丁惟王通蔡興泉

計算機應用 2022年11期

孫海燕，陳云博，封丁惟，王通，蔡興泉

孫海燕，陳云博，封丁惟，王通，蔡興泉*

（北方工業(yè)大學信息學院，北京 100144）（?通信作者電子郵箱xingquancai@126.com）

針對當前林業(yè)害蟲檢測方法檢測速度慢、準確率較低和存在漏檢誤檢等問題，提出一種基于注意力模型和輕量化YOLOv4的林業(yè)害蟲檢測方法。首先構(gòu)建數(shù)據(jù)集，使用幾何變換、隨機色彩抖動和Mosaic數(shù)據(jù)增強技術(shù)對數(shù)據(jù)集進行預處理；其次將YOLOv4的主干網(wǎng)絡替換為輕量化網(wǎng)絡MobileNetV3，并在改進后的路徑聚合網(wǎng)絡（PANet）中添加卷積塊注意力模塊（CBAM），搭建改進的輕量化YOLOv4網(wǎng)絡模型；然后引入Focal Loss優(yōu)化YOLOv4網(wǎng)絡模型的損失函數(shù)；最后將預處理后的數(shù)據(jù)集輸入到改進后的網(wǎng)絡模型中，輸出包含害蟲種類和位置信息的檢測結(jié)果。實驗結(jié)果表明，該網(wǎng)絡的各項改進點對模型的性能提升都有效；相較于原YOLOv4模型，新模型的檢測速度更快，平均精度均值（mAP）更高，并且能有效解決漏檢和誤檢問題。新模型優(yōu)于目前的主流網(wǎng)絡模型，能滿足林業(yè)害蟲實時檢測的精度和速度要求。

林業(yè)害蟲檢測；輕量化網(wǎng)絡；注意力模型；損失函數(shù)

當前，林業(yè)病蟲害的威脅在逐年增加，很大程度上阻礙了林業(yè)的發(fā)展。林業(yè)是維護生態(tài)平衡的重要基礎(chǔ)，我國經(jīng)濟的發(fā)展也離不開林業(yè)資源的支持。高效、準確地檢測并判別出害蟲種類是害蟲測報和合理防治的重要前提。

傳統(tǒng)林業(yè)害蟲檢測方法主要有人工檢測法和誘捕法［1］，這些方法依靠個人的專業(yè)經(jīng)驗進行辨別，效率較低，實時性較差，且主觀性較強。因此，本文主要研究高效自動的林業(yè)害蟲識別檢測方法，在保證檢測精確度的基礎(chǔ)上，提升檢測速度，為林業(yè)蟲害的發(fā)生提供及時的預警。

1 相關(guān)工作

為了實現(xiàn)高效的林業(yè)害蟲檢測，已經(jīng)有一些學者開始研究智能化林業(yè)害蟲檢測方法，主要分為基于傳統(tǒng)機器學習的方法和基于深度學習的方法。

基于傳統(tǒng)機器學習的林業(yè)害蟲檢測方法主要針對不同害蟲單獨設計并提取包括顏色、形狀、紋理等的害蟲圖像特征，然后送入訓練好的分類器進行分類［2］；但是此類方法需要手工提取特征，特征提取過程繁瑣且存在害蟲特征設計的局限性。

隨著計算機視覺技術(shù)和深度學習的飛速發(fā)展，基于深度學習的林業(yè)害蟲檢測方法逐漸發(fā)展起來?；谏疃葘W習的方法避免了手工設計特征的繁瑣過程，能夠讓計算機自動學習害蟲特征，具有速度快、精度高等優(yōu)點，逐漸成為研究熱點。當前，深度學習目標檢測網(wǎng)絡主要分為兩大類，即單階段目標檢測網(wǎng)絡和雙階段目標檢測網(wǎng)絡。雙階段目標檢測網(wǎng)絡代表性網(wǎng)絡模型有Fast?RCNN（Fast Region?based Convolutional Neural Network）［3］、Faster?RCNN（Faster Region? based Convolutional Neural Network）［4］、R?FCN（Region?based Fully Convolutional Network）［5］和特征金字塔網(wǎng)絡（Feature Pyramid Network， FPN）［6］。雙階段目標檢測需要進行兩步操作：首先用候選區(qū)域算法在輸入圖像中生成建議目標候選區(qū)域，然后將所有的候選區(qū)域送入分類器進行分類。雙階段目標檢測算法的檢測精度較高但檢測速度較低。相比較而言，以YOLO（You Only Look Once）［7-10］和SSD（Single Shot multibox Detector）［11］為代表的單階段目標檢測算法更注重檢測精度和速度的平衡，在人臉識別、自動駕駛、醫(yī)療診斷和安防等領(lǐng)域得到了廣泛的應用。因此，本文主要研究單階段目標檢測方法。

苗海委等［12］提出了一種基于深度學習的粘蟲板儲糧害蟲圖像檢測算法，通過改進SSD的目標框回歸策略、損失函數(shù)和特征提取網(wǎng)絡結(jié)構(gòu)，實現(xiàn)了放置在糧倉表面粘蟲板誘捕的六類害蟲的定位和識別；但是由于模型不夠輕量化，訓練速度和檢測效率不高。候瑞環(huán)等［13］提出了一種基于YOLOv4?TIA的林業(yè)害蟲檢測方法，通過改進YOLOv4模型結(jié)構(gòu)和優(yōu)化損失函數(shù)，實現(xiàn)了對特定類別的林業(yè)昆蟲的檢測；但是模型復雜度有所增加，檢測速度較慢。袁哲明等［14］提出了一種輕量化深度學習模型的田間昆蟲自動識別與分類算法，通過對YOLOv3進行一系列輕量化改進，實現(xiàn)了田間昆蟲自動識別與分類；改進后的模型參數(shù)量大大減小，但檢測精度沒有明顯提高，平均識別正確率只有70.98%。

李啟運等［15］指出模型壓縮和輕量化模型設計是加速模型的重要手段，因此以SqueezeNet［16］、MobileNet［17-19］和ShuffleNet［20-21］為代表的輕量化網(wǎng)絡模型受到越來越多的關(guān)注和應用。Han等［22］在2020年提出了GhostNet輕量級神經(jīng)網(wǎng)絡。為了減少計算量，Ghost模塊將原始的卷積層分成兩部分：先生成少量內(nèi)在特征圖，然后通過一系列線性變換生成更多特征圖。MobileNetV3［19］集合了MobileNetV1［17］和MobileNetV2［18］的優(yōu)點，并在它們的基礎(chǔ)上做了進一步改進，大大減少了參數(shù)量，提升了速度且避免了精度損失。另外，在神經(jīng)網(wǎng)絡架構(gòu)中引入卷積塊注意力模塊（Convolutional Block Attention Module， CBAM）［23］，能夠在不增加過多計算開銷的情況下，給網(wǎng)絡性能帶來實質(zhì)性的提升。受這些文獻研究的啟發(fā)，本文主要研究基于注意力模型和輕量化YOLOv4的林業(yè)害蟲檢測方法。

2 本文方法

針對當前林業(yè)害蟲檢測方法模型參數(shù)量大、檢測速度慢、準確率較低和存在漏檢誤檢等問題，本文主要研究基于注意力模型和輕量化YOLOv4的林業(yè)害蟲檢測方法。主要步驟包括：預處理數(shù)據(jù)、改進YOLOv4網(wǎng)絡模型、引入Focal Loss優(yōu)化損失函數(shù)和利用YOLO?Head輸出檢測結(jié)果，詳細介紹如下。

2.1　數(shù)據(jù)預處理

為提升模型的性能，在提取圖像特征之前，需要對數(shù)據(jù)集進行預處理。首先，收集林業(yè)害蟲圖像，構(gòu)建數(shù)據(jù)集；然后，對構(gòu)建的數(shù)據(jù)集圖像進行幾何變換、隨機色彩抖動和Mosaic處理，增強數(shù)據(jù)集；最后，劃分增強后的數(shù)據(jù)集，完成數(shù)據(jù)集的預處理。

2.1.1構(gòu)建數(shù)據(jù)集

本文以北京林業(yè)大學公開的林業(yè)害蟲數(shù)據(jù)集（https：//aistudio.baidu.com/aistudio/datasetdetail/34213/0）為基礎(chǔ)，該數(shù)據(jù)集出自百度飛槳與北京林業(yè)大學合作開發(fā)的AI識蟲比賽，共計2 183張圖像，全部為白色單一背景，包含7種類別的林業(yè)害蟲。在實際應用場景中，林業(yè)害蟲所處的自然環(huán)境多為復雜背景。為了符合林業(yè)害蟲檢測的實際需求，本文以此數(shù)據(jù)集為基礎(chǔ)，通過網(wǎng)絡爬取等方法，收集林業(yè)真實條件下、具有復雜背景的這7種害蟲圖像，進一步擴充數(shù)據(jù)集。最終，收集整理得到7種類別、共計3 233張圖像，每張圖像包含至少一種類別的害蟲。至此，數(shù)據(jù)集的構(gòu)建完成。每類害蟲樣本數(shù)量的統(tǒng)計結(jié)果如表1所示。

表1　每類害蟲樣本的數(shù)量統(tǒng)計

2.1.2幾何變換圖像

害蟲的種類與它在圖像中的位置、角度無關(guān)，對圖像進行翻轉(zhuǎn)或旋轉(zhuǎn)等幾何變換操作能夠有效擴充數(shù)據(jù)集。本文采用在線增強方法，在輸入到網(wǎng)絡之前，對數(shù)據(jù)集中的圖像進行隨機水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)、順時針90°旋轉(zhuǎn)和逆時針90°旋轉(zhuǎn)，得到四種數(shù)據(jù)增強后的圖像，如圖1所示。

2.1.3隨機色彩抖動圖像

在實際自然環(huán)境中，由于拍攝環(huán)境和拍攝設備等客觀因素的影響，同種害蟲圖像可能會具有不同的色彩信息。為了降低客觀因素的干擾，本文使用隨機色彩抖動的數(shù)據(jù)增強方法，得到具有不同色彩信息的害蟲圖像，增強模型的魯棒性，更符合實際應用的需求。在圖像數(shù)據(jù)輸入到網(wǎng)絡之前，隨機抖動圖像的飽和度、對比度和亮度，飽和度抖動的范圍為50%，對比度抖動的范圍為50%，亮度抖動的范圍為20%。經(jīng)過隨機色彩抖動處理，得到的三種數(shù)據(jù)增強后的圖像如圖2所示。

圖1　幾何變換增強的圖像示例

圖2　隨機色彩抖動增強的圖像示例

2.1.4Mosaic數(shù)據(jù)增強

為了豐富數(shù)據(jù)集圖像的背景，本文采用Mosaic數(shù)據(jù)增強方法進一步增強數(shù)據(jù)集。首先，隨機選取四幅圖像；然后，通過幾何變換、隨機色彩抖動等方式增強四幅圖像；最后，將增強后的四張隨機裁剪，并拼接成為一張新的圖像。經(jīng)過Mosaic數(shù)據(jù)增強處理得到的圖像如圖3所示。

圖3　Mosaic數(shù)據(jù)增強圖像示例

至此，利用數(shù)據(jù)增強技術(shù)擴充了本文構(gòu)建的數(shù)據(jù)集，按照8∶1∶1的比例將數(shù)據(jù)集劃分成訓練集、驗證集和測試集三個部分，為后續(xù)提取圖像特征做準備。

2.2　搭建改進的YOLOv4網(wǎng)絡模型

預處理數(shù)據(jù)集后，需要搭建改進的YOLOv4網(wǎng)絡模型以提取害蟲圖像中的特征。首先，搭建MobileNetV3網(wǎng)絡提取初步特征；然后，搭建空間金字塔池化結(jié)構(gòu)（Spatial Pyramid Pooling， SPP）和PANet提取深層特征，并進行特征融合；接著，在PANet中添加CBAM，以得到包含更多關(guān)鍵信息的特征圖；最后，將得到的特征圖輸出，為后續(xù)害蟲種類和位置的檢測做準備。

2.2.1搭建MobileNetV3網(wǎng)絡提取初步特征

為了降低參數(shù)量、提高模型的檢測速度，本文采用輕量化模型MobileNetV3替換CSPDarkent53作為YOLOv4網(wǎng)絡模型的主干網(wǎng)絡，提取圖像的初步特征。MobileNetV3主要由CBH（Conv2D?BN?h?swis）卷積模塊和bneck（bottleneck）卷積模塊構(gòu)成，如圖4所示。

圖4　MobileNetV3網(wǎng)絡結(jié)構(gòu)

1）搭建CBH卷積模塊。首先，輸入尺寸為416×416×3的原圖像；然后，使用引入了h?swish激活函數(shù)的CBH模塊進行卷積操作；最后，輸出尺寸為208×208×16的特征圖。h?swis激活函數(shù)如式（1）所示。

2）搭建bneck卷積模塊。首先，使用1×1的CBH提取特征；然后，使用3×3的深度可分離卷積塊進行卷積操作；接著，添加SE模塊；最后，進行1×1的卷積操作，調(diào)整通道。

3）輸出初步特征圖。本文去掉MobileNetV3模型最后階段的全連接層和Softmax層，輸出最后三層卷積得到的三個不同尺寸的特征圖，即52×52的特征圖fm1、26×26的特征圖fm2和13×13的特征圖fm3。

至此，利用MobileNetV3提取得到害蟲圖像的初步特征圖，縮小了模型體積，提升了特征提取能力，為后續(xù)提取深層特征做準備。

2.2.2搭建SPP模塊和輕量化PANet提取深層特征

得到三個不同尺寸的初步特征圖后，需要進一步提取深層特征并進行特征融合，為后續(xù)檢測分類做準備。首先，搭建SPP模塊，融合特征圖fm3的多尺度特征，得到特征圖fm3'；然后，利用改進的輕量化PANet進行多次上采樣、下采樣和特征融合操作，得到特征圖fm1、fm2和fm3'的深層特征；最后，將得到的深層特征圖輸出。

1）搭建SPP模塊。為了有效緩解過擬合，本文利用SPP模塊提取多尺度融合特征。首先，對輸入的特征圖fm3進行連續(xù)三次的卷積操作，提取特征；然后，進行1×1、5×5、9×9和13×13四種尺度的最大池化處理，得到多尺度特征；接著，將四種尺度的特征圖進行融合；最后，經(jīng)過三次卷積操作，輸出尺度為13×13的特征圖fm3'。SPP模塊的結(jié)構(gòu)如圖5所示。

圖5　SPP模塊結(jié)構(gòu)

2）搭建輕量化PANet。PANet中使用多個3×3的普通卷積操作，參數(shù)量極大，計算比較復雜。為了降低PANet的參數(shù)量，本文搭建輕量化PANet提取深層特征。首先，使用深度可分離卷積塊替換PANet中所有的普通卷積塊，得到輕量化PANet；然后，將特征圖fm1、fm2和fm3'輸入到改進后的輕量化PANet；接著，進行多次上采樣、下采樣和特征融合操作；最后，輸出三個不同尺寸的深層特征圖。

至此，經(jīng)過SPP模塊和輕量化PANet的提取，得到三種尺寸的害蟲圖像深層特征圖，有效緩解過擬合，擴大網(wǎng)絡的感受野，提高網(wǎng)絡對大目標的檢測效率和準確率。

2.2.3添加CBAM

為了提升PANet提取關(guān)鍵信息的能力，本文在PANet中添加輕量級CBAM，得到包含更多關(guān)鍵信息的特征圖。CBAM結(jié)構(gòu)如圖6所示。添加CBAM的具體步驟如下：

至此，將CBAM添加到PANet中，輸出包含更多關(guān)鍵信息的特征圖，為后續(xù)害蟲種類和位置的檢測做準備。添加CBAM后的PANet如圖7所示。

圖7　添加CBAM的PANet結(jié)構(gòu)

2.3　輸出檢測結(jié)果

在添加CBAM并得到包含更多關(guān)鍵信息的特征圖之后，需要對其進行回歸分類預測，得到最終的檢測結(jié)果。本文首先優(yōu)化損失函數(shù)，然后控制迭代計算，盡可能最小化損失值，最后利用YOLO-Head進行檢測，輸出包含害蟲種類和位置的檢測結(jié)果。

2.3.1優(yōu)化損失函數(shù)

由于林業(yè)害蟲所處的自然環(huán)境復雜多變，所拍攝的害蟲圖像背景往往也很復雜，害蟲形態(tài)各異，且會有遮擋等問題，導致負樣本數(shù)量過大，正負樣本的類別不均衡，因此，本文優(yōu)化損失函數(shù)，控制迭代計算，提升模型檢測分類效果。具體步驟如下：

1）計算邊界框回歸損失、置信度損失和類別損失?？刂芛OLOv4迭代計算的損失函數(shù)由三部分構(gòu)成，即邊界框回歸損失、置信度損失和類別損失，如式（6）所示。其中：YOLOv4使用CIoU（Complete?IoU）損失函數(shù)控制邊界框回歸損失計算，如式（7）所示；置信度損失如式（8）所示；類別損失如式（9）所示。

2）引入Focal Loss優(yōu)化損失函數(shù)。Focal Loss的計算如式（12）所示：

3）優(yōu)化損失函數(shù)。使用Focal Loss控制置信度損失，得到優(yōu)化后的損失函數(shù)如式（14）所示：

至此，完成損失函數(shù)的優(yōu)化，解決了正負樣本不平衡的問題，有效提高了本文方法的檢測效果。

2.3.2YOLO?Head輸出檢測結(jié)果

優(yōu)化損失函數(shù)后，需要根據(jù)輸出的預測結(jié)果與真實標簽之間的誤差計算模型損失值，通過迭代訓練確保損失值最小化。本文利用YOLO?Head檢測頭輸出害蟲的種類和位置信息。

最終，經(jīng)過數(shù)據(jù)集預處理、改進的輕量化YOLOv4網(wǎng)絡提取特征、注意力模型加強關(guān)鍵信息和YOLO?Head回歸分類，實現(xiàn)高效的林業(yè)害蟲檢測。本文方法的完整網(wǎng)絡模型結(jié)構(gòu)如圖8所示。

圖8　本文方法的網(wǎng)絡模型結(jié)構(gòu)

3 實驗結(jié)果與分析

為了驗證本文方法的可行性和有效性，利用2.1.1節(jié)所述方法構(gòu)建的數(shù)據(jù)集與原YOLOv4模型進行對比實驗。實驗在Intel Xeon Silver 4110 CPU @2.10 GHz處理器，32 GB內(nèi)存，NVIDIA GeForce RTX 2080Ti顯卡的環(huán)境下進行，采用Windows 10操作系統(tǒng)，開發(fā)語言為Python，利用的深度學習框架為Pytorch，開發(fā)環(huán)境為Pycharm 2019。

3.1　構(gòu)建數(shù)據(jù)集

本文最終構(gòu)建的數(shù)據(jù)集包含7種常見林業(yè)害蟲，合計3 233張圖像樣本。在整理害蟲圖像時，對害蟲進行標注，如圖9所示。

圖9　標注害蟲圖像

3.2　評價指標

為了評測模型的實時性，本文使用幀率，即每秒可預測圖像的幀數(shù)（Frames Per Second， FPS）作為衡量檢測速度的指標。當幀率大于25 FPS時，人眼認為是實時的。幀率越大，檢測速度越快。

3.3　本文方法可行性實驗

在訓練時，首先輸入尺寸大小為416×416的害蟲圖像，設置訓練批次大小為8，初始學習率為0.001；然后凍結(jié)主干網(wǎng)絡，進行50個輪次的預熱訓練；最后，訓練批次大小調(diào)整為8，學習率調(diào)整為0.000 1，將解凍后的整體網(wǎng)絡再訓練50個輪次。經(jīng)過訓練之后，繪制得到7種害蟲的PR曲線，如圖10所示。

圖10　7種害蟲的PR曲線圖

3.4　本文網(wǎng)絡模型與原YOLOv4網(wǎng)絡模型對比實驗

為了驗證本文改進的輕量化YOLOv4網(wǎng)絡模型的有效性，本文設計并實現(xiàn)了與原YOLOv4模型的客觀數(shù)據(jù)對比實驗和可視化效果對比實驗。

客觀數(shù)據(jù)對比實驗結(jié)果如表2所示。由表2可以看出，在檢測精度上，與原YOLOv4模型相比，改進后的模型的mAP提升了6.7個百分點，最高AP達到99.7%；在檢測速度上，經(jīng)過本文一系列的輕量化改進，改進后的模型檢測速度大幅提高，比原YOLOv4模型快一倍。綜合分析，本文改進的模型提升了檢測精度，提高了檢測速度，更好地滿足了林業(yè)害蟲實時檢測的性能要求。

可視化效果對比實驗結(jié)果如圖11所示，可以看出，在單一背景下或復雜背景下，原YOLOv4網(wǎng)絡模型在檢測時均存在漏檢、誤檢和錯檢的問題，而本文方法模型能夠準確和全面地檢測到圖像中的每一個害蟲，有效地解決了此問題，而且本文網(wǎng)絡模型對每種害蟲的檢測準確率都要高于原YOLOv4網(wǎng)絡模型。

表2　本文模型與原YOLOv4模型的客觀數(shù)據(jù)對比

圖11　本文模型與原YOLOv4模型的可視化效果對比

綜上分析，本文改進的輕量化YOLOv4網(wǎng)絡模型能夠有效地降低參數(shù)量，提升檢測精度，提高檢測速度，解決漏檢、誤檢和錯檢的問題，提升了模型的綜合性能，能更好地滿足了林業(yè)害蟲實時檢測的性能要求。

3.5　消融實驗

為了驗證本文的各項改進均能有效提升網(wǎng)絡模型的性能，設計并實現(xiàn)了消融實驗。消融實驗包括使用MobileNetV3作為主干網(wǎng)絡、輕量化PANet、添加CBAM和引入Focal Loss?；诟鱾€改進點的算法精度和速度對比情況如表3所示，其中：􀳫表示在網(wǎng)絡中添加該改進點。

表3　消融實驗的結(jié)果

由表3可以看出，對于MobileNetV3作為主干網(wǎng)絡，可以犧牲一定的精度來提升模型的預測速度，模型精度雖然下降0.5個百分點，但模型速度提升了18 FPS；在PANet中使用深度可分離卷積替代普通卷積來實現(xiàn)輕量化PANet后，模型精度不僅沒有降低，反而提高了0.8個百分點，表明深度可分離卷積相較于普通卷積在特征提取和降低參數(shù)量上具有優(yōu)越性；添加CBAM后，模型僅在增加微量開銷的情況下，精度提高了3.2個百分點，同時，檢測速度幾乎不受影響，這說明CBAM能夠顯著增強網(wǎng)絡的特征提取能力，提高網(wǎng)絡的整體性能；在損失函數(shù)中引入Focal Loss函數(shù)，降低了大量負樣本在訓練中所占的權(quán)重，解決了正負樣本不平衡的問題，大幅提高了檢測準確率，mAP較改進前模型高了4個百分點，檢測速度提高5 FPS。

最終，通過使用MobileNetV3替換原主干網(wǎng)絡、輕量化PANet、添加CBAM和引入Focal Loss，本文方法模型在林業(yè)害蟲數(shù)據(jù)集中的準確率較改進前的原YOLOv4模型提高了6.7個百分點，檢測速度提高31 FPS，實現(xiàn)了網(wǎng)絡模型整體性能的提升。因此，消融實驗中各項指標的結(jié)果驗證了本文網(wǎng)絡各項改進點的有效性，對算法模型的性能提升都有一定的貢獻。

3.6　注意力機制對比實驗

為了驗證在PANet中添加CBAM能夠有效提高模型的精度，本文設計了添加不同注意力機制的對比實驗，結(jié)果如表4。從表4可以看出，不添加注意力模塊時檢測精度為87%，而在添加注意力模塊后檢測精度都有不同程度的提升。分析原因是數(shù)據(jù)集圖像會存在遮擋、光照變化和背景干擾等因素的影響，引入注意力機制可以使網(wǎng)絡關(guān)注重要信息，抑制背景噪聲，提高檢測能力。其中，添加CBAM時效果最優(yōu)，mAP為90.2%。分析原因是，相較于SE和ECA只關(guān)注通道信息的綜合，CBAM匯總并綜合了空間和通道兩方面的注意力信息，從而能夠獲得更加全面和可靠的注意力信息，提高模型的檢測精度。而在提升模型檢測精度的同時，注意力模塊因為其輕量的特征，僅極少地增加了網(wǎng)絡的參數(shù)量，整體的檢測速度也幾乎保持不變。因此，在PANet中融合CBAM能夠顯著提高網(wǎng)絡的特征提取能力，在不過多增加網(wǎng)絡負擔的情況下，大幅提高網(wǎng)絡的檢測準確率和整體性能。

表4　不同注意力機制的對比

3.7　本文模型與其他模型對比實驗

為了驗證本文方法模型的有效性，使用本文訓練集對Faster?RCNN、SSD、YOLOv5、文獻［13］模型及本文方法模型進行網(wǎng)絡訓練，使用測試集數(shù)據(jù)對它們的mAP和幀率進行對比，結(jié)果如表5所示。由表5可以看出，本文方法模型取得了最高的精度93.7%和最高的檢測幀率56 FPS。

表5　本文模型與其他模型的對比

綜合分析，在檢測精度方面，本文通過引入注意力機制和改進損失函數(shù)等來改進YOLOv4，使得改進后的模型具有更加優(yōu)越的特征提取能力和對抗正負樣本不平衡的能力，從而獲得檢測精度的大幅提高，相較于Faster?RCNN、SSD、YOLOv5和文獻［13］模型具有更強的檢測性能，更能滿足林業(yè)害蟲區(qū)域定位識別的需求。在檢測速度方面，本文模型經(jīng)過一系列輕量化改造，使得網(wǎng)絡計算負擔大大降低，檢測速度大大提升，明顯優(yōu)于兩階段目標檢測的代表性模型Faster?RCNN，同時也比SSD和最新的YOLOv5更快。因此，本文模型能夠在具有復雜背景的林業(yè)數(shù)據(jù)集的情況下，保持較高的精度和較快的檢測速度，實現(xiàn)精度和速度的平衡。

4 結(jié)語

針對當前林業(yè)害蟲檢測方法存在模型參數(shù)量大、檢測速度慢、準確率較低和漏檢、誤檢和錯檢等問題，本文提出一種基于注意力模型和輕量化YOLOv4的林業(yè)害蟲檢測方法。實驗結(jié)果表明，與原YOLOv4模型相比，無論是在單一背景還是復雜背景下，本文模型的最高檢測精度達到99.7%，檢測速度比原YOLOv4模型快了一倍。從可視化效果對比實驗可以看出，本文模型解決了原YOLOv4模型存在的漏檢、誤檢和錯檢問題，而且檢測準確度更高。消融實驗結(jié)果驗證了本文網(wǎng)絡各項改進點對算法模型的性能提升都有貢獻.通過注意力機制對比實驗驗證了CBAM能夠明顯提高網(wǎng)絡的特征提取能力，在不過多增加網(wǎng)絡負擔的情況下，大幅提高網(wǎng)絡的檢測精度和整體性能。通過與其他主流網(wǎng)絡模型進行對比實驗，本文方法模型具有最高的平均精度和檢測速度，驗證了本文方法模型的有效性和適用性。下一階段工作將研究把本文方法模型部署到移動端設備和嵌入式設備中，實際應用到林業(yè)害蟲檢測場景中。

[1] 劉漢生. 陷阱式儲糧害蟲信息采集終端及其系統(tǒng)的研究與實現(xiàn)［D］. 北京：北京郵電大學， 2018.（LIU H S. The research and implementation of the trap based information acquisition terminal and information system for stored grain pests［D］. Beijing： Beijing University of Posts and Telecommunications， 2018.）

[2] 竺樂慶，張大興，張真. 基于韋伯局部描述子和顏色直方圖的鱗翅目昆蟲翅圖像特征描述與種類識別［J］. 昆蟲學報， 2015， 58（4）： 419-426.（ZHU L Q， ZHANG D X， ZHANG Z. Feature description of lepidopteran insect wing images based on WLD and HoC and its application in species recognition［J］. Acta Entomologica Sinica， 2015， 58（4）： 419-426.）

[3] GIRSHICK R. Fast R?CNN［C］// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway： IEEE， 2015： 1440-1448.

[4] REN S Q， HE K M， GIRSHICK R， et al. Faster R?CNN： towards real?time object detection with region proposal networks［C］// Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge： MIT Press， 2015：91-99.

[5] DAI J F， LI Y， HE K M， et al. R?FCN： object detection via region?based fully convolutional networks［C］// Proceedings of the 30th International Conference on Neural Information Processing Systems. Red Hook， NY： Curran Associates Inc.， 2016： 379-387.

[6] LIN T Y， DOLLáR P， GIRSHICK R， et al. Feature pyramid networks for object detection［C］// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2017： 936-944.

[7] REDMON J， DIVVALA S， GIRSHICK R， et al. You only look once： unified， real?time object detection［C］// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2016： 779-788.

[8] REDMON J， FARHADI A. YOLO9000： better， faster， stronger［C］// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2017： 6517-6525.

[9] REDMON J， FARHADI A. YOLOv3： an incremental improvement［EB/OL］. （2018-04-08）［2021-12-10］.https：//arxiv.org/pdf/1804.02767.pdf.

[10] BOCHKOVSKIY A， WANG C Y， LIAO H Y M. YOLOv4： optimal speed and accuracy of object detection［EB/OL］. （2020-04-23）［2021-11-05］.https：//arxiv.org/pdf/2004.10934.pdf.

[11] LIU W， ANGUELOV D， ERHAN D， et al. SSD： single shot multiBox detector［C］// Proceedings of the 2016 European Conference on Computer Vision， LNCS 9905. Cham： Springer， 2016： 21-37.

[12] 苗海委，周慧玲. 基于深度學習的粘蟲板儲糧害蟲圖像檢測算法的研究［J］. 中國糧油學報， 2019， 34（12）： 93-99.（MIAO H W， ZHOU H L. Detection of stored?grain insects image on sticky board using deep learning［J］. Journal of the Chinese Cereals and Oils Association， 2019， 34（12）： 93-99.）

[13] 候瑞環(huán)，楊喜旺，王智超，等. 一種基于YOLOv4?TIA的林業(yè)害蟲實時檢測方法［J］. 計算機工程， 2022， 48（4）： 255-261.（HOU R H， YANG X W， WANG Z C， et al. A real?time detection methods for forestry pests based on YOLOv4?TIA［J］. Computer Engineering， 2022， 48（4）： 255-261.）

[14] 袁哲明，袁鴻杰，言雨璇，等. 基于深度學習的輕量化田間昆蟲識別及分類模型［J］. 吉林大學學報（工學版）， 2021， 51（3）： 1131-1139.（YUAN Z M， YUAN H J， YAN Y X， et al. Automatic recognition and classification of field insects based on lightweight deep learning model［J］. Journal of Jilin University （Engineering and Technology Edition）， 2021， 51（3）： 1131-1139.）

[15] 李啟運，紀慶革，洪賽丁. FastFace：實時魯棒的人臉檢測算法［J］. 中國圖象圖形學報， 2019， 24（10）： 1761-1771.（LI Q Y， JI Q G， HONG S D. FastFace： a real?time robust algorithm for face detection［J］. Journal of Image and Graphics， 2019， 24（10）： 1761-1771.）

[16] IANDOLA F N， HAN S， MOSKEWICZ M W， et al. SqueezeNet： AlexNet?level accuracy with 50x fewer parameters and< 0.5 MB model size［EB/OL］. （2016-11-04）［2021-11-22］.https：//arxiv.org/pdf/1602.07360.pdf.

[17] HOWARD A G， ZHU M L， CHEN B， et al. MobileNets： efficient convolutional neural networks for mobile vision applications［EB/OL］. （2017-04-17）［2021-12-08］.https：//arxiv.org/pdf/1704.04861.pdf.

[18] SANDLER M， HOWARD A， ZHU M L， et al. MobileNetV2： inverted residuals and linear bottlenecks［C］// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2018： 4510-4520.

[19] HOWARD A， SANDLER M， CHEN B， et al. Searching for MobileNetV3［C］// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway： IEEE， 2019： 1314-1324.

[20] ZHANG X Y， ZHOU X Y， LIN M X， et al. ShuffleNet： an extremely efficient convolutional neural network for mobile devices［C］// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2018： 6848-6856.

[21] MA N N， ZHANG X Y， ZHENG H T， et al. ShuffleNet V2： practical guidelines for efficient CNN architecture design［C］// Proceedings of the 2018 European Conference on Computer Vision， LNCS 11218. Cham： Springer， 2018： 122-138.

[22] HAN K， WANG Y H， TIAN Q， et al. GhostNet： more features from cheap operations［C］// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2020： 1577-1586.

[23] WOO S， PARK J， LEE J Y， et al. CBAM： convolutional block attention module［C］// Proceedings of the 2018 European Conference on Computer Vision， LNCS 11211. Cham： Springer， 2018： 3-19.

Forest pest detection method based on attention model and lightweight YOLOv4

SUN Haiyan， CHEN Yunbo， FENG Dingwei， WANG Tong， CAI Xingquan*

（，，100144，）

Aiming at the problems of slow detection speed， low precision， missed detection and false detection of current forest pest detection methods， a forest pest detection method based on attention model and lightweight YOLOv4 was proposed. Firstly， a dataset was constructed and preprocessed by using geometric transformation， random color dithering and mosaic data augmentation techniques. Secondly， the backbone network of YOLOv4 was replaced with a lightweight network MobileNetV3， and the Convolutional Block Attention Module （CBAM） was added to the improved Path Aggregation Network （PANet） to build the improved lightweight YOLOv4 network. Thirdly， Focal Loss was introduced to optimize the loss function of the YOLOv4 network model. Finally， the preprocessed dataset was input into the improved network model， and the detection results containing pest species and location information were output. Experimental results show that all the improvements of the network contribute to the performance improvement of the model； compared with the original YOLOv4 model， the proposed model has faster detection speed and higher detection mean Average Precision （mAP）， and effectively solves the problem of missed detection and false detection. The proposed new model is superior to the existing mainstream network models and can meet the precision and speed requirements of real?time detection of forest pests.

forest pest detection; lightweight network; attention model; loss function

This work is partially supported by Beijing Social Science Foundation of China （20YTB011）.

SUN Haiyan， born in 1980， Ph. D.， lecturer. Her research interests include virtual reality， deep learning.

CHEN Yunbo， born in 2001. Her research interests include virtual reality， deep learning.

FENG Dingwei， born in 1997， M. S. candidate. His research interests include virtual reality， deep learning.

WANG Tong， born in 1996， M. S. candidate. His research interests include virtual reality， deep learning.

CAI Xingquan， born in 1980， Ph. D.， professor. His research interests include virtual reality， human?computer interaction， deep learning.

TP391.9

1001-9081（2022）11-3580-08

10.11772/j.issn.1001-9081.2021122164

2021?12?24；

2022?03?14；

2022?03?17。

北京市社會科學基金資助項目（20YTB011）。

孫海燕（1980—），女，山東濟寧人，講師，博士，主要研究方向：虛擬現(xiàn)實、深度學習；陳云博（2001—），女，河南鄭州人，主要研究方向：虛擬現(xiàn)實、深度學習；封丁惟（1997—），男，山東青島人，碩士研究生，主要研究方向：虛擬現(xiàn)實、深度學習；王通（1996—），男，山西大同人，碩士研究生，主要研究方向：虛擬現(xiàn)實、深度學習；蔡興泉（1980—），男，山東濟南人，教授，博士，CCF高級會員，主要研究方向：虛擬現(xiàn)實、人機互動、深度學習。

基于注意力模型和輕量化YOLOv4的林業(yè)害蟲檢測方法

1 相關(guān)工作

2 本文方法

2.1 數(shù)據(jù)預處理

2.2 搭建改進的YOLOv4網(wǎng)絡模型

2.3 輸出檢測結(jié)果

3 實驗結(jié)果與分析

3.1 構(gòu)建數(shù)據(jù)集

3.2 評價指標

3.3 本文方法可行性實驗

3.4 本文網(wǎng)絡模型與原YOLOv4網(wǎng)絡模型對比實驗

3.5 消融實驗

3.6 注意力機制對比實驗

3.7 本文模型與其他模型對比實驗

4 結(jié)語

2.1　數(shù)據(jù)預處理

2.2　搭建改進的YOLOv4網(wǎng)絡模型

2.3　輸出檢測結(jié)果

3.1　構(gòu)建數(shù)據(jù)集

3.2　評價指標

3.3　本文方法可行性實驗

3.4　本文網(wǎng)絡模型與原YOLOv4網(wǎng)絡模型對比實驗

3.5　消融實驗

3.6　注意力機制對比實驗

3.7　本文模型與其他模型對比實驗