基于改進YOLOv8的輕量化雜草檢測模型束艾靜

2024-10-10 00:00:00張艷超

軟件工程 2024年10期

關鍵詞：雜草識別;目標檢測;YOLOv8;輕量化;注意力機制

中圖分類號：TP391 文獻標志碼：A

0 引言（Introduction）

雜草生長在田間作物生產中是一個不可避免的問題，它會導致作物產量和質量下降[1]。目前，雜草管理主要依賴化學除草，但長期濫用除草劑會引發(fā)環(huán)境污染、農藥殘留及雜草抗性等一系列問題。因此，實現(xiàn)智能、快速、準確的雜草檢測，對于推動機械除草和精確噴藥技術的發(fā)展具有重要意義。

如今，基于目標識別技術[2]的除草機器人[3]在智能農業(yè)領域[4]展現(xiàn)出了巨大的潛力，能夠通過高精度的圖像識別和深度學習算法[5]自動識別雜草并進行精準除草，從而減少化學除草劑的使用，提高作物產量和質量。其中，One-Stage目標檢測模型的YOLO（You Only Look Once）系列具有更好的檢測精度[6]、檢測速度[7]和模型尺寸等優(yōu)勢[8]。然而在現(xiàn)實生活中，農田環(huán)境較為復雜，光照條件、作物與雜草的相似性、土壤背景的多樣性等因素給雜草的準確識別帶來了困難。此外，除草機器人的實時處理能力與移動效率是限制其廣泛應用的重要因素。因此，僅僅識別單一的雜草種類無法滿足農民機械除草的需求，農民更需要的是一種耗費更少的計算資源，同時具有較高的魯棒性的檢測模型。

1 雜草檢測（Weed detection）

本研究聚焦于復雜背景下不同種類雜草的檢測任務，將在田間拍攝到的具有復雜背景、密集且相互遮擋的雜草圖像作為數據集用于訓練，基于YOLO系列模型進行改進，研究旨在探究如何在輕量化模型的同時保證模型檢測的準確率，以更好地適應農田實際應用場景的需求。通過這項工作，我們期望能夠高效完成復雜環(huán)境下不同種類雜草的準確識別和定位任務。

1.1 數據集組成

本研究構建的雜草數據集包含一個自制的丁香蓼數據集和兩個公開數據集。其中，丁香蓼數據集中的圖像采集于浙江省金華市的一處稻田實驗場地。該稻田實驗場地的環(huán)境復雜，為了減少光照強度和角度可能帶來的影響，圖片拍攝選在2021年7月17日的中午時段進行。使用搭載高分辨率RGB攝像頭的“大疆”Mavic 2pro無人機在距離地面5 m的高度采集數據，無人機按照事先規(guī)劃好的路線飛行并拍攝稻田正射影像，拍攝間隔為3 s，飛行速度為1.6 m/s，總共獲得了778張分辨率為5 472×3 648的照片。圖1為采集的航拍圖像，將采集到的圖像裁剪成640×640像素大小，總共得到1 493張JPG格式的圖像用于制作丁香蓼數據集。

本研究利用的兩個公開數據集分別是Weed25和WeedDetection，Weed25數據集的圖像主要采集自中國重慶地區(qū)的農田與草地[9]，涵蓋了東亞地區(qū)普遍存在的25種雜草。每種雜草的圖像數量為500～550張，反映了這些雜草在不同生長階段下的多樣形態(tài)。為了盡可能地模擬自然環(huán)境中雜草的真實狀態(tài)，本研究從Weed25數據集中排除了在溫室條件下栽培的雜草圖像，保留了在自然環(huán)境中生長的雜草種類進行分析。Weed Detection數據集是一個專注于雜草檢測的數據集，該數據集特別關注那些形態(tài)不規(guī)則且其顏色與背景易于混淆的雜草類別。具體的15種雜草圖像如圖2所示。

如圖2所示，田間許多禾本科雜草如稗草、綠尾草和芒草等，它們在外貌和結構特征上具有高度相似性，種類和形態(tài)多樣的雜草共同構成了一個高度模擬現(xiàn)實除草場景的測試平臺。

1.2 數據集制作

為了準備用于實驗的雜草數據集，本文采用labelImg開源的圖像標注工具對自制的丁香蓼數據集的圖像進行標注。將自制的丁香蓼數據集與另外兩個公開數據集（Weed25和WeedDetection）整合，構成了本研究最終用于實驗的雜草數據集（表1）。該數據集涵蓋了15種不同類型的雜草，總計包含10 222幅圖像。按照1∶9的比例隨機劃分驗證集和訓練集。

2 雜草檢測模型與改進（Weed detection modeland its improvement

2.1 YOLOv8目標檢測模型

YOLOv8是目前YOLO系列算法中最新的模型結構，該模型是在之前YOLO版本的基礎上引入了新的功能并加以改進，進一步提升了性能。YOLOv8提供了包括N、S、M、L、X等多種尺度大小的模型，用于滿足不同場景的需求，本次實驗選取了輕量級的YOLOv8-s作為基準模型進行改進，網絡由主干網絡（Backbone）、加強特征融合網絡（Neck）和分類回歸網絡（Head）組成。

Backbone借鑒了CSP（Cross Stage Partial）模塊思想，將Yolov5中的C3模塊替換成C2f模塊，以獲得更加豐富的梯度流信息，同時沿用了Yolov5 中的SPPF（Spatial PyramidPooling Fast）模塊，Backbone對圖像進行特征提取，輸出包含不同語義信息的特征層級進入下一階段。Neck采用路徑聚合網絡（Path Aggregation Network，PANet）思想，通過上下采樣將高層和底層提取到的特征進行進一步融合。Head部分相比YOLOv5改動較大，換成目前主流的解耦頭（Decoupled head）結構，將分類和檢測頭分離。YOLOv8的模型結構如圖3所示。

2.2 改進的YOLOv8目標檢測算法

本文在前人研究的基礎上，提出基于YOLOv8-s的改進模型，讓模型能夠在減少參數量和計算量的前提下，提升雜草檢測精度，具體步驟如下：第一，將網絡中原有的CBS卷積基礎模塊替換成更為輕量化的Ghost Conv[10]模塊，減少模型參數量;第二，選用結構更加簡潔的C3模塊，并將其中的Bottleneck替換成Ghost Bottleneck模塊，進一步輕量化模型;第三，使用輕量化的CBAM 注意力機制模塊，將CBAM 模塊嵌入Neck最后三層輸出層之前，聚焦有效信息，在不增加模型參數的同時，提升檢測精度。

2.2.1 Ghost Bottleneck模塊

（1）Ghost Conv模塊（圖4）

常規(guī)的卷積模塊是利用多個卷積核對輸入特征圖中所有的通道進行卷積映射操作。然而，堆疊大量的卷積層需要耗費巨大的參數量和計算量，也會產生豐富甚至冗余的特征圖。Ghost Conv是一種可以用來減少模型計算量和參數量的卷積模塊，主要思想是將普通的卷積操作分解為主卷積和幽靈卷積兩個階段。首先，使用原卷積核一半數量的1×1卷積核獲取必要的濃縮特征，得到一半的特征圖;其次，使用原卷積核一半數量的5×5卷積核進行廉價計算（Cheap Operation），得到另一半特征層;最后，通過Concat操作將兩個部分的特征圖拼接成完整的特征層。將Ghost Conv替換原有卷積模塊，可以有效地減少參數量和計算量，模型的大小也會相應減小，同時仍然能保持一定的模型性能，確保模型在資源受限的環(huán)境中也能有效運行。

（2）Ghost Bottleneck模塊

基于Ghost Conv構建全新的輕量化Ghost Bottleneck模塊用以替換原始Bottleneck模塊。Ghost Bottleneck模塊如圖5所示。當步長（Stride）為1時，由兩個Ghost Module和一個殘差邊組成Ghost Bottleneck。第一個Ghost Module擴展輸入矩陣的通道數，第二個Ghost Module縮減通道數。當步長為2時，在兩個Ghost Module之間添加的深度可分離卷積完成寬高壓縮操作，殘差邊加入一個深度可分離卷積和一個普通卷積模塊，保證輸出特征圖的大小不變。

2.2.2C3Ghost模塊

C2f模塊和C3模塊分別是YOLOv8和YOLOv5的核心組成部分，C3模塊包含3個標準卷積層和多個Bottleneck模塊（數量由模型的深度決定），C2f模塊參考了C3模塊和高效輕量級注意力網絡（Efficient Lightweight Attention Network，ELAN）的思想進行設計，將不同層次的Bottleneck輸出依次疊加，但C3模塊結構更簡潔，因此本文選擇使用C3模塊替換YOLOv8中的C2模塊，并在此基礎上替換其中的Bottleneck為Ghost Bottleneck模塊，進一步輕量化模型，具體結構如圖6所示。

2.2.3 引入CBAM 注意力機制

注意力機制模塊是深度學習模型中的一種組件，允許模型在處理輸入時，通過學習權重或概率分布，使網絡能夠自適應地關注一些特定部分或通道。CBAM[11]模塊結合了空間注意力和通道注意力兩個方面，通過調整不同通道的重要性，關注圖像的不同區(qū)域。CBAM注意力機制結構如圖7所示。

從圖7可以看到，CBAM 包含2個獨立的子模塊，通道注意力模塊（Channel Attention" Module，CAM）和空間注意力模塊（Spatial Attention Module，SAM），分別在通道維度與空間維度上進行注意力機制計算。CBAM 兩個子模塊的結構如圖8所示。

（1）通道注意力模塊

對于輸入的（C×H ×W ）特征圖分別進行基于H 和W 的全局最大池化（global max pooling）和全局平均池化（globalaverage pooling），聚合空間信息，其中C 代表特征圖的通道數，H 和W 分別代表特征圖的高和寬，由此得到兩個1×1×C 的特征圖，接著利用1×1卷積核代替全連接，其中卷積核的個數為C/r（r 為減少率），特征圖經過兩個卷積層和激活函數（ReLU）后，相加激活輸出。

（2）空間注意力模塊

將經過通道注意力模塊處理后的特征圖作為本模塊的輸入特征。首先沿著通道方向進行最大池化和平均池化，得到兩個1×H ×W 的特征圖，將得到的兩個特征圖進行維度上的拼接;其次經過卷積和激活函數操作輸出;最后將該特征圖和該模塊的輸入特征圖做乘法，得到最終生成的特征。

3 實驗結果及分析（Experimental results and analysis）

3.1 實驗環(huán)境與參數設置

本文實驗使用的軟件環(huán)境為Windows 10 操作系統(tǒng)，Pycharm編輯器，深度學習框架及開發(fā)環(huán)境分別為Pytorch1.12.1、Python 3.7、CUDA 10.1，硬件環(huán)境CPU為AMD Ryzen9 7950X 16-Core Processor@4.50 GHz，GPU為NVIDIA GeForceRTX 2080 Ti。訓練輪次設置為100輪，批次大小為8。

3.2 評價指標

為驗證模型有效性，使用的驗證指標如下：每種雜草的平均精度（Average Precision， AP）、平均精度均值（Mean AveragePrecision，mAP）[包括mAP-0.5、mAP-0.5∶0.95，前者表示IoU閾值為0.5時的所有雜草類別的平均AP，后者表示在不同IoU閾值（0.5～0.95，步長為0.05）上的平均mAP]、浮點計算量（Floating point operations， FLOPs）、模型參數量。

3.3 消融實驗

在對YOLOv8-s（Baseline）原始網絡模型進行優(yōu)化改進時，選擇將基本卷積模塊替換為輕量的Ghost Conv，同時在網絡Neck結構的最后三層輸出前添加CBAM 注意力機制，改進后模型的性能表現(xiàn)如表2所示。

從表2中數據可以看出：采用替換輕量化卷積的優(yōu)化策略，在保證模型檢測精度基本不變的前提下，顯著減少了模型的參數量，相比官方YOLOv8-s降低了46.09%的參數量，而且進一步減輕了計算負擔，計算量減少了42.11%。在此基礎上，增加CBAM注意力機制，雖然模型層數增加了，但是并沒有增加模型的參數量和計算量，反而有效地提升了模型對雜草的檢測精度，mAP-0.5和mAP-0.5∶0.95分別較原始模型提高了0.8百分點、0.3百分點。這一實驗結果證明了本次改進不僅在模型輕量化上取得了顯著效果，而且成功提升了模型的檢測精度，為實際應用場景的計算資源提供了更加高效的解決方案。

3.4 改進模塊參數對比

通過計算每一個模塊的參數量，對改進前后模塊實際參數量的大小變化進行定量分析，將所有模塊輸入、輸出特征圖的寬和高固定為統(tǒng)一的640×640，計算結果如表3所示。

從表3可以看出，Ghost Conv模塊相比原始基本卷積模塊Conv的參數量減少了47.9%，將Bottleneck中的Conv結構均替換成Ghost Conv后構成Ghost Bottleneck，使得參數量顯著減少，從3.69 M降低為0.22 M，減少了96.5%，對比YOLOv8中使用的C2f模塊和YOLOv5中使用的C3模塊的參數量，C3的參數量更小，僅為C2f的64.6%，這也是本文選擇C3模塊作為改進的基本模塊的原因，改進后的C3Ghost模塊參數量降為0.88 M。以上實驗結果充分證明了本次輕量化改進的有效性。

3.5 雜草檢測結果

為了驗證改進模型的效果，對Faster R-CNN、RetinaNet、SSD、YOLOv5、YOLOv6、YOLOv7 和改進后的YOLOv8-Ghost-CBAM模型進行比較，每個模型均在自制數據集上訓練100個周期（Epoch）。

表4中加粗的數字表示在模型對比實驗中表現(xiàn)最佳，可以明顯看到本次基于YOLOv8改進后的模型擁有較高的檢測精度，包括mAP-0.5和mAP-0.5∶0.95的得分均為最高，同時本文所提模型擁有最小的尺寸，為解決實際場景中的雜草檢測問題提供了更為可靠和有效的解決方案。

最終15種雜草檢測的AP值結果如表5所示。

結果可視化如圖9所示。

圖9（a）展示的是雜草真實標簽，圖9（b）為模型測試時得到的預測框，圖中的檢測框分別代表了模型檢測到的不同種類的雜草，通過觀察可以看出，本文所提模型在復雜環(huán)境下對不同種類雜草的檢測效果顯著，預測框幾乎可以覆蓋標簽框，并且沒有觀察到誤檢情況的出現(xiàn)。特別值得一提的是，圖9中第一排第一張和第三張圖片中，模型正確預測了未標注的雜草，這充分證明了模型在復雜背景下具有較好的魯棒性。然而，在檢測過程中也存在一定的遺漏，在圖9中第一列的最后兩張圖片中，因為陰影和遮擋問題，分別遺漏了一株標注雜草，這表明在后續(xù)研究中模型性能還有待繼續(xù)優(yōu)化?？傮w來說，本文所提的模型在處理復雜環(huán)境和形狀相似的雜草方面展現(xiàn)出了出色的能力，為實際應用中的雜草檢測提供了可靠且有效的解決方案。

4 結論（Conclusion）

針對復雜農田環(huán)境下的雜草檢測，本文提出了一種基于改進YOLOv8-s的雜草檢測模型，即YOLOv8-Ghost-CBAM。該模型引入輕量級Ghost Conv模塊，并設計了全新的GhostBottleneck模塊和C3Ghost模塊，在保證模型魯棒性的同時有效減少了模型的參數量及模型大小;此外，通過添加CBAM 注意力模塊，提升了模型的特征融合能力，提高了模型檢測精度。改進后的模型與YOLOv8相比，參數量減少了46.18%，模型計算量下降42.81%，而且改進后的網絡檢測mAP為90.5%，提高了0.8%，這不僅使得模型能夠在復雜環(huán)境中高效地檢測雜草，還為農業(yè)領域的小型嵌入式平臺搭載的除草機器人的發(fā)展提供了可行的解決方案，具有重要的實際應用價值。

作者簡介：

束艾靜（1998-），女，碩士生。研究領域：計算機視覺，無人機低

空遙感。張艷超（1988-），男，博士，副教授。研究領域：無人機低空遙感，智能農機裝備。