改進YOLOv5測量田間小麥單位面積穗數(shù)

2023-01-12 13:28:40周亞男王起帆邱朝陽

農(nóng)業(yè)工程學(xué)報 2022年16期

黃碩，周亞男，王起帆，張晗，邱朝陽，康凱，羅斌

黃碩1,2，周亞男1,2，王起帆3，張晗1,2，邱朝陽4，康凱4，羅斌1,2※

（1. 北京市農(nóng)林科學(xué)院智能裝備技術(shù)研究中心，北京 100097；2. 國家農(nóng)業(yè)智能裝備工程技術(shù)研究中心，北京 100097；3. 河北農(nóng)業(yè)大學(xué)機電工程學(xué)院，保定 071000；4. 北京市農(nóng)林科學(xué)院信息技術(shù)研究中心，北京 100097）

單位面積穗數(shù)是決定小麥產(chǎn)量的主要因素之一。針對人工清點小麥穗數(shù)的方法容易受主觀因素影響、效率低和圖像處理方法鮮有進行系統(tǒng)部署等問題，提出一種注意力模塊（Convolutional Block Attention Module，CBAM）與YOLOv5相結(jié)合的CBAM-YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)，通過對特征圖進行自適應(yīng)特征細化，實現(xiàn)更準(zhǔn)確的單位面積穗數(shù)測量。該研究以本地采集小麥圖像數(shù)據(jù)和網(wǎng)絡(luò)公開小麥圖像數(shù)據(jù)為數(shù)據(jù)集，設(shè)置輸入圖像分辨率為1 280，得到CBAM-YOLOv5模型，可以達到0.904的1分數(shù)和0.902的平均精度，測試集計數(shù)的平均相對誤差為2.56%，平均每幅圖像耗時0.045 s，綜合對比，CBAM-YOLOv5模型具有顯著優(yōu)勢。模型放置于服務(wù)器，結(jié)合手機端軟件和輔助裝置，形成單位面積穗數(shù)測量系統(tǒng)，實現(xiàn)育種小區(qū)麥穗圖像實時采集、處理和計數(shù)，計數(shù)的平均相對誤差為2.80%，抗環(huán)境干擾性強。該研究方法與裝置可以實現(xiàn)田間小麥單位面積穗數(shù)的實時在線檢測，降低主觀誤差，具有較高的準(zhǔn)確率及較強的魯棒性，為小麥單位面積穗數(shù)快速、準(zhǔn)確估測提供一種新的技術(shù)和裝備支撐。

模型；小麥；單位面積麥穗數(shù)；深度學(xué)習(xí)；YOLOv5；CBAM

0 引言

小麥?zhǔn)鞘澜缛蠹Z食作物之一，種植面積在2.24億公頃左右，養(yǎng)活了世界大約30%的人口[1]，不斷提高其單位面積產(chǎn)量一直是現(xiàn)代育種的主要目標(biāo)。及時、準(zhǔn)確地掌握小麥產(chǎn)量信息，可為科研工作者提高育種效率。單位面積穗數(shù)作為小麥最重要的產(chǎn)量指標(biāo)之一[2]，以往在生產(chǎn)過程中，經(jīng)常采用人工計數(shù)的方法來獲取，不僅人力成本和時間成本較大，而且易受主觀因素影響。進行自動估算單位面積穗數(shù)的研究尤為必要，其有助于小麥產(chǎn)量預(yù)估和表型鑒定的進步，目前，有圖像處理、機器學(xué)習(xí)、深度學(xué)習(xí)三類技術(shù)用于自動測量小麥穗數(shù)。

傳統(tǒng)的圖像處理技術(shù)已經(jīng)被用于計算單位面積穗數(shù)，如紋理特征和混合顏色空間，來自顏色、灰度和紋理數(shù)據(jù)的多特征融合[3]。Fernandez-Gallego等使用限制對比度自適應(yīng)直方圖均衡化算法（Contrast Limited Adaptive Histogram Equalization，CLAHE）增強麥穗熱像圖中小區(qū)域的局部對比度，并選擇分析粒子函數(shù)過濾并計算檢測到的麥穗[4]。李毅念等轉(zhuǎn)換圖像顏色空間提取飽和度分量圖像，通過圖像預(yù)處理、去除細窄處粘連、凹點檢測匹配分割等算法處理，實現(xiàn)圖像中麥穗分割計數(shù)，計算籽粒數(shù)，完成產(chǎn)量預(yù)測[5]。劉濤等利用顏色特征或者紋理特征提取麥穗圖像，進行一系列的形態(tài)學(xué)腐蝕膨脹、空洞填充和細化處理，得到麥穗骨架圖像，繼而利用角點檢測方法計數(shù)[6]。圖像處理技術(shù)的準(zhǔn)確性取決于圖像的質(zhì)量，而大田環(huán)境較為復(fù)雜，難以保證圖像質(zhì)量的統(tǒng)一，通用性較差。

隨著機器學(xué)習(xí)的興起，研究人員使用支持向量機等分類技術(shù)進行麥穗識別，以提升識別的精準(zhǔn)度和魯棒性[7-8]。Fernandez-Gallego等使用拉普拉斯濾波器和尋找最大值的方法定位麥穗，從原始RGB圖像及其顏色通道中提取如面積、高度等30個特征，進行訓(xùn)練和分類，完成一種自動計穗系統(tǒng)的設(shè)計[9]。Zhou等應(yīng)用簡單線性迭代聚類（Simple Linear Iterative Clustering，SLIC）來提取超像素圖像斑塊，將多特征優(yōu)化和孿生支持向量機（Twin Support Vector Machine，TWSVM）相結(jié)合進行田間條件下的小麥麥穗識別[10]。劉哲等改進K-means算法，充分利用圖像麥穗顏色特征，進行大田麥穗計數(shù)[11]。杜穎等通過SLIC預(yù)處理田間小麥圖像，提取并分析出適宜的顏色特征參數(shù)訓(xùn)練分類器，對識別結(jié)果進行處理，結(jié)合角點數(shù)和區(qū)域統(tǒng)計結(jié)果計算小麥穗數(shù)[12]。機器學(xué)習(xí)能夠從給定的數(shù)據(jù)中學(xué)習(xí)目標(biāo)特征達到較好的識別效果，因此目標(biāo)特征選擇的準(zhǔn)確性決定該類方法的有效性，但需要由研究人員來確定目標(biāo)特征，存在主觀性。

近年來，隨著計算機硬件性能的快速提升，深度學(xué)習(xí)技術(shù)得到了廣泛應(yīng)用，許多學(xué)者開始使用深度學(xué)習(xí)方法開展麥穗識別研究[13-15]。Misra等將局部補丁提取網(wǎng)絡(luò)（Local Patch extraction Network，LPNet）和全局掩碼細化網(wǎng)絡(luò)（Global Mask Refinement Network，GMRNet）相結(jié)合，提出一種新的深度學(xué)習(xí)網(wǎng)絡(luò)SpikeSegNet，實現(xiàn)麥穗的識別與計數(shù)[16]。Xu等采用K-means聚類法自動分割麥穗圖像構(gòu)建數(shù)據(jù)集，并將其送入卷積神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練和測試，實現(xiàn)小麥穗部的快速準(zhǔn)確識別[17]。鮑文霞等引用擁擠場景識別網(wǎng)絡(luò)（Congested Scene Recognition Network，CSRNet）搭建麥穗密度圖模型，利用公開數(shù)據(jù)集進行預(yù)訓(xùn)練，再用采集的數(shù)據(jù)集，調(diào)整和優(yōu)化模型參數(shù)，構(gòu)建麥穗計數(shù)函數(shù)模型，實現(xiàn)穗數(shù)估計[18]。段凌鳳等基于SegNet架構(gòu)，訓(xùn)練了PanicleNet深度全卷積網(wǎng)絡(luò)，對原始圖劃分的子圖進行語義分割，完成對不同品種稻穗的精準(zhǔn)分割[19]。深度學(xué)習(xí)不依靠人工進行特征提取，具有非常強的學(xué)習(xí)能力，提高了麥穗識別的準(zhǔn)確率和魯棒性。另外，TensorFlow、PyTorch等框架的出現(xiàn)，也讓深度學(xué)習(xí)技術(shù)可以廣泛地應(yīng)用于很多平臺。

綜上可知，目前的研究大多數(shù)只是對圖像中的麥穗進行識別，但鮮有將方法進行部署與應(yīng)用，難以直接拍攝小麥群體圖像并獲取單位面積麥穗數(shù)。因此，本文提出一種CBAM-YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)，目的在于利用注意力模塊進一步提升YOLOv5對重疊、遮擋情況麥穗的識別效果，實現(xiàn)麥穗的快速識別和有效計數(shù)，為小麥單位面積穗數(shù)測量提供新的解決方法和裝置。本文主要工作有：1）討論輸入圖片不同分辨率設(shè)置對模型性能的影響，在允許范圍內(nèi)，選用最優(yōu)參數(shù)訓(xùn)練模型；2）將CBAM集成到Y(jié)OLOv5中，利用注意力機制細化特征，提高識別精度，實現(xiàn)復(fù)雜環(huán)境下小麥穗數(shù)的精確計數(shù)；3）開發(fā)了一個單位面積穗數(shù)測量系統(tǒng)，進行應(yīng)用測試，軟件部分采用C/S架構(gòu)，將深度學(xué)習(xí)模型和圖片分割算法部署在服務(wù)器，手機安裝客戶端進行人機交互，硬件部分通過PVC管搭建一個1 m2的標(biāo)準(zhǔn)框，輔助計算單位面積穗數(shù)。

1 材料與方法

1.1 數(shù)據(jù)集

1.1.1 數(shù)據(jù)獲取

為提高模型的泛化能力，本研究使用兩種數(shù)據(jù)集。其中，Wheat Spikes Detection（WSD）數(shù)據(jù)集的小麥圖像拍攝于江蘇省農(nóng)業(yè)科學(xué)院六合動物科學(xué)基地（北緯32°29′，東經(jīng)118°37′）和小湯山國家精準(zhǔn)農(nóng)業(yè)研究示范基地（北緯40°10′，東經(jīng)116°27′）。小麥品種為揚麥29號、寧麥26號、鎮(zhèn)麥10號、京花5號，生長過程中正常施氮。小麥圖像的拍攝時間是2021年4月28日—5月27日，每隔一個星期選取2 d進行拍攝，覆蓋了小麥的灌漿期和成熟期，且包含晴朗、多云等天氣。以1.5 h為間隔使用華為mate 40 Pro和iPhone 12 Pro Max手動拍攝6組圖片，其中上午拍攝3組，下午拍攝3組。每組包含以20 cm為間隔在小麥冠層上方10～70 cm高度的垂直向下角度拍攝的4張圖片。共拍攝576張圖片，其中部分圖像由于手持手機拍攝存在圖像模糊等問題，為降低圖像質(zhì)量下降對模型檢測精度的影響，對圖片進行篩選后剩余453張圖像。WSD數(shù)據(jù)集具有密度大的特點，其中多數(shù)圖像中麥穗的數(shù)量可達400穗，經(jīng)過圖像數(shù)量對比預(yù)試驗，最終使用68張圖片構(gòu)建WSD數(shù)據(jù)集，約10 000個麥穗樣本，圖片均以JPG格式存儲，統(tǒng)一分辨率為3 648×2 736（像素）。圖1a展示了該數(shù)據(jù)集圖像示例。

第二個數(shù)據(jù)集是網(wǎng)絡(luò)公開的Global Wheat Head Detection（GWHD）數(shù)據(jù)集[20]，它包含了4 700張RGB圖像（1 024×1 024（像素））和190 000個標(biāo)記的麥穗。這些圖像是通過歐洲、北美洲、大洋洲和亞洲不同品種、不同種植條件、不同氣候、不同采集方法獲取匯總而成。因此，GWHD數(shù)據(jù)集具有基因型和環(huán)境的多樣性，可對提高小麥穗部檢測和定位的準(zhǔn)確性和可靠性提供幫助。相較于自行拍攝的WSD數(shù)據(jù)集，該數(shù)據(jù)集具有拍攝面積小，單幅麥穗較少的特點。從中隨機選取152張圖片參與模型的訓(xùn)練和評估，圖片包含約5 000個麥穗樣本。圖 1b展示了該數(shù)據(jù)集圖像示例。

圖1 數(shù)據(jù)集的圖像示例

將兩種數(shù)據(jù)集分別按照8∶1∶1的比例隨機挑選劃分為訓(xùn)練集、驗證集和測試集，如表1所示。

表1 數(shù)據(jù)集

1.1.2 數(shù)據(jù)標(biāo)注

本文使用Labelimg工具對數(shù)據(jù)集中的麥穗進行標(biāo)記。圖像中每個麥穗都被一個矩形框完全包裹，且盡量減少多余背景進入矩形框，矩形框的位置由左上角和右下角頂點的坐標(biāo)確定。在對圖像中全部的麥穗進行標(biāo)注后，生成對應(yīng)的XML文件，其中包括圖像的大小、標(biāo)簽的名稱和標(biāo)簽的位置等信息。

數(shù)據(jù)的標(biāo)注工作由4名相關(guān)研究人員進行，為降低因目標(biāo)標(biāo)簽不準(zhǔn)確導(dǎo)致模型訓(xùn)練和識別性能下降的可能性，研究人員在標(biāo)注完成后交換進行標(biāo)注結(jié)果校正工作。

1.2 目標(biāo)檢測算法

1.2.1 YOLO模型

YOLO（You Only Look Once）是一種目前廣泛應(yīng)用的目標(biāo)檢測模型，其很好地平衡檢測速度和檢測精度，且擁有較好的小目標(biāo)檢測能力[21-24]。YOLO對整幅圖像進行處理，直接返回錨框的位置及其類別等信息[25]。YOLOv5根據(jù)寬度和深度的設(shè)置，分為YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x，它們參數(shù)量各不相同[26]，其中，YOLOv5l兼具不低的平均精度和較高的速度，在分別用4種網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練麥穗識別模型的預(yù)試驗中，YOLOv5l的表現(xiàn)也更為出色，因此，本文選用YOLOv5l結(jié)構(gòu)，并以其為基礎(chǔ)進行改進。

1.2.2 CBAM注意力模塊

Convolutional Block Attention Module（CBAM）是由Woo等提出的一種前饋卷積神經(jīng)網(wǎng)絡(luò)的注意力模塊，其由通道注意力模塊和空間注意力模塊組成[27]。如圖2所示，對于輸入的特征圖，沿著通道和空間這兩個獨立的維度依次計算出注意力圖，然后將注意力圖乘以輸入特征圖進行自適應(yīng)的特征細化。通道注意力模塊同時使用平均池化操作和最大池化操作，比單獨使用一種操作讓輸入圖像中目標(biāo)的特征表達進一步突出，模型更容易學(xué)習(xí)到有意義的特征?？臻g注意力模塊是對通道注意力模塊的補充，沿通道軸將特征層連接起來，使目標(biāo)的特征有效地連接在一起，凸顯目標(biāo)自身和周邊區(qū)域信息。

1.2.3 CBAM-YOLOv5

基于自定義數(shù)據(jù)集，使用YOLOv5網(wǎng)絡(luò)訓(xùn)練出的模型可以識別麥穗，但一些密集麥穗的圖片的檢測結(jié)果并不理想。為改善這類情況，選擇CBAM注意力機制模塊增強模型的學(xué)習(xí)能力[28]。雖然CBAM是一種端到端的通用模塊，可以無縫集成到卷積神經(jīng)網(wǎng)絡(luò)中，但加入在YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)的其他位置時，難免破壞YOLOv5原本的整體性，無法將組合后的學(xué)習(xí)效果提升最大化。經(jīng)過不同加入位置結(jié)果對比后，選擇將CBAM嵌入到Y(jié)OLOv5的頸部末端，搭建如圖3所示的CBAM-YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)。CBAM-YOLOv5保留了YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)，繼承了YOLOv5較強的學(xué)習(xí)能力，YOLOv5的特征圖通過CBAM依次計算出一維通道注意圖和二維空間注意圖，然后與輸入特征圖相乘，對YOLOv5得到的特征圖進行自適應(yīng)特征細化，增強特征圖中被遮擋目標(biāo)的特征表達，提高正確特征的提取，抑制無關(guān)特征的表達，提高麥穗識別的準(zhǔn)確率，尤其是重疊、遮擋情況的麥穗識別效果得到了提升。

圖2 CBAM結(jié)構(gòu)

注：Concat為維度拼接操作；slice為切片操作；CONV為卷積操作；BN為批標(biāo)準(zhǔn)化；SiLU為激活函數(shù)；add為疊加操作；Maxpool為最大池化操作。

1.3 試驗配置

模型的訓(xùn)練是在本地電腦上開展，硬件配置較高，縮短訓(xùn)練時長。模型訓(xùn)練完成后，部署在云服務(wù)器，方便手機APP遠程訪問。配置如下：

本地電腦的硬件配置為Intel? CoreTMi7-10700K處理器和NVIDIA GeForce RTX 3060顯卡，操作系統(tǒng)是Ubuntu 20.04.2 LTS 64位系統(tǒng)，并安裝了CUDA11.2、Python3.8.5、Pytorch1.8.1。模型的超參數(shù)和訓(xùn)練參數(shù)設(shè)置如下：學(xué)習(xí)率為0.01，學(xué)習(xí)衰減率為0.2，動量為0.937，批處理設(shè)置為4，輸入圖片分辨率設(shè)置為1 280，輪次設(shè)置為300。

云服務(wù)器的硬件配置為Intel(R) Xeon(R) Gold 6266C處理器，操作系統(tǒng)是Windows Server 2019 64位系統(tǒng)，并安裝了Python3.8.5、Pytorch1.8.1。

1.4 評估指標(biāo)

為了驗證模型的性能，使用1分數(shù)（1-score）、平均精度（Average Precision，AP）和計數(shù)相對誤差作為評估指標(biāo)對訓(xùn)練后的模型進行評價[14]。

1.5 穗數(shù)測量系統(tǒng)的設(shè)計

由于手機種類繁多，硬件配置各不相同，為減少使用過程的不便，穗數(shù)測量系統(tǒng)選擇基于客戶端/服務(wù)器模式的應(yīng)用開發(fā)，由APP和服務(wù)器組成，通過Android SDK構(gòu)建人機交互圖像界面，深度學(xué)習(xí)模型和數(shù)據(jù)庫放置在服務(wù)器。用戶可操作手機APP拍攝或從相冊選擇麥穗圖像（須有一個1 m2標(biāo)準(zhǔn)框，框由白色PVC管搭建），上傳圖像至服務(wù)器，服務(wù)器先后調(diào)用分割算法和深度學(xué)習(xí)模型，保留圖像中1 m2標(biāo)準(zhǔn)框和框內(nèi)麥穗，進行識別和計數(shù)后，將結(jié)果反饋給客戶端，APP再根據(jù)結(jié)果換算出畝穗數(shù)，如果用戶填寫單穗質(zhì)量等參數(shù)，還可輸出畝產(chǎn)量等信息。

2 結(jié)果及分析

2.1 輸入圖片不同分辨率設(shè)置對模型性能的影響

本文的數(shù)據(jù)集有3 648×2 736和1 024×1 024兩種圖片尺寸，當(dāng)輸入到網(wǎng)絡(luò)進行訓(xùn)練和預(yù)測時，都需要進行改變大?。╮esize）操作，改變圖像尺寸。大田環(huán)境下小麥麥穗與一般的檢測目標(biāo)相比，在圖像中的尺寸更小，分布更密集，圖像縮得越小，信息丟失越嚴(yán)重。因此，為了確定CBAM-YOLOv5網(wǎng)絡(luò)最優(yōu)訓(xùn)練參數(shù)，圖像尺寸分別設(shè)置640、960、1 280像素進行結(jié)果對比。模型的評估指標(biāo)結(jié)果如表2所示。由表2可知，設(shè)置為960和1 280像素時的評估結(jié)果均比設(shè)置為640像素時好，與設(shè)置為960像素時比，設(shè)置為1 280像素的1分數(shù)和AP50∶5∶95分別提高了0.003和0.014，AP50降低了0.007。

表2 不同輸入圖片分辨率設(shè)置時模型的評估指標(biāo)結(jié)果

注：AP50指交并比的值為0.50時的AP值；AP50:5:95指IoU的值從0.50取到0.95，步長為0.05，計算AP的均值。下同。

Note：AP50 refers to the AP value for an Intersection over Union (IoU) value of 0.50; AP50:5:95 refers to the mean value of AP, with the value of IoU taken from 0.50 to 0.95 at a step of 0.05. Same below.

系統(tǒng)應(yīng)用時，手機拍攝帶有1 m2標(biāo)準(zhǔn)框的小麥圖像后，模型需直接對整幅圖像進行預(yù)測，計算麥穗數(shù)量。因此，此處僅列舉WSD測試集的預(yù)測結(jié)果，如表3所示。置信閾值和IoU閾值均分別設(shè)置為0.3和0.45，模型生成的預(yù)測框經(jīng)過置信閾值和IoU閾值的篩選后，統(tǒng)計其個數(shù)即為麥穗數(shù)量。

從表3中可以看出，圖片的實際檢測計數(shù)過程中，輸入圖像分辨率設(shè)置為1 280在耗時沒有變化的同時，計數(shù)相對誤差的平均值均最低，相對誤差的標(biāo)準(zhǔn)差也僅為0.01，說明此參數(shù)設(shè)置下精度最高，且誤差波動小。綜合來看，將輸入圖像分辨率設(shè)置為1 280是較好的選擇。

表3 不同分辨率設(shè)置時模型的測試集計數(shù)結(jié)果

2.2 模型性能的比較

為了驗證本文提出的CBAM-YOLOv5網(wǎng)絡(luò)的性能，與Faster RCNN、YOLOv4、YOLOv5對測試集小麥穗部的檢測效果進行對比。在相同的硬件環(huán)境下，通過調(diào)整訓(xùn)練參數(shù)，使四種模型各自達到最好的效果。表4列出模型1分數(shù)、AP50和AP50∶5∶95的結(jié)果。表5匯總4種模型的WSD測試集的計數(shù)結(jié)果。圖片預(yù)測結(jié)果示例如圖4所示。

由表4可知，CBAM-YOLOv5在1分數(shù)、AP50和AP50∶5∶95這3個指標(biāo)上都有著更好的表現(xiàn)，比YOLOv5分別提高了0.021、0.021、0.022，比YOLOv4分別提高了0.209、0.190、0.255，比Faster RCNN分別提高了0.308、0.398、0.353。

表4 不同模型的評估指標(biāo)結(jié)果

對WSD數(shù)據(jù)集的預(yù)測結(jié)果顯示，CBAM-YOLOv5模型計數(shù)的相對誤差為2.56%，和YOLOv5、YOLOv4和Faster RCNN相比，分別降低了1.44個百分點、9.04個百分點、24.81個百分點，且相對誤差的標(biāo)準(zhǔn)差為0.01，說明CBAM-YOLOv5模型計數(shù)的相對誤差更加集中，麥穗計數(shù)的結(jié)果較為穩(wěn)定。另外，CBAM-YOLOv5模型預(yù)測一幅圖像的平均耗時為0.045 s，遠遠低于YOLOv4和Faster RCNN的耗時，僅比YOLOv5的耗時多0.003 s。圖4中可以明顯地看出，YOLOv5和YOLOv4存在大量重復(fù)預(yù)測框，而Faster RCNN有較多麥穗未識別，與計數(shù)結(jié)果吻合。

綜合來看，CBAM-YOLOv5網(wǎng)絡(luò)的性能表現(xiàn)最好，其取得較好的效果有以下兩個原因：1）在YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)頸部末端加入CBAM模塊。把YOLOv5和CBAM的優(yōu)勢結(jié)合起來，將注意力聚焦在目標(biāo)上，降低復(fù)雜背景對目標(biāo)學(xué)習(xí)的影響，在不使用過多的參數(shù)和計算力的基礎(chǔ)上，對密集且小目標(biāo)有更好的學(xué)習(xí)效果，在麥穗檢測過程中發(fā)揮著巨大的作用；2）圖像輸入尺寸設(shè)置為1 280。在3 648×2 736分辨率的圖像中，麥穗所占像素值很小，加大了學(xué)習(xí)與檢測的難度，因此，以增大計算量為代價，換取精度的大幅提升是有必要的。

表5 不同模型的測試集計數(shù)結(jié)果

圖4 不同模型的預(yù)測結(jié)果示例

2.3 穗數(shù)測量系統(tǒng)的測試結(jié)果

系統(tǒng)測試共分為5個步驟：1）創(chuàng)建試驗：填寫試驗名稱，此時還可輸入作物品種、大田編號、單穗質(zhì)量等信息。2）拍攝圖片（如圖5所示）：將由白色PVC管搭建的1 m2標(biāo)準(zhǔn)框水平放置在麥田中，手機從上往下垂直拍攝圖片，標(biāo)準(zhǔn)框所占像素比例盡可能大，有助于圖像后續(xù)成功分割和識別。3）處理圖片：利用分割算法完整地將標(biāo)準(zhǔn)框及其內(nèi)部圖像分割出來，圖像分割效果不好時，需重新拍攝。4）穗部識別：調(diào)用深度學(xué)習(xí)模型得到1 m2內(nèi)麥穗的數(shù)量。5）繼續(xù)試驗或保存退出。一次試驗可以對小區(qū)中小麥進行多組拍攝，自動求取平均值，使估算結(jié)果更準(zhǔn)確。軟件使用過程流程圖如圖6所示。

圖5 拍攝圖片示例

圖6 軟件使用過程流程圖

在系統(tǒng)測試試驗中，針對5個小區(qū)分別建立1組試驗，每組試驗拍攝5張麥穗圖片，軟件預(yù)測結(jié)果如表6所示，人工計數(shù)和軟件平均計數(shù)均為每平米的麥穗數(shù)量。測試結(jié)果表明，盡管不同品種穗數(shù)有一定差異，但軟件計數(shù)的相對誤差最小可以達到2.15%，誤差平均值穩(wěn)定在2.80%左右，比測試集的平均值僅高0.24個百分點，因此構(gòu)建的麥穗檢測模型具有良好的檢測性能，能夠應(yīng)用于實際生產(chǎn)或其他場景中單位面積穗數(shù)統(tǒng)計。

表6 麥穗計數(shù)結(jié)果

注：計數(shù)面積為1 m2。

Note：Counting area is 1 m2.

在構(gòu)建數(shù)據(jù)集時，結(jié)合WSD和GWHD數(shù)據(jù)集的特點，選擇逐漸增加圖片數(shù)量參與訓(xùn)練的策略，最終選擇220幅圖像，這種策略防止因過量麥穗標(biāo)注工作而浪費研究人員精力這種情況的發(fā)生，同時可以保證模型訓(xùn)練成功。根據(jù)上述結(jié)果可以看出，訓(xùn)練出的CBAM-YOLOv5模型，不僅在1分數(shù)、平均精度和計數(shù)相對誤差這3個指標(biāo)上表現(xiàn)良好，且在實地試驗中，5組試驗拍攝的小麥并未參與模型的訓(xùn)練，麥穗計數(shù)結(jié)果同樣精確且穩(wěn)定，說明基于該模型的系統(tǒng)能對不同品種小麥保持較穩(wěn)定的檢測結(jié)果。

3 結(jié) 論

本文提出一種基于改進YOLOv5方法的田間小麥穗數(shù)計數(shù)方法，該方法主要加入注意力模塊，對YOLOv5網(wǎng)絡(luò)提取的特征圖沿著通道和空間兩個維度進行處理，并將處理結(jié)果與輸入特征圖相乘，從而細化特征。在電腦硬件支持的范圍內(nèi)，設(shè)置輸入圖片分辨率為1280，使圖像輸入到網(wǎng)絡(luò)時不會丟失更多的特征信息，使模型可以直接從高分辨率手機圖像中檢測出麥穗的數(shù)量。最終模型1分數(shù)、AP50、AP50∶5∶95分別達到0.904、0.902、0.515，與標(biāo)準(zhǔn)YOLOv5、YOLOv4和Faster RCNN相比有了較大的提升。在CBAM-YOLOv5模型訓(xùn)練完成后，模型在測試集上的表現(xiàn)較為穩(wěn)定，麥穗計數(shù)的平均相對誤差為2.56%。而在系統(tǒng)測試過程中，麥穗計數(shù)的平均相對誤差僅為2.80%。因此，該算法在應(yīng)用中具有準(zhǔn)確性和適用性，形成能夠為小麥作物表型檢測和產(chǎn)量評估的測量裝置，對不同應(yīng)用場景提供可行的技術(shù)解決方案。

[1] Eversole K, Feuillet C, Mayer K F, et al. Slicing the wheat genome[J]. Science, 2014, 345(6194): 285-287.

[2] Sadeghi-Tehran P, Virlet N, Ampe E M, et al. DeepCount: In-field automatic quantification of wheat spikes using simple linear iterative clustering and deep convolutional neural networks[J]. Frontiers in Plant Science, 2019, 10(1176): 1-16.

[3] 范夢揚，馬欽，劉峻明，等. 基于機器視覺的大田環(huán)境小麥麥穗計數(shù)方法[J]. 農(nóng)業(yè)機械學(xué)報，2015，46(S1)：234-239.

Fan Mengyang, Ma Qin, Liu Junming, et al. Counting method of wheatear in field based on machine vision technology[J]. Transactions of the Chinese Society for Agricultural Machinery, 2015, 46(S1): 234-239. (in Chinese with English abstract)

[4] Fernandez-Gallego J, Buchaillot M, Aparicio N, et al. Automatic wheat ear vounting using thermal imagery[J]. Remote Sensing, 2019, 11(751): 1-13.

[5] 李毅念，杜世偉，姚敏，等. 基于小麥群體圖像的田間麥穗計數(shù)及產(chǎn)量預(yù)測方法[J]. 農(nóng)業(yè)工程學(xué)報，2018，34(21)：185-194.

Li Yinian, Du Shiwei, Yao Min, et al. Method for wheat ear counting and yield predicting based on image of wheatear population in field[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(21): 185-194. (in Chinese with English abstract)

[6] 劉濤，孫成明，王力堅，等. 基于圖像處理技術(shù)的大田麥穗計數(shù)[J]. 農(nóng)業(yè)機械學(xué)報，2014，45(2)：282-290.

Liu Tao, Sun Chengming, Wang Lijian, et al. In-field wheatear counting based on image processing technology[J]. Transactions of the Chinese Society for Agricultural Machinery, 2014, 45(2): 282-290. (in Chinese with English abstract)

[7] Zhu Y, Cao Z, Lu H, et al. In-field automatic observation of wheat heading stage using computer vision[J]. Biosystems Engineering, 2016, 143: 28-41.

[8] Wei G, Fukatsu T, Ninomiya S. Automated characterization of flowering dynamics in rice using field-acquired time-series RGB images[J]. Plant Methods, 2015, 11(7): 1-14.

[9] Fernandez-Gallego J, Lootens P, Borra-Serrano I, et al. Automatic wheat ear counting using machine learning based on RGB UAV imagery[J]. The Plant Journal, 2020, 103(4): 1603-1613.

[10] Zhou C, Liang D, Yang X, et al. Wheat ears counting in field conditions based on multi-feature optimization and TWSVM[J]. Frontiers in Plant Science, 2018, 9(1024): 1-16.

[11] 劉哲，黃文準(zhǔn)，王利平. 基于改進K-means聚類算法的大田麥穗自動計數(shù)[J]. 農(nóng)業(yè)工程學(xué)報，2019，35(3)：174-181.

Liu Zhe, Huang Wenzhun, Wang Liping. Field wheat ear counting automatically based on improved K-means clustering algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(3): 174-181. (in Chinese with English abstract)

[12] 杜穎，蔡義承，譚昌偉，等. 基于超像素分割的田間小麥穗數(shù)統(tǒng)計方法[J]. 中國農(nóng)業(yè)科學(xué)，2019，52(1)：21-33.

Du Ying, Cai Yicheng, Tan Changwei, et al. Field wheat ears counting based on superpixel segmentation method[J]. Scientia Agricultura Sinica. 2019, 52(1): 21-33. (in Chinese with English abstract)

[13] 李云霞，馬浚誠，劉紅杰，等. 基于 RGB 圖像與深度學(xué)習(xí)的冬小麥田間長勢參數(shù)估算系統(tǒng)[J]. 農(nóng)業(yè)工程學(xué)報，2021，37(24)：189-198.

Li Yunxia, Ma Juncheng, Liu Hongjie, et al. Field growth parameter estimation system of winter wheat using RGB digital images and deep learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(24): 189-198. (in Chinese with English abstract)

[14] 陳佳瑋，李慶，譚巧行，等. 結(jié)合輕量級麥穗檢測模型和離線Android軟件開發(fā)的田間小麥測產(chǎn)[J]. 農(nóng)業(yè)工程學(xué)報，2021，37(19)：156-164.

Chen Jiawei, Li Qing, Tan Qiaoxing, et al. Combining lightweight wheat spikes detecting model and offline Android software development for in-field wheat yield prediction[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(19): 156-164. (in Chinese with English abstract)

[15] Hao Wangli, Yu Peiyan, Hao Fei, et al. Foxtail millet ear detection approach based on YOLOv4 and adaptive anchor box adjustment[J]. Smart Agriculture, 2021, 3(1): 63-74.

郝王麗，尉培巖，郝飛，等. 基于YOLOv4和自適應(yīng)錨框調(diào)整的谷穗檢測方法（英文）[J]. 智慧農(nóng)業(yè)（中英文），2021，3(1)：63-74. (in English with Chinese abstract)

[16] Misra T, Arora A, Marwaha S, et al. SpikeSegNet-a deep learning approach utilizing encoder-decoder network with hourglass for spike segmentation and counting in wheat plant from visual imaging[J]. Plant Methods, 2020, 16(40): 1-20.

[17] Xu X, Li H, Yin F, et al. Wheat ear counting using K-means clustering segmentation and convolutional neural network[J]. Plant Methods, 2020, 16(106): 1-13.

[18] 鮑文霞，張鑫，胡根生，等. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的田間麥穗密度估計及計數(shù)[J]. 農(nóng)業(yè)工程學(xué)報，2020，36(21)：186-193.

Bao Wenxia, Zhang Xin, Hu Gensheng, et al. Estimation and counting of wheat ears density in field based on deep convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(21): 186-193. (in Chinese with English abstract)

[19] 段凌鳳，熊雄，劉謙，等. 基于深度全卷積神經(jīng)網(wǎng)絡(luò)的大田稻穗分割[J]. 農(nóng)業(yè)工程學(xué)報，2018，34(12)：202-209.

Duan Lingfeng, Xiong Xiong, Liu Qian, et al. Field rice panicles segmentation based on deep full convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(12): 202?209. (in Chinese with English abstract)

[20] David E, Madec S, Sadeghi-Tehran P, et al. Global Wheat Head Detection (GWHD) dataset: A large and diverse dataset of high resolution RGB labelled images to develop and benchmark wheat head detection methods[J]. Plant Phenomics, 2020, 1: 1-10.

[21] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779-788.

[22] Redmon J, Farhadi A. YOLO9000: better, faster, stronger[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 7263-7271.

[23] Redmon J, Farhadi A. YOLOv3: An incremental improvement[EB/OL].(2018-04-08)[2021-04-18].https://arxiv.org/abs/1804.02767.

[24] Bochkovskiy A, Wang C Y, Liao H Y M. YOLOv4: Optimal speed and accuracy of object detection[EB/OL]. (2020-04-23) [2021-04-18] https: //arxiv. org/abs/2004. 10934.

[25] Liu G, Nouaze J C, Touko P L, et al. YOLO-Tomato: A robust algorithm for tomato detection based on YOLOv3[J]. Sensors, 2020, 20(7): 1-20.

[26] 胡根生，吳繼甜，鮑文霞，等. 基于改進YOLOv5網(wǎng)絡(luò)的復(fù)雜背景圖像中茶尺蠖檢測[J]. 農(nóng)業(yè)工程學(xué)報，2021，37(21)：191-198.

Hu Gensheng, Wu Jitian, Bao Wenxia, et al. Detection of Ectropis oblique in complex background images using improved YOLOv5[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(21): 191-198. (in Chinese with English abstract)

[27] Woo S, Park J, Lee J Y, et al. CBAM: Convolutional block attention module[C]//European Conference on Computer Vision. Munich, Germany: Springer, Cham, 2018: 3-19.

[28] Yang B, Gao Z, Gao Y, et al. Rapid detection and counting of wheat ears in the field using YOLOv4 with attention module[J]. Agronomy, 2021, 11(6): 1-17.

Measuring the number of wheat spikes per unit area in fields using an improved YOLOv5

Huang Shuo1,2, Zhou Yanan1,2, Wang Qifan3, Zhang Han1,2, Qiu Chaoyang4, Kang Kai4, Luo Bin1,2※

（1.100097, China；2.100097, China；3.071000, China；4.100097, China）

The number of spikes per unit area has been one of the main factors to determine the wheat yield. Rapid and accurate acquisition of the number of spikes per unit area is of great importance for the breeding and cultivation in agricultural production. Fortunately, the high-resolution images of wheat spikes can be analyzed by the pre-trained artificial intelligence models to extract the number of spikes per unit area, particularly with the rapid development of deep learning. The consistent data can also be obtained to independently extract the feature, due to the strong learning ability of deep learning at present. In this study, a combined smartphone and server system was proposed to measure the number of wheat spikes. A Convolutional Block Attention Module (CBAM) and YOLOv5 were combined as the core of the CBAM-YOLOv5 model. Among them, the YOLOv5 network structure provided an excellent balance between the detection speed and accuracy for the small and dense targets, suitable for counting the number of wheat spikes. Since the channel and spatial attention modules were contained in the CBAM, the features were processed along both channel and spatial dimensions. The feature representation of targets was then much clearer to identify the overlapping or obscured wheat spikes. The specific procedure was as follows: 1) To manually annotate the self-photographed Wheat Spike Detection (WSD) dataset and the publicly available Global Wheat Head Detection (GWHD) dataset on the web, including 176 images as the training set, 22 images as the validation set, and 22 images as the test set. The generalization ability of the model was improved to introduce the GWHD dataset. 2) The CBAM was added at the neck end of the YOLOv5 network structure in the improved CBAM-YOLOv5 model. The input image sizes of the model were set as 640, 960, and 1 280 pixels. A comparison was then made to obtain the optimal training parameters. 3) The CBAM-YOLOv5, YOLOv5, YOLOv4, and Faster RCNN were trained with the optimal parameters to compare the performance of different network structures. 4) The spikes counting system was developed using the client-server model. Specifically, the images of wheat spikes were taken by smartphones and then uploaded to the server. The CBAM-YOLOv5 model on the server was used to recognize the images. After that, the counting data was then returned to the smartphones for display to the user. The results show that better performance was achieved in the evaluation metrics of CBAM-YOLOv5, when the input image sizes were 1 280 pixels. Among them, the1-score was improved up to 0.904, and the average precision reached 0.902 when the intersection over union was set as 0.50. The CBAM-YOLOv5 was better performed than the YOLOv5, YOLOv4, and Faster RCNN, in terms of evaluation metrics, with an average relative error of only 2.56% in the counting. It infers that the improved model was much more stable and faster. Taken together, the CBAM-YOLOv5 presented a greater improvement. The spikes counting system was simple to use and easy to operate. The relative error of count in the field test was only 2.80%, indicating a relatively stable performance. Therefore, the new system can be expected to serve as the rapid and automatic collection of wheat spike counts without manual intervention in the field. The low-cost and reliable system can also provide an accurate data reference for wheat yield prediction.

models; wheat; number of spikes per unit area; deep learning; YOLOv5; CBAM

10.11975/j.issn.1002-6819.2022.16.026

S126

1002-6819(2022)-16-0235-08

黃碩，周亞男，王起帆，等. 改進YOLOv5測量田間小麥單位面積穗數(shù)[J]. 農(nóng)業(yè)工程學(xué)報，2022，38(16)：235-242.doi：10.11975/j.issn.1002-6819.2022.16.026 http://www.tcsae.org

Huang Shuo, Zhou Yanan, Wang Qifan, et al. Measuring the number of wheat spikes per unit area in fields using an improved YOLOv5[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(16): 235-242. (in Chinese with English abstract) doi：10.11975/j.issn.1002-6819.2022.16.026 http://www.tcsae.org

2022-04-19

2022-08-03

國家重點研發(fā)計劃項目（2017YFD0701205）

黃碩，研究方向為智能檢測及自動控制技術(shù)。Email：huangs@nercita.org.cn

羅斌，博士，副研究員，研究方向為農(nóng)業(yè)智能裝備技術(shù)。Email：luob@nercita.org.cn

改進YOLOv5測量田間小麥單位面積穗數(shù)

0 引 言

1 材料與方法

1.1 數(shù)據(jù)集

1.2 目標(biāo)檢測算法

1.3 試驗配置

1.4 評估指標(biāo)

1.5 穗數(shù)測量系統(tǒng)的設(shè)計

2 結(jié)果及分析

2.1 輸入圖片不同分辨率設(shè)置對模型性能的影響

2.2 模型性能的比較

2.3 穗數(shù)測量系統(tǒng)的測試結(jié)果

3 結(jié) 論

0 引言