摘 "要: 農(nóng)業(yè)生產(chǎn)中需要對秧苗進(jìn)行計數(shù)以獲取種子質(zhì)量和種植密度等評估信息,而小規(guī)模批量育種環(huán)境下存在人工依賴程度高、軟硬件設(shè)備差的情況。針對此問題,文中以唇形科植物為例,提出了一種低成本、輕量化的秧苗計數(shù)方法。首先提出數(shù)據(jù)集的快速構(gòu)建方法,以降低數(shù)據(jù)集成本;然后通過改進(jìn)YOLO模型頸部特征融合部分和精簡頭部來保證模型輕量高效,并添加改進(jìn)的通道注意力方法以改善圖像低分辨率造成的漏檢率過高問題,構(gòu)建了秧苗計數(shù)模型Seedet。實驗結(jié)果表明,與YOLOv5s模型相比,Seedet的模型參數(shù)與計算量分別降低了73.45%和47.59%,檢測精確率和速度分別提高了3.987%和70.09%。文中提出的計數(shù)方法更適合于低成本場景下的秧苗計數(shù),促進(jìn)了農(nóng)業(yè)生產(chǎn)中深度學(xué)習(xí)的落地應(yīng)用。
關(guān)鍵詞: 秧苗計數(shù); YOLO; 深度學(xué)習(xí); 輕量化; 通道注意力; 低成本
中圖分類號: TN919?34; TP391 " " " " " " " " "文獻(xiàn)標(biāo)識碼: A " " " " " " " " " " " 文章編號: 1004?373X(2024)15?0122?05
Research on low?cost and lightweight seedling counting method based on YOLO
SU Yousheng1, CHEN Jiqing1, 2, HAO Kewei1, SHE Kairong1, HUANG Yang1
(1. School of Mechanical Engineering, Guangxi University, Nanning 530007, China;
2. Key Laboratory of Guangxi Manufacturing System and Advanced Manufacturing Technology, Nanning 530007, China)
Abstract: It is required to count the seedling in agricultural production to obtain assessment information such as seed quality and planting density. However, there is a high degree of manual dependence and poor hardware and software equipment in small?scale batch breeding environments. In view of the above, a low?cost and lightweight seedling counting method is proposed by taking Labiatae as an example. A fast construction method for the dataset is proposed to reduce the cost of the dataset. By improving the feature fusion part of the neck and streamlining the head of the YOLO model, the lightweight and efficiency of the model is ensured. In addition, an improved channel attention method is added to eliminate the excessive missed detection rate caused by the low resolution of the image. So far, the seedling counting model Seedet is constructed. The experimental results show that the Seedet′s parameters and computational burden are reduced by 73.45% and 47.59%, respectively, and its detection accuracy and detection speed are improved by 3.987% and 70.09%, respectively, in comparison with those of the YOLOv5s. The proposed counting method is more suitable for seedling counting in low?cost scenarios and can promote the application of deep learning in agricultural production.
Keywords: seedling counting; YOLO; deep learning; lightweight; channel attention; low cost
0 "引 "言
唇形科含有豐富的藥用植物資源,是重要的藥用類群[1],羅勒和薄荷是其典型代表。羅勒因為豐富的歷史背景和藥食兩用特性而具有較高的經(jīng)濟(jì)價值。在羅勒選育和批量生產(chǎn)中,需要對秧苗進(jìn)行計數(shù)以獲得更準(zhǔn)確的信息。目前,這項工作主要依賴人工完成,存在著時效性差、人工成本高、精度波動大等問題[2]。準(zhǔn)確而快速地進(jìn)行秧苗計數(shù)可以實現(xiàn)農(nóng)業(yè)資源的合理配置與詳細(xì)檢測,在科研育種和智慧農(nóng)業(yè)方面起著關(guān)鍵作用。
近年來,計算機(jī)視覺技術(shù)的發(fā)展與應(yīng)用促進(jìn)了農(nóng)業(yè)的信息化與自動化[3]。為了實時監(jiān)測溫室蟲情和精準(zhǔn)防控蟲害,文獻(xiàn)[4]設(shè)計了一種基于誘蟲板圖像背景均勻化的自適應(yīng)分割方法,該方法使用顏色模型圖像分割方法和隨機(jī)森林算法實現(xiàn)害蟲的識別與計數(shù);文獻(xiàn)[5]進(jìn)行了穴盤苗發(fā)芽率在線視覺檢測研究,采用梯度直方圖提取特征和支持向量機(jī)算法分類后進(jìn)行定位;文獻(xiàn)[6]通過局部最大值濾波算法實現(xiàn)了無人機(jī)圖像與激光雷達(dá)在玉米植株自動計數(shù)方面的對比;文獻(xiàn)[7]同樣通過無人機(jī)圖像使用圖像分割與擬合算法實現(xiàn)了大面積棉田出苗信息的提取。上述研究依賴人工設(shè)計的特征提取器,具有良好的可解釋性和程序設(shè)計簡單等優(yōu)勢。然而,這些傳統(tǒng)視覺算法通常缺乏泛化性和魯棒性,對光照以及紋理特征要求嚴(yán)格,無法應(yīng)對復(fù)雜任務(wù)和大規(guī)模數(shù)據(jù)。深度學(xué)習(xí)算法因精度高,對成像條件要求低而逐漸成為當(dāng)前研究的主流。文獻(xiàn)[8]使用卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)了馬鈴薯葉片病害識別與病斑檢測;文獻(xiàn)[9]改進(jìn)了YOLOv4的錨框與損失函數(shù)以提高林業(yè)害蟲檢測的準(zhǔn)確性;在農(nóng)業(yè)計數(shù)方面,文獻(xiàn)[10]改進(jìn)了YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)與先驗框,并添加注意力機(jī)制提升了蝴蝶蘭花朵計數(shù)的精確率,然而該模型存在參數(shù)量較大、運算速度低的問題;文獻(xiàn)[11]基于VGG?16模型借助無人機(jī)圖像實現(xiàn)了實際農(nóng)田環(huán)境的棉苗計數(shù),但該模型存在低分辨率下漏檢率較高的問題。
綜上,目前的秧苗計數(shù)研究集中于大面積的開放環(huán)境,對于小規(guī)模溫室育種環(huán)境研究較少。此外,小規(guī)模農(nóng)業(yè)生產(chǎn)環(huán)境下還存在著人工依賴程度高、軟硬件環(huán)境差的問題。因此,本文通過傳統(tǒng)視覺算法和YOLO算法[12]相結(jié)合實現(xiàn)數(shù)據(jù)集快速構(gòu)建,并通過改進(jìn)YOLO模型保證秧苗計數(shù)模型Seedet的高效運行。實驗結(jié)果證明,改進(jìn)的通道注意力(Improved Channel Attention, ICA)方法可有效降低漏檢率,提出的計數(shù)方法適用于低成本場景下的秧苗計數(shù),為農(nóng)業(yè)中深度學(xué)習(xí)的實際應(yīng)用提供了參考。
1 "理論基礎(chǔ)
1.1 "圖像預(yù)處理
傳統(tǒng)視覺算法中的圖像預(yù)處理技術(shù)對圖像進(jìn)行幾何變換和顏色空間變換。幾何變換主要包括平移、旋轉(zhuǎn)、縮放、翻轉(zhuǎn)等,在進(jìn)行幾何變換時需對圖像的標(biāo)簽數(shù)據(jù)進(jìn)行對應(yīng)的操作,以減少標(biāo)注工作量;顏色空間變換又被稱為色彩變換,通常是通過調(diào)整圖像的亮度、對比度、飽和度和色調(diào)等使圖像展現(xiàn)出不同的色彩信息。
通過圖像預(yù)處理技術(shù)可以快速進(jìn)行圖像數(shù)據(jù)擴(kuò)增,有效增加數(shù)據(jù)集的信息數(shù)據(jù)豐富度,進(jìn)而提高深度學(xué)習(xí)模型的學(xué)習(xí)和泛化能力。在進(jìn)行圖像幾何和色彩變換時應(yīng)合理選擇變換方式與程度,避免原始數(shù)據(jù)失真。
1.2 "YOLO算法
YOLO是目標(biāo)檢測任務(wù)中使用頻率最高的框架,其核心思想是將整張圖作為網(wǎng)絡(luò)的輸入,在輸出層直接回歸目標(biāo)的位置坐標(biāo)和類別,相比于二階段的RCNN系列,YOLO系列有著明顯的速度和參數(shù)優(yōu)勢[13]。YOLO系列在迭代過程中不斷實現(xiàn)性能改進(jìn)和功能完善,比較有代表性的是開放源代碼且仍在更新的YOLOv5和YOLOv8。
YOLO框架雖然在不斷改進(jìn),但其網(wǎng)絡(luò)結(jié)構(gòu)變化較小,主要分為主干(Backbone)、頸部(Neck)和頭部(YOLO Head)三部分。圖1所示的YOLOv5網(wǎng)絡(luò)模型即為典型的YOLO模型架構(gòu)。
YOLO檢測流程中,圖像首先輸入到主干特征提取網(wǎng)絡(luò),獲得3個有效特征層,然后進(jìn)入頸部進(jìn)行特征融合生成加強特征層,最后頭部充當(dāng)分類器與回歸器,使用不同尺寸的特征圖中的信息獲取對應(yīng)目標(biāo)的預(yù)測先驗框,從而實現(xiàn)目標(biāo)檢測。YOLO輸出的檢測信息包含目標(biāo)分類、定位和置信度,進(jìn)而可以實現(xiàn)農(nóng)業(yè)生產(chǎn)中的秧苗計數(shù)任務(wù)。默認(rèn)的YOLO框架目標(biāo)是實現(xiàn)高精度的多分類實時檢測模型,針對較為簡單的目標(biāo)檢測任務(wù)時會存在結(jié)構(gòu)和參數(shù)冗余的情況。因此,在實際應(yīng)用時可根據(jù)情況對其進(jìn)行改進(jìn)以實現(xiàn)實時性、高精度或輕量化方面的側(cè)重。
YOLO標(biāo)簽格式按行展開為目標(biāo)的類別、中心點坐標(biāo)、寬度和高度。如圖2所示,對于灰色邊框中的圖像,錨框的顏色代表目標(biāo)的類別。在標(biāo)簽數(shù)據(jù)中從0開始,[xi, yi]代表錨框中心點位置,[wi]和[hi]分別代表錨框?qū)挾扰c高度。其中,[i]代表標(biāo)簽中的行數(shù),[i=1,2,…],則該圖像對應(yīng)的標(biāo)簽數(shù)據(jù)如下:
[0 " x1 " y1 " "w1 " h10 " x2 " y2 " w2 " h21 " x3 " y3 " w3 " h3]
此時0代表人的類別,1代表狗的類別。除類別外,其余指標(biāo)都需進(jìn)行歸一化處理以便計算。
2 "基于YOLO的秧苗計數(shù)研究
2.1 "數(shù)據(jù)集快速構(gòu)建方法
相較于傳統(tǒng)視覺算法,基于深度學(xué)習(xí)的算法因其復(fù)雜的結(jié)構(gòu)和龐大的參數(shù)量,展現(xiàn)出了卓越的數(shù)據(jù)擬合能力,能夠精準(zhǔn)地映射高度復(fù)雜的非線性關(guān)系。因此,深度學(xué)習(xí)模型的數(shù)據(jù)需求造成了成本增加和計算資源的占用。
由幾何變換原理和YOLO數(shù)據(jù)集標(biāo)簽的格式可知,在對圖像進(jìn)行幾何變換時標(biāo)簽數(shù)據(jù)只需簡單調(diào)整即可保證正確的映射。對于目標(biāo)檢測任務(wù)來說,標(biāo)簽數(shù)據(jù)在幾何變換時一般不改變類別,在色彩變換時無變化。以圖2為例,在對圖像進(jìn)行水平翻轉(zhuǎn)、上下翻轉(zhuǎn)、逆時針旋轉(zhuǎn)、順時針旋轉(zhuǎn)時,分別有:
[xi'=1-xi, yi'=yi, wi'=wi, hi'=hixi'=xi, yi'=1-yi, wi'=wi, hi'=hixi'=yi, yi'=1-xi, wi'=hi, hi'=wixi'=1-yi, yi'=xi, wi'=wi, hi'=hi] (1)
式中,[xi']代表幾何變換之后的[xi],其余字母含義與此類似,每一行都代表著一種映射。
數(shù)據(jù)集快速構(gòu)建流程圖如圖3所示,本文通過將傳統(tǒng)視覺算法和YOLO算法結(jié)合,實現(xiàn)數(shù)據(jù)集的高質(zhì)量擴(kuò)充與構(gòu)建。
2.2 "改進(jìn)的通道注意力機(jī)制
注意力機(jī)制能夠幫助模型更好地理解數(shù)據(jù)重要信息,提高模型性能,但同時會增加模型的復(fù)雜性[14]。為了保證模型輕量,本文著重于通道注意力方面的改進(jìn)。SE[15]和ECA[16]是典型的輕量級通道注意力機(jī)制,SE重點在于獲取輸入特征層各通道的權(quán)重,ECA在SE的基礎(chǔ)上研究用一維卷積替換全連接層。SE模塊可以對輸入特征層每個通道分配權(quán)重,提高模型對特征層信息的抽取。如圖4所示,ICA模塊增加了全局最大池化來保留更多信道信息,并通過共享的一維卷積層進(jìn)行交互,卷積核大小為[kc]。
由ECA可知,通道數(shù)[C]與一維卷積核尺寸[k]有式(2)所示的非線性映射關(guān)系,這確保了通道信息交互程度在最佳范圍內(nèi)。
[C=?(k)=2γ*k-b] (2)
[k=ψ(C)=log2Cγ+bγodd ] (3)
式中:[C]是通道數(shù);[k]是卷積核大?。籟γ]是非線性系數(shù);[b]是偏置值;[ψ]代表映射函數(shù)。
在[C]確定后,將系數(shù)設(shè)為2,偏置值[b=1],由式(3)推導(dǎo)出[k]。[C]越大,通道信息交互作用就越強。ICA是在SE和ECA的基礎(chǔ)上改進(jìn)而來的,ECA的相關(guān)研究同樣適用,因此可得[kc=k]。
2.3 "改進(jìn)后的YOLO模型
因為本文研究目標(biāo)是低成本場景下秧苗計數(shù)方法,軟硬件條件差,模型需要輕量化。由于秧苗尺寸和規(guī)格差異較小,因此選擇精簡YOLO模型的頸部與頭部來實現(xiàn)輕量化,并通過添加ICA模塊保證檢測的準(zhǔn)確性,最終構(gòu)建了秧苗檢測模型Seedet,如圖5所示。與YOLOv5s相比,Seedet的參數(shù)量和計算量大幅下降,具體會在下一節(jié)進(jìn)行描述。
3 "實驗結(jié)果與分析
3.1 "數(shù)據(jù)集
本文訓(xùn)練數(shù)據(jù)取自廣西南寧市花卉公園育苗中心,初始數(shù)據(jù)為羅勒育苗穴盤,通過定位裁剪后獲得分辨率為256×256的初始圖像450張,通過提出的數(shù)據(jù)集快速構(gòu)建方法最終獲得7 200張圖像和對應(yīng)標(biāo)簽數(shù)據(jù)。數(shù)據(jù)集按照(訓(xùn)練集+驗證集)∶測試集= 9∶1,訓(xùn)練集∶驗證集=9∶1的比例劃分。
3.2 "實驗環(huán)境及參數(shù)設(shè)置
實驗主要的軟硬件環(huán)境為:NVIDIA 2060 12 GB GPU,CUDA 11.8,PyTorch 1.11。模型訓(xùn)練時采用實現(xiàn)簡單、收斂速度快的SGD優(yōu)化器[17],其初始學(xué)習(xí)率設(shè)為0.01,動量參數(shù)設(shè)為0.937,權(quán)值衰減設(shè)為0.000 5。經(jīng)測試后選擇合適的迭代次數(shù)為300。
3.3 "評估標(biāo)準(zhǔn)
評估模型的推理速度和資源消耗使用FPS、參數(shù)量和計算量三個指標(biāo)。模型的檢測性能評估指標(biāo)采用精準(zhǔn)率[P]、召回率[R]、平均精度均值[mAP](選用[mAP]@0.5標(biāo)準(zhǔn))和精確率[F1],其中[F1]權(quán)衡[P]與[R]以防止評估失衡,計算公式為:
[F1=2PR(P+R)] (4)
3.4 "消融實驗
通過消融實驗驗證ICA模塊與模型改進(jìn)的有效性,結(jié)果如表1所示。
由不同改進(jìn)策略的模型性能對比數(shù)據(jù)可知,注意力機(jī)制模塊的添加對模型的參數(shù)量沒有明顯的影響,但造成了推理速度不到10%的下降。值得注意的是,通道注意力機(jī)制對召回率的提升效果很明顯,這意味著漏檢率的下降。在YOLOv5s模型上的實驗表明,本文提出的ICA模塊在召回率上相較于經(jīng)典的ECA注意力模塊提升了1.76%,相較于無注意力機(jī)制提升了2.92%。與ECA模塊相比,ICA模塊使用全局最大池化來額外增加一條權(quán)重通道,增強了信息交互能力,提升了通道信息提取能力,只增加了2%左右的時間開銷。
3.5 "不同網(wǎng)絡(luò)模型對比
選取現(xiàn)有YOLO模型的輕量級分支與Seedet進(jìn)行資源消耗指標(biāo)的對比,數(shù)據(jù)如表2所示。
由表2數(shù)據(jù)可知,在模型的輕量化方面,由于Seedet優(yōu)化了YOLOv5s的頸部與頭部結(jié)構(gòu),精簡分支的同時調(diào)整了通道的配比,側(cè)重處理中等規(guī)格的有效特征層。改進(jìn)的模型降低了模型的參數(shù)量,計算量只有1.338 GFLOPs,顯著提高了推理速度。與YOLOv5s相比,Seedet的參數(shù)量與計算量降分別降低了73.45%和47.59%,檢測精確率和速度分別提高了3.987%和70.09%。
圖6直觀地展現(xiàn)了現(xiàn)有的輕量化模型與Seedet進(jìn)行綜合性能的比較,其中FPS做了歸一化展示,具體數(shù)據(jù)見表3。綜合分析可知,Seedet能夠均衡資源消耗與檢測性能,在秧苗檢測方面具有優(yōu)越性。
3.6 "檢測結(jié)果分析
對測試集進(jìn)行計數(shù)效果檢驗,部分結(jié)果如圖7所示?,F(xiàn)存在問題是缺乏對圖片邊緣不完整秧苗的有效識別,如圖7右下角所示。這是除了目標(biāo)分辨率過低外造成多個模型召回率偏低的重要原因。從整體效果來看,Seedet能解決葉片遮擋問題與低分辨率漏檢問題,完成羅勒秧苗計數(shù)任務(wù)。
4 "結(jié) "論
針對小規(guī)模育種環(huán)境下人工依賴程度高、軟硬件條件差的問題,本文提出基于YOLO模型的數(shù)據(jù)集快速構(gòu)建方法以降低成本,并通過添加通道注意力機(jī)制和改進(jìn)YOLO結(jié)構(gòu)保證秧苗檢測模型的輕量高效。經(jīng)對比實驗驗證,可得到如下結(jié)論:
1) 提出的通道注意力機(jī)制對召回率的提升效果明顯,大大降低了低分辨率目標(biāo)的漏檢。
2) 在輕量化模型對比實驗中,本文提出的Seedet綜合性能表現(xiàn)優(yōu)異,能勝任唇形科植物秧苗計數(shù)任務(wù)。
3) 傳統(tǒng)視覺算法與YOLO結(jié)合的數(shù)據(jù)集快速構(gòu)建方法和Seedet模型搭配能有效降低小規(guī)模育種環(huán)境下秧苗計數(shù)的成本,為農(nóng)業(yè)發(fā)展做出貢獻(xiàn)。
注:本文通訊作者為陳繼清。
參考文獻(xiàn)
[1] 邱曉萍,張懿,陳煜林,等.中國唇形科藥用植物資源及利用現(xiàn)狀和開發(fā)潛力[J].應(yīng)用與環(huán)境生物學(xué)報,2023,29(2):346?356.
[2] 彭強,涂賽飛,趙中雨,等.基于機(jī)器視覺的木薯疾病監(jiān)測系統(tǒng)[J].武漢理工大學(xué)學(xué)報,2022,44(9):95?100.
[3] 秦昌友,楊艷山,顧峰瑋,等.現(xiàn)代農(nóng)業(yè)領(lǐng)域中計算機(jī)視覺技術(shù)的運用與發(fā)展[J].中國農(nóng)機(jī)化學(xué)報,2023,44(12):119?128.
[4] 卜俊怡,孫國祥,王迎旭,等.基于誘蟲板圖像的溫室番茄作物害蟲識別與監(jiān)測方法[J].南京農(nóng)業(yè)大學(xué)學(xué)報,2021,44(2):373?383.
[5] 張帆,楊勇,駱少明,等.穴盤苗發(fā)芽率在線視覺檢測研究[J].西南大學(xué)學(xué)報(自然科學(xué)版),2021,43(10):84?91.
[6] 姜友誼,張成健,韓少宇,等.基于無人機(jī)三維點云的玉米植株自動計數(shù)研究[J].浙江農(nóng)業(yè)學(xué)報,2022,34(9):2032?2042.
[7] 朱松松,陳至坤,張怡.基于無人機(jī)數(shù)字圖像的棉花出苗信息提取[J].現(xiàn)代電子技術(shù),2022,45(1):61?64.
[8] 王林柏,張博,姚竟發(fā),等.基于卷積神經(jīng)網(wǎng)絡(luò)馬鈴薯葉片病害識別和病斑檢測[J].中國農(nóng)機(jī)化學(xué)報,2021,42(11):122?129.
[9] 陳道懷,汪杭軍.基于改進(jìn)YOLOv4的林業(yè)害蟲檢測[J].浙江農(nóng)業(yè)學(xué)報,2022,34(6):1306?1315.
[10] 肖克輝,楊宏,蘇章順,等.基于改進(jìn)YOLOv5的蝴蝶蘭花朵識別與計數(shù)[J].中國農(nóng)機(jī)化學(xué)報,2023,44(11):155?161.
[11] 祁洋,李亞楠,孫明,等.基于特征融合的棉花幼苗計數(shù)算法[J].農(nóng)業(yè)工程學(xué)報,2022,38(9):180?186.
[12] REDMON J, DIVVALA S K, GIRSHICK R B, et al. You only look once: Unified, real?time object detection [EB/OL]. [2018?08?13]. http://arxiv.org/abs/1506.02640.
[13] 張三林,張立萍,鄭威強,等.基于YOLOv5的核桃品種識別與定位[J].中國農(nóng)機(jī)化學(xué)報,2022,43(7):167?172.
[14] 徐宏偉,李然,張家旭.基于改進(jìn)YOLOv7的湖面漂浮物目標(biāo)檢測算法[J].現(xiàn)代電子技術(shù),2024,47(1):105?110.
[15] HU J, SHEN L, ALBANIE S, et al. Squeeze?and?excitation networks [J]. IEEE transactions on pattern analysis and machine intelligence, 2020, 42(8): 2011?2023.
[16] WANG Q L, WU B G, ZHU P F, et al. ECA?Net: Efficient channel attention for deep convolutional neural networks [EB/OL]. [2023?12?04]. http://arxiv.org/abs/1910.03151.
[17] KESKAR N S, SOCHER R. Improving generalization performance by switching from adam to SGD [EB/OL]. [2018?08?13]. http://arxiv.org/abs/1712.07628.
作者簡介:蘇優(yōu)生(1996—),男,碩士研究生,研究方向為計算機(jī)視覺。
陳繼清(1984—),男,博士,副教授,研究方向為機(jī)器人運動控制、機(jī)器視覺、特種機(jī)器人系統(tǒng)。
郝科崴(1998—),男,碩士研究生,研究方向為目標(biāo)跟蹤。
佘鍇蓉(1998—),女,碩士研究生,研究方向為計算機(jī)視覺。
黃 "樣(1997—),男,碩士研究生,研究方向為機(jī)器人感知系統(tǒng)。