摘 要:【目的】使用機(jī)器視覺(jué)對(duì)綠辣椒的精準(zhǔn)識(shí)別是實(shí)現(xiàn)辣椒智能化采摘的重要前提,研究自然條件下辣椒遮擋情況、綠色辣椒及準(zhǔn)確識(shí)別的方法,為辣椒智能化采摘機(jī)器人的精準(zhǔn)識(shí)別提供技術(shù)支持。
【方法】提出一種基于改進(jìn)YOLOv5辣椒目標(biāo)檢測(cè)模型,在YOLOv5主干網(wǎng)絡(luò)加入CA(Coordinate Attention)注意力機(jī)制,以增強(qiáng)辣椒特征信息的提取,進(jìn)一步增強(qiáng)對(duì)目標(biāo)位置信息的提??;同時(shí)在特征融合網(wǎng)絡(luò)中使用Bi-FPN結(jié)構(gòu),提高模型對(duì)遮擋辣椒的識(shí)別能力。
【結(jié)果】通過(guò)在自建辣椒數(shù)據(jù)集上進(jìn)行訓(xùn)練,改進(jìn)后的模型平均準(zhǔn)確率達(dá)到91%,相比于研究其他所對(duì)比模型,改進(jìn)模型的平均準(zhǔn)確率更高。
【結(jié)論】基于改進(jìn)YOLOv5的遮擋綠色辣椒的識(shí)別具有較高的準(zhǔn)確性。
關(guān)鍵詞:YOLOv5;CA注意力機(jī)制;Bi-FPN;綠辣椒檢測(cè);遮擋
中圖分類號(hào):S24"" 文獻(xiàn)標(biāo)志碼:A"" 文章編號(hào):1001-4330(2024)12-3032-10
0 引 言
【研究意義】中國(guó)辣椒種植面積和產(chǎn)量約占全球的40%和50%[1]。辣椒屬于勞動(dòng)密集型作物,其種植模式復(fù)雜,從育苗、移栽、定植、打杈、采收、分級(jí)等環(huán)節(jié)均需要人工。在辣椒的收獲環(huán)節(jié)中,不同種植模式對(duì)收獲機(jī)械的要求亦有差異。收獲主要是以整株進(jìn)行切割、打捆,之后再由人工去把、分級(jí),僅辣椒采摘的人工成本便接近總成本的50%[2]。需提高辣椒的采收效率,減少損傷和降低人工成本[3]。
在引入深度學(xué)習(xí)理論之前,蔬菜、藥材、水果檢測(cè)方法大多使用基于傳統(tǒng)機(jī)器學(xué)習(xí)方法[4],例如通過(guò)特征提取算法提取物體的顏色、形狀、紋理等特征,利用機(jī)器學(xué)習(xí)算法對(duì)構(gòu)成圖像特征的特征向量進(jìn)行分類,從而達(dá)到檢測(cè)物體的目的。然而,這些方法通常缺乏通用性和魯棒性[5]。
深度學(xué)習(xí)技術(shù)也廣泛應(yīng)用于目標(biāo)檢測(cè)領(lǐng)域[6]。與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)方法能夠從數(shù)據(jù)集中提取深層次目標(biāo)的特征,在解決目標(biāo)檢測(cè)等問(wèn)題中具有優(yōu)勢(shì)?!厩叭搜芯窟M(jìn)展】高云茜等[7]提出了一種基于YOLOv5的草莓采摘機(jī)器人的目標(biāo)檢測(cè)技術(shù),使用CBAM注意力并結(jié)合優(yōu)化K-means等方法提高對(duì)小目標(biāo)的檢測(cè)效果,在實(shí)際場(chǎng)景下該方法準(zhǔn)確率可達(dá)94.36%。Tian等[8]提出一種改進(jìn)的YOLOv3模型,用于檢測(cè)不同階段的蘋果,以適應(yīng)果園的復(fù)雜環(huán)境。結(jié)果表明,新模型優(yōu)于原始YOLOv3模型和基于區(qū)域的快速卷積神經(jīng)網(wǎng)絡(luò)模型(Fast R-CNN)。段潔利等[9]基于YOLOv5提出一種檢測(cè)蕉穗的算法,通過(guò)對(duì)蕉穗底部果軸定位,其平均精度值(mAP)達(dá)到99.29%。Wang等[10]提出了一種基于YOLOv5s模型在復(fù)雜環(huán)境下對(duì)小米辣進(jìn)行檢測(cè)算法,實(shí)現(xiàn)在自然條件下小米辣的檢測(cè)與識(shí)別,平均準(zhǔn)確度達(dá)到95.46%,該模型參數(shù)量減少,但整體識(shí)別仍然存在漏檢?!颈狙芯壳腥朦c(diǎn)】深度學(xué)習(xí)算法具有較強(qiáng)的提取圖像特征的能力,受環(huán)境干擾程度較低。相較于傳統(tǒng)方法,深度學(xué)習(xí)算法在自然環(huán)境下對(duì)果實(shí)的識(shí)別效果有較好的提升,但是由于自然環(huán)境下背景復(fù)雜,提高遮擋果實(shí)的檢測(cè)[11]性能仍然是目前研究的重點(diǎn)。YOLOv5是一種較為先進(jìn)和流行的對(duì)象檢測(cè)模型,是YOLO模型系列的一部分。需針對(duì)自然環(huán)境下辣椒遮擋以及背景環(huán)境相近等問(wèn)題,設(shè)計(jì)一種改進(jìn)YOLOv5的綠辣椒目標(biāo)檢測(cè)模型。
【擬解決的關(guān)鍵問(wèn)題】在模型骨干網(wǎng)絡(luò)中添加CA注意力機(jī)制模塊,通過(guò)在信道注意力中嵌入位置信息,使得移動(dòng)網(wǎng)絡(luò)能夠在大范圍內(nèi)關(guān)注,同時(shí)避免產(chǎn)生大量的計(jì)算開(kāi)銷[12];在頸部網(wǎng)絡(luò)中,將原始網(wǎng)絡(luò)的特征金字塔替換為加權(quán)的雙向金字塔的Bi-FPN結(jié)構(gòu),使網(wǎng)絡(luò)能夠方便、快速的進(jìn)行多尺度特征融合[13]。通過(guò)對(duì)自然條件下的綠辣椒進(jìn)行精準(zhǔn)檢測(cè),從而實(shí)現(xiàn)辣椒采摘機(jī)器人的自動(dòng)化操作。
1 材料與方法
1.1 材 料
1.1.1 辣椒圖像
以綠色辣椒作為目標(biāo)檢測(cè)對(duì)象,數(shù)據(jù)采集于新疆昌吉市新疆華興投資集團(tuán)有限公司下華興農(nóng)場(chǎng)拍攝制作,原始圖像數(shù)量共1 057張,通過(guò)數(shù)據(jù)處理及擴(kuò)增最終得到1 683張辣椒圖像。數(shù)據(jù)采集均為人工拍攝,采集的圖像為720×1 280分辨率,保存格式為JPG圖像格式。采集時(shí)間段為09:00~13:00,晴天天氣情況。采集時(shí)手機(jī)鏡頭距離辣椒藤20~80 cm,俯仰角0°~20°,包含逆光、辣椒遮蔭、樹葉遮擋等多種情況。圖像預(yù)處理后首先在圖像中隨機(jī)選取1 495張作為訓(xùn)練集,143張作為驗(yàn)證集,按照8∶1∶1的比例進(jìn)行劃分訓(xùn)練。
1.1.2 數(shù)據(jù)預(yù)處理及標(biāo)注
對(duì)遮擋超過(guò)辣椒整體90%的進(jìn)行刪除操作,圖像數(shù)量從原始1 057張減至784張圖片。通過(guò)對(duì)原始圖像進(jìn)行增加對(duì)比度、亮度等數(shù)據(jù)增強(qiáng)方法,減少光照環(huán)境變化和采集設(shè)備的差異造成的影響。將辣椒圖像擴(kuò)增到1 683張。按照PASCAL VOC2007標(biāo)準(zhǔn)對(duì)辣椒目標(biāo)進(jìn)行標(biāo)注,采用labelme軟件對(duì)辣椒圖片進(jìn)行標(biāo)注。標(biāo)注文件存儲(chǔ)為xml格式,標(biāo)注文件包含辣椒目標(biāo)所在圖像的坐標(biāo)位置、辣椒圖像的大小以及標(biāo)簽名papper,使用Python將格式轉(zhuǎn)化為txt格式。將辣椒圖片和標(biāo)注好的文件按照YOLO數(shù)據(jù)集格式分別放在images和labels文件夾,組成本研究所使用的辣椒數(shù)據(jù)集。圖1
1.2 方 法
1.2.1 YOLOv5模型
YOLOv5共5個(gè)版本,5個(gè)版本中的子模塊采用了不同的深度和寬度,且隨著模型深度的加深,檢測(cè)精度會(huì)得到提升,檢測(cè)速度也會(huì)降低。圖2
YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)主要由輸入端(Input)、骨干網(wǎng)絡(luò)(Backbone)、頸部(Neck)、檢測(cè)頭(Head)四部分組成。Input部分分別為提高數(shù)據(jù)集復(fù)雜度的Mosaic數(shù)據(jù)增強(qiáng)[14]、自適應(yīng)的計(jì)算不同訓(xùn)練集中的最佳錨框值的自適應(yīng)錨框計(jì)算、實(shí)現(xiàn)圖像尺寸大小統(tǒng)一的自適應(yīng)圖片縮放。Backbone主要由卷積模塊(Conv)、C3模塊、SPPF模塊[15]構(gòu)成,用來(lái)提取目標(biāo)特征信息,并且不斷縮小特征圖。Neck由協(xié)同工作的特征金字塔(Feature Pyramid Networks, FPN)[16]和路徑聚合網(wǎng)絡(luò)(Path Aggregation Networks, PAN)[17]2部分構(gòu)成。其中,F(xiàn)PN是實(shí)現(xiàn)自頂向下的特征金字塔,PAN是實(shí)現(xiàn)自底向上的路徑聚合網(wǎng)絡(luò)。兩個(gè)模塊用來(lái)增強(qiáng)網(wǎng)絡(luò)特征整合能力,將淺層的圖形特征和深層的語(yǔ)義特征相結(jié)合,豐富上下文語(yǔ)義特征,以獲取更為完整的特征。Head層為Detect模塊,包括3個(gè)head,擁有不同的預(yù)測(cè)尺度,預(yù)測(cè)結(jié)果,并生成對(duì)應(yīng)類別預(yù)測(cè)框[18]。
1.2.2 改進(jìn)YOLOv5模型
YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)主要由骨干網(wǎng)絡(luò)(Backbone)、頸部網(wǎng)絡(luò)(Neck)以及檢測(cè)頭部分(Head)組成。根據(jù)模型大小,YOLOv5網(wǎng)絡(luò)模型可以分為YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l以及YOLOv5x,選擇較輕量級(jí)的YOLOv5s模型進(jìn)行改進(jìn)。圖3
(1)在Backone網(wǎng)絡(luò)中加入CA(Coordinate Attention)注意力機(jī)制模塊,在SPPF模塊之前加入CA注意力機(jī)制模塊,加強(qiáng)對(duì)目標(biāo)的位置信息和通道信息的提取,提高目標(biāo)的位置信息。
(2)在Neck網(wǎng)絡(luò)中替換Bi-FPN特征金字塔結(jié)構(gòu),充分結(jié)合淺層與深層的特征信息,進(jìn)行特征信息的快速融合,提高對(duì)遮擋目標(biāo)的檢測(cè)效果。
1.2.3 CA注意力模塊
CA(Coordinate Attention)注意力模塊相比于其他注意力模塊,其將位置信息嵌入到通道注意力中,獲取更大區(qū)域信息,強(qiáng)化辣椒特征信息并且弱化背景信息[19-21]。
CA注意力模塊的實(shí)現(xiàn)分為全局信息嵌入和坐標(biāo)注意力生成。圖4
CA注意力模塊首先進(jìn)行坐標(biāo)注意力對(duì)輸入特征圖沿著水平和垂直兩個(gè)方向進(jìn)行全局池化操作,具體而言,對(duì)輸入特征張量X=[x1,x2,…xe]∈Rc×Hxw,先使用尺寸(H,1)和(1,W)的池化核分別沿水平方向和豎直方向?qū)γ總€(gè)通道進(jìn)行編碼,從而得到高度h處的第C通道的輸出和寬度w處的第c通道的兩個(gè)特征映射zh和zw,輸出可以公式化為:
zhc(h)=1w0≤i≤wxc(h,i). (1)
zwc(w)=1H0≤j≤Hxc(j,w). (2)
2個(gè)變換沿著兩個(gè)空間方向進(jìn)行特征聚合,隨后級(jí)聯(lián)生成的兩個(gè)特征圖,然后使用1×1卷積變換函數(shù)F1形成中間特征圖:
F=(F1([zh,zw])).(3)
式(3)中,F(xiàn)∈RC/r*(H+W) ,接著,沿著空間維度將瘙楋切分為兩個(gè)單獨(dú)的張量fh∈RC/rH 和fw∈RC/rW ,再利用兩個(gè)1×1卷積Fh和Fw將特征圖gh和gw變換到和原始輸入X同樣的通道數(shù)的特征張量,得到下式的結(jié)果:
gh=σ(Fh(fh)).(4)
gW=σ(Fw(fw)).(5)
式(4)(5)中,σ為sigmoid激活函數(shù)。將gh和gw進(jìn)行拓展,作為注意力權(quán)重,最后在原始特征圖X上通過(guò)乘法加權(quán)計(jì)算,即可得到CA注意力機(jī)制的模塊輸出Y=[y1,y2,…yc]為:
yc(i,j)=xc(i,j)ghc(i)gwc(j).(6)
1.2.4 Bi-FPN雙向特征融合網(wǎng)絡(luò)
原始YOLOv5網(wǎng)絡(luò)中,采用FPN和PANet網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行特征融合,特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network, FPN)具有一條自上而下的通路,其目的是融合淺層的位置信息和深層的語(yǔ)義信息。路徑聚合網(wǎng)絡(luò)(Path Aggregation Network, PANet)網(wǎng)絡(luò)基于FPN進(jìn)行改進(jìn),不僅自上向下進(jìn)行特征融合,不僅自上向下進(jìn)行特征融合,還額外增加了自底向上的路徑聚合通路,可提取更多的淺層特征與高級(jí)特征,從而達(dá)到減少信息丟失的目的[12,22]。使用Bi-FPN特征融合網(wǎng)絡(luò)來(lái)替換,能夠?qū)?lái)自不同層級(jí)的特征圖融合成更加豐富的特征,提供更全面的信息給檢測(cè)頭Bi-FPN是一種加權(quán)雙向特征金字塔網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)引入可學(xué)習(xí)的權(quán)值來(lái)學(xué)習(xí)不同輸入特征,同時(shí)重復(fù)應(yīng)用自頂向下和自底向上的多尺度特征融合,對(duì)不同的分辨率的輸入圖像進(jìn)行快速有效的特征信息融合。雙向跨尺度連接:首先,剔除單一輸入的結(jié)點(diǎn);其次是引入跳躍連接機(jī)制,增加一條特征融合路徑,利用3個(gè)不同尺度的特征圖將淺層特征圖位置信息和深層次特征圖位置信息融合,利用加權(quán)特征融合使得網(wǎng)絡(luò)更側(cè)重關(guān)鍵特征信息得融合,從而提高網(wǎng)絡(luò)提取特征能力[23-24]。圖5
Bi-FPN加權(quán)特征融合計(jì)算方式為:
Out=i=0wi*Ii+∑j=0wj. (7)
式(7)中,w表示可學(xué)習(xí)權(quán)重;Ii表示輸入特征。
Bi-FPN相當(dāng)于給各個(gè)層賦予不同權(quán)重去進(jìn)行融合,讓網(wǎng)絡(luò)更加關(guān)注重要的層次,而且還減少一些不必要的層的結(jié)點(diǎn)連接。通過(guò)引入雙向加權(quán)特征融合結(jié)構(gòu)Bi-FPN,來(lái)加強(qiáng)特征融合,從而提取到更多遮擋目標(biāo)的細(xì)節(jié)信息,提高檢測(cè)效率。
1.2.5 試驗(yàn)環(huán)境及模型參數(shù)
使用Ubuntu16.3操作系統(tǒng),顯卡型號(hào)為Nvidia GeForce RTX 3090 24 GB,處理器型號(hào)為Xeon(R) Platinum 8336C,深度學(xué)習(xí)框架為PyTorch,編程平臺(tái)為PyCharm,編程語(yǔ)言為Python3.8,使用以上試驗(yàn)環(huán)境對(duì)模型進(jìn)行訓(xùn)練和測(cè)試,所有對(duì)比模型均在相同試驗(yàn)環(huán)境下運(yùn)行。表1
1.2.6 模型評(píng)價(jià)指標(biāo)
評(píng)價(jià)模型性能和有效性的相關(guān)指標(biāo)為精確率(Precision, P)、召回率(Recall, R)、以及平均精度均值(mean Average precision, mAP)。
P=TPTP+FP×100%.(8)
R=TPTP+FN×100%.(9)
AP=∫01P(r)dr.(10)
mAP=1n∑ni=1AP.(11)
式中,TP指預(yù)測(cè)為正類的正樣本(真正例);FN指預(yù)測(cè)為負(fù)類的正樣本(假反例);FP 指預(yù)測(cè)為正類的負(fù)樣本(假正例);P指在圖像中所有預(yù)測(cè)的樣本為正類的比例;召回率R 指預(yù)測(cè)正類的樣本與所有正樣本的比例;AP指P和R所圍成地面積定義,用于衡量某一類精度,所有的檢測(cè)類別AP地均值為mAP,通常mAP越大,模型的性能越好,是衡量目標(biāo)檢測(cè)模型性能的重要指標(biāo)。由于僅針對(duì)辣椒單一類進(jìn)行檢測(cè),故使用mAP@0.5作為評(píng)估模型精度的指標(biāo),mAP@0.5表示IoU為0.5時(shí)的mAP值,更加適合快速檢測(cè)。
2 結(jié)果與分析
2.1 模型對(duì)比
研究表明,研究模型在平均精確率上為最高,雖然相較于YOLOv5s模型參數(shù)和權(quán)重大小略微增加,但是其平均精確率比YOLOv5s提高了1.5個(gè)百分點(diǎn),提高了檢測(cè)效果。 Faster-RCNN置信度為最高,但是存在誤檢的情況;與YOLOv7、原始YOLOv5s相比,本模型置信度整體相對(duì)較高,尤其是對(duì)遮擋嚴(yán)重目標(biāo),高于上述2個(gè)模型,進(jìn)一步提高對(duì)遮擋目標(biāo)的檢測(cè);與YOLOv8s相比,出現(xiàn)其模型漏檢情況。在相同復(fù)雜背景條件下,改進(jìn)模型各項(xiàng)指標(biāo)未達(dá)到最優(yōu),改進(jìn)后的模型檢測(cè)效果提升明顯,驗(yàn)證了改進(jìn)模型的有效性。
在相同條件下,相比于Faster-RCNN模型來(lái)說(shuō),改進(jìn)后的YOLOv5模型對(duì)遮擋目標(biāo)的置信度低于Faster-RCNN模型,但是不存在誤檢問(wèn)題,且模型的參數(shù)量遠(yuǎn)小于Faster-RCNN模型,有利于在采摘機(jī)器人上的使用。改進(jìn)后YOLOv5模型在參數(shù)量遠(yuǎn)小于YOLOv7模型的情況下,對(duì)于一些遮擋嚴(yán)重的綠辣椒,其置信度高于YOLOv7模型。模型在對(duì)于遮擋綠辣椒檢測(cè)方面的性能高于原始YOLOv5s模型和YOLOv8模型,對(duì)綠辣椒的檢測(cè)效果更加優(yōu)越,提高了檢測(cè)性能,且對(duì)于遮擋辣椒的檢測(cè)精度有所提升,更適合在自然條件下進(jìn)行應(yīng)用。改進(jìn)后模型提高了精準(zhǔn)度,并且參數(shù)量遠(yuǎn)小于Faster-RCNN、YOLOv7、YOLOv8s模型,從而對(duì)實(shí)現(xiàn)辣椒采摘機(jī)器人的自動(dòng)化操作提供了前提條件。表2,圖6
2.2 不同注意力模塊性能對(duì)比
研究表明,使用CA注意力機(jī)制模塊可更好的關(guān)注目標(biāo)位置,提高檢測(cè)效率。添加CA注意力模塊相較于其他兩個(gè)注意力模塊,可以更加快速收斂并持續(xù)降低損失值。
在骨干網(wǎng)絡(luò)分別添加注意力模塊均能提高模型檢測(cè)精度。由于CA注意力機(jī)制使用全局平均池化來(lái)獲取通道維數(shù)的特征信息,在幾乎不帶來(lái)額外計(jì)算開(kāi)銷的情況下獲取更大區(qū)域信息,強(qiáng)化辣椒特征信息并且弱化背景信息。CA注意力模塊與其他注意力模塊相比平均精度更高,更適合自然條件下綠色辣椒的采摘,選擇在骨干網(wǎng)絡(luò)中加入CA注意力模塊的優(yōu)越性。表3,圖7
2.3 消融試驗(yàn)
研究表明,添加CA模塊的YOLOv5s模型,其召回率提升1.5%,精確率稍微下降,平均精確率略微提升。添加Bi-FPN模塊的YOLOv5s模型,其召回率提升0.6%,精確率稍微下降,但是其mAP@0.5從89.5%提升至90.7%,提升了1.2%,Bi-FPN模塊能融合更多不同特征,實(shí)現(xiàn)雙向特征信息融合。通過(guò)Bi-FPN雙向特征融合模塊和CA注意力模塊的結(jié)合,其精確率及mAP@0.5分別提升0.9%、1.5%,兩者結(jié)合是能提高模型的檢測(cè)準(zhǔn)確率。所改進(jìn)模型有效的提高了檢測(cè)性能,使模型檢測(cè)綠辣椒的準(zhǔn)確度進(jìn)一步增強(qiáng)。
當(dāng)IOU=0.5時(shí)的平均精度,性能逐步穩(wěn)定增強(qiáng)。在改進(jìn)之初,模型損失初值最高,在改進(jìn)后,模型的收斂速度加快,損失值越來(lái)越小,模型收斂能力加強(qiáng)。表4,圖8
3 討 論
3.1 將在原始的YOLOv5s骨干中分別添加GAM(Global Attention Mechanism)注意力模塊[25]、EMA(Efficient Multi-Scale Attention)注意力模塊[26]以及CA注意力模塊。
在與其他目標(biāo)檢測(cè)模型(如Faster-RCNN、YOLOv8等)相比,在自建數(shù)據(jù)集上,改進(jìn)后YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)具有更高的準(zhǔn)確度和計(jì)算效率。在數(shù)據(jù)集上,改進(jìn)的YOLOv5相較于原始模型在mAP上有較大提升,能夠較好地平衡精度和模型體積之間的關(guān)系。然而,改進(jìn)后的模型也存在局限性,例如對(duì)遮擋嚴(yán)重的目標(biāo)存在置信度較低的問(wèn)題。改進(jìn)模型的過(guò)程中增加了參數(shù)量以及計(jì)算量,雖然導(dǎo)致模型體積略微提升,但是在一定程度上降低了背景對(duì)檢測(cè)效果影響,提高檢測(cè)準(zhǔn)確率不高的問(wèn)題,改進(jìn)后的模型能夠完成任務(wù)。
3.2 在試驗(yàn)過(guò)程中部分辣椒未被識(shí)別,出現(xiàn)漏檢問(wèn)題,經(jīng)過(guò)分析,主要原因?yàn)榕臄z角度問(wèn)題,不同的拍攝角度,圖像中的辣椒的形態(tài)會(huì)有差別,部分被葉片遮擋嚴(yán)重的辣椒以及辣椒相互遮擋的情況,造成無(wú)法識(shí)別的問(wèn)題。后續(xù)研究,可以拍攝更加豐富的數(shù)據(jù)集,進(jìn)一步提高辣椒檢測(cè)的準(zhǔn)確率和魯棒性。
4 結(jié) 論
通過(guò)在自建辣椒數(shù)據(jù)集上進(jìn)行訓(xùn)練,改進(jìn)后的模型平均準(zhǔn)確率達(dá)到91%,相比于研究其他所對(duì)比模型,改進(jìn)模型的平均準(zhǔn)確率更高。改進(jìn)YOLOv5的遮擋綠色辣椒的識(shí)別具有較高的準(zhǔn)確性。
參考文獻(xiàn)(References)
[1]張子峰. 我國(guó)辣椒產(chǎn)業(yè)發(fā)展現(xiàn)狀、主要挑戰(zhàn)與應(yīng)對(duì)之策[J]. 北方園藝, 2023,(14): 153-158.
ZHANG Zifeng. Current development situation, main challenges and its countermeasures of the pepper industry in China[J]. Northern Horticulture, 2023,(14): 153-158.
[2] 段潔利, 王昭銳, 葉磊, 等. 水果采摘機(jī)械臂運(yùn)動(dòng)規(guī)劃研究進(jìn)展與發(fā)展趨勢(shì)[J]. Journal of Intelligent Agricultural Mechanization(in Chinese and English), 2021, (2): 7-17.
DUAN Jieli, WANG Zhaorui, YE Lei, et al. Research progress and development trend of motion planning of fruit picking robot arm[J]. Journal of Intelligent Agricultural Mechanization, 2021, (2): 7-17.
[3] 金晶, 張小明, 付浩. 貴州省辣椒產(chǎn)業(yè)發(fā)展現(xiàn)狀及建議[J]. 北方園藝, 2021,(21): 152-156.
JIN Jing, ZHANG Xiaoming, FU Hao. Status and suggestions of chili industry development in Guizhou Province[J]. Northern Horticulture, 2021,(21): 152-156.
[4] Kang D, Benipal S S, Gopal D L, et al. Hybrid pixel-level concrete crack segmentation and quantification across complex backgrounds using deep learning[J]. Automation in Construction, 2020, 118: 103291.
[5] 韓文霆, 崔家偉, 崔欣, 等. 基于特征優(yōu)選與機(jī)器學(xué)習(xí)的農(nóng)田土壤含鹽量估算研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2023, 54(3): 328-337.
HAN Wenting, CUI Jiawei, CUI Xin, et al. Estimation of farmland soil salinity content based on feature optimization and machine learning algorithms[J]. Transactions of the Chinese Society for Agricultural Machinery, 2023, 54(3): 328-337.
[6] 陳小毛, 王立成, 張健, 等. 融合YOLOv5與ASFF算法的海產(chǎn)品目標(biāo)檢測(cè)算法研究[J]. 無(wú)線電工程, 2023, 53(4): 824-830.
CHEN Xiaomao, WANG Licheng, ZHANG Jian, et al. Research on seafood object detection algorithm integrating YOLOv5 and ASFF algorithm[J]. Radio Engineering, 2023, 53(4): 824-830.
[7] 周岳淮, 李震, 左嘉明, 等. 基于改進(jìn)YOLOv5s模型的山地果園單軌運(yùn)輸機(jī)搭載柑橘的檢測(cè)[J]. 湖南農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版), 2023, 49(4): 491-496.
ZHOU Yuehuai, LI Zhen, ZUO Jiaming, et al. Detection of Citrus carried by mountainous orchard monorail transporter based on improved YOLOv5s[J]. Journal of Hunan Agricultural University (Natural Sciences), 2023, 49(4): 491-496.
[8] Tian Y N, Yang G D, Wang Z, et al. Apple detection during different growth stages in orchards using the improved YOLO-V3 model[J]. Computers and Electronics in Agriculture, 2019, 157: 417-426.
[9] 段潔利, 王昭銳, 鄒湘軍, 等. 采用改進(jìn)YOLOv5的蕉穗識(shí)別及其底部果軸定位[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2022, 38(19): 122-130.
DUAN Jieli, WANG Zhaorui, ZOU Xiangjun, et al. Recognition of bananas to locate bottom fruit axis using improved YOLOv5[J]. Transactions of the Chinese Society of Agricultural Engineering, 2022, 38(19): 122-130.
[10] Wang F H, Sun Z X, Chen Y, et al. Xiaomila green pepper target detection method under complex environment based on improved YOLOv5s[J]. Agronomy, 2022, 12(6): 1477.
[11] 王圓圓, 林建, 王姍. 基于YOLOv4-tiny模型的水稻早期病害識(shí)別方法[J]. 江蘇農(nóng)業(yè)科學(xué), 2023, 51(16): 147-154.
WANG Yuanyuan, LIN Jian, WANG Shan. An early rice disease recognition method based on YOLOv4-tiny model[J]. Jiangsu Agricultural Sciences, 2023, 51(16): 147-154.
[12] Tang Z, Zhou L, Qi F, et al. An improved lightweight and real-time YOLOv5 network for detection of surface defects on Indocalamus leaves[J]. Journal of Real-Time Image Processing, 2023, 20(1): 14.
[13] 高芳征, 湯文俊, 陳光明, 等. 基于改進(jìn)YOLOv3的復(fù)雜環(huán)境下西紅柿成熟果實(shí)快速識(shí)別[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào), 2023, 44(8): 174-183.
GAO Fangzheng, TANG Wenjun, CHEN Guangming, et al. Fast recognition of ripe tomato fruits in complex environment based on improved YOLOv3[J]. Journal of Chinese Agricultural Mechanization, 2023, 44(8): 174-183.
[14] 朱立成, 韓振浩, 趙博, 等. 基于VINS-MONO和改進(jìn)YOLO v4-Tiny的果園自主尋筐方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2023, 54(8): 97-109.
ZHU Licheng, HAN Zhenhao, ZHAO Bo, et al. Autonomous basket searching method for orchards transporter based on VINS-MONO and improved YOLO v4-tiny[J]. Transactions of the Chinese Society for Agricultural Machinery, 2023, 54(8): 97-109.
[15] He K M, Zhang X Y, Ren S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.
[16] 湯文虎, 吳龍, 黎堯, 等. 基于改進(jìn)Faster RCNN的鋼線圈頭部小目標(biāo)檢測(cè)算法[J]. 現(xiàn)代制造工程, 2023, (8): 127-133, 147.
TANG Wenhu, WU Long, LI Yao, et al. Improved faster RCNN based steel coil head detection algorithm for small objects[J]. Modern Manufacturing Engineering, 2023, (8): 127-133, 147.
[17] 呂宗旺, 邱帥欣, 孫福艷, 等. 基于改進(jìn)YOLOv5s的輕量化儲(chǔ)糧害蟲檢測(cè)方法[J]. 中國(guó)糧油學(xué)報(bào), 2023, 38(8): 221-228.
LYU Zongwang, QIU Shuaixin, SUN Fuyan, et al. Lightweight grain storage pest detection method based on improved YOLOv5s[J]. Journal of the Chinese Cereals and Oils Association, 2023, 38(8): 221-228.
[18] 李淑菲, 李凱雨, 喬巖, 等. 基于可見(jiàn)光光譜和改進(jìn)YOLOv5的自然場(chǎng)景下黃瓜病害檢測(cè)方法[J]. 光譜學(xué)與光譜分析, 2023, 43(8): 2596-2600.
LI Shufei, LI Kaiyu, QIAO Yan, et al. Cucumber disease detection method based on visible light spectrum and improved YOLOv5 in natural scenes[J]. Spectroscopy and Spectral Analysis, 2023, 43(8): 2596-2600.
[19] Hong W W, Ma Z H, Ye B L, et al. Detection of green Asparagus in complex environments based on the improved YOLOv5 algorithm[J]. Sensors, 2023, 23(3): 1562.
[20] 楊國(guó)亮, 王吉祥, 聶子玲. 基于改進(jìn)型YOLOv5s的番茄實(shí)時(shí)識(shí)別方法[J]. 江蘇農(nóng)業(yè)科學(xué), 2023, 51(15): 187-193.
YANG Guoliang, WANG Jixiang, NIE Ziling. A real-time tomato recognition method based on improved YOLOv5s[J]. Jiangsu Agricultural Sciences, 2023, 51(15): 187-193.
[21] 李尚平, 鄭創(chuàng)銳, 文春明, 等. 基于改進(jìn)YOLO v5s的甘蔗切種莖節(jié)特征識(shí)別定位技術(shù)[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2023, 54(10): 234-245,293.
LI Shangping, ZHENG Chuangrui, WEN Chunming, et al. Stem node feature recognition and positioning technology for transverse cutting of sugarcane based on improved YOLO v5s[J]. Transactions of the Chinese Society for Agricultural Machinery, 2023, 54(10): 234-245,293.
[22] 姜國(guó)權(quán), 楊正元, 霍占強(qiáng), 等. 基于改進(jìn)YOLOv5網(wǎng)絡(luò)的疏果前蘋果檢測(cè)方法[J]. 江蘇農(nóng)業(yè)科學(xué), 2023, 51(14): 205-215.
JIANG Guoquan, YANG Zhengyuan, HUO Zhanqiang, et al. Apple detection method before thinning fruit based on improved YOLOv5 model[J]. Jiangsu Agricultural Sciences, 2023, 51(14): 205-215.
[23] Zhe T,Lin Z,F(xiàn)ang Q, et al. An improved lightweight and real-time YOLOv5 network for detection of surface defects on indocalamus leaves[J]. Journal of Real-Time Image Processing,2023,20(1).
[24] 楊永闖, 王昊, 王新良. 基于改進(jìn)SSD的食物浪費(fèi)行為識(shí)別方法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2023, 44(8): 2523-2530.
YANG Yongchuang, WANG Hao, WANG Xinliang. Food waste behavior recognition method based on improved SSD[J]. Computer Engineering and Design, 2023, 44(8): 2523-2530.
[25] 郭殿鵬, 柯海森, 李孝祿, 等. 基于改進(jìn)YOLOv7的織物疵點(diǎn)檢測(cè)算法[J]. 棉紡織技術(shù), 2023, 51(12): 5-11.
GUO Dianpeng, KE Haisen, LI Xiaolu, et al. Fabric defect detection algorithm based on improved YOLOv7[J]. Cotton Textile Technology, 2023, 51(12): 5-11.
[26] 崔海彬, 蒲東兵, 陸云鳳, 等. 基于CA-YOLO的安全帽佩戴檢測(cè)[J]. 東北師大學(xué)報(bào)(自然科學(xué)版), 2023, 55(3): 94-100.
CUI Haibin, PU Dongbing, LU Yunfeng, et al. Helmet wearing detection based on CA-YOLO[J]. Journal of Northeast Normal University (Natural Science Edition), 2023, 55(3): 94-100.
Green chili pepper target detection method based on improved YOLOv5
WANG Zhenlu1, BAI Tao1,2, LI Dongya1, DAI Shuo1, CHEN Zhen1
(1. College of Computer and Information Engineering, Xinjiang Agricultural University, Urumqi 830052, China; 2. Engineering Research Center for Intelligent Agriculture of Ministry of Education/Xinjiang Research Center for Agricultural Information Technology, Urumqi 830052, China)
Abstract:【Objective】 Accurate recognition of green chili peppers using machine vision is an important prerequisite for realizing intelligent picking of chili peppers, so in view of the natural conditions of pepper occlusion, this study aims to accurately identify the problem.
【Methods】 A chili pepper target detection model based on improved YOLOv5 was proposed, CA (Coordinate Attention) was added in YOLOv5 backbone network Attention mechanism in the YOLOv5 backbone network to enhance the extraction of chili pepper feature information and further enhance the extraction of target location information; meanwhile, a Bi-FPN structure was used in the feature fusion network to improve the model's ability to recognize occluded chili peppers.
【Results】 By training on the self-constructed chili pepper dataset, the results showed that the improved model achieved an average accuracy of 91%, which was higher compared to the other models.
【Conclusion】" The method proposed in this paper has high accuracy in recognizing occluded green chili peppers in natural environments, which can provide technical support for the accurate recognition of chili pepper intelligent picking robots.
Key words:YOLOv5; CA attention mechanism; Bi-FPN; green chili pepper detection; shading
Fund projects: S amp;T Innovation 2030 Major Project of Ministry of Science and Technology \"Group Intelligent Independent Operation of Intelligent Farm\" (2022ZD0115800);Major Scientific R amp; D Program Project of Xinjiang Uygur Autonomous Region \"Research on Key Technologies of Farm Intelligent Platform\" (2022A02011-4); Central Government Guiding the Local Science and Technology Development Special Fund Project (ZYYD2022B14); Basic Scientific Research Project for Universities in Xinjiang Uygur Autonomous Region \"Agricultural Big Data Exchange, Sharing and Visualization Platform\" (XJEDU2022J009)
Correspondence author:BAI Tao (1979-), male, from Urumqi, Xinjiang, master's degree, associate professor, research direction: agricultural big data, data mining,(E-mail)bt@xjau.edu.cn
基金項(xiàng)目:科技部科技創(chuàng)新2030重大項(xiàng)目“群體智能自主作業(yè)智慧農(nóng)場(chǎng)”(2022ZD0115800);新疆維吾爾自治區(qū)重大科技專項(xiàng)“農(nóng)場(chǎng)智能平臺(tái)關(guān)鍵技術(shù)研究”(2022A02011-4);中央引導(dǎo)地方科技發(fā)展專項(xiàng)“智慧農(nóng)業(yè)創(chuàng)新平臺(tái)建設(shè)”(ZYYD2022B12);新疆維吾爾自治區(qū)高?;究蒲袠I(yè)務(wù)費(fèi)科研項(xiàng)目“農(nóng)業(yè)大數(shù)據(jù)交換共享與可視化平臺(tái)”(XJEDU2022J009)
作者簡(jiǎn)介:王震魯(2000-),男,山東濟(jì)寧人,碩士研究生,研究方向?yàn)橛?jì)算機(jī)視覺(jué)、物聯(lián)網(wǎng),(E-mail)2425387367@qq.com
通訊作者:白濤(1979-),男,新疆烏魯木齊人,副教授,碩士生導(dǎo)師,研究方向?yàn)檗r(nóng)業(yè)大數(shù)據(jù)、數(shù)據(jù)挖掘,(E-mail)bt@xjau.edu.cn