摘要:針對復(fù)雜果園環(huán)境下,不同生長周期的番茄容易受葉片、藤蔓的遮擋,以及多果實(shí)之間相互遮擋進(jìn)而導(dǎo)致的誤檢、漏檢、難檢問題,提出了一種基于改進(jìn)YOLO v5s的番茄生長周期采摘實(shí)時(shí)檢測方法。首先,設(shè)計(jì)多尺度反向自適應(yīng)注意力模塊RAAM(Reversed Adaptive Attention Module),用于解決原模型連續(xù)下采樣丟失上下文信息的問題,并可以提升特征圖分辨率用于高層語義信息的加權(quán)融合。其次,在Neck中設(shè)計(jì)C3DS-ST(C3 DySnakeConv-Swin Transformer)模塊替換原有C3,增大局部區(qū)域坐標(biāo)特征感知能力,適應(yīng)整體番茄結(jié)構(gòu)形狀特征。最后,設(shè)計(jì)新的邊框損失函數(shù)SWD_Loss,結(jié)合BiFormer注意力機(jī)制,使網(wǎng)絡(luò)更加關(guān)注敏感區(qū)域,提高模型對遮擋部分的漏檢率和多果實(shí)遮擋的檢測精度。試驗(yàn)結(jié)果表明,改進(jìn)后的模型在測試集上對番茄檢測平均精度達(dá)到93.7%,相比于原模型提升2.1%,對圖片中遮擋部分效果明顯改善。同時(shí),檢測速度達(dá)到了50 幀/s,具有非常良好的應(yīng)用前景。
關(guān)鍵詞:番茄檢測;自適應(yīng)RAAM模塊;C3DS-ST;SWD_Loss;BiFormer
中圖分類號:TP391.41" 文獻(xiàn)標(biāo)志碼:A
文章編號:1002-1302(2024)24-0187-09
收稿日期:2023-12-07
基金項(xiàng)目:江西省教育廳科技計(jì)劃項(xiàng)目(編號:GJJ210861、GJJ200879)。
作者簡介:楊國亮(1973—),男,江西宜春人,博士,教授,主要從事人工智能和模式識(shí)別研究。E-mail:ygliang30@126.com。
通信作者:盛楊楊,碩士研究生,主要從事人工智能和模式識(shí)別研究。E-mail:syy505093@163.com。
番茄是我國重要的蔬菜作物,其產(chǎn)量及需求量都相當(dāng)巨大[1]。番茄采摘目前仍以人工為主,工作強(qiáng)度大且成本高。果蔬采摘機(jī)器人也是近年來人工智能領(lǐng)域的熱門話題,我國也相繼開發(fā)出草莓、蘋果等農(nóng)業(yè)采摘機(jī)器人[2-3]。精準(zhǔn)的識(shí)別和定位是順利采摘的前提,提高識(shí)別精度可有效減少未達(dá)到采摘標(biāo)準(zhǔn)的次數(shù),提升采摘機(jī)器人的工作效率。在實(shí)際采摘條件下,番茄生長條件復(fù)雜,存在著枝葉遮擋、大小果重疊等多種干擾因素。然而,對于未成熟番茄誤采摘會(huì)影響采摘效率,對成熟番茄不及時(shí)采摘會(huì)影響到果實(shí)品質(zhì)和經(jīng)濟(jì)效益。所以,提高番茄的識(shí)別精度和速度,對農(nóng)園采摘和果蔬實(shí)時(shí)運(yùn)輸都有十分重要的意義。
近年來隨著計(jì)算機(jī)視覺技術(shù)的發(fā)展,深度學(xué)習(xí)在農(nóng)業(yè)發(fā)展方面也隨之進(jìn)步,并展示出巨大的優(yōu)越性[4-5]。傳統(tǒng)的目標(biāo)檢測算法可以分為2種:一種是one-stage目標(biāo)檢測法,其檢測過程不產(chǎn)生候選框,直接輸出分類結(jié)果和定位信息,如YOLO、SSD等[6-7]。此類模型大多參數(shù)量少,識(shí)別速度較快,可以便捷地部署到機(jī)器人攝像頭、智能手機(jī)等移動(dòng)終端。王勇等針對不同成熟度蘋果改進(jìn)YOLO v5,其檢測精度達(dá)到93.6%[8];Fan等針對夜間草莓誤摘、識(shí)別精度低,提出了一種結(jié)合暗通道增強(qiáng)改進(jìn)YOLO v5算法[9]。另一種是two-stage目標(biāo)檢測法。該方法先對圖像計(jì)算出候選區(qū)域,然后再對候選框中的目標(biāo)進(jìn)行分類,如R-CNN、Faster R-CNN等[10]。此類算法模型參數(shù)量大,識(shí)別速度較慢,無法滿足實(shí)際生產(chǎn)中實(shí)時(shí)性檢測的需求,但是識(shí)別準(zhǔn)確率較高。張文靜等提出改進(jìn)Faster R-CNN檢測算法,單樣本圖像處理時(shí)間為245 ms[11]。岳有軍等提出改進(jìn)的Cascade R-CNN網(wǎng)絡(luò),用于增強(qiáng)對成熟綠果番茄與其他不同成熟階段番茄的區(qū)分,識(shí)別精度達(dá)到97.75%[12]。
考慮到番茄生長環(huán)境復(fù)雜,需要對采摘新鮮度、品質(zhì)實(shí)時(shí)監(jiān)測等因素,所以在番茄目標(biāo)檢測時(shí)要重視其精度和速度。而一步走算法能滿足實(shí)時(shí)性要求。本研究將基于YOLO v5s算法進(jìn)行改進(jìn),在骨干網(wǎng)絡(luò)中融合多尺度反向自適應(yīng)注意力模塊RAAM,用于提升深層網(wǎng)絡(luò)中特征圖像分辨率使其更好地傳遞給后續(xù)網(wǎng)絡(luò),可有效提高網(wǎng)絡(luò)特征融合泛化能力;將頸部網(wǎng)絡(luò)原有結(jié)構(gòu) C3 替換為C3DS-ST模塊,完成對局部番茄遮擋特征的充分提取,通過坐標(biāo)映射學(xué)習(xí)方法讓局部區(qū)域適應(yīng)整體番茄結(jié)構(gòu)特征,可有效解決自然果園中由于多種因素遮擋造成的像素少、輪廓紋理不充分等問題;并引入BiFormer注意力機(jī)制,改進(jìn)邊框損失函數(shù)SWD加強(qiáng)對預(yù)測框的約束能力。研究結(jié)果表明改進(jìn)后的模型不僅提升了檢測精度,還能有效解決生產(chǎn)實(shí)際中由于番茄果實(shí)扎堆密集、大小果不一、枝葉藤蔓遮擋產(chǎn)生的漏檢、難檢等問題。
1 材料與方法
1.1 數(shù)據(jù)集
本試驗(yàn)使用的番茄影像數(shù)據(jù)集主要來源于網(wǎng)絡(luò)公開數(shù)據(jù)集和大棚實(shí)地拍攝。為了符合番茄生長的真實(shí)環(huán)境和采摘遇到的實(shí)際問題,采集數(shù)據(jù)集時(shí)不僅關(guān)注了不同生長時(shí)期的各種圖像,例如成熟、未成熟、過熟、腐爛等多個(gè)狀態(tài),而且還對密集、遮擋等情況進(jìn)行收集(圖1)。使用Labellmg工具對圖像標(biāo)注時(shí),盡可能將背景信息減少到最小,保證數(shù)據(jù)的準(zhǔn)確性,還原實(shí)際生活中果園采摘的真實(shí)情況。經(jīng)過處理后,得到圖像3 251張,將數(shù)據(jù)集按照8 ∶2比例劃分,其中2 610張作為訓(xùn)練集,641張作為測試集。
1.2 YOLO v5s網(wǎng)絡(luò)模型
YOLO v5s算法是由Ultralytics公司于2020年6月公開發(fā)布,主要包括輸入端、骨干網(wǎng)絡(luò)(Backbone)、頸部網(wǎng)絡(luò)(Neck)以及檢測層(Head)4個(gè)部分。輸入端通常由 Mosaic 數(shù)據(jù)增強(qiáng)、自適應(yīng)錨框計(jì)算、自適應(yīng)圖片縮放3部分組成。骨干網(wǎng)絡(luò)主要由卷積(Conv)、瓶頸(BottleneckCSP)、C3和空間金字塔(SPPF)構(gòu)成,負(fù)責(zé)對圖像從多方面提取特征。頸部網(wǎng)絡(luò)使用特征金字塔網(wǎng)絡(luò)(FPN)和金字塔注意力網(wǎng)絡(luò)(PANet),用于增強(qiáng)圖像特征的融合。檢測層包括GIoU_Loss損失函數(shù)和非極大值抑制(NMS)來進(jìn)行分類預(yù)測。
1.3 YOLO v5s改進(jìn)模型
針對YOLO v5s存在小目標(biāo)、遮擋對象的漏檢誤檢問題,本研究對其模型進(jìn)行了結(jié)構(gòu)改造,重新設(shè)計(jì)了RAAM、C3DS-ST等模塊,并將其用于果園番茄檢測,改進(jìn)后模型如圖2所示。
1.3.1 多尺度反向自適應(yīng)注意力模塊(RAAM)
目前,多尺度特征融合已經(jīng)廣泛應(yīng)用于目標(biāo)檢測任務(wù),用來提高多尺度目標(biāo)的檢測性能和識(shí)別精度。其中,特征金字塔(feature pyramid network,F(xiàn)PN)是最常見的用于改善多層信息的特征融合網(wǎng)絡(luò)。但其最明顯的缺點(diǎn)就是過于關(guān)注底層信息提取和優(yōu)化,經(jīng)過多層卷積后隨著通道數(shù)減少會(huì)丟失大量值得關(guān)注的信息。為了緩解這一問題,Wang等提出了自適應(yīng)注意力模塊(adaptive attention module,AAM)[13]。原文中當(dāng)輸入圖像經(jīng)過多層卷積后生成了特征圖C5,它將作為輸入傳遞給AAM。首先,通過自適應(yīng)池化層(下采樣因子為αi)會(huì)獲得3個(gè)不同尺度的特征圖,然后將他們縮放到同一大?。–×W×H)進(jìn)行拼接得到空間權(quán)值圖。其中,C、H、W分別表示特征圖通道數(shù)、高度以及寬度。最后將得到的空間權(quán)值圖與之前通道融合后的輸出特征圖進(jìn)行矩陣乘法,將他們各自分離融合到C5特征圖,聚合特征得到最后輸出P5。雖然原作者提出的AAM模塊很大程度上緩解了由于特征通道數(shù)減少所造成的信息丟失問題,并通過自適應(yīng)池化層豐富了多尺度信息維度,但是由于是低維度提取,得到的3種特征圖包含了大量淺層信息,這會(huì)對后續(xù)網(wǎng)絡(luò)提取的信息造成特征重疊和干擾。因此,這個(gè)方案對常規(guī)對象檢測有所提升,但是對小目標(biāo)、輪廓不清晰的遮擋部分并未產(chǎn)生良好的效果。因?yàn)檫@些目標(biāo)本身在圖像中就已經(jīng)存在像素少、紋理缺失、模糊等問題,提取特征圖C1到C5過程中,網(wǎng)絡(luò)經(jīng)過連續(xù)下采樣提取到C5時(shí)輸出尺度已經(jīng)很小,繼續(xù)下采樣獲得的特征圖分辨率低、信息丟失嚴(yán)重。
本研究參考Caballero等提出的方法對AAM模塊重新設(shè)計(jì)。Caballero等提出一種新的高效亞像素卷積(sub-pixel conv)網(wǎng)絡(luò)(圖3)[14],可以有效地將低分辨率圖像恢復(fù)到高分辨率,緩解低通濾波和下采樣造成的高頻信息丟失;并且加入雙層路由注意力機(jī)制(BiFormer Attention)對輸出特征圖進(jìn)行加權(quán)融合,可以更好地提升網(wǎng)絡(luò)對敏感區(qū)域的關(guān)注,抑制上下層無效信息的干擾。因?yàn)閬喯袼鼐矸e網(wǎng)絡(luò)是將不同尺度特征圖進(jìn)行上采樣操作,剛好與AAM中下采樣池化相反,因此改進(jìn)后的模塊稱為反向自適應(yīng)注意力模塊RAAM(Reversed Adaptive Attention Module),其模型結(jié)構(gòu)如圖4所示。
首先由輸入C5通過亞像素卷積層上采樣(上采樣因子為βi)得到3組不同分辨率的特征圖(Feature map-i),特征圖尺寸(Ci,Hi,Wi)計(jì)算公式如下所示。經(jīng)過對比試驗(yàn)當(dāng)上采樣因子βi?。?.5,1.5,2)時(shí)效果最佳。
Ci=Cβ2i;
Hi=βi×H;
Wi=βi×W;(1)
3種不同尺度的特征圖再經(jīng)過1×1卷積將尺寸還原到(C×H×W),隨后沿通道維度進(jìn)行拼接。然后引入BiFormer Attention模塊對有效信息進(jìn)行增強(qiáng),過濾冗余信息,最后分解成3個(gè)尺度都為(C×H×W)的特征圖與初始輸入C5進(jìn)行矩陣相加得到最后的特征映射P5。新的RAAM模塊通過在網(wǎng)絡(luò)深層使用亞像素卷積網(wǎng)絡(luò)進(jìn)行上采樣,可以有效解決因持續(xù)下采樣通道數(shù)減少,圖像中小目標(biāo)以及局部遮擋區(qū)域像素點(diǎn)少產(chǎn)生的信息丟失、像素模糊等問題,生成高分辨率特征圖傳遞給后續(xù)網(wǎng)絡(luò)。
1.3.2 C3DS-ST模塊
Qi等提出了一種動(dòng)態(tài)蛇形卷積(dynamic snake convolution,DSConv),通過自適應(yīng)聚焦細(xì)長和彎曲的局部結(jié)構(gòu)來準(zhǔn)確捕捉毛細(xì)血管等管狀結(jié)構(gòu)的分割特征[15]。在實(shí)際生長環(huán)境中番茄由于果實(shí)、枝葉遮擋從而導(dǎo)致漏檢,是因?yàn)檫@些目標(biāo)局部結(jié)構(gòu)脆弱和全局形態(tài)缺失難以被模型所關(guān)注,其共同特征就是在圖像中所占的比例很小,像素組成有限且難以捕捉。因此,迫切需要增強(qiáng)對局部影像結(jié)構(gòu)的感知?;诖?,本研究設(shè)計(jì) C3DS-ST 模塊用于解決這一問題,其結(jié)構(gòu)如圖5所示。其中,DSConv是一種可變形卷積核,能夠根據(jù)輸入的大量番茄特征映射學(xué)習(xí)變形,動(dòng)態(tài)地感知番茄的幾何特征,更好地捕捉局部番茄的關(guān)鍵坐標(biāo)特征,擴(kuò)大自身感受野,以適應(yīng)實(shí)際環(huán)境中番茄形態(tài)多變的結(jié)構(gòu)(圖6)。
其中對于標(biāo)準(zhǔn)二維卷積坐標(biāo)為K,中心坐標(biāo)為Ki=(xi,yi),膨脹系數(shù)為1的3×3的卷積核可以表示為:
K=[(x-1,y-1),(x-1,y),…,(x+1,y+1)]。(2)
采用圖6-a中的迭代策略,對每個(gè)待處理的目標(biāo)依次觀察其位置。以坐標(biāo)軸方向?yàn)槔?,K中每個(gè)網(wǎng)格具體坐標(biāo)表示為:Ki±c=(xi±c,yi±c),其中c=(1,2,3,4)表示與中心網(wǎng)格坐標(biāo)的水平距離,那么每個(gè)網(wǎng)格坐標(biāo)Ki±c的選擇可以看作是對中心坐標(biāo)Ki的一個(gè)累積過程。從中心位置Ki開始,下一步的位置取決于前一個(gè)網(wǎng)格的坐標(biāo),例如Ki+1與Ki相比,實(shí)際只增加了一個(gè)偏移量Δ={δ|δ[-1,1]},從而確保卷積符合線性結(jié)構(gòu)特征。圖6-b在x軸、y軸方向表示為:
Ki±c=(xi+c,yi+c)=(xi+c,yi+∑i+ciΔy)
(xi-c,yi-c)=(xi-c,yi+∑ii-cΔy);(3)
Kj±c=(xj+c,yj+c)=(xj+∑j+cjΔx,yj+c)
(xj-c,yj-c)=(xj+∑jj-cΔx,yi-c)。(4)
因?yàn)槠屏喀ねǔJ切?shù),所以雙線性插值可以表示為:
K=KK′B(K′,K)·K′;(5)
B(K,K′)=b(Kx,Kx′)·b(Ky,Ky′)。(6)
式中:K表示分?jǐn)?shù)階位置,K′枚舉了所有積分空間位置,B表示雙線性插值。從圖6-b中可以直觀地看到經(jīng)過C3DS-ST模塊,卷積可以覆蓋9×9的感受野范圍,更好地感知番茄遮擋區(qū)域的局部關(guān)鍵信息,以適應(yīng)整體番茄的形狀結(jié)構(gòu)特征。同時(shí)為增強(qiáng)不同成熟度番茄的紋理特征差異,提升模型泛化能力,引入Swin Transformer模型中的Swin Transformer Block模塊,該模塊在保留原C3融合殘差特征基礎(chǔ)上,可以進(jìn)一步對輸入特征圖進(jìn)行獨(dú)立窗口劃分,在各自窗口內(nèi)獨(dú)立計(jì)算以節(jié)省運(yùn)算量,之后采用滑動(dòng)劃分方式實(shí)現(xiàn)跨窗口之間的特征信息交換,可以增強(qiáng)不同成熟度番茄鄰域間像素的紋理特征交互能力。
1.3.3 BiFormer注意力機(jī)制
本研究在主干網(wǎng)絡(luò)末端引入雙層路由注意力機(jī)制(Bi-level routing attention transformer,BiFormer),其結(jié)構(gòu)如圖7所示。BiFormer是一種新的動(dòng)態(tài)稀疏注意力,通過雙層路由可以靈活地為鍵值對(Key-value pairs,K-V)提供算力分配和內(nèi)容感知,動(dòng)態(tài)查詢最相關(guān)K-V的一部分,過濾大量不相關(guān)的K-V從而提升計(jì)算效率。BiFormer注意力機(jī)制由4階段金字塔構(gòu)成,依次重疊使用連續(xù)變換特征,特征圖尺寸依次變?yōu)橹暗?2iH×12iW×2jC(i=2,3,4,5;j=0,1,2,3)。在每個(gè)BiFormer Block模塊中,BRA是核心構(gòu)建塊,其結(jié)構(gòu)如圖8所示。
工作流程主要分3步實(shí)現(xiàn),第一步將輸入特征圖構(gòu)建成區(qū)域級有向圖,經(jīng)過變形操作(reshape)將二維特征圖(X∈RH×W×C )完成線性映射Q、K、V:
Q=XrWq;(7)
K=XrWk;(8)
V=XrWv。(9)
第二步通過有向圖找到區(qū)域與區(qū)域之間的參與關(guān)系,針對Q、K分別計(jì)算每個(gè)網(wǎng)格平均值得到Qr、Kr∈RS2×C,進(jìn)行矩陣乘法獲得區(qū)域間親和力鄰接矩陣:
Ar=Qr(Kr)T。(10)
矩陣Ar中的每個(gè)元素用來度量2個(gè)區(qū)域之間的語義相關(guān)程度。然后對每行使用top-k操作得到一個(gè)路由索引矩陣來獲取每個(gè)區(qū)域與其他區(qū)域之間的前K個(gè)連接:
Ir=toplndex(Ar)。(11)
所以,Ir的第i行包含第i個(gè)區(qū)域最相關(guān)的k個(gè)索引。第三步對于區(qū)域i中的每個(gè)查詢標(biāo)記,將根據(jù)索引向量Ir(i,1),Ir(i,2),…,Ir(i,k)實(shí)現(xiàn)對位于k個(gè)路由區(qū)域并集中的K-V進(jìn)行關(guān)注。對于K-V的收集公式:
Kg=gather(K,Ir);(12)
Vg=gather(V,Ir)。(13)
然后可以將注意力集中在收集到的K-V上:
O=Attention(Q,Kg,Vg)+LCE(V)。(14)
式中:LCE(V)表示局部區(qū)域上下文增強(qiáng)項(xiàng),函數(shù)LCE(*)使用深度卷積參數(shù)化,內(nèi)核尺寸設(shè)為5。
在COCO 2017數(shù)據(jù)集上,試驗(yàn)結(jié)果表明BiFormer注意力機(jī)制與一系列主流算法相比,不僅降低了算法參數(shù)量,還可以保持與目前主流的Transformer一樣的精度水平,并在小目標(biāo)檢測方面展現(xiàn)出非常好的性能[16]。BiFormer的核心在于將特征圖提取為區(qū)域間有向圖路由,能夠分布優(yōu)化關(guān)聯(lián)內(nèi)容選取,不再花費(fèi)大量內(nèi)存全局查詢K-V,而是更加精準(zhǔn)地關(guān)注局部區(qū)域感受野,相較于大中目標(biāo)檢測,它對小目標(biāo)尺寸區(qū)域抓取能力更強(qiáng),優(yōu)勢更大。
1.3.4 改進(jìn)邊框損失函數(shù)(SWD_Loss)
YOLO v5s原始模型是采用二元交叉熵?fù)p失函數(shù)和Logits函數(shù)計(jì)算目標(biāo)得分概率。但是當(dāng)數(shù)據(jù)集中包含大量小目標(biāo)、遮擋對象時(shí),其預(yù)測框往往會(huì)出現(xiàn)在目標(biāo)框內(nèi)部。Wang等提出一種新的度量方法稱為歸一化瓦瑟斯坦距離(normalized Wasserstein distance,NWD),可以有效提升對缺乏外觀信息的微小物體檢測精度以及對微相素物體定位偏差的敏感性,并且在微小物體(Al-TOD)數(shù)據(jù)集上取得了不錯(cuò)效果[17]。對于2個(gè)二維高斯分布μ1=N(m1,∑1)和μ2=N(m2,∑2),則它們之間的3階瓦瑟斯坦距離定義為:
W22(μ1,μ2)=‖m1-m2‖22+Tr[∑1+∑2-2(∑1/22∑1∑1/22)1/2]。(15)
可以簡化為:
W22(μ1,μ2)=‖m1-m2‖22+‖∑1/21-∑1/22‖2F。(16)
式中:‖·‖F(xiàn)表示弗羅貝尼烏斯范數(shù)(Frobenius norm)。對于真實(shí)框A=(cxα,cyα,wα,hα)和預(yù)測框B=(cxb,cyb,wb,hb),高斯分布Na和Nb進(jìn)一步簡化為:
W22(Na,Nb)=cxa,cya,wa2,ha2T,cxb,cyb,wb2,hb2T22。(17)
因?yàn)閃22(Na,Nb)是距離度量單位,最后歸一化得到NWD公式,其中C表示相關(guān)數(shù)據(jù)集的絕對平均尺寸:
NWD(Na,Nb)=exp-W22(Na,Nb)C。(18)
本研究借鑒其思想,在保留原邊框損失的情況下,融入一部分瓦瑟斯坦距離系數(shù)(θ),可以根據(jù)待測數(shù)據(jù)集樣本靈活控制系數(shù)θ,當(dāng)數(shù)據(jù)集中常規(guī)對象居多,可以減小系數(shù)θ提高IoU占比;相反,如果有大量缺乏外觀信息的遮擋對象便可以增大系數(shù)θ提高對NWD占比。新的定位損失函數(shù)計(jì)算表達(dá)式如下所示,并將其命名為遮擋瓦瑟斯距離損失(shield Wasserstein distance,SWD_Loss)。針對本文數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),當(dāng)θ取0.5時(shí),可以為IoU提供一個(gè)最佳的靈敏度閾值,有效克服尺度敏感性和位置偏差平滑性,提高圖像中遮擋對象的漏檢率。
SWD_Loss=(1-θ)×IoU+θ×NWD。(19)
1.4 試驗(yàn)環(huán)境
本研究試驗(yàn)環(huán)境配置見表1,參數(shù)設(shè)置見表2。此次試驗(yàn)于2023年11月15號在江西理工大學(xué)電氣學(xué)院415實(shí)驗(yàn)室完成。
1.5 試驗(yàn)評價(jià)指標(biāo)
本研究采用查準(zhǔn)率P(precision)、召回率R(recall)、平均精度mAP(mean average precision)和FPS(每秒傳輸圖像幀數(shù))作為試驗(yàn)的評價(jià)指標(biāo)。計(jì)算表達(dá)式如下,其中計(jì)算均值平均精度時(shí)將IoU閾值設(shè)為0.5:
P=TPTP+FP×100%;(20)
R=TPTP+FN×100%;(21)
AP=∫10P(R)dR;(22)
mAP=1C∑Ci=1APi。(23)
式中:TP表示預(yù)測為真的正樣本;FP表示預(yù)測為真實(shí)際為假的負(fù)樣本;FN表示預(yù)測為假的實(shí)際為真的正樣本;C表示類別數(shù),mAP是由單類別精度AP相加后求均值得到。
2 試驗(yàn)結(jié)果與分析
2.1 消融試驗(yàn)
為了驗(yàn)證改進(jìn)后的YOLO v5s模型對番茄成長周期采摘檢測的有效性,設(shè)計(jì)了1組消融試驗(yàn)。依次替換損失函數(shù)SWD,融入RAAM、C3DS-ST、注意力BiFormer,具體試驗(yàn)結(jié)果如表3所示。其中“√”表示模型加入該模塊。從表3中可以看出,當(dāng)各個(gè)模塊單獨(dú)使用時(shí),模型準(zhǔn)確率和召回率會(huì)有一定的波動(dòng),但是mAP均有所提升,說明了各個(gè)模塊均對提升網(wǎng)絡(luò)檢測性能有所幫助。當(dāng)把優(yōu)化的4個(gè)模塊同時(shí)融入模型當(dāng)中后,與原YOLO v5模型相比準(zhǔn)確率、召回率和mAP分別提升了1.4、2.3、2.1百分點(diǎn),效果較為明顯。其中,單獨(dú)加入多尺度反向自適應(yīng)注意力模塊(RAAM)時(shí)對網(wǎng)絡(luò)性能貢獻(xiàn)最大,由此可以驗(yàn)證在該模塊提升特征圖分辨率后,對后續(xù)網(wǎng)絡(luò)的計(jì)算提供了很大幫助。綜上所述,本研究提出的改進(jìn)方案是有效的。
2.2 對比試驗(yàn)
此外,還選取幾種經(jīng)典檢測模型與改進(jìn)YOLO v5s進(jìn)行對比,其中包括SSD、Faster-RCNN、YOLO v3、YOLO v4-tiny,并采用相同數(shù)據(jù)集和試驗(yàn)配置。由表4可知,改進(jìn)的模型在均值平均精度和召回率上均高于其他算法,相比于YOLO v5s,分別提升了2.1、2.3百分點(diǎn)。雖然改進(jìn)后的算法幀率有所下降,但是仍滿足實(shí)時(shí)檢測的要求。
2.3 可視化分析
為了更直觀地展示改進(jìn)YOLO v5s模型的檢測性能,隨機(jī)從驗(yàn)證集中挑取4張圖片與原先模型進(jìn)行橫向?qū)Ρ取F渲?,改進(jìn)后的模型與原YOLO v5s模型均能完成正確檢測,但改進(jìn)后的模型提供了更高的置信度,效果如圖9所示。另外,針對之前YOLO v5s模型對番茄果實(shí)之間、枝葉遮擋的漏檢問題,改進(jìn)后的YOLO v5s算法能準(zhǔn)確檢測出這些對象,并保證較高的置信度,效果如圖10所示。最后,為檢驗(yàn)本研究模塊對特征圖丟失語義信息恢復(fù)問題,展示了RAAM模塊加入前后的特征圖以熱力圖可視化,試驗(yàn)結(jié)果如圖11所示。經(jīng)過對比可以發(fā)現(xiàn),經(jīng)過RAAM恢復(fù)的高分辨率特征圖、全圖區(qū)域特征得到了膨脹,番茄遮擋區(qū)域色調(diào)更暖,這表示該層有效恢復(fù)了部分丟失特征,對捕捉遮擋對象的局部關(guān)鍵信息提供了一定幫助。
3 討論與結(jié)論
針對自然生長環(huán)境下番茄因果實(shí)、枝葉遮擋導(dǎo)致的誤檢、漏檢問題,本研究提出了基于改進(jìn) YOLO v5s 的番茄檢測模型。設(shè)計(jì)的多尺度反向自適應(yīng)注意力模塊(RAAM)提升了特征圖像分辨率,有效緩解了由于連續(xù)下采樣信息丟失的問題;設(shè)計(jì)新的C3DS-ST模塊替換頸部C3,可以有效學(xué)習(xí)遮擋部分的坐標(biāo)特征,完善局部信息的提??;提出新的邊框損失函數(shù)SWD_Loss以及加入BiFormer注意力機(jī)制提升對敏感信息關(guān)注,過濾冗余信息提高計(jì)算效率。改進(jìn)后的YOLO v5s模型與原算法相比,平均精度提升了2.1百分點(diǎn),不僅提高了原所有類別的置信度,而且還能提升對遮擋對象的辨識(shí)度,有效解決了實(shí)際生產(chǎn)中的番茄誤檢、漏檢問題。雖然本模型一定程度上能夠滿足自然環(huán)境中機(jī)器人智能采摘番茄的需要,但是模型參數(shù)量有所增加。今后將通過引入模型剪枝和輕量化優(yōu)化參數(shù)體積,方便部署到移動(dòng)設(shè)備終端,為農(nóng)業(yè)果蔬自動(dòng)化采摘研究提供助力。
參考文獻(xiàn):
[1]周 明,李常保. 我國番茄種業(yè)發(fā)展現(xiàn)狀及展望[J]. 蔬菜,2022(5):6-10.
[2]潘肖楠,張 玥,耿寶龍,等. 蘋果采摘機(jī)器人的結(jié)構(gòu)設(shè)計(jì)與分析[J]. 中國設(shè)備工程,2023(18):38-40.
[3]王焱清,湯 旸,楊光友. 面向機(jī)器人柑橘采摘的控制系統(tǒng)設(shè)計(jì)與試驗(yàn)[J]. 中國農(nóng)機(jī)化學(xué)報(bào),2023,44(9):146-153.
[4]張 勤,龐月生,李 彬. 基于實(shí)例分割的番茄串視覺定位與采摘姿態(tài)估算方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2023,54(10):205-215.
[5]宋懷波,尚鈺瑩,何東健. 果實(shí)目標(biāo)深度學(xué)習(xí)識(shí)別技術(shù)研究進(jìn)展[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2023,54(1):1-19.
[6]Redmon J,Divvala S,Girshick R,et al. You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:779-788.
[7]Liu W,Anguelov D,Erhan D,et al. SSD:single shot MultiBox detector[M]//Leibe B,Matas J,Sebe N,et al. Lecture notes in computer science. Cham:Springer International Publishing,2016:21-37.
[8]王 勇,陶兆勝,石鑫宇,等. 基于改進(jìn)YOLO v5s的不同成熟度蘋果目標(biāo)檢測方法[J]. 南京農(nóng)業(yè)大學(xué)學(xué)報(bào),2024,47(3):602-611.
[9]Fan Y C,Zhang S Y,F(xiàn)eng K,et al. Strawberry maturity recognition algorithm combining dark channel enhancement and YOLO v5[J]. Sensors,2022,22(2):419.
[10]Girshick R,Donahue J,Darrell T,et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus:IEEE,2014:580-587.
[11]張文靜,趙性祥,丁睿柔,等. 基于Faster R-CNN算法的番茄識(shí)別檢測方法[J]. 山東農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,52(4):624-630.
[12]岳有軍,孫碧玉,王紅君,等. 基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的番茄果實(shí)目標(biāo)檢測[J]. 科學(xué)技術(shù)與工程,2021,21(6):2387-2391.
[13]Wang J F,Chen Y,Dong Z K,et al. Improved YOLO v5 network for real-time multi-scale traffic sign detection[J]. Neural Computing and Applications,2023,35(10):7853-7865.
[14]Shi W Z,Caballero J,Huszár F,et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas:IEEE,2016:1874-1883.
[15]Qi Y L,He Y T,Qi X M,et al. Dynamic snake convolution based on topological geometric constraints for tubular structure segmentation[C]//2023 IEEE/CVF International Conference on Computer Vision (ICCV).Paris:IEEE,2023:6047-6056.
[16]Zou P,Yang K J,Liang C. Improving real-timedetection of lightweight irregular driving behavior in YOLO v5[J]. Computer Engineering and Applications,2023,59(13):186-193.
[17]Wang J W,Xu C,Yang W,et al. A normalized Gaussian Wasserstein distance for tiny object detection[EB/OL]. arXiv preprint,arXic:2110.13389(2021-10-16)[2023-10-10]. http://arxiv.org/abs/2110.13389v1.