李名博 劉玉樂 穆志民 郭俊旺 衛(wèi)勇 任東悅 賈濟(jì)深 衛(wèi)澤中 栗宇紅
摘要:針對植物工廠對番茄采摘作業(yè)的智能化需求,為克服在采摘作業(yè)過程中因番茄果實(shí)大小不一、遮擋重疊造成的識別精度不高和速度不快的問題,提出了YOLOX-L的改進(jìn)型目標(biāo)識別模型YOLOX-L-TN。該模型依據(jù)特征圖的通道和空間注意力機(jī)制的內(nèi)部結(jié)構(gòu)和原理,設(shè)計(jì)了含有殘差結(jié)構(gòu)的TN模塊,并融入到Y(jié)OLOX-L的主干網(wǎng)絡(luò)中,在保持網(wǎng)絡(luò)輕量化的同時(shí),實(shí)現(xiàn)模型識別速度和精度的同時(shí)提升。與YOLOX-L相比,YOLOXL-TN的AP值提高了4.81個(gè)百分點(diǎn),單張圖像的識別時(shí)間提升了0.141 7 s,TN模塊的最佳位置為輸入端與主干網(wǎng)絡(luò)之間。進(jìn)一步將TN模塊與類似模塊SENet、CAM、CBAM和CAM進(jìn)行對比,AP值分別提高0.53、4.19、6.12、6.34 個(gè)百分點(diǎn),單張圖像識別時(shí)間分別提升0.019 1、0.025 0、0.021 1、0.018 9 s。由此可見,提出的YOLOX-L-TN模型具有精度高、識別速度快、魯棒性高等優(yōu)點(diǎn),可為番茄后期的智能采摘提供技術(shù)支持。
關(guān)鍵詞:番茄識別;注意力機(jī)制;TN模塊;YOLOX-L
doi:10.13304/j.nykjdb.2023.0570
中圖分類號:S225 文獻(xiàn)標(biāo)志碼:A 文章編號:10080864(2024)04009709
番茄作為重要的蔬菜被廣泛種植,全球每年的總產(chǎn)量達(dá)1.7億t,在蔬菜作物中常居于首位,我國是番茄生產(chǎn)大國,新鮮番茄的產(chǎn)量穩(wěn)居世界首位,加工番茄的產(chǎn)量位于世界前列[1]。近年來,植物工廠為作物提供了精心設(shè)計(jì)的種植環(huán)境,隨著植物工廠種植模式的探索和發(fā)展,番茄實(shí)現(xiàn)高效生產(chǎn),先進(jìn)的種植技術(shù)和高度規(guī)范智能化的管理模式確?!盁o激素”和“零催熟”,極大提升了番茄的產(chǎn)量和品質(zhì)[2]。在番茄生產(chǎn)和銷售的整條產(chǎn)業(yè)鏈中,采摘環(huán)節(jié)仍以人工為主,工作效率低且用工成本高。智能采摘機(jī)器人作為一種新型采摘方式應(yīng)運(yùn)而生,如Kondo等[3]研發(fā)的SCARA 機(jī)械臂番茄采摘機(jī)器人,Xie等[4]基于深度相機(jī)與SLAM導(dǎo)航技術(shù)研發(fā)的具有自主規(guī)劃路徑的采摘機(jī)器人。在植物工廠中,采摘機(jī)器人可以通過圖像識別等先進(jìn)技術(shù)實(shí)現(xiàn)自動識別和自動采摘,大大提高番茄采摘的效率[5]。但是現(xiàn)有番茄采摘機(jī)器人的識別率和采摘率容易受光照及環(huán)境因素的影響,限制了其在植物工廠中的廣泛應(yīng)用。為了提高番茄采摘機(jī)器人在植物工廠中的應(yīng)用效果,需要對番茄的目標(biāo)識別算法、圖像處理技術(shù)等進(jìn)行改進(jìn),從而實(shí)現(xiàn)更加快速、準(zhǔn)確的識別。
隨著計(jì)算機(jī)科學(xué)的進(jìn)步,在目標(biāo)識別效率和準(zhǔn)確性方面擁有巨大優(yōu)勢的深度學(xué)習(xí)技術(shù)已經(jīng)被廣泛應(yīng)用于農(nóng)業(yè)生產(chǎn)中,主要包括病蟲害識別、果實(shí)修剪點(diǎn)以及果實(shí)識別等[6]?;谏疃葘W(xué)習(xí)的目標(biāo)識別算法主要分為2種:一種是一階段目標(biāo)識別方法,不產(chǎn)生候選框,將目標(biāo)邊框定位的問題轉(zhuǎn)化為回歸問題處理,直接對預(yù)測的目標(biāo)物體進(jìn)行回歸[7],識別速度快,代表算法包括YOLO(youonly look once)、SSD(single shot multibox detector)等;另一種是兩階段目標(biāo)識別方法,生成候選框,通過對候選區(qū)域的分類進(jìn)行識別,代表算法包括Faster R-CNN(convolutional neural networks)、Mask R-CNN等。張境鋒等[8]提出一種Des-YOLO網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)了適宜采摘的蘋果目標(biāo)識別。張俊寧等[9]利用卷積注意力模塊改進(jìn)YOLOv5s的骨干網(wǎng)絡(luò),番茄識別準(zhǔn)確率提升了1.5個(gè)百分點(diǎn)。Zeng等[10]利用MobileNetv3的bneck模塊對YOLOv5的主干網(wǎng)絡(luò)進(jìn)行重建,番茄識別精度提升了0.7個(gè)百分點(diǎn)。Qi 等[11]在YOLOv5 的主干網(wǎng)絡(luò)中添加SE注意力機(jī)制模塊,番茄病毒的識別準(zhǔn)確率提升了1.78個(gè)百分點(diǎn)。張立杰等[12]使用深度可分離卷積模塊替換原SSD網(wǎng)絡(luò)主干特征提取網(wǎng)絡(luò)中部分標(biāo)準(zhǔn)卷積,蘋果識別準(zhǔn)確率比Faster R-CNN提升了1.33 個(gè)百分點(diǎn)。毛銳等[13] 構(gòu)建了一種改進(jìn)的Faster-RCNN 的小麥病害識別方法,識別精度提升了14.97個(gè)百分點(diǎn)。梁喜鳳等[14]將Mask R-CNN主干網(wǎng)絡(luò)替換為MobileNetv3-Large,番茄側(cè)枝修剪點(diǎn)的識別率提升了3.3個(gè)百分點(diǎn)。
針對番茄果實(shí)目標(biāo)的識別問題,許多學(xué)者也進(jìn)行了相關(guān)研究。Liu 等[15] 在YOLOv3 中加入DCCN(distributed CNN)結(jié)構(gòu),并采用圓形邊界框代替矩形框?qū)Ψ堰M(jìn)行識別,這種方法對偏圓形、個(gè)頭大一些的番茄識別效果比較好,并不適用于一般形狀個(gè)頭小的番茄。龍潔花等[16]利用跨階段局部網(wǎng)絡(luò)對Mask R-CNN 進(jìn)行改進(jìn),提升了番茄的識別率,但當(dāng)光照較弱、遮擋嚴(yán)重時(shí)準(zhǔn)確率會下降。Afonso 等[17]用Mask R-CNN 模型對沒有遮擋的番茄果實(shí)進(jìn)行識別,盡管試驗(yàn)效果比較好,但沒有考慮果實(shí)遮擋和重疊等因素。目前的識別算法并沒有充分考慮番茄大小、光照條件、存在遮擋和重疊等情況,而植物工廠中番茄果實(shí)大小不一、生長稀疏程度分布不同,而且葉片、果柄和枝干等對果實(shí)存在遮擋現(xiàn)象,上述識別方法對于植物工廠中的番茄并不適用?,F(xiàn)階段已在其他作物上針對遮擋開展大量研究,但由于先前技術(shù)的限制,對作物遮擋特征的提取不夠充分,識別效果不是很好,存在漏檢、重檢、錯(cuò)檢等現(xiàn)象,但對于采摘任務(wù)而言,存在遮擋現(xiàn)象的果實(shí)要求較高的識別準(zhǔn)確率。對比一階段和兩階段目標(biāo)識別方法,兩階段識別方法先生成候選框,再進(jìn)行分類進(jìn)行識別,雖然可以提高識別精度,但模型的識別速度受到限制,為進(jìn)一步提高工作效率,更加適合采用一階段識別方法。YOLOX-L作為一階段識別方法中的經(jīng)典模型,主干網(wǎng)絡(luò)(CSPDarknet)中加入Focus和Spp結(jié)構(gòu),在原始信息丟失較少的情況下提高識別速度。
針對以上問題,本文選擇YOLOX-L作為基礎(chǔ)模型,設(shè)計(jì)了一種含有殘差網(wǎng)絡(luò)結(jié)構(gòu)的TN模塊,可以更多地保留圖像的原始信息,更加充分地提取遮擋的番茄信息。將TN模塊融合到Y(jié)OLOX-L模型當(dāng)中,分析了TN模塊融合在模型的不同位置對識別性能的影響,并與SENet、CAM、CBAM 和CAM 模塊訓(xùn)練結(jié)果進(jìn)行對比,充分驗(yàn)證了YOLOX-L-TN模型的優(yōu)越性,實(shí)現(xiàn)了番茄果實(shí)識別精度和速度的同時(shí)提升,為番茄的智能采摘提供技術(shù)支持。
1 材料與方法
1.1 數(shù)據(jù)集
本研究的數(shù)據(jù)集來源于PlantVillage 公共數(shù)據(jù)集[18],該數(shù)據(jù)集中包含895幅不同時(shí)間段、遮擋度不同的番茄RGB 圖像,通過數(shù)據(jù)擴(kuò)充獲得3 580幅番茄圖像,按照8∶1∶1的比例進(jìn)行劃分,隨機(jī)選擇2 864幅圖像作為訓(xùn)練集,358幅圖像作為驗(yàn)證集,358 幅圖像作為測試集。使用Matlab的Image Labeler軟件對番茄數(shù)據(jù)集進(jìn)行標(biāo)注,標(biāo)注文件的存儲格式為mat,在Matlab 命令行窗口通過load命令加載mat文件,工作區(qū)出現(xiàn)標(biāo)注信息的變量,對應(yīng)895×2 的table,table 的第一列為imageFilename,即標(biāo)注圖像所在位置的絕對路徑,第二列為n×4 double,其中n 代表每幅圖像中番茄的個(gè)數(shù),4代表定義標(biāo)注框所需的4個(gè)參數(shù),即標(biāo)注框左上角的橫、縱坐標(biāo)以及框的寬度和高度。
由于原始數(shù)據(jù)集數(shù)量較少,為了增加訓(xùn)練樣本的數(shù)量和多樣性、減少模型的訓(xùn)練時(shí)間、提高模型的魯棒性和泛化能力,采用數(shù)據(jù)增強(qiáng)的方式對數(shù)據(jù)集進(jìn)行擴(kuò)充。利用Matlab的深度學(xué)習(xí)工具箱對圖像對比度變換(Contrast)、色調(diào)變換(Hue)、飽和度變換(Saturation)、亮度變換(Brightness)、噪聲擾動(Noise)、翻轉(zhuǎn)變換(Flip)、尺度變換(Scale)等隨機(jī)混合增強(qiáng)。增強(qiáng)圖像的同時(shí),標(biāo)注信息也進(jìn)行相應(yīng)的變換,大大提高了圖像標(biāo)注工作的效率。對數(shù)據(jù)集圖像進(jìn)行翻轉(zhuǎn)變換及尺度變換,增強(qiáng)圖像的多樣性。選擇合適的對比度、色調(diào)、飽和度、亮度變化范圍,模擬不同光照下番茄的生長情況,最后添加噪聲擾動,提高模型的抗干擾能力[19]。
1.2 改進(jìn)型YOLOX-L 模型
1.2.1 YOLOX-L 模型
為了滿足番茄目標(biāo)識別的實(shí)時(shí)性和準(zhǔn)確性,本文選擇YOLOX-L作為番茄識別模型,主要分為主干網(wǎng)絡(luò)(Backbone)、頸部網(wǎng)絡(luò)(Neck)和預(yù)測端(Prediction),主干網(wǎng)絡(luò)負(fù)責(zé)特征提取,頸部網(wǎng)絡(luò)負(fù)責(zé)聚合提取的特征,預(yù)測端負(fù)責(zé)進(jìn)行預(yù)測[20]。
1.2.2 TN模塊
基于主流注意力機(jī)制模塊的內(nèi)部結(jié)構(gòu)和原理,本文設(shè)計(jì)了含有殘差結(jié)構(gòu)的TN模塊,如圖1所示,對通道間傳遞的信息進(jìn)行重點(diǎn)關(guān)注,提升模型識別精度和速度。TN模塊采用基于寬度和高度的平均池化和最大池化操作,學(xué)習(xí)各個(gè)通道間的依賴關(guān)系并進(jìn)行疊加操作,經(jīng)過Sigmoid層,獲得各個(gè)通道的權(quán)重,并與輸入特征圖做乘法操作,然后進(jìn)行基于寬度和高度的平均池化和最大池化,再進(jìn)行Concat 操作、卷積和Sigmoid激活操作,獲得各個(gè)通道的權(quán)重,最后與輸入特征圖做乘法操作,得到最終的特征。
1.2.3 YOLOX-L-TN 模型及對比模型設(shè)計(jì)
YOLOX-L-TN模型將TN模塊融合到Y(jié)OLOX-L的主干網(wǎng)絡(luò)中,如圖2所示。輸入圖像在經(jīng)過TN模塊的過程中沒有進(jìn)行急劇地降維操作和丟失太多的特征信息[21],重點(diǎn)關(guān)注通道信息的傳遞,從而實(shí)現(xiàn)模型識別速度和精度的同步提升。
為了研究TN模塊在YOLOX-L模型中的作用和效果,本文將TN模塊添加在YOLOX-L模型的不同位置:主干網(wǎng)絡(luò)與頸部網(wǎng)絡(luò)連接的3個(gè)通道、Spp模塊、頸部網(wǎng)絡(luò)2個(gè)Upsample模塊與Concat模塊之間,分別表示為YOLOX-L-Connect、YOLOX-L-Spp、YOLOX-L-Upsample,將它們與YOLOX-L 及YOLOX-L-TN進(jìn)行對比。同時(shí),為了對比TN模塊與其他主流相似模塊的作用效果,將YOLOX-LTN模型中的TN模塊替換為SENet模塊、CAM模塊、SAM模塊、CBAM模塊進(jìn)行對比試驗(yàn),分別表示為YOLOX-L-SENet、YOLOX-L-CAM、YOLOXL-SAM、YOLOX-L-CBAM模型。
1.2.4 特征提取
由于本文識別對象小而密集,因此采用更深層次的CSPDarknet53結(jié)構(gòu)提取特征[22]。CSPDarknet53 結(jié)構(gòu)是CSPDenseNet 與Darknet53 的組合,將CSPDenseNet融合到Darknet53結(jié)構(gòu)當(dāng)中,組成CSPDarknet53結(jié)構(gòu)[23]。Darknet53分為4個(gè)部分,分別包含3、9、9和3個(gè)殘差塊,并且將SPP結(jié)構(gòu)放在第4 個(gè)殘差塊內(nèi)部,輸入層通過CSPDarknet53的前3個(gè)部分之后,分別通過池化核為5×5,9×9,13×13的最大池化層,然后在通道方向進(jìn)行拼接(Concat),再通過CSPDarknet53的第4部分,在一定程度上可以解決目標(biāo)多尺度的問題,同時(shí)增加了特征提取網(wǎng)絡(luò)的深度,提高目標(biāo)識別的準(zhǔn)確率[24]。
1.2.5 特征融合
為了更好地融合主干網(wǎng)絡(luò)提取的特征,頸部網(wǎng)絡(luò)采用的是FPN+PAN結(jié)構(gòu),F(xiàn)PN結(jié)構(gòu)是自上而下的金字塔結(jié)構(gòu),增強(qiáng)語義信息,而PAN結(jié)構(gòu)是自下而上的金字塔結(jié)構(gòu),對FPN結(jié)構(gòu)進(jìn)行定位信息的補(bǔ)充,能夠使不同尺寸的特征圖都包含圖像語義信息和定位信息,保證了對不同尺寸的圖像的準(zhǔn)確預(yù)測[25]。
1.2.6 結(jié)果預(yù)測
網(wǎng)絡(luò)模型的Prediction 部分用于圖像結(jié)果的預(yù)測,將特征圖分解為3個(gè)部分,分別為回歸參數(shù)(Reg)、物體存在性(Obj)以及物體類別(Cls)。其中,Reg為確定目標(biāo)物體的邊界框參數(shù),包括中心點(diǎn)的橫縱坐標(biāo)及寬度、高度尺寸;Obj用于判斷特征點(diǎn)是否屬于目標(biāo)物體,結(jié)果只有2種,Obj等于1(包含物體)以及Obj等于0(不包含物體);Cls用于確定目標(biāo)物體的類別,對于每個(gè)特征點(diǎn),都會預(yù)測出物體類別的概率分布。對于每個(gè)特征點(diǎn)來說,如果被判斷Obj等于1,那么根據(jù)回歸參數(shù)就會計(jì)算出該物體的邊界框,并根據(jù)物體類別的概率分布確定該物體的類別,這些結(jié)果和原始圖像一起輸出,作為模型的預(yù)測結(jié)果[26]。
1.3 環(huán)境配置
算法運(yùn)行環(huán)境的硬件平臺采用的處理器型號為Intel(R) Xeon(R)CPU E5-2650v4,顯卡型號為NVIDIA GeForce RTX 2080Ti,內(nèi)存為DDR464GB。軟件平臺采用Windows10 操作系統(tǒng)下的Matlab R2022b,在此基礎(chǔ)上安裝了ComputerVision Toolbox、Deep Learning Toolbox、GPUCoder、Matlab Coder Interface for Deep LearningLibraries等深度學(xué)習(xí)運(yùn)算構(gòu)架。
YOLOX-L-TN模型訓(xùn)練的輪數(shù)設(shè)置為80,每輪訓(xùn)練的batch size設(shè)置為4,學(xué)習(xí)率設(shè)置為0.000 1,懲罰閾值(penaltyThreshold)設(shè)置為0.5[27]。
1.4 評價(jià)指標(biāo)
本文主要采用準(zhǔn)確率(precision rate,P)、召回率(recall rate,R)、F1得分、AP值(average precision)、識別速度和模型大小作為指標(biāo)評價(jià)模型性能。準(zhǔn)確率代表預(yù)測為正的樣本中有多少為真正的正樣本;召回率代表所有正樣本中有多少被預(yù)測為正樣本;F1代表準(zhǔn)確率和召回率的加權(quán)調(diào)和平均,對準(zhǔn)確率和召回率進(jìn)行綜合考慮[28]; AP代表PR曲線與坐標(biāo)軸所圍繞圖形的面積[29],AP值越高,說明模型的結(jié)果越準(zhǔn)確。
式中,TP(true positive)代表正樣本預(yù)測為正樣本,F(xiàn)P(false positive)代表負(fù)樣本預(yù)測為正樣本,F(xiàn)N(false negative)代表正樣本預(yù)測為負(fù)樣本,TN(true negative)代表負(fù)樣本預(yù)測為負(fù)樣本。
2 結(jié)果與分析
2.1 模型訓(xùn)練結(jié)果分析
模型的訓(xùn)練結(jié)果如圖3所示??梢钥闯觯谀P陀?xùn)練的前1 200次迭代的過程中,損失函數(shù)迅速減少,模型快速擬合,同時(shí),學(xué)習(xí)率迅速上升,在經(jīng)過2 500次迭代后,損失函數(shù)基本穩(wěn)定,整個(gè)模型趨于收斂。
2.2 YOLOX-L-TN 目標(biāo)識別模型效果評價(jià)
2.2.1 模型性能評價(jià)
由圖4 可知,相較于YOLOX-L模型,YOLOX-L-Spp、YOLOX-L-Upsample、YOLOX-L-TN 識別效果均有提升,但YOLOX-LTN提升的最為明顯。從表1可以看出,與改進(jìn)前的YOLOX-L模型相比,YOLOX-L-TN的AP值增加了4.81個(gè)百分點(diǎn),預(yù)加載模型下圖像識別速度提升了0.141 7 s,F(xiàn)1得分提高0.025 6,模型大小幾乎相同。與YOLOX-L-Upsample、YOLOX-L-Spp、YOLOX-LConnect進(jìn)行比較,YOLOX-L-TN的AP值分別增加了3.33、4.34、5.25個(gè)百分點(diǎn),預(yù)加載模型下圖像識別速度分別提升了0.127 9、0.117 9、0.203 3 s,模型減少了51.03、213.73、217.65 Mb,F(xiàn)1得分均高于其他模型。由識別結(jié)果可知,YOLOX-L-TN模型中的TN模塊的位置為最佳位置。
2.2.2 基于TN 模塊不同位置的識別效果比較
為了更直觀地體現(xiàn)TN模塊在YOLOX-L模型不同位置的作用效果,將YOLOX-L-TN 與YOLOX-LUpsample、YOLOX-L-Spp、YOLOX-L、YOLOX-L-Connect在番茄果實(shí)圖像中的識別效果進(jìn)行比較,結(jié)果如圖5所示??梢钥闯觯琘OLOX-L模型對番茄果實(shí)的識別精度比較高,但是在枝干遮擋番茄果實(shí)的情況下存在漏檢的現(xiàn)象;YOLOX-LUpsample沒有出現(xiàn)漏檢的現(xiàn)象,但存在重檢的現(xiàn)象;YOLOX-L-Spp 存在漏檢的現(xiàn)象;YOLOX-LConnect漏檢的現(xiàn)象比較嚴(yán)重,對番茄的特征提取能力較差;YOLOX-L-TN對番茄果實(shí)的識別精度有所提升,即使存在被遮擋番茄果實(shí),也可識別到,魯棒性高。
2.3 基于不同注意力模塊的YOLOX-L 識別模型效果比較
2.3.1 模型性能比較
從圖6可以看出,YOLOXL-TN的識別優(yōu)勢明顯。不同模型的訓(xùn)練結(jié)果如表2所示,可以看出,與YOLOX-L-SENet、YOLOX-LCAM、YOLOX-L-CBAM、YOLOX-L-SAM 相比,YOLOX-L-TN 的AP 值分別增加了0.53、4.19、6.12、6.34個(gè)百分點(diǎn),預(yù)加載模型下圖像識別速度分別提升了0.019 1、0.025 0、0.021 1、0.018 9 s,F(xiàn)1得分均高于其他模型。由識別結(jié)果可知,與其他模型相比,盡管可學(xué)習(xí)參數(shù)總數(shù)和模型大小幾乎相同,但TN模塊的性能效果最佳。
2.3.2 基于不同模塊的YOLOX-L 識別效果比較
為了更直觀地體現(xiàn)TN模塊與其他模塊的作用效果,將YOLOX-L-TN 與YOLOX-L-SENet、YOLOX-L-CAM、YOLOX-L-CBAM、YOLOX-LSAM在番茄果實(shí)圖像中的識別效果進(jìn)行比較,結(jié)果如圖7所示。可以看出,與YOLOX-L-TN 識別效果進(jìn)行對比,其他模型均有漏檢或者錯(cuò)檢的現(xiàn)象。YOLOX-L-SENet和YOLOX-L-CAM在番茄被遮擋的情況下出現(xiàn)單個(gè)番茄漏檢現(xiàn)象;YOLOX-LCBAM出現(xiàn)2個(gè)番茄漏檢的現(xiàn)象;YOLOX-L-SAM由于對番茄特征提取不夠充分,除了漏檢現(xiàn)象,還存在錯(cuò)檢的現(xiàn)象。相比之下,YOLOX-L-TN不存在番茄漏檢或錯(cuò)檢的現(xiàn)象,識別效果最佳,魯棒性高。
3 討論
本文提出了YOLOX-L的改進(jìn)型目標(biāo)識別模型YOLOX-L-TN,與Liu等[15]的改進(jìn)型YOLOv3模型和龍潔花等[16]的改進(jìn)型Mask R-CNN模型相比,AP 值提升了10.92、1.24 個(gè)百分點(diǎn)。與SENet、CAM、CBAM 和CAM 進(jìn)行對比試驗(yàn),本文提出的模型在識別精度和速度方面均優(yōu)于其他類似模型,其主要原因?yàn)椋篢N模塊位于輸入端與主干網(wǎng)絡(luò)之間,重點(diǎn)關(guān)注通道間傳遞的信息,能夠更多地保留圖像的原始信息,可以更充分地提取遮擋番茄信息,進(jìn)一步提高模型的識別精度和速度;FPN增強(qiáng)了整個(gè)金字塔結(jié)構(gòu)的語義信息,定位信息并沒有增強(qiáng),而PAN對FPN進(jìn)行定位信息的補(bǔ)充[30];PAN 借鑒的是PANet 網(wǎng)絡(luò),PANet 網(wǎng)絡(luò)中特征圖結(jié)合采用Add操作,而PAN采用Concat操作,Add將提取到的語義信息進(jìn)行疊加,保留圖像的正確高激活,避免在處理過程中對正確激活的削弱,而Concat增加了圖像的特征數(shù),實(shí)現(xiàn)了多尺度特征的融合。
然而,由于數(shù)據(jù)集質(zhì)量和數(shù)量的原因,盡管YOLOX-L-TN模型提升了AP值,但是還有提升的空間,在之后的工作中,將對數(shù)據(jù)集進(jìn)行進(jìn)一步的優(yōu)化和擴(kuò)充,并對模型進(jìn)行精簡和優(yōu)化,使其能盡快應(yīng)用到智能采摘機(jī)器人當(dāng)中??傮w來說,本文提出的YOLOX-L-TN 模型的性能優(yōu)于其他類模型,可為后期提高番茄果實(shí)的智能采摘的效率提供一定的技術(shù)支持。
參考文獻(xiàn)
[1] 李君明,項(xiàng)朝陽,王孝宣,等“. 十三五”我國番茄產(chǎn)業(yè)現(xiàn)狀及展望[J].中國蔬菜,2021(2):13-20.
LI J M, XIANG Z Y, WANG X X, et al .. Current situation andprospect of tomato industry in China during the 13th Five-YearPlan [J]. Chin. Veg., 2021(2):13-20.
[2] 劉繼展. 溫室采摘機(jī)器人技術(shù)研究進(jìn)展分析[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2017.48(12):1-18.
LIU J Z. Research progress analysis of robotic harvestingtechnologies in greenhouse [J]. Trans. Chin. Soc. Agric. Mach.,2017,48(12):1-18.
[3] KONDO N, YATA K, IIDA M, et al . Development of an endeffectorfor a tomato cluster harvesting robot [J]. Eng. Agric.Environ. Food., 2010,3(1):20-24.
[4] XIE H, KONG D, SHAN J, et al .. Study the parametric effect ofpulling pattern on cherry tomato harvesting using RSM-BBDtechniques [J/OL]. Agriculture, 2021,11(9):815 [2024-02-24].https://doi.org/10.3390/agriculture11090815.
[5] 李寒,陶涵虓,崔立昊,等.基于SOM-K-means算法的番茄果實(shí)識別與定位方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2021,52(1):23-29.
LI H, TAO H X, CUI L H, et al .. Tomato fruit recognition andlocation method based on SOM-K-means algorithm [J]. Trans.Chin. Soc. Agric. Mach., 2021,52(1):23-29.
[6] 王海楠,弋景剛,張秀花.番茄采摘機(jī)器人識別與定位技術(shù)研究進(jìn)展[J].中國農(nóng)機(jī)化學(xué)報(bào),2020,41(5):188-196.
WANG H N, GE J G, ZHANG X H. Research progress onidentification and localization technology of tomato pickingrobot [J]. J. Chin. Agric. Mech., 2020,41(5):188-196.
[7] 劉俊明,孟衛(wèi)華.基于深度學(xué)習(xí)的單階段目標(biāo)檢測算法研究綜述[J].航空兵器,2020,27(3):44-53.
LIU J M, MENG W H. A review of single-stage objectdetection algorithms based on deep learning [J]. Aero Weap.,2020,27(3):44-53.
[8] 張境鋒,陳偉,魏慶宇,等.基于Des-YOLO v4的復(fù)雜環(huán)境下蘋果檢測方法[J].農(nóng)機(jī)化研究,2023,45(5):20-25.
ZHANG J F, CHEN W, WEI Q Y, et al .. Apple detectionmethod in complex environment based on Des-YOLOv4 [J]. J.Agric. Mech. Res., 2023,45(5):20-25.
[9] 張俊寧,畢澤洋,閆英,等.基于注意力機(jī)制與改進(jìn)YOLO的溫室番茄快速識別[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2023,54(5):236-243.
ZHANG J N, BI Z X, YAN Y, et al .. Rapid recognition ofgreenhouse tomatoes based on attention mechanism andimproved YOLO [J]. Trans. Chin. Soc. Agric. Mach., 2023,54(5):236-243.
[10] ZENG T H, LI S Y, SONG Q M, et al .. Lightweight tomato realtimedetection method based on improved YOLO and mobiledeployment [J]. Comput. Electron. Agric., 2023,205:107625.
[11] QI J T, LIU X N, LIU K, et al .. An improved YOLOv5 modelbased on visual attention mechanism: application to recognition oftomato virus disease [J]. Comput. Electron. Agric., 2022,194:106780.
[12] 張立杰,周舒驊,李娜,等.基于改進(jìn)SSD卷積神經(jīng)網(wǎng)絡(luò)的蘋果定位與分級方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2023,54(6):223-232.
ZHANG L J, ZHOU S H, LI N, et al .. Apple localization andgrading method based on improved SSD convolutional neuralnetwork [J]. Trans. Chin. Soc. Agric. Mach., 2023,54(6):223-232.
[13] 毛銳,張宇晨,王澤璽,等.利用改進(jìn)Faster-RCNN識別小麥條銹病和黃矮病[J].農(nóng)業(yè)工程學(xué)報(bào),2022,38(17):176-185.
MAO R, ZHANG Y C, WANG Z X, et al .. Identification ofwheat stripe rust and yellow dwarf by improved Faster-RCNN [J].Trans. Chin. Soc. Agric. Eng., 2022,38(17):176-185.
[14] 梁喜鳳,章鑫宇,王永維.基于改進(jìn)Mask R-CNN的番茄側(cè)枝修剪點(diǎn)識別方法[J].農(nóng)業(yè)工程學(xué)報(bào),2022,38(23):112-121.
LIANG X F, ZHANG X Y, WANG Y W. Identification methodof tomato lateral branch pruning points based on improvedMask R-CNN [J]. Trans. Chin. Soc. Agric. Eng., 2022,38(23):112-121.
[15] LIU G, NOUAZE J C, TOUKO MBOUEMBE P L, et al .. YOLOtomato:a robust algorithm for tomato detection based onYOLOv3 [J/OL]. Sensors, 2020,20(7):2145 [2024-02-24]. https://doi.org/10.3390/s20072145.
[16] 龍潔花,趙春江,林森,等.改進(jìn)Mask R-CNN的溫室環(huán)境下不同成熟度番茄果實(shí)分割方法[J].農(nóng)業(yè)工程學(xué)報(bào),2021,37(18):100-108.
LONG J H, ZHAO C J, LIN S, et al . Improved segmentationmethod of tomato fruit with different ripeness in greenhouseenvironment by Mask R-CNN [J]. Trans. Chin. Soc. Agric.Eng., 2021,37(18):100-108.
[17] AFONSO M, FONTEJIN H, FIORENTIN F S, et al .. Tomatofruit detection and counting in greenhouses using deeplearning [J/OL]. Front. Plant Sci., 2020,11:571299 [2024-02-24]. https://doi.org/10.3389/fpls.2020.571299.
[18] 劉之瑜,張淑芬,劉洋,等.基于圖像梯度的數(shù)據(jù)增廣方法[J].應(yīng)用科學(xué)學(xué)報(bào),2021,39(2):302-311.
LIU Z Y, ZHANG S F, LIU Y, et al .. Data augmentationmethod based on image gradient [J]. J. Appl. Sci., 2021,39(2):302-311.
[19] 趙越,衛(wèi)勇,單慧勇,等.基于深度學(xué)習(xí)的高分辨率麥穗圖像檢測方法[J].中國農(nóng)業(yè)科技導(dǎo)報(bào),2022,24(9):96-105.
ZHAO Y, WEI Y, SHAN H Y, et al .. High resolution wheatimage detection method based on deep learning [J]. J. Agric.Sci. Technol., 2022,24(9):96-105.
[20] 楊堅(jiān),錢振,張燕軍,等.采用改進(jìn)YOLOv4-tiny的復(fù)雜環(huán)境下番茄實(shí)時(shí)識別[J].農(nóng)業(yè)工程學(xué)報(bào),2022,38(9):215-221.
YANG J, QIAN Z, ZHANG Y J, et al .. Tomato real-timerecognition in complex environment using improved YOLOv4-tiny [J]. Trans. Chin. Soc. Agric. Eng., 2022,38(9):215-221.
[21] XU P H, FANG N, LIU N, et al .. Visual recognition of cherrytomatoes in plant factory based on improved deep instancesegmentation [J]. Comput. Electron. Agric., 2022,197:106991.
[22] ANANDHAKRISHNAN T, JAISAKTHI S M. Deep convolutionalneural networks for image based tomato leaf disease detection [J].Sustain. Chem. Pharm., 2022,30:100793.
[23] 劉芳,劉玉坤,林森,等.基于改進(jìn)型YOLO的復(fù)雜環(huán)境下番茄果實(shí)快速識別方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2020,51(6):229-237.
LIU F, LIU Y K, LIN S, et al .. Rapid identification method oftomato fruit in complex environment based on improved YOLO [J].Trans. Chin. Soc. Agric. Mach. 2020,51(6):229-237.
[24] 成偉,張文愛,馮青春,等.基于改進(jìn)YOLOv3的溫室番茄果實(shí)識別估產(chǎn)方法[J].中國農(nóng)機(jī)化學(xué)報(bào),2021,42(4):176-182.
CHENG W, ZHANG W A, FENG Q C, et al .. Fruit recognitionand yield estimation method of greenhouse tomato based onimproved YOLOv3 [J]. J. Chin. Agric. Mech., 2021, 42(4):176-182.
[25] LI H P, LI C Y, LI G B, et al .. A real-time table grapedetection method based on improved YOLOv4-tiny network incomplex background [J]. Biosyst. Eng., 2021,212:347-359.
[26] ZHANG Y C, ZHANG W B, YU J Y, et al .. Complete andaccurate holly fruits counting using YOLOX object detection [J/OL].Comput. Electron. Agric., 2022, 198: 107062 [2024-02-26].https://doi.org/10.1016/j.compag.2022.107062.
[27] ZHANG Y J, MA B X, HU Y T, et al .. Accurate cotton diseasesand pests detection in complex background based on animproved YOLOX model [J/OL]. Comput. Electron. Agric.,2022, 203: 107484 [2024-02-26]. https://doi. org/10.1016/j.compag.2022.107484.
[28] 何斌,張亦博,龔健林,等.基于改進(jìn)YOLOv5的夜間溫室番茄果實(shí)快速識別[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2022,53(5):201-208.
HE B, ZHANG Y B, GONG J L, et al .. Rapid identification ofgreenhouse tomato fruits at night based on improved YOLOv5 [J].Trans. Chin. Soc. Agric. Mach., 2022,53(5):201-208.
[29] 李柯泉,陳燕,劉佳晨,等.基于深度學(xué)習(xí)的目標(biāo)檢測算法綜述[J].計(jì)算機(jī)工程,2022,48(7):1-12.
LI K Q, CHEN Y, LIU J C, et al . An overview of objectdetection algorithms based on deep learning [J]. Comput. Eng.,2022,48(7):1-12.
[30] 岳有軍,孫碧玉,王紅君,等.基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的番茄果實(shí)目標(biāo)檢測[J].科學(xué)技術(shù)與工程,2021,21(6):2387-2391.
YUE Y J, SUN B Y, WANG H J, et al . Tomato fruit targetdetection based on cascaded convolutional neural network [J].Sci. Technol. Eng., 2021,21(6):2387-2391.
(責(zé)任編輯:溫小杰)
基金項(xiàng)目:天津市科技計(jì)劃項(xiàng)目(21YDTPJC00600);天津市教委教改項(xiàng)目(A201006102)。