• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      用于復(fù)雜環(huán)境下果蔬檢測的改進YOLOv5算法研究*

      2023-02-04 11:51:48汪穎王峰李瑋王艷艷王應(yīng)彪羅鑫
      中國農(nóng)機化學(xué)報 2023年1期
      關(guān)鍵詞:注意力卷積蘋果

      汪穎,王峰,李瑋,王艷艷,王應(yīng)彪,羅鑫

      (西南林業(yè)大學(xué)機械與交通學(xué)院,昆明市,650224)

      0 引言

      我國作為世界農(nóng)業(yè)生產(chǎn)大國之一,果蔬種植規(guī)模龐大,其采摘過程成為農(nóng)業(yè)生產(chǎn)過程中重要環(huán)節(jié)。然而傳統(tǒng)采摘主要以人工采摘為主,采摘難度大,工作時間長,同時卻工作效率低下,致使投入生產(chǎn)的成本增加[1]。目前,隨著技術(shù)的不斷發(fā)展,農(nóng)業(yè)機械自動化已成為主流趨勢,自動采摘機械人的出現(xiàn)可以有效緩解勞動力緊缺的問題,具有重要的實際意義和廣泛的應(yīng)用前景[2]。

      識別檢測果蔬的精度成為準確進行自動采摘的關(guān)鍵前提。然而自然條件下的果蔬的復(fù)雜環(huán)境限制了果蔬的檢測精度,例如樹葉的遮擋,目標果蔬之間的重疊遮擋,光照環(huán)境等都會影響果蔬的檢測識別。

      目前國內(nèi)外對果蔬檢測識別的研究也已獲得了一系列進展。車金慶等[3]將分割方法與注意力機制相結(jié)合實現(xiàn)黃色、綠色蘋果圖像的分割;Lu等[4]提出一種使用紋理和強度分布來檢測樹木圖像中的綠色水果檢測方法,但是識別準確率受光照影響較大;Wajid等[5]運用處理歸納決策的分析方法,用于檢測柑橘的成熟度并進行果實分類,但識別檢測精度不高。以上這些方法主要通過顏色紋理等特征來識別,多受環(huán)境影響,魯棒性較差,無法更準確高效地檢測識別目標。

      相比于傳統(tǒng)目標檢測方法,深度學(xué)習(xí)在目標檢測方向的應(yīng)用展現(xiàn)了較大優(yōu)勢,卷積神經(jīng)網(wǎng)絡(luò)更廣泛地應(yīng)用于目標檢測。現(xiàn)階段與深度學(xué)習(xí)相關(guān)的目標檢測方法主要包括兩類,一類是兩階段目標檢測算法,對待選區(qū)域依次進行提取劃分,代表算法有R-CNN[6],F(xiàn)ast R-CNN[7],F(xiàn)aster R-CNN[8]等;另一類是單階段檢測算法,用單一卷積網(wǎng)絡(luò)直接輸出預(yù)測框和物體名稱,代表算法主要有SSD[9]、YOLO[10]。何進榮等[11]提出了多卷積神經(jīng)網(wǎng)絡(luò)融合DXNet模型,提取出更加底層的紋理特征,顯著提高蘋果外部品質(zhì)分級精度。彭紅星等[12]改進結(jié)合SSD與深度殘差模型,對4種水果進行檢測,改進后的模型對遮擋面積小的水果檢測精度較高。薛月菊等[13]采用YOLOv2算法識別芒果,對精度和檢測速度有所提升,但無法滿足大視場環(huán)境下的檢測。

      針對以上問題本方法選用YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)作為基準[14],YOLOv5相比于傳統(tǒng)目標檢測算法,識別精度高,檢測速度快,具有很強的實時性。本文提出嵌入卷積注意力機制以提高網(wǎng)絡(luò)特征的提取能力,并且引入完全交并比非極大抑制算法和加權(quán)雙向特征金字塔網(wǎng)絡(luò),在不同光照下和大視場遮擋重疊的環(huán)境下進行識別試驗,以驗證網(wǎng)絡(luò)的實際檢測效果。

      1 YOLOv5算法

      YOLOv5(You Only Look Once)是一種單階段目標檢測算法。YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,由四部分構(gòu)成:輸入端、主干網(wǎng)絡(luò)、Neck和預(yù)測端。

      圖1 YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)

      輸入端主要包括Mosaic數(shù)據(jù)增強、圖片自動縮放和錨框自動計算。Mosaic數(shù)據(jù)增強將變換后的圖片進行重新排布拼接,豐富數(shù)據(jù)集內(nèi)容,提升模型的訓(xùn)練速度和網(wǎng)絡(luò)的精度;圖片自動縮放對原始圖片自動填入最少的黑色邊框,降低計算量;錨框自動計算對原始輸入框的長寬進行預(yù)測,自動將其與真實框進行對比,不斷迭代更新,調(diào)整差距以此得到不同數(shù)據(jù)集所輸出的最佳錨框值。

      主干網(wǎng)絡(luò)主要包括CSPDarknet53和Focus模塊。CSPDarknet53提取特征圖片,包括采用1×1,5×5,9×9,13×13的最大池化方式的SSP(空間金字塔池化)操作,輸出長度相同的特征向量以此接收更多特征;Focus模塊對圖片進行切片互補操作,集合深度和高度信息擴充通道數(shù),實現(xiàn)下采樣以達到增加局部感受野的作用。

      Neck中采用FPN+PAN的結(jié)構(gòu),將自上向下傳遞的FPN層與自下向上傳遞的PAN層結(jié)合,傳遞多尺度標準的概念與位置信息,進一步融合上采樣的結(jié)果和特征圖,實現(xiàn)不同特征的融合。

      預(yù)測端采用GIOU-Loss損失函數(shù),反饋目標的定位,根據(jù)不同尺度下生成的預(yù)測框采用非極大抑制[15](Non-maximum suppression,NMS)操作。

      2 CCB-YOLOv5網(wǎng)絡(luò)

      為了解決原始Yolov5網(wǎng)絡(luò)對于不同光照下的遮擋目標和密集目標檢測存在的不足之處,本文提出一種CCB-YOLOv5(CBAM and CIOU-NMS and BiFPN-YOLOv5)網(wǎng)絡(luò),在主干網(wǎng)絡(luò)的CBL卷積模塊中嵌入卷積注意力機制CBAM,提高目標特征的提取能力,原始Yolov5采用非極大抑制算法進行迭代—遍歷—消除過程,刪除重復(fù)的檢測框,只保留當(dāng)前最大置信度的檢測框。非極大抑制直接刪除相鄰的同類別目標,對于密集目標檢測效果較差。因此引入完全交并比非極大抑制算法(CIOU-NMS)[16],考慮了預(yù)測框和真實框的長寬比成一定比例,生成預(yù)測框并進行迭代遍歷,讓預(yù)測框不斷趨近于真實框以提高預(yù)測框的輸出精確度,加快了預(yù)測框的回歸收斂速度,降低密集目標重疊導(dǎo)致的漏檢率,使得預(yù)測框更接近真實框。為了緩解特征提取時的遺漏情況,將 Yolov5原始加強特征提取網(wǎng)絡(luò)PANet[17]結(jié)構(gòu)改進為加權(quán)雙向特征金字塔網(wǎng)絡(luò)BiFPN[18]結(jié)構(gòu),進行自上而下的深層特征和自下而上的淺層特征融合,并跳過某些中間層,連接融合不同尺度的特征層。其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

      圖2 CCB-YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)

      2.1 卷積注意力機制

      CBAM是由獨立的一維通道注意力和二維空間注意力兩個模塊組成,同時關(guān)注通道和空間兩方面信息,聚焦于突出特征。圖3為通道注意力模塊的示意圖,首先對輸入的深度和高度方向分別取平均特征點和最大特征點,壓縮冗余空間,生成兩個不同空間上的1×1×C的特征圖,然后送入一個兩層共享的神經(jīng)網(wǎng)絡(luò),先壓縮再擴充,保持通道數(shù)C不變,接著對元素進行逐一生成權(quán)重值加和后送入sigmoid函數(shù),生成特征圖。具體計算如式(1)所示。

      Mc(F)=σ(MLP(AvgPool(F))+

      MLP(MaxPool(F)))

      (1)

      式中:Mc——通道注意力特征圖;

      σ——sigmoid函數(shù);

      MLP——共享神經(jīng)網(wǎng)絡(luò);

      AvgPool——平均特征點;

      MaxPool——最大特征點;

      圖3 通道注意力模塊

      圖4為空間注意力模塊的示意圖,空間注意力更加關(guān)注輸入圖像的具體位置信息,與通道注意力關(guān)注的特征信息互補,進一步強化通道和位置特征融合得到輸出特征圖??臻g注意力模塊將前一步的輸出結(jié)果作為其輸入,首先對通道進行取平均值點和最大值點操作,實現(xiàn)信息的聚合,生成兩個跨通道的二維映射,然后擴展這兩個特征圖的深度,經(jīng)過一個7×7的標準卷積層,降維為一個通道,再通過激活函數(shù)進行標準化生成特征圖。最后整合兩模塊的輸出矩陣得到最終的特征圖。具體計算如式(2)所示。

      Ms(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))

      (2)

      式中:Ms——空間注意力特征圖;

      f7×7——7×7的卷積計算;

      圖4 空間注意力模塊

      2.2 非極大抑制

      完全交并比非極大抑制算法(CIOU-NMS)中CIOU[18]不僅考慮了重疊面積、中心點距離,而且考慮了長寬比,加入權(quán)重系數(shù)α和長寬比特定參數(shù)ν,計算公式如式(3)~式(5)所示。

      (3)

      (4)

      (5)

      式中:b——預(yù)測框?qū)蔷€交點;

      bgt——真實框?qū)蔷€交點;

      ρ——兩交點之間的直線距離;

      c——內(nèi)含預(yù)測框和真實框的最小矩形的對角線長度;

      α——權(quán)重函數(shù),用來調(diào)節(jié)比例大??;

      ν——一致性比例,用來保持長寬比相似;

      通過CIOU解決了預(yù)測框完全包含真實框但真實框所處位置不同時損失值一樣的缺點。

      2.3 多尺度特征融合網(wǎng)絡(luò)

      為了避免網(wǎng)絡(luò)加深導(dǎo)致特征選擇性丟失。Backbone主干網(wǎng)絡(luò)提取的3種不同尺度BiFPN結(jié)構(gòu),進行多尺度特征融合。具體原理圖如圖5所示。

      P3、P4、P5、P6、P7經(jīng)過卷積和平均池化后生成特征圖P-in3、P-in4、P-in5、P-in6、P-in7,P-in7進行上采樣后與P-in6疊加得到P-td6,P-in6進行上采樣后與P-in5疊加得到P-td5,以此類推,P-in5、P-in4進行上采樣后疊加得到特征圖P-out3,再依次進行下采樣,獲得特征圖P-out4、P-out5、P-out6、P-out7。具體運算如式(6)、式(7)所示,以P-td4、P-out4為例,輸出的P-out3、P-out4、P-out5、P-out6、P-out7包含五個深淺語義信息的全局特征。在識別小目標時可以輕松進行多尺度特征融合,更好地表達信息,以此提高識別精度和準確率。

      (6)

      P-out4=conv{[ω1·P-in4+ω2·P-td4+ω2·Resize(P-out3)]/(ω1+ω2+ω3+ε)}

      (7)

      式中:P-in——輸入特征;

      P-out——輸出特征;

      P-td——融合過程的中間層;

      ωi——可學(xué)習(xí)的權(quán)重,介于0~1之間;

      ε——遠小于1的數(shù)。

      圖5 BiFPN原理

      3 試驗與分析

      3.1 數(shù)據(jù)預(yù)處理

      本試驗以蘋果為例,研究使用的數(shù)據(jù)集來自網(wǎng)絡(luò)爬取到的蘋果圖片,經(jīng)過人工挑選,刪除模糊及重復(fù)圖像后,獲取共計1 023幅蘋果圖像。以蘋果個數(shù)作為分類條件,其中單個蘋果圖像361幅,2~10個蘋果圖像603幅,10個以上蘋果圖像59幅。以不同光照作為分類條件,其中順光圖像409幅,逆光圖像387幅,側(cè)光圖像227幅。

      采用LabelImg軟件對最終圖片進行標注,包括類別名稱和外包矩形邊框,其信息存儲于xml類型的標注文件內(nèi)。為了提高模型對樣本的適應(yīng)能力對1 023幅蘋果圖像進行數(shù)據(jù)增強,擴充為原來的5倍,共計5 115 幅蘋果圖像,其中訓(xùn)練集和驗證集的數(shù)量分別為4 575和540。批訓(xùn)練數(shù)設(shè)為16,初始學(xué)習(xí)率設(shè)為0.001,權(quán)重衰減設(shè)為0.000 5,epoch設(shè)為100,采用隨機梯度下降法進行訓(xùn)練。

      3.2 試驗環(huán)境

      本文試驗基于pytorch深度學(xué)習(xí)框架,試驗環(huán)境為python3.8,并行計算架構(gòu)CUDA11.2,GPU加速原語庫cuDNN8.2,具體配置為Intel(R) Core(TM) i7-9700 CPU @ 3.00GHz、內(nèi)存16 GB和顯存8 GB的NVIDIA Quadro P4000。

      3.3 評價指標

      為了評估訓(xùn)練的模型在自然環(huán)境下對蘋果的檢測效果,本文采用精確度P(Precision)、召回率R(Recall)、平均精度AP(Average Precision)和mAP(mean Average Precision)四個指標評價模型的檢測效果。首先介紹以下幾個概念:TP(True Positives)說明是蘋果正確判定為蘋果,即為真正類;TN(True Negatives) 說明是蘋果錯誤判定為不是蘋果,即為真負類;FP(False Positives) 說明不是蘋果,錯誤判定為是蘋果,即為假正類;FN(False Negatives) 說明不是蘋果正確判定為不是蘋果,即為假負類。

      其中精準率P表示正確判定為蘋果占全部判定為蘋果(包括錯誤判定為蘋果)的比例。

      (8)

      召回率R表示蘋果正確檢測為蘋果占全部蘋果比例。

      (9)

      平均精度AP表示精準率P和召回率R所構(gòu)成的曲線圍成的面積,即AP值。

      (10)

      均值平均精度mAP表示對所有分類AP取均值。

      (11)

      3.4 試驗結(jié)果與分析

      使用改進后的CCB-YOLOv5模型進行試驗。試驗得到損失函數(shù)Loss,精準率P,召回率R,均值平均精度mAP分別與迭代次數(shù)的曲線圖,如圖6所示。

      從圖6可以看出,CCB-YOLOv5算法的損失在迭代到55輪逐漸降低到0.02,最終穩(wěn)定在0.019左右,相比于原始模型收斂速度更快,損失值更小。經(jīng)過100次迭代,最終模型的精準率P為94.7%,召回率R為87%,均值平均精度mAP為92.5%。改進后的CCB-YOLOv5模型在P相差不大的前提下R提高了將近7%,mAP提高了將近3.5%。

      卷積注意力機制更加重視被檢測目標所需關(guān)注的通道和空間,獲取更為重要的信息,提高網(wǎng)絡(luò)的特征提取能力;大視場下的蘋果圖比較密集,蘋果大小不一并且伴隨著遮擋情況,完全交并比非極大抑制算法加速了預(yù)測框的回歸收斂,可以有效降低由于遮擋率較高導(dǎo)致的漏檢,提高召回率;但是隨著卷積層的不斷加深,會造成特征的丟失,BiFPN通過不同級的深層特征和淺層特征的融合提升了網(wǎng)絡(luò)性能,在識別小目標蘋果時可以更好地表達信息,以此提高識別精度和準確率。

      (a) 損失loss曲線

      圖7展示了原始未檢測圖片,原始YOLOv5和改進后的CCB-YOLOv5模型對真實蘋果的識別結(jié)果圖,圖7(a)列為原始未檢測圖片,圖7(b)列為原始YOLOv5的識別結(jié)果圖,圖7(c)列為改進后的CCB-YOLOv5的識別結(jié)果圖,由第一行對比圖可以看出原始YOLOv5在遮擋面積較大的情況下存在漏檢的情況,改進后的CCB-YOLOv5能夠更好地檢測出遮擋面積較大的蘋果,而且能夠更好地過濾由于相互遮擋造成的不必要的信息,使預(yù)測框和檢測目標的輪廓外形更好地貼合,其中橢圓形框為原始YOLOv5漏檢蘋果;從第二到第四行對比圖可以看出改進后的模型對逆光,側(cè)光和順光等復(fù)雜光照條件下的蘋果檢測能力明顯提升,置信度提升高達0.04;由第五行對比圖可以看出雖然蘋果和樹葉顏色相近且存在大面積遮擋,但是改進后的CCB-YOLOv5在原始YOLOv5的基礎(chǔ)上,整體精度有所提升。改進后的CCB-YOLOv5推理檢測速度為11 ms,檢測速度較快,并且識別到的目標置信度大都在0.5以上,處于較高范圍。

      (a) 原始圖像 (b) YOLOv5 (c) CCB-YOLOv5

      3.5 消融試驗

      對原始YOLOv5網(wǎng)絡(luò)進行改進提出來本試驗的方法CCB-YOLOv5,為了驗證各項改進對蘋果的檢測是否有效,設(shè)置消融試驗,通過控制變量進行對比研究。四種模型的結(jié)果對比如表1所示,其中符號“√”表示在原始YOLOv5網(wǎng)絡(luò)中添加相應(yīng)模塊,模型1表示在YOLOv5中添加CBAM卷積注意力機制,模型2表示在YOLOv5中添加完全交并比非極大抑制CIOU-NMS,模型3表示在YOLOv5中添加加權(quán)雙向特征金字塔BiFPN,模型4表示在YOLOv5中依次添加CBAM,CIOU-NMS和BiFPN三個模塊。

      由表1可見,原始YOLOv5網(wǎng)絡(luò)加入卷積注意力機制后能更好地提取目標特征,召回率提高了1.13%,精準率提高了2.25%,平均精度提高了2.39%;引入完全交并比非極大抑制算法后召回率提高了5.35%,平均精度提高了1.45%,精準率卻降低了2.28%,由于P和R之間有一定相關(guān)性,所以在召回率提高時精準率降低的情況是難以避免的;改進原始PANet結(jié)構(gòu)為多尺度特征融合BiFPN后召回率提高了1.18%,精準率提高了1.46%,平均精度提高了1.63%;同時加入三項改進,在幀速度下降0.023FPS,區(qū)別較小的情況下,召回率提高了5.4%,精準率提高了1.3%,平均精度提高了3.5%,對于小目標和密集目標的檢測有較大提升。本文算法CCB-YOLOv5 改進的有效性得到了證實。

      表1 消融試驗Tab. 1 Ablation experiments

      4 結(jié)論

      1) 本文針對不同光照,遮擋重疊以及大視場等復(fù)雜條件下果蔬難以識別,精度不高的問題,提出了一種用于復(fù)雜環(huán)境下果蔬檢測的改進YOLOv5算法——CCB-YOLOv5,該算法引入卷積注意力機制和完全交并比非極大抑制算法,改進原始特征提取網(wǎng)絡(luò)為多尺度特征融合BiFPN,提高目標特征的提取能力以及識別精度和準確率,并以蘋果為例進行試驗。

      2) 通過使用評價指標對本文提出的CCB-YOLOv5模型進行分析,召回率R為87%,精準率P為94.7%,平均精度mAP為92.5%,相較于原始YOLOv5模型R提高了將近7%,mAP提高了將近3.5%,識別精度較高。其次CCB-YOLOv5算法的損失在迭代到55輪左右逐漸趨于穩(wěn)定,相比于原始模型收斂速度更快,損失值更小。在真實環(huán)境下平均每幅圖在GPU下的檢測推理速度為11 ms,速度較快。本文方法對遮擋目標和小目標的檢測精度更高,對不同光照的魯棒性更好,對果蔬的識別檢測能夠達到更好的效果。

      3) 通過設(shè)置消融試驗進行驗證,加入卷積注意力機制后平均精度提高了2.39%,引入完全交并比非極大抑制算法后平均精度提高了1.45%,改進多尺度特征融合BiFPN后平均精度提高了1.63%,各項改進能更好地提取目標特征進行識別,進一步驗證了各項改進的有效性。

      猜你喜歡
      注意力卷積蘋果
      讓注意力“飛”回來
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標跟蹤算法
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      收獲蘋果
      有毒的蘋果
      A Beautiful Way Of Looking At Things
      拿蘋果
      會說話的蘋果
      璧山县| 大城县| 建瓯市| 凭祥市| 新绛县| 鹿邑县| 龙海市| 罗源县| 宕昌县| 鞍山市| 苗栗市| 南平市| 涪陵区| 巴林左旗| 通许县| 辽宁省| 亚东县| 准格尔旗| 石台县| 沂水县| 中西区| 郧西县| 丹凤县| 崇左市| 滕州市| 韩城市| 历史| 桦南县| 旬邑县| 封丘县| 天全县| 衡东县| 乌拉特中旗| 桃园市| 廊坊市| 彰武县| 高青县| 溧阳市| 龙南县| 武平县| 博白县|