• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      引入通道注意力機(jī)制的目標(biāo)檢測算法

      2023-12-25 03:25:04許維義
      電腦知識(shí)與技術(shù) 2023年31期
      關(guān)鍵詞:目標(biāo)檢測

      許維義

      摘要:針對目標(biāo)檢測模型在提高檢測精度的同時(shí)會(huì)帶來更高模型復(fù)雜度這一不足,該文提出了一種改進(jìn)的YOLOv4模型。該模型將通道注意力機(jī)制ECA模塊加入特征提取網(wǎng)絡(luò)之中,構(gòu)建了一個(gè)新的YOLOv4模型。通過在PASCAL VOC數(shù)據(jù)集上的實(shí)驗(yàn)表明:該算法在不增加模型大小的前提下提高了檢測精度,相比YOLOv4算法在PASCAL VOC 2007測試集上的平均精確度均值@0.5提升了最高3.56mAP,達(dá)到了最高83.42mAP,能夠解決目標(biāo)檢測性能和模型復(fù)雜度之間的矛盾,并提高了檢測精度。

      關(guān)鍵詞:目標(biāo)檢測;YOLOv4算法;通道注意力機(jī)制;解耦頭

      中圖分類號:TP391? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號:1009-3044(2023)31-0048-03

      開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID)

      目標(biāo)檢測作為計(jì)算機(jī)視覺領(lǐng)域的重要分支,在實(shí)時(shí)監(jiān)控、信息檢索、交通物流等領(lǐng)域都發(fā)揮著重要的作用,一直受到眾多學(xué)者的關(guān)注和研究。目標(biāo)檢測任務(wù)作為圖像處理領(lǐng)域的經(jīng)典任務(wù)之一,由目標(biāo)定位和目標(biāo)分類兩部分組成。其中目標(biāo)定位任務(wù)主要輸出目標(biāo)在圖片上的位置,輸出的數(shù)據(jù)形式一般為目標(biāo)中心及目標(biāo)區(qū)域的長寬或目標(biāo)在圖片上的四個(gè)端點(diǎn)的坐標(biāo)信息;而目標(biāo)分類負(fù)責(zé)判斷圖片中是否有需要檢測的目標(biāo)出現(xiàn),其輸出數(shù)據(jù)的形式包括類別的編碼以及目標(biāo)屬于該類別的概率。目標(biāo)檢測任務(wù)的應(yīng)用范圍非常廣泛,如人臉檢測、智能交通、安全系統(tǒng)檢測和醫(yī)療方面檢測。

      從像素級分析的傳統(tǒng)目標(biāo)檢測時(shí)代到特征級分析的深度學(xué)習(xí)型目標(biāo)檢測時(shí)代,目標(biāo)檢測技術(shù)在無數(shù)研究人員的努力下得到了長足發(fā)展,并逐漸走向成熟。但由于應(yīng)用領(lǐng)域的不同、應(yīng)用場景的不同、目標(biāo)大小和目標(biāo)類別的不同、任務(wù)類型的不同和樣本數(shù)目的不同,目標(biāo)檢測仍然面對著提高應(yīng)用靈活性和任務(wù)適應(yīng)性等挑戰(zhàn)。

      如Girshick R等人[1]將區(qū)域提議與CNN相結(jié)合,提出的R-CNN揭示了豐富的圖像特征層次結(jié)構(gòu),提高了檢測的精度。Girshick R等人[2]提出的Fast R-CNN是在R-CNN的基礎(chǔ)上引入SPPnets,在對整個(gè)圖像進(jìn)行歸一化后,候選區(qū)域的特征不再是在卷積層中進(jìn)行提取,而是通過在尾部的池化層中加入需要檢測區(qū)域的坐標(biāo)位置來提取所需要的特征。Liu W等人[3]介紹了SSD,SSD的創(chuàng)新是對目標(biāo)的檢測加入了多尺度特征圖,能夠提高檢測的精確度。Ren S等人[4]通過讓RPN和Fast R-CNN共同使用卷積特征來整合成一個(gè)網(wǎng)絡(luò),能夠有效地提高檢測速度和綜合性能。Rashwan A等人[5]介紹了矩陣網(wǎng)(xNet) ,一個(gè)尺度和縱橫比感知架構(gòu)的目標(biāo)檢測,能夠增強(qiáng)基于關(guān)鍵點(diǎn)的對象檢測,且使用一半?yún)?shù)的同時(shí)降低訓(xùn)練時(shí)間到原來的1/3。針對上述問題,本文提出了一種改進(jìn)的YOLOv4模型[6],能夠在不增加模型大小的前提下,提高模型的檢測精度。該算法將有效通道注意力模塊ECA引入特征提取網(wǎng)絡(luò)中,通過分析插入位置的不同而導(dǎo)致的模型性能的差異來選取最優(yōu)插入?yún)^(qū)域,并對YOLOv4原模型的SPP[7]進(jìn)行不同尺度的對比優(yōu)化。為解決YOLOv4檢測頭部耦合問題,使用解耦檢測頭代替了原本的耦合檢測頭,進(jìn)而提升檢測的效果。

      1 背景知識(shí)

      1.1 YOLOv4模型

      YOLO[8-10]作為一系列的目標(biāo)檢測模型,已廣泛應(yīng)用于各個(gè)行業(yè),如交通違章檢測、行人檢測、商品檢測等領(lǐng)域。其中,YOLOv4作為一種單階段目標(biāo)檢測算法,首先是通過骨干網(wǎng)絡(luò)進(jìn)行目標(biāo)的關(guān)鍵信息提取,再經(jīng)過頸部網(wǎng)絡(luò)對骨干網(wǎng)絡(luò)提取的信息進(jìn)行融合,最后使用檢測頭部對融合的信息進(jìn)行分類和回歸。YOLOv4借鑒CSPNet結(jié)構(gòu)并融入Darknet53中,使骨干網(wǎng)絡(luò)性能得到大幅提升。頸部網(wǎng)絡(luò)也稱加強(qiáng)特征提取網(wǎng)絡(luò),YOLOv4采用了SPP模塊和PANet網(wǎng)絡(luò)作為頸部網(wǎng)絡(luò),增強(qiáng)了對特征圖的提取能力。YOLOv4的頭部結(jié)構(gòu)與YOLOv3相同,依舊采用三尺度輸出,用于對不同尺寸大小的目標(biāo)進(jìn)行檢測。

      自2018年YOLOv3年提出的兩年后,在Redmon聲明放棄更新YOLO算法后,Alexey等人扛起了YOLO系列更新的大旗,在2020年4月提出了YOLOv4版本。YOLOv4在YOLOv3的模型基礎(chǔ)上使用了空間金字塔池化和路徑聚合網(wǎng)絡(luò)組合的特征融合方式,并將原骨干網(wǎng)絡(luò)Darknet53換成了CSPDarknet53,CSPDarknet53是在Darknet53的基礎(chǔ)上加了CSPNet。CSPNet的特點(diǎn)是充分利用跨層信息,使用CSPaNet結(jié)構(gòu)將輸入特征圖分成兩個(gè)部分,然后通過跨層連接來結(jié)合這兩部分的信息,這樣可以在減少計(jì)算復(fù)雜度的同時(shí)提高網(wǎng)絡(luò)的感受野和特征表達(dá)能力。

      2020年11月,CSPNet的作者Chien-Yao Wang與Alexey等人在YOLO系列繼續(xù)擴(kuò)展,從影響模型擴(kuò)展的幾個(gè)不同因素出發(fā),基于CSP方法的YOLOv4對象檢測神經(jīng)網(wǎng)絡(luò),可向上和向下擴(kuò)展,適用于小型和大型網(wǎng)絡(luò),同時(shí)保持最佳速度和精度。Scaled-YOLOv4是一種Network Scaling網(wǎng)絡(luò)擴(kuò)展方法,它不僅針對深度、寬度、分辨率進(jìn)行調(diào)整,同時(shí)可以調(diào)整網(wǎng)絡(luò)結(jié)果,并提出了兩種分別適合于高端GPU的YOLOv4-large和低端GPU的YOLOv4-tiny。

      YOLOv4-large是為云GPU設(shè)計(jì)的,主要目的是實(shí)現(xiàn)高精度的目標(biāo)檢測,是一種完全csp化的模型YOLOv4-P5,并將其擴(kuò)展到Y(jié)OLOv4-P6和YOLOv4-P7。

      1.2 注意力機(jī)制

      通道注意力機(jī)制是指在多個(gè)通道中,通過調(diào)節(jié)每個(gè)通道的權(quán)重來實(shí)現(xiàn)注意力分配。例如,在圖像識(shí)別任務(wù)中,每個(gè)通道對應(yīng)的是不同的顏色、紋理、形狀等特征,通過調(diào)節(jié)每個(gè)通道的權(quán)重,可以更好地捕捉重要的特征,從而提高識(shí)別準(zhǔn)確率,因此對提高目標(biāo)檢測網(wǎng)絡(luò)模型的性能方面有著重要的作用。但是,現(xiàn)在大多數(shù)方法為了提高模型的檢測性能,往往采用十分復(fù)雜的注意力模塊,這使得模型的復(fù)雜性大大增加,而本文使用的有效通道注意力模塊ECA在提升模型檢測精度的同時(shí)并沒有增加模型的大小。

      擠壓和激發(fā)模塊驗(yàn)證了通過建模可以重新預(yù)測各個(gè)通道,使獲取的通道信息更加關(guān)鍵,但是遺漏了位置的信息。卷積注意模塊雖然添加了空間注意力模塊,但是通過卷積來獲取位置信息,而卷積只能捕獲局部位置關(guān)系,不能夠?qū)﹂L范圍關(guān)系進(jìn)行卷積。協(xié)調(diào)注意力模塊捕獲了跨通道的方向感知和位置感知的信息,可以讓模型對目標(biāo)區(qū)域的定位更加精準(zhǔn),但使用的參數(shù)太多。

      本文使用的有效通道注意力模塊與提高檢測精度的同時(shí)會(huì)帶來更高模型復(fù)雜度的模塊不同,ECA模塊在提高檢測精度的同時(shí)參數(shù)量并沒有太大變化。ECA模塊通過避免渠道維度縮減,同時(shí)以極其輕量級的方式捕捉跨渠道互動(dòng),用來學(xué)習(xí)有效的渠道注意力,可以使模型對通道內(nèi)信息的提取更敏感、更關(guān)鍵。

      2 改進(jìn)的YOLOv4算法

      作為一種即插即用的注意力模塊,ECA可以添加到Y(jié)OLOv4網(wǎng)絡(luò)中的任何地方,但不同的插入位置也會(huì)導(dǎo)致模型預(yù)測性能的差異。本文對在YOLOv4網(wǎng)絡(luò)模型中的不同位置插入ECA模塊所帶來的差異進(jìn)行研究。根據(jù) YOLOv4 網(wǎng)絡(luò)模型的結(jié)構(gòu),可分別在 YOLOv4的Backbone骨干網(wǎng)絡(luò)、Neck頸部和Head檢測頭部3個(gè)部分插入ECA注意力模塊。由于ECA模塊是加強(qiáng)對不同通道中的特征信息提取,所以可以在上述3部分中的每個(gè)特征融合區(qū)域中插入ECA模塊,ECA模塊的具體插入位置如圖2所示。

      根據(jù)YOLOv4 網(wǎng)絡(luò)模型的結(jié)構(gòu),可在YOLOv4的Backbone骨干網(wǎng)絡(luò)部分插入ECA注意力模塊。由于ECA模塊是加強(qiáng)對不同通道中的特征信息提取,所以可以在特征融合區(qū)域中插入ECA模塊。

      3 實(shí)驗(yàn)與結(jié)果分析

      3.1 數(shù)據(jù)集和訓(xùn)練參數(shù)

      本實(shí)驗(yàn)采用VOC2007+2012公共數(shù)據(jù)集,該數(shù)據(jù)集的主要層級結(jié)構(gòu)為4個(gè)大類,共包含20個(gè)小類,共有27088張圖片。訓(xùn)練集、驗(yàn)證集和測試集的比例為7∶2∶1。其中,訓(xùn)練集圖片有18 962張,驗(yàn)證集有5 418張,測試集有2 708張。訓(xùn)練過程的初始學(xué)習(xí)率為0.001,每25次迭代后學(xué)習(xí)率下降到原來的0.1倍,動(dòng)量為0.9,衰減系數(shù)為0.000 5,Batchsize設(shè)為4,設(shè)置訓(xùn)練的Epochs為180次。

      實(shí)驗(yàn)將VOC2007數(shù)據(jù)集中的圖像標(biāo)簽修改為YOLO模型所需的pascalvoc標(biāo)簽,訓(xùn)練集是voc07train+val和 VOC12的train+val,驗(yàn)證集/測試集是voc2007test。由于顯存較低的原因,本實(shí)驗(yàn)將原圖片608×608尺寸調(diào)整為416×416大小。

      3.2 對比試驗(yàn)及結(jié)果分析

      為了驗(yàn)證所提出的網(wǎng)絡(luò)模型在檢測精度上的有效性,從不同方面將筆者的方法與現(xiàn)有方法進(jìn)行了對比和分析。

      為了突出YOLOv4-ours模型在檢測性能上的優(yōu)勢,本文選用三個(gè)注意力機(jī)制模塊分別插入YOLOv4網(wǎng)絡(luò)中,分別是SE模塊、CBAM模塊、CA模塊,再加上原本的YOLOv4網(wǎng)絡(luò)與改進(jìn)后的YOLOv4-ours模型進(jìn)行對比。ECA模塊是在SE模塊的基礎(chǔ)上,把SE中使用全連接層FC學(xué)習(xí)通道注意信息,改為1×1卷積學(xué)習(xí)通道注意信息。與FC相比,1×1卷積只有較小的參數(shù)量,這樣可以避免在學(xué)習(xí)通道注意力信息時(shí)通道維度減縮,且降低了參數(shù)量。而CBAM模塊雖然也是輕量級的注意力模塊,但它將通道與空間注意力機(jī)制進(jìn)行結(jié)合,不可避免地增加了模型大小。與EC模塊相比,CBAM在特征提取后加了一個(gè)并行的最大池化層,雖然提取到的高層特征更加豐富,但池化而導(dǎo)致信息的丟失也更多。并且在通道注意力機(jī)制之后,CBAM模塊添加了一個(gè)多層感知機(jī)來提高識(shí)別率和分類速度,但訓(xùn)練速度較低,尤其是對于目標(biāo)檢測這類巨大量的訓(xùn)練集。

      為了突出YOLOv4-ours模型在精度上的優(yōu)勢,本文使用YOLO-V3、improved-YOLO-V3、YOLOv4、Fast-R-CNN4種模型在PASCAL VOC 2007上對比我們的模型。筆者使用文中提出的性能評價(jià)指標(biāo)來評估這些方法的性能。從結(jié)果可以看出,在閾值為0.5即mAP@0.5時(shí),YOLOv4-ours在目標(biāo)檢測精度上相較YOLOv4算法表現(xiàn)更好,相較其他算法模型在PASCAL VOC 2007數(shù)據(jù)集上也表現(xiàn)出了最高的檢測精度83.42%,證明了該網(wǎng)絡(luò)模型具有較好的目標(biāo)檢測性能。

      4 結(jié)論

      針對目標(biāo)檢測模型在提高檢測精度的同時(shí)會(huì)帶來更高模型復(fù)雜度這一不足,本文提出了一種改進(jìn)的YOLOv4模型,該算法將有效通道注意力模塊ECA引入特征提取網(wǎng)絡(luò)中,進(jìn)而構(gòu)建一個(gè)新的YOLOv4模型,在不增加模型大小的前提下,提高了模型的檢測精度。根據(jù)實(shí)驗(yàn)表明,相比YOLOv4算法在PASCAL VOC 2007測試集上的mAP@0.5提升了最高3.56mAP,在PASCAL VOC 2007測試集上達(dá)到了最高83.42mAP@0.5,且較其他算法模型也表現(xiàn)出了最高的性能,證明了模型在解決目標(biāo)檢測性能和模型復(fù)雜度之間矛盾的優(yōu)越性。

      參考文獻(xiàn):

      [1] GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.ACM,2014:580-587.

      [2] GIRSHICK R.Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision (ICCV).Santiago,Chile.IEEE,2015:1440-1448.

      [3] LIU W,ANGUELOV D,ERHAN D,et al.SSD:single shot MultiBox detector[J].Computer Vision – ECCV 2016,2016.

      [4] REN S Q,HE K M,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.

      [5] RASHWAN A,KALRA A,POUPART P.Matrix nets:a new deep architecture for object detection[C]//2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW).Seoul,Korea (South).IEEE,2019:2025-2028.

      [6] BOCHKOVSKIY A,WANG C Y,LIAO H Y M.YOLOv4:optimal speed and accuracy of object detection[EB/OL].[2022-10-22].2020:arXiv:2004.10934.https://arxiv.org/abs/2004.10934.pdf.

      [7] HE K M,ZHANG X Y,REN S Q,et al.Spatial pyramid pooling in deep convolutional networks for visual recognition[J].Computer Vision-ECCV 2014,2014.

      [8] REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas,NV,USA.IEEE,2016:779-788.

      [9] REDMON J,F(xiàn)ARHADI A.YOLO9000:better,faster,stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu,HI,USA.IEEE,2017:6517-6525.

      [10] REDMON J,F(xiàn)ARHADI A.YOLOv3:an incremental improvement[EB/OL].2018:arXiv:1804.02767.https://arxiv.org/abs/1804.02767.pdf.

      【通聯(lián)編輯:代影】

      猜你喜歡
      目標(biāo)檢測
      多視角目標(biāo)檢測與跟蹤技術(shù)的研究與實(shí)現(xiàn)
      視頻中目標(biāo)檢測算法研究
      軟件(2016年4期)2017-01-20 09:38:03
      行為識(shí)別中的人體運(yùn)動(dòng)目標(biāo)檢測方法
      移動(dòng)機(jī)器人圖像目標(biāo)識(shí)別
      基于視頻監(jiān)控的運(yùn)動(dòng)圖像檢測算法研究
      基于背景建模法的運(yùn)動(dòng)目標(biāo)檢測
      基于P3電位的目標(biāo)檢測研究
      科技視界(2016年4期)2016-02-22 13:09:19
      智能視頻技術(shù)在電力系統(tǒng)領(lǐng)域的應(yīng)用
      相關(guān)K分布雜波中擴(kuò)展目標(biāo)積累檢測性能分析
      基于連通域標(biāo)記的目標(biāo)檢測算法設(shè)計(jì)與實(shí)現(xiàn)
      巩义市| 赞皇县| 崇阳县| 叶城县| 民勤县| 宁德市| 长丰县| 高平市| 福鼎市| 乌拉特中旗| 高要市| 习水县| 梓潼县| 璧山县| 防城港市| 西充县| 忻城县| 桑植县| 清远市| 桐柏县| 金溪县| 宝清县| 金乡县| 建德市| 运城市| 大冶市| 栖霞市| 丽水市| 塔城市| 岳池县| 东丽区| 肃宁县| 昌宁县| 龙岩市| 三江| 商水县| 定兴县| 乐亭县| 盐边县| 吴桥县| 顺平县|