• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于CNN和Transformer混合融合骨干的改進(jìn)型DETR目標(biāo)檢測方法研究

      2022-02-16 12:10:08金祖亮
      無線互聯(lián)科技 2022年23期
      關(guān)鍵詞:解碼器骨干全局

      金祖亮

      (重慶交通大學(xué),重慶 400074)

      0 引言

      隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,目標(biāo)檢測[1]領(lǐng)域涌現(xiàn)出高精度、低延遲的目標(biāo)檢測算法。目標(biāo)檢測算法提供目標(biāo)的類別和位置完成對目標(biāo)的分類和定位,這為自動駕駛、醫(yī)療領(lǐng)域等提供了技術(shù)幫助。

      目前,目標(biāo)檢測算法主要可以分為one-stage模型和two-stage模型。早期目標(biāo)檢測方法基于two-stage,例如Region-CNN(R-CNN)系列,其中Faster-RCNN[2]提出通過一個(gè)單獨(dú)的RPN網(wǎng)絡(luò)提供region proposal,對RPN中提取的ROI區(qū)域傳遞進(jìn)分類頭進(jìn)行分類,并在回歸頭中定邊界框位置。然而基于two-stage的方法精度很高,但速度卻很慢,并不滿足實(shí)時(shí)需求。

      單階段的方法由一個(gè)端到端的網(wǎng)絡(luò)組成,并不包含RPN網(wǎng)絡(luò),而是將所有位置視為潛在的proposal。單階段模型主要可以分為anchor-based和anchor-free檢測器,其中anchor-based需要使用anchor框輔助預(yù)測。最為熟知的方法就是YOLO[3]。YOLO將圖像特征視為網(wǎng)格,網(wǎng)格中心負(fù)責(zé)預(yù)測落在該網(wǎng)格的預(yù)測框,YOLO系列可以在保證預(yù)測精度的前提下,有著實(shí)時(shí)的檢測速度。anchor-free的模型不使用事先定義的anchor錨框,采用基于關(guān)鍵點(diǎn)的方式,通過預(yù)測關(guān)鍵點(diǎn)和寬高來回歸預(yù)測框,如FOCS[4]等。

      但是,無論是anchor-based還是anchor-free的方法,都依賴于復(fù)雜的后處理如非極大值抑制的影響,這對目標(biāo)檢測性能表現(xiàn)有著巨大影響。Detection Transformer[5](DETR)作為真正的端到端網(wǎng)絡(luò),不依賴于非極大值抑制后處理這種耗時(shí)的操作,DETR利用Transformer強(qiáng)大的全局建模能力,將目標(biāo)檢測看成集合預(yù)測的問題。DETR使用ResNet作為骨干網(wǎng)絡(luò)提取特征,但ResNet作為CNN網(wǎng)絡(luò)在全局信息提取能力上存在不足。但目標(biāo)檢測需要更強(qiáng)的全局建模能力,DETR通過在CNN骨干后使用Transformer網(wǎng)絡(luò)編碼器全局建模,但這帶來更大的計(jì)算量和復(fù)雜度。因此本文提出一種基于CNN和Transformer混合融合骨干的改進(jìn)型DETR目標(biāo)檢測方法,該方法主要包含兩個(gè)關(guān)鍵設(shè)計(jì):使用Swin Transformer[6]作為特征提取網(wǎng)絡(luò)提取全局信息,并在每個(gè)模塊的分支上并聯(lián)ConvNeXt[7]塊提取局部信息,使用特征金字塔結(jié)構(gòu)對輸出的多尺度特征融合;借鑒使用DETR目標(biāo)檢測解碼器和預(yù)測頭完成目標(biāo)檢測任務(wù)。

      1 算法設(shè)計(jì)

      1.1 網(wǎng)絡(luò)整體設(shè)計(jì)

      本文提出的網(wǎng)絡(luò)結(jié)構(gòu)整體如圖1所示,第一部分采用改進(jìn)的Swin Transformer模型作為骨干網(wǎng)絡(luò),其主要思想是在特征圖像塊融合的層級輸出上并聯(lián)一個(gè)ConvNeXt塊,用于提取特征的局部信息,因此經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)ConvNeXt塊的多尺度特征圖擁有更好的全局信息和局部信息的融合。第二部分采用特征金字塔結(jié)構(gòu)對多尺度特征圖融合生成具有淺層特征信息和深層特征信息融合的特征圖。最后一個(gè)部分借鑒DETR網(wǎng)絡(luò),由于本文使用的骨干網(wǎng)絡(luò)已經(jīng)具有強(qiáng)大的全局建模能力,輸出的特征圖帶有全局信息,因此本文僅使用DETR的解碼器和預(yù)測頭。

      圖1 網(wǎng)絡(luò)整體設(shè)計(jì)

      1.2 骨干網(wǎng)絡(luò)改進(jìn)

      本文骨干網(wǎng)絡(luò)基于Swin Transformer模型改進(jìn),Swin Transformer塊包含一個(gè)窗口自注意力(Windows Multi-head Self-Attention,W-MSA)模塊和一個(gè)移動窗口自注意力(Shifted Windows Multi-Head Self-Attention,SW-MSA)模塊。W-MSA模塊就是在一個(gè)小窗口內(nèi)進(jìn)行多頭自注意力操作,SW-MSA能夠獲取窗口之間的信息,通過移動窗口、特征移動和mask3部分,使不同窗口之間的特征進(jìn)行交互。通過W-MSA模塊和SW-MSA模塊,骨干模型有著媲美VIT的全局建模能力,并且由于窗口注意力的存在,模型的局部建模能力也相當(dāng)優(yōu)秀,但相較于CNN系列網(wǎng)絡(luò)仍有不足。

      本文選擇在層級結(jié)構(gòu)的輸出上通過ConvNeXt網(wǎng)絡(luò)增強(qiáng)局部信息的表達(dá)能力,從而為下游的檢測任務(wù)提供更好的特征表現(xiàn)。ConvNeXt塊在使用一個(gè)N×N的卷積后,通過多層感知機(jī)將特征通道數(shù)放大到原來的4倍,通過非線性激活函數(shù)GeLU后再連接一個(gè)全連接,恢復(fù)到原始通道數(shù)后與原始輸入殘差連接。因此ConvNeXt塊使用了和ResNet塊結(jié)構(gòu)完全相反的架構(gòu),ConvNeXt塊的多層感知的隱藏維度為輸入的4倍,而ResNet則為輸入的1/4。

      本文的特征金字塔不采用復(fù)雜的結(jié)構(gòu),如改進(jìn)特征金字塔、加權(quán)雙向特征金字塔[11]等,這是因?yàn)樘卣鹘鹱炙Y(jié)構(gòu)可能會需要較大的計(jì)算量,從而導(dǎo)致推理速度變慢,本文的特征金字塔主要融合模塊2-4的輸出。

      1.3 DETR解碼器和預(yù)測頭

      DETR解碼器將目標(biāo)檢測任務(wù)看成集合預(yù)測任務(wù),每個(gè)解碼器并行解碼N個(gè)對象查詢(Query,Q)。DETR解碼器首先會使N個(gè)對象查詢進(jìn)行自注意力操作,接著N個(gè)對象查詢,會與骨干網(wǎng)絡(luò)的特征轉(zhuǎn)換而成的鍵(Key,K)和值(Value,V)進(jìn)行交叉注意力操作。

      最后的預(yù)測頭是由一個(gè)帶有非線性激活單元的ReLU激活函數(shù)、通道數(shù)為D層的3層感知機(jī)和1個(gè)線性投射層組成。預(yù)測頭的輸出包含圖像的中心坐標(biāo)和預(yù)測框的寬高,同時(shí)預(yù)測標(biāo)簽由softmax函數(shù)激活獲得。DETR的解碼器和預(yù)測頭不需要手工設(shè)計(jì)較為復(fù)雜的錨框,也不需要復(fù)雜的非極大值抑制后處理,因此可以認(rèn)為是一定意義上真正的端到端網(wǎng)絡(luò)。

      2 實(shí)驗(yàn)

      2.1 數(shù)據(jù)集

      COCO2017數(shù)據(jù)集包含11.8萬個(gè)訓(xùn)練圖像和5 000個(gè)驗(yàn)證圖像。每個(gè)圖像都用邊界框和全景分割進(jìn)行標(biāo)注。COCO2017數(shù)據(jù)集包含80個(gè)類別,平均每幅圖像有7個(gè)實(shí)例目標(biāo),其中在訓(xùn)練集上,同一幅圖像上最多有63個(gè)實(shí)例目標(biāo),并且實(shí)例目標(biāo)也有大有小。

      2.2 實(shí)驗(yàn)設(shè)置

      本文使用AdamW優(yōu)化器,學(xué)習(xí)率使用1e-4,權(quán)重衰減為1e-7。模型的框架使用Pytorch1.12.1+Cuda11.6,模型訓(xùn)練采用的硬件設(shè)備為Intel i5-13600kf CPU,GeForce RTX 3090 GPU ,32 G內(nèi)存,操作系統(tǒng)為Ubuntu20.04。本文遵循DETR的訓(xùn)練策略,使用縮放增強(qiáng),調(diào)整輸入圖像的大小,使短邊至少為480個(gè)像素,最多為800個(gè)像素,長邊最多為1 333。同時(shí)在DETR解碼器上對象目標(biāo)查詢N被設(shè)置為100,解碼器層數(shù)設(shè)置為6層。

      2.3 實(shí)驗(yàn)結(jié)果

      本文提出的方法在不同環(huán)境場景下的預(yù)測如圖3所示。由圖可知,本文基于CNN和Transformer混合融合骨干的改進(jìn)型DETR目標(biāo)檢測方法,無論在密集場景還是昏暗環(huán)境都取得了不錯(cuò)的推理結(jié)果。本文提出的方法相較于DETR原始模型,能更好地預(yù)測小目標(biāo),這歸結(jié)于強(qiáng)大的特征提取混合骨干對局部信息和全局信息的把握。

      圖2 模型推理結(jié)果

      同時(shí)本文對比了和DETR和Faster RCNN在模型性能上的表現(xiàn)如表1所示。

      表1 COCO數(shù)據(jù)集模型對比結(jié)果

      由表1可知,本文提出的方法,無論在小目標(biāo)還是大目標(biāo)上,都優(yōu)于DETR-R50的表現(xiàn),在AP上至少提升3.8%,同時(shí)速度相較于更快的DETR-R50也是有所提升,超過了30FPS。盡管Swin Transformer相較于ResNet50模型有著更大的計(jì)算量和復(fù)雜度,但改進(jìn)的骨干網(wǎng)絡(luò)擁有強(qiáng)大的全局建模能力,從而使本文的方法并不使用復(fù)雜的DETR的編碼器,能夠更加有效地降低模型的計(jì)算量和復(fù)雜度。

      3 結(jié)語

      本文提出的基于CNN和Transformer混合融合骨干的改進(jìn)型DETR目標(biāo)檢測方法,在骨干模型上對DETR進(jìn)行改進(jìn),通過融合Swin Transformer和ConvNeXt模型的優(yōu)勢,有效地融合了全局信息和局部信息,同時(shí)對層級結(jié)構(gòu)輸出的特征圖通過特征金字塔融合深層和淺層特征,因此在目標(biāo)檢測任務(wù)中比原始的DETR模型能夠取得更好的檢測結(jié)果。

      相較于速度更快的DETR-R50,本文提出的模型在AP上提升1.6%,在FPS上提升10.7%,有更好的性能表現(xiàn)。而且本文提出的方法由于有著更好的特征提取能力,因此能夠在小目標(biāo)上比DETR模型有更好的表現(xiàn),同時(shí)在昏暗的環(huán)境仍有著不錯(cuò)的性能表現(xiàn)。

      猜你喜歡
      解碼器骨干全局
      Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
      量子Navier-Stokes方程弱解的全局存在性
      科學(xué)解碼器(一)
      科學(xué)解碼器(二)
      科學(xué)解碼器(三)
      核心研發(fā)骨干均16年以上!創(chuàng)美克在產(chǎn)品研發(fā)上再發(fā)力
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
      落子山東,意在全局
      金橋(2018年4期)2018-09-26 02:24:54
      骨干風(fēng)采展示
      新思路:牽一發(fā)動全局
      雅安市| 萨嘎县| 全南县| 青川县| 启东市| 德庆县| 收藏| 吉安县| 抚顺县| 广州市| 平罗县| 蒙城县| 安岳县| 普洱| 新河县| 滁州市| 平远县| 比如县| 个旧市| 化隆| 德惠市| 阜宁县| 平度市| 咸宁市| 阳山县| 玉田县| 翼城县| 介休市| 镇江市| 苏尼特左旗| 寿宁县| 淮北市| 庐江县| 什邡市| 太康县| 商河县| 黑河市| 天镇县| 延长县| 玉溪市| 丰县|