• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多分支卷積塊的目標(biāo)檢測(cè)算法

      2020-11-23 07:34:16劉翔羽楊超宇
      關(guān)鍵詞:目標(biāo)檢測(cè)

      劉翔羽 楊超宇

      摘 要:為解決現(xiàn)有目標(biāo)檢測(cè)算法中尺度變化帶來(lái)的檢測(cè)問(wèn)題,為此設(shè)計(jì)了基于多尺度感受野特征塊,即一種并行的多分支卷積塊,共享參數(shù)但有著不同的卷積擴(kuò)張率,并將其特征塊集成到SSD框架中,從而增強(qiáng)網(wǎng)絡(luò)的感受野以提高檢測(cè)精度,之后再添加通道注意力模塊,融合多個(gè)尺度相同的特征,由此得到最終的特征進(jìn)入檢測(cè)層檢測(cè)。在COCO和Pascal VOC 2007數(shù)據(jù)集上測(cè)試表明,該方法在滿(mǎn)足一定檢測(cè)精度的同時(shí)可以達(dá)到實(shí)時(shí)的檢測(cè)效果。

      關(guān)鍵詞:目標(biāo)檢測(cè);尺度變化;感受野

      中圖分類(lèi)號(hào):TP391? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):1673-260X(2020)10-0017-06

      1 引言

      近年來(lái),深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)[1-3]在目標(biāo)檢測(cè)上取得了巨大的成功。通常,這些基于CNN的方法可以大致分為兩種類(lèi)型:One-stage方法如YOLO[3]或SSD[2],直接利用前饋CNN去預(yù)測(cè)感興趣區(qū)的邊界框,而Two-stage的方法,如FasterR-CNN[1]或R-FCN[4]方法則是先生成提案,然后再加以利用提取區(qū)域特征從而利用CNN進(jìn)一步細(xì)化。但是,這兩種方法的一個(gè)中心問(wèn)題是如何處理尺度變化。對(duì)象實(shí)例的尺度大小可能會(huì)有不同的范圍,這阻礙了檢測(cè),特別是那些尺度非常小或者非常大的情況。

      為了彌補(bǔ)大尺度變化,一種直觀的方法是利用多尺度圖像金字塔[5],這在基于手工制作的特征的方法[6,7]和基于深度CNN的方法中都很流行。強(qiáng)有力的證據(jù)[1,4]表明,深度檢測(cè)器可以受益于多尺度的訓(xùn)練和測(cè)試。為了避免出現(xiàn)極端尺度的訓(xùn)練對(duì)象,SNIP[8,9]提出了一種尺度歸一化方法,在每個(gè)圖像尺度中有選擇地訓(xùn)練適當(dāng)大小的對(duì)象,圖1a為圖像金字塔結(jié)構(gòu)。然而,測(cè)試時(shí)間的增加使得圖像金字塔方法不太適合實(shí)際場(chǎng)合應(yīng)用。另一個(gè)努力的方向是利用網(wǎng)絡(luò)內(nèi)的特征金字塔來(lái)近似模擬圖像金字塔以減少計(jì)算代價(jià),圖1b為特征金字塔結(jié)構(gòu)。這個(gè)方法首先在[10]中實(shí)現(xiàn),通過(guò)在特征通道層插值快速構(gòu)造特征金字塔來(lái)用于目標(biāo)檢測(cè)。SSD[2]利用來(lái)自不同層的多尺度特征映射,并在每個(gè)特征層檢測(cè)不同尺度的對(duì)象。為了彌補(bǔ)低級(jí)特征中語(yǔ)義的缺失,F(xiàn)PN[11]進(jìn)一步擴(kuò)展了自頂向下的通路和橫向的連接,以在高層特征中包含強(qiáng)語(yǔ)義信息。然而,不同尺度的目標(biāo)區(qū)域特征是從不同層次的FPN骨干網(wǎng)中提取出來(lái)的,而FPN骨干網(wǎng)又是用不同的參數(shù)集生成的。這使得特征金字塔成為圖像金字塔的一個(gè)不令人滿(mǎn)意的替代品。圖像金字塔和特征金字塔方法都有著同樣的動(dòng)機(jī),即檢測(cè)模型對(duì)不同尺度對(duì)象應(yīng)該有不同的感受野。盡管效率不高,但圖像金字塔充分利用了模型的表征能力,對(duì)所有對(duì)象進(jìn)行變換尺度一視同仁。與之相反,特征金字塔產(chǎn)生了多層次的特征,從而犧牲了不同尺度上的特征一致性,這導(dǎo)致有效的訓(xùn)練數(shù)據(jù)減少,每個(gè)尺度的過(guò)度擬合風(fēng)險(xiǎn)更高。

      為解決尺度變化對(duì)目標(biāo)檢測(cè)的影響,本文提出Multi-BranchReceptive-field Network(MBRnet)即多分支感受野網(wǎng)絡(luò)模型,通過(guò)設(shè)計(jì)多分支卷積塊生成不同尺度感受野的特征圖,并將其集成到SSD網(wǎng)絡(luò)結(jié)構(gòu)中,以此來(lái)降低尺度變化對(duì)檢測(cè)精度的影響,提高識(shí)別率,同時(shí)添加通道注意力模塊學(xué)習(xí)不同尺度特征圖。

      2 相關(guān)研究

      2.1 深度學(xué)習(xí)目標(biāo)檢測(cè)

      基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法在精度和速度上都有了很大的提高。Two-stage檢測(cè)方法[1,12,4,13,14]是主要的檢測(cè)方法之一,它首先生成一組區(qū)域建議,然后通過(guò)CNN網(wǎng)絡(luò)對(duì)其進(jìn)行細(xì)化。在[1]中,R-CNN通過(guò)選擇性搜索生成區(qū)域建議,然后由CNN獨(dú)立地、順序地從原始圖像中對(duì)裁剪的建議區(qū)域進(jìn)行分類(lèi)和細(xì)化。為了減少R-CNN中特征提取的冗余計(jì)算,SPPNet[15]和Fast R-CNN[1]一次性提取整幅圖像的特征,然后分別通過(guò)空間金字塔池RoI池化層生成區(qū)域特征,RoIAlign layer進(jìn)一步改進(jìn)了RoI層,解決了粗糙空間量化問(wèn)題。Faster R-CNN首先提出了一個(gè)統(tǒng)一的端到端目標(biāo)檢測(cè)框架,介紹了一種與檢測(cè)網(wǎng)絡(luò)共享骨干網(wǎng)的區(qū)域建議網(wǎng)絡(luò)(RPN),用以取代原有的獨(dú)立的、耗時(shí)的區(qū)域建議方法。為了進(jìn)一步提高FasterR-CNN的效率,R-FCN通過(guò)全卷積網(wǎng)絡(luò)構(gòu)造位置敏感的分?jǐn)?shù)圖,以避免RoI-wise頭部網(wǎng)絡(luò)。為了避免R-FCN中額外的大分?jǐn)?shù)圖,Light-Head R-CNN使用了一個(gè)維度更小的特征圖和一個(gè)輕便的R-CNN子網(wǎng)來(lái)更有效地構(gòu)建一個(gè)兩階段檢測(cè)器。

      另一方面,One-stage檢測(cè)方法從YOLO開(kāi)始被推廣,最具代表性的方法就是YOLO和SSD。它們基于整個(gè)特征圖預(yù)測(cè)多個(gè)對(duì)象的置信度和位置,這兩種檢測(cè)器都采用了輕量級(jí)的網(wǎng)絡(luò)架構(gòu)來(lái)加速,而它們的檢測(cè)精度明顯落后于頂級(jí)的Two-stage 方法。最近更為先進(jìn)的One-stage檢測(cè)器如DSSD和RetinaNet通過(guò)更深層的ResNet-101和應(yīng)用一些技術(shù),例如反卷積和Focalloss來(lái)更新它們的輕便網(wǎng)絡(luò)架構(gòu),這些方法在檢測(cè)效果的精度上甚至超過(guò)了一些頂級(jí)two-stage方法。然而,這種性能的提高在很大程度上犧牲了它們的速度優(yōu)勢(shì)。

      2.2 Receptivefield

      現(xiàn)有一些深度學(xué)習(xí)模型為了提高檢測(cè)精度都是在以犧牲計(jì)算力為代價(jià),增加網(wǎng)絡(luò)深度。在這項(xiàng)研究中,我們的目標(biāo)是在不引起太多計(jì)算負(fù)擔(dān)的情況下提高高速單級(jí)探測(cè)器的性能。因此,人為修改網(wǎng)絡(luò)以加強(qiáng)網(wǎng)絡(luò)特征表征能力是替代增加網(wǎng)絡(luò)深度最好的方法。感受野是卷積神經(jīng)網(wǎng)絡(luò)中重要的概念,感受野被定義為神經(jīng)網(wǎng)絡(luò)特征所能看到的輸入圖像區(qū)域,對(duì)于感受野在CNN的相關(guān)研究在早期已經(jīng)出現(xiàn),最相關(guān)的是Inception[16]家族,ASPP[17]和Deformable CNN[18]。Inception塊采用具有不同內(nèi)核大小的多個(gè)分支來(lái)捕獲多尺度信息。但是,所有的內(nèi)核都是在同一個(gè)中心采樣的,這就需要更大的內(nèi)核來(lái)達(dá)到相同的采樣覆蓋率,從而丟失了一些關(guān)鍵的細(xì)節(jié)。對(duì)于ASPP,擴(kuò)展卷積改變了從中心到中心的采樣距離,但是這些特征和以前相同核大小的卷積層有著相同的分辨率,這使得在所有位置的線(xiàn)索都被同等對(duì)待,可能導(dǎo)致對(duì)象和上下文之間的混淆。Deformable CNN學(xué)習(xí)單個(gè)物體的不同分辨率,但不幸的是有著和ASPP一樣的缺點(diǎn)。Trident Networks[19]為了探討感受野對(duì)檢測(cè)結(jié)果的影響,對(duì)于不同尺度的物體,使用不同擴(kuò)張率的空洞卷積來(lái)控制網(wǎng)絡(luò)的感受野,其結(jié)果表明不同尺度對(duì)象的性能受網(wǎng)絡(luò)接受域的影響,最適宜的感受野與物體的尺度有很強(qiáng)的相關(guān)性??梢缘贸龅慕Y(jié)論是,通過(guò)調(diào)大物體的有效感受野,從而影響小物體的表現(xiàn)。

      2.3 Dilated convolution

      空洞卷積通過(guò)在稀疏采樣位置進(jìn)行卷積,以原始權(quán)重放大卷積核,從而在不增加額外成本的情況下增大了感受野的大小,因此,針對(duì)感受野的改善,我們統(tǒng)一采取的方法是使用空洞卷積(Dilated convolution)??斩淳矸e在語(yǔ)義分割中得到了廣泛的應(yīng)用,它可以整合大量的上下文信息。DetNet[22]設(shè)計(jì)了一個(gè)特定的檢測(cè)骨干網(wǎng)絡(luò)來(lái)保持空間分辨率,并使用空洞卷積放大感受野。在本文的工作中,我們使用多分支并行的架構(gòu),在分支中使用不同擴(kuò)張率的空洞卷積來(lái)適應(yīng)不同尺度的對(duì)象感受野。

      2.4 SSD(Single shot multibox detector)結(jié)構(gòu)

      SSD是一種One-stage目標(biāo)檢測(cè)方法,One-stage算法就是目標(biāo)檢測(cè)和分類(lèi)是同時(shí)完成的,其主要思路是利用CNN提取特征后,均勻地在圖片的不同位置進(jìn)行密集抽樣,抽樣時(shí)可以采用不同尺度和長(zhǎng)寬比,物體分類(lèi)與預(yù)測(cè)框的回歸同時(shí)進(jìn)行,整個(gè)過(guò)程只需要一步,所以其優(yōu)勢(shì)是速度快。SSD采用的主干網(wǎng)絡(luò)是VGG網(wǎng)絡(luò),但與VGG的區(qū)別是,將VGG的全連接層去除替換成卷積層并去掉所有的Dropout層和FC8層并新增了四個(gè)卷積層。整體結(jié)構(gòu)如圖2所示。

      盡管SSD在保持檢測(cè)性能的同時(shí)還基本達(dá)到了和深層網(wǎng)絡(luò)檢測(cè)器相媲美的精度,但是仍然有著尺度變化帶來(lái)的問(wèn)題,在對(duì)多尺度檢測(cè)時(shí)性能并不是很好,為此,本文提出的MBRnet模型在此基礎(chǔ)上改進(jìn),通過(guò)設(shè)計(jì)并行的多分支卷積塊,增強(qiáng)網(wǎng)絡(luò)特征表征能力提高對(duì)尺度變化的檢測(cè)性能。

      3 MBRnet模型

      MBRnet模型是以SSD模型為基礎(chǔ)進(jìn)行改進(jìn),融合本文所設(shè)計(jì)的多分支卷積塊,改進(jìn)了從輕量級(jí)骨干網(wǎng)中提取的特征,并且這個(gè)多分支卷積塊是共享權(quán)重的,因此檢測(cè)速率仍舊很快。因?yàn)楦邔诱Z(yǔ)義特征表征能力更強(qiáng),因此僅在SSD網(wǎng)絡(luò)中的高層卷積層加入所設(shè)計(jì)的多分支卷積塊,從而得到更好特征表現(xiàn)的特征圖。再將得到的多尺度的特征,再添加通道注意力模塊進(jìn)行融合,使融合后的特征中既包含高層特征,又有足夠的底層語(yǔ)義。為了使有效特征通道表現(xiàn)得更好,利用注意力機(jī)制為每個(gè)通道學(xué)習(xí)一個(gè)權(quán)值從而增強(qiáng)有效通道權(quán)重。圖3給出了模型中較為主要的層。

      3.1 多分支卷積塊

      本文所提出的MBRnet模型是以SSD網(wǎng)絡(luò)為基礎(chǔ),VGG網(wǎng)絡(luò)為主骨干網(wǎng)絡(luò),將其中的一些卷積層替換為本文所設(shè)計(jì)的多分支卷積塊,并且這些分支卷積塊與原先的卷積塊有著相同的結(jié)構(gòu)但擴(kuò)張率不同。以一個(gè)單獨(dú)的多分支卷積塊為例,我們?cè)诮Y(jié)構(gòu)中應(yīng)用瓶頸結(jié)構(gòu),包含三個(gè)卷積層分別由一個(gè)1×1,3×3和1×1三個(gè)卷積核,將對(duì)應(yīng)的多分支卷積塊構(gòu)造為3×3convs的具有不同擴(kuò)張率的平行卷積塊。卷積塊的首尾采用1×1的卷積核來(lái)過(guò)濾特征圖的通道數(shù),中間的卷積核設(shè)計(jì)為3×3步長(zhǎng)為2的卷積塊。具有擴(kuò)張率ds的擴(kuò)張卷積在其連續(xù)卷積核中插入ds-1個(gè)0,從而在不增加參數(shù)和計(jì)算次數(shù)的情況下增大核的大小,具體來(lái)說(shuō),就是擴(kuò)張的3×3卷積可以與核大小為3+2(ds-1)的卷積有著相同的感受野,假設(shè)當(dāng)前特征圖的總步幅為s,則速率ds的擴(kuò)張卷積可使網(wǎng)絡(luò)的感受野增加2(ds-1)s,因此,如果我們用擴(kuò)張率ds修改n個(gè)conv層,則感受野可增加2(ds-1)sn。所以我們?cè)O(shè)置的三個(gè)卷積塊的擴(kuò)張率大小分別為1、2、3來(lái)控制感受野大小以適應(yīng)不同尺度特征圖,結(jié)構(gòu)如圖4所示。并行的三個(gè)分支卷積塊可以使我們控制不同分支的感受野,得到具有適應(yīng)性的感受野可以降低尺度變化帶來(lái)的負(fù)面影響。本文選擇在conv6和conv7替換為多分支塊,因?yàn)轫攲犹卣魉a(chǎn)生的更大的跨步會(huì)導(dǎo)致感受野的更大差異,而不在后面的conv8和conv9層繼續(xù)使用替換的卷積塊原因是后兩層的特征尺度過(guò)小而不再適用于卷積塊處理。

      使用多分支卷積塊替代原始網(wǎng)絡(luò)卷積層的一個(gè)重要問(wèn)題是會(huì)多出幾倍的參數(shù),潛在的會(huì)產(chǎn)生過(guò)擬合問(wèn)題,幸運(yùn)的是我們會(huì)在不同的分支上共享相同的結(jié)構(gòu)但卷積膨脹率不停,因此權(quán)重共享變得更簡(jiǎn)單,在多分支中應(yīng)用權(quán)重共享使得訓(xùn)練參數(shù)的減少,并且緩解了一定程度的過(guò)擬合問(wèn)題,使得檢測(cè)精度會(huì)有所定提高。共享權(quán)值的好處可以分為三點(diǎn),首先,它與我們的目的保持統(tǒng)一,即不同尺度的物體應(yīng)該以相同的表征力進(jìn)行統(tǒng)一轉(zhuǎn)換,其次,這使得與原來(lái)的檢測(cè)相比不會(huì)產(chǎn)生額外的參數(shù),最后,可以對(duì)所有來(lái)自分支的更多對(duì)象樣本訓(xùn)練轉(zhuǎn)換參數(shù),換句話(huà)說(shuō),就是在不同感受野下,對(duì)不同尺度范圍進(jìn)行相同的參數(shù)訓(xùn)練。

      3.2 通道注意力模塊

      加入多分支卷積塊之后的整個(gè)網(wǎng)絡(luò),在進(jìn)行特征提取之后會(huì)產(chǎn)生10個(gè)有效特征圖,這些特征圖即包含底層信息的特征圖,又有高層特征的特征圖,為了使最后用作檢測(cè)的特征信息更加分豐富,我們選擇引入通道注意力模塊融合多個(gè)金字塔相同尺度的特征,避免了主干網(wǎng)中的特征對(duì)檢測(cè)任務(wù)而言特征表示不夠充足的問(wèn)題,同時(shí)特征包含了高低層語(yǔ)義和細(xì)節(jié)信息,這樣既利于檢測(cè)框的準(zhǔn)確生成也利于網(wǎng)絡(luò)分辨目標(biāo)和背景。融合的特征通道不同作用不同,為了加強(qiáng)通道特征表示,這里使用SEnet[20]所提出的Squeeze-and-Excitation模型,通過(guò)學(xué)習(xí)的方式自動(dòng)獲取每個(gè)通道特征的重要程度融合不同通道的特征。

      通道注意力模塊結(jié)構(gòu)如圖5所示。這里給出具體的處理方法,多個(gè)特征金字塔中寬高為10通道數(shù)為256的特征經(jīng)過(guò)concat操作融合成寬高為10通道數(shù)為256的融合特征,之后經(jīng)過(guò)Attention機(jī)制增強(qiáng)不同通道的效果,最終用作檢測(cè)層。Attention的實(shí)現(xiàn)方式,將需要融合特征作為輸入進(jìn)行Squeeze操作即全局平均池化使之成為寬高為1通道數(shù)保持為2560,之后進(jìn)行Excitation操作,經(jīng)過(guò)兩個(gè)全連接層和一個(gè)ReLU函數(shù)激活層,其中,經(jīng)過(guò)第一個(gè)FC層之后的輸出維數(shù)變?yōu)樵瓉?lái)的1/16,最后一個(gè)FC層再將其維數(shù)恢復(fù)一次來(lái)進(jìn)行編碼和解碼操作同時(shí)不會(huì)產(chǎn)生太多計(jì)算量,最后再經(jīng)過(guò)一個(gè)Sigmoid函數(shù)求得融合特征的每個(gè)通道的注意力權(quán)值。

      4 實(shí)驗(yàn)結(jié)果及分析

      我們主要在Pascal VOC 2007和MS COCO數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),兩個(gè)數(shù)據(jù)集分別有20和80個(gè)對(duì)象類(lèi)別。在VOC 2007中,如果IoU與GT(Ground Truth)的交點(diǎn)大于0.5,則預(yù)測(cè)邊界框?yàn)檎?而在COCO中,則使用不同的閾值進(jìn)行更全面的計(jì)算,評(píng)價(jià)檢測(cè)性能的指標(biāo)是平均精度(mAP)。我們以Pytorch深度學(xué)習(xí)框架實(shí)現(xiàn)MRBnet,并利用SSD提供的開(kāi)源基本設(shè)施,我們的訓(xùn)練策略也主要遵循SSD包括數(shù)據(jù)擴(kuò)充、難分樣本挖掘(hard negative mining)、尺度和默認(rèn)框的寬高比例以及Loss函數(shù)。

      模型batch-size設(shè)置為32。為了防止loss爆炸,學(xué)習(xí)率采用分布策略,初始學(xué)習(xí)率根原始SSD設(shè)置一樣10-3,此后在10、150和200個(gè)epoch時(shí)學(xué)習(xí)率每次衰減為原來(lái)的十分之一,前5個(gè)epoch的學(xué)習(xí)率從10-6逐漸升至4×10-3。參數(shù)衰減值(weight-decay)為0.0005,動(dòng)量因子(momentum)為0.9。

      4.1 多分支卷積塊和通道注意力模塊有效性驗(yàn)證

      為驗(yàn)證所提出的方法有效性,我們?cè)赑ascal voc 2007數(shù)據(jù)集上分別做了多組實(shí)驗(yàn)驗(yàn)證了各模塊的有效性,結(jié)果如表1所示。為了更好地理解多分支卷積塊,我們以原始SSD作為對(duì)比,帶有新數(shù)據(jù)擴(kuò)充的SSD300*在數(shù)據(jù)集上達(dá)到77.2%mAP,通過(guò)簡(jiǎn)單的加入多分支卷積塊后,結(jié)果改進(jìn)到79.1%mAP,獲得1.9%的提升,這說(shuō)明多分支卷積塊在檢測(cè)方面是有效地。加入通道注意力模塊后,檢測(cè)結(jié)果有著0.9%的提升,同樣說(shuō)明通道注意力模塊可以有效提升檢測(cè)率。當(dāng)同時(shí)引入提出的這兩種模塊之后,我們的MRBnet在數(shù)據(jù)集上達(dá)到了80.1%mAP。充分證明,提出的這兩種模塊都有效提升了檢測(cè)精度。

      4.2 Pascal VOC 2007實(shí)驗(yàn)結(jié)果對(duì)比

      表1展示了現(xiàn)階段各主流檢測(cè)器在Pascal VOC 2007測(cè)試集與我們的結(jié)果之間的比較。SSD300*為更新后的SSD結(jié)果,增加了[2]的數(shù)據(jù)擴(kuò)充,縮小了圖像以創(chuàng)建更多的小示例。為了公平的比較,我們使用Pytorch-0.3.0和CUDNN V6重新實(shí)現(xiàn)了SSD,環(huán)境與MBRnet相同。通過(guò)整合卷積層,我們的基本模型,以80.1%的地圖性能優(yōu)于SSD和YOLO,同時(shí)保持SSD300的實(shí)時(shí)速度。它甚至達(dá)到了與R-FCN相同的精度,R-FCN是兩階段框架下的高級(jí)模型。結(jié)果表明MRBnet比大多數(shù)一階段和兩階段的目標(biāo)檢測(cè)系統(tǒng)要好,同時(shí)并以高速運(yùn)行。

      4.3 Microsoft COCO實(shí)驗(yàn)結(jié)果對(duì)比

      為了進(jìn)一步驗(yàn)證所提出的MRBnet模型有效性,我們?cè)贛S COCO數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。我們使用trainval35k set (train set +val35k set)進(jìn)行訓(xùn)練,同樣的將batch-size設(shè)置為32,我們保持原來(lái)的SSD策略,減少默認(rèn)框的大小,因?yàn)镃OCO中的對(duì)象比PASCAL VOC中的對(duì)象小。

      從下表可以看出,MRBnet在test-dev集上達(dá)到了30.8%/51.2%,基準(zhǔn)已經(jīng)大大超越了SSD 300*,甚至與擁有深度骨干網(wǎng)絡(luò)的R-FCN相比都有一定優(yōu)勢(shì),而檢測(cè)速率上與R-FCN相比有著優(yōu)越的提升。與大模型相比MRBnet的結(jié)果略低于模型RetinaNet500(31.4%vs30.6%),但值得注意的是,RetinaNet500使用了較深的殘差網(wǎng)絡(luò)ResNet-101+FPN結(jié)構(gòu)和新的loss使得學(xué)習(xí)的重點(diǎn)在困難樣本(hard example),而我們的網(wǎng)絡(luò)只是輕量級(jí)的VGG模型。另一方面,MRBnet檢測(cè)平均消耗只有30ms,而RetinaNet500則需要90ms。同時(shí),可以觀察到所提出的MRBnet模型對(duì)不同尺度下的檢測(cè)精度與原SSD和Two-stage方法相比都有所提升。通過(guò)以上各方法之間結(jié)果對(duì)比,MRBnet使用的多分支卷積塊和通道注意力模塊有效提升了各類(lèi)檢測(cè)精度,并在面對(duì)多尺度任務(wù)時(shí)可以出色完成檢測(cè)任務(wù)。

      5 結(jié)語(yǔ)

      目標(biāo)檢測(cè)中多尺度問(wèn)題一直影響檢測(cè)器的檢測(cè)精度,本文所提出的多分支卷積塊和通道注意力模塊在數(shù)據(jù)集上表現(xiàn)出良好的檢測(cè)效果,在VOC 2007和Microsoft COCO數(shù)據(jù)集上檢測(cè)精度較One-stage許多方法相比都有明顯提升效果,檢測(cè)精度可以與Two-stage相媲美,在實(shí)時(shí)性和準(zhǔn)確度上成績(jī)都非常優(yōu)秀?,F(xiàn)階段卷積神經(jīng)網(wǎng)絡(luò)仍然因網(wǎng)絡(luò)層數(shù)過(guò)深、訓(xùn)練參數(shù)過(guò)多導(dǎo)致模型實(shí)用性差,需依賴(lài)高性能設(shè)備做推理,如何通過(guò)剪枝壓縮模型計(jì)算量是下一步的研究方向。

      ——————————

      參考文獻(xiàn):

      〔1〕Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun.Faster R-CNN: Towards real-time object detection with regionproposal networks. In NIPS, 2015.

      〔2〕Wei Liu, Dragomir Anguelov, Dumitru Erhan, ChristianSzegedy, Scott Reed, Cheng-Yang Fu, and Alexander CBerg. SSD: Single shot multibox detector. In ECCV, 2016.

      〔3〕J. Redmon, S. Divvala, R. Girshick, and A. Farhadi. Youonly look once: Unified, real-time object detection. arXivpreprint arXiv:1506.02640 v4, 2015.

      〔4〕Jifeng Dai, Yi Li, Kaiming He, and Jian Sun. R-FCN: Objectdetection via region-based fully convolutional networks. InNIPS, 2016.

      〔5〕Edward H Adelson, Charles H Anderson, James R Bergen,Peter J Burt, and Joan M Ogden. Pyramid methods in imageprocessing. RCA engineer, 29(06):33–41, 1984.

      〔6〕Navneet Dalal and Bill Triggs. Histograms of oriented gradientsfor human detection. In CVPR, 2005.

      〔7〕David G Lowe. Distinctive image features from scaleinvariantkeypoints. International Journal of Computer Vision,60(02):91–110, 2004.

      〔8〕Bharat Singh and Larry S Davis. An analysis of scale invariancein object detection–SNIP. In CVPR, 2018.

      〔9〕Bharat Singh, Mahyar Najibi, and Larry S Davis. SNIPER:Efficient multi-scale training. In NIPS, 2018.

      〔10〕Piotr Doll′ar, Ron Appel, Serge Belongie, and Pietro Perona.Fast feature pyramids for object detection. IEEETransactions on Pattern Analysis and Machine Intelligence, 36(08):1532–1545, 2014.

      〔11〕Tsung-Yi Lin, Piotr Doll′ar, Ross B Girshick, Kaiming He,Bharath Hariharan, and Serge J Belongie. Feature pyramidnetworks for object detection. In CVPR, 2017.

      〔12〕Ross Girshick. Fast R-CNN. In ICCV, 2015.

      〔13〕Zhaowei Cai and Nuno Vasconcelos. Cascade R-CNN: Delvinginto high quality object detection. In CVPR, 2018.

      〔14〕Zeming Li, Chao Peng, Gang Yu, Xiangyu Zhang, YangdongDeng, and Jian Sun. Light-head R-CNN: In defense of twostageobject detector. arXiv:1711.07264, 2017.

      〔15〕Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.Spatial pyramid pooling in deep convolutional networks for visual recognition. IEEE Transactions on Pattern Analysisand Machine Intelligence, 37(09):1904–1916, 2015.

      〔16〕Szegedy, C., Io_e, S., Vanhoucke, V., Alemi, A.A.: Inception-v4, inception-resnet and the impact of residual connections on learning. In: AAAI (2017).

      〔17〕Chen, L.C., Papandreou, G., Schro_, F., Adam, H.: Rethinking atrous convolution for semantic image segmentation. arXiv preprint arXiv:1706.05587 (2017).

      〔18〕Dai, J., et al.: Deformable convolutional networks. In: ICCV (2017).

      〔19〕Li Y, Chen Y, Wang N, et al. Scale-Aware Trident Networks for Object Detection[J]. 2019.

      〔20〕Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE conference on computervision and pattern recognition. 2018: 7132-7141.

      〔21〕J Redmon, A Farhadi. YOLOv3: An Incremental Improvement. 2018.

      〔22〕Zeming Li, Chao Peng, Gang Yu, Xiangyu Zhang, YangdongDeng, and Jian Sun. DetNet: Design backbone for object detection. In ECCV, 2018.

      猜你喜歡
      目標(biāo)檢測(cè)
      多視角目標(biāo)檢測(cè)與跟蹤技術(shù)的研究與實(shí)現(xiàn)
      視頻中目標(biāo)檢測(cè)算法研究
      軟件(2016年4期)2017-01-20 09:38:03
      行為識(shí)別中的人體運(yùn)動(dòng)目標(biāo)檢測(cè)方法
      移動(dòng)機(jī)器人圖像目標(biāo)識(shí)別
      基于視頻監(jiān)控的運(yùn)動(dòng)圖像檢測(cè)算法研究
      基于背景建模法的運(yùn)動(dòng)目標(biāo)檢測(cè)
      基于P3電位的目標(biāo)檢測(cè)研究
      科技視界(2016年4期)2016-02-22 13:09:19
      智能視頻技術(shù)在電力系統(tǒng)領(lǐng)域的應(yīng)用
      相關(guān)K分布雜波中擴(kuò)展目標(biāo)積累檢測(cè)性能分析
      基于連通域標(biāo)記的目標(biāo)檢測(cè)算法設(shè)計(jì)與實(shí)現(xiàn)
      河北区| 新疆| 星子县| 鲁甸县| 五家渠市| 和平县| 临颍县| 吐鲁番市| 遂昌县| 边坝县| 嘉祥县| 西安市| 苏州市| 陆丰市| 高雄市| 浦城县| 株洲市| 山丹县| 枣强县| 调兵山市| 资兴市| 自贡市| 静宁县| 紫阳县| 木里| 鄂温| 巴彦淖尔市| 孟津县| 竹溪县| 黄冈市| 萍乡市| 溧阳市| 昭平县| 海阳市| 霍州市| 乌兰县| 龙川县| 荔浦县| 长乐市| 常熟市| 瑞昌市|