• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于特征通道建模的目標(biāo)檢測(cè)方法

      2022-07-14 13:11:44張業(yè)星陳敏潘秋羽
      計(jì)算機(jī)工程 2022年7期
      關(guān)鍵詞:層級(jí)語(yǔ)義建模

      張業(yè)星,陳敏,潘秋羽

      (1.中國(guó)電建集團(tuán)華東勘測(cè)設(shè)計(jì)研究院有限公司,杭州 310000;2.浙江華東工程數(shù)字技術(shù)有限公司,杭州 310000)

      0 概述

      目標(biāo)檢測(cè)任務(wù)被定義為前景分類(lèi)與坐標(biāo)定位任務(wù)的結(jié)合,作為一項(xiàng)基礎(chǔ)的機(jī)器視覺(jué)任務(wù),其目標(biāo)是從背景信息中提取前景所屬類(lèi)別,并對(duì)每一個(gè)被判別為前景的目標(biāo)給出其所在圖像的具體位置。傳統(tǒng)的目標(biāo)檢測(cè)方法采用滑動(dòng)窗口的方式選取目標(biāo)區(qū)域,通過(guò)人工提取的區(qū)域特征進(jìn)行分類(lèi),這類(lèi)方法大都依賴(lài)個(gè)人的先驗(yàn)知識(shí)來(lái)實(shí)現(xiàn)特征提取,無(wú)法利用大數(shù)據(jù)的優(yōu)勢(shì)生成多樣性的圖像特征,在模糊、截?cái)?、小目?biāo)等復(fù)雜場(chǎng)景下的魯棒性較差。

      隨著計(jì)算機(jī)硬件以及人工智能前沿科技理論的飛速發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法[1]應(yīng)運(yùn)而生。其中典型的方法是依靠卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[2]的級(jí)聯(lián)過(guò)程抽象出圖像的特征表征,這些表征信息相比傳統(tǒng)方法[3-4]提取的特征更加豐富,且具有計(jì)算機(jī)視角下的語(yǔ)義性。該類(lèi)方法通過(guò)學(xué)習(xí)無(wú)結(jié)構(gòu)化數(shù)據(jù),依靠神經(jīng)網(wǎng)絡(luò)強(qiáng)大的擬合能力,將底層學(xué)習(xí)到的局部特征整合為頂層具有強(qiáng)語(yǔ)義的全局特征,使模型在較復(fù)雜場(chǎng)景下進(jìn)行預(yù)測(cè)時(shí)也能達(dá)到很好的效果。

      目標(biāo)檢測(cè)作為目標(biāo)跟蹤、目標(biāo)重識(shí)別、圖像語(yǔ)義分割等高級(jí)計(jì)算機(jī)視覺(jué)任務(wù)的必備前提,不僅在理論研究方面意義重大,而且在醫(yī)學(xué)成像、智能安防等應(yīng)用領(lǐng)域也體現(xiàn)出重要價(jià)值,因此國(guó)內(nèi)外的研究人員從未停止過(guò)對(duì)該任務(wù)的探索。早期基于CNN 的目標(biāo)檢測(cè)方法大多只利用了網(wǎng)絡(luò)級(jí)聯(lián)最頂層的輸出,典型方法有Fast RCNN[5]、Faster RCNN[6]、YOLO[7]以及YOLOv2[8]等,雖然這類(lèi)方法能夠精簡(jiǎn)網(wǎng)絡(luò)結(jié)構(gòu),加快模型推理速度,但由于其僅使用了單一尺度的特征圖,因此對(duì)多尺度目標(biāo)檢測(cè)的效果不太理想?;诖?,有學(xué)者提出利用多層級(jí)特征圖參與預(yù)測(cè),典型方法有SSD[9]和DSSD[10],該類(lèi)方法在一定程度上改善了多尺度檢測(cè)效果,但因?yàn)橹苯訁⑴c預(yù)測(cè)的底層特征圖語(yǔ)義信息過(guò)弱、頂層特征圖分辨率太低,所以效果提升有限。

      早期利用單一特征圖進(jìn)行預(yù)測(cè)的方法忽略了不同粒度特征間的互補(bǔ)性,且未對(duì)CNN 級(jí)聯(lián)路徑上被稀釋的細(xì)粒度信息做補(bǔ)充,對(duì)小目標(biāo)檢測(cè)時(shí)效果較差。近年來(lái)特征融合的檢測(cè)方法成為了主流,該類(lèi)方法在對(duì)網(wǎng)絡(luò)歷史特征進(jìn)行復(fù)用的同時(shí),還將頂層的抽象語(yǔ)義信息和底層的細(xì)節(jié)信息進(jìn)行融合,提升了原始特征的表達(dá)力,常見(jiàn)的應(yīng)用案例有FPN[11]、FSSD[12]、RSSD[13]、YOLOv3[14]等。融合后的特征圖能同時(shí)具備多種強(qiáng)度的語(yǔ)義特征,使模型在后續(xù)預(yù)測(cè)時(shí)每一特征層級(jí)均有適用的特征信息,從而讓整體的預(yù)測(cè)任務(wù)變得靈活。

      雖然這些依賴(lài)融合建模的檢測(cè)方法在CNN 級(jí)聯(lián)階段利用通道拼接、逐像素相加等方式促使頂層強(qiáng)語(yǔ)義特征與底層弱語(yǔ)義特征進(jìn)行交互,但由于該類(lèi)方法將融合后的特征圖直接用于分類(lèi)和回歸,忽略了圖像通道建模對(duì)模型預(yù)測(cè)的影響,因此也遺留了一些顯著性問(wèn)題,如圖像邊緣被截?cái)嗷蛘趽跄繕?biāo)的分類(lèi)不準(zhǔn)確,重疊目標(biāo)的丟失或定位不精確等,導(dǎo)致錯(cuò)檢、漏檢現(xiàn)象普遍。

      本文在級(jí)聯(lián)網(wǎng)絡(luò)的特征提取和融合后引入通道建模技術(shù),通過(guò)對(duì)特征空間進(jìn)行不同維度的壓縮凝練,促使作用于最終預(yù)測(cè)的特征集可以最大限度地獲取目標(biāo)的上下文聯(lián)系和空間分布,進(jìn)而增強(qiáng)圖像特征表達(dá),使模型通過(guò)學(xué)習(xí)能聚焦目標(biāo)的類(lèi)別信息和位置信息,解決檢測(cè)算法中分類(lèi)出錯(cuò)、回歸不準(zhǔn)確的問(wèn)題。

      1 本文方法

      本文方法的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。本文方法對(duì)任意尺寸的圖像進(jìn)行均值標(biāo)準(zhǔn)差歸一化以及分辨率縮放預(yù)處理后,再利用ResNet-101[15]提取圖像特征,將CNN 級(jí)聯(lián)得到的特征通過(guò)自頂向下鏈接進(jìn)行融合,豐富特征金字塔各個(gè)層級(jí)的特征表達(dá)。最后對(duì)融合得到的各層級(jí)特征進(jìn)行通道建模,生成對(duì)任務(wù)目標(biāo)更有益的特征,并用于目標(biāo)預(yù)測(cè)。

      圖1 本文方法的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of method in this paper

      本文基于泛逼近原理[16],使用深度殘差網(wǎng)絡(luò)生成更抽象、更利于分類(lèi)的特征圖集合,并構(gòu)建Top-Down自頂向下融合鏈接來(lái)促進(jìn)頂層豐富抽象語(yǔ)義的傳遞,讓偏底層的特征圖能夠獲得頂層強(qiáng)語(yǔ)義的補(bǔ)充,增強(qiáng)對(duì)小目標(biāo)進(jìn)行預(yù)測(cè)的能力。此外,本文對(duì)融合后的特征空間進(jìn)行通道建模,具體建模方式如圖2 所示,該方法設(shè)計(jì)了2 個(gè)平行的處理分支,分別是廣度通道建模分支(Breadth Channel Modeling Branch,BCMB)與深度通道建模分支(Depth Channel Modeling Branch,DCMB),這讓經(jīng)過(guò)建模后的特征圖能夠忽略大多數(shù)的低質(zhì)量特征,從而更關(guān)注目標(biāo)感受野的空間和上下文信息,對(duì)圖像中潛在目標(biāo)的位置和類(lèi)別信息敏感。

      圖2 特征通道建模Fig.2 Feature channel modeling

      1.1 廣度通道建模分支

      單一CNN 結(jié)構(gòu)提取出的特征對(duì)于原始信息的描述會(huì)隨著網(wǎng)絡(luò)的加深變得越來(lái)越抽象,這對(duì)于目標(biāo)類(lèi)別的描述是有利的,但隨著高層特征圖的感受野逐漸變大,分辨率卻逐漸變低,導(dǎo)致對(duì)小目標(biāo)的位置預(yù)測(cè)產(chǎn)生偏差?;诖耍疚脑O(shè)計(jì)了BCMB 模塊對(duì)多層級(jí)的感受野建立特征矩陣,通過(guò)對(duì)圖像的各層級(jí)特征進(jìn)行編碼,進(jìn)而豐富空間信息關(guān)聯(lián)。BCMB 的具體結(jié)構(gòu)如圖3 所示,該模塊通過(guò)對(duì)特征空間的各個(gè)層級(jí)進(jìn)行壓縮來(lái)構(gòu)建特征通道圖,并將通道圖的信息附加在原始特征圖上,使建模后的特征能夠利用層級(jí)間的關(guān)系互相增進(jìn)各自描述的信息質(zhì)量,進(jìn)而讓模型更聚焦于潛在目標(biāo)的空間信息。

      圖3 廣度通道建模分支的結(jié)構(gòu)Fig.3 Structure of breadth channel modeling branch

      具體來(lái)說(shuō),BCMB 模塊的輸入尺寸是自頂向下融合建模后各層級(jí)特征圖按深度分割后尺寸的1/2,為W×H×128 像素,其后緊跟了一個(gè)并列的均值計(jì)算與最大值計(jì)算分支對(duì)輸入特征圖的通道維度進(jìn)行壓縮,并生成能對(duì)原圖像通用特征和顯著特征進(jìn)行描述的通道矩陣。網(wǎng)絡(luò)對(duì)2 個(gè)矩陣進(jìn)行逐像素相加,并通過(guò)sigmoid 非線性激活函數(shù)生成像素點(diǎn)映射到原層級(jí)特征圖中對(duì)應(yīng)位置的通道圖,最后將原輸入特征與通道圖進(jìn)行加權(quán)融合,得到BCMB 模塊的最終輸出。

      1.2 深度通道建模分支

      傳統(tǒng)級(jí)聯(lián)生成的特征圖由于CNN 的局部感知特性,需累積經(jīng)過(guò)多層后才能對(duì)整幅圖像的不同區(qū)域建立關(guān)聯(lián)。本文方法中DCMB 模塊的提出利用global avg pooling 與global max pooling 在特征圖的深度維度統(tǒng)計(jì)圖像的全局特征,進(jìn)而豐富特征空間對(duì)原圖像上下文信息的表達(dá),加強(qiáng)模型對(duì)目標(biāo)類(lèi)別的判斷。本文將特征金字塔中各個(gè)特征層級(jí)的通道圖均視作特定的場(chǎng)景描述,利用DCMB 模塊挖掘該類(lèi)場(chǎng)景之間描述的關(guān)系,突出相互依賴(lài)的特征圖,在提高特定語(yǔ)義表示的同時(shí)聚焦?jié)撛谀繕?biāo)的類(lèi)別信息。DCMB 模塊的具體結(jié)構(gòu)如圖4 所示,本文在通道建模時(shí)使用全局的池化操作替代常規(guī)的卷積操作,從而保留各個(gè)通道之間的依賴(lài)信息,增強(qiáng)圖像特征對(duì)各層級(jí)語(yǔ)義的響應(yīng)能力。

      圖4 深度通道建模分支的結(jié)構(gòu)Fig.4 Structure of depth channel modeling branch

      DCMB 模塊的具體實(shí)現(xiàn)過(guò)程與BCMB 模塊類(lèi)似,其輸入是特征融合后各層級(jí)特征圖按深度分割后的另一半,不同之處在于經(jīng)過(guò)全局池化運(yùn)算后,DCMB 模塊得到的2 個(gè)特征圖在深度上的大小保持不變,而寬度和高度上的大小坍縮成了1 個(gè)點(diǎn)。本文方法將全局池化后得到的通道向量輸入2 個(gè)全連接層進(jìn)行運(yùn)算,對(duì)其進(jìn)行逐像素相加和sigmoid 非線性激活以擬合通道間關(guān)聯(lián)強(qiáng)度,并通過(guò)將通道圖與最初的輸入特征進(jìn)行加權(quán)相乘,豐富輸出特征中蘊(yùn)含的各通道間相關(guān)性以及信息表達(dá)力。

      1.3 網(wǎng)絡(luò)預(yù)測(cè)

      本文方法采取一階段的檢測(cè)方式,在通道建模完成的特征圖后添加了cls-subnet 與reg-subnet 兩個(gè)平行的子網(wǎng),進(jìn)行最終的目標(biāo)分類(lèi)和邊框回歸,其預(yù)測(cè)模塊的結(jié)構(gòu)如圖5 所示,2 個(gè)分支的頭部共享網(wǎng)絡(luò)參數(shù)除了最后一層的輸出維度之外,其他結(jié)構(gòu)完全相同。

      圖5 分類(lèi)與回歸子網(wǎng)的結(jié)構(gòu)Fig.5 Structure of classification and regression subnet

      分類(lèi)與回歸子網(wǎng)共享參數(shù)的頭部由4 個(gè)kernel size=3 的卷積層組成,其中每個(gè)卷積層后緊跟的是ReLU 非線性激活操作。2 個(gè)分支的最后一個(gè)卷積層分別用于預(yù)測(cè)目標(biāo)的類(lèi)別分?jǐn)?shù)和坐標(biāo)偏移量。圖5中W、H表示當(dāng)前層級(jí)中特征圖的寬高尺度,A表示錨點(diǎn)框的數(shù)量,K表示待檢測(cè)的類(lèi)別總數(shù)。

      2 實(shí)驗(yàn)結(jié)果與分析

      2.1 實(shí)驗(yàn)環(huán)境

      本文實(shí)驗(yàn)所使用的軟硬件環(huán)境為L(zhǎng)INUX 64 bit操作系統(tǒng)Ubuntu 16.04,Intel?Xeon?Platinum 8163 CPU 2.5 GHz 處理器,NVIDIA Tesla V100 32 GB GPU。實(shí)驗(yàn)程序在Pytorch[17]深度學(xué)習(xí)框架下使用Python 編程語(yǔ)言實(shí)現(xiàn)。

      2.2 實(shí)驗(yàn)細(xì)節(jié)

      2.2.1 正負(fù)樣本平衡策略

      對(duì)于目標(biāo)檢測(cè)任務(wù)而言,在錨點(diǎn)的篩選階段,隸屬于背景的錨點(diǎn)會(huì)占據(jù)樣本空間的大半部分,這使得大量的負(fù)樣本在訓(xùn)練過(guò)程中占據(jù)了主導(dǎo)地位,從而覆蓋正樣本的損失并壓垮分類(lèi)器性能。針對(duì)該問(wèn)題,本文方法引入困難樣本在線挖掘(Online Hard Example Mining,OHEM)技術(shù)[18]平衡正負(fù)樣本數(shù)量,即先對(duì)負(fù)樣本的損失按照從大到小排序,然后根據(jù)正樣本數(shù)量選取一定比例負(fù)樣本的損失進(jìn)行反向傳播。本文實(shí)驗(yàn)中選取的正負(fù)樣本比例為1/3,通過(guò)實(shí)驗(yàn)證實(shí),該策略的使用確實(shí)使分類(lèi)器的訓(xùn)練變得穩(wěn)定。

      2.2.2 損失函數(shù)

      模型訓(xùn)練時(shí)的損失函數(shù)選取的是Multibox Loss,其計(jì)算式如式(1)所示:

      其中:Lcls計(jì)算的是分類(lèi)損失,函數(shù)原型是Softmax Loss;Lreg計(jì)算的是回歸損失,函數(shù)原型是SmoothL1Loss;p的取值為0 或1,表示所匹配的邊框是否屬于待檢測(cè)類(lèi)別;c表示cls-subnet 預(yù)測(cè)的目標(biāo)類(lèi)別置信度;l表示reg-subnet 預(yù)測(cè)的目標(biāo)位 置;g表示真實(shí)的目標(biāo)位置;N表示匹配到的邊框總數(shù)。

      2.2.3 超參數(shù)設(shè)置

      本文實(shí)驗(yàn)采用端到端的訓(xùn)練方法,對(duì)特征圖進(jìn)行嚴(yán)格的通道建模,使其能夠?qū)D像的位置信息和類(lèi)別信息敏感。網(wǎng)絡(luò)訓(xùn)練過(guò)程中Backbone 的初始化采用了Image Net[19]的預(yù)訓(xùn)練參數(shù),其他網(wǎng)絡(luò)部分的初始化使用的是μ=0,σ=0.01 的正太分布,數(shù)據(jù)集使用的是PASCAL VOC[20]2007 和PASCAL VOC 2012 的訓(xùn)練集,批處理數(shù)量設(shè)置為24,初始學(xué)習(xí)率為0.001,最大迭代次數(shù)為40 000,學(xué)習(xí)率的衰減尺度為25 000、35 000,nms[21]閾值為0.45,優(yōu)化動(dòng)量參數(shù)為0.9。詳細(xì)訓(xùn)練流程如下:

      1)對(duì)PASCAL VOC 2007 和PASCAL VOC 2012數(shù)據(jù)集的訓(xùn)練集圖像進(jìn)行均值和標(biāo)準(zhǔn)差歸一化預(yù)處理,初始圖像三通道所對(duì)應(yīng)的均值參數(shù)為means=[0.485,0.456,0.406],標(biāo)準(zhǔn)差參數(shù)為stds=[0.229,0.224,0.225]。

      2)利用數(shù)據(jù)增強(qiáng)將網(wǎng)絡(luò)讀取的每個(gè)批次的訓(xùn)練圖像以0.5 的概率進(jìn)行水平翻轉(zhuǎn)處理。

      3)將預(yù)處理完成的圖像分辨率大小進(jìn)行標(biāo)準(zhǔn)化,Backbone 的輸入大小固定為600,經(jīng)過(guò)CNN 級(jí)聯(lián)后Backbone每階段的輸出特征圖尺度為{3002,1502,752,382,192},對(duì)應(yīng)了金字塔{C1,C2,C3,C4,C5}中的每個(gè)特征層級(jí),其中{C1,C2}由于所處位置過(guò)于底層,對(duì)機(jī)器而言語(yǔ)義不夠抽象,且包含的數(shù)據(jù)量太大,在一定程度上影響了網(wǎng)絡(luò)的收斂,故后續(xù)不對(duì)其進(jìn)行建模。

      4)采用k=3 的kmeans 算法對(duì)PASCAL VOC 數(shù)據(jù)集的ground truth 進(jìn)行聚類(lèi),針對(duì)金字塔各個(gè)層級(jí)特征圖的每個(gè)像素點(diǎn)生成單一尺度,將{1/2,1/1,2/1}3 縱橫比的聚類(lèi)錨點(diǎn)用于訓(xùn)練。

      5)訓(xùn)練過(guò)程中對(duì)學(xué)習(xí)率的調(diào)整遵循衰減尺度,衰減因子為1/10。

      6)采用帶動(dòng)量機(jī)制的SGD[22]算法對(duì)損失函數(shù)進(jìn)行優(yōu)化,直到網(wǎng)絡(luò)收斂獲得最優(yōu)的模型參數(shù)。

      2.3 實(shí)驗(yàn)結(jié)果

      2.3.1 消融實(shí)驗(yàn)對(duì)比

      本文設(shè)計(jì)消融實(shí)驗(yàn)來(lái)衡量算法所提出的BCMB 與DCMB 模塊對(duì)最終檢測(cè)結(jié)果的影響,使用公開(kāi)數(shù)據(jù)集PASCAL VOC 作為訓(xùn)練、測(cè)試樣本,采用平均精度均值(mean Average Precision,mAP)[23]作為定量評(píng)估指標(biāo),測(cè)試時(shí)IOU 閾值選取為0.5,實(shí)驗(yàn)結(jié)果如表1 所示,其中Baseline 為未使用特征通道建模方法的鏈?zhǔn)饺诤辖Y(jié)構(gòu),“?”表示未使用,“√”表示使用。

      表1 消融實(shí)驗(yàn)結(jié)果對(duì)比Table 1 Comparison of ablation experimental results %

      由表1 可知,本文所提特征通道建模方法對(duì)于目標(biāo)檢測(cè)任務(wù)而言是一個(gè)正面的改進(jìn),BCMB 與DCMB的使用讓最終檢測(cè)算法取得了85.8%的mAP 值,相比Baseline 方法,本文方法的mAP 值漲幅高達(dá)3.2 個(gè)百分點(diǎn)。本文方法以特征通道建模為切入點(diǎn),利用不同維度的全局池化來(lái)構(gòu)建基于廣度和深度的通道建模分支,從而讓模型在通過(guò)訓(xùn)練之后能更加關(guān)注目標(biāo)本身,對(duì)其位置和類(lèi)別信息敏感。圖6 所示為Baseline 方法與本文改進(jìn)后方法在PASCAL VOC 2007 測(cè)試數(shù)據(jù)集中的檢測(cè)樣例對(duì)比(彩色效果見(jiàn)《計(jì)算機(jī)工程》官網(wǎng)HTML版本),由圖6 可知本文方法在多種檢測(cè)場(chǎng)景下均具一定優(yōu)勢(shì)。

      圖6 不同方法在VOC 2007 測(cè)試數(shù)據(jù)集下的檢測(cè)樣例對(duì)比Fig.6 Comparison of detection examples of different methods under VOC 2007 test data set

      2.3.2 SOTA 檢測(cè)方法對(duì)比

      將本文方法與其他SOTA 檢測(cè)方法進(jìn)行對(duì)比,實(shí)驗(yàn)中的訓(xùn)練集采用的是公開(kāi)數(shù)據(jù)集PASCAL VOC 2007 與PASCAL VOC 2012 的混合數(shù)據(jù)集,測(cè)試集采用了PASCAL VOC 2007 的公開(kāi)測(cè)試集,實(shí)驗(yàn)結(jié)果如表2 所示。由表2 可知,本文方法具有最高的mAP 值。其中SSD 方法由于未使用融合建模,所以mAP 偏低,而FPN、FSSD、RSSD 方法利用了融合建模獲得各層級(jí)豐富的特征語(yǔ)義,所以檢測(cè)精度得到了一定提升。本文方法以圖像通道的表達(dá)力為切入點(diǎn),在通道建模的基礎(chǔ)上引入不同維度的融合分支,通過(guò)設(shè)計(jì)BCMB 和DCMB 模塊對(duì)圖像特征進(jìn)行廣度和深度方向的信息增強(qiáng),促使級(jí)聯(lián)特征圖能夠更好地捕捉前景目標(biāo)的空間及上下文信息,因此取得了最高mAP 值。但由于模型選取的骨干網(wǎng)絡(luò)是較深的ResNet-101,且采用了不同維度的通道建模融合,使得網(wǎng)絡(luò)的計(jì)算量驟增,制約了模型推理速度的提高,在GPU 下幀率為10.2 frame/s。

      表2 不同方法的實(shí)驗(yàn)結(jié)果對(duì)比Table 2 Comparison of experimental results of different methods

      本文方法利用新設(shè)計(jì)的BCMB 與DCMB 模塊生成聚焦特定信息的圖像通道特征圖,并將該通道圖與特征金字塔進(jìn)行逐層級(jí)的加權(quán)融合,豐富特征空間的表達(dá)力。圖7 給出了本文方法在PASCAL VOC 2007 測(cè)試數(shù)據(jù)集中的檢測(cè)樣例(彩色效果見(jiàn)《計(jì)算機(jī)工程》官網(wǎng)HTML 版本),可以看出,本文方法在截?cái)唷⒅丿B、遮擋等場(chǎng)景下均取得了不錯(cuò)的檢測(cè)效果。

      圖7 本文方法在PASCAL VOC 2007 測(cè)試數(shù)據(jù)集下的檢測(cè)樣例Fig.7 Test sample of method in this paper under PASCAL VOC 2007 test data set

      3 結(jié)束語(yǔ)

      直接利用多尺度融合特征圖進(jìn)行目標(biāo)預(yù)測(cè)時(shí)魯棒性較差,為此,本文提出一種基于特征通道建模的目標(biāo)檢測(cè)方法。對(duì)高維度圖像特征進(jìn)行通道層級(jí)的建模,通過(guò)設(shè)計(jì)BCMB 和DCMB 模塊,分別構(gòu)建聚焦目標(biāo)位置信息的通道矩陣和聚焦目標(biāo)類(lèi)別信息的通道向量。將建模得到的通道權(quán)重與待預(yù)測(cè)特征進(jìn)行加權(quán)融合,使最終的特征圖對(duì)任務(wù)目標(biāo)的預(yù)測(cè)信息更敏感,提高分類(lèi)和回歸子網(wǎng)的學(xué)習(xí)效果,從而在多數(shù)場(chǎng)景下達(dá)到較高的預(yù)測(cè)精度。在公開(kāi)數(shù)據(jù)集PASCAL VOC 2007 和PASCAL VOC 2012上的實(shí)驗(yàn)結(jié)果表明,本文方法的mAP 值為85.8%,與未使用通道建模的Baseline 方法相比,最高增長(zhǎng)幅度為3.2 個(gè)百分點(diǎn)。本文方法本質(zhì)上是在深度神經(jīng)網(wǎng)絡(luò)的級(jí)聯(lián)過(guò)程中引入特征通道建模方法,從而使模型學(xué)習(xí)到的特征聚焦于目標(biāo)物體本身。但由于通道建模對(duì)象是整個(gè)特征空間的特征圖,難免會(huì)使模型的推理速度受到影響,因此并不適合對(duì)實(shí)時(shí)性要求高的檢測(cè)場(chǎng)景。下一步將引入不基于錨點(diǎn)框的檢測(cè)方法,即不預(yù)先假設(shè)候選區(qū)域的長(zhǎng)寬縱橫比,而是直接對(duì)不同尺度特征圖的目標(biāo)中心點(diǎn)和寬高進(jìn)行回歸,從而在保證預(yù)測(cè)精度的同時(shí),簡(jiǎn)化模型復(fù)雜度,提高預(yù)測(cè)速度。

      猜你喜歡
      層級(jí)語(yǔ)義建模
      軍工企業(yè)不同層級(jí)知識(shí)管理研究實(shí)踐
      聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃?chǎng)中做圓周運(yùn)動(dòng)”為例
      基于軍事力量層級(jí)劃分的軍力對(duì)比評(píng)估
      語(yǔ)言與語(yǔ)義
      基于PSS/E的風(fēng)電場(chǎng)建模與動(dòng)態(tài)分析
      電子制作(2018年17期)2018-09-28 01:56:44
      不對(duì)稱(chēng)半橋變換器的建模與仿真
      “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
      任務(wù)期內(nèi)多層級(jí)不完全修復(fù)件的可用度評(píng)估
      認(rèn)知范疇模糊與語(yǔ)義模糊
      三元組輻射場(chǎng)的建模與仿真
      门源| 屯门区| 宁远县| 吴川市| 德格县| 买车| 新源县| 沾化县| 淄博市| 尉犁县| 井冈山市| 遂平县| 巴东县| 阜新| 咸宁市| 巢湖市| 黎平县| 玉树县| 久治县| 海宁市| 那曲县| 东台市| 太康县| 庄河市| 荣昌县| 呼玛县| 康乐县| 德兴市| 顺义区| 开江县| 依兰县| 泸溪县| 塘沽区| 山东省| 静海县| 视频| 宁陵县| 美姑县| 合川市| 张家口市| 长丰县|