• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      密集場(chǎng)景的雙通道耦合目標(biāo)檢測(cè)算法

      2020-03-01 06:43:40劉潔瑜魏文曉
      關(guān)鍵詞:密集邊框實(shí)例

      劉潔瑜,魏文曉,趙 彤,沈 強(qiáng)

      (1.火箭軍工程大學(xué),西安 710025;2.北部戰(zhàn)區(qū)聯(lián)合作戰(zhàn)指揮中心,沈陽(yáng) 110000)

      圖像制導(dǎo)是目前精確制導(dǎo)系統(tǒng)中常用的制導(dǎo)方式之一,通過(guò)安裝在制導(dǎo)武器導(dǎo)引頭的攝像機(jī)實(shí)施拍攝地面信息,對(duì)獲取的圖像進(jìn)行實(shí)時(shí)分析處理確定目標(biāo)的位置信息,因此目標(biāo)檢測(cè)算法既要有高實(shí)時(shí)性又要有高精確度[1]。在空對(duì)地這類(lèi)特殊場(chǎng)景下,圖像中包含的背景信息變化多樣(光照,遮擋等),目標(biāo)尺度較小,分布密集的目標(biāo)較多,加大了檢測(cè)難度。

      近些年,深度學(xué)習(xí)技術(shù)發(fā)展迅猛,特別是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)能夠自動(dòng)學(xué)習(xí)結(jié)構(gòu)化特征,在計(jì)算機(jī)視覺(jué)領(lǐng)域發(fā)展迅速。將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到檢測(cè)任務(wù),充分利用了卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力[2]。隨后目標(biāo)檢測(cè)領(lǐng)域的發(fā)展趨于兩大類(lèi)檢測(cè)算法,一類(lèi)是雙階段算法,檢測(cè)精度較高,但由于其分為兩個(gè)階段進(jìn)行分類(lèi)預(yù)測(cè),速度受限;另一類(lèi)是單階段算法,其去除了生成候選區(qū)域的階段,直接回歸預(yù)測(cè)分類(lèi),檢測(cè)速度快,但相比于雙階段算法檢測(cè)精度有一定程度的降低。為此,眾多學(xué)者通過(guò)增強(qiáng)算法中CNN 的表征能力[3,4]或者平衡正負(fù)樣本[5,6]的方法提升單階段算法的檢測(cè)精度,使其可以與雙階段算法媲美。雖然基于CNN 的單階段目標(biāo)檢測(cè)算法取得了一定的成果,但是在密集目標(biāo)和小目標(biāo)的檢測(cè)上效果不佳。為了提升對(duì)小目標(biāo)的檢測(cè)精度,2016年Liu Wei 提出了SSD[7]算法,采用了一種多尺度預(yù)測(cè)的思想,在6 個(gè)不同特征層上同時(shí)預(yù)測(cè)候選邊界,以適應(yīng)圖像中不同尺度的目標(biāo)。2017年,Tsung-Yi Lin 提出了特征金字塔網(wǎng)絡(luò)(FPN)[8],用深層特征對(duì)淺層特征的輔助作用,有效地提升了Faster R-CNN[9]檢測(cè)小目標(biāo)的精度。之后,DSSD[3],F(xiàn)SSD[10],YoloV3[11],MSSD[6],RefineDet[12],MDSSD[13]等算法分別借鑒FPN 融合上下文信息的思想,建立了多尺度特征融合結(jié)構(gòu),有效地提升了小目標(biāo)的檢測(cè)。圖1所示為利用經(jīng)典的SSD 算法和YoloV3 算法對(duì)自制空對(duì)地?cái)?shù)據(jù)集進(jìn)行密集小目標(biāo)(艦船目標(biāo))檢測(cè)的測(cè)試。

      圖1 經(jīng)典算法的檢測(cè)結(jié)果Fig.1 Test results of the classical algorithm

      從圖1(a)中可以看出,SSD 算法檢測(cè)失效,沒(méi)有檢測(cè)到一個(gè)正例。圖1(b)中,對(duì)小目標(biāo)具有很強(qiáng)魯棒性的YoloV3 算法雖然識(shí)別出部分正例,但是依舊存在大量漏檢問(wèn)題。因此針對(duì)空對(duì)地場(chǎng)景中的密集小目標(biāo)較多的特點(diǎn),本文以YoloV3 網(wǎng)絡(luò)為基礎(chǔ)算法提出一種密集場(chǎng)景聚焦的雙通道耦合目標(biāo)檢測(cè)算法,建立了密集場(chǎng)景檢測(cè)通道和實(shí)例檢測(cè)通道。模仿人眼的聚焦能力,針對(duì)空對(duì)地視角下密集分布的小目標(biāo)進(jìn)行變尺度檢測(cè)。自制空對(duì)地密集目標(biāo)數(shù)據(jù)集進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,本方法具有一定的先進(jìn)性,為密集小目標(biāo)的檢測(cè)提供了一種新思路。

      1 算法設(shè)計(jì)

      在基于CNN 的單階段目標(biāo)檢測(cè)算法中,輸入圖像的尺寸往往是固定的。一般采用線性插值的方法對(duì)輸入尺寸不同的圖片進(jìn)行重建,而對(duì)于輸入尺寸較大的圖像,這種方法極大地犧牲了圖像的質(zhì)量,很可能造成關(guān)鍵信息丟失的情況,尤其對(duì)象是密集小目標(biāo)。如果單純提升檢測(cè)算法的輸入尺寸,雖然可以解決信息丟失的問(wèn)題,但是會(huì)造成算法的復(fù)雜度劇烈升高,對(duì)計(jì)算機(jī)內(nèi)存產(chǎn)生更大消耗。為此,本文模仿人眼變分辨率檢測(cè)的思想,單獨(dú)地對(duì)圖像中難檢測(cè)區(qū)域進(jìn)行變分辨率檢測(cè)。

      在視覺(jué)搜索任務(wù)中,目標(biāo)通常隨機(jī)分布在場(chǎng)景中的任意位置。但是在真實(shí)場(chǎng)景中,目標(biāo)的位置往往是受到限制的,例如要尋找艦船目標(biāo)時(shí),通常會(huì)在水面上搜索,而不是陸地上,這便是人眼典型的情景線索輔助式搜索。人眼在對(duì)特定目標(biāo)進(jìn)行搜索時(shí),對(duì)視場(chǎng)中每個(gè)位置的關(guān)注度(分辨率)是不同的。對(duì)一些場(chǎng)景線索強(qiáng)度高的區(qū)域,眼球會(huì)相應(yīng)地進(jìn)行調(diào)整[14]。于是,這些區(qū)域的視圖相對(duì)來(lái)說(shuō)更加清晰,分布在此區(qū)域中的目標(biāo)更容易被發(fā)現(xiàn)。在空對(duì)地這類(lèi)目標(biāo)區(qū)域?qū)嵗植济芗?、區(qū)域之間分布稀疏的場(chǎng)景中,類(lèi)似人眼這種異常區(qū)域聚焦檢測(cè)的方法將取得很大優(yōu)勢(shì)。

      為了模仿人眼聚焦搜索的方法,本文設(shè)計(jì)了一種雙通道耦合的目標(biāo)檢測(cè)算法,其流程圖如圖2所示。通過(guò)YoloV3 算法檢測(cè)感興趣目標(biāo),同時(shí)也對(duì)密集場(chǎng)景區(qū)域進(jìn)行檢測(cè)。當(dāng)發(fā)現(xiàn)圖像中存在密集場(chǎng)景時(shí),保留當(dāng)前目標(biāo)檢測(cè)結(jié)果,同時(shí)將密集區(qū)域的局部圖像再次作為輸入圖像進(jìn)行檢測(cè),直到圖像中沒(méi)有檢測(cè)到密集區(qū)域。將基于YoloV3 算法得到的局部圖像的檢測(cè)結(jié)果和全局檢測(cè)結(jié)果進(jìn)行融合,得到最終的目標(biāo)選框??紤]到密集場(chǎng)景屬于情景因素,與目標(biāo)實(shí)例為不同屬性的特征,場(chǎng)景和目標(biāo)之間耦合關(guān)系也較復(fù)雜,極大地增加了檢測(cè)的難度,因此本文在網(wǎng)絡(luò)后端分為兩通道獨(dú)立地利用YoloV3 算法進(jìn)行檢測(cè)。其中一個(gè)通道檢測(cè)密集場(chǎng)景,另一個(gè)通道檢測(cè)目標(biāo)實(shí)例。

      圖2 算法流程圖Fig.2 Algorithm flow chart

      2 網(wǎng)絡(luò)結(jié)構(gòu)

      YoloV3 算法是Yolo 系列第三代算法,兼顧了速度和精度,當(dāng)輸入圖像尺寸為416×416 時(shí),在COCO 數(shù)據(jù)集上精確度達(dá)到了55.3%,而速度僅需22 ms。密集場(chǎng)景聚焦的雙通道耦合目標(biāo)檢測(cè)算法是在YoloV3 的網(wǎng)絡(luò)框架上進(jìn)行改進(jìn),將密集場(chǎng)景檢測(cè)網(wǎng)絡(luò)和目標(biāo)實(shí)例檢測(cè)網(wǎng)絡(luò)進(jìn)行一體化設(shè)計(jì),在密集區(qū)域與目標(biāo)實(shí)例之間建立耦合關(guān)系提升檢測(cè)精度,算法的結(jié)構(gòu)如圖3所示。下面對(duì)網(wǎng)絡(luò)的各模塊進(jìn)行設(shè)計(jì)。

      圖3 密集場(chǎng)景聚焦的雙通道耦合網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Two-channel coupling network structure focused on dense scenes

      2.1 特征提取網(wǎng)絡(luò)

      本算法采用DarkNet53[11]作為特征提取網(wǎng)絡(luò)。為了減少特征提取時(shí)池化層造成的信息丟失,DarkNet53 采用了全卷積的結(jié)構(gòu)進(jìn)行下采樣。其網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)如圖4所示。圖4中Conv 代表卷積層,每層的卷積后都加入了BN(Batch Normalization)層和Relu 激活函數(shù)。綠色邊框是DarkNet53 的下采樣層,特征圖每次縮小為原始的一半。黃色邊框?yàn)闅埐罱Y(jié)構(gòu),由若干1×1 和3×3 的卷積層堆疊,每組殘差塊的輸入與輸出之間增加了鏈接路徑(shortcut)使得模型在訓(xùn)練時(shí)可以動(dòng)態(tài)地調(diào)節(jié)復(fù)雜度,避免出現(xiàn)梯度消失和梯度爆炸的情況。模型總共包含52個(gè)卷積層和一個(gè)全連接層(在圖中省略)。黑色邊框?yàn)榈?、4、5 個(gè)殘差結(jié)構(gòu)的輸出特征圖。

      2.2 特征金字塔融合結(jié)構(gòu)

      算法在特征提取網(wǎng)絡(luò)的Conv1、Conv2 和Conv3 層分成兩個(gè)相同的通道進(jìn)行特征融合,融合結(jié)構(gòu)同YoloV3如圖5所示。圖中卷積層的參數(shù)同圖4,每層卷積之后同樣經(jīng)過(guò)BN 層和Relu 激活函數(shù)。相比較YoloV2 的直通層(passthrough layer),YoloV3 采用FPN 的思想,對(duì)深層特征進(jìn)行上采樣之后與淺層特征融合。不同于FPN相加的融合方式,YoloV3 采用的Cat 操作更好地保留了網(wǎng)絡(luò)各層的信息,而后通過(guò)多個(gè)1×1 和3×3 的卷積對(duì)各通道的信息進(jìn)行整合,對(duì)小目標(biāo)檢測(cè)明顯加強(qiáng)?;疑?yàn)樽罱K的增強(qiáng)后的特征層,在密集區(qū)域檢測(cè)通道生成Conv_m1、Conv_m2 和Conv_m3 特征層,在實(shí)例檢測(cè)通道生成Conv_1、Conv_2 和Conv_3 特征層。

      圖5 特征金字塔融合結(jié)構(gòu)和參數(shù)Fig.5 Characteristic pyramid fusion structure and parameters

      2.3 通道耦合結(jié)構(gòu)

      文獻(xiàn)[15]中提出的情景引導(dǎo)模型證明了局部特征對(duì)視覺(jué)搜索的輔助作用。在本網(wǎng)絡(luò)中,密集區(qū)域檢測(cè)通道獨(dú)立地計(jì)算圖像中目標(biāo)的分布特征,對(duì)目標(biāo)分布密集的區(qū)域構(gòu)建了一個(gè)凸顯地圖。凸顯地圖提取了區(qū)域目標(biāo)的綜合屬性,對(duì)目標(biāo)的定位分類(lèi)有一定的積極作用,因此將Conv_m1、Conv_m2 和Conv_m3 特征層與Conv_1、Conv_2 和Conv_3 特征層之間建立耦合結(jié)構(gòu),如圖3所示。采用Sigmoid 函數(shù)對(duì)目標(biāo)實(shí)例通道的特征圖進(jìn)行選擇性增強(qiáng),密集區(qū)域凸顯地圖的強(qiáng)度決定信息的增強(qiáng)程度。在增強(qiáng)后的特征圖上進(jìn)行目標(biāo)實(shí)例的邊框的回歸。

      2.4 錨 點(diǎn)

      單階段算法首先將初始框(default boxes)按照標(biāo)注框(ground true boxes)的信息進(jìn)行編碼,將網(wǎng)絡(luò)生成的邊界框(bounding boxes)回歸到編碼后的初始框上,因此錨點(diǎn)上產(chǎn)生的初始框?qū)λ惴ǖ木扔袠O大的影響。分別對(duì)密集區(qū)域和目標(biāo)特征圖中每個(gè)錨點(diǎn)產(chǎn)生3 類(lèi)初始框,每個(gè)通道共9 類(lèi)邊框。傳統(tǒng)的YoloV3 算法利用K-Means 算法來(lái)確定每個(gè)邊框的尺寸,考慮到K-Means算法對(duì)初始值設(shè)置較敏感,并且當(dāng)數(shù)據(jù)集較大時(shí),算法容易收斂到局部最優(yōu),因此本文在聚類(lèi)前采用K-Means++[16]算法獲取初始值。密集區(qū)域的邊框尺寸直接按照K-Means++算法進(jìn)行聚類(lèi),而目標(biāo)邊框的樣本由兩部分組成,分別是密集區(qū)域的實(shí)例邊框和原始圖像中的實(shí)例邊框。由于在網(wǎng)絡(luò)輸入端對(duì)圖像進(jìn)行了線性插值的重建,對(duì)像素較大的圖像來(lái)說(shuō),某些目標(biāo)的尺寸會(huì)過(guò)小,網(wǎng)絡(luò)無(wú)法提取此類(lèi)目標(biāo)的特征信息。這些干擾目標(biāo)的邊框樣本使聚類(lèi)中心產(chǎn)生偏離,增加了邊框誤差,因此本文將重建后尺寸小于15×15 像素的邊框樣本濾除。最終在密集區(qū)域聚類(lèi)結(jié)果為:(51,55)、(99,77)、(70,143)、(186,93)、(131,150)、(206,194)、(149,323)、(317,180)和(333,327),對(duì)目標(biāo)的聚類(lèi)結(jié)果為:(5,3)、(5,8)、(11,9)、(13,20)、(26,12)、(25,29)、(53,28)、(42,58)和(87,77)。

      2.5 損失函數(shù)

      本網(wǎng)絡(luò)分別檢測(cè)兩個(gè)屬性的目標(biāo),因此損失函數(shù)包含密集區(qū)域的檢測(cè)損失和目標(biāo)實(shí)例的檢測(cè)損失,如式(1)所示。兩個(gè)損失函數(shù)的計(jì)算同文獻(xiàn)[7],位置損失采用smooth L1,分類(lèi)損失采用Log loss,如式(2)(3),計(jì)算方法如式(4)(5)所示。采用難樣本挖掘(hard negative mining)對(duì)正負(fù)樣本進(jìn)行平衡,正負(fù)例比例設(shè)置為1:3。

      式(1)中,Lall表示網(wǎng)絡(luò)的總損失,Ld和Lt分別是密集區(qū)域和目標(biāo)實(shí)例的損失,ε為目標(biāo)實(shí)例損失的權(quán)重因子。式(2)(3)中Ldconf和Ltconf分別為密集區(qū)域和目標(biāo)實(shí)例的置信度損失,Ldloc和Ltloc為位置損失,Nd和Nt為被標(biāo)注框編碼到的初始框數(shù)目。式(4)中表示第k類(lèi)目標(biāo)的第i個(gè)預(yù)測(cè)框和第j個(gè)初始框之間的交并比(IOU),若IOU 大于閾值則為1,否則為0(閾值一般取0.5)。為第i個(gè)預(yù)測(cè)框的四個(gè)位置參數(shù),為第j個(gè)初始框的四個(gè)位置參數(shù)(相對(duì)位置)。按照與初始框的IOU 是否大于閾值(一般取0.5)將預(yù)測(cè)框分為Pos 和Neg,Pos 表示正樣本,Neg 表示負(fù)樣本。式(5)中表示第i個(gè)預(yù)測(cè)框?qū)Φ趐類(lèi)目標(biāo)的預(yù)測(cè)值,使用softmax 函數(shù)轉(zhuǎn)化為概率表述。

      2.6 網(wǎng)絡(luò)的預(yù)測(cè)

      首先對(duì)兩個(gè)通道的預(yù)測(cè)結(jié)果分別采用非極大值抑制進(jìn)行處理,選擇與各通道相適應(yīng)的交并比閾值去除同類(lèi)重疊的邊框。保留實(shí)例檢測(cè)通道的各類(lèi)別預(yù)測(cè)邊框,對(duì)密集區(qū)域檢測(cè)通道的預(yù)測(cè)框進(jìn)行閾值處理,去除一些得分較低的邊框??紤]到預(yù)測(cè)框?yàn)楣潭ǚ轿坏乃倪呅?,無(wú)法緊貼目標(biāo)輪廓,必然會(huì)包含大量背景誤差。尤其在空對(duì)地這種目標(biāo)密集分布的場(chǎng)景中,預(yù)測(cè)框之間相交的背景部分對(duì)非極大值抑制算法有更大的影響,因此本文采用了soft-nms[16]這種軟閾值的方法。而后,將預(yù)測(cè)得分較高的密集區(qū)域從原圖中裁剪出來(lái),重新輸入到網(wǎng)絡(luò)中進(jìn)行檢測(cè)。若在裁剪后的圖像中再次檢測(cè)到密集區(qū)域,則將密集區(qū)域的圖像繼續(xù)重新輸出到網(wǎng)絡(luò)中,直到圖像中沒(méi)有密集區(qū)域。最后將所有實(shí)例檢測(cè)通道的預(yù)測(cè)框進(jìn)行整合,再次使用soft-nms 算法對(duì)邊框進(jìn)行篩選,得到最終的目標(biāo)實(shí)例框。

      3 驗(yàn)證與分析

      實(shí)驗(yàn)在Ubuntu16.04 系統(tǒng)的Pytorch 框架下運(yùn)行,并使用CUDA8.0 和cuDNN5.0 來(lái)加速訓(xùn)練。計(jì)算機(jī)搭載 的 CPU 為 Corei7-8700k,顯 卡 為 NVIDIA GTX1080Ti,內(nèi)存為32G。

      3.1 數(shù)據(jù)集制作

      為驗(yàn)證本文算法的有效性,建立了空對(duì)地密集區(qū)域數(shù)據(jù)集。本文數(shù)據(jù)集由谷歌地球上截取的1600 張圖像和DOTA[17]數(shù)據(jù)集上篩選的800 張圖像組成。圖像包含5 類(lèi)目標(biāo),分別是船、汽車(chē)、卡車(chē)、飛機(jī)和密集區(qū)域。標(biāo)注框?yàn)槌R?jiàn)的(x,y,w,h)類(lèi)型,其中(x,y)代表邊框的中心位置,(w,h)為邊框的寬和高。圖像尺寸跨度較大,從最小的300×300 像素到最大的4000×4000 像素。每張圖像都包含了至少5 個(gè)目標(biāo)實(shí)例,最多甚至包含2000 個(gè)目標(biāo)實(shí)例。實(shí)例的尺寸最小為30×30 像素,最大為1000×1000 像素(密集目標(biāo)區(qū)域)。按照1:4 的比例,將數(shù)據(jù)集分為了測(cè)試集和訓(xùn)練集。不同于其他常見(jiàn)數(shù)據(jù)集,本數(shù)據(jù)集中增加了密集區(qū)域這種較為抽象的標(biāo)注。在標(biāo)注中,我們基于以下三個(gè)原則對(duì)密集區(qū)域進(jìn)行描述:

      1)對(duì)于任意密集邊框Mn,其內(nèi)部包含的目標(biāo)實(shí)例λi滿足i>5。

      2)對(duì)任意Mn內(nèi)的目標(biāo)實(shí)例λi(xi,yi,wi,hi),總能找到另外一個(gè)λj(xj,yj,wj,hj)滿足公式<30。

      3)若λi∈Mn,則λi的邊框所有頂點(diǎn)均在Mn內(nèi)部。

      由于數(shù)據(jù)集中,拍攝視距為近低空,因此圖像場(chǎng)景涵蓋范圍有限,訓(xùn)練集每幅圖像的密集區(qū)域邊框最多為4 個(gè)。部分?jǐn)?shù)據(jù)集標(biāo)注圖像如圖6所示,采用labelimg 軟件進(jìn)行標(biāo)注。其中目標(biāo)實(shí)例由黑色實(shí)線綠色頂點(diǎn)的方框標(biāo)注,圖6中陰影邊框?yàn)椴糠置芗瘏^(qū)域類(lèi)別的標(biāo)注框。

      圖6 部分標(biāo)注數(shù)據(jù)集Fig.6 Partially labeled data set

      3.2 算法效果驗(yàn)證

      由于密集區(qū)域的檢測(cè)僅為二分類(lèi),并且密集區(qū)域尺度相對(duì)較大,重疊度較低,相對(duì)于目標(biāo)實(shí)例的檢測(cè)來(lái)說(shuō)難度更低。因此在網(wǎng)絡(luò)訓(xùn)練時(shí),應(yīng)更注重對(duì)目標(biāo)實(shí)例的檢測(cè),本文將損失函數(shù)的ε設(shè)置為0.7。

      網(wǎng)絡(luò)預(yù)測(cè)階段,在密集區(qū)域檢測(cè),目標(biāo)實(shí)例檢測(cè)和最終的預(yù)測(cè)框整合三個(gè)階段分別采用了soft-nms 算法。由于密集區(qū)域之間分布較稀疏,并且在標(biāo)注時(shí)邊框之間重疊較少,因此將閾值設(shè)置為0.3;檢測(cè)目標(biāo)實(shí)例檢測(cè)的閾值采用常用的0.6;預(yù)測(cè)框的整合階段與雙通道的檢測(cè)之間相互獨(dú)立,并且不會(huì)影響檢測(cè)精度,因此將閾值設(shè)置為0.4。

      表1 算法有效性分析Tab.1 Analysis of algorithm effectiveness

      對(duì)本算法的有效性進(jìn)行分析,如表1所示。目標(biāo)檢測(cè)準(zhǔn)確度用mAP 表示。若網(wǎng)絡(luò)僅采用YoloV3 算法對(duì)四類(lèi)目標(biāo)實(shí)例進(jìn)行檢測(cè)時(shí),精度僅有47.1%。僅單獨(dú)對(duì)密集區(qū)域進(jìn)行檢測(cè)時(shí),精度達(dá)到了82.3%,遠(yuǎn)高于目標(biāo)實(shí)例的精度。當(dāng)同時(shí)對(duì)目標(biāo)實(shí)例和密集區(qū)域進(jìn)行檢測(cè)時(shí),平均精度分別為39.3%和73.5%,相比原始算法精度下降較多。這是由于目標(biāo)數(shù)目增加,網(wǎng)絡(luò)檢測(cè)難度加大;密集區(qū)域這類(lèi)抽象的目標(biāo)與目標(biāo)實(shí)例之間存在耦合關(guān)系,對(duì)分類(lèi)產(chǎn)生影響;同時(shí),本數(shù)據(jù)集目標(biāo)實(shí)例的選框較小,而密集區(qū)域的選框相對(duì)較大,對(duì)初始框的生成有更高的要求。本文算法對(duì)目標(biāo)實(shí)例和密集區(qū)域的平均檢測(cè)精度為63.5%和79.8%。將本文算法雙通道之間的耦合關(guān)系去除后,目標(biāo)實(shí)例的檢測(cè)精度下降為60.4%,證明了通道耦合結(jié)構(gòu)的有效性。將預(yù)測(cè)階段的密集區(qū)域變分辨率檢測(cè)去除后,目標(biāo)實(shí)例檢測(cè)精度下降為45.4%,說(shuō)明變分辨率檢測(cè)對(duì)算法精度有極大的提升。在本文算法的測(cè)試中,密集區(qū)域檢測(cè)通道的檢測(cè)精度基本維持不變,這是因?yàn)樵诖司W(wǎng)絡(luò)中的耦合結(jié)構(gòu)和預(yù)測(cè)結(jié)構(gòu)對(duì)密集區(qū)域通道參數(shù)的影響較少。密集區(qū)域檢測(cè)通道的檢測(cè)精度相對(duì)于同時(shí)檢測(cè)目標(biāo)實(shí)例和密集區(qū)域的YoloV3 算法有所提升,這是因?yàn)楸疚木W(wǎng)絡(luò)獨(dú)立地檢測(cè)密集區(qū)域,減少了與目標(biāo)實(shí)例之間的耦合,同時(shí)針對(duì)該通道設(shè)置初始框。然而由于兩個(gè)通道共享DarkNet53 特征提取網(wǎng)絡(luò)的參數(shù),因此密集區(qū)域的檢測(cè)精度達(dá)不到Y(jié)oloV3 單獨(dú)檢測(cè)時(shí)的精度。

      為進(jìn)一步驗(yàn)證算法的有效性,將各階段圖像進(jìn)行可視化對(duì)比。圖7為輸入的原始圖像,尺寸為4969×3569 像素,圖中包含的目標(biāo)為飛機(jī),實(shí)例數(shù)目為148 架。最小的飛機(jī)尺度僅為42×44 像素,在輸入網(wǎng)絡(luò)進(jìn)行壓縮后,降為4×5 像素,在進(jìn)行特征提取時(shí)基本失效。傳統(tǒng)的YoloV3 的檢測(cè)結(jié)果如圖8所示。

      圖7 原始輸入圖像Fig.7 Original input image

      圖8中,可以明顯發(fā)現(xiàn)算法對(duì)小目標(biāo)的檢測(cè)效果極差(圖像右下角的區(qū)域),尤其當(dāng)小目標(biāo)分布密集時(shí),算法將實(shí)例之間的特征混淆,出現(xiàn)一個(gè)框同時(shí)框住多個(gè)目標(biāo)的情況。

      在本文算法的第一階段檢測(cè)中,密集區(qū)域檢測(cè)通道的結(jié)果如圖9所示。圖中共檢測(cè)到4 個(gè)密集區(qū)域,與標(biāo)注信息一致。

      圖8 YoloV3 算法的檢測(cè)結(jié)果Fig.8 YoloV3 algorithm detection results

      圖9 密集區(qū)域檢測(cè)結(jié)果Fig.9 Dense area test results

      圖10 目標(biāo)實(shí)例檢測(cè)結(jié)果Fig.10 Target instance test results

      目標(biāo)實(shí)例檢測(cè)結(jié)果如圖11所示,當(dāng)算法耦合了密集區(qū)域的信息之后,對(duì)密集目標(biāo)和小目標(biāo)有了更強(qiáng)的魯棒性,檢測(cè)到了更多目標(biāo)實(shí)例。同時(shí),證明了雙通道耦合結(jié)構(gòu)的優(yōu)越性。

      在第二階段,分別對(duì)4 個(gè)密集區(qū)域再次進(jìn)行檢測(cè),結(jié)果如圖11所示(以左上角和右下角的密集區(qū)域?yàn)槔???梢园l(fā)現(xiàn),在右下角密集區(qū)域檢測(cè)中,原始的難檢測(cè)目標(biāo)基本檢測(cè)正確。而左上角的區(qū)域卻檢測(cè)失效,沒(méi)有一個(gè)正例被檢測(cè)到,這是因?yàn)榇嗣芗瘏^(qū)域的長(zhǎng)寬比失調(diào)。在輸入網(wǎng)絡(luò)壓縮到416×416 像素時(shí),目標(biāo)實(shí)例形變嚴(yán)重,極大的影響了特征的提取和識(shí)別。

      圖11 密集區(qū)域的檢測(cè)Fig.11 Detection of dense areas

      圖12 本文算法的檢測(cè)結(jié)果Fig.12 Test results of our method

      由于第二次檢測(cè)后,沒(méi)有再出現(xiàn)密集目標(biāo),因此最終檢測(cè)結(jié)果如圖12所示,目標(biāo)最終的邊框由第一次和第二次檢測(cè)結(jié)果通過(guò)soft-nms 算法篩選后得到。圖中可以看出,相比傳統(tǒng)YoloV3 檢測(cè)結(jié)果和第一次檢測(cè)結(jié)果有了極大的提升。

      3.3 算法性能分析

      考慮到該算法的實(shí)際應(yīng)用,選擇計(jì)算速度較快的單階段檢測(cè)算法進(jìn)行對(duì)比。單階段檢測(cè)算法目前主要分為SSD 系列和Yolo 系列,對(duì)傳統(tǒng)SSD 算法、YoloV2算法、YoloV3 算法以及目前表現(xiàn)較好的FSSD 算法與本文算法對(duì)比,結(jié)果如表2所示。其中正例定義為與標(biāo)注信息的IOU 大于0.5。FPS 為每秒檢測(cè)幀數(shù)。

      表2 各類(lèi)算法性能對(duì)比Tab.2 Performance comparison of various algorithms

      從表中可以看出在檢測(cè)精度上,基于SSD 網(wǎng)絡(luò)的檢測(cè)算法和YoloV2 算法在本文數(shù)據(jù)集中表現(xiàn)較差,尤其是在檢測(cè)艦船類(lèi)目標(biāo)時(shí)基本失效。YoloV3 在本數(shù)據(jù)集上適應(yīng)性較強(qiáng),相比于SSD 算法提升了27.6%的平均精度,并且在艦船的檢測(cè)上有了大幅度的提升。而本文提出的算法達(dá)到了最高的檢測(cè)精度,相比YoloV3 算法提升了16.4%的平均精度,在各個(gè)類(lèi)別的檢測(cè)上都有較大提升。在檢測(cè)速度上,YoloV2 延續(xù)了其速度的優(yōu)勢(shì),但是檢測(cè)精度最低。由于本文算法多次對(duì)密集區(qū)域進(jìn)行檢測(cè),每次提取的密集區(qū)域都要重新經(jīng)過(guò)網(wǎng)絡(luò)進(jìn)行特征提取、定位和分類(lèi),因此隨著密集區(qū)域和算法復(fù)雜度的增加,相較于YoloV3 損失了一定的檢測(cè)速度,但是精度卻有極大提升??傮w來(lái)看,本文算法在性能上要超過(guò)其他算法。

      將本文算法的部分檢測(cè)結(jié)果進(jìn)行可視化,結(jié)果如圖13所示。由于數(shù)據(jù)集中圖像尺寸變化較大,因此統(tǒng)一將檢測(cè)結(jié)果壓縮到1000×1000 像素。圖中可以看出,本文算法對(duì)密集小目標(biāo)的檢測(cè)度較高,尤其是在檢測(cè)艦船目標(biāo)上(以a 為例),相比圖1中傳統(tǒng)的SSD 網(wǎng)絡(luò)和YoloV3 網(wǎng)絡(luò)有較大提升。

      圖13 本文算法部分檢測(cè)結(jié)果Fig.13 Part of the test results of our method

      4 結(jié) 論

      密集小目標(biāo)的檢測(cè)是空對(duì)地場(chǎng)景下目標(biāo)檢測(cè)領(lǐng)域中一個(gè)極具挑戰(zhàn)性的課題,為此本文提出了一種雙通道密集場(chǎng)景聚焦的算法。首先分析了深度學(xué)習(xí)目標(biāo)檢測(cè)算法在密集小目標(biāo)檢測(cè)中存在的問(wèn)題;而后結(jié)合人眼搜索的特點(diǎn),在傳統(tǒng)YoloV3 網(wǎng)絡(luò)的基礎(chǔ)上獨(dú)立地建立了一條密集場(chǎng)景檢測(cè)通道,對(duì)檢測(cè)到的密集區(qū)域再次變尺度檢測(cè);最后自制空對(duì)地場(chǎng)景的密集區(qū)域數(shù)據(jù)集,對(duì)本文算法進(jìn)行了驗(yàn)證。實(shí)驗(yàn)表明,本文算法能有效地對(duì)目標(biāo)進(jìn)行檢測(cè),相比傳統(tǒng)的YoloV3 算法在精度上有16.4%的提升,為空對(duì)地密集小目標(biāo)的檢測(cè)提供了一種新的思路。然而,總的來(lái)說(shuō),算法依舊存在較多漏檢和錯(cuò)檢問(wèn)題,在非密集區(qū)域,小尺度目標(biāo)的檢測(cè)度依舊較低,這也是未來(lái)需要解決的問(wèn)題。

      猜你喜歡
      密集邊框實(shí)例
      一模六產(chǎn)品篩板模具的設(shè)計(jì)與應(yīng)用
      智能制造(2022年4期)2022-08-18 16:21:14
      耕地保護(hù)政策密集出臺(tái)
      密集恐懼癥
      用Lightroom添加寶麗來(lái)邊框
      給照片制作專(zhuān)業(yè)級(jí)的邊框
      擺脫邊框的束縛優(yōu)派
      歐盟等一大波家電新標(biāo)準(zhǔn)密集來(lái)襲
      完形填空Ⅱ
      完形填空Ⅰ
      密集預(yù)披露≠I(mǎi)PO發(fā)行節(jié)奏生變
      法人(2014年5期)2014-02-27 10:44:28
      登封市| 墨玉县| 泸西县| 长岛县| 弥勒县| 泸水县| 苍南县| 巩留县| 凤庆县| 三亚市| 白朗县| 额敏县| 乌审旗| 宣城市| 凌海市| 珲春市| 樟树市| 沐川县| 平定县| 秀山| 红桥区| 英德市| 闸北区| 宁波市| 泽州县| 南投市| 昌黎县| 文安县| 清河县| 息烽县| 姜堰市| 南乐县| 德阳市| 肥西县| 崇明县| 寻乌县| 徐州市| 林西县| 饶河县| 武穴市| 嘉鱼县|