• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      改進(jìn)Mask R-CNN在航空影像目標(biāo)檢測(cè)的研究應(yīng)用

      2021-04-23 04:30:46董旭彬趙清華
      關(guān)鍵詞:滑動(dòng)尺度卷積

      董旭彬,趙清華

      太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院&新型傳感器和智能控制教育部(山西)重點(diǎn)實(shí)驗(yàn)室 微納系統(tǒng)研究中心,太原030600

      航空影像對(duì)地目標(biāo)檢測(cè)技術(shù)在國(guó)防領(lǐng)域受到高度重視,通過(guò)衛(wèi)星部署高分辨率成像傳感器,采集包括可見(jiàn)光在內(nèi)各個(gè)波段的大視場(chǎng)影像,主要用于情報(bào)監(jiān)視和偵查。傳統(tǒng)的航空影像目標(biāo)檢測(cè)方法有基于灰度統(tǒng)計(jì)的檢測(cè)[1]、基于幾何特征的檢測(cè)[2]以及基于模型的匹配檢測(cè)[3]等方法,這些方法普遍存在人為設(shè)計(jì)模板、魯棒性差和泛化能力低等問(wèn)題,難以做到對(duì)目標(biāo)快速精準(zhǔn)地識(shí)別。

      2012 年Krizhevsky 等人[4]提出AlexNet 網(wǎng)絡(luò)用于圖像分類(lèi)任務(wù),性能表現(xiàn)優(yōu)異,自此以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)為原型產(chǎn)生的各種深度學(xué)習(xí)方法被廣泛用于目標(biāo)檢測(cè)。目前基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法大體分為兩類(lèi),一類(lèi)是以Fast RCNN[5]、Faster R-CNN[6]、R-FCN[7]為代表的基于候選區(qū)域的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Regions with Convolutional Neural Network,R-CNN),另一類(lèi)是以YOLO[8]、SSD[9]、Retina-Net[10]為代表將目標(biāo)檢測(cè)這種分類(lèi)問(wèn)題轉(zhuǎn)換為回歸的形式去求解的一體化卷積網(wǎng)絡(luò)。

      1 相關(guān)工作

      一體化檢測(cè)算法速度明顯優(yōu)于基于候選區(qū)域的檢測(cè)算法,但檢測(cè)精度遜于后者[11-12]。隨著技術(shù)的普及,不少學(xué)者將上述深度學(xué)習(xí)方法應(yīng)用于航空影像目標(biāo)檢測(cè),文獻(xiàn)[13]將改進(jìn)的R-FCN用于檢測(cè)遙感圖像中的飛機(jī),取得了較好的檢測(cè)結(jié)果。文獻(xiàn)[14]將深度置信網(wǎng)絡(luò)和CNN 相結(jié)合,構(gòu)建用于搜尋航空影像中飛機(jī)位置的模型,實(shí)現(xiàn)了特定化高精度實(shí)時(shí)檢測(cè)。文獻(xiàn)[15]針對(duì)空中目標(biāo)成像特點(diǎn)對(duì)Faster R-CNN 進(jìn)行改進(jìn),彌補(bǔ)了對(duì)弱小目標(biāo)和被遮擋目標(biāo)不敏感的缺陷并提升了檢測(cè)精度。以上研究表明,基于候選區(qū)域的算法是目前航空影像目標(biāo)檢測(cè)的主流方法,尤其是Faster R-CNN 被廣泛應(yīng)用。但上述學(xué)者均未對(duì)航空影像中的小目標(biāo)檢測(cè)進(jìn)行深入研究,要想高效地完成檢測(cè),往往需要在大視野和較低分辨率下進(jìn)行,目標(biāo)尺度常為小型,因此針對(duì)小目標(biāo)的檢測(cè)研究十分重要。Faster R-CNN 雖然在小目標(biāo)檢測(cè)上比一體化算法精度更高,但存在網(wǎng)絡(luò)退化、單一尺度的特征提取,定位框誤差大等問(wèn)題。2017年何愷明等[16]在Faster R-CNN 的基礎(chǔ)上推出改進(jìn)版的算法Mask R-CNN,諸多學(xué)者又在其基礎(chǔ)上進(jìn)行了改進(jìn),但將其運(yùn)用在航空影像的目標(biāo)檢測(cè)性能提升不明顯或者不具有泛化性,如文獻(xiàn)[17]將Mask R-CNN中非極大值抑制方法用軟極大值抑制的方法進(jìn)行替換,雖然處理速度上得到了些許提升,但精度和原始算法持平;文獻(xiàn)[18]改進(jìn)了特征金字塔增加反向側(cè)邊連接的支路,雖然更好地利用低層信息,但送入后續(xù)網(wǎng)絡(luò)的特征依舊是從支路中選擇的單一尺度特征,缺乏對(duì)不同尺度特征的針對(duì)性利用,在處理多尺度目標(biāo)豐富的航空影像時(shí),精度提升效果不顯著。

      為解決在實(shí)際應(yīng)用中的問(wèn)題,本文針對(duì)Mask R-CNN算法進(jìn)行改進(jìn),使其在檢測(cè)航空影像中各尺寸目標(biāo)的性能都得到提升,尤其是在小目標(biāo)檢測(cè)上有較大改善。

      2 Mask R-CNN原理

      Mask R-CNN 是在Faster R-CNN 的基礎(chǔ)上加入諸多改進(jìn),結(jié)構(gòu)如圖1 所示;將特征提取網(wǎng)絡(luò)的主干從VGG 改為殘差網(wǎng)絡(luò)(ResNet),并采取特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)的結(jié)構(gòu)搭建,在解決網(wǎng)絡(luò)退化的同時(shí)加入了多尺度信息;興趣區(qū)域池化階段采用興趣區(qū)匹配層(Region of Interesting Align,Rol Align)替換Rol Pooling,利用雙線性插值法進(jìn)行興趣區(qū)域的池化,解決了池化時(shí)四舍五入取整所造成的量化不匹配問(wèn)題,提高了定位精度;還能生成檢測(cè)對(duì)象的高質(zhì)量掩碼,從而實(shí)現(xiàn)分割的效果。

      2.1 特征提取網(wǎng)絡(luò)

      Mask R-CNN 的特征提取網(wǎng)絡(luò)分為自下而上和自上而下兩個(gè)路徑。自下而上的路徑是由不同尺寸的殘差結(jié)構(gòu)組成的模塊,負(fù)責(zé)對(duì)圖像進(jìn)行特征提取。以ResNet-101 為例,如圖2 所示,殘差模塊記為C1、C2、C3、C4、C5,每個(gè)模塊的輸出包含不同層次的特征信息,模塊之間通過(guò)殘差結(jié)構(gòu)第一層步長(zhǎng)為2的卷積,使模塊輸出映射圖的尺寸自下而上逐模塊減半。自上而下的路徑將強(qiáng)語(yǔ)義信息的抽象特征和低層細(xì)節(jié)特征融合,通過(guò)將高層特征映射圖2 倍上采樣還原成與自下而上支路特征映射圖對(duì)應(yīng)的分辨率,并與其逐像素點(diǎn)相加,經(jīng)過(guò)3×3 的卷積得到新的特征映射圖P1、P2、P3、P4、P5,使得高層語(yǔ)義信息在映射圖像更好地體現(xiàn)。

      2.2 區(qū)域建議網(wǎng)絡(luò)

      區(qū)域建議網(wǎng)絡(luò)采取錨(Anchor)的方式在特征圖上計(jì)算物體候選框的位置,Anchor 生成原理如圖3 所示,在特征圖上設(shè)置n×n的滑動(dòng)窗口,生成與特征圖中每個(gè)點(diǎn)相對(duì)應(yīng)的k個(gè)同中心的初始建議區(qū)域;為適應(yīng)各種尺寸的目標(biāo),Anchor 被設(shè)置為3 種面積大小以及3 種長(zhǎng)寬比例,共9 種尺寸,因此k=9。然后利用滑動(dòng)窗口對(duì)特征圖進(jìn)行卷積,經(jīng)過(guò)中間層分別輸入由全連接網(wǎng)絡(luò)構(gòu)成的分類(lèi)層與回歸層,來(lái)描述Anchor的位置類(lèi)型信息。

      分類(lèi)層輸出2k個(gè)前后景概率值,回歸層輸出4k個(gè)坐標(biāo)值。RPN根據(jù)回歸計(jì)算出的修正值對(duì)每個(gè)Anchor的長(zhǎng)、寬和中心進(jìn)行修正,修正后的候選區(qū)經(jīng)過(guò)篩選送入后續(xù)網(wǎng)絡(luò)。

      圖1 Mask R-CNN流程圖

      圖2 特征提取網(wǎng)絡(luò)結(jié)構(gòu)圖

      圖3 區(qū)域建議網(wǎng)絡(luò)結(jié)構(gòu)

      2.3 興趣匹配層

      ROI Align 將候選區(qū)域從特征圖中裁剪出來(lái),并將其池化成7×7和14×14的特征圖,這兩種尺寸分別為目標(biāo)分類(lèi)定位和掩碼生成階段的指定輸入尺寸,具體操作如圖4所示;首先對(duì)候選區(qū)域的邊界保持浮點(diǎn)狀態(tài)不做量化處理,然后將其分成k×k個(gè)邊緣不做量化處理的單元,最后對(duì)每個(gè)單元進(jìn)行四等分并找到四個(gè)中心,用雙線性內(nèi)插的方法計(jì)算出這四個(gè)位置的坐標(biāo)值,之后進(jìn)行最大池化操作。ROI Align從而將整個(gè)特征聚集過(guò)程由離散轉(zhuǎn)化為連續(xù)的操作,解決了ROI Pooling 操作中兩次量化不匹配造成誤差的問(wèn)題。

      圖4 興趣匹配過(guò)程

      2.4 分類(lèi)邊界框及掩碼生成

      分類(lèi)邊界框及掩碼生成過(guò)程如圖5所示,分類(lèi)和邊界框的生成依靠核為7×7,通道數(shù)為256 的卷積層將特征映射圖展為一維向量,再通過(guò)兩個(gè)1 024 維的全連接層完成分類(lèi)和回歸。掩碼的生成是先經(jīng)過(guò)5層核為14×14,通道數(shù)256的卷積層,再利用2×2的反卷積將特征圖尺寸擴(kuò)充28×28,最后再經(jīng)過(guò)卷積和激勵(lì)函數(shù),得到掩碼特征圖,此時(shí)圖中每個(gè)點(diǎn)代表候選類(lèi)別形狀的前后景置信度,用0.5作為置信度閾值獲取目標(biāo)形狀掩碼,最終將預(yù)測(cè)的掩碼放大到與ROI邊框同尺寸。

      3 改進(jìn)Mask R-CNN網(wǎng)路結(jié)構(gòu)

      盡管Mask R-CNN 的檢測(cè)性能是目前世界頂尖水平,但直接將Mask R-CNN用于航空影像的目標(biāo)檢測(cè)會(huì)存在諸多弊端,主要存在的問(wèn)題有3個(gè):

      圖5 興趣匹配過(guò)程

      (1)目標(biāo)遮蔽問(wèn)題

      航空影像的目標(biāo)檢測(cè)會(huì)受到光照、云霧和遮擋等多種因素的影響,諸多學(xué)者對(duì)高曝光與云霧環(huán)境下的目標(biāo)檢測(cè)做出深入研究,但對(duì)障礙物遮蔽(例如樹(shù)木、陰影的遮擋)所導(dǎo)致的檢測(cè)性能下降問(wèn)題,并沒(méi)有深入研究,目標(biāo)被遮蔽會(huì)導(dǎo)致漏檢和精度下降,如圖6所示。

      圖6 障礙物遮蔽下檢測(cè)性能

      (2)特征映射圖利用不充分

      盡管FPN在檢測(cè)多尺度目標(biāo)上有良好表現(xiàn),但側(cè)邊連接僅增強(qiáng)了路徑中低層特征的語(yǔ)義表達(dá),而送入到RPN 網(wǎng)絡(luò)是從路徑中選擇出的單一尺寸的特征映射圖。這樣的結(jié)構(gòu)存在兩個(gè)潛在問(wèn)題:其一低層特征包含豐富的位置信息,但最高層和最低層之間信息流動(dòng)的路徑太長(zhǎng),增加了獲取精準(zhǔn)定位信息的難度,導(dǎo)致如圖7(a)~(c)所示,原始信息在深層卷積網(wǎng)絡(luò)中逐步流失,最高層中的邊緣和紋理特征損失嚴(yán)重;其二最終送入RPN 的單一尺寸映射圖,它所攜帶的特征信息主要來(lái)自于本層和高層,這樣設(shè)計(jì)一定程度上忽視了更低層級(jí)信息,沒(méi)能充分糅合利用各尺度特征信息,導(dǎo)致檢測(cè)精度降低。

      圖7 特征映射圖可視化

      (3)建議區(qū)域位置提取不精準(zhǔn)

      如圖8 所示,航空影像中可能存在多種尺度的目標(biāo),盡管RPN 利用滑動(dòng)窗口生成共9 種初始建議區(qū)域,但建議區(qū)域的生成只在一種深度的特征映射圖中進(jìn)行,導(dǎo)致Anchor 無(wú)法涵蓋所有待檢測(cè)目標(biāo)的尺度要求,生成的目標(biāo)框與真實(shí)邊框差距過(guò)大,造成對(duì)建議區(qū)域位置的提取不夠精確,最終產(chǎn)生漏檢和定位偏移的現(xiàn)象。

      圖8 anchor與實(shí)際定位的偏差

      圖9 改進(jìn)后的Mask R-CNN總體框架圖

      圖10 紅外和可見(jiàn)光圖像融合網(wǎng)絡(luò)結(jié)構(gòu)

      為解決上述問(wèn)題,本文對(duì)Mask R-CNN進(jìn)行針對(duì)性改進(jìn),改進(jìn)后的結(jié)構(gòu)如圖9所示。首先增加圖像融合網(wǎng)絡(luò),如圖9(a)所示,將紅外圖像和可見(jiàn)光圖像進(jìn)行融合,充分發(fā)揮紅外成像穿透力強(qiáng)的特點(diǎn),同時(shí)彌補(bǔ)其分辨率低、對(duì)比度差和視覺(jué)模糊等缺點(diǎn),解決了目標(biāo)被遮蔽影響檢測(cè)的問(wèn)題。然后通過(guò)在特征金字塔結(jié)構(gòu)中增加自下而上的支路,如圖9(b)所示,改善了信息傳遞的路徑,生成新的特征映射圖,充分融合了低層位置信息和高層語(yǔ)義信息。最后提出了SD-RPN結(jié)構(gòu),在不同深度的特征圖生成不同類(lèi)型目標(biāo)的建議區(qū)域,如圖9(d)所示,使后續(xù)網(wǎng)絡(luò)得到更精準(zhǔn)的建議區(qū)域。

      3.1 紅外和可見(jiàn)光圖像融合網(wǎng)絡(luò)

      為實(shí)現(xiàn)良好的融合效果和速度,利用CNN 進(jìn)行圖像提取特征和融合重構(gòu)的方法被廣泛使用,但大多數(shù)提取信息的方法過(guò)于簡(jiǎn)單,無(wú)法提取出深層特征信息,同時(shí)融合重構(gòu)時(shí)會(huì)丟失中間層特征信息,導(dǎo)致融合的結(jié)果失真。因此本文在以參考文獻(xiàn)[19]所設(shè)計(jì)的融合思路為基礎(chǔ),利用深度可分離卷積層和殘差塊重新設(shè)計(jì)了編碼器和解碼器的結(jié)構(gòu),在簡(jiǎn)化計(jì)算復(fù)雜度的同時(shí)使更多深層特征進(jìn)入融合層,該網(wǎng)絡(luò)主要由三部分組成:編碼器、融合層和解碼器。編碼器從卷積結(jié)構(gòu)被替換為兩層深度可分離卷積層和殘差塊(C1,Residual Block,C2)對(duì)兩種圖像進(jìn)行特征提取,在簡(jiǎn)化計(jì)算復(fù)雜度的同時(shí)使更多深層特征進(jìn)入融合層;融合層將提取到的紅外特征A1m和可見(jiàn)光特征Am2運(yùn)用L1-norm 相似度融合策略進(jìn)行融合,將兩種圖像特征整合為含有顯著特征的映射圖f m;解碼器利用4 層深度可分離卷積層對(duì)融合后的特征進(jìn)行圖像重構(gòu),最終得到融合結(jié)果Yfused,融合網(wǎng)絡(luò)如圖10所示。

      融合層的融合策略是先將特征圖Amk通過(guò)L1 范數(shù)(L1-norm)得到初始活動(dòng)水平圖Ck并利用平均算子計(jì)算最終活動(dòng)水平圖,然后將運(yùn)用歸一化計(jì)算出初始權(quán)重wk,通過(guò)計(jì)算兩種光譜圖像的相似度S,依據(jù)相似度選擇融合規(guī)則,最后得到融合特征f m,融合過(guò)程如圖11所示,詳細(xì)步驟如下所示。

      圖11 融合策略圖

      (2)然后利用基于窗口的平均算子計(jì)算最終活動(dòng)水平圖,使得融合具有魯棒性。

      其中r決定窗口大小,在本文的算法中,由于航空影像中小尺度目標(biāo)豐富,采用較小的r雖然會(huì)減弱特征信息的相關(guān)性,但體現(xiàn)了更多的細(xì)節(jié)效果更好,因此本文選取r=1。

      (3)根據(jù)活動(dòng)水平圖,通過(guò)softmax計(jì)算初始權(quán)重圖wk。

      (4)通過(guò)初始活動(dòng)水平圖Ck,來(lái)計(jì)算相似度S。

      (5)根據(jù)相似度S選擇融合規(guī)則,得到融合特征f m。

      當(dāng)S(x,y)≥T時(shí):

      當(dāng)S(x,y)<T時(shí):T為閾值,經(jīng)過(guò)驗(yàn)證,T=0.6 時(shí)融合效果最好。(i,j)表示位置坐標(biāo),A1k:M(i,j)是一個(gè)M維向量,表示特征圖(i,j)位置處Amk的取值。

      3.2 改進(jìn)特征金字塔結(jié)構(gòu)

      為縮短低層特征傳遞到高層映射的路徑,減少傳遞過(guò)程中的信息流失,同時(shí)盡可能充分利用各層特征信息。本文對(duì)原始FPN結(jié)構(gòu)進(jìn)行改進(jìn),增加自上而下兼具側(cè)邊連接的支路,如圖9(c)所示。它將下層高分辨率特征Ni和上層高分辨率特征Pi+1相結(jié)合,生成更充分融合低層位置信息和高層語(yǔ)義信息的新特征圖Ni+1。具體步驟如式(7)和圖12 所示,首先利用核為3×3 步長(zhǎng)為2的卷積對(duì)Ni進(jìn)行尺寸縮減得到,得到與Pi同分辨率的特征映射圖,然后利用側(cè)邊連接將得到的特征映射圖與Pi逐像素點(diǎn)相加,再經(jīng)過(guò)3×3 步長(zhǎng)為1 的卷積得到新的特征映射圖Ni+1,以上所有卷積操作的通道數(shù)都為256,新生成的特征圖N2~N5充分融合高層和低層特征。

      圖12 具體操作

      3.3 改進(jìn)區(qū)域提案層

      盡管上述兩種改進(jìn)方法有效地提高了各尺度目標(biāo)的檢測(cè)精度,同時(shí)減少漏檢的現(xiàn)象。但沒(méi)有完全解決RPN 提取位置不夠精準(zhǔn),小目標(biāo)的定位還存在一定程度上偏差,如圖13所示。

      圖13 上述兩種方法改進(jìn)后的結(jié)果以及存在的問(wèn)題

      針對(duì)此問(wèn)題,本文提出一種尺度依賴建議網(wǎng)絡(luò)(Scale-Dependent RPN,SD-RPN)。通過(guò)分析數(shù)據(jù)集中各類(lèi)目標(biāo)的尺度信息,將目標(biāo)依據(jù)尺度劃分為小型、中型和大型三類(lèi),利用3條支路分別在不同深度的卷積層輸出(N2、N3和N4)上設(shè)置大小適合的滑動(dòng)窗口,分別對(duì)三種尺度類(lèi)型目標(biāo)進(jìn)行建議區(qū)域的生成。最后將產(chǎn)生的建議區(qū)域進(jìn)行池化,分別送入3個(gè)檢測(cè)子網(wǎng)進(jìn)行后續(xù)的分類(lèi)、回歸和掩碼生成,最后將結(jié)果匯總?cè)诤喜⒎答伒皆紙D像,具體如圖9(d)所示。

      3.3.1 目標(biāo)尺度劃分

      SD-RPN 是在不同深度的卷積層生成不同尺度類(lèi)型目標(biāo)的建議區(qū)域,因此需要將目標(biāo)按照尺度進(jìn)行劃分。以本文實(shí)驗(yàn)所用VEDAI 數(shù)據(jù)集為例,將數(shù)據(jù)集涵蓋的9 種目標(biāo)按尺寸劃分為小型、中型和大型三類(lèi),如表1所示,使SD-RPN分別在N2、N3和N4層,完成三類(lèi)目標(biāo)建議區(qū)域的生成。

      表1 目標(biāo)尺度劃分

      3.3.2 理論RF與修正RF

      滑動(dòng)窗口和anchor 的設(shè)計(jì)是提高建議區(qū)域質(zhì)量的關(guān)鍵。感受野(Receptive Field,RF)是特征映射圖中某點(diǎn)或某區(qū)域?qū)?yīng)圖像映射區(qū)域的范圍,設(shè)置anchor要嚴(yán)格對(duì)應(yīng)感受野,anchor 與感受野差距過(guò)大,會(huì)導(dǎo)致定位框無(wú)法回歸修正到真實(shí)邊界,嚴(yán)重影響檢測(cè)性能,因此本文將RF用作設(shè)置滑動(dòng)窗口的重要參考指標(biāo)。

      RF的大小與經(jīng)過(guò)卷積核和池化的大小與步長(zhǎng)有關(guān),映射圖中像素點(diǎn)的RF 隨著網(wǎng)絡(luò)深度的加深而增大,計(jì)算理論感受野(Theory RF,TRF)需要自上而下逐層計(jì)算。

      其中,TRFl和TRFl+1分別為第l和第l+1 層特征映圖上任意點(diǎn)或區(qū)域理論感受野大小,和分別為第l+1 層卷積核或池化的步長(zhǎng)和大小。

      以Resnet-101 網(wǎng)絡(luò)為例,將網(wǎng)絡(luò)參數(shù)代入式(8),得到N2、N3和N4層中點(diǎn)或區(qū)域的TRF,如表2 所示。Luo等[20]和Zhou等[21]研究表明,實(shí)際感受野是卷積特征與映射區(qū)域關(guān)系最緊密的區(qū)域,其小于TRF,隨著卷積深度的增加,二者的差距逐漸增大。二者成非線性關(guān)系,除與卷積層和池化大小和步長(zhǎng)有關(guān),還與激勵(lì)函數(shù)和訓(xùn)練飽和度有關(guān),充分訓(xùn)練后的殘差網(wǎng)絡(luò),二者的比值接近于,p為經(jīng)過(guò)池化的次數(shù)。因此本文采取修正系數(shù)對(duì)TRF進(jìn)行修正,得到N2、N3和N4層特征圖中點(diǎn)或區(qū)域的實(shí)際感受野(Modify RF,MRF),如表2所示。

      表2 TRF和MRF

      3.3.3 滑動(dòng)窗口與anchor的設(shè)計(jì)

      檢測(cè)子網(wǎng)絡(luò)具有處理大于自身TRF 范圍建議區(qū)域的能力,但如果輸入的anchor 遠(yuǎn)大于TRF,會(huì)出現(xiàn)定位誤差過(guò)大的現(xiàn)象。本文設(shè)置滑動(dòng)窗口與anchor 的原則是先依照目標(biāo)尺度確定Sanchor,然后通過(guò)TRF 與MRF為約束反推滑動(dòng)窗口大小,即利用最大感知與最有效感知范圍來(lái)限制滑動(dòng)窗口,小型目標(biāo)的滑動(dòng)窗口的選擇優(yōu)先考慮anchor的MRF,采用更有效的RF提升RPN對(duì)小目標(biāo)定位準(zhǔn)確度;對(duì)于大目標(biāo)優(yōu)先考慮anchor 的TRF,采用更大的RF獲取更廣泛的區(qū)域;中型目標(biāo)要兼顧anchor的TRF與MRF,網(wǎng)絡(luò)中第l層卷積層上滑動(dòng)窗口的設(shè)計(jì)規(guī)則如式(9)所示:

      其中,MRFln×n和TRFln×n分別表示第l卷積層上n×n滑動(dòng)窗口的修正感受野和理論感受野,Sanchor為該n×n滑動(dòng)窗口對(duì)應(yīng)的anchor尺寸。

      3種類(lèi)型的anchor分別由N2、N3和N4層的滑動(dòng)窗口產(chǎn)生。由于N2層的特征圖較大,為減少計(jì)算量,該層只設(shè)置1種尺度的滑動(dòng)窗口,N3和N4層設(shè)置2種尺度的滑動(dòng)窗口。同時(shí),根據(jù)表1 中對(duì)各類(lèi)目標(biāo)的尺度劃分,本文對(duì)anchor的尺寸設(shè)置如下:

      由于anchor的中心對(duì)應(yīng)滑動(dòng)窗口的中心,因此滑動(dòng)窗口的大小一般設(shè)置為奇數(shù)。當(dāng)n取不同大小時(shí),N2、N3和N4上n×n滑動(dòng)窗口的TRF 和MRF 以及其與Sanchor的關(guān)系,如圖14 所示。根據(jù)圖14 并按照式(9)所示的設(shè)計(jì)原則,N2、N3和N4層滑動(dòng)窗口大小和步長(zhǎng)的設(shè)計(jì)結(jié)果如表3所示,為減少計(jì)算量,滑動(dòng)窗口在N2層的步長(zhǎng)設(shè)為2,其他層步長(zhǎng)均設(shè)置為1。

      表3 各層滑動(dòng)窗口大小及步長(zhǎng)

      4 實(shí)驗(yàn)結(jié)果與分析

      為驗(yàn)證算法有效性,本文利用VEDAI 航空影像[19]作為數(shù)據(jù)集,使用python語(yǔ)言在PyCharm進(jìn)行代碼的編譯,如圖15 所示。對(duì)主流目標(biāo)檢測(cè)算法、Mask R-CNN和本文算法進(jìn)行對(duì)比實(shí)驗(yàn)。VEDAI數(shù)據(jù)集是將原始大視場(chǎng)衛(wèi)星航拍圖像分割成1 024×1 024 pixel的圖像,包含各尺寸類(lèi)型的目標(biāo)、背景和混淆對(duì)象等。本文選取數(shù)據(jù)集中car、vans、pickup、truck、fighter、boat、airplane、factory 和house 共9 種目標(biāo)進(jìn)行訓(xùn)練和測(cè)試,硬件環(huán)境如表4所示。

      4.1 網(wǎng)絡(luò)訓(xùn)練

      圖14 n×n滑動(dòng)窗口的TRF與MRF

      圖15 軟件環(huán)境展示

      表4 訓(xùn)練和測(cè)試環(huán)境

      本文算法在訓(xùn)練過(guò)程中,分別選用不同的激勵(lì)函數(shù),并采用隨機(jī)梯度下降法優(yōu)化模型,訓(xùn)練結(jié)果如圖16所示。為使損失函數(shù)達(dá)到理想收斂效果,訓(xùn)練采用變學(xué)習(xí)速率,初始階段學(xué)習(xí)率設(shè)為5×10-4,衰減系數(shù)為0.95,當(dāng)訓(xùn)練迭代次數(shù)分別為2×104和3×104次時(shí),將學(xué)習(xí)率分別降為1×10-4和1×10-5,最大迭代次數(shù)為4×104次;為加快收斂同時(shí)防止過(guò)擬合,設(shè)置動(dòng)量因子為9×10-1,正則化權(quán)重衰減系數(shù)為1×10-4。實(shí)驗(yàn)結(jié)果表明,選擇sigmoid為激勵(lì)函數(shù)時(shí),損失函數(shù)很難收斂,而其余函數(shù)損失函數(shù)收斂的值都達(dá)到0.01左右,但elu的收斂速度稍快,因此本文在卷積層上選擇elu作為激勵(lì)函數(shù)。

      圖16 不同激勵(lì)函數(shù)的損失函數(shù)曲線

      為取得最優(yōu)的檢測(cè)性能,分別選取殘差網(wǎng)絡(luò)的五種不同結(jié)構(gòu)作為特征提取的主干網(wǎng)絡(luò)進(jìn)行訓(xùn)練,結(jié)果如圖17 所示。以Resnet101 為主干網(wǎng)絡(luò)時(shí)平均準(zhǔn)確率均值最高,因此本文選取Resnet101 作為特征提取網(wǎng)絡(luò)的主干網(wǎng)絡(luò),表5 詳細(xì)列出了以ResNet101 為主干網(wǎng)絡(luò)的特征提取網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)。

      圖17 不同殘差結(jié)構(gòu)的損失函數(shù)曲線

      4.2 框架性能分析比較

      從VEDAI 數(shù)據(jù)集中選取900 張圖片對(duì)原始網(wǎng)絡(luò)和本文改進(jìn)網(wǎng)絡(luò)訓(xùn)練,使用100 張圖片進(jìn)行測(cè)試,平均每張包含6個(gè)目標(biāo),訓(xùn)練集和測(cè)試集涵蓋小中大三類(lèi)尺度目標(biāo),每種尺度又包含3種物體類(lèi)別。同時(shí)使用主流目標(biāo)檢測(cè)算法作對(duì)比實(shí)驗(yàn),選取平均準(zhǔn)確率均值(mAP)作為衡量模型精度的指標(biāo),每種目標(biāo)都可以根據(jù)召回率(recall)和準(zhǔn)確率(precision)繪制一條曲線,準(zhǔn)確率均值(AP)就是該曲線下的面積,如式(10)所示,而mAP是多類(lèi)目標(biāo)的AP平均值。

      同時(shí)本文采用每秒幀率(Frame Per Second,F(xiàn)PS)用來(lái)評(píng)估檢測(cè)的速度,即每秒可以處理的圖片數(shù)量。實(shí)驗(yàn)性能結(jié)果如表6所示。

      表6顯示,本文改進(jìn)后的算法檢測(cè)各型目標(biāo)的mAP值比原始網(wǎng)絡(luò)平均提高2.98個(gè)百分點(diǎn),且相對(duì)于其他主流目標(biāo)檢測(cè)算法有顯著提升,尤其小目標(biāo)檢測(cè)的精度顯著提高,平均提升8.32個(gè)百分點(diǎn)。本文算法雖然極大提升了精度,卻額外增加了計(jì)算量,在平均檢測(cè)速度上相比主流算法有一定劣勢(shì),檢測(cè)速率穩(wěn)定在4 frame/s,完全可以滿足大視野場(chǎng)多光譜航空影像的檢測(cè)需求。

      4.2.1 采用不同策略訓(xùn)練網(wǎng)絡(luò)時(shí)的效果

      為進(jìn)一步驗(yàn)證本文改進(jìn)方法的有效性,使用不同策略對(duì)算法訓(xùn)練和測(cè)試,效果如表7所示。

      從表7 中可知采取不同改進(jìn)策略對(duì)Mask R-CNN檢測(cè)性能的影響,通過(guò)策略5 與策略1、策略3 與策略1和策略2 與策略1 相比較,平均準(zhǔn)確率均值分別提升1.47個(gè)百分點(diǎn)、0.8個(gè)百分點(diǎn)和0.83個(gè)百分點(diǎn),可證明三種改進(jìn)策略的有效性。同時(shí)策略2與策略1、策略4與策略2 和策略8 與策略4 相比,平均準(zhǔn)確率均值分別提升0.83個(gè)百分點(diǎn)、0.85個(gè)百分點(diǎn)和1.3個(gè)百分點(diǎn),可以證明將三種改進(jìn)策略結(jié)合一起可有效發(fā)揮每種改進(jìn)策略的功效,且互相不受影響。

      4.2.2 可見(jiàn)光與紅外融合網(wǎng)絡(luò)效果分析

      為驗(yàn)證本文融合網(wǎng)絡(luò)的效果,本文從主觀視覺(jué)效果和客觀數(shù)值評(píng)價(jià)兩方面驗(yàn)證,主觀視覺(jué)效果如圖18 所示,圖中展示了融合過(guò)程中各階段詳細(xì)的仿真實(shí)驗(yàn)結(jié)果,其中圖(a)到圖(e)展示了融合網(wǎng)絡(luò)從圖像的提取特征到特征融合再到圖像重建的完整過(guò)程,通過(guò)將圖(e)融合重建后圖像與圖(a)原始兩種光譜圖像比較,融合重建后的圖像既保留了較多的紋理細(xì)節(jié)和背景信息,同時(shí)也很好地獲取到被遮蔽的紅色小車(chē)的特征信息。通過(guò)圖(f)融合改進(jìn)后的檢測(cè)結(jié)果和圖(g)原始檢測(cè)結(jié)果相比較,利用融合重構(gòu)后的圖像可以有效地檢測(cè)被樹(shù)木陰影遮蔽的目標(biāo)。

      表5 以ResNet101為主干網(wǎng)絡(luò)的特征提取網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)

      表6 不同框架的性能評(píng)估

      表7 使用不同策略的網(wǎng)絡(luò)測(cè)試效果

      本文從測(cè)試集中隨機(jī)選取10 組圖像,分別對(duì)本文方法和文獻(xiàn)[19]原始方法,以及文獻(xiàn)[22]、文獻(xiàn)[23]、文獻(xiàn)[24]三種傳統(tǒng)融合方法進(jìn)行實(shí)驗(yàn),同時(shí)分別選取多個(gè)評(píng)價(jià)指標(biāo)對(duì)最終融合的結(jié)果進(jìn)行客觀數(shù)值評(píng)價(jià),主要包括:圖像熵(EN)、結(jié)構(gòu)相似性(SSIM)、相關(guān)系數(shù)(CC)、用時(shí)(T)。其中,圖像熵用于衡量圖像包含的信息量,結(jié)構(gòu)相似性用于衡量融合圖像相較于紅外圖像與可見(jiàn)光圖像的失真和信息損失,相關(guān)系數(shù)表明了融合結(jié)果與源圖像的線性相關(guān)度,具體數(shù)值比較如表8所示。

      圖18 可見(jiàn)光與紅外融合檢測(cè)結(jié)果

      表8 實(shí)驗(yàn)結(jié)果客觀評(píng)價(jià)指標(biāo)

      從表8可以看出,本文方法和文獻(xiàn)[19]在圖像熵、結(jié)構(gòu)相似性、相關(guān)系數(shù)這三個(gè)融合評(píng)價(jià)指標(biāo)上明顯優(yōu)于其他傳統(tǒng)融合算法。在處理速度上,本文方法和文獻(xiàn)[19]的融合方式是基于卷積神經(jīng)網(wǎng)絡(luò)并采用CUDN 并行加速計(jì)算,與傳統(tǒng)融合方式相比具有極大優(yōu)勢(shì),本文方法是在文獻(xiàn)[19]的基礎(chǔ)上采用深度可分離卷積網(wǎng)絡(luò)縮減了卷積計(jì)算中參數(shù)的數(shù)量,在保持融合效果的同時(shí)減少了近一半的計(jì)算時(shí)間。因此本文采用的圖像融合的改進(jìn)策略,實(shí)現(xiàn)了快速有效的圖像融合,解決了被樹(shù)木陰影遮蔽的目標(biāo)的檢測(cè)問(wèn)題。

      4.2.3 改進(jìn)特征金字塔效果分析

      本文通過(guò)將FPN 的輸出可視化來(lái)分析改進(jìn)特征金字塔的效果,如圖19所示,第一行為未改進(jìn)輸出的特征映射圖P2~P5,第二行為增加新支路后的FPN特征映射圖N2~N5,第三行為改進(jìn)前后檢測(cè)的實(shí)際效果。通過(guò)對(duì)比發(fā)現(xiàn),N2~N5比P2~P5中包含更豐富的特征信息,特征圖的紋理和邊緣細(xì)節(jié)體現(xiàn)得更豐富準(zhǔn)確,這是由于改進(jìn)后的FPN優(yōu)化并縮短了特征傳播的路徑,使低層位置信息與高層語(yǔ)義特征更好地融合,從而使小目標(biāo)在檢測(cè)過(guò)程中得到更多信息,提升了中、小目標(biāo)的識(shí)別精度,如表6 和圖19 中小車(chē)漏檢現(xiàn)象的消失所示。同時(shí)大目標(biāo)在特征圖中邊緣細(xì)節(jié)更加清晰,使得定位的回歸和掩碼的生成更加精準(zhǔn),如第三行(d)中房子的掩碼質(zhì)量的提升。

      圖19 特征映射圖可視化

      圖20 采用SD-RPN后檢測(cè)結(jié)果

      4.2.4 采用SD-RPN效果分析

      為比較采用SD-RPN結(jié)構(gòu)對(duì)檢測(cè)性能的提升,本文對(duì)大中小三類(lèi)目標(biāo)的檢測(cè)效果進(jìn)行比較,從圖20 所示的實(shí)際檢測(cè)效果可知,采用SD-RPN 后,由于生成的建議區(qū)域質(zhì)量更高,減小了后續(xù)檢測(cè)子網(wǎng)在目標(biāo)的定位回歸難度,使各尺寸目標(biāo)的定位精度得到提高,同時(shí)生成的掩碼質(zhì)量更高,尤其是在小型目標(biāo)的檢測(cè)效果提升尤為明顯。

      從數(shù)值角度分析,若建議區(qū)域與標(biāo)注框的大于0.7,則認(rèn)為該建議被成功召回,將RPN產(chǎn)生排名前300的建議區(qū)域送入后續(xù)網(wǎng)絡(luò),當(dāng)建議區(qū)域的數(shù)量均設(shè)置為300時(shí),本文采用召回率(recall)比較SD-RPN 與原始RPN對(duì)各尺度目標(biāo)預(yù)選能力進(jìn)行比較,召回率公式如式(11)所示:

      其中,TP為預(yù)測(cè)正確的數(shù)量,F(xiàn)N為漏檢的數(shù)量,它主要反映網(wǎng)絡(luò)的查全能力,結(jié)果如表9所示。

      表9 SD-RPN與RPN建議區(qū)域各尺度目標(biāo)的召回率

      從表9 可知,SD-RPN 在處理各分支與該分支所在特征圖滑動(dòng)窗口所對(duì)應(yīng)anchor尺度相匹配的目標(biāo)時(shí),具有較高的召回率,而對(duì)與該分支對(duì)應(yīng)anchor尺度差異較大目標(biāo)的召回率較低。這是SD-RPN 在訓(xùn)練不同分支時(shí),基本只采用了滿足本層尺度的訓(xùn)練樣本。對(duì)于大目標(biāo)的召回,SD-RPN 相比RPN 并沒(méi)有大幅度提升,但對(duì)中、小型目標(biāo),SD-RPN召回率明顯高于RPN,且目標(biāo)尺度越小,二者召回率的差距越明顯,尤其是對(duì)尺度小于36的小目標(biāo)的召回率存在明顯差距(約8%)。主要因?yàn)閷?duì)小目標(biāo)而言,低層特征遠(yuǎn)比高層特征包含的信息更具價(jià)值,因此SD-RPN比在單一特征映射圖生成建議區(qū)域的RPN 具有更加優(yōu)秀的查全能力,可以獲得更精準(zhǔn)的建議區(qū)域,并有效減少漏檢的發(fā)生。

      5 結(jié)束語(yǔ)

      本文從實(shí)際應(yīng)用角度出發(fā),提出改進(jìn)的Mask RCNN 算法用于航空影像目標(biāo)檢測(cè),通過(guò)增加圖像融合網(wǎng)絡(luò),將可見(jiàn)光和紅外光圖像融合進(jìn)行預(yù)處理,解決被遮蔽目標(biāo)檢測(cè)困難的問(wèn)題;采用改進(jìn)特征金字塔結(jié)構(gòu),優(yōu)化特征信息傳播路徑,充分利用各層特征信息,使輸出的特征映射圖包含的信息更加準(zhǔn)確豐富;同時(shí)提出SD-RPN 在多個(gè)卷積層上分別進(jìn)行不同尺寸類(lèi)型目標(biāo)的建議區(qū)域生成,有效地解決了建議區(qū)域位置提取不精準(zhǔn)的問(wèn)題,各尺度目標(biāo)檢測(cè)性能得到提升,尤其是小目標(biāo)的定位精度得到了大幅提高。本文分別從理論和實(shí)驗(yàn)角度闡述驗(yàn)證方法的有效性,實(shí)驗(yàn)結(jié)果表明算法性能提升顯著,但復(fù)雜度有少許增加,后續(xù)將致力于提高目標(biāo)檢測(cè)速率。

      猜你喜歡
      滑動(dòng)尺度卷積
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      一種新型滑動(dòng)叉拉花鍵夾具
      Big Little lies: No One Is Perfect
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      宇宙的尺度
      太空探索(2016年5期)2016-07-12 15:17:55
      滑動(dòng)供電系統(tǒng)在城市軌道交通中的應(yīng)用
      9
      一種基于變換域的滑動(dòng)聚束SAR調(diào)頻率估計(jì)方法
      甘洛县| 定陶县| 邮箱| 海宁市| 元朗区| 台安县| 永胜县| 岐山县| 互助| 墨江| 邵武市| 淅川县| 河东区| 铜梁县| 黄骅市| 仁化县| 盐边县| 海淀区| 景东| 阿拉尔市| 道孚县| 大关县| 佛冈县| 华蓥市| 常山县| 勐海县| 普格县| 德庆县| 长子县| 和平区| 安徽省| 于田县| 维西| 台东市| 深泽县| 阿拉善右旗| 左云县| 和静县| 乐都县| 修武县| 阳江市|