王子健, 王云艷,2*, 武華軒
(1. 湖北工業(yè)大學(xué)電氣與電子工程學(xué)院, 武漢 430068; 2. 襄陽(yáng)湖北工業(yè)大學(xué)產(chǎn)業(yè)研究院, 襄陽(yáng) 441100)
目標(biāo)檢測(cè)是現(xiàn)代化圖像處理任務(wù)中最重要的技術(shù)之一, 其中基于遙感圖像的目標(biāo)檢測(cè)技術(shù)能獲取到大量的空間和地理等高價(jià)值信息, 是目標(biāo)跟蹤及圖像理解等后續(xù)任務(wù)的根基.遙感圖像目標(biāo)識(shí)別的對(duì)象一般為航拍的飛機(jī)、汽車、輪船、橋梁或操場(chǎng)等不同種類的物體, 其中存在小目標(biāo)[1]、多尺度目標(biāo)[2]、不規(guī)則目標(biāo)[3]和分布密集目標(biāo)[4]等特殊情形堆疊的狀況, 不利于檢測(cè)器快速準(zhǔn)確地分類與定位.近年來(lái), 眾多針對(duì)遙感圖像的目標(biāo)檢測(cè)模型被提出.高慧等[5]使用Res2Net改善Darknet主干網(wǎng)絡(luò),克服了因感受野受限導(dǎo)致的特征丟失問(wèn)題,但Res2Block的引入大幅增加了網(wǎng)絡(luò)參數(shù)且降低了檢測(cè)速度; Yan等[6]基于全局和局部信息的感受場(chǎng)對(duì)小目標(biāo)的不同特征進(jìn)行細(xì)致化區(qū)分,并引入注意力分支增強(qiáng)關(guān)鍵特征信息;李航等[7]在YOLO網(wǎng)絡(luò)中引入基于深度可分離卷積的DenseNet特征提取模塊,增強(qiáng)了小目標(biāo)的特征傳遞,但因DenseNet繁瑣的網(wǎng)絡(luò)結(jié)構(gòu)而難以被應(yīng)用于實(shí)際場(chǎng)景中;化嫣然等[8]在YOLO算法中引入空洞卷積,雖增大了目標(biāo)的感受野并提高了網(wǎng)絡(luò)對(duì)遙感大目標(biāo)的分割能力,但空洞卷積的間隔采樣不利于小目標(biāo)特征的提取.經(jīng)過(guò)多代YOLO網(wǎng)絡(luò)的不斷完善,YOLOX雖然獲得了卓越的檢測(cè)效果,但是仍然存在如下缺陷:檢測(cè)密集的小目標(biāo)時(shí),因特征信息少、邊緣重疊和遮擋等問(wèn)題導(dǎo)致漏檢;檢測(cè)不規(guī)則且結(jié)構(gòu)復(fù)雜的大目標(biāo)時(shí),因整體特征信息獲取不完全而導(dǎo)致精度較低[9-10].本文擬在YOLOX的基礎(chǔ)上引入基于自適應(yīng)平均池化金字塔的注意力機(jī)制,增強(qiáng)網(wǎng)絡(luò)對(duì)敏感區(qū)域的學(xué)習(xí)能力,并抑制遙感圖像中復(fù)雜背景信息對(duì)檢測(cè)的干擾;在主干網(wǎng)絡(luò)中新增一個(gè)淺層特征輸出,提升網(wǎng)絡(luò)對(duì)小目標(biāo)的檢測(cè)性能;在主干網(wǎng)絡(luò)的深層,利用卷積核錨點(diǎn)優(yōu)化的混合空洞卷積替換殘差塊內(nèi)的標(biāo)準(zhǔn)卷積擴(kuò)大特征的感受野,既可增強(qiáng)上下文間的聯(lián)系,又能借助拉普拉斯算子增強(qiáng)網(wǎng)絡(luò)對(duì)目標(biāo)邊緣的識(shí)別能力;在特征融合網(wǎng)絡(luò)中引入跳躍連接并增添鏈接節(jié)點(diǎn)數(shù)構(gòu)建一個(gè)加強(qiáng)的特征融合網(wǎng)絡(luò),優(yōu)化不同尺度特征的融合能力,保留更多的小目標(biāo)細(xì)節(jié)信息.
本文算法以如圖1所示的YOLOX為基準(zhǔn)模型.YOLOX是在YOLOv3的基礎(chǔ)上通過(guò)增添Focus模塊、引入路徑聚合網(wǎng)絡(luò)(path aggregation network, PANet)、采用Mosaic數(shù)據(jù)增強(qiáng)算法和SimOTA標(biāo)簽匹配策略以及添加解耦頭等措施加以改進(jìn)形成.YOLOX整體網(wǎng)絡(luò)可分為輸入端、主干網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)以及檢測(cè)頭等4個(gè)部分.
輸入端: 利用Resize操作將不同尺寸的圖像轉(zhuǎn)換為固定大小的輸入, 并且為了豐富數(shù)據(jù)集, 引入Mosaic數(shù)據(jù)增強(qiáng)對(duì)輸入圖像進(jìn)行自適應(yīng)地自由拼接.
主干網(wǎng)絡(luò): 由Focus模塊、卷積_歸一化_激活函數(shù)(Conv_BN_SiLU, CBS)模塊和若干殘差塊(ResBlock_body)構(gòu)成.Focus模塊在特征圖像中每隔一個(gè)像素點(diǎn)取一個(gè)值, 將一幅特征圖像拆分成多個(gè)通道的小特征圖像, 再對(duì)其進(jìn)行堆疊使原特征圖像內(nèi)的高寬信息轉(zhuǎn)換為通道信息.CBS模塊本質(zhì)上類似于多個(gè)不同卷積核的組合, 對(duì)特征進(jìn)行處理得到多個(gè)輸出響應(yīng).殘差塊主要用于提取圖像中的語(yǔ)義信息, 在加深網(wǎng)絡(luò)深度的同時(shí)解決梯度消失的問(wèn)題.主干網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行特征提取, 為后續(xù)的特征融合以及最終的分類與回歸計(jì)算服務(wù).
特征融合網(wǎng)絡(luò): 被提取出的特征經(jīng)過(guò)特征融合網(wǎng)絡(luò)可以獲取兼具淺層紋理與深層語(yǔ)義信息的特征輸出.不同于YOLOv3中所使用的單向上采樣多尺度融合結(jié)構(gòu), PANet通過(guò)設(shè)計(jì)一種自底而上和自頂而下的雙向融合網(wǎng)絡(luò), 可提升對(duì)小目標(biāo)的檢測(cè)性能.
檢測(cè)頭: 目標(biāo)檢測(cè)任務(wù)中分類與回歸問(wèn)題存在一定的沖突[11], YOLOX引入解耦頭將分類與定位分為2步計(jì)算, 檢測(cè)精度得以提升, 但其代價(jià)是增添少量參數(shù).預(yù)測(cè)時(shí), 首先計(jì)算得到類別與邊界框回歸的損失參數(shù), 然后根據(jù)標(biāo)簽分配所得匹配類別、候選框掩碼和交并比計(jì)算圖像內(nèi)物體屬于真實(shí)類別的概率, 最后利用極大值抑制算法篩選出目標(biāo)的檢測(cè)框.
考慮到遙感圖像內(nèi)復(fù)雜背景信息對(duì)檢測(cè)的干擾, 本文設(shè)計(jì)了一種基于卷積注意力模塊 (convolutional block attention module, CBAM)并融合自適應(yīng)平均池化的改進(jìn)注意力模塊(convolutional block spatial net, CBSPNet), 以有效抑制復(fù)雜背景信息所產(chǎn)生的負(fù)面影響, 并提高網(wǎng)絡(luò)對(duì)待檢測(cè)目標(biāo)的專注度.
CBAM注意力機(jī)制主要利用全局最大池化(global max pooling, GMP)和全局平均池化(global average pooling, GAP)來(lái)構(gòu)建上下文間的關(guān)系.然而, 在多類別的遙感目標(biāo)檢測(cè)任務(wù)中, GMP與GAP會(huì)過(guò)濾大量小目標(biāo)特征信息, 導(dǎo)致小目標(biāo)檢測(cè)精度欠佳; 因此, 本文在CBSPNet的通道注意力模塊使用1×1、2×2和4×4自適應(yīng)平均池化(adaptive average pooling, AAP)構(gòu)建一個(gè)多尺度的金字塔池化網(wǎng)絡(luò), 獲取上下文關(guān)系并得到3個(gè)不同感受野的一維矢量, 使得每個(gè)像素點(diǎn)在池化后都能反饋多層次的淺層信息.選擇ReLU函數(shù)與2個(gè)全連接層構(gòu)建感知網(wǎng)絡(luò),捕獲非線性的跨通道交互信息, 并得到一組共享權(quán)重ω0和ω1.進(jìn)一步地, 利用Sigmoid函數(shù)進(jìn)行歸一化處理得到權(quán)重σ, 對(duì)通道模塊特征與原輸入特征進(jìn)行張量加和操作, 得到空間注意力模塊所需要的輸入, 則通道注意力模塊的輸出
(1)
(2)
式中f3×3表示卷積操作, 最終匯合無(wú)操作邊的特征生成輸出特征圖像.
CBSPNet在通道注意力模塊對(duì)不同通道的特征圖像賦予相應(yīng)的權(quán)重, 在空間注意力模塊對(duì)特征圖像內(nèi)不同區(qū)域賦予相應(yīng)的權(quán)重, 可有效提高檢測(cè)的效率與精度.CBSPNet注意力模塊的結(jié)構(gòu)如圖2所示, 將該模塊插入主干網(wǎng)絡(luò)深層的殘差塊內(nèi), 能更好地保留局部關(guān)鍵特征信息與整體特征分布間的關(guān)系, 增強(qiáng)網(wǎng)絡(luò)對(duì)前景信息的識(shí)別, 同時(shí)對(duì)易被忽略的小目標(biāo)細(xì)節(jié)特征起到一定的保護(hù)作用.
圖2 CBSPNet注意力網(wǎng)絡(luò)結(jié)構(gòu)圖
提取遙感目標(biāo)特征時(shí), 圖像經(jīng)多層卷積和池化操作后像素點(diǎn)數(shù)目會(huì)迅速減少, 即使在后續(xù)特征融合網(wǎng)絡(luò)中進(jìn)行上采樣也無(wú)法重建, 從而導(dǎo)致大量細(xì)節(jié)信息丟失.此外, 遙感目標(biāo)的幾何形狀內(nèi)存在噪聲干擾, 使用標(biāo)準(zhǔn)卷積會(huì)等效地提取目標(biāo)特征和復(fù)雜背景信息, 這將影響目標(biāo)圖像的分類和定位.故本文引入空洞卷積[12],通過(guò)增大深層目標(biāo)像素點(diǎn)的感受野強(qiáng)化深層特征對(duì)淺層特征的映射作用, 在一定程度上削弱了噪聲及背景對(duì)網(wǎng)絡(luò)學(xué)習(xí)的干擾.感受野
(3)
式中Vi-1為前一層像素點(diǎn)的感受野大小,ki為第i層卷積核大小,sj為第j層卷積的步長(zhǎng).
空洞卷積主要是采用在標(biāo)準(zhǔn)卷積核內(nèi)等間隔填充零的方式增大ki來(lái)擴(kuò)大像素點(diǎn)的感受野, 從而在深層特征中獲取更多淺層的語(yǔ)義信息.然而, 多個(gè)相同擴(kuò)張率的空洞卷積會(huì)使特征圖像產(chǎn)生嚴(yán)重的網(wǎng)格效應(yīng), 致使大量零點(diǎn)區(qū)域內(nèi)的特征信息丟失, 故本文利用并聯(lián)的混合空洞卷積(hybrid dilated convolution, HDC)金字塔結(jié)構(gòu)提取特征信息, 以有效降低網(wǎng)格效應(yīng)的不利影響.為滿足HDC變體卷積擴(kuò)張率的公因數(shù)只能為1的要求, 設(shè)計(jì)擴(kuò)張率依次為1、2、3、5的并聯(lián)混合空洞卷積組替換原始?xì)埐顗K內(nèi)的3×3標(biāo)準(zhǔn)卷積,其感受野大小依次為3×3、5×5、7×7、11×11.HDC不僅能平衡網(wǎng)絡(luò)對(duì)小目標(biāo)檢測(cè)的敏感度,而且可極大程度地削弱背景信息對(duì)分類的影響.
空洞卷積核錨點(diǎn)的特征提取能力因受擴(kuò)張率的影響(擴(kuò)張率越大, 則錨點(diǎn)權(quán)重越小), 會(huì)產(chǎn)生特征圖像偏移的現(xiàn)象, 從而影響模型檢測(cè)目標(biāo)邊緣區(qū)域的效果.錨點(diǎn)權(quán)重
(4)
式中(x,y)為錨點(diǎn)坐標(biāo)位置,C為坐標(biāo)的標(biāo)準(zhǔn)差,D為卷積核尺寸.據(jù)式(4)可知, 擴(kuò)張率為5的空洞卷積,其錨點(diǎn)權(quán)重僅為0.13, 表明其提取輪廓特征的能力較差.因此, 為了獲得較大感受野的同時(shí)能夠提高卷積核錨點(diǎn)的權(quán)重, 本文引入拉普拉斯算子, 將原卷積核中心及其鄰域替換為拉普拉斯算子, 利用鄰域點(diǎn)協(xié)同錨點(diǎn)一同進(jìn)行特征提取的方式校正特征圖像偏移的問(wèn)題, 以提高對(duì)目標(biāo)邊緣輪廓的檢測(cè)性能.錨點(diǎn)優(yōu)化的混合空洞卷積(Laplace hybird dilated convolution, L-HDC)結(jié)構(gòu)如圖3所示.
圖3 L-HDC結(jié)構(gòu)圖
本文在標(biāo)準(zhǔn)殘差單元內(nèi)嵌入優(yōu)化的混合空洞卷積與注意力機(jī)制, 提高殘差塊對(duì)密集小目標(biāo)和不規(guī)則大目標(biāo)的學(xué)習(xí)能力, 改進(jìn)后殘差單元(dilated convolution-ResBlock, DC-ResBlock)的結(jié)構(gòu)如圖4所示.對(duì)輸入特征進(jìn)行1×1卷積降維后, 利用混合空洞卷積L-HDC處理若干通道的特征圖像得到不同感受野的輸出, 增強(qiáng)對(duì)多尺度目標(biāo)的學(xué)習(xí)能力, 同時(shí)創(chuàng)造一條插入CBSPNet注意力的支路, 提高網(wǎng)絡(luò)對(duì)關(guān)鍵信息的學(xué)習(xí)能力, 改善深層特征層內(nèi)小目標(biāo)像素點(diǎn)丟失的問(wèn)題.3條通道構(gòu)建出一個(gè)輸出多尺度感受野的網(wǎng)絡(luò)結(jié)構(gòu), 可有效提高信息收益,最終匯合得到輸出特征.
為了保留淺層特征的完整性, 本文僅替換主干網(wǎng)絡(luò)內(nèi)尺度為40×40和20×20的殘差模塊, 這樣不僅能夠?qū)\層特征信息進(jìn)行完整遍歷, 而且可避免空洞卷積核內(nèi)零點(diǎn)的影響.
為了增強(qiáng)不同尺度特征層間的信息融合, 在原特征金字塔網(wǎng)絡(luò)(feature pyramid network, FPN)結(jié)構(gòu)內(nèi)增添連接節(jié)點(diǎn)數(shù),構(gòu)建一個(gè)加強(qiáng)特征提取網(wǎng)絡(luò)Bi-FPN.在Bi-FPN每個(gè)輸入節(jié)點(diǎn)額外設(shè)置權(quán)重,衡量不同輸入對(duì)模型訓(xùn)練的重要性, 利用類似Softmax的快速歸一化融合算法, 得到輸出特征
(5)
式中Ij為網(wǎng)絡(luò)層中第j個(gè)神經(jīng)元的輸入特征,h為網(wǎng)絡(luò)層數(shù),g為某層內(nèi)神經(jīng)元節(jié)點(diǎn)數(shù), 第i層的額外權(quán)重ωi一般通過(guò)ReLU函數(shù)穩(wěn)定于[0,1],ε=0.000 1為保持權(quán)重值穩(wěn)定的常量.
由于主干網(wǎng)絡(luò)中不同尺度的輸出之間存在一定的差異,淺層特征與深層特征對(duì)于不同類別目標(biāo)的學(xué)習(xí)效果也不同, 且待檢測(cè)小目標(biāo)的淺層特征層中具有更多的細(xì)節(jié)信息, 所以本文將尺度為160×160的特征也作為輸出, 故主干網(wǎng)絡(luò)共提取到4個(gè)不同尺度的特征輸出.依據(jù)各尺度對(duì)輸出的貢獻(xiàn)賦予其相應(yīng)的權(quán)重, 使得網(wǎng)絡(luò)關(guān)注更重要的層次.相較于簡(jiǎn)單雙向融合的PANet, 基于搜索結(jié)構(gòu)的Bi-FPN不僅能夠針對(duì)不同輸入控制FPN的大小, 而且可加強(qiáng)多尺度特征間的融合.
本文改進(jìn)的R-YOLOX網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示.輸入圖像首先經(jīng)過(guò)標(biāo)準(zhǔn)殘差塊和改進(jìn)殘差塊處理得到包含更多細(xì)節(jié)信息和整體信息的輸出特征圖像, 然后通過(guò)Bi-FPN進(jìn)行多向信息融合實(shí)現(xiàn)深層與淺層特征間的信息互補(bǔ), 最后使用檢測(cè)頭對(duì)Bi-FPN的輸出進(jìn)行解耦得到類別和位置信息.
利用NVIDIA RTX3060 12 GB GPU訓(xùn)練和測(cè)試模型, 操作系統(tǒng)為Windows 10, CUDA的版本為11.0, cuDNN的版本為8.0.5, 深度學(xué)習(xí)框架PyTorch的版本為1.7.1.實(shí)驗(yàn)使用RSOD遙感數(shù)據(jù)集(https://gitcode.net/mirrors/rsia-liesmars-whu/rsod-dataset-?utm_source=csdn_github_accelerator)進(jìn)行測(cè)試. 數(shù)據(jù)集中包含446幅aircraft類航拍圖像共4 993個(gè)飛機(jī)目標(biāo), 165幅oil tank類航拍圖像共1 586個(gè)目標(biāo), 176幅overpass類航拍圖像共180個(gè)目標(biāo), 以及189幅playground類航拍圖像共191個(gè)目標(biāo).
使用CIoU_Loss損失函數(shù)與SGDM(stochastic gradient descent with momentum)優(yōu)化器進(jìn)行優(yōu)化訓(xùn)練; 設(shè)定前80%的訓(xùn)練輪次內(nèi)對(duì)輸入圖像使用Mosaic增強(qiáng), 繼Mosaic增強(qiáng)后有50%的概率再使用Mixup數(shù)據(jù)增強(qiáng); 采用余鉉退火學(xué)習(xí)法, 設(shè)定最大學(xué)習(xí)率0.01, 最小學(xué)習(xí)率0.000 1; 設(shè)置50個(gè)訓(xùn)練輪次, 前20輪訓(xùn)練使用凍結(jié)訓(xùn)練并設(shè)置訓(xùn)練批次為8, 后30輪訓(xùn)練使用解凍訓(xùn)練并設(shè)置訓(xùn)練批次為4, 置信度閾值設(shè)為0.5.
本文采用平均精度(average precision, AP)、檢測(cè)速度(frames per sceond, FPS)、平均精度均值(mean average precision, mAP)作為評(píng)價(jià)指標(biāo), 計(jì)算式如下:
(6)
(7)
(8)
式中P為單類檢測(cè)精度,R為單類預(yù)測(cè)正樣本占實(shí)際正樣本的比例,u為待檢測(cè)物體的類別,n為所有目標(biāo)的類別數(shù),N為被檢測(cè)圖像數(shù)目,t為檢測(cè)時(shí)間.
為體現(xiàn)改進(jìn)網(wǎng)絡(luò)中引入注意力機(jī)制的有效性, 選取同一幅圖像進(jìn)行熱力圖可視化分析, 結(jié)果如圖6所示.由圖6可知: YOLOX網(wǎng)絡(luò)對(duì)目標(biāo)特征的關(guān)注區(qū)域不夠充分,尤其是在針對(duì)較小的飛機(jī)目標(biāo)時(shí)關(guān)注區(qū)域極小, 導(dǎo)致網(wǎng)絡(luò)易漏檢該類目標(biāo); 改進(jìn)的R-YOLOX網(wǎng)絡(luò)不僅擴(kuò)大了對(duì)較小飛機(jī)目標(biāo)的關(guān)注區(qū)域, 而且增強(qiáng)了對(duì)各尺寸飛機(jī)目標(biāo)的關(guān)注能力, 有效提高了網(wǎng)絡(luò)的學(xué)習(xí)能力.
圖6 引入CBSP注意力機(jī)制前后的可視化對(duì)比結(jié)果圖
在遙感圖像中存在大量密集分布的小目標(biāo)、部分遮擋的目標(biāo)及形狀多變的大目標(biāo), 對(duì)這些目標(biāo)的檢測(cè)效果是評(píng)價(jià)遙感檢測(cè)模型的重要參考指標(biāo).改進(jìn)前后YOLOX模型對(duì)密集目標(biāo)、遮擋目標(biāo)及結(jié)構(gòu)復(fù)雜目標(biāo)的檢測(cè)結(jié)果如圖7所示.由圖7可知: YOLOX模型對(duì)密集目標(biāo)及部分遮擋目標(biāo)檢測(cè)時(shí)易出現(xiàn)漏檢, 而R-YOLOX模型對(duì)此類漏檢目標(biāo)具有較強(qiáng)的檢測(cè)性能; YOLOX模型對(duì)結(jié)構(gòu)復(fù)雜目標(biāo)進(jìn)行識(shí)別時(shí)得到的預(yù)測(cè)框置信度為0.79, 改進(jìn)后模型的預(yù)測(cè)框置信度為0.85, 表明R-YOLOX模型對(duì)該類目標(biāo)的預(yù)測(cè)效果更為精確.
圖7 RSOD數(shù)據(jù)集檢測(cè)效果對(duì)比
為驗(yàn)證本文改進(jìn)算法的有效性, 選取不同的模型進(jìn)行對(duì)比測(cè)試, 在評(píng)估FPS時(shí)從測(cè)試集隨機(jī)選取100幅圖像進(jìn)行速度測(cè)試, 改進(jìn)前后模型對(duì)各類目標(biāo)的檢測(cè)結(jié)果如表1所示.由表1可知: 相較于其他算法, 本文R-YOLOX算法對(duì)各類目標(biāo)的檢測(cè)精度均有一定提升, 優(yōu)化了對(duì)遙感密集小目標(biāo)的檢測(cè), 尤其是針對(duì)立交橋等結(jié)構(gòu)復(fù)雜的大目標(biāo)的檢測(cè)精度明顯提升; R-YOLOX的mAP達(dá)96.74%, 綜合性能領(lǐng)先于其他目標(biāo)檢測(cè)模型; R-YOLOX網(wǎng)絡(luò)的參數(shù)量少, 檢測(cè)速度快; 在遙感多類別目標(biāo)檢測(cè)任務(wù)中, 采用R-YOLOX算法檢測(cè)100幅圖像耗時(shí)3.23 s, YOLOX耗時(shí)2.86 s, 檢測(cè)速率高于30幀·s-1, 可滿足實(shí)時(shí)檢測(cè)的要求.
表1 不同模型的測(cè)試結(jié)果
為檢驗(yàn)本文算法在多場(chǎng)景下的可靠性, 在VOC2007數(shù)據(jù)集上對(duì)YOLOX改進(jìn)前后的模型進(jìn)行測(cè)試.VOC2007數(shù)據(jù)集共含20個(gè)類別、5 011幅訓(xùn)練圖像以及4 952幅測(cè)試圖像, 測(cè)試結(jié)果如表2所示.由表2可知: 改進(jìn)后R-YOLOX模型mAP達(dá)77.30%,比YOLOX模型的75.65%提升了1.65%; 在大部分不同類別目標(biāo)的檢測(cè)中, 本文算法都取得更好的檢測(cè)效果,其中對(duì)類似“鳥(niǎo)”等小目標(biāo)與類似“自行車”等結(jié)構(gòu)特殊目標(biāo)的檢測(cè)精度的提升尤為明顯;對(duì)“椅子”“摩托車”“沙發(fā)”“監(jiān)視器”等4類目標(biāo)的檢測(cè)精度略低于YOLOX模型, 其原因是本文的預(yù)測(cè)訓(xùn)練模型中包含這幾類目標(biāo)的圖像較少, 導(dǎo)致對(duì)其學(xué)習(xí)不夠充分.綜上,本文R-YOLOX算法在多場(chǎng)景下的檢測(cè)效果好,魯棒性較強(qiáng).
表2 VOC2007測(cè)試的AP值
本文針對(duì)遙感目標(biāo)檢測(cè)中存在的小目標(biāo)漏檢及復(fù)雜目標(biāo)檢測(cè)效果不佳的問(wèn)題, 基于YOLOX設(shè)計(jì)了一種融合注意力機(jī)制與混合空洞卷積的檢測(cè)模型.實(shí)驗(yàn)驗(yàn)證了該算法對(duì)密集小目標(biāo)及結(jié)構(gòu)復(fù)雜的大目標(biāo)均具有良好的檢測(cè)效果,且檢測(cè)速率達(dá)31幀·s-1, 滿足實(shí)時(shí)檢測(cè)的要求.