關(guān)鍵詞:深度學(xué)習(xí);遙感圖像;小目標檢測;類別不均衡;焦點損失
中圖分類號:TP391 文獻標志碼:A
0 引言(Introduction)
近年來,遙感圖像處理在城市管理[1]、船舶監(jiān)控[2]和無人機[3]等領(lǐng)域得到廣泛的應(yīng)用。在遙感圖像中,快速且精確地找到目標是一項極具挑戰(zhàn)性的任務(wù)。為了應(yīng)對這一挑戰(zhàn),研究者基于卷積神經(jīng)網(wǎng)絡(luò)提出許多檢測方法[4],不斷推動遙感圖像目標檢測的進步與發(fā)展。田壯壯等[5]以帶轉(zhuǎn)置卷積的ResNet[6]作為CenterNet的骨干網(wǎng)絡(luò),降低了神經(jīng)網(wǎng)絡(luò)的參數(shù)量,加快了目標檢測速度,但檢測準確率不高。王興濤等[7]在YOLOv3 算法中添加了空間通道注意力機制[8],使用K-means++聚類算法確定錨框的尺寸,提高了檢測的速度和精度。劉鑫等[9]提出了VR-CenterNet模型,采用自適應(yīng)激活解決淺層特征融合的高冗余問題,提高了遙感旋轉(zhuǎn)目標的檢測精度。
遙感圖像目標檢測面臨諸多挑戰(zhàn),其中小目標檢測和類別不均衡問題尤為突出。盡管加深神經(jīng)網(wǎng)絡(luò)可以提升模型檢測精度,但又會引發(fā)梯度消失問題。針對這些問題,本文提出細粒度上下文(Fine-Grained Context,F(xiàn)GC)模塊以提取豐富的特征,設(shè)計特征分化結(jié)構(gòu)以突出目標的特征表達,定義新的損失函數(shù)以解決類別不均衡和梯度消失問題。本文將所提模型命名為細粒度特征分化網(wǎng)絡(luò),在RSOD、DOTA-1.0和VisDrone-2019三個公開遙感圖像數(shù)據(jù)集上進行消融實驗和對比實驗,驗證了所提方法的有效性。
1 模型構(gòu)建(Model building)
本文對YOLOv5s(You Only Look Once,version 5,small)模型進行改進,提出了一種細粒度特征分化網(wǎng)絡(luò),用于遙感圖像的目標檢測。細粒度特征分化網(wǎng)絡(luò)的整體架構(gòu)如圖1所示。主干網(wǎng)絡(luò)由多個CBS(Convolution, Batch normalization, SiLUactivation function)、FGC(Fine-Grained Context)、CSP3(CrossStage Partial bottleneck with 3 convolutions)和SPPF(SpatialPyramid Pooling-Fast)模塊組成,用于提取豐富的特征。頸部結(jié)構(gòu)首先利用主干網(wǎng)絡(luò)的特征圖進行特征融合,構(gòu)建了4層特征金字塔[10],然后利用特征分化結(jié)構(gòu)處理特征金字塔的各層特征。在檢測層,利用CBS模塊調(diào)整特征圖的通道數(shù),得到輸出特征圖。輸出特征圖經(jīng)過非極大值抑制處理,輸出檢測結(jié)果。接下來,本文依次詳細介紹相關(guān)改進。
1.1 細粒度上下文模塊
淺層特征圖保留了更多的空間細節(jié)信息,這對檢測小目標至關(guān)重要。然而,淺層特征圖的語義信息較少,使得模型難以區(qū)分小目標與背景,進而影響了檢測精度。為克服上述問題,本文將實例分割領(lǐng)域中的U-Net模型引入目標檢測領(lǐng)域,提出了一種細粒度上下文模塊。實例分割和目標檢測通常被視為不同的任務(wù),前者對每個像素分類,后者對目標進行定位和分類。但是,對于小目標檢測而言,像素級特征的提取顯得尤為重要。細粒度上下文模塊能夠讓淺層特征圖學(xué)習(xí)到檢測小目標所需的關(guān)鍵信息。
細粒度上下文模塊的結(jié)構(gòu)如圖2所示,其中DCBS(DilatedConvolution, Batch normalization, SiLU activation function)模塊由膨脹卷積、批量正則化和SiLU 激活函數(shù)組成,TCBS(Transposed Convolution, Batch normalization, SiLU activationfunction)模塊由轉(zhuǎn)置卷積、批量正則化和SiLU激活函數(shù)組成。最大池化層可以擴大神經(jīng)網(wǎng)絡(luò)的感受野,通過設(shè)置最大池化層的步長可以調(diào)整輸出的尺寸。SE(Squeeze-and-Excitation)注意力[11]可以對特征圖的復(fù)雜通道關(guān)系建模,實現(xiàn)不同通道間的信息交流。SE注意力將特征圖的每一個特征通道壓縮成一個數(shù),計算公式如下:
2.4 實驗結(jié)果分析
本研究在3個公開的遙感圖像數(shù)據(jù)集上進行了消融實驗和對比實驗,以充分證明所提算法的有效性。消融實驗使用YOLOv5s作為基線模型,評估改進算法的性能。對比實驗則是將本研究提出的細粒度特征分化網(wǎng)絡(luò)與經(jīng)典目標檢測模型進行比較,以評估其相對于經(jīng)典目標檢測算法的優(yōu)勢。
2.4.1 改進算法的消融實驗分析
本研究選用YOLOv5s作為基線模型,在3個數(shù)據(jù)集上進行了實驗。通過定量比較,評估細粒度上下文模塊、特征分化結(jié)構(gòu)和自適應(yīng)雙重焦點損失函數(shù)對檢測精度的影響。在RSOD數(shù)據(jù)集上的消融實驗結(jié)果如表2所示。
在DOTA-1.0數(shù)據(jù)集上的消融實驗結(jié)果如表3所示。
對比原YOLOv5s模型和添加細粒度上下文模塊的模型發(fā)現(xiàn),添加細粒度上下文模塊的模型在RSOD、DOTA-1.0和VisDrone-2019上的mAP@0.5分別提高了2.0百分點、2.4百分點和3.1百分點。證明細粒度上下文模塊可以使主干網(wǎng)絡(luò)提取更豐富的特征。特征分化結(jié)構(gòu)使得模型的mAP@0.5在3個數(shù)據(jù)集上分別提高了2.6百分點、3.0百分點和3.6百分點。特征分化結(jié)構(gòu)的設(shè)計旨在幫助模型解決特征融合過程中可能出現(xiàn)的信息雜糅問題。通過這一結(jié)構(gòu),模型能夠更加有效地突出每個檢測特征圖對應(yīng)尺寸的目標特征,使用自適應(yīng)雙重焦點損失函數(shù)使得模型的mAP@0.5在3個數(shù)據(jù)集上分別提高了1.5百分點、1.5百分點和2.7百分點,說明提高困難樣本的損失權(quán)重能夠緩解類別不均衡問題,自適應(yīng)雙重焦點損失函數(shù)是有效的。融合了多種改進的細粒度特征分化網(wǎng)絡(luò)的mAP@0.5最高,在3個數(shù)據(jù)集上分別達到89.1%、68.6%和34.4%,說明這些改進方法具有疊加效果。
2.4.2 目標檢測算法對比實驗分析
分別在3個公開數(shù)據(jù)集上用Res-SSD(Single Shot MultiBoxDetector with Residual structure)、Res-Faster RCNN (FasterRCNN with Residual structure)、YOLOv1(You Only Look Once,version 1)、YOLOv4(You Only Look Once, version 4)、YOLOv5s(You Only Look Once, version 5, small)和提出的細粒度特征分化網(wǎng)絡(luò)進行對比實驗。表5展示了在RSOD數(shù)據(jù)集上的對比實驗結(jié)果,可以看出,細粒度特征分化網(wǎng)絡(luò)的性能表現(xiàn)最佳。
圖4展示了在RSOD數(shù)據(jù)集上,細粒度特征分化網(wǎng)絡(luò)與性能排名第二位的YOLOv4的檢測實例對比。通過觀察可以發(fā)現(xiàn),YOLOv4算法在檢測飛機時,錯誤地將左邊的小尺寸物體識別為飛機,而細粒度特征分化網(wǎng)絡(luò)則能夠更準確地識別目標。
表6展示了在DOTA-1.0數(shù)據(jù)集上的對比實驗結(jié)果,可以看出細粒度特征分化網(wǎng)絡(luò)的性能表現(xiàn)最佳。
圖5中展示了DOTA-1.0數(shù)據(jù)集上細粒度特征分化網(wǎng)絡(luò)和性能排名第二位的Res-Faster RCNN的檢測實例對比。兩種模型都能夠檢測出飛機,但是本文提出的模型對于檢測框的置信度高于Res-Faster RCNN,能更精確地識別遙感圖像中的目標。
表7展示了在VisDrone-2019數(shù)據(jù)集上的對比實驗結(jié)果,可以看出細粒度特征分化網(wǎng)絡(luò)的性能表現(xiàn)最佳。
圖6中展示了在VisDrone-2019數(shù)據(jù)集上,細粒度特征分化網(wǎng)絡(luò)與Res-Faster RCNN的檢測實例對比。從圖6中可以看出,細粒度特征分化網(wǎng)絡(luò)展現(xiàn)出了對小目標的高敏感性,成功地識別出了圖像左下角的小型摩托車。相比之下,Res-Faster RCNN算法則錯誤地將該目標檢測為行人。
分析實驗結(jié)果可知,本文提出的算法在mAP@0.5指標上達到最高,相較于基準模型YOLOv5s,在3個數(shù)據(jù)集上分別提高了3.9百分點、4.2百分點和4.8百分點。與二階段目標檢測模型Res-Faster RCNN相比,mAP@0.5分別提高了5.6百分點、1.8百分點和2.0百分點,顯著提高了遙感圖像目標檢測的精度。
3 結(jié)論(Conclusion)
遙感圖像中存在大量的小目標,并且不同種類目標的數(shù)量存在顯著差異。為了提高遙感圖像目標檢測的精度,本文在YOLOv5s模型的基礎(chǔ)上,創(chuàng)新性地提出了細粒度特征分化網(wǎng)絡(luò)。該網(wǎng)絡(luò)利用細粒度上下文模塊學(xué)習(xí)遙感圖像中的像素級特征,并通過特征分化結(jié)構(gòu)處理這些特征信息,顯著提升了模型性能。同時,定義自適應(yīng)雙重焦點損失函數(shù),自動調(diào)整主要類別和少數(shù)類別的損失權(quán)重,能有效應(yīng)對類別不平衡的問題。在RSOD、DOTA-1.0和VisDrone-2019三個公開數(shù)據(jù)集上,細粒度特征分化網(wǎng)絡(luò)的mAP@0.5分別達到了89.1%、68.6% 和34.4%,比基準模型YOLOv5s分別提高了3.9百分點、4.2百分點和4.8百分點。本文所提出的方法為遙感圖像的目標檢測提供了新的思路,對于環(huán)境監(jiān)測、災(zāi)害預(yù)防和城市規(guī)劃等領(lǐng)域具有重要的實際意義和應(yīng)用價值。
作者簡介:
吳錦達(1996-),男,碩士生。研究領(lǐng)域:深度學(xué)習(xí),圖像處理。
李強(1966-),男,博士,副教授。研究領(lǐng)域:網(wǎng)絡(luò)應(yīng)用,智能控制,嵌入式系統(tǒng)。本文通信作者。