基于深度學(xué)習(xí)的遙感圖像目標檢測吳錦達

2024-10-10 00:00:00李強

軟件工程 2024年10期

關(guān)鍵詞：深度學(xué)習(xí);遙感圖像;小目標檢測;類別不均衡;焦點損失

中圖分類號：TP391 文獻標志碼：A

0 引言（Introduction）

近年來，遙感圖像處理在城市管理[1]、船舶監(jiān)控[2]和無人機[3]等領(lǐng)域得到廣泛的應(yīng)用。在遙感圖像中，快速且精確地找到目標是一項極具挑戰(zhàn)性的任務(wù)。為了應(yīng)對這一挑戰(zhàn)，研究者基于卷積神經(jīng)網(wǎng)絡(luò)提出許多檢測方法[4]，不斷推動遙感圖像目標檢測的進步與發(fā)展。田壯壯等[5]以帶轉(zhuǎn)置卷積的ResNet[6]作為CenterNet的骨干網(wǎng)絡(luò)，降低了神經(jīng)網(wǎng)絡(luò)的參數(shù)量，加快了目標檢測速度，但檢測準確率不高。王興濤等[7]在YOLOv3 算法中添加了空間通道注意力機制[8]，使用K-means++聚類算法確定錨框的尺寸，提高了檢測的速度和精度。劉鑫等[9]提出了VR-CenterNet模型，采用自適應(yīng)激活解決淺層特征融合的高冗余問題，提高了遙感旋轉(zhuǎn)目標的檢測精度。

遙感圖像目標檢測面臨諸多挑戰(zhàn)，其中小目標檢測和類別不均衡問題尤為突出。盡管加深神經(jīng)網(wǎng)絡(luò)可以提升模型檢測精度，但又會引發(fā)梯度消失問題。針對這些問題，本文提出細粒度上下文（Fine-Grained Context，F(xiàn)GC）模塊以提取豐富的特征，設(shè)計特征分化結(jié)構(gòu)以突出目標的特征表達，定義新的損失函數(shù)以解決類別不均衡和梯度消失問題。本文將所提模型命名為細粒度特征分化網(wǎng)絡(luò)，在RSOD、DOTA-1.0和VisDrone-2019三個公開遙感圖像數(shù)據(jù)集上進行消融實驗和對比實驗，驗證了所提方法的有效性。

1 模型構(gòu)建（Model building）

本文對YOLOv5s（You Only Look Once，version 5，small）模型進行改進，提出了一種細粒度特征分化網(wǎng)絡(luò)，用于遙感圖像的目標檢測。細粒度特征分化網(wǎng)絡(luò)的整體架構(gòu)如圖1所示。主干網(wǎng)絡(luò)由多個CBS（Convolution， Batch normalization， SiLUactivation function）、FGC（Fine-Grained Context）、CSP3（CrossStage Partial bottleneck with 3 convolutions）和SPPF（SpatialPyramid Pooling-Fast）模塊組成，用于提取豐富的特征。頸部結(jié)構(gòu)首先利用主干網(wǎng)絡(luò)的特征圖進行特征融合，構(gòu)建了4層特征金字塔[10]，然后利用特征分化結(jié)構(gòu)處理特征金字塔的各層特征。在檢測層，利用CBS模塊調(diào)整特征圖的通道數(shù)，得到輸出特征圖。輸出特征圖經(jīng)過非極大值抑制處理，輸出檢測結(jié)果。接下來，本文依次詳細介紹相關(guān)改進。

1.1 細粒度上下文模塊

淺層特征圖保留了更多的空間細節(jié)信息，這對檢測小目標至關(guān)重要。然而，淺層特征圖的語義信息較少，使得模型難以區(qū)分小目標與背景，進而影響了檢測精度。為克服上述問題，本文將實例分割領(lǐng)域中的U-Net模型引入目標檢測領(lǐng)域，提出了一種細粒度上下文模塊。實例分割和目標檢測通常被視為不同的任務(wù)，前者對每個像素分類，后者對目標進行定位和分類。但是，對于小目標檢測而言，像素級特征的提取顯得尤為重要。細粒度上下文模塊能夠讓淺層特征圖學(xué)習(xí)到檢測小目標所需的關(guān)鍵信息。

細粒度上下文模塊的結(jié)構(gòu)如圖2所示，其中DCBS（DilatedConvolution， Batch normalization， SiLU activation function）模塊由膨脹卷積、批量正則化和SiLU 激活函數(shù)組成，TCBS（Transposed Convolution， Batch normalization， SiLU activationfunction）模塊由轉(zhuǎn)置卷積、批量正則化和SiLU激活函數(shù)組成。最大池化層可以擴大神經(jīng)網(wǎng)絡(luò)的感受野，通過設(shè)置最大池化層的步長可以調(diào)整輸出的尺寸。SE（Squeeze-and-Excitation）注意力[11]可以對特征圖的復(fù)雜通道關(guān)系建模，實現(xiàn)不同通道間的信息交流。SE注意力將特征圖的每一個特征通道壓縮成一個數(shù)，計算公式如下：

2.4 實驗結(jié)果分析

本研究在3個公開的遙感圖像數(shù)據(jù)集上進行了消融實驗和對比實驗，以充分證明所提算法的有效性。消融實驗使用YOLOv5s作為基線模型，評估改進算法的性能。對比實驗則是將本研究提出的細粒度特征分化網(wǎng)絡(luò)與經(jīng)典目標檢測模型進行比較，以評估其相對于經(jīng)典目標檢測算法的優(yōu)勢。

2.4.1 改進算法的消融實驗分析

本研究選用YOLOv5s作為基線模型，在3個數(shù)據(jù)集上進行了實驗。通過定量比較，評估細粒度上下文模塊、特征分化結(jié)構(gòu)和自適應(yīng)雙重焦點損失函數(shù)對檢測精度的影響。在RSOD數(shù)據(jù)集上的消融實驗結(jié)果如表2所示。

在DOTA-1.0數(shù)據(jù)集上的消融實驗結(jié)果如表3所示。

對比原YOLOv5s模型和添加細粒度上下文模塊的模型發(fā)現(xiàn)，添加細粒度上下文模塊的模型在RSOD、DOTA-1.0和VisDrone-2019上的mAP@0.5分別提高了2.0百分點、2.4百分點和3.1百分點。證明細粒度上下文模塊可以使主干網(wǎng)絡(luò)提取更豐富的特征。特征分化結(jié)構(gòu)使得模型的mAP@0.5在3個數(shù)據(jù)集上分別提高了2.6百分點、3.0百分點和3.6百分點。特征分化結(jié)構(gòu)的設(shè)計旨在幫助模型解決特征融合過程中可能出現(xiàn)的信息雜糅問題。通過這一結(jié)構(gòu)，模型能夠更加有效地突出每個檢測特征圖對應(yīng)尺寸的目標特征，使用自適應(yīng)雙重焦點損失函數(shù)使得模型的mAP@0.5在3個數(shù)據(jù)集上分別提高了1.5百分點、1.5百分點和2.7百分點，說明提高困難樣本的損失權(quán)重能夠緩解類別不均衡問題，自適應(yīng)雙重焦點損失函數(shù)是有效的。融合了多種改進的細粒度特征分化網(wǎng)絡(luò)的mAP@0.5最高，在3個數(shù)據(jù)集上分別達到89.1%、68.6%和34.4%，說明這些改進方法具有疊加效果。

2.4.2 目標檢測算法對比實驗分析

分別在3個公開數(shù)據(jù)集上用Res-SSD（Single Shot MultiBoxDetector with Residual structure）、Res-Faster RCNN （FasterRCNN with Residual structure）、YOLOv1（You Only Look Once，version 1）、YOLOv4（You Only Look Once， version 4）、YOLOv5s（You Only Look Once， version 5， small）和提出的細粒度特征分化網(wǎng)絡(luò)進行對比實驗。表5展示了在RSOD數(shù)據(jù)集上的對比實驗結(jié)果，可以看出，細粒度特征分化網(wǎng)絡(luò)的性能表現(xiàn)最佳。

圖4展示了在RSOD數(shù)據(jù)集上，細粒度特征分化網(wǎng)絡(luò)與性能排名第二位的YOLOv4的檢測實例對比。通過觀察可以發(fā)現(xiàn)，YOLOv4算法在檢測飛機時，錯誤地將左邊的小尺寸物體識別為飛機，而細粒度特征分化網(wǎng)絡(luò)則能夠更準確地識別目標。

表6展示了在DOTA-1.0數(shù)據(jù)集上的對比實驗結(jié)果，可以看出細粒度特征分化網(wǎng)絡(luò)的性能表現(xiàn)最佳。

圖5中展示了DOTA-1.0數(shù)據(jù)集上細粒度特征分化網(wǎng)絡(luò)和性能排名第二位的Res-Faster RCNN的檢測實例對比。兩種模型都能夠檢測出飛機，但是本文提出的模型對于檢測框的置信度高于Res-Faster RCNN，能更精確地識別遙感圖像中的目標。

表7展示了在VisDrone-2019數(shù)據(jù)集上的對比實驗結(jié)果，可以看出細粒度特征分化網(wǎng)絡(luò)的性能表現(xiàn)最佳。

圖6中展示了在VisDrone-2019數(shù)據(jù)集上，細粒度特征分化網(wǎng)絡(luò)與Res-Faster RCNN的檢測實例對比。從圖6中可以看出，細粒度特征分化網(wǎng)絡(luò)展現(xiàn)出了對小目標的高敏感性，成功地識別出了圖像左下角的小型摩托車。相比之下，Res-Faster RCNN算法則錯誤地將該目標檢測為行人。

分析實驗結(jié)果可知，本文提出的算法在mAP@0.5指標上達到最高，相較于基準模型YOLOv5s，在3個數(shù)據(jù)集上分別提高了3.9百分點、4.2百分點和4.8百分點。與二階段目標檢測模型Res-Faster RCNN相比，mAP@0.5分別提高了5.6百分點、1.8百分點和2.0百分點，顯著提高了遙感圖像目標檢測的精度。

3 結(jié)論（Conclusion）

遙感圖像中存在大量的小目標，并且不同種類目標的數(shù)量存在顯著差異。為了提高遙感圖像目標檢測的精度，本文在YOLOv5s模型的基礎(chǔ)上，創(chuàng)新性地提出了細粒度特征分化網(wǎng)絡(luò)。該網(wǎng)絡(luò)利用細粒度上下文模塊學(xué)習(xí)遙感圖像中的像素級特征，并通過特征分化結(jié)構(gòu)處理這些特征信息，顯著提升了模型性能。同時，定義自適應(yīng)雙重焦點損失函數(shù)，自動調(diào)整主要類別和少數(shù)類別的損失權(quán)重，能有效應(yīng)對類別不平衡的問題。在RSOD、DOTA-1.0和VisDrone-2019三個公開數(shù)據(jù)集上，細粒度特征分化網(wǎng)絡(luò)的mAP@0.5分別達到了89.1%、68.6% 和34.4%，比基準模型YOLOv5s分別提高了3.9百分點、4.2百分點和4.8百分點。本文所提出的方法為遙感圖像的目標檢測提供了新的思路，對于環(huán)境監(jiān)測、災(zāi)害預(yù)防和城市規(guī)劃等領(lǐng)域具有重要的實際意義和應(yīng)用價值。

作者簡介：

吳錦達（1996-），男，碩士生。研究領(lǐng)域：深度學(xué)習(xí)，圖像處理。

李強（1966-），男，博士，副教授。研究領(lǐng)域：網(wǎng)絡(luò)應(yīng)用，智能控制，嵌入式系統(tǒng)。本文通信作者。